--- title: "Preparación de datos: Ejercicios de Python" author: "Carlos J. Gil Bellosta" date: "2019-01-22" output: html_document: toc: true toc_float: collapsed: false smooth_scroll: false theme: united highlight: tango --- ```{r setup, include=FALSE} knitr::opts_chunk$set(echo = TRUE) ``` ## Contexto Los ejercicios de manipulación de datos con Python van a estar basados en un proyecto real y el objetivo es cargar unos datos procedentes de un estudio estadístico y replicar parte de las manipulaciones que hubo que hacer con ellos. ## Evaluación y entrega Hay seis ejercicios y 12 puntos en juego. La nota, no obstante, es sobre 10 (i.e., aunque saques 12 puntos, tu nota total será de 10 puntos). Los ejercicios han de presentarse en un único _notebook_ de Jupyter. También tienes que adjuntar los datos de manera que todo el estudio se pueda reproducir en mi ordenador (salvo tal vez por la necesidad de instalar algún módulo adicional,...). Los ejercicios deberían entregarse tres semanas después de la finalización de las clases. Se aplicará una reducción del 30% en la nota final a partir de dicha fecha. ## Ejercicios ### Reproducibilidad (2 puntos) El _notebook_ tiene que poder reproducirse enteramente en mi ordenador sin necesidad de cambios en el documento. Si los cambios son mínimos, los realizaré y seguiré corrigiendo el resto del ejercicio. Si son importantes, dejaré de corregir y habrás sacado un cero. ### Carga de datos (2 puntos) Lee los datos de las tres pestañas del fichero `pajaros.xlsx` en _DataFrames_ de Pandas. ### Cálculo de frecuencias por especie (2 puntos) El fichero contiene el número de sujetos de una serie de especies de pájaros observados en una serie de puntos durante un periodo de días durante los que se realizó un estudio. El número de días hay que calcularlo a partir de los datos (el estudio se realizó entre la fecha mínima y máxima que figura en los datos). Crea una tabla en la que figure, por especie, el número medio por día de aves observadas por día (nota: no suelen figurar los ceros, pero hay que tenerlos en cuenta). Muestra las filas correspondientes a las tres especies más frecuentes y la tres más infrecuentes. ### Cálculo de tasas por especie (2 puntos) Los reponsables del estudio han definido la _tasa_ como la proporción de días en que una determnada especie fue avistada (p.e., si se viero gorriones todos los días, la tasa del gorrión es del 100%). Crea una tabla en la que se muestre la tasa por esepecie y muestra las filas correspondientes a las tres especies más frecuentes y la tres más infrecuentes. ## Tamaños vs tipo de vuelo (2 puntos) Crea una tabla en que se cuente el número de sujetos observados según su tamaño (grande, mediano, pequeño) y la zona de vuelo (Z1, Z2, Z3 o Z4). Elimina las observaciones sin zona de vuelo asignada. La tabla tiene que tener en las filas el tamaño de la especie y, en las columnas, la zona de vuelo. (Nota: en realidad, estamos construyendo una [_tabla de contingencia_](https://es.wikipedia.org/wiki/Tabla_de_contingencia).) ## Prueba de independencia (2 puntos) Busca cómo aplicar el test de la chi-cuadrado (que mide si hay independencia entre filas y columnas de una tabla de contingencia) con Python. Muestra el p-valor y discute el resultado muy brevemente. (Nota: no hemos discutido pruebas estadísticas en clase, pero estos dos puntos son adicionales.)