Unidad 2 Análisis exploratorio de datos

Esta unidad mostrará cómo utilizar la visualización y la transformación para explorar los datos de un diseño experimental de una manera sistemática, una tarea que los estadísticos llaman análisis exploratorio de datos, o AED (EDA en inglés) para abreviar. Los contenidos para este tema se han obtenido de Wickham and Grolemund (2016).

EDA es un ciclo iterativo en el que el investigador debe: este caso se irán mezclando los contenidos teóricos con los prácticos para ir mostrando el funcionamiento de las diferentes funciones y procedimientos para el análisis inicial de nuestro banco de datos.

Generar preguntas sobre tus datos.
Buscar respuestas visualizando, transformando y modelando sus datos.
Usar lo que aprende para refinar sus preguntas y / o generar nuevas preguntas.

EDA no es un proceso formal con un conjunto estricto de reglas. Más que nada, EDA es un estado mental. Durante las fases iniciales de EDA, debe sentirse libre de investigar cada idea que se le ocurra. Algunas de estas ideas funcionarán, y algunas serán callejones sin salida. A medida que continúe su exploración, se dirigirá a algunas áreas particularmente productivas que eventualmente escribirá y comunicará a otros.

El EDA es una parte importante de cualquier análisis de datos porque siempre debe investigar la calidad de sus datos. La limpieza de datos es solo una aplicación de EDA: el investigador debe hacer preguntas sobre si sus datos cumplen con sus expectativas o no. Para realizar la limpieza de datos, deberá implementar todas las herramientas de EDA: visualización, transformación y modelado.

2.1 Objetivos

El objetivo durante EDA es desarrollar una comprensión de los datos experimentales recogidos. La forma más fácil de hacerlo es utilizar preguntas como herramientas para guiar su investigación. Cuando se hace una pregunta, la pregunta centra la atención del investigador en una parte específica del conjunto de datos y le ayuda a decidir qué gráficos, modelos o transformaciones realizar.

EDA es fundamentalmente un proceso creativo. Como la mayoría de los procesos creativos, la clave para hacer preguntas de calidad es generar una gran cantidad de preguntas. Es difícil hacer preguntas reveladoras al comienzo del análisis porque el investigador no sabe qué información contiene su conjunto de datos. Por otro lado, cada nueva pregunta que haga le expondrá a un nuevo aspecto de sus datos y aumentará sus posibilidades de hacer un descubrimiento. Se puede profundizar rápidamente en las partes más interesantes de los datos experimentales recogidos y desarrollar una serie de preguntas que invitan a la reflexión, si se realiza un seguimiento de cada pregunta con una nueva pregunta basada en lo que se encuentre.

No hay una regla sobre qué preguntas se deben hacer para guiar la investigación, ya que debe ser el investigador en función de los objetivos del experimento planteado el que desarrolle dichas preguntas. Sin embargo, dos tipos de preguntas siempre serán útiles para hacer descubrimientos dentro de los datos. Estas preguntas son:

¿Qué tipo de variabilidad ocurre dentro de las variables recogidas?
¿Qué tipo de covariación (o variabilidad conjunta entre dos o más variables) ocurre entre las variables recogidas?

2.2 Variabilidad

La variabilidad es la tendencia de los valores de una variable a cambiar de medición a medición. Dicha variabilidad se parecía claramente en la vida real; si se mide cualquier variable continua dos veces, se obtendrán dos resultados diferentes. Esto es cierto incluso si se miden cantidades que son constantes, como la velocidad de la luz. Cada una de sus medidas incluirá una pequeña cantidad de error que varía de una medida a otra. Las variables categóricas también pueden variar si se miden diferentes sujetos (por ejemplo, los colores de los ojos de diferentes personas) o en diferentes momentos (por ejemplo, los niveles de energía de un electrón en diferentes momentos). Cada variable tiene su propio patrón de variación, que puede revelar información interesante. La mejor manera de entender ese patrón es visualizar la distribución de los valores de la variable mediante descriptores numéricos o gráficos.

Si la variación describe el comportamiento dentro de una variable, la covariación describe el comportamiento entre las variables. La covariación es la tendencia de los valores de dos o más variables a variar juntas de una manera relacionada. La mejor forma de detectar la covariación es visualizar la relación entre dos o más variables. Cómo hacer eso nuevamente debería depender del tipo de variables involucradas.

2.3 Procesado inicial

La descripción numérica y la visualización gráfica son las herramientas más importantes en los pasos iniciales para la generación de conocimiento sobre los datos experimentales, pero en ocasiones los datos no son recogidos en la forma más efectiva para realizar dichos análisis. A menudo se necesitara crear algunas variables o resúmenes nuevos, o tal vez solo se quiera cambiar el nombre de las variables o reordenar las observaciones para facilitar el trabajo de los datos. En este tema aprenderemos cómo hacer todo eso. Para ejemplificar los procedimientos utilizaremos el conjunto de datos flights contenido en la librería nycflights13, que contiene toda la información sobre los vuelos que salieron desde la ciudad de Nueva York en 2013.

Las variables que contiene este banco de datos (336776 observaciones = vuelos) son:

year: Fecha de salida (año).
month: Fecha de salida (mes).
year,month,day: Fecha de salida (día).
dep_time: Hora real de salida.
arr_time: Hora real de llegada (en horario de la ciudad de llegada).
sched_dep_time: Hora programada de salida. (Esta variable debe coincidir con la información de las variables hour y minute)
sched_arr_time: Hora programada de llegada (en horario de la ciudad de llegada).
dep_delay: Demora de salida (en minutos). Los tiempos negativos representan salidas tempranas.
arr_delay: Demora de llegada (en minutos). Los tiempos negativos representan llegadas tempranas.
hour: Hora de partida programada.
minute: Minuto de partida programada.
carrier: Aerolínea encargada del vuelo
tailnum: Identificador del avión
flight: Identificador del vuelo
origin: Origen del vuelo
dest: Destino del vuelo
air_time: Tiempo de vuelo (en minutos)
distance: Distancia entre los dos aeropuertos (en millas)
time_hour: Fecha y hora programadas del vuelo como una fecha POSIXct. Junto con el origen, se puede usar para unir datos de vuelos a datos meteorológicos.

Recuerda que debes instalar dicha librería antes de poder reproducir todo los procedimientos que mostramos en las secciones siguientes.

Instalamos la librería (junto con todas las necesarias para la asignatura) y cargamos los datos para poder visualizarlos:

library(nycflights13)

Código para cargar y visualizar los datos

# Carga de datos
data(flights)
# Visualización de los 10 primeros casos
kable(
  head(flights,10), align = 'c', booktabs = TRUE,
  caption = 'Datos flights de la librería nycflights13.')

Tambien podemos ver la estructura (tipo de variables) del banco de datos. Los tipos de variables que se admiten en R son: int para enteros, dbl para números reales, chr para vectores de caracteres o cadenas, dttm para fechas-tiempos (una fecha + una hora), lgl para vectores lógicos que solo contienen VERDADERO o FALSO, fctr para factores (que R usa para representar variables categóricas con valores posibles fijos), y date para fechas.

# Visualización de la estructura del banco de datos
str(flights)

## tibble [336,776 × 19] (S3: tbl_df/tbl/data.frame)
##  $ year          : int [1:336776] 2013 2013 2013 2013 2013 2013 2013 2013 2013 2013 ...
##  $ month         : int [1:336776] 1 1 1 1 1 1 1 1 1 1 ...
##  $ day           : int [1:336776] 1 1 1 1 1 1 1 1 1 1 ...
##  $ dep_time      : int [1:336776] 517 533 542 544 554 554 555 557 557 558 ...
##  $ sched_dep_time: int [1:336776] 515 529 540 545 600 558 600 600 600 600 ...
##  $ dep_delay     : num [1:336776] 2 4 2 -1 -6 -4 -5 -3 -3 -2 ...
##  $ arr_time      : int [1:336776] 830 850 923 1004 812 740 913 709 838 753 ...
##  $ sched_arr_time: int [1:336776] 819 830 850 1022 837 728 854 723 846 745 ...
##  $ arr_delay     : num [1:336776] 11 20 33 -18 -25 12 19 -14 -8 8 ...
##  $ carrier       : chr [1:336776] "UA" "UA" "AA" "B6" ...
##  $ flight        : int [1:336776] 1545 1714 1141 725 461 1696 507 5708 79 301 ...
##  $ tailnum       : chr [1:336776] "N14228" "N24211" "N619AA" "N804JB" ...
##  $ origin        : chr [1:336776] "EWR" "LGA" "JFK" "JFK" ...
##  $ dest          : chr [1:336776] "IAH" "IAH" "MIA" "BQN" ...
##  $ air_time      : num [1:336776] 227 227 160 183 116 150 158 53 140 138 ...
##  $ distance      : num [1:336776] 1400 1416 1089 1576 762 ...
##  $ hour          : num [1:336776] 5 5 5 5 6 5 6 6 6 6 ...
##  $ minute        : num [1:336776] 15 29 40 45 0 58 0 0 0 0 ...
##  $ time_hour     : POSIXct[1:336776], format: "2013-01-01 05:00:00" "2013-01-01 05:00:00" ...

2.3.1 Operaciones con sujetos

Los procedimientos para el trabajo con los sujetos de nuestra muestra se reducen al filtrado u ordenación, para quedarnos con un subconjunto de sujetos o para organizar su visualización en otra forma.

2.3.1.1 Filtrado

Usamos el filtrado para seleccionar un subconjunto de observaciones del data.frame que contiene nuestros datos. Esto se hace a menudo cuando queremos limitar un análisis a un subconjunto de observaciones. El uso básico del filtro se hace mediante la función filter():

filter(data_set, <expression1>, <expression2>, ...)

donde data_set es el nombre del objeto que contiene nuestros datos y <expression1>, <expression2>,...son uno o más argumentos adicionales, donde cada uno de estos es una expresión de R válida que implica una o más condiciones a aplicar sobre las variables del conjunto de datos. Cada expresión se interpreta como una condición lógica (verdadero o falso).

Para usar el filtrado de manera efectiva, se debe saber cómo seleccionar las observaciones que se desea utilizando los operadores de comparación. R proporciona el paquete estándar: > (mayor que), >= (mayor o igual que), < (menor que), <= (menor o igual que), != (no igual a), y == (igual a).

Veamos diferentes posibilidades de filtrado sobre el banco de datos flights. En primer lugar filtramos todos los vuelos cuya día de origen sea el 1 de enero de 2013. El resultado es un conjunto de datos con 842 observaciones donde aparece la información de dichos vuelos. Almacenamos el resultado eb nuevo objeto y calculamos el tamaño (nñumero de sujetos) con la función dim.

jan1 <- filter(flights, month == 1, day == 1)
dim(jan1)

## [1] 842  19

Podemos combinar diferentes condiciones de filtrado mediante los operadores lógicos & es “y” (condición 1 y condición 2), | es “o” (condición 1 o condición 2). Seleccionamos ahora todos los vuelos con mes de origen igual a Noviembre o Diciembre.

nov_dec <- filter(flights, month == 11 | month == 12)
dim(nov_dec) # Para saber cuantas observaciones contiene el banco de datos filtrado

## [1] 55403    19

Los datos filtrados contienen la información completa de 55403 vuelos. Otra forma de conseguir el mismo resultado es con el operador %in%

nov_dec <- filter(flights, month %in% c(11, 12))
dim(nov_dec)

## [1] 55403    19

A veces se pueden simplificar condiciones de filtrado más complicadas sin más que recordar la ley de De Morgan: !(x & y) es lo mismo que!x | !y, y!(x | y)es lo mismo que!x & !y`. Por ejemplo, si se desean obtener todos vuelos que no se retrasaron (en llegada o partida) en más de dos horas, se pueden usar cualquiera de los dos filtros siguientes:

db_sel1 <- filter(flights, !(arr_delay > 120 | dep_delay > 120))
dim(db_sel1)

## [1] 316050     19

db_sel2 <- filter(flights, arr_delay <= 120, dep_delay <= 120)
dim(db_sel2)

## [1] 316050     19

2.3.1.2 Ordenación

Otro procesamiento muy habitual con los sujetos es reordenar las filas de un objeto que contiene nuestros datos. Esto se usa cuando queremos inspeccionar un conjunto de datos para buscar asociaciones entre las diferentes variables, lo que resulta difícil de hacer si no están ordenados. Para realizar la ordenación se utiliza la función arrange(). El uso básico de la función es:

arrange(data_set, varname1, varname2, ...)

donde data_set es el nombre del objeto que contiene nuestros datos y varname1, varname2,... son las variables que vamos a utilizar para la ordenación. Por ejemplo deseamos ordenar nuestro datos siguiendo el orden año, mes y día:

dbf_ord1 <- arrange(flights, year, month, day)
str(dbf_ord1)

## tibble [336,776 × 19] (S3: tbl_df/tbl/data.frame)
##  $ year          : int [1:336776] 2013 2013 2013 2013 2013 2013 2013 2013 2013 2013 ...
##  $ month         : int [1:336776] 1 1 1 1 1 1 1 1 1 1 ...
##  $ day           : int [1:336776] 1 1 1 1 1 1 1 1 1 1 ...
##  $ dep_time      : int [1:336776] 517 533 542 544 554 554 555 557 557 558 ...
##  $ sched_dep_time: int [1:336776] 515 529 540 545 600 558 600 600 600 600 ...
##  $ dep_delay     : num [1:336776] 2 4 2 -1 -6 -4 -5 -3 -3 -2 ...
##  $ arr_time      : int [1:336776] 830 850 923 1004 812 740 913 709 838 753 ...
##  $ sched_arr_time: int [1:336776] 819 830 850 1022 837 728 854 723 846 745 ...
##  $ arr_delay     : num [1:336776] 11 20 33 -18 -25 12 19 -14 -8 8 ...
##  $ carrier       : chr [1:336776] "UA" "UA" "AA" "B6" ...
##  $ flight        : int [1:336776] 1545 1714 1141 725 461 1696 507 5708 79 301 ...
##  $ tailnum       : chr [1:336776] "N14228" "N24211" "N619AA" "N804JB" ...
##  $ origin        : chr [1:336776] "EWR" "LGA" "JFK" "JFK" ...
##  $ dest          : chr [1:336776] "IAH" "IAH" "MIA" "BQN" ...
##  $ air_time      : num [1:336776] 227 227 160 183 116 150 158 53 140 138 ...
##  $ distance      : num [1:336776] 1400 1416 1089 1576 762 ...
##  $ hour          : num [1:336776] 5 5 5 5 6 5 6 6 6 6 ...
##  $ minute        : num [1:336776] 15 29 40 45 0 58 0 0 0 0 ...
##  $ time_hour     : POSIXct[1:336776], format: "2013-01-01 05:00:00" "2013-01-01 05:00:00" ...

Podemos introducir la función desc() para ordenar de forma descendente por la variable seleccionada. Ordenamos nuestros datos (de mayor a menor) por la demora en el tiempo de llegada:

dbf_ord2 <- arrange(flights, desc(arr_delay))
str(dbf_ord2)

## tibble [336,776 × 19] (S3: tbl_df/tbl/data.frame)
##  $ year          : int [1:336776] 2013 2013 2013 2013 2013 2013 2013 2013 2013 2013 ...
##  $ month         : int [1:336776] 1 6 1 9 7 4 3 7 12 5 ...
##  $ day           : int [1:336776] 9 15 10 20 22 10 17 22 5 3 ...
##  $ dep_time      : int [1:336776] 641 1432 1121 1139 845 1100 2321 2257 756 1133 ...
##  $ sched_dep_time: int [1:336776] 900 1935 1635 1845 1600 1900 810 759 1700 2055 ...
##  $ dep_delay     : num [1:336776] 1301 1137 1126 1014 1005 ...
##  $ arr_time      : int [1:336776] 1242 1607 1239 1457 1044 1342 135 121 1058 1250 ...
##  $ sched_arr_time: int [1:336776] 1530 2120 1810 2210 1815 2211 1020 1026 2020 2215 ...
##  $ arr_delay     : num [1:336776] 1272 1127 1109 1007 989 ...
##  $ carrier       : chr [1:336776] "HA" "MQ" "MQ" "AA" ...
##  $ flight        : int [1:336776] 51 3535 3695 177 3075 2391 2119 2047 172 3744 ...
##  $ tailnum       : chr [1:336776] "N384HA" "N504MQ" "N517MQ" "N338AA" ...
##  $ origin        : chr [1:336776] "JFK" "JFK" "EWR" "JFK" ...
##  $ dest          : chr [1:336776] "HNL" "CMH" "ORD" "SFO" ...
##  $ air_time      : num [1:336776] 640 74 111 354 96 139 167 109 149 112 ...
##  $ distance      : num [1:336776] 4983 483 719 2586 589 ...
##  $ hour          : num [1:336776] 9 19 16 18 16 19 8 7 17 20 ...
##  $ minute        : num [1:336776] 0 35 35 45 0 0 10 59 0 55 ...
##  $ time_hour     : POSIXct[1:336776], format: "2013-01-09 09:00:00" "2013-06-15 19:00:00" ...

En el resumen de los datos presentados se pueden apreciar las diferencia entre los datos ordenados de una u otra forma.

2.3.2 Trabajando con variables

Los procedimientos para el trabajo con las variables de nuestra muestra se reducen a la selección de un subconjunto de variables, la creación de nuevas variables, el renombrado de variables, y la recodificación en nuevas variables.

2.3.2.1 Selección

Usamos la función select() para seleccionar un subconjunto de variables de nuestro banco de datos. Esto función se usa cuando tenemos un conjunto de datos con muchas variables, pero solo necesitamos trabajar con un subconjunto de ellas. La función tiene la estructura:

select(data_set, varname1, varname2, ...)

El primer argumento, data_set, es el nombre del objeto que contiene nuestros datos. A continuación incluimos una serie de uno o más argumentos adicionales, donde cada uno es el nombre de una o más variables en el conjunto de datos. Estas son las variables que aparecerán en el nuevo banco de datos.

Para el conjunto de datos flights vamos a seleccionar las variables year, month, y day.

dbf_sel1 <- dplyr::select(flights, year, month, day)
# indicamos la libreria por la coincidencia de la función select()
# en otra libreria cargada
str(dbf_sel1)

## tibble [336,776 × 3] (S3: tbl_df/tbl/data.frame)
##  $ year : int [1:336776] 2013 2013 2013 2013 2013 2013 2013 2013 2013 2013 ...
##  $ month: int [1:336776] 1 1 1 1 1 1 1 1 1 1 ...
##  $ day  : int [1:336776] 1 1 1 1 1 1 1 1 1 1 ...

A veces es más conveniente establecer la selección especificando aquellas que no necesitamos, en lugar de especificar cuáles guardar. Usamos el operador - para indicar que variables deben ser eliminadas.

dbf_sel2 <- dplyr::select(flights, -(year:day)) 
# No seleccionamos las varaibles que se encuentran entre las variables year y day
str(dbf_sel2)

## tibble [336,776 × 16] (S3: tbl_df/tbl/data.frame)
##  $ dep_time      : int [1:336776] 517 533 542 544 554 554 555 557 557 558 ...
##  $ sched_dep_time: int [1:336776] 515 529 540 545 600 558 600 600 600 600 ...
##  $ dep_delay     : num [1:336776] 2 4 2 -1 -6 -4 -5 -3 -3 -2 ...
##  $ arr_time      : int [1:336776] 830 850 923 1004 812 740 913 709 838 753 ...
##  $ sched_arr_time: int [1:336776] 819 830 850 1022 837 728 854 723 846 745 ...
##  $ arr_delay     : num [1:336776] 11 20 33 -18 -25 12 19 -14 -8 8 ...
##  $ carrier       : chr [1:336776] "UA" "UA" "AA" "B6" ...
##  $ flight        : int [1:336776] 1545 1714 1141 725 461 1696 507 5708 79 301 ...
##  $ tailnum       : chr [1:336776] "N14228" "N24211" "N619AA" "N804JB" ...
##  $ origin        : chr [1:336776] "EWR" "LGA" "JFK" "JFK" ...
##  $ dest          : chr [1:336776] "IAH" "IAH" "MIA" "BQN" ...
##  $ air_time      : num [1:336776] 227 227 160 183 116 150 158 53 140 138 ...
##  $ distance      : num [1:336776] 1400 1416 1089 1576 762 ...
##  $ hour          : num [1:336776] 5 5 5 5 6 5 6 6 6 6 ...
##  $ minute        : num [1:336776] 15 29 40 45 0 58 0 0 0 0 ...
##  $ time_hour     : POSIXct[1:336776], format: "2013-01-01 05:00:00" "2013-01-01 05:00:00" ...

Cuando las variables que deseamos eliminar no se muestran de forma consecutiva en nuestro banco de datos podemos utilizar una expresión equivalente

dbf_sel3 <- dplyr::select(flights, -c(year,month,day)) 
str(dbf_sel3)

## tibble [336,776 × 16] (S3: tbl_df/tbl/data.frame)
##  $ dep_time      : int [1:336776] 517 533 542 544 554 554 555 557 557 558 ...
##  $ sched_dep_time: int [1:336776] 515 529 540 545 600 558 600 600 600 600 ...
##  $ dep_delay     : num [1:336776] 2 4 2 -1 -6 -4 -5 -3 -3 -2 ...
##  $ arr_time      : int [1:336776] 830 850 923 1004 812 740 913 709 838 753 ...
##  $ sched_arr_time: int [1:336776] 819 830 850 1022 837 728 854 723 846 745 ...
##  $ arr_delay     : num [1:336776] 11 20 33 -18 -25 12 19 -14 -8 8 ...
##  $ carrier       : chr [1:336776] "UA" "UA" "AA" "B6" ...
##  $ flight        : int [1:336776] 1545 1714 1141 725 461 1696 507 5708 79 301 ...
##  $ tailnum       : chr [1:336776] "N14228" "N24211" "N619AA" "N804JB" ...
##  $ origin        : chr [1:336776] "EWR" "LGA" "JFK" "JFK" ...
##  $ dest          : chr [1:336776] "IAH" "IAH" "MIA" "BQN" ...
##  $ air_time      : num [1:336776] 227 227 160 183 116 150 158 53 140 138 ...
##  $ distance      : num [1:336776] 1400 1416 1089 1576 762 ...
##  $ hour          : num [1:336776] 5 5 5 5 6 5 6 6 6 6 ...
##  $ minute        : num [1:336776] 15 29 40 45 0 58 0 0 0 0 ...
##  $ time_hour     : POSIXct[1:336776], format: "2013-01-01 05:00:00" "2013-01-01 05:00:00" ...

2.3.2.2 Creación

En la creación de variables a partir de las originales en nuestros datos tenemos dos opciones: i) crear una nueva variable sin eliminar las variables originales, ii) crear una nueva variable eliminando las variables originales.

Usamos la función mutate() para crear nuevas variables en nuestro banco de datos sin eliminar las variables que forman parte de la nueva variable. La función tiene la estructura:

mutate(data_set, <expression1>, <expression2>, ...)

El primer argumento, data_set, es el nombre del objeto que contiene nuestros datos. A continuación incluimos una serie de uno o más argumentos adicionales, donde cada uno es la expresión para la nueva o nuevas variables.

Veamos un ejemplo de uso de la función

dbf_sel4 <- dplyr::select(flights, c(year,month,day,dep_delay,arr_delay,distance,air_time)) 
# Seleccionamos un subconjunto de las variables originales
str(dbf_sel4)

## tibble [336,776 × 7] (S3: tbl_df/tbl/data.frame)
##  $ year     : int [1:336776] 2013 2013 2013 2013 2013 2013 2013 2013 2013 2013 ...
##  $ month    : int [1:336776] 1 1 1 1 1 1 1 1 1 1 ...
##  $ day      : int [1:336776] 1 1 1 1 1 1 1 1 1 1 ...
##  $ dep_delay: num [1:336776] 2 4 2 -1 -6 -4 -5 -3 -3 -2 ...
##  $ arr_delay: num [1:336776] 11 20 33 -18 -25 12 19 -14 -8 8 ...
##  $ distance : num [1:336776] 1400 1416 1089 1576 762 ...
##  $ air_time : num [1:336776] 227 227 160 183 116 150 158 53 140 138 ...

# Creamos una varaible que indica la reducción de demora entre salida y llegada
# Calculamos la velocidad del viaje
dbf_new <- mutate(dbf_sel4,
  gain = arr_delay - dep_delay,
  speed = distance / air_time * 60
) 
str(dbf_new)

## tibble [336,776 × 9] (S3: tbl_df/tbl/data.frame)
##  $ year     : int [1:336776] 2013 2013 2013 2013 2013 2013 2013 2013 2013 2013 ...
##  $ month    : int [1:336776] 1 1 1 1 1 1 1 1 1 1 ...
##  $ day      : int [1:336776] 1 1 1 1 1 1 1 1 1 1 ...
##  $ dep_delay: num [1:336776] 2 4 2 -1 -6 -4 -5 -3 -3 -2 ...
##  $ arr_delay: num [1:336776] 11 20 33 -18 -25 12 19 -14 -8 8 ...
##  $ distance : num [1:336776] 1400 1416 1089 1576 762 ...
##  $ air_time : num [1:336776] 227 227 160 183 116 150 158 53 140 138 ...
##  $ gain     : num [1:336776] 9 16 31 -17 -19 16 24 -11 -5 10 ...
##  $ speed    : num [1:336776] 370 374 408 517 394 ...

Podemos ver que se han añadido las dos variables en el nuevo banco de datos que se ha creado. Una ventaja de esta función es que resulta posible crear nuevas variables a partir de las nuevas creadas

dbf_new2 <- mutate(dbf_sel4,
  gain = arr_delay - dep_delay,
  hours = air_time / 60,
  gain_per_hour = gain / hours
) 
str(dbf_new2)

## tibble [336,776 × 10] (S3: tbl_df/tbl/data.frame)
##  $ year         : int [1:336776] 2013 2013 2013 2013 2013 2013 2013 2013 2013 2013 ...
##  $ month        : int [1:336776] 1 1 1 1 1 1 1 1 1 1 ...
##  $ day          : int [1:336776] 1 1 1 1 1 1 1 1 1 1 ...
##  $ dep_delay    : num [1:336776] 2 4 2 -1 -6 -4 -5 -3 -3 -2 ...
##  $ arr_delay    : num [1:336776] 11 20 33 -18 -25 12 19 -14 -8 8 ...
##  $ distance     : num [1:336776] 1400 1416 1089 1576 762 ...
##  $ air_time     : num [1:336776] 227 227 160 183 116 150 158 53 140 138 ...
##  $ gain         : num [1:336776] 9 16 31 -17 -19 16 24 -11 -5 10 ...
##  $ hours        : num [1:336776] 3.78 3.78 2.67 3.05 1.93 ...
##  $ gain_per_hour: num [1:336776] 2.38 4.23 11.62 -5.57 -9.83 ...

Usamos la función transmute() para crear un banco de datos donde solo aparecen las nuevas variables creadas. La estructura de la función es idéntica a la de la función mutate().

dbf_new3 <- transmute(dbf_sel4,
  gain = arr_delay - dep_delay,
  hours = air_time / 60,
  gain_per_hour = gain / hours
) 
str(dbf_new3)

## tibble [336,776 × 3] (S3: tbl_df/tbl/data.frame)
##  $ gain         : num [1:336776] 9 16 31 -17 -19 16 24 -11 -5 10 ...
##  $ hours        : num [1:336776] 3.78 3.78 2.67 3.05 1.93 ...
##  $ gain_per_hour: num [1:336776] 2.38 4.23 11.62 -5.57 -9.83 ...

El listado de funciones que podemos usar con las funciones mutate() y transmute() son:

Operadores aritméticos: +, -, *, /, ^
Funciones logaritmo: log(), log2(), log10()
Funciones de agregación: cumsum() (suma acumulada), cumprod() (producto acumulado), cummin() (mínimo acumulado), cummax() (máximo acumulado), cummean() (media acumulada).
Comparaciones lógicas: <, <=, >, >=, !=

2.3.2.3 Creación de factores

La creación de variables tipo factor es un aspecto muy importante en el análisis de datos. Existen tres formas principales de conseguir variables de tipo factor:

A partir de variables tipo carácter
A partir de variables de tipo entero que pueden identificar niveles de una variable
A partir de una variable de tipo numérico.

Por el momento solo mostraremos las opciones 1 y 2. La función utilizada para estas operaciones es fct_recode() cuya estructura viene dada por:

fct_recode(varfactor, levelnew1=levelold1, levelnew2=levelold2, ...)

donde varfactor es la variable factor original, levelnew son los niveles del factor recodificados y levelold son los niveles del factor en la variable original.

Vamos a ver un ejemplo de su uso sobre el banco de datos NCBIRTH800 que presentamos en la unidad anterior. Cargamos los datos desde el repositorio y vemos su estructura:

NCBIRTH800=read_csv("https://goo.gl/mB9Jcn", col_types = "dcddcccdccddcc")

En esta base de datos hay varias variables que se han recogido como carácter (aunque se les ha asignado un código numérico). A continuación se presentan dichas variables así como la asignación de valor a cada uno de los códigos numéricos:

sex: "male" = 1,"female" = 2
marital: "married" = 1,"not married" = 2
racemom: "other non white" = 0, "White" = 1,"Black" = 2,
         "America indian" = 3,"Chinese" = 4,"Hawaiian" = 5,
         "Filipino" = 6,"Other asian" = 7, "Other" = 8
hispmom: "Cuban" = C, "Mexican" = M, "Non-Hispanic" = N ,
         "Other" = O,"Puerto Rican" = P, "Central/South american" = S,
         "U" = Not classificable
smoke: "Yes"=1, "No" = 0
drink: "Yes" = 1 ,"No" = 0
low: "Yes" = 1, "No" = 0
premie: "Yes"= 1, "No" = 0

Realizamos la asignación de los valores

NCBIRTHnew <- mutate(NCBIRTH800,      
              sex = fct_recode(sex,"male" = "1","female" = "2"),
              marital = fct_recode(marital,"married" = "1","not married" = "2"),
              racemom = fct_recode(racemom,"other non white" = "0","White" = "1",
                                   "Black" = "2","America  indian" = "3",
                                   "Chinese" = "4","Hawaiian" = "5","Filipino" = "6",
                                   "Other asian" = "7","Other" = "8"),
              hispmom = fct_recode(hispmom,"Cuban" = "C","Mexican" = "M",
                                   "Non-Hispanic" = "N","Other" = "O",
                                   "Puerto Rican" = "P","Central/South american" = "S",
                                   "U" = "Not classificable"),
              smoke = fct_recode(smoke,"Yes" = "1","No" = "0"),
              drink = fct_recode(drink,"Yes" = "1","No" = "0"),
              low = fct_recode(low,"Yes" = "1","No" = "0"),
              premie = fct_recode(premie,"Yes" = "1","No" = "0"))
str(NCBIRTHnew)

## spec_tbl_df [800 × 14] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
##  $ plural : num [1:800] 1 1 1 1 1 1 1 1 1 1 ...
##  $ sex    : Factor w/ 2 levels "male","female": 1 2 1 1 1 1 2 2 2 2 ...
##  $ mage   : num [1:800] 32 32 27 27 25 28 25 15 37 21 ...
##  $ weeks  : num [1:800] 40 37 39 39 39 43 39 42 41 39 ...
##  $ marital: Factor w/ 2 levels "married","not married": 1 1 1 1 1 1 1 2 1 1 ...
##  $ racemom: Factor w/ 6 levels "White","Black",..: 1 1 1 1 1 1 1 1 6 1 ...
##  $ hispmom: Factor w/ 6 levels "Cuban","Mexican",..: 3 3 3 3 3 3 3 3 3 3 ...
##  $ gained : num [1:800] 38 34 12 15 32 32 75 25 31 28 ...
##  $ smoke  : Factor w/ 2 levels "No","Yes": 1 1 1 1 1 1 1 1 1 1 ...
##  $ drink  : Factor w/ 2 levels "No","Yes": 1 1 1 1 1 1 1 1 1 1 ...
##  $ tounces: num [1:800] 111 116 138 136 121 117 143 113 139 120 ...
##  $ tgrams : num [1:800] 3147 3289 3912 3856 3430 ...
##  $ low    : Factor w/ 2 levels "No","Yes": 1 1 1 1 1 1 1 1 1 1 ...
##  $ premie : Factor w/ 2 levels "No","Yes": 1 1 1 1 1 1 1 1 1 1 ...
##  - attr(*, "spec")=
##   .. cols(
##   ..   plural = col_double(),
##   ..   sex = col_character(),
##   ..   mage = col_double(),
##   ..   weeks = col_double(),
##   ..   marital = col_character(),
##   ..   racemom = col_character(),
##   ..   hispmom = col_character(),
##   ..   gained = col_double(),
##   ..   smoke = col_character(),
##   ..   drink = col_character(),
##   ..   tounces = col_double(),
##   ..   tgrams = col_double(),
##   ..   low = col_character(),
##   ..   premie = col_character()
##   .. )
##  - attr(*, "problems")=<externalptr>

En el resultado se aprecia la modificación de los diferentes factores.

2.3.3 Reuniendo los datos

Un problema bastante común que parece en la recogida de datos experimentales es que los nombres de las columnas de la base de datos no es una variable en si, sino los valores de una variable. Si tomamos como ejemplo el banco de datos PCKDATA.

PCKDATA = read_csv("https://goo.gl/W8Bfgv", col_types = "idd")
PCKDATA

Tabla 2.1:
SUBJ	A	B
1	193	250
2	90	173
3	120	135
4	154	49
5	149	83
6	146	123
7	180	126
8	128	177
9	180	164
10	66	121
11	129	200
12	170	75
13	121	182
14	135	169
15	133	234
16	165	67
17	125	53
18	129	119
19	118	241
20	109	138
21	89	113
22	115	112
23	119	104
24	200	115
25	158	224
26	130	138
27	197	223
28	165	172
29	80	68
30	161	164
31	189	232
32	175	106
33	120	266
34	117	190
35	44	153
36	102	59
37	174	119
38	99	93
39	126	162
40	47	130
41	132	89
42	177	197
43	144	189
44	177	207
45	161	109
46	84	147
47	180	193
48	198	110
49	158	87
50	116	135
51	176	115
52	111	159
53	109	115
54	181	114
55	108	202
56	57	134
57	155	64
58	239	79
59	103	96
60	158	181
61	240	91
62	136	167
63	182	200
64	176	236
65	113	126
66	158	185
67	118	141
68	184	180
69	116	60
70	124	137
71	173	195
72	241	172
73	141	116
74	150	229
75	172	142
76	179	131
77	146	155
78	89	152
79	149	246
80	140	169
81	100	99
82	124	163
83	90	124
84	99	189
85	208	79
86	225	76
87	203	154
88	130	182
89	99	100
90	209	140
91	185	115
92	190	190
93	148	193
94	88	146
95	141	143
96	62	163
97	256	157
98	198	161
99	150	192
100	145	105
101	201	162
102	164	201
103	207	203
104	178	179
105	145	132
106	139	158
107	60	147
108	125	147
109	140	161
110	148	58
111	59	91
112	128	151
113	135	183
114	173	153
115	82	130
116	175	126
117	140	176
118	140	56
119	187	160
120	165	183
121	126	157
122	142	132
123	167	183
124	120	201
125	154	122
126	125	159
127	131	115
128	119	150
129	129	93
130	111	104
131	150	228
132	153	184
133	55	108
134	118	159
135	131	134
136	171	134
137	137	86
138	175	102
139	60	164
140	202	133
141	175	164
142	140	175
143	133	93
144	104	137
145	129	130
146	118	158
147	265	160
148	171	211
149	110	71
150	114	215
151	153	116
152	110	119
153	190	154
154	187	139
155	131	169
156	115	14
157	130	74
158	182	130
159	152	105
160	192	145
161	64	179
162	148	143
163	182	220
164	135	213
165	202	124
166	84	167
167	121	121
168	90	162
169	187	133
170	137	72
171	138	88
172	187	193
173	137	96
174	204	157
175	148	102
176	185	157
177	120	145
178	125	113
179	196	185
180	207	79
181	145	154
182	83	184
183	174	90
184	118	146
185	136	175
186	123	176
187	86	172
188	102	109
189	102	136
190	150	102
191	222	148
192	174	96
193	179	210
194	188	21
195	75	116
196	96	152
197	152	187
198	150	149
199	130	168
200	161	134
201	77	213
202	103	55
203	127	152
204	146	74
205	130	24
206	200	106
207	90	192
208	83	111
209	122	112
210	122	178
211	233	176
212	154	150
213	125	194
214	164	193
215	187	143
216	192	157
217	99	154
218	97	69
219	140	69
220	137	181
221	178	223
222	207	121
223	123	187
224	151	155
225	206	159
226	102	150
227	166	55
228	171	147
229	154	148
230	197	112
231	111	103
232	148	110
233	78	140
234	192	124
235	239	101
236	131	120
237	67	183
238	42	178
239	121	80
240	180	126
241	70	164
242	81	193
243	167	182
244	119	146
245	109	119
246	175	184
247	152	162
248	94	120
249	64	186
250	127	193
251	77	210
252	190	184
253	169	160
254	158	53
255	111	122
256	123	185
257	39	147
258	152	177
259	211	159
260	149	70
261	137	89
262	79	309
263	127	132
264	116	166
265	150	190
266	130	169
267	59	122
268	205	136
269	149	78
270	149	243
271	177	162
271	147	174
273	153	179
274	185	119
275	140	171
276	119	90
277	88	78
278	137	131
279	173	175
280	59	113
281	199	122
282	160	129
283	80	182
284	122	107
285	131	147
286	73	115
287	229	136
288	242	124
289	97	138
290	127	85
291	132	70
292	84	151
293	120	155
294	161	203
295	137	91
296	194	143
297	178	161
298	205	178
299	114	77
300	120	195
301	93	181
302	125	91
303	114	99
304	190	128
305	136	129
306	114	138
307	109	190
308	164	178
309	70	173
310	56	67
311	156	116
312	72	159
313	74	140
314	74	162
315	126	90
316	53	154
317	158	178
318	182	157
319	101	192
320	127	153
321	114	171
322	201	120
323	137	178
324	79	240
325	181	122
326	86	52
327	109	126
328	120	187
329	101	112
330	184	192
331	169	144
332	125	82
333	169	91
334	123	113
335	170	151
336	83	155
337	121	150
338	121	216
339	199	83
340	94	138
341	195	199
342	92	126
343	212	71
344	164	80
345	216	152
346	178	181
347	219	115
348	142	179
349	143	175
350	104	134
351	124	139
352	122	165
353	158	13
354	129	183
355	83	137
356	144	101
357	183	202
358	132	139
359	134	163
360	97	114
361	179	106
362	141	150
363	98	188
364	191	62
365	181	130
366	165	275
367	119	184
368	161	138
369	103	154
370	159	37
371	130	19
372	115	216
373	120	128
374	189	17
375	125	224
376	125	169
377	190	128
378	127	140
379	105	157
380	98	118
381	154	152
382	113	140
383	68	143
384	191	138
385	190	99
386	191	115
387	153	157
388	141	178
389	143	142
390	71	218
391	135	117
392	153	212
393	145	193
394	117	101
395	163	100
396	185	163
397	213	221
398	96	100
399	39	95
400	226	132
401	88	149
402	151	167
403	140	101
404	124	116
405	165	124
406	50	149
407	159	222
408	131	101
409	154	218
410	140	132
411	126	202
412	79	76
413	120	151
414	163	56
415	110	70
416	147	257
417	153	172
418	191	121
419	217	155
420	102	154
421	242	117
422	179	219
423	115	66
424	76	125
425	156	230
426	205	224
427	114	151
428	96	108
429	99	155
430	170	156
431	141	196
432	162	131
433	179	90
434	205	140
435	114	149
436	165	44
437	121	193
438	130	139
439	250	188
440	90	190
441	95	211
442	163	171
443	157	164
444	92	135
445	173	123
446	98	174
447	155	123
448	192	92
449	152	142
450	158	259
451	189	142
452	120	147
453	131	157
454	159	87
455	98	164
456	124	217
457	83	156
458	148	201
459	131	140
460	186	134
461	151	146
462	88	168
463	149	130
464	89	189
465	104	168
466	148	143
467	103	83
468	106	139
469	69	86
470	49	121
471	173	160
472	163	114
473	207	202
474	134	156
475	125	204
476	73	170
477	160	160
478	205	183
479	213	57
480	254	152
481	67	133
482	172	237
483	138	82
484	158	170
485	221	149
486	76	102
487	207	164
488	110	165
489	196	157
490	102	193
491	202	141
492	139	134
493	87	176
494	237	113
495	169	140
496	222	45
497	181	157
498	65	102
499	207	68
500	56	108
501	221	40
502	173	126
503	183	129
504	224	155
505	97	229
506	206	198
507	81	178
508	124	142
509	136	201
510	143	135
511	136	99
512	170	43
513	118	143
514	72	121
515	146	110
516	130	197
517	178	200
518	91	87
519	133	171
520	165	161
521	176	140
522	110	42
523	235	192
524	54	109
525	160	97
526	161	119
527	173	75
528	107	164
529	132	90
530	147	196
531	124	193
532	129	125
533	273	110
534	90	178
535	209	146
536	229	217
537	105	141
538	173	181
539	154	225
540	149	65
541	92	144
542	129	114
543	141	191
544	198	192
545	114	150
546	124	159
547	222	139
548	107	169
549	147	156
550	220	21
551	82	156
552	178	91
553	196	121
554	248	122
555	186	111
556	101	124
557	116	146
558	157	109
559	167	173
560	113	95
561	135	206
562	162	158
563	140	134
564	111	152
565	240	167
566	61	141
567	56	158
568	165	192
569	160	131
570	191	124
571	146	192
572	64	146
573	148	110
574	125	170
575	193	201
576	251	91
577	154	131
578	68	214
579	217	153
580	264	186
581	115	148
582	153	125
583	152	155
584	177	132
585	117	171
586	87	69
587	199	93
588	143	152
589	219	205
590	136	128
591	98	165
592	161	210
593	201	155
594	165	71
595	120	177
596	23	118
597	180	182
598	123	157
599	220	196
600	148	119
601	113	156
602	162	209
603	115	154
604	73	128
605	116	92
606	173	127
607	48	93
608	161	191
609	183	212
610	128	97
611	95	141
612	212	191
613	119	128
614	140	75
615	99	166
616	194	132
617	178	68
618	142	139
619	123	73
620	131	73
621	205	149
622	136	136
623	173	52
624	188	134
625	172	72
626	130	67
627	108	96
628	140	100
629	193	184
630	81	224
631	212	58
632	169	193
633	175	150
634	195	135
635	130	151
636	140	138
637	130	207
638	63	158
639	67	223
640	202	124
641	127	129
642	200	173
643	91	179
644	129	142
645	116	93
646	163	101
647	127	166
648	148	177
649	123	88
650	232	153
651	172	74
652	155	111
653	50	176
654	134	125
655	102	122
656	183	170
657	94	96
658	103	200
659	117	170
660	122	204
661	48	146
662	145	136
663	130	123
664	114	101
665	159	106
666	127	129
667	168	169
668	178	109
669	135	87
670	151	70
671	181	160
672	109	136
673	184	125
674	90	247
675	107	131
676	186	82
677	207	104
678	142	167
679	62	99
680	154	176
681	196	114
682	141	201
683	170	148
684	207	154
685	109	155
686	201	128
687	170	192
688	200	199
689	76	99
690	148	159
691	111	91
692	78	98
693	32	158
694	217	106
695	166	219
696	79	177
697	184	143
698	199	192
699	178	109
700	202	61
701	141	229
702	121	158
703	169	134
704	158	130
705	211	106
706	241	117
707	120	210
708	243	252
709	99	119
710	192	122
711	115	45
712	83	130
713	163	99
714	197	187
715	134	84
716	260	160
717	186	103
718	139	53
719	64	118
720	257	164
721	99	128
722	155	141
723	150	192
724	179	183
725	153	222
726	181	129
727	142	178
728	115	114
729	166	157
730	91	145
731	216	148
732	121	126
733	204	194
734	193	176
735	113	174
736	91	198
737	175	121
738	198	109
739	185	145
740	166	184
741	93	201
742	152	122
743	170	190
744	124	118
745	112	124
746	153	161
747	179	151
748	94	150
749	217	96
750	139	136
751	176	173
752	74	229
753	146	192
754	114	235
755	213	164
756	143	173
757	171	145
758	124	132
759	83	178
760	91	107
761	107	136
762	98	177
763	130	74
764	150	113
765	189	72
766	178	96
767	177	151
768	164	151
769	157	117
770	116	112
771	165	89
772	167	177
773	126	109
774	191	106
775	253	188
776	167	90
777	181	162
778	128	161
779	192	120
780	164	160
781	195	160
782	200	128
783	132	140
784	135	141
785	160	89
786	160	191
787	50	144
788	153	54
789	85	147
790	133	218
791	172	172
792	139	132
793	103	125
794	145	125
795	143	144
796	170	145
797	208	79
798	119	140
799	100	180
800	138	203
801	159	148
802	168	164
803	250	127
804	209	156
805	114	116
806	221	170
807	217	145
808	145	228
809	240	137
810	123	136
811	144	162
812	142	132
813	172	119
814	103	97
815	143	168
816	186	72
817	79	116
818	135	151
819	124	200
820	88	155
821	215	139
822	76	151
823	166	94
824	221	202
825	92	108
826	137	334
827	201	134
828	169	171
829	126	91
830	218	102
831	144	83
832	269	154
833	126	221
834	96	188
835	119	30
836	121	102
837	188	207
838	185	112
839	165	216
840	180	98
841	65	166
842	66	180
843	109	122
844	131	186
845	142	110
846	138	190
847	178	191
848	165	234
849	121	184
850	93	223
851	134	158
852	139	162
853	138	121
854	74	143
855	34	150
856	77	134
857	96	48
858	200	173
859	138	124
860	175	133
861	134	103
862	164	137
863	106	85
864	153	179
865	203	176
866	160	100
867	68	204
868	207	173
869	139	141
870	122	123
871	128	200
872	244	111
873	70	143
874	82	117
875	163	70
876	265	169
877	203	206
878	213	159
879	75	177
880	152	135
881	110	103
882	155	105
883	181	115
884	142	52
885	65	161
886	150	111
887	236	156
888	196	56
889	146	105
890	160	90
891	148	137
892	205	164
893	162	156
894	204	154
895	128	195
896	201	181
897	76	163
898	206	181
899	157	101
900	123	164
901	116	129
902	113	191
903	79	169
904	156	169
905	113	196
906	132	140
907	141	90
908	159	179
909	56	171
910	141	92
911	260	162
912	113	134
913	110	117
914	120	130
915	143	145
916	248	96
917	162	115
918	159	128
919	155	208
920	205	96
921	143	173
922	216	99
923	164	120
924	168	183
925	78	193
926	188	150
927	193	174
928	88	119
929	169	154
930	148	137
931	111	112
932	164	113
933	119	64
934	146	130
935	112	188
936	141	199
937	70	186
938	93	120
939	137	112
940	105	112
941	129	134
942	223	54
943	135	173
944	172	199
945	35	129
946	194	181
947	185	91
948	148	147
949	107	131
950	161	131
951	127	168
952	190	135
953	133	132
954	149	114
955	118	212
956	203	119
957	166	109
958	161	137
959	193	69
960	109	173
961	215	116
962	72	141
963	168	130
964	130	173
965	99	183
966	116	177
967	196	161
968	61	164
969	59	95
970	103	115
971	146	189
972	118	220
973	128	145
974	87	158
975	85	177
976	180	200
977	120	203
978	149	108
979	233	101
980	188	111
981	135	185
982	98	199
983	160	154
984	151	106
985	121	125
986	149	137
987	173	150
988	100	107
989	99	122
990	156	146
991	77	197
992	210	172
993	160	179
994	135	105
995	254	73
996	186	156
997	100	129
998	191	110
999	76	165
1000	127	208
1001	95	150
1002	131	92
1003	135	135
1004	184	126
1005	157	155

Como se puede ver aparecen dos columnas indicando el tratamiento del sujeto, es decir, cada fila no identifica a un único sujeto. Por ese motivo en cada una de ellas aparece el valor del nivel de creatinina. Para poder trabajar de forma óptima cada fila debe contener la información única de cada sujeto. En este caso cada fila contiene la información de dos sujetos: el identificado como 1 en el tratamiento A y el identificado como 1 en el tratamiento B.

La función gather()nos permite reorganizar los datos de un banco de datos de forma muy sencilla. La estructura básica de la función es:

gather(data_set,var, key = "key", value = "value", ...)

donde data_set es el banco de datos, var es el conjunto de variables que reorganizamos, key es el nombre de la variable donde reorganizamos las variables anteriores, y value es el nombre de la variable donde almacenamos los valores de respuesta. Para el conjunto de datos anterior tenemos:

gather(PCKDATA,`A`,`B`, key = "Grupo", value = creatine)

Tabla 2.2:
SUBJ	Grupo	creatine
1	A	193
2	A	90
3	A	120
4	A	154
5	A	149
6	A	146
7	A	180
8	A	128
9	A	180
10	A	66
11	A	129
12	A	170
13	A	121
14	A	135
15	A	133
16	A	165
17	A	125
18	A	129
19	A	118
20	A	109
21	A	89
22	A	115
23	A	119
24	A	200
25	A	158
26	A	130
27	A	197
28	A	165
29	A	80
30	A	161
31	A	189
32	A	175
33	A	120
34	A	117
35	A	44
36	A	102
37	A	174
38	A	99
39	A	126
40	A	47
41	A	132
42	A	177
43	A	144
44	A	177
45	A	161
46	A	84
47	A	180
48	A	198
49	A	158
50	A	116
51	A	176
52	A	111
53	A	109
54	A	181
55	A	108
56	A	57
57	A	155
58	A	239
59	A	103
60	A	158
61	A	240
62	A	136
63	A	182
64	A	176
65	A	113
66	A	158
67	A	118
68	A	184
69	A	116
70	A	124
71	A	173
72	A	241
73	A	141
74	A	150
75	A	172
76	A	179
77	A	146
78	A	89
79	A	149
80	A	140
81	A	100
82	A	124
83	A	90
84	A	99
85	A	208
86	A	225
87	A	203
88	A	130
89	A	99
90	A	209
91	A	185
92	A	190
93	A	148
94	A	88
95	A	141
96	A	62
97	A	256
98	A	198
99	A	150
100	A	145
101	A	201
102	A	164
103	A	207
104	A	178
105	A	145
106	A	139
107	A	60
108	A	125
109	A	140
110	A	148
111	A	59
112	A	128
113	A	135
114	A	173
115	A	82
116	A	175
117	A	140
118	A	140
119	A	187
120	A	165
121	A	126
122	A	142
123	A	167
124	A	120
125	A	154
126	A	125
127	A	131
128	A	119
129	A	129
130	A	111
131	A	150
132	A	153
133	A	55
134	A	118
135	A	131
136	A	171
137	A	137
138	A	175
139	A	60
140	A	202
141	A	175
142	A	140
143	A	133
144	A	104
145	A	129
146	A	118
147	A	265
148	A	171
149	A	110
150	A	114
151	A	153
152	A	110
153	A	190
154	A	187
155	A	131
156	A	115
157	A	130
158	A	182
159	A	152
160	A	192
161	A	64
162	A	148
163	A	182
164	A	135
165	A	202
166	A	84
167	A	121
168	A	90
169	A	187
170	A	137
171	A	138
172	A	187
173	A	137
174	A	204
175	A	148
176	A	185
177	A	120
178	A	125
179	A	196
180	A	207
181	A	145
182	A	83
183	A	174
184	A	118
185	A	136
186	A	123
187	A	86
188	A	102
189	A	102
190	A	150
191	A	222
192	A	174
193	A	179
194	A	188
195	A	75
196	A	96
197	A	152
198	A	150
199	A	130
200	A	161
201	A	77
202	A	103
203	A	127
204	A	146
205	A	130
206	A	200
207	A	90
208	A	83
209	A	122
210	A	122
211	A	233
212	A	154
213	A	125
214	A	164
215	A	187
216	A	192
217	A	99
218	A	97
219	A	140
220	A	137
221	A	178
222	A	207
223	A	123
224	A	151
225	A	206
226	A	102
227	A	166
228	A	171
229	A	154
230	A	197
231	A	111
232	A	148
233	A	78
234	A	192
235	A	239
236	A	131
237	A	67
238	A	42
239	A	121
240	A	180
241	A	70
242	A	81
243	A	167
244	A	119
245	A	109
246	A	175
247	A	152
248	A	94
249	A	64
250	A	127
251	A	77
252	A	190
253	A	169
254	A	158
255	A	111
256	A	123
257	A	39
258	A	152
259	A	211
260	A	149
261	A	137
262	A	79
263	A	127
264	A	116
265	A	150
266	A	130
267	A	59
268	A	205
269	A	149
270	A	149
271	A	177
271	A	147
273	A	153
274	A	185
275	A	140
276	A	119
277	A	88
278	A	137
279	A	173
280	A	59
281	A	199
282	A	160
283	A	80
284	A	122
285	A	131
286	A	73
287	A	229
288	A	242
289	A	97
290	A	127
291	A	132
292	A	84
293	A	120
294	A	161
295	A	137
296	A	194
297	A	178
298	A	205
299	A	114
300	A	120
301	A	93
302	A	125
303	A	114
304	A	190
305	A	136
306	A	114
307	A	109
308	A	164
309	A	70
310	A	56
311	A	156
312	A	72
313	A	74
314	A	74
315	A	126
316	A	53
317	A	158
318	A	182
319	A	101
320	A	127
321	A	114
322	A	201
323	A	137
324	A	79
325	A	181
326	A	86
327	A	109
328	A	120
329	A	101
330	A	184
331	A	169
332	A	125
333	A	169
334	A	123
335	A	170
336	A	83
337	A	121
338	A	121
339	A	199
340	A	94
341	A	195
342	A	92
343	A	212
344	A	164
345	A	216
346	A	178
347	A	219
348	A	142
349	A	143
350	A	104
351	A	124
352	A	122
353	A	158
354	A	129
355	A	83
356	A	144
357	A	183
358	A	132
359	A	134
360	A	97
361	A	179
362	A	141
363	A	98
364	A	191
365	A	181
366	A	165
367	A	119
368	A	161
369	A	103
370	A	159
371	A	130
372	A	115
373	A	120
374	A	189
375	A	125
376	A	125
377	A	190
378	A	127
379	A	105
380	A	98
381	A	154
382	A	113
383	A	68
384	A	191
385	A	190
386	A	191
387	A	153
388	A	141
389	A	143
390	A	71
391	A	135
392	A	153
393	A	145
394	A	117
395	A	163
396	A	185
397	A	213
398	A	96
399	A	39
400	A	226
401	A	88
402	A	151
403	A	140
404	A	124
405	A	165
406	A	50
407	A	159
408	A	131
409	A	154
410	A	140
411	A	126
412	A	79
413	A	120
414	A	163
415	A	110
416	A	147
417	A	153
418	A	191
419	A	217
420	A	102
421	A	242
422	A	179
423	A	115
424	A	76
425	A	156
426	A	205
427	A	114
428	A	96
429	A	99
430	A	170
431	A	141
432	A	162
433	A	179
434	A	205
435	A	114
436	A	165
437	A	121
438	A	130
439	A	250
440	A	90
441	A	95
442	A	163
443	A	157
444	A	92
445	A	173
446	A	98
447	A	155
448	A	192
449	A	152
450	A	158
451	A	189
452	A	120
453	A	131
454	A	159
455	A	98
456	A	124
457	A	83
458	A	148
459	A	131
460	A	186
461	A	151
462	A	88
463	A	149
464	A	89
465	A	104
466	A	148
467	A	103
468	A	106
469	A	69
470	A	49
471	A	173
472	A	163
473	A	207
474	A	134
475	A	125
476	A	73
477	A	160
478	A	205
479	A	213
480	A	254
481	A	67
482	A	172
483	A	138
484	A	158
485	A	221
486	A	76
487	A	207
488	A	110
489	A	196
490	A	102
491	A	202
492	A	139
493	A	87
494	A	237
495	A	169
496	A	222
497	A	181
498	A	65
499	A	207
500	A	56
501	A	221
502	A	173
503	A	183
504	A	224
505	A	97
506	A	206
507	A	81
508	A	124
509	A	136
510	A	143
511	A	136
512	A	170
513	A	118
514	A	72
515	A	146
516	A	130
517	A	178
518	A	91
519	A	133
520	A	165
521	A	176
522	A	110
523	A	235
524	A	54
525	A	160
526	A	161
527	A	173
528	A	107
529	A	132
530	A	147
531	A	124
532	A	129
533	A	273
534	A	90
535	A	209
536	A	229
537	A	105
538	A	173
539	A	154
540	A	149
541	A	92
542	A	129
543	A	141
544	A	198
545	A	114
546	A	124
547	A	222
548	A	107
549	A	147
550	A	220
551	A	82
552	A	178
553	A	196
554	A	248
555	A	186
556	A	101
557	A	116
558	A	157
559	A	167
560	A	113
561	A	135
562	A	162
563	A	140
564	A	111
565	A	240
566	A	61
567	A	56
568	A	165
569	A	160
570	A	191
571	A	146
572	A	64
573	A	148
574	A	125
575	A	193
576	A	251
577	A	154
578	A	68
579	A	217
580	A	264
581	A	115
582	A	153
583	A	152
584	A	177
585	A	117
586	A	87
587	A	199
588	A	143
589	A	219
590	A	136
591	A	98
592	A	161
593	A	201
594	A	165
595	A	120
596	A	23
597	A	180
598	A	123
599	A	220
600	A	148
601	A	113
602	A	162
603	A	115
604	A	73
605	A	116
606	A	173
607	A	48
608	A	161
609	A	183
610	A	128
611	A	95
612	A	212
613	A	119
614	A	140
615	A	99
616	A	194
617	A	178
618	A	142
619	A	123
620	A	131
621	A	205
622	A	136
623	A	173
624	A	188
625	A	172
626	A	130
627	A	108
628	A	140
629	A	193
630	A	81
631	A	212
632	A	169
633	A	175
634	A	195
635	A	130
636	A	140
637	A	130
638	A	63
639	A	67
640	A	202
641	A	127
642	A	200
643	A	91
644	A	129
645	A	116
646	A	163
647	A	127
648	A	148
649	A	123
650	A	232
651	A	172
652	A	155
653	A	50
654	A	134
655	A	102
656	A	183
657	A	94
658	A	103
659	A	117
660	A	122
661	A	48
662	A	145
663	A	130
664	A	114
665	A	159
666	A	127
667	A	168
668	A	178
669	A	135
670	A	151
671	A	181
672	A	109
673	A	184
674	A	90
675	A	107
676	A	186
677	A	207
678	A	142
679	A	62
680	A	154
681	A	196
682	A	141
683	A	170
684	A	207
685	A	109
686	A	201
687	A	170
688	A	200
689	A	76
690	A	148
691	A	111
692	A	78
693	A	32
694	A	217
695	A	166
696	A	79
697	A	184
698	A	199
699	A	178
700	A	202
701	A	141
702	A	121
703	A	169
704	A	158
705	A	211
706	A	241
707	A	120
708	A	243
709	A	99
710	A	192
711	A	115
712	A	83
713	A	163
714	A	197
715	A	134
716	A	260
717	A	186
718	A	139
719	A	64
720	A	257
721	A	99
722	A	155
723	A	150
724	A	179
725	A	153
726	A	181
727	A	142
728	A	115
729	A	166
730	A	91
731	A	216
732	A	121
733	A	204
734	A	193
735	A	113
736	A	91
737	A	175
738	A	198
739	A	185
740	A	166
741	A	93
742	A	152
743	A	170
744	A	124
745	A	112
746	A	153
747	A	179
748	A	94
749	A	217
750	A	139
751	A	176
752	A	74
753	A	146
754	A	114
755	A	213
756	A	143
757	A	171
758	A	124
759	A	83
760	A	91
761	A	107
762	A	98
763	A	130
764	A	150
765	A	189
766	A	178
767	A	177
768	A	164
769	A	157
770	A	116
771	A	165
772	A	167
773	A	126
774	A	191
775	A	253
776	A	167
777	A	181
778	A	128
779	A	192
780	A	164
781	A	195
782	A	200
783	A	132
784	A	135
785	A	160
786	A	160
787	A	50
788	A	153
789	A	85
790	A	133
791	A	172
792	A	139
793	A	103
794	A	145
795	A	143
796	A	170
797	A	208
798	A	119
799	A	100
800	A	138
801	A	159
802	A	168
803	A	250
804	A	209
805	A	114
806	A	221
807	A	217
808	A	145
809	A	240
810	A	123
811	A	144
812	A	142
813	A	172
814	A	103
815	A	143
816	A	186
817	A	79
818	A	135
819	A	124
820	A	88
821	A	215
822	A	76
823	A	166
824	A	221
825	A	92
826	A	137
827	A	201
828	A	169
829	A	126
830	A	218
831	A	144
832	A	269
833	A	126
834	A	96
835	A	119
836	A	121
837	A	188
838	A	185
839	A	165
840	A	180
841	A	65
842	A	66
843	A	109
844	A	131
845	A	142
846	A	138
847	A	178
848	A	165
849	A	121
850	A	93
851	A	134
852	A	139
853	A	138
854	A	74
855	A	34
856	A	77
857	A	96
858	A	200
859	A	138
860	A	175
861	A	134
862	A	164
863	A	106
864	A	153
865	A	203
866	A	160
867	A	68
868	A	207
869	A	139
870	A	122
871	A	128
872	A	244
873	A	70
874	A	82
875	A	163
876	A	265
877	A	203
878	A	213
879	A	75
880	A	152
881	A	110
882	A	155
883	A	181
884	A	142
885	A	65
886	A	150
887	A	236
888	A	196
889	A	146
890	A	160
891	A	148
892	A	205
893	A	162
894	A	204
895	A	128
896	A	201
897	A	76
898	A	206
899	A	157
900	A	123
901	A	116
902	A	113
903	A	79
904	A	156
905	A	113
906	A	132
907	A	141
908	A	159
909	A	56
910	A	141
911	A	260
912	A	113
913	A	110
914	A	120
915	A	143
916	A	248
917	A	162
918	A	159
919	A	155
920	A	205
921	A	143
922	A	216
923	A	164
924	A	168
925	A	78
926	A	188
927	A	193
928	A	88
929	A	169
930	A	148
931	A	111
932	A	164
933	A	119
934	A	146
935	A	112
936	A	141
937	A	70
938	A	93
939	A	137
940	A	105
941	A	129
942	A	223
943	A	135
944	A	172
945	A	35
946	A	194
947	A	185
948	A	148
949	A	107
950	A	161
951	A	127
952	A	190
953	A	133
954	A	149
955	A	118
956	A	203
957	A	166
958	A	161
959	A	193
960	A	109
961	A	215
962	A	72
963	A	168
964	A	130
965	A	99
966	A	116
967	A	196
968	A	61
969	A	59
970	A	103
971	A	146
972	A	118
973	A	128
974	A	87
975	A	85
976	A	180
977	A	120
978	A	149
979	A	233
980	A	188
981	A	135
982	A	98
983	A	160
984	A	151
985	A	121
986	A	149
987	A	173
988	A	100
989	A	99
990	A	156
991	A	77
992	A	210
993	A	160
994	A	135
995	A	254
996	A	186
997	A	100
998	A	191
999	A	76
1000	A	127
1001	A	95
1002	A	131
1003	A	135
1004	A	184
1005	A	157
1	B	250
2	B	173
3	B	135
4	B	49
5	B	83
6	B	123
7	B	126
8	B	177
9	B	164
10	B	121
11	B	200
12	B	75
13	B	182
14	B	169
15	B	234
16	B	67
17	B	53
18	B	119
19	B	241
20	B	138
21	B	113
22	B	112
23	B	104
24	B	115
25	B	224
26	B	138
27	B	223
28	B	172
29	B	68
30	B	164
31	B	232
32	B	106
33	B	266
34	B	190
35	B	153
36	B	59
37	B	119
38	B	93
39	B	162
40	B	130
41	B	89
42	B	197
43	B	189
44	B	207
45	B	109
46	B	147
47	B	193
48	B	110
49	B	87
50	B	135
51	B	115
52	B	159
53	B	115
54	B	114
55	B	202
56	B	134
57	B	64
58	B	79
59	B	96
60	B	181
61	B	91
62	B	167
63	B	200
64	B	236
65	B	126
66	B	185
67	B	141
68	B	180
69	B	60
70	B	137
71	B	195
72	B	172
73	B	116
74	B	229
75	B	142
76	B	131
77	B	155
78	B	152
79	B	246
80	B	169
81	B	99
82	B	163
83	B	124
84	B	189
85	B	79
86	B	76
87	B	154
88	B	182
89	B	100
90	B	140
91	B	115
92	B	190
93	B	193
94	B	146
95	B	143
96	B	163
97	B	157
98	B	161
99	B	192
100	B	105
101	B	162
102	B	201
103	B	203
104	B	179
105	B	132
106	B	158
107	B	147
108	B	147
109	B	161
110	B	58
111	B	91
112	B	151
113	B	183
114	B	153
115	B	130
116	B	126
117	B	176
118	B	56
119	B	160
120	B	183
121	B	157
122	B	132
123	B	183
124	B	201
125	B	122
126	B	159
127	B	115
128	B	150
129	B	93
130	B	104
131	B	228
132	B	184
133	B	108
134	B	159
135	B	134
136	B	134
137	B	86
138	B	102
139	B	164
140	B	133
141	B	164
142	B	175
143	B	93
144	B	137
145	B	130
146	B	158
147	B	160
148	B	211
149	B	71
150	B	215
151	B	116
152	B	119
153	B	154
154	B	139
155	B	169
156	B	14
157	B	74
158	B	130
159	B	105
160	B	145
161	B	179
162	B	143
163	B	220
164	B	213
165	B	124
166	B	167
167	B	121
168	B	162
169	B	133
170	B	72
171	B	88
172	B	193
173	B	96
174	B	157
175	B	102
176	B	157
177	B	145
178	B	113
179	B	185
180	B	79
181	B	154
182	B	184
183	B	90
184	B	146
185	B	175
186	B	176
187	B	172
188	B	109
189	B	136
190	B	102
191	B	148
192	B	96
193	B	210
194	B	21
195	B	116
196	B	152
197	B	187
198	B	149
199	B	168
200	B	134
201	B	213
202	B	55
203	B	152
204	B	74
205	B	24
206	B	106
207	B	192
208	B	111
209	B	112
210	B	178
211	B	176
212	B	150
213	B	194
214	B	193
215	B	143
216	B	157
217	B	154
218	B	69
219	B	69
220	B	181
221	B	223
222	B	121
223	B	187
224	B	155
225	B	159
226	B	150
227	B	55
228	B	147
229	B	148
230	B	112
231	B	103
232	B	110
233	B	140
234	B	124
235	B	101
236	B	120
237	B	183
238	B	178
239	B	80
240	B	126
241	B	164
242	B	193
243	B	182
244	B	146
245	B	119
246	B	184
247	B	162
248	B	120
249	B	186
250	B	193
251	B	210
252	B	184
253	B	160
254	B	53
255	B	122
256	B	185
257	B	147
258	B	177
259	B	159
260	B	70
261	B	89
262	B	309
263	B	132
264	B	166
265	B	190
266	B	169
267	B	122
268	B	136
269	B	78
270	B	243
271	B	162
271	B	174
273	B	179
274	B	119
275	B	171
276	B	90
277	B	78
278	B	131
279	B	175
280	B	113
281	B	122
282	B	129
283	B	182
284	B	107
285	B	147
286	B	115
287	B	136
288	B	124
289	B	138
290	B	85
291	B	70
292	B	151
293	B	155
294	B	203
295	B	91
296	B	143
297	B	161
298	B	178
299	B	77
300	B	195
301	B	181
302	B	91
303	B	99
304	B	128
305	B	129
306	B	138
307	B	190
308	B	178
309	B	173
310	B	67
311	B	116
312	B	159
313	B	140
314	B	162
315	B	90
316	B	154
317	B	178
318	B	157
319	B	192
320	B	153
321	B	171
322	B	120
323	B	178
324	B	240
325	B	122
326	B	52
327	B	126
328	B	187
329	B	112
330	B	192
331	B	144
332	B	82
333	B	91
334	B	113
335	B	151
336	B	155
337	B	150
338	B	216
339	B	83
340	B	138
341	B	199
342	B	126
343	B	71
344	B	80
345	B	152
346	B	181
347	B	115
348	B	179
349	B	175
350	B	134
351	B	139
352	B	165
353	B	13
354	B	183
355	B	137
356	B	101
357	B	202
358	B	139
359	B	163
360	B	114
361	B	106
362	B	150
363	B	188
364	B	62
365	B	130
366	B	275
367	B	184
368	B	138
369	B	154
370	B	37
371	B	19
372	B	216
373	B	128
374	B	17
375	B	224
376	B	169
377	B	128
378	B	140
379	B	157
380	B	118
381	B	152
382	B	140
383	B	143
384	B	138
385	B	99
386	B	115
387	B	157
388	B	178
389	B	142
390	B	218
391	B	117
392	B	212
393	B	193
394	B	101
395	B	100
396	B	163
397	B	221
398	B	100
399	B	95
400	B	132
401	B	149
402	B	167
403	B	101
404	B	116
405	B	124
406	B	149
407	B	222
408	B	101
409	B	218
410	B	132
411	B	202
412	B	76
413	B	151
414	B	56
415	B	70
416	B	257
417	B	172
418	B	121
419	B	155
420	B	154
421	B	117
422	B	219
423	B	66
424	B	125
425	B	230
426	B	224
427	B	151
428	B	108
429	B	155
430	B	156
431	B	196
432	B	131
433	B	90
434	B	140
435	B	149
436	B	44
437	B	193
438	B	139
439	B	188
440	B	190
441	B	211
442	B	171
443	B	164
444	B	135
445	B	123
446	B	174
447	B	123
448	B	92
449	B	142
450	B	259
451	B	142
452	B	147
453	B	157
454	B	87
455	B	164
456	B	217
457	B	156
458	B	201
459	B	140
460	B	134
461	B	146
462	B	168
463	B	130
464	B	189
465	B	168
466	B	143
467	B	83
468	B	139
469	B	86
470	B	121
471	B	160
472	B	114
473	B	202
474	B	156
475	B	204
476	B	170
477	B	160
478	B	183
479	B	57
480	B	152
481	B	133
482	B	237
483	B	82
484	B	170
485	B	149
486	B	102
487	B	164
488	B	165
489	B	157
490	B	193
491	B	141
492	B	134
493	B	176
494	B	113
495	B	140
496	B	45
497	B	157
498	B	102
499	B	68
500	B	108
501	B	40
502	B	126
503	B	129
504	B	155
505	B	229
506	B	198
507	B	178
508	B	142
509	B	201
510	B	135
511	B	99
512	B	43
513	B	143
514	B	121
515	B	110
516	B	197
517	B	200
518	B	87
519	B	171
520	B	161
521	B	140
522	B	42
523	B	192
524	B	109
525	B	97
526	B	119
527	B	75
528	B	164
529	B	90
530	B	196
531	B	193
532	B	125
533	B	110
534	B	178
535	B	146
536	B	217
537	B	141
538	B	181
539	B	225
540	B	65
541	B	144
542	B	114
543	B	191
544	B	192
545	B	150
546	B	159
547	B	139
548	B	169
549	B	156
550	B	21
551	B	156
552	B	91
553	B	121
554	B	122
555	B	111
556	B	124
557	B	146
558	B	109
559	B	173
560	B	95
561	B	206
562	B	158
563	B	134
564	B	152
565	B	167
566	B	141
567	B	158
568	B	192
569	B	131
570	B	124
571	B	192
572	B	146
573	B	110
574	B	170
575	B	201
576	B	91
577	B	131
578	B	214
579	B	153
580	B	186
581	B	148
582	B	125
583	B	155
584	B	132
585	B	171
586	B	69
587	B	93
588	B	152
589	B	205
590	B	128
591	B	165
592	B	210
593	B	155
594	B	71
595	B	177
596	B	118
597	B	182
598	B	157
599	B	196
600	B	119
601	B	156
602	B	209
603	B	154
604	B	128
605	B	92
606	B	127
607	B	93
608	B	191
609	B	212
610	B	97
611	B	141
612	B	191
613	B	128
614	B	75
615	B	166
616	B	132
617	B	68
618	B	139
619	B	73
620	B	73
621	B	149
622	B	136
623	B	52
624	B	134
625	B	72
626	B	67
627	B	96
628	B	100
629	B	184
630	B	224
631	B	58
632	B	193
633	B	150
634	B	135
635	B	151
636	B	138
637	B	207
638	B	158
639	B	223
640	B	124
641	B	129
642	B	173
643	B	179
644	B	142
645	B	93
646	B	101
647	B	166
648	B	177
649	B	88
650	B	153
651	B	74
652	B	111
653	B	176
654	B	125
655	B	122
656	B	170
657	B	96
658	B	200
659	B	170
660	B	204
661	B	146
662	B	136
663	B	123
664	B	101
665	B	106
666	B	129
667	B	169
668	B	109
669	B	87
670	B	70
671	B	160
672	B	136
673	B	125
674	B	247
675	B	131
676	B	82
677	B	104
678	B	167
679	B	99
680	B	176
681	B	114
682	B	201
683	B	148
684	B	154
685	B	155
686	B	128
687	B	192
688	B	199
689	B	99
690	B	159
691	B	91
692	B	98
693	B	158
694	B	106
695	B	219
696	B	177
697	B	143
698	B	192
699	B	109
700	B	61
701	B	229
702	B	158
703	B	134
704	B	130
705	B	106
706	B	117
707	B	210
708	B	252
709	B	119
710	B	122
711	B	45
712	B	130
713	B	99
714	B	187
715	B	84
716	B	160
717	B	103
718	B	53
719	B	118
720	B	164
721	B	128
722	B	141
723	B	192
724	B	183
725	B	222
726	B	129
727	B	178
728	B	114
729	B	157
730	B	145
731	B	148
732	B	126
733	B	194
734	B	176
735	B	174
736	B	198
737	B	121
738	B	109
739	B	145
740	B	184
741	B	201
742	B	122
743	B	190
744	B	118
745	B	124
746	B	161
747	B	151
748	B	150
749	B	96
750	B	136
751	B	173
752	B	229
753	B	192
754	B	235
755	B	164
756	B	173
757	B	145
758	B	132
759	B	178
760	B	107
761	B	136
762	B	177
763	B	74
764	B	113
765	B	72
766	B	96
767	B	151
768	B	151
769	B	117
770	B	112
771	B	89
772	B	177
773	B	109
774	B	106
775	B	188
776	B	90
777	B	162
778	B	161
779	B	120
780	B	160
781	B	160
782	B	128
783	B	140
784	B	141
785	B	89
786	B	191
787	B	144
788	B	54
789	B	147
790	B	218
791	B	172
792	B	132
793	B	125
794	B	125
795	B	144
796	B	145
797	B	79
798	B	140
799	B	180
800	B	203
801	B	148
802	B	164
803	B	127
804	B	156
805	B	116
806	B	170
807	B	145
808	B	228
809	B	137
810	B	136
811	B	162
812	B	132
813	B	119
814	B	97
815	B	168
816	B	72
817	B	116
818	B	151
819	B	200
820	B	155
821	B	139
822	B	151
823	B	94
824	B	202
825	B	108
826	B	334
827	B	134
828	B	171
829	B	91
830	B	102
831	B	83
832	B	154
833	B	221
834	B	188
835	B	30
836	B	102
837	B	207
838	B	112
839	B	216
840	B	98
841	B	166
842	B	180
843	B	122
844	B	186
845	B	110
846	B	190
847	B	191
848	B	234
849	B	184
850	B	223
851	B	158
852	B	162
853	B	121
854	B	143
855	B	150
856	B	134
857	B	48
858	B	173
859	B	124
860	B	133
861	B	103
862	B	137
863	B	85
864	B	179
865	B	176
866	B	100
867	B	204
868	B	173
869	B	141
870	B	123
871	B	200
872	B	111
873	B	143
874	B	117
875	B	70
876	B	169
877	B	206
878	B	159
879	B	177
880	B	135
881	B	103
882	B	105
883	B	115
884	B	52
885	B	161
886	B	111
887	B	156
888	B	56
889	B	105
890	B	90
891	B	137
892	B	164
893	B	156
894	B	154
895	B	195
896	B	181
897	B	163
898	B	181
899	B	101
900	B	164
901	B	129
902	B	191
903	B	169
904	B	169
905	B	196
906	B	140
907	B	90
908	B	179
909	B	171
910	B	92
911	B	162
912	B	134
913	B	117
914	B	130
915	B	145
916	B	96
917	B	115
918	B	128
919	B	208
920	B	96
921	B	173
922	B	99
923	B	120
924	B	183
925	B	193
926	B	150
927	B	174
928	B	119
929	B	154
930	B	137
931	B	112
932	B	113
933	B	64
934	B	130
935	B	188
936	B	199
937	B	186
938	B	120
939	B	112
940	B	112
941	B	134
942	B	54
943	B	173
944	B	199
945	B	129
946	B	181
947	B	91
948	B	147
949	B	131
950	B	131
951	B	168
952	B	135
953	B	132
954	B	114
955	B	212
956	B	119
957	B	109
958	B	137
959	B	69
960	B	173
961	B	116
962	B	141
963	B	130
964	B	173
965	B	183
966	B	177
967	B	161
968	B	164
969	B	95
970	B	115
971	B	189
972	B	220
973	B	145
974	B	158
975	B	177
976	B	200
977	B	203
978	B	108
979	B	101
980	B	111
981	B	185
982	B	199
983	B	154
984	B	106
985	B	125
986	B	137
987	B	150
988	B	107
989	B	122
990	B	146
991	B	197
992	B	172
993	B	179
994	B	105
995	B	73
996	B	156
997	B	129
998	B	110
999	B	165
1000	B	208
1001	B	150
1002	B	92
1003	B	135
1004	B	126
1005	B	155

Podemos ver que se han reorganizado las filas de la base de datos. De hecho se han duplicado el número de filas (hemos ampliado dos variables) y ahora cada columna identifica claramente la información de un sujeto.

2.4 Análisis Descriptivo inicial

Esta sección muestra los procedimientos de análisis estadístico descriptivo para el estudio de una o dos variables de tipo numérico y/o categórico. Las situaciones que se plantean son:

Una variable de tipo factor.
Una variable de tipo numérico.
Dos variables categóricas.
Dos variables numéricas.
Una variable categórica y una variable numérica.

Este es el primer paso del EDA y sirve al investigador para plantear o responder las primeras preguntas de interés sobre sus datos. Para ilustrar los procedimientos utilizaremos el conjunto de datos storms de la librería nasaweather. Estos datos son un subconjunto de la base de datos de la NASA sobre los huracanes en el Atlántico Norte (NOAA). Los datos incluyen las posiciones y atributos de 198 tormentas tropicales, medidas cada seis horas durante la vida de la tormenta. Las variables registradas son:

name: Nombre de la tormenta
year, month, day: Año, mes y día del informe de la tormenta
hour: Hora del informe (en UTC)
lat, long: Latitud y longitud de la tormenta
pressure: Presión atmosférica en el centro de la tormenta (en milibares)
wind: Máxima velocidad sostenida de la tormenta (en nudos)
type: Clasificación de la tormenta (Tropical Depression, Tropical Storm, or Hurricane)
seasday: día de la temporada de tormentas

library(nasaweather)
# Guardamos los datos en un nuevo objeto
storm <- nasaweather::storms 
# Estructura de los datos
str(storm)

Dado que las variables year y month no vienen definidas como factores, el primer paso es convertirlas en factores. En este caso vamos a utilizar una versión diferente de la vista en el tema anterior para convertir varaibles enteras a factores.

# Primero creamos el factor año
storm$year_f <- factor(storm$year)
# Asignamos los niveles
levels(storm$year_f) <- as.character(1995:2000)
# Ahora el factor mes
storm$month_f <- factor(storm$month)
# Asignamos los niveles
levels(storm$month_f) <- c("June", "July", "August", "September", 
                           "October", "November", "December")
# Veamos como queda el banco de datos
str(storm)

## tibble [2,747 × 13] (S3: tbl_df/tbl/data.frame)
##  $ name    : chr [1:2747] "Allison" "Allison" "Allison" "Allison" ...
##  $ year    : int [1:2747] 1995 1995 1995 1995 1995 1995 1995 1995 1995 1995 ...
##  $ month   : int [1:2747] 6 6 6 6 6 6 6 6 6 6 ...
##  $ day     : int [1:2747] 3 3 3 3 4 4 4 4 5 5 ...
##  $ hour    : int [1:2747] 0 6 12 18 0 6 12 18 0 6 ...
##  $ lat     : num [1:2747] 17.4 18.3 19.3 20.6 22 23.3 24.7 26.2 27.6 28.5 ...
##  $ long    : num [1:2747] -84.3 -84.9 -85.7 -85.8 -86 -86.3 -86.2 -86.2 -86.1 -85.6 ...
##  $ pressure: int [1:2747] 1005 1004 1003 1001 997 995 987 988 988 990 ...
##  $ wind    : int [1:2747] 30 30 35 40 50 60 65 65 65 60 ...
##  $ type    : chr [1:2747] "Tropical Depression" "Tropical Depression" "Tropical Storm" "Tropical Storm" ...
##  $ seasday : int [1:2747] 3 3 3 3 4 4 4 4 5 5 ...
##  $ year_f  : Factor w/ 6 levels "1995","1996",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ month_f : Factor w/ 7 levels "June","July",..: 1 1 1 1 1 1 1 1 1 1 ...

A lo largo de cada una de las secciones siguientes se irán introduciendo las funciones y procedimientos necesarias para cada análisis en función de la variable o variables que se desean analizar.

2.4.1 Una variable factor

En esta sección se considera cómo explorar la distribución de una variable categórica. Se presentan las descriptivas básicas y visualizaciones que son apropiadas para las variables categóricas. Para ejemplificar los procedimientos utilizaremos la variable type que identifica el tipo de tormenta.

Explorar variables categóricas es generalmente más simple que trabajar con variables numéricas porque tenemos menos respuestas posibles. La primera pregunta que nos debemos plantear es is la variables categórica es de tipo nominal u ordinal. Esto tiene un efecto relevante a la hora de presentar y visualizar la información. La variable type es una variable categórica de tipo ordinal debido a que las tormentas son clasificadas según su virulencia.

2.4.1.1 Resúmenes numéricos

Cuando calculamos resúmenes de variables categóricas, intentamos describir la distribución muestral de la variable mediante el recuento de ocurrencias de cada una de las posibles respuestas de la variable. Estos recuentos es lo que denominamos en estadística frecuencias absolutas. Necesitamos entender qué categorías son comunes y cuáles son raras. Asociado a dichas frecuencias absolutas podemos obtener las frecuencias relativas, o más frecuentemente los porcentajes de cada una de las posibles categorías de la variable.

Si \(F_i\) es la frecuencia absoluta de la categoría \(i\) de la variable y \(n\) es el tamaño de la muestra, se define la frecuencia relativa de la categoría \(i\) (\(f_i\)) como:

\[\begin{equation} f_i =\frac{F_i}{n} \tag{2.1} \end{equation}\]

El porcentaje de la categoría \(i\) es simplemente \(100 * f_i\). La forma más sencilla para obtener la tabla de frecuencias absoluta asociada con una variable categórica es la función table().

table(storm$type)

## 
##       Extratropical           Hurricane Tropical Depression      Tropical Storm 
##                 412                 896                 513                 926

Para obtener los porcentajes en lugar de los conteos podemos utilizar le código siguiente

type_counts <- table(storm$type)
round(type_counts / sum(type_counts),2) # Redondeamos a dos decimales

## 
##       Extratropical           Hurricane Tropical Depression      Tropical Storm 
##                0.15                0.33                0.19                0.34

Sin embargo, hay otra opción un poco más compleja pero que nos servirá de utilidad para el resto de esta unidad y que pasamos a mostrar a continuación. Es una combinación del operador de anidamiento %>%, de la función de agrupación (group_by()), de la función de resumen (summarise()), y de la función de conteos (n()).

# banco de datos
tabla_tipo <- storm %>%  # agrupamos por la variable factor
  group_by(type) %>%     # resumimos contando el número de casos de cada nivel del factor
  summarise(n=n())       # Para calcular los porcentajes
mutate(tabla_tipo,percent=round(100*n/sum(n),2))

Tabla 2.3:
type	n	percent
Extratropical	412	15
Hurricane	896	32.6
Tropical Depression	513	18.7
Tropical Storm	926	33.7

Aunque esta forma es más costosa cuando tenemos únicamente una variable nos resultará de más utilidad cuando deseemos realizar análisis que involucren un mayor número de variables.

Podemos ver que mayoritariamente se han producido Tormentas Tropicales (33.71%) y Huracanes (32.62%). Estos dos tipos suman más de dos tercios de los ecentos registrados. Por contra los eventos menos abundantes han sido las Depresiones Tropicales (18.67%) y las Extratropicales (15.00%).

Las funciones más habituales que se utilizan con summarise() son:

Localización: mean() (media), median() (mediana)
Escala: sd() (desviación típica), IQR() (rango intercuartílico)
Rango: min() (mínimo), max() (máximo), quantile() (cuantil)
Posición: first() (primero), last() (último), nth() (posición n-ésima)
Conteo: n() (número de casos), n_distinct() (número de casos distintos)

La mayoría se usan exclusivamente para variables de tipo numérico.

2.4.1.2 Visualización gráfica

En este apartado veremos como representar los datos de los conteos de una variable categórica mediante la función ’ggplot`. Esta función permite realizar casi cualquier tipo de gráfico que podamos imaginar. En este punto vamos a ir presentando diferentes parámetros de dicha función para ir familiarizándonos con su uso.

2.4.1.2.1 Gráfico barras

La herramienta gráfica más común utilizada para resumir una variable categórica es un gráfico de barras. Un gráfico de barras (o gráfico de barras) es un gráfico que presenta resúmenes de datos agrupados con barras rectangulares. La longitud de las barras es proporcional a los valores que representan. Al resumir una sola variable categórica, la longitud de las barras debe mostrar los recuentos brutos o las proporciones de cada categoría.

Para realizar este gráfico con la función ggplotnecesitamos identificar el conjunto de datos sobre el que vamos a trabajar y la variable que queremos representar:

# Configuramos el gráfico identificando los datos y la variable de interés
bar_plt <- ggplot(storm, aes(x = type)) 
bar_plt <- bar_plt + geom_bar() # Seleccionamos el tipo gráfico
bar_plt                         # Representamos el gráfico

Figura 2.1: Gráfico de barras del tipo de tormenta.

Podemos personalizar este gráfico de barras si es necesario con funciones como xlab y ylab, y configurando varias propiedades dentro de geom_bar. Por ejemplo:

# Retocamos las barras para que aparezcan en azul y con un ancho inferior
# En este caso no almacenamos el gráfico sino que lo ejecutamos directamente
ggplot(storm, aes(x = type)) + 
  geom_bar(fill = "blue", width = 0.7) + 
  xlab("Tipo de Tormenta") + ylab("Número de observaciones")

Figura 2.2: Gráfico de barras del tipo de tormenta (versión 2).

Como podemos ver tanto en las tablas obtenidas como en los dos gráficos precedentes la escala del tipo de tormenta no está ordenada, es decir, no la tenemos graduada por la relevancia de la tormenta. Veamos como podemos hacer esto e integrarlo en el gráfico:

# Creamos un vector con el orden predefinido
ords <- c("Tropical Depression", "Extratropical", "Tropical Storm", "Hurricane")
# Generamos el gráfico indica que el eje x tiene escala dada por el vector ordenado
ggplot(storm, aes(x = type)) + 
  geom_bar(fill = "blue", width = 0.7) + 
  scale_x_discrete(limits = ords) +
  xlab("Tipo de Tormenta") + ylab("Número de observaciones")

Figura 2.3: Gráfico de barras del tipo de tormenta (versión 3).

Ahora el gráfico si está ordenado con la escala adecuada y resulta más fácil cuantificar la relevancia de las tormentas más importantes. También podemos intercambiar las filas por las columnas para una mejor visualización de las etiquetas de la variable categórica. Para ello utilizamos el parámetro coord_flip():

ggplot(storm, aes(x = type)) + 
  geom_bar(fill = "blue", width = 0.7) + 
  scale_x_discrete(limits = ords) +
  coord_flip() + 
  xlab("Tipo de Tormenta") + ylab("Número de observaciones")

Figura 2.4: Gráfico de barras del tipo de tormenta (versión 4).

Por último utilizamos la función theme_bw() para configurar un fondo blanco para el gráfico. Otras posibilidades para los temas son theme_classic(), theme_dark(), theme_grey(), theme_light().

ggplot(storm, aes(x = type)) + 
  geom_bar(fill = "blue", width = 0.7) + 
  scale_x_discrete(limits = ords) +
  coord_flip() + 
  xlab("Tipo de Tormenta") + ylab("Número de observaciones")+
  theme_bw()

Figura 2.5: Gráfico de barras del tipo de tormenta (versión 5).

En lugar de representar los contesos podemos visualizar los porcentajes asociados a cada categoría en lugar de los conteos haciendo uso de la variable ..prop.. en la configuración de geom_bar(). Se debe modificar la escala de la varaible para indicar que estamos representando porcentajes (labels = scales::percent):

ggplot(storm, aes(x = type)) + 
  geom_bar(aes(y = ..prop.. , group = 1),fill = "blue", width = 0.7) + 
  scale_y_continuous(labels = scales::percent) +
  coord_flip() + 
  xlab("Tipo de Tormenta") + ylab("Porcentaje")+
  theme_bw()

Figura 2.6: Gráfico de barras del porcentaje de cada tipo de tormenta.

2.4.2 Una variable numérica

En esta sección se considera cómo explorar la distribución de una variable numérica Se presentan las descriptivas básicas y visualizaciones que son apropiadas para las variables de este tipo. Para ejemplificar los procedimientos utilizaremos las variables wind y pressure.

2.4.2.1 Resúmenes numéricos

Hasta ahora hemos estado describiendo las propiedades de las distribuciones de muestra en términos muy generales, usando frases como “valores más comunes” y “el rango de los datos” sin decir realmente lo que queremos decir. Los estadísticos han ideado términos específicos para describir este tipo de propiedades, así como diferentes estadísticas descriptivas para cuantificarlas. Los dos que más importan son la tendencia central y la dispersión:

Una medida de tendencia central describe un valor típico (‘central’) de una distribución de datos. La medida de localización más extendida es la media aritmética de una muestra. Hay muchas medidas diferentes de tendencia central, cada una con sus propios pros y contras. Entre estos, la mediana es la que se usa con mayor frecuencia en los análisis exploratorios ya que es le valor que nos divide la muestra de dos partes iguales situando el 50% de los datos a cada lado de ese valor.
Una medida de dispersión describe cómo se distribuye una distribución. Las medidas de dispersión cuantifican la variabilidad o dispersión de una variable con respecto al promedio de los datos. Si una distribución está más dispersa que otra, significa que, en cierto sentido, abarca una gama más amplia de valores. Lo que esto significa en la práctica depende del tipo de medida con la que estamos trabajando. Las medidas de dispersión más habituales son la varianza y su raíz cuadrada, la desviación estándar.

2.4.2.1.1 Medidas de tendencia central

Hay dos estadísticos que se utilizan generalmente para describir la tendencia central de la distribución de los datos muestrales de un variable numérica. De ahora en adelante denotamos por \(n\) al tamaño muestral y \(x_1, x_2,...,x_n\) los valores muestrales de la variable que deseamos estudiar.

La media muestral es la medida de tendencia muestral por excelencia. La definición matemática de la media muestral viene dada por: \[\begin{equation} \bar{x} = \frac{\sum_{i=1}^n x_i}{n} \tag{2.2} \end{equation}\]

Para obtener la media utilizamos la función mean()

mean(storm$wind)

## [1] 54.68329

mean(storm$pressure)

## [1] 989.8238

Esto nos dice que la media de la velocidad del viento es de 55 mph y que la media de la presión es de 989.82 milibares. ¿Como podemos interpretar esos resultados?

Una limitación de la media aritmética es que se ve afectada por la forma de la distribución de los datos. Es muy sensible a los extremos de una muestra. Esta es la razón por la cual, por ejemplo, no tiene mucho sentido mirar el ingreso medio de los trabajadores en un país para tener una idea de lo que gana una persona “típica.” La distribución del ingreso es muy asimétrica, y los pocos que tienen la suerte de ganar salarios muy buenos tienden a cambiar la media hacia arriba y superar cualquier cosa que sea realmente “típica.” La media de la muestra también se ve fuertemente afectada por la presencia de ‘valores atípicos’ o valores extremos, es decir, valores inusualmente grandes o pequeños en una muestra.

Debido a que la media muestral es sensible a la forma de una distribución y la presencia de valores atípicos, a menudo se prefiere una segunda medida de tendencia central: la mediana de la muestra. La mediana de una muestra es el número que separa los datos en dos subgrupos (la mitad superior de la mitad inferior). Podemos calcular la mediana muestral en R con la función median():

median(storm$wind)

## [1] 50

median(storm$pressure)

## [1] 995

Estos resultados indican que el 50% de de los registros muestran una valor de viento inferior a 50 mph. De la misma forma el 50% de los datos muestran una valor de la presión inferior a 995 milibares.

Otras medidas de localización son el mínimo, el máximo y los percentiles. Los percentiles son los valores que dividen en la muestra según el valor del percentil solicitado. Si solicitamos el percentil 20, se separa la muestra en dos subconjuntos dejando el 20% en un grupo y e 80% en el otro. Los percentiles más habituales son lo denominados primer y tercer cuartil que corresponden a los percentiles 25 y 75 respectivamente. Para obtener el percentil asociado a una variable numérica podemos hacer uso de la función quantile(). Para ver como se debe utilizar es útil consultar la ayuda de dicha función help(quantile).

2.4.2.1.2 Medidas de dispersión

Hay muchas maneras de cuantificar la dispersión de un conjunto de datos muestrales de una variable numérica. Los valores más importantes desde el punto de vista estadístico son la varianza muestral y la desviación estándar. La varianza muestral \(s^2\) es “la suma de las desviaciones cuadradas” (es decir, las diferencias) de cada observación con respecto a la media de la muestra, dividida por el tamaño de la muestra menos uno. La desviación típica es la raíz cuadrada de la varianza muestral. Las definiciones matemáticas de ambas cantidades son: \[\begin{equation} s^2 = \frac{\sum_{i=1}^n (x_i-\bar{x})^2}{n-1} \tag{2.3} \end{equation}\]

\[\begin{equation} s = \sqrt{s^2} \tag{2.4} \end{equation}\]

Las funciones de R para calcular ambas cantidades son var() para la varianza y sd() para la desviación típica.

var(storm$wind);sd(storms$wind)

## [1] 668.1444

## [1] 25.84849

var(storm$pressure);sd(storms$pressure)

## [1] 349.4912

## [1] 18.69468

¿Qué significa ese número en realidad? Las variaciones son siempre no negativas. Una pequeña varianza indica que las observaciones tienden a ser cercanas a la media (y una a la otra), mientras que una alta varianza indica que las observaciones están muy dispersas. Una varianza de cero solo ocurre si todos los valores son idénticos. Sin embargo, es difícil interpretar si una varianza muestral es realmente “pequeña” o “grande” porque el cálculo involucra desviaciones al cuadrado. Por ejemplo, cambiar la escala de medición de una variable por 10 implica un cambio de 100 veces (102) en la varianza.

La varianza es una cantidad importante en las estadísticas que aparece una y otra vez. Muchas herramientas estadísticas comunes usan cambios en la varianza para comparar formalmente qué tan bien diferentes modelos describen un conjunto de datos. Sin embargo, es muy difícil interpretar las variaciones, por lo que rara vez las utilizamos en el trabajo exploratorio. Para expresar la variabilidad en la misma escala de la variable original utilizamos la desviación típica. En este caso se puede observar una mayor variabilidad en la variable presión atmosférica (desviación típica de 25.84 milibares) que en la variable de viento (18.69 mph).

La desviación estándar de la muestra no está exenta de problemas. Al igual que la media muestral, es sensible a la forma de la distribución de los datos y a la presencia de valores atípicos. Una medida de dispersión más robusta para este tipo de características es el rango intercuartílico, definida como la diferencia entre el percentil 75 (tercer cuartil) y el percentil 25 (primer cuartil):

\[\begin{equation} IQR = Q_3 - Q_1 \tag{2.5} \end{equation}\]

Obviamente, cuanto más dispersos estén los datos, mayor será el IQR. La razón por la que preferimos usar IQR para medir la dispersión es que solo depende de los datos en el “medio” de una distribución de muestra. Esto lo hace robusto a la presencia de valores atípicos. Podemos usar la función IQR() para calcular el rango intercuartílico:

IQR(storm$wind)

## [1] 35

IQR(storm$pressure)

## [1] 24

La última medidad de dispersión que veremos es el coeficiente de variación. Esta medida es una de las más habituales y se obtiene a partir de la media y desviación típica muestral como: \[\begin{equation} CV = \frac{s}{\bar{x}} \tag{2.6} \end{equation}\]

Su fórmula expresa la desviación estándar como porcentaje de la media aritmética, mostrando una interpretación relativa del grado de variabilidad, independiente de la escala de la variable, a diferencia de la desviación típica o estándar. De esta forma, valores bajos del coeficiente de variación expresan menor variabilidad, lo que resulta de utilidad cuando deseamos comparar la variabilidad de dos muestras independeintemente de su media. El mayor problema es que sólo puede ser usado cuando la media muestral es positiva.

2.4.2.1.3 Resúmenes conjuntos

Aunque podemos ir calculando cada una de las medidas de localización y dispersión vistas anteriormente, en la práctica nos resulta más útil obtenerlas todas de una vez. Existen diferentes funciones que nos permiten obterner estos análisis descriptivos. La primera de ellas es la función summary() que nos porporciona el mínimo, máximo, media, mediana y los percentiles 25 y 75. Sin embargo, no nos porporciona ninguna de las medidas de varaibilidad usuales. En nuestro ejemplo

summary(storm$wind)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   15.00   35.00   50.00   54.68   70.00  155.00

summary(storm$pressure)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   905.0   980.0   995.0   989.8  1004.0  1019.0

Se pude ver que el 25% de las observaciones muestran una valor de viento inferior a 35mph y un 25% un valor de viento superior a 70mph. Con respecto a la presión atmosférica tenemos que el 25% de las observaciones tienen un valor inferior a 980 milibares, y un 25% tienen un valor superior a 1004 milibares.

Otra función que nos porporciona medidas conjuntas es estat() de la librería pubh. Esta función nos porporciona el número de casos, el mínimo, el máximo, la media, la mediana, la desviación típica, y el coeficiente de variación.

# Etiquetamos las variables
storm = storm %>% 
  var_labels(wind = 'Wind speed (in knots)', 
             pressure = 'Air pressure (in mbar)')
# Análisis descriptivos
estat(~ wind, data = storm)

Tabla 2.4:
	N	Min.	Max.	Mean	Median	SD	CV
Wind speed (in knots)	2.75e+03	15	155	54.7	50	25.9	0.47

estat(~ pressure, data = storm)

Tabla 2.4:
	N	Min.	Max.	Mean	Median	SD	CV
Air pressure (in mbar)	2.75e+03	905	1.02e+03	990	995	18.7	0.02

2.4.2.2 Visualización gráfica

2.4.2.2.1 Gráfico barras

El gráfico por excelencia para una variable de tipo numérico es el denominado histograma. El histograma es una representación mediante barras de la distribución de los datos. Para construir las barras se divide el rango de la variable numérica en un conjunto fijo de intervalos disjuntos y se contabiliza el número de datos que quedan dentro de cada uno de ellos (altura del gráfico de barras). Es un gráfico muy interesante porque representa de forma bastante precisa, ajustando el número de intervalos, la distribución del conjunto de datos pudiéndose observar su dispersión y/o asimetria.

Para realizar este gráfico utilizamos parámetros específicos dentro de la función ggplot() a partir de geom_histogram().

ggplot(storm, aes(x = pressure)) +
   geom_histogram()

Figura 2.7: Histograma de la presión atmosférica.

Podemos ver que la mayoría de los datos se sitúan por encima de 915 milibares, hay una clara asimetría hacia los valores más grandes y existe una gran dispersión entre en el conjunto de valores observados.

Veamos como introducir diferentes parámetros en el gráfico anterior. el más importante es el que hace referencia a los intervalos asociado con el histograma (parámetro binwith)

ggplot(storm, aes(x = pressure)) + 
  geom_histogram(binwidth = 8, fill = "steelblue") + 
  xlab("Air pressure (in mbar)") + ylab("Frequency")

Figura 2.8: Histograma de la presión atmosférica (modificando binwidth).

Veamos ahora el histograma de la variable wind

ggplot(storm, aes(x = wind)) + 
  geom_histogram(binwidth = 8, fill = "steelblue") + 
  xlab("Wind speed (in knots)") + ylab("Frequency")

Figura 2.9: Histograma de la velocidad del viento.

El otro gráfico habitual para una variable de tipo numérico es el llamado gráfico de cajas. En este gráfico se representa mediante una caja la media (linea central de la caja), el percentil 75 (línea superior de la caja), y el percentil 25 (linea inferior de la caja). También se representan el valor máximo (percentil 75 + 1.5 IQR) y mínimo (percentil 25 - 1.5 IQR), así como los caracterizados como valores extremos (punto fuera de la caja). Veamos como realizar este gráfico mediante el parámetro geom_boxplot().

ggplot(storm, aes(x = factor(1),y = pressure)) +
   geom_boxplot()

Figura 2.10: Gráfico de cajas de la presión atmosférica.

Añadimos parámetros (título de ejes, color caja, selección de valores extremos, y fondo blanco)

ggplot(storm, aes(x = factor(1), y = pressure)) +
   geom_boxplot(fill = "orange", outlier.colour = "red", outlier.shape = 1) +
   scale_x_discrete(name = " ") + scale_y_continuous(name = "Air pressure (in mbar)") +
   theme_bw()

Figura 2.11: Gráfico de cajas de la presión atmosférica (versión 2).

Podemos ver que la media se sitúa muy próxima a los 1000 mbar y la gran cantidad de valores extremos en la parte baja de la distribución. Además la caja es muy estrecha indicando la poca variabilidad en los datos, lo que viene corroborado también por la proximidad de los percentiles 25 y 75.

Ahora el gráfico para la variable wind

ggplot(storm, aes(x = factor(1),y = wind)) +
   geom_boxplot(fill = "orange",outlier.colour = "red", outlier.shape = 1) +
   scale_x_discrete(name = " ") + scale_y_continuous(name = "Wind speed (in knots)") +
   theme_bw()

Figura 2.12: Gráfico de cajas de la velocidad del viento.

¿Cómo interpretamos este gráfico?

2.4.3 Dos variables categóricas

Explorar numéricamente las asociaciones entre pares de variables categóricas no es tan simple como el caso de una variable. La pregunta general que debemos abordar es, “¿las diferentes combinaciones de categorías parecen estar sub o sobre representadas?” Necesitamos entender qué combinaciones son comunes y cuáles son raras. Lo más simple que podemos hacer es construir una tabulación cruzada del número de ocurrencias de cada combinación de niveles de ambas variables. La tabla resultante se llama tabla de contingencia.

En cuanto a la representación gráfica la opción más habitual pasa por representar los conteos mediante gráficos de barras que representan de forma conjunta la información de ambas variables.

Para ejemplificar los cálculos y gráficos utilizaremos las variables month_f (mes como factor) y type. En primer lugar etiquetamos las variables.

# Etiquetamos las variables
storm = storm %>% 
  var_labels(month_f = 'Month', 
             type = 'Storm category')

2.4.3.1 Resúmenes numéricos

El resumen numérico habitual para este tipo de situación es la tabla de contigencia (tabla de doble entrada) que nos porporciona los conteos o coincidencias entre los niveles de cada factor. Obtener la tabla completa (frecuencias y porcentajes) puede ser una faena algo pesada utilizando las funciones habituales. En nuestro caso utilizaremos la función cross_tab de la librería pubh. Dicha función nos porpociona la tbala de doble entrada con los conteos y los porcentajes marginales por columnas. Veamos su uso en el banco de datos.

table(storm$type, storm$month_f)

##                      
##                       June July August September October November December
##   Extratropical         27   38     23       149     129       42        4
##   Hurricane              3   31    300       383     152       25        2
##   Tropical Depression   22   59    150       156      84       42        0
##   Tropical Storm        31  123    247       259     204       61        1

Esta tabla nos permite analizar las concidencias entres los fatores estudiados (conteos), así como la relevancia de cada tipo de tormenta a los largo de los meses estudiados (porcentajes marginales por columnas). Por ejemplo, podemos ver que el perido más activo de huracanes es el comprendido entre los meses de agosto a octubre.

En este caso los porcentajes marginales nos revelan que tipo de tormenta es más habitual dentro de cada mes de los analizados. Por ejemplo, en el mes de agosto el tipo de tormenta más habitual son los huracanes con un 40.1%, lo que representa casi la mitad de los observado durante ese mes.

2.4.3.2 Visualización gráfica

Los gráficos de barras se pueden usar para resumir la relación entre dos variables categóricas. La idea básica es producir una barra separada para cada combinación de categorías en las dos variables. La longitud de estas barras es proporcional a los valores que representan, que son los recuentos brutos o las proporciones en cada combinación de categorías. Esta es la misma información que se muestra en una tabla de contingencia. El uso de ggplot2 para mostrar esta información no es muy diferente de producir un gráfico de barras para resumir una única variable categórica.

Tomamos las variables type y year_f para mostrar su funcionamiento. Ordenamos la variable type para mostrar los gráficos por orden de importancia de la tormenta. En primer lugar realizamos el gráfico de barras apiladas.

# Creamos un vector con el orden predefinido
ords <- c("Tropical Depression", "Extratropical", "Tropical Storm", "Hurricane")
# Generamos el gráfico indica que el eje x tiene escala dada por el vector ordenado
ggplot(storm, aes(x = type, fill = year_f)) + 
  geom_bar() + 
  scale_x_discrete(limits = ords) +
  xlab("Storm category") + ylab("Frequancy")

Figura 2.13: Gráfico de barras apiladas para tipo de tormenta versus año.

En este caso cada tipo de tormenta tiene su propia barra, y cada barra se ha dividido en diferentes segmentos de colores, cuya longitud está determinada por el número de observaciones asociadas con cada año. Podemos apreciar si para un mismo tipo de tormenta la ocurrencia de un tipo de tormenta es similar o no. Por ejemplo, para los huracanes podemos apreciar que los años 1996, 1998, 1999, y 2000 tienen un número similar de ocurrencias.

Un problema con este tipo de gráfico es que puede ser difícil detectar asociaciones entre las dos variables categóricas. Si queremos saber cómo están asociados, a menudo es mejor trazar los recuentos para cada combinación de categorías una al lado de la otra. Este gráfico se denomina gráfico de barras agrupado. Utilizamos la opción dodge en la función geom_bar para poder realizar esta versión:

ggplot(storm, aes(x = type, fill = year_f)) + 
  geom_bar(position = "dodge") + 
  scale_x_discrete(limits = ords) +
  labs(x = "Storm category", y = "Frequancy", fill = "Storm category")

Figura 2.14: Gráfico de barras agrupado para el tipo de tormenta versus año.

¿Qué ventajas o desventajas aprecias en este gráfico frente al de barras apiladas?

Alternativamente podríamos realizar el gráfico de porcentahjes en lugar de los conteos. Hacemos uso de la función ..prop.. e indicamos la agrupación por la variable year_f:

ggplot(storm, aes(x = type, fill = year_f)) + 
  geom_bar(aes(y = ..prop.. , group = year_f),position = "dodge") + 
  scale_y_continuous(labels = scales::percent) +
  labs(x = "Storm category", y = "Percent", fill = "Storm category")

Figura 2.15: Gráfico de barras agrupado (porcentjes) para el tipo de tormenta versus año.

Otra opción es realizar un mapa de intensidad de cada una de las combinaciones e ambos factores. Utilizamos la función geom_tile() a partir los conteos conjuntos para ambas variables con la opción count() que se almacenan en la variable temporal n.

storm %>%
    count(type,year_f) %>%
    ggplot(mapping = aes(x = type, y = year_f)) + 
        geom_tile(mapping = aes(fill = n)) + 
        scale_x_discrete(limits = ords) +
        labs(x = "Storm type", y = "Year", fill = "n")

Figura 2.16: Mapa de intensidad para el tipo de tormenta versus año.

En este caso las casillas en tonos más claros corresponden con las combinaciones de niveles con una mayor ocurrencia. Las más abundantes se concentran en 1995 y los tipos de tormenta más graves. Por otro lado el año 1997 es el que ha registrado menor número de tormentas.

2.4.4 Categórica vs Numérica

El objetivo en este tipo de situaciones es comparar cada una de las distribuciones de la variable numérica que surgen al segmentar los valores por cada uno de los niveles de la variable categórica. Tenemos tantas conjuntos de datos como niveles del facgor hemos observado.

2.4.4.1 Resúmenes numéricos

Los resúmenes numéricos se pueden construir tomando las diversas ideas que hemos explorado para las variables numéricas (medias, medianas, etc.) y aplicándolas a subconjuntos de datos definidos por los valores de la variable categórica. Sin embargo, podemos hacer uso de la función estat() para simplicar este trabajo. para ejemplificar su uso utilizamos la variable type como categórica y las variables wind y pressure como numéricas.

storm$type <- as.factor(storm$type)
# Simplificamos las etiquetas de las variables
storm = storm %>% 
  var_labels(wind = 'Wind', 
             pressure = 'Air pressure')
# Análisis descriptivos
estat(~ wind|type, data = storm)

Tabla 2.5:
	type	N	Min.	Max.	Mean	Median	SD	CV
Wind	Extratropical	412	15	80	40.1	40	13.2	0.33
	Hurricane	896	65	155	84.7	80	18.8	0.22
	Tropical Depression	513	20	30	27.4	30	3.52	0.13
	Tropical Storm	926	35	120	47.3	45	11.1	0.23

estat(~ pressure|type, data = storm)

Tabla 2.5:
	type	N	Min.	Max.	Mean	Median	SD	CV
Air pressure	Extratropical	412	950	1.02e+03	994	996	14.2	0.01
	Hurricane	896	905	1.00e+03	970	974	16.9	0.02
	Tropical Depression	513	982	1.02e+03	1.01e+03	1.01e+03	3.9	0
	Tropical Storm	926	935	1.01e+03	998	1e+03	8.95	0.01

Se puede ver como el tipo Huracanes tiene la media más alta de velocidad del viento y la más baja de presión atmosférica. Además en ambos casos la variabilidad observada es la mayor de todos los tipos de tormenta. La depresión tropical es justo el caso contrario. Evidentemente los datos observados corresponden con la clasificación de tormenta establecida desde el inicio. ¿Qué otras conclusiones podemos obtener? ¿qué tipo de tormenta muestra una mayor variabilidad?

2.4.4.2 Visualización gráfica

Para la visualización gráfica de las relaciones entre una variable categórica y una numérica tenemos diferentes opciones: gráfico de densidad, gráfico de cajas, y gráficos comparativos matriciales.

El gráfico de densidad representa la distribución del conjunto de datos muestrales. Con este gráfico se puede apreciar claramente el rango de valores y su concentración (altura de la curva de densidad). Para su obtención utilizamos la opción geom_density() donde sólo debemos fijar el parámetro de suavizado, bw, que nos indica el grado de información que debemos utilizar para obtener dicha densidad. Valores pequeños dan curvas poco suavizadas y valores grandes dan curva suavizadas. Siempre es necesario un pequeño ajuste para obtener el valor más adecuado. Con este gráfico resulta muy fácil comparar el comportamiento de los diferentes grupos.

Comenzamos con la variable wind:

ggplot(storm, aes(x = wind)) + 
  geom_density(aes(colour = type), bw = 3, na.rm = TRUE) + 
  labs(x = "Wind speed (in knots)", y = "Density")

Figura 2.17: Gráficos de densidades de la velocidad del viento por tipo de tormenta.

# la opción na.rm elimina los valores pérdidos.

El resultado son cuatro curvas de densidad (una por cada top de tormenta) donde los más destacable es que el rango de valores posibles para la velocidad del viento es sólo diferente para el tipo huracanes, ya que su curva de densidad se encuentra desplazada respecto del resto de densidades. También se puede ver que las depresiones tropicales tienen una menor dispersión (menor rango de valores) los que provoca que su curva sea más puntiaguda. Cuanto mayor sea la dispersión mas amplia sera la densidad obtenida. Si la densidad es simétrica la media se sitúa en el punto medio, mientras que el valor asociado con el punto más alto de la densidad es lo que denominamos moda.

Ahora con la variable presión atmosférica:

ggplot(storm, aes(x = pressure)) + 
  geom_density(aes(colour = type), bw = 3, na.rm = TRUE) + 
  labs(x = "Air pressure (in knots)", y = "Density")

Figura 2.18: Gráficos de densidades de la presión atmosférica por tipo de tormenta.

El comportamiento de la variable presión atmosférica es muy similar al de la velocidad del viento pero en la parte izquierda del rango de valores. Los huracanes tienen la menor presión atmosférica y se distinguen del resto de tipos de tormenta. También muestra una mayor variabilidad que el resto de tipos.

La visualización más común para explorar las relaciones entre una variable categórica y otra numérica es el diagrama de cajas. Cada diagrama de caja consiste en:

Una casilla que se extiende desde el percentil 25 de la distribución hasta el percentil 75, una distancia conocida como rango intercuartílico (IQR). En el medio del recuadro hay una línea que muestra la mediana, es decir, el percentil 50 de la distribución. Estas tres líneas le dan una idea de la extensión de la distribución y si la distribución es simétrica o no respecto a la mediana o sesgada hacia un lado.
Puntos visuales que muestran observaciones que caen más de 1,5 veces el IQR desde cualquier borde de la caja. Estos puntos remotos son inusuales, por lo que se representan de forma individual.
Una línea (o bigote) que se extiende desde cada extremo de la caja y va al el punto más lejano no atípico en la distribución.

Veamos los ejemplos:

ggplot(storm, aes(x = type, y = wind)) + 
  geom_boxplot() + 
  scale_x_discrete(limits = ords) +
  labs(x = "Storm category", y = "Wind speed (in knots)")

Figura 2.19: Gráficos de cajas de la velocidad del viento por tipo de tormenta.

En este tipo de gráficos se esta interesado en dos aspecto fundamentales: * Estudiar la variabilidad dentro de cada grupo viendo la altura de la caja (IQR). * Comparar el comportamiento de cada grupo observando si las cajas quedan a alturas superpuestas.

En este caso podemos ver que la variabilidad más grande se produce en el tipo huracanes y la más pequeña en las depresiones tropicales. Se aprecian diferencias entre las variabilidades de los grupos. Por otro lado, las cajas correspondientes a las tormentas extra tropicales y tormentas tropicales quedan a una misma altura indicando que tienen valores similares para la velocidad del viento. Este gráfico nos da unas primeras indicaciones claras para los procedimientos de comparaciones de medias que estudiaremos más adelante.

ggplot(storm, aes(x = type, y = pressure)) + 
  geom_boxplot() + 
  scale_x_discrete(limits = ords) +
  labs(x = "Storm category", y = "Air pressure (in mbar)")

Figura 2.20: Gráficos de cajas de la presión atmosférica por tipo de tormenta.

En este caso observamos que los tipos extra tropical y Huracanes muestran variabilidades similares, mientras que los otros dos tipos también muestran variabilidades similares. En cuanto a la comparación de los grupos se observa que el único con un comportamiento diferente son los huracanes. Los otros tres tipos muestran cajas que se podrías solapar mostrando una mayor igualdad en los valores de presión atmosférica.

Los gráficos matriciales o de facetas permiten representar mediante múltiples gráficos la información de una variable numéricas con respecto a los niveles de la variable categórica. Se pretende de esta forma comprobar la forma de la distribución de los datos de forma similar al gráfico de densidad pero realzando un gráfico para cada nivel. Aunque resultan más útiles cuando trabajamos con más de dos variables, se introducen aquí para ir conociendo su funcionamiento en ejemplos sencillos.

Comenzamos realizando un histograma independiente. Para que resulte más fácil visualizar el gráfico introducimos un orden asociado con los valores de la variable numérica, comenzando con el nivel que tiene valores en esa variable más pequeños, y finalizando con la que tiene los valores más grandes.

# Creamos un nuevo factor ordenado de acuerdo a la variable que estamos midiendo
storm$type2 <- reorder(storm$type, storm$wind)
# Creamos el gráfico
ggplot(storm, aes(x = wind))  +
  geom_histogram(binwidth = 5) + 
  xlab("Wind speed (in knots)") +
  ylab("Frequency") +
  facet_wrap(~ type2, ncol = 1)

Figura 2.21: Gráficos matricial de velocidad del viento por tipo de tormenta

También podríamos realizar el gráfico de densidad

# Creamos el gráfico
ggplot(storm, aes(x = wind))  +
  geom_density(bw = 3) + 
  xlab("Wind speed (in knots)") +
  ylab("Density") +
  facet_wrap(~ type2, ncol = 1)

Figura 2.22: Gráficos matricial de velocidad del viento por tipo de tormenta

En ambos casos las interpretaciones son similares a las que se hicieron con el gráfico conjunto de densidad.

Podemos cambiar la configuración cambiando el número de columnas:

# Creamos el gráfico
ggplot(storm, aes(x = wind))  +
  geom_density(bw = 3) + 
  xlab("Wind speed (in knots)") +
  ylab("Density") +
  facet_wrap(~ type2, ncol = 2)

Figura 2.23: Gráficos matricial de velocidad del viento por tipo de tormenta

Aunque el gráfico se visualiza mejor también resulta más difícil la comparación entre todos los niveles.

Si deseamos cambiar la situación de las etiquetas del factor podemos utilizar la opción facet_grid.

# Creamos el gráfico
ggplot(storm, aes(x = wind))  +
  geom_density(bw = 3) + 
  xlab("Wind speed (in knots)") +
  ylab("Density") +
  facet_grid(type2 ~ .)

Figura 2.24: Gráficos matricial (grid) de velocidad del viento por tipo de tormenta

Esta opción nos resultará de mayor utilidad cuando tengamos que representar dos factores ya que se podrá situar en la filas uno de los factores y el otro en las columnas con la opción facet_grid(factor1 ~ factor2).

2.4.5 Dos variables numéricas

Los estadísticos han ideado varias formas diferentes de cuantificar la asociación entre dos variables numéricas en un banco de datos. Las medidas más comunes medidas buscan calcular algún tipo de coeficiente de asociación Los términos “asociación” y “correlación” están estrechamente relacionados; tanto que a menudo se usan indistintamente. La más habitual es la correlación lineal que cuantifica el grado de asociación lineal entre dos variables de tipo numérico. Para ejemplificar nuestros cálculos y gráficos utilizaremos las variables wind y preassure.

2.4.5.1 Resúmenes numéricos

La medida de correlación más utilizada es el coeficiente de correlación lineal de Pearson. El coeficiente de correlación de Pearson cuantifica el grado de asociación entre las variables en la escala -1 a 1, donde -1 indica una relación inversa (cuando una variable crece la otra decrece) y 1 indica una relación directa (cuando una crece la otra también lo hace. Valores próximo a cero indican que no hay asociación lineal entre las variables analizadas. Este coeficiente es la base para plantear lo que denominaremos más adelante los modelos de regresión lineal simple.

La definición formal del coeficiente de correlación de Pearson (\(\rho\)) viene dada por: \[\begin{equation} \rho = \frac{1}{n-1}\sum_{i=1}^n \frac{(x_i - \bar{x})(y_i - \bar{y})}{s_x s_y} \tag{2.7} \end{equation}\]

donde \(x_i\), \(y_i\) son las observaciones de la variable \(x\) e \(y\) respectivamente, \(\bar{x}\), \(\bar{y}\) son las medias muestrales de cada variable, y \(s_x\), \(s_y\) son las desviaciones típica de cada variable. El coeficiente trata de valorar la “covaraición” entre ambas variables, es decir, como afectan los cambios de valores en una variable en los valores de la otra, teniendo en cuenta la propia variabilidad de cada una de ellas.

Para obtener el coeficiente de correlación utilizamos la función cor().

cor(storm$wind,storm$pressure)

## [1] -0.9254911

El coeficiente de correlación resulta negativo, lo que indica que la velocidad del viento tiende a disminuir al aumentar la presión. Al estar próximo a -1 se puede intuir que dicha asociación es muy fuerte. Sin embargo, el coeficiente de correlación de Pearson debe interpretarse con cuidado debido a que está diseñado para medir una relación de tipo lineal, lo que implica que dicho coeficiente será engañoso cuando esta relación sea curva, o incluso peor, en forma de joroba.

¿Qué deberíamos hacer si pensamos que la relación entre dos variables no es lineal? No deberíamos usar el coeficiente de correlación de Pearson para medir la asociación en este caso. En cambio, podemos calcular lo que denominamos correlación de rango. La idea es muy simple. En lugar de trabajar con los valores reales de cada variable, los “clasificamos,” es decir, ordenamos cada variable de menor a mayor y asignamos las etiquetas “primero,” “segundo,” “tercero,” etc. a diferentes observaciones. Las medidas de correlación de rangos se basan en una comparación de los rangos resultantes. Los dos más populares son Spearman’s y Kendall’s. Ambos coeficientes se comportan de una manera muy similar al coeficiente de correlación de Pearson. Toman un valor de 0 si los rangos no están correlacionados, y un valor de +1 o -1 si están perfectamente relacionados.

Podemos calcular ambos coeficientes de correlación de rangos en R usando nuevamente la función cor. Esta vez necesitamos establecer el argumento del método en el valor apropiado: method = "kendall" o method = "spearman".

cor(storm$wind,storm$pressure,method = "kendall")

## [1] -0.7627645

cor(storm$wind,storm$pressure,method = "spearman")

## [1] -0.9025831

Los resultados obtenidos son compatibles con el del coeficiente de Pearson.

2.4.5.2 Visualización gráfica

Los coeficientes de correlación nos dan una forma simple de resumir las asociaciones entre variables numéricas. Sin embargo, son limitados, porque un solo número nunca puede resumir todos los aspectos de la relación entre dos variables. Es por eso que siempre visualizamos la relación entre dos variables. El gráfico estándar para mostrar asociaciones entre variables numéricas es un diagrama de dispersión, usando ejes horizontales y verticales para trazar dos variables como una serie de puntos. Para realizar este gráfico usamos la opción geom_point()

ggplot(storm, aes(x = wind, y = pressure)) + 
  geom_point() + 
  labs(x = "Wind speed (in knots)", y = "Air pressure (in mbar)")

Figura 2.25: Gráfico de dispersión de velocidad del viento vs presión atmosférica

En el gráfico se puede apreciar la relación de tipo lineal en orden o pendiente decreciente (cuando aumenta el viento disminuye la presión).

El problema de este gráfico es que no podemos apreciar todos los puntos, ya que si tenemos dos observaciones con los mismo valores en ambas variables, estos quedarían superpuestos. Para solucionar esta deficiencia podemos optar por otra versión del gráfico de dispersión que nos permita contabilizar el número de repeticiones cuando estas existan. Este gráfico se obtiene con la opción geom_hex(). Para poder realizarlo es necesario instalar la librería hexbin:

ggplot(storm, aes(x = wind, y = pressure)) + 
  geom_hex(bins = 25) + 
        labs(x = "Wind speed (in knots)", y = "Air pressure (in mbar)", fill = "n")

Figura 2.26: Gráfico de dispersión de velocidad del viento vs presión atmosférica (versión dos).

El parámetro bins segmenta el rango de cada variable en intervalos disjuntos. Lo que se representa es una gráfico de dispersión por intervalos, de forma que cada casilla representa todos los valores que quedan dentro del intervalo conjunto que obtenemos con ambas variables. Se observa que la tendencia se mantiene pero resulta posible ver que valores muestran una mayor o menor ocurrencia. La combinación de valores bajos de viento (< 40 mph) con altos de presión (> 990 mb) son los que más aparecen en el banco de datos.

Otra opción es agrupar una variable continua para que actúe como una variable categórica. Luego se puede usar un gráfico combinado de cajas para representar ambas variables Veamos un ejemplo:

ggplot(data = storm, aes(x = wind, y = pressure)) + 
  geom_boxplot(mapping = aes(group = cut_width(wind, 10))) + 
        labs(x = "Wind speed (in knots)", y = "Air pressure (in mbar)", fill = "n")

Figura 2.27: Gráfico de cajas discretizando la velocidad del viento vs presión atmosférica.

La interpretación es similar a la que se realizaba cuando trabajamos con una variable factor y otra numérica. Lo que resulta interesante es que podemos observar los intervalos con un mayor volumen de valores extremos o anómalos (valores de viento entre 30 y 90 mph).

2.5 Análisis Descriptivo avanzado

En esta unidad se amplían los procedimientos de análisis descriptivos vistos en el tema anterior para estudiar una o dos variables de tipo numérico o categórico al caso de más de dos variables de este tipo. No se hace un barrido a cualquier situación que pueda aparecer sino que se pretende mostrar los casos más habituales. Dichos casos son:

Tres variables categóricas.
Dos variables categóricas y una variable numérica.
Una variable categórica y dos variables numéricas.
Dos variables categóricas y dos variables numéricas.
Tres variables categóricas y dos variables numéricas.

De nuevo utilizaremos el conjunto de datos storms de la librería nasaweather.

2.5.1 Tres factores

Los procedimientos numéricos se restringen en este caso a la obtención de la tabla de frecuencias conjunta de las tres variables, mientras que los gráficos se basan en gráficos matriciales donde se consideran gráficos de barras.

A modo de ejemplo vamos a realizar el análisis conjunto de las variables year_f, month_f y type. Para poder realizar estos análisis utilizamos la función mytable de la librería moonBook. Para conocer todas las caracter´siticas de esta función se recomienda ver la ayuda help(mytable). EL problema principal con esta función es que si el número de nivles de los factores es demasiado grande resulta muy complicado visualizar todos los resultados en una única página. De hecho solo se pueden visulaizar resulatdos si el número de niveles del factor es 5 como máximo. Para poder ver los resultados en esta situación procedemos reando un conjunto de datos para cada tipo de tormenta. En este caso seleccionamos los meses centrales y los últimos cinco años para poder visualizar los resultados.

#{r aed045,error=FALSE,warning=FALSE,message=FALSE} #stormTD <- dplyr::filter(storm , month %in% c(7,8,9,10,11), # year %in% c(1996,1997,1998,1999,2000)) #mytable(year_f + type ~ month_f, data = stormTD) #

Para realizar le gráfico combinado de las tres variables categóricas utilizamos un gráfico matricial con dos factores y representamos dentro de cada combinación el gráfico de barras de la otra variable.

ords <- c("Tropical Depression", "Extratropical", "Tropical Storm", "Hurricane")
ggplot(storm, aes(x = type))  +
  geom_bar() + 
  scale_x_discrete(limits = ords) +
  xlab("Storm category") +
  ylab("Frequency") +
  facet_grid(year_f ~ month_f)+
  theme(axis.text.x = element_text(angle = 90))

Figura 2.28: Gráfico de barras para tipo de tormenta para los diferentes meses y años.

¿Qué conclusiones podemos extraer de estos resultados? El gráfico resulta revelador, ya que se aprecian de forma directa las combinaciones de año - mes en al que no hay datos, y en aquellas donde si los hay se puede ver claramente cual es el tipo de tormenta más predominante.

Dado que la mayoría de los datos se producen entre los meses de agosto y octubre vamos a filtrar los datos para estudiar esas combinaciones únicamente.

storm_meses <- storm %>%
  filter(month_f == c("August","September","October"))
ords <- c("Tropical Depression", "Extratropical", "Tropical Storm", "Hurricane")
ggplot(storm_meses, aes(x = type))  +
  geom_bar() + 
  scale_x_discrete(limits = ords) +
  xlab("Storm category") +
  ylab("Frequency") +
  facet_grid(year_f ~ month_f) +
  theme(axis.text.x = element_text(angle = 90))

Figura 2.29: Gráfico de barras para tipo de tormenta para los diferentes meses y años (versión 2).

Este gráfico nos permite estudiar con más detalle los meses que concentran un mayor número de tormentas.

2.5.2 Dos factores, Una numérica

En este caso generalizamos el cálculo de medidas de localización y dispersión a esta situación, y analizamos los diferentes gráficos que podemos realizar en esta situación. Utilizamos las variables year_f, type, y wind. Mostraremos solo los datos para los años 1999 y 2000.

stormTD <- dplyr::filter(storm , year %in% c(1999,2000))
mytable(year_f + type ~ wind, data = stormTD)

## 
##                                          Descriptive Statistics stratified by 'year_f' and 'type'                                         
## ——————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————— 
##                                       1999                                                                2000                                
##       —————————————————————————————————————————————————————————————————— —————————————————————————————————————————————————————————————————— 
##       Extratropical  Hurricane  Tropical Depression Tropical Storm   p   Extratropical  Hurricane  Tropical Depression Tropical Storm   p  
##          (N=22)       (N=164)         (N=75)           (N=150)             (N=63)       (N=130)         (N=76)           (N=138)         
## ——————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————— 
##  Wind  38.9 ± 20.3  90.5 ± 20.7     27.1 ±  3.9      47.7 ±  8.1   0.000  39.7 ± 13.2  79.5 ± 14.7     27.8 ±  2.6      46.2 ±  8.5   0.000
## ———————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————

Como antes el análisis de estas tablas es más complejo que tratar de representar los datos de forma que se puedan extraer conclusiones de forma más efectiva. Empezamos con el gráfico matricial mezclado con los gráficos de densidad.

# Creamos un nuevo factor ordenado de acurdo a la variable que estamos midiendo
storm$type2 <- reorder(storm$type, storm$wind)
# Creamos el gráfico
ggplot(storm, aes(x = wind, color = type2))  +
  geom_density(bw = 3) + 
  xlab("Wind speed (in knots)") +
  ylab("Density") +
  facet_grid(year_f ~ .)

Figura 2.30: Gráfico de densidad de la velocidad del viento para cada tipo de tormenta y año.

Ahora realizamos el gráfico de cajas con una estructura similar

# Creamos el gráfico
ggplot(storm, aes(x = type2, y = wind))  +
  geom_boxplot() + 
  xlab("Storm category") +
  ylab("Wind speed (in knots)") +
  facet_grid(. ~ year_f) +
  theme(axis.text.x = element_text(angle = 90))

Figura 2.31: Gráfico de cajas de la velocidad del viento para cada tipo de tormenta y año.

¿Qué conclusiones podemos extraer de este gráfico?

Otra versión de este gráfico podría ser:

# Creamos el gráfico
ggplot(storm, aes(x = year_f, y = wind, color = type2))  +
  geom_boxplot() + 
  xlab("Year") +
  ylab("Wind speed (in knots)")

Figura 2.32: Gráfico de cajas de la velocidad del viento para cada tipo de tormenta y año (versión 2).

2.5.3 Un factor, Dos numéricas

En este caso generalizamos el análisis de correlación y el gráfico de dispersión con la inclusión del factor. Consideramos las variables type, wind y pressure. En primer lugar realizamos el estudio descriptivo numérico.

storm %>% 
  group_by(type) %>% # Segmentamos por tipo de tormenta
  summarise(cor = cor(wind,pressure)) # Obtenemos coeficientes de correlación

Tabla 2.6:
type	cor
Extratropical	-0.816
Hurricane	-0.914
Tropical Depression	-0.157
Tropical Storm	-0.819

El resultado muestra gran asociación entre la velocidad del viento y la presión atmosférica en todas la categorías salvo para las Depresiones tropicales.

Veamos ahora el gráfico de dispersión conjunto. En primer lugar realizamos un único gráfico marcando con colores los tipos de tormenta

ggplot(storm, aes(x = wind, y = pressure, color = type )) + 
  geom_point() + 
  labs(x = "Wind speed (in knots)", y = "Air pressure (in mbar)")

Figura 2.33: Gráfico de dispersion de presión vs velocidad para cada tipo de tormenta.

Podemos ver como cada punto viene identificado según el tipo de tormenta. Los huracanes en la parte inferior donde se dan las relaciones entre velocidades del viento más altas y presiones atmosféricas más bajas. ¿Qué más podemos decir?

Podemos distinguir cada grupo introduciendo un gráfico matricial

# Creamos el gráfico
ggplot(storm, aes(x = wind, y = pressure))  +
  geom_point() + 
  xlab("Wind speed (in knots)") +
  ylab("Air pressure (in mbar)") +
  facet_grid(. ~ type2)

Figura 2.34: Gráfico de dispersion de presión vs velocidad para cada tipo de tormenta.

En este gráfico se aprecia mejor el comportamiento de ambas variables en cada uno de los niveles del factor. Salvo en las depresiones tropicales donde no se aprecia asociación, en el resto de niveles se aprecia un relación de orden inverso. Lo que si podemos ver es que hay observaciones en algunas categorías que podrían corresponder a otras. En la categoría de tormentas tropicales tenemos combinaciones de velocidad y presión que parecen corresponder más a un huracán que a una tormenta tropical. Esto puede ser debido al protocolo de clasificación establecido o a la propia evolución de las tormentas.

2.5.4 Dos factores, Dos numéricas

Este caso es una generalización directa del caso anterior, ya que únicamente debemos añadir una nueva variable categórica. Consideramos las variables type, year_f, wind y pressure. Comenzamos con el análisis numérico:

tabla_cor <- storm %>% 
  group_by(year_f,type) %>% 
  summarise(cor = cor(wind,pressure))
# Visulaizamos la tabla de resultados de forma óptima
tabla_resumen <- dplyr::select(tabla_cor,year_f,type,cor)
# Arreglamos la tabla para una mejor visualización
spread(tabla_resumen, key = type, value = cor)

## # A tibble: 6 × 5
## # Groups:   year_f [6]
##   year_f Extratropical Hurricane `Tropical Depression` `Tropical Storm`
##   <fct>          <dbl>     <dbl>                 <dbl>            <dbl>
## 1 1995          -0.848    -0.885                 0.113           -0.731
## 2 1996          -0.826    -0.941                -0.290           -0.917
## 3 1997          -0.781    -0.973                -0.455           -0.748
## 4 1998          -0.726    -0.947                -0.271           -0.613
## 5 1999          -0.961    -0.916                -0.170           -0.661
## 6 2000          -0.915    -0.940                -0.127           -0.791

En esta tabla aparecen representados los coeficientes de correlación entre viento y presión para las diferentes combinaciones de niveles de las variables tipo y año. Se aprecian valores muy bajos en todas las combinaciones de la depresión tropical, mientras que en el resto hay asociaciones que pueden resultar interesantes de estudiar posteriormente. En el caso de los huracanes esas asociaciones son muy fuertes ya que muestran valores muy próximos a -1.

En cuanto a los procedimientos gráficos optamos por una combinación de los gráficos que utilizamos en la sección anterior. Representamos el gráfico de dispersión coloreando por tipo de tormenta, y usamos un diagrama matricial por año.

# Creamos el gráfico
ggplot(storm, aes(x = wind, y = pressure, color = type2))  +
  geom_point() + 
  xlab("Wind speed (in knots)") +
  ylab("Air pressure (in mbar)") +
  facet_grid(. ~ year_f)

Figura 2.35: Gráfico de dispersion de presión vs velocidad para cada tipo de tormenta y año.

En todos los años se observa un comportamiento similar del resto de variables, indicando que el año no es una factor que pueda ser considerado como relevante. Si utilizamos la variable mes en su lugar el gráfico resultante es:

# Creamos el gráfico
ggplot(storm, aes(x = wind, y = pressure, color = type2))  +
  geom_point() + 
  xlab("Wind speed (in knots)") +
  ylab("Air pressure (in mbar)") +
  facet_grid(. ~ month_f) +
  theme(axis.text.x = element_text(angle = 90))

Figura 2.36: Gráfico de dispersion de presión vs velocidad para cada tipo de tormenta y mes

En este caso el comportamiento de los meses no es tan parecido. Si bien es cierto que en todas las combinaciones se aprecia una tendencia negativa (sube viento - baja presión), también se puede ver que los huracanes aparecen mayoritariamente en los meses de agosto a octubre. ¿Qué otra información podemos extraer de este gráfico?

2.5.5 Tres factores, Dos numéricas

Es una generalización directa de los dos casos anteriores. Se presenta únicamente el código para obtener los resultados. Añadimos la variable month_f a las del caso anterior.

tabla_cor <- storm %>% 
  group_by(year_f,month_f,type) %>% 
  summarise(cor = cor(wind,pressure))
# Visulaizamos la tabla de resultados de forma óptima
tabla_resumen <- dplyr::select(tabla_cor,year_f,month_f,type,cor)
spread(tabla_resumen, key = type, value = cor)

## # A tibble: 30 × 6
## # Groups:   year_f, month_f [30]
##    year_f month_f   Extratropical Hurricane `Tropical Depress…` `Tropical Storm`
##    <fct>  <fct>             <dbl>     <dbl>               <dbl>            <dbl>
##  1 1995   June             -0.688    NA                 NA                -0.849
##  2 1995   July             -0.816    NA                  0.121            -0.701
##  3 1995   August           -0.926    -0.750              0.294            -0.805
##  4 1995   September        -0.881    -0.931             -0.203            -0.937
##  5 1995   October          -0.954    -0.918             -0.0585           -0.727
##  6 1995   November         -0.968    NA                 NA                 1    
##  7 1996   June             -0.591    NA                 -0.828             0    
##  8 1996   July             -0.165    -0.779             -0.612            -0.955
##  9 1996   August           NA        -0.976             -0.0301           -0.830
## 10 1996   September        -0.887    -0.852              0.0622           -0.927
## # … with 20 more rows

¿Qué podemos decir de los resultados obtenidos?

Veamos ahora el gráfico matricial. Seleccionamos los meses de agosto a octubre para poder visualizarlo mejor.

storm_meses <- storm %>%
  filter(month_f == c("August","September","October"))
# Creamos un nuevo factor ordenado de acurdo a la variable que estamos midiendo
storm_meses$type2 <- reorder(storm_meses$type, storm_meses$wind)
# Creamos el gráfico
ggplot(storm_meses, aes(x = wind, y = pressure, color = type2))  +
  geom_point() + 
  xlab("Wind speed (in knots)") +
  ylab("Air pressure (in mbar)") +
  facet_grid(year_f ~ month_f) +
  theme(axis.text.x = element_text(angle = 90))

Figura 2.37: Gráfico de dispersion de presión vs velocidad para cada tipo de tormenta, año y mes.

¿Qué podemos decir de este gráfico?

2.6 Librería de interés

La libreria ggplotgui a través de la función ggplot_shiny nos permite generar una aplicación con la que se puede obtener el código correspondiente a un gráfico. Para utilizar dicha función basta con escribir ggplot_shiny(dataframe).

References

Wickham, Hadley, and Garrett Grolemund. 2016. R for Data Science. http://r4ds.had.co.nz/ ed. O’Reilly.