Unidad 1 Introducción

La importancia de la estadística dentro del campo experimental siempre ha sido muy relevante, ya que para poder extraer conclusiones de un conjunto de datos experimentales se hace necesaria la utilización de procedimientos estadísticos más o menos sofisticados. Con la irrupción de los ordenadores personales y de los programas estadísticos para legos en la materia, así como la explosión tecnológica que estamos viviendo en los últimos años, la importancia de un correcto estudio estadístico de los datos experimentales se hace más necesaria que nunca. Se siguen publicando trabajos de investigación basados en datos experimentales donde el tratamiento estadístico de la información allí recogida puede considerarse como decepcionante. Con esta materia pretendemos guiar al estudiante en un correcto uso y análisis de las técnicas estadísticas más habituales en los diseños experimentales.

El tratamiento estadístico de datos experimentales se puede caracterizar en dos grandes áreas: estudios descriptivos y análisis y modelización. Los estudios descriptivos se centran en el procesado de los datos experimentales obtenidos con el objetivo de establecer o reflejar posibles patrones o tendencias en su comportamiento. Se engloban dentro de este ámbito todas la técnicas estadísticas que permiten los resúmenes numéricos y gráficos de la información observada, así como la detección de observaciones anómalas, la transformación y el filtrado de los datos experimentales. Sin embargo, los estudios descriptivos tienen la gran limitación de que sus resultados están circunscritos a los datos observados, y por tanto no se pueden generalizar a la población más general de la que se han obtenido. En el análisis y modelización se pretende generalizar los posibles patrones de comportamiento observados, en la fase descriptiva, mediante la construcción de modelos que nos permiten aproximar el comportamiento de datos experimentales no observados. Evidentemente la construcción de dichos modelos estadísticos no es una tarea rutinaria que debe tomarse a la ligera. La propia naturaleza de los datos observados puede dar una idea de los posibles modelos que se pueden utilizar, pero el modelo final obtenido es el resultados de un proceso iterativo de construcción, verificación y validación que puede resultar costoso en algunas situaciones.

La modelización estadística resulta relevante para representar el comportamiento de los datos experimentales de la forma más sencilla posible mediante modelos matemáticos donde se introduce de forma natural la incertidumbre de cualquier diseño experimental. Esta asignatura se centrará en la fase de modelización pero para poder llegar a comprender su naturaleza es necesario introducir primero los conceptos básicos de cualquier estudio estadístico, así como los procedimientos de estadística descriptiva y el estudio de la aleatoriedad en los diseños experimentales.

Este tema establece las definiciones básicas de cualquier estudio estadístico sobre diferentes ejemplos e introduce la nomenclatura básica de los modelos estadísticos que estudiaremos más adelante.

Usar la estadística no necesariamente es sinónimo de utilizar palabras raras o de hacer cálculos complicados. Significa que deseamos ver la realidad de forma objetiva, a través de datos que reflejen de la mejor manera posible qué es lo que está ocurriendo. Una vez se tienen los datos hay que saber sacarles la información y saberla plasmar de forma clara y convincente.

1.1 Conceptos básicos

En esta sección presentamos los conceptos básicos que utilizaremos a lo largo de la materia. Se trata únicamente de un resumen muy esquemática, pero nos sirve para sentar las bases de los temas siguientes.

1.1.1 Objetivo del diseño experimental

El objetivo de cualquier diseño experimental es aquellos que pretendemos estudiar en función del tipo de información que se ha recogido y del tipo de premisas establecidas antes de la recolección de los datos. Además es importante establecer el número de repeticiones del experimento que vamos a realizar, ya que eso condicionará el análisis de dichos datos. Si nuestro diseño experimental es muy complejo puede ocurrir que plantemos más de un objetivo.

ffalse{-91-68-101-103-114-97-100-97-99-105-243-110-32-99-111-109-112-117-101-115-116-111-32-111-114-103-225-110-105-99-111-93-}

Ejemplo 1.1 \iffalse (Degradación compuesto orgánico) Se va a realizar un experimento para conocer el tiempo que tarda en degradarse un compuesto orgánico. En este caso nuestro objetivo es el tiempo hasta la degradación. Si el experimneto considera diferentes tipos de compuestos nuestro objetivo podría ser comparar el tiempo de degradación en función del tipo de compuesto.

1.1.2 Población y muestra

Se define la población como el conjunto de sujetos u objetos que son de interés para el objetivo u objetivos planteados en nuestro diseño experimental. EL problema principal es que la población de sujetos u objetos suele ser demasiado grande para poder analizarla de forma completa, y por tanto debemos acudir a un subconjunto de dicha población para llevar a cabo nuestro diseño experimental.

Se define la muestra como el subconjunto de la población a la que accedemos para obtener la información necesaria de cara a responder de la forma más precisa posible al objetivo u objetivos planteados.

1.1.3 Medidas y escalas de medida

Una medida es un número o atributo que se puede calcular para cada uno de los miembros de la población que está relacionado directamente con el objetivo de interés de la investigación. El conjunto de medidas obtenidas para cada uno de los elementos muestrales se denominan datos muestrales.

EL conjunto de medidas que se pueden observar y registrar para un conjunto de sujetos u objetos bajo investigación se denominan variables. Por tanto, una variable es el conjunto de valores que puede tomar cierta característica de la población sobre la que se realiza el estudio estadístico. Se distinguen dos tipos que pasamos a describir a continuación.

1.1.3.1 Variables cualitativas

Son el tipo de variables que como su nombre lo indica expresan distintas cualidades, características o modalidad. Cada modalidad que se presenta se denomina atributo o categoría, y la medición consiste en una clasificación de dichos atributos. Las variables cualitativas pueden ser dicotómicas cuando sólo pueden tomar dos valores posibles, como sí y no, hombre y mujer o ser politómicas cuando pueden adquirir tres o más valores. Dentro de ellas podemos distinguir:

Variable cualitativa ordinal: La variable puede tomar distintos valores ordenados siguiendo una escala establecida, aunque no es necesario que el intervalo entre mediciones sea uniforme, por ejemplo: leve, moderado, fuerte.
Variable cualitativa nominal: En esta variable los valores no pueden ser sometidos a un criterio de orden, como por ejemplo los colores.

1.1.3.2 Variables cuantitativas

Son las variables que toman como argumento cantidades numéricas. Las variables cuantitativas además pueden ser:

Variable discreta: Es la variable que presenta separaciones o interrupciones en la escala de valores que puede tomar. Estas separaciones o interrupciones indican la ausencia de valores entre los distintos valores específicos que la variable pueda asumir. Ejemplo: El número de hijos (1, 2, 3, 4, 5). En muchas ocasiones una variable cualitativa ordinal puede ser interpretada como una variable discreta asociando a las categorías de la variable valores numéricos respetando el orden o escala establecida. Por ejemplo a la escala leve, moderado y fuerte le podríamos asociar la escala 1, 2 y 3 para mantener el orden.
Variable continua: Es la variable que puede adquirir cualquier valor dentro de un intervalo especificado de valores. Por ejemplo el peso (2,3 kg, 2,4 kg, 2,5 kg,…), la altura (1,64 m, 1,65 m, 1,66 m,…), o el salario. Solamente se está limitado por la precisión del aparato medidor, en teoría permiten que existan valores infinitos entre dos valores observados.

De forma habitual, la estructura de cualquier banco de datos (asociado a un diseño experimental) tiene una estructura matricial donde en las filas se colocan los sujetos bajo estudio y en las columnas se sitúan las variables medidas para cada uno de ellos.

Asociada a cada variable de nuestro banco de datos se puede establecer lo que conocemos como parámetro o parámetros de interés de la variable.

ffalse{-91-86-97-114-105-97-98-108-101-32-100-101-32-105-110-116-101-114-233-115-93-}

Ejemplo 1.2 \iffalse (Variable de interés) Para el diseño experimental del estudio de la degradación del compuesto orgánico presentado en el ejemplo 1.1, la variable de interés es de tipo continuo y viene dada por el tiempo de degradación asociado a cada repetición del experimento. Sin embargo, a la hora de extraer conclusiones no podemos presentar todo el conjunto de datos sino que recurrimos a un resumen de dichos datos.

1.1.4 Parámetros poblacionales y estadísticos

Asociado a cada variable se puede establecer lo que conocemos como parámetro o parámetros de interés de la variable. En el ejemplo anterior el parámetro de interés es el tiempo medio de degradación. Dado que generalmente no es posible examinar toda la población y debemos recurrir a una muestra de dicha población, es imposible conocer el verdadero valor del parámetro asociado con dicha variable. Para sortear este problema definimos el estadístico como una realización del parámetro para los datos muestrales observados. Por tanto el valor del estadístico (denominado estimación) varia entre dos muestras de las misma población. Cuanto mayor es la muestra más se parecerá el valor del estadístico al del parámetro.

En ocasiones ocurrirá que el número de parámetros asociado con una variable no es único, ya que se pueden establecer varios parámetros para estudiar el comportamiento de una variable. En el caso de variables de tipo cuantitativo siempre existen dos parámetros de interés: la media y la desviación típica. El primero nos indica como se sitúan los datos mientras que el segundo nos indica como se reparten los datos muestrales alrededor de la media.

ffalse{-91-80-97-114-225-109-101-116-114-111-32-100-101-32-105-110-116-101-114-233-115-93-}

Ejemplo 1.3 \iffalse (Parámetro de interés) Para el diseño experimental del estudio de la degradación del compuesto orgánico presentado en el ejemplo 1.1, el parámetro poblacional de interés es el tiempo medio de degradación, mientras que el estadístico es la media del tiempo de degradación observado para los sujetos de la muestra. Distinguimos entonces entre media poblacional (parámetro) y media muestral (estadístico).

1.2 Ejercicios

A continuación se presentan un conjunto de ejercicios con los que vamos a trabajar los conceptos presentados en esta unidad. Algunos de ellos los usaremos en las unidades siguientes. Al enunciado de cada ejercicio le acompaña el código de R necesario para la carga de los bancos de datos. Antes de leer los bancos de datos no debes olvidar cargar las librerias necesarias para su manipulación (ver Introducción).

Ejercicio 1.1 Un hospital está llevando a cabo un procedimiento de rutina en los pacientes ingresados para detectar niveles plásmáticos de colesterol total (en mg/ml) excesivamente altos. Más concretamente el estudio se centra en un grupo de 24 pacientes con hiperlipoproteinemia, que es un trastorno metabólico caracterizado por niveles elevados de lipoproteínas en la sangre que pueden asociarse con enfermedad coronaria. Se sospecha además que la edad puede tener cierta relevancia en los niveles de colesterol en sangre para este tipo de pacientes (ver Krzanowski (1998)).

# Creación del banco de datos
edad <- c(46,57,22,22,28,29,20,25,43,63,49,34,52,28,57,40,
          52,24,30,36,33,48,58,50)
nivel <- c(3.5,4.5,2.2,2.5,2.3,3.3,1.9,3.0,3.8,4.6,4.0,3.2,
           4.0,2.9,4.1,3.2,4.3,2.5,
           2.6,3.8,3.0,4.2,3.9,3.3)
datos <- data.frame(edad = edad,nivel = nivel)
# Visualización de los cinco primeros casos
kable(
  head(datos,5), align = 'c', booktabs = TRUE,
  caption = 'Datos de colesterol y edad en pacientes con hiperlipoproteinemia.')

Tabla 1.1: Datos de colesterol y edad en pacientes con hiperlipoproteinemia.
edad	nivel
46	3.5
57	4.5
22	2.2
22	2.5
28	2.3

¿Cuál consideras que es el objetivo principal del estudio? ¿se podrían establecer objetivos secundarios? ¿De qué tipo son las variables recogidas? ¿Cuál puede ser el parámetro o parámetros de interés teniendo en cuenta el objetivo u objetivos planteados?

Ejercicio 1.2 Los datos para este ejemplo se obtuvieron del Departamento de Conservación del Estado de Nueva York (datos sobre el ozono) y del Servicio Meteorológico Nacional (datos meteorológicos). Los datos recogidos son las lecturas diarias de los siguientes valores de calidad del aire desde el 1 de mayo de 1973 y el 30 de septiembre de 1973 (153 días en total)

Banco de datos de Chambers et al. (1983)

# Carga de datos
data(airquality)
# Descripción del banco de datos
help("airquality")
# Visualización de los cinco primeros casos
kable(
  head(airquality,5), align = 'c', booktabs = TRUE,
  caption = 'Datos de calidad del aire.')

Tabla 1.2: Datos de calidad del aire.
Ozone	Solar.R	Wind	Temp	Month	Day
41	190	7.4	67	5	1
36	118	8.0	72	5	2
12	149	12.6	74	5	3
18	313	11.5	62	5	4
NA	NA	14.3	56	5	5

Ejercicio 1.3 Los datos para este ejemplo corresponden a un estudio caso-control de cáncer de esófago en Ille-et-Vilaine, Francia. Las características recogidas corresponden a un conjunto de 88 sujetos.

Banco de datos de Breslow and Day (1980)

# Carga de datos
data(esoph)
# Descripción del banco de datos
help("esoph")
# Visualización de los cinco primeros casos
kable(
  head(esoph,5), align = 'c', booktabs = TRUE,
  caption = 'Datos de cáncer de esófago.')

Tabla 1.3: Datos de cáncer de esófago.
agegp	alcgp	tobgp	ncontrols
25-34	0-39g/day	0-9g/day	40
25-34	0-39g/day	10-19	10
25-34	0-39g/day	20-29	6
25-34	0-39g/day	30+	5
25-34	40-79	0-9g/day	27

Ejercicio 1.4 Este conjunto de datos contiene un subconjunto de los datos de economía de combustible que la EPA pone a disposición en http://fueleconomy.gov. Contiene solamente información sobre los modelos de vehículo que tuvieron una nueva versión cada año entre 1999 y 2008 - esto se utiliza habitualmenete como una aproximación para la popularidad del coche. El banco de datos está compuesto por 234 regitros con información sobre 11 variables diferentes.

# Carga de datos
data(mpg)
# Descripción del banco de datos
help("mpg")
# Visualización de los cinco primeros casos
kable(
  head(mpg,5), align = 'c', booktabs = TRUE,
  caption = 'Datos de economía de combustible.')

Tabla 1.4: Datos de economía de combustible.
manufacturer	model	displ	year	cyl	trans	drv	cty	hwy	fl	class
audi	a4	1.8	1999	4	auto(l5)	f	18	29	p	compact
audi	a4	1.8	1999	4	manual(m5)	f	21	29	p	compact
audi	a4	2.0	2008	4	manual(m6)	f	20	31	p	compact
audi	a4	2.0	2008	4	auto(av)	f	21	30	p	compact
audi	a4	2.8	1999	6	auto(l5)	f	16	26	p	compact

Ejercicio 1.5 Este conjunto contiene información sobre precios y otras características de casi 54.000 diamantes.

# Carga de datos
data(diamonds)
# Descripción del banco de datos
help("diamonds")
# Visualización de los cinco primeros casos
kable(
  head(diamonds,5), align = 'c', booktabs = TRUE,
  caption = 'Datos de características de los diamantes.')

Tabla 1.5: Datos de características de los diamantes.
carat	cut	color	clarity	depth	table	price	x	y	z
0.23	Ideal	E	SI2	61.5	55	326	3.95	3.98	2.43
0.21	Premium	E	SI1	59.8	61	326	3.89	3.84	2.31
0.23	Good	E	VS1	56.9	65	327	4.05	4.07	2.31
0.29	Premium	I	VS2	62.4	58	334	4.20	4.23	2.63
0.31	Good	J	SI2	63.3	58	335	4.34	4.35	2.75

Ejercicio 1.6 El banco de datos de Puromycin contiene 23 mediciones sobre la velocidad de reacción enzimática frente a la concentración de sustrato para células tratadas o no tratadas con Puromicina.

# Carga de datos
data(Puromycin)
# Descripción del banco de datos
help("Puromycin")
# Visualización de los cinco primeros casos
kable(
  head(Puromycin,5), align = 'c', booktabs = TRUE,
  caption = 'Datos de características de los diamantes.')

Tabla 1.6: Datos de características de los diamantes.
conc	rate	state
0.02	76	treated
0.02	47	treated
0.06	97	treated
0.06	107	treated
0.11	123	treated

Ejercicio 1.7 El banco de datos presenta la información referida al nacimiento y mortalidad infantil de 800 niños nacidos en el estado de Carolina del Norte. Las variables consideradas en el estudio son:

plural: Número de hijos nacidos del embarazo.
sex: Sexo del bebe.
mage: Edad de la madre.
weeks: Semanas completas de gestación.
marital: Estado matrimonial (“married” = 1; “not married” = 2).
racemom: Raza de la madre (“other non white” = 0,“White” = 1,“Black” = 2, “America indian” = 3,“Chinese” = 4,“Hawaiian” = 5, “Filipino” = 6,“Other asian” = 7).
hispmom: Madre de origen hispánico (“Cuban” = C,“Mexican” = M,“Non-Hispanic” = N, “Other” = O,“Puerto Rican” = P, “Central/South american”=S,“Not classificable”=U).
gained: Peso ganado durante el embarazo (en libras).
smoke: Madre fumadora (“Yes”=1,“No”=0).
drink: Madre bebedora (“Yes”=1,“No”=0).
tounces: Peso del bebe (en onzas).
tgrams: Peso del bebe (en gramos).
low: Bebe de poco peso (“Yes”=1,“No”=0).
premie: Bebe prematuro (“Yes”=1,“No”=0).

Datos en Daniel (2005) (pag. 56)

# Carga de datos
NCBIRTH800 = read_csv("https://goo.gl/mB9Jcn", col_types = "dcddcccdccddcc")
# Recodificación de factores
NCBIRTH800 = NCBIRTH800 %>% 
  mutate(sex=fct_recode(sex,"male"="1","female"="2"),
         marital=fct_recode(marital,"married"="1","not married"="2"),
         racemom=fct_recode(racemom,"other non white"="0","White"="1","Black"="2",
                            "America indian"="3","Chinese"="4","Hawaiian"="5",
                            "Filipino"="6","Other asian"="7","Other"="8"),
         hispmom=fct_recode(hispmom,"Cuban"="C","Mexican"="M","Non-Hispanic"="N",
                            "Other"="O","Puerto Rican"="P","Central/South american"="S",
                            "U"="Not classificable"),
         smoke=fct_recode(smoke,"Yes"="1","No"="0"),
         drink=fct_recode(drink,"Yes"="1","No"="0"),
         low=fct_recode(low,"Yes"="1","No"="0"),
         premie=fct_recode(premie,"Yes"="1","No"="0"))
# Visualización de los cinco primeros casos
kable(
  head(NCBIRTH800,5), align = 'c', booktabs = TRUE,
  caption = 'Datos de nacimientos.')

Tabla 1.7: Datos de nacimientos.
plural	sex	mage	weeks	marital	racemom	hispmom	gained	smoke	drink	tounces	tgrams	low	premie
1	male	32	40	married	White	Non-Hispanic	38	No	No	111	3146.85	No	No
1	female	32	37	married	White	Non-Hispanic	34	No	No	116	3288.60	No	No
1	male	27	39	married	White	Non-Hispanic	12	No	No	138	3912.30	No	No
1	male	27	39	married	White	Non-Hispanic	15	No	No	136	3855.60	No	No
1	male	25	39	married	White	Non-Hispanic	32	No	No	121	3430.35	No	No

Ejercicio 1.8 Los datos corresponden a las mediciones de los niveles de colesterol de un grupo de 1000 sujetos. Las variables consideradas en el estudio son:

SUBJ: Identificador del sujeto.
CHOLEST: Nivel de colesterol.

Datos en Daniel (2005) (pag. 206)

# Carga de datos
CHOLEST=read_csv("https://goo.gl/b5ZAb1", col_types = "id")
# Visualización de los cinco primeros casos
kable(
  head(CHOLEST,5), align = 'c', booktabs = TRUE,
  caption = 'Datos de colesterol.')

Tabla 1.8: Datos de colesterol.
SUBJ	CHOLEST
1	231
2	219
3	216
4	199
5	159

Ejercicio 1.9 Los datos corresponden a las mediciones de las cabezas de 1000 sujetos emparejados de dos a dos.

Datos en Daniel (2005) (pag. 297)

# Carga de datos
HEADCIR=read_csv("https://goo.gl/juWJEu", col_types = "idd")
# Visualización de los cinco primeros casos
kable(
  head(HEADCIR,5), align = 'c', booktabs = TRUE,
  caption = 'Datos de cabezas.')

Tabla 1.9: Datos de cabezas.
PAIR	SCA	NC
1	50.3	53.2
2	55.2	58.1
3	54.5	56.0
4	49.7	53.7
5	51.5	55.5

Ejercicio 1.10 Los datos corresponden a las mediciones de las niveles de la creatina fosfoquinasa para dos grupos de sujetos. En total hay 2010 sujetos y las variables consideradas en el estudio son:

SUBJ: Sujeto.
Grupo: Grupo al que se encuentra asignado cada sujeto del estudio (“A” o “B”).
cretine: Nivel de creatinina para cada sujeto.

Datos en Daniel (2005) (pag. 297)

# Carga de datos
PCKDATA =read_csv("https://goo.gl/W8Bfgv", col_types = "idd")
# Visualización de los cinco primeros casos
kable(
  head(PCKDATA,5), align = 'c', booktabs = TRUE,
  caption = 'Datos del nivel de creatinina.')

Tabla 1.10: Datos del nivel de creatinina.
SUBJ	A	B
1	193	250
2	90	173
3	120	135
4	154	49
5	149	83

Ejercicio 1.11 La información recogida corresponde a los datos sialicos ligados a los lípidos séricos. Se ha llevado a cabo un estudio para determinar si las mediciones de suero podrían ser de utilidad en la detección de cáncer de mama. Las mediciones son para cuatro poblaciones con un total de 1600 registros. Las variables consideradas son:

OBSERV: Sujeto.
Grupo: Grupo al que se encuentra asignado cada sujeto del estudio (“A,” “B,” “C,” “D”).
sace: Nivel de suero para cada sujeto.

Datos en Daniel (2005) (pag. 403)

# Carga de datos
SACEDATA =read_csv("https://goo.gl/FwMcTu", col_types = "idddd")
# Visualización de los cinco primeros casos
kable(
  head(SACEDATA,5), align = 'c', booktabs = TRUE,
  caption = 'Datos de mediciones de suero.')

Tabla 1.11: Datos de mediciones de suero.
OBSERV	A	B	C	D
1	108.4	198.3	89.1	64.8
2	73.8	174.1	117.0	70.4
3	65.9	168.2	113.3	65.0
4	86.7	189.9	108.4	85.6
5	102.7	169.9	132.1	98.5

Ejercicio 1.12 Un grupo de varones adultos con edades comprendidas entre 30 y 65 años participaron en un estudio para investigar la relación entre el consumo de carne y el colesterol. Los sujetos fueron organizados en tres grupos de acuerdo a tres dietas diferentes con una duración de 20 semanas. Las variables consideradas son:

SUBJ: Sujeto.
Dieta: Tipo de dieta (“BEEF” = carne de vaca unicamente, “PORK” = carne de cerdo unicamente, “C” = carne de pollo y pescado unicamente).
chol: Nivel de colesterol.

Datos en Daniel (2005) (pag. 404)

# Carga de datos
SERUMCHO =read_csv("https://goo.gl/ghxka2", col_types = "iddd")
# Visualización de los cinco primeros casos
kable(
  head(SERUMCHO,5), align = 'c', booktabs = TRUE,
  caption = 'Datos de nivel de colesterol.')

Tabla 1.12: Datos de nivel de colesterol.
SUBJ	BEEF	PORK	CHFISH
1	241	245	249
2	218	197	222
3	261	199	221
4	190	162	215
5	238	191	207

References

Breslow, N. E., and N. E. Day. 1980. “The Analysis of Case-Control Studies.” Statistical Methods in Cancer Research Volume 1.

Chambers, J. M., W. S. Cleveland, B. Kleiner, and P. A. Tukey. 1983. Graphical Methods for Data Analysis. Wadsworth.

Daniel, Wayne W. 2005. Biostatistics. Eighth Edition. Wiley.

Krzanowski, Wojtek J. 1998. An Introduction to Statistical Modelling. Arnold.