estadística para ciencias agropecuarias

322
 E E s s t t a a d d í í s s t t i i c c a a   p  p a a r r a a  l l a a s s  C C i i e e n n c c i i a a s s  A A g g r r o o  p  p e e c c u u a a r r i i a a s s  Cuarta Edición Di Rienzo, Julio Alejandro Casanoves, Fernando Gonzalez, Laura Alicia Tablada, Elena Margot Díaz, María del Pilar Robledo, Carlos Walter Balzarini, Mónica Graciela

Transcript of estadística para ciencias agropecuarias

Estadstica para las Ciencias AgropecuariasCuarta Edicin

Di Rienzo, Julio Alejandro Casanoves, Fernando Gonzalez, Laura Alicia Tablada, Elena Margot Daz, Mara del Pilar Robledo, Carlos Walter Balzarini, Mnica Graciela

CUARTA EDICIN Primera Impresin

EDICIN ELECTRNICA Fernando Casanoves Julio Di Rienzo

by

Di Rienzo, Julio Alejandro; Casanoves, Fernando; Gonzalez, Laura Alicia; Tablada, Elena Margot; Daz, Mara del Pilar; Robledo, Carlos Walter; Balzarini, Mnica Graciela.

ISBN: 987-9449-51-7 Queda hecho el depsito que prev la ley 11.723

Queda prohibida la reproduccin total o parcial de este libro en forma idntica o modificada por cualquier medio mecnico o electrnico, incluyendo fotocopia, grabacin o cualquier sistema de almacenamiento y recuperacin de informacin no autorizada por los editores.

PrlogoLa estadstica aplicada ha tenido un gran florecimiento en los ltimos 20 aos y hoy es parte del lenguaje cientfico cotidiano. Aunque el tratamiento estadstico de los resultados experimentales no es un seguro contra los hallazgos casuales, es un gran avance en ese sentido y representa una formidable herramienta para la interpretacin de datos, no solo poniendo restricciones a la percepcin caprichosa de la informacin, sino guiando metodolgicamente su indagacin. La enseanza de la estadstica en las ciencias agropecuarias no es un tributo a la modernidad sino una larga tradicin que se origina en los trabajos de Fisher que, a comienzos del siglo XX, sentaron las bases de la estadstica aplicada a la experimentacin agrcola. La cuarta edicin es el resultado de un trabajo de reorganizacin de contenidos, seleccin y actualizacin de ejemplos y reformulacin de problemas de las ediciones anteriores. Es el resultado de la experiencia docente y de la interaccin con sus principales destinatarios, los alumnos. Esta edicin tambin se ha enriquecido con las sugerencias de distintos colegas que, en distintas universidades argentinas, han utilizado las ediciones anteriores como soporte de sus cursos de grado.

Crdoba, Argentina, 2001

ndice de Contenidos1 ESTADSTICA DESCRIPTIVA ................................................................................ 1 INTRODUCCIN .............................................................................................................. 1 POBLACIN .................................................................................................................... 2 MUESTRA ....................................................................................................................... 2 VARIABLES ..................................................................................................................... 3Tipos de variables ...................................................................................................................5

MUESTREO ALEATORIO SIMPLE ..................................................................................... 6 RESUMEN DE LA INFORMACIN MUESTRAL ................................................................... 8Tablas de distribucin de frecuencias y grficos para variables discretas.............................8 Tablas de distribucin de frecuencias y grficos para variables continuas .........................12

MEDIDAS RESUMEN DE LA INFORMACIN MUESTRAL ................................................. 16Medidas de posicin..............................................................................................................16 Medidas de dispersin...........................................................................................................17

OTROS TIPOS DE MUESTREOS ....................................................................................... 19Muestreo Estratificado..........................................................................................................19 Muestreo por Conglomerados...............................................................................................20 Muestreo por Captura y Recaptura.......................................................................................21

REPRESENTACIONES GRFICAS .................................................................................... 21Grfico de Barras .................................................................................................................23 Diagramas de Torta ..............................................................................................................25 Diagramas de Caja (Box Plot) ...........................................................................................26 Diagrama de puntos (Dot-Plot)..........................................................................................28 Histogramas y Polgonos ......................................................................................................30 Diagramas de Tallo y Hojas .................................................................................................30 Diagramas de Dispersin......................................................................................................31 Diagramas de Lneas ............................................................................................................32 Q-Q Plots............................................................................................................................33

EJERCICIOS ................................................................................................................... 35 2 VARIABLES ALEATORIAS................................................................................... 43 INTRODUCCIN ............................................................................................................ 43 ESPACIO MUESTRAL - EVENTOS .................................................................................. 43 PROBABILIDAD ............................................................................................................. 45Probabilidad segn Kolmogorov ..........................................................................................45I

ndice de contenidos

Probabilidad: Concepto Frecuencial....................................................................................47 Probabilidad: Concepto Clsico...........................................................................................48

EVENTO ALEATORIO .................................................................................................... 48 CONCEPTO DE VARIABLE ALEATORIA ......................................................................... 48 DISTRIBUCIN DE UNA VARIABLE ALEATORIA ........................................................... 51Funcin de Distribucin Acumulada ....................................................................................51 Funcin de Densidad ............................................................................................................53Funcin de densidad de una variable aleatoria discreta ...................................................................53 Funcin de densidad de una variable aleatoria continua..................................................................54

MEDIDAS RESUMEN DE LA DISTRIBUCIN DE UNA VARIABLE ALEATORIA................ 55Esperanza de una variable aleatoria ....................................................................................56 Propiedades de la esperanza.................................................................................................58 Varianza de una variable aleatoria.......................................................................................59 Cuantiles de una variable aleatoria ......................................................................................62

EJERCICIOS ................................................................................................................... 63 3 MODELOS ESTADSTICOS: DISTRIBUCIN NORMAL Y OTRAS DISTRIBUCIONES ................................................................................................... 67 INTRODUCCIN ............................................................................................................ 67 DISTRIBUCIN NORMAL .............................................................................................. 69La Funcin de Densidad Normal ..........................................................................................69 Estandarizacin.....................................................................................................................72 Funcin de Distribucin Acumulada Normal .......................................................................74

OTRAS DISTRIBUCIONES ............................................................................................... 77 FUNCIONES DE DENSIDAD DE VARIABLES ALEATORIAS DISCRETAS ............................ 77Distribucin Uniforme Discreta...........................................................................................77 Distribucin Bernoulli...........................................................................................................78 Distribucin Binomial ...........................................................................................................80 Distribucin Binomial Negativa............................................................................................82 Distribucin Geomtrica.......................................................................................................85 Distribucin Hipergeomtrica ..............................................................................................86 Distribucin Poisson .............................................................................................................89 Distribucin Multinomial......................................................................................................90

FUNCIONES DE DENSIDAD DE VARIABLES ALEATORIAS CONTINUAS ........................... 91Distribucin Uniforme ..........................................................................................................91 Distribucin Gamma .............................................................................................................92 Distribucin Exponencial......................................................................................................93II

ndice de contenidos

Distribucin Chi-Cuadrado .................................................................................................94

EJERCICIOS ................................................................................................................... 95 4 DISTRIBUCIN DE ESTADSTICOS MUESTRALES .................................... 103 INTRODUCCIN .......................................................................................................... 103 DISTRIBUCIN DEL ESTADSTICO MEDIA MUESTRAL ................................................. 103Teorema Central del Lmite ................................................................................................109 Distribucin T de Student ...............................................................................................110 Distribucin de la diferencia de dos medias muestrales .....................................................112

DISTRIBUCIN ASOCIADA AL ESTADSTICO VARIANZA MUESTRAL ........................... 116 EJERCICIOS ................................................................................................................. 120 5 ESTIMACIN DE PARMETROS ..................................................................... 125 INTRODUCCIN .......................................................................................................... 125 CONCEPTO DE ESTIMACIN ....................................................................................... 125 ESTIMACIN PUNTUAL............................................................................................... 125Propiedades clsicas de los buenos estimadores............................................................126Insesgamiento................................................................................................................................126 Consistencia ..................................................................................................................................127 Eficiencia.......................................................................................................................................128

ESTIMACIN POR INTERVALO DE CONFIANZA ........................................................... 128Procedimiento general para encontrar un intervalo de confianza para un parmetro. .....129 Estimacin de la esperanza de una variable aleatoria normal...........................................130Caso 1: Se conoce la varianza .................................................................................................1302 2

Caso 2: No se conoce la varianza ............................................................................................131

CLCULO DEL TAMAO MUESTRAL PARA OBTENER UN INTERVALO DE CONFIANZA PARA CON UNA AMPLITUD DETERMINADA .......................................... 132 EJERCICIOS ................................................................................................................. 134 6 CONTRASTE DE HIPTESIS.............................................................................. 137 INTRODUCCIN .......................................................................................................... 137 PROCEDIMIENTO DE LA PRUEBA DE HIPTESIS ......................................................... 139 ERRORES .................................................................................................................... 145 CLCULO DE LA PROBABILIDAD DE COMETER ERROR DE TIPO II ()........................ 146 EFECTOS DE LAS VARIACIONES DE LA REGIN DE RECHAZO SOBRE ....................... 149 EFECTO DE LAS VARIACIONES DEL TAMAO DE LA MUESTRA SOBRE .................... 149 POTENCIA DE UNA PRUEBA DE HIPTESIS .................................................................. 150 CURVA DE POTENCIA ................................................................................................. 150III

ndice de contenidos

RELACIN ENTRE ESTIMACIN POR INTERVALO DE CONFIANZA Y PRUEBA DE HIPTESIS ................................................................................................................... 151 EJERCICIOS ................................................................................................................. 152 7 INFERENCIA SOBRE LA ESPERANZA Y LA VARIANZA DE VARIABLES ALEATORIAS DISTRIBUIDAS NORMALMENTE ................. 155 INTRODUCCIN .......................................................................................................... 155 PRUEBA DE HIPTESIS ACERCA DE UNA ESPERANZA ................................................. 155Caso 1: Se conoce la varianza 2 .......................................................................................155 Caso 2: No se conoce la varianza 2..................................................................................158

PRUEBA DE HIPTESIS ACERCA UNA VARIANZA ........................................................ 159 ESTIMACIN POR INTERVALO DE UNA VARIANZA ..................................................... 160 PRUEBA DE HIPTESIS PARA DOS VARIANZAS ........................................................... 161 PRUEBA DE HIPTESIS Y ESTIMACIN POR INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE DOS ESPERANZAS .............................................................................. 163Caso 1: Las varianzas son conocidas .................................................................................163 Caso 2: Las varianzas son desconocidas ............................................................................164 Caso 2-a: Las varianzas son desconocidas e iguales..........................................................164 Caso 2-b: Las varianzas son desconocidas y diferentes .....................................................166 Caso 3: Dos muestras no independientes............................................................................166Prueba T para observaciones apareadas.........................................................................................168

EJERCICIOS ................................................................................................................. 170 8 ANLISIS DE LA VARIANZA ............................................................................. 177 INTRODUCCIN .......................................................................................................... 177 DEFINICIONES PRELIMINARES .................................................................................... 177 EL ANLISIS DE LA VARIANZA DE EFECTOS FIJOS A UN FACTOR DE CLASIFICACIN ........................................................................................................... 180Fundamentos del anlisis de la varianza de efectos fijos....................................................181 Cuadrados medios y prueba de hiptesis............................................................................181 La particin de la suma de cuadrados y la tabla del ANAVA .............................................183

PRUEBAS "A POSTERIORI" .......................................................................................... 186El test de Tukey ...................................................................................................................187 Prueba de Fisher.................................................................................................................188

VERIFICACIN DE SUPUESTOS DEL ANLISIS DE LA VARIANZA ................................. 189 EJERCICIOS ................................................................................................................. 192 9 ANLISIS DE REGRESIN LINEAL ................................................................. 197IV

ndice de contenidos

INTRODUCCIN .......................................................................................................... 197 ANLISIS DE REGRESIN LINEAL ............................................................................... 200 ESTIMACIN DE LA RECTA DE REGRESIN. MTODO DE LOS MNIMOS CUADRADOS ............................................................................................................... 204 ESTIMACIONES Y PREDICCIONES ................................................................................ 207 INTERVALO DE CONFIANZA PARA LA ESPERANZA CONDICIONAL DE Y ..................... 208 INTERVALO DE CONFIANZA PARA LAS PREDICCIONES DE Y DADO X ........................ 209 INTERVALO DE CONFIANZA PARA LA ORDENADA AL ORIGEN .................................... 210 INTERVALO DE CONFIANZA PARA LA PENDIENTE ...................................................... 211 PRUEBAS DE HIPTESIS EN REGRESIN ...................................................................... 211 LOS SUPUESTOS DEL ANLISIS DE REGRESIN ........................................................... 214 VALOR PREDICTIVO DEL MODELO DE REGRESIN ..................................................... 215 ANLISIS DE CORRELACIN LINEAL ......................................................................... 216 PRUEBA DE HIPTESIS SOBRE .................................................................................. 219 EJERCICIOS ................................................................................................................. 221 10 DISEO DE EXPERIMENTOS ............................................................................ 227 INTRODUCCIN .......................................................................................................... 227 ELEMENTOS DEL DISEO DE EXPERIMENTOS ............................................................ 227Experimento ........................................................................................................................227 Unidad experimental ...........................................................................................................227 Factores y Tratamientos......................................................................................................228 Modelo para las observaciones...........................................................................................228 Fuentes de Error .................................................................................................................229Aleatorizacin ...............................................................................................................................229 Repeticin .....................................................................................................................................230

Precisin .............................................................................................................................231 Estructura de parcelas ........................................................................................................231 Algunos diseos clsicos.....................................................................................................232Completamente aleatorizado .........................................................................................................232 Bloques completos aleatorizados...................................................................................................233 Cuadrado latino .............................................................................................................................236

Estructura de tratamientos..................................................................................................238Experimentos Factoriales ..............................................................................................................239

EJERCICIOS ................................................................................................................. 247 11 ANLISIS DE DATOS CATEGRICOS............................................................. 251 INTRODUCCIN .......................................................................................................... 251V

ndice de contenidos

ANLISIS DE TABLAS DE CONTINGENCIA ................................................................... 255Tablas de contingencia a un criterio de clasificacin.........................................................256 Tablas de contingencia a 2 criterios de clasificacin (marginales libres)..........................258 Tablas de Contingencia a 2 criterios de clasificacin (marginales fijos) ...........................260

EJERCICIOS ................................................................................................................. 265 12 BIBLIOGRAFA...................................................................................................... 269 13 TABLAS ESTADSTICAS ..................................................................................... 273 14 RESPUESTAS A ALGUNOS EJERCICIOS IMPARES .................................... 297

VI

ndice de DefinicionesDefinicin 1.1: Poblacin .......................................................................................... 2 Definicin 1.2: Tamao poblacional ......................................................................... 2 Definicin 1.3: Muestra ............................................................................................. 3 Definicin 1.4: Unidad muestral ............................................................................... 3 Definicin 1.5: Tamao muestral .............................................................................. 3 Definicin 1.6: Variable ............................................................................................ 4 Definicin 1.7: Muestreo aleatorio simple ................................................................ 6 Definicin 1.8: Frecuencia absoluta ......................................................................... 8 Definicin 1.9: Media muestral o promedio ............................................................ 16 Definicin 1.10: Cuantil muestral ........................................................................... 16 Definicin 1.11: Mediana muestral ......................................................................... 17 Definicin 1.12: Moda muestral .............................................................................. 17 Definicin 1.13: Rango muestral ............................................................................. 17 Definicin 1.14: Varianza muestral......................................................................... 18 Definicin 1.15: Desviacin Estndar muestral...................................................... 18 Definicin 1.16: Coeficiente de variacin muestral ................................................ 18 Definicin 1.17: Promedio ponderado .................................................................... 19 Definicin 2.1: Espacio muestral............................................................................. 43 Definicin 2.2: Punto muestral o evento elemental ................................................. 44 Definicin 2.3: Evento ............................................................................................. 44 Definicin 2.4: Eventos mutuamente excluyentes .................................................... 44 Definicin 2.5: Medida de Probabilidad (Kolmogorov, 1937)................................ 45 Definicin 2.6: Probabilidad condicional ............................................................... 46 Definicin 2.7: Independencia de Eventos............................................................... 46 Definicin 2.8: Probabilidad: concepto frecuencial................................................ 47 Definicin 2.9: Probabilidad: concepto clsico ...................................................... 48 Definicin 2.10: Evento aleatorio............................................................................ 48 Definicin 2.11: Variable aleatoria......................................................................... 49 Definicin 2.12: Funcin de distribucin acumulada ............................................. 51 Definicin 2.13: Funcin de densidad de una v.a. discreta .................................... 53 Definicin 2.14: Funcin de densidad de una v.a. continua.................................... 54 Definicin 2.15: Esperanza de una v.a. discreta ..................................................... 57 Definicin 2.16: Esperanza de una v.a. continua .................................................... 57 Definicin 2.17: Varianza de una v.a. discreta ....................................................... 60VII

Definiciones

Definicin 2.18: Varianza de una v.a. continua ..................................................... 60 Definicin 2.19: Coeficiente de variacin. .............................................................. 61 Definicin 2.20: Cuantil .......................................................................................... 62 Definicin 3.1: Variable aleatoria normal .............................................................. 69 Definicin 3.2: Estandarizacin .............................................................................. 72 Definicin 3.3: Funcin de densidad normal estndar............................................ 72 Definicin 3.4: Distribucin Uniforme Discreta. .................................................... 77 Definicin 3.5: Distribucin Bernoulli .................................................................... 79 Definicin 3.6: Distribucin Binomial..................................................................... 81 Definicin 3.7: Distribucin Binomial Negativa (para k entero). ........................... 83 Definicin 3.8: Distribucin Geomtrica. ............................................................... 85 Definicin 3.9: Distribucin Hipergeomtrica. ....................................................... 87 Definicin 3.10: Distribucin Poisson..................................................................... 89 Definicin 3.11: Distribucin Multinomial............................................................. 91 Definicin 3.12: Distribucin Uniforme .................................................................. 91 Definicin 3.13: Distribucin Gamma..................................................................... 92 Definicin 3.14: Distribucin Exponencial. ............................................................ 93 Definicin 3.15: Distribucin Chi-Cuadrado .......................................................... 94 Definicin 4.1: Error Estndar.............................................................................. 107 Definicin 5.1:Estimacin y estimador puntual.................................................... 126 Definicin 5.2: Insesgamiento ............................................................................... 126 Definicin 5.3: Consistencia.................................................................................. 127 Definicin 5.4: Eficiencia ...................................................................................... 128 Definicin 5.5:Amplitud del intervalo de confianza. ............................................. 132 Definicin 6.1: Nivel de significacin.................................................................... 141 Definicin 6.2:Regin o zona de rechazo .............................................................. 141 Definicin 6.3:Regin o zona de no rechazo ........................................................ 141 Definicin 6.4:Puntos crticos ............................................................................... 142 Definicin 6.5: Potencia de una prueba ................................................................ 150 Definicin 7.1: Distribucin F............................................................................... 161 Definicin 8.1: Unidad experimental..................................................................... 177 Definicin 8.2: Tratamiento................................................................................... 178 Definicin 8.3: Variable aleatoria observada o respuesta .................................... 178 Definicin 8.4: Repeticin ..................................................................................... 178 Definicin 8.5: Modelo lineal ................................................................................ 179 Definicin 8.6: Cuadrado Medio Dentro o del Error............................................ 181 Definicin 8.7: Cuadrado Medio Entre o Cuadrado Medio de Tratamiento. ....... 182VIII

Definiciones

Definicin 8.8: Residuo.......................................................................................... 190 Definicin 9.1: Modelo de regresin lineal simple................................................ 201 Definicin 9.2: Coeficientes de regresin muestral............................................... 205 Definicin 9.3: Coeficiente de determinacin muestral ........................................ 216 Definicin 9.4: Coeficiente de correlacin lineal.................................................. 218 Definicin 9.5: Coeficiente de correlacin lineal muestral de Pearson................ 218 Definicin 10.1: Experimento ................................................................................ 227 Definicin 10.2: Diseo de la estructura de parcelas ........................................... 232 Definicin 10.3: Estructura de Tratamientos ........................................................ 239 Definicin 11.1: Variable categrica .................................................................... 251

IX

11 Estadstica DescriptivaIntroduccinEl registro de observaciones es una prctica comn en el marco de la investigacin. Estas observaciones surgen como resultado de un proceso de observacin bajo condiciones dadas o de un proceso experimental. Si, por ejemplo, se registraran las temperaturas mnimas diarias ocurridas en la dcada del 80, suponiendo un total de 3650 das, podramos pensar que existi un proceso natural cuya realizacin defini la temperatura efectivamente registrada en cada uno de los 3650 das. Situaciones como sta conducen a los conocidos estudios observacionales. En otras circunstancias, las observaciones son el resultado de la provocacin de un fenmeno, o experimento, bajo condiciones controladas. A modo de ejemplo, se podra considerar la aplicacin de distintos insecticidas en bandejas con 100 insectos, en cada una de las cuales se registra el nmero de insectos muertos. Situaciones como stas son conocidas como estudios experimentales. Generalmente la informacin registrada en un proceso de observacin es tratada, en un primer momento, con el objetivo de describir y resumir sus caractersticas ms sobresalientes. Esto se conoce como estadstica descriptiva y generalmente se basa en el uso de tablas y grficos, y en la obtencin de medidas resumen. El objetivo de este captulo es reconocer la poblacin y las variables relevantes en un proceso de observacin o de experimentacin, caracterizar y describir muestras de las poblaciones mediante medidas resumen, tablas de frecuencias y representaciones grficas y conocer algunas metodologas de extraccin de muestras. Antes de abordar el problema de describir un conjunto de observaciones se vern algunos conceptos bsicos que permiten la introduccin de los procedimientos estadsticos.

Estadstica Descriptiva

PoblacinDefinicin 1.1: PoblacinUna poblacin es un conjunto de elementos acotados en un tiempo y en un espacio determinados, con alguna caracterstica comn observable o medible.

Desde el punto de vista agronmico: 1. A qu elementos hace referencia la definicin? Los elementos considerados podran ser das, animales, semillas, plantas, personas o localidades de una cierta regin. 2. Por qu acotar en tiempo y espacio? Dependiendo de los intereses en juego, suele ser necesario recortar el problema, o especificar claramente los alcances o fronteras del problema en estudio, ya que dentro de estos mrgenes todo lo que se diga o afirme tendr validez, y fuera de ellos no. Por ejemplo, consideremos el hecho de la estacionalidad de las precipitaciones dentro del ao, y la existente entre aos. Se conoce acabadamente que existen grupos de aos secos y grupos de aos hmedos. Ms an, que su alternancia tiene cierta frecuencia de ocurrencia. Por ello cuando estudiemos las precipitaciones acumuladas durante el mes de diciembre, ser necesario especificar a qu grupo de aos estamos refirindonos, para que lo que se analice pueda ser correctamente interpretado. El trmino espacio, por otro lado, puede tener en la prctica distintas connotaciones, cuestin que con el tiempo (desde el punto de vista cronolgico) no ocurre. As el espacio puede denotar una regin, un volumen determinado, un lote, etc. Definicin 1.2: Tamao poblacionalSi la poblacin es finita, diremos que el tamao poblacional es el nmero de elementos de la misma y lo denotaremos con N.

MuestraGeneralmente es imposible o impracticable examinar alguna caracterstica en la poblacin entera, por lo que se examina una parte de ella y en base a la informacin relevada en esa porcin se hacen inferencias sobre toda la poblacin.

2

Estadstica Descriptiva

Definicin 1.3: MuestraSe entiende por muestra a todo subconjunto de elementos de la poblacin.

Definicin 1.4: Unidad muestralUna unidad muestral es el elemento o entidad de la muestra.

Definicin 1.5: Tamao muestralTamao muestral es el nmero de elementos de la poblacin que conforman la muestra y se denota con n.

El problema es cmo debe ser seleccionada esa parte de la poblacin que proveer la informacin acerca de la o de las caractersticas buscadas de manera tal que puedan obtenerse conclusiones. Vale la pena hacer una reflexin acerca del comentario, que respecto del tamao muestral, hace uno de los ms conocidos estudiosos del muestreo.Es clsico (y cmico) el personaje que despus de pasar 10 das en un pas extranjero est en condiciones de criticar la industria, reformar su sistema poltico, etc. Pero en realidad la diferencia que existe entre este personaje y el estudioso de ciencias polticas, que vive 20 aos en ese pas dedicado a estudiarlo, es que el primero basa sus conclusiones en una muestra mucho ms pequea y es menos consciente de su ignorancia (Cochran, 1981).

En este captulo se presentan algunas tcnicas para la obtencin de muestras de una poblacin y las formas principales de resumir la informacin que stas proveen. En los captulos siguientes se ver cmo, a partir de los resmenes muestrales, se puede estimar o inferir acerca de los parmetros distribucionales (estadstica inferencial).

VariablesLas observaciones o mediciones sobre los elementos de una poblacin constituyen la materia prima con la cual se trabaja en Estadstica. Para que dichas observaciones puedan ser tratadas estadsticamente deben estar expresadas o poder ser reexpresadas en trminos numricos. Aunque sea obvio, se destaca que la caracterstica de inters a observar o medir en cada elemento de la poblacin debe ser la misma, en tanto que se espera que no asuma el mismo valor en cada uno de los elementos que la conforman.3

Estadstica Descriptiva

Aquellas caractersticas que van cambiando en su estado o expresin entre los elementos de la poblacin se denominan "variables", mientras que aquellas que no cumplen esta condicin son llamadas "constantes". Definicin 1.6: VariableUna variable es una caracterstica, propiedad o atributo, con respecto a la cual los elementos de una poblacin difieren de alguna forma.

Para denotar a una cierta variable se utilizan letras maysculas, y con la misma letra en minscula se hace referencia a un valor en particular observable en un elemento de la poblacin, y al que se suele llamar dato. As, por ejemplo, si X denota el nmero de semillas germinadas en un conjunto de bandejas de germinacin, x denotar el nmero de semillas germinadas observadas en una de aquellas bandejas, siendo utilizado un subndice para hacer referencia a un valor en particular. As, x20 representa el nmero de semillas germinadas observadas en la bandeja nmero 20. Esta notacin se suele generalizar, utilizando como subndices letras minsculas desde la i en adelante y luego indicando el rango de posibles valores que puede adoptar el subndice para establecer cuntos datos se consideran en el problema. A modo ilustrativo se presentan algunos ejemplos de notacin con subndices: a) b) c) xi, i=1,...,6 hace referencia taxativamente a los valores observados x1, x2, x3, x4, x5, y x6, no interesando otros si existieran. xi, i=1,... en este caso i puede valer a partir de 1 en adelante y hasta infinito. xi, i=0,1,... en este caso i puede valer desde cero hasta infinito.Nota: En la prctica el trmino infinito, simbolizado por , significar valores inconmensurables (negativos o positivos), sea para el subndice (como en los casos b y c) como para los datos propiamente dichos (por ejemplo - < xi < ).

A fines ilustrativos, suponga que en la dcada de 1980 se registraron las temperaturas mnimas de los 3650 das. Siguiendo con la notacin introducida, X hace referencia a las temperaturas mnimas en la dcada 80 y xi , i=1,...,3650 a las efectivamente registradas. En particular, x112 denotar el valor de temperatura mnima registrado en el da 112 del perodo considerado; as, si en dicho da la temperatura mnima fue de -3.2 grados centgrados, escribiremos x112 = -3.2, y de esta forma se indica la temperatura de cualquier da en particular. De una manera general se suele denotar a un conjunto de n observaciones por {x1, x2,...,xn}, donde xn hace referencia al ltimo trmino de la serie de datos. En el ejemplo anterior, n es 3650.4

Estadstica Descriptiva

Tipos de variablesSe llamar variable continua a aquella caracterstica cuyas observaciones pueden asumir cualquier valor dentro de un intervalo. En estos casos el conjunto de posibles valores es no numerable1. En otras palabras, existe una cantidad infinita de posibles valores para los resultados de la variable. Se puede describir el conjunto de posibles valores de una variable continua de distintas formas. Se suele seguir la siguiente convencin: a) Un intervalo es cerrado si sus extremos pertenecen al mismo, lo que se denotar con corchetes, por ejemplo, [a, b] denota al conjunto de todos los x tal que a x b. Un intervalo es abierto si sus extremos no pertenecen al mismo, lo que se denotar con parntesis, por ejemplo, (a, b) denota al conjunto de todos los x tal que a < x < b. Un intervalo es semi-cerrado (o semi-abierto) si uno de sus extremos no pertenece al mismo, lo que se denotar con el corchete y el parntesis que corresponda. Por ejemplo, (a, b] denota al conjunto de todos los x tal que a 1.4) = 1 - 0.9192 = 0.0808, cuya representacin grfica es:

0.0808

0

1.40

Figura 3.6: Representacin del rea bajo la curva normal por encima del valor 1.4 La variable Z puede ser vista como una desviacin de X en torno a la media medida en unidades de desviacin estndar. Es decir P [-1 < Z < 1] debe entenderse como la probabilidad de que X tome valores que se alejan de la media en menos o ms una desviacin estndar, es decir, P [ - 1 < X < + 1]. En una distribucin normal terica, esta probabilidad es igual a 0.6827, lo que equivale a decir que en la distribucin normal el 68.27% de las observaciones estn comprendidas entre la esperanza menos un desvo estndar y la esperanza ms un desvo estndar: [ 1 ] incluye al 68.27% de las observaciones De igual manera se deduce que: [ 2 ] incluye al 95.45% de las observaciones76

Modelos Estadsticos: Distribucin Normal y Otras Distribuciones

[ 3 ] incluye al 99.74% de las observaciones Existen pruebas formales para verificar el supuesto de normalidad que se pueden aplicar a una distribucin emprica. Estas tcnicas no sern desarrolladas en el marco de esta obra.

Otras distribuciones

Funciones de densidad de variables aleatorias discretasEn la presentacin de cada funcin se seguir el siguiente estilo y secuencia: a) situaciones en las que se puede seleccionar la funcin como modelo, b) definicin de la funcin, c) propiedades, i.e. los parmetros que la caracterizan y d) ejemplos. Se presentar una secuencia en complejidad e integracin de conceptos crecientes, iniciando la misma, con funciones muy sencillas, pero necesarias para comprender las siguientes.

Distribucin Uniforme DiscretaSe denotar a los posibles valores que pueda tomar una variable aleatoria discreta como x1, x2, ..., xk. En aquellos casos en que la variable aleatoria en estudio puede tomar slo k valores con igual probabilidad cada uno de ellos, se dice que la variable aleatoria tiene distribucin uniforme discreta. Con ello se quiere decir que la funcin de densidad de la variable aleatoria considerada es uniforme (constante). Definicin 3.4: Distribucin Uniforme Discreta.Una variable aleatoria X tiene distribucin Uniforme Discreta si y slo si su funcin de densidad es:

1 para x = x1 , x2 , ..., xk f ( x) = k 0 en caso contrario donde xi xj para i j.

Las variables aleatorias uniformes discretas se indican con la siguiente notacin: X ~ Ud(x1,xk)77

Modelos Estadsticos: Distribucin Normal y Otras Distribuciones

La esperanza E(X) y la varianza V(X) cuando X tiene distribucin uniforme discreta se calcula como:

= E ( X ) = ik=1 xi f ( xi ) = ik=1 xi

1 1 k 1 = i =1 xi = ( x1 + x2 + ... + xk ) k k k1 1 k = i =1 ( xi ) 2 = k k

2 = V ( X ) = ik=1 ( xi ) 2 f ( xi ) = ik=1 ( xi ) 21 = (( x1 ) 2 + ( x2 ) 2 + ... + ( xk ) 2 ) kEjemplo 3.4

Esta distribucin aparece asociada a muchos juegos de azar, en los que los resultados tienen idntica chance de ocurrir. Este es el caso de la ruleta, la quiniela, etc. Esta distribucin se usa, en el contexto del diseo de experimentos, para la asignacin, con idntica probabilidad, de las unidades experimentales a los tratamientos que se quieren comparar. En el contexto del muestreo, para seleccionar, con idntica probabilidad, las unidades muestrales que conforman una muestra.

Distribucin BernoulliEn ciertos experimentos suele ocurrir que existen slo dos resultados posibles: xito o fracaso, presencia o ausencia, s o no, etc. En estos casos, se puede asociar a cada uno de los resultados posibles el nmero 0 o el nmero 1, segn convenga. Por ejemplo, si el resultado de inters es el xito, se podra tomar x = 1 y si es fracaso hacer x = 0. Si el resultado de inters fuera el fracaso, luego se debera asignar al revs. Por otro lado, como el resultado del experimento es aleatorio, ser natural pensar que cada uno de los resultados posibles tendr cierta probabilidad de ocurrencia. En ciertas circunstancias ambos resultados pueden tener la misma probabilidad, pero obviamente no siempre es as. Si se llama a la probabilidad de uno de los dos resultados, luego la probabilidad del otro ser 1-.

78

Modelos Estadsticos: Distribucin Normal y Otras Distribuciones

Definicin 3.5: Distribucin BernoulliUna variable aleatoria X tiene distribucin Bernoulli si y slo si su funcin de densidad es:

x (1- )1-x si x = 0 ,1 f ( x; ) = 0 en caso contrariodonde 01.

Se denota a las variables Bernoulli con parmetro como X ~ Ber().Nota: cuando se escribe f(x;) se denota que x es el argumento de la funcin y que lo que sigue a continuacin del punto y coma es una constante previamente especificada, necesaria para poder hacer clculos con la funcin. As, si = 0.3, luego x 1-x la funcin de densidad Bernoulli ser f(x ; 0.3)=0.3 (1-0.3) .

La E(X) y la V(X) cuando X tiene distribucin Bernoulli se calculan como:

= E ( X ) = x =0;1 x f ( x) = x =0;1 x ( x (1 )1 x ) = 0 ( 0 (1 )10 ) + 1( 1 (1 )11 ) == 1( 1 (1 )11 ) =

2 = V ( X ) = x =0;1 ( x ) 2 f ( x) = x =0;1 ( x ) 2 ( x (1 )1 xComo = , reemplazando, sigue que:

= (0 ) 2 ( 0 (1 )10 + (1 ) 2 ( 1 (1 )11Desarrollando los cuadrados y los exponentes, sigue:

= 2 (1 ) + (12 2 + 2 ) = 2 3 + 2 2 + 3 = 2 = (1 )Nota: Obsrvese que caracteriza completamente a la funcin de densidad Bernoulli, es decir que tanto su esperanza como su varianza son expresiones que slo dependen de . En este sentido se dice que es el nico parmetro de esta funcin de distribucin discreta.

Ejemplo 3.5 Presencia o ausencia de enfermedades en una planta, clasificacin de semillas en anormales y normales, son ejemplos de variables aleatorias que se pueden modelar con una distribucin Bernoulli. Ensayos o experimentos en los que interesa el estudio de una o ms variables aleatorias Bernoulli, son llamados Ensayos o Experimentos Bernoulli.

79

Modelos Estadsticos: Distribucin Normal y Otras Distribuciones

Distribucin BinomialEsta distribucin tiene origen cuando ocurren las siguientes tres condiciones en forma simultnea: a) b) c) Se realizan o repiten n ensayos Bernoulli. El parmetro se mantiene constante entre ensayos. Los ensayos son todos independientes entre s.

Estas condiciones experimentales son muy frecuentes, y en general el problema de inters radica en el nmero de xitos en n casos estudiados, o el nmero de respuestas no en n consultas, o el nmero de veces que ocurre un cierto fenmeno atmosfrico en n observaciones realizadas. Cuando se registra la ocurrencia de un fenmeno atmosfrico en n observaciones suele utilizarse la distribucin binomial para modelar el nmero total de ocurrencias. Sin embargo, en este caso es importante destacar que se debe verificar que las observaciones sean independientes y que la probabilidad de ocurrencia del fenmeno atmosfrico () se mantenga constante entre observaciones. En caso contrario el modelo binomial no ser apropiado. La falta de independencia entre observaciones en la agronoma es frecuente, y deber tenerse en cuenta al momento de realizar un ensayo. La clave para modelar fenmenos en los que la independencia no puede asegurarse, est en reconocerla y luego incorporar esta informacin en la modelacin. Si hay independencia entre las observaciones, entonces podemos seleccionar la distribucin binomial. Ms adelante se presentar una distribucin que puede ser usada en algunos casos donde no hay independencia. Para ilustrar el concepto de independencia veamos por ejemplo en qu casos se puede presentar la falta de independencia en ensayos de germinacin. Si se observa la germinacin de semillas aisladas la respuesta de cada una de ellas no depender de lo que ocurri en las otras. En este caso se registrarn n datos independientes. En cambio, si se realiza un ensayo de germinacin en el que las semillas se encuentra en grupos (cajas de Petri) puede ocurrir que la no germinacin de una semilla est asociada a la presencia de hongos. Estos mismos pueden haber contaminado a las semillas vecinas y por lo tanto la respuesta de stas no es independiente. Se da a continuacin una definicin formal de distribucin binomial.

80

Modelos Estadsticos: Distribucin Normal y Otras Distribuciones

Definicin 3.6: Distribucin Binomial.Una variable aleatoria X tiene distribucin Binomial si y slo si su funcin de densidad es:

n x 1- x (1- ) si x = 0 ,1,..., n f ( x; n, ) = x 0 en caso contrario donde 01.

Las variables binomiales con parmetros n y se denotan como: X~ Bin(n,)Nota: De forma anloga que en la distribucin Bernoulli, f(x; n, ) se caracteriza por dos parmetros: n y . Adems,

()n x

representa el nmero de combinaciones

posibles de armar en base a n elementos en grupos de x, siendo y n! = 12...n.

( ) = x !(nn-!x)!n x

La E(X) cuando X tiene distribucin Binomial se puede obtener a partir del siguiente desarrollo: Como los posibles valores de x son 0, 1, 2, ..., n, es posible escribir la esperanza como sigue:

= E ( X ) = n=0 x f ( x) = n=0 x ( n ) x (1 ) n x = n=0 x x x x x

n! x (1 ) n x x !(n - x)!

Ntese que el primer valor de x es cero, y que si se reescribe x!=x (x-1)! se puede simplificar la expresin anterior y quedar as:

= n=1 x x

n! x (1 ) n x ( x 1)!( n - x)!

Luego, usando la misma tcnica para n!=n(n-1)! y observando que x = .x - 1, es posible sacar factor comn n, y reescribir la expresin anterior de la siguiente forma:1 = n n=1 ( n1 ) x 1 (1 ) n x x x

Si se hace el siguiente cambio de notacin: y = x -1 y m = n -1, se tiene:

= n m=0 ( m ) y (1 ) m y = n y yya que, m=0 y

( )m y

y

(1 ) m y = 1 debido a que es la suma sobre todos los valores

81

Modelos Estadsticos: Distribucin Normal y Otras Distribuciones

posibles de una funcin de probabilidad Bin(m,)=

( )m y

y

(1 ) m y

Si se calcula la varianza V(X) y siguiendo las ideas presentadas para el clculo de la E(X), cuando X ~ Bin(n, ) se ver que:

2 = V ( X ) = n (1 )Ejemplo 3.6 Supngase que se toman 10 semillas de Panicum maximum Jacq. y se registra el evento germin o no germin despus de 5 das desde su implantacin. En este experimento las semillas estn suficientemente aisladas como para asegurar respuestas independientes. Si la probabilidad de germinacin es (para todas las semillas) igual a 0.25 calculemos: a) b) c) d) e) Probabilidad que germinen 7 de las 10 semillas, Probabilidad que germinen al menos 3 de las 10 semillas, Probabilidad que germinen a lo sumo 5 semillas. La esperanza de esta variable aleatoria. La varianza.

Si X~ Bin(7; 10, 0.25), luego: a) P(X = 7) =7

(10 ) 0.25 (1 0.25) 7b) c) d) e)

(10 ) 7

0.257 (1-0.25)(10 -7) =10 7

=

10! 0.0185 0.257 0.753 = = 0.0031 7!(10 - 7)! 6

P(X 3) = P(X = 3) + P(X = 4) + ... + P(X = 10) = = 1 - (P(X = 0) + P(X = 1) + P(X = 2)) = = 1 - (0.0563 + 0.1877 + 0.2816) = 0.4744 P(X 5) = P(X = 0) + P(X = 1) + ... + P(X = 5) = = 0.0563 + 0.1877 + 0.2816 + 0.2503 + 0.1460 + 0.0584 = 0.9803 E(X) = 10 (0.25) = 2.5 V(X) = 10 (0.25) (1 - 0.25) = 1.875

Distribucin Binomial NegativaEn conexin con la repeticin de ensayos Bernoulli, ciertos problemas de inters centran su atencin en el nmero de ensayos necesarios hasta que ocurren k xitos.82

Modelos Estadsticos: Distribucin Normal y Otras Distribuciones

Esta distribucin tambin se la conoce como distribucin binomial para los tiempos de espera o distribucin Pascal. Prstese atencin a la siguiente secuencia: a) b) c) Sea la probabilidad de xito. Se llama A al evento el k-simo xito ocurre en el ensayo nmero x. Si el k-simo xito ocurre en el ensayo x-simo, luego ya ocurrieron k-1 xitos en los x-1 ensayos anteriores. As, la probabilidad del evento B:ocurren k -1 xitos en x -1 ensayos puede calcularse por la distribucin binomial Bin(k-1; x-1, ). Si la probabilidad es constante entre los ensayos y C es el evento xito en el ensayo nmero x, luego P(C)=. Entonces, P(A)=P(BC). Como los eventos B y C son independientes, se tiene: P(A)= P(BC)=P(B)*P(C)=

d) e)

( )x 1 k 1

k -1

(1 - )x - k ) =

( )x 1 k 1

k

(1 - )x - k )

Se da a continuacin una definicin formal de esta distribucin. Definicin 3.7: Distribucin Binomial Negativa (para k entero).Una variable aleatoria X tiene distribucin Binomial Negativa si y slo si su funcin de densidad es:

x-1 k x-k si x = k ,k + 1,k + 2... (1- ) f ( x; k , ) = k-1 0 en caso contrario donde 01.

A las variables binomiales negativas con parmetros k y se las denotar como X~ BinNeg(k,).Nota: De forma anloga a las otras distribuciones, f(x;k,) queda determinada por k y . Por otro lado, los valores de x son valores mayores o iguales que k. Obviamente no puede ocurrir k xitos en un nmero X de ensayos menor que k.

Si se calcula la E(X), cuando X~BinNeg(k,) se ver que: = E ( X ) = Si se calcula la varianza V(X) tendremos que: 2 = V ( X ) =

k

k 1 1 83

Modelos Estadsticos: Distribucin Normal y Otras Distribuciones

Desde el punto de vista del clculo de probabilidades, en problemas especficos, no es necesario acudir a una tabla de probabilidades de binomial negativa, si se dispone de una tabla binomial. La relacin entre una y otra distribucin es la siguiente: BinNeg(x; k, ) =

k . Bin(k; x, ) x

Ejemplo 3.7 Un acopiador de granos recibe camiones cargados con maz. La carga puede venir con o sin semillas de chamico. La probabilidad de que el camin venga limpio es 0.90. Si el silo se llena con 20 camiones y se desea que sean solo con cargas limpias. a) b) c) Cul es la probabilidad de que los llene con los primeros 20 camiones?. Cul es la probabilidad de que los llene con los primeros 30 camiones? Cul es el nmero de camiones necesarios para llenar el silo con carga limpia con probabilidad 0.95.

a) Tomando x = 20, k = 20 y = 0.90, se tiene: BinNeg(20;20;0.9) =

k 20 . Bin(20; 20, 0.9)=0.1216 Bin(k; x,) = x 20

b) Tomando x = 30, k = 20 y = 0.90, se tiene: BinNeg(30;20;0.9) =

k 20 Bin(30; 20, 0.9)= 0.00024 . Bin(k; x, ) = x 30

c) Para contestar esta pregunta, se debe calcular la probabilidad de que los 20 camiones limpios se hayan conseguido con X camiones o menos. Obviamente X no puede ser menor que 20. Luego, cuando la probabilidad de que se hayan conseguido los 20 camiones limpios con X camiones o menos, alcance (o est cerca de) 0.95, se tendr la solucin. La siguiente tabla muestra para distintos nmeros totales de camiones (X), la probabilidad de que se alcancen 20 xitos en el X-simo (llamando A a este evento y P(A) a su probabilidad) y tambin la probabilidad de que estos xitos se alcancen en el X-simo camin o en alguno anterior (evento B).

84

Modelos Estadsticos: Distribucin Normal y Otras Distribuciones

Camiones 20 21 22 23 24 25 26 27 28 29 30

P(A) 0.1216 0.2432 0.2553 0.1872 0.1077 0.0517 0.0215 0.0080 0.0027 0.0008 0.0002

P(B) 0.1216 0.3647 0.6200 0.8073 0.9149 0.9666 0.9881 0.9961 0.9988 0.9997 0.9999

Teniendo en cuenta la informacin anterior, se puede concluir que con 25 camiones, es altamente probable (P=0.9666) que se complete el silo con carga limpia. Existen muchas aplicaciones de la distribucin binomial negativa cuando k=1. Por esto recibe el nombre especial de distribucin geomtrica, cuya definicin se da a continuacin.

Distribucin GeomtricaDefinicin 3.8: Distribucin Geomtrica.Una variable aleatoria X tiene distribucin Geomtrica si y slo si su funcin de densidad es:

(1- ) x 1 si x = 1,2,3... f ( x, ) = 0 en caso contrariodonde 01.

Esta distribucin tiene especial aplicacin cuando el problema de inters es modelar la distribucin del nmero de ensayos necesarios para encontrar el primer xito. Ejemplo 3.8 El mismo acopiador del ejemplo anterior tiene problemas financieros, por eso decide vender a razn de un camin de grano por da. Sabiendo que la probabilidad diaria de que un productor reclame la venta de un85

Modelos Estadsticos: Distribucin Normal y Otras Distribuciones

camin es de 0.2 y esa probabilidad se mantiene constante durante el prximo mes, cul es la probabilidad de vender un silo sin que le reclamen ninguna venta? Esta situacin implica que lo que pretende el acopiador es vender todo un silo (20 camiones) sin que durante ese perodo tenga que desembolsar un pago. Lo que este acopiador desea calcular es la probabilidad de que el primer reclamo ocurra en el da 21 o posteriormente. Esta probabilidad debera calcularse como P(X=21) + P(X=22)+....=1- (P(X=20) + P(X=19) +...+ P(X=1)) donde X~Geom(x,0.2). Luego, utilizando la definicin y las propiedades de las funciones de distribucin tenemos: 1-(P(X=20) + P(X=19) +...+ P(X=1)) = =1-[0.2(1-0.2)(20-1) + 0.2(1-0.2)(19-1) +...+ 0.2(1-0.2)(1-1)] = 0.0115 En consecuencia, es muy poco probable que el acopiador pueda vender un silo a razn de un camin diario sin que ningn productor le pida una venta durante ese perodo.

Distribucin HipergeomtricaEsta distribucin est ligada a situaciones de muestreo sin reposicin, es decir situaciones en que al azar se elige un elemento de una poblacin y as sucesivamente hasta completar la muestra, sin restituir los elementos extrados. Para inducir la frmula de esta distribucin, anloga a la binomial, considrese como poblacin a un conjunto de N elementos de los cuales k poseen uno de dos estados posibles (xito) y N-k que presentan el otro (fracaso). Al igual que en la binomial, el problema de inters es hallar la probabilidad de obtener X xitos, pero en este caso, cuando se seleccionan sin reposicin n elementos de un conjunto de N . Como se recordar, el concepto frecuencial de probabilidad est asociado al cociente:

nmero de casos favorables nmero de casos posiblesEn este problema el nmero de casos totales viene dado por el nmero de combinaciones posibles que se puede obtener a partir de N elementos tomados de a grupos de n. Esto es: Nmero de casos totales =86

( )N n

Modelos Estadsticos: Distribucin Normal y Otras Distribuciones

El nmero de casos favorables vendr dado por el nmero de formas posibles de elegir x xitos y n-x fracasos del conjunto de N elementos en los que hay k xitos y N-k fracasos, por lo que este nmero ser el siguiente producto: Nmero de casos favorables = donde

( )( )k x N k n x N k n x

( )k x

indica el numero de formas posibles en las que se pueden escoger x

xitos de un conjunto de k xitos y anlogamente

( ) indica el nmero de formas( ) formas deN k n x

posibles en las que se pueden escoger n-x fracasos de un total de N-k fracasos. Luego para cada forma de elegir un conjunto de x xitos existen obtener n-x fracasos y de all el producto. Se da a continuacin una definicin formal de esta distribucin. Definicin 3.9: Distribucin Hipergeomtrica.Una variable aleatoria X tiene distribucin Hipergeomtrica si y slo si su funcin de densidad es:

k N - k x n - x si x = 0 ,1,..., n; x k ; n - x N - k f ( x; n, N , k ) = N n 0 en caso contrario. Nota: De forma anloga que en las otras distribuciones, esta funcin de densidad posee tres parmetros: n, N, k. Se denotar a las variables hipergeomtricas con parmetros n, N, k con la siguiente expresin: X~Hiper(n,N,k)

Si se calcula la E(X) cuando X tiene distribucin hipergeomtrica, se ver que:

E(X) =Si se calcula la varianza V(X) se ver que:

nk N

2 = V (X ) =

n k ( N - k ) ( N - n) N 2 ( N -1)

87

Modelos Estadsticos: Distribucin Normal y Otras Distribuciones

Ejemplo 3.9 Cuando la semilla de maz viene contaminada con chamico, el precio de esta semilla es inferior. Para determinar el precio que debe pagar por un determinado lote, un Ingeniero Agrnomo decide examinar 20 de 500 bolsas de semillas de maz. Si el 10% de las bolsas (50) contienen semillas de chamico, Cul es la probabilidad de que ninguna de ellas est incluida en la muestra? Tomando x=0, n=20, N=500 y k=50 en la funcin hipergeomtrica, se tiene: Hiper(0;20,500,50)=

( 50 )( 450 ) 0 20 ( 500 ) 20

= 0.1164

Vale decir que de cada 100 veces que el ingeniero realiza esta prueba, que consiste en tomar una muestra de 20 bolsas de un total de 500 donde al menos 50 estn contaminadas, en el 88% de las veces (al menos) encontrar bolsas con chamico. En oportunidad de presentar la distribucin binomial haba quedado planteado el hecho de que cuando N es grande, el considerar si el muestreo es con o sin reposicin puede ser insignificante. Considrese el siguiente ejemplo: Ejemplo 3.10 Entre 120 cmaras de germinacin, 80 estn bien calibradas. Si se toma una muestra aleatoria de 5 cmaras, hallar la probabilidad de que solamente 2 de las 5 estn bien calibradas en base a: a) La distribucin hipergeomtrica Tomando x=2, n=5, N=120 y k=80, se tiene:

80 40 2 3 0.164 Hiper(2; 5, 120, 80) = 120 5 b) La distribucin binomial. Tomando x=2, n=5, =

80 2 = en la frmula de la binomial: 120 3

88

Modelos Estadsticos: Distribucin Normal y Otras Distribuciones

Bin(2;5,2/3) = 5 (2/3)2 (1-2/3)3 0.165

(2)

Distribucin PoissonLa distribucin de Poisson da un modelo para variables de tipo conteo, donde los conteos se refieren al registro del nmero de un evento de inters en una unidad de tiempo o espacio dados (horas, minutos, m2, m3, etc.). Ejemplos de variables que se pueden modelar como Poisson son: a) Nmero de huevos de un insecto en una oviposicin. b) Nmero de bacterias en una muestra de agua. c) Nmero de semillas defectuosas observadas en una cinta transportadora por minuto. d) Nmero de nemtodos por unidad de volumen del suelo. e) Nmero de pulgones por planta. f) Nmero de pulgones por m2 . Se da ahora la siguiente definicin formal para esta distribucin. Definicin 3.10: Distribucin Poisson.Una variable aleatoria X tiene distribucin Poisson si y slo si su funcin de densidad es:

x e- si x = 0,1, 2,... f ( x, ) = x ! 0 en caso contrario Nota: Se indica que X tiene distribucin de Poisson con parmetro , con la siguiente notacin: X~Poisson().

Si se calcula la E(X) y la V(X), cuando X~ Poisson(), se obtiene: =E(X) = 2= V(X) = En esta distribucin la varianza es igual a la esperanza y por lo tanto la variabilidad de los conteos aumenta con el nivel medio de los mismos. Este es un caso tpico de asociacin entre esperanza y varianza.

89

Modelos Estadsticos: Distribucin Normal y Otras Distribuciones

Ejemplo 3.11 Si el nmero promedio de picaduras de gorgojo por semilla es 0.2 (es decir, por ejemplo que, en promedio, cada 100 semillas se cuentan 20 picaduras), cuntas de 100 semillas no tendrn picaduras?, cuntas 1 picadura? y cuntas 2 o ms? Para responder a este problema se calcula la probabilidad de que una semilla tomada al azar tenga una picadura o ninguna picadura, suponiendo distribucin Poisson para esta variable. Luego: P(X=0)= P(X=1)=

0.20 e 0.2 = 0.819 0! 0.21 e 0.2 = 0.164 1!

y P(X>1)= 1-[P(X=0)+P(X=1)]=1-0.982= 0.018 En consecuencia, si la probabilidad de que una semilla tomada al azar no tenga picaduras es 0.819, deberamos esperar que, en un grupo de 100, aproximadamente 82 no estn picadas, y si la probabilidad de que tengan solo una picadura es de 0.164, entonces solo 16 semillas cumplirn esta condicin y finalmente, aproximadamente 2 de cada 100 semillas tendrn 2 o ms picaduras.Nota: Existe una relacin entre la distribucin de Poisson y la Binomial que permite aproximar las probabilidades de variables binomiales cuando n es grande y pequeo. En estos casos se puede tomar = n y calcular las probabilidades de xito bajo esta distribucin.

Distribucin MultinomialEsta distribucin puede ser vista como una generalizacin de la distribucin binomial, donde el inters es calcular la probabilidad de obtener n1, n2, ..., nk en k categoras en una muestra de tamao N=n1+n2+...+nk conociendo que la probabilidad de ocurrencia de cada categora en la poblacin 1, 2,...., k. Se dice entonces que una variable tiene distribucin multinomial y se denota como Multi(N,1, 2,...., k-1), cuando su funcin de densidad est dada por:

90

Modelos Estadsticos: Distribucin Normal y Otras Distribuciones

Definicin 3.11: Distribucin Multinomial.Si X1, X2,..., Xk representan las ocurrencias de las K categoras en la poblacin entonces decimos que (X1, X2,..., Xk ) tiene distribucin Multinomial si su densidad es la siguiente:

N! x x x 11 22 ... kk f ( x1 , x2 ,..., xk ;1 , 2 ,..., k ) = x1 !.x2 !....xk ! 0 en caso contrario donde N=x1+x2+...+xk ; xi[0,1,..N]; 0i1, i=1,...,k; 1+2+...+k=1.

Ejemplo 3.12 En un cultivo el ataque de una enfermedad puede ser calificado como severo, moderado o sin ataque. Supngase que la probabilidad de ataque severo es de 0.05 y de moderado de 0.20. Cul es la probabilidad de encontrar sobre un total de 10 plantas observadas, 2 con ataque severo, 2 con ataque moderado y 6 sanas? Solucin: P(X1=2, X2=2, X3=6) =

10! 0.05 2 0.20 2 0.75 6 = 0.0224 2!2!6!

Funciones de densidad de variables aleatorias continuasA continuacin se presentan algunas funciones de distribucin continuas que aparecen frecuentemente en las aplicaciones prcticas.

Distribucin UniformeAs como en la seccin anterior se defini la distribucin uniforme para variables aleatorias discretas, ahora se presenta una distribucin anloga para el caso continuo. Su definicin es la siguiente: Definicin 3.12: Distribucin UniformeUna variable aleatoria X tiene distribucin Uniforme si y slo si su funcin de densidad es:

1 si < x < f(x) = 0 en caso contrario

91

Modelos Estadsticos: Distribucin Normal y Otras Distribuciones Nota: Cuando una variable aleatoria tiene distribucin uniforme con parmetros y , se indica como X~U(,).

La E(X) y la V(X) cuando X tiene densidad uniforme son: E(X) = ( + ) / 2 V(X) = ( - )2 / 12 Una de las principales aplicaciones de esta distribucin es en estudios de simulacin Montecarlo, ya que a partir de esta funcin es posible generar nmeros pseudoaleatorios de otras distribuciones. En todos los lenguajes de programacin o incluso en las planillas de clculo existen declaraciones (a modo de funciones o procedimientos) para generar nmeros con distribucin uniforme. Los nmeros generados por computadoras se dicen que son pseudoaleatorios, y no aleatorios, ya que el mecanismo que los genera es determinstico. Ocurre que el algoritmo que se elige para generar un nmero uniforme simula o aparenta ofrecer nmeros tomados al azar. Mientras mejor simule la produccin de nmeros aleatorios tanto mejor el algoritmo. En la mayora de las nuevas revisiones de los lenguajes de programacin se ofrecen buenos generadores de nmeros uniformes pseudoaleatorios.

Distribucin GammaLa funcin de distribucin Gamma es importante en estadstica ya que hay otras distribuciones de uso frecuente (exponencial y chi-cuadrado) que son casos particulares de ella, y que juegan un rol fundamental en variados campos de las aplicaciones y la teora estadstica. Asimismo, en el campo de las Ciencias Agropecuarias, esta distribucin cobra importancia en la modelacin de algunos fenmenos meteorolgicos como las precipitaciones. A continuacin se da una definicin de esta distribucin. Definicin 3.13: Distribucin Gamma.Una variable aleatoria X tiene distribucin Gamma si y solo si su funcin de densidad es:

f(x) =

x a -1 e- x / b si 0 x f ( x) = ( ) 0 en caso contrario

con >0, >0 y

donde: () =

y0

1 y

e dy

es conocida en matemticas como funcin gamma.

92

Modelos Estadsticos: Distribucin Normal y Otras Distribuciones Nota: Se indica que una variable aleatoria X tiene una distribucin Gamma X~G(,). con:

La funcin de densidad de una distribucin gamma es una funcin asimtrica, que tiende a la simetra para ciertos valores de sus dos parmetros. A modo de ejemplo se presenta en la siguiente grfica formas diferentes de la densidad Gamma.1 .2 5 1 .0 0 0 .7 5 0 .5 0 0 .2 5 0 .0 0

= 1 /2 , = 1 = 2 , = 1 /2

=11,

Figura 3.7: Forma de la densidad Gamma, para distintos valores de sus parmetros El mximo (si existe) en esta funcin de densidad viene dado por x = ( 1) Por ltimo, es posible mostrar que: E(X) = ; V(X) = 2

Distribucin ExponencialEsta densidad es un caso especial de la funcin de densidad G(,), tomando =1 y =, quedando as definida: Definicin 3.14: Distribucin Exponencial.Una variable aleatoria X tiene distribucin Exponencial si y slo si su funcin de densidad es:

e x / si 0 x f(x) = 0 en caso contrario donde > 0. Nota: En la prctica denotaremos que una variable aleatoria tiene distribucin exponencial con parmetro con la siguiente notacin: X ~ Exp().

Es posible mostrar que: E(X) = ; V(X) = 2 La distribucin exponencial tambin es conocida como la distribucin de los tiempos de espera y es utilizada para calcular la probabilidad de que un instrumento93

Modelos Estadsticos: Distribucin Normal y Otras Distribuciones

electrnico falle, pasado un cierto tiempo, o el tiempo necesario para que ocurra un accidente de transito en una ruta con probabilidad 0.90, etc.

Distribucin Chi-CuadradoLa distribucin chi-cuadrado aparece con mucha frecuencia en la estadstica aplicada ya que los llamados test del cociente de mxima verosimilitud que se utilizan en la prueba de hiptesis estadsticas tienen todos distribucin asinttica chi-cuadrado. Cuando se construye un testcon las tcnicas de la mxima verosimilitud, se usa esta distribucin, al menos para muestras grandes. A modo de ejemplo, las tcnicas de bondad de ajuste que se usan en gentica para establecer si una frecuencia fenotpica se ajusta a un modelo de herencia mendeliana, utilizan un estadstico cuya distribucin (asinttica) es chi-cuadrado y de all su nombre (test de chi-cuadrado). Esta distribucin tambin aparece relacionada a la distribucin de la varianza muestral, que estudiaremos ms adelante. Por ahora slo daremos su definicin formal. Definicin 3.15: Distribucin Chi-CuadradoUna variable aleatoria X tiene distribucin Chi-Cuadrado si y slo si su funcin de densidad es:

x ( 2) / 2 e x / 2 si 0 x f ( x) = 2 / 2 ( / 2) 0 en caso contrario donde es un entero positivo conocido como grados de libertad de la distribucin. Nota: Se denotar a las variables chi-cuadrado con grados de libertad como: X~ ,2

siendo el nico parmetro de esta distribucin.

Es posible mostrar que: E(X) = ; V(X) = 2 Obsrvese que la esperanza es igual a los grados de libertad de la distribucin y que la varianza es tambin una funcin lineal de este parmetro. Una forma alternativa de definir variables aleatorias chi-cuadrado es a partir de variables aleatorias normales estndar, como de muestra a continuacin:

94

Modelos Estadsticos: Distribucin Normal y Otras Distribuciones

Sean X1, X2,....,X variables aleatorias normales independientes con esperanza = 0 y varianza 2 = 1. Luego si

Y = i =1 X2 , i

Entonces Y tiene distribucin 2 con grados de libertad.

Esta distribucin esta involucrada en la definicin de la distribuciones T de Student y F que se presentarn en el Captulo 4.

EjerciciosEjercicio 3.1: Uso de la tabla de cuantiles de la Distribucin Normal Estndar Esta tabla presenta 2 columnas: La primera columna se refiere a la distancia desde un valor a la media medida en nmero de desviaciones tpicas (valores de la variable Z). Por ejemplo el valor 1 en esta columna indica una desviacin estndar por encima de la media y -1.7 corresponde a 1.7 desviaciones estndar por debajo de la media. La segunda columna contiene el rea bajo la curva normal entre - y el valor correspondiente a la primer columna, es decir el valor de la funcin de distribucin normal estndar acumulada. Por ejemplo para el valor 1 de z, el rea asociada es 0.8413. As se puede concluir que la probabilidad de que una variable distribuida normalmente con = 0 y 2 = 1 tome valores iguales o menores que 1, es igual a 0.8413 (1 es por lo tanto el cuantil 0.8413 de la distribucin normal estndar), lo que se ilustra en la siguiente figura:

0.8413

0

1

95

Modelos Estadsticos: Distribucin Normal y Otras Distribuciones

Usando la tabla de cuantiles de la Distribucin Normal Estndar obtener las siguientes probabilidades: a) P (Z 1.3) d) P (-1 Z 1) Ejercicio 3.2 Por medio de un tamiz de malla de 8 mm de dimetro se zarandean 8000 granos de maz. El dimetro del grano de maz sigue una distribucin normal con esperanza igual a 9 mm y una desviacin estndar de 1.2 mm. a) b) c) Qu proporcin de granos sern retenidos por el tamiz?. Qu proporcin de granos no retenidos, sern retenidos por un tamiz de dimetro de malla igual a 7.5 mm?. Qu proporcin de granos pasar a travs de los dos tamices?. b) P (Z 4) e) P (0.5 Z 1) c) P (Z 1.3) f) P (Z = 1)

Ejercicio 3.3 Si X es una variable aleatoria distribuida normalmente con = 10 y 2 = 4. a) b) Cul es la probabilidad de que X tome valores menores que 9?. Cul es la probabilidad de que X tome valores entre 9 y 11?.

Ejercicio 3.4 La variable altura de plntulas para una poblacin dada se distribuye normalmente con media = 170 mm y = 5 mm. Encontrar la probabilidad de los siguientes eventos: a) b) Plantas con alturas de al menos 160 mm. Plantas con alturas entre 165 y 175 mm.

Ejercicio 3.5 Si la variable espesor de un sedimento en un sustrato de suelo, se distribuye normalmente con media = 15 micrones y desviacin estndar = 3 micrones. a) b) Cul es el cuantil 0.75 de la distribucin de la variable?. Cmo se interpreta este valor?.

96

Modelos Estadsticos: Distribucin Normal y Otras Distribuciones

Ejercicio 3.6 La altura de plantas de soja de la variedad Hood se distribuye aproximadamente normal con media 55 cm y desviacin estndar de 5.8 cm. Por otro lado, la altura de plantas de yuyo colorado (Amaranthus sp.) invasora de este cultivo, tambin se distribuye en forma normal con media 62 cm y desviacin estndar de 3 cm. Si se decide aplicar un herbicida usando un equipo a sogas: a) b) A qu altura debe disponerse la soga para eliminar el 90% de la maleza en este cultivo?. Suponiendo que el herbicida no es selectivo, es decir mata por igual a toda planta que toma contacto con la soga, qu porcentaje de plantas de soja se perder a la altura de soga encontrada en el punto anterior?.

Ejercicio 3.7 El caudal de un canal de riego medido en m3/seg es una variable aleatoria con distribucin aproximadamente normal con media 3 m3/seg. y desviacin estndar 0.8 m3/seg. A partir de estas referencias calcular la probabilidad de los siguientes eventos: a) b) Evento A: que el caudal en un instante dado sea a lo sumo de 2.4 m3/seg. Evento B: que el caudal en un instante dado est entre 2.8 y 3.4 m3/seg.

Ejercicio 3.8 Una empresa exportadora de manzanas necesita encargar 10000 cajones para el embalaje de la fruta. Sin embargo, no todos los cajones son iguales ya que sus especificaciones dependen de la calidad del producto envasado. As, de acuerdo al dimetro de la manzana se identifican 3 categoras de calidad. Categora I: manzanas cuyo dimetro es menor de 5 cm Categora II: manzanas cuyo dimetro est comprendido entre 5 y 7 cm Categora III: manzanas cuyo dimetro es mayor que 7 cm Las frutas de mayor calidad son las correspondientes a la categora II por su tamao y homogeneidad. Si la distribucin del dimetro de las manzanas puede modelarse bien mediante una distribucin normal con media = 6.3 y varianza 2 = 2, responder: Cuntos cajones se necesitarn para cada categora de manzanas?

97

Modelos Estadsticos: Distribucin Normal y Otras Distribuciones

Ejercicio 3.9 Siguiendo con el ejercicio anterior y conociendo el comportamiento cclico de la demanda de cada categora de manzanas, se sabe que en la presente campaa va a tener ms demanda la manzana de la categora II (manzanas con dimetro entre 5 y 7 cm), con lo cual las ganancias para el exportador se maximizaran en caso de aumentar el volumen de la cosecha para esta categora. Una forma de regular el tamao final de esta fruta es mediante la eliminacin temprana de los frutos en formacin (raleo). Si se eliminan muchos frutos el tamao final de las manzanas ser mayor que si se eliminan pocos o ninguno. La experiencia ha permitido establecer las caractersticas distribucionales del dimetro final de las manzanas bajo dos estrategias de manejo: A: no eliminar ningn fruto B: eliminar 1 de cada 3 manzanas La estrategia A produce frutos con dimetros distribuidos N (6.3, 2.0) y la estrategia B produce frutos con dimetros distribuidos N (6.8, 0.9). Cul de las dos estrategias produce mayor proporcin de frutos de Categora II? Ejercicio 3.10 El espesor de la cscara del huevo determina la probabilidad de ruptura desde que la gallina lo pone hasta que llega al consumidor. El espesor, medido en centsimas de milmetro, se distribuye normal y se sabe que: a) b) c) se rompen el 50 % de los huevos con espesor de cscara menor a 10 centsimas de mm (cmm). se rompen el 10 % de los huevos cuyo espesor de cscara est comprendido entre 10 y 30 cmm. no se rompen los huevos con espesor de cscara mayor de 30 cmm.

Si en un establecimiento avcola la media del espesor de cscara es de 20 cmm y la desviacin estndar de 4 cmm: Cuntos, de los 5000 huevos que se producen diariamente, llegan sanos al consumidor? Ejercicio 3.11 El da de floracin de una hortaliza (en escala juliana:1-365 das) se puede modelar98

Modelos Estadsticos: Distribucin Normal y Otras Distribuciones

con una distribucin normal centrada en el 18 de agosto (da 230) y con desviacin estndar de 10 das. Si desde la fecha de la floracin hasta la cosecha hay un lapso de 25 das: a) b) c) Qu proporcin de la cosecha se habr realizado para el 16 de septiembre (da 259)?. Si se considera primicia a los frutos obtenidos antes del 1 de septiembre (da 244): qu proporcin de la cosecha se espera que sea primicia?. Si la ganancia es de 2 pesos por cajn y se espera una produccin total de 1500 cajones, cul es la ganancia esperada con los cajones primicia, son un 30% ms caros?. La aplicacin de un regulador del crecimiento permite adelantar 3 das la fecha de floracin y reduce la desviacin estndar de 10 a 6 das. Si la ganancia por cajn se reduce en 5 centavos debido al costo del regulador: produce su aplicacin un aumento del porcentaje de frutos primicia?

d)

Ejercicio 3.12 Un fitomejorador desea controlar la variabilidad de los brotes comerciales de esprrago, ya que las normas de embalaje establecen una longitud mxima de cajas de 23.5 cm. Suponiendo que la longitud de los brotes de este cultivo se distribuye normalmente, con una esperanza igual a 21 cm. Cul debera ser el valor de la desviacin estndar del carcter longitud del brote, para que la probabilidad de que existan esprragos que no puedan ser embalados, no sea mayor a 0.05?. Ejercicio 3.13 Un Ingeniero Agrnomo del Servicio de Alerta contra Fitftora de una regin viatera afirma que 2 de cada 10 lotes afectados por la enfermedad se deben al mal manejo de los mismos. Cul es la probabilidad que: a) b) de 100 lotes, a lo sumo 10, sean afectados por la enfermedad, por problemas de mal manejo? de 100 lotes, ninguno presente la enfermedad por problemas de mal manejo?

99

Modelos Estadsticos: Distribucin Normal y Otras Distribuciones

Ejercicio 3.14 Un Ingeniero especialista en control de calidad de semillas de trigo, afirma que la empresa para la cual trabaja, produce un 95% de las bolsas de semilla de trigo con una pureza del 99%. Si fuera cierta su afirmacin, cul sera la probabilidad que: a) b) de 20 bolsas tomadas al azar, todas satisfagan que no poseen ms del 1% de cuerpos extraos? de 20 bolsas tomadas al azar, a menos 2 posean ms del 1% de cuerpos extraos.

Ejercicio 3.15 Si la probabilidad de que un productor adopte una tcnica, divulgada por un Instituto de Investigacin Agropecuaria, es de 0.75, hallar la probabilidad que: a) b) el dcimo productor en tener acceso a la documentacin de divulgacin sea el primero en adoptarla. el dcimo productor en tener acceso a la documentacin de divulgacin sea el quinto en adoptarla.

Ejercicio 3.16 Se quiere encontrar plantas de trigo con propiedades resistentes a los pulgones. Un sntoma de resistencia es la ausencia de pulgones en la planta. Se calcula que la frecuencia de plantas sin pulgones en un cultivo es de alrededor de 1/200 pero solo 1 de cada 10 de estas plantas presentan genes de resistencia. cuntas plantas de trigo debern revisarse para tener una probabilidad de al menos 0.95 de encontrar una con los genes de resistencia? Ejercicio 3.17 Un tcnico en semillas desea inspeccionar el funcionamiento de 20 cmaras de cra. Para esto toma dos cmaras al azar y registra la temperatura de las mismas. Si estas dos cmaras funcionan correctamente, el grupo de 20 ser aceptado. Cules son las probabilidades que tal grupo de 20 cmaras sea aceptado si contiene: a) 4 cmaras con registros de temperaturas no adecuadas; b) 8 cmaras con registros de temperatura no adecuadas; c) 12 cmaras con registros de temperaturas no adecuadas.

100

Modelos Estadsticos: Distribucin Normal y Otras Distribuciones

Ejercicio 3.18 En una red de computadores asociados a estaciones agroclimatolgicas y dedicadas a transmitir la informacin registrada a un computador central (servidor) va telefnica, el 1.4% de los llamados desde los computadores al servidor dan ocupado. Determinar las probabilidades de que de 150 intentos de comunicaciones (llamados) slo en 2 casos de ocupado el servidor. Ejercicio 3.19 En un experimento, el error cometido en determinar la densidad de una substancia es una variable aleatoria con distribucin uniforme, con = -0.015 y = 0.015. Hallar las probabilidades que: a) El error est entre 0.01 y 0.02; b) El error exceda 0.005. Ejercicio 3.20 Un Investigador ha establecido como hiptesis de trabajo, en base a experiencias previas bajo condiciones controladas, que la produccin de oxgeno durante la fotosntesis de la alfalfa sigue una distribucin Gamma(3,2).Cul ser la produccin promedio y la varianza con estos parmetros?

101

44 Distribucin de Estadsticos MuestralesIntroduccinEl objetivo del muestreo es inferir propiedades de una poblacin a partir de una fraccin de ella, conocida como muestra. Desde el punto de vista estadstico, lo que se pretende conocer son los parmetros de la distribucin de la variable de inters. El muestreo tiene por objeto proveer informacin esa distribucin. Luego, los estadsticos muestrales sirven como aproximacin (estimacin) de los parmetros que caracterizan a la distribucin. Por otra parte, los estadsticos son variables aleatorias y como tales, tienen una distribucin asociada. Los objetivos de este captulo son: comprender la naturaleza aleatoria de los estadsticos muestrales, estudiar las propiedades estadsticas de la media y varianza muestrales y adquirir destrezas en el clculo de probabilidades asociadas a estos estadsticos.

Distribucin del estadstico media muestralDado que la media muestral es una variable aleatoria (note que su valor vara de muestra a nuestra), nos interesa conocer su distribucin. Cuando se estudian las distribuciones de los estadsticos muestrales se hace desde un punto de vista terico, suponiendo poblaciones de tamao infinito. Si se quieren observar estas propiedades partiendo de poblaciones finitas, a travs de simulacin, se recurre a la tcnica de 3 muestreo con reposicin porque de esa forma se emula una poblacin de tamao infinito. Ejemplo 4.1 Considrese por ejemplo la distribucin de una variable aleatoria definida sobre un espacio muestral y la distribucin de la media muestral obtenida por muestreo3 Se entiende por muestreo aleatorio con reposicin a aquel donde las unidades seleccionadas pueden

repetirse dentro de la muestra y entre muestras.

103

Distribucin de los Estadsticos Muestrales

aleatorio simple con reposicin para muestras de tamao 2. Para ello suponga una poblacin (finita) de cuatro plantas de zapallos (N = 4) donde la caracterstica de inters es el nmero de zapallos por planta. Luego si se toma una planta al azar y se observa el nmero de frutos, se puede homologar el resultado de este experimento a una variable aleatoria discreta (X). Los valores de la variable X en la poblacin y su funcin de densidad se presentan en la Tabla 4.1; mientras que la Figura 4.1 representa grficamente la funcin de densidad. Tabla 4.1: Funcin de densidad del nmero de frutos en una poblacin de 4 plantas de zapallo Planta P1 P2 P3 P40.50

X = No de Frutos 3 2 1 4

f(xi) 1/4 1/4 1/4 1/4

f(x)

0.25

0.00 1 2 3 4

Nmero de frutos

Figura 4.1: Funcin de densidad de X = nmero de frutosNota: Este tipo de funcin con idntica densidad para todos los valores de x, se conoce como densidad uniforme.

De acuerdo a las definiciones de esperanza y varianza para variables discretas, dadas104

Distribucin de los Estadsticos Muestrales

en el Captulo 2, se tendr: =

x f (x )i i i

1 1 1 1+2+3+4 1 =14 +24 +34 +44 = = 2.5 4 2 =

(i

xi

) f (x )2 i

21 21 21 21 2 = (1-2.5) 4 + (2-2.5) 4 + (3-2.5) 4 + (4-2.5) 4 = 1.25

Tomando muestras de dos plantas con reposicin, hay N muestras posibles para 2 extraer, esto es 4 =16 muestras. Este es un espacio muestral finito que tiene 16 resultados posibles, todos con igual probabilidad. Si a cada resultado posible del muestreo se le asocia un valor correspondiente al promedio del nmero de frutos de las plantas obtenidas en la muestra, se obtiene una variable aleatoria llamada media muestral basada en muestras de tamao n = 2. La tabla 4.2 presenta todos los posibles resultados del proceso y el valor de la variable aleatoria media muestral, basada en muestras de tamao n = 2. Si bien todos los resultados posibles tienen igual probabilidad, en trminos de la variable aleatoria media muestral, varios de estos producen el mismo resultado. Por lo tanto un valor de media muestral rene varios resultados elementales en un nico evento. Por ejemplo X = 3, corresponde al evento A={P1P1, P2P4 ,P4P2}, luego aplicando los 1 axiomas de probabilidad: P( X = 3) = P(A) = P(P1P1) + P(P2P4) + P(P4P2) = 3 16

2

105

Distribucin de los Estadsticos Muestrales

Tabla 4.2: Espacio muestral generado por muestreo aleatorio con muestras de tamao n = 2 con reposicin, de una poblacin de cuatro plantas de zapallo presentada en Tabla 4.1Muestra 1 2 3 4 5 6 7 8 Plantas P1P1 P1P2 P1P3 P1P4 P2 P1 P2 P2 P2 P3 P2 P4 Nro.de frutos 3; 3 3; 2 3; 1 3; 4 2; 3 2; 2 2; 1 2; 4 Media muestral 3.0 2.5 2.0 3.5 2.5 2.0 1.5 3.0 Muestra 9 10 11 12 13 14 15 16 Plantas P3P1 P3P2 P3P3 P3P4 P4P1 P4P2 P4P3 P4P4 Nro.de frutos 1; 3 1; 2 1; 1 1; 4 4; 3 4; 2 4; 1 4; 4 Media muestral 2.0 1.5 1.0 2.5 3.5 3.0 2.5 4.0

Considrese ahora la tabla de frecuencias para la variable media muestral (Tabla 4.3). Obsrvese que la densidad no es uniforme (Figura 4.2) y que el valor ms probable es 2.5, el cual corresponde a la esperanza de la distribucin original de la variable nmero de frutos.

Tabla 4.3: Valores que asume la variable aleatoria media muestral del nmero de frutosen muestras de tamao n=2 y sus densidades Media Muestral 1 1.5 2 2.5 3 3.5 4 1. 2. 3. 4. 3. 2. 1.1 16 1

P( X = x ) = 0.0625 = 0.125 = 0.1875 = 0.25 = 0.1875 = 0.125 = 0.0625

16 1 16 1

16 1 16 1 16 1 16

106

Distribucin de los Estadsticos Muestrales

Graficando la funcin de densidad de la media muestral para este ejemplo:0.25

0.20

f(x)

0.15

0.10

0.05 1.0 1.5 2.0 2.5 3.0 3.5 4.0

Me dias m ues trales

Figura 4.2: Funcin de densidad de la variable aleatoria media muestral del nmero de frutos obtenida por muestreo con reposicin de tamao n = 2 de una poblacin de cuatro plantas de zapallo, presentada en tabla 4.1 Obsrvese que la esperanza de la distribucin de las medias muestrales del ejemplo es igual a la esperanza de la distribucin de la variable aleatoria original (nmero de frutos)

X = 2.5 =

Adems la varianza de la distribucin de las medias muestrales es igual a la varianza de la distribucin de la variable estudiada, dividida por el tamao muestral usado (en este caso n = 2).

2 = X

2 = 1.25 n 2

= 0.625

Se usar la notacin X y 2 para representar a la esperanza y a la varianza de