Post on 07-Sep-2019
¿DE QUÉ HABLAMOS CUANDO
HABLAMOS DE ESTADÍSTICA?
TOMO II–Estadística Inferencial
Alberto A. Alonso
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
¿DE QUÉ HABLAMOS
CUANDO HABLAMOS DE
ESTADÍSTICA?
“Dejamos de temer, aquello que se
ha aprendido a entender” Marie Curie
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Toda obra grande, en arte como en ciencia,
es una gran pasión al servicio de una gran idea. Santiago Ramón y Cajal
¿DE QUÉ HABLAMOS
CUANDO HABLAMOS DE
ESTADÍSTICA?
TOMO II
Estadística Inferencial
Alberto A. Alonso
Buenos Aires - Argentina
Alberto A. Alonso es Ingeniero Químico por la Universidad Nacional de La Plata,
posee una certificación internacional en Administración de Riesgos por ALARYS
y un curso de especialización en Estadística Descriptiva por el CONICET. En su
vida profesional, ha sido declarado “Experto en Temas de Ingeniería por el
Ministerio de Educación y Justicia de la Nación –Resolución D.N.A.U. Nº 86
del año 1987. Actualmente, es Profesor titular de Estadística Aplicada en el
IUPFA, para las Licenciaturas en Seguridad, Accidentología y Prevención
Vial, Trabajo Social, e Ingeniería en Siniestros.
Ver CV completo en: http:// www.anticiparconsultoria.com
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Fecha de catalogación: 21/04/2015
ISBN - Primer tomo: 978-987-45197-1-9
ISBN - Obra completa: 978-987-45197-0-2
Ediciones anticipar: http://www.anticiparconsultoria.com
Esmeralda 582 –Piso 8º Of. 30 – (C1007ABD) –Ciudad Autónoma de Buenos
Aires
Primera edición. Abril 2015.
© Alberto A. Alonso
Todos los derechos reservados.
Ninguna parte de esta obra puede ser reproducida o transmitida en cualquier
forma o por cualquier medio electrónico o físico, incluyendo fotocopiado, gra-
bación, escaneado, o cualquier otro sistema de archivo y recuperación de in-
formación, sin el previo permiso por escrito del autor.
Queda hecho el depósito que prevé la ley 11.723
Alonso, Alberto A. ¿De qué hablamos cuando hablamos de estadística? : tomo II: estadísti-ca inferencial. 1ª. ed. - Ciudad Autónoma de Buenos Aires: Ediciones Anticipar, 2015. 420p. ; 24 x 17 cm. E-Book.
ISBN 978-987-45197-9-5
1. Estadísticas. I. Título CDD 310.4
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Corrección de estilo:
Trad. María Jimena Alonso
María Jimena Alonso es Traductora Pública Nacional y Profesora en Lengua
y Literatura Inglesas por la UNLP, y Correctora de Estilo por Fundación
LITTERAE. Actualmente dirige la firma Glôssa Soluciones Lingüísticas
(www.glossa.com.ar)
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Si te atreves a enseñar,
no dejes de aprender.
John Cotton Dana
Prefacio
Han pasado algunas estaciones de nuestro
espacio interactivo, desde que se publicó el
primer tomo de este emprendimiento pe-
dagógico-literario destinado a brindar, a
todos aquellos que abrazaron alguna carre-
ra de las ciencias sociales, una visión senci-
lla y amigable de lo que es la Estadística,
dejando aclarado que ese principio de sim-
plicidad no va en desmedro del rigorismo
científico que debe poseer todo libro de es-
tudio.
Sin embargo, entre aquel tomo y este hay una diferencia muy importante. El
primero corresponde a un curso de estadística descriptiva que abarca todo lo re-
lacionado con la descripción y tratamiento de los datos, que cualquier profesio-
nal, en algún momento del ejercicio de su profesión, deberá enfrentar y ejecu-
tar.
El segundo, por su parte, corresponde a un curso de estadística inferencial bási-
co. La finalidad de la llamada estadística inferencial o inductiva es arribar a
conclusiones que exceden el alcance de los datos analizados. Es decir, se trata
de técnicas que se emplean para inferir o deducir características desconocidas a
partir de un conjunto de datos conocidos, apoyándonos, fundamentalmente, en
el cálculo de probabilidades.
Y esto es así dado que, como resulta imposible examinar la población entera de
los fenómenos que estudiamos, la construcción de leyes y teorías se tiene que
apoyar en datos muestrales, y es por eso que a partir de unos pocos datos reco-
gidos o datos muestrales se trata de obtener información de la población en su
conjunto.
La definición clásica de estadística inferencial dice que es aquella parte de la
estadística cuyo principal objetivo es estimar las propiedades de una población
a partir del conocimiento de solo una muestra de ella. Y aquí es donde se ejer-
ce la sinergia entre ambas estadísticas, la descriptiva y la inferencial, ya que es-
ta última se basa en la estadística descriptiva, debido a que la inferencia o de-
ducción de las propiedades de la población entera se deriva de las característi-
cas de la muestra que es analizada con las técnicas de la estadística descriptiva.
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Sin embargo, su meta es más amplia, ya que mediante la inferencia estadística
se obtienen generalizaciones y se toman decisiones en base a una información
parcial o completa obtenida mediante técnicas descriptivas.
Y es precisamente de esta posibilidad de tomar decisiones y plantear teorías de
donde proviene el atractivo y la seducción de esta rama de la estadística que
tratamos en este Tomo II.
Como de costumbre, el énfasis en la presentación de estos temas se basa en dos
premisas insoslayables: Un lenguaje llano y un uso mínimo de las matemáticas.
Esperamos, entonces, que el lector pueda ingresar y recorrer sin obstáculos este
mundo fascinante de la estadística inferencial que tanto convive con nosotros.
Para finalizar, deseo expresar que nuestra aspiración es que los alumnos y pro-
fesionales de las ciencias del comportamiento entiendan cómo se trabaja en la
inferencia estadística y no que sepan trabajar en esta especialidad.
Tal área es de competencia del profesional estadístico, que para ello estudia to-
da una carrera, pero cuando surge la necesidad de desarrollar un análisis infe-
rencial, ambos profesionales, el estadístico y el no estadístico, tienen que en-
tenderse y comprender cómo se ha de trabajar y qué expresan los resultados en
términos probabilísticos. Cuando ello se logra, la estadística inferencial puede
ser comprendida y utilizada en cualquier área del conocimiento.
Este es, simplemente, el objetivo de este segundo tomo.
Espero que lo disfruten tanto como yo al escribirlo.
Y ahora sí, nos despedimos, repitiendo lo expresado en el final del prefacio del
primer tomo: Dado que vivimos en la era de la comunicación, y la edición vir-
tual lo permite, recibiremos muy gustosos cualquier observación o sugerencia,
la cual dará lugar a conocer a un nuevo amigo/a y entablar un diálogo construc-
tivo.
Cordialmente,
Alberto Adriano Alonso
La Plata, otoño de 2015
http://www.anticiparconsultoria.com
alonso@anticiparconsultoria.com
Agradecimiento
Les dedico esta obra a todos los que me quieren y confían en mí.
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
CONTENIDO
Unidad Tema Página
XIII ESTADÍSTICA INFERENCIAL Y MUESTREO 1
Estadística inferencial 1
Muestreo 4
Muestreo no aleatorio 4
Tipos de muestreo no aleatorio 5
Muestreo por cuotas 5
Muestreo intencional o de juicio 7
Muestreo casual o incidental 7
Muestreo bola de nueve 8
Características del muestreo no aleatorio 8
Marco de muestreo 9
Muestreo aleatorio o probabilístico 11
Tipos de muestreo aleatorio 12
Muestreo aleatorio simple 12
Muestreo aleatorio sistemático 13
Muestreo aleatorio estratificado 13
Muestreo aleatorio por conglomerados 15
Ventajas y desventajas en el muestreo aleatorio 16
Inicios del muestreo aleatorio 19
Muestreo aleatorio mediante tablas de números aleatorios 20
Muestreo con o sin reemplazo 24
Error de muestreo 25
Errores no muestrales 26
Anexo XIII.1. Tabla de números aleatorios 31
Anexo XIII.2. Glosario de términos utilizados en muestreo 35
XIV PROBABILIDAD
Probabilidad, matemáticas y lógica 41
Concepto de probabilidad 43
Probabilidad y certeza 44
Sucesos deterministas 44
Sucesos aleatorios o estocásticos 45
Cálculo de probabilidades. Lógica y empirismo 45
Probabilidad a priori 46
Evento o suceso 47
Probabilidad a posteriori 48
Taxonomía de los eventos, según su ocurrencia 52
Eventos mutuamente excluyentes 52
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Eventos no excluyentes 53
Taxonomía de los eventos, según su interrelación 53
Eventos independientes 53
Eventos dependientes 54
Eventos colectivamente exhaustivos 55
Tipos de eventos y probabilidad de ocurrencia 55
Dominio de la probabilidad 57
La paradoja del pronosticador 58
Cálculo de la probabilidad 58
Regla de la suma para eventos alternativos 59
Regla de la suma para múltiples eventos 62
Regla de la suma para eventos colectivamente exhaustivos 62
Regla del producto para eventos de ocurrencia conjunta o sucesi-va
64
Escenarios para la probabilidad conjunta o sucesiva 65
Primer escenario. Regla del producto para eventos mutuamente
excluyentes 65
Segundo escenario. Regla del producto para eventos independien-
tes 66
Regla del producto para múltiples eventos independientes 67
Tercer escenario. Regla del producto para eventos dependientes 68
Regla del producto para múltiples eventos dependientes 69
Aplicación secuencial de las reglas de la suma y del producto 71
XV DISTRIBUCIONES DE PROBABILIDAD 73
Distribuciones de probabilidad 74
Distribuciones de probabilidad discretas 74
Distribuciones de probabilidad continuas 75
Graficación de las ddistribuciones de probabilidad 75
Distribución binomial 78
Utilización de las tablas binomiales 81
Tabla binomial puntual 81
Tabla binomial acumulada 83
Distribución normal o gaussiana 86
Aproximación normal a la distribución binomial 90
Teorema del límite central o teorema central del límite 91
Distribución de Poisson 92
Características de la distribución de Poisson 94
Comparación del valor de los parámetros para las tres distribucio-nes
97
Distribución multinomial 97
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Anexo XV.1. Tabla para la distribución binomial, puntual 101
Anexo XV.1.1. Tabla para la distribución binomial, acumulada 114
Anexo XV.2. Tabla de áreas bajo la curva normal 126
Anexo XV.3. Tabla para la distribución de Poisson, puntual 138
Anexo XV.3. 1. Tabla para la distribución de Poisson, acumulada 148
XVI DISTRIBUCIONES MUESTRALES 159
Distribución muestral de medias 160
Propiedades de la distribución muestral de medias 161
Primera propiedad de la distribución muestral de medias 162
Segunda propiedad de la distribución muestral de medias 162
Tercera propiedad de la distribución muestral de medias 163
Error estándar de la media 163
Teorema central del límite 168
Algunas consideraciones útiles 178
Distribución muestral de proporciones 179
Distribución muestral de diferencias de estadísticos 185
Distribución muestral de la diferencia de medias 186
Distribución muestral de la diferencia de proporciones 189
XVII ESTIMACIÓN ESTADÍSTICA. ESTIMACIÓN PUNTUAL
Y POR INTERVALOS DE CONFIANZA 195
Estimación estadística 195
La estimación. Un requerimiento de la inferencia estadística 196
El proceso inferencial y la estimación puntual 197
Propiedades de un estimador 199
Insesgamiento 199
Eficiencia o varianza mínima 201
Coherencia o Consistencia 202
Suficiencia 203
El proceso inferencial y la estimación por intervalos de confianza 203
Intervalo de confianza para la media 207
Intervalo de confianza paras las proporciones 212
XVIII TAMAÑO MUESTRAL 217
Tamaño de la muestra 218
Criterios de inclusión y de exclusión 220
Errores en la conformación de la muestra 221
Nivel de confianza y error 222
Nivel de significancia y su relación con el nivel de confianza 223
Significancia e importancia 224
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Cálculo del tamaño de la muestra 225
Cálculo del tamaño de la muestra para estimar una proporción 225
Cálculo del tamaño de la muestra para estimar una media 229
IXX CONTRASTES DE HIPÓTESIS 235
Hipótesis
Proceso de elaboración de la hipótesis 236
Etapas del trabajo experimental 238
Hipótesis y variables 239
Tipos de pruebas 241
Tipos de hipótesis 243
Directrices para el establecimiento de las hipótesis 244
¿Verdad cierta o verdad probabilística? 245
¿Y si estadísticamente ambas hipótesis no se confirman? 245
Errores en la decisión 246
Errores y nivel de significación 247
El proceso de decisión y su relación con el nivel alfa 248
¿Por qué cuando evaluamos el resultado de un experimento, eva-
luamos la hipótesis nula y no la experimental? 249
Contraste de hipótesis. Unilaterales y bilaterales 250
Contraste de hipótesis. Unilaterales y bilaterales 252
Potencia 252
Efecto y efecto real 253
Relación entre la potencia y beta 254
Relación entre la potencia y alfa 254
Variabilidad de la potencia 255
Nivel de significación estadística 255
Tamaño de la muestra a estudiar 255
Tamaño del efecto a detectar 256
Variabilidad de la respuesta estudiada 258
Planteo de contrastes de hipótesis 258
Contraste para la media de una población normal con varianza
poblacional conocida 258
Contraste para la media de una población normal con varianza
poblacional desconocida 260
Caso de muestras grandes 260
Caso de muestras pequeñas 260
Contraste de hipótesis para la igualdad de medias de dos pobla-
ciones normales 261
Contraste de hipótesis para la igualdad de medias de dos pobla-
ciones normales 261
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Contraste de hipótesis para la igualdad de medias de dos pobla-
ciones normales con varianzas poblacionales conocidas 262
Contraste de hipótesis para la igualdad de medias de dos pobla-ciones normales con varianzas poblacionales desconocidas pero
iguales
262
Contraste para distribuciones binomiales 264
Contraste para el parámetro p de una distribución binomial 264
Contraste para la igualdad de los parámetros de dos distribuciones
binomiales 265
XX PRUEBAS NO PARAMÉTRICAS. PRUEBA DEL SIGNO 267
Diseño experimental 268
Desarrollo de la prueba 269
Definición de las hipótesis 271
Características de la prueba 272
Evaluación del experimento con diseño de medidas repetidas me-diante la distribución binomial
272
Evaluación de la cola de la distribución 273
XXI PRUEBAS NO PARAMÉTRICAS. LA PRUEBA U DE
WILCOXON-MANN-WHITNEY 275
La prueba de Wilcoxon-Mann-Whitney, para muestras pequeñas 279
La prueba de Wilcoxon-Mann-Whitney, para muestras grandes.
Aproximación normal 283
Anexo XXI. Valores críticos de la prueba u de Mann-Whitney 291
XXII PRUEBAS PARAMÉTRICAS. PRUEBA Z 293
Prueba Z para la media. Muestra única 295
Prueba Z para la media, cuando desconocemos sigma 300
Prueba Z para la proporción 300
Prueba Z para la media. Dos muestras 302
Muestras independientes y dependientes 303
Comparación de medias de dos poblaciones independientes 303
Comparación de medias de dos poblaciones relacionadas 305
Comparación de proporciones de dos poblaciones 308
Prueba Z para la diferencia de dos proporciones 308
XXIII PRUEBAS PARAMÉTRICAS. PRUEBA t DE STUDENT 313
Distribución muestral de t 315
Grados de libertad 315
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
La distribución Z y las distribuciones t. Parecidas pero distintas 317
Prueba t para una única muestra 318
Requisitos para la aplicación de la prueba t a una única muestra 319
Intervalos de confianza para la media poblacional en la prueba t 321
Prueba t de Student para dos grupos 323
Prueba t de Student para dos grupos relacionados 323
Requisitos para la prueba t a dos grupos relacionados 324
Comparación de la prueba t con la prueba del signo 327
Prueba t de Student para grupos independientes 328
Anexo XXIII.1. Valores críticos de la distribución t de Student 333
Anexo XXIII.2. ¿Qué significan los grados de libertad? 335
XXIV EL CONTRASTE DE HIPÓTESIS Y LA DIFERENCIA EN-
TRE VARIAS MEDIAS. EL ANÁLISIS DE VARIANZA 347
Fundamentos del análisis de varianza 348
Las sumatorias de cuadrados 351
¡La estadística facilitadora o abajo las diferencias! 354
La media cuadrática como media ponderada 357
La F de Fisher 359
La investigación utilizando ANOVA 360
Etapas del proceso de validación de la hipótesis nula mediante el factor F de Fisher
360
La prueba F de Fisher para dos muestras 361
Diferencias significativas entre las medias. El test de Tukey 361
Análisis de la varianza con dos factores 363
Anexo XXIV.1. Valores críticos de la distribución F 367
Anexo XXIV.2. Valores críticos de la distribución con rango de
Student (Q) 375
XXV
OTRAS PRUEBAS NO PARAMÉTRICAS: CHI CUADRA-
DO; MEDIANA; WILCOXON; KRUSKAL-WALLIS;
FRIEDMAN
379
Prueba chi cuadrado (2) de Pearson 380
Prueba chi cuadrado (
2) . Prueba de independencia entre dos va-
riables 386
La corrección de Frank Yates para frecuencias esperadas peque-ñas
391
Acerca de la corrección de Yates 392
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
Prueba de la mediana para dos muestras independientes 393
Prueba de rangos señalados y pares igualados de Wilcoxon para
muestras pequeñas 395
Análisis de varianza en una dirección por rangos de Kruskal-Wa-
llis 402
Análisis de varianza por rangos en dos direcciones o prueba de
Friedman 406
Resumen de las características y requisitos de aplicación 410
Anexo XXV.1. Distribución 2 413
Anexo XXV.2. Valores críticos de t para la prueba de signos de
Wilcoxon 417
Bibliografía 419
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
1 | P á g i n a
Para muestra basta un botón
Proverbio popular
UNIDAD XIII
ESTADÍSTICA INFERENCIAL Y MUESTREO1
ESTADÍSTICA INFERENCIAL
La estadística inferencial o inductiva trata de llegar a conclusiones que sobre-
pasan el alcance de los datos analizados, es decir, se trata de técnicas que se
emplean para inferir o deducir características desconocidas a partir de un con-
junto de datos conocidos, apoyándose fundamentalmente en el cálculo de pro-
babilidades.
Por inferir se entiende sacar alguna consecuencia de algo que nos interesa o
deducir una cosa a partir de otra.
Como en general resulta imposible examinar la población entera de los fenó-
menos que estudiamos, la construcción de leyes y teorías se tiene que apoyar
en datos muestrales. A partir de unos pocos datos conocidos, es decir, los que
surgen de la muestra, se trata de obtener información de la población total, y
1 Fuente de la imagen: http://blog.yasabe.com/es/manualidades-con-botones-20140905/
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
2 | P á g i n a
esto es lo que hace la estadística inferencial apoyándose en el cálculo de pro-
babilidades, como hemos mencionado anteriormente.
La estadística inferencial se basa por lo tanto en la estadística descriptiva, ya
que la inferencia o deducción de las propiedades de la población entera se deri-
va de las características de la muestra que es analizada con las técnicas de la
estadística descriptiva. En realidad, su campo de acción es más amplio. Pode-
mos decir que:
La inferencia estadística es una técnica mediante la cual se ob-
tienen generalizaciones o se toman decisiones en base a una in-
formación parcial o completa obtenida mediante técnicas descrip-
tivas.
A tal fin, la Estadística Inferencial comprende un conjunto de métodos y pro-
cedimientos diseñados para inferir las propiedades de una población estadística
utilizando la inducción, y comprende las siguientes etapas:
a) Planteamiento del problema
Cualquier cuestión de inferencia estadística se inicia con la fijación de los obje-
tivos que deben responder a algunos aspectos fundamentales, tales como:
Definir los parámetros de la población que nos interesan, según las ca-
racterísticas que deseamos estudiar.
Analizar si existe correspondencia entre la muestra extraída y la pobla-
ción de la cual proviene.
En esta etapa se deben definir con la mayor precisión posible la población, las
características a estudiar, las variables a utilizar, etc.
b) Elaboración de un modelo
En caso de establecer un modelo teórico, se replantea el procedimiento y se
llega a una conclusión lógica. También se puede utilizar un diseño experimen-
tal para obtener información de una pequeña parte de la población. Los posi-
bles modelos a utilizar no son otra cosa que distribuciones de probabilidad.
c) Extracción de la muestra
En esta etapa se utiliza alguna técnica de muestreo o un diseño experimental
para obtener información de esa pequeña parte de la población. Además se de-
pura la muestra, se eliminan o minimizan los errores, se tabulan los datos y se
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
3 | P á g i n a
calculan los parámetros que serán necesarios en pasos posteriores, como la me-
dia muestral, la varianza muestral, proporciones, etc. Esta etapa es típica de la
estadística descriptiva
d) Tratamiento de los datos
El tratamiento de los datos, ya es una etapa típica de la estadística inferencial
pues utilizando determinadas técnicas se realiza una predicción sobre cuáles
podrían ser los parámetros de la población.
e) Contraste de hipótesis
El contraste de hipótesis es una técnica que permite simplificar el modelo ma-
temático en estudio. Frecuentemente el contraste de hipótesis recurre al uso de
estadísticos muestrales.
f) Conclusiones
Se critica el modelo y se hace un cotejo o comparación. Las conclusiones obte-
nidas en este punto pueden servir para tomar decisiones o efectuar prediccio-
nes.
El estudio puede comenzar de nuevo a partir de este momento, en un proceso
cíclico que permite conocer cada vez mejor la población y las características de
estudio. El diagrama siguiente ilustra lo expresado:
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
4 | P á g i n a
MUESTREO
Como hemos de ver, el muestreo es una parte muy importante de esta segunda
parte de la Estadística Aplicada que ha dado en llamarse Estadística Inferen-
cial, y que desarrollaremos en este segundo tomo.
Hasta ahora, en el tomo anterior, hemos venido hablando extensamente de
muestras. Vimos sus propiedades, las formas de caracterizarlas y muchas cosas
más.
Llega ahora el momento de comenzar a hablar un poco de cómo se confecciona
una muestra.
Las muestras se construyen o elaboran mediante técnicas de muestreo que pue-
den ser aleatorias o no aleatorias.
Una técnica de muestreo es aleatoria cuando el procedimiento para su selección
asegura que cada miembro de la población haya tenido la misma oportunidad
que el resto de ser elegido o escogido. A contrario sensu, la muestra será no
aleatoria.
Ambas técnicas de muestreo, las aleatorias y las no aleatorias, abarcan una se-
rie de procedimientos que podemos ver en el cuadro XIII.1
Cuadro XIII.1. Técnicas de muestreo aleatorio y no aleatorio
Veremos a continuación las características de cada procedimiento de mues-
treo.
MUESTREO NO ALEATORIO
Es aquél para el que no puede calcularse la probabilidad de seleccionar a cada
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
5 | P á g i n a
individuo de una determinada muestra. Por tal motivo a este tipo de muestreo
también se lo conoce como no probabilístico. Las unidades muestrales no se
seleccionan al azar, sino que son elegidas por el responsable de realizar el
muestreo. Se busca seleccionar a individuos que se juzga de antemano, tienen
un conocimiento profundo del tema bajo estudio, por lo tanto, se considera que
la información aportada por esas personas es vital para la toma de datos.
Estos muestreos comparten las características siguientes:
• La selección de la muestra no es al azar, se basa en el criterio del inves-
tigador.
• No se pueden incluir, por lo tanto, ecuaciones de probabilidad, ya que
no aplica ninguna teoría de dicha disciplina.
• En consecuencia, no pueden calcularse ciertos datos como el margen de
error o el nivel de confianza.
• El costo de dichos muestreos es más bajo, comparado con un muestreo
probabilístico.
Veremos ahora, los distintos tipos de muestreo no aleatorio
TIPOS DE MUESTREO NO ALEATORIO
Muestreo por cuotas
Para su utilización se requiere que el analista o el investigador posea un buen
conocimiento de la estratificación de la población que desea estudiar en base a
un muestreo. La estratificación es la conformación de grupos horizontales
componentes del todo, diferenciados verticalmente de acuerdo a ciertos crite-
rios establecidos y reconocidos.
Imaginemos que queremos efectuar un estudio sobre los estudiantes de una de-
terminada universidad. Dicha universidad, al igual que todas, posee distintos
estratos o capas. Entre algunos de ellos podemos mencionar:
Estrato por género.
Estrato por edades.
Estrato de cantidad de alumnos por años de estudio
Estrato de cantidad de alumnos por carrera.
Estrato de cantidad de alumnos por localización.
Estrato de cantidad de alumnos por condición económica.
Continúa…
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
6 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
7 | P á g i n a
La probabilidad de que los semáforos nos den luz roja,
es directamente proporcional al apuro que llevamos
Anónimo
UNIDAD XIV
PROBABILIDAD2
Una parte de la Estadística Inferencial está ligada al cálculo de las probabilida-
des, un área asombrosa y sorprendente que nos enseña que el azar es todo.
Los temas de muestreo aleatorio y de probabilidad son fundamentales para la
metodología de la Estadística Inferencial.
PROBABILIDAD, MATEMÁTICAS Y LÓGICA
En el último cuarto del siglo XIX se vivió un episodio apasionante en la histo-
ria de las matemáticas, que la ligaría desde entonces a la historia de la lógica.
Primero, George Boole3, un matemático británico que vivió entre 1815 y 1864
2 Fuente de la imagen: http://nuneznjaimer.mex.tl/frameset.php?url=/
Boole
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
8 | P á g i n a
en su libro Mathematical Analysis of Logic (Análisis
Matemático de la Lógica) trató de presentar la lógica
como parte de las matemáticas en algo que hoy se
conoce como Lógica Booleana. Poco después Gottlob
Frege, un matemático y filósofo alemán que vivió en-
tre 1848 y 1925, intentó mostrar que la aritmética era
parte de la lógica en su libro Die Grundlagen der
Arithmetik (Fundamentos de la Aritmética). Sin em-
bargo, Georg Cantor, un ma-
temático alemán que vivió entre
1845 y 1918, dio un paso impor-
tantísimo en la historia de las matemáticas y de la lógica,
incluso adelantándose a Frege en su fundamentación lógi-
ca de la aritmética, y creó entre 1878 y 1897 una nueva
disciplina matemática: la teoría de conjuntos.
Su obra fue admirada y condenada simultáneamente por
sus contemporáneos.
Desde entonces los debates en el seno de la teoría de con-
juntos, han sido siempre apasionados, sin duda por hallarse estrechamente co-
nectados con importantes cuestiones lógicas.
Según la definición de conjunto de Cantor, éste es
―una colección en un todo de determinados y distin-
tos objetos de nuestra percepción o nuestro pensa-
miento, llamados los elementos del conjunto‖.
Es indiscutible el hecho de que la teoría de conjun-
tos es una parte de las matemáticas y que es,
además, la teoría matemática dónde fundamentar la
aritmética y el resto de teorías matemáticas. Es
también indiscutible que es una parte de la lógica.
Con la introducción de la teoría de los conjuntos, la
enseñanza de las matemáticas cambió sustancialmente. Sin embargo, si bien
para el estudiante de ciencias matemáticas, la teoría de los conjuntos resulta
apasiónate, no estamos tan seguros acerca de si lo mismo sucede con los estu-
diantes del colegio secundario.
En la actualidad, muchos tratados de ciencias probabilísticas están basados en
la teoría de los conjuntos y para los estudiantes de ciencias sociales, resulta en
extremo difícil de entender.
3 Fuente de la imagen: http://wintablet.info/2012/06/gracias-george/
Cantor
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
9 | P á g i n a
Tal estudiante necesita, entonces, comprender la probabilidad mediante un cri-
terio de lógica, si entendemos por lógica a la ciencia que estudia las formas y
las leyes generales que rigen el pensamiento humano.
Actuar con lógica es una forma de correspondencia con lo razonable, es decir
aplicar nuestra capacidad de razonar para actuar con el sentido común que toda
persona tiene.
Dentro de este contexto, aparece la lógica matemática, que es una parte de la
lógica que emplea en sus operaciones los métodos y el simbolismo de las ma-
temáticas.
Como dijimos, la Lógica estudia la forma del razonamiento y, en este contexto,
la Lógica Matemática es la disciplina que trata los métodos de razonamiento.
En un nivel elemental, la Lógica proporciona reglas y técnicas para determinar
si es o no valido un argumento dado. El razonamiento lógico se emplea en Ma-
temáticas para demostrar teoremas, sin embargo, se usa en forma constante pa-
ra realizar cualquier actividad en la vida.
En este sentido queremos que el estudiante de ciencias sociales y del compor-
tamiento, entienda la teoría de las probabilidades en la medida y extensión con
que la ha de tener que utilizar en su profesión.
Por lo tanto, en este estudio de la probabilidad, no utilizaremos de las matemá-
ticas más que las operaciones básicas y el resto será solo razonamiento y senti-
do común.
CONCEPTO DE PROBABILIDAD
Desde el sentido común, la probabilidad es la condición de probable y la po-
demos asociar con todo aquello que no es totalmente seguro de suceder y que,
por ende, está gobernado por la incertidumbre. Una incertidumbre que está li-
gada a nuestro desconocimiento acerca de lo que ha de ocurrir en el futuro.
Desde un punto de vista más matemático, la probabilidad de un suceso4, es
igual al cociente entre el número de casos que pueden ser favorables y el núme-
ro total de casos posibles (favorables + desfavorables).
Como siempre la cantidad de casos favorables es menor a la cantidad de casos
posibles, la probabilidad siempre es menor que uno y mayor que cero:
0 < p < 1 [Fórmula XIV.1]5
4 Suceso: Cada uno de los resultados de un fenómeno o experiencia aleatoria. Es sinónimo de
evento. 5 En este libro utilizaremos las letras p y P, en forma indiferente, para indicar la probabilidad
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
10 | P á g i n a
Probabilidad y certeza
La incertidumbre en la ocurrencia de algo, se contrapone con la certeza, es de-
cir la seguridad en la ocurrencia de ese algo.
Dijimos que la probabilidad estaba dada por un número mayor que cero y me-
nor que uno. Por el contrario, la certeza, tiene solo dos valores: 0 y 1.
Cero, es la certeza acerca de la imposibilidad total de que algo ocurra y uno es
la certeza o seguridad total en la ocurrencia del suceso. Por ejemplo:
la probabilidad de que al arrojar una moneda salga cara o ceca es 1/2 ó
0,5 (50%). Se trata de un valor mayor que cero y menor que uno.
La probabilidad de que al arrojar una moneda, salga cara o seca, es
igual a 1. Es una certeza total pues cara y seca son las dos únicas opcio-
nes de caer que tiene la moneda.
La probabilidad de que al arrojar una moneda al aire, esta quede volan-
do, es igual a cero. Debido a la ley de gravedad, es totalmente imposi-
ble que una moneda flote en el aire.
Entonces, un valor de uno, nos indica la certeza total de ocurrencia de un suce-
so y un valor de cero, nos indica la certeza total del que tal suceso no ha de
ocurrir. En la tabla siguiente se muestran algunas certezas.
Ejemplo Certeza Después del verano llega el otoño 1 Vivir 300 años 0 Las montañas están sobre el nivel del mar 1 Mantenerse con vida bajo el agua, sin respiración artificial 0 Durante un terremoto, las capas de tierra vibran 1 Que un automóvil naftero funcione sin combustible 0 A temperaturas mayores de 100 grados Celsius , el agua se evapora 1
SUCESOS DETERMINISTAS
Desde el punto de vista de la ocurrencia de los fenómenos de la ciencia, el de-
terminismo es una posición filosófica que sostiene que dicha ocurrencia no es
casual ni se produce al azar, sino que obedece a leyes naturales y causales y es
debida a la actuación de factores específicos.
Los sucesos o experimentos deterministas, son los experimentos o sucesos de
los que podemos predecir el resultado antes de que se realicen.
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
11 | P á g i n a
Ejemplos:
Si hoy es lunes, mañana será martes.
Si en este momento es de día, más tarde será de noche.
Si a un avión se le rompe el sistema de propulsión, caerá.
Cuando a un líquido se le suministra constantemente calor, entrará en
ebullición.
Si arrojo un dado de seis caras, saldrá un número entre 1 y 6.
Si juego a la ruleta, saldrá un número entre 0 y 36.
También, podemos decir que un experimento o fenómeno es determinista, si se
obtiene el mismo resultado cada vez que se repite el experimento en las mis-
mas condiciones.
SUCESOS ALEATORIOS O ESTOCÁSTICOS6
Son aquellos en los que no se puede predecir su resultado, ya que éste depende
solo del azar.
Ejemplos:
Si lanzamos una moneda al aire, no sabemos de antemano si saldrá cara
o ceca.
Si lanzamos un dado, tampoco podemos determinar el resultado que
vamos a obtener.
Si abrimos un libro, sin mirarlo, no sabemos en qué página se abrirá.
Si vamos al hipódromo desconocemos qué caballo ganará en una carre-
ra honesta.
Otra definición, expresa que un experimento aleatorio o estocástico es el que
puede producir resultados diferentes en las mismas condiciones.
CÁLCULO DE PROBABILIDADES. LÓGICA Y EMPIRISMO
Existen dos formas temporales de calcular la probabilidad, que son conocidas
como: Probabilidad a priori o probabilidad lógica o racional y Probabilidad …
Continúa…
6 Estocástico, del latín stochasticus, que a su vez procede del griego στοχαστικός, "hábil en
conjeturar‖. Fuente: http://es.wikipedia.org/wiki/Estoc%C3%A1stico
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
12 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
13 | P á g i n a
Es una verdad muy cierta que, cuando no esté a nuestro alcance
determinar lo que es verdad, deberemos seguir lo que es más probable.
Descartes7, en su Discurso del Método
8
UNIDAD XV
DISTRIBUCIONES DE PROBABILIDAD9
Los valores de una variable sirven para describir o clasificar individuos o dis-
tinguir entre ellos.
Por ejemplo si digo que X es la variable altura y el valor de X para Ernesto es
1,85 metros, sin duda nos imaginamos a Ernesto como un muchacho alto. En-
tonces, la variable altura, nos sirve para describir a los integrantes de una
7 René Descartes (La Haye, Turena francesa,31 de marzo de 1596 - Estocolmo, Suecia, 11 de
febrero de 1650), también llamado Renatus Cartesius, fue un filósofo, matemático y físico
francés, considerado como el padre de la geometría analítica y de la filosofía moderna, así co-
mo uno de los nombres más destacados de la revolución científica. Fuente:
http://es.wikipedia.org/wiki/Ren%C3%A9_Descartes 8 El Discurso del método (Discours de la méthode en francés), cuyo título completo es Discur-
so del método para conducir bien la propia razón y buscar la verdad en las ciencias (Discour de
la méthode pour bien conduire sa raison, et chercher la vérité dans les sciences) es la principal
obra escrita por René Descartes y una obra fundamental de la filosofía occidental con implica-
ciones para el desarrollo de la filosofía y de la ciencia.
Se publicó de forma anónima en Leiden (Holanda) en el año 1637. Constituía, en realidad, el
prólogo a tres ensayos: Dióptrica, Meteoros y Geometría; agrupados bajo el título conjunto de
Ensayos filosóficos. Fuente: http://es.wikipedia.org/wiki/Discurso_del_m%C3%A9todo 9 Fuente de la imagen: http://imagej.nih.gov/ij/plugins/fraclac/FLHelp/bpd.htm
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
14 | P á g i n a
muestra. con respecto a sus alturas. La mayoría de nosotros hacemos algo más
que simplemente describir, clasificar o distinguir, porque tenemos ideas respec-
to a las frecuencias relativas de los valores de una variable. En estadística de-
cimos que la variable tiene una función de probabilidad, una función de densi-
dad de probabilidad o simplemente una función de distribución.
Las distribuciones de probabilidad están relacionadas con la distribución de
frecuencias y, por tal motivo, podemos pensar en la distribución de probabili-
dad como una distribución de frecuencias teórica. Una distribución de frecuen-
cias teórica es una distribución de probabilidades que describe la forma en que
se espera que varíen los resultados. Debido a que estas distribuciones tratan so-
bre expectativas de que algo sucederá, resultan ser modelos útiles para hacer
inferencias y tomar decisiones de incertidumbre.
Podemos decir, entonces, que los objetivos de las distribuciones de probabili-
dad son:
a) Introducir las distribuciones de probabilidad que más se utilizan en la
toma de decisiones.
b) Mostrar qué distribución de probabilidad podemos utilizar, y cómo en-
contrar sus valores.
c) Entender las limitaciones de cada una de las distribuciones de probabi-
lidad que utilicemos.
DISTRIBUCIONES DE PROBABILIDAD
Una distribución de probabilidades indica toda la gama de valores que pueden
ocurrir como resultado de un experimento, en el caso que éste se llevase a ca-
bo. Es decir, describe la probabilidad de que un evento pueda suceder en el fu-
turo y, por tal motivo, constituye una herramienta fundamental para la prospec-
tiva, dado que se puede diseñar un escenario de acontecimientos futuros consi-
derando las tendencias actuales de diversos fenómenos naturales.
Las variables descriptas anteriormente nos generan distribuciones de probabili-
dad, las que pueden ser:
Discretas, o
Continuas
a) Distribuciones de probabilidad discretas
Las características de esta distribución, son:
a.1. Es generada por una variable aleatoria discreta (X).
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
15 | P á g i n a
a.2. Las probabilidades asociadas a cada uno de los valores que toma X
deben ser mayores o iguales a cero. P (Xi) ≥ 0
a.3. La sumatoria de las probabilidades asociadas a cada uno de los valo-
res que toma X debe ser igual a 1. P (Xi) = 1
b) Distribuciones de probabilidad continuas
Las características de esta distribución, son:
b.1. Es generada por una variable aleatoria continua (X).
b.2. Las probabilidades asociadas a cada uno de los valores que toma X
deben ser mayores o iguales a cero. P (Xi) ≥ 0.
Dicho de otra forma, la función de densidad de probabilidad deberá
tomar solo valores mayores o iguales a cero.
b.3. La sumatoria de las probabilidades asociadas a cada uno de los valores
que puede adoptar X debe ser igual a 1. P (Xi) = 1.
Dicho de otra manera, el área definida bajo la función de densidad de probabi-
lidad deberá ser unitaria (igual a 1).
Hasta ahora todos los ejemplos que hemos visto en las unidades anteriores fue-
ron para calcular la probabilidad de ocurrencia de un determinado evento.
Veremos, ahora, como aplicamos el cálculo de probabilidades a lo que se co-
noce como distribuciones de probabilidad, sean estas continuas o discretas. La
distribución de probabilidad de una variable aleatoria, es una función que asig-
na a cada suceso definido sobre la variable aleatoria, la probabilidad de que di-
cho suceso ocurra o no. Esta distribución de probabilidad está definida sobre el
conjunto de todos los sucesos, donde cada uno de los sucesos es el rango de va-
lores de la variable aleatoria y está completamente especificada por la función
de distribución, cuyo valor para cada valor de la variable aleatoria X, es la pro-
babilidad de que la variable aleatoria sea menor o igual que X.
GRAFICACIÓN DE LAS DISTRIBUCIONES DE PROBABILIDAD
Si representamos gráficamente la probabilidad de nacimiento de un niño o de
una niña en un mismo parto, o la salida de cara o ceca en el lanzamiento de una
única moneda o de la salida de un tres o un cinco en el lanzamiento de un único
dado, siempre la probabilidad de éxito y de fracaso, como se denomina en es-
tadística a los casos contrarios, es la misma. Se trata de lo que se conoce como
sucesos equiprobables y su graficación sería del siguiente tipo:
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
16 | P á g i n a
Gráfico XV.1. Probabilidad de nacimiento de un niño o una niña
Supongamos ahora que queremos graficar la probabilidad de nacimiento de:
ningún machito o un machito o dos machitos o tres machitos o cuatro machitos,
en un parto múltiple (cuatro gatitos) de una gatita siamesa. El gráfico XV.2,
nos muestra como sería tal distribución de probabilidades
Gráfico XV.2. Probabilidad de nacimiento de 0, 1, 2, 3 ó 4
gatos machitos en un parto único de cuatro gatitos.
Sabemos que la probabilidad de que nazca un gato color venus, es mus baja. Si
quisiéramos graficar cual es la probabilidad de que en un hospital veterinario,
donde nacen 20.000 gatos por año, un día determinado nazcan entre 0 y 7 gati-
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
17 | P á g i n a
tos color venus, obtendríamos un gráfico como el 4.3.
Gráfico XV.3. Probabilidad de que en un día determinado nazcan entre 0 y 7 gatitos color venus
Y si quisiéramos graficar el peso de los mil gatos adultos que se encuentran in-
ternados en de un determinado hospital veterinario, el gráfico sería similar al
histograma que se muestra en la figura XV.4
Gráfico XV.4. Peso de mil gatos adultos
Pero, si (hipotéticamente) quisiéramos representar el peso de todos los gatos de
una ciudad, tendríamos un gráfico con forma de campana como el que nos …
Continúa…
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
18 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
19 | P á g i n a
Mientras no haya una distribución
equitativa de la riqueza, no habrá paz.
Elena Ochoa10
UNIDAD XVI
DISTRIBUCIONES MUESTRALES 11
Una distribución muestral es la distribución formada por estadísticos o valores
determinados obtenidos de muestras, tales como medias, desviaciones estándar,
etc., acompañados de sus respectivas frecuencias absolutas o relativas o en
forma de proporciones o probabilidades.
Las muestras aleatorias extraídas de una población son, por naturaleza, distin-
tas, dado que es bastante improbable que dichas muestras, aunque sean del
mismo tamaño, tengan las mismas medias o desviaciones estándar.
Entonces, si partimos del hecho de que las diversas muestras extraídas de una
misma población tendrán estadísticos distintos, tales estadísticos se podrán dis-
tribuir a través de una distribución de frecuencias. Además, como los valores
de X o de S, varían de una muestra a otra, se los puede considerar como va-
10
Elena Fernández-Ferreiro López-Ochoa, conocida por Elena Ochoa (Orense, 24 de septiem-
bre de 1958), es una editora y comisaria de arte contemporáneo española. Fuente:
http://es.wikipedia.org/wiki/Elena_Ochoa 11 Fuente de la imagen: http://alwaysimages.es/i/distribucion/
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
20 | P á g i n a
riables aleatorias. La figura XVI.1 ilustra lo explicado
Figura XVI.1
DISTRIBUCIÓN MUESTRAL DE MEDIAS
Las muestras aleatorias obtenidas de una población son, por naturaleza propia,
impredecibles. Por tal motivo, no se esperaría que dos muestras aleatorias del
mismo tamaño y tomadas de la misma población tengan la misma media mues-
tral o que sean completamente parecidas. Puede esperarse que cualquier es-
tadístico, como la media muestral, calculado a partir de las medias en una
muestra aleatoria, cambie su valor de una muestra a otra y, por ello, se quiere
estudiar la distribución de todos los valores posibles de un estadístico. Tales
distribuciones serán muy importantes en el estudio de la estadística inferencial,
porque las inferencias sobre las poblaciones surgirán a partir de estadísticos
muestrales. Mediante el análisis de las distribuciones asociadas con los estadís-
ticos muestrales, podremos juzgar la confiabilidad de un estadístico muestral
como un instrumento para hacer inferencias sobre un parámetro poblacional
desconocido.
Como los valores de un estadístico, tal como X , varían de una muestra aleato-
ria a otra, se le puede considerar como una variable aleatoria con su corres-
pondiente distribución de frecuencias.
La distribución de frecuencias de un estadístico muestral se denomina distribu-
ción muestral. En general, la distribución muestral de un estadístico es la de
todos sus valores posibles calculados a partir de muestras del mismo tamaño.
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
21 | P á g i n a
Ejemplo XVI.1
Supongamos que un profesor de estadística que está explicando la unidad de
muestreo, le solicita a 100 de sus alumnos, como trabajo práctico, realizar una
encuesta sobre la cantidad de días de vacaciones que los alumnos de la univer-
sidad se han de tomar durante el año siguiente. Cada alumno debe realizar el
muestreo mediante una técnica de muestreo aleatorio simple. Como resultado,
cada uno de ellos debe responder sobre la cantidad de días que, en promedio,
han de vacacionar los integrantes de su muestra.
Los resultados de los promedios de las cien muestras son los que se muestran
en la Tabla XVI.2. Si efectuamos el histograma de esta distribución, el mismo
tendría la forma de la Figura XVI.2.
La forma de esta figura no hace más que confirmar la principal propiedad de la
distribución muestral de medias que veremos más adelante. El concepto de dis-
tribución muestral de medias es el siguiente:
―Esta distribución proporciona todos los valores que puede adoptar la media,
junto con la probabilidad de obtener cada valor si el muestreo es aleatorio‖
Tabla XVI.2. Datos muestrales del ejemplo XVI.1
Media, en días Fi
Media, en días Fi
30 1 17 8 29 1 16 8 28 1 15 8 27 2 14 7 26 2 13 5 25 3 12 5 24 3 11 3 23 4 10 3 22 4 9 2 21 4 8 2 20 5 7 2 19 7 6 1 18 8 5 1 ∑ Fi = 100
PROPIEDADES DE LA DISTRIBUCIÓN MUESTRAL DE MEDIAS
Algunas de las propiedades o características más importantes de la distribución
muestral de medias, son:
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
22 | P á g i n a
Primera propiedad de la distribución muestral de medias
―La distribución muestral de medias de un conjunto grande de muestras aleato-
rias se aproxima a una curva normal‖. Ver Figura XVI.2.
Figura XVI.2. Histograma de la distribución de la Tabla XVI.2.
Es decir que, como muestra la figura XVI.3, a medida que aumenta el tamaño
de la muestra, la distribución muestral de medias se aproxima a la curva normal
de la población con una media igual a y una desviación estándar igual a:
Xn
Figura XVI.3
Segunda propiedad de la distribución muestral de medias
―Si calculamos la media de todas las medias obtenidas por muestreo, la media
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
23 | P á g i n a
de esta distribución de medias es la verdadera media de la población‖
Tercera propiedad de la distribución muestral de medias
―La deviación estándar de la distribución muestral de medias es menor que la
desviación estándar de la población. Vemos en la figura XVI.4, que la distribu-
ción de medias, al tener una menor desviación estándar que la desviación
estándar poblacional, resulta más empinada que la distribución poblacional‖.
Figura XVI.4. Comparación de las desviaciones entre la distribución
de medias y la distribución poblacional.
ERROR ESTÁNDAR DE LA MEDIA
Cuando estudiamos la curva normal, vimos la relación entre los datos en bruto,
la media y la desviación estándar, que se conformaba a través de un puntaje
estándar ―Z‖, que nos permitía efectuar afirmaciones probabilísticas acerca de
tales datos en bruto.
Ahora, en esta nueva curva normal, los datos en bruto son lo que se daría en
llamar medias muestrales en bruto y, trabajando de manera similar, podemos
efectuar afirmaciones de probabilidad referidas a tales medias muestrales.
Los parámetros que utilizaremos para caracterizar a la distribución muestral de
medias, serán los siguientes:
Media de la distribución muestral de medias
Desviación estandar de la distribución muestral de mediasX
X
Continúa…
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
24 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
25 | P á g i n a
Libertad. Loada de sabios, deseada de muchos y
cantada de poetas, para cuya estimación
todo el oro y las riquezas de la tierra
es poco precio.
Mateo Alemán12
UNIDAD XVII
ESTIMACIÓN ESTADÍSTICA
ESTIMACIÓN PUNTUAL Y POR INTERVALOS DE CONFIANZA13
ESTIMACIÓN ESTADÍSTICA
Por estimación entendemos a una parte de la estadística inferencial que estudia
las técnicas utilizadas para proporcionar el mejor pronóstico de un parámetro o
12 Mateo Alemán y de Enero (Sevilla, septiembre de 1547 - México,1614 ) es un escritor espa-
ñol del Siglo de Oro conocido fundamentalmente por la novela picaresca Guzmán de Alfara-
che, publicada en dos partes, en 1599 y 1604, que estableció y consolidó los rasgos caracterís-
ticos de dicho género. Fuente: http://es.wikipedia.org/wiki/Mateo_Alem%C3%A1n 13
Fuente de la imagen: http://www.amazon.com/Introduction-Estimation-Hypothesis-
Statistical-Modeling/dp/0123869838/ref=sr_1_9?s=books&ie=UTF8&qid=1422101101&sr=1-
9&keywords=statistical+estimation
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
26 | P á g i n a
variable, a partir de datos empíricos o de estadísticos
Su finalidad, es proporcionarnos las herramientas necesarias para poder deter-
minar buenas aproximaciones -a las que llamaremos estimaciones- de aquellos
valores desconocidos de la población -a los que técnicamente se les denomina
parámetros- y que estamos interesados en conocer.
La estimación es un procedimiento por el que se estima un parámetro u otro va-
lor de una población utilizando datos incompletos procedentes de muestras.
Los problemas de inferencia pueden dividirse en dos grandes grupos:
Problemas de contraste de hipótesis
Problemas de Inferencia
Puntual
Problemas de estimación
Por intervalos
Ambos son bastante similares, ya que cada uno de ellos se ocupa de problemas
relacionados al valor de algún parámetro a partir de la información previa que
poseemos.
En la estimación puntual, lo que se obtiene es un único valor de un estadístico
que luego se utiliza para estimar un parámetro. El estadístico utilizado a tal fin,
se denomina estimador.
Por su parte, la estimación por intervalos de confianza, consiste en hallar un
rango de valores, generalmente de ancho finito, del cual se espera que contenga
al parámetro en cuestión.
LA ESTIMACIÓN. UN REQUERIMIENTO DE LA INFERENCIA ES-
TADÍSTICA
El conjunto de métodos estadísticos que permite deducir o inferir cómo
se distribuye la población en estudio o las relaciones estocásticas entre
varias variables de interés a partir de la información que nos proporciona
una muestra, se conoce como inferencia estadística. Una inferencia es-
tadística que está casi siempre concentrada en obtener algún tipo de con-
clusión acerca de las características poblacionales representadas por uno o más
parámetros.
A tal fin, el investigador debe obtener datos muestrales de cada una de las po-
blaciones en estudio. De esta manera, las conclusiones pueden estar basadas en
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
27 | P á g i n a
los valores calculados de varios estadísticos muestrales. Por ejemplo, si repre-
sentamos con (parámetro) el verdadero promedio de la salinidad de la arena
de las playas de Las Grutas, podríamos tomar una muestra aleatoria de 10 sec-
tores de la costa de Las Grutas, elegidos al azar, para determinar la salinidad de
cada una de ellas. Posteriormente, calcularíamos la media muestral de la salini-
dad X , la cual se podrá emplear para sacar una conclusión acerca del mejor
pronóstico del valor de . De forma similar, si s2 es la varianza de la distribu-
ción de salinidad, el valor de la varianza muestral s2
se podría utilizar para infe-
rir algo acerca de 2
.
Cuando se analizan conceptos generales y métodos de inferencia, es conve-
niente trabajar con un parámetro genérico identificado por un símbolo, tam-
bién, genérico. En estadística inferencial, se acostumbra identificar a ese pará-
metro genérico con la letra griega theta ( ). Como dijimos, una estimación
puntual de un parámetro resulta en un único valor que se puede considerar
como el valor más razonable de . La estimación puntual se obtiene al selec-
cionar un estadístico apropiado y calcular su valor a partir de datos de la mues-
tra dada. El estadístico seleccionado se llama estimador puntual de y en ge-
neral se presenta como una fórmula.
Entonces ˆ X se interpreta como ―el estimador puntual14
de es la media
muestral X ‖. Por ejemplo, en vez de decir ―la estimación puntual de es
4,25‖, en términos matemáticos se puede expresar como ˆ 4,25
EL PROCESO INFERENCIAL Y LA ESTIMACIÓN PUNTUAL
En este contexto, la meta de la estimación puntual
consiste en atribuir un único valor, llamado estima-
ción, que represente el valor más razonable o el mejor
pronóstico del parámetro poblacional . Si la muestra
es representativa de la población, podemos esperar
que los estadísticos calculados a partir de las muestras
tengan valores semejantes a los parámetros poblacio-
nales. Por ejemplo, volviendo al caso de las arenas
playeras de Las Grutas15
, los datos muestrales podrían
14 El símbolo ^ se conoce como acento circunflexo o circunflejo. Es muy utilizado en muchos
idiomas, como el portugués, por ejemplo ―Bênção‖ que significa bendición.
15 Las Grutas. Río Negro. Argentina. Fuente de la imagen:
http://www.panoramio.com/photo/54234634
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
28 | P á g i n a
ser16
:
Muestra Salinidad
dS/m17
1 4,3
2 4,5
3 3,9
4 4,0
5 4,6
6 4,1
7 3,95
8 4,25
9 4,7
10 4,3
Xi 42,5
X 4,25
Entonces, el valor calculado de la media muestral es razonable considerarlo
como un buen pronóstico de .
Ejemplo XVII.1
El Coltán no en sí mismo un mineral, sino que es un aglomerado del que se ex-
traen tantalio y niobio. El Coltán se ha transformado en el mineral del siglo
XXI y es conocido como el mineral azul, aunque su color es negro.
El tantalio es un superconductor, resistente a los ácidos y con un altísimo punto
de fusión. Es un elemento clave en la miniaturización de todo tipo de compo-
nentes electrónicos. Por su parte, el niobio, también llamado columbio, se em-
plea en superaleaciones que resisten altísimas temperaturas, como las utilizadas
para fabricar turbinas de aviones, pero también se está usando en la creación de
los nuevos ordenadores cuánticos.
Supongamos que las diversas muestras de Tantalio presentan distintas densida-
des y se desea saber cuál podría ser la densidad más representativa del tantalio.
Las densidades de 10 muestras de tantalio arrojaron los siguientes valores:
16 Los valores no son reales. 17 dS/m = deciSiemens por metro. Valor de la conductividad utilizado para medir la salinidad
de los suelos.
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
29 | P á g i n a
Densidad del Tantalio en gr/cm3
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 16,6 16,8 16,4 16,7 16,3 16,5 16,2 16,9 16,7 16,6
su media, es:
165,716,57 16,6
10
iXX
n
Por lo tanto, la densidad más representativa para el tantalio, será:
ˆ 16,6
Resumiendo:
Media de la población de Tantalio = desconocida
Estimador: media muestral X (Media muestral)
Estimación de 316,6 gr/cm
Debemos tener en cuenta que no siempre ˆ ya que ˆ es función de las Xi
muestrales, por lo que es en sí misma una variable aleatoria y, por ende:
ˆ error de estimación
.
En estas circunstancias, un estimador preciso será aquel que produzca sólo pe-
queñas diferencias de estimación, de modo que los valores estimados se acer-
quen al valor verdadero de la mejor forma. Surge de esto, que la estimación no
consiste simplemente en transformar el valor de un estadístico en una estima-
ción del parámetro correspondiente sino, también, en hacerlo bien.
Podemos utilizar como estimadores de la media de la población otros estadísti-
cos de tendencia central, como la moda o la mediana, pero no todos los estima-
dores son apropiados. Los estimadores deben satisfacer ciertos requisitos y, por
esta razón, interesa conocer sus propiedades a fin de utilizar los que sean ade-
cuados según las circunstancias de la estimación.
PROPIEDADES DE UN ESTIMADOR
Continúa…
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
30 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
31 | P á g i n a
La grandeza de un hombre
se mide por el tamaño de sus pensamientos.
Pedro Manero18
UNIDAD XVIII
TAMAÑO MUESTRAL19
Determinar el tamaño de una muestra representa una parte primordial del
método científico –que a su vez se basa en el método hipotético deductivo− pa-
ra poder llevar a cabo una investigación.
Recordemos que habíamos definido al muestreo como una técnica para recoger
el conjunto de observaciones necesarias para estudiar la distribución de deter-
minadas características de una población, a partir de la observación de una par-
te o subconjunto de la misma, a la que denominábamos muestra.
18 Pedro Manero (Cariñena, Zaragoza, 1599 - Tarazona, 5 de diciembre de 1659): sacerdote
franciscano español, ministro general de la Orden y Obispo de Tarazona. Fuente:
www.wikipedia.org 19 Fuente de la imagen: http://www.dissertationwriting.biz/dissertation-writing-tips/how-to-
determine-the-sample-size-required-in-your-dissertation/
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
32 | P á g i n a
Esa relación entre la población, la elección de la muestra y su tamaño es un
punto álgido para la buena consecución de los objetivos de la Estadística Infe-
rencial.
El cálculo del tamaño de la muestra es uno de los aspectos a llevar a cabo en
las fases previas a la investigación y condiciona, de alguna manera, el grado de
credibilidad o confiabilidad que finalmente concederemos a los resultados así
obtenidos.
Al definir el tamaño de la muestra, deberemos procurar que la misma sea re-
presentativa, válida y confiable y, al mismo tiempo, que nos represente un
mínimo costo. Por lo tanto, el tamaño de la muestra estará delimitado no solo
por motivos estadísticos, tales como los objetivos del estudio y las característi-
cas de la población, sino, además, por motivos prácticos y económicos, tales
como los recursos y el tiempo de que se disponga.
TAMAÑO DE LA MUESTRA
Definir el tamaño de una muestra es determinar la cantidad de individuos que
formarán parte de la misma, con el fin de llevar adelante algún estudio de in-
vestigación.
Uno de los conflictos que a menudo se presenta cuando se va a encarar un pro-
yecto de investigación es el relacionado con:
La cantidad de individuos que se van a incluir en el estudio, según los
criterios de inclusión y exclusión.
Las características que han de poseer tales individuos.
La metodología que se utilizará para la elección de los mismos.
Sabemos que analizar a toda la población, que sería la manera más exacta de
conocer lo que se pretende estudiar es, en la práctica, una tarea casi imposible.
Entre los motivos que lo impiden, podemos mencionar:
Falta de tiempo.
Escasez de recursos humanos.
Escasez de recursos económicos.
Dificultad cuasi logística para acceder a todos los sujetos.
Etc.
Es por ello que siempre debemos estudiar solo a una parte de ellos para, poste-
riormente, inferir los resultados obtenidos a toda la población.
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
33 | P á g i n a
Por lo tanto, cuando se habla de sujetos de estudio, se ha de diferenciar clara-
mente entre población, muestra e individuo.
Aunque estos conceptos ya han sido definidos varias veces a lo largo de este li-
bro y, también, en el tomo I de esta obra, por ser primordiales en el estudio de
la Estadística, entendemos que ahora el lector estará en mejores condiciones de
entender los mismos en todo su alcance.
Población: Es el conjunto de elementos o individuos que reúnen las ca-
racterísticas que se pretenden estudiar. Cuando el investigador conoce
la cantidad de individuos que la componen, se dice que la población es
finita y, a contrario sensu, que es infinita.
Existen tres niveles de población, según su tamaño y accesibilidad:
Población diana o población blanco: Es el conjunto de elementos o
individuos al cual se pretenden inferir los resultados obtenidos, es
decir, el grupo de individuos hacia el cual está proyectado el estudio.
Generalmente, es muy numerosa y no está al alcance de los investi-
gadores.
Población accesible: Es la que reúne las mismas características que
la anterior, pero con una menor cantidad de individuos y, por lo tan-
to, es susceptible de ser estudiada y analizada. En general, es la que
delimita el investigador con los criterios de inclusión y exclusión.
Población de estudio: es aquella de la que realmente se recogen los
datos. Es un subgrupo de la población accesible.
Veremos ahora, nuevamente, el concepto de muestra:
Muestra: Es el grupo de individuos que realmente se estudiará y, por
ende, es un subconjunto de la población. Para que los resultados que de
ella se deriven puedan inferirse hacia la población, debe ser representa-
tiva de la misma. Para ello, se han de definir con claridad los criterios
de inclusión y exclusión y, sobre todo, se han de utilizar las técnicas de
muestreo apropiadas para garantizar dicha representatividad.
Finalmente, el concepto de individuo es el siguiente:
Individuo: Es cada uno de los integrantes de la población o muestra en
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
34 | P á g i n a
los que se estudiarán las características de interés determinadas por los
objetivos del estudio. Normalmente, el número de individuos de la
muestra se representa con la letra (n) y el número de sujetos de la po-
blación, con la letra n en mayúscula (N).
Tras la definición de las características de la población a través de los criterios
de inclusión y exclusión, se ha de decidir si se estudia a toda la población o −en
caso de que esta sea demasiado grande− a un número de sujetos representati-
vos, que no han de ser ni pocos ni demasiados, sino simplemente los necesa-
rios.
CRITERIOS DE INCLUSIÓN Y DE EXCLUSIÓN
Hemos dicho, al hablar de la conformación de la muestra representativa, que,
entre otras cosas, debía cumplir con los criterios de inclusión y de exclusión.
Estos criterios son los que determinan las reglas de ingreso al trabajo de inves-
tigación. Veamos cuál es el significado de cada uno de ellos:
Criterios de inclusión: Conjunto de propiedades cuyo cumplimiento
identifica a un individuo que pertenece a la población en estudio. Su
objetivo es delimitar a la población. Cuanto más rígidos sean estos cri-
terios, más pequeña será la población a la cual se extrapolen los resul-
tados.
Criterios de exclusión: Conjunto de propiedades cuyo cumplimiento
permite identificar a los individuos que deben ser excluidos del trabajo
de investigación, aunque cumplan con los requisitos de inclusión. Se
trata de un conjunto de propiedades cuyo cumplimiento identifica a un
individuo que, por sus características, podría generar sesgo en la esti-
mación de la relación entre variables o un aumento de la varianza de las
mismas. Su objetivo es reducir los sesgos, y aumentar la eficiencia y
eficacia en la estimación.
Se debe tener en cuenta que, tal como surge de las definiciones de ambos crite-
rios, estos no resultan opuestos entre sí, sino, más bien, complementarios.
A modo de ejemplo, imaginemos un ensayo en el cual se va a efectuar una eva-
luación de carácter médico sobre el efecto de ciertos fármacos sobre una de-
terminada enfermedad. En este contexto, los criterios de inclusión y exclusión
son aquellos que se van a seguir para admitir o no a los voluntarios para parti-
cipar en el estudio. Hay muchas razones por las que estos criterios son necesa-
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
35 | P á g i n a
rios. Entre los criterios de inclusión genéricos en este tipo de ensayos, podría-
mos citar:
Edad: mayor de 30 años.
Género: sin limitaciones.
Diagnóstico sobre padecimiento de la citada enfermedad durante el año
anterior al del ensayo.
Pacientes internados durante un periodo mayor de 3 meses en centros
asistenciales situados como máximo a 50 km de un punto determinado.
Entre los criterios de exclusión, podríamos tener:
Presentar signos de sensibilidad a la droga en estudio.
Mujeres embarazadas.
Personas con padecimiento de otras enfermedades importantes.
Personas mayores de 70 años y menores de 30 años.
Personas fumadoras (más de 10 cigarrillos diarios).
Personas con incapacidad para tomar decisiones. Está relacionado, por
ejemplo, con la decisión de participar de un experimento médico.
Pacientes con HIV (Por seguridad para el personal que interviene en la
investigación).
ERRORES EN LA CONFORMACIÓN DE LA MUESTRA
En general, en estos tipos de investigaciones, lo que se busca es la estimación
de parámetros o contraste de hipótesis, por lo que se hace una inferencia, es de-
cir, se trasladan los datos obtenidos de la muestra a la población de la cual se
ha extraído la misma. Resulta evidente que, al hacerlo, se pueden cometer
errores, que básicamente pueden ser de dos tipos:
Error aleatorio.
Error sistemático o sesgo.
El error aleatorio es el error derivado de trabajar con muestras. Está relaciona-
do …
Continúa…
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
36 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
37 | P á g i n a
La ciencia a veces mejora las hipótesis y otras veces las refuta,
pero probarlas es otra cuestión, y esto tal vez no se produzca jamás
salvo en el reino de la tautología totalmente abstracta.
Gregory Bateson20
UNIDAD IXX
CONTRASTES DE HIPÓTESIS21
HIPÓTESIS
En cualquier proceso de investigación, el punto de partida o de inicio del estu-
dio es el planteamiento del problema. Tan es así que ese momento es conside-
rado como un hito fundamental pues nos permitirá identificar sus marcos de re-
ferencia. Sin embargo, a veces es difícil diferenciar lo primero de lo segundo y
aquí sucede algo parecido.
El establecimiento de la hipótesis de trabajo que señale holísticamente lo que
se desea demostrar es tan importante como el primer paso que hemos reseñado.
Después, pareciese que la clasificación es más sencilla ya que una vez plantea-
20 Gregory Bateson (Grantchester, Reino Unido, 9 de mayo de 1904 — San Francisco, Estados
Unidos, 4 de julio de 1980) antropólogo, científico social, lingüista y cibernético cuyo trabajo
se interseca con muchos otros campos intelectuales. Fuente:
http://es.wikipedia.org/wiki/Gregory_Bateson 21 Fuente de la imagen: https://www.youtube.com/watch?v=cSTgNQ9tU90
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
38 | P á g i n a
da la hipótesis llega el momento de elegir el método de investigación más con-
veniente donde se realizarán las pruebas correspondientes para tratar de demos-
trar la veracidad y obtener una posible solución al problema planteado.
Según el profesor Jorge Zamorano García22
: ―Para un proyecto de investiga-
ción se considera una hipótesis aquella o aquellas guías específicas de lo que
se está investigando, aquello que el investigador está buscando y que será el
nuevo conocimiento o, también, todo aquello que una vez concluido se podrá
probar. Pueden considerarse, también, como predicados tentativos o frases del
fenómeno o cosa investigada, pero que solo proponen algo, es decir, su carac-
terística esencial es que ya terminadas (las hipótesis) no deben ni de afirmar ni
de negar el fenómeno o cosa que se está investigando, recordar que las hipóte-
sis se van a confrontar al final; el proyecto de investigación con las conclusio-
nes que son el resultado del proyecto.
No perder de vista que elaborar la hipótesis es tan importante o aun más que
cualquier otra de las partes del proceso investigativo, pues algunos autores la
consideran como el eslabón que interconecta lo investigado con lo esperado y,
sin ella, no existe una relación entre lo que nos hace desarrollar una idea so-
bre un tema o cosa (y saber el ¿Por qué? de ella) y saber cuál es el resultado,
desarrollando un proceso cognitivo investigativo. Alguien diría: saber la rela-
ción entre causa y efecto.
La hipótesis es aquella que se basa en una presunción de algo de lo investiga-
do, o puede la posibilidad de que algo se descubra o se crea de ése fenómeno o
cosa; al final son frases o enunciados que tratan sobre lo que se está investi-
gando, no son verdaderas y al final pueden o no comprobar los hechos investi-
gados, pero no por ello dejan de ser un elemento dentro del proceso de inves-
tigación; pues, ya sea que en las conclusiones se afirme, se niegue, se confir-
me, se rechace, se dé la razón o contradiga lo vertido como texto en la hipóte-
sis, ése resultado sigue siendo ciencia o conocimiento científico nuevo‖.
PROCESO DE ELABORACIÓN DE LA HIPÓTESIS
La hipótesis es el planteamiento anticipado de una conjetura o suposición que
se pretende demostrar mediante una investigación. Es una suposición admitida
como provisional y que sirve de punto de partida para una investigación cientí-
fica. Esta demostración, por ejemplo, se puede realizar a través de un conjunto
de pasos, como los siguientes:
22 Jorge Zamorano García es Secretario de la Academia de Investigación de la Universidad
Autónoma del Estado de Hidalgo, en México. Cita:
http://www.uaeh.edu.mx/scige/boletin/prepa4/n1/m9.html
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
39 | P á g i n a
1. Planteamiento concreto del problema a resolver: Consiste en plante-
ar precisa y completamente el problema que se trata de resolver, la pro-
blemática a solucionar, y las opciones supuestas que se hayan identifi-
cado de éste.
2. Anticipación de la suposición que se quiere llegar a demostrar: Es
el concepto supuesto que se anticipa y se quiere llegar a comprobar o
desaprobar mediante una aplicación de los métodos de investigación
elegidos.
3. Verificación de los hechos a través de métodos de observación: Para
ello se deben examinar todos los elementos y datos usados para fórmu-
lar la hipótesis, a fin de asegurarse de que la suposición se puede expli-
car con las observaciones que se realicen para demostrarla.
4. Evaluación y predicción de nuevas observaciones: Es la confirma-
ción de los conocimientos y las suposiciones que se presume que suce-
derán. Si llegan a ocurrir durante la observación de los elementos y da-
tos, se comprueba la hipótesis, aunque también puede ocurrir lo contra-
rio, que se refuten por la misma observación.
5. Experimentación con lo observado y comprobación de la suposición
por demostrar: Se trata de una observación intencional a través de la
cual se introducen en el desarrollo de un fenómeno uno o varios facto-
res artificiales, luego se compara el comportamiento de éstos contra los
resultados que se producirían sin ninguna intervención. Esto puede me-
dir la influencia del experimento con la realidad.
Comprobación de la hipótesis contra los resultados obtenidos
Del análisis a los resultados obtenidos de la experimentación, se deriva el cum-
plimiento de la más importante característica del método científico pues con su
aplicación se comprueba o refuta la hipótesis. Aunque dicha comprobación
siempre estará sujeta a ser validada nuevamente con experimentos posteriores,
otros descubrimientos, instrumentos mejorados o cualquier cambio que pueda
modificar o probar la hipótesis inicial.
Difusión de resultados
Una vez satisfecha la comprobación, o en su caso la refutación de la hipótesis,
la última parte del método científico consiste en difundir los resultados obteni-
dos. Si es necesario, también se incluirán los métodos y procedimientos utili-
zados en la investigación. Su propósito es plasmar las conclusiones por escrito
para que puedan ser expuestas, consultadas y sirvan como apoyo en investiga-
ciones afines.
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
40 | P á g i n a
ETAPAS DEL TRABAJO EXPERIMENTAL
Dado que nos estamos adentrando en el trabajo del investigador y que este se
está adueñando de muestras vidas cada vez con mayor frecuencia, entendemos
que resultará importante conocer cuáles son las etapas ineludibles de cualquier
procesos de investigación. Ellas son:
Aunque pareciese que lo que el investigador está buscando para poder confir-
mar su hipótesis es que los resultados del grupo experimental y los del de con-
trol no coincidan, toda investigación parte del supuesto de que el experimento
no ha funcionado.
Para que esto suceda, los dos conjuntos de valores obtenidos no deben diferir
entre sí. Dicho de otro modo, al iniciar el experimento se dice que la variable
independiente no afecta a la variable dependiente de la manera prevista. Esta
afirmación es la tan mentada hipótesis nula.
Pero, si existe una hipótesis nula, debe existir, por lógica, otra no nula. Se trata
de una hipótesis que representa el opuesto de la nula y se la conoce como hipó-
tesis alternativa.
Vamos a tratar de explicar esto de manera más campechana mediante la si-
guiente secuencia:
1. Al científico se le ocurre una idea que viene manejando desde hace
tiempo en su cabeza y la traduce en forma de una hipótesis experimen-
tal.
2. A continuación, comienza un experimento que tiene por obvia finalidad
comprobar su hipótesis.
3. Una vez recopilados los resultados, se hace necesario realizar un test o
implementar una técnica estadística para poder decidir si la hipótesis
experimental es correcta o debe ser desechada.
4. Que la hipótesis sea correcta significa que la variable independiente in-
fluye decididamente sobre la variable dependiente del modo previsto
por el investigador.
5. Supongamos que el investigador no sabe nada de Estadística y, para sa-
ber si su hipótesis es correcta o no, debe solicitar la ayuda de un es-
tadístico.
6. Aceptado el ofrecimiento, el estadístico solo necesita saber que repre-
sentan los numeritos que le ha acercado el investigador. Estos numeri-
tos pueden representar ciertas características de una persona, como su
peso en kilogramos, su altura en metros, su presión arterial en milíme-
tros de mercurio, la cantidad de palabras retenidas de la lectura de un
texto, el tiempo para ejecutar una tarea, etc. Son los datos obtenidos
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
41 | P á g i n a
7. También necesitará saber en qué medida estaban igualados el grupo ex-
perimental y el de control.
8. Por regla, al inicio de su tarea, el estadístico fórmula la hipótesis nula,
es decir, supone que ambos grupos, el experimental y el de control, no
difieren en sus resultados. Dicho de otra manera, que la variable inde-
pendiente no ha influido sobre la dependiente.
9. A continuación, comienza a analizar los valores y si, como resultado de
ello, los mismos parecen diferir, y, después de descartar que ello es de-
bido al azar, puede rechazar la hipótesis nula.
10. Este rechazo, obviamente le abre las puertas al ingreso de su contraria,
la hipótesis alternativa, que significa lisa y llanamente que la hipótesis
experimental puede ser confirmada.
11. Pero también puede suceder que los valores concuerden, con lo cual, la
hipótesis nula queda confirmada.
Cuando el estadístico le transmite sus conclusiones al investigador, este puede
tomar tres decisiones:
1. En caso de haberse comprobado la hipótesis nula, el investigador puede
concluir en que su hipótesis estaba equivocada y la descarta.
2. En caso de no haberse comprobado la hipótesis nula, es decir que se
hubiese comprobado la hipótesis experimental, el investigador puede
dar por comprobada su hipótesis.
3. Pero también puede darse el caso de que, a la luz de los resultados, el
investigador pueda percatarse de que había pasado por alto la influencia
de alguna otra variable. En este caso, el investigador desechará su hipó-
tesis de trabajo y quedará expedita la vía para una posterior fórmula-
ción.
Como conclusión, podemos definir a la hipótesis nula como la hipótesis es-
tadística de que no hay diferencia entre los grupos analizados.
HIPÓTESIS Y VARIABLES
Cuando un investigador decide iniciar un trabajo experimental, debe determi-
nar qué condiciones se han de manejar con el fin de tratar de demostrar sus ex-
pectativas.
A tal fin, deberá trabajar con dos grupos, uno llamado grupo experimental y
Continúa…
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
42 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
43 | P á g i n a
La ciencia es el cementerio de las hipótesis
Lee Smolin23
UNIDAD XX
PRUEBAS NO PARAMÉTRICAS
PRUEBA DEL SIGNO24
Comenzaremos en esta unidad a estudiar y analizar algunas de las muchas
pruebas no paramétricas.
Recordemos que estas pruebas no necesitan suposiciones respecto a la compo-
sición de los datos poblacionales y por tal motivo, las mismas son de uso bas-
23 Lee Smolin (Nueva York, Estados Unidos, 1955) es un físico teórico dedicado al estudio de
la gravedad cuántica, la cosmología y la teoría cuántica.
Fuente: http://es.wikipedia.org/wiki/Lee_Smolin 24 Fuente de la imagen: http://www.ccee.edu.uy/ensenian/licest/estnopar/index.htm
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
44 | P á g i n a
tante habitual en los siguientes escenarios:
1. Cuando no se cumplen las suposiciones requeridas por las pruebas pa-
ramétricas.
2. Cuando es necesario usar un tamaño de muestra pequeño y no es posi-
ble verificar que se cumplan ciertas suposiciones clave.
3. Cuando se necesita convertir datos cualitativos en información útil para
la toma de decisiones.
Existen muchos casos en los que se recogen datos medidos en una escala no-
minal u ordinal. Muchas aplicaciones de la vida diaria y comercial involucran
opiniones o sentimientos y esos datos son información cualitativa.
Sin embargo el uso de las pruebas no paramétricas se ve favorecido debido a
que estas tienen varias ventajas sobre las pruebas paramétricas, como ser:
1. Facilidad de uso y comprensión.
2. Se pueden usar con muestras pequeñas.
3. Se pueden usar con datos cualitativos.
4. No requieren de suposiciones restrictivas que sí las requieren las prue-
bas paramétricas.
Sin embargo, debemos tener presente al utilizarla que tienen algunas desventa-
jas, tales como:
1. En ocasiones ignoran, desperdician o pierden información.
2. Son menos eficientes que las paramétricas.
3. Llevan a una mayor probabilidad de no rechazar una hipótesis nula fal-
sa (incurriendo en un error de tipo II).
Finalmente, debemos tener en cuenta que, generalmente, las pruebas paramé-
tricas son más poderosas que las pruebas no paramétricas y deben usarse siem-
pre que sea posible. Es importante tener en cuenta, que aunque las pruebas no
paramétricas no hacen suposiciones sobre la distribución de la población que se
muestrea, muchas veces se apoyan en distribuciones muestrales como la nor-
mal o la ji cuadrada.
DISEÑO EXPERIMENTAL
Diseño de medidas repetidas
En general, cada prueba está asociada a un tipo de diseño experimental. Los di-
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
45 | P á g i n a
seños experimentales son aquellas técnicas en las que existe un control exigido
por la observación experimental y, muy especialmente, se trabaja con variables
activas o experimentales, susceptibles de manipulación, dosificación y, en su
caso, combinación.
Al diseño experimental que hemos de utilizar en el ejemplo siguiente se lo co-
noce como ―diseño de medidas repetidas o replicadas o correlacionadas‖. Este
diseño es un elemento incondicional de la investigación científica y ofrece una
forma menos complicada de realizar la comparación de los efectos de los tra-
tamientos sobre los participantes. Este tipo de diseño se caracteriza por:
Utilizar a los mismos individuos o sujetos. De este modo los mismos
individuos sirven como sujetos experimentales y sujetos de control. En
algunos casos se utilizan parejas de sujetos gemelos idénticos o sujetos
igualados de alguna otra forma.
Formar parejas con los resultados
Analizar las diferencias positivas o negativas entre las parejas, siguien-
do siempre el mismo orden.
Utilizar solo dos condiciones: experimental y de control.
Mantener a las dos condiciones en situaciones lo más semejantes posi-
bles, excepto por la variable independiente utilizada en cada grupo.
DESARROLLO DE LA PRUEBA
Es una de las pruebas no paramétricas más simples y la más antigua de todas,
pues está reportada en la literatura desde 1710 por
John Arbuthnot25
, quien hizo uso de este procedi-
miento, por primera vez, para demostrar que la pro-
porción de varones nacidos en Londres en un deter-
minado período de tiempo era significativamente
mayor que la proporción de mujeres. Se basa en los
signos que generan la diferencia de comparar los da-
tos en una población con respecto a su media, me-
diana o con respecto a otros datos tomados de la
misma población, presentándose así dos casos, el de
una muestra sencilla (una sola muestra) y el de una
muestra en pares. En el año 1945, fue desarrollado definitivamente por Frank
25 John Arbuthnot. 1667-1735. Médico inglés quien fue médico personal de la reina Ana. Rea-
lizó estudios de las proporciones de los sexos en los nacimientos. Fuente:
http://es.slideshare.net/lagavilanes/historia-de-la-estadstica-4674196
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
46 | P á g i n a
Wilcoxon26
. Elegimos esta prueba pues se sustenta en dos peculiaridades muy
importantes:
Es fácil de comprender.
Permite ilustrar de manera clara y sencilla los conceptos básicos rela-
cionados a las pruebas de hipótesis.
En esta prueba se ignora la magnitud de las diferencias entre los resultados del
experimento bajo distintas condiciones y solo se tiene en cuenta su dirección
que se manifiesta por medio del signo (+ ó -).
No sabemos, a ciencia cierta, el porqué del término ―dirección‖ utilizado en la
gran mayoría de los textos de estadística cuando en realidad el signo, desde un
punto de vista matemático, está relacionado no con la dirección sino con el sen-
tido. Para no contradecir a esta mayoría de autores clásicos seguiremos, con es-
ta salvedad, utilizando el término dirección.
Una de las grandes críticas a esta prueba, es que omite mucha información.
Es muy utilizada en estadística médica para analizar las reacciones o el com-
portamiento del paciente ante alguna droga. Aquí cada sujeto es estudiado bajo
dos condiciones.
Una condición llamada experimental, donde el paciente es tratado con la droga
en estudio y otra condición, llamada de control, donde el paciente no recibe la
droga en estudio sino un placebo27
. En ambos casos se mide alguna caracterís-
tica que sirve para estudiar el comportamiento del paciente frente a la droga.
Vamos a analizar la prueba del signo a través de un ejemplo.
Ejemplo XX.1
Supongamos que en un hospital público se elige una muestra aleatoria de 10
26 A él nos referiremos más ampliamente en la siguiente unidad. 27 El término placebo es aquel que se utiliza para designar en el campo de la medicina, más es-
pecíficamente la farmacología, a las sustancias que son inertes o inocuas y que sirven para ob-
servar el comportamiento del organismo ante determinados estímulos o circunstancias particu-lares. El placebo se puede suministrar de diferentes maneras y su utilidad principal es la de
permitir a los investigadores observar cómo el sistema cerebral de un individuo puede funcio-
nar ante su administración. En otras palabras, el placebo suele administrarse como un tipo de
medicación específica cuando en realidad su composición no supone ningún tipo de cura o alte-
ración al organismo. Ante la creencia de la persona de que está recibiendo la medicación apro-
piada, el placebo puede servir para generar cambios en la salud que se vinculan con el accionar
del cerebro y de la conciencia sobre la propia enfermedad.
Fuente: http://www.definicionabc.com/salud/placebo.php#ixzz3QhvCPCLI
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
47 | P á g i n a
pacientes obesos, los que están de acuerdo en participar de un experimento
La prueba se realiza durante los días lunes a sábado, inclusive. Los días lunes
martes y viernes los pacientes reciben solo comida.
El día miércoles los pacientes reciben una píldora que contiene la droga en
cuestión y el día sábado reciben una píldora de igual aspecto pero que no con-
tiene la droga, es decir que es un placebo. En ambos casos se mide la cantidad
de alimentos ingeridos el día miércoles (condición experimental) y el día sába-
do (condición de control). Supongamos que el resultado fue:
Paciente
Condición experi-
mental. Consume la
droga. Calorías in-
geridas (a)
Condición de con-
trol. Consume el
placebo.
Calorías ingeridas
(b)
Diferencia en
calorías:
(a) – (b)
Signo
1 1.275 1.389 - 114 -
2 1.341 1.567 - 226 -
3 998 1.345 - 347 -
4 1.378 1.576 - 198 -
5 1.219 1.308 - 89 -
6 1.076 1.000 +76 +
7 1.302 1.761 - 459 -
8 956 1.345 - 389 -
9 1.145 1.089 + 56 +
10 1.356 1.467 - 111 -
DEFINICIÓN DE LAS HIPÓTESIS
Dado que a través de este ejemplo trataremos de explicar los fundamentos y
desarrollo de esta prueba, no seremos muy estrictos en la formulación de las
hipótesis de trabajo. La hipótesis alternativa (H1), podría ser del tipo:
1. La droga afecta el apetito ( Bidireccional) o,
2. La droga disminuye el apetito (unidireccional)
En el primer caso, la (H0), sería:
1. La droga no afecta el apetito, y en el segundo caso:
Continúa…
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
48 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
49 | P á g i n a
La prueba de lo irracional es la experiencia
y la prueba de la experiencia es lo racional
Novalis28
UNIDAD XXI
PRUEBAS NO PARAMÉTRICAS
LA PRUEBA U DE WILCOXON-MANN-WHITNEY29
En estadística, la prueba U de Mann-Whitney o de Wilcoxon-Mann-Whitney,
es una prueba no paramétrica con la cual se identifican diferencias entre dos
poblaciones basadas en el análisis de dos muestras independientes, cuyos datos
han sido medidos al menos en una escala de nivel ordinal. Es, de hecho, la ver-
sión no paramétrica de la habitual prueba t de Student.
Fue propuesta inicialmente, en 1945, por Frank Wilcoxon30
para el caso de ta-
28 Novalis (Castillo de Oberwiederstedt, Sajonia, en la actual Alemania, 2 de mayo de 1772 -
Weißenfels, 25 de marzo de 1801) fue un poeta alemán. Su nombre real era Georg Friedrich
Philipp Freiherr von Hardenberg. Se le suele encuadrar dentro del primer Romanticismo. Fuen-
te: http://es.wikipedia.org/wiki/Novalis 29 Fuente de la imagen: http://estadisticaydeporte.blogspot.com.ar/2011/10/nadadoras-de-
beijing-2008-mejores-las.html 30 Frank Wilcoxon (1892–1965) fue un químico y estadístico estadounidense conocido por el
desarrollo de diversas pruebas estadísticas no paramétricas.
Fuente: http://es.wikipedia.org/wiki/Frank_Wilcoxon. Imagen:
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
50 | P á g i n a
maños muestrales iguales (n1 = n2) y extendida a muestras de distintos tamaños
por Henry B. Mann31
y Donald R. Whitney32
en 1947, quienes también propor-
cionaron las primeras tablas de U, para resolver la prueba en el caso de mues-
tras pequeñas.
Frank Wilcoxon Henry B. Mann Donald R. Whitney
http://en.wikipedia.org/wiki/Frank_Wilcoxon 31 Henry Berthold Mann (1905- 2000) fue un profesor de matemáticas y estadística en la Uni-
versidad Estatal de Ohio. Mann demostró la conjetura Schnirelmann-Landau en la teoría de números, y como resultado obtuvo el Premio 1946 Cole. Él y su aún estudiante, Donal Whit-
ney, desarrolló el Mann-Whitney Test de las estadísticas no paramétricas. Mann publicó el
primer libro de matemática en el diseño de experimentos Mann (1949). Traducido de:
http://en.wikipedia.org/wiki/Henry_Mann. Imagen:
https://maikolsolis.wordpress.com/2012/04/08/convergence-probability-almost-surely-
continuous-mapping-
theorem/?relatedposts_hit=1&relatedposts_origin=2163&relatedposts_position=0 32 Donald Ransom Whitney (1915-2007), conocido por la famosa prueba estadística de Mann-
Whitney, nació en el este de Cleveland, Ohio, y celebró un BA de Oberlin College, una maestr-
ía en Matemáticas por la Universidad de Princeton, y un doctorado en Matemáticas por la Uni-
versidad Estatal de Ohio. Whitney se desempeñó como Presidente de Estadísticas durante los primeros ocho años de existencia del departamento, y continuó en el Departamento hasta su ju-
bilación. El profesor Whitney sirvió como consultor para varias empresas, especialmente tes-
timonió como testigo experto en casos de tasas de servicios públicos. Fue autor o coautor de
tres libros de texto de matemáticas y estadística. Fue nombrado becario de la Asociación Ame-
ricana de Estadística y la Asociación Americana para el Avance de la Ciencia. Fuente: extrac-
tado y traducido de http://sections.maa.org/ohio/ohio_masters/whitney.pdf . Imagen:
http://www.portalaction.com.br/964-t%C3%A9cnicas-n%C3%A3o-param%C3%A9tricas
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
51 | P á g i n a
LA PRUEBA DE WILCOXON-MANN-WHITNEY, PARA MUESTRAS
PEQUEÑAS
Diseño experimental
Esta prueba está basada en un diseño experimental de grupos independientes,
en el cual los sujetos de una población previamente definida se eligen al azar y
luego, aleatoriamente tales sujetos se dividen en dos o más grupos. El caso más
sencillo resulta cuando se trabaja con dos grupos. No existen un criterio prede-
finido para la formación de los grupos de sujetos y cada uno de ellos realiza la
prueba solo una vez. Un grupo se denomina experimental y el otro de control.
Al analizar los datos, tampoco existe un criterio para la formación de las pare-
jas de datos, sino que se establece una comparación razonable de las diferen-
cias entre los puntajes de los grupos.
Esta prueba estadística, es útil cuando las mediciones se pueden ordenar en es-
cala ordinal (es decir, cuando los valores tienden a una variable continua, pero
no tienen una distribución normal) y resulta aplicable cuando las muestras son
independientes. El procedimiento es una buena alternativa cuando no se puede
utilizar la prueba t de Student, en razón de no cumplir con los requisitos que la
misma exige.
Desarrollo
La prueba se utiliza para contrastar las ordenaciones de dos muestras de obser-
vaciones con el fin de decidir si representan o no poblaciones diferentes.
La prueba consiste en calcular la U de Mann-Whitney y luego compararla con
la U de las tablas de Mann-Whitney con el fin de tomar una decisión acerca de
la hipótesis nula. Las fórmulas que se utilizan para calcular la U de cada mues-
tra, para el caso de dos muestras, son las siguientes:
1 1
1 1 2 1
1
2
n nU n n R [Fórmula XXI.1]
2 2
2 1 2 2
1
2
n nU n n R [Fórmula XXI.2]
Donde:
U1 y U2, son los valores de la U de Mann-Whitney para cada muestra.
n1= Tamaño de la muestra del grupo 1.
n2= Tamaño de la muestra del grupo 2.
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
52 | P á g i n a
R1= Rangos33
o posiciones dentro del grupo 1.
R2= Rangos o posiciones dentro del grupo 2.
Procedimiento:
El procedimiento consiste en ordenar por rangos las dos muestras, como si se
tratara de una única muestra (esto con el fin de determinar un rango para cada
observación) y luego se suman los rangos de cada muestra para culminar apli-
cando las ecuaciones precedentes. En forma ordenada, el procedimiento radica
en:
1. Determinar el tamaño de las muestras (n1 y n2). Si n1 y n2 son menores
que 20, se consideran muestras pequeñas, pero si son mayores que 20,
se consideran muestras grandes.
2. Ordenar los datos en ―rangos‖, del menor al mayor valor. En caso de
que existan empates de rangos iguales, se deberán detectar para un ajus-
te posterior.
3. Calcular los valores de U1 y U2, para luego elegir el menor de ellos para
comparar con los U críticos que surgen de las tablas respectivas (Ver la
tabla que figura en el Anexo XXI, al final de esta unidad).
4. Decidir si se acepta o rechaza la hipótesis nula.
Ejemplo para muestras pequeñas
Un experimentador utiliza dos métodos para enseñar a soldar chapas de Zinc a
un grupo de 10 jóvenes del tercer año de una escuela industrial. El experimen-
tador quiere demostrar que el procedimiento ideado por él es más efectivo que
el tradicional. A tal fin, mediante un test de resultados mide la dureza, la elasti-
cidad y la ductilidad de la zona soldada.
El plan experimental preliminar consiste en elegir al azar tanto una muestra de
10 niños como el método por utilizar.
Elección de la prueba estadística.
El modelo experimental consta de dos muestras independientes. Las medicio-
nes revelan que no se satisfacen los requisitos para utilizar una media aritméti-
ca, en razón de que uno de los valores en cada muestra se aleja demasiado de
33
Aquí, el concepto de rango no es el que vimos al estudiar distribuciones de frecuencias, don-
de tenía el sentido de recorrido. En este caso, por rango se entiende el lugar que ocupa cada ob-
servación en una escala ordinal, teniendo en cuenta a tal fin, la existencia o no de puestos repe-
tidos.
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
53 | P á g i n a
las demás; por lo tanto, no corresponde a una escala de intervalo. Por tal moti-
vo se decide usar una escala ordinal.
Planteamiento de la hipótesis
Hipótesis alternativa (H1). Las calificaciones del grupo que ejecuta el
método alternativo son más altas que las observadas para el grupo que
ejecutó el método tradicional.
Hipótesis nula (H0). Las calificaciones del grupo que ejecuta el método
alternativo no son más altas que las observadas para el grupo que eje-
cutó el método tradicional. Por ende, las diferencias observadas entre
las calificaciones de ambos grupos se deben al azar.
Nivel de significación
Se decidió trabajar con un nivel de significación = 0,05.
Cantidad de colas
Teniendo en cuenta que la hipótesis alternativa es direccional, la evaluación es
de una cola.
Criterios de aceptación y rechazo
Para todo valor de Uobtenido menor o igual a Ucrítico se rechaza la H0 .
Para todo valor de Uobtenido mayor que Ucrítico se acepta la H0
Uobt. Ucrít.
Se rechaza la Hipótesis Nula (H0)
Uobt. > Ucrít.
Se acepta la Hipótesis Nula (H0)
Presentación de los datos
Método Calificaciones
Tradicional 80 85 25 70 90
Alternativo 95 100 93 110 45
Continúa…
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
54 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
55 | P á g i n a
Una hipótesis puede ser fructífera, no sólo para sus proponentes si no,
aún más, para conducir a otros nuevos avances.
Mario Bunge34
UNIDAD XXII
PRUEBAS PARAMÉTRICAS
PRUEBA Z35
PRUEBA Z
La prueba Z, se refiere a cualquier estadístico de prueba36
para el que la distri-
bución de tal estadístico bajo la hipótesis nula puede ser aproximada por una
distribución normal. Debido al teorema del límite central, muchas pruebas es-
tadísticas se corresponden aproximadamente a una distribución normal para
34 Mario Augusto Bunge (Florida Oeste, Buenos Aires, Argentina, 21/9/1919). Es un físico, filósofo, epistemólogo y humanista argentino. Bunge por encima de todo es un filósofo realista,
cientificista, materialista y sistemista, defensor del realismo científico y de la filosofía exacta.
Tras doctorarse en física y matemática en la Universidad Nacional de La Plata, fue profesor en
la UBA hasta 1962, cuando emigró a Canadá. Allí enseñó filosofía en la McGill University de
Montreal. 35
fuente de la imagen: http://definicion.de/hipotesis/ con intervención. 36 Estadístico de prueba: Es un valor, determinado a partir de la información de la muestra,
usado para decidir si debemos rechazar o no la hipótesis nula.
n ≥ 30
Varianza
Conocida
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
56 | P á g i n a
muestras grandes. Algo muy importante para esta prueba es que para cada nivel
de significación, la prueba Z tiene un único valor crítico (por ejemplo: 1,96 pa-
ra 5% y dos colas), que hace que sea más conveniente que la prueba de Student
que tiene valores críticos distintos para cada tamaño de la muestra. Por lo tanto,
muchas pruebas estadísticas pueden ser llevadas a cabo convenientemente co-
mo pruebas Z si el tamaño de la muestra es grande o la varianza de la pobla-
ción es conocida. Si la varianza de la población es desconocida (y por lo tanto
tiene que ser estimada a partir de la propia muestra) y el tamaño de la muestra
no es grande (n <30), la prueba t de Student puede ser más apropiada.
Los requisitos que tiene que cumplir la distribución para que pueda utilizarse la
prueba Z es que la varianza de la población sea conocida o que el tamaño n de
la muestra sea mayor o igual a 30.
La prueba Z puede ser utilizada en varias situaciones:
1. PRUEBA Z PARA UNA MUESTRA ÚNICA
1.1. PARA LA MEDIA: En vez de estimar el valor de un parámetro, a veces
se debe decidir si una afirmación relativa a un parámetro es verdadera o falsa.
Es decir, probar una hipótesis relativa a un parámetro o parámetros de una po-
blación. Cuando se supone que los parámetros de una población pueden haber
cambiado con el tiempo o por cualquier otra causa, se realiza una prueba con
muestra única. Se trabaja con datos numéricos.
Prueba Z
Muestra única
Para la Media
Para la proporción
Dos Muestras
Comparar medias
De poblaciones independientes
De poblaciones dependientes
Comparar proporciones
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
57 | P á g i n a
1.2. PARA LA PROPORCIÓN: Se utiliza cundo se requiere probar una hipó-
tesis acerca de la proporción de una población de valores ubicados dentro de
una categoría específica, en vez de probar la media poblacional. Se trabaja con
datos categóricos.
2. PRUEBA Z PARA DOS MUESTRAS
2.1. COMPARACIÓN DE MEDIAS: La comparación de medias se realiza
utilizando la distribución muestral de diferencias de medias.
2.1.1 COMPARACIÓN DE MEDIAS DE POBLACIONES INDEPEN-
DIENTES
Se requiere que las poblaciones que se comparan sean independientes entre sí.
2.1.2 COMPARACIÓN DE MEDIAS DE POBLACIONES DEPEN-
DIENTES
Cuando las poblaciones que se comparan son dependientes se dice que las po-
blaciones están relacionadas. Aquí se presentan dos modelos que utilizan datos
relacionados.
Caso a) En este modelo los individuos se aparean o emparejan de acuerdo a al-
guna característica.
Caso b) En este modelo se toman medidas repetidas para el mismo conjunto de
elementos o individuos. Por tal motivo los valores se presentan como Antes :
Después.
2.2. COMPARACIÓN DE PROPORCIONES: Se utiliza el método cuando
se requiere efectuar comparaciones entre las diferencias de proporciones de dos
muestras independientes.
PRUEBA Z PARA LA MEDIA. MUESTRA ÚNICA
Como dijimos, en vez de estimar el valor de un parámetro, a veces se debe de-
cidir si una afirmación relativa a un parámetro es verdadera o falsa. Es decir,
probar una hipótesis relativa a un parámetro de una población. Cuando se su-
pone que los parámetros de una población pueden haber cambiado con el tiem-
po o por cualquier otra causa, se realiza una prueba con muestra única.
La prueba de hipótesis para la media se utiliza cuando conociéndose la media
poblacional y la desviación estándar, se desea saber si una media muestral per-
tenece a dicha población. Es un método bastante utilizado en control de cali-
dad. Supongamos una máquina envasadora, sea de sólidos, como harina, arroz,
cereales, etc. o, de líquidos, como gaseosas, vinos, aceite, etc. La maquina se
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
58 | P á g i n a
programa para que el envase o la botella contenga una cantidad determinada
del producto.
Para saber si la maquina está funcionado adecuadamente, se toman muestras y
se calcula su media, la cual se contrasta con la media poblacional. Obviamente
la media muestral difícilmente coincida con la media poblacional, lo que se
desea saber si una media dada se puede considera que corresponde a la media
poblacional o no. En esta prueba, la media poblacional es conocida al igual que
su desviación estándar. En este caso, al conocerse , la distribución de mues-
treo adecuada es la distribución normal.
En la unidad XVI. al ver la distribución muestral de medias, vimos que el pun-
taje Z, era:
X
X
XZ
donde:
Xn
Reemplazando:
( )X X
X X nZ
n
La hipótesis nula, dice que todo funciona bien o que no han habido cambios, es
decir:
H0: X
La hipótesis alternativa, dice que la media muestral es distinta a la media po-
blacional, es decir que ha habido cambios:
H1: X
Veremos la aplicación de la prueba a través de un ejemplo.
Ejemplos para hipótesis alternativas bidireccionales (Dos colas)
Cuando utilizamos una hipótesis bidireccional, el intervalo de confianza se di-
vidía en dos partes iguales, la mitad para cada cola.
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
59 | P á g i n a
EJEMPLO XXII.1:
En una fábrica de envasado de cereales, se envasa maíz pisingallo en bolsas de
500 gr. Se conoce la desviación estándar que es de 23 gr.
El peso medio de una muestra de 25 unidades fue de 505 gr. A qué conclusión
llega con una hipótesis bidireccional de 0,05.
PASOS DESARROLLO
Preparación de la hipó-tesis nula y alternativa
La hipótesis nula dice que la media poblacional no ha
cambiado. Por ende: H0: =500
La hipótesis alternativa dice que la media poblacional no
es de 500 gr. Por ello: H1: 500
Seleccionar nivel de
significancia = 0,05
Determinar la distribu-ción muestral apropiada
y el estadístico de prue-
ba
Distribución Normal Estandarizada
.
( ) (505 500) 251,08
23
Xobt
X nZ
Determinar los valores
críticos Para (0,05; 2colas) Zcrit. = 1,96
Zona de rechazo de la
H0 - Zcrit. > Zobt. > Zcrit.
Zona de no rechazo de
la H0 - Zcrit. < Zobt.< Zcrit.
Continúa…
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
60 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
61 | P á g i n a
Aprender es descubrir que algo es posible
Fritz Perls37
UNIDAD XXIII
PRUEBAS PARAMÉTRICAS
PRUEBA t DE STUDENT
La distribución t de Student es una distribución de probabilidad asociada a la
distribución normal. Se utiliza cuando se quiere estimar la media de una pobla-
ción distribuida normalmente, pero la varianza poblacional es desconocida.
La historia del desarrollo de esta distribución de probabilidad es casi novelesca.
William Sealy Gosset38
era un matemático y químico inglés que después de
Friedrich Salomon Perls (8 de julio de 1893, Berlín, Alemania - 14 de marzo de 1970, Chicago,
Estados Unidos) conocido como Fritz Perls, médico neuropsiquiatra y psicoanalista, fue el
creador, junto con su esposa, Laura Posner, de la Terapia Gestalt. Debido a su origen étnico, y
a su vinculación con la Liga Antifascista,1 abandonó Alemania con la llegada del nazismo. Fu-
ente: http://es.wikipedia.org/wiki/Fritz_Perls 38 William Sealy Gosset (1876-1937). Estadístico británico. Empleado por la firma cervecera
Guinnes en Dublín, en 1.906 fue enviado por la empresa a trabajar con K. Pearson en el Uni-
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
62 | P á g i n a
terminar sus estudios comenzó a trabajar en las destilerías Guinness, la de las
famosas cervezas británicas39
, en el área de control de calidad.
Los bajos tamaños de muestra con los que habitualmente se le permitía trabajar
fueron los promotores de sus estudios y los que, finalmente, lo llevaron a des-
arrollar la distribución t. En 1908, cuando contaba con 32 años,
blicó el artículo ―el error probable de una media40
‖ en la revista
Biometrika, con el seudónimo de Student. El
motivo por el que Gosset utilizó tal seudóni-
mo, se refleja en varias versiones.
Una de ellas, y quizás la más difundida, es que
Guinness había sufrido anteriormente una fuga
de información por la publicación de un em-
pleado, por lo que prohibió a su plantilla publicar artícu-
los, independientemente de la temática del mismo. La
continuación de la historia depende de la fuente consulta-
da: algunas dicen que Gosset utilizó el seudónimo ―Stu-
dent‖ para que Guinness no descubriera que un empleado suyo había publicado
un artículo. Otras comentan que Gosset llegó a un acuerdo con la cervecera pa-
ra publicarlo (les convenció de que el contenido del artículo no sería útil para la
competencia), pero la empresa le pidió que usara un seudónimo para que el re-
sto de empleados no tuvieran conocimiento de dicha publicación.
Otra versión, que le sigue en credibilidad, dice que la utilización del seudónimo
Student se debió a que Guinness quería guardar en secreto que tenía a un es-
tadístico trabajando para ellos para que la competencia no tuviera constancia de
la ventaja industrial que estaba adquiriendo con ello. Todas estas cosas desvirt-
úan lo que muchos piensan que la estadística es algo aburrida.
Similarmente a lo que ocurre con la prueba Z, la prueba t de Student es aplica-
ble a tres escenarios:
Prueba t para una única muestra.
versity College de Londres, donde llevó a cabo sus principales contribuciones a la estadística,
publicadas bajo el pseudónimo de Student. Estudió el problema de la estimación para muestras
pequeñas, analizando la distribución del estadístico luego llamado t de Student. Fuente:
http://www.estadisticaparatodos.es/bibliografias/gosset.html. Fuente de la imagen:
http://es.wikipedia.org/wiki/William_Sealy_Gosset 39 Fuentes de la imagen: http://www.idyllica.es/es/guinness.html 40 The Probable Error of a Mean. Author(s): Student. Source: Biometrika, Vol. 6, No. 1 (Mar.,
1908), pp. 1-25 Published by: Biometrika Trust.
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
63 | P á g i n a
Prueba t para dos grupos relacionados.
Prueba t para dos grupos independientes.
DISTRIBUCIÓN MUESTRAL DE t
La distribución muestral de t, es una distribución de probabilidad de la totali-
dad de los valores que t puede adoptar si se consideran todas las posibles mues-
tras diferentes de tamaño fijo n, extraídas de la población de la H0. Esta distri-
bución proporciona:
los diferentes valores de t para muestras de tamaño n, y
la probabilidad de obtener cada uno de los valores si la muestra es alea-
toria, es decir extraída de manera aleatoria de la población de la hipóte-
sis nula.
Recordemos que la población de la hipótesis nula es el conjunto o conjuntos de
datos resultantes en el caso de que el experimento se realizase sobre toda la po-
blación y la variable independiente no tuviese ningún efecto. Se presentan va-
rias situaciones:
En el diseño de una muestra, es la población con conocida.
En el diseño de medidas replicadas, es la población de puntajes de dife-
rencia con D= 0 ó p= 0,5.
En un diseño de grupos independientes, existen tantas poblaciones co-
mo grupos y las muestras son muestras aleatorias extraídas de las po-
blaciones donde 1= 2= 3 =… = n.
Empíricamente, podemos deducir la distribución t considerando una población
específica de datos en crudo, extrayendo todas las posibles muestras diferentes
de tamaño n y calculando, para cada una de ellas, el valor de t.
Conocidos todos los valores de t, es muy sencillo calcular la probabilidad de
cada uno de ellos. Se puede ver que si la población de la hipótesis nula es nor-
mal, o bien si N > 30, la distribución t es muy similar a la distribución Z. Sin
embargo hay una gran diferencia: la distribución Z es única para cualquier ta-
maño de la muestra, mientras que la distribución t tiene tantas curvas como ta-
maños de la muestra o grados de libertad existan.
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
64 | P á g i n a
GRADOS DE LIBERTAD
Los grados de libertad41
de cualquier estadístico es la cantidad de datos que
pueden variar libremente al calcular dicho valor. Para entenderlo, pensemos en
la varianza. La varianza tiene asociados n-1 grados de libertad. Para entender
esto, analicemos la fórmula de la varianza muestral en su formato más simple:
2
2 1
1
n
i
i
X X
Sn
Cómo dijimos, esta ecuación está basada en n-1 grados de libertad. Esta afir-
mación resulta del hecho de que si bien S2 está basada en n valores:
1 2 3( );( );( );...( )nX X X X X X X X (n términos).
pero sus grados de libertad son uno menos que los términos. Esto surge de la
propiedad de la media que expresa que la suma de las diferencias de cada uno
de los datos con respecto a la media es igual a 0. Entonces, si especificamos los
valores de cualquieras de los n-1 valores, el valor restante queda automática-
mente definido. Supongamos una muestra con n= 4 (X1, X2, X3, X4) y
5X . Entonces si, por ejemplo:
1 3X X
2 1X X
3 1X X
Entonces, ¿cuánto valdría 4 ?X X
La solución es muy simple: Como ( iX X ) = 0, no cabe ninguna duda que
4 3X X y como 5X 4 8X . Vemos que esta solución surge au-
tomáticamente y solo tres de los 4 datos pueden variar libremente ya que el 4º
dato queda automáticamente definido. Por ello la desviación estándar, tiene n-1
grados de libertad. Un artículo muy interesante y didáctico para comprender el
significado de los grados de libertad, se puede encontrar en el Anexo XXIII.2.
41 En inglés: degrees of freedom.
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
65 | P á g i n a
LA DISTRIBUCIÓN Z y LAS DISTRIBUCIONES t. PARECIDAS PERO
DISTINTAS
La distribución t tiene las siguientes propiedades:
Es continua, tiene forma de campana y es simétrica respecto al cero
como la distribución Z.
Existe una familia de distribuciones t que comparten una media de ce-
ro, pero con desviaciones estándar diferentes.
La distribución t está más dispersa y es más plana en el centro que la
distribución Z, pero se acerca a ella cuando el tamaño de la muestra
crece y por ende también crecen sus grados de libertad.
Algunos valores críticos de Z y t para los niveles alfa de 0,05 y 0,01, para una
cola son:
Valores críticos de Z y t para los niveles alfa de 0,05 y 0,01, para una cola
Grados de li-
bertad (gl) Z0,05 t0,05 Z0,01 t0,01
5 1,645 2.015 2,325 3,365
30 1,645 1,697 2,325 2,457
60 1,645 1,671 2,325 2,390
1,645 1,645 2,325 2,325
La figura siguiente ilustra lo hasta aquí expuesto.
Continúa…
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
66 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
67 | P á g i n a
La diferencia entre el pasado, el presente y
el futuro es solo una ilusión persistente.
Albert Einstein
UNIDAD XXIV
EL CONTRASTE DE HIPÓTESIS Y LA
DIFERENCIA ENTRE VARIAS MEDIAS
EL ANÁLISIS DE VARIANZA42
Cada unidad que vamos estudiando nos permite aumentar el conocimiento so-
bre la investigación estadística, tan útil y necesaria para la toma de decisiones,
aunque, también genera algunas grietas que requieren seguir adentrándonos en
este maravilloso tema de las pruebas estadísticas.
Habíamos visto cómo aceptar o rechazar una hipótesis mediante la compara-
ción de las medias correspondientes a solo dos muestras.
Pero, siempre hay un pero: ¿Por qué las comparaciones tienen que ser tan ma-
niqueistas en un mundo tan amplio y heterogéneo?
42 Fuente de la imagen:
http://sphweb.bumc.bu.edu/otlt/MPH-Modules/BS/BS704_HypothesisTesting-
ANOVA/BS704_HypothesisTesting-Anova_print.html
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
68 | P á g i n a
De ahí surge la necesidad de comparar más de dos medias, muchas medias, tra-
tando de cubrir de una manera más efectiva a la población.
Si para tomar una decisión acerca de lo que opina la juventud sobre un deter-
minado tema podemos comparar, por ejemplo, las opiniones de los estudiantes
de dos universidades. Y aquí surge la pregunta: ¿porqué comparar las opinio-
nes de los estudiantes de solo dos universidades? ¿Por qué no agregamos las
opiniones de los jóvenes que trabajan en las fábricas, en los comercios o de los
que se dedican al arte?
Una pregunta que muy a menudo surge es por qué no comparar al conjunto de
muestras por pares. Por ejemplo, las muestras 1,2,3 y 4 generarían 6 pares de
muestras comparables:
Este procedimiento de calcular una serie de puntajes Z o razones t, no solo en-
traña un importante incremento en el tiempo de trabajo, sino que, y lo más im-
portante, incrementa la probabilidad de cometer errores Tipo I, es decir, el de
rechazar una hipótesis nula cuando, en realidad, debería haber sido confirmada.
Para superar este problema, necesitamos una prueba estadística que mantenga
al error α en un nivel constante y que nos permita decidir si existe una diferen-
cia significativa entre las distintas medias involucradas que necesitamos com-
parar.
A esta nueva prueba que aparece en la investigación estadística se la conoce
como Análisis de Varianza o ANOVA, como acrónimo de ANalysis Of VA-
riance.
FUNDAMENTOS DEL ANÁLISIS DE VARIANZA
Supongamos que tenemos k muestras aleatorias independientes, de tamaño n,
extraídas de una única población normal, tal como lo ejemplifica la Figura XXIV.1.
Muestra 1 vs. Muestra 2
Muestra 1 vs. Muestra 3
Muestra 1 vs. Muestra 4
Muestra 2 vs. Muestra 3
Muestra 2 vs. Muestra 4
Muestra 3 vs. Muestra 4
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
69 | P á g i n a
Con el fin de realizar un análisis de
varianza, vamos a calcular la varianza
total o varianza de la población a partir
de la suposición de que la variación
total de un conjunto de valores es
función de:
La variación dentro de los
grupos, es decir, la distancia entre los
valores de los datos en crudo de cada
grupo con respecto a su media. Solo
contribuye a ella la varianza dentro de
las muestras. En ingles, se la conoce
como MSW, el acrónimo de Mean
Square Within.Ver Figura XXIV.2.
La variación entre los grupos, es decir, la distancia entre las medias de los
distintos grupos. Solo contribuye a ella la varianza entre las distintas
muestras. En inglés se la conoce como MSB, el acrónimo de Mean Square
Between.Ver Figura XXIV.3.
Figura XXIV.2 Variación dentro de los grupos
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
70 | P á g i n a
Figura XXIV.3 Variación entre los grupos
MSWy MSB estiman la varianza poblacional para el caso de que las k muestras
provengan de la misma población.
Al igual de lo que sucedía con las diferencias
entre dos muestras, aquí también el análisis de
varianza produce un factor, llamado factor F, en
honor al matemático y estadístico ingles Ronald
Aylmer Fisher43
, que fue quien lo desarrolló.
Finalmente, al igual de lo que sucedía con la
razón t, este factor F obtenido finalmente se
compara con el factor F de tablas, o valor crítico
de F. A tal fin, utilizaremos la Tabla de Valores
críticos de la distribución F de Fisher, que se
muestra en el Anexo XXIV, al final de la
unidad.
Cuanto mayor es la diferencia entre la F obtenida
y la Fcrítica que surge de la tabla, mayor será la
probabilidad de rechazar la H0y aceptar la HA. Ya volveremos sobre estos
conceptos.
43 Fuente de la imagen: http://lacienciaysusdemonios.com/2010/01/27/especiacion-en-ranas-4-
%C2%A1y-la-especie-se-hizo/
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
71 | P á g i n a
LAS SUMATORIAS DE CUADRADOS
Sumar cuadrados es casi el concepto paradigmático del análisis de varianza que,
recordemos, en su origen surge como una ―trampita‖ estadística para eliminar los
signos negativos en el cálculo de la desviación estándar y que da lugar al
nacimiento del concepto de varianza. Recordemos que, en la Unidad VII del Tomo
I, a la suma de cuadrados la designábamos por su acrónimo SC.
En este método que se utiliza para descartar o no la hipótesis nula cuando estamos
en presencia de más de dos muestras de una misma población, la suma de
cuadrados no se refiere a la suma de los cuadrados de valores individuales, sino a la
suma de diferencias, sean de valores en bruto con sus medias ( X X ) o de las
medias de varias muestras entre sí (1 2X X ) elevadas al cuadrado.
Con esto ya nos percatamos, que trabajaremos con tres tipos de cuadrados:
La suma de cuadrados entre grupos o SCentre.
La suma de cuadrados dentro del grupo o SCdentro.
La suma total de cuadrados o SCtotal.
Esta diferencia entre ―entre” y ―dentro” es a lo que se refiere el inglés cuando
habla de:
Mean Square Within, y
Mean Square Between,
dos términos bastante difíciles de traducir, pero muy sencillos de entender.
A los fines de ir analizando en detalle estos conceptos y, a la vez, seguir avanzando
en el desarrollo del análisis de varianza, plantearemos ejemplos que iremos
desarrollando en forma paralela con la teoría.
EJEMPLO XXIV.1
El entrenador del equipo de alta competición en canotaje de un país
latinoamericano, que está preparando al equipo que competirá en las próximas
olimpiadas de Río de Janeiro 2016, quiere establecer las diferencias que tres
métodos distintos de entrenamiento producen sobre el rendimiento de sus remeros.
Continúa…
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
72 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
73 | P á g i n a
La prueba de toda verdad reside,
sencillamente, en su eficacia.
William James44
UNIDAD XXV
OTRAS PRUEBAS NO PARAMÉTRICAS: CHI CUADRADO;
MEDIANA; WILCOXON; KRUSKAL-WALLIS; FRIEDMAN45
Los métodos presentados en los capítulos anteriores, se basaban en el cono-
cimiento de las distribuciones muestrales de las diferencias de porcentajes o
promedios, cuando las muestras provenían de una misma población. Se
aceptaba entonces usar la aproximación normal, la distribución de t de Stu-
dent o la distribución F de Fisher en el análisis de varianza, bajo el supuesto
44 William James (Nueva York, 1842-Chocorua, 1910): Psicólogo y filósofo norteamericano.
Hermano mayor del novelista Henry James e hijo de otro Henry, notable filósofo seguidor de
Swedenborg. Es el pensador norteamericano moderno más apreciado y admirado. Fuente:
http://www.biografiasyvidas.com/biografia/j/james.htm 45 Fuente de la imagen: http://cienciasdejoseleg.blogspot.com.ar/2014/01/aplicacion-de-la-chi-
cuadrado-ejemplo.html
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
74 | P á g i n a
de que la hipótesis nula sea cierta. Dado que en esos métodos se estiman los
parámetros de las poblaciones de origen, esas técnicas estadísticas reciben el
nombre de ―paramétricas‖.
Hay situaciones en que, por el escaso número de observaciones, o por el ni-
vel de medición de las variables, no es correcto o no es posible hacer su-
puestos sobre las distribuciones muestrales subyacentes.
En tales casos se usan los métodos ―no paramétricos‖ o de distribución libre.
PRUEBA CHI CUADRADO (2) DE PEARSON
Prueba de bondad de ajuste para el caso de experiencias con una variable
Existen diferentes pruebas para verificar el ajuste de nuestros datos a una dis-
tribución de probabilidad. Las dos más utilizadas son el contraste 2de Pearson,
y la prueba de Kolmogorov-Smirnov.
Nosotros veremos la primera de las nombradas, es decir la de Pearson.
Esta prueba de hipótesis se utiliza para comparar la posible diferencia entre las
frecuencias observadas (Fo) en la distribución de una variable con respecto a
las frecuencias esperadas (Fe).
Una prueba de bondad de ajuste es la que trata de determinar si los datos co-
rrespondientes a dos o más muestras aleatorias provienen de la misma pobla-
ción y se ajustan bien entre sí. De allí el término ―bondad de ajuste‖
Esta técnica, a la que algunos autores denominan
Ji-cuadrado,46
se ha utilizado ampliamente cuando
el investigador no dispone de datos expresados en
escalas ordinales, ni de intervalo, ni de razón, y es
debida a Karl Pearson47
. Esto quiere decir que esta
técnica se utiliza cuando el investigador debe mane-
jar datos nominales, y no por ello debemos creer
que este escenario es una excepción. Las experien-
cias con datos nominales son muy usuales en el
ámbito de las ciencias sociales, como la Psicología,
la Sociología, las Ciencias Políticas, la Educación,
el Trabajo Social, la Seguridad, por nombrar solo algunas. Como venimos
46 N del A: La letra griega χ se transcribe al latín como chiy se pronuncia en castellano como ji. 47Karl Pearson (1857-1936). Prominente científico, matemático y pensador británico, que esta-
bleció la disciplina de la Estadística Matemática. Desarrolló una intensa investigación sobre la
aplicación de los métodos estadísticos en la Biología y fue el fundador de la Bioestadística.
Fuente: http://www.sld.cu/galerias/pdf/sitios/bioestadistica/karl_pearson.pdf Fuente de la ima-
gen: https://library.missouri.edu/exhibits/eugenics/pearson.htm
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
75 | P á g i n a
haciendo en muchas unidades del libro, iremos mostrando la utilización y desa-
rrollo del método paralelamente a la resolución de un ejercicio.
Las experiencias con una variable son muy comunes y habituales en los pro-
blemas de elección entre distintas marcas de un mismo producto. El tema que
el investigador desea resolver en este caso está referido a si las personas con-
sumen un determinado producto basándose en sus preferencias.
Imaginemos que a un conjunto de trasnochados consumidores de whisky se les
ofrece elegir, solo por su paladar, cuál es el whisky que más les agrada. Ob-
viamente, el consumidor, es decir, el experimentador en esta experiencia, no
conoce las marcas del producto que está degustando, el cual se encuentra ser-
vido en cuatros vasos iguales solo rotulados con una letra carente de significa-
do.
Se elige la zona de la peatonal Reconquista cercana a Catalinas, en la ciudad de
Buenos Aires, donde existe una gran cantidad y variedad de pubs donde concu-
rren los conspicuos catadores de las tardecitas porteñas.
Sin esmerarse demasiado, nuestro investigador reunió aleatoriamente 200 inte-
resados en el test. Las marcas de los whiskies se denominaron X, Y, W y Z, y
los resultados obtenidos fueron los que se muestran en la Tabla XXV.1.
Tabla XXV.1. Test de preferencia para bebedores de whisky
Preferentes de la marca X
Preferentes de la marca Y
Preferentes de la marca W
Preferentes de la marca Z
Total
42 personas 53 personas 46 personas 59 personas 200 personas Celda 1 Celda 2 Celda 3 Celda 4
Las hipótesis que se plantean en esta prueba son:
H0: F0 = Fe
H1: F0 Fe
La H0 para este experimento es que en la población, no existe diferencia en la
preferencia por las diversas marcas de whisky. Para poder comprobar o recha-
zar esta hipótesis nula, utilizaremos la prueba chi cuadrado (2). Como buen
método no-paramétrico, se basa en la ordenación y el conteo, es decir, se mane-
ja con frecuencias absolutas. A tal fin, utiliza dos tipos de frecuencias absolu-
tas:
La observada, es decir, la que surge del test, que denominaremos Fo
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
76 | P á g i n a
La esperada, que es la que surgiría si se cumpliese la hipótesis nula y
que denominamos Fe
La fórmula del factor chi cuadrado es:
2
2
.
o e
obt
e
F F
F [Fórmula XXV.1]
La sumatoria se realiza sobre cada una de las celdas. La hipótesis nula supone
que no existe diferencia en la preferencia, por lo que las cuatro Fe deberían ser
iguales. Por lo tanto, 200
504
eF
Reemplazando valores en la Fórmula XXV.1, obtenemos:
2 2 2 2
2
.
42 50 53 50 46 50 59 50 1703,4
50 50 50 50 50obt
Cálculo de X2
crit.y evaluación de X2
obt.
La distribución chi cuadrado teórica (2) en función de distintos grados de li-
bertad, se muestra en la Figura XXV.1. De forma muy similar a lo que sucedía
con la distribución t de Student, esta distribución consta de una familia de cur-
vas que varían con los grados de libertad. Se trata de curvas sesgadas positiva-
mente, sesgo que es extremadamente acentuado para valores de k hasta ≌ 3,
muy acentuado para valores de k hasta 6, y a partir de allí el sesgo es cada vez
menor y se convierte en prácticamente imperceptible a partir de k =10. De gl10
en adelante, la distribución es casi normal, pero muy platicúrtica. Aquí, con la
letra k se representan los grados de libertad gl.
La Tabla del Anexo XXV.1, nos muestra los valores críticos de la distribución
Chi cuadrado 2
para distintos niveles de confianza (α) y en función de los gra-
dos de libertad que, en definitiva, caracterizan la forma de la distribución. El
valor de chi cuadrado representa el área bajo la curva que va más allá (hacia la
derecha) del valor X2crit.La interpretación es muy similar a la de la curva nor-
mal.
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
77 | P á g i n a
Figura XXV.1.Distribución chi cuadrado
Fuente: https://es.wikibooks.org/wiki/Archivo:Distribuci%C3%B3n_Chi-cuadrado.svg
Chi cuadrado, esencialmente, es una medida de la diferencia entre Fo y Fe, es
decir, de la discrepancia o falta de ajuste entre ambos valores. Cuanto mayor
sea la discrepancia, al estar el numerador elevado al cuadrado en la fórmula
XXV.1, mayor será el valor de X2
crit. Esto quiere decir que cuando X2
ob. >X2
cri.
o, lo que es lo mismo, cuandoX2obt. queda dentro del área crítica, menos razo-
nable será la H0 y la debemos rechazar. Viceversa, cuando X2obt. < X
2crit., la H0
deberá ser aceptada. La Figura XXV.2 muestra lo que estamos explicando en
referencia al ejemplo que tratamos en paralelo.
Figura XXV.2. Distribución X
2 para gl = 3 y nivel de confianza 0,05
mostrando los resultados del ejemplo que estamos viendo.
Continúa…
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
78 | P á g i n a
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
79 | P á g i n a
1. ALONSO, Alberto A. (2013). ¿De qué hablamos cuando hablamos de
Estadística? Tomo I. Estadística Descriptiva. Buenos Aires, Ediciones
anticipar
2. CASTEX, Ricardo B. y VIGNALI, Carlos E. (2006). Predicción es-
tadística en condiciones de incertidumbre. Buenos Aires, Ed. Alsina.
3. CERNUSCHI, Felix y GRECO, Francisco I. 1968. Teoría de errores y
mediciones. Buenos Aires. Eudeba.
4. COHEN, Jacob. (1988). Statistical Power Analysis for the Behavioral
Sciences. 2nd Ed. New Jersey, Lawrence Erlbaum Associates Publish-
ers.
5. GARCÍA FERRANDO, M. (1980). Introducción a la estadística en so-
ciología. Madrid. Ed. Alianza
6. GOODMAN Leo A. (1961). Snowball Sampling. Annals of Mathemat-
ics Statistics. Volume 32, Number 1
7. KURINCIC, Gabriela. (2001). Estadística: Herramientas de inferencia.
Buenos Aires, Ediciones corporativas.
8. LEVIN, Jack y LEVIN, William C (2004). Fundamentos de estadística
en la investigación social. México D.F. Alfaomega Grupo Editor.
9. LEVINE, David M, et ál. (2006). Estadística para administración.
México, Pearson Prentice Hall
10. LIPSCHUTZ, Seymour.1995. Probabilidad. México, McGRAW-Hill
11. PAGANO, Robert R. (1998). Estadística para las ciencias del compor-
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
80 | P á g i n a
tamiento. 5ª Ed. México, International Thomson Editores
12. SIEGEL, Andrew F. (1988). Statistics and Data Analysis. An introduc-
tion. N. York. Wiley
13. SIERRA BRAVO, Restituto. (1994). Análisis estadístico multivaria-
ble. Teoría y Ejercicios. Madrid. Paraninfo
14. SIERRA BRAVO, Restituto. (1983). Muestras en Técnicas de investi-
gación social. Teoría y ejercicios. Madrid, Paraninfo
.
15. STUDENT (William Sealey Gosset). 1908. The Probable Error of a
Mean. Biometrika Trust, Vol. 6, No. 1
16. VARGAS SABADIAS, Antonio (1995). Estadística descriptiva e infe-
rencial. Cuenca. Servicio de publicaciones de la Universidad de Casti-
lla, La Mancha.
17. WALPOLE, Ronald E. (2007). Probabilidad y estadística para ingenier-
ía y ciencias. México, Pearson Prentice Hall.
¿DE QUÉ HABLAMOS CUANDO HABLAMOS DE ESTADÍSTICA?
81 | P á g i n a
No todo término merece el nombre de fin, sino tan solo el que es óptimo
Sigmund Freud