ESTADISTÍCA - Ozono Centro de Estudios | … · ... tornillos correctos o ... que se esta...
Transcript of ESTADISTÍCA - Ozono Centro de Estudios | … · ... tornillos correctos o ... que se esta...
ESTADISTÍCA 1. Población, muestra e individuo
Las características de una distribución se pueden estudiar directamente sobre la población o se pueden inferir a partir de l estudio de una muestra.
Población estadística es el conjunto de todos los elementos objeto de un estudio estadístico. Por ejemplo: el conjunto de todos los tornillos producidos diariamente por un fabricante.
Muestra es un subconjunto, extraído de la población, cuyo estudio sirve para inferir características de toda la población. Por ejemplo: 1000 de esos tornillos cuyas características (longitud, correcto/defectuoso, nº de pasos de rosca, etc.) van a ser estudiadas para inferir características del total de los producidos.
Individuo es cada uno de los elementos que forman la población o la muestra.
Por ejemplo: cada uno de los tornillos producidos es un individuo. 2. Variables estadísticas
Son los caracteres objeto del estudio estadístico.
Las variables pueden ser:
• Cuantitativas: numéricas
- Discretas: sólo pueden tomar varios valores. Por ejemplo: nº de pasos de rosca de un tornillo, nº de hermanos, etc.
- Continuas: pueden tomar todos los valores en un intervalo. Por ejemplo: longitud de un tornillo, estatura de una persona, etc.
• Cualitativas: no numéricas. Por ejemplo: tornillos correctos o defectuosos, estudios universitarios que pueden realizarse, etc.
3. El proceso que se sigue en estadística
1º Determinar lo que se quiere estudiar. 2º Seleccionar y acotar las variables que se van a analizar. 3º Recolectar los datos. 4º Organizar los datos. 5º Elaborar tablas y gráficas. 6º Obtener parámetros.
4. Tablas de frecuencias
Una vez recogidos los datos, hay que tabularlos; es decir hay que elaborar una tabla en la que aparezcan bien organizados los valores de la variable que se esta analizando y el número de individuos que toma cada valor o cada intervalo de valores. Es lo que se llama una tabla de frecuencias.
Frecuencia absoluta (frecuencia) es el número de individuos correspondiente a cada valor o a cada intervalo de valores de la variable.
5. Gráficos estadísticos
Son representaciones que permiten visualizar fácilmente la información estadística recogida.
Los gráficos de uso más frecuente son:
Diagrama de barras se utiliza para representar tablas de frecuencias correspondientes a variables cualitativas o cuantitativas discretas. Las barras son estrechas y se sitúan sobre los valores puntuales de la variable.
Histograma se utiliza para representar tablas de frecuencias correspondientes a variables cuantitativas continuas y también para las cuantitativas discretas cuando toman gran número de valores y se tabulan agrupándolos en intervalos.
Polígono de frecuencias se obtiene al unir los puntos medios de los lados superiores de las barras (en un diagrama de barras) o de los lados superiores de los rectángulos (en un histograma).
• También pueden representarse diagramas de barras, histogramas y polígonos de frecuencias acumuladas.
Diagrama de sectores se utiliza para representar tablas de frecuencias correspondientes a cualquier tipo de variable. El ángulo de cada sector es proporcional a la frecuencia. Diagrama de barras Histograma Diagrama de sectores y polígono de frecuencias y polígono de frecuencias
Otras representaciones gráficas: Pirámides de población Cuando se realizan representaciones correspondientes a edades de población, cambiamos el eje Y por el eje X para obtener las llamadas pirámides de población, que no son más que 2 histogramas a izquierda y derecha, para hombres y mujeres.
Ejemplo:
Pictogramas Son gráficos con dibujos alusivos al carácter que se está estudiando y cuyo tamaño es proporcional a la frecuencia que representan; dicha frecuencia se suele representar.
Ejemplo:
Padrón Municipal de Habitantes a 1 de Enero de 2005.
Habitantes de cada una de las 8 provincias de Andalucía. Cartogramas Son gráficos realizados sobre mapas, en los que aparecen indicados sobre las distintas zonas cantidades o colores de acuerdo con el carácter que representan.
Ejemplo Urbanización en el mundo atendiendo a la industrialización
6. Parámetros estadísticos
Los parámetros estadísticos sirven para sintetizar la información y permiten apreciar con rapidez y eficacia las características más relevantes de una determinada distribución.
Parámetros o medidas de centralización Indican en torno a que valor (centro) se distribuyen los datos. • Media o promedio, es el promedio de los datos de la distribución.
Se calcula así: Nx
x i∑= y cuando los datos están en tablas de frecuencias:∑
∑=i
ii
ffx
x
• Moda: valor con mayor frecuencia.
• Mediana: valor que ocupa el lugar central.
Parámetros o medidas de dispersión Informan sobre cuánto se alejan del centro los valores de la distribución, es decir sirven para medir cómo de dispersos están los datos. En todos ellos la idea clave es medir el grado de separación de los datos de la media.
• Desviación media: es el promedio de las distancias de los datos a la media.
Se calcula así: N
xx.M.D i∑ −
= , ∑
∑ −=
i
ii
f
fxx.M.D
↑ en tablas de frecuencias
• Varianza: es el promedio de los cuadrados de las distancias de los datos a la media.
Se calcula así:
( )
−∑=
∑ −=
22i
2
i
xNx
V
Nxx
V
( )
−∑
∑=
∑
∑ −=
2
i
i2i
i
i
2
i
xffx
V
ffxx
V
↑ en tablas de frecuencias
• Desviación típica: es la raíz cuadrada de la varianza. V=σ
• Rango o recorrido: Diferencia entre el valor mayor y el menor. Es decir, la longitud del tramo donde están los datos.
Coeficiente de variación Sirve para comparar la dispersión de dos poblaciones heterogéneas.
Se calcula así: x
.V.Cσ=
Al dividir la desviación típica entre la media se está relativizando la dispersión. El resultado se da, a veces en tantos por ciento.
Ejemplo 1 TABLA DE FRECUENCIAS Notas obtenidas por un grupo de alumnas:
9, 4, 8, 5, 5, 4, 1, 7, 2, 2, 3, 9, 6, 4, 10, 8, 2, 1, 6, 7, 6, 10, 10, 8, 8, 4, 6, 5, 5, 10, 6, 7, 2, 5, 5, 3, 5, 3, 6, 8.
Variable
Notas
Frecuencia
Nº alumnas
x i
f i
1 2 3 4 5 6 7 8 9 10
2 4 3 4 7 6 3 5 2 4
40
DIAGRAMA DE BARRAS Y POLÍGONO DE FRECUENCIAS ABSOLUTAS
0
1
2
3
4
5
6
7
8
1 2 3 4 5 6 7 8 9 10NOTAS
Nº
DE
AL
UM
NA
S
Ejemplo 2 TABLA DE FRECUENCIAS. DATOS AGRUPADOS POR INTERVALOS Tallas de un grupo de alumnas:
168,160,168,175,175,168,168,158,149,160,178,169,158,163,171,162,165,163,156,174,160,165,154,163,165,161,162,166,163,159,170,165,150,167,164,165,173,172,168,168.
Variable en intervalos
Tallas
Frecuencia
Nº alumnas
L i-1-Li f i
[[[[148,5-153,5) [[[[153,5-158,5) [[[[158,5-163,5) [[[[163,5-168,5) [[[[168,5-173,5) [[[[173,5-178,5)
2 4 11 14 5 4
40
Ejemplo 3 PARÁMETROS ESTADÍSTICOS Sea la siguiente distribución de notas: 2, 4, 4, 4, 5, 7, 9, 9,10. Calcular las medidas de centralización y de dispersión
Medidas de centralización
Media aritmética: Nx
x i∑∑∑∑==== 69
549
1099754442x ==++++++++=
Moda: valor con mayor frecuencia Moda = 4 Mediana: valor que ocupa el lugar central Mediana = 5 (lugar 5º)
Medidas de dispersión Recorrido o rango: Diferencia entre el valor mayor y el menor 10 − 2 = 8
Varianza:
(((( ))))
−−−−∑∑∑∑====
∑∑∑∑ −−−−====
22i
2
i
xNx
V
Nxx
V
( ) ( ) ( ) ( )
11,79
3886
910...442
V
7,11964
916...4416
9
610...646462V
22222
2222
==−++++=
==++++=−++−+−+−=
Desviación típica: V====σσσσ 67,211,7 ==σ
Desviación media: N
xx.M.D i∑∑∑∑ −−−−
====
2,44922
94...224
9
610...646462.M.D ==++++=
−++−+−+−=
Coeficiente de variación: x
.V.Cσσσσ==== 0,444
667,2
.V.C == ; 4,44 %
Ejemplo 4 PARÁMETROS ESTADÍSTICOS xi fi xi fi xi −−−− x xi −−−− x fi xi
2 xi2fi xi −−−− x 2 xi −−−− x 2fi
4 5 6 7 8 9
1 10 14 5 2 1
4 50 84 35 16 9
2 1 0 1 2 3
2 10 0 5 4 3
16 25 36 49 64 81
16 250 504 245 128 81
4 1 0 1 4 9
4 10 0 5 8 9
33 198 24 1224 36
Medidas de centralización
Media aritmética: ∑∑∑∑
∑∑∑∑====i
ii
ffx
x 633
198x ==
Moda: valor con mayor frecuencia Moda = 6 Mediana: valor que ocupa el lugar central Mediana = 6 (lugar 17º)
Medidas de dispersión Recorrido o rango: Diferencia entre el valor mayor y el menor 9 − 4 = 5
Varianza:
(((( ))))
−−−−∑∑∑∑
∑∑∑∑====
∑∑∑∑
∑∑∑∑ −−−−====
2
i
i2i
i
i
2
i
xffx
V
ffxx
V
1,091 633
1224 V
1,091 3336
V
2 =−=
==
Desviación típica: V====σσσσ 044,1091,1 ==σ
Desviación media: ∑∑∑∑
∑∑∑∑ −−−−====
i
ii
f
fxx.M.D 0,727
3324
.M.D ==
Coeficiente de variación: x
.V.Cσσσσ==== 0,174
6044,1
.V.C == ; 17,4 %
Ejemplo 5 PARÁMETROS ESTADÍSTICOS DATOS AGRUPADOS EN INTERVALOS
Marcas de clase = 2
LL i1i ++++−−−−
↓↓↓↓ Li-1-Li fi xi xi fi xi −−−− x xi −−−− x fi xi
2 xi2fi xi −−−− x 2 xi −−−− x 2fi
[[[[148,5-153,5) [[[[153,5-158,8) [[[[158,5-163,5) [[[[163,5-168,5) [[[[168,5-173,5) [[[[173,5-178,5)
2 4 11 14 5 4
151 156 161 166 171 176
302 624 1771 2324 855 704
13,5 8,5 3,5 1,5 6,5 11,5
27 34
38,5 21
32,5 46
22801 24336 25921 27556 29241 30976
45602 97344 285131 385784 146205 123904
182,25 72,25 12,25 2,25 42,25 132,25
364,5 289
134,75 31,5
211,25 529
40 6580 199 1083970 1560
Medidas de centralización
Media aritmética: ∑∑∑∑
∑∑∑∑====i
ii
ffx
x 5,16440
6580x ==
Intervalo modal: intervalo con mayor frecuencia Intervalo modal: [163,5-168,5) Intervalo mediano: intervalo que ocupa el lugar central Intervalo mediano: [163,5-168,5) (lugares 20º y 21º)
Medidas de dispersión Recorrido o rango: Diferencia entre el valor mayor y el menor 176 − 151 = 25
Varianza:
(((( ))))
−−−−∑∑∑∑
∑∑∑∑====
∑∑∑∑
∑∑∑∑ −−−−====
2
i
i2i
i
i
2
i
xffx
V
ffxx
V
395,16440
1083970 V
3940
1560V
2 =−=
==
Desviación típica: V====σσσσ 245,639 ==σ
Desviación media: ∑∑∑∑
∑∑∑∑ −−−−====
i
ii
f
fxx.M.D ,9754
40199
.M.D ==
Coeficiente de variación: x
.V.Cσσσσ==== 038,0
5,164245,6
.V.C == ; 3,8 %
Ejemplo 6 COEFICIENTE DE VARIACIÓN Los pesos de los toros de lidia de una ganadería se distribuyen con una media de x = 500 Kg y una desviación típica σ = 40 Kg. Los pesos de los perros de una exposición canina tienen una media de x = 20 Kg y una desviación típica σ = 10 Kg.
La desviación típica de los pesos de la manada de toros bravos (40 Kg) es superior a la de los perros (10 Kg). Sin embargo, los 40 Kg son poca cosa para el enorme tamaño de los toros es decir, los toros de esa manada son muy parecidos en peso), mientras que 10 Kg es mucho en relación con el peso de un perro. En este caso la desviación típica no es una mediada adecuada para comparar dispersiones. Por ello, se define otro parámetro estadístico, el coeficiente de variación, que permite comparar la dispersión en poblaciones heterogéneas.
x
σ C.V. = xσσσσ
%
Toros 500 40 0,08 8 Perros 20 10 0,50 50
De este modo se aprecia claramente que la variación de los pesos de los perros (50 % ) es mayor que la de los pesos de los toros (8 %)
Ejemplo 7 INTERPRETACIÓN DE LOS PARÁMETROS ESTADÍSTICOS El estudio realizado sobre las altura de los jugadores de tres equipos de baloncesto A, B, C, se encuentran reflejados en los gráficos siguientes, sus parámetros estadísticos figuran en la tabla adjunta. Se trata de asociar cada gráfico con el equipo correspondiente
Solución: El gráfico nº 2 muestra una gran dispersión y media baja: corresponde al equipo C. La media más alta y menos dispersa es la del gráfico nº 3: corresponde al equipo A. El gráfico nº 1 tiene una media y una dispersión comprendida entre las dos anteriores: corresponde al equipo B.
Unidad 12. Estadística
So 12¿Conoces la terminología básica de la estadística?: individuo, población, muestra, tipos de variables?
1 Indica, para cada caso, cuáles son los individuos, cuál la población, cuál la variable y de qué tipo es:
• Número de almendras que hay en cada tableta de chocolate de una producción.
• Tiempo de espera de cada paciente en una consulta de un centro de salud.
• Tipo de especialista al que acuden los pacientes a un centro de salud.
• Individuo: una tableta. Población: producción de tabletas. Variable: número de almen-dras por cada tableta. Tipo de variable: cuantitativa discreta.
• Individuo: un paciente. Población: pacientes del centro de salud. Variable: tiempo de espera. Tipo de variable: cuantitativa continua.
• Individuo: un paciente. Población: pacientes del centro de salud. Variable: tipo de espe-cialista. Tipo de variable: cualitativa.
2 Para estudiar el “número de almendras que hay en cada tableta de chocolate” de una cierta producción, se analiza una de cada 200 producidas un cierto día.
Las tabletas analizadas, ¿son población o muestra?
Las tabletas analizadas son una muestra, ya que no se analizan todas, solo una de cada 200. Si se analizara toda la población, posiblemente se estropearían todas las tabletas.
¿Sabes elaborar e interpretar tablas y gráficas estadísticas?
3 Tiempo, en minutos, que pasaron en la sala de espera los pacientes de un médico cierto día:
28 4 12 35 2 26 45 22 6 23
27 16 18 32 8 47 8 12 34 15
28 37 7 39 15 25 18 17 27 15
Haz una tabla, repartiéndolos en intervalos de extremos 0 - 10 - 20 - 30 - 40 - 50.
Representa los resultados mediante un grá� co adecuado (diagrama de barras o histo-grama).
INTERVALO fi
0-10 6
10-20 9
20-30 8
30-40 5
40-50 2
30 10001
20 30 40 50
23456789
Unidad 12. Estadística
Solu a la Autoevaluación124 Número de días que han ido a la biblioteca del Centro los alumnos de un curso:
3 1 2 4 0 2 1 3 1 0 2 0 3 5 2
0 2 4 1 2 1 2 0 5 3 3 1 2 1 0
Haz una tabla de frecuencias y representa los resultados mediante un grá� co adecua-do (diagrama de barras o histograma).
xi 0 1 2 3 4 5fi 6 7 8 5 2 2 30
1 2 3 4 50012345678
¿Sabes estimar, calcular e interpretar los parámetros estadísticos?
5 Halla media, mediana, desviación media, desviación típica y coe� ciente de variación de esta distribución:
6 9 1 4 8 2 3 4 4 9
Ordenamos primero los datos: 1 2 3 4 4 4 6 8 9 9
: x– = 1 + 2 + 3 + 4 · 3 + 6 + 8 + 9 · 210
= 5
= 4
DESVIACIÓN MEDIA: DM = §1 – 5§ + §2 – 5§ + §3 – 5§ + …10
= 2410
= 2,4
: 12 + 22 + 33 + 42 · 3 + 62 + 82 + 92 · 210
– 52 = 32410
– 25 = 7,4
DESVIACIÓN TÍPICA: q = √7,4 ≈ 2,72
6 Calcula x–, q y C.V. de las distribuciones…
a) …del ejercicio 4. b) …del ejercicio 3.
a)
: x– = 5630
≈ 1,87
DESVIACIÓN TÍPICA: q = √ 16630
– 1,872 ≈ 1,43
a)
xi fi fi · xi fi · xi2
012345
678522
07
16158
10
07
32453250
30 56 166
COEFICIENTE DE VARIACIÓN: C.V. = qx–
= 1,431,87
≈ 0,7647
Pág. 2
Unidad 12. Estadística
12b)
b)INTERVALO xi fi fi · xi fi · xi
2
0-1010-2020-3030-4040-50
515253545
69852
3013520017590
1502 0255 0006 1254 050
30 630 17 350
: x– = 63030
≈ 21
DESVIACIÓN TÍPICA: q = √ 17 35030
– 212 ≈ 11,72
COEFICIENTE DE VARIACIÓN: C.V. = qx–
= 11,7221
≈ 0,56
7 Se ha hecho un mismo examen en dos clases, A y B, de 30 alumnos cada una. Sus me-dias y sus desviaciones típicas son: x–A = 6, qA = 1, x–B = 6, qB = 3.
a) Asigna una de estas tres grá� cas a A y otra a B.
0 5 10 0 5 10 0 5 10
b) En una de las clases hay 11 suspensos y 4 sobresalientes, mientras que en la otra hay 5 suspensos y 1 sobresaliente. ¿Cuál es A y cuál es B?
c) Si M.ª José necesita sacar sobresaliente y Alfredo se conforma con aprobar, ¿qué clase te parece más adecuada para cada uno de ellos?
a) La clase A corresponde a la primera gráfi ca, ya que está centrada en el 6 y tiene una des-viación típica pequeña (q = 1).
La clase B corresponde a la tercera gráfi ca, ya que su desviación típica es muy alta y tam-bién está centrada en el 6.
b) En la clase A hay 5 suspensos y 1 sobresaliente, ya que tiene poca desviación típica. To-das las demás notas están más agrupadas alrededor de la media.
En la clase B hay 11 suspensos y 4 sobresalientes, ya que tiene mucha desviación típica y los datos están muy separados de la media.
c) A Maria José le viene bien la clase B porque es más fácil separarse de la media y sacar un sobresaliente. Sin embargo, a Alfredo le viene mejor quedarse en la clase A, que hay muchos más aprobados y otras notas cercanas al aprobado.
Pág. 3