ESTADISTÍCA - Ozono Centro de Estudios | … · ... tornillos correctos o ... que se esta...

16
ESTADISTÍCA 1. Población, muestra e individuo Las características de una distribución se pueden estudiar directamente sobre la población o se pueden inferir a partir de l estudio de una muestra. Población estadística es el conjunto de todos los elementos objeto de un estudio estadístico. Por ejemplo: el conjunto de todos los tornillos producidos diariamente por un fabricante. Muestra es un subconjunto, extraído de la población, cuyo estudio sirve para inferir características de toda la población. Por ejemplo: 1000 de esos tornillos cuyas características (longitud, correcto/defectuoso, nº de pasos de rosca, etc.) van a ser estudiadas para inferir características del total de los producidos. Individuo es cada uno de los elementos que forman la población o la muestra. Por ejemplo: cada uno de los tornillos producidos es un individuo. 2. Variables estadísticas Son los caracteres objeto del estudio estadístico. Las variables pueden ser: Cuantitativas: numéricas - Discretas: sólo pueden tomar varios valores. Por ejemplo: nº de pasos de rosca de un tornillo, nº de hermanos, etc. - Continuas: pueden tomar todos los valores en un intervalo. Por ejemplo: longitud de un tornillo, estatura de una persona, etc. Cualitativas: no numéricas. Por ejemplo: tornillos correctos o defectuosos, estudios universitarios que pueden realizarse, etc. 3. El proceso que se sigue en estadística 1º Determinar lo que se quiere estudiar. 2º Seleccionar y acotar las variables que se van a analizar. 3º Recolectar los datos. 4º Organizar los datos. 5º Elaborar tablas y gráficas. 6º Obtener parámetros.

Transcript of ESTADISTÍCA - Ozono Centro de Estudios | … · ... tornillos correctos o ... que se esta...

ESTADISTÍCA 1. Población, muestra e individuo

Las características de una distribución se pueden estudiar directamente sobre la población o se pueden inferir a partir de l estudio de una muestra.

Población estadística es el conjunto de todos los elementos objeto de un estudio estadístico. Por ejemplo: el conjunto de todos los tornillos producidos diariamente por un fabricante.

Muestra es un subconjunto, extraído de la población, cuyo estudio sirve para inferir características de toda la población. Por ejemplo: 1000 de esos tornillos cuyas características (longitud, correcto/defectuoso, nº de pasos de rosca, etc.) van a ser estudiadas para inferir características del total de los producidos.

Individuo es cada uno de los elementos que forman la población o la muestra.

Por ejemplo: cada uno de los tornillos producidos es un individuo. 2. Variables estadísticas

Son los caracteres objeto del estudio estadístico.

Las variables pueden ser:

• Cuantitativas: numéricas

- Discretas: sólo pueden tomar varios valores. Por ejemplo: nº de pasos de rosca de un tornillo, nº de hermanos, etc.

- Continuas: pueden tomar todos los valores en un intervalo. Por ejemplo: longitud de un tornillo, estatura de una persona, etc.

• Cualitativas: no numéricas. Por ejemplo: tornillos correctos o defectuosos, estudios universitarios que pueden realizarse, etc.

3. El proceso que se sigue en estadística

1º Determinar lo que se quiere estudiar. 2º Seleccionar y acotar las variables que se van a analizar. 3º Recolectar los datos. 4º Organizar los datos. 5º Elaborar tablas y gráficas. 6º Obtener parámetros.

4. Tablas de frecuencias

Una vez recogidos los datos, hay que tabularlos; es decir hay que elaborar una tabla en la que aparezcan bien organizados los valores de la variable que se esta analizando y el número de individuos que toma cada valor o cada intervalo de valores. Es lo que se llama una tabla de frecuencias.

Frecuencia absoluta (frecuencia) es el número de individuos correspondiente a cada valor o a cada intervalo de valores de la variable.

5. Gráficos estadísticos

Son representaciones que permiten visualizar fácilmente la información estadística recogida.

Los gráficos de uso más frecuente son:

Diagrama de barras se utiliza para representar tablas de frecuencias correspondientes a variables cualitativas o cuantitativas discretas. Las barras son estrechas y se sitúan sobre los valores puntuales de la variable.

Histograma se utiliza para representar tablas de frecuencias correspondientes a variables cuantitativas continuas y también para las cuantitativas discretas cuando toman gran número de valores y se tabulan agrupándolos en intervalos.

Polígono de frecuencias se obtiene al unir los puntos medios de los lados superiores de las barras (en un diagrama de barras) o de los lados superiores de los rectángulos (en un histograma).

• También pueden representarse diagramas de barras, histogramas y polígonos de frecuencias acumuladas.

Diagrama de sectores se utiliza para representar tablas de frecuencias correspondientes a cualquier tipo de variable. El ángulo de cada sector es proporcional a la frecuencia. Diagrama de barras Histograma Diagrama de sectores y polígono de frecuencias y polígono de frecuencias

Otras representaciones gráficas: Pirámides de población Cuando se realizan representaciones correspondientes a edades de población, cambiamos el eje Y por el eje X para obtener las llamadas pirámides de población, que no son más que 2 histogramas a izquierda y derecha, para hombres y mujeres.

Ejemplo:

Pictogramas Son gráficos con dibujos alusivos al carácter que se está estudiando y cuyo tamaño es proporcional a la frecuencia que representan; dicha frecuencia se suele representar.

Ejemplo:

Padrón Municipal de Habitantes a 1 de Enero de 2005.

Habitantes de cada una de las 8 provincias de Andalucía. Cartogramas Son gráficos realizados sobre mapas, en los que aparecen indicados sobre las distintas zonas cantidades o colores de acuerdo con el carácter que representan.

Ejemplo Urbanización en el mundo atendiendo a la industrialización

6. Parámetros estadísticos

Los parámetros estadísticos sirven para sintetizar la información y permiten apreciar con rapidez y eficacia las características más relevantes de una determinada distribución.

Parámetros o medidas de centralización Indican en torno a que valor (centro) se distribuyen los datos. • Media o promedio, es el promedio de los datos de la distribución.

Se calcula así: Nx

x i∑= y cuando los datos están en tablas de frecuencias:∑

∑=i

ii

ffx

x

• Moda: valor con mayor frecuencia.

• Mediana: valor que ocupa el lugar central.

Parámetros o medidas de dispersión Informan sobre cuánto se alejan del centro los valores de la distribución, es decir sirven para medir cómo de dispersos están los datos. En todos ellos la idea clave es medir el grado de separación de los datos de la media.

• Desviación media: es el promedio de las distancias de los datos a la media.

Se calcula así: N

xx.M.D i∑ −

= , ∑

∑ −=

i

ii

f

fxx.M.D

↑ en tablas de frecuencias

• Varianza: es el promedio de los cuadrados de las distancias de los datos a la media.

Se calcula así:

( )

−∑=

∑ −=

22i

2

i

xNx

V

Nxx

V

( )

−∑

∑=

∑ −=

2

i

i2i

i

i

2

i

xffx

V

ffxx

V

↑ en tablas de frecuencias

• Desviación típica: es la raíz cuadrada de la varianza. V=σ

• Rango o recorrido: Diferencia entre el valor mayor y el menor. Es decir, la longitud del tramo donde están los datos.

Coeficiente de variación Sirve para comparar la dispersión de dos poblaciones heterogéneas.

Se calcula así: x

.V.Cσ=

Al dividir la desviación típica entre la media se está relativizando la dispersión. El resultado se da, a veces en tantos por ciento.

Ejemplo 1 TABLA DE FRECUENCIAS Notas obtenidas por un grupo de alumnas:

9, 4, 8, 5, 5, 4, 1, 7, 2, 2, 3, 9, 6, 4, 10, 8, 2, 1, 6, 7, 6, 10, 10, 8, 8, 4, 6, 5, 5, 10, 6, 7, 2, 5, 5, 3, 5, 3, 6, 8.

Variable

Notas

Frecuencia

Nº alumnas

x i

f i

1 2 3 4 5 6 7 8 9 10

2 4 3 4 7 6 3 5 2 4

40

DIAGRAMA DE BARRAS Y POLÍGONO DE FRECUENCIAS ABSOLUTAS

0

1

2

3

4

5

6

7

8

1 2 3 4 5 6 7 8 9 10NOTAS

DE

AL

UM

NA

S

Ejemplo 2 TABLA DE FRECUENCIAS. DATOS AGRUPADOS POR INTERVALOS Tallas de un grupo de alumnas:

168,160,168,175,175,168,168,158,149,160,178,169,158,163,171,162,165,163,156,174,160,165,154,163,165,161,162,166,163,159,170,165,150,167,164,165,173,172,168,168.

Variable en intervalos

Tallas

Frecuencia

Nº alumnas

L i-1-Li f i

[[[[148,5-153,5) [[[[153,5-158,5) [[[[158,5-163,5) [[[[163,5-168,5) [[[[168,5-173,5) [[[[173,5-178,5)

2 4 11 14 5 4

40

Ejemplo 3 PARÁMETROS ESTADÍSTICOS Sea la siguiente distribución de notas: 2, 4, 4, 4, 5, 7, 9, 9,10. Calcular las medidas de centralización y de dispersión

Medidas de centralización

Media aritmética: Nx

x i∑∑∑∑==== 69

549

1099754442x ==++++++++=

Moda: valor con mayor frecuencia Moda = 4 Mediana: valor que ocupa el lugar central Mediana = 5 (lugar 5º)

Medidas de dispersión Recorrido o rango: Diferencia entre el valor mayor y el menor 10 − 2 = 8

Varianza:

(((( ))))

−−−−∑∑∑∑====

∑∑∑∑ −−−−====

22i

2

i

xNx

V

Nxx

V

( ) ( ) ( ) ( )

11,79

3886

910...442

V

7,11964

916...4416

9

610...646462V

22222

2222

==−++++=

==++++=−++−+−+−=

Desviación típica: V====σσσσ 67,211,7 ==σ

Desviación media: N

xx.M.D i∑∑∑∑ −−−−

====

2,44922

94...224

9

610...646462.M.D ==++++=

−++−+−+−=

Coeficiente de variación: x

.V.Cσσσσ==== 0,444

667,2

.V.C == ; 4,44 %

Ejemplo 4 PARÁMETROS ESTADÍSTICOS xi fi xi fi xi −−−− x xi −−−− x fi xi

2 xi2fi xi −−−− x 2 xi −−−− x 2fi

4 5 6 7 8 9

1 10 14 5 2 1

4 50 84 35 16 9

2 1 0 1 2 3

2 10 0 5 4 3

16 25 36 49 64 81

16 250 504 245 128 81

4 1 0 1 4 9

4 10 0 5 8 9

33 198 24 1224 36

Medidas de centralización

Media aritmética: ∑∑∑∑

∑∑∑∑====i

ii

ffx

x 633

198x ==

Moda: valor con mayor frecuencia Moda = 6 Mediana: valor que ocupa el lugar central Mediana = 6 (lugar 17º)

Medidas de dispersión Recorrido o rango: Diferencia entre el valor mayor y el menor 9 − 4 = 5

Varianza:

(((( ))))

−−−−∑∑∑∑

∑∑∑∑====

∑∑∑∑

∑∑∑∑ −−−−====

2

i

i2i

i

i

2

i

xffx

V

ffxx

V

1,091 633

1224 V

1,091 3336

V

2 =−=

==

Desviación típica: V====σσσσ 044,1091,1 ==σ

Desviación media: ∑∑∑∑

∑∑∑∑ −−−−====

i

ii

f

fxx.M.D 0,727

3324

.M.D ==

Coeficiente de variación: x

.V.Cσσσσ==== 0,174

6044,1

.V.C == ; 17,4 %

Ejemplo 5 PARÁMETROS ESTADÍSTICOS DATOS AGRUPADOS EN INTERVALOS

Marcas de clase = 2

LL i1i ++++−−−−

↓↓↓↓ Li-1-Li fi xi xi fi xi −−−− x xi −−−− x fi xi

2 xi2fi xi −−−− x 2 xi −−−− x 2fi

[[[[148,5-153,5) [[[[153,5-158,8) [[[[158,5-163,5) [[[[163,5-168,5) [[[[168,5-173,5) [[[[173,5-178,5)

2 4 11 14 5 4

151 156 161 166 171 176

302 624 1771 2324 855 704

13,5 8,5 3,5 1,5 6,5 11,5

27 34

38,5 21

32,5 46

22801 24336 25921 27556 29241 30976

45602 97344 285131 385784 146205 123904

182,25 72,25 12,25 2,25 42,25 132,25

364,5 289

134,75 31,5

211,25 529

40 6580 199 1083970 1560

Medidas de centralización

Media aritmética: ∑∑∑∑

∑∑∑∑====i

ii

ffx

x 5,16440

6580x ==

Intervalo modal: intervalo con mayor frecuencia Intervalo modal: [163,5-168,5) Intervalo mediano: intervalo que ocupa el lugar central Intervalo mediano: [163,5-168,5) (lugares 20º y 21º)

Medidas de dispersión Recorrido o rango: Diferencia entre el valor mayor y el menor 176 − 151 = 25

Varianza:

(((( ))))

−−−−∑∑∑∑

∑∑∑∑====

∑∑∑∑

∑∑∑∑ −−−−====

2

i

i2i

i

i

2

i

xffx

V

ffxx

V

395,16440

1083970 V

3940

1560V

2 =−=

==

Desviación típica: V====σσσσ 245,639 ==σ

Desviación media: ∑∑∑∑

∑∑∑∑ −−−−====

i

ii

f

fxx.M.D ,9754

40199

.M.D ==

Coeficiente de variación: x

.V.Cσσσσ==== 038,0

5,164245,6

.V.C == ; 3,8 %

Ejemplo 6 COEFICIENTE DE VARIACIÓN Los pesos de los toros de lidia de una ganadería se distribuyen con una media de x = 500 Kg y una desviación típica σ = 40 Kg. Los pesos de los perros de una exposición canina tienen una media de x = 20 Kg y una desviación típica σ = 10 Kg.

La desviación típica de los pesos de la manada de toros bravos (40 Kg) es superior a la de los perros (10 Kg). Sin embargo, los 40 Kg son poca cosa para el enorme tamaño de los toros es decir, los toros de esa manada son muy parecidos en peso), mientras que 10 Kg es mucho en relación con el peso de un perro. En este caso la desviación típica no es una mediada adecuada para comparar dispersiones. Por ello, se define otro parámetro estadístico, el coeficiente de variación, que permite comparar la dispersión en poblaciones heterogéneas.

x

σ C.V. = xσσσσ

%

Toros 500 40 0,08 8 Perros 20 10 0,50 50

De este modo se aprecia claramente que la variación de los pesos de los perros (50 % ) es mayor que la de los pesos de los toros (8 %)

Ejemplo 7 INTERPRETACIÓN DE LOS PARÁMETROS ESTADÍSTICOS El estudio realizado sobre las altura de los jugadores de tres equipos de baloncesto A, B, C, se encuentran reflejados en los gráficos siguientes, sus parámetros estadísticos figuran en la tabla adjunta. Se trata de asociar cada gráfico con el equipo correspondiente

Solución: El gráfico nº 2 muestra una gran dispersión y media baja: corresponde al equipo C. La media más alta y menos dispersa es la del gráfico nº 3: corresponde al equipo A. El gráfico nº 1 tiene una media y una dispersión comprendida entre las dos anteriores: corresponde al equipo B.

Ejemplo 8

Ejemplo 9 ESTIMACIÓN DE LOS PARÁMETROS A PARTIR DE GRÁFICAS

Unidad 12. Estadística

So 12¿Conoces la terminología básica de la estadística?: individuo, población, muestra, tipos de variables?

1 Indica, para cada caso, cuáles son los individuos, cuál la población, cuál la variable y de qué tipo es:

• Número de almendras que hay en cada tableta de chocolate de una producción.

• Tiempo de espera de cada paciente en una consulta de un centro de salud.

• Tipo de especialista al que acuden los pacientes a un centro de salud.

• Individuo: una tableta. Población: producción de tabletas. Variable: número de almen-dras por cada tableta. Tipo de variable: cuantitativa discreta.

• Individuo: un paciente. Población: pacientes del centro de salud. Variable: tiempo de espera. Tipo de variable: cuantitativa continua.

• Individuo: un paciente. Población: pacientes del centro de salud. Variable: tipo de espe-cialista. Tipo de variable: cualitativa.

2 Para estudiar el “número de almendras que hay en cada tableta de chocolate” de una cierta producción, se analiza una de cada 200 producidas un cierto día.

Las tabletas analizadas, ¿son población o muestra?

Las tabletas analizadas son una muestra, ya que no se analizan todas, solo una de cada 200. Si se analizara toda la población, posiblemente se estropearían todas las tabletas.

¿Sabes elaborar e interpretar tablas y gráficas estadísticas?

3 Tiempo, en minutos, que pasaron en la sala de espera los pacientes de un médico cierto día:

28 4 12 35 2 26 45 22 6 23

27 16 18 32 8 47 8 12 34 15

28 37 7 39 15 25 18 17 27 15

Haz una tabla, repartiéndolos en intervalos de extremos 0 - 10 - 20 - 30 - 40 - 50.

Representa los resultados mediante un grá� co adecuado (diagrama de barras o histo-grama).

INTERVALO fi

0-10 6

10-20 9

20-30 8

30-40 5

40-50 2

30 10001

20 30 40 50

23456789

Unidad 12. Estadística

Solu a la Autoevaluación124 Número de días que han ido a la biblioteca del Centro los alumnos de un curso:

3 1 2 4 0 2 1 3 1 0 2 0 3 5 2

0 2 4 1 2 1 2 0 5 3 3 1 2 1 0

Haz una tabla de frecuencias y representa los resultados mediante un grá� co adecua-do (diagrama de barras o histograma).

xi 0 1 2 3 4 5fi 6 7 8 5 2 2 30

1 2 3 4 50012345678

¿Sabes estimar, calcular e interpretar los parámetros estadísticos?

5 Halla media, mediana, desviación media, desviación típica y coe� ciente de variación de esta distribución:

6 9 1 4 8 2 3 4 4 9

Ordenamos primero los datos: 1 2 3 4 4 4 6 8 9 9

: x– = 1 + 2 + 3 + 4 · 3 + 6 + 8 + 9 · 210

= 5

= 4

DESVIACIÓN MEDIA: DM = §1 – 5§ + §2 – 5§ + §3 – 5§ + …10

= 2410

= 2,4

: 12 + 22 + 33 + 42 · 3 + 62 + 82 + 92 · 210

– 52 = 32410

– 25 = 7,4

DESVIACIÓN TÍPICA: q = √7,4 ≈ 2,72

6 Calcula x–, q y C.V. de las distribuciones…

a) …del ejercicio 4. b) …del ejercicio 3.

a)

: x– = 5630

≈ 1,87

DESVIACIÓN TÍPICA: q = √ 16630

– 1,872 ≈ 1,43

a)

xi fi fi · xi fi · xi2

012345

678522

07

16158

10

07

32453250

30 56 166

COEFICIENTE DE VARIACIÓN: C.V. = qx–

= 1,431,87

≈ 0,7647

Pág. 2

Unidad 12. Estadística

12b)

b)INTERVALO xi fi fi · xi fi · xi

2

0-1010-2020-3030-4040-50

515253545

69852

3013520017590

1502 0255 0006 1254 050

30 630 17 350

: x– = 63030

≈ 21

DESVIACIÓN TÍPICA: q = √ 17 35030

– 212 ≈ 11,72

COEFICIENTE DE VARIACIÓN: C.V. = qx–

= 11,7221

≈ 0,56

7 Se ha hecho un mismo examen en dos clases, A y B, de 30 alumnos cada una. Sus me-dias y sus desviaciones típicas son: x–A = 6, qA = 1, x–B = 6, qB = 3.

a) Asigna una de estas tres grá� cas a A y otra a B.

0 5 10 0 5 10 0 5 10

b) En una de las clases hay 11 suspensos y 4 sobresalientes, mientras que en la otra hay 5 suspensos y 1 sobresaliente. ¿Cuál es A y cuál es B?

c) Si M.ª José necesita sacar sobresaliente y Alfredo se conforma con aprobar, ¿qué clase te parece más adecuada para cada uno de ellos?

a) La clase A corresponde a la primera gráfi ca, ya que está centrada en el 6 y tiene una des-viación típica pequeña (q = 1).

La clase B corresponde a la tercera gráfi ca, ya que su desviación típica es muy alta y tam-bién está centrada en el 6.

b) En la clase A hay 5 suspensos y 1 sobresaliente, ya que tiene poca desviación típica. To-das las demás notas están más agrupadas alrededor de la media.

En la clase B hay 11 suspensos y 4 sobresalientes, ya que tiene mucha desviación típica y los datos están muy separados de la media.

c) A Maria José le viene bien la clase B porque es más fácil separarse de la media y sacar un sobresaliente. Sin embargo, a Alfredo le viene mejor quedarse en la clase A, que hay muchos más aprobados y otras notas cercanas al aprobado.

Pág. 3