estadística descriptiva

32
Cecilia Larraín R Estadística Descriptiva Página 1 S 1Estadística Descriptiva Univariada Organización de los datos La estadística descriptiva, entrega las técnicas que permiten condensar grandes grupos de datos mediante el uso de tablas de frecuencias, gráficos y medidas de resumen como media, desviación estándar, correlación. d resume Tabla o distribución de La presentación gráfica frecuencias puede revelar de un Es una tabla que constituye vistazo las el resumen básico de principales los datos características de un conjunto de datos Descripción estadística de una variable cualitativa Gráficos - Sectorial - Barras Separadas - Diagrama de Pareto - Pictograma Medida de resumen Moda : es el dato o modalidad de mayor frecuencia dato más representativo

Transcript of estadística descriptiva

Page 1: estadística descriptiva

Cecilia Larraín R Estadística Descriptiva Página 1

S 1Estadística Descriptiva Univariada

Organización de los datos

La estadística descriptiva, entrega las técnicas que permiten condensar

grandes grupos de datos mediante el uso de tablas de frecuencias,

gráficos y medidas de resumen como media, desviació n estándar,

correlación.

d resume

Tabla o distribución de La presentació n gráfica frecuencias puede revelar de un Es una tabla que constituye vistazo las el resumen básico de principales los datos características de un conjunto de datos

Descripción estadística de una variable cualitativa

Gráficos

- Sectorial

- Barras

Separadas

- Diagrama

de Pareto

- Pictograma

Medida de resumen

Moda: es el dato o

modalidad de mayor

frecuencia ≡ dato

más representativo

Page 2: estadística descriptiva

Cecilia Larraín R

Ejemplo

Reporte de la inspección final de defectos de 150 productos para la línea de armado A12.

DATOS DIRECTOS (brutos)

Rayado Manchado Manchado Manchado

Abollado Astillado Doblado Manchado

Astillado Rayado Manchado Rayado

Astillado Astillado Manchado Manchado

Otros Astillado Astillado Abollado

Manchado Manchado Rayado Astillado

Rayado Rayado Manchado Manchado

Astillado Rayado Abollado Manchado

Doblado Manchado Manchado Astillado

Rayado Manchado Manchado Doblado

Rayado Manchado Doblado Abollado

Manchado Manchado Astillado Manchado

Manchado Manchado Astillado Rayado

Otros Otros Rayado Doblado

Abollado Rayado Manchado Astillado

Manchado Manchado Astillado Manchado

Rayado Manchado Rayado Rayado

Manchado Rayado Manchado Rayado

Otros Astillado Manchado Astillado

Rayado Rayado Abollado Manchado

Doblado Astillado Manchado Rayado

Doblado Manchado Abollado Rayado

Rayado Manchado Rayado Rayado

Manchado Doblado Manchado Rayado

Manchado Manchado Manchado Manchado

Rayado Astillado Astillado Rayado

Abollado Manchado Rayado Manchado

Manchado Manchado Rayado Rayado

Rayado Manchado Manchado Rayado

Rayado Astillado Astillado Astillado

Datos en bruto : Datos registrados en la secuencia en que fueron recolectados, antes de ser procesados u ordenados

Estadística Descriptiva

Ejemplo . Defectos_Linea A12

eporte de la inspección final de defectos de 150 productos para la

Manchado

Manchado

Rayado

Manchado

Abollado

Astillado

Manchado

Manchado

Astillado

Doblado

Abollado

Manchado

Rayado

Doblado

Astillado

Manchado

Rayado

Rayado

Astillado

Manchado

Rayado

Rayado

Rayado

Rayado

Manchado

Rayado

Manchado

Rayado

Rayado

Astillado

: Datos registrados en la fueron recolectados,

antes de ser procesados u ordenados

Tabla de frecuencias

Defecto del producto Frecuencia

Abollado 8

Astillado 23

Doblado 12

Manchado 56

Otros 6

Rayado 45

Total 150

¿Cuál es la unidad de observación?

Gráfico de barras separadas

Frec

uenc

ia

60

50

40

30

20

10

0

56

12

23

8

Defecto del productoManchadoDobladoAstilladoAbollado

El defecto más frecuente en la línea de armado es Manchado

Moda = manchado

Página 2

Tabla de frecuencias

Porcentaje

5,3

15,3

8,0

37,3

4,0

30,0

100,0

¿Cuál es la unidad de observación?

Gráfico de barras separadas

6

45

Defecto del productoOtroRayadoManchado

El defecto más frecuente en la línea de armado es Manchado

Page 3: estadística descriptiva

Cecilia Larraín R

Defectos del producto

Frecuencia absoluta

Abollado Astillado 23Doblado 12

Manchado 56Rayado Otros 45Total 150

Frecuencia absoluta (ni): Frecuencia relativa (fi): Es la proporción de la categoría o modalidad respecto del total de datos. i = 1,2, …,k

Gráfico sectorial : Círculo dividido en

porciones que representan las

frecuencias relativas o porcentajes de una población o muestra

perteneciente a diferentes categorías.

Como sabemos, un círculo contiene 360

grados. Para construir un gráfico sectorial, se multiplica por 360 la

frecuencia relativa de cada categoría, para obtener la medida del

ángulo correspondiente

¿Cuál es Defecto más frecuente?

Estadística Descriptiva

Frecuencia absoluta n i

Frecuencia Relativa f i

8 0,053 23 0,153 12 0,080 56 0,373 6 0,040 45 0,300

150 1,000

): Número de veces que ocurre la modalidad i.

): Es la proporción de la categoría o modalidad respecto del total de datos. i = 1,2, …,k

Defectos del producto

¿Cuál es Defecto más frecuente?

Abollado

5,33%Astillado

15,33%

Manchado

37,33%

Rayado

30,00%

Otros

4,00%

Página 3

Porcentaje %

5,33 15,33 8,00

37,33 4,00

30,00 100%

Número de veces que ocurre la modalidad i. i = 1,2, …,k

): Es la proporción de la categoría o modalidad respecto

Astillado

15,33%

Doblado

8,00%

Page 4: estadística descriptiva

Cecilia Larraín R Estadística Descriptiva Página 4

Diagrama de Pareto

Herramienta básica de la mejora de calidad. Muy útil para priorizar los problemas o las causas que los generan.

Su fundamento parte de considerar que un pequeño porcentaje de las causas producen la mayoría de los efectos. Se tratar de identificar ese pequeño porcentaje de causas “vitales ” para actuar prioritariamente sobre él.

Defecto frecuencia % frec. Acum. % acumulado Manchado 56 37,33 56 37,33

Rayado 45 30,00 101 67,33 Astillado 23 15,33 124 82,67 Doblado 12 8,00 136 90,67 Abollado 8 5,33 144 96,00

Otros 6 4,00 150 100 TOTAL 150 100,0%

Se calculan solamente para el diagrama Pareto (en este tipo de variable)

Page 5: estadística descriptiva

Cecilia Larraín R Estadística Descriptiva Página 5

Tabla de frecuencias, gráficos y medidas de resume n para una variable cuantitativa

Tablas y gráficos: Distinguir si la variable es dis cretas continua

Si las observaciones en un conjunto de datos cuantitativos son discretos

(contables) o si los valores de la variable asumen sólo unos pocos valores

distintos, puede ser apropiado armar tablas de frecuencia con valores

únicos.

La distribución de frecuencias (tabla)

- La distribución de frecuencias para variables cuantitativas discretas

es similar a la de variables cualitativas. Los valores que toma la

variable se ordenan de de menor a mayor lo que permite registrar en la

tabla las frecuencias acumuladas. La representación gráfica que se

utiliza para este tipo de variables es barras separadas o el gráfico de

varas.

Distribución de frecuencias de la variable X

Nombre de la variable

X

Frec. Absoluta

ni

Frec. Relativa

ii

nf =

n

Frec. Abs. Acumulada

Ni

Frec. Relat. Acumulada

ii

NF=

n

x1 n1 f1 N1 = n1 F1 x2 n2 f2 N2 = n1 + n2 F2 x3 n3 f3 N3 = n1 + n2 + n3 F3

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. xk nk fk Nk = n Fk = 1

Total n 1

xi= valor que toma la variable. i= 1,2, …,k

Page 6: estadística descriptiva

Cecilia Larraín R Estadística Descriptiva Página 6

Ejemplo: Variable discreta

Tabla –gráficos para variable continua : Cuando la variable es continua o el número de valo res posibles de una variable discreta sea grande, para construir la t abla de frecuencias, conviene agrupar los datos intervalos reales . Éstos agrupan todos aquellos Casos contenidos entre dos valores, conocidos como el límite superior e inferior.

Números de averías en Febrero.2011 de 40 centrales Eléctricas.

0 1 0 0 2

2 1 3 1 1

0 1 1 3 1

2 0 0 0 1

0 0 1 1 0

3 1 1 1 0

0 2 3 4 2

2 0 3 2 2

Tabla de frecuencias

N° de averías Frecuencia Porcentaje

Porcentaje acumulado

0 13 32,5 32,5

1 13 32,5 65,0

2 8 20,0 85,0

3 5 12,5 97,5

4 1 2,5 100,0

Total 40 100,0

¿cuál es la unidad de observación?

Gráfico : Varas

N° de averías

43210

Rec

uent

o

14

12

10

8

6

4

2

0

1

5

8

1313

Estadísticos (Medidas de resumen)

N° de averías40

0

1,20

1,00

0a

1,114

,637

,374

-,445

,733

0

4

,00

1,00

2,00

Válidos

Perdidos

n

Media

Mediana

Moda

Desv. típ.

Asimetría

Error típ. de asimetría

Curtosis

Error típ. de curtosis

Mínimo

Máximo

25

50

75

Percentiles

Existen varias modas. Se mostrará el menor de losvalores.

a.

Page 7: estadística descriptiva

Cecilia Larraín R Estadística Descriptiva Página 7

Otros gráficos : Polígono de frecuencias Tallo-Hojas Diagrama de cajas

Estadísticos (medidas de resumen)

Edad (años)500

23,4222,50

194,540

20,6161,2521,284

181836

20,0022,5025,00

Válidos

Perdidos

n

Media

Mediana

Moda

Desv. típ.

Varianza

Asimetría

Curtosis

Rango

Mínimo

Máximo

25

50

75

Percentiles

Ejemplo: Edad (en años) de 50 estudiantes seleccionados de una casa de estudio superior

21 24 29

18 19 19

25 31 23

22 21 22

25 18 27

19 25 34

20 22 19

19 19 18

28 20 22

23 36 23

26 36 20

25 25 25

23 23 21

21 19 24

21 21 22

27 33 19

23 26

Tabla de frecuencias

Edad (años) Frecuencia Porcentaje

Porcentaje acumulado

18 - 21 14 28,0 28,0

21 - 24 17 34,0 62,0

24 - 27 10 20,0 82,0

27 - 30 4 8,0 90,0

30 - 33 1 2,0 92,0

33 - 36 4 8,0 100,0

Total 50 100,0

¿Cuál es la unidad de observación?

Gráfico

Edad393633302724211815

estudiantes

20

15

10

5

0

4

1

4

10

17

14

Histograma

Page 8: estadística descriptiva

Cecilia Larraín R

El rango de los datos se ha dividido en 7 intervalos (llamados tallos), cada uno representado por un renglón en la tabla. Los tallos se etiquetan utilizando uno ó más dígitos indicadores para los valores que caen dentro de ese intervalo. En cada renglón, los valores individuales se representan por un dígito (llamado hoja) a la derecha de la línea vertical. Si hay algunos colocan en tallos alto y bajo separados. En este caso, hay 4 puntos de números de la extrema izquierda contiene los recuentos acumulados desde el inicio y desde el fondo de la tabla, deteniéndose en el renglón que contiene a la med

19,518,016,515,0

alumnos

20

15

10

5

0

14

0

Estadística Descriptiva

Polígono de frecuencias

El rango de los datos se ha dividido en 7 intervalos (llamados tallos), cada uno representado por un renglón en la tabla. Los tallos se etiquetan utilizando uno ó más

valores que caen dentro de ese intervalo. En cada renglón, los valores individuales se representan por un dígito (llamado hoja) a la derecha de la

Si hay algunos datos muy alejados del resto (llamados datoscolocan en tallos alto y bajo separados. En este caso, hay 4 puntos atípicosde números de la extrema izquierda contiene los recuentos acumulados desde el inicio y desde el fondo de la tabla, deteniéndose en el renglón que contiene a la med

Edad37,536,034,533,031,530,028,527,025,524,022,521,0

4

1

4

10

17

Página 8

El rango de los datos se ha dividido en 7 intervalos (llamados tallos), cada uno representado por un renglón en la tabla. Los tallos se etiquetan utilizando uno ó más

valores que caen dentro de ese intervalo. En cada renglón, los valores individuales se representan por un dígito (llamado hoja) a la derecha de la

datos atípicos), se ípicos. La columna

de números de la extrema izquierda contiene los recuentos acumulados desde el inicio y desde el fondo de la tabla, deteniéndose en el renglón que contiene a la mediana.

39,037,5

0

Page 9: estadística descriptiva

Cecilia Larraín R Estadística Descriptiva Página 9

Medidas de Resumen Entre las medidas que permiten resumir información proveniente de una

población o muestra, podemos considerar: medidas de tendencia posición,

de dispersión o variabilidad, de forma y de asociación

Medidas de posición : Tendencia Central - Percentiles

Tendencia Central: Moda - Promedio - Mediana

Son índices de localización central, empleados en la descripción de las

distribuciones de frecuencias. Las más usadas son la moda, la mediana y el

promedio.

Moda (M o) : Es el valor de la variable que ocurre más frecuentemente

Promedio Aritmético (o media Aritmética)

La media aritmética o promedio aritmético :

En general se utiliza letras mayúsculas para denotar a las variables, y

letras minúsculas para los valores que toma las variables (datos).

Sea X la variable cuantitativa de interés y sea x1, x2, …, xn los n valores

que posee dicha variable. El promedio aritmético se obtiene sumando los

valores de X y dividiendo luego por el número de datos. n

i1 2 3 n i =1

xx +x +x ...+x total

x = = n n n

=∑

Observación: En Estadística Descriptiva, la media de la población se define

de la misma forma pero se utiliza el símbolo µµµµ para denotarla:

µµµµ

N

i

1 2 3 Ni 1

xx +x +x ...+x

N N

total

N

== = =∑

n ≡ tamaño de la muestra

N ≡ tamaño de la población

Page 10: estadística descriptiva

Cecilia Larraín R Estadística Descriptiva Página 10

Mediana (Me)

Mediana : es un valor tal que, ordenados en magnitud los n datos de una

variable X, el 50% es menor o igual que ella, y el 50% es mayor o igual.

Para el cálculo de la mediana la variable debe ser por lo menos ordinal

En datos no agrupados (directos), con n impar, el valor central es la

mediana.

Ejemplo : 3, 5, 7, 8, 9, 12, 13, 15, 20. n = 9 datos. La mediana es el

valor 9.

Se puede observar que la mediana es el valor que ocupa el lugar 1+ n2

En datos no agrupados con n par , el valor de la mediana será el punto

medio entre los dos valores centrales.

Ejemplo : 5, 7, 9, 10, 14, 16, 17, 18. n = 8 datos; la mediana es el

valor 12.

Es preciso ordenar los datos de menor a mayor para hacer el cálculo.

Ejemplo: Edad (en años) de 50 estudiantes seleccionados de una casa de

estudio superior

EDAD Estadísticos

Media 23,42

Mediana 22,5

Moda 19

Cuenta 50

¿Cuál de las tres medidas de tendencia central representa

mejor los datos?

Page 11: estadística descriptiva

Cecilia Larraín R Estadística Descriptiva Página 11

Ejemplo : Si los datos de una variable discreta están ya tabulados.

"X: Número de avería diarias en un taller

Xi

Frec. abs .

ni

Xi ⋅ ni

Frec. abs. acum.

Ni

0 1 2 3 4 5

40 30 10 6 3 1

0 30 20 18 12 5

40 60

Total n = 90

¿Cuál de las tres medidas de tendencia central repr esenta mejor los datos?

Promedio:

k

i ii 1

x n85

x = = 0,944n 90

==∑

Moda = 0

Me es el valor que ocupa el

lugar 1+ n= 45,5

2

Mediana = 1 avería.

Interpretación:

Page 12: estadística descriptiva

Cecilia Larraín R Estadística Descriptiva Página 12

Comparación entre x , Me y Mo

Desde un punto de vista descriptivo las tres medidas proporcionan

información complementaria, sus propiedades son distintas:

Estadísticos de tendencia central Observaciones

Media aritmética

x

n

ii =1

xtotal

x = = n n

- El nivel de medición de la variable X sea por lo menos en escala de intervalos.

- La media es muy sensible cuando existen datos atípicos o extremos.

- Es preferible utilizar el promedio aritmético como medida de resumen si los datos son homogéneos.

Mediana Me

Es un valor tal que, ordenados en magnitud los n datos de una variable X, el 50% es menor o igual que ella, y el 50% es mayor o igual.

- La mediana utiliza menos información que la media, ya que solo tiene en cuenta el orden de los datos y no su magnitud, por lo tanto, para poder calcular la mediana el nivel de medición de la variable X debe ser por lo menos en escala ordinal.

- La mediana se ve menos alterada por los datos atípicos o extremos.

Moda Mo

Es el valor de la variable que ocurre más frecuentemente

- Para el cálculo de la moda la variable puede tener cualquier nivel de medición, luego es la única medida de tendencia central que se puede calcular si el nivel de medición de la variable X es en escala nominal.

X ≠≠≠≠ Mediana ⇒⇒⇒⇒ asimetría, lo que sugiere heterogeneidad en los d atos.

∴∴∴∴ en este caso la Mediana es la medida de tendencia central adecuada para resumir los datos.

Page 13: estadística descriptiva

Cecilia Larraín R Estadística Descriptiva Página 13

Simétrica

X = Me = Mo

Asimetría positiva

Mo < Me < X

Asimetría Negativa

X < Me < Mo

Existen varias maneras de de medir asimetría:

• X ≠ Mediana ⇒ asimetría

• Gráficos: Histograma – Polígono de frecuencias – ta llo hojas- caja

• Coeficiente pearsoniano de asimetría SK

3(media - mediana)SK = ; en general -3 SK 3

desviación estándar≤ ≤

Si SK > 0, la distribución es asimétrica positiva o a la derecha. Si SK = 0, la distribución es simétrica. Si SK < 0, la distribución es asimétrica negativa o a la izquierda.

• Coeficiente de asimetría de Pearson A P Se basa en el hecho de que en una distribución simétrica, la media coincide con la moda.

P

Promedio - ModaA =

Desviación estándar

Si AP > 0, la distribución es asimétrica positiva o a la derecha. Si AP = 0, la distribución es simétrica. Si AP < 0, la distribución es asimétrica negativa o a la izquierda.

Este coeficiente no es muy bueno para medir asimetrías leves. • Coeficiente de asimetría de Fisher

x

32.5 27.5 22.5 17.5 12.5 7.5 2.5

Simétrica

10

8

6

4

2

0

X 32.5 27.5 22.5 17.5 12.5 7.5 2.5

10

8

6

4

2

0

X

32.527.522.517.512.57.52.5

10

8

6

4

2

0

Page 14: estadística descriptiva

Cecilia Larraín R Estadística Descriptiva Página 14

Cuartiles – Quintiles – Deciles - PERCENTILES

Son medidas estadísticas que dividen una serie ordenada de observaciones en 4, 5, 10, 100 partes iguales. Si dividimos en 4 partes iguales, tenemos los cuartiles (Qk) 1, 2 y 3. Cada parte le corresponde un 25%. | 25% | 25% | 25% | 25% | Mín Q1 Q2 Q3 Máx

Si dividimos en 5 partes iguales, tenemos los quintiles (qk) 1, 2, 3 y 4. Cada parte le corresponde un 20%. | 20% | 20% | 20% | 20% | 20% | Mín q1 q2 q3 q4 Máx

Si dividimos en 10 partes iguales tenemos los deciles (Dk) Los Percentiles P p son los valores que dividen un conjunto de datos ordenados de menor a mayor en 100 partes con igual (aproximadamente) número de datos.

p% (100 - p)% | | |

x(1) Pp x(n) Mín Máx

Si dividimos en 10 partes iguales tenemos los deciles (D) y en 100 partes iguales , los percentiles (Pp).

p% (100 - p)%

| | |

x(1) Pp x(n)

Mín. Máx.

Entre mín y Pp se encuentra el p% de los datos o entre Pp y máx se

encuentra el (100 – p)% de los datos.

Page 15: estadística descriptiva

Cecilia Larraín R Estadística Descriptiva Página 15

Recordemos se dividimos la serie de datos ordenada en dos partes iguales,

tenemos la mediana (Me)

Tenemos: Q1 = P25 Me = Q2 = D5 = P50 Q3 = P75

q1 = D2 = P20

q2 =

q3 =

q4 =

Cálculo de Percentiles (datos directos)

Ejemplo: Los siguientes datos corresponden a los puntajes obtenidos por 14 alumnos en un examen de Física II. (0 – 100 puntos)

84 52 85 61 74 77 65 63 57 64 72 55 68 76

Diagrama de puntos

Puntaje

Cálculo percentiles Pp

En la definición de percentil en un conjunto de datos “es el valor tal que el p% de los datos es menor o igual que él y el (100 – p)% de los datos es superior o igual a él”, puede que ningún valor cumpla exactamente la definición. Existen diversas formas de interpolar para el cálculo del Pp, en este curso vamos a utilizar el método AEMPIRAL explicado en la página 22 de texto “Probabilidad y Estadística”. Douglas C. Montgomery y George C. Runger (1996)

1ro) Se ordenan los n datos de menor a mayor

2do) Pp es el valor que ocupa el lugar j = np

100 . El método AEMPIRAL asigna la

media de x(j) y x(j+1) cuando j es un número entero, y asigna el valor que

ocupa la posición siguiente a la parte entera de j cuando j = np

100 es un número

decimal

Page 16: estadística descriptiva

Cecilia Larraín R

¿Entre qué valores e encuentra

- Determine el percentil 7

Gráfico de caja

Es un gráfico que suministra información sobre los valores mínimo y máximo,

los cuartiles Q1 = P25, Q

y la simetría de la distribución.

bisagras de Tukey. De determinan de la manera siguiente:

Q1 = P25 ≡ mediana entre el mínimo y la mediana de la variable

Q3 = P75 ≡ mediana entre el mediana de la variable y el máximo

Ejemplo: Edad (página 7)

Bisagras de Tukey

18 19 22 23 18 20 22 24 18 20 22 24 19 20 22 25 19 21 22 25 19 21 23 25 19 21 23 25 19 21 23 25 19 21 23 25 19 21 23 26

Estadística Descriptiva

e encuentra el 25% de los mejores puntajes?

Determine el percentil 75 e interprete.

Es un gráfico que suministra información sobre los valores mínimo y máximo,

, Q2 o mediana Q3 = P75 la existencia de valores atípicos

y la simetría de la distribución. Los cuartiles 1 y 3 se les d

. De determinan de la manera siguiente:

mediana entre el mínimo y la mediana de la variable

mediana entre el mediana de la variable y el máximo

Ejemplo: Edad (página 7)

Percentiles

20,00 22,50 25,00Edad25 50 75

Percentiles

Se sabe que un dato es atípico, si su valor no se encuentra en el

(Q1 – 1,5⋅⋅⋅⋅RI , Q3

RI = Q3 – Q

26 27 27 28 29 31 33 34 36 36

363634

33

Eda

d

40

30

20

10

0

Página 16

% de los mejores puntajes?

Es un gráfico que suministra información sobre los valores mínimo y máximo,

la existencia de valores atípicos

1 y 3 se les denominan

Se sabe que un dato es atípico, si su en el intervalo

+ 1,5⋅⋅⋅⋅RI)

Q1

Page 17: estadística descriptiva

Cecilia Larraín R Estadística Descriptiva Página 17

Cálculo de percentiles datos tabulados en intervalo s (datos secundarios ≡ no se dispone de los datos directos) :

Los valores que toman los percentiles cuando tenemos la información

agrupada (intervalos reales) en una tabla de frecuencias de una variable

cuantitativa son aproximados.

Mediante interpolación lineal en el gráfico de frecuencias acumulada

(ojiva) se llega a la fórmula del percentil.

Puntaje en un test de aptitud

DISTRIBUCIÓN DE FRECUENCIA ACUMULADA

Puntaje X

Frec. Abs. Acumulada Ni

< 15 0 < 20 8 < 25 15 < 30 29 < 35 35 < 40 38

< 45 40

Puntaje X

N° de sujetos

ni

Frecuencias acumuladas Ni

(absoluta)

Fi (relativa)

15 – 20 8 8 0,200

20 – 25 7 15 0,375 j 25 – 30 14 29 0,725

30 – 35 6 35 0,875 35 – 40 3 38 0,950 40 – 45 2 40 1,000

n = 40

n = 40

lugar np

100=

n 5020

100⋅ =

el percentil 50 o mediana aproximadamente se encuentra en el lugar 20, observando la columna Ni de frec. acumuladas o el gráfico ojiva, el valor que ocupa el lugar 20 se encuentra en el tercer intervalo.

P50 = Me ∈ [25, 30)

Page 18: estadística descriptiva

Cecilia Larraín R Estadística Descriptiva Página 18

OJIVA (POLÍGONO DE FRECUENCIAS ACUMULADAS)

Puntaje

P50 ∈ [25, 30) ← 25 es el límite inferior del intervalo j

30 – 25 = 5 es la amplitud del intervalo j

intervalo j Hay 14 sujetos (frec, abs.) con puntaje en el intervalo j

frec. abs. acumulada anterior al intervalo j es 15

La fórmula que entrega la interpolación lineal pa ra el cálculo de percentiles con datos agrupados en intervalos reales es:

j-1

p inf jj

np100 - N

P = lim +am plitudnj

Aplicando la fórmula de percentil para datos agrupados

50

20 15P 25 5 26,79

14puntos

− = + ⋅ =

Interpretación …………………………….

- Suponga que al 15% de los puntajes más altos pasan a una segunda etapa,

- ¿a partir de qué puntaje se va a realizar el corte para seleccionar a

dichos sujetos?

- Determine e interprete el valor del percentil 5.

Interpolando

Linealmente, se

obtiene

Se utiliza cuando no se

tienen los datos de cada

unidad de observación

Page 19: estadística descriptiva

Cecilia Larraín R Estadística Descriptiva Página 19

MEDIDAS DE DISPERSIÓN ( O VARIABILIDAD)

Las medidas de tendencia central (promedio, mediana, moda) y los percentiles, dan información incompleta, acerca de las observaciones. Ejemplo : Los puntajes (X) obtenidos en una Test por 2 grupos de alumnos son los siguientes:

Grupo 1 4 3 5 6 4 5 5 7 5 6 Grupo 2 1 4 3 5 6 8 2 7 5 9

En ambos casos el promedio aritmético o media aritmética es 5 (x = 5) , pero sus gráficos son distintos

Diagramas de puntos

Los diagramas de ambos grupos muestran que los puntajes se distribuyen simétricamente respecto al 5, pero en el grupo 1 existe una menor dispersión que en el grupo 2, es decir, los grupos tienen igual promedio pero la variabilidad de los puntajes respecto a la media es distinta.

Las medidas de variabilidad indican la dispersión de los datos obtenidos por los sujetos o las unidades de medición. Cuando los datos están con baja dispersión se dice que es homogéneo. Cuando están altamente dispersos se dice que es heterogéneo. Las medidas de dispersión más utilizadas son las siguientes:

• Amplitud o rango o recorrido, • Rango intercuartílico • Desviación estándar - varianza • Coeficiente de variación.

Rango o recorrido: Es la distancia en la escala de medidas entre los valores mayor y menor. Rango = valor máximo – valor mínimo

Page 20: estadística descriptiva

Cecilia Larraín R Estadística Descriptiva Página 20

Rango Intercuatílico (RI): se define como la diferencia entre el tercer y el primer cuartel, RI = Q3 – Q1, es la longitud del 50% central de la distribución de datos

Q3 = P75 Q1 = P25

RI se usa con mayor frecuencia acompañando a la med iana cuando la presencia de valores extremos hace poco recomendabl e el uso del promedio.

Defectos. No permite hacer una interpretación precisa de un valor dentro de una distribución. No interviene en relaciones matemáticas importantes en la inferencia estadística.

Desviación estándar o desviación típica (medida de dispersión asociada al promedio aritméti co)

Es la raíz cuadrada de la media de las desviaciones al cuadrado.

Dado un conjunto (o muestra) de datos x1, x2, …,xn de una variable X con nivel de medición en escala de intervalos o de razón, se define la desviación estándar o desviación típica como el promedio de las desviaciones di de los valores xi respecto a su promedio aritmético.

Desviación está ndar :

n2

ii =1

(x - x)s =

n

La desviación estándar toma valores no negativos y mide la dispersión: a mayor desviación estándar mayor dispersión.

El cuadrado de la desviación estándar s2, se denomina varianza .

Las desviaciones di = (xi - x )

se elevan al cuadrado para convertirlas en positivas, además recuerde que

n

ii =1

(x - x)∑ = 0

y se extrae la raíz cuadrada para que la medida resultante tenga la misma unidad de medición de la variable.

Page 21: estadística descriptiva

Cecilia Larraín R Estadística Descriptiva Página 21

n2

i2 i 1Varianza s

(x x)

n

=

−=∑

Del ejemplo Puntaje de un Test: Grupo 1 Grupo 2

x x - x 2(x - x) x x - x 2(x - x)

3 -2 4 1 -4 16 4 -1 1 2 -3 9 4 -1 1 3 -2 4 5 0 0 4 -1 1 5 0 0 5 0 0 5 0 0 5 0 0 5 0 0 6 1 1 6 1 1 7 2 4 6 1 1 8 3 9 7 2 4 9 4 16

Total 50 0 12 50 0 60

Grupo

n

Promedio

Desviación estándar

Varianza

1 10 50

5 ptos10

= 12 = 1,0954 ptos

10

(1,0954)2

2 10 50

5 ptos10

= 60 = 2,4495 ptos

10

(2,4495)2

Se observa que ambos grupos tienen igual promedio p ero los datos del grupo dos tienen mayor dispersión o variabilidad.

Ventajas de la desviación estándar - Permite una interpretación precisa de los valores dentro de una

distribución. - La desviación como el promedio pertenece a un sistema matemático

que permite su uso en métodos estadísticos más avanzados.

Page 22: estadística descriptiva

Cecilia Larraín R Estadística Descriptiva Página 22

i=1

2n

in2 i=1i

2

2n

i=1i

x x -

n= n-1

(x -x)

n -1 s

=∑

∑∑

Propiedades de la desviación estándar (demostración tarea) - Si se suman a todos los valores de la variable un valor constante, el

promedio queda aumentado en ese valor, pero la desviación estándar permanece igual.

- Si se multiplica cada valor original por una constante, tanto el promedio como la desviación estándar queda amplificados por ese valor.

- La desviación estándar de una constante es cero.

Observaciones :

− Notación de la varianza poblacional

N2

i2 i 1

(x µ)σ

N=

=∑

µ media de la población, N tamaño de la población

- En algunos textos de Estadística la fórmula de la v arianza (s2) de la muestra (la muestra es representativa) viene dada por:

2

2i

n

i=1= (x -x)

n -1s

Si los datos se encuentran tabulados (en tabla de f recuencias ← tenemos datos secundarios) las fórmulas de la vari anza y desviación estándar son:

k2

i i2 i 1x

(x x) n

n - 1Varianza s =

=∑

llamada varianza corregida o cuasivarianza y se utiliza en Inferencia Estadística como la estimación de la varianza poblacional σσσσ2, es la fórmula que vamos a utilizar en este curso como varianza muestral.

Page 23: estadística descriptiva

Cecilia Larraín R Estadística Descriptiva Página 23

k

2

i i

i 1Desviación estándar: s

(x -x) n

n - 1

==∑

xi es el valor de la variable discreta en una tabla o la marca de clase en el intervalo i (datos agrupados en intervalos reales)

Ejemplo: Cierto tipo de resistencias de película de óxido metálico son agrupadas en paquetes de 50 unidades. Se seleccionaron 60 paquetes y se contó el número de resistencias que no cumplían con las especificaciones, resultando la siguiente tabla

X = N° de resistencia defectuosas en cada paquete

X ni i ix n⋅ 2

i i(x - x) n⋅

0 5 0 31,25 1 10 10 22,50 2 16 32 4,00 3 15 45 3,75 4 9 36 20,25 5 3 15 18,75 6 2 12 24,50

Total n = 60 150 150

x = 60

125,00

2 125s =

59 = 2,119 ← varianza

Desviación estándar s = varianza

= 2,119 1,456=

2k

i ik2 i=1i ii

2 i=1

2k

i=1i

x n x n - n

n= = n-1

(x -x)

n -1

Varianz a: Datos tabulados

s

⋅ ⋅⋅∑

∑∑

Page 24: estadística descriptiva

Cecilia Larraín R Estadística Descriptiva Página 24

2k

i ik2 i=1i ii

i=1

2k

i=1i

x n x n - n

n= = n -1

(x -x)

n -1

Desviación est andar: Datos tabulados

s

⋅ ⋅⋅∑

∑∑

Del ejemplo de resistencia de película de óxido met álico:

i

2

i iix n = 150 ; x n = 500∑ ∑

2(150)500

60 1,45659

s−

= =

Coeficiente de variación (CV) : Es una medida relativa de variabilidad

XXCV =

|x|s

Se utiliza para comparar la dispersión de variables que

aparecen en unidades distintas de medición o que toman valores de magnitudes muy diferentes , ya que no depende de la unidad de medición de las variables.

Ejemplo: La tabla siguiente muestra el peso en kg y la estatura en cm de 10 sujetos

sujeto 1 2 3 4 5 6 7 8 9 10 Peso (Y) 78 75 70 68 44 66 72 95 70 74

Estatura (X) 172 175 168 178 159 166 176 180 179 171 Para analizar cuál distribución de datos es más homogénea, se debe determinar los coeficientes de variación de cada variable

Variable Media Desv. típ. CV Peso (Y) 71,20 12,541

Estatura (X) 172,40 6,620

Interpretación:

Page 25: estadística descriptiva

Cecilia Larraín R Estadística Descriptiva Página 25

Ejercicios 1. Se realizó un estudio sobre los costos operacionales (Y), en millones de

dólares anuales, en empresas de dos rubros distintos( A ; B ). Se tomaron muestras de 25 empresas de cada rubro, obteniéndose:

Rubro A

5,3 4,4

4,4 8,2

2,8 1,5

7,5 6,2

8,5 4,8

4,2 7,2

3,9 6,4

5,3 5,4

2,7 7,1

8,2 5,9

3,9 6,4

4,2 7,5

5,2

Rubro B

3,5 6,1

4,5 4,0

4,1 4,8

3,6 5,4

5,2 3,5

4,6 5,4

2,9 4,3

4,0 4,8

4,7 2,6

5,5 5,4

2,9 3,5

5,9 3,8

4,9

Rubro A Frecuencia Tallo & Hoja 1,00 1 . 5 2,00 2 . 78 2,00 3 . 99 5,00 4 . 22448 5,00 5 . 23349 3,00 6 . 244 4,00 7 . 1255 3,00 8 . 225

Multiplicar por 10 -1

Rubro B Frecuencia Tallo & Hoja 3,00 2 . 699 0,00 3 . 5,00 3 . 55568 4,00 4 . 0013 6,00 4 . 567889 4,00 5 . 2444 2,00 5 . 59 1,00 6 . 1

Multiplicar por 10 -1 a. Compare la dispersión de los costos de operación, entre los dos rubros.

Rubro n y s CV

A B

Comentarios:

b. ¿Entre qué costos operacionales se ubica el 50% central de las empresas del rubro B?

c. Según estimaciones, realizadas en las empresas del rubro A, los costos operacionales aumentarán en un 3%. Determine e interprete la nueva mediana y la nueva varianza.

2. Los datos que se muestran a continuación son los grados de dureza Brinell obtenidos para muestras de dos aleaciones de magnesio:

Page 26: estadística descriptiva

Cecilia Larraín R Estadística Descriptiva Página 26

Y = grado de dureza Brinell Aleación 1 66,3 63,5 64,9 61,8 64,3 64,7 65,1 64,5 68,4 63,2

Aleación 2 71,3 60,4 62,6 63,9 68,8 70,1 64,8 68,9 65,8 66,2

Gráfico de cajas

ALEACION

21

DU

RE

ZA

74

72

70

68

66

64

62

60

58

9

Informe: dureza Brinell ALEACION n Media Desv. típ. C. V. Mín. Máx.

1 10 64,670 1,787 2

Percentiles ALEACION 25 50 75 RI 1,5·RI Valor de dato atípico

1 63,5 64,6 65,1 2 63,9 66,0 68,9

Interpretación: ___________________

Page 27: estadística descriptiva

Cecilia Larraín R Estadística Descriptiva Página 27

2. Se toman muestras, de barras planas de dos tipos de acero, de tamaño 80 y 100 respectivamente, para analizar la resistencia a la ruptura. Los siguientes gráficos muestran los tiempos máximos (Y), en minutos que soportan dichas barras antes de fragmentarse, cuando son sometidos a la tensión:

Muestra 1 Muestra 2

minutos

minutos

2.1. En base a la información contenida en los gráficos, determine que distribución es más homogénea y qué tipo de acero resistió en mejor forma la tensión aplicada. Justifique utilizando medidas de resumen adecuadas.

2.2. Si las barras de acero tipo 1 , se clasifican de acuerdo a su resistencia en {RB, RM, RA}

Baja resistencia (RB) : si soportan un tiempo máximo inferior a 5,5 minutos Alta resistencia (RA) : si soportan un tiempo máximo de por lo menos 14 minutos Resistencia media (RM) : en otro caso.

Muestre gráficamente la distribución de las barras de acuerdo a la nueva clasificación.

2.3. Determine e interprete el valor del percentil 60 para ambas muestras.

Page 28: estadística descriptiva

Cecilia Larraín R Estadística Descriptiva Página 28

Descripción conjunta de dos variables cuantitativas

Es frecuente que se pueda determinar el grado de relación entre 2 (o más) variables cuantitativas, ya que al tener este conocimiento, se puede predecir una variable a partir de la otra. Para expresar cuantitativamente el grado en que dos variables están relacionadas, es necesario calcular un coeficiente de correlación.

Coeficiente de correlación lineal poblacional : ρ

Coeficiente de correlación lineal muestral: r

Un coeficiente de correlación para variables cuanti tativas: es un número que indica el grado de asociación y la direc ción de esa asociación. Indica cómo varía o cambia una caracter ística cuando la otra característica o variable asociada cambia.

Sin el conocimiento de cómo una cosa varía con otra sería imposible hacer predicciones . La predicción sólo es posible basándose en el conocimiento de la relación que hay entre 2 variables.

Un coeficiente de correlación lineal (con variables por lo menos ordinales) nos proporciona 3 datos principales: - La existencia o no de una relación entre las variables estudiadas. - La dirección de la relación. - El grado de esta relación. Como por ejemplo:

• estatura y peso • el ingreso familiar y los gastos en educación

Para el cálculo de “r” (correlación muestral) es preciso tener 2 conjuntos de medidas de los mismos individuos (o parejas de individuos que tengan alguna forma de relación) Tabla de datos:

Gráfico adecuado: Diagrama de dispersión, muestra si hay relación lineal entre las variables.

Sujeto 1 2 3 n

Variable X x1 x2 x3 … xn

Variable Y y1 y2 y3 … yn

La tabla contiene n pares ordenados

Page 29: estadística descriptiva

Cecilia Larraín R Estadística Descriptiva Página 29

Ejemplos Una correlación lineal positiva perfecta X Y 2 4 4 6 5 7 6 8 7 9 8 10 9 11 10 12 12 14 13 15

a) Una correlación lineal elevada positiva (+0,76) (relación directa )

X Y 13 11 12 14 10 11 10 7 8 9 6 11 6 3 5 7 3 6 2 1

En general, personas con alto puntaje en x también tendrán alto puntaje en y.

b) Una baja correlación lineal positiva (+0,14)

X Y 13 7 12 11 10 3 8 7 7 2 6 12 6 6 4 2 3 9 1 6

r = 1

Page 30: estadística descriptiva

Cecilia Larraín R Estadística Descriptiva Página 30

c) Un caso de alta correlación lineal negativa (-0,70) (relación inversa)

X Y 12 7 10 3 9 8 8 5 7 7 7 12 6 10 5 9 4 13 2 11

El signo algebraico del coeficiente de correlación tiene que ver, por lo tanto, con la dirección de relación entre dos cosas, ya sea directa o inversa.

Significado de la correlación

El valor de de la correlación puede variar desde -1 (lo que indica correlación negativa perfecta), pasando por el 0 (q ue indica independencia completa o ninguna relación), hasta + 1 (que significa perfecta correlación positiva) La magnitud se relaciona con la intensidad o estrec hez de la relación.

Coeficiente de correlación lineal de Pearson

yx

xy

ss s

r =

n

i i

i 1xy

(x -x)(y -y)

n -1

s ==∑

X e Y variables cuantitativas

; -1 < r < 1

covarianza de una muestra (representativa de la población objeto), indica la dirección de la relación.

Page 31: estadística descriptiva

Cecilia Larraín R Estadística Descriptiva Página 31

COVARIANZA n n

i in ni=1 i=1

i i i i

i=1 i=1xy

x y

(x -x)(y -y) x y - n

= n -1 n-1

s

=

∑ ∑∑ ∑

Ejemplo:

sujeto x y (x - x ) (y - y ) (x - x )2 (y - y )2 (x - x )(y - y )

1 13 11 5,5 3 30,25 9 16,5 2 12 14 4,5 6 20,25 36 27 3 10 11 2,5 3 6,25 9 7,5 4 10 7 2,5 -1 6,25 1 -2,5 5 8 9 0,5 1 0,25 1 0,5 6 6 11 -1,5 3 2,25 9 -4,5 7 6 3 -1,5 -5 2,25 25 7,5 8 5 7 -2,5 -1 6,25 1 2,5 9 3 6 -4,5 -2 20,25 4 9

10 2 1 -5,5 -7 30,25 49 38,5

Total 75 80 124,5 144 102 promedio x =7,5 y = 8,0

Desviación estándar de X: 2

x

(x - x) 124,5= 3,719

n - 1 9s = =∑

Desviación estándar de Y: 2

y

(y - y) 144= 4,000

n - 1 9s = =∑

Covarianza de (x,y): xy

(x -x)(y -y)102

= = 11,333n - 1 9

s =∑

Coeficiente de correlación lineal de Pearson: xy

11,333r = 0,762

(3,719)(4,000)=

Interpretación: _________________________________________

Covarianza positiva Interpretación: si hubiese relación lineal, esta sería directa

Page 32: estadística descriptiva

Cecilia Larraín R Estadística Descriptiva Página 32

Ejercicios

Ejercicio VI-1

Para determinada tarea en una fábrica, donde se necesita mucha destreza, se quiere investigar si “la productividad en el trabajo debe ser mayor al aumentar los años de experiencia”. Se seleccionaron al azar diez empleados de entre lo que tienen ese trabajo. Los datos de años de experiencia y medición de productividad son los siguientes:

Empleado 01 02 03 04 05 06 07 08 09 10

Años de experiencia 4 6 10 2 12 6 5 10 13 9 Productividad 80 82 88 81 92 85 83 86 91 90

a. Realice el diagrama de dispersión y calcular el coeficiente r de Pearson. b. Interprete los resultados.

Ejercicio VI-2

El tiempo de respuestas (en nanosegundos) de un circuito lógico en frío (X) y el tiempo de respuesta tras una hora de uso intensivo (Y), para una muestra de 12 máquinas es el siguiente:

Máquina 1 2 3 4 5 6 7 8 9 10 11 12 Tiempo de respuesta en frío (X) 6 5 8 14 7 4 5 9 6 5 7 6 Tiempo de respuesta tras una hora de uso (Y)

4 8 15 8 9 6 9 6 11 7 5 9

a. Se desea pronosticar el tiempo que tardará un determinado circuito lógico tras una hora de funcionamiento intensivo, utilizando información del tiempo de respuesta en frío. Para un pronóstico fiable, las variables deben estar fuertemente relacionadas, utilizando una mediada estadística adecuada, ¿qué concluiría usted?

b. Se sabe que un dato es atípico, si su valor no se encuentra en el intervalo (Q1 – 1,5⋅⋅⋅⋅RI , Q3 + 1,5⋅⋅⋅⋅RI)

Detecte los posibles valores atípico en Y.

(Qk ≡ cuartil k RI ≡ Amplitud (rango) intercuartílica)