Estadística Descriptiva: 2. Medidas de Tendencia y Dispersión Ricardo Ñanculef Alegría...
-
Upload
joaquin-toro-vega -
Category
Documents
-
view
235 -
download
0
Transcript of Estadística Descriptiva: 2. Medidas de Tendencia y Dispersión Ricardo Ñanculef Alegría...
Estadística Descriptiva:2. Medidas de Tendencia y Dispersión
Ricardo Ñanculef AlegríaUniversidad Técnica Federico Santa María
Estadística Descriptiva Objetivo
• Obtener información desde una muestra, que permita entender o formular hipótesis acerca del fenómeno que se estudia.
• Herramientas básicas:
• Gráficos: descripciones cualitativas• Estadísticas: descripciones cuantitativas de la tendencia y variabilidad presente en una muestra.
Estadística Descriptiva Medidas de Tendencia y Dispersión
Medidas de Tendencia• Si tuvieramos que resumir en un sólo valor representativo todo el conjunto de observaciones, ¿qué valor usamos?.
Medidas de Tendencia
• Moda: Valor o clase de valores que se observa con mayor frecuencia en la muestra.
• Puede no existir o no ser único. • Funciona para cualquier tipo de dato: categóricos, ordinales ó numéricos.
Medidas de Tendencia
• Promedio o Media Muestral: Centro geométrico del conjunto de valores observados
• Requiere datos numéricos
n
iixx n
1
)/1(
Medidas de Tendencia
• Mediana: Se trata del valor que divide el rango de valores observados en dos mitades con el mismo número de observaciones
• Su cómputo requiere ordenar la muestra • Si tenemos un número impar de observaciones la mediana es exactamente el valor del centro: (n+1)/2 • Si tenemos un número par de observaciones la mediana se computa “usualmente” como el promedio de las observaciones n/2 y (n/2)+1
Medidas de Tendencia
• Robustez de la Media versus la Mediana
• La media es extremadamente sensible a situaciones en que hay valores numéricamente muy distantes del resto (outliers)• La mediana en cambio permite obtener valores más representativos en estos casos• Ejemplo: (1, 2, 2, 2, 3, 9)
Medidas de Tendencia
0,0000
0,0500
0,1000
0,1500
0,2000
0,2500
0,3000
0,3500
0,4000
0,4500
0,5000
4 5 6 70 1 2 3
Q1 Q2 Q3 Q4
Moda
MediaAritmética
Mediana
Rango
Medidas de Tendencia• Robustez de la Media versus la Mediana
Medidas de Tendencia
(…) en los 70 (…) la razón de los salarios del percentil noventa y el percentil diez era de 3.4 veces, en 2005 ésta estaba en alrededor de 5 veces
Medidas de Tendencia• Percentiles: valores que acumulan una cierta frecuencia relativa. El i-ésimo percentil es el primer valor que acumula al menos i/100
110,5 118,5 126,5 134,5 142,5 150,5 158,5102,5 166,50
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Medidas de Tendencia• Percentiles:
Si los datos se ordenan de orden ascendente de magnitud, entonces el percentil Pi para i = 1, 2, … 99
ssα
si xP 100
1s
ni
x )-(1 1s αxαP si
si es entero
en otro caso
Medidas de Tendencia• Cuartiles: valores que acumulan una frecuencias de 1/4 (Q1) , 2/4 (Q2) y 3/4 (Q3)
110,5 118,5 126,5 134,5 142,5 150,5 158,5102,5 166,5
Medidas de Tendencia• Cuartiles:
Si los datos se ordenan de orden ascendente de magnitud, entonces el cuartil Qi para i = 1, 2, 3
ssα
si xP 4
1s
ni
x )-(1 1s αxαP si
si es entero
en otro caso
Medidas de Tendencia
• Es muchos casos las medidas de tendencia anteriores deben o quieren calcularse sobre datos que ya han sido agrupados
Límites
106,5-114,5114,5-122,5122,5-130,5130,5-138,5138,5-146,5146,5-154,5154,5-162,5
Marca
110,5118,5126,5134,5142,5150,5158,5
FrecuenciasABS - REL - REL. AC. 5 0,125 0,125 3 0,075 0,2 5 0,125 0,325 8 0,2 0,525 6 0,15 0,675 7 0,175 0,85 6 0,15 1
Medidas de Tendencia
• La organización en clases permite reducir el efecto del ruido o errores en los datos: se pesa un intervalo y su frecuencia, no la frecuencia de un sólo valor
0
1
2
3
4
5
6
7
8
9
110,5 118,5 126,5 134,5 142,5 150,5 158,5
Histograma
Medidas de Tendencia
• Promedio o Media Muestral con datos agrupados
ni-1
ni
ni+1
C1 C3
k
iii
k
i
ii CfnCn
x11
C2
ni : Frec. relativa Clase i
fi : Frec. relativa Clase i
Ci : Marca Clase i
k : N° de clases
Medidas de Tendencia
• Moda con datos agrupados. La clase modal se determina como la clase con mayor frecuencia.
CML
aM
n1
nM
n2
D1 D2
21
1
DDD
aLModa M
L : Límite inferior Clase modal
aM : Amplitud Clase Modal (CM)
D1 : nM - n1
D2 : nM - n2
nM : Frec. absoluta Clase Modal
n1 : Frec. absoluta Clase anterior a CM
n2 : Frec. absoluta Clase posterior a CM
Medidas de Tendencia• Mediana con datos agrupados
Lae
fe L : Límite inferior Clase Mediana (C Me)
Fe-1 : Frec. Rel. Acumulada hasta antes (C Me)
fe : Frecuencia Rel. (C Me)
ae : Amplitud (C Me)
e
e
ee f
FaLM
121
ojiva
Fe-1
Medidas de Tendencia• Percentiles con datos agrupados
L
aPi
fPi
ojivaL :Límite inferior percentil i-ésimoFPi-1: Frec. Rel. acumulada hasta antes de la clase percentil i-ésimoaPi : Amplitud percentil i-ésimofPi : Frecuencia Rel. de la clase del percentil i-ésimo
i
i
i
P
P
Pi f
Fi
aLP1100
FPi-1
Medidas de Tendencia• Cuartiles con datos agrupados
L
aCi
fCi
ojivaL :Límite inferior cuartil i-ésimoFPi-1: Frec. Rel. acumulada hasta antes de la clase del cuartil i-ésimoaPi : Amplitud cuartil i-ésimofPi : Frecuencia Rel. de la clase del cuartil i-ésimo
i
i
i
C
C
Ci f
Fi
aLP14
FCi-1
Medidas de Tendencia: Valores representativos de toda la muestra:Media, Moda, Mediana, Quartiles y Percentiles.
Medidas de Dispersión• ¿Cómo damos cuenta de la variabilidad del conjunto de observaciones?: podemos medir las diferencias observadas con respecto a nuestras medidas de tendencia
Medidas de Dispersión• Índice de Variación: Frecuencia con que no se observa la moda o la clase modal en la muestra
mfT 1
Medidas de Dispersión
Datos NO Agrupados:
s2 : Variancia Muestralx : Media Aritméticaxi : i-ésimo valor observadon : Tamaño Muestra
n
ii xx
ns
1
22 )(1
Datos Agrupados:
fi : Frec. relativa Clase ixi : Marca Clase ix : Media Aritméticani : Frec. absoluta Clase in : Tamaño Muestrak : N° de clases
_
n
iii xxfs
1
22 )(
• Varianza Muestral: promedio de las diferencias al cuadrado con respecto a la media.
_
Medidas de Dispersión• Desviación Estándar: Raíz cuadrada de la varianza. • Tiene las mismas “unidades de medida” que las observaciones de la muestra
n
iii xxfs
1
2)(
Datos NO Agrupados:
n
ii xx
ns
1
2)(1
Datos Agrupados:
Medidas de Dispersión• Desviación Media: Promedio de las diferencias absolutas con respecto a la media. • Tiene las mismas “unidades de medida” que las observaciones de la muestra
Datos NO Agrupados:Datos Agrupados:
n
ii xx
nMD
1
||1
k
iii xxfMD
1
||
Medidas de Dispersión• Rango: Diferencia entre el máximo y el mínimo valor observado en la muestra. • Rango Percentil: Diferencia entre P90 y P10: aproximación más robusta al rango.
• Rango InterCuartílico: Distancia promedio de los cuartiles con respecto a la mediana (segundo quartil)
213 QQ
IQR
1090 PPPR
Medidas de Dispersión: grado de variabilidad con respecto a las tendencias: Tasa de Variación, Varianza Rango InterQuartílico.
BoxPlots
Q1 Q2 Q3
3 IRQ 3 IRQ Media
Valores Atípicos
Valores Atípicos
Mediana
Cuartiles 1, 2 y 3
BoxPlots
Q1 Q2 Q33 IRQ 3 IRQ
• Representación visual para describir, simultáneamente, varias características importantes tales como:
• Centro• Dispersión• Asimetría de la distribución• Identificación de las observaciones (valores) atípicas
BoxPlots en Matlab