Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... ·...
Transcript of Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... ·...
![Page 1: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/1.jpg)
Análisis Estadístico de
Datos Climáticos
Análisis Estadístico de
Datos Climáticos
Facultad de Ciencias – Facultad de Ingeniería
2013
Alvaro Díaz
Análisis exploratorio de datos univariados
![Page 2: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/2.jpg)
Datos univariados
Análisis exploratorio de datos(para tener una “primera impresión” de los datos)
![Page 3: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/3.jpg)
Datos climáticos
• Observaciones (datos medidos; datos interpolados) :Pueden ser in situ u obtenidas por sensoriamiento remoto (satélites, radares)
• Salidas de modelos numéricos:
Simulaciones o pronósticos (posibilidad de variar condiciones iniciales o de borde)
![Page 4: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/4.jpg)
La inspección visual de los datos es esencial!
Una simple gráfica puede mostrar características muy relevantes del conjunto de datos en cuestión.
También existen técnicas gráficas más sofisticadas para mostrar los datos, que permiten destacar algunos aspectos específicos de los mismos.
¿Hay tendencias?¿Datos faltantes?¿Outliers? (Datos atípicos)¿Saltos?
![Page 5: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/5.jpg)
• Robustez y resistencia
• Cuantiles (percentiles)
• Medidas numéricas de resumen
• Técnicas gráficas de resumen
Análisis exploratorio de datos univariados(Wilks, Cap. 3)
![Page 6: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/6.jpg)
Robustez y resistencia
Puede ser deseable que un método de análisis de datos sea
poco sensible a suposiciones sobre la naturaleza de los datos.
P. ej., que los resultados no dependan esencialmente de que
los datos sigan una distribución gaussiana o normal.
Un método es robusto cuando sus resultados no dependen
esencialmente de cuál sea la distribución de probabilidades de los datos.
Un método es resistente si no es influido considerablemente
por unos pocos datos atípicos (“outliers”)
![Page 7: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/7.jpg)
Ejemplo:
dado el conjunto
{11 12 13 14 15 16 17 18 19}
y el conjunto
{11 12 13 14 15 16 17 18 91}
Distintas medidas de “tendencia central”:En ambos casos, el valor central es 15, pero los promedios son 15 y 23 respectivamente.
![Page 8: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/8.jpg)
Estadísticos de orden de una muestra aleatoria
Sea { x1, x2, ..., xn } una muestra aleatoria de datos
Se ordenan en forma ascendente:
{ x(1), x(2) , ..., x(n) } son los estadísticos de orden
( cumpliéndose que x(1) ≤ x(2) ≤ …≤ x(n) )
Ej: {7 -2 1 7 -3 4 0}
⇒ {-3 -2 0 1 4 7 7}
![Page 9: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/9.jpg)
Cuantiles de una muestra aleatoria(percentiles, cuartiles, quintiles, deciles, etc)
Ej.: 1) Sea la muestra aleatoria {7 -2 2 7 -3 4 0}
¿Cómo podemos estimar un valor central que, en sentido amplio, deje probabilidad ½ a ambos lados?
ordenamos
⇒ {-3 -2 0 2 4 7 7}
Parece natural tomar un valor que deje la misma cantidad de datos a cada lado, en este caso el 2:
{-3 -2 0 2 4 7 7}. Se dice que la mediana de la muestra es 2.
q0.5 = 2
(“percentil 50”)
![Page 10: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/10.jpg)
Cuantiles…
Ej. 2) Sea ahora la muestra {7 1 7 -3 4 0} (tiene un número par de datos)
¿Cuál será la mediana?
⇒ {-3 0 1 4 7 7}
Convencionalmente, se suele tomar el promedio entre los dos valores centrales, o sea
(1 + 4) /2 = 2.5.
Pero, si no se tiene más información, podría elegirse cualquier valor en ese intervalo (1,4)
![Page 11: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/11.jpg)
Generalizando, sea p tal que 0 < p < 1.
Los p-quantiles (qp) ( o percentiles) son valores
que dejan, en cierto sentido, probabilidad p a su
izquierda, y probabilidad 1-p a su derecha.
• • •• • •••• •
p
•
1- p
qp
P(X ≤ qp) = p P(X ≥ qp) = 1 - p
![Page 12: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/12.jpg)
Estimación de los cuantiles
En general, los percentiles no son únicos y por lo tanto, no hayuna única forma de estimarlos.
Una forma posible para una muestra aleatoria de tamaño n es:
1)tomar los estadísticos de orden como los cuantiles(0.5/n), (1.5/n), ..., ([n-0.5]/n) respectivamente
2) para los cuantiles con probabilidades entre (0.5/n) y
([n-0.5]/n), se interpola linealmente.
3) los valores mínimo o máximo de la muestra se asignan a los cuantiles para probabilidades fuera de ese rango.
![Page 13: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/13.jpg)
Principales medidas numéricas de resumen de un conjunto de datos
1) Localización: ej. valor de “tendencia central” del conjunto
2) Dispersión: alrededor del valor central
3) Simetría: cómo están distribuidos losdatos respecto del valor central
4)…
![Page 14: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/14.jpg)
Localización
Media
Mediana q0.50
N
x
x
N
1i
i_ ∑
=
=
La mediana “divide el conjunto de datos en dos subconjuntos ordenados con igual cantidad de datos” .
Es importante que los cuantiles (en particular la mediana) permiten trabajar con estimaciones de probabilidades
Ambas están comprendidas entre el mínimo y el máximode la muestra.
Valores de “tendencia central”
![Page 15: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/15.jpg)
Ejemplo: (con muy pocos datos!!)
2 4 9 11 14
2 4 9 11 7004
8x_
=
1406x_
=
(outlier) ??
Localización
La media no es robusta ni resistente
Se puede estimar que P (X ≥ 9) ~ 0.5 ~ P(X ≤ 9)
![Page 16: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/16.jpg)
Los cuantiles más
usados…
• Mediana q0.5
• Cuartiles, q0.25 , q0.75
• Terciles, q0.33 , q0.66
• Quintiles, deciles,
• q0.05 q0.95
Localización
44442222 0.750.750.750.750.50.50.50.5 0.250.250.250.25 qqqqqqqqqqqq TrimediaTrimediaTrimediaTrimedia ++
=
![Page 17: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/17.jpg)
Robustez vs. Eficiencia
¿Por qué se usa más la media que la mediana?
Porque en el caso (“muy frecuente”) de una distribución gaussiana es un estimador más eficiente que la mediana:
con menos valores (o sea, una muestra más pequeña) se obtiene la misma dispersión del estimador.
Además, la media es más fácil de tratar matemáticamente, y es única para una muestra dada.
![Page 18: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/18.jpg)
Matlab
medianmediana
prctilepercentil
quantilecuantil
meanmedia
ComandoVariable
![Page 19: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/19.jpg)
Dispersión
• Intervalo intercuartil
IQR = q0.75 - q0.25
(Robusto y resistente)
“No usa” el 25% superior e inferior de los datos
![Page 20: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/20.jpg)
Dispersión
• Desviación estándar muestral
σ)x(x1N
1s
N
1i
2_
i ≈−
−
= ∑=
(σ2 = varianza de la población)
(Ni robusta ni resistente)
• Desviación absoluta de la mediana
MAD = median {|xi – q0.5|}
![Page 21: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/21.jpg)
Simetría
Coeficiente de asimetríade la muestra
Ambos son adimensionados
γ < 0
γ > 0
Indice de Yule-Kendall
![Page 22: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/22.jpg)
Técnicas gráficas de resumen
• Boxplots
• Histogramas
• Distribuciones de frecuencia acumulada
![Page 23: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/23.jpg)
Boxplots (“barritas”)
![Page 24: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/24.jpg)
0 10 20 30 40 50 60 70 80 90 100 110 120 130
. . . . .
Min = 3.20
q0.25 = 43.645
q0.50 = 60.345
q0.75 = 84.96
Max = 124.27
Boxplots (“barritas”)
![Page 25: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/25.jpg)
Temperatura diaria máxima en Melbourne
Se destacan valores extremos inusuales
![Page 26: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/26.jpg)
Histogramas
Además de dar idea sobre la localización, la dispersión, y la simetría, también muestran si los datos son multimodales
![Page 27: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/27.jpg)
Histogramas
Precipitación Rivera agosto 1914-1997
0 50 100 150 200 250 3000
5
10
15
20
25
mm
No.
de o
curr
encia
s
Precipitación Rivera agosto 1914-1997
mediana=78.5 mm
media = 97.9 mm
![Page 28: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/28.jpg)
Histogramas
Precipitación Rivera abril 1914-1997
mediana=110.5 mm
media = 141.7 mm
![Page 29: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/29.jpg)
Histogramas
![Page 30: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/30.jpg)
Distribuciones empíricas de frecuencia acumulada
Interesa P (X ≤ x),probabilidad de no excedencia
Mediana ~ 110.5 mm
P(X≤110.5) ~ 0.5
110.5 mm
P. ej. se puede estimar así: P(X ≤ x(i) )= (i - ½) / n
Es la “función inversa” del cuantil
![Page 31: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/31.jpg)
Distribuciones empíricas de frecuencia acumulada
![Page 32: Análisis Estadístico de Datos Climáticosmeteo.fisica.edu.uy/Materias/Analisis_Estadistico... · • Técnicas gráficas de resumen Análisis exploratorio de datos univariados (Wilks,](https://reader034.fdocumento.com/reader034/viewer/2022052611/5f083c197e708231d421009c/html5/thumbnails/32.jpg)
Matlab
ecdfDistr. de
frecuencia
acumulada
histhistograma
madDesv. abs.
de la mediana
iqrIntervalo intercuartil
std
var
Desviación estándar,
varianza
Comando“Variable”