Post on 22-Jan-2016
Estadística Descriptiva:4. Correlación y Regresión Lineal
Ricardo Ñanculef AlegríaUniversidad Técnica Federico Santa María
Estadística Descriptiva Objetivo
• Obtener información desde una muestra, que permita entender o formular hipótesis acerca del fenómeno que se estudia.
• Tipos de Análisis:
• Describir cómo se comporta una variable• Describir cómo una variable (digamos explicativa) afecta el comportamiento de a otra (digamos dependiente)• Describir cómo interaccionan varias variables
Estadística Descriptiva Correlación en Análisis Bivariado• Correlación: Medida cuantitativa del grado de asociación entre dos variables X e Y continuas
• Idea: Si X e Y están correlacionadas un cambio en X se corresponde con un cambio en Y y viceversa.
• Si un incremento en X genera un incremento en Y diremos que las variables están correlacionadas positivamente. En caso contrario diremos que están correlacionadas negativamente.
Estadística Descriptiva Correlación en Análisis Bivariado• Ejemplo: Columna del New York Times
Estadística Descriptiva Correlación en Análisis Bivariado• Covarianza: La idea es medir los cambios con respecto al nivel medio de cada variable
• Claramente generaliza la varianza: cov(x,x)• Problema: la medida depende de las magnitudes absolutas de x e y. Una mayor covarianza no significa mayor asociación
)()(1
),cov(1
yyxxn
yx i
n
ii
Estadística Descriptiva Correlación en Análisis Bivariado• Coeficiente de Correlación de Pearson: La idea es normalizar la covarianza con una medida de dispersión para X y para Y
• Medida acotada entre -1 y 1 (probarlo! se sigue de la desigualdad de Cauchy-Schwarz para productos puntos)
yxxy σσ
yxρ
),cov(
yyxxyx ,,, 2
Estadística Descriptiva Correlación en Análisis Bivariado• Observación: Si x e y tienen una relación lineal exacta
la correlación de Pearson es igual al signo de a
baxy
baxy ii bxay
)()(1
),cov(1
xaaxxxn
yx i
n
ii
)var(),cov( xayx
Estadística Descriptiva Correlación en Análisis Bivariado• Observación: Si x e y tienen una relación lineal exacta
la correlación de Pearson es igual al signo de a
baxy
baxy ii bxay
n
ii
n
ii xaax
nyy
ny
1
2
1
2 )(1
)(1
)var(
)var()var( 2 xay
Estadística Descriptiva Correlación en Análisis Bivariado• Observación: Si x e y tienen una relación lineal exacta
la correlación de Pearson es igual al signo de a
baxy
baxy ii bxay
)()var(),cov(
asignσσaxa
σσyx
ρxxyx
xy
Estadística Descriptiva Correlación en Análisis Bivariado• Correlación positiva (Pearson)
0xyρ
Estadística Descriptiva Correlación en Análisis Bivariado• Correlación negativa (Pearson)
0xyρ
Estadística Descriptiva Correlación en Análisis Bivariado• Correlación nula (Pearson)
0xyρ
Estadística Descriptiva Correlación en Análisis Bivariado• Limitaciones del Coeficiente de Pearson
81.0ρ
5.7Y12.4Yσ
Estadística Descriptiva Correlación en Análisis Bivariado• Limitaciones del Coeficiente de Pearson
81.0ρ
5.7Y12.4Yσ
Estadística Descriptiva Correlación en Análisis Bivariado• Limitaciones del Coeficiente de Pearson
81.0ρ
5.7Y12.4Yσ
Estadística Descriptiva Correlación en Análisis Bivariado• Limitaciones del Coeficiente de Pearson
81.0ρ
5.7Y12.4Yσ
Estadística Descriptiva Regresión
• Modelo de una variable y como función de otra x
• x se denomina la variable independiente • y se denomina la variable dependiente• ε es el residuo, la parte que no logra ser explicada por el modelo (f será usualmente una función determinista)
εXfY )(
Estadística Descriptiva Regresión
• Modelo de una variable y como función de otra x
• A partir de una muestra de valores de x e y, queremos encontrar un modelo apropiado.
• Qué tipo de función f utilizar?• Cómo seleccionar un modelo adecuado en base a la muestra de observaciones?
εXfY )(
Estadística Descriptiva Regresión
• ¿Qué función f utilizar?: Una función periódica?
εXfY )(
)()( 01 axsenaxf
Estadística Descriptiva Regresión
• ¿Qué función f utilizar? un polinomio?
εXfY )(
01
12
2)( axaxaxf
Estadística Descriptiva Regresión
• ¿Qué función f utilizar? una exponencial?
εXfY )(
)exp()( 01 xaaxf
Estadística Descriptiva Regresión
• ¿Qué función f utilizar? una logística?
εXfY )(
)exp(1)exp(
)(0
0
xaxa
xf
Estadística Descriptiva Regresión
• Graficar la muestra de valores (x,y) y estudiar la forma de la posible relación
εXfY )(
x
y
x
y
Estadística Descriptiva Regresión Lineal
• Una alternativa simple consiste en modelar y como función lineal de x, es decir
εxfy )(
01)( bxbxf
x
y
Estadística Descriptiva Regresión Lineal
• Una alternativa simple consiste en modelar y como función lineal de x, es decir
εxfy )(
01)( bxbxf 0b
xyb /1
x
y
x
y
Estadística Descriptiva Regresión Lineal
• ¿Qué parámetros b0 y b1 son apropiados para modelar la relación entre x e y?• Supongamos que hemos conseguido una muestra de n pares de valores x e y:
niii yxS 1:),(
),(,),,(),,( 2211 nn yxyxyxS
Estadística Descriptiva Regresión Lineal
• Ejemplo:
¿El financiamiento entregado a la autoridad Palestina contribuye a mitigar el conflicto en la región?
Estadística Descriptiva Regresión Lineal• Variables: X: financiamiento entregado a la autoridad palestina. Y: número de homicidios el año siguiente.
• Muestra: Si medimos x e y en los últimos años tenemos:
X Y
1999 0 75
2000 50 250
2001 450 500
2002 375 275
2003 190 210
2004 300 240
2005 290 375
2006 610 600
Estadística Descriptiva Regresión Lineal
• Graficando X versus Y
x
y
Estadística Descriptiva Regresión Lineal
• Graficando X e Y en cada año
Estadística Descriptiva Regresión Lineal
• Variables: X: financiamiento entregado a la autoridad palestina. Y: número de homicidios el año siguiente.
• Modelo: Postulamos un modelo lineal
εxfy )(
01)( bxbxf
Estadística Descriptiva Regresión Lineal
• Ajustar el modelo lineal consiste en buscar parámetros b0 y b1 que hagan el modelo adecuado • Cada combinación de parámetros genera una predicción para el valor de y asociado a x
01)( bxbxfy
Estadística Descriptiva Regresión Lineal
• b0 = 10 y b1 = 1
10)( xxfy
X Y f(X) Y-f(X)
1999 0 75 10 65
2000 50 250 60 190
2001 450 500 460 40
2002 375 275 385 - 110
2003 190 210 200 10
2004 300 240 310 -70
2005 290 375 300 75
2006 610 600 620 -20
Estadística Descriptiva Regresión Lineal
• b0 = 50 y b1 = 0.5
505.0)( xxfy
X Y f(X) Y-f(X) Anterior
1999 0 75 50 25 65 -
2000 50 250 75 175 190 -
2001 450 500 275 225 40 +
2002 375 275 237 38 - 110 -
2003 190 210 145 65 10 +
2004 300 240 200 40 -70 -
2005 290 375 195 85 75 +
2006 610 600 355 245 -20 +
Estadística Descriptiva Regresión Lineal
• b0 = 50 y b1 = 0.75
5075.0)( xxfy
X Y f(X) Y-f(X) Anterior
1999 0 75 50 25 25 -
2000 50 250 87.5 162 175 -
2001 450 500 387.5 112 225 -
2002 375 275 331.25 -56.25 38 +
2003 190 210 192.5 17.5 65 -
2004 300 240 275 -35 40 -
2005 290 375 267 107.5 85 +
2006 610 600 507.5 92.5 245 -
Estadística Descriptiva Regresión Lineal
• Lo que necesitamos es definir una función de error y encontrar los parámetros b0 y b1 que la minimizan
• Propuesta: minimizar error cuadrático, 22 )(),( xfyyxl
2201
2 ),( εbxbyyxl
x
y
Estadística Descriptiva Regresión Lineal
• Dada la muestra de observaciones buscamos el modelo que minimiza el error promedio
Sx
iiSx
iiSii
xfyyxlR 2)(),(
x
y
Sx
iiSi
bxbyR 201
Estadística Descriptiva Regresión Lineal
• Si los paramétros b0 y b1 minimizan
• Se debe verificar
Sx
iiSi
bxbyR 201
00
bRS 0
1
bRS
0
21
2
01
210
2
20
2
bR
bbR
bbR
bR
SS
SS
0 SR
0H
Estadística Descriptiva Regresión Lineal
• Ecuaciones normales: derivando
Sxii
S
i
bxbybR
0010
0011
Sxiii
S
i
xbxbybR
Estadística Descriptiva Regresión Lineal
• Ecuaciones normales: reordenando y dividiendo por n
0010
bxbybRS
002
1
11
xbxxy
bR
ii
iii
S
n
b
n
Estadística Descriptiva Regresión Lineal
• Despejando b0 en la primera y reemplazando en la segunda
01211
xxbyxxyi
ii
iin
b
n
21
211xbxxyxy
ii
iii
n
b
n )var(),cov( 1 xbyx
)var(),cov(
1 xyx
b
Estadística Descriptiva Regresión Lineal
• Estimadores de Mínimos Cuadrados del Modelo Lineal para Y en función de X
)var(),cov(
1̂ xyx
b xbyb 10ˆˆ
xbbxfy 10ˆˆ)(
Estadística Descriptiva Regresión Lineal• En nuestro ejemplo anterior, variables: X: financiamiento entregado a la autoridad palestina. Y: número de homicidios el año siguiente.
• Muestra
X Y
1999 0 75
2000 50 250
2001 450 500
2002 375 275
2003 190 210
2004 300 240
2005 290 375
2006 610 600
125.283x625.315y
Estadística Descriptiva Regresión Lineal• Calculamos la varianza de la variable predictora y la covarianza entre las variables x e y
X Y
1999 0 75 -283.125 -240.625 80160
2000 50 250 -233.125 -65.625 54350
2001 450 500 166.875 184.375 27850
2002 375 275 91.875 -40.625 8440
2003 190 210 -93.125 -105.625 8670
2004 300 240 16.875 -75.625 280
2005 290 375 6.875 59.375 50
2006 610 600 326.875 284.375 10685
yy xx 2)( xx
Estadística Descriptiva Regresión Lineal• Tenemos entonces que
X Y
1999 0 75
2000 50 250
2001 450 500
2002 375 275
2003 190 210
2004 300 240
2005 290 375
2006 610 600
2648),cov( yx3583)var( x
.74090)var(
),cov(1̂
xyx
b
125.283x625.315y
105.8577ˆˆ10 xbyb
Estadística Descriptiva Regresión Lineal• Predicciones de nuestro modelo
X Y f(x)
1999 0 75 105.8501
2000 50 250 142.8964
2001 450 500 439.2672
2002 375 275 383.6977
2003 190 210 246.6262
2004 300 240 328.1281
2005 290 375 320.7189
2006 610 600 557.8155
xbbxfy 10ˆˆ)(
Estadística Descriptiva Regresión Lineal• Predicciones de nuestro modelo (magenta)
x
y
Estadística Descriptiva Regresión Lineal• ¿Cómo juzgar cuantitativamente qué tan bueno es el modelo?: Análisis de Varianza.
2:)(
ii yyyS variabilidad total de Y
22 ˆ i
iii
iS yyεR variabilidad NO explicada por el modelo
2ˆˆ)ˆ( i
ii yyyS variabilidad explicada por el modelo
Estadística Descriptiva Regresión Lineal• ¿Cómo juzgar cuantitativamente qué tan bueno es el modelo?: Análisis de Varianza.
2ˆˆ)ˆ( i
ii yyyS variabilidad explicada por el modelo
yxbbxbbn
yi
ii 1010ˆˆˆˆ1ˆ
2ˆ)ˆ( i
i yyyS
Estadística Descriptiva Regresión Lineal• ¿Cómo juzgar cuantitativamente qué tan bueno es el modelo?: Análisis de Varianza.
2:)(
ii yyyS variabilidad total de Y
22 ˆˆ)( i
ii
ii yyyyyS
variabilidad NO explicada por el modelo
variabilidad explicada por el modelo
Estadística Descriptiva Regresión Lineal• Coeficiente de Determinación: Fracción de la variabilidad que sí es explicada por el modelo lineal
)()ˆ(
ySyS
D variabilidad explicada por el modelovariabilidad total de Y
SRySyS
D
)ˆ(
)ˆ( variabilidad explicadavariabilidad explicada +
variabilidad NO explicada
Estadística Descriptiva Regresión Lineal• Coeficiente de Determinación: Fracción de la variabilidad que sí es explicada por el modelo lineal
2102 ˆˆˆ)ˆ(
ii
ii yxbbyyyS
211ˆˆ)ˆ(
ii xbxbyS
xbyb 10ˆˆ
)var(ˆˆ)ˆ( 21
221 xnbxxbyS
ii
Estadística Descriptiva Regresión Lineal• Coeficiente de Determinación: Fracción de la variabilidad que sí es explicada por el modelo lineal
)var()var(ˆ
)()ˆ( 2
1
ynxnb
ySyS
D
)var()var(ˆ2
1
yxb
D
Estadística Descriptiva Regresión Lineal• Coeficiente de Determinación: Fracción de la variabilidad que sí es explicada por el modelo lineal
)var()var(
),(cov)var(
)var(ˆ 221
yxyx
yxb
D
)var(
),cov(1̂ x
yxb
22
)var()var(),(cov
xyρyx
yxD
yxxy σσ
yxρ
),cov( Coeficiente de correlación
de Pearson!!
Estadística Descriptiva Regresión Lineal• Transformaciones
x
y Cómo ajustar un modelo lineal sobre estas observaciones?