TEORÍA Mg. Ing. Susana Vanlesberg

81
Universidad Nacional del Litoral Facultad de Ingeniería y Ciencias Hídricas ESTADÍSTICA Ingenierías: RH-Amb- Agr TEORÍA Mg. Ing. Susana Vanlesberg

Transcript of TEORÍA Mg. Ing. Susana Vanlesberg

Page 1: TEORÍA Mg. Ing. Susana Vanlesberg

Universidad Nacional del Litoral

Facultad de Ingeniería y Ciencias Hídricas

ESTADÍSTICA

Ingenierías: RH-Amb-Agr

TEORÍAMg. Ing. Susana Vanlesberg

Page 2: TEORÍA Mg. Ing. Susana Vanlesberg

REGRESIÓNY CORRELACIÓN

Page 3: TEORÍA Mg. Ing. Susana Vanlesberg

• RETOMAMOS EL ESTUDIO DE VARIABLES QUE SE DISTRIBUYEN DE FORMA CONJUNTA

• El estudio de la asociación entre variables se hace a través de dos aspectos:

Page 4: TEORÍA Mg. Ing. Susana Vanlesberg

• ANÁLISIS DE REGRESIÓN: permite encontrar el modelo que vincula a las variables en cuestión, brindando así un mecanismo de pronóstico.

• ANÁLISIS DE CORRELACIÓN: determina la medida del grado de exactitud de la relación entre variables.

Page 5: TEORÍA Mg. Ing. Susana Vanlesberg

• Por ejemplo una empresa de servicios públicos establece la relación entre la temperatura diaria y la demanda de electricidad para predecir la necesidad del fluido eléctrico considerando las temperaturas diarias que se esperan para el mes siguiente. Algunas veces los directivos se apoyan en la intuición para juzgar la relación entre dos variables.

• Sin embargo, cuando los datos están disponibles, puede emplearse un procedimiento estadístico llamado análisis de regresión para obtener una ecuación que indique cuál es la relación entre las variables.

Page 6: TEORÍA Mg. Ing. Susana Vanlesberg

• Se comienza realizando el gráfico que permite visualizar a las variables y su comportamiento, es lo que se denomina Dispersiograma, ya que muestra la variabilidad o dispersión entre ambas variables.

Page 7: TEORÍA Mg. Ing. Susana Vanlesberg

DISPERSIOGRAMA

Page 8: TEORÍA Mg. Ing. Susana Vanlesberg

• REGRESIÓN LINEAL SIMPLE

• Es el análisis en el que se estudia la relación en la que interviene una variable independiente y una variable dependiente, que se aproxima mediante una línea recta.

• Al análisis en el que intervienen dos o más variables independientes se le llama análisis de regresión múltiple.

Page 9: TEORÍA Mg. Ing. Susana Vanlesberg

ECUACIÓN DE REGRESIÓN

iii β XαY

Page 10: TEORÍA Mg. Ing. Susana Vanlesberg

ΙΙΙ

β XαY ii

i

Page 11: TEORÍA Mg. Ing. Susana Vanlesberg

• I se denomina parte sistemática

• II es la parte aleatoria

• Debido a esta parte aleatoria el proceso de obtención del modelo no es como la determinación del ajuste de una función matemática a una serie de puntos.

Page 12: TEORÍA Mg. Ing. Susana Vanlesberg

α y β parámetros del modelo, deberán ser estimados

Xi variable independiente, fija, conocida, variable explicativa.

ε término de error aleatorio

Page 13: TEORÍA Mg. Ing. Susana Vanlesberg

Supuestos del modelo de regresión

• - Ɛ es una variable aleatoria cuyo valor esperado es cero: E (Ɛ)= 0.• -La varianza de Ɛ, es la misma para todos los valores de x.

Var(ε) =σ2

• Implicancia. La varianza de Y respecto al modelo de regresión es igual a σ2

y es la misma para todos los valores de x.• - Los valores de Ɛ son independientes.• Implicancia. El valor de Ɛ correspondiente a un determinado valor de x no

está relacionado con el valor de Ɛ para cualquier otro valor; por tanto, el valor de y correspondiente a un valor particular de x no está relacionado con el valor de y de ningún otro valor de x.

• - El término del error Ɛ es una variable aleatoria distribuida normalmente.• Implicancia. Como Y es una función lineal de Ɛ, también será una variable

aleatoria distribuida normalmente.

Page 14: TEORÍA Mg. Ing. Susana Vanlesberg

• Lo que se determina es que para cada valor fijo de x existen distintos valores de la variable dependiente, ya que ella tiene parte aleatoria y eso provoca que se tengan subpoblaciones para cada valor de x.

• Cada una de estas distribuciones tiene su propia media o valor esperado.

• A la ecuación que describe la relación entre el valor esperado de y, que se simboliza E(y), y x se le llama ECUACIÓN DE REGRESIÓN.

Page 15: TEORÍA Mg. Ing. Susana Vanlesberg
Page 16: TEORÍA Mg. Ing. Susana Vanlesberg

Significado de los parámetros

α : intercepción de la línea de regresión con el eje Y.

β : pendiente de la recta, proporción de cambio en la media de la distribución de

probabilidad de Y por unidad de cambio de X.

Page 17: TEORÍA Mg. Ing. Susana Vanlesberg

ESTIMACIÓN DE LOS PARÁMETROS DEL MODELO

• Método de Mínimos cuadrados

Debido a que se pretende encontrar el mejor modelo que ajuste a la nube de puntos se utiliza este método.

• Se parte de considerar que la subpoblación de Y es normal, y que la suma de los cuadrados de las desviaciones de las observaciones respecto de la recta verdadera sea mínima

Page 18: TEORÍA Mg. Ing. Susana Vanlesberg
Page 19: TEORÍA Mg. Ing. Susana Vanlesberg

Se parte de considerar las distancias entre valores observados y estimados a través del modelo de regresión

n

i

ii

n

i

iiii

n

i

ii

bXaYSluego

bXaYYYS

XYS

1

2

1

2

1

2

ˆˆ

Page 20: TEORÍA Mg. Ing. Susana Vanlesberg

Los estimadores a y b de los parámetros serán aquellos que minimicen el valor de S:

0

S0

S

n

i

iii

n

i

ii

XYXS

XYS

1

1

2

2

Page 21: TEORÍA Mg. Ing. Susana Vanlesberg

Luego:

n

ii

n

i

n

i

iiii

n

i

n

i

ii

XbXaYX

XbnaY

1 1

2

1 1

0

0

Page 22: TEORÍA Mg. Ing. Susana Vanlesberg

xbya

SS

mb

XX

YYXX

b

xx

n

i

i

n

i

ii

22

1,1

1

2

1

cov

Page 23: TEORÍA Mg. Ing. Susana Vanlesberg

• El análisis de regresión no puede entenderse como un procedimiento para establecer una relación de causa y efecto entre las variables. Sólo indica cómo o en qué medida las variables están relacionadas una con otra. Cualquier conclusión acerca de una relación causa y efecto debe basarse en los conocimientos de los especialistas en la aplicación de que se trate.

• Hay que tener cuidado al usar la ecuación de regresión estimada para hacer predicciones fuera del rango de valores de la variable independiente, ya que fuera de ese rango no puede asegurarse que esta relación siga siendo válida.

Page 24: TEORÍA Mg. Ing. Susana Vanlesberg

Varianza de la regresión

Page 25: TEORÍA Mg. Ing. Susana Vanlesberg

• Se suele llamar ecuación predictiva a la ecuación de regresión, ya que su principal objetivo es predecir valores medios de la variable dependiente asociados con un valor dado de la variable independiente.

• Para saber si realmente es conveniente utilizar esta ecuación como herramienta de predicción, puede analizarse la variabilidad del valor estimado a través del modelo de regresión.

Page 26: TEORÍA Mg. Ing. Susana Vanlesberg

• La medida numérica de la desviación de las observaciones respecto al modelo es el estimador de la varianza de la regresión poblacional:

• S2y/x =Se

2

Page 27: TEORÍA Mg. Ing. Susana Vanlesberg

• El análisis de la varianza de regresión se basa en la partición de la suma de cuadrados.

La variación de las variables dependientes Yi generalmente se mide en términos de las desviaciones respecto al valor medio:

Page 28: TEORÍA Mg. Ing. Susana Vanlesberg
Page 29: TEORÍA Mg. Ing. Susana Vanlesberg

• La variación total siempre se mide respecto al valor medio:

n

i

i YY1

2

Page 30: TEORÍA Mg. Ing. Susana Vanlesberg

• Cuanto mayor es este valor, mayor es la variación de la curva ajustada respecto a las observaciones.

Utilizando el modelo ajustado, la variación total queda expresada de acuerdo a la diferencia con los valores ajustados:

Page 31: TEORÍA Mg. Ing. Susana Vanlesberg
Page 32: TEORÍA Mg. Ing. Susana Vanlesberg

• Con base en el modelo de regresión y sus supuestos, podemos decir que σ2, la varianza de Ɛ, representa también la varianza de los valores de y respecto de la recta de regresión.

• Las desviaciones de los valores de y respecto de la recta de regresión estimada se denominan residuos o residuales.

• La suma de los cuadrados de los residuales, es una medida de la variabilidad de las observaciones reales respecto de la línea de regresión estimada: SCE Suma de cuadrados residuales o error.

Page 33: TEORÍA Mg. Ing. Susana Vanlesberg

• Si se divide SCE por los grados de libertad que en este caso es (n-2) ya que a partir de la muestra se obtienen 2 estimadores puntuales de los parámetros, se obtiene una estimación puntual insesgada de la varianza de regresión σ2 que es desconocida:

Page 34: TEORÍA Mg. Ing. Susana Vanlesberg

i i

iiii

ii

bxayyySCE

xbay

22 )()ˆ(

ˆ

Page 35: TEORÍA Mg. Ing. Susana Vanlesberg

• El error estándar de estimación es la raíz de S2

y/x

2

2

/

n

SCEECMS xy

Page 36: TEORÍA Mg. Ing. Susana Vanlesberg

Análisis de la tabla de Varianza de regresión:

• Generalmente del análisis hecho con los softwars se obtiene una tabla que resume el análisis de cuadrados que permite obtener la varianza , los residuos y que sirve también para otros análisis de bondad del modelo.

Page 37: TEORÍA Mg. Ing. Susana Vanlesberg
Page 38: TEORÍA Mg. Ing. Susana Vanlesberg

• POR EJEMPLO:

ANÁLISIS DE VARIANZA

Grados de libertadSuma de

cuadradosPromedio de los

cuadrados

Regresión 1 1701032,819 1701032,819

Residuos 21 1493449,89 71116,66145

Total 22 3194482,71

Varianza estimada de la regresión

Page 39: TEORÍA Mg. Ing. Susana Vanlesberg

Interpretación

• Regresión, error y total son las etiquetas de las tres fuentes de variación, y SCR, SCE y STC son las sumas de cuadrados correspondientes que aparecen en la columna 2.

• En la columna 3 se indican los grados de libertad 1 para SCR ya que en este caso la variable independiente es 1, n - 2 para SCE y n -1 para STC.

• ECM es el cuadrado medio debido al error y es lo que se calculó como varianza de la regresión.

Page 40: TEORÍA Mg. Ing. Susana Vanlesberg

Estimadores de los parámetros

• La base para inferencia referida a los parámetros de la regresión la proporcionan las propiedades de la distribución de muestreo de a y b, obtenidos mediante el método de mínimos cuadrados.

• Considerar qué ocurriría si para el mismo estudio de regresión se usaran muestras aleatorias diferentes. No puede esperarse que se obtenga exactamente la misma ecuación. Los estimadores a y b, obtenidos por el método de mínimos cuadrados, son estadísticos muestrales que tienen su propia distribución de muestreo.

• Se presentan las propiedades de la distribución de muestreo de cada uno:

Page 41: TEORÍA Mg. Ing. Susana Vanlesberg

• Distribución muestral de b:Valor esperado: se obtiene de aplicar el operador esperanza a la expresión de b y trabajarlo matemáticamente:

Desvío estándar: se obtiene de aplicar el operador varianza y trabajar matemáticamente

Y distribución muestral Normal

)(bE

2

2

)()(

:σparaestimadodesvíoelcony

)()(

xx

SbS

xxb

i

i

Page 42: TEORÍA Mg. Ing. Susana Vanlesberg

• Y esto permite encontrar intervalos de confianza especialmente para la pendiente de la regresión:

)(1 bStb

Page 43: TEORÍA Mg. Ing. Susana Vanlesberg

• Distribución muestral de a:

De la misma forma, se obtiene la esperanza:

Desvío estándar: se obtiene de aplicar el operador varianza y trabajar matemáticamente:

Y distribución muestral Normal

)(

)()()()(

aE

XXXbEYEXbYEaE

n

i

i XX

X

na

1

2

222 1

Page 44: TEORÍA Mg. Ing. Susana Vanlesberg

• Y esto permite encontrar el intervalo de confianza para la ordenada del modelo de regresión:

)(1 aSta

Page 45: TEORÍA Mg. Ing. Susana Vanlesberg

• Estos intervalos también se brindan en la salida de regresión que se obtiene de aplicar este análisis en los softwars:

• Por ejemplo:

Coeficientes Error típico Inferior 95% Superior 95%

Intercepción -1032,201975 432,099881 -1930,80287 -133,6010803

Pendiente 437,7332939 89,50327239 251,6010495 623,8655383

Page 46: TEORÍA Mg. Ing. Susana Vanlesberg

Uso de la ecuación de regresiónestimada para estimación y predicción• Si existe una relación significativa entre x

e y, y se determina que la ecuación de regresión estimada es adecuada entonces es útil para usarla para estimación y predicción.

• Tanto los intervalos de confianza como los de predicción indican la precisión de los resultados de la regresión. Los intervalos más estrechos proporcionan un mayor grado de precisión.

Page 47: TEORÍA Mg. Ing. Susana Vanlesberg

• Las estimaciones puntuales no proporcionan información alguna acerca de la precisión de una estimación. Para eso es necesario obtener estimaciones por intervalo que son muy parecidas a las ya estudiadas.

• El primer tipo de estimación por intervalo, es el intervalo de confianza de una estimación del valor medio de las y que corresponden a un valor dado de x.

• El segundo tipo, el intervalo de predicción, se usa cuando se necesita una estimación por intervalo de un solo valor de y para un valor dado de x.

• La estimación puntual del valor medio de y es igual a la estimación puntual de un solo valor de y. Pero las estimaciones por intervalo que se obtienen para estos dos casos son diferentes. En un intervalo de predicción el margen de error es mayor ya que los errores para caso son diferentes.

Page 48: TEORÍA Mg. Ing. Susana Vanlesberg

Predicción

• Predicción: es la estimación del valor medio de Y dado un valor particular de X:

• Se considera la recta de regresión y su precisión.

a + bX es el estimador insesgado de α + βX, su distribución es normal, ya que es una combinación lineal de variables aleatorias normales.

Entonces la variación depende de la variación o error en ambos estimadores, o sea en a y b:

hh bXaY ˆ

Page 49: TEORÍA Mg. Ing. Susana Vanlesberg

• En general, no se puede esperar que sea exactamente igual a

• Para hacer una inferencia acerca de qué tan cerca está de la media verdadera es necesario estimar la varianza de . La fórmula para estimar la varianza de para un xp dado, es

py

pyE ˆ

py pyE ˆ

py

py pyS ˆ2

Page 50: TEORÍA Mg. Ing. Susana Vanlesberg

Intervalo de confianza para el valor medio

pynp Sty ˆ2;1ˆ

Page 51: TEORÍA Mg. Ing. Susana Vanlesberg
Page 52: TEORÍA Mg. Ing. Susana Vanlesberg

Intervalo de predicción para un solo valor de y (Pronóstico)

• Para obtener un intervalo de predicción, es necesario determinar primero la varianza correspondiente al uso de como estimación de un valor individual de y cuando a x= xp. Esta varianza está formada por la suma de los dos componentes siguientes:

• 1. La varianza de los valores individuales de y respecto de la media para la cual una estimación está dada por

• 2. La varianza correspondiente al uso de para estimar para la cual una estimación está dada por

py

pyE ˆ 2S

py pyE ˆ

pyS ˆ2

Page 53: TEORÍA Mg. Ing. Susana Vanlesberg

• La expresión para estimar la varianza de un valor individual de yp, Sind es:

2

2

2

2

2

22

2

ˆ

22

)(

)(11

)(

)(1

xx

xx

nS

xx

xx

nSS

SSS

i

p

i

p

yind p

Page 54: TEORÍA Mg. Ing. Susana Vanlesberg

• Luego el intervalo es:

indnp Sty 2;1

ˆ

Page 55: TEORÍA Mg. Ing. Susana Vanlesberg
Page 56: TEORÍA Mg. Ing. Susana Vanlesberg

Análisis de Correlación

Page 57: TEORÍA Mg. Ing. Susana Vanlesberg

• Brinda medidas que dicen cuan fuerte o importante es la asociación entre las variables

Page 58: TEORÍA Mg. Ing. Susana Vanlesberg

Se analizan los coeficientes de

Correlación y Determinación

Page 59: TEORÍA Mg. Ing. Susana Vanlesberg

Coeficiente de Correlación ρ

1 - Las variables X e Y son variables aleatorias, esto significa que no es fijo decir variable dependiente o independiente, cualquiera de las dos puede ser la

variable independiente o a la inversa.

2 - Las variables proceden de una población Normal bivariada, o sea X e Y están distribuidas

conjuntamente como normal.

3 - X e Y tienen cada una distribución Normal

Page 60: TEORÍA Mg. Ing. Susana Vanlesberg

4 - La relación entre X e Y es lineal ; este supuesto implica decir que las medias de Y para valores de X

caen sobre la recta Yi = α + β Xi , de la misma manera que para

Xi = α + β Yi

5 - Si las dos rectas de regresión ( con X dependiente o con Y dependiente) son iguales, quiere decir que la

relación es perfecta.

Page 61: TEORÍA Mg. Ing. Susana Vanlesberg

Coeficiente de Correlación poblacional:

yxyx

yx

yx

YEXE

YXE

1,1

22

cov

)()(

))((

Page 62: TEORÍA Mg. Ing. Susana Vanlesberg

Variación de ρ

),cov(

1

)1,0(..

,

yx

, luego: iguales a y σσ Siendoσσ

Cov(xy)ρ

NsonavlasSi

) N(x e y son

)μ)(yμ(xECov(x,y)

yx

yx

yx

Page 63: TEORÍA Mg. Ing. Susana Vanlesberg

11

022

0211

02

adasestandariz normales variables

ρ-

ρ

ρ

Cov Var(y*) Var(x*)

y*ex*

y*)Var(x*

Page 64: TEORÍA Mg. Ing. Susana Vanlesberg

Coeficiente de correlación muestral

yx

i

i

i

i

i

ii

SS

m

yyxx

yyxx

r1,1

22 )()(

)()(

ˆ

Page 65: TEORÍA Mg. Ing. Susana Vanlesberg

Coeficiente de determinación

• Se parte del mismo análisis realizado para la Varianza de regresión, la partición de cuadrados:

Page 66: TEORÍA Mg. Ing. Susana Vanlesberg
Page 67: TEORÍA Mg. Ing. Susana Vanlesberg

(SCError))y(y

R)aos (SCdebid)yy(

s) (SCTotale)y(y

)y(y)yy()y(y

i

ii

i

i

i

i

i

ii

i

i

i

i

2

2

2

222

ˆ

ˆ

ˆˆ

Page 68: TEORÍA Mg. Ing. Susana Vanlesberg

SCT

SCE

SCT

SCR

SCT

SCR

SCT

SCT

SCT

SCE

SCRSCTSCE

1

Page 69: TEORÍA Mg. Ing. Susana Vanlesberg

SCT

SCR

SCT

SCEr 12

Page 70: TEORÍA Mg. Ing. Susana Vanlesberg

r2 varía entre 0 y 1, ya que SCR es menor o igual que SCT.

Algunos comentarios:

Si SCE = 0, implica que SCR = SCT, luego r2 es igual a 1. Esto significa que todos los puntos están sobre la recta

estimada.

Page 71: TEORÍA Mg. Ing. Susana Vanlesberg

Si SCR = 0, implica que SCE = SCT, con lo cualr 2 = 0

Esto significaría que la pendiente de la recta es igual a cero. Esto puede

deberse a que la línea de regresión sea horizontal.

Esto puede ser relacionado a distintas causas:

Page 72: TEORÍA Mg. Ing. Susana Vanlesberg

• las observaciones se dispersan alrededor del valor medio en forma aleatoria.

Page 73: TEORÍA Mg. Ing. Susana Vanlesberg

• todas las observaciones tienen el mismo valor, cualquiera sea el valor de x

Page 74: TEORÍA Mg. Ing. Susana Vanlesberg

• las observaciones se dispersan alrededor de una curva tal que la línea mejor ajustada es una línea recta horizontal

Page 75: TEORÍA Mg. Ing. Susana Vanlesberg

Análisis de residuos: confirmación de los supuestos del modelo

• Otro análisis interesante y que ayuda a confirmar si el modelo es adecuado es el análisis de residuos.

• Como ya se indicó, el residuo de la observación i es la diferencia entre el valor observado de la variable dependiente (yi) y el valor estimado de ella usando el modelo de regresión iy

Page 76: TEORÍA Mg. Ing. Susana Vanlesberg

• Se plantearon al comienzo los siguientes supuestos para el término del error Ɛ:

• 1. E (Ɛ)= 0

• 2. La varianza de Ɛ, σ2, es la misma para todos los valores de x.

• 3. Los valores de Ɛ son independientes.

• 4. El término del error Ɛ tiene una distribución Normal.

Page 77: TEORÍA Mg. Ing. Susana Vanlesberg

Se puede hacer el análisis de los residuos para saber si se cumplen esos supuestos:

Page 78: TEORÍA Mg. Ing. Susana Vanlesberg
Page 79: TEORÍA Mg. Ing. Susana Vanlesberg

Gráfica de probabilidad normal

• Otro enfoque para determinar la validez del supuesto de que el término del error tiene una distribución normal es la gráfica de probabilidad normal.

• Se usa S en lugar de σ, la distribución de probabilidad de los residuos estandarizados no es técnicamente normal. Sin embargo, en la mayoría de los estudios de regresión el tamaño de la muestra es suficientemente grande para que una aproximación normal sea muy buena.

Page 80: TEORÍA Mg. Ing. Susana Vanlesberg

• También puede hacerse un histograma de los residuos, un diagrama box plot, etc o bien verificar las características del modelo Normal de estos residuos: coincidencia de los valores de la media , mediana y moda, y el valor de asimetría aproximadamente igual a cero y la kurtosis próxima a tres.

Page 81: TEORÍA Mg. Ing. Susana Vanlesberg

0

2

4

6

8

10

12

14

16

18

20

Fre

cuen

cia

Clase

Histograma de residuos

Frecuencia