ANÁLISIS DE REGRESIÓN
Transcript of ANÁLISIS DE REGRESIÓN
ANÁLISIS DE REGRESIÓN
Y = f ( X1
, X2
, ......, Xj ; E
)
Análisis exploratorio
Análisis confirmatorio
ALGUNOS EJEMPLOS
Y : ventas mensuales de un producto
X1 : precio del producto cada mes
X2 : precio del competidor cada mes
X3 : gastos de publicidad cada mes
Y : cosecha anual de un cultivo en una región agrícola
X1 : área sembrada del cultivo cada año
X2 : lluvia caída en la región en un período del año
Y : demanda diaria de gas en una ciudad
X1 : pronóstico de la temperatura
X2 : demanda del día anterior
X3 : día feriado o laborable
MODELO LINEAL GENERAL
Y = B0 + B
1X
1 + B
2X
2 + ..... + B
jX
j + E
MODELO LINEAL SIMPLE
Y = B0 + B
1X + E
UN PRIMER EJEMPLO
Y : ventas mensuales de autos en unidades
X1 : gastos de publicidad en $ del mes anterior
X2
: tasa de interés anual en %
Y X1 X
2
5.298 24.000 8,5
8.100 32.000 9,2
4.506 14.000 9,7
4.816 23.000 11,0
9.768 45.000 9,8
6.486 28.000 11,5
2.022 14.000 11,5
4.676 19.000 12,0
5.524 25.000 12,0
4.152 26.000 12,2
MODELOS A EXPLORAR
Modelo 1 : Y = B0 + B
1X
1 + E
Modelo 2 : Y = B0 + B
2X
2 + E
Modelo 1, 2 : Y = B0 + B
1X
1 + B
2X
2 + E
MODELO 1
Y = B0 + B
1X
1 + E
FUNCIÓN DE REGRESIÓN POBLACIONAL
E(Y/X) = B0 + B
1X
1
FUNCIÓN PREDICTORA
yc = b0 + b
1X
1
NUBE DE PUNTOS
Y
X
*
*
*
*
*
*
*
*
* *
14 45
FP
ANÁLISIS CONFIRMATORIO
Aspecto 1 : Estimación de B0 y B
1
yc = b0 + b
1X
1
yc = 114,45 + 0,2168 X1
yc = 114,45 + 0,2168 * 24.000 = 5.318 U.
Aspecto 2 : Validación del modelo
¿Es ésta la mejor ecuación de predicción?
VALIDACIÓN DEL MODELO
Método 1: Coeficiente de determinación R2
0 < R2 < 1
¿Cuál es el valor apropiado de R2
?
Procesos físicos e industriales: 0,8 a 0,9
Variables macro y microeconómicas: 0,6 a 0,7
Sociología y Psicología: 0,4 a 0,6
VENTAS DE AUTOS
R2 = 0,83 = 83%
El 83% de los cambios en las ventas está
explicado estadísticamente por los cambios
en los gastos de publicidad
El 17% restante está explicado por fuentes
fortuitas (ruido)
Coeficiente de correlación ( -1 < R < 1 )
R = 0,911 = 91,1%
ACLARACIÓN
Un valor alto de R2 implica la existencia de
una relación estadística entre X e Y, pero no
demuestra que haya relación causa-efecto
Si existe causalidad implica que habrá una
relación estadística
Una relación estadística, por sí misma,
no implica causalidad
VALIDACIÓN DEL MODELO
Método 2 : Ensayo de hipótesis
B1 = 0
El rechazo de este supuesto con un riesgo
bajo, se considera una prueba concluyente de
la relación entre X e Y
En nuestro ejemplo se rechaza este supuesto
con un riesgo muy pequeño
LA VARIANZA RESIDUAL
Las diferencias entre las ventas
observadas y las estimadas con la
ecuación de predicción se llaman
“residuos”
El conjunto de esos residuos expresan la
variabilidad no explicada por el modelo, y
se resumen en un indicador que se llama
“varianza”
S2
MODELOS CANDIDATOS
Condiciones necesarias pero no suficientes
R2 mayor a 0,6
Menor S2
Un modelo puede tener un alto R2 y
ser el de menor S2, pero puede tener
problemas de superposición de
información
VEAMOS UN EJEMPLO
Y : facturación de una telefónica en millones de $
X1 : cantidad de clientes en miles
X2 : cantidad de líneas en miles
X1 X
2 Y
560,786 610,430 73,396987
243,599 256,974 27,391359
245,663 257,461 30,129529
193,859 202,154 29,303350
549,618 624,463 76,895378
124,064 130,299 19,082110
335,451 354,823 48,683583
217,950 228,314 34,188365
ANÁLISIS EXPLORATORIO
Modelo Ecuación de predicción R2 S
2
1 yc = 1,54 + 0,132X
1 0,97124 16,1
2 yc = 3,79 + 0,116X
2 0,97420 14,4
1, 2 yc = 4,24 - 0,03X
1 + 0,138X
2 0,97428 17,2
¿Cuáles son los modelos candidatos?
¿Cuál es el hecho anómalo que se observa en el
modelo 1, 2 ?
LA MULTICOLINEALIDAD
1. Es la existencia de fuertes asociaciones entre los datos
de las variables explicativas.
2. Conlleva errores muestrales altos para la estimación de
los parámetros, pudiendo producir signos contrarios a su
naturaleza.
3. Cuando hay multicolinealidad hay que ser precavido en la
predicción, no debe extrapolarse.
4. Es un problema que está contenido en los datos, y es
independiente del planteo teórico del modelo.
5. Es un problema de grado, no de ausencia o presencia.
¿CÓMO SE DETECTA?
El determinante de la matriz de correlaciones es
un indicador global de la multicolinealidad
0 < DET < 1
Si toma valor 0 la multicolinealidad es total y si
toma valor 1 hay ausencia absoluta
Si es menor a 0,1 el problema es severo
Siempre que agreguemos variables a un modelo
estaremos agregando multicolinealidad
PRINCIPIO DE PARSIMONIA
En la selección del mejor
modelo de Regresión Múltiple
deberá tener importancia
prioritaria la sencillez del
mismo, dada por el menor
número de variables
explicativas
EL PRESS Y EL CP
PRESS : Prediction Sum of Squares
Es una medida de la capacidad predictiva del modelo
A menor PRESS el modelo dará mejores pronósticos
CP : Coeficiente P ( P = cantidad de variables )
Indica si en un modelo hay pérdida de información
Para el modelo completo el CP es igual a P
Para modelos incompletos, si el CP es mucho mayor a P,
hay pérdida de información
ANÁLISIS EXPLORATORIO
1. Ventas de autos
2. Facturación de una telefónica
3. Consumo de vino
4. Humedad del tabaco
HUMEDAD DEL TABACO
DESCRIPCIÓN DE LAS VARIABLES
Y : Humedad del tabaco a la entrada del silo
X1 : Humedad del tabaco a la salida del secadero
X2 : Humedad ambiente
X3 : Temperatura ambiente
TABLA DE DATOS
y x1 x2 x3
17,10 18,27 70,0 26,50
16,99 18,41 70,0 26,50
16,55 17,85 62,0 30,50
18,20 19,80 62,0 30,50
16,80 18,20 60,0 31,00
17,70 19,96 53,0 29,00
16,50 18,75 50,0 29,00
15,40 17,63 50,0 29,00
TABLA DE INDICADORES
Modelos R2 S2 DET CP PRESS
1 0,718 0,2320 1 128,0 2,665
2 0,151 0,6973 1 392,9 7,229
3 0,002 0,8198 1 462,6 7,273
1, 2 0,958 0,0417 0,987 17,8 0,505
1, 3 0,720 0,2757 0,987 128,8 3,348
2, 3 0,211 0,2757 0,777 366,8 8,369
1, 2, 3 0,991 0,0105 0,783 4,0 0,176
MODELO CANDIDATO
Y = B0 + B1X1 + B2X2 + B3X3 + E
Coeficiente Desvío tobs Alfa VIF
b0 = -5,89
b1 = 0,8746 0,0457948 19,1 0,00 1,0
b2 = 0,0608 0,0053985 11,3 0,00 1,3
b3 = 0,0998 0,0251458 4,0 0,02 1,3
ECUACIÓN DE PREDICCIÓN
yc = b0 + b
1 .
X
1 + b
2 .
X
2 + b
3 .
X
3
yc = -5,89 + 0,8746 . X1 + 0,0608 . X
2 + 0,0998 . X
3
SOLUCIÓN AL PROBLEMA
¿Qué parámetro de humedad
debe tener el tabaco a la entrada del silo?
Respuesta: 16,55
ENTONCES
dada la ecuación
16,55 = -5,89 + 0,8746 . X1 + 0,0608 . 60 + 0,0998 . 27,5
la humedad a la salida del secadero debe ser:
X1 = 18,345
Los resultados prácticos que se obtuvieron
con este procedimiento fueron excelentes
BIBLIOGRAFÍA
GARCÍA, R. “Inferencia Estadística y Diseño de Experimentos”
Eudeba. Buenos Aires, 2004.
MYERS, R. “Classical and Modern Regression with Applications”
PWS-KENT, Boston.
CANAVOS, G. “Probabilidad y Estadística”
McGraw-Hill. México, 1987.
GUJARAT,I D. “Econometría”
McGraw-Hill. México, 1991.
HINES, W. – MONTGOMERY, D. “Probabilidad y Estadística para Ingeniería y
Administración”
CECSA. México, 1993.