regresion

12

description

trabajo de regresion

Transcript of regresion

Page 1: regresion

UNIVERSIDAD NACIONAL DE COLOMBIA

FACULTAD DE CIENCIAS

Departamento de Estadística

Análisis de Regresión

Alexander Avella 162990

Andres Flórez 162989

Johan Piñeros 162986

Semestre 2014-IIBogotá D.C

1

Page 2: regresion

Taller 1. Regresión Lineal Simple

1.

a) Dados los datos de la tabla B.1 [1] donde encontramos los valores de distintas variables para 28 equipos de laliga nacional de futbol en 1976, ajustaremos un modelo que relacione las yardas ganadas por los contrarioscon la cantidad de juegos ganados, utilizamos el paquete Rcmdr del programa R para tratar los datos ygenerar el modelo, a continuación se muestra la salida de R y su respectiva interpretación estadística

Es decir:

y = β0 + β1xy = (21,789) + (−0,0070)x

Donde x son las yardas ganadas por los contrarios.

Como β1 es negativo, sabemos que tiene una relación inversa, es decir cuando el número de yardas aumentalos partidos ganados disminuye, así como se evidencia en el diagrama de dispersión.

b) La tabla de análisis de varianza para este modelo se calculó a partir de las salidas de R de la siguientemanera;

2

Page 3: regresion

Como Residual Standard Error = 2,393 entonces podemos calcular:

CME = (2,393)2 = 5, 73

además como:

CME =SCEn− 2

entoncesCME(n− 2) = SCE

en este casoSCE = (5, 73)(26) = 148,88

Ahora, sabemos además que la estadística F está dada por:

Fc =CMR

CME= 31,1

Luego para nuestro propósito

CMR = (31,1)CME = (31,1)(148,88) = 178,09

Así, completamos los datos necesarios para construir la tabla de análisis de varianza

F. de V. G.L. Suma de Cuadrados Cuadrados Medios FcRegresión 1 178.09 178.09Error 26 148.88 5.726 31.1Total 27 326.98 N/A

b-2) Prueba de Signi�cado del Modelo:

Como es importante mirar la prueba de hipótesis H0 : β1 = β10 vs H1 : β1 6= β10, para probar la sig-ni�cancia de la regresión nos toca mirar lo que pasa cuando β10 = 0 y mirar si se rechaza o no la hipótesisnula.El procedimiento de prueba lo realizaremos con un estadístico t el cual será

t0 =β1 − β10

Sβ1

=β1

Sβ1

y la hipótesis de la signi�cancia de la regresión se rechaza si |t0| > t(n−2,α2 )

Como tenemos que β1 = −0,0070 y Sβ1= 0,0012 entonces nuestro estadístico será t0 = −5,577

Ahora por la tabla de la distribución t−student y escogiendo α = 0, 05 tenemos que t(26, 0,025) = 2,055,por lo tanto rechazamos H0 : β1 = 0 y concluimos que hay una relación lineal entre la cantidad de yardasganadas por tierra y la cantidad de juegos ganados por un equipo.

c) El intervalo de con�anza del 95 % para la pendiente esta dado por:

β1 − t(n−2,α2 )Sβ1≤ β1 ≤ β1 + t(n−2,α2 )Sβ1

y en este caso es {−0,0096 , −0, 00443}

3

Page 4: regresion

d) Para observar el porcentaje de variabilidad que explica el modelo, calculamos el coe�ciente de determinación;

R2 =SCRSCT

=178,09

326,98= 0,5447

Es decir, el modelo explica el 54,47 % de la variabilidad total

e) El intervalo de con�anza de 95 % para la cantidad promedio de juegos ganados, si la distancia ganadas porlos contrarios es de 2000, esta dado por:

Es decir6,76 ≤ E(y|2000) ≤ 8,71

2. En el escenario anterior, usaremos el modelo para hacer pronosticos, en especial, queremos pronosticar los juegosque ganará un equipo que pueda limitar los avances de los contrarios a 1800 yardas. Así la estimación y elintervalo al 90 % son:

Más claro:y0 = 9,14

4,93 ≤ y0 ≤ 13,35

Los siguientes puntos, se desarrollaron siguiendo la metedología del primer punto, a continuación se presentanlos resultados puntuales para cada caso en particular

4

Page 5: regresion

3. La tabla B.2 [1] contiene los datos reunidos durante un proyecto de energía solar en el Tecnolgico de Georgia,donde se quiere mirar la relación que existe entre el �ujo total de calor �y� (kilowatts) y la de�exión radial delos rayos desviados �x� (milirradianes).

a) El modelo de regresión lineal para este caso es:

y = 607, 10− 21, 40x

Como β1 es negativo, sabemos que tiene una relación inversa, como se observa en el diagrama de dispersión.

b) La tabla de análisis de varianza para este punto es:

F. de V. G.L. Suma de Cuadrados Cuadrados Medios FcRegresión 1 10582.73 10582.73Error 27 4104.78 152.02 69.61Total 28 14687.51 N/A

b-2) t0 = −8,343 y tomando α = 0, 05 tenemos que t(27, 0,025) = 2,0518, por lo tanto rechazamos H0 : β1 = 0 yconcluimos que hay una relación lineal entre el �ujo total de calor y la de�exión radial de los rayos desviados.

c) El intervalo de con�anza de 99 % para la pendiente es {−28, 5099 , −14, 2949}

5

Page 6: regresion

d) R2 = 0, 7205 , por lo tanto el modelo explica el 72, 05 % de la variabilidad total.

e) Un intervalo de 95 % de con�anza para el �ujo promedio de calor, cuando la de�exión radial es 16, 5milirradianes es {249, 1468 , 258, 7787}

4. En la tabla B.3 [1] se encuentran los rendimientos en millas por galón de gasolina de 32 diferentes automóviles.Para estos datos ajustaremos un modelo de regresión lineal simple que relacione el rendimiento de la gasolina�y� (millas por galón) con el cilindráje del motor “x1� (pulgadas cúbicas).

a) Se tiene que el modelo de regresión lineal queda de la forma:

y = (33,75) + (−0,047)x1

Como vemos en el modelo de regresión, la relación de las variables es inversa, es decir a mayor cilindrájede motor, menor es el rendimiento de gasolina.

6

Page 7: regresion

b) La tabla de análisis de varianza, para estos datos queda de la siguiente forma:

F. de V. G.L. Suma de Cuadrados Cuadrados Medios FcRegresión 1 956.022 956.022Error 30 281.46 9.38 101.9Total 31 1237.48 N/A

b-2) Como t0 = −10,10, y t(30,0,025) = 2,0423, por lo tanto se rechaza H0 : β1 = 0 , y se concluye que existe unarelación lineal entre el rendimiento de gasolina y el cilindráje del motor.

c) R2 = 0,7726 , por lo que el modelo de regresión explica el 77.26% de la variabilidad total.

d) El intervalo de con�anza de 95 % para el rendimiento promedio de gasolina, si el desplazamineto del motores de 275 pulgadas cúbicas es {19, 58274 , 21, 80217}

e) Un intervalo de con�anza de 95% pronosticado para el rendimiento de gasolina si se supone un carro conun cilindraje de 275 pulgadas cúbicas es {14,34027 , 27,04464}, y el valor puntual seria de 20,69246.

f ) El intervalo pronosticado es mas amplio, pues la varianza es mayor, pues se le suma 1, que es la delrendimiento promedio. Además los dos intervalos estan centrados en y y solo di�eren en la varianza comose dijo anteriormente, debido a la mayor variabilidad del error de predicción para una única observación encomparación con el error del cálculo del promedio.

5. Tomando la misma tabla del punto anterior se realiza un modelo de regresion lineal entre el rendimiento degasolina �y� y el peso del automovil �x10�.

a) El modelo queda de la forma:y = 39, 96− 0, 0055x10

7

Page 8: regresion

Como vemos en el modelo de regresión, la relación de las variables es inversa, ya que β1 es negativo.

b) La tabla de análisis de varianza, queda de la siguiente forma:

F. de V. G.L. Suma de Cuadrados Cuadrados Medios FcRegresión 1 871.89 871.89Error 30 366.03 12.2 71.46Total 31 1237.92 N/A

b-2) Como t0 = −8,4528, y t(30,0,025) = 2,0423, por lo tanto se rechaza H0 : β1 = 0 , y se concluye que existeuna relación lineal entre el rendimiento de gasolina y el peso del automovil.

c) R2 = 0, 7049 , por lo tanto el modelo explica el 70, 49 % de la variabilidad total.

Dados los resultados, se evidencia que “x1� es mejor variable regresora para �y� que “x10� pues tanto el R2

como el R2 ajustados son mayores para el modelo realizado con “x1�

6. Se cree que la pureza del oxígeno producido con un proceso de fraccionamiento �y� está relacionada con el por-centaje de hidrocarburos en el condensador principal de la unidad de procesamiento �x�.

8

Page 9: regresion

a) El modelo de regresión lineal para este caso es:

y = 77, 863− 11, 801x

Como β1 es positivo, sabemos que tiene una relación directa, como se observa en la gra�ca de dispersión.

b) t0 = 3, 386 y tomando α = 0, 05 tenemos que t(18, 0,025) = 2,1009, por lo tanto rechazamos H0 : β1 = 0 yconcluimos que hay una relación lineal entre la pureza del oxígeno producido con un proceso de fracciona-miento y el porcentaje de hidrocarburos en el condensador principal de la unidad de procesamiento.

c) R2 = 0, 3891 , por lo tanto el modelo explica el 38, 91 % de la variabilidad total.

d) El intervalo de con�anza de 95 % para la pendiente es {4, 4790 , 19, 1229}

e) Un intervalo de 95 % de con�anza para la pureza media, cuando el porcentaje de hidrocarburos es 100 es{ 87,5101 , 91.8194}

9

Page 10: regresion

7. Para los datos del último año según la tabla del ejercicio 2.12 en [1] ajustaremos un modelo de regresión linealpara establecer la relación entre la cantidad de libras de vapor usadas en una planta con la temperatura ambientepromedio mensual

a) El modelo de regresión lineal para este caso es:

y = −6,3320977 + 9,20847x

Como β1 es positivo, sabemos que tiene una relación directa, como se observa en la gra�ca de dispersión.

10

Page 11: regresion

b) t0 = 272,278 y tomando α = 0, 05 tenemos que t(12 0,025) = 2,1788, por lo tanto rechazamos H0 : β1 = 0y concluimos que hay una relación lineal entre la cantidad de libras de vapor usadas en una planta con latemperatura ambiente promedio mensual

c) R2 = 0, 9999 , por lo tanto el modelo explica el 99, 99 % de la variabilidad total, es decir el modelo es muybueno y explica casi en su totalidad la variabilidad

d) Estos datos no respaldan la idea, ya que como se puede ver primero en el modelo la pendiente es la que nosrepresenta el cambio de la cantidad de libras de vapor usadas en una planta por mes por una unidad decambio en la temperatura y como β1 = 9, 20847 podemos ver que el cambio que se realiza es menor al quecree la planta. Tabién es importante tener en cuenta que aunque se tenga un aumento en la temperaturael mes es un factor importante, ya que si observamos el mes de Mayo y el de Octubre tuvieron una mismatemperatura pero no se obtuvo la misma cantidad de vapor usada.

e) Un intervalo de predicción de 99% para la cantidad de libras de vapor usada si la temperatura mensualpromedio es de 58◦ es {521,2237 , 534,2944}, y el valor puntual seria de 527,759.

8. Para demostrar los resultados, recordaremos que

β0 = y − β1x, V ar(β1) =σ2

Sxx, E(β0) = β0 y E(β1) = β1

COV (β0, β1) = −xσ2

Sxx

COV (β0, β1) = E[(β0 − E(β0))(β1 − E(β1))]

= E[(β0 − β0)(β1 − β1)]

Ahora como β0 = E(β0) = E(y − β1x) = y − β1x restamos β0 y β0 de lo cual:

β0 − β0 = y − β1x− (y − β1x) = y − β1x− y + β1x = −β1x+ β1x = (−x)(β1 − β1)

Luego

COV (β0, β1) = E[(−x)(β1 − β1)(β1 − β1)]

= (−x)E[(β1 − β1)(β1 − β1)]

= (−x)E[(β1 − β1)2]

= (−x)E[(β1 − E(β1)2]

= (−x)V ar(β1)

= (−x)(σ2

Sxx)

=−xσ2

Sxx

11

Page 12: regresion

COV (y, β1) = 0

COV (y, β1) = E[(y − E(y))(β1 − E(β1))]

Ahora como: y − E(y) = β0 + β1x− (E(β0 + β1x)) = β0 + β1x− (β0 + β1x) es decir:

COV (y, β1) = E[(β0 + β1x− (β0 + β1x))(β1 − E(β1))]

= E[(β0 + β1x− β0 − β1x)(β1 − E(β1))]

= E[(β0 + β1x− β0 − β1x)(β1 − β1)]

= E[(β0 − β0)(β1 − β1) + x(β1 − β1)2]

= E[(β0 − β0)(β1 − β1)] + E[x(β1 − β1)2]

= COV (β0, β1) + xE[(β1 − β1)2]

=−xσ2

Sxx+ xV ar(β1)

= − xσ2

Sxx+xσ2

Sxx= 0

Referencias

[1] Montgomery, D.C., Peck, E.A. y Vining G.G., Introducción al Análisis de Regresión Lineal, tercera edición,Cecsa, México, DF, 2006.

12