Regresin Lineal por Mnimos Cuadrados
Anlisis NumricoTema 4. Ajuste de curvas I: Regresin Lineal
M. P. Vassileva, J. G. Maim
Instituto Tecnolgico de Santo Domingo (INTEC),Repblica Dominicana
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos Cuadrados
Contenido:
ObjetivosIntroduccinRepaso de la estadsticaRegresin lineal por mnimos cuadradosLinealizacin de relaciones no linealesMnimos cuadrados lineales en general
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal
Introduccin
En caso de que se asocia un error sustancial con los datos, la mejor estrategia parael ajuste de curva es derivar una funcin de aproximacin que se adapte a la formao la tendencia general de los datos sin que necesariamente coincida con todos lospuntos individuales. Una forma de hacer esto es inspeccionar visualmente y los datosrepresentados a continuacin para trazar la mejor lnea a travs de los puntos.
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal
Introduccin
El ejemplo ms simple es el acondicionamiento de una lnea recta a un conjuntode pares de observaciones: (x1, y1), (x2, y2), ..., (xn, yn). Estamos interesados endeterminar la recta que mejor se ajusta a los datos
y = mx+ b (1)
donde m y b son coeficientes que representan la pendiente y el origen, respectiva-mente. Si los puntos (x1, y1), (x2, y2), ..., (xn, yn) estuvieran exactamente sobre larecta tendramos:
yi = mxi + b (2)
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal
Introduccin
Como algunos de estos puntos no estn necesariamente sobre la recta, tenemos
yi = mxi + b+ di (3)
donde di es la desviacin vertical del punto (xi, yi) a la recta deseada (error resi-dual). La cantidad di puede ser positiva, negativa o cero.
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal
Introduccin
El error residual entre el modelo y las observaciones puede ser representado por lareordenacin de la ecuacin (3) como
di = yi mxi b (4)
Por lo tanto, el valor residual es la diferencia entre el valor real de y, y el valoraproximado, mx+ b, predicho por la ecuacin lineal.
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal
Criterios para un ajuste "mejor"
Una de las estrategias para la obtencin de la mejor lnea a travs de los datos seraminimizar la suma de los errores residuales para todos los datos disponibles, comoen
ni=1
di =ni=1
(yi mxi b) (5)
donde n = nmero total de puntos.
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal
Criterios para un ajuste "mejor"
Sin embargo, este es un criterio inadecuado, como se ilustra en la figura (a), querepresenta la forma de una lnea recta a dos puntos. Obviamente, la mejor opcines la lnea que une los puntos. Sin embargo, cualquier recta que pasa por el puntomedio de la lnea de conexin (a excepcin de una lnea perfectamente vertical) dalugar a un valor mnimo de la ecuacin (5) igual a cero, ya que los errores positivosy negativos se cancelan.
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal
Criterios para un ajuste "mejor"
Una forma de eliminar el efecto de los signos podra ser reducir al mnimo la sumade los valores absolutos de las divergencias, como en
ni=1
|di| =ni=1
|yi mxi b| (6)
La figura (b) demuestra por qu este criterio producir un ajuste no nico: cualquierlnea recta que cae dentro de las lneas discontinuas reducir al mnimo la suma delos valores absolutos de los residuos.
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal
Criterios para un ajuste "mejor"
La tercer estrategia para obtencin de la mejor lnea es el criteriominimax. En estatcnica, se elige la lnea que minimiza la distancia mxima que un punto concretoest de la lnea. Como se representa en la figura (c), esta estrategia es poco adecuadopara la regresin, ya que da la influencia indebida a un valor atpico, es decir, unsolo punto con un gran error.
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal
Criterios para un ajuste "mejor"
Una estrategia que supera las deficiencias de los enfoques mencionados anterior-mente es reducir al mnimo la suma de los cuadrados de los residuos:
Sr =ni=1
d2i =ni=1
(yi mxi b)2 (7)
Este criterio, que se denomina mnimos cuadrados, tiene varias de ventajas, inclu-yendo que produce una lnea nica para un conjunto dado de datos. Antes de hablarde estas propiedades, vamos a presentar una tcnica para determinar los valores dem y b que minimizan la ecuacin (7).
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal
Ajuste por mnimos cuadrados de una lnea recta
Para determinar los valores de los coeficientes m y b, derivamos la ecuacin (7) conrespecto a cada coeficiente:
Sr
b= 2
ni=1
(yi mxi b)
Sr
m= 2
ni=1
[(yi mxi b)xi]
Si igualamos estas derivadas a cero obtendremos el mnimo de Sr. Si hacemos esto,las ecuaciones pueden expresarse como
ni=1
yi ni=1
mxi ni=1
b = 0
ni=1
yixi ni=1
mx2i ni=1
bxi = 0
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal
Ajuste por mnimos cuadrados de una lnea recta
Ahora, al darse cuenta de que
b = nb, podemos expresar las ecuaciones comoun sistema de dos ecuaciones lineales simultneas con dos incgnitas (m y b):
ni=1
yi =
(ni=1
xi
)m+ nb
ni=1
yixi =
(ni=1
x2i
)m+
(ni=1
xi
)b
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal
Ajuste por mnimos cuadrados de una lnea recta
Estos se llaman las ecuaciones normales. Ellos pueden resolverse simultneamentepara
m =nni=1 xiyi
ni=1 xi
ni=1 yi
nni=1 x
2i
(ni=1 xi
)2 (8)Utilizado este resultado obtenemos:
b = y mx (9)
donde x y y son los medios de x y y, respectivamente.
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal
Ajuste por mnimos cuadrados de una lnea recta
Problema 1:
En la fabricacin del producto XXX, la cantidad de compuesto presente escontrolada por la cantidad del ingrediente utilizada en el proceso. Al fabricar ungaln de XXX, se registraron la cantidad de usada y la cantidad de presente,obtenindose los siguientes datos:
3 4 5 6 7 8 9 10 11 12 4.5 5.4 5.7 6.6 7.0 7.7 8.5 8.7 9.5 9.7
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal
Ajuste por mnimos cuadrados de una lnea recta
Problema 1:
La figura muestra la grfica de los puntos de la tabla
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal
Ajuste por mnimos cuadrados de una lnea recta
Problema 1:
i xi yi x2i xiyi
1 3 4.5 9 13.52 4 5.5 16 223 5 5.7 25 28.54 6 6.6 36 39.65 7 7.0 49 496 8 7.7 64 61.47 9 8.5 81 76.58 10 8.7 100 879 11 9.5 121 104.510 12 9.7 144 116.4
75 73.4 645 598.6
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal
Ajuste por mnimos cuadrados de una lnea recta
Problema 1:
Las medias se pueden calcular como x = 75/10 = 7.5 y y = 73.4/10 = 7.34. Lapendiente m y la interseccin b se pueden calcular con las ecuaciones (8) y (9)como
m =nni=1 xiyi
ni=1 xi
ni=1 yi
nni=1 x
2i
(ni=1 xi
)2 = 10(598.6) 75(73.4)10(645) 752 = 0.583b = y mx = 7.34 0.583(7.5) = 2.967
La ecuacin de la lnea recta que mejor se ajusta a los datos es
y = mx+ b = 0.583x+ 2.967
Utilizando esta ecuacin podemos estimar el valor de presente en el productoXXX. Por ejemplo, si la utilizada es 30 onzas/galn, entonces la presente enel producto XXX ser 0.583(30) + 2.967 = 20.457 onzas/galn.
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal
Ajuste por mnimos cuadrados de una lnea recta
Problema 1:
La figura muestra la grfica de los puntos de la tabla y la mejor lnea obtenida
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal
Cuantificacin del error de regresin lineal
Recordemos que la suma de los cuadrados se define segn la ecuacin (7) como
Sr =ni=1
(yi mxi b)2 (10)
Ntamos la similitud entre esta ecuacin y la ecuacin
St =ni=1
(yi y)2 (11)
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal
Cuantificacin del error de regresin lineal
En la ecuacin (8), el cuadrado de el residual representa el cuadrado de la diferenciaentre los datos y una estimacin de la medida de tendencia central - la media. En laecuacin (7), el cuadrado del residual representa el cuadrado de la distancia verticalentre los datos y otra medida de la tendencia central de la lnea recta que estamostrado en la siguiente figura.
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal
Cuantificacin del error de regresin lineal
La analoga se puede ampliar an ms los casos en quea) la difusin de los puntos alrededor de la lnea es de magnitud similar a lo
largo de toda la gama de los datos yb) la distribucin de estos puntos sobre la lnea es normal.
Se puede demostrar que si se cumplen estos criterios, de regresin de mnimos cua-drados proporcionar la mejor estimacin dem y b. Esto se conoce como el principiode mxima verosimilitud en las estadsticas. Adems, si se cumplen estos criterios,la desviacin estndar de la lnea de regresin se puede determinar como
sy/x =
Sr
n 2 (12)
donde sy/x se denomina el error estndar de la estimacin.
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal
Cuantificacin del error de regresin lineal
El subndice de la notacin de sy/x indica que el error es un valor predicho de ycorrespondiente a un valor particular de x. Tambin, observamos que ahora dividi-mos por n 2, ya que se utilizaron dos estimaciones de derivadas para calcular Sr,por lo que hemos perdido dos grados de libertad.As como fue el caso con la desviacin estndar, el error estndar de la estimacincuantifica la propagacin de los datos. Sin embargo, sy/x cuantifica la extensinalrededor de la lnea de regresin en contraste con la desviacin estndar sy quecuantifica la propagacin alrededor de la media.
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal
Cuantificacin del error de regresin lineal
Estos conceptos se pueden utilizar para cuantificar la bondad de nuestro ajuste.Esto es particularmente til para la comparacin de varias regresiones (vase lafigura).
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal
Cuantificacin del error de regresin lineal
Para ello, volvemos a los datos originales y determinamos la suma total de loscuadrados alrededor de la media de la variable dependiente (en nuestro caso, ) Stque representa la magnitud del error residual asociado con la variable dependienteantes del ajuste. Despus de realizar el ajuste, podemos calcular Sr, la suma delos cuadrados de los residuos alrededor de la lnea de regresin que caracteriza elerror residual que queda despus del ajuste. La diferencia entre las dos cantidades,St Sr, cuantifica la reduccin de error.
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal
Cuantificacin del error de regresin lineal
Debido a que la magnitud de esta cantidad es dependiente de la escala, la diferenciase normaliza respecto a St para producir
r2 =St SrSt
(13)
donde r2 se llama coeficiente de determinacin y r es el coeficiente de correlacin.Para un ajuste perfecto, Sr = 0 y r2 = 1, lo que significa que todos los datos (100%se encuentran sobre la lnea. En caso de que St = Sr y r2 = 0 significa que el ajusteno representa ninguna mejora.
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal
Cuantificacin del error de regresin lineal
Continuacin del Problema 1:
Calcule la desviacin total estndar, el error estndar de la estimacin, y elcoeficiente de correlacin para el ajuste.
i xi yi (y y)2 (yi mxi b)21 3 4.5 8.0656 0.0466562 4 5.5 3.3856 0.0404013 5 5.7 2.6896 0.0331244 6 6.6 0.5476 0.0182255 7 7.0 0.1156 0.0023046 8 7.7 0.1296 0.0047617 9 8.5 1.3456 0.0817968 10 8.7 1.8496 0.094099 11 9.5 4.6656 0.0144010 12 9.7 5.5696 0.069169
75 73.4 St = 28.364 Sr = 0.404926
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal
Cuantificacin del error de regresin lineal
Continuacin del Problema 1:
Calculamos la desvisin estndar sy
sy =
St
n 1 =
28.364
10= 2.8364 (14)
y el error estndar de la estimacin
sy/x =
Sr
n 2 =
0.404926
10= 0.0404926 (15)
Por lo tanto, debido sy/x < sy , el modelo de regresin lineal tiene mrito. Lamedida de la mejora se cuantifica por
r2 =28.364 0.404926
28.364= 0.985723945 (16)
o r =
0.985723945 = 0.992836313. Estos resultados indican que 98.57% de laincertidumbre original ha sido explicada por el modelo lineal.
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal