REGRESIOacuteN LINEAL
TEMA 2
ESTUDIO CONJUNTO DE DOSVARIABLES
Tendremos una variable bidimensional (xy) que se referiraacute a dos caracteriacutesticas de un mismo individuo
Cada fila indica los datos de un individuoEn cada columna se expresan los valores que toma una variable sobre los individuos
Podemos representar las observaciones en un diagrama de dispersioacuten o nube de puntos En eacutel cada individuo es un punto cuyas coordenadas son los valores de las variablesSi las variables estaacuten correlacionadas el graacutefico mostraraacute alguacuten nivel de correlacioacuten (tendencia) entre las dos variables Si no hay ninguna correlacioacuten el graacutefico presentariacutea una figura sin forma una nube de puntos dispersos El punto (119909119910119910) representa siempre el centro de gravedad de la nube de puntos
DIAGRAMAS DE DISPERSIOacuteN O NUBE DE PUNTOSY RELACIOacuteN ENTRE VARIABLES
Diagrama de Dispersioacuten correspondiente al ejemplo anterior Al aumentar la concentracioacuten de soacutelidos suspendidos en el agua parece que aumenta la turbidez de la misma
RELACIOacuteN ENTRE VARIABLES
Se pueden considerar otros tipos de modelos en funcioacuten del aspecto que presente el diagrama de dispersioacuten (regresioacuten no lineal)
Incluso se puede considerar el que una variable dependa de varias (regresioacuten muacuteltiple)
COVARIANZA DE DOS VARIABLES X E Y Para saber que tipo de relacioacuten hay entre las dos
variables se emplea la covarianza 119878119878119909119909119909119909
Muestra el grado de variacioacuten conjunta de cada una de las variables a su media
119878119878119909119909119909119909 =sum119894119894=1119873119873 119909119909119894119894 minus 119909 119910119910119894119894 minus 119910119910
119873119873Operando y simplificando queda
119878119878119909119909119909119909 =sum119894119894=1119873119873 119909119909119894119894119910119910119894119894
119873119873minus 119909 119910119910
REGRESIOacuteN LINEAL
Recta de regresioacuten de 119910119910119909119909
119962119962 = 119939119939119939119939 + 119938119938Es la recta que hace miacutenimo el error cuadraacutetico medio
ECMy =1119873119873
119894119894=1
119873119873
119910119910119894119894 minus 119887119887119909119909119894119894 minus 119886119886 2
Debemos calcular los coeficientes a y b que hacen que el error cuadraacutetico medio sea miacutenimo Es decir la suma de las distancias al cuadrado entre los puntos reales (los que nos proporciona la distribucioacuten ) y los teoacutericos o calculados a traveacutes de la recta de regresioacuten
REGRESIOacuteN LINEAL
119889119889ECMy
119889119889119887119887=
2119873119873119894119894=1
119873119873
minus119909119909119894119894 119910119910119894119894 minus 119887119887119909119909119894119894 minus 119886119886 = 0
119889119889ECMy
119889119889119886119886=
2119873119873119894119894=1
119873119873
minus1 119910119910119894119894 minus 119887119887119909119909119894119894 minus 119886119886 = 0
Derivamos las dos expresiones y llegamos al siguiente sistema de ecuaciones
119887119887 sum1199091199091198941198942+asum119909119909119894119894 = sum119909119909119894119894 119910119910119894119894
119887119887119909119909119894119894 + 119886119886119873119873 = 119910119910119894119894
Operando y simplificando llegariacuteamos a la ecuacioacuten de la recta en la forma punto pendiente
119910119910 minus 119910119910 =1199041199041199091199091199091199091199041199041199091199092
119909119909 minus 119909
Por tanto los coeficientes a y b valdriacutean
119887119887 = 1199041199041199091199091199091199091199041199041199091199092
119886119886 = 119910119910 minus 119887119887119909
A la pendiente de la recta se le llama coeficiente de regresioacuten de la recta 119910119910119909119909 y es igual al valor del coeficiente b es decir
El signo de la pendiente de la recta coincide con el signo de la covarianza
119887119887 =1199041199041199091199091199091199091199041199041199091199092
REGRESIOacuteN LINEAL
De la misma manera con la misma nube de puntos podriacuteamos calcular la recta de regresioacuten de xy
119909119909 = 119887119887xy119910119910 + 119886119886xy En este caso predice el valor de x como funcioacuten de y Se procede igual que para la recta de yx de todas las rectas
que componen la nube de puntos se coge aquella que hace miacutenimo el error cuadraacutetico medio
EC119872119872119909119909 =1119873119873119894119894=1
119873119873
119909119909119894119894 minus 119887119887119910119910119894119894 minus 119886119886 2
Hace que los residuos con respecto de x sean miacutenimos
119889119889EC119872119872119909119909
119889119889119887119887= 0
119889119889EC119872119872119909119909
119889119889119889119889=0
Procediendo al igual que en la anterior recta calculada la ecuacioacuten final queda
El coeficiente de regresioacuten de xy es119887119887xy =
119904119904119909119909119909119909119904119904y2
La pendiente de la recta es119887119887xy
x minus x =1199041199041199091199091199091199091199041199041199091199092
y minus y
CONCLUSIONES
Las pendientes de las dos rectas frasl119909119909 119909119909 e frasl119909119909 119909119909 tienen el mismo signo (el de la covarianza)Las dos rectas pasan por el punto 119909119909 119910119910 y se cortan en ese punto
ANAacuteLISIS DEL AJUSTE
Se realiza porCoeficiente de correlacioacuten lineal de Pearson rEstudio de las varianzas residuales
COEFICIENTE DE CORRELACIOacuteN LINEAL
Indica si los puntos presentan una tendencia a alinearse Cuanto maacutes alineados estaacuten los puntos de la nube entre ellos mejor es el ajuste y maacutes parecidas son las dos rectas que podemos obtener de un diagrama de dispersioacuten frasl119909119909 119909119909 e frasl119909119909 119909119909
1199031199032 =119887119887119909119909119909119909
1119887119887119909119909119909119909
rarr 119887119887119909119909119909119909119887119887119909119909119909119909 le 1
COEFICIENTE DE CORRELACIOacuteN LINEAL
119903119903 =119878119878119909119909119909119909119878119878119909119909119878119878119909119909
Doacutende 119903119903 = coeficiente de correlacioacuten lineal 119878119878119909119909119909119909=Covarianza de las variables X Y 119878119878119909119909= Desviacioacuten tiacutepica de X 119878119878119909119909= Desviacioacuten tiacutepica de Y
Toma el signo de la covarianza y su valor oscila entre -1 y 1A r2 se le denomina coeficiente de determinacioacuten
Toma valores entre 0 y 1
CORRELACIOacuteN ENTRE LAS VARIABLES
Si 119903119903 = minus1 rarr Ajuste perfecto frasl119909119909 119909119909 = frasl119909119909 119909119909 y pendiente negativa
Si 119903119903 = 1 rarr Ajuste perfecto frasl119909119909 119909119909 = frasl119909119909 119909119909 y pendiente positiva
Si 119903119903 = 0 rarr No existe correlacioacuten entre las variables
Las rectas frasl119909119909 119909119909 e frasl119909119909 119909119909son perpendiculares
17
EJEMPLOS DE COEFICIENTES DE CORRELACIOacuteN
r=0130
80
130
180
230
280
330
140 150 160 170 180 190 200
r=0430405060708090
100110120130
140 150 160 170 180 190 200
r=0830
40
50
60
70
80
90
100
140 150 160 170 180 190 200
r=09930
40
50
60
70
80
90
100
140 150 160 170 180 190 200