Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Tema 2: RegresiónGrado en Fisioterapia, 2010/11
Jesús Montanero Fernández
Cátedra de BioestadísticaUniversidad de Extremadura
8 de noviembre de 2010
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Índice
1 Regresión lineal simple
2 Regresión lineal múltipleEcuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
3 Regresión no lineal
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Índice
1 Regresión lineal simple
2 Regresión lineal múltipleEcuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
3 Regresión no lineal
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Índice
1 Regresión lineal simple
2 Regresión lineal múltipleEcuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
3 Regresión no lineal
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Regresión
¿En qué consiste?Es la explicación de una variable numérica a partir de una ovarias variables, también numéricas
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Regresión Lineal simple
Una variable explicativa
Longitud cabeza
9,0008,7008,4008,1007,800
An
ch
ura
ca
be
za
5,200
5,100
5,000
4,900
4,800
4,700
4,600
4,500
Página 1
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Modelo
Relación linealPoblación: Y ' α + βXMuestra: yi ' a + bxi. i = 1, . . . , n
Solución mínimo-cuadrática
minimizarn∑
i=1
[yi − (a + bxi)]2
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Estimación y contraste de hipótesis
Grado de correlación lineal
r2 =s2
xy
s2xs2
y
Recta de regresión y = a + bx
b =s2
xy
s2x, a = y− bx
Test de correlación¿Existe relación a nivel poblacional? ρ2 = 0⇔ β = 0
H0 : ρ2 = 0 ! r2, n
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ejemplo
Gráfico
Área de la cabeza
38,0036,0034,0032,00
Vel
oci
dad
lin
eal
150,0
140,0
130,0
120,0
110,0
100,0
Sq r lineal = 0,002
Página 1
Cálculosr2 = 0,002y = 110,387 + 0,338xP = 0,660
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Regresión lineal múltiple
Es la explicación de una variable numérica Y a partir de variasvariables numéricas. Para facilitar la notación hablaremosúnicamente de dos variables explicativas X y Z.
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
EjemploPredicción del peso de un feto mediante tres medidas CC, CA yLF proporcionadas por un ecógrafo.
VentajaMejor predicción
InconvenienteGráficos
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Diagrama de dispersión matricial
PesoCACCLF
LF
CC
CA
Pes
o
Página 1
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Modelo
Relación linealPoblación: Y ' β0 + β1X + β2ZMuestra: yi ' b0 + b1xi + b2zi. i = 1, . . . , n
Solución mínimo-cuadrática
minimizarn∑
i=1
[yi − (b0 + b1xi + b2zi)]2
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Ecuación de regresión
Cálculo de b0 ,b1 y b2
(b1
b2
)=
(s2
x sxz
szx s2z
)−1
·(
syx
syz
), b0 = y− (b1x + b2z)
EcografíaPeso ' -149.0+12.6Femur+9.8Cráneo-9.4Abdomen
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Medidas del grado de correlación
Tipos de coeficientes de correlación lineal (al cuadrado)SimpleMúltipleParcialMúltiple corregido
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Simples
r2xy, r2
xz, r2zy
Expresan la proporción de variabilidad de una variableexplicada linealmente por otra.
Cálculo (estimación)
r2xy =
s2yx
s2xs2
yr2
zy =s2
yz
s2z s2
yr2
xz =s2
zx
s2xs2
z
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Describen los gráficos de dispersión simples
PesoCACCLF
LF
CC
CA
Pes
o
Página 1
Correlaciones
1 ,682 ,661 ,8021 ,963 ,577
1 ,4201
LFCCCAPeso
LF CC CA Peso
Página 1
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Coeficiente de correlación múltiple
R2
Expresan la proporción de variabilidad de la variable respuestaexplicada linealmente por las otras.
Cálculo (estimación)
R2 =
(syx syz) ·(
s2x sxz
szx s2z
)−1
·(
sxy
szy
)s2
y
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Coeficientes de correlación parcial
r2yx,z r2
yz,x
r2yx,z: proporción de variabilidad de Y no explicada por Z que sí
es explicada por X.r2
yz,x: proporción de variabilidad de Y no explicada por X que síes explicada por Z.Ambos parámetros indican la aportación .en exclusiva"de lasvariables X y Z en la explicación de Y .
Cálculo (estimación)
r2yx,z =
R2 − r2yz
1− r2yz
r2yz,x =
R2 − r2yx
1− r2yx
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Coeficiente correlación múltiple corregido
R2
Introducir una variable explicativa inútil (con correlaciónparcial pequeña respecto a la variable respuesta) no puedeprovocar una disminución de R2 pero sí de R2, que se define demanera similar pero penalizando el exceso de variables.
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Predicciones
ObjetivosLa finalidad de la ecuación muestral y = b0 + b1x + b2z es:
Estimar los valores poblacionales β0, β1, β2 de la ecuación.Predecir el valor de Y que correspondería a un individuocon valores x y z conocidos
y = b0 + b1x+ b2z
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Fiabilidad
Intervalos de confianza para las prediccionesPodemos asignar un margen probable de error a la estimaciónobtenida que dependerá de los factores siguientes:
R2
nDistancia de (x,z) al centro (x, y).
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Hipótesis importantes
Los parámetros anteriormente definidos son estimaciones deanálogos poblaciones realizadas a partir de la muestra.
r2yx ρ2
yx
R2 ρ2
r2yx,z ρ2
yx,z
Se dan la siguientes equivalencias entre los coeficientes decorrelación y los parámetros de la ecuación:
ρ2 = 0⇔ β1 = β2 = 0ρ2
yx,z = 0⇔ β1 = 0ρ2
yz,x = 0⇔ β2 = 0
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Interpretación
Es decirρ2 = 0: todas las variables explicativas se multiplican por 0en la ecuación poblacional Y ' β0 + β1X + β2Zρ2
yx,z = 0: la variable X se multiplica por 0 en la ecuación.
Por lo tantoR2 no difiere significativamente de 0: b1 y b2 no difierensignificativamente de 0.r2
yx,z no difiere significativamente de 0: b1 no difieresignificativamente de 0.
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Contraste total
H0 : β1 = β2 = 0
Equivale a ρ2 = 0, es decir, a que X y Z no tengan capacidad deexplicar linealmente nada de Y . La decisión del test depende deR2 y n.
R2 ↑⇒ H1
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Ejemplo: lobos
R2 = 0,787Resumen del modelo
,887a ,787 ,659 2,11604Modelo1
R R cuadradoR cuadradocorregida
Error típ. de laestimación
Variables predictoras: (Constante), crown length, braincase width, palatal width-2, postpalatallength, interorbital width, palatal width-1, postg foramina width, zygomatic width, palatal length
a.
Página 1
P = 0,001ANOVAb
248,257 9 27,584 6,160 ,001a
67,164 15 4,478315,422 24
RegresiónResidualTotal
Modelo1
Suma decuadrados gl
Mediacuadrática F Sig.
Variables predictoras: (Constante), crown length, braincase width, palatal width-2, postpalatallength, interorbital width, palatal width-1, postg foramina width, zygomatic width, palatal length
a.
Variable dependiente: pesob.
Página 1
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Contrastes parciales
H10 : β1 = 0
Equivalen a ρ2yx,z = 0, es decir, a que X no tengan capacidad de
explicar linealmente nada de Y al margen de lo que ya expliqueZ. La decisión en ambos tests depende de n y r2
yx,z.
H20 : β2 = 0
Idem para Z. Depende de n y r2yz,x.
FinalidadEl objetivo de los tests parciales es depurar el modeloeliminando las variables que no añaden nada a la explicación.
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Ejemplo: lobos
Eliminaríamos todas salvo braincasewidth P = 0,002Coeficientesa
-6,588 16,660 -,395 ,698,365 ,191 ,611 1,909 ,076
-,352 ,214 -,490 -1,646 ,121,076 ,145 ,149 ,523 ,608
-,069 ,267 -,055 -,258 ,800,309 ,505 ,150 ,613 ,549
-,022 ,390 -,015 -,055 ,956,026 ,268 ,023 ,099 ,923,778 ,202 ,595 3,842 ,002,247 ,902 ,044 ,274 ,788
(Constante)palatal lengthpostpalatal lengthzygomatic widthpalatal width-1palatal width-2postg foramina widthinterorbital widthbraincase widthcrown length
Modelo1
B Error típ.
Coeficientes noestandarizados
Beta
Coeficientesestandarizad
ost Sig.
Variable dependiente: pesoa.
Página 1
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Selección de variables
Tests parcialesSon en principio los encargados de depurar el modeloeliminando las variables que aporten resultados nosignificativos (correlaciones parciales pequeñas).
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Problema importante
MulticolinealidadLas variables explicativas pueden correlacionar entre sí, lo cualda lugar a un efecto de "solapamiento"que no afecta a R2 ni a lafiabilidad de las predicciones, pero sí a los coeficientes decorrelación parciales.
ConsecuenciasLos coeficientes de regresión no son fiablesindividualmente aunque la ecuación sí lo sea globalmente.Aparecen demasiados resultados no significativos en lostests parciales.
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Ejemplo: ecógrafo
Multicolinealidad leve entre LF, CC y CAEcuación que permite obtener predicciones fiables pero cuyoscoeficientes no deberían interpretarse por separado. Estánsometidos a una fuerte variabilidad.
Peso ' -149.0+12.6Femur+9.8Cráneo-9.4Abdomen
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Multicolinealidad fuerte entre LF y LTiSi introducimos dos variables explicativas fuertementecorrelacionadas es muy probable que tengamos para ambasresultados no significativos en los tests parciales, aunque sucorrelación simple con Y sea alta. Las dos desaparecerían delmodelo.
Coeficientesa
-297,969 309,083 -,964 ,34231,214 38,125 1,917 ,819 ,418
9,724 ,974 1,904 9,985 ,000-9,355 ,906 -1,925 -10,328 ,000
-18,557 38,065 -1,142 -,488 ,629
(Constante)LFCCCALTi
Modelo1
B Error típ.
Coeficientes noestandarizados
Beta
Coeficientesestandarizad
ost Sig.
Variable dependiente: Pesoa.
Página 1
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Soluciones multicolinealidad
OpcionesProcurar que las variables explicativas no tengan relaciónentre sí.Trabajar con muestras muy grandes.Aplicar algoritmos de selección para optimizar elmodelo.Tomar decisiones "salomónicas": componentes principales.
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Álgoritmo I
Hacia delante
Plantear tantos modelos de regresión simples como variablesexplicativas haya. Efectuar el contraste de correlación en cadaunos de ellos.
Escoger la variable que aporte el resultado más significativo.Considerar los diferentes modelos de dos variables explicativasque se obtienen añadiendo a ésta cada una de las restantes.
Escoger la variable nueva que aporte el resultado mássignificativo en el test parcial
Así sucesivamente hasta que ninguna candidata aporte unresultado significativo.
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Álgoritmo II
Hacia atrásEfectuar todos los tests parciales en el modelo completo yexcluir la variable que aporte un resultado menossignificativo.Repetir el mismo método en el modelo reducido resultantey así hasta que todas las variables aporten resultadossignificativos (excepción: P<0.10).
Lo deseable es que ambos métodos conduzcan a un mismomodelo.
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Ejemplo: lobos
Hacia adelante: dos variables R2 = 0,712Coeficientesa
8,693 6,634 1,310 ,2031,052 ,162 ,805 6,506 ,000
-6,791 9,309 -,729 ,4731,006 ,151 ,769 6,658 ,000
,528 ,239 ,256 2,212 ,038
(Constante)braincase width(Constante)braincase widthpalatal width-2
Modelo1
2
B Error típ.
Coeficientes noestandarizados
Beta
Coeficientesestandarizad
ost Sig.
Variable dependiente: Total weighta.
Página 1
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
Ejemplo: lobos
Hacia adelante: cuatro variables R2 = 0,778Coeficientesa
-4,344 9,283 -,468 ,645,401 ,150 ,670 2,674 ,015
-,378 ,172 -,527 -2,202 ,040,115 ,062 ,225 1,852 ,079,769 ,162 ,588 4,733 ,000
(Constante)palatal lengthpostpalatal lengthzygomatic widthbraincase width
Modelo B Error típ.
Coeficientes noestandarizados
Beta
Coeficientesestandarizad
ost Sig.
Variable dependiente: Total weighta.
Página 1
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de regresiónCoeficientes de correlaciónPrediccionesContrastes de hipótesisSelección de variables
¿Lobos?
¿Regresión simple con braincase widthcon r2 = 0,648
braincase width
45,0042,5040,0037,5035,00
To
tal w
eig
ht
60,00
57,50
55,00
52,50
50,00
47,50
45,00
Sq r lineal = 0,648
Página 1
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Regresión no lineal
Edad días-Peso embrión
Edad embrión
16141210
Pe
so
Em
bri
ón
3.000
2.000
1.000
0
Página 1
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de Michaellis-Menten[S] 3.4 5.0 8.4 16.8 33.6 67.2 134.4V 0.10 0.15 0.20 0.25 0.45 0.50 0.53
0 20 40 60 80 100 120
0.1
0.2
0.3
0.4
0.5
S
V
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Solución
Transformar variables (logaritmo, inverso, etc) o trabajar confunciones polinómicas de las variables explicativas (parábolas,etc)
Ejemplo: exponancial
y = a · ebx ⇒ ln y = ln a + b · x
La relación entre X e Y no es lineal, pero entre X y ln Y sí lo es.
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Embrión: exponencial
y = ln y x = x
Edad en días
16141210
Ln
Pes
o
8,00
7,00
6,00
5,00
4,00
Sq r lineal = 0,997
Página 1
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Embrión: deshacemos el cambio
Peso = 1,86 · 1,58Edad r2 = 0,997
Edad en días
16141210
3000
2000
1000
0
Peso en mg.
Exponencial
Observada
Página 1
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Ecuación de Michaellis-Menten
X = 1/[s], Y = 1/Vy = 1,65 + 27,52x; r = 0,99
0.00 0.05 0.10 0.15 0.20 0.25 0.30
24
68
10
X
Y
Jesús Montanero Fernández Tema 2: Regresión
Regresión lineal simpleRegresión lineal múltiple
Regresión no lineal
Deshacemos el cambio
V =0,60[S]
16,67 + [S]
0 20 40 60 80 100 120
0.1
0.2
0.3
0.4
0.5
S
V
Vmax = 0,60 KM = 16,67
Jesús Montanero Fernández Tema 2: Regresión
Top Related