Dinamicadelacomunicacion2asertividad ppt-090530211352-phpapp02
analisisderegresionycorrelacion-090712214219-phpapp02.ppt
-
Upload
yhony-carbajal-soto -
Category
Documents
-
view
213 -
download
0
Transcript of analisisderegresionycorrelacion-090712214219-phpapp02.ppt
Análisis de Regresión y Correlación
Muchas veces las decisiones se basan en la relación entre dos o más variables.Ejemplos
• Dosis de fertilizantes aplicadas y rendimiento del cultivo.
• La relación entre la radiación que reciben los sensores con la que se predicen los rendimientos por parcelas con los rendimientos reales observados en dichas parcelas.
• Relación entre tamaño de un lote de producción y horas –hombres utilizadas para realizarlo.
Distinguiremos entre relaciones funcionales y relaciones estadísticas
Introducción
Relación funcional entre dos variables
Una relación funcional se expresa mediante una función matemática.
Si X es la variable independiente e Y es la variable dependiente, una relación funcional tiene la forma:
Y=f(X)
Ejemplo 1
Parcela Dosis Rend.(kg/h)
1 75 1502 25 503 130 260
Relación funcional perfecta entre dosis y rendimientos
0
50
100
150
200
250
300
0 20 40 60 80 100 120 140
Dosis
Rendim
iento
Rend.
Figura 1
Nota: Las observaciones caen exactamente sobre la línea de relación funcional
Relación estadística entre dos variables
A diferencia de la relación funcional, no es una relación perfecta, las observaciones no caen exactamente sobre la curva de relación entre las variables
Ejemplo 2
Lote de prod. Tamaño del lote Horas hombre1 30 732 20 503 60 1284 80 1705 40 87
Relación estadística entre tamaño del lote y horas hombre
0
20
40
60
80
100
120
140
160
180
0 10 20 30 40 50 60 70 80 90
Tamaño del lote
Hor
as h
ombre
Horas hombre
Figura 2
Nota: La mayor parte de los punto no caen directamente sobre la línea de relación estadística.
Esta dispersión de punto alrededor de la línea representa la variación aleatoria
Figura 3Coordenadas de puntos de control utilizados
para corregir la columna de los niveles digitales de una imagen satelital
0
1000
2000
3000
4000
5000
6000
7000
0 2 4 6 8 10 12 14 16
Nota: se trata de un terreno rugoso donde varían notablemente las condiciones de observación del sensor, para corregir errores geométricos de la imagen, se aplican funciones de segundo grado. Los datos sugieren que la relación estadística es de tipo curvilínea.
Análisis de Regresión: Es un procedimiento estadístico que estudia la relación funcional entre variables.Con el objeto de predecir una en función de la/s otra/s.Análisis de Correlación: Un grupo de técnicas estadísticas usadas para medir la intensidad de la relación entre dos variables Diagrama de Dispersión: Es un gráfico que muestra la intensidad y el sentido de la relación entre dos variables de interés. Variable dependiente (respuesta, predicha, endógena): es la variable que se desea predecir o estimarVariables independientes (predictoras, explicativas exógenas). Son las variables que proveen las bases para estimar.Regresión simple: interviene una sola variable independienteRegresión múltiple: intervienen dos o más variables independientes.Regresión lineal: la función es una combinación lineal de los parámetros.Regresión no lineal: la función que relaciona los parámetros no es una combinación lineal
Conceptos básicos
Gráfico de dispersiónLos diagramas de dispersión no sólo muestran la relación existente entre variables, sino también resaltan las observaciones individuales que se desvían de la relación general. Estas observaciones son conocidas como outliers o valores inusitados, que son puntos de los datos que aparecen separados del resto.
Coeficiente de correlación lineal
El Coeficiente de Correlación (r) requiere variables medidas en escala de intervalos o de proporciones– Varía entre -1 y 1.– Valores de -1 ó 1 indican correlación perfecta.– Valor igual a 0 indica ausencia de correlación.– Valores negativos indican una relación lineal
inversa y valores positivos indican una relación lineal directa
Correlación Negativa Perfecta
0 1 2 3 4 5 6 7 8 9 10
10 9 8 7 6 5 4 3 2 1 0
X
Y
0 1 2 3 4 5 6 7 8 9 10
10 9 8 7 6 5 4 3 2 1 0
X
Y
Correlación Positiva Perfecta
0 1 2 3 4 5 6 7 8 9 10
10 9 8 7 6 5 4 3 2 1 0
X
Y
Ausencia de Correlación
0 1 2 3 4 5 6 7 8 9 10
10 9 8 7 6 5 4 3 2 1 0
X
Y
Correlación Fuerte y Positiva
Fórmula para el coeficente de correlación (r) Pearson
[ ] ( ) ( )[ ]2222 YYn)X()X(n)Y)(X()XY(n
=rΣΣΣΣ
ΣΣΣ
Modelos de Regresión
Un modelo de regresión, es una manera de expresar dos ingredientes esenciales de una relación estadística:
Una tendencia de la variable dependiente Y a variar conjuntamente con la variación de la o las X de una manera sistemáticaUna dispersión de las observaciones alrededor de la curva de relación estadística
Modelos de Regresión
Estas dos características están implícitas en un modelo de regresión, postulando que:
En la población de observaciones asociadas con el proceso que fue muestreado, hay una distribución de probabilidades de Y para cada nivel de X. Las medias de estas distribuciones varían de manera sistemática al variar X.
Representación gráfica del modelo de Regresión Lineal
Nota: en esta figura se muestran las distribuciones de probabilidades de Y para distintos valores de X
Análisis de Regresión
Objetivo: determinar la ecuación de regresión para predecir los valores de la variable dependiente (Y) en base a la o las variables independientes (X).Procedimiento: seleccionar una muestra a partir de la población, listar pares de datos para cada observación; dibujar un diagrama de puntos para dar una imagen visual de la relación; determinar la ecuación de regresión.
Supuestos de Regresión Lineal Clásica
• Cada error está normalmente distribuido con:– Esperanza de los errores igual a 0
– Variancia de los errores igual a una constante 2.
– Covariancia de los errores nulas para todo ij
Proceso de estimación de la regresión lineal simple
Modelo de regresión
y=0+1x+Ecuación de regresiónE(y)=0+1xParámetros desconocidos
0.1
Datos de la muestrax yx1 y1
x2 y2
. .
. .
. .xn yn
b0 y b1
proporcionan estimados0 y 1
Ecuación estimada de regresióny=b0+b1x
Estadísticos de la muestrab0.b1
Líneas posibles de regresión en la regresión lineal simple
xx
Ey
Sección A
Relación lineal positiva
Línea de regresión
La pendiente 1 es positiva
*
x
Ey
Sección B
Relación lineal negativa
Línea de regresión
La pendiente 1 es negativa*
Sección C
No hay relación
Ey
Línea de regresión
La pendiente 1 es 0
*
Ordenada al origen 0
*
Estimación de la ecuación de Regresión Simple
Y’= a + bX, donde: Y’ es el valor estimado de Y para distintos X.a es la intersección o el valor estimado de Y cuando X=0b es la pendiente de la línea, o el cambio promedio de Y’ para cada cambio en una unidad de Xel principio de mínimos cuadrados es usado para obtener a y b:
bn XY X Y
n X X
aY
nbX
n
( ) ( )( )
( ) ( )
2 2
Mínimos cuadrados - Supuestos
1. El modelo de regresión es lineal en los parámetros.2. Los valores de X son fijos en muestreo repetido.
3. El valor medio de la perturbación i es igual a cero.
4. Homocedasticidad o igual variancia de i.5. No autocorrelación entre las perturbaciones.
6. La covariancia entre i y Xi es cero.7. El número de observaciones n debe ser mayor que el número
de parámetros a estimar.8. Variabilidad en los valores de X.9. El modelo de regresión está correctamente especificado.10. No hay relaciones lineales perfectas entre las explicativas.
Estimación de la variancia de los términos del error (2)
Debe ser estimada por varios motivos• Para tener una indicación de la variabilidad de las
distribuciones de probabilidad de Y.• Para realizar inferencias con respecto a la función de
regresión y la predicción de Y.• La lógica del desarrollo de un estimador de 2 para el
modelo de regresión es la misma que cuando se muestrea una sola población
• La variancia de cada observación Yi es 2, la misma que la de cada término del error
Estimación de la variancia de los términos del error (2)
Dado que los Yi provienen de diferentes distribuciones de probabilidades con medias diferentes que dependen del nivel de X, la desviación de una observación Yi debe ser calculada con respecto a su propia media estimada Yi.
Por tanto, las desviaciones son los residualesiii e=YY -
n
i
n
iii
n
iiie
e)bXaY()YY(SC1 1
22
1
2
1
Y la suma de cuadrados es:
Estimación de la variancia de los términos del error (2)
La suma de cuadrados del error, tiene n-2 grados de libertad asociados con ella, ya que se tuvieron que estimar dos parámetros. Por lo tanto, las desviaciones al cuadrado dividido por los grados de libertad, se denomina cuadrados medios
Donde CM es el Cuadrado medio del error o cuadrado medio residual. Es un estimador insesgado de 2
22
2
1
n
e
nSC
CM i
n
ie
e
Análisis de Variancia en el análisis de regresión
El enfoque desde el análisis de variancia se basa en la partición de sumas de cuadrados y grados de libertad asociados con la variable respuesta Y.La variación de los Yi se mide convencionalmente en términos de las desviaciones
La medida de la variación total Sctot, es la suma de las desviaciones al cuadrado
)YY(ii
2)YY(ii
Desarrollo formal de la partición
Consideremos la desviación
Podemos descomponerla en
T R E(T): desviación total(R): es la desviación del valor ajustado por la regresión con
respecto a la media general(E): es la desviación de la observación con respecto a la
línea de regresión
)YY(ii
)YY()YY(YYiiii
Desarrollo formal de la partición
Si consideremos todas las observaciones y elevamos al cuadrado para que los desvíos no se anulen
SCtot SCreg SCer
(SCtot): Suma de cuadrados total
(SCreg): Suma de cuadrados de la regresión
(SCer): Suma de cuadrados del errorDividiendo por los grados de libertad, (n-1), (k) y(n-2), respectivamente cada suma de cuadrados, se obtienen los cuadrados medios del análisis de variancia.
222 )YY()YY(YYiiii
Coeficiente de Determinación
Coeficiente de Determinación, R2 - es la proporción de la variación total en la variable dependiente Y que es explicada o contabilizada por la variación en la variable independiente X. – El coeficiente de determinación es el
cuadrado del coeficiente de correlación, y varia entre 0 y 1.
2
2
2
)yy()yy(
Ro
c
Cálculo del R2 a través de la siguiente fórmula
Inferencia en Regresión• Los supuestos que establecimos sobre los
errores nos permiten hacer inferencia sobre los parámetros de regresión (prueba de hipòtesis e intervalos de confianza), ya que los estimadores de 0 y 1 pueden cambiar su valor si cambia la muestra.
• Por lo tanto debemos conocer la distribución de los estimadores para poder realizar prueba de hipòtesis e intervalos de confianza
Ejemplo
Se desean comparar los rendimientos predichos a partir de la información obtenida por 3 sensores sobre los rendimientos reales por parcelas de lotes de maíz. Los rendimientos (Y) y el los rindes predichos de 4 sensores se presentan a continuación
¿Qué sensor refleja mejor el rendimiento de esa zona?
Sensor 1 Sensor 4 Sensor 5 Rendimiento0,0754 0,3083 0,1212 42,58460,0754 0,3083 0,1212 43,85760,0742 0,3327 0,1328 44,00820,0766 0,3327 0,1251 43,49890,0766 0,3297 0,1251 41,33270,0730 0,3205 0,1193 41,03130,0754 0,3114 0,1193 40,48020,0766 0,2901 0,1193 36,67350,0754 0,3449 0,1328 43,35350,0754 0,3480 0,1193 43,31800,0766 0,3480 0,1193 43,31430,0766 0,3419 0,1135 41,00420,0766 0,2840 0,1135 36,49080,0766 0,3053 0,1193 37,59310,0754 0,3266 0,1232 40,45560,0766 0,2840 0,1135 35,55950,0754 0,3358 0,1232 41,64000,0742 0,3419 0,1251 43,5951
Rendimiento
PRED_Rendimiento
0,078 0,092 0,107 0,121 0,135
B5
15,79
23,33
30,87
38,41
45,95
PR
ED
_R
en
dim
ien
to
Título
Rendimiento
PRED_Rendimiento
Y = 338.71*X - 4.87 R2 = 0.32
Descripción Gráfica y cuantitativa de la relación entre
cada sensor y el rendimiento
Rendimiento
PRED_Rendimiento
0,22 0,26 0,30 0,34 0,37
B4
15,79
23,33
30,87
38,41
45,95
PR
ED
_R
en
dim
ien
to
Título
Rendimiento
PRED_Rendimiento
Y = 155.37*X – 13.25 R2 = 0.57
Rendimiento
PRED_Rendimiento
0,071 0,076 0,081 0,087 0,092
B1
15,79
23,33
30,87
38,41
45,95
PR
ED
_R
en
dim
ien
toTítulo
Rendimiento
PRED_Rendimiento
Y = -1004.34*X +112.24
R2 = 0.44
Fuente
• file:///C:/Documents%20and%20Settings/Bachi44/Configuraci%F3n%20local/Archivos%20temporales%20de%20Internet/Content.IE5/CPE94BCP/256,1,Diapositiva 1