REGRESION Y CORRELACION
ANÁLISIS DE DOS VARIABLES Frecuentemente dos variables están
relacionadas o asociadas.Ejemplo: estatura y peso
sexo y talla de zapatos alimentación y crecimiento precio y demanda de un producto
CORRELACION Se refiere a la relación o asociación entre dos
variables. a) Positiva
b) negativa
2 3 4 5 6 7 8 9 100123456789
10
10 15 20 25 30 35 40 450
1
2
3
4
5
6
7
b) Sin correlación
0 10 20 30 40 50 60 70 80 900
200
400
600
800
1000
1200
CORRELACION POSITIVA
a) Fuerte
b) moderada
2 3 4 5 6 7 8 9 100
50
100
150
200
250
60 65 70 75 80 85 900
10
20
30
40
50
60
70
80
90
100
Débil:
.
2 3 4 5 6 7 8 9 100
50
100
150
200
250
Correlación Valor de r
Positiva 0 r 1
Negativa -1 r 0
Perfecta r = 1
Sin correlación r = 0
REGRESION
Es el método de ajustar una línea a un conjunto de datos y encontrar la ecuación de esa línea.
La línea es llamada también “modelo”
La línea de regresión es también llamada “la mejor línea de ajuste” y puede ser usada para predecir el valor de una variable dependiente dado el valor de la variable independiente.
Hay dos métodos para encontrarla: “ por ojo” y “mínimos cuadrados”
MÉTODO “ POR OJO”
160 165 170 175 180 1850
102030405060708090
-Se toman dos puntos de la recta para encontrar la ecuación. Por ejemplo (160, 64) y (190,88).
- Se calcula la pendiente de los dos puntos:
8.03024
1601906488
m
Entonces, la ecuación es :
Dificultad: la respuesta puede variar de una persona a otra.
648.0
1288.064
)160(8.064
8.016064
xy
xy
xyxy
MIDIENDO LA CORRELACION
Significa medir la fuerza y dirección de la asociación entre dos variables.
El coeficiente de correlación (r), tiene valor entre -1 y 1
La correlación positiva es una asociación entre dos variables si el incremento de una resulta en el incremento de otra.
La correlación es negativa si el incremento de una variable lleva una disminución en la otra.
COEFICIENTE DE CORRELACIÓN DE PEARSON
Sirve para encontrar el grado de alineación entre dos muestras de variables X y Y, dados en pares ordenados
donde xy : covarianza de x y y x : desviación estándar de x
y : desviación estándar de y
EL COEFICIENTE DE DETERMINACION (R 2 )
Valor Fuerza de la correlación
r 2 = 0 No hay correlación
0 r 2 0.25 Correlación muy débil
0 .25 r 2 0.50 Correlación débil
0.50 r 2 0.75 Correlación moderada
0.75 r 2 0.90 Correlación fuerte
0.90 r 2 1.0 Correlación muy fuerte
r 2 = 1 Perfecta correlación
MÍNIMOS CUADRADOS
)(2
xxS
Syy
x
xy
Se llama así porque es el proceso de minimizar la suma de los cuadrados de los residuos.
Un residuo es un valor de donde y es un valor observado y el otro es un posible valor sobre la línea de ajuste.
Hay residuos positivos y negativos.
yy
FÓRMULA DE MÍNIMOS CUADRADOS
)(2
xxS
Syy
x
xy
INTERPOLACIÓN/ EXTRAPOLACIÓN
Interpolación: si se usa la ecuación de mínimos cuadrados para predecir valores entre el valor más bajo y el más alto de la serie.
Extrapolación: si se usa la ecuación de mínimos cuadrados para predecir valores afuera del área comprendida entre el valor más bajo y el más alto de la serie.
EL TEST DE INDEPENDENCIA (CHI CUADRADO) X2
Se usa para encontrar si dos clasificaciones ( o factores) de una muestra son independientes.
Ejemplo:
• Sexo y capacidad de compra
• Ingresos e intención de voto
• Grupos escolares y resultados académicos
El test determina la diferencia entre los valores observados y los esperados.
Donde fo: frecuencia observada fe: frecuencia esperada
fefefo
X calc2
2 )(
GRADOS DE LIBERTAD
La distribución de Chi cuadrado depende de los grados de libertad (gl) donde:
gl = ( f -1) (c-1)
f: número de filas c: número de columnas
TABLA DE VALORES CRÍTICOSGrados de libertad
Área derecha de los valores de la tabla
0.10 0.05 0.01
1 2.71 3.84 6.63
2 4.61 5.99 9.21
3 6.25 7.81 11.34
4 7.78 9.49 13.28
5 9.24 11.07 15.09
6 10.64 12.59 16.81
7 12.02 14.07 18.48
8 13.36 15.51 20.09
9 14.68 16.92 21.67
10 15.99 18.31 23.21
TEST FORMAL DE INDEPENDENCIA Paso 1:
- Llamamos Ho a la hipótesis nula. Esta es la oración que considera que las variables son independientes- Llamamos H1 a la hipótesis alternativa. Esta es la oración que considera que las variables no son independientes.
Paso 2: Calculamos los grados de libertad gl = (c -1) ( f- 1)
Paso 3: Determinamos el nivel de significación
Paso 4: Establecemos la desigualdad X2
calc K, donde K es el valor obtenido de la tabla de valores críticos
Paso 5: De la tabla de contingencias, encontramos X2
calc
usando la fórmula
Paso 6: Aceptamos o rechazamos la hipótesis nula dependiendo del resultado de la desigualdad.
Paso 7: Si operamos con un nivel de significación del 5%, también podemos usar valores de p,
si p 0.05, aceptamos Ho si p 0.05, rechazamos Ho
fefefo
X calc2
2 )(