Post on 13-Oct-2020
Capitulo
Describir la
relación entre dos
variables
© 2010 Pearson Prentice Hall. All rights reserved
3 4
Relación entre dos variables
4-2 © 2010 Pearson Prentice Hall. All rights
reserved
Al estudiar conjuntos de variables con más de una
variable, una pregunta fundamental debe ser si
podemos utilizar el valor de una variable para predecir
el valor de alguna otra variable.
Ejemplos:
• ¿Existe una relación entre la estatura y el peso?
• ¿Existe una relación entre la dosis de un
medicamento y el tiempo de recuperación?
• ¿Existe una relación entre la tasa de criminalidad y
los cambios en la población?
4-3 © 2010 Pearson Prentice Hall. All rights
reserved
Tipos de variables en un experimento
• Variable de respuesta
• variable bajo estudio;
• aquella variable cuyos cambios se desean
estudiar
• variable dependiente en el estudio
• Variable explicativa
• variable cuyos valores explican los valores de
la variable respuesta
• se estudian los efectos que tiene la variable
explicativa sobre la variable respuesta
• variable que manipula el investigador
• variable independiente en el experimento
4-4 4 © 2010 Pearson Prentice Hall. All rights
reserved
Diagrama de dispersión
• El primer paso para identificar el tipo de relación que
puede existir entre dos variables es hacer un dibujo.
• Datos de dos variables pueden ser representados
gráficamente a través de un diagrama de
dispersión.
• Diagrama de dispersion es una gráfica formada
localizando en el plano-xy los pares ordenados que
corresponden a las variables bajo estudio.
• Los valores de las variables se expresan como pares
ordenados (x, y);
x → variable explicativa (variable de entrada)
y → variable de respuesta (variable de salida)
4-5 5 © 2010 Pearson Prentice Hall. All rights
reserved
Diagrama de dispersión (cont.)
• Es una gráfica que muestra la relación entre
dos cantidades cuantitativas que se miden en
un mismo individuo.
• Cada individuo en el conjunto de
observaciones se representa con un punto
del diagrama.
• El eje horizontal representa la variable
explicativa, y el eje vertical representa la
variable respuesta.
• Esta gráfica nos permite observar si hay una
relación lineal entre la variable explicativa y la
variable de respuesta.
EJEMPLO Construir e interpretar un diagrama de dispersión
Source: Penner, R., and Watts, D.G. “Mining Information.” The American Statistician, Vol. 45, No. 1, Feb. 1991, p. 6.
4-6 © 2010 Pearson Prentice Hall. All rights
reserved
Los investigadores deseaban
determinar si el tiempo que se
necesita para perforar en seco una
distancia de 5 pies de roca
incrementa con la profundidad a la
que se comienza la perforación.
• La profundidad a la que comienza
la perforación es la variable
explicativa, x
• el tiempo (en minutos) para
perforar 5 pies es la variable de
respuesta, y.
Dibuje un diagrama de dispersión de
los datos.
4-7 © 2010 Pearson Prentice Hall. All rights
reserved
EJEMPLO … Diagrama de dispersión (cont)
4-8 © 2010 Pearson Prentice Hall. All rights
reserved
Tipos de Relaciones en un
Diagrama de Dispersión
4-9
4-10 © 2010 Pearson Prentice Hall. All rights
reserved
Correlación lineal
• Si a medida que los valores de una variable aumentan
los valores de la otra variable también aumentan,
entonces existe correlación positiva.
• Si a medida que los valores de una variable aumentan
los valores de la otra variable disminuyen, entonces
existe correlación negativa.
• Coeficiente de correlación lineal de una muestra (r)
es una medida de la fuerza y dirección de la relación
lineal entre dos variable cuantitativas (coeficiente de
correlación Pearson)
4-11 © 2010 Pearson Prentice Hall. All rights
reserved
Coeficiente de correlación lineal de una muestra
4-12 © 2010 Pearson Prentice Hall. All rights
reserved
Propiedades del Coeficiente de correlación lineal
4-13 © 2010 Pearson Prentice Hall. All rights
reserved
Tipos de correlación
Determine el coeficiente de
correlación lineal de la data
sobre perforación en rocas.
4-14 © 2010 Pearson Prentice Hall. All rights
reserved
EJEMPLO Coeficiente de correlación lineal
4-15 © 2010 Pearson Prentice Hall. All rights
reserved
EJEMPLO Coeficiente de correlación lineal (cont.)
EJEMPLO ¿Existe una relación lineal?
Determine si existe una relación lineal en la data sobre
perforación en rocas. Si existe, comente sobre el tipo de relación
que existe entre la profundidad a la cual se comienza a perforar y
el tiempo que toma perforar 5 pies. .
• El coeficiente de correlación
entre la profundidad y el
tiempo es 0.773.
• Según la tabla, para r = 0.773
existe una relación lineal
positiva moderada entre la
profundidad y el tiempo de
perforar rocas.
16 4-16 © 2010 Pearson Prentice Hall. All rights
reserved
17
Ejemplo: • Según datos recopilados por El Resumen Estadístico de
Los Estados Unidos, la correlación entre el porcentaje de la población femenina con grados de bachillerato y el porcentaje de nacimientos a madres solteras desde 1990 es 0.940.
Cierto o Falso: Un porcentaje mayor de féminas con bacillerato causa un porcentaje mayor de madres solteras. • ¡Falso! • Cuando obtenemos datos obtenidos mediante
observación y no a través de un diseño experimental, no podemos definir una relación causal .
4-17 © 2010 Pearson Prentice Hall. All rights
reserved
Diferencia entre correlación y
relación causal
18
• Entre dos variables puede existir otro factor que provoca una correlación alta sin que haya una relación causal.
Ejemplo: Se ha encontrado que la relación entre la venta de helado y la taza de criminalidad tiene una correlación positiva alta. Justificación • A medida que aumentan las temperaturas ambientales.
tanto la venta de helados como la criminalidad aumenta. • La variable “temperatura ambiental” afecta tanto la venta
de helado como la alza en criminalidad. • La variable “temperatura ambiental” se conoce como una
variable oculta.
4-18 © 2010 Pearson Prentice Hall. All rights
reserved
Variables ocultas (“lurking variables”)
(a) Encuentre una ecuación lineal que relaciona x (la variable explicativa) con y, (la variable de respuesta) seleccionando dos puntos y luego, encontrar la ecuación de la recta que contiene los puntos.
Use la siguente muestra:
Usando (2, 5.7) y (6, 1.9): 5.7 1.9
2 6
0.95
m
1 1
5.7 0.95 2
5.7 0.95 1.9
0.95 7.6
y y m x x
y x
y x
y x
19 4-19 © 2010 Pearson Prentice Hall. All rights
reserved
0
1
2
3
4
5
6
7
0 1 2 3 4 5 6 7
(b) Traza la gráfica de la ecuación sobre el diagrama de dispersión
(c) Use the equation to predict y if x = 3. 0.95 7.6
0. 395( ) 7.6
4.75
y x
4-20 © 2010 Pearson Prentice Hall. All rights reserved
} (3, 5.2)
residual = observed y – predicted y = 5.2 – 4.75 = 0.45
La diferencia entre el valor observado de la variable respuesta y el valor estimado usando el modelo lineal que hemos obtenido se conoce como error, o residual.
Ejemplo: residual = observado en y – estimado en y = 5.2 – 4.75 = 0.45
4-21
Valores residuales
0
1
2
3
4
5
6
7
0 1 2 3 4 5 6 7
4-22 © 2010 Pearson Prentice Hall. All rights reserved
Línea de regresión por mínimos
cuadrados
• La línea de regresión por mínimos cuadrados es la línea que minimiza los residuales.
• Es la línea que minimiza la suma de los cuadrados de las distancias verticales entre los valores observados y los valores que predice el modelo.
4-23 © 2010 Pearson Prentice Hall. All rights reserved
Línea de regresión por mínimos
cuadrados
La ecuación de la línea de regresión por mínimos cuadrados está dada por
𝑦 = 𝑏1𝑥 + 𝑏0
donde 𝑏1 = 𝑟 ∙𝑠𝑦
𝑠𝑥 es la pendiente
y 𝑏0 = 𝑦 − 𝑏1𝑥 es el intercepto en y
EXAMPLE Determinar el modelo de regresión lineal
Usar los datos sobre perforación
de rocas
(a)Encuentre la línea de
regresión por mínimos
cuadrados.
(b)Predecir el tiempo de
perforación en caso de que la
perforación se inicia en 130
pies.
(c)Dibuje la línea de regresión
por mínimos cuadrados sobre
el diagrama de dispersión de
los datos.
4-24 © 2010 Pearson Prentice Hall. All rights reserved
4-25 © 2010 Pearson Prentice Hall. All rights
reserved
EJEMPLO Determinar la línea de regresión (cont.)
(a)Modelo que da TI 89 Titanium
(b)
(c) El tiempo observado es 6.93 segundos. El tiempo de perforación predecido es ≈ 7.03 s
4-26 © 2010 Pearson Prentice Hall. All rights reserved
𝑦 = 0.011553𝑥 + 5.52727
𝑦 = 0.011553(130) + 5.52727
𝑦 = 7.02916
(d)
4-27 © 2010 Pearson Prentice Hall. All rights reserved
La línea de regresión por mínimos cuadrados
sobre el diagrama de dispersión de los datos
usando TI 89
5.5
6
6.5
7
7.5
8
8.5
0 20 40 60 80 100 120 140 160 180 200
Tie
mp
o p
ara
pe
rfo
rar
5 p
ies
(se
g)
Profundidad (pies)
(d)
4-28 © 2010 Pearson Prentice Hall. All rights reserved
La línea de regresión por mínimos cuadrados
sobre el diagrama de dispersión de los datos
usando Excel
EJEMPLO Predecir peso del oso negro americano
Los datos muestran la longitud y el
peso de 10 osos blancos
americanos. Se quiere poder usar
el largo para predecir el peso.
(a) Construir un diagrama de
dispersión
(b) Encuentre la línea de regresión
por mínimos cuadrados usando
la fórmula.
(c)Compare la respuesta de b, con
la línea de regresión por
mínimos cuadrados que da la
calculadora.
4-29 © 2010 Pearson Prentice Hall. All rights reserved
4-30
𝒚 = 𝒃𝟏𝒙 + 𝒃𝟎 , 𝒃𝟏 = 𝒓 ∙𝒔𝒚
𝒔𝒙, 𝒃𝟎 = 𝒚 − 𝒃𝟏𝒙
Calcular la ecuación de la línea de regresión
por mínimos cuadrados usando fórmulas
𝑏1 = 𝑟 ∙𝑠𝑦
𝑠𝑥
𝑏1 = 0.703903 ∙27.9982
11.6329
𝑏1 = 1.69416
𝑏0 = 𝑦 − 𝑏1𝑥 𝑏0 = 99.5833 − 1.69416 142.875
𝑏0 = −142.47
longitud
peso
𝒚 = 1.69416𝒙 − 142.47
4-31
Interpretación de la pendiente: • La pendiente de la línea de regresión es 1.69417. • Su interpretación es que para cada cm adicional de longitud,
el peso aumenta aproximadamente 1.69 kg, en promedio. Interpretación del intercepto en y: • El intercepto en y de la línea de regresión es -142. 471. • Para interpretar el intercepto en y, nos hacemos dos
preguntas: 1. ¿Es 0 un valor razonable para la variable explicativa? 2. ¿Existe alguna observación cerca de x=0 en el conjunto?
• Un valor de 0 NO es razonable en este problema ya que una longitud de 0 implica que el oso no existe.
• No podemos interpretar el intercepto en y en este problema. © 2010 Pearson Prentice Hall. All rights
reserved
Interpretación de la pendiente y el intercepto
en y de la línea de regresión
Si la línea de regresión por mínimos cuadrados se utiliza para hacer predicciones basadas en los valores de la variable explicativa que son mucho más grande o mucho más pequeño que los valores observados, decimos que el investigador está trabajando fuera del alcance del modelo. Nunca usamos una línea de regresión por mínimos cuadrados para hacer predicciones fuera del alcance del modelo, porque no podemos estar seguros de que la relación lineal sigue existiendo.
4-32 © 2010 Pearson Prentice Hall. All rights reserved
Si una gráfica de los residuos contra la variable explicativa muestra un patrón discernible, tal como una curva definida, entonces, es posible que las variables no estén relacionadas linealmente.
4-33 © 2010 Pearson Prentice Hall. All rights
reserved
Comentarios sobre los residuos
4-34 © 2010 Pearson Prentice Hall. All rights
reserved
Un químico tiene una muestra de 1,000 gramos de un material radiactivo. Se registra la cantidad de material radiactivo restante en la muestra todos los días durante una semana y obtiene los siguientes datos.
Día Peso (en gramos)
0 1000.0
1 897.1
2 802.5
3 719.8
4 651.1
5 583.4
6 521.7
7 468.3
4-35 © 2010 Pearson Prentice Hall. All rights
reserved
coeficiente de correlación lineal: -0.994
4-36 © 2010 Pearson Prentice Hall. All rights
reserved
Cantidad de material radioactivo restante
4-37 © 2010 Pearson Prentice Hall. All rights
reserved
𝑦 = −75.2964𝑥 + 969.025
Modelo lineal no es apropiado.
4-38 © 2010 Pearson Prentice Hall. All rights
reserved