COVARIANZA Y OTROS.pdf

10
ESTADÍSTICA BIVARIADA INTRODUCCIÓN En el campo de la estadística hay muchos problemas que requieren un análisis combinado de dos variables. En administración, en educación y en muchas otras materias, a menudo es necesario contestar preguntas como las siguientes: “¿Están relacionadas estas dos variables? En caso afirmativo, ¿de qué manera? ¿Existe una correlación entre las variables?” Las relaciones bajo análisis no son de causa efecto, sino de las de tipo matemático que permiten predecir el comportamiento de una variable con base en el conocimiento que se tiene sobre la otra. Considere los siguientes ejemplos: – A medida que una persona crece, por lo general aumenta de peso. Alguien podría preguntar:”¿Existe alguna relación entre la estatura y el peso?” – Los médicos que se dedican a la investigación prueban fármacos nuevos (y obsoletos también) al prescribir dosis diferentes y observar las respuestas de sus pacientes. Una pregunta que podría plantearse es: “¿La dosis del medicamento prescrito determina la cantidad de tiempo de recuperación que necesita el paciente?” – La orientadora vocacional de una universidad desea predecir el éxito académico que tendrán en la universidad los egresados de su escuela. En casos como éste, el valor predicho (nota promedio de las calificaciones en la universidad) depende de muchos rasgos de los estudios: 1° cuán aceptable fue su desempeño en la universidad, 2° su inteligencia y habilidades, 3° su deseo por tener éxito en la universidad, etc. Para contestar las preguntas anteriores, se requiere del análisis de datos bivariados o de dos variables, es decir, .dada cierta población y dos variables asociadas a esa población, se requiere estudiar las posibles relaciones que existen entre ellas. Ejemplo : La siguiente información representa una tabla de doble entrada, con variables; = X Edad. = Y Sueldo (en miles de $). EDAD SUELDO (en miles de $) 100 – 200 200 – 300 300 – 400 400 – 500 i n i MC 20 – 30 6 12 3 8 29 25 30 – 40 2 7 4 10 23 35 40 – 50 0 1 2 5 8 45 j n 8 20 9 23 60 = N j MC 150 250 350 450

Transcript of COVARIANZA Y OTROS.pdf

Page 1: COVARIANZA Y OTROS.pdf

PROFESOR: RONNY GODOY GÁLVEZ 1

GUÍA DE APOYO AL APRENDIZAJE N°4

ESTADÍSTICA BIVARIADA INTRODUCCIÓN

En el campo de la estadística hay muchos problemas que requieren un análisis combinado de dos variables. En administración, en educación y en muchas otras materias, a menudo es necesario contestar preguntas como las siguientes: “¿Están relacionadas estas dos variables? En caso afirmativo, ¿de qué manera? ¿Existe una correlación entre las variables?” Las relaciones bajo análisis no son de causa efecto, sino de las de tipo matemático que permiten predecir el comportamiento de una variable con base en el conocimiento que se tiene sobre la otra. Considere los siguientes ejemplos:

– A medida que una persona crece, por lo general aumenta de peso. Alguien podría preguntar:”¿Existe alguna relación entre la estatura y el peso?”

– Los médicos que se dedican a la investigación prueban fármacos nuevos (y obsoletos también) al prescribir dosis diferentes y observar las respuestas de sus pacientes. Una pregunta que podría plantearse es: “¿La dosis del medicamento prescrito determina la cantidad de tiempo de recuperación que necesita el paciente?”

– La orientadora vocacional de una universidad desea predecir el éxito académico que tendrán en la universidad los egresados de su escuela. En casos como éste, el valor predicho (nota promedio de las calificaciones en la universidad) depende de muchos rasgos de los estudios: 1° cuán aceptable fue su desempeño en la universidad, 2° su inteligencia y habilidades, 3° su deseo por tener éxito en la universidad, etc.

Para contestar las preguntas anteriores, se requiere del análisis de datos bivariados o de dos variables, es decir, .dada cierta población y dos variables asociadas a esa población, se requiere estudiar las posibles relaciones que existen entre ellas. Ejemplo: La siguiente información representa una tabla de doble entrada, con variables;

=X Edad. =Y Sueldo (en miles de $).

EDAD

SUELDO (en miles de $)

100 – 200

200 – 300

300 – 400

400 – 500

in

iMC

20 – 30

6

12

3

8

29

25

30 – 40

2

7

4

10

23

35

40 – 50

0

1

2

5

8

45

jn

8

20

9

23

60=N

jMC

150

250

350

450

Page 2: COVARIANZA Y OTROS.pdf

PROFESOR: RONNY GODOY GÁLVEZ 2

Observación: Las frecuencias para cada una de las variables en forma independiente in y

jn , se llaman “Frecuencias Marginales”.

Las frecuencias marginales, así como las marcas de clase (para variables continuas), se puede escribir de la siguiente manera:

xi fnxiableladeinalMFrecuencia =: var arg

xi MCMCxiableladeClasedeMarca =: var

yj fnyiableladeinalMFrecuencia =: var arg

yj MCMCyiableladeClasedeMarca =: var

Interpretación de la tabla de doble entrada. Interprete:

11n ,

23n ,

1•n ,

•3n y N .

11n = 6 personas con edad entre 20 y 30 años cuyo sueldo está entre $100.000 y $200.000.

23n = 4 personas con edad entre 30 y 40 años cuyo sueldo está entre $300.000 y $400.000.

1•n = 8 personas cuyo sueldo está entre $100.000 y $200.000.

•3n = 8 personas con edad entre 40 y 50 años.

N = 60 personas (la tabla de doble entrada tiene una población de 60 personas). PROMEDIOS DE LAS VARIABLES.

N

nMCX ii� ⋅

= 5,3160890.1

6084523352925 ==⋅+⋅+⋅=X

Interpretación: la edad promedio de las personas es de 31,5 años.

N

nMCY jj� ⋅

= 333,32860700.19

60234509350202508150 ==⋅+⋅+⋅+⋅=Y

Interpretación: el sueldo promedio de las personas es de $328.333.

Page 3: COVARIANZA Y OTROS.pdf

PROFESOR: RONNY GODOY GÁLVEZ 3

PROMEDIOS CONDICIONALES. .

Es el promedio de una de las variables, sólo para aquellos elementos de la población que cumplan cierta condición para la otra variable. Podemos estar interesados en determinar el promedio de una de las variables, sólo para aquellos elementos de la población que cumplen cierta condición para la otra variable. Consideremos el ejemplo anterior, para calcular los siguientes promedios condicionales:

a) La edad promedio de las personas que tienen un sueldo igual o mayor a $200.000.

iMC

in

iiMC n⋅

25

23

575

35

21

735

45

8

360

TOTAL

52

1.670

1,3252670.1 ==cX

Interpretación: la edad promedio de las personas que tienen un sueldo igual o mayor a

$200.000 es de 32,1 años.

b) El sueldo promedio de las personas que tienen entre 30 y 40 años.

jMC

jn

jjMC n⋅

150

2

300

250

7

1.750

350

4

1.400

450

10

4.500

TOTAL

23

7.950

652,34523950.7 ==cY

Interpretación: las personas que tienen entre 30 y 40 años de edad tienen un sueldo

promedio de $345.652.

Page 4: COVARIANZA Y OTROS.pdf

PROFESOR: RONNY GODOY GÁLVEZ 4

c) El sueldo promedio de las personas que tienen menos de 40 años.

jMC

jn

jjMC n⋅

150

8

1.200

250

19

4.750

350

7

2.450

450

18

8.100

TOTAL

52

16.500

308,31752500.16 ==cY

Interpretación: las personas que tienen menos de 40 años de edad tienen un sueldo promedio de $317.308.

PROBLEMA PROPUESTO La siguiente tabla muestra las utilidades (en millones de $) y el número de trabajadores de un grupo de empresas de la región metropolitana.

Consideremos para el problema:

=X Utilidades (en millones de $). =Y N° de trabajadores.

UTILIDADES

(en millones de $)

N° DE TRABAJADORES

0 – 100

100 – 200

200 – 300

0 – 6

10

1

5

6 – 12

0

10

0

12 – 18

4

4

1

18 – 24

1

3

12

a) Determine el número de empresas estudiadas.

b) ¿Cuál es promedio de trabajadores del grupo de empresas?

c) ¿Cuál es la utilidad promedio de las empresas?

d) ¿Cuál es el promedio de trabajadores de las empresas con utilidades menores de $12.000.000?

e) ¿Cuál es la utilidad promedio de las empresas que tienen más de 100 trabajadores?

Page 5: COVARIANZA Y OTROS.pdf

PROFESOR: RONNY GODOY GÁLVEZ 5

Soluciones:

a) 51 empresas.

b) El promedio de trabajadores es de aprox. 156 trabajadores.

c) La utilidad promedio es de aprox. $11.941.118.

d) El número de trabajadores promedio que tienen las empresas con utilidades menores de $12.000.000 es de aprox. 131 trabajadores.

e) Las empresas que tienen más de 100 trabajadores tienen utilidades promedio de

aprox. $13.833.333.

MEDIDAS DE CORRELACIÓN

La Correlación es una técnica estadística usada para determinar si existe una relación entre dos o más variables. Algunas medidas de Correlación que estudiaremos, son: 1° Covarianza ( xyS )

La covarianza entre dos variables es una medida estadística para valorar la relación entre estas variables.

Fórmula: YXXYSxy ⋅−= ; Donde N

nMCMCXY ijji ⋅⋅

=�

Observaciones:

•••• La covarianza pertenece a los números reales. •••• Si �> 0xyS La relación entre la variable x e y es DIRECTA, es decir, si una de

las variables aumenta la otra también o si una de ellas disminuye la otra también. •••• Si �< 0xyS La relación entre la variable x e y es INVERSA, es decir, si una de

las variables aumenta la otra disminuye o si una de ellas disminuye la otra aumenta.

•••• Si �= 0xyS No existe relación entre la variable x e y.

Page 6: COVARIANZA Y OTROS.pdf

PROFESOR: RONNY GODOY GÁLVEZ 6

Ejemplo: Una empresa desea estudiar la relación entre la edad de sus trabajadores y los

días no trabajados.

Consideremos para el problema:

=X Edad. =Y N° de días no trabajados.

EDAD

N° DÍAS NO TRABAJADORES

0 – 6

6 – 12

12 – 18

in

iMC

20 – 25

0 / 0

4 / 810

1 / 337,5

5

22,5

25 – 30

12 / 990

6 / 1.485

0 / 0

18

27,5

30 – 40

3 / 315

4 / 1.260

6 / 3.150

13

35

40 – 50

1 / 135

2 / 810

8 / 5.400

11

45

jn

16

16

15

47=N

jMC

3

9

15

a) ¿Cuál es la edad promedio de trabajadores con menos de 12 días no trabajados?

b) Calcule e interprete la covarianza ( xyS ).

c) ¿Qué es más variable, la edad o los días no trabajados? SOLUCIÓN:

a) ¿Cuál es la edad promedio de trabajadores con menos de 12 días no trabajados?

iMC

in

iiMC n⋅

22,5

4

90

27,5

18

495

35

7

245

45

3

135

TOTAL

32

965

156,3032965 ==cX

Interpretación: la edad promedio de los trabajadores con menos de 12 días trabajados es de aprox. 30 años.

Page 7: COVARIANZA Y OTROS.pdf

7

b) Calcule e interprete la covarianza ( xyS ).

N

nMCX ii� ⋅

= � 138,3347

5,557.147

11451335185,2755,22 ==⋅+⋅+⋅+⋅=X

N

nMCY jj� ⋅

= � 872,847417

471515169163 ==⋅+⋅+⋅=Y

N

nMCMCXY ijji ⋅⋅

=�

� 606,31547

5,692.14 ==XY

Por lo tanto la covarianza, es: YXXYSxy ⋅−= � 872,8138,33606,315 ⋅−=xyS

06,21 >=xyS

Interpretación: la relación entre la edad y los días no trabajados de los trabajadores de la empresa es directa, es decir, a mayor edad, mayor número de días no trabajados.

c) ¿Qué es más variable, la edad o los días no trabajados?

iMC

in

iiMC n⋅

ii nMC ⋅2

22,5

5

112,5

2.531,25

27,5

18

495

13.612,5

35

13

455

15.925

45

11

495

22.275

TOTAL

47

1.557,5

54.343,75

103,5847

5,557.147

75,343.54 2222 =−=

⋅−

⋅= �

���

���

��

���N

nMC

N

nMCS iiii

x

622,7103,582 === xx SS � ( ) %23%100138,33

622,7%100 =⋅=⋅=

XxS

XCV

Page 8: COVARIANZA Y OTROS.pdf

8

jMC

jn

jjMC n⋅

jj nMC ⋅2

3

16

48

144

9

16

144

1.296

15

15

225

3.375

TOTAL

47

417

4.815

728,2347

41747815.4 2

222 =−=

⋅−

⋅= �

���

���

���

���N

nMC

N

nMCS jjjj

y

871,4728,232 === yy SS � ( ) %9,54%100872,8

871,4%100 =⋅=⋅=

YyS

YCV

Interpretación: es más variable el número de días no trabajados que la edad de los

trabajadores, debido a que tiene un mayor coeficiente de variación. 2° Coeficiente de Correlación ( xyr )

En una distribución bidimensional (bivariada) puede ocurrir que las dos variables tengan algún tipo de relación entre si. Por ejemplo, si se analiza la estatura y el peso de los alumnos de una clase es muy posible que exista relación entre ambas variables: mientras más alto sea el alumno, mayor será su peso. El Coeficiente de Correlación mide el grado de intensidad de esta posible relación entre las variables. Este coeficiente se aplica cuando la relación que puede existir entre las variables es lineal (es decir, si representamos en un gráfico los pares de valores de las dos variables la nube de puntos se aproximaría a una recta). No obstante, puede que exista una relación que no sea lineal, sino exponencial, parabólica, etc. En estos casos, el coeficiente de correlación lineal mediría mal la intensidad de la relación de las variables, por lo que convendría utilizar otro tipo de coeficiente más apropiado.

Fórmula: yx

xyxy SS

Sr

⋅=

Observaciones:

•••• El coeficiente de correlación pertenece al intervalo: 11 ≤≤− xyr .

Page 9: COVARIANZA Y OTROS.pdf

9

•••• Si �≈ 1XY

r La relación entre la variable x e y es LINEAL CON PENDIENTE

POSITIVA, es decir, la nube de puntos puede aproximarse por una línea recta con pendiente positiva (una recta creciente). Por ejemplo, altura y peso: los alumnos más altos suelen pesar más.

•••• Si �−≈ 1

XYr La relación entre la variable x e y es LINEAL CON PENDIENTE

NEGATIVA, es decir, la nube de puntos puede aproximarse por una línea recta con pendiente negativa (una recta decreciente). Por ejemplo, peso y velocidad: los alumnos más gordos suelen correr menos.

•••• Si �≈ 0

XYr No existe relación lineal entre la variable x e y. Aunque podría

existir otro tipo de correlación (parabólica, exponencial, etc.).

Las gráficas de los casos mencionados anteriormente se verán en clases. Ejemplo: La siguiente tabla muestra el número de trabajadores y las utilidades (en millones

de $) de un grupo de 56 empresas.

Consideremos para el problema:

=X N° de trabajadores =Y Utilidades (en millones de $)

N° DE TRABAJADORES

UTILIDADES (en millones de $)

1 – 4

4 – 8

8 – 12

in

iMC

0 – 100

12 / 1.500

6 / 1.800

0 / 0

18

50

100 – 200

6 / 2.250

3 / 2.700

1 / 1.500

10

150

200 – 300

4 / 2.500

5 / 7.500

3 / 7.500

12

250

300 – 400

0 / 0

6 / 12.600

10 / 35.000

16

350

jn

22

20

14

56=N

jMC

2,5

6

10

Calcule e interprete el coeficiente de correlación ( xyr ).

Page 10: COVARIANZA Y OTROS.pdf

10

SOLUCIÓN:

N

nMCX ii� ⋅

= � 428,19656000.11

561635012250101501850 ==⋅+⋅+⋅+⋅=X

N

nMCY jj� ⋅

= � 625,556315

561410206225,2 ==⋅+⋅+⋅=Y

N

nMCMCXY ijji ⋅⋅

=�

� 607,336.156850.74 ==XY

Por lo tanto la covarianza, es: YXXYSxy ⋅−= � 625,5428,196607,336.1 ⋅−=xyS

6995,231=xyS

(la covarianza indica que existe relación directa entre el n° de trabajadores y las utilidades de las empresas, es decir, a mayor n° de trabajadores, mayor utilidades)

102,630.1456000.11

56000.980.2 222

2 =−=⋅

−⋅

= ��

���

���

��

���N

nMC

N

nMCS iiii

x

955,120102,630.142 === xx SS

672,856315

565,257.2 2

222 =−=

⋅−

⋅= �

���

���

���

���N

nMC

N

nMCS jjjj

y

945,2672,82 === yy SS

Finalmente el coeficiente de correlación, es:

yx

xyxy SS

Sr

⋅= � 65,0

945,2955,1206995,231 =⋅

=xyr

Interpretación: el coeficiente de correlación nos indica que existe relación lineal entre el n° de trabajadores y las utilidades, con pendiente positiva (la proyección es regular, como veremos en la siguiente guía que explica el modelo de regresión lineal).