Estadística I Tema 3: Análisis de datos bivariantes · Introducci on. Datos bivariantes I >Afecta...
Transcript of Estadística I Tema 3: Análisis de datos bivariantes · Introducci on. Datos bivariantes I >Afecta...
Tema 3: Analisis de datos bivariantes
Contenidos
1. Introduccion. Datos bivariantes.
2. Representaciones.I Tablas de doble entrada. Distribucion conjunta de frecuencias.
I Frecuencias marginales y condicionadas.
I Tabla de doble entrada con alguna variable cuantitativa.
3. Graficos y resumenes numericos:I Variables cualitativas: diagramas de barras (agrupadas, apiladas)
I Variable cualitativa y cuantitativa:I Multiples diagramas de caja, histogramas
I Multiples resumenes numericos.
I Variables cuantitativas:I Diagrama de dispersion.
I Tipos de relacion entre dos variables cuantitativas.
I Medidas de asociacion lineal: covarianza y coeficiente de correlacion
Tema 3: Analisis de datos bivariantes
Lecturas recomendadasI Pena, D. y Romo, J., Introduccion a la Estadıstica para las Ciencias
Sociales.I Capıtulos 7, 8 y 9.
I Newbold, P. Estadıstica para los Negocios y la Economıa.I Secciones 2.5 y 12.1–12.4.
Introduccion. Datos bivariantes
I ¿Afecta el paro en igual medida a toda la poblacionindependientemente de su formacion?
I ¿Los individuos con mayor nivel educativo estan mas, menos oigualmente satisfechos con su vida que aquellos que tienen menornivel educativo?
I ¿Cambia el patron de consumo y produccion responsable en lospaıses con mayores ingresos con respecto a aquellos con menoresingresos?
I ¿Sigue habiendo brecha de genero en el salario?
I ¿Existe alguna relacion entre el volumen de ventas de una empresa ysus activos humanos?
I ¿Estan relacionadas la superficie de una vivienda y su precio?
I ¿Hay alguna relacion entre los resultados medios de un paıs encomprension lectora y en matematicas en las evaluaciones PISA?
Introduccion. Datos bivariantes
I Datos bivariantes: provienen de la observacion simultanea de dosvariables (X ,Y ) en una muestra de n individuos. Los datosbivariantes son pares de valores, numericos o no, de la forma
(x1, y1), (x2, y2), . . . , (xn, yn)
I Ademas de analizar cada variable por separado, queremos estudiar siexiste relacion entre ellas, y en tal caso analizar tal relacion.
Tablas de doble entrada. Distribucion conjunta defrecuencias absolutas.
I Muestra: 10 madrilenos.
I Variable X : Nivel educativo (1=Primaria o menor, 2=Secundaria,3=Post-secundaria)
I Variable Y : Situacion laboral (1=Empleado, 2=Desempleado, 3=Inactivo)
Individuo 1 2 3 4 5 6 7 8 9 10Nivel educativo (X ) 2 3 2 3 2 2 1 1 3 2Situacion laboral (Y ) 3 1 1 3 3 3 3 3 1 3
X \Y Empleado (1) Desempleado (2) Inactivo (3)Primaria (1) 0 0 2
Secundaria (2) 1 0 4Post-secundaria (3) 2 0 1
Tablas de doble entrada. Distribucion conjunta defrecuencias absolutas.
I Muestra: 10 madrilenos.
I Variable X : Nivel educativo (1=Primaria o menos, 2=Secundaria,3=Post-secundaria)
I Variable Y : Situacion laboral (1=Empleado, 2=Desempleado, 3=Inactivo)
Individuo 1 2 3 4 5 6 7 8 9 10Nivel educativo (X ) 2 3 2 3 2 2 1 1 3 2Situacion laboral (Y ) 3 1 1 3 3 3 3 3 1 3
X \ Y Empleado (1) Desempleado (2) Inactivo (3)Primaria (1) 0 0 2
Secundaria (2) 1 0 4Post-secundaria (3) 2 0 1
Ejemplo: Distribucion conjunta de frecuencias absolutas.
Cuando al menos una variable es cualitativa, la tabla de doble entradatambien se denomina tabla de contingencia.
I Muestra: 1508 madrilenos (Encuesta de Condiciones de Vida, INE).
I Variable X : Nivel educativo (1=Primaria o menos, 2=Secundaria,3=Post-secundaria)
I Variable Y : Situacion laboral (1=Empleado, 2=Desempleado, 3=Inactivo)
X \ Y Empleado Desempleado InactivoPrimaria 95 6 315
Secundaria 393 28 257Post-secundaria 317 8 89
Distribuciones de frecuencias absolutas: conjunta ymarginales.
¿Y si solo nos interesa la situacion laboral de los madrilenos?
¿o solo su nivel educativo?
X \ Y Empleado Desempleado Inactivo TotalPrimaria 95 6 315 416
Secundaria 393 28 257 678Post-secundaria 317 8 89 414
Total 805 42 661 1508
Tabla de doble entrada de frecuencias absolutas
I Tabla de doble entrada con k filas y m columnas
Yc ′1 · · · c ′j · · · c ′m Total
c1 n11 · · · n1j · · · n1m n1�...
......
......
X ci ni1 · · · nij · · · nim ni�...
......
......
ck nk1 · · · nkj · · · nkm nk�Total n�1 · · · n�j · · · n�m n��
I Notacion:
Frec. absoluta conjunta para las clases ci de X y c ′j de Y : nijFrec. absoluta marginal para la clase ci de X : ni� = ni1 + · · ·+ nimFrec. absoluta marginal para la clase c ′j de Y : n�j = n1j + · · ·+ nkj
Tamano muestral: n�� = n
Distribuciones de frecuencias relativas: conjunta ymarginales.
X \ Y Empleado Desempleado Inactivo TotalPrimaria 0.0630 0.0040 0.2089 0.2759
Secundaria 0.2606 0.0186 0.1704 0.4496Post-secundaria 0.2102 0.0053 0.0590 0.2745
Total 0.5338 0.0279 0.4383 1
I El 0.53 % de los encuestados tiene estudios de Post-secundaria yesta desempleado.
I Empleando frecuencias relativas podrıamos comparar los resultadosobtenidos en estudios similares (de otros paıses) con distintostamanos muestrales.
Tabla de doble entrada de frecuencias relativasI fij = nij/n: Frec. relativa conjunta para las clases ci de X y c ′j de Y
Yc ′1 · · · c ′j · · · c ′m Total
c1 f11 · · · f1j · · · f1m f1�...
......
......
X ci fi1 · · · fij · · · fim fi�...
......
......
ck fk1 · · · fkj · · · fkm fk�Total f�1 · · · f�j · · · f�m 1
I Frecuencia relativa marginal para la fila i (clase ci de X ):
fi� = fi1 + · · ·+ fij + · · ·+ fim
I Frecuencia relativa marginal para la columna j (clase c ′j de Y ):
f�j = f1j + · · ·+ fij + · · ·+ fkj
Representaciones graficas. Diagramas de barras agrupadasy apiladas
En Excel: Insertar grafico → Columna agrupada
Distribuciones de frecuencias condicionadas
I ¿Y si solo nos interesa la situacion laboral de los individuos con niveleducativo mas alto?
I ¿Y si queremos analizar la relacion entre el nivel educativo y lasituacion laboral?
I ¿Tiene sentido comparar el numero de desempleados con estudios desecundaria con el numero de desempleados con estudios depost-secudaria sin tener en cuenta cuantos individuos hay en cadacategorıa?
Distribuciones de frecuencias condicionadas
I Dada la distribucion conjunta de (X ,Y ), llamaremos distribucioncondicionada a la distribucion de frecuencias (absolutas o relativas)de una variable, suponiendo conocido el valor de la otra variable.
I Notacion: Y |X = ci , o X |Y = c ′j .
Distribucion condicionada de frecuencias de la situacion laboral (Y ) parapersonas con un nivel educativo (X ) de Post-secundaria:
Y |X = Post-secundaria Empleado Desempleado Inactivo TotalFrec. cond. absoluta 317 8 89 414Frec. cond. relativa 0.7657 0.0193 0.2150 1
I El 1.93 % de los encuestados con estudios de Post-secundaria estadesempleado
I ¿Que porcentaje de individuos con estudios de secundaria osuperiores esta desempleado?
Distribuciones de frecuencias condicionadas
Puede condicionarse tambien a que una variable tome varios valores:
I Y |X ≥ Secundaria.
Y | (X ≥ Secundaria) Empleado Desempleado Inactivo TotalFrec. cond. absoluta 710 36 346 1092Frec. cond. relativa 0.6502 0.0330 0.3168 1
I El 3.3 % de los encuestados con estudios de secundaria o superioresesta desempleado.
Distribuciones de frecuencias condicionadas
¿Podemos emplear las distribuciones condicionadas para analizar larelacion entre la situacion laboral y el nivel de estudios?
En Excel: Insertar grafico → Columna 100 % apilada
Tabla de doble entrada para variables cuantitativasI Muestra: 43 alumnos.
I Variable X : Num. de veces que ha ido al teatro en el ultimo mes.
I Variable Y : Num. de veces que ha ido al cine en el ultimo mes.
X e Y son variables cuantitativas discretas y toman un numero pequenode valores distintos ⇒ datos sin agrupar
Teatro / Cine 0 1 2 3 4 Total0 12 5 4 2 1 241 4 3 2 1 0 102 3 3 2 0 0 83 1 0 0 0 0 1
Total 20 11 8 3 1 43
I ¿Cual es el numero medio de veces que han ido al cine en el ultimomes (independientemente del numero de veces que hayan ido alteatro)? ¿y al teatro?
I ¿Cual es el numero medio de veces que han ido al cine en el ultimomes aquellos que no han ido ninguna vez al teatro? ¿y entre los quehan ido 1 vez al teatro? ¿y 2? ¿y 3?
Tabla de doble entrada para variables cuantitativasI Muestra: 1000 empresas americanas.
I Variable X : Volumen de ventas.
I Variable Y : Num. de trabajadores.
X e Y son cuantitativas discretas y toman un numero grande de valoresdistintos (o si son continuas) ⇒ datos agrupados
X / Y [1,25) [25,50) [50,75) [75,99] Total[1,100) 0.293 0.122 0.098 0.049 0.561
[100,200) 0.098 0.073 0.049 0.024 0.244[200,300] 0.073 0.073 0.049 0.000 0.195
Total 0.463 0.268 0.195 0.073 1.000
I ¿Cuantas empresas tienen un volumen de ventas menor que 100?I ¿Que porcentaje de empresas con menos de 25 trabajadores tiene un
volumen de ventas de al menos 200?I ¿Que proporcion de empresas tiene menos de 25 trabajadores y un
volumen de ventas de al menos 200?I ¿Cual es el tamano medio de todas las empresas de la muestra? ¿Y
de aquellas con un volumen de ventas menor que 100?
Ejercicio (Encuesta de Condiciones de Vida. Modulo ano 2013, INE)
I ¿Que distribuciones estan representadas en la tabla anterior?
I ¿Que porcentaje de encuestados con educacion secundaria primeraetapa puntua su satisfaccion entre 5 y 6?
Muchas tablas en informes son tablas de frecuencias condicionadas
Ejercicio (Encuesta de Condiciones de Vida. Modulo ano 2013, INE)
¿Verdadero o falso? Si es falso, ¿tienes suficiente informacion paracalcular el porcentaje verdadero?
I Entre los encuestados mas satisfechos con su vida actual(puntuacion entre 9 y 10), el 23.3 % tiene educacion superior.
I El 75.5 % de los encuestados con educacion superior esta satisfechoo muy satisfecho con su vida actual (puntuacion por encima de 7)
I El 38.5 % de los encuestados puntua su satisfaccion con su vidaactual por debajo de 5.
Es incorrecto sumar frecuencias condicionadas cuando se condiciona envalores distintos
Ejercicio
Comenta los siguientes graficos:
I ¿Que distribuciones estan representadas en el grafico de barras?
I ¿Que relacion observas entre la satisfaccion media con su vida actualy el nivel educativo de los individuos?
Peligros de las comparaciones no homogéneas: Paradoja de Simpson
Sex Bias in Graduate Admissions: Data from Berkeley, Bickel et al., Nature 187 (1975)
44%35%
56%65%
H O M B R E S M U J E R E S
ADMISIONES
Admisiones Denegadas
¿Discriminó la Universidad de Berkeley a las mujeres que habían solicitado su ingreso al postgrado?
https://es.wikipedia.org/wiki/Paradoja_de_Simpson
Peligros de las comparaciones no homogéneas: Paradoja de Simpson
¿Discriminó la Universidad de Berkeley a las mujeres que habían solicitado su ingreso al postgrado?
62
%
63
%
37
%
33
%
28
%
6%
44
%
82
%
68
%
34
%
35
%
24
%
7%
35
%
A B C D E F T O T A L
ADMISIONES
Hombres Mujeres
82
5
56
0
32
5
41
7
19
1
27
2
10
8
25
59
3
37
5
39
3
34
1
A B C D E F
SOLICITUDES
Hombres Mujeres
Datos de admisiones desglosados por departamentos (A, …, F) y sexo:
Variables cualitativas y cuantitativas
I En la mayorıa de los estudios se recogen datos de distintanaturaleza, cualitativos y cuantitativos.
I Es habitual que las variables cualitativas se utilicen para clasificar: seestudia el comportamiento de la variable cuantitativa segun lascategorıas de la variable cualitativa.
Ejemplo
I Muestra: 157 paıses.
I Variable Y : Puntuacion promedio obtenida acerca del grado decumplimiento del ODS12 (Produccion y Consumo Responsables)
I Variable X : Grupo de Ingresos en 2016.
¿Como cambia la puntuacion promedio en el ODS12 de los paıses segunsu nivel de ingresos?
Variables cualitativas y cuantitativas. Múltiples Box-Plot
Average score on SDG12 (Producción y consumo responsables)
0
10
20
30
40
50
60
32.8 41.5 50.2 58.9 67.6 76.3 85 93.7
FREC
UEN
CIA
CLASE
Average score on SDG12
Fuente: SDG Index & Dashboards Report 2017, http://www.sdgindex.org/
Average score on SDG12 (Producción y consumo responsables)
Fuente: SDG Index & Dashboards Report 2017, http://www.sdgindex.org/
Variables cualitativas y cuantitativas. Múltiples Histogramas
0
2
4
6
8
10
12
31.3 38.4 45.5 52.6 59.7 66.8 73.9
FREC
UEN
CIA
CLASE
HIC-Average Score SDG12
02468
10121416
49.2 54.6 60 65.4 70.8 76.2 81.6
FREC
UEN
CIA
CLASE
UMIC-Average Score SDG12
0
5
10
15
20
71.2 75.7 80.2 84.7 89.2 93.7
FREC
UEN
CIA
CLASE
LMIC-Average Score SDG12
012345678
76.6 78.7 80.8 82.9 85
FREC
UEN
CIA
CLASE
LIC-Average Score SDG12
Variables cualitativa y cuantitativa. Histogramas multiples
I ¿Sigue habiendo brecha de genero en el salario?
Resumenes numericos multiples. Tablas de datos
I ¿Existe relacion entre el salario y el nivel de formacion?
Son habituales las tablas que presentan medidas numericas de la variablecuantitativa para cada categorıa de la variable cualitativa:
Resumenes numericos multiples. Tablas de datosI ¿Existe relacion entre el salario y el nivel de formacion?
Los resultados de una tabla se pueden representar graficamente.
La desviacion del salario medio en % de un grupo g con respecto alsalario medio total se obtiene como:
Desvg =( xg − xtotal
xtotal
)· 100
Resumenes numericos multiples. Pictogramas
I ¿Se observan diferencias entre los salarios de los trabajadoresdependiendo de su CCAA?
Los resultados de una tabla se pueden representar por medio depictogramas. En este caso, de un cartograma:
Variables cuantitativas. Diagrama de dispersionI ¿Hay relacion entre la superficie de una vivienda y su precio?
I Muestra: 15 viviendas.
I Variable Y : Precio.
I Variable X : m2 habitables.
m2 habitables precio
107 162657114 16555491 154506
100 16210396 158271
107 166925104 161917100 16114980 15226381 151878
105 165678111 166696108 16538797 161806
106 163824
●
●
●
●
●
●
●●
●●
●
●
●
●
●
80 85 90 95 100 105 110 115
1550
0016
0000
1650
00
Size of a house (m^2)
Pric
e of
a h
ouse
(eu
ro)
●
Medidas de asociacion lineal para variables cuantitativasI La covarianza es una medida de la relacion entre dos variables.
Cuantifica la informacion en un grafico de dispersion sobre laasociacion lineal entre dos variables.
x y1 0.81186553 1.719030422 0.98151318 1.771815093 1.86964664 3.110278374 1.67494569 2.80400635 1.67159679 3.134033546 2.06896883 4.822315857 2.07458768 3.774396388 2.1276676 3.989949179 2.0867583 4.6670687
10 3.01682761 4.472385411 2.21807301 4.8772188912 1.31836091 3.5270388513 0.94868813 2.4457487514 3.71304211 8.19843302
5
6
7
8
9 Y
xi>media(x)yi>media(y)
14 3.71304211 8.1984330215 1.50010914 2.4945486116 3.08738201 5.4329960117 1.3694318 0.9241207318 1.86684042 3.8005790219 1.24087921 1.5577054720 2.07104626 4.7039160921 0.71226336 0.2664213622 1.44547522 3.0170783823 2.44837446 4.8679519824 3.38040178 6.1744001325 0.69995779 0.8548704826 0.93002587 0.0091339927 2.53962691 5.7971757628 3.00173124 5.2616040329 2.99222302 6.0049200130 2.78137228 3.5740901631 2.83313549 6.2447274932 1.21334859 1.78724959
0
1
2
3
4
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5
X
xi<media(x)yi<media(y)
Covarianza:
sxy =1
n − 1
( ∑ni=1 xiyi − nx y︷ ︸︸ ︷
n∑i=1
(xi − x)(yi − y)
)−∞ < sxy <∞
Medidas de asociacion lineal: La covarianza
I sxy >> 0⇒ Relacion lineal positiva.
I sxy << 0⇒ Relacion lineal negativa.
I sxy ≈ 0⇒ No existe relacion lineal o existe relacion no lineal.
I Inconvenientes de la covarianza:I No esta acotada ni superior ni inferiormente. Por lo tanto no se sabe
cuando sxy es suficientemente grande o pequena.I Depende de las unidades de medida de las variables:
Si sxy es la covarianza de X e Y , a y b son dos numeros, yT = a + bY , entonces sxt = b sxy .
Medidas de asociacion lineal: La correlacion
I Correlacion (coeficiente de correlacion lineal de Pearson):
rxy =sxysxsy
I ¿Ventajas?
I Esta acotada: −1 ≤ rxy ≤ 1
I No depende de las unidades de medida de las variables (esadimensional).
I Interpretacion:I rxy > 0: Asociacion lineal positiva.I rxy < 0: Asociacion lineal negativa.I |rxy | = 1: Relacion lineal perfecta.I rxy = 0: X e Y estan incorreladas (ausencia de relacion lineal).
Correlacion y causalidad
I Supongamos que la correlacion entre dos variables X e Y es muyalta (p. ej., rxy = 0.9)
I ¿Podemos concluir que hay una relacion causal entre ambasvariables? (una es causa de la otra)
I La respuesta es que NO.
I P. ej., X = tamano de los pies de un nino, Y = capacidad decomprension lectora de un nino
I La correlacion no implica causalidad
I Ver:https://es.wikipedia.org/wiki/Cum_hoc_ergo_propter_hoc
Ejemplo
Ejemplo- Tenemos tres variables sobre 91 paıses: X = esperanza de vidaen hombres, Y = esperanza de vida en mujeres, y Z = PIB.
I Las covarianzas entre los tres posibles pares de dos variables sonsxy = 105.15, sxz = 50066.04 y syz = 57917.93.
I Las correlaciones son rxy = 0.98, rxz = 0.64 y rxz = 0.65.
I Por lo tanto, aunque las covarianzas entre la esperanza de vida enhombres y mujeres y el producto interior bruto sean mayores que lacovarianza entre la esperanza de vida para hombres y la esperanzade vida para mujeres, la correlacion es mayor entre estas dos ultimasvariables.
Ejercicio: Resultados del informe PISA 2012
I Muestra: 64 paıses cuyos estudiantes realizaron el examen PISA en 2012.
I X : Puntuacion media en lectura.
I Y : Puntuacion media en matematicas.
Se obtiene que
I La covarianza entre X e Y es sxy = 2440.78.
I La correlacion entre X e Y es rxy = 0.96.
A continuacion se muestra el diagrama de dispersion para estos datos.
I ¿Que puedes concluir sobre la relacion entre ambas variables?