Curso de introduccin a Stata Jordi Muoz (UAB)
Sesiones 5 - 6: Tablas de contingencia Tablas de contingencia: qu son?
Dos (o ms) variables categricas Explorar la relacin entre ellas Ejemplo: voto y asistencia a servicios religiosos
Variables dependiente e independiente
Variable dependiente: Lo que queremos explicar. La consecuencia Variable independiente: Lo que explica la dependiente. La causa
Tablas de contingencia: las 3 reglas
Regla 1: Poner siempre la variable dependiente en las filas, la independiente en las columnas
Regla 2: Calcular los porcentajes de las categorias de la variable independiente (porcentajes de columna)
Regla 3: Interpretar la tabla mediante la comparacin entre columnas para el mismo valor de la variable dependiente
Tablas de contingencia : La hiptesis nula (independencia)
Distribucin proporcional de los casos a lo largo de la columna, basada en los totales de fila
Frecuencia esperada (bajo supuesto de independencia) en la celda (i,j):
E(i,j) = (nmero total en la columna j * numero total en la fila i)/nmero total en la tabla
E(i,j) = [(total fila/total tabla)*(total columna/total tabla)]*total = (total fila*total col)/total tabla
Residuos
Residuo en la celda (i,j) = frecuencia observada (i,j) frecuencia esperada (i,j)
R(i,j)= O(i,j)-E(i,j)
Resduos estandarizados Residuo estandarizado, de Pearson
1
Curso de introduccin a Stata Jordi Muoz (UAB)
ij
ijij E
RsStd Re.
Media 0 y desviacin tipica 1
Si son positivos, la celda est sobrerepresentada Si son negativos, est infrarepresentada
Chi cuadrado
Test del Chi-cuadrado
Grados de libertad: (I-1)(J-1)
La tabla del Chi cuadrado nos indicar la probabilidad de haber obtenido aquel valor bajo
supuesto de independencia
2
Curso de introduccin a Stata Jordi Muoz (UAB)
Si p>; aceptamos la hiptesis nula (no hay relacin)
Si p5 (fusionar categorias)
Resduos estandarizados
Los Resduos estandarizados nos dan una indicacin sobre indicios de relacin entre las
variables: si el resduo es demasiado grande, debemos dudar de la hiptesis de independencia.
ij
ijij E
RsStd Re.
Los niveles de significacin de los resduos estandarizados:
+/- 1.96, alrededor de 0.05.
+/-2.58, alrededor de 0.01.
Esto equivale a un test de la hiptesis nula que la frecuencia observada y la esperada de la
celda son iguales.
Tablas de contingencia: medidas de asociacin
El Chi cuadrado nos permite decir si hay o no relacin entre las variables, pero cmo de fuerte
es la relacin? Para responder esta pregunta tenemos que ver los estadsticos Phi y V de
Cramer.
La Phi es adecuada para tablas de 2*2
La V de Cramer es adecuada para tablas ms grandes
Varian entre -1 y 1
-1.0 a -0.7 associacin negativa fuerte
-0.7 a -0.3 associacin negativa
-0.3 a +0.3 poca o ninguna associacin
+0.3 a +0.7 associacin positiva
+0.7 a +1.0 associacin positiva fuerte
3
Curso de introduccin a Stata Jordi Muoz (UAB)
Tablas de contingencia en Stata El comando de stata para realizar tablas de contingencia es tabulate, el mismo que empleamos para pedir tablas de frecuencias. La nica diferencia es que para obtener una
tabla de contingencia debemos especificar las dos variables que queremos.
Tabulate Produce una tabla de contingencia de las dos variables especificadas, colocando la primera de ellas en las filas y la segunda en las columnas. Por tanto,
deberemos colocar siempre la variable dependiente primer lugar y la independiente en
segundo lugar (recordar las tres reglas).
tab2 Si intentamos especificar ms de dos variables, Stata nos devolver un mensaje
de error (too many variables specified). Para evitar esto, existe el comando tab2, que
dice a Stata que haga todas las tablas de contingencia por parejas de variables.
Tab2, firstonly La opcin firstonly del comando tab2 evita que Stata haga tablas de contingencia de todas las parejas de variables especificadas, ya que a menudo lo
que nos interesarn sern los emparejamientos de una variable dependiente con varias
independientes. Por eso, con esta opcin, tab2 calcular las tablas de la primera
variable especificada con cada una de las otras.
Opciones de contenido Con estas opciones del comando tabulate (o de tab2) podemos especificar a Stata los contenidos de las casillas de las tablas:
o Row Esta opcin nos mostrar el porcentaje de fila o Col Porcentaje de columna o Cell El porcentaje del total o Expected Frecuencia esperada o Nofreq No mostrar frecuencia
Medidas de asociacin: Para obtener el chi cuadrado (y su valor p), deberemos especificar la opcin chi, mientras que la opcin V (mayscula) nos mostrar la V de Cramer.
Tabchi Para obtener los resduos y los resduos estandarizados, debemos usar el comando tabchi (hay que instalarlo con el comando ssc install tab_chi porque no viene en el paquete original de Stata). Tabchi tiene las siguientes opciones:
o Raw Resduos (frecuencia esperada observada) o Pearson resduos estandarizados o Noo y noe suprimen, respectivamente, la frecuencia observada y la esperada
(en caso de que queramos una tabla slo con resduos).
4
Curso de introduccin a Stata Jordi Muoz (UAB)
Prctica tablas de contingencia: Actitudes hacia la inmigracin
Despus de haber introducido los elementos estadsticos necesarios para trabajar e interpretar
las tablas de contingencia, el siguiente paso lgico es el de ponerlo en prctica. Para ello,
haremos una prctica con datos reales sobre las actitudes hacia la inmigracin y las variables
que puedan estar relacionadas.
La prctica est pensada para cubrir todo el proceso de investigacin emprica, y por lo tanto,
tiene tres fases: preparacin de datos, anlisis y exportacin.
1. Preparacin de datos
Cuando hayamos conseguido abrir los datos con Stata, debemos prepararlos para el
anlisis. La primera cuestin que debemos saber es qu variables utilizaremos. Esto, como
hemos visto en clase, va en funcin de nuestras hiptesis. En este caso, tendremos como
variable dependiente las actitudes hacia la inmigracin.
Variable dependiente En la encuesta con la que trabajamos hay varias preguntas sobre la cuestin. Podemos
elegir una de ellas o crear una nueva que resuma informacin, aunque recuerda que para
trabajar con tablas de contingencia debe ser categrica.
Variables independientes Como variables independientes, podemos utilizar algunas de las que ha sugerido la
literatura sobre la cuestin. Haz una seleccin entre algunas de stas y prepralas
convenientemente:
-Recursos cognitivos: nivel de estudios
-Ideologa
-Edad
-Estatus socioeconmico
-Precariedad laboral y desempleo
-Uso servicios pblicos
-Identidad religiosa
-Confianza interpersonal
-Contacto con inmigrantes
2. Anlisis de datos
5
Curso de introduccin a Stata Jordi Muoz (UAB)
6
La tcnica de anlisis que emplearemos son las tablas de contingencia. Una vez
tenemos seleccionadas y adecuadamente codificadas las variables que queremos
utilizar, podemos proceder a pedir las tablas de contingencia correspondientes.
Para cada cruce, en lnea con lo que discutimos en clase, pediremos todas las tablas
que nos interesen. Almenos debemos pedir:
Tabla con los porcentajes de columna Tabla con los residuos estandarizados Chi cuadrado y V de Cramer
3. Exportacin de datos
Podemos exportar a word las tablas que nos interese mostrar y comentar los
resultados.
Top Related