Valores Perdidos
-
Upload
analia-wellmann-chavarria -
Category
Documents
-
view
46 -
download
2
Transcript of Valores Perdidos
Análisis de valores perdidos
Ana María López
Departamento de Psicología Experimental
Introducción
• La presencia de valores perdidos (información ausente o faltante) es un problema común a
cualquier investigación y no puede ser ignorado en el análisis de datos. Ignorar los datos
ausentes puede tener repercusiones graves que van desde la perdida de potencia del estudio
hasta la aparición de sesgos inaceptables. La eliminación de sujetos con características
especiales limita la representatividad o validez externa de los resultados del estudio.
• Las razones para la ausencia de datos pueden ser diversas: fallos en los instrumentos de
medida, los sujetos no asisten a la entrevista (en diseños longitudinales pueden abandonar el
estudio en una oleada concreta), no contestan a una serie de preguntas o responden con la
opción no sabe/no contesta incorporada en el cuestionario, etc. Por todas estas razones y
muchas otras los datos perdidos son ubicuos en la investigación en ciencias sociales y de la
salud (Allison, 2002).
Introducción
• Hay una solución fácil para el tratamiento de bases de datos con valores perdidos y consiste en
analizar sólo los casos con Información completa en el conjunto de variables. Esta solución, es
la opción por defecto de la mayoría de los paquetes estadísticos, se conoce como análisis de
casos completos (Casewise, Listwise). El análisis de casos completos tiene la ventaja de su
simplicidad pero el inconveniente de que se pueden excluir a muchos casos y perder potencia en
los análisis estadísticos.
Patrones de pérdida de información
• La forma o patrón para la pérdida de datos puede ser muy variada. En la figura siguiente
aparecen representada tres posibles matrices de datos con perdida de información univariante,
monótona y aleatoria.
123......N
?
b)
X1 X2 X3 ..…Yp
? ?
?
? ? ?
Y1 Y2 Y3 ……Yp Y1 Y2 Y3....Yp
Figura 1. Patrones de pedida de información: a) univariado, b) monótono, y c) arbitrario
a) c)
Mecanismos de perdida de datos
Se distinguen tres mecanismos de perdida de datos:
• Datos perdidos completamente al azar (MCAR = missing completely at
random)
• Datos perdidos al azar (MAR= missing completely at random)
• Datos perdidos no ignorables o no debidos al azar (MNI=missing non-
ignorable, o MNAR=missing not at random).
Mecanismos de perdida de datos
Se considera que los datos perdidos son MCAR cuando las características de los sujetos con
información son las mismas que las de los sujetos sin información. Dicho de otra manera la
probabilidad de que un sujeto presente un valor ausente en una variable no depende ni de
otras variables del cuestionario ni de los valores de la propia variable con valores perdidos.
Las observaciones con datos perdidos son una muestra aleatoria del conjunto de
observaciones. Ejemplo de MCAR:
1. Las personas que no nos proporcionan su salario tienen, en promedio, el
mismo salario que las personas que nos lo proporcionan.
2. Las características estadísticas (media, porcentajes) del resto de las variables
son las misma para los sujetos que nos proporcionan su salario y para los que no lo
proporcionan.
Mecanismos de perdida de datos
La perdida de datos es MAR cuando los sujetos con datos incompletos son
diferentes significativamente de los que presentan datos completos en alguna
variable, y el patrón de ausencia de datos puede ser predecible a partir de
variables con datos observados en la base de datos del estudio que no muestran
ausencia de datos. La probabilidad de que se produzca la ausencia de una
observación depende de otras variables pero no de los valores de la variable con
el valor ausente. Es imposible probar si la condición MAR es satisfecha y la razón
es que dado que no conocemos la información faltante no podemos comparar los
valores de aquellos sujetos que tienen información con los que no la tienen. Un
ejemplo de MAR
1. La pérdida de valores en la variable sueldo es MAR si depende del estado civil pero
dentro de cada categoría, la probabilidad de missing no está relacionada con el sueldo.
Mecanismos de perdida de datos
La perdida de datos es MNAR cuando la probabilidad de los datos perdidos sobre una
variable Y depende de los valores de dicha variable una vez que se han controlado el resto
de las variables. Ejemplo:
1. Si son los hogares de renta mayor los que con menos probabilidad nos proporcionan el
salario, una vez controladas el resto de las variables, entonces la perdida de datos no es
aleatoria ni ignorable.
2. En los siguientes archivos se simula el mecanismo MAR y MNAR para una variable y
para dos variables. En este último ejemplo tomado de Schafer y Graham, 2002 se
simulan los tres mecanismos de pérdida con dos variables.
Análisis de Valores perdidos con SPSS
Análisis de Valores perdidos con SPSS
Archivo: opinion.sav
Análisis de valores perdidos
Estadísticos univariados
71 1536,0563 567,98511 29 29,0 0 5
100 4,2900 1,77693 0 ,0 0 0
100 0 ,0
salario
opinion
sexo
N MediaDesviación
típ. Recuento Porcentaje
Perdidos
Bajos Altos
No de extremosa
Número de casos fuera del rango (C1 - 1.5*AIC, C3 + 1.5*AIC).a.
Resumen de las medias estimadas
1536,0563 4,7324
1536,0563 4,2900
1637,1620 4,2900
1585,1126 4,2900
Según lista
Todos los valores
EM
Regresión
sala
rio
opin
ion
Resumen de las desviaciones típicas estimadas
567,98511 1,57623
567,98511 1,77693
598,12110 1,77693
517,90342 1,77693
Según lista
Todos los valores
EM
Regresión
sala
rio
opin
ion
Análisis de valores perdidos
Pruebas T con varianzas separadasa
. 4,0
. 46,5
71 71
0 29
1536,0563 4,7324
. 3,2069
t
gl
no presente
no perdido
Media(Presentes)
Media(Perdidos)sala
rio
sala
rio
opin
ion
Para cada variable cuantitativa, los pares de grupos estánformados por variables indicador (presente, perdido).
Las variables indicador con menos del 5% de losvalores perdidos no se muestran.
a.
Tablas de contingencia de variables indicador frente a categóricas
sexo
71 45 26
71,0 81,8 57,8
29,0 18,2 42,2
Recuento
Porcentaje
Presente
% perd. sistemaPerdidos
salario
Tota
l
muj
er
hom
bre
Las variables indicador con menos del 5% de sus valoresperdidos no se muestran.
Análisis de valores perdidos
Patrones perdidos (casos con valores perdidos)
1 33,3 S
1 33,3 S
1 33,3 S
1 33,3 S
1 33,3 S
1 33,3 S
1 33,3 S
1 33,3 S
1 33,3 S
1 33,3 S
1 33,3 S
1 33,3 S
1 33,3 S
1 33,3 S
1 33,3 S
1 33,3 S
1 33,3 S
1 33,3 S
1 33,3 S
1 33,3 S
1 33,3 S
1 33,3 S
1 33,3 S
1 33,3 S
1 33,3 S
1 33,3 S
1 33,3 S
1 33,3 S
1 33,3 S
Caso43
44
45
47
48
49
50
52
54
55
79
80
81
82
83
84
85
86
87
88
89
91
92
93
95
96
98
99
100
no p
erd
ido
% p
erd
ido
opin
ion
sexo
sala
rio
Patrones devalores
extremos yperdidos
a
- indica un valor extremo bajo, mientras que + indica un valorextremo alto. El rango utilizado es (C1 - 1,5*AIC, C3 + 1,5*AIC).
Los casos y las variables se ordenan según lospatrones de los perdidos.
a.
Patrones tabulados
71
X 100
Número de casos71
29
opin
ion
sexo
sala
rio
Patronesperdidos
a
Com
plet
o si
...b
Los patrones con menos del 1% de los casos (1 o menos) nose muestran.
Las variables se ordenan según los patronesperdidos.
a.
Número de casos completos si las variables perdidasen ese patrón (marcado con X) no se utilizan.
b.
Análisis de valores perdidos
Estadísticos según lista
Medias según lista
71 1536,0563 4,7324
Núm
ero
de c
aso
sala
rio
opin
ion
Covarianzas según lista
322607,08250
-567,92757 2,48451
salario
opinion
sala
rio
opin
ion
Correlaciones según lista
1
-,634 1
salario
opinion
sala
rio
opin
ion
Estadísticos según pareja
Frecuencias según pareja
71
71 100
71 100 100
salario
opinion
sexo
sala
rio
opin
ion
sexo
Medias según pareja
1536,0563 4,7324
1536,0563 4,2900
1536,0563 4,2900
salario
opinion
sexo
sala
rio
opin
ion
Media de la variable cuantitativacuando está presente la otra variable.
Desviaciones típicas según pareja
567,98511 1,57623
567,98511 1,77693
567,98511 1,77693
salario
opinion
sexo
sala
rio
opin
ion
Desviación típica de la variable cuantitativacuando está presente la otra variable.
Covarianzas según pareja
322607,08250
-567,92757 3,15747
salario
opinion
sala
rio
opin
ion
Correlaciones según pareja
1
-,634 1
salario
opinion
sala
rio
opin
ion
Análisis de valores perdidos
Estadísticos de EM estimados
Medias de EMa
1637,1620 4,2900
sala
rio
opin
ion
Prueba MCAR de Little: Chi-cuadrado= 15,175, GL = 1, Sig. = ,000
a.
Covarianzas de EMa
357748,85539
-721,71074 3,15747
salario
opinion
sala
rio
opin
ion
Prueba MCAR de Little: Chi-cuadrado= 15,175, GL = 1, Sig. = ,000
a.
Correlaciones de EMa
1
-,679 1
salario
opinion
sala
rio
opin
ion
Prueba MCAR de Little: Chi-cuadrado= 15,175, GL = 1, Sig. = ,000
a.
Estadísticos de regresión estimados
Medias de regresióna
1585,1126 4,2900
sala
rio
opin
ion
Se añade a cada estimación el residuode un caso elegido aleatoriamente.
a.
Covarianzas de regresióna
268223,95183
-611,10178 3,15747
salario
opinion
sala
rio
opin
ion
Se añade a cada estimación el residuode un caso elegido aleatoriamente.
a.
Correlaciones de regresióna
1
-,664 1
salario
opinion
sala
rio
opin
ion
Se añade a cada estimación el residuode un caso elegido aleatoriamente.
a.
• Análisis de casos completos: para el conjunto de variables (Listwise,
Complete case)
• Análisis de casos completos: por pares de variables (Pairwise)
Métodos para tratar valores perdidos
Métodos de imputación de datos
1. Imputación simple
• Sustitución por la media de las observaciones con información.
• Imputación mediante regresión múltiple. Asigna a los valores missing los valores
predichos por una ecuación de regresión estimada a partir de los sujetos con
información completa.
• Algoritmo EM
2. Imputación múltiple
Métodos para tratar valores perdidos
Allison, P.D. (2002). Missing values. Sage
Little, R. J. A. y Rubin, D. B. (1989) “The Analysis of Social Science Data with Missing Values.”
Sociological Methods and Research 18: 292-326.
Little, R. J. A. y Rubin, D.B. Statistical Analysis with Missing Data,
2nd edition. New York: Wiley.
Rejas, J. Imputación de datos ausentes en estudios de calidad de vida relacionados con la salud:
patrones de pérdida de datos y métodos de imputación. Investig. Clín. Farm. 2005, Vol. 2 (1):
23-29
Schafer, J.L. y Graham, J.W. (2002). Missing Data: Our View of the State of the Art. Psychological
Methods, Vol. 7, No. 2, 147–77
Tutorial sobre análisis de valores perdidos con SPSS 13.
http://www2.chass.ncsu.edu/garson/pa765/missing.htm
Referencias bibliográficas: