AED- Outliers y Missing

Los casos atpicos son observaciones con caractersticas diferentes de las dems.

Este tipo de casos no pueden ser caracterizados categricamente como benficos o problemticos sino que deben ser contemplados en el contexto del anlisis y debe evaluarse el tipo de informacin que pueden proporcionar.

Su principal problema radica en que son elementos que pueden no ser representativos de la poblacin pudiendo distorsionar seriamente el comportamiento de los contrastes estadsticos.

DATOS ATPICOS (OUTLIERS)

La primera categora.- Contiene aquellos casos atpicos que surgen de un error de procedimiento, tales como la entrada de datos o un error de codificacin. Estos casos atpicos deberan subsanarse en el filtrado de los datos, y si no se puede, deberan eliminarse del anlisis o recodificarse como datos ausentes.

La segunda clase.- Es la observacin que ocurre como consecuencia de un acontecimiento extraordinario. En este caso, el outlier no representa ningn segmento vlido de la poblacin y puede ser eliminado del anlisis.

La tercera clase contiene las observaciones cuyos valores caen dentro del rango de las variables observadas pero que son nicas en la combinacin de los valores de dichas variables.

La cuarta y ltima clase comprende las observaciones extraordinarias para las que el investigador no tiene explicacin.

TIPOS DE OUTLIERS

E.2 Identificacin de outliers

Los casos atpicos pueden identificarse desde una perspectiva univariante o multivariante.

La perspectiva univariante examina la distribucin de observaciones para cada variable, seleccionando como casos atpicos aquellos casos cuyos valores caigan fuera de los rangos de la distribucin. La cuestin principal consiste en el establecimiento de un umbral para la designacin de caso atpico. Esto se puede hacer grficamente mediante histogramas o diagramas de caja o bien numricamente, mediante el clculo de puntuaciones tipificadas.

F.- DATOS AUSENTES (MISSING)

Los datos ausentes son algo habitual en el Anlisis Multivariante; de

hecho, rara es la investigacin en la que no aparece este tipo de

datos.

En estos casos la ocupacin primaria del investigador debe ser

determinar las razones que subyacen en el dato ausente buscando

entender el proceso principal de esta ausencia para seleccionar el

curso de accin ms apropiado.

Para ello se debe determinar cul es el proceso de datos ausentes,

entendido como cualquier evento sistemtico externo al encuestado o

accin por parte del encuestado que da lugar a la ausencia de datos.

En particular, el investigador debe analizar si existe algn patrn no

aleatorio en dicho proceso que pueda sesgar los resultados obtenidos

debido a la prdida de representatividad de la muestra analizada.

F.- DATOS AUSENTES (MISSING)

F.1 Tipos de valores ausentes

F.2 Localizacin de datos ausentes

F.3 Diagnstico de la aleatoriedad en el proceso de datos ausentes

F.4 Aproximaciones al tratamiento de datos ausentes

F.1 Tipos de valores ausentes

1) Datos ausentes prescindibles:

son resultado de procesos que se encuentran bajo el control del investigador y pueden ser identificados explcitamente. En estos casos no se necesitan soluciones especficas para la ausencia de datos dado que dicha ausencia es inherente a la tcnica usada.

Ejemplos de estas situaciones son aquellas observaciones de una poblacin que no estn incluidas en la muestra o los llamados datos censurados que son observaciones incompletas como consecuencia del proceso de obtencin de datos seguido en el anlisis.

2) Datos ausentes no prescindibles:

son resultado de procesos que no se encuentran bajo el control del investigador y/o no pueden ser identificados explcitamente.

Ejemplos de estas situaciones son los errores en la entrada de datos, la renuncia del encuestado a responder a ciertas cuestiones o respuestas inaplicables.

En estos casos se debe analizar si existen o no patrones sistemticos en el proceso que puedan sesgar los resultados obtenidos.

Si los datos ausentes son no prescindibles conviene, por lo tanto, analizar el grado de aleatoriedad presente en los mismos. Segn este grado el proceso de datos ausentes se puede clasificar del siguiente modo:

Datos ausentes completamente aleatorios (MCAR): este es el mayor grado de aleatoriedad y se da cuando los datos ausentes son una muestra aleatoria simple de la muestra sin un proceso subyacente que tiende a sesgar los datos observados. En este caso se podra solucionar el problema sin tener cuenta el impacto de otras variables.

Datos ausentes aleatorios (MAR): en este caso el patrn de los datos ausentes en una variable Y no es aleatorio sino que depende de otras variables de la muestra X.

Ahora bien, para cada valor de X, los valores observados de Y s representan una muestra aleatoria de Y.

As, por ejemplo, si X es el sexo del encuestado e Y es su renta, un proceso MAR se tendra si existen ms valores ausentes de Y en hombres que en mujeres y, sin embargo, los datos son aleatorios para ambos sexos en el sentido de que, tanto en los hombres como en las mujeres, el patrn de ausentes es completamente aleatorio. Si, adems, tampoco existen diferencias por sexos los datos ausentes seran MCAR.

Si los datos ausentes son MAR cualquier solucin al problema deber tener en cuenta los valores de X dado que afectan al proceso generador de datos ausentes.

3) Datos ausentes no aleatorios:

en este caso existen patrones sistemticos en

el proceso de datos ausentes y habra que

evaluar la magnitud del problema

calibrando, en particular, el tamao de los

sesgos introducidos por dichos patrones. Si

stos son grandes habra que atacar el

problema directamente intentando averiguar

cules son dichos valores.

F.2 Localizacin de datos ausentes

El primer paso en el tratamiento de datos ausentes consiste en evaluar la magnitud del problema. Para ello se comienza analizando el porcentaje de datos ausentes por variables y por casos. Si existen casos con un alto porcentaje de datos ausentes se deberan excluir del problema. As mismo si existe una variable con un alto porcentaje de este tipo de casos su exclusin depender de la importancia terica de la misma y la posibilidad de ser reemplazada por variables con un contenido informativo similar.

Como regla general, sin embargo, si dicha variable es dependiente debera ser eliminada ya que cualquier proceso de imputacin de valores puede distorsionar la significacin estadstica y prctica de los modelos estimados para ella.

F.3 Diagnstico de la aleatoriedad en el proceso de datos ausentes

Existen 3 mtodos:

a.-Para cada variable Y formar dos grupos (observaciones ausentes y presentes en Y) y aplicar contrastes de comparacin de dos muestras para determinar si existen diferencias significativas entre los dos grupos sobre otras variables de inters.

b.- Utilizar correlaciones dicotomizadas para evaluar la correlacin de los datos ausentes en cualquier par de valores. Estas correlaciones indicaran el grado de asociacin entre los valores perdidos sobre cada par de variables.

c.-Realizar contrastes conjuntos de aleatoriedad que determinen si los datos ausentes pueden ser clasificados como MCAR. Estos contrastes analizan el patrn de datos ausentes sobre todas las variables y las compara con el patrn esperado para un proceso de datos ausentes aleatorio. Si no se encuentran diferencias significativas el proceso puede clasificarse como MCAR; en caso contrario deben utilizarse los procedimientos a) y b) anteriores para identificar los procesos especficos de datos ausentes que no son aleatorios

F.4 Aproximaciones al tratamiento de datos ausentes

Si se encuentran procesos de datos ausentes MAR o no aleatorios, el investigador debera aplicar slo el mtodo diseado especficamente para este proceso. Slo si el investigador determina que el proceso de ausencia de datos puede clasificarse como MCAR pueden utilizarse las siguientes aproximaciones:

a.- Utilizar slo los casos completos: conveniente si el tamao muestral no se reduce demasiado

b.- Supresin de casos y/o variables con una alta proporcin de datos ausentes. Esta supresin deber basarse en consideraciones tericas y empricas. En particular, si algn caso tiene un dato ausente en una variable dependiente, habitualmente excluirlo puesto que cualquier proceso de imputacin puede distorsionar los modelos estimados.

As mismo una variable independiente con muchos datos ausentes podr eliminarse si existen otras variables muy similares con datos observados.

c.- Imputar valores a los datos ausentes utilizando valores vlidos de otras variables y/o casos de la muestra

F.4.1 Mtodos de imputacin

Los mtodos de imputacin pueden ser de tres tipos:

1.- Mtodos de disponibilidad completa que utilizan toda la informacin disponible a partir de un subconjunto de casos para generalizar sobre la muestra entera. Se utilizan habitualmente para estimar medias, varianzas y correlaciones.

2.- Mtodos de sustitucin que estiman valores de reemplazo para los datos ausentes, sobre la base de otra informacin existente en la muestra. As se podra sustituir observaciones con datos ausentes por observaciones no maestrales o sustituir dichos datos por la media de los valores observados o mediante regresin sobre otras variables muy relacionadas con aquella a la que le faltan observaciones

3.- Mtodos basados en modelos

que construyen explcitamente el mecanismo

por el que se producen los datos ausentes y

lo estiman por mxima verosimilitud. Entran

en esta categora el algoritmo EM o los

procesos de aumento de datos no hace ms

que confirmar impresiones iniciales

obtenidas a partir de un A.E.D.

VIII.- HERRAMIENTAS DE AED

A.-Estadstica Univariada

Estadstica Univariada

Variable Aleatoria (V.A.):Es una variable Z que puede tomar una serie de valores o realizaciones (zi) cada una de las cuales tienen asociadas una probabilidad de ocurrencia (pi).

Ejemplo: Al lanzar un dado puede resultar {1, 2, 3, 4, 5 o 6} con una probabilidad de ocurrencia igual a 1/6.

Las probabilidades cumplen las condiciones:

a) 0 ; b)

Variable Aleatoria reguionalizada (V.A.F(z)):

Dado que x, es un punto en el espacio R3 y z(x) es el valor de la funcin para el punto x, en el que se est interesado. Est funcin es llamada Variable Regionalizada, p. ej. puede ser la consistencia de un deposito en un punto, o la gravedad especifica de los minerales. Tal funcin usualmente es altamente variable y no-continua y no puede ser estudiada correctamente. El estudio se lo realiza, examinando sus incrementos.

La idea bsica de la teora es considerar a tal funcin z(x), donde x es un punto o un vector en Rn , como una realizacin de una funcin aleatoria Z(X). Solo se tiene una realizacin de aquella funcin aleatoria, el fin es encontrar las caractersticas de la funcin aleatoria Z(X) para hacer las estimaciones de posibles puntos desconocidos.

NOTA.- Una realizacin de una funcin aleatoria es una variable regionalizada

Variable Aleatoria Discreta:

cuando el nmero de ocurrencias es finito o contable, se conoce como variable aleatoria discreta.

Ejemplo: tipos de facies en un yacimiento.

Variable Aleatoria Continua:

si el nmero de ocurrencias posibles es infinito.

Ejemplo: el valor de la porosidad de un medio se encuentra en el intervalo [0,100%].

Variable Aleatoria regionalizada (V.A.F(z)):

Funcin de Distribucin de Probabilidad (FDP)

La FDP caracteriza completamente a la VA.

Su grfica

es el

histograma

Funcin de Densidad de Probabilidad (fdp)

Su grfica

es el

histograma

B.-Estadstica Bivariada

Hasta el momento, slo hemos considerado a las variables aleatorias por separado, sin que exista ninguna interrelacin entre stas.

En muchos campos de aplicacin y en particular, en las Ciencias de la Tierra, es frecuentemente ms importante conocer el patrn de dependencia que relaciona a una variable aleatoria X (porosidad) con otra variable aleatoria Y (permeabilidad).

Por lo que le dedicaremos especial atencin alanlisis conjunto de dos variables aleatorias, conocido como anlisis bivariado

Diagrama de Dispersin (Scattergram)

El equivalente bivariado del histograma es el

diagrama de dispersin o scattergram.

El grado de dependencia entre dos variables

aleatorias X y Y puede ser caracterizado por el

diagrama de dispersin alrededor de

cualquier lnea de regresin.

C.- Estadstica multivariada

Existen muchas tcnicas multivariadas:

Anlisis de Regresin

Anlisis de Conglomerados

Anlisis de Componentes Principales

Anlisis Factorial

Anlisis Discriminante, etc

D.- Estadstica lineal y mnimos cuadrados

La regresin trata de establecer relaciones funcionales entre variables aleatorias.

En particular la regresin lineal consiste en establecer una relacin descrita mediante una recta.

Los modelos de regresin nos permiten hacer predicciones o pronsticos a partir del modelo establecido.

El mtodo que se emplea para estimar los parmetros del modelo de regresin es el de los Mnimos Cuadrados.

IX.- SOFTWARE:

Los softwares a utilizar sern:

SGeMS (software abierto)

Mine sighit (software propietario)

X.- CONCLUSION:

Conviene hacer notar, finalmente, la

importancia de estas tcnicas y la necesidad

de perder el tiempo en aplicarlas. Nuestra

experiencia es que un A.E.D. hecho en

profundidad muestra mucha informacin

acerca de los datos objeto de anlisis y que,

en muchas ocasiones, la aplicacin de

tcnicas estadsticas ms sofisticadas del

Anlisis Multivariante.

AED- Outliers y Missing

Documents

Transcript of AED- Outliers y Missing