Introducción En toda investigación, y antes de extraer conclusiones acerca de los objetivos e...

Introducción

• En toda investigación, y antes de extraer conclusiones acerca de los objetivos e

hipótesis planteados, es necesario llevar a cabo un análisis previo y exploratorio de

los datos con objeto de detectar errores en la codificación de las variables, eliminar

inconsistencias, evaluar la magnitud y tipo de datos perdidos (ausentes), conocer

características básicas de la distribución de las variables (normalidad, igualdad de

varianzas, presencia de valores atípicos, linealidad, etc) y avanzar acerca de las

relaciones entre ellas.

La mayoría de estos objetivos se alcanzan realizando un análisis descriptivo de las variables. Concretamente utilizaremos medidas de tendencia central y de dispersión para describir las características de las variables cuantitativas y tablas de frecuencias y porcentajes para las variables cualitativas. Para ello utilizaremos, esencialmente, los procedimiento de SPSS que aparecen en la última columna de la siguiente tabla:

Análisis univariable

Tipo de variable Índices analíticos Representaciones gráficas

Procedimientos de SPSS

Cuantitativa media, mediana, moda, desviación típica, rango, amplitud intercuartílica, prueba de normalidad

histograma, gráfico de caja

Descriptivos, Explorar, Tablas

Cualitativa frecuencias, porcentajes, moda, etc.

diagrama de barras, diagrama de líneas, diagrama de sectores

Frecuencias, Tablas

Para llevar a cabo el análisis previo y exploratorio de datos disponemos de un

conjunto de procedimientos estadísticos –numéricos y gráficos- que vamos a

describir a lo largo del presente curso y que están implementados en la mayoría

de los programas estadísticos (SPSS, SAS, S-PLUS, LISREL, EQS, etc).

Introducción

vamos a entender por errores de codificación a todos aquellos valores que están

fuera del rango de las variables cuantitativas y a códigos numéricos o no

numéricos no definidos para representar a categorías de las variables cualitativas.

Ejemplo: Estamos interesados en estudiar si la opinión acerca de la ley de

matrimonios entre parejas del mismo sexo depende de la edad y del sexo. Para

ello seleccionamos una muestra de sujetos mayores de edad y les pedimos que

nos den su opinión acerca de la ley eligiendo una de las opciones de una escala

que va desde 1 (muy desfavorable) hasta 7 (muy favorable). Los datos los hemos

escrito en una archivo de spss y hemos realizado un análisis descriptivo básico

utilizando el procedimiento frecuencias para las todas las variables incluidas en el

archivo y el procedimiento descriptivos para las cuantitativas

1. Detectar errores en la codificación de las variables cualitativas

y cuantitativas:

Para realizar el análisis descriptivo hemos seleccionado las opciones que aparecen en los cuadros siguientes y hemos obtenido las siguientes tablas. A partir de la información que nos proporcionan las tablas ¿podemos identificar errores de codificación en las variables medidas?

• Para ello utilizaremos tanto índices numéricos como gráficos.

2. Caracterizar las distribuciones de las variables en cuanto a su tendencia central, dispersión y forma (normalidad).

• Estadísticos de tendencia central

– Media aritmética.

– Mediana: una vez ordenados los datos, es el valor que deja el mismo número de observaciones a su derecha que a su izquierda.

– Media truncada: es la media de la variable eliminando el 5% de las colas inferior y superior de la distribución, de esta forma se eliminan valores extremos y es por tanto un estadístico robusto.

– M-estimadores: son estadísticos robustos pues se definen ponderando cada valor de la distribución en función de su distancia al centro de la misma. Las observaciones centrales se ponderan por el máximo valor (la unidad) disminuyendo los coeficientes de ponderación a medida que las observaciones se alejan del centro. Existen distintas formas de ponderar: Humbert (pondera con valor uno los valores situados a menos de 1´339 de la mediana), Tukey (pondera con cero los valores situados a 4´385 de la mediana), Andrews (pondera con cero los situados a 4´2066 de la mediana), etc.

• Estadísticos de dispersión:– Rango– Varianza– Desviación tipo– Amplitud intercuartílica (AI)

• Estadísticos de forma:– Asimetría.– Curtosis

• Prueba de normalidad de Kolmogorov

Histograma Gráfico de caja Gráfico Q-Q

15.012.510.07.55.02.50.0

Desv. típ. = 3.57

Media = 7.1

N = 49.00

Figura 1. Tipologías de histogramas

Figura 2. Tipologías de gráficos Q-Q

iXimáx XX )1(

iX10log imáx XX 1log10

imáx XX 11

Para caracterizar a las variables cuantitativas utilizaremos el procedimiento Explorar de SPSS con las variables cansancio emocional, despersonalización, realización personal y depresión total medidas en una muestra de odontólogos. Los cuadros de diálogo con las opciones básicas recomendadas son:

Con las opciones seleccionadas hemos obtenido información que nos permite

responder a las siguientes cuestiones de las variables analizadas:

1. Identificar las medidas de tendencia central y de dispersión

2. Comparar la media con la mediana y con los estimadores robustos

3. Evaluar mediante inspección visual la normalidad de las variables

4. Evaluar utilizando la prueba de significación la normalidad de las variables

Llamamos datos atípicos a aquellas observaciones que se encuentran alejadas del

resto de las observaciones en una variable (atípico univariable) o en la distribución

conjunta de dos o más variables (atípico multivariable). Los valores atípicos

multivariantes resultan de combinaciones de valores muy inusuales. Las

consecuencias de una sola observación atípica pueden ser graves pues pueden

distorsionar las medias y desviaciones típicas de las variables y destruir o construir

relaciones entre ellas. Ejemplo

Los valores atípicos pueden deberse a

2.1. Errores en la codificación de los valores de las variables, errores en la

codificación de valores perdidos, errores de medida, errores en la transcripción.

2.2. Observaciones que no proceden de la población de la que se ha extraído la

muestra.

2.3. Observaciones atípicas debidas a que la distribución de la variable en la

población tiene valores más extremos que los de una distribución normal.

Los valores atípicos debidos a 2.1. y 2.2., una vez detectados deben ser

eliminados o recodificados como valores perdidos. En el caso 2.3 suelen retenerse

y analizar su incidencia en los análisis posteriores.

3. Detectar datos atípicos:

• Para considerar a una observación como atípica existen diferentes criterios:

Se consideran atípica aquellas observaciones que están, en valores absolutos, a más de 3 desviaciones tipo de la media (Z>3 o Z<-3) pero la aplicación de este para criterio depende del tamaño de la muestra.

• En el gráfico de caja, como ya hemos vistos, son atípicos observaciones con puntuaciones superiores o inferiores a 1,5*AI. A partir de 3*AI se califican de extremos.

• Otra regla simple es considerar sospechosas aquellas observaciones tales que:

donde Med(x) es la mediana y MEDA(x) es la mediana de las desviaciones absolutas de x con respeto a la mediana

xmedxi

• Los criterios para detectar atípicos a nivel univariante no tienen porque identificar atípicos multivariantes. Para ello se puede utilizar, aunque no exenta de problemas, la distancia de Mahalanobis.

La distancia de Mahalanobis es la distancia al centro de gravedad ponderada por la matriz de varianzas covarianzas. Una observación multivariante resultará sospechosa si su distancia supera el valor de chi-cuadrado para k (número de variables) y un nivel de significación de 0,001.

Algunos de los gráficos disponibles en SPSS implementan los criterios anteriores para detectar datos atípicos. Los siguientes cuadros de diálogo corresponden a los gráficos recomendados para detectar atípicos:

Con la secuencia de cuadros de diálogo sobre la matriz obtenemos los siguientes gráficos

Caras de Chernoff

3. Detectar datos atípicos:Gráficos de estrella

zdespe

zreazdepre

zsatisfa

zcan zdespe zrea zdepre zsatisfa Gráficos de linea

sujeto 1

zdespe

zreazdepre

zsatisfasujeto 1

sujeto 2

zdespe

zreazdepre

zsatisfa

4. Linealidad

Muchos procedimientos de análisis se basan en el patrón de correlaciones de Pearson

entre variables cuantitativas. El coeficiente de correlación mide el grado de asociación

lineal entre variables y no es adecuado utilizarlo cuando el patrón de covariación no es

lineal. Es importante también que los coeficientes de correlación sean fiables y, bajo

determinadas circunstancias, los coeficientes de correlación pueden ser mucho más

grandes o mucho más pequeños de lo que deberían ser.

Variables compuestas: En muchas investigaciones es frecuente utilizar variables

compuestas (sumas, promedios, etc) que se obtienen a partir de varios items, las

correlaciones entre variables compuestas que comparten items individuales en su

definición suelen estar infladas.

La presencia de valores atípicos: los valores atípicos como ya hemos demostrado

pueden inflar o reducir significativamente las correlaciones entre variables.

Restricción de rango: las correlaciones muestrales pueden ser inferiores a las

poblacionales cuando en la muestra el rango de respuestas de uno o ambas de las

variables analizadas está restringido.

• La herramienta más útil para obtener información, a nivel exploratorio, de la relación

entre dos variables cuantitativas es el diagrama de dispersión, o nube de puntos. Se

construye representando, en el plano cartesiano, los valores de las variables

medidas. La inspección visual del gráfico de dispersión nos permite identificar

valores atípicos y el tipo de relación entre las variables.

4. Linealidad

101520

0 5 10 15 20

4. Linealidad

Gráfico

20,00 40,00 60,00 80,00 100,00

a) Diagrama de dispersión por defecto

4. Linealidad

Análisis exploratorio de datos (II). Análisis de dos variables cuantitativas. Diagrama de dispersión con SPSS

Gráfico

hrv_a hrv_b hrv_c hrv_d hrv_fa imp_a imp_b imp_c imp_d

20,00 40,00 60,00 80,00 100,00

grupctrl

4. Linealidad

análisis previo y exploratorio

Univariable Multivariado

a) Variable Cualitativa

b) Variable Cuantitativa

a) Dos Variables Cualitativas: Tablas de contingencia y

gráficos de barras

b) Una Variable Cuantitativa y otra Cualitativa: Explorar

c) Dos Variables Cuantitativa: correlaciones bivariadas,

gráficos de dispersión

Bivariado

Escobar, M. (2000). Análisis gráfico/Exploratorio. Cuadernos de Estadística. Madrid: Editorial La Muralla.

Figueras, M y Gargallo, P. (2003): Análisis Exploratorio de Datos", [en línea]. http://www.5campus.com/leccion/aed> [y añadir fecha consulta]

Palmer, A. (1995). El análisis exploratorio de datos. Madrid: Eudema

Peña, D. (2002). Análisis de datos multivariantes. Madrid: McGraw Hill.

Rial, A.; Varela, J. y rojas, A. (2001). Depuración y análisis preliminares de datos en SPSS. Sistemas informatizados para la investigación del comportamiento. Madrid: RA-MA.

Bibliografía

Introducción En toda investigación, y antes de extraer conclusiones acerca de los objetivos e...

Documents

Transcript of Introducción En toda investigación, y antes de extraer conclusiones acerca de los objetivos e...

1.2. Problemas Planteados en Ingenieria Civil

1. OBJETIVOS PLANTEADOS Y CONSEGUIDOS

Metodos Para Descubrir y Extraer Oro

Tarea Resolver Los Problemas Planteados

Gráfica problemas planteados

Metodología de la investigación Octubre 2013. Contenido Hipótesis – Concepto de hipótesis – Tipos de hipótesis – Formulación de hipótesis.

Cadena de distribución: extracción/instalación' (2010 ->) · Extraer la carcasa del filtro de aire y las mangueras Extraer la bomba de vacío Extraer la cubierta superior del motor

3.5 Hipótesis sobre proporcionesmyuvmcollege.com/uploads/lectura2011-05/Hipótesis sobre... · •Se enuncian la hipótesis nula y la hipótesis alterna de manera formal como sigue:

DESAFÍOS PLANTEADOS PARA LOS SISTEMAS DE SEGURIDAD …

Prueba de hipótesis para la diferencia de medias · Pruebas de hipótesis Hipótesis nula Hipótesis alternativa Regiones – Valor crítico De rechazo De aceptación Errores Tipo

Análisis de los problemas matemáticos planteados por los ...

Jóvenes “punqueros” y “hoperos” quiteños Exclusión e ...dspace.ups.edu.ec/bitstream/123456789/5598/1... · como la hipótesis, la pregunta investigativa y los objetos planteados

Tutorial Para Extraer Coordenadas de Domicilio

Introducción al razonamiento estadístico aplicado a la ... · de la heterogeneidad cultural del mundo de las Estelas. Se e~aminan: las formas de extraer hipótesis a partir de resultados

Factores que inciden en el rendimiento academico de los ... que... · LA HIPOTESIS DE INVESTIGACION. ... este trabajo: Extraer el grado de incidencia de las distintas ... Amplia hipótesis

PROBLEMAS PLANTEADOS POR EL TERRENO EN LA …cecfic.uni.edu.pe/archivos/suelos/1_Problemas_Planteados_en_el... · Facultad de Ingeniería Civil PROBLEMAS PLANTEADOS POR EL TERRENO

como extraer oro de dipositivos informaticos

Problemas Planteados Por La Ingenieria Civil

Contraste de hipótesis: ¿Qué es una hipótesis estadística?

Hipótesis conservativajapt.es/bio2bach/AN_EXPRESIONGENICA/repliADN.pdf · José Antonio Pascual Trillo (accesible en ) Hipótesis conservativa Hipótesis semiconservativa Hipótesis