Análisis exploratorio de datos

download Análisis exploratorio de datos

If you can't read please download the document

Transcript of Análisis exploratorio de datos

Presentacin de una novedad

Anlisis exploratorio de datos

Tarea Seminario 6Nieves Domnguez LpezGrupo 13 Virgen del Roco

Para comenzar, desde R- commander seleccionamos cargar conjunto de datos, ya que el archivo est en
formato R

Se aade el archivo de activos en salud 2

El primer ejercicio es: seleccionar dos variables cualitativas-factor del fichero activossalud.RData, describirlas en tablas de frecuencias e interpretar al menos 3 aspectos en relacin a la distribucin de las mismas.

Las variables a elegir sern:

Dulces y edad

Para elegir las variables, seleccionamos estadsticos, resmenes, distribucin de frecuencias y pasamos a seleccionar la variable

Se presenta la variable dulces

De los datos, sacamos las siguientes conclusiones:

El 85% de la muestra, la cual contiene 290 individuos, realiza la ingesta de dulces.

El 14,48% de los individuos nunca comen dulces.

El porcentaje ms alto 31,72%, representa a los individuos que comen dulces menos de una vez en semana.

La siguiente variable es edad

Las conclusiones que podemos sacar de esta variable:

Nuestra muestra contiene a 289 individuos.

Destaca que el 38,41% de la poblacin tenga 18 aos, por lo que son 111 personas.

Ms de 25 aos lo tienen pocos individuos exactamente 10,03% de la muestra, 29 individuos.

El segundo ejercicio consiste en: seleccionar dos
variables numricas del fichero y mediante resmenes numricos decribir e interpretar la distribucin de las mismas.

Las variables elegidas son:

Peso y comunicacin familiar

Volvemos a repetir los pasos para la eleccin de otra variable: estadsticos, resmenes, resmenes numricos y eleccin de la variable.

La primera variable peso

Las conclusiones de la tabla de datos son:

Esta variable tiene una media de 62.75571 y una desviacin tpica de 12.65981. Esto dar lugar una grfica ancha y algo ms dispersa.

Hay 16 casos no disponibles por una razn cualquiera.

La mediana es 60 y coincide con el 50% de los datos y con el segundo cuartil (Q2).

La media y la mediana presentan valores parecidos y muy cercanos, por lo que la distribucin es simtrica.

Se vuelve a repetir el procedimiento con la variable
comunicacionfamiliar

Las conclusiones del estudio de esta variable:

Esta variable tiene una media de 7.829932 y una desviacin tpica de 2.824487. La grfica de esta variable ser ms estrecha porque la desviacin tpica es menor.

Hay 144 casos no disponibles debido a una razn desconocida.

La mediana posee un valor de 7 que coincide con Q2.

La mediana y a media son parecidas por lo que la distribucin ser simtrica.

Como ltimo ejercicio: realizar al menos un grfico de cada tipo con variables adecuadamente seleccionadas del fichero,
describe e interpreta la distribucin los mismos.

Encontraremos distintos grficos:

Grficos de barras

Grfico de sectores

Histogramas

Diagrama de cajas

Grficas de barras: variable cualitativa embutidos

Con esta grfica podemos ver que sigue en gran medida una distribucin normal.Casi las mismas personas comen y no comen embutidos, y la gran mayora una o dos veces por semana

Grfico de sectores : variable cualitativa fruta

Se representa claramente en el diagrama que la mayora de la gente come fruta a diario, seguidamente le siguen las que comen una o dos veces a la semana. Poca gente no toma nunca o casi nunca.

Histograma: variable cuantitativa altura

Se refleja que en la muestra destacan aquellas personas que miden entre 1,60 y 1,65.Muy pocas personas miden menos de 1,50 o ms de 1,90.La distribucin es medianamente asimtrica.

Diagrama de cajas: variable cualitativa peso

En este diagrama se observa como el rango itercuartlico es pequeo, la mediana no se encuentra justo en el centro, y los valores extemos e dispersan bastante de los centrales.Hay valores atpicos bastante alejados de la distribucin normal