Análisis exploratorio de datos
-
Upload
nieves-dominguez-lopez -
Category
Presentations & Public Speaking
-
view
164 -
download
0
Transcript of Análisis exploratorio de datos
Presentacin de una novedad
Anlisis exploratorio de datos
Tarea Seminario 6Nieves Domnguez LpezGrupo 13 Virgen del Roco
Para comenzar, desde R- commander seleccionamos cargar conjunto
de datos, ya que el archivo est en
formato R
Se aade el archivo de activos en salud 2
El primer ejercicio es: seleccionar dos variables cualitativas-factor del fichero activossalud.RData, describirlas en tablas de frecuencias e interpretar al menos 3 aspectos en relacin a la distribucin de las mismas.
Las variables a elegir sern:
Dulces y edad
Para elegir las variables, seleccionamos estadsticos, resmenes, distribucin de frecuencias y pasamos a seleccionar la variable
Se presenta la variable dulces
De los datos, sacamos las siguientes conclusiones:
El 85% de la muestra, la cual contiene 290 individuos, realiza la ingesta de dulces.
El 14,48% de los individuos nunca comen dulces.
El porcentaje ms alto 31,72%, representa a los individuos que comen dulces menos de una vez en semana.
La siguiente variable es edad
Las conclusiones que podemos sacar de esta variable:
Nuestra muestra contiene a 289 individuos.
Destaca que el 38,41% de la poblacin tenga 18 aos, por lo que son 111 personas.
Ms de 25 aos lo tienen pocos individuos exactamente 10,03% de la muestra, 29 individuos.
El segundo ejercicio consiste en: seleccionar dos
variables numricas del fichero y mediante resmenes numricos
decribir e interpretar la distribucin de las mismas.
Las variables elegidas son:
Peso y comunicacin familiar
Volvemos a repetir los pasos para la eleccin de otra variable: estadsticos, resmenes, resmenes numricos y eleccin de la variable.
La primera variable peso
Las conclusiones de la tabla de datos son:
Esta variable tiene una media de 62.75571 y una desviacin tpica de 12.65981. Esto dar lugar una grfica ancha y algo ms dispersa.
Hay 16 casos no disponibles por una razn cualquiera.
La mediana es 60 y coincide con el 50% de los datos y con el segundo cuartil (Q2).
La media y la mediana presentan valores parecidos y muy cercanos, por lo que la distribucin es simtrica.
Se vuelve a repetir el procedimiento con la variable
comunicacionfamiliar
Las conclusiones del estudio de esta variable:
Esta variable tiene una media de 7.829932 y una desviacin tpica de 2.824487. La grfica de esta variable ser ms estrecha porque la desviacin tpica es menor.
Hay 144 casos no disponibles debido a una razn desconocida.
La mediana posee un valor de 7 que coincide con Q2.
La mediana y a media son parecidas por lo que la distribucin ser simtrica.
Como ltimo ejercicio: realizar al menos un grfico de cada tipo
con variables adecuadamente seleccionadas del fichero,
describe e interpreta la distribucin los mismos.
Encontraremos distintos grficos:
Grficos de barras
Grfico de sectores
Histogramas
Diagrama de cajas
Grficas de barras: variable cualitativa embutidos
Con esta grfica podemos ver que sigue en gran medida una distribucin normal.Casi las mismas personas comen y no comen embutidos, y la gran mayora una o dos veces por semana
Grfico de sectores : variable cualitativa fruta
Se representa claramente en el diagrama que la mayora de la gente come fruta a diario, seguidamente le siguen las que comen una o dos veces a la semana. Poca gente no toma nunca o casi nunca.
Histograma: variable cuantitativa altura
Se refleja que en la muestra destacan aquellas personas que miden entre 1,60 y 1,65.Muy pocas personas miden menos de 1,50 o ms de 1,90.La distribucin es medianamente asimtrica.
Diagrama de cajas: variable cualitativa peso
En este diagrama se observa como el rango itercuartlico es pequeo, la mediana no se encuentra justo en el centro, y los valores extemos e dispersan bastante de los centrales.Hay valores atpicos bastante alejados de la distribucin normal