Post on 26-Sep-2015
description
Ingeniera Qumica
Materia: Estadstica Aplicada
Profesor: Dra. Margarita Loredo Cancino
Anlisis estadstico de la cantidad de horas que duerme una muestra de personas con distintas edades
Equipo: Alans Silva, ngel Eduardo1543650Cisneros Valdez, Edna Lorena1568237Villanueva Snchez, Daniela1568662
Grupo: 001
Ciudad Universitaria
26 de Noviembre de 2014Introduccin
El estudio presentado en este trabajo muestra una comparacin entre las edades de las personas y las horas de sueo que tienen al da. Para realizar este estudio se recabaron datos a travs de encuestas a personas entre 1 y 84 aos de edad.
Con el fin de mantener una buena salud fsica y mental se recomienda dormir al menos 8 horas diarias. Sin embargo las horas necesarias de sueo varan de acuerdo a la edad de las personas, para un nio pequeo a partir de los 3 aos se recomienda dormir al menos 11 horas, durante la edad escolar que consta entre los 6 y 12 aos se recomienda dormir 10 horas, para adolescentes y hasta los 40 aos se recomiendan 8 horas, despus de los 40 el mnimo es de 7 horas. Los adultos mayores tienden a tener un sueo dividido por lo que se recomienda dormir 6 horas nocturnas y 2 horas diurnas. Para efectos de este trabajo se recopilaron solamente horas de sueo nocturnas.
Debido a la ajetreada vida que se lleva en la actualidad es muy comn que la gente no respete su horario de sueo y tienda a dormir menos de lo que se recomienda para mantener una vida saludable. Este tema no se debe ser tomado a la ligera ya que la falta de sueo puede llevar a problemas de salud ms graves como lo es el estrs, ansiedad, cambios de humor, etc. El presente estudio tiene como objetivo evaluar mediante herramientas estadsticas si las personas cumplen con las respectivas horas de sueo de acuerdo a su edad., adems de disear un modelo que permita predecir las horas que duerme una persona conociendo su edad. Se espera que las horas de sueo estn relacionadas linealmente con la edad, ya que conforme una persona se hace mayor disminuye la cantidad de horas que debera dormir de acuerdo a las recomendaciones.
1. Metodologa
Los datos utilizados en el estudio se obtuvieron mediante encuestas que consistan de dos preguntas: Edad? y Horas que duerme al da (entre semana)?. Se tom una muestra de 103 personas que iban desde 1 ao hasta los 84 aos con el fin de abarcar un amplio rango de edades y enriquecer el estudio. Dado que el estudio tena como nico fin comparar la edad con el sueo, no fue necesario un grupo de encuestados con caractersticas especficas.Formato de la encuestaEdadHoras que duerme al da (entre semana)
Una vez obtenidos los datos se calcul la media, mediana y moda de la muestra as como la varianza muestral y consiguientemente su desviacin estndar. Enseguida se muestran las formulas y/o mtodo utilizados.Media muestral:
Moda: Observacin que se presenta con mayor frecuencia en la muestra.Mediana: Punto donde la muestra se divide en dos partes iguales.
Dado que la media de horas de sueo recomendada es 8 horas se realiz una prueba de hiptesis comparando la media obtenida y la recomendada, utilizando el estadstico T con un 95% de confianza.Enseguida se muestran las formulas y/o mtodo utilizados.
(1.1)
Se calcul una regresin lineal y una cuadrtica con el fin de que alguna se ajustara a los datos obtenidos y ser capaces de modelar una ecuacin que relacione las horas de sueo con la edad de las personas. Enseguida se construyeron las tablas de ANOVA.
Formulas utilizadas:Modelo de regresin lineal mltiple (1.2) (1.3) (1.4) (1.5)
Tambin se calcul un intervalo de confianza bilateral para nuestra muestra, para la regresin as como para la prediccin de nuevas observaciones, utilizando nuevamente un 95% de confianza y la prueba estadstica T.I.C para la muestra (1.6)
I.C para la respuesta promedio (1.7) (1.8)
I.C para la prediccin de nuevas observaciones (1.9)
Para comprobar si todos los coeficientes de regresin son significativos y en caso de no serlos, ser capaces de descartarlos se utiliz el siguiente mtodo: (1.10) (1.11) 2. Conjunto de datosSe llevaron a cabo encuestas a distintas personas de diversas edades, para saber cuntas horas aproximadamente dorman al da, y se obtuvieron los siguientes datos:
-Edad: AosUNIVERSIDAD AUTNOMA DE NUEVO LENFACULTAD DE CIENCIAS QUMICAS
-NHS: Nmero de horas de sueo
nEdad NHS
118
239
378.5
478
597.5
698.5
71010
81010
9107
10108
11108
12127.5
13127.5
14126
151212
16128
171210
18137
19138
20139
21147
22156
23156
24157
25179
Tabla 2.1. Conjunto de datos experimentales estudiados
nEdad NHS
26175.5
27175
28177.5
29176.5
30187
31187
32196
33195
34195
35195.5
36194.5
37195
38194
39195
40198
41205
42206
43204
44206
45205
46215
47226
48236
49246
50267
51268
nEdad NHS
52286.5
53287
54287
55297
56326
57336
58336
59348
60347
61387.5
62386
63395
64398
65398
66397.5
67408
68408
69417
70426
71448
72448
73447
74448
75458
76466
77466.5
nEdadNHS
78467
79467
80475
814710
82487
83495
84506
85507
86517
87516
88516
89515
90527
91538
92576
93578
94586
95608
96668
97737
98748
99758
100778
101807
102808
103848
Anlisis Exploratorio de los Datos Experimentales Estudiados
Distribucin de frecuencias de los datos
Rango: 84-1 = 83Rango para el intervalo de clase: 90-0 = 90Intervalo de clase: 103 = 10.1489 10
Intervalo de ClaseConteoFrecuenciaFrecuencia RelativaFrecuencia Relativa Acumulada
0 x < 10IIII I60.0582524270.058252427
10 x < 20IIII IIII IIII IIII IIII IIII IIII340.3300970870.388349515
20 x < 30IIII IIII IIII150.1456310680.533980583
30 x < 40IIII IIII I110.1067961170.640776699
40 x < 50IIII IIII II170.1650485440.805825243
50 x < 60IIII IIII I110.1067961170.912621359
60 x < 70II20.0194174760.932038835
70 x < 80IIII40.0388349510.970873786
80 x < 90III30.0291262141
Tabla 2.2. Distribucin de Frecuencias Histogramas
Figura 2.1. Histograma de Frecuencia
Figura 2.2. Histograma de Frecuencia Relativa Acumulada
Medidas de localizacin
Medidas de localizacin
Media Muestral6.980582524
Mediana7
Moda8
Tabla 2.3. Medidas de localizacin
Medidas de variabilidad
Medidas de Variabilidad
Rango83
Varianza Muestral1.984913383
Desviacin Estndar Muestral1.408869541
Tabla 2.4. Medidas de localizacin
Figura 2.3. Dispersin de los datos, incluyendo media, moda y mediana.
Datos atpicos
Los datos atpicos, por definicin, son observaciones cuyos valores son muy diferentes a las otras observaciones del mismo grupo de datos. Los datos atpicos pueden ser ocasionados por:
a) Errores de procedimiento.
b) Acontecimientos extraordinarios.
c) Valores extremos.
d) Causas no conocidas.
En este caso, en nuestra grfica las observaciones diferentes a las normalmente obtenidas, basndonos en la grfica de dispersin de los datos, son 4 horas, 10 horas y 12 horas.
Prueba de hiptesis para la media; 95% confianzaH0: = 8H1: < 8Estadstico t, A=.95, G.L= 102 Ecuacin 1.1
Se rechaza H0
Intervalo de confianza para la media; 95% confianzaDe acuerdo a la ecuacin 1.12
3. Modelo de regresinEn esta seccin primeramente se definir nuestra variable dependiente (y), al igual que nuestra variable independiente (x), el nmero de horas dormidas en un da y la edad del individuo respectivamente.Luego decidimos empezar por el modelo de regresin ms simple (modelo de regresin lineal), para analizar la exactitud con la que predice nuestra variable de respuesta (lo cual se explicar ms ampliamente en secciones posteriores), usando la siguiente ecuacin: (1.5)Dnde:11
13
17
17
19
19
110
110
110
110
110
112
112
112
174
175
177
180
180
184
8
9
8.5
8
7.5
8.5
10
10
7
8
8
7.5
7.5
6
8
8
8
7
8
8
X= y=
Modelo de regresin lineal
Para posteriormente obtener nuestros parmetros de regresin lineal.
Y as obtenemos una nueva ecuacin, con la cual es posible predecir la respuesta de nuestro conjunto de datos8
9
8.5
8
7.5
8.5
10
10
7
8
8
7.5
7.5
6
8
8
8
7
8
8
(3.1)
De la misma manera obtuvimos los parmetros de regresin para un modelo de segundo orden, mediante la ecuacin (3.1), donde nuestras matrices x y y son:
111
139
1749
1749
1981
1981
110100
110100
110100
110100
110100
112144
112144
112144
1745476
1755625
1775929
1806400
1806400
1847056
X=
Y=
Modelo de Regresin polinomial: cuadrtica
Los parmetros de nuestra regresin cuadrtica fueron los siguientes: Con dichos parmetros se nota un mejor ajuste en la estimacin la variable de respuesta, mediante la ecuacin: (3.2)4. Anlisis de resultados Anlisis Exploratorio de los DatosTras los resultados de las encuestas realizadas, obtuvimos un rango entre 84-1 aos. De este rango, se calcul un intervalo de clase aproximadamente de 10, por lo tanto, nuestro rango termina siendo entre 90-0 aos. A partir de esto, se obtiene que el intervalo 0 x < 20 es donde se encuentran los datos con una mayor frecuencia, en este caso, 34 datos. En medidas de localizacin, se obtiene que la cantidad de horas promedio de sueo en la muestra, es de 6.9806 horas. La mediana de los datos, es 7 horas, y la moda, es de 8 horas. Esto indica que la mayora de las personas en la muestra duermen aproximadamente 8 horas diarias. En medidas de variabilidad, se obtiene una varianza muestral de 1.9849 y una desviacin estndar muestral de 1.4089.
Grfica de dispersin de los datos y puntos atpicosEn la grfica de dispersin de datos, podemos notar la presencia de ciertos puntos atpicos en ella, en este caso, de las personas que diariamente duermen 4, 10 y 12 horas, ya que son los que se encuentran mas alejados de la media. Estos datos en nuestro modelo pueden haberse dado debido a algn acontecimiento extraordinario, valores extremos o causas no conocidas. Es posible que dichos datos atpicos aparezcan en la grfica debido a que esas personas de la muestra que duermen, por ejemplo, 4 horas, tienen un trabajo muy demandante el cual les permite dormir slo esa cantidad de horas, o en la escuela en que estudian sus deberes les consumen tiempo que debera estar destinado a dormir, o sufren de alguna enfermedad, etc. Al contrario de las personas que duermen 10 y 12 horas, se puede deber a que no se encuentren trabajando ni estudiando, o que su trabajo o escuela no les demande tanto tiempo. Estos datos no fueron descartados para nuestros clculos, ya que se nos peda en este proyecto utilizar absolutamente todos los datos obtenidos del experimento realizado. Prueba de Hiptesis de la MuestraAl ser rechazada nuestra hiptesis nula se acepta la hiptesis alternativa H1: < 8Por lo que se entiende que la media de horas de sueo est por debajo de la media recomendada.A pesar de que la media no puede considerarse igual a 8 como se comprob anteriormente, se descubri que la moda de la muestra si corresponde a este valor, lo cual indica que muchas personas si cumplen con sus 8 horas de sueo diarias.
Intervalo de confianza para la media
De acuerdo a un 95% de confianza tenemos que las horas de sueo de una persona pueden variar entre lo valores anteriores y todava considerarse dentro de la media.
Modelo de regresin linealEn la Figura 4.1 es posible observar que precisamente el modelo de regresin lineal no presenta un buen ajuste a nuestra respuesta esperada, debido a que la grfica no sigue una tendencia lineal.Figura 4.1. Modelo de regresin lineal, donde se observa un mal ajuste a la lnea recta
Con el fin de comprobar si nuestro modelo de regresin es adecuado se realiza el anlisis estadstico de ANOVA (Tabla 4.1) para la regresin lineal, en la que se utilizaron las pruebas de hiptesis siguientes:
VariacinSuma de cuadradosGrados de libertadCuadrado medioF0
Regresin1
Errorn-2
Totaln-1
Tabla 4.1. Tabla ANOVA para la regresin lineal, con sus respectivas ecuaciones
En donde H0 se rechaza si F0 > F, 1, n-2, si esto ocurre quiere decir que nuestra regresin es adecuada.Completando la tabla 4.1 ANOVA con los datos de la suma de cuadrados, los grados de libertad, el cuadrado medio y F0, obtenemos:
VariacinSuma de cuadradosGrados de libertadCuadrado medioF0
Regresin0.00019209710.0001920973.86471E-07
Error50202.45981101497.0540575
Total50202.46102
Tabla 4.2. Tabla ANOVA para la regresin lineal
En donde F, 1, n-2 = F0.05, 1, 101=3.93519Entonces F0.05, 1, 101 > F0, por lo tanto no se puede rechazar nuestra hiptesis nula H0, lo que significa que la regresin no es significativa y dicho modelo de regresin no es adecuado. Lo escrito con anterioridad se puede respaldar mediante el clculo del coeficiente de determinacin (R2), dicho coeficiente determina la calidad del modelo para replicar los resultados, y la proporcin de variacin de los resultados que puede explicarse por el modelo de regresin. El coeficiente de determinacin (R2) se calcula mediante la siguiente ecuacin: (4.1)Con lo que obtenemos un valor de R2=3.826*10-9. Para que nuestros datos estn descritos por nuestro modelo de regresin R2 debe ser lo ms cercano a 1, lo que significa que nuestro modelo no se acopla de buena manera a los datos, que es una manera de corroborar lo que se poda observar a simple vista mediante la grfica y que se evalu con el ANOVA.
Regresin polinomial: cuadrtica
En cuanto a nuestro modelo de regresin cuadrtica, en la Figura 4.2 se muestra su ecuacin, as como la lnea de tendencia, donde vemos que en comparacin con la regresin lineal se presenta un mejor ajuste, sin embargo no es posible afirmar a simple vista que representa el comportamiento de nuestros datos.
Figura 4.2. Modelo de regresin cuadrtica, en el que podemos observar un mejor ajuste en comparacin con el modelo anterior
Para este caso se tiene nuevamente nuestra hiptesis nula y la alternativa para ver la adecuacin de este nuevo modelo a nuestro conjunto de datos VariacinSuma de cuadradosGrados de libertadCuadrado medioF0
Regresink
Errorn-p
Totaln-1
Tabla 4.3. Tabla ANOVA para la regresin cuadrtica, con sus respectivas ecuaciones
(4.2) (4.3)
En donde H0 se rechaza si F0 > F, k, n-p, si esto se cumple se rechaza la hiptesis nula y por lo tanto nuestra regresin es significativa Completando la Tabla 4.3 con los datos de la suma de cuadrados, los grados de libertad, el cuadrado medio y F0, obtenemos la siguiente tabla, con los datos correspondientes para nuestra regresin cuadrtica
VariacinSuma de cuadradosGrados de libertadCuadrado medioF0
Regresin20.73499352210.367496765.70501028
Error181.72617151001.817261715
Total202.461165102
Tabla 4.4. Tabla ANOVA de resultados para la regresin cuadrtica
En donde F, k, n-p = F0.05, 2, 100= 3.0873Entonces F0.05, 2, 100 < F0, esto quiere decir que se rechaza la hiptesis nula H0, la regresin cuadrtica es significativa, por lo tanto se puede decir que estadsticamente dicho modelo de regresin predice de manera adecuada al menos una variable de la respuesta, en este caso se refiere a que el valor cuadrtico es significativo.Al calcular el coeficiente de determinacin R2 para este modelo con la ecuacin (4.1) obtenemos R2=0.1024 que indica claramente que el modelo no se ajusta de manera correcta a los datos.Con los datos obtenidos anteriormente se ve de manera clara que ninguno de los dos modelos de regresin describen satisfactoriamente el comportamiento de nuestros datos. Haciendo una comparacin entre los valores de R2 obtenemos que el modelo cuadrtico es el que muestra una mejor aproximacin.R2= 0.1024 > 3.826*10-9
Anlisis Residual
Realizando un anlisis residual contra los valores predichos encontrados en nuestras regresiones, se obtienen los siguientes grficos:
Figura 4.3. Grfico de residuales contra valores de y predichos: modelo de regresin lineal.
En la figura 4.3, podemos notar cierta tendencia de cono en nuestra dispersin de datos, primero de forma ascendente y posteriormente de forma descendente, lo que nos indica que no es posible comprobar el supuesto de varianza en nuestros datos. Para nuestro modelo de regresin cuadrtica, se obtiene el siguiente grfico:Figura 4.4. Grfico de residuales contra valores de y predichos: modelo de regresin cuadrtica.
Analizando la figura 4.4, podemos notar que no existe tendencia alguna entre los datos, por lo tanto se comprueba el supuesto de varianza en esta regresin.
Pruebas de coeficientes individuales de regresinSe requiere hacer una prueba T a la variable lineal para conocer si se elimina dicha variable o no, y de esta forma, obtener un modelo ms simple. Nuevamente se utilizaron las pruebas de hiptesis: (1.11)Donde la hiptesis nula H0 se rechaza si T0, j < -T/2, n-p, y esto significa que el regresor xj puede eliminarse del modelo.Para j=1: T0, 1=- -3.1100181 y T0.025, 100=-1.98397T0, 1>T0.025, 100, lo que quiere decir que la hiptesis nula se rechaza y la variable x del modelo de regresin cuadrtico no se puede eliminar debido a que afecta significativamente la respuesta.
Intervalo de confianza para la respuesta promedio; 95% confianzaEs necesario mencionar que dado que ambas regresiones resultaron no significativas para el caso de estudio, los intervalos de confianza mostrados a continuacin no tienen el propsito de describir la muestra, sino que cumplen una funcin ilustrativa en la que se muestra un ejemplo de una regin de aceptacin de la media.Utilizando el modelo cuadrtico, que a pesar de no ser adecuado, present el mejor ajuste a los datos.Con la ecuacin (1.7) se grafic el intervalo de confianza bilateral para la media de horas que duerme una persona.
Figura 4.5. Intervalo de confianza bilateral para la respuesta promedio de la regresin cuadrtica
Intervalo de confianza para la prediccin de nuevas observaciones; 95% confianzaUtilizando nuevamente el modelo cuadrtico.Con la ecuacin (1.9) se grafic el intervalo de confianza que se tiene para la prediccin de futuras observaciones
Figura 4.6. Intervalo de confianza bilateral para la prediccin de observaciones utilizando la regresin cuadrtica
Se puede observar que el intervalo de confianza de la prediccin de nuevas observaciones maneja un rango ms amplio , esto para poder aceptar valores que an no se conocen.
ConclusionesMediante un estudio realizado, tomando como muestra n= 103 individuos que variaban en edad entre 1 y 84 aos de edad, y con un nivel de significancia de = 0.05, es posible concluir que el modelo de regresin lineal no representa nuestra variable de respuesta, esto se respalda mediante pruebas grficas, tabla del ANOVA y el valor del coeficiente de determinacin R2 (Figura 4.1, Tabla 4.2, Ecuacin 4.1, respectivamente). En cuanto al modelo de regresin cuadrtica, podemos decir que no representa por completo nuestra variable de respuesta, pero s presenta un mejor ajuste que el modelo lineal, y exactamente eso es lo que representa la tabla del ANOVA y el valor del coeficiente de determinacin R2 (Tabla 4.4), ya que dicho anlisis arroj como resultado que al menos una de las variables de regresin era significativa. Este resultado se refiere a que al menos el valor cuadrtico del modelo es significativo para la tendencia de nuestros datos, sin embargo esto no quiere decir que lo describa por completo sino que mas bien el comportamiento de nuestros datos en algn momento tiene una tendencia cuadrtica. Al calcular el coeficiente R2 se obtuvo un valor muy pequeo, que como ya se haba mencionado comprueba que el modelo no es adecuado. Debido a que no se saba si el termino lineal del modelo obtenido era significativo tambin decidimos efectuar la prueba T para la variable X y de este modo adecuar de una mejor manera y hacer ms sencillo nuestro modelo. Result que no se puede eliminar el trmino X del modelo debido a que dicha variable afecta de manera significativa la respuesta.Se encontr que ninguna de las regresiones calculadas en el presente documento se ajusta de manera adecuada a nuestros datos, por lo cual es posible concluir que las personas no tienen como hbito dormir las horas que les corresponden realmente. Con el fin de llegar al modelo que se ajuste adecuadamente, se puede proponer otro modelo de regresin.A pesar de no llegar a modelar una ecuacin que describa las horas de sueo variando la edad, se puede decir que se cumpli con los otros objetivos del trabajo propuestos, ya que mediante la prueba de hiptesis de medias, se logr establecer que la gente tiende a dormir menos de 8 horas al da, es decir, que no cumplen con dormir las 8 horas diarias recomendadas, y que no hay una dependencia clara entre la edad y las horas de sueo, ms que en la regin que va de nios hasta los 20 aos de edad donde se puede observar una ligera tendencia lineal negativa. Debido a que no se recabaron datos uniformemente, es decir se recabaron muchos datos de edades semejantes mientras que de otras edades muy pocos, se presentaron algunos huecos entre los datos. Es posible que debido a esta falta de informacin los modelos no se ajusten de manera adecuada. Adems de esto, se encontr ciertos datos atpicos en la grfica de dispersin, los cuales tuvieron que ser tomados en cuenta para nuestros clculos ya que as era requerido para este proyecto. Estos tambin pudieron influir en que el modelo no se ajustara de manera adecuada. Es recomendable recabar datos variados y, en nuestro caso, de manera equitativa, adems de tratar de eliminar los datos atpicos que se puedan encontrar, y as, obtener un buen ajuste al modelo que se desee encontrar.
Evidencia fsica de la obtencin de los pares de datos X y Y mediante encuestas.