Análisis de normalidad de una población y comparación de medias.

8
Comparativa de la distribución de agua a las explotaciones agrícolas entre La región de Murcia y la comunidad de Castilla La Mancha Inferencia Estadística Grado en Matemáticas. Adil Ziani adil.ziani @um.es 19/12/2016 1

Transcript of Análisis de normalidad de una población y comparación de medias.

Page 1: Análisis de normalidad de una población y comparación de medias.

Comparativa de la distribución de agua a las explotacionesagrícolas entre La región de Murcia y la comunidad de

Castilla La ManchaInferencia EstadísticaGrado en Matemáticas.

Adil Zianiadil.ziani @um.es

19/12/2016

1

Page 2: Análisis de normalidad de una población y comparación de medias.

Índice

1. Introducción 3

2. Estudio para Castilla La Mancha 32.1. Estimación �X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.2. Estimación �2

X. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.3. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3. Estudio para Región de Murcia 53.1. Estimación �Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63.2. Estimación �2

Y. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3.3. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

4. Inferencia sobre las medias de las dos poblacionies 7

5. Por qué se queja el gobierno manchego por el trasvase TajoSegura 8

2

Page 3: Análisis de normalidad de una población y comparación de medias.

1. Introducción

En este documento vamos a hacer una comparativa de la distribución de agua a las explotaciones agríco-las entre La región de Murcia y la comunidad de Castilla La Mancha. Para ello disponemos de una muestraempírica obtenida del INE (Instituto Nacional de Estadistica) de los años 2000 hasta 2014 ambos inclusive,que refleja la cantidad de agua en miles de metros cúbicos destinados al sector agrícola.

La cantidad de agua destinada a la agricultura depende directamente de las precipitaciones, que noso-tros consideraremos variable aleatoria aun que con avances de tecnología para la meteorología se puedeestimar, y si la naturaleza actúa como era previsto sus aproximaciones serán mas acertadas, pero no siemprela naturaleza actúa com era previsto, con lo cual lo consideraremos un fenómeno aleatorio y no determinista.

Variables aleatorias que vamos a considerar:

X = miles de metros cúbicos de agua destinados a la agricultura por año en CLMY = miles de metros cúbicos de agua destinados a la agricultura por año en MU

Las muestras son:

Año 2014 2013 2012 2011 2010 2009 2008 2007 2006 2005 2004 2003 2002 2001 2000Castilla La Mancha 1384978 1594521 1774425 1457484 1679912 1804532 1561411 1756765 1722266 1806982 2056215 1983521 1904691 1811118 1804619Regiń de Murcia 609319 531099 587658 574697 507840 526051 521744 551803 527511 563066 619956 614442 629710 563734 496364

Cuadro 1: Agua destinada a la agricultura. unidad: miles de metros cúbicos. Fuente: INE

En forma de Histograma:

2. Estudio para Castilla La Mancha

Vamos en primer lugar a realizar un test de normalidad sobre la v.a X.

## shapiro.test(X) ## shapiro.test(log(X))## #### Shapiro-Wilk normality test ## Shapiro-Wilk normality test## #### data: X ## data: log(X)## W = 0.96497, p-value = 0.7779 ## W = 0.95184, p-value = 0.5539

Con lo cual aceptamos que la v.a X sigue una distribución normal dado que el p-valor=0.7779 essuperior a � = 0;01. Lo que equivale a decir que aceptamos la normalidad de X con un 99% de confianza.Podríamos aceptar también la hipótesis de seguir una Log normal, pero como ambas distribuciones dependendel mismo número de parámetros (la media y la varianza), escogemos el modelo con mayor p-valor.Valor que toma el estadístico: W=0.96497

3

Page 4: Análisis de normalidad de una población y comparación de medias.

Veamos que podemos observar la conclusión anterior plasmada en gráficas.

(a) Función de Distribución Empírica (b) Función de Distribución Teórica

(c) Superposición de las graficas anterioires (d) Q Q Plot

Se observa que el ajuste es bueno tanto en la gráfica de comparación de distribuciones como la gáfica Q QPlot, lo que corrobora nuestra conclusión inicial.

Una vez que hemos aceptado la hipótesis de normalidad de la variable X, usando para ello el test deShapiro Wilk, procedemos a hacer Inferencia sobre sus dos parámetros.

2.1. Estimación �X

Para estimar la media de la distribución, lo haremos tanto por estimación puntual como por intervalosde confianza.Un E.I.M.V para la media es la media muestral X =

nP

i=1

Xi

nLLevado a R:

1mean(X)

## [1] 1740229Com lo cual tomaremos como aproximación a la media el valor �X = 1740229.Como se desconoce la varianza del modelo, usaremos la siguiente expresión de intervalo de confianza nivel1� � con � = 0;01.

(X � t1��

2

SXpn; X + t1��

2

SXpn)

4

Page 5: Análisis de normalidad de una población y comparación de medias.

1t.test(X,conf.level = 0.99)

## One Sample t-test#### data: X## t = 36.839, df = 14, p-value = 2.434e-15## alternative hypothesis: true mean is not equal to 0## 99 percent confidence interval:## 1599608 1880850## sample estimates:## mean of x## 1740229

Con lo cual el intervalo es (1599608; 1880850).

2.2. Estimación �2

X

Un estimador insesgado consistente para la varianza es la cuasi varianza muestral:

S2X= 1

n�1

nP

i=1

(xi �X)2

Que llevado a R nos devuelve:

1sd(X)

## [1] 182953.2Con lo cual aproximamos la varianza del modelo �2

X= 182953;2

2.3. Resumen

Resumiendo el contraste anterior:

X � N(1740229; 182953;2)

3. Estudio para Región de Murcia

Haremos un estudio análogo al caso anterior.test de normalidad:

1shapiro.test(Y)

## Shapiro-Wilk normality test#### data: Y## W = 0.94239, p-value = 0.4134

Donde el estadístico tiene un valor de W = 0;94239 y el p-valor= 0.4134 que es superior a � = 0;01 conlo cual aceptamos que los datos siguen una distribución normal.Una aproximación por gráficas.

5

Page 6: Análisis de normalidad de una población y comparación de medias.

(e) Función de Distribución Empírica (f) Función de Distribución Teórica

(g) Superposición de las graficas anterioires (h) Q Q Plot

3.1. Estimación �Y

Usamos el E.I.M.V Y

1mean(Y)

## [1] 561666.3Com lo cual tomaremos como aproximación a la media el valor �Y = 561666;3.Estimación por intervalo de confianza.

1t.test(Y,conf.level = 0.99)

## One Sample t-test#### data: Y## t = 50.326, df = 14, p-value < 2.2e-16## alternative hypothesis: true mean is not equal to 0## 99 percent confidence interval:## 528442.9 594889.6## sample estimates:## mean of x## 561666.3

Con lo cual el intervalo es (528442;9; 594889;6).

6

Page 7: Análisis de normalidad de una población y comparación de medias.

3.2. Estimación �2

Y

1sd(Y)

## [1] 43224.84Con lo cual aproximamos la varianza del modelo �2

Y= 43224;84

3.3. Resumen

Y � N(561666;3; 43224;84)

4. Inferencia sobre las medias de las dos poblacionies

Las observaciones se han tomado en distintas áreas, y dado que el agua destinada a la agricultura dependede las necesidades del sector en cada región, las variables que estamos considerando son independientes, hechoque usaremos acontinuación.Observando los datos vemos que la media de agua destinada a la agricultura fue mucho mayor en Castillala Mancha que en la Rigión de Murcia, contrastemos dicha observación matemáticamente.En primer lugar nos planteamos el siguiente contraste de hipótesis:

H0 : �2

Y= �2

X

H1 : �2

Y6= �2

X

Podemos realizar dicho contraste en R con el comando:

1var.test(Y,X)

## F test to compare two variances#### data: Y and X## F = 0.05582, num df = 14, denom df = 14, p-value = 2.984e-06## alternative hypothesis: true ratio of variances is not equal to 1## 95 percent confidence interval:## 0.01874029 0.16626356## sample estimates:## ratio of variances## 0.0558196

Obteniendo como valor del estadístico F = 0;05582 y p-valor=2.984e-06, como el p-valor obtenido es muypequeño, es menor que � = 0;01 y por tanto rechazamos la hipótesis nulaAcontinuación hacemos el siguiente contraste:

H0 : �Y < �XH1 : �Y � �X

Podemos realizar dicho contraste en R con el comando:

1t.test(Y,X,alternative="greater",var.equal=FALSE)

## Welch Two Sample t-test#### data: Y and X## t = -24.281, df = 15.558, p-value = 1## alternative hypothesis: true difference in means is greater than 0## 95 percent confidence interval:

7

Page 8: Análisis de normalidad de una población y comparación de medias.

## -1263454 Inf## sample estimates:## mean of x mean of y## 561666.3 1740229.3

Obteniendo como valor del estadístico t = �24;281 y p� valor = 1, lo que con permite aceptar la hipótesisnula con toda certeza posible. Podemos obtener intervalo de confianza para diferencia de medias

1t.test(Y,X,conf.level = 0.99,var.equal=FALSE)

## Welch Two Sample t-test#### data: Y and X## t = -24.281, df = 15.558, p-value = 8.634e-14## alternative hypothesis: true difference in means is not equal to 0## 99 percent confidence interval:## -1320868 -1036258## sample estimates:## mean of x mean of y## 561666.3 1740229.3

De donde el intervalo de confianza a nivel 0;99% para �Y � �X es (�1320868;�1036258)

5. Por qué se queja el gobierno manchego por el trasvase TajoSegura

Consultando fuentes oficialeshttp://www.castillalamancha.es/http://www.institutofomentomurcia.es/web/portal/informes-sectoriales1tenemos que la Comunidad de castilla La Mancha dedica 5694723 hectáreas a la agricultura y obtiene uningreso de 37399453000E del cual el 10;17% proviene del sector agrario, es decir, el sector agrario genera3;803;524;370EPara la región de Murcia, tenemos que dedica 606019 hectáreas a la agricultura y genera un 21.4% del PIBregional que es de 27.122.000.000E, es decir, 5;804;108;000ECon lo cual, viendo a ambas partes como parte de España y que la Comunidad de Castilla La Mancha cubresin problemas hasta el momento su necesidad de agua a la agricultura con el trasvase abierto, es logicamentenecesario y útil dicho trasvase ya que Murcia con dedicar un 10;64% de superficie que dedica Castilla laMancha, ingresa un 152;59% de lo que ingresa Castilla La Mancha. Gracias en parte a que el 21% del aguadedicada a la agricultura en Murcia es la ofrecida por el trasvase Tajo Segura.

8