Trabajo Final AED

14
  TRABAJO FINAL AED DIP. ESTADÍSTICA RESAMPLING Métodos de estimación basados en el remuestreo Juan Antonio Roldán Díaz 

description

Trabajo de Análisis Exploratorio de Datos, basado en una breve introducción a las técnicas de remuestreo, en el se utilizan códigos R para mostrar algunos ejemplos de como funcionan estas técnicas.

Transcript of Trabajo Final AED

Page 1: Trabajo Final AED

5/16/2018 Trabajo Final AED - slidepdf.com

http://slidepdf.com/reader/full/trabajo-final-aed 1/13

 

TRABAJO FINAL AED

DIP. ESTADÍSTICA

RESAMPLINGMétodos de estimación basados

en el remuestreo

Juan Antonio

Roldán Díaz 

Page 2: Trabajo Final AED

5/16/2018 Trabajo Final AED - slidepdf.com

http://slidepdf.com/reader/full/trabajo-final-aed 2/13

 

Índice:

Introducción…………………………………………………..1 

Jackknife………………………………………………………..1 

  Jackknife con R……………………………………….2 

  Ejemplos de Jackknife…………………………….4 

Bootstrap……………………………………………………….5

  Estimación Bootstrap del error estándar…6 

  Intervalos de confianza Bootstrap…………..7 

  Bootstrap con R………………………………………8 

  Ejemplos de Bootstrap……………………………9 

Referencias…………………………………………………..11 

Page 3: Trabajo Final AED

5/16/2018 Trabajo Final AED - slidepdf.com

http://slidepdf.com/reader/full/trabajo-final-aed 3/13

 

Introducción:

El término remuestreo (resampling) es aplicado a aquellas técnicas de

simulación empleadas en la teoría de probabilidades y la inferenciaestadística que, a partir de los datos observados generan nuevas muestrassimuladas con el propósito de examinar los resultados obtenidos en esasremuestras.

Estas técnicas pretenden resolver el problema de la fiabilidad estadística

sin necesidad de suponer que los datos gozan de una distribución normal.

Otras dos características de estos métodos son, en primer lugar el que, en

general, apenas si requieren suposiciones sobre la población modelo dedonde se extrae la muestra; en segundo lugar, que el número de

remuestreos (es decir, de sucesivas muestras que se extraen de la muestra

dada) suele ser muy elevado, lo que requiere del uso del ordenador.

A continuación vamos a ver dos de estos métodos, Jackknife y Bootstrap.

Jackknife:

El Jackknife es un método para estimar el error muestral. Fue introducido

por Quennouille (1949) y Tukey (1958) como una nueva propuesta sobre

la estimación estadística no paramétrica. Su nombre que viene a significar

“navaja” fue ideado por Tukey y por ser una técnica no suele ser

traducido.

La estimación Jackknife de , que se denomina normalmente seobtiene normalmente de la siguiente forma:

Obtenemos una muestra de tamaño , , de una

variable aleatoria .

Se obtienen muestras de tamaño (por supresión de

un valor distinto de la serie de datos independientes con

reemplazamiento), para cada una de las k muestras esto da

Pag. 1 

Page 4: Trabajo Final AED

5/16/2018 Trabajo Final AED - slidepdf.com

http://slidepdf.com/reader/full/trabajo-final-aed 4/13

 

lugar a donde la componente -ésima

de nuestra muestra original de tamaño a sido suprimida.

Estas muestras no necesariamente tienen que ser de tamaño

aunque así venga descrito el Jackknife en la mayoría de

la literatura estadística, sino que también pueden ser

definidas por un tamaño , siendo un número real

menor que .

Se calcula el estadístico deseado para cada nueva muestra.

Así obtendremos estadísticos con los que podremos

estimar el estadístico de nuestra muestra original .

Las estimaciones de y del error muestral se efectúan

mediante las siguientes fórmulas:

Jackknife con R:

Como hemos visto en la introducción para trabajar con técnicas de

remuestreo es necesario el ordenador, hay software específicos que

aplican algunas de estas técnicas, pero a hacer una función utilizando Rcon el que se podrá ir viendo paso por paso que operaciones se están

realizando.

Jackknife<-function(x,est){

x<-x[!is.na(x)]

M<-array(rep(x,times=length(x)),

dim=c(length(x),length(x)))

for(i in 1:length(x)) M[i,i]<-NA

vest<-c(1:length(x))

MC<-c(1:length(x))

Pag. 2

Page 5: Trabajo Final AED

5/16/2018 Trabajo Final AED - slidepdf.com

http://slidepdf.com/reader/full/trabajo-final-aed 5/13

 

print("Remuestras Jackknife")

for(j in 1:length(x)){

for(k in 1:length(x)){

MC[k]<-M[k,j]

}

vest[j]<-est(MC[!is.na(MC)])

print(MC[!is.na(MC)])

}

estj<-mean(vest)

errorj<-sqrt(((length(vest)-1)/length(vest))*

sum((vest-estj)^2))

errorm<-sqrt((1/(length(x)*(length(x)-1)))*sum((x-

est(x))^2))

out<-data.frame(c(errorm,est(x)),c(errorj,estj),

row.names=c("Error Estandar","Estadistico enestudio"),check.names = FALSE)

names(out)<-c("Est. Muestrales","Jackknife")

out

}

Esta función necesita dos variables para funcionar, la primera, un vector

llamado “x” que va a ser nuestra muestra inicial, y, la segunda, una

función numérica llamada “est” que va a ser el estadístico que queremos

estimar.

Una vez introduzcamos el vector con la muestra extraída y la función del

estadístico, esta función primero remplaza el vector “x” por un nuevo

vector con todos los valores de “x” excepto los posibles valores faltantes.

Después, genera una matriz “M” cuyas columnas son veces el vector “x”

(siendo “x” el vector original sin valores faltantes y el numero de

elementos que lo forman) y a esta matriz se le eliminan los valores de la

diagonal, teniendo de esta forma en cada columna un nueva muestra detamaño . Cada una de estas muestras son almacenadas

temporalmente en el vector “CM”, y se muestran por pantalla, previo a

esto, ya se a aplicado la función “est” a cada “CM” y se a almacenado cada

resultado en un vector llamado “vest”.

Una vez se tiene un vector con el valor del estadístico de cada nueva

muestra, se calcula la media de este para obtener al que he llamado

“estj”, y una vez aquí, solo hay que definir al que he llamado “errorj” y

el error estándar del estimador al que he llamado “errorm” . Por último,

Pag. 3

Page 6: Trabajo Final AED

5/16/2018 Trabajo Final AED - slidepdf.com

http://slidepdf.com/reader/full/trabajo-final-aed 6/13

 

hay que hacer que R de una salida presentable de estos valores para lo

que he utilizado la función data.frame.

Ejemplos de Jackknife:

Obtener la mediana y el error estándar para los valores de Y del primer

conjunto de los datos de Anscombe.

Para el mismo conjunto de datos, obtener los resultados para el recorrido

intercuartílico.

En este caso primero hay que definir la función del estadístico del

recorrido intercuartílico (RIQ).

Pag. 4

Page 7: Trabajo Final AED

5/16/2018 Trabajo Final AED - slidepdf.com

http://slidepdf.com/reader/full/trabajo-final-aed 7/13

 

Bootstrap:

Este método fue propuesto por Bradley Efron en 1979. El

término bootstrap  procede de la expresión inglesa to pull oneself up byone's bootstrap (que podría traducirse por levantarse mediante el propioesfuerzo), la cual está tomada de una de las Aventuras del BarónMunchausen, personaje ficticio del siglo dieciocho creado por el escritorRudolph Erich Raspe, en la cual el barón había caído al fondo de un lagoprofundo y, cuando creía que todo estaba perdido, tuvo la idea de irsubiendo tirando hacia arriba de los cordones (bootstrap) de sus propiasbotas.

Esta propuesta recoge la idea de sacar conclusiones de la población dedonde proceden los datos, muestreando repetidamente dichos datos.

En realidad con el nombre de bootstrap se conocen una variedad de

técnicas basadas en la simulación que se usan para unas tareas

estadísticas particulares y que resultan una revisión y mejora del método

Jackknife.

Más formalmente los pasos básicos en la estimación bootstrap son los

siguientes (HincKley, 1988) (Lunneborg, 2001):

Extraer una sola muestra de la población (generalmente

pequeña) de tamaño , .

Construir una distribución de probabilidad empírica, , a

partir de la muestra, asignando una probabilidad de a cada

punto, . Esta es la función de distribución

empírica (FDE) de , la cual es el estimador no paramétricode máxima verosimilitud de la función de distribución de la

población, . Es decir:

A partir de la FDE, , se extrae una muestra aleatoria simple

de tamaño con reposición.

Se calcula el estadístico de interés , a partir de esa

“remuestra”; llamémosle al resultado.

Pag. 5

Page 8: Trabajo Final AED

5/16/2018 Trabajo Final AED - slidepdf.com

http://slidepdf.com/reader/full/trabajo-final-aed 8/13

 

Se repiten los dos últimos pasos en ocasiones, donde es

un número “grande”. 

Teóricamente, la magnitud de en la práctica depende de las

pruebas que se van a aplicar a los datos. Se ha afirmado que,

B debería ser de entre 50 a 200 para estimar el error típico de

, y de al menos de 1000 para estimar intervalos de confianza

alrededor de por el método del percentil (Efron y Tibshirani,

1986, 1993). Sin embargo, esto tiene reducida importancia en

la actualidad, pues los ordenadores son tan rápidos que no

tiene sentido tener un afán especial en trabajar con valores

bajos de y, por otra parte, nunca es pernicioso que sea

demasiado grande. Por lo general, con 1000 se suelenconseguir buenos resultados y valores de superiores a 5000

ya no agregan ninguna ventaja.

Construir una distribución de probabilidad a partir de los

valores , asignando una probabilidad de a cada punto,

. Esta distribución es la estimación bootstrap de

la distribución muestral de .

Como resultado de este proceso se pueden derivar al menos 3

aplicaciones prácticas:

Valorar el sesgo y el error muestral de un estadístico

calculado a partir de una muestra.

Establecer un intervalo de confianza para un parámetro

estimado.

Realizar pruebas de hipótesis respecto a uno o másparámetros poblacionales.

Estimación Bootstrap del error estándar:

El bootstrap fue introducido como un método basado en cálculos

intensivos mediante ordenador para estimar el error muestral de un

estadístico. Tiene la ventaja sobre los métodos tradicionales de no

Pag. 6

Page 9: Trabajo Final AED

5/16/2018 Trabajo Final AED - slidepdf.com

http://slidepdf.com/reader/full/trabajo-final-aed 9/13

 

requerir formulaciones teóricas y poder emplearse para cualquier

estimador, por complejo que éste sea.

Explícitamente, la estimación bootstrap del error muestral de un

estadístico es como sigue:

Se extraen remuestras bootstrap independientes de la

función de distribución empírica, .

Se computa el estadístico de interés en cada una de las

remuestras, obteniendo .

Se estima el error muestral de mediante la desviación

estándar de la función de distribución obtenida a través de los

, es decir a través de .

Es fácil ver que en la medida que , , la estimación

bootstrap del error estándar, es mejor conforme aumenta el número de

réplicas bootstrap.

Intervalos de confianza Bootstrap:

Existen 3 métodos a través de los cuales se pueden construir intervalos de

confianza bootstrap:

Método de aproximación normal

Método de los percentiles

Método de los percentiles corregidos.

El primero de ellos utiliza la misma estructura de los procedimientos

paramétricos en la construcción de intervalos de confianza. Si es posible

Pag. 7 

Page 10: Trabajo Final AED

5/16/2018 Trabajo Final AED - slidepdf.com

http://slidepdf.com/reader/full/trabajo-final-aed 10/13

 

asumir que el estadístico se distribuye según la curva normal pero el

cálculo del error típico resulta analíticamente difícil o no existe fórmula

para su cálculo, entonces podemos emplear la distribución muestral

bootstrap para estimar el error típico e insertarlo en la correspondiente

expresión del IC paramétrico.

El método del percentil hace uso literal de la idea básica del bootstrap, es

decir se aproxima a . La idea es muy simple: un intervalo con

un nivel de confianza incluye todos los valores de entre los

percentiles y de la distribución de .

El método del percentil conserva la esencia no-paramétrica del enfoque

bootstrap y libera al usuario de las asunciones de la estadística

paramétrica.

El tercer método, es similar al procedimiento anterior; lo único que

cambia es el modo de calcular los percentiles para obtener el intervalo.

Según Efron y Tibshirani (1993), donde se explica en detalle cómo se

computan los percentiles corregidos, este método es el más adecuado, yaque corrige la asimetría que pudiera presentar la distribución muestral del

estadístico.

Bootstrap con R:

Al igual que para el método Jackknife voy a definir una función con el

programa R para poder ver algunos ejemplos de lo que hace esta técnica ypoder compararlos con Jackknife y con las estimaciones muestrales.

Bootstrap<-function(x,est,B=1000){

x<-x[!is.na(x)]

M<-array(rep(x, times=B),dim=c(length(x),B))

for(i in 1:B){

for(j in 1:length(x)){

M[j,i]<-x[runif(1, min=1, max=(length(x)+1))%/%1]

}}

vest<-c(1:B)MC<-c(1:length(x))

Pag. 8

Page 11: Trabajo Final AED

5/16/2018 Trabajo Final AED - slidepdf.com

http://slidepdf.com/reader/full/trabajo-final-aed 11/13

 

for(k in 1:B){

for(l in 1:length(x)){

MC[l]<-M[l,k]

}

vest[k]<-est(MC)

}estb<-mean(vest)

errorb<-sqrt((1/(B-1))*sum((vest-estb)^2))

errorm<-sqrt((1/(length(x)*(length(x)-1)))*

sum((x-est(x))^2))

out<-data.frame(c(errorm,est(x)),c(errorb,estb),

row.names=c("Error Estandar","Estadistico

en estudio"),check.names = FALSE)

names(out)<-c("Est. Muestrales","Bootstrap")

out

}

Como se puede observar la estructura del programa es muy similar a la del

programa creado para el método Jackknife, la principal diferencia entre

estos es la forma de calcular la matriz “M” que en este caso en vez de

eliminar los valores de la diagonal para obtener muestras de tamaño

, se remplazan todos los valores de cada columna de la matriz por

una componente del vector “x” obtenida aleatoriamente mediante la

función runif(1, min=1, max=(length(x)+1))%/%1 que calcula la parte

entera de un valor generado aleatoriamente a través de una distribución

uniforme de mínimo 1 y máximo .

Ejemplos de Bootstrap: 

Para ver claramente como influye el valor de en los resultados y poder

comparar los resultados de este método con los del anterior vamos a

realizar de nuevo una estimación para la mediana y el error estándar para

los valores de Y del primer conjunto de los datos de Anscombe, con

50, 100, 200 y 1000.

Pag. 9

Page 12: Trabajo Final AED

5/16/2018 Trabajo Final AED - slidepdf.com

http://slidepdf.com/reader/full/trabajo-final-aed 12/13

 

Para finalizar, hacer bootstrap para esta misma muestra pero utilizandocomo estimador el recorrido intercuartílico y realizando 10000 remuestras

de la original.

Pag. 10