Tema 2: Muestreo aleatorioverso.mat.uam.es/~amparo.baillo/MatEstI/Tema2.pdfESTAD ISTICA I Tema 2:...

ESTADISTICA ITema 2: Algunas ideas basicas sobre

inferencia estadıstica. Muestreo aleatorio

I Conceptos probabilısticos basicos

I Muestra aleatoria

I El problema de inferencia

I Estadısticos. Media y varianza muestrales. Estadısticos de orden

I Ley de los grandes numeros

I Funcion de distribucion empırica. Teorema de Glivenko-Cantelli

I Histogramas y estimadores kernel. Moda muestral

Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 1

Conceptos probabilısticos basicos

Un espacio de probabilidad es un triplete (Ω,A,P) donde

• Ω es un conjunto no vacıo

• A ⊆ P(Ω) es una σ-algebra, es decir,

I Ω ∈ A.I Si A ∈ A, entonces Ac ∈ A.I Si Ai∞i=1 ⊂ A, entonces ∪∞i=1Ai ∈ A.

• P es una medida de probabilidad sobre A, es decir,

P : A → [0, 1]A 7→ P(A)

satisfaciendo

I P(Ω) = 1I Si Ai∞i=1 ⊂ A con Ai ∩ Aj para i 6= j , entonces

P (∪∞i=1Ai ) =∑∞

i=1 P(Ai ).

La σ-algebra mas habitual en R es la de Borel B, que se puedegenerar con los intervalos.

Una variable aleatoria es una aplicacion medible

X : (Ω,A,P) → (R,B)ω 7→ X (ω)

es decir, para cualquier B ∈ B, se cumple que

X−1(B) = ω ∈ Ω : X (ω) ∈ B = X ∈ B ∈ A.

Entonces P y X inducen una medida de probabilidad PX en (R,B)llamada distribucion de probabilidad de la v.a. X

PX (B) = PX ∈ B.

El espacio muestral de X es el subconjunto de R que contienetodos los posibles valores de X .

La funcion de distribucion de la v.a. X es la aplicacion

F : R → [0, 1]x 7→ F (x) = PX ≤ x = PX (−∞, x ].

Es una funcion no decreciente y continua por la derecha.

La funcion caracterıstica de la v.a. X es

φ(t) = E(e itX ) =

∫Re itxdPX (x).

Una v.a. X es discreta cuando existe un conjunto finito onumerable S = ai ⊂ R tal que

1 = P(S) =∑i

PX = ai =∑i

(F (ai )− F (ai−)).

La distribucion de X es (absolutamente) continua cuando existeuna funcion de densidad f tal que

PX ∈ B =

∫Bf (t)dt, ∀B ∈ B,

o, de manera equivalente,

F (x) =

−∞f (t)dt, ∀x ∈ R.

Entonces, F ′(t) = f (t).

La densidad f debe satisfacer

I f (t) ≥ 0 para todo t;

I∫R f (t)dt = 1.

Definimos la media poblacional o esperanza de X como

µ = E(X ) =

∫ΩXdP =

∫Rx dPX (x) =

∫RxdF (x),

supuesto que esta integral es finita.

Teorema de cambio de espacio de integracion: Si g es una funcionreal medible tal que E(g(X )) es finita, entonces

E(g(X )) =

∫Rg(x) dPX (x).

En particular,

σ2 = V(X ) =

(x − µ)2dPX (x).

Si E|g(X )| =∞, entonces decimos que Eg(X ) no existe.

El momento de orden k de la v.a. X respecto al origen es E(X k).

El momento de orden k de X respecto a la media es E((X − µ)k

Principales distribuciones discretas y continuas:Ver enlace en la web de la asignatura.

Desigualdades basicas:

Desigualdad de Markov: Sea X v.a. no negativa. Entonces, para

todo ε > 0, PX > ε ≤ µ

Desigualdad de Chebyshev: P|X − µ| > ε ≤ σ2

Convergencias estocasticas

Sean X ,Xn : (Ω,A,P) −→ (R,BR) v.a., n ∈ N.

¿Que significa Xn −−−→n→∞

• Convergencia en probabilidad

Decimos que Xnn∈N converge a X en probabilidad y lo

denotamos XnP−−−→

n→∞X si, para todo ε > 0,

limn→∞

P|Xn − X | ≥ ε = 0

o equivalentemente

limn→∞

P|Xn − X | < ε = 1.

En Analisis este tipo de convergencia se llama convergencia enmedida.

• Convergencia casi segura

Decimos que Xnn∈N converge a X casi seguro (o conprobabilidad uno o en casi todo punto) y lo denotamosXn

c.s.−−−→n→∞

Pω ∈ Ω : Xn(ω) 6−−−→n→∞

X (ω) = 0

o equivalentemente si, para todo ε > 0,

P limn→∞

|Xn − X | < ε = 1.

Ejemplo de convergencia en probabilidad pero no c.s.

Consideramos una sucesion de v.a. construidas del siguiente modo.Primero definimos una v.a. U uniforme en el intervalo [0,1] y luegole aplicamos ciertas funciones indicatrices 1Ai

n, siendo

[i−1n , i

], i = 1, . . . , n, n ≥ 1:

(Ω,A,P)U−→ (R,B)

1Ain−→ (R,B).

Para un ω ∈ Ω fijo, U(ω) es una observacion concreta extraıda dela distribucion uniforme en [0,1].

La sucesion de v.a.

X 11 = 1A1

1(U), X 1

2 = 1A12(U), X 2

2 = 1A22(U),

X 13 = 1A1

3(U), X 2

3 = 1A23(U), X 3

3 = 1A33(U), . . .

converge a 0 en probabilidad pero no c.s.

• Convergencia debil o en distribucion

Sean F y Fn las funciones de distribucion de X y Xn

respectivamente. Decimos que Xnn∈N converge a X debilmente

o en distribucion y lo denotamos Xnd−−−→

n→∞X si

limn→∞

Fn(x) = F (x)

para todo x ∈ R en el que F sea continua.

Sean φ y φn las funciones caracterısticas de X y Xn

respectivamente. Se cumple que

Xnd−−−→

n→∞X ⇔ φn(t) −−−→

n→∞φ(t), ∀t ∈ R.

Tambien se cumple que

Xnd−−−→

n→∞X ⇔ E(g(Xn)) −−−→

n→∞E(g(X ))

para toda g : R→ R continua y acotada.Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 11

Se satisfacen las siguientes implicaciones:

Xnc.s.−−−→

n→∞X ⇒ Xn

P−−−→n→∞

XnP−−−→

n→∞X ⇒ Xn

d−−−→n→∞

XnP−−−→

n→∞c, con c constante ⇔ Xn

d−−−→n→∞

Teorema de Slutsky: Sean Xnn e Ynn sucesiones de v.a. y X

una v.a. Si Xnd−−−→

n→∞X e Yn

P−−−→n→∞

c , siendo c ∈ R una

constante, entonces

(i) Xn + Ynd−−−→

n→∞X + c

(ii) Xn Ynd−−−→

n→∞c X

(iii) XnYn

d−−−→n→∞

Xc siempre que c 6= 0.

Muestra

Se supone que los datos x1, . . . , xn se obtienen medianteobservaciones reiteradas e independientes de una cierta v.a. X . Sedice entonces que los datos constituyen una muestra (observada)de X .

La muestra observada es una “realizacion” de una muestraaleatoria X1, . . . ,Xn de X .

Desde el punto de vista probabilıstico, la muestra esta constituidapor n variables aleatorias X1, . . . ,Xn independientes eidenticamente distribuidas (i.i.d.).

Se dice a veces, en terminologıa estadıstica informal (pero muyhabitual) que la muestra se extrae de una poblacion, descrita porla v.a. X , y se llaman poblacionales a las caracterısticas de interesde X (por ejemplo, los momentos de X ).

Estadısticos

Cuando extraemos una muestra X1, . . . ,Xn de X se suelen calcularalgunas medidas resumen. Cualquiera de ellas se puede expresarmatematicamente como una funcion T = T (x1, . . . , xn) de lamuestra X1, . . . ,Xn.

Dada una funcion T , la v.a. T = T (X1, . . . ,Xn) se denominaestadıstico. La definicion de estadıstico es muy amplia. La unicarestriccion es que un estadıstico no puede ser funcion de unparametro.

Como la distribucion de T se calcula a partir de la distribucion delas variables Xi que constituyen la muestra, la denominaremosdistribucion de T en el muestreo (sampling distribution).Obviamente la distribucion de T (X1, . . . ,Xn) depende de ladistribucion de X y de la expresion matematica de la funcionT = T (x1, . . . , xn).

El error estandar o error tıpico de un estadıstico T es la desviaciontıpica de su distribucion en el muestreo:√

V(T (X1, . . . ,Xn)). (1)

Como a menudo (1) depende de alguna cantidad desconocida,tambien se denomina error tıpico a una estimacion de (1).

Ejemplo: Si X1 . . . ,Xn es una muestra de X ∼ N(µ, σ), entonces

X ∼ N

σ√n

)⇒ Error tıpico de X =

A veces sucede que

error tıpico (estimado) de T∼ t de Student

y conocer T y su error tıpico para unos datos nos permite construirintervalos de confianza para parametros desconocidos. Por esoalgunos programas de ordenador lo proporcionan como output.

Planteamiento general del problema de inferencia

Las caracterısticas de la v.a. X que genera los datos (por ejemplo,los momentos, los cuantiles, la distribucion, etc.) se denominanmomentos, cuantiles, etc. poblacionales.

En general, uno de los objetivos principales de la inferenciaestadıstica es estimar o “aproximar” las caracterısticaspoblacionales a partir de la informacion proporcionada por lamuestra.

Otras tecnicas estadısticas no van orientadas directamente aaproximar el valor de una caracterıstica de interes (como porejemplo la media), sino mas bien a decidir entre dos posiblesopciones acerca de ella (por ejemplo, si es mayor o menor que 1).La correspondiente metodologıa se denomina contraste dehipotesis.

Interpretacion estadıstica de la ley de los grandesnumeros (LGN)

Teorema.- Sea Xk una sucesion de v.a.i.i.d. con media finitaµ. Se satisface entonces

∑ni=1 Xi

nc.s.−→ µ, cuando n→∞. (2)

Este teorema, denominado a veces “ley fuerte de Kolmogorov”, esuno de los resultados mas importantes de la teorıa clasica de laprobabilidad.Utilizando la desigualdad de Chebyshev se puede demostrar unaversion mas debil de (2) (con convergencia en probabilidad, enlugar de convergencia casi segura e imponiendo V(Xi ) = σ2 <∞),llamada “ley debil de los grandes numeros”.

En terminos estadısticos, la LGN establece que “la media muestrales un estimador consistente de la media poblacional”.

La funcion de distribucion empırica

La funcion de distribucion empırica asociada a la muestraX1, . . . ,Xn se define mediante

Fn(t) =1

n∑i=1

1(−∞,t](Xi )

Esta es la funcion de distribucion que corresponde a una medida deprobabilidad discreta que asigna masa 1/n a cada uno de losvalores X1, . . . ,Xn.

Observese que, para valores prefijados de la muestra, Fn es unafuncion de distribucion discreta y que para cada t fijo Fn(t) es unav.a. (porque depende de los valores muestrales X1, . . . ,Xn).

# Extraccion de una muestra (n=10) de una N(3,1)

x = rnorm(10,mean=3,sd=2)

# Representacion de la distribucion empirica:

plot(ecdf(x),main="n=10",do.points=F)

o tambien

plot.ecdf(x,main="n=10",do.points=F)

En el grafico se muestran dos funciones de distribucion empıricaobtenidas de este modo, para n = 10 y n = 100:

1 2 3 4 5 6 7

-2 0 2 4 6 8 10

El estadıstico de Kolmogorov-Smirnov

‖Fn − F‖∞ := supt|Fn(t)− F (t)|

es una manera de medir la “distancia” entre la funcion dedistribucion empırica Fn y la funcion de distribucion real F .

Teorema de Glivenko-Cantelli.- Sean X1, . . . ,Xn v.a.i.i.dcon funcion de distribucion F . Se cumple que ‖Fn − F‖∞ → 0c.s., cuando n→∞.

La demostracion de este resultado se hara en clase.

Se puede demostrar ademas que, cuando la muestra X1, . . . ,Xn

procede de una funcion de distribucion F continua, entonces ladistribucion de ‖Fn − F‖∞ es conocida y no depende de F . Estose utiliza para comprobar si es plausible que un cierto modeloparametrico F haya generado la muestra observada X1, . . . ,Xn

(test de bondad de ajuste).

Comprobacion empırica del teorema de Glivenko-Cantelli:

plot(ecdf(rnorm(100)),do.points=F,

main="Comparacion entre Fn y F")

x = seq(-3.2,3.2,0.01)

lines(x,pnorm(x),col="red")

-2 -1 0 1 2

Comparación entre F_n y F

La media muestral y la media poblacional

Observemos que la media muestral

∑ni=1 Xi

puede expresarse en la forma

∫Rx dFn(x).

Esto pone de relieve la analogıa entre la media muestral y la mediapoblacional

∫Rx dF (x)

Otras relaciones, muy importantes, entre X y µ son

1. X es estimador insesgado o centrado de µ:

E(X ) = µ.

V(X ) =σ2

La cantidad σ/√n se denomina error tıpico de la media

muestral.

3. Ley fuerte de los grandes numeros:

limn→∞

X = µ c.s.

4. Teorema Central del Lımite:

√n(X − µ)

d−→ N(0, σ),

donde el sımbolod−→ denota convergencia en distribucion (o

debil) cuando n→∞

Es decir,limn→∞

P√n(X − µ) ≤ σt = Φ(t),

donde Φ denota la funcion de distribucion de la N(0, 1).

Por tanto, para n “grande” se tiene P√n(X − µ) ≤ x ≈ Φ

aunque las Xi no tengan distribucion normal.

La varianza muestral y la varianza poblacional

La medida de dispersion habitual para una v.a. X es la varianza

V(X ) = σ2 =

(x − µ)2dF (x).

El analogo muestral de σ2 es la varianza muestral

σ2n =

(x − X )2dFn(x) =1

n∑i=1

(Xi − X )2.

Puede comprobarse que

E(σ2n) =

n − 1

nσ2 y σ2

nc.s.−→ σ2.

Frecuentemente, en lugar de σ2n se utiliza la cuasivarianza muestral

n − 1σ2n.

Se tiene que E(S2) = σ2 y S2 c.s.−−−→n→∞

Distribucion empırica y estimadores kernel

Observese que

fn(t) =1

n∑i=1

(t − Xi

n∑i=1

Kh (t − Xi )

∫RKh(t − x)dFn(x),

es decir, que el estimador kernel fn(t) puede considerarse como laconvolucion del nucleo re-escalado Kh(z) = 1

)con la medida

de probabilidad empırica Fn.

Intuitivamente esto significa que la distribucion correspondiente ala funcion de densidad fn puede considerarse como una “versionsuavizada” de la distribucion empırica.

Teorema.- Sean X1,X2, . . . , v.a.i.i.d. con distribucion comunabsolutamente continua de densidad f .Supongamos que

(a) el nucleo K es una funcion de densidad acotada con|x |K (x)→ 0 cuando |x | → ∞;

(b) h = hn → 0 y que nhn →∞;

(c) la densidad f es acotada y continua en un punto t.

Entoncesfn(t)

P−→ f (t).

La demostracion se hara en clase.

Este resultado indica que los estimadores kernel pueden utilizarsepara estimar la funcion de densidad de las v.a. Xi . Hay versionesmucho mas generales de este resultado. Aquı se ha elegido estapor la sencillez de su demostracion.

Aplicacion de los estimadores kernel para definir lamoda muestral

Sea X una v.a. con densidad f . Supongamos que f es continua yque tiene un unico maximo. Se define entonces la moda de fcomo el valor θ que verifica

f (θ) = maxx

f (x).

Sea fn una sucesion de estimadores kernel basados en una funcionnucleo K que es una densidad tal que limz→±∞ K (z) = 0. Sedefine una moda muestral como un valor θn que verifica

f (θn) = maxx

fn(x).

Teorema(Consistencia de la moda muestral).- Supongamos que

(a) la densidad f es uniformemente continua en R y alcanza ununico maximo (moda) en θ.

(b) fn una sucesion de estimadores kernel cuya funcion nucleo Kes una densidad tal que limz→±∞ K (z) = 0.

(c) supt |fn(t)− f (t)| c.s.−→ 0, cuando n→∞.

Entoncesθn

c.s.−→ θ, (3)

siendo θn cualquier sucesion de modas muestrales. Si en lahipotesis (c) se reemplaza la convergencia c.s. por convergencia enprobabilidad, la consistencia (3) se obtiene tambien enprobabilidad.

Puede probarse que h→ 0 y nh/ log n→∞ son condiciones suficientes

para que (c) se cumpla (bajo ciertas condiciones sobre K que se verifican

para el nucleo gaussiano y otros nucleos usuales).

Estadısticos de orden

Dada una muestra X1, . . . ,Xn se denotan por

X(1) ≤ . . . ≤ X(n)

las observaciones de la muestra ordenadas de menor a mayor, esdecir, X(1) es la observacion mas pequena, X(2) la siguiente maspequena y X(n) la mayor.Cuando la funcion de distribucion de las v.a. Xi es continua, laprobabilidad de coincidencias en los valores de la muestra es 0 y setiene que, con probabilidad 1,

X(1) < . . . < X(n)

Los estadısticos de orden X(k) pueden utilizarse para definir lamediana o los cuartiles. Sin embargo, la funcion cuantılicaproporciona una manera mas directa de definir estos conceptos.

La funcion cuantılica

Sea F la funcion de distribucion de una v.a. X . Se define lafuncion cuantılica correspondiente a F , como la funcion F−1,definida en el intervalo (0, 1) mediante

F−1(p) = infx : F (x) ≥ p.

Se llama cuantil poblacional de orden p al valor F−1(p) de lafuncion cuantılica en p.El estimador natural del cuantil poblacional de orden p es elanalogo cuantil muestral de orden p definido a partir de ladistribucion empırica, es decir,

F−1n (p)

Bajo condiciones muy generales se cumple que

F−1n (p)

c.s.−→ F−1(p).

Referencias

Casella, G., Berger, R.L. (2002). Statistical Inference. Duxbury/Thomson Learning.Capıtulos 1 al 5.

Gentle, J.E. (2013). Theory of Statistics. George Mason University.https://mason.gmu.edu/~jgentle/books/MathStat.pdf

Knight, K. (2000). Mathematical Statistics. Chapman & Hall CRC. Capıtulos 1 al 3.

Tema 2: Muestreo aleatorioverso.mat.uam.es/~amparo.baillo/MatEstI/Tema2.pdfESTAD ISTICA I Tema 2:...

Documents

Transcript of Tema 2: Muestreo aleatorioverso.mat.uam.es/~amparo.baillo/MatEstI/Tema2.pdfESTAD ISTICA I Tema 2:...

ESTAD ISTICA - ApuntsFME · ESTAD ISTICA David Anglada Rotger Gerard Contreras Molina Marcel Juan Merono~ Quatrimestre Primavera 2019 Grau en Matem atiques Balidajr 14

El plan de muestreo - digi.usac.edu.gt · y la forma en la cual se obtendrán las unidades ... Muestreo aleatorio simple Muestreo aleatorio sistemático Muestreo aleatorio estratificado

Control del Muestreo Determinación de Errores del Muestreo.

Planes de Muestreo de PLANES DE MUESTREO DE ACEPTACIÓNAceptación

Introduccion al muestreo - OCW UPMocw.upm.es/.../OCW/Tecnicas-de-muestreo/Mat_Clase/tec_muestreo… · Muestreo por Transectos ... aleatoria en la cual cada unidad de muestreo es

FUNDAMENTOS DE PSICOLINGU¨´ISTICA Y …€¦ · AFASIA Master Lingu¨´ıstica 11/11/2009 Master Lingu¨´ıstica FUNDAMENTOS DE PSICO-NEUROLINGU¨´ISTICA. Un poco de historia

LingÃ¼istica-y-TerminologÃa - Copiar

INTRODUCCION A LA PROGRAMACI ON ESTAD ISTICA …batanero/pages/ARTICULOS/libroR.pdf · INTRODUCCION A LA PROGRAMACI ON ESTAD ISTICA CON R PARA PROFESORES Jos e Miguel Contreras Garc

Tema 2. Muestreo Aleatorio Simple - …webdelprofesor.ula.ve/economia/angelz/archivos/muestreo_tema3.pdf · El muestreo aleatorio simple, muestreo irrestricto aleatorio o muestreo

Muestreo Estratificado

EL ENFOQUE DE LA PROGRAMACION´ NEURO-LINGU¨´ISTICA (PNL) Y LA

NIA 530 MUESTREO DE AUDITORÍA - fvconsulting.com.co 530 - Muestreo de... · NIA 530 MUESTREO DE ... el muestreo de la auditoría y otros medios de selección de Muestreo de auditoría

PROBABILIDAD Y ESTAD¶ISTICA - materias.unq.edu.armaterias.unq.edu.ar/pye/Avisos Profesor/Notas_Proba11a.pdf · Probabilidad Condicional ... Probabilidades compuestas e independencia

Introducion al muestreo y tipos de muestreo

Examen 6/2/2004. IG23 AMPLIACION DE ESTAD´ ´ISTICA. ITIG.

Pruebas Selectivas - ecoeediciones.com · Capítulo 2. Métodos de muestreo..... 15 Muestreo de criterio ... Muestreo de aceptación de atributos..... 27 Muestreo de descubrimiento

Muestreo Tema 1 2. Muestreo aleatorio 3. Tipos de muestreo ... · PDF fileMuestreo Tema 1 1. Muestreo 2. Muestreo aleatorio 3. Tipos de muestreo aleatorio 3.1. Muestreo aleator io

Octubre 1992 ESTA• ISTICA

Muestreo - Universitat de Valènciamonterdh/RESEARCHERS/Curso_Master_UJI...9 Tipos de Muestreo MUESTREO PROBABILÍSTICO (RANDOM) (MUESTREO NO-PROBABILISTICO (NON-RANDOM) Todos los

Aacap 6 Muestreo y Distribuciones de Muestreo