Post on 23-May-2020
ESTADISTICA ITema 2: Algunas ideas basicas sobre
inferencia estadıstica. Muestreo aleatorio
I Conceptos probabilısticos basicos
I Muestra aleatoria
I El problema de inferencia
I Estadısticos. Media y varianza muestrales. Estadısticos de orden
I Ley de los grandes numeros
I Funcion de distribucion empırica. Teorema de Glivenko-Cantelli
I Histogramas y estimadores kernel. Moda muestral
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 1
Conceptos probabilısticos basicos
Un espacio de probabilidad es un triplete (Ω,A,P) donde
• Ω es un conjunto no vacıo
• A ⊆ P(Ω) es una σ-algebra, es decir,
I Ω ∈ A.I Si A ∈ A, entonces Ac ∈ A.I Si Ai∞i=1 ⊂ A, entonces ∪∞i=1Ai ∈ A.
• P es una medida de probabilidad sobre A, es decir,
P : A → [0, 1]A 7→ P(A)
satisfaciendo
I P(Ω) = 1I Si Ai∞i=1 ⊂ A con Ai ∩ Aj para i 6= j , entonces
P (∪∞i=1Ai ) =∑∞
i=1 P(Ai ).
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 2
La σ-algebra mas habitual en R es la de Borel B, que se puedegenerar con los intervalos.
Una variable aleatoria es una aplicacion medible
X : (Ω,A,P) → (R,B)ω 7→ X (ω)
es decir, para cualquier B ∈ B, se cumple que
X−1(B) = ω ∈ Ω : X (ω) ∈ B = X ∈ B ∈ A.
Entonces P y X inducen una medida de probabilidad PX en (R,B)llamada distribucion de probabilidad de la v.a. X
PX (B) = PX ∈ B.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 3
El espacio muestral de X es el subconjunto de R que contienetodos los posibles valores de X .
La funcion de distribucion de la v.a. X es la aplicacion
F : R → [0, 1]x 7→ F (x) = PX ≤ x = PX (−∞, x ].
Es una funcion no decreciente y continua por la derecha.
La funcion caracterıstica de la v.a. X es
φ(t) = E(e itX ) =
∫Re itxdPX (x).
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 4
Una v.a. X es discreta cuando existe un conjunto finito onumerable S = ai ⊂ R tal que
1 = P(S) =∑i
PX = ai =∑i
(F (ai )− F (ai−)).
La distribucion de X es (absolutamente) continua cuando existeuna funcion de densidad f tal que
PX ∈ B =
∫Bf (t)dt, ∀B ∈ B,
o, de manera equivalente,
F (x) =
∫ x
−∞f (t)dt, ∀x ∈ R.
Entonces, F ′(t) = f (t).
La densidad f debe satisfacer
I f (t) ≥ 0 para todo t;
I∫R f (t)dt = 1.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 5
Definimos la media poblacional o esperanza de X como
µ = E(X ) =
∫ΩXdP =
∫Rx dPX (x) =
∫RxdF (x),
supuesto que esta integral es finita.
Teorema de cambio de espacio de integracion: Si g es una funcionreal medible tal que E(g(X )) es finita, entonces
E(g(X )) =
∫Rg(x) dPX (x).
En particular,
σ2 = V(X ) =
∫R
(x − µ)2dPX (x).
Si E|g(X )| =∞, entonces decimos que Eg(X ) no existe.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 6
El momento de orden k de la v.a. X respecto al origen es E(X k).
El momento de orden k de X respecto a la media es E((X − µ)k
).
Principales distribuciones discretas y continuas:Ver enlace en la web de la asignatura.
Desigualdades basicas:
Desigualdad de Markov: Sea X v.a. no negativa. Entonces, para
todo ε > 0, PX > ε ≤ µ
ε.
Desigualdad de Chebyshev: P|X − µ| > ε ≤ σ2
ε2.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 7
Convergencias estocasticas
Sean X ,Xn : (Ω,A,P) −→ (R,BR) v.a., n ∈ N.
¿Que significa Xn −−−→n→∞
X?
• Convergencia en probabilidad
Decimos que Xnn∈N converge a X en probabilidad y lo
denotamos XnP−−−→
n→∞X si, para todo ε > 0,
limn→∞
P|Xn − X | ≥ ε = 0
o equivalentemente
limn→∞
P|Xn − X | < ε = 1.
En Analisis este tipo de convergencia se llama convergencia enmedida.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 8
• Convergencia casi segura
Decimos que Xnn∈N converge a X casi seguro (o conprobabilidad uno o en casi todo punto) y lo denotamosXn
c.s.−−−→n→∞
X si
Pω ∈ Ω : Xn(ω) 6−−−→n→∞
X (ω) = 0
o equivalentemente si, para todo ε > 0,
P limn→∞
|Xn − X | < ε = 1.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 9
Ejemplo de convergencia en probabilidad pero no c.s.
Consideramos una sucesion de v.a. construidas del siguiente modo.Primero definimos una v.a. U uniforme en el intervalo [0,1] y luegole aplicamos ciertas funciones indicatrices 1Ai
n, siendo
Ain =
[i−1n , i
n
], i = 1, . . . , n, n ≥ 1:
(Ω,A,P)U−→ (R,B)
1Ain−→ (R,B).
Para un ω ∈ Ω fijo, U(ω) es una observacion concreta extraıda dela distribucion uniforme en [0,1].
La sucesion de v.a.
X 11 = 1A1
1(U), X 1
2 = 1A12(U), X 2
2 = 1A22(U),
X 13 = 1A1
3(U), X 2
3 = 1A23(U), X 3
3 = 1A33(U), . . .
converge a 0 en probabilidad pero no c.s.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 10
• Convergencia debil o en distribucion
Sean F y Fn las funciones de distribucion de X y Xn
respectivamente. Decimos que Xnn∈N converge a X debilmente
o en distribucion y lo denotamos Xnd−−−→
n→∞X si
limn→∞
Fn(x) = F (x)
para todo x ∈ R en el que F sea continua.
Sean φ y φn las funciones caracterısticas de X y Xn
respectivamente. Se cumple que
Xnd−−−→
n→∞X ⇔ φn(t) −−−→
n→∞φ(t), ∀t ∈ R.
Tambien se cumple que
Xnd−−−→
n→∞X ⇔ E(g(Xn)) −−−→
n→∞E(g(X ))
para toda g : R→ R continua y acotada.Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 11
Se satisfacen las siguientes implicaciones:
Xnc.s.−−−→
n→∞X ⇒ Xn
P−−−→n→∞
X
XnP−−−→
n→∞X ⇒ Xn
d−−−→n→∞
X
XnP−−−→
n→∞c, con c constante ⇔ Xn
d−−−→n→∞
c
Teorema de Slutsky: Sean Xnn e Ynn sucesiones de v.a. y X
una v.a. Si Xnd−−−→
n→∞X e Yn
P−−−→n→∞
c , siendo c ∈ R una
constante, entonces
(i) Xn + Ynd−−−→
n→∞X + c
(ii) Xn Ynd−−−→
n→∞c X
(iii) XnYn
d−−−→n→∞
Xc siempre que c 6= 0.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 12
Muestra
Se supone que los datos x1, . . . , xn se obtienen medianteobservaciones reiteradas e independientes de una cierta v.a. X . Sedice entonces que los datos constituyen una muestra (observada)de X .
La muestra observada es una “realizacion” de una muestraaleatoria X1, . . . ,Xn de X .
Desde el punto de vista probabilıstico, la muestra esta constituidapor n variables aleatorias X1, . . . ,Xn independientes eidenticamente distribuidas (i.i.d.).
Se dice a veces, en terminologıa estadıstica informal (pero muyhabitual) que la muestra se extrae de una poblacion, descrita porla v.a. X , y se llaman poblacionales a las caracterısticas de interesde X (por ejemplo, los momentos de X ).
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 13
Estadısticos
Cuando extraemos una muestra X1, . . . ,Xn de X se suelen calcularalgunas medidas resumen. Cualquiera de ellas se puede expresarmatematicamente como una funcion T = T (x1, . . . , xn) de lamuestra X1, . . . ,Xn.
Dada una funcion T , la v.a. T = T (X1, . . . ,Xn) se denominaestadıstico. La definicion de estadıstico es muy amplia. La unicarestriccion es que un estadıstico no puede ser funcion de unparametro.
Como la distribucion de T se calcula a partir de la distribucion delas variables Xi que constituyen la muestra, la denominaremosdistribucion de T en el muestreo (sampling distribution).Obviamente la distribucion de T (X1, . . . ,Xn) depende de ladistribucion de X y de la expresion matematica de la funcionT = T (x1, . . . , xn).
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 14
El error estandar o error tıpico de un estadıstico T es la desviaciontıpica de su distribucion en el muestreo:√
V(T (X1, . . . ,Xn)). (1)
Como a menudo (1) depende de alguna cantidad desconocida,tambien se denomina error tıpico a una estimacion de (1).
Ejemplo: Si X1 . . . ,Xn es una muestra de X ∼ N(µ, σ), entonces
X ∼ N
(µ,
σ√n
)⇒ Error tıpico de X =
A veces sucede que
T
error tıpico (estimado) de T∼ t de Student
y conocer T y su error tıpico para unos datos nos permite construirintervalos de confianza para parametros desconocidos. Por esoalgunos programas de ordenador lo proporcionan como output.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 15
Planteamiento general del problema de inferencia
Las caracterısticas de la v.a. X que genera los datos (por ejemplo,los momentos, los cuantiles, la distribucion, etc.) se denominanmomentos, cuantiles, etc. poblacionales.
En general, uno de los objetivos principales de la inferenciaestadıstica es estimar o “aproximar” las caracterısticaspoblacionales a partir de la informacion proporcionada por lamuestra.
Otras tecnicas estadısticas no van orientadas directamente aaproximar el valor de una caracterıstica de interes (como porejemplo la media), sino mas bien a decidir entre dos posiblesopciones acerca de ella (por ejemplo, si es mayor o menor que 1).La correspondiente metodologıa se denomina contraste dehipotesis.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 16
Interpretacion estadıstica de la ley de los grandesnumeros (LGN)
Teorema.- Sea Xk una sucesion de v.a.i.i.d. con media finitaµ. Se satisface entonces
X :=
∑ni=1 Xi
nc.s.−→ µ, cuando n→∞. (2)
Este teorema, denominado a veces “ley fuerte de Kolmogorov”, esuno de los resultados mas importantes de la teorıa clasica de laprobabilidad.Utilizando la desigualdad de Chebyshev se puede demostrar unaversion mas debil de (2) (con convergencia en probabilidad, enlugar de convergencia casi segura e imponiendo V(Xi ) = σ2 <∞),llamada “ley debil de los grandes numeros”.
En terminos estadısticos, la LGN establece que “la media muestrales un estimador consistente de la media poblacional”.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 17
La funcion de distribucion empırica
La funcion de distribucion empırica asociada a la muestraX1, . . . ,Xn se define mediante
Fn(t) =1
n
n∑i=1
1(−∞,t](Xi )
Esta es la funcion de distribucion que corresponde a una medida deprobabilidad discreta que asigna masa 1/n a cada uno de losvalores X1, . . . ,Xn.
Observese que, para valores prefijados de la muestra, Fn es unafuncion de distribucion discreta y que para cada t fijo Fn(t) es unav.a. (porque depende de los valores muestrales X1, . . . ,Xn).
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 18
# Extraccion de una muestra (n=10) de una N(3,1)
x = rnorm(10,mean=3,sd=2)
# Representacion de la distribucion empirica:
plot(ecdf(x),main="n=10",do.points=F)
o tambien
plot.ecdf(x,main="n=10",do.points=F)
En el grafico se muestran dos funciones de distribucion empıricaobtenidas de este modo, para n = 10 y n = 100:
1 2 3 4 5 6 7
0.0
0.2
0.4
0.6
0.8
1.0
n=10
x
Fn
(x)
-2 0 2 4 6 8 10
0.0
0.2
0.4
0.6
0.8
1.0
n=100
x
Fn
(x)
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 19
El estadıstico de Kolmogorov-Smirnov
‖Fn − F‖∞ := supt|Fn(t)− F (t)|
es una manera de medir la “distancia” entre la funcion dedistribucion empırica Fn y la funcion de distribucion real F .
Teorema de Glivenko-Cantelli.- Sean X1, . . . ,Xn v.a.i.i.dcon funcion de distribucion F . Se cumple que ‖Fn − F‖∞ → 0c.s., cuando n→∞.
La demostracion de este resultado se hara en clase.
Se puede demostrar ademas que, cuando la muestra X1, . . . ,Xn
procede de una funcion de distribucion F continua, entonces ladistribucion de ‖Fn − F‖∞ es conocida y no depende de F . Estose utiliza para comprobar si es plausible que un cierto modeloparametrico F haya generado la muestra observada X1, . . . ,Xn
(test de bondad de ajuste).
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 20
Comprobacion empırica del teorema de Glivenko-Cantelli:
plot(ecdf(rnorm(100)),do.points=F,
main="Comparacion entre Fn y F")
x = seq(-3.2,3.2,0.01)
lines(x,pnorm(x),col="red")
-2 -1 0 1 2
0.0
0.2
0.4
0.6
0.8
1.0
Comparación entre F_n y F
x
Fn
(x)
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 21
La media muestral y la media poblacional
Observemos que la media muestral
X =
∑ni=1 Xi
n
puede expresarse en la forma
X =
∫Rx dFn(x).
Esto pone de relieve la analogıa entre la media muestral y la mediapoblacional
µ =
∫Rx dF (x)
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 22
Otras relaciones, muy importantes, entre X y µ son
1. X es estimador insesgado o centrado de µ:
E(X ) = µ.
2.
V(X ) =σ2
n.
La cantidad σ/√n se denomina error tıpico de la media
muestral.
3. Ley fuerte de los grandes numeros:
limn→∞
X = µ c.s.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 23
4. Teorema Central del Lımite:
√n(X − µ)
d−→ N(0, σ),
donde el sımbolod−→ denota convergencia en distribucion (o
debil) cuando n→∞
Es decir,limn→∞
P√n(X − µ) ≤ σt = Φ(t),
donde Φ denota la funcion de distribucion de la N(0, 1).
Por tanto, para n “grande” se tiene P√n(X − µ) ≤ x ≈ Φ
(xσ
),
aunque las Xi no tengan distribucion normal.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 24
La varianza muestral y la varianza poblacional
La medida de dispersion habitual para una v.a. X es la varianza
V(X ) = σ2 =
∫R
(x − µ)2dF (x).
El analogo muestral de σ2 es la varianza muestral
σ2n =
∫R
(x − X )2dFn(x) =1
n
n∑i=1
(Xi − X )2.
Puede comprobarse que
E(σ2n) =
n − 1
nσ2 y σ2
nc.s.−→ σ2.
Frecuentemente, en lugar de σ2n se utiliza la cuasivarianza muestral
S2 =n
n − 1σ2n.
Se tiene que E(S2) = σ2 y S2 c.s.−−−→n→∞
σ2.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 25
Distribucion empırica y estimadores kernel
Observese que
fn(t) =1
nh
n∑i=1
K
(t − Xi
h
)=
1
n
n∑i=1
Kh (t − Xi )
=
∫RKh(t − x)dFn(x),
es decir, que el estimador kernel fn(t) puede considerarse como laconvolucion del nucleo re-escalado Kh(z) = 1
hK(zh
)con la medida
de probabilidad empırica Fn.
Intuitivamente esto significa que la distribucion correspondiente ala funcion de densidad fn puede considerarse como una “versionsuavizada” de la distribucion empırica.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 26
Teorema.- Sean X1,X2, . . . , v.a.i.i.d. con distribucion comunabsolutamente continua de densidad f .Supongamos que
(a) el nucleo K es una funcion de densidad acotada con|x |K (x)→ 0 cuando |x | → ∞;
(b) h = hn → 0 y que nhn →∞;
(c) la densidad f es acotada y continua en un punto t.
Entoncesfn(t)
P−→ f (t).
La demostracion se hara en clase.
Este resultado indica que los estimadores kernel pueden utilizarsepara estimar la funcion de densidad de las v.a. Xi . Hay versionesmucho mas generales de este resultado. Aquı se ha elegido estapor la sencillez de su demostracion.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 27
Aplicacion de los estimadores kernel para definir lamoda muestral
Sea X una v.a. con densidad f . Supongamos que f es continua yque tiene un unico maximo. Se define entonces la moda de fcomo el valor θ que verifica
f (θ) = maxx
f (x).
Sea fn una sucesion de estimadores kernel basados en una funcionnucleo K que es una densidad tal que limz→±∞ K (z) = 0. Sedefine una moda muestral como un valor θn que verifica
f (θn) = maxx
fn(x).
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 28
Teorema(Consistencia de la moda muestral).- Supongamos que
(a) la densidad f es uniformemente continua en R y alcanza ununico maximo (moda) en θ.
(b) fn una sucesion de estimadores kernel cuya funcion nucleo Kes una densidad tal que limz→±∞ K (z) = 0.
(c) supt |fn(t)− f (t)| c.s.−→ 0, cuando n→∞.
Entoncesθn
c.s.−→ θ, (3)
siendo θn cualquier sucesion de modas muestrales. Si en lahipotesis (c) se reemplaza la convergencia c.s. por convergencia enprobabilidad, la consistencia (3) se obtiene tambien enprobabilidad.
Puede probarse que h→ 0 y nh/ log n→∞ son condiciones suficientes
para que (c) se cumpla (bajo ciertas condiciones sobre K que se verifican
para el nucleo gaussiano y otros nucleos usuales).
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 29
Estadısticos de orden
Dada una muestra X1, . . . ,Xn se denotan por
X(1) ≤ . . . ≤ X(n)
las observaciones de la muestra ordenadas de menor a mayor, esdecir, X(1) es la observacion mas pequena, X(2) la siguiente maspequena y X(n) la mayor.Cuando la funcion de distribucion de las v.a. Xi es continua, laprobabilidad de coincidencias en los valores de la muestra es 0 y setiene que, con probabilidad 1,
X(1) < . . . < X(n)
Los estadısticos de orden X(k) pueden utilizarse para definir lamediana o los cuartiles. Sin embargo, la funcion cuantılicaproporciona una manera mas directa de definir estos conceptos.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 30
La funcion cuantılica
Sea F la funcion de distribucion de una v.a. X . Se define lafuncion cuantılica correspondiente a F , como la funcion F−1,definida en el intervalo (0, 1) mediante
F−1(p) = infx : F (x) ≥ p.
Se llama cuantil poblacional de orden p al valor F−1(p) de lafuncion cuantılica en p.El estimador natural del cuantil poblacional de orden p es elanalogo cuantil muestral de orden p definido a partir de ladistribucion empırica, es decir,
F−1n (p)
Bajo condiciones muy generales se cumple que
F−1n (p)
c.s.−→ F−1(p).
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 31
Referencias
Casella, G., Berger, R.L. (2002). Statistical Inference. Duxbury/Thomson Learning.Capıtulos 1 al 5.
Gentle, J.E. (2013). Theory of Statistics. George Mason University.https://mason.gmu.edu/~jgentle/books/MathStat.pdf
Knight, K. (2000). Mathematical Statistics. Chapman & Hall CRC. Capıtulos 1 al 3.
Estadıstica I (Mat/DG). Profesora: Amparo Baıllo Tema 2: Muestreo aleatorio 32