Post on 14-Jul-2016
description
Análisis y diseño de experimentos
Variable aleatoria y distribuciones de probabilidad.
Semestre 2, 2015
Definición de probabilidad
Es una medida de la incertidumbre La incertidumbre de ocurrencia de un
resultado sujeto al azar ejecutado por un experimento aleatorio.
Experimento: Proceso planificado para generar nuevo conocimiento o para verificar resultados ya conocidos o definidos.
Experimento aleatorio (ε):
Es tal que en cada repetición ocurrirá una y solo una de los resultados experimentales posibles..
Experimento Resultados Observar un nacimiento hombre, mujer Lanzar una moneda escudo, número Ofrecer un producto comprado, negado Hacer rodar un dado 1, 2, 3, . . . 6
Espacio Muestral Conjunto de todos los resultados posibles
de un experimento Resultado posible o punto muestral o
evento simple Ejm 1 Lanzar una moneda, genera
S1= {E, N} Hacer rodar un dado, genera
S2 = {1, 2, 3, 4, 5, 6}
Distribuciones de probabilidad La distribución de probabilidad o distribución de
una variable aleatoria X relaciona el conjunto de elementos del espacio muestra S con los valores posibles x ε RX a las que asignan una probabilidad asociada por una fórmula o como una distribución de frecuencias relativas.
Ejemplo 1, lanzar una moneda genera S1= {E, N} y X asocia RX = {0, 1}. Asignamos 0.5 si x = 0 y también 0.5 si x = 1 la función de probabilidad se escribirá:
P(X=x)=f(x) = 0.5 si x:0, 1 = 0 en otro valor.
O también como Distribución de probabilidad
Representación gráfica Diagrama de barras
x f(x)
0 0.5
1 0.5
Total 1
2
Ejemplo 2: Experimento: hacer rodar un dado. X nº de arriba.
De este experimento el recorrido de X es
Rx={1, 2, 3, 4, 5, 6} y asignamos:
6..,3,2,161
)()( xxfxXP
6..,3,2,161
)()( xxfxXP
Exp: hacer rodar dos veces un dado. Sea X: suma de caras superiores
Rx = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11 12}
12..,8,736
13
6..,3,2,136
1)(
xx
xx
xf
Parámetro μ: media o esperanza
matemática De una variable aleatoria X distribuida con
probabilidad f(x) en su recorrido Rx. La media μ queda definida:
Siempre y cuando sea convergente.
xRx
xfx )(
Parámetro : Varianza y desviación estándar
El parámetro queda definida como
Desviación estándar
XRx
xfx )()( 22
2
2
2
Veamos el mismo ejemplo 1 con probabilidad p
X f(x) x.f(x) f(x)
0 1- p 0 0
1 p p P
total 1 p P
Cálculo de y
2x
)1()(
)(
)(
2
222
pppp
xfx
pxfxxRx
2
Condiciones de f(x)
1. f(x) = P(X = x) > 0
2. .
3. P(a ≤ X ≤ b) =
4. .
Como veremos en el siguiente ejemplo
xRx
xf 1)(
b
ax
xf )(
222 )( xfx
Rxx
xfx )(
Sea la población formada por números en 6 tarjetas, de las que hay 2 tarjetas con el nº 2, 3 tarjetas con el nº 3, una tarjeta con nº 4. Se extrae una tarjeta, entonces asignamos la siguiente distribución de probabilidad
Distribución Diagrama de barra
X f(x)
2 2/6
3 3/6
4 1/6
total 1
Calculo de parámetros
distribución Parámetros
μ = Σxf(x) = 17/6= 8.5/3
x f(x) xf(x) f(x)
2 2/6 4/6 8/6
3 3/6 9/6 27/6
4 1/6 4/6 16/6
Total 1 17/6 51/63617
617
651
)(2
222
xfx
2x
Distribución de probabilidad.
Modelo Bernoulli: Decimos que la variable aleatoria discreta X es
Bernoulli si su función de probabilidad esta dada por:
Media poblacional
Varianza poblacional
valorotroen
xppxf xx
0
1,0:)1()( 1
p
)1(2 pp
Distribución Binomial Es variable discreta tal que [X~ b(n, p)]
X: número de veces que ocurra la característica de interés
n : número de pruebas independientes p: probabilidad constante de que ocurra la característica
de interesa en cualquier prueba.
valorotroen
nxppx
nxf xnx
0
...,2,1,0:)1()(
)1(2 pnp np
La prob. que una cría de llama supere las 4 semanas de nacida es 0.4 Si hay 5 llamas preñadas que han parido.. Calcular la prob. que: a. 3 crías superen las 4 semanas. b. más de 4 crías superen las 4 semanas. Solución. Definimos X: nº de crias que superan
la 4ª semana en 5 pruebas → X~ b(5, 0.4)
a.
b.
5...,2,1,0:)4.01(4.05
)( 5 xx
xf xx
2304.06.04.0)3( 23
3,5 CXP
087.0)5(*)4()54()4( ffXoXPXP
Distribución Normal Estándar
Z es una variable continua, distribuida normal con media μ y desviación estándar σ si su función de probabilidad es:
La media μ = 0 y la desviación estándar es
σ = 1.
Zz
zf2
)2/exp()(
2
Propiedades interesantes usando la Distribución acumulada
La probabilidad tabulada muestra que
P(Z ≤ 0) = P(Z > 0) = 0.5 F(a) = P(Z ≤ a) igual a la superficie de la
curva normal a la izquierda de a F( – a) = 1 – F(a) P(a ≤ Z ≤ b) = F(b) – F(a)
Usar la distribución acumulada
P(Z < 0.85) = F(,85)= P(Z< 1.5) = F(1.5) P(Z > 0.75)= 1 – F(.75) = P(Z < – .42 ) = F(– .42) P(– .35 < Z < 1) = P(Z > – .4) = P(|Z| < 1) =P(– 1 < Z < 1) P((|Z+1| < 0.5)
¿Cuánto debe valer a? si:
P(Z < a) = 0.8888 P(Z < a) = 0.123 P(Z > a) = 0.305 P(0.25 < Z < a) = 0.15 P(a < Z < 1.7) = 0.6 P(– a < Z < a) = 0.9 P(Z <– a) = 2P( Z > a)
¿Cuanto será K? si: P(–k ≤ Z ≤ k) = 1 – α
Solución: F(k) – F(– k) = 1 – α
F(k) – (1 – F(k) = 1 – α
2F(k) – 1 = 1 – α
F(k) = (2 – α)/2
F(k) = 1 – α/ 2 De donde k= Z1 – α/2 Significa ser el
(1 – α)avo percentil
Distribución Normal de μ ≠ 0 y desviación σ ≠ 1
X ~ N(μ, σ) cuya función de probabilidad
↑ ↑ Z a*
*)()( aZPax
PaXP
Xx
xf
2
)/]([2/1exp)(
2
Ejemplo
X ~ N(μ=25, σ=3)
1.
2.
3.
)66(.)66.0(3
2527)27( FzP
xPXP
)66.()66.0(32523
)23(
FzPx
PXP
)1()33.2()33.21(
3
2530
3
2522)3022(
FFzP
xPXP
Distribución muestral:
Es la distribución de probabilidad de los estimadores ¿Por qué?
Respuesta: Un parámetro es una constante que no se conoce, por ello se recurre a una muestra que proporciona “estimadores”
Los estimadores son “variables aleatorias” que tienen su propia distribución de probabilidad
Distribución muestral de
El estimador es puntual si sale de una única muestra, pero si consideramos los valores de las medias aritméticas de todas las posibles muestras, veremos que tiene su propia distribución de probabilidad
Ejemplo. Sea la población formada por números en 6 tarjetas, de las que hay 2 tarjetas con el nº 2, 3 tarjetas con el nº 3, una tarjeta con nº 4.
X
X
Sea el experimento de extraer muestras aleatorias de tamaño 2. Calcular las medias aritméticas de todas las muestras posibles.
Muestras sin reposición: C6,2 =15 muestras posibles.
Si con número 2 sean A, B. Con número 3 sean C, D, E y con número 4 sea F
Muestras AB AC AD AE AF BC BD BE Medias 2 2.5 2.5 2.5 3 2.5 2.5 2.5
Muestras BF CD CE CF DE DF EF Medias 3 3 3 3.5 3 3.5 3.5
Distribución de probabilidad de
2 1/15 2/15 4/15
2.5 6/15 15/15 37.5/15
3 5/15 15/15 45/15
3.5 3/15 10.5/15 37.75 15
total 1 42.5 15
123.25 15
xx )(2 xfx)(xfx)(xf
97.1
1626
236/17
1
22
NnN
nx
97.1
35.8
1525.123
2
2
35.8
155.42
x
Conclusiones
La media aritmética es una variable aleatoria con su propia distribución de probabilidad llamada distribución muestral, con su propia media igual a la media de la población
varianza dada por
Si n < 0.05N
x
1
22
NnN
nx
nx
22
Teorema del Límite Central TLC Si una variable tiene media μ y desviación σ
finitos y una muestra aleatoria de tamaño n suficientemente grande, entonces la media aritmética tiene distribución aproximadamente normal de media μ y desviación o en su forma equivalente, que la variable estándar tiene distribución Normal
~ N(0, 1)
n/
n
X
/
Ejemplo De una población normal de μ = 25 cms, σ = 7
cms., se toma una muestra de 25 datos. Calcular la probabilidad de que la media aritmética sea mayor que 26 cms.
Solución. por el TLC ~N(25, 7/5) ~ N(25, 1.4) Luego P( > 26) = P[Z > (26 – 25)/1.4] =
= P(Z > 0.71) = 1 – F(0.71)=
=0.2389
xx
Estimación por intervalos. En la distribución normal estándar, un intervalo simétrico
que tenga 1 – α de probabilidad P( – k ≤ Z ≤ k) = 1 – α la solución implicaba
Si sustituimos
Aislamos
1)( 2/12/1 ZZZP
2/12/1 /
ZZn
xZ
nZxnZx // 2/12/1
Ejemplo. X ~ N(75, 12) Se una muestra de n=16,
Calcular Solución: como la población es Normal →
~N(75, 12/4) =N(77, 3) Luego
)77( xP
x x
)66.0()16/12
7577()77( ZPZPxP
Ejemplo: Con los datos del ejemplo. Si el valor calculado de la muestra da = 72,4 Calcular Intervalo de confianza del 90% para la media. Solución: para 1 – α = 0.9 se lee en la normal Z1 – α/2 = Z0.95 = 1.64 entonces el I.C. será
68.5 < μ <77.3
16
1264.14.72
16
1264.14.72
X
X
Valores de los avo percentiles de la
Distribución Normal estándar
1 – α 1 – α/2 Z1-α/2
80 90 1.28
90 95 1.645
95 97.5 1.96
99 99.5 2.58
Distribución ji-cuadrada. La variable aleatoria normal elevada al
cuadrada se forma la Distribución con k grados de libertad. (k entero) La E(X)= k y varianza = 2k
El cociente de variables tiene distribución con intervalo de confianza
2 2
2
k
22
2)1(sn
2
1n
2
1,2/
22
2
1,2/1
2 )1()1(
nn
snsn
Grados de libertad Número de combinaciones linealmente independientes
con n valores sujetas a uno o más restricciones. Es posible entender la elección de valores sujeto a una restricción.
Por ejemplo supongamos que la media aritmética = 9, queremos asignar 4 valores, podemos elegir libremente a 3 de ellos el 4º valor solo puede ser definido por la restricción de .
Ejemplos. Usando el problema anterior X~N(75, 12) y muestra de n=16 da una desviación estándar muestral 12/4 =3, Calcular el intervalo de confianza del 90%
Distribución t t es el cociente de una variable normal dividida
entre la raíz de una variable Cuando la varianza es propuesta por el estimador de la desviación muestral s. Se define la variable t-Student que tiene la Distribución con n-1 grados de libertad. Por lo tanto podemos escribir el intervalo de confianza de
2
n
stx
n
stX nn 1,2/11,2/1
Ejemplo. Una muestra aleatoria de n = 9 de una población normal, resulta la media
=83 y desviación s = 12 Calcular un I.C. con un nivel de 90%
Solución: Por Normal de σ desconocida, → la distribución tn–1, 1- α/2 =t8, 0.95 =1.86
x
9
1286.183
9
1286.183
Tamaño de muestra
x Del intervalo de confianza con un error al aislar n0 tenemos
Si la población es de N objetos, el n será
f=fracción de muestra. Si f < 0.05 → n=n0
0
1,2/1 n
st n
2
22
)1(,2/10
stn n
f
n
N
nn
n
11
0
0
0
La Asociación de Dietistas informa que una alta ingestión de sodio puede provocar úlceras cáncer estomacal y migraña. El requerimiento humano de sal debe ser menor de 250 mg/dia (mg: miligramos). Las cajas de cereales listo a ser consumidos garantizan 220 miligramos de sodio en promedio con desviación de 25 mg. ¿Qué tamaño de muestra será requerida para tener un error de 4 mg. y 90% de confianza?
Solución: Como la varianza se conoce tenemos: 1 – α/2 = 0.95 → Z0.95 =1.64 →
Conclusión: Debe elegirse 106 cajas de cereal de muchos fabricantes para ser analizados.
10642564.12
22
n
Se desea probar un producto antiparasitario en la dieta para engorde de cerdos. Por el costo se probará en 10 ejemplares. Luego, la diferencia de peso entre el 1º y 2º registro, resultó una desviación s = 540 gramos. Calcular el tamaño de muestra que debe someterse para tener un error de 150 gramos y 90% de confianza.
Solución: s, desviación muestral. t0.95, 9 = 1.833
44150540*833.1
2
n
Estimación, distribución de (proporción)
Sea P el parámetro de la variable Bernoulli (ver pag.17) tiene los parámetros y varianza
De esta población se obtiene una muestra, por ejemplo: x1 =1, x2 =1 x3 =0 . . . xn =1 es decir se obtiene una
sucesión de la forma {1, 1, 0, 1, 0,
. 0 1-n1 0 0
1 n1 n1 n1
n1 n1 n1
P )1(2 pP
ix in )( ii xfx )(2
ii xfxp
n
n
n
nxx iii
)1(1)1(
)(
112
2
1
22
ppn
n
n
ppn
n
npn
n
xnnxs ii
Distribución de probabilidad de P Aplicando el TLC dado que el estimador
es , establece que el cociente tiene distribución t con (n – 1) grados de libertad
y el Intervalo de confianza de P
1)1/()1(/
ntnpp
Pp
ns
x
)1/()1()1(,2/1 npptpP n
Una muestra de 100 cigarrillos de producción se sometió a laboratorio para medir el nivel de nicotina. Se encontraron 15 de ellos con más de 20 miligramos de nicotina. Con 90% calcular un intervalo de confianza
Solución: p= (15/100) = 0.15,
t0.95, 14 = 1.76
0.15 ± 0.063
99/)15.01(15.076.115.0 P
El ministerio de Salud, afirma que el 30% de los adultos fuman cigarrillos. ¿Qué tamaño de muestra debe elegirse para tener un error inferior al 6% y confianza del 95% de que funciona la campaña antitabaco? [P es poblacional]
Solución 1 – α/2 = 0.975 → Z0.975 =1.96 Luego
personas
NOTA: para n grande,
nppnpp /)1()1/()1(
22506.0/7.0*3.096.1 22 n
Para determinar la población de osos andinos, se capturaron 10 ejemplares, se los marco poniendo un arete a cada uno. Se los devolvió a su hábitat y luego de 6 meses se capturaron otro grupo de 15 ejemplares de los que 1 tenían el arete identificador. ¿cuál será el número de ejemplares en la zona? Usar 95% de confianza y un error de 3%.
Solución: N= n1/p2
n1 número de marcados en 1ª captura.
n2 y k ejemplares en 2ª captura
p2 =k/n2 proporción de segunda captura
→ N = n1 n2/k