Probabilidades y EstadísticaTablas Apéndice C _____ 182 Resoluciones Los Autores_____ 190...
Transcript of Probabilidades y EstadísticaTablas Apéndice C _____ 182 Resoluciones Los Autores_____ 190...
-
Probabilidades y Estadística Análisis de datos
FACULTAD DECIENCIAS EXACTAS
María Carmen Apezteguía y Julieta Ferrario
Libros de Cátedra
-
PROBABILIDADES Y ESTADÍSTICA ANÁLISIS DE DATOS
María Carmen Apezteguía Julieta Ferrario
(Coordinadoras)
Facultad de Ciencias Exactas
-
Agradecimientos
Es nuestro deseo agradecer a todos los miembros de la Cátedra Análisis de Datos que
formaron parte de este proyecto realizando aportes significativos y críticas constructivas;
invirtiendo su tiempo, sus recursos y sus energías para contribuir a la realización del mismo.
Agradecer muy especialmente a la Secretaria de Asuntos Académicos, Facultad de
Ciencias Exactas, Universidad Nacional de La Plata, por promover la realización del Libro de
Cátedra para la materia Análisis de Datos mediante La Convocatoria 2015 del proyecto que
lleva su nombre.
-
Índice
Capítulo 1 _________________________________________________________________ 5 0Probabilidades
Capítulo 2 ________________________________________________________________27 Variables aleatorias discretas
Capítulo 3 ________________________________________________________________52 Variables aleatorias continuas
Capítulo 4 ________________________________________________________________76 Sumas de variables independientes y Teorema Central del Límite
Capítulo 5 ________________________________________________________________88 Estimación
Capítulo 6 _______________________________________________________________110 Tests de hipótesis
Capítulo 7 _______________________________________________________________126 Inferencias basadas en dos muestras
Capítulo 8 _______________________________________________________________149 Modelo de regresión lineal
Apéndice A _____________________________________________________________ 169 Teoría de Conjuntos
Apéndice B ______________________________________________________________173 Tablas
Apéndice C _____________________________________________________________182 Resoluciones
Los Autores ______________________________________________________________190
Introducción ______________________________________________________________ 4
-
INTRODUCCIÓN
Este libro intenta dar una introducción a las ideas básicas de Probabilidades y Estad́ıstica. Fue
concebido para ser usado por los estudiantes del ciclo básico de la Facultad de Ciencias Exactas
de la UNLP (CiBEx), con conocimientos básicos de Análisis Matemático.
La temática puede considerarse dividida en dos núcleos centrales:
1. Nociones básicas de probabilidades: son las herramientas necesarias para desarrollar las pri-
meras nociones de inferencia estad́ıstica.
2. Algunos elementos de inferencia estad́ıstica: estimación puntual y mediante intervalos de
confianza, test de hipótesis, regresión lineal.
La gran mayoŕıa de los temas son introducidos con ejemplos, tratando de enfatizar la manera
correcta de encararlos.
4
-
CAPÍTULO 1
Probabilidades
Introducción: ¿Por qué estudiar Probabilidades?
La Teoŕıa de Probabilidades es una rama de la Matemática, que en sus oŕıgenes se relacionó
con la resolución de problemas vinculados con los juegos de azar. Sin embargo, tiene aplicaciones
en situaciones muy diversas, ya que se utiliza para estudiar cualquier fenómeno donde no se puede
tener certeza del resultado. Este tipo de fenómeno se llama experimento aleatorio. Cuando se
realizan replicaciones de cualquier medición, por ejemplo en qúımica cĺınica, se puede observar
una variación en los resultados. Esta variación es inherente al proceso de medición. Entonces, el
resultado de una medición es incierto, por ese motivo puede considerarse como un experimento
aleatorio. La teoŕıa de probabilidades brinda herramientas útiles para manejar este tipo de datos.
Para ejemplificar los primeros conceptos de probabilidad usaremos algunos experimentos alea-
torios que se refieren a juegos de azar simples como: arrojar un dado, realizar un tiro de ruleta,
sacar una bolilla de una caja con bolillas de diferente color, etc.
5
-
Definiciones y propiedades básicas
Espacio muestral. Eventos
Para cada experimento aleatorio existe un conjunto de resultados posibles, llamado espacio
muestral, denotado por Ω.
Ejemplo 1.1
El lanzamiento de un dado puede dar lugar a 6 resultados: 1, 2, 3, 4, 5, 6, y el espacio muestral
o espacio de probabilidad en este caso es Ω = {1, 2, 3, 4, 5, 6}.�
Ejemplo 1.2
El espacio muestral correspondiente al tiro de una ruleta es Ω = {0, 1, 2, . . . , 36}.�
Ejemplo 1.3
Si se extrae una bolilla de una caja que contiene bolillas rojas, blancas y azules, los posibles
resultados son los colores y el espacio muestral correspondiente es Ω = {roja, blanca, azul}.�
Ejemplo 1.4
Si se lanza una moneda tantas veces como sea necesario hasta que sale cara y designamos, por
ejemplo,XC al resultado “en el primer lanzamiento sale ceca y en el segundo sale cara”, podemos
escribir el espacio muestral como Ω = {C,XC,XXC,XXXC,XXXXC, . . .}.�
Ejemplo 1.5
Si se hace un tiro a un blanco circular de radio r y se determinan las coordenadas del punto de
impacto, los resultados posibles son todos los puntos del ćırculo (para simplificar suponemos el
origen de coordenadas en el centro del ćırculo). En este caso el espacio muestral es
Ω = {(x, y) que verifican x2 + y2 ≤ r2}�
6
-
!
Observación:
En los Ejemplos 1.1, 1.2 y 1.3 el espacio muestral tiene un número finito de
elementos: 6, 37 y 3, respectivamente. En el Ejemplo 1.4, el espacio muestral
es infinito numerable (sus elementos se pueden enumerar), mientras que en el
Ejemplo 1.5, el espacio muestral es infinito no numerable.
EJERCICIO 1.1
Describir en cada una de las siguientes situaciones el espacio muestral, indicando si se trata de un
espacio finito, infinito numerable o infinito no numerable.
1. Se observa el tiempo en que una máquina trabaja sin romperse.
2. Se quiere contar la cantidad de clavos defectuosos en cajas de 100.
3. Se observa la cantidad de alumnos inscriptos en la materia Análisis de Datos de la Facultad
de Ciencias Exactas de la UNLP.
Definición:
A los subconjuntos de Ω se los llama eventos. Si un evento está formado por un único
resultado será un evento simple, en cambio, si consta de más de un resultado, un evento
compuesto.
Ejemplo 1.6
En el Ejemplo 1.1 los eventos simples son: {1}, {2}, {3}, {4}, {5}, {6}; y un ejemplo de eventocompuesto es {2, 4, 6}. Por convención, a los eventos aleatorios se los suele designar con algunade las primeras letras del alfabeto en mayúscula, por ejemplo, A = {2, 4, 6}. Gráficamente, éstoseŕıa: Ω
A 1
23
4
56
Evento simple
Evento compuesto
Esta grágica se conoce como Diagrama de Venn.
�
7
-
El espacio muestral es también un evento aleatorio, como sabemos, todo conjunto es subconjunto
de śı mismo; también lo es el conjunto vaćıo ∅, ya que está inclúıdo en cualquier conjunto, enparticular en Ω.
Una vez realizado el experimento, un determinado evento B puede ocurrir o no. Se dice que
ocurre cuando el resultado del experimento es un elemento de B, y no ocurre en caso contrario.
Como el evento Ω siempre ocurre (por constar de todos los resultados), se dice que es un evento
seguro; el evento ∅ que no consta de ningún resultado, como nunca puede suceder, se dice que esun evento imposible.
Las operaciones y relaciones habituales entre conjuntos, tienen una traducción intuitiva en
términos probabiĺısticos. Dados dos eventos A y B:
• la intersección, A ∩B, es el evento: “A y B ocurren simultáneamente”;• la unión, A ∪B, es el evento: “ocurre al menos uno de los dos”;• el complemento de A, Ac, es el evento: “no ocurre A”;• la diferencia, A−B = A ∩Bc, es el evento: “ocurre A pero no B”;• si A está inclúıdo en B, A ⊆ B, se puede interpretar que: “siempre que ocurre A, ocurre B”;• si A y B no tienen elementos en común, A ∩ B = ∅, entonces: “A y B no pueden ocurrir
simultáneamente” y, en este caso, se dice que A yB son eventos mutuamente excluyentes,
disjuntos o incompatibles.
En cualquier libro básico de Álgebra se pueden encontrar las nociones fundamentales de Teoŕıa
de Conjuntos.
EJERCICIO 1.2
Para resolver los siguientes ejercicios les recomendamos realizar las gráficas de cada uno.
1. Sean Ω el conjunto de los enteros positivos de 1 a 8, A = {1, 3, 5}, B = {1, 4} y C = {2, 3, 4, 6}.Anote los elementos de los siguientes conjuntos: A ∩ B, Cc, {x ∈ Ω : x ∈ C y x /∈ B},(C −Bc) ∩Ac y (A ∪B ∪ C)c.
2. Sean Ω = {x ∈ R : 0 ≤ x ≤ 2}, A = {x ∈ R : 0.5 < x ≤ 1} y B = {x ∈ R : 0.25 ≤ x < 1.5}.Describa los siguientes conjuntos: Ac, (A ∪B)c, A ∪Bc, (A ∩B)c y Ac ∩B.
Definición de Probabilidad. Axiomas de Probabilidad
Si bien ante un experimento aleatorio no se puede saber de antemano qué resultado se va a
obtener, nos interesa disponer de algún número que mida la posibilidad de que ocurra cada uno de
los eventos. Si se lanza una moneda al aire n veces, una medida de la posibilidad de que salga cara
(evento C) podŕıa ser la frecuencia relativa de caras, es decir, el número frC = nC/n (donde nC
indica la cantidad de veces que se obtuvo cara, es decir, el número de ocurrencia del suceso C en
8
-
los n lanzamientos). Sin embargo, al lanzar 10 veces la moneda, podŕıa obtenerse una frecuencia
relativa de 0.6, en tanto que al lanzarla otras 10 veces distintas, podŕıa conseguirse un valor de 0.4
o cualquier otro número; y no resultaŕıa útil que la medida de la posibilidad de un evento dependa
de una experiencia particular, esta medida debe ser un número objetivo. En la siguiente tabla se
muestran las frecuencias relativas de caras, nC/n, en una realización de este experimento:
n 10 25 50 75 100 200 500 750 1000
nC/n 0.3000 0.4800 0.4400 0.5067 0.5100 0.4700 0.5260 0.4800 0.4920
Se puede observar que cuando una moneda normal se lanza un número de veces cada vez mayor,
la frecuencia relativa de caras se va estabilizando alrededor de un número fijo, 0.5. La siguiente
gráfica muestra esta estabilidad, pero para apreciarla se han graficado los puntos(log(n), nC/n
)
en lugar de (n, nC/n).
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1 2 3 4 5 6 7 8 9 10 11 12 13 14
b
b
bb
b bb
bb b
bb b b b b b b b b
log(n)
nC/n
La estabilización de las frecuencias relativas de un evento alrededor de un número, ocurre para
cualquier experimento aleatorio que se repita muchas veces. Una idea intuitiva de la probabilidad
de un evento A, seŕıa el ĺımite de las frecuencias relativas, cuando n tiende a infinito.
Se puede verificar fácilmente que la frecuencia relativa tiene las siguientes propiedades:
• 0 ≤ frA = nA/n ≤ 1 para todo evento A.
• frΩ = nΩ/n = 1 (donde Ω es el espacio muestral).
• Ley aditiva: Si los eventos A y B son disjuntos:
frA∪B = nA∪B/n = nA/n+ nB/n = frA + frB
Entonces, el ĺımite de esas frecuencias heredaŕıa esas propiedades.
Para que el concepto de probabilidad coincida con esta idea intuitiva, vamos a definirlo de modo
que cumpla esas mismas propiedades.
9
-
Definición:
Dado un experimento aleatorio con espacio muestral Ω, una probabilidad es una función
P , que a cada evento A de Ω le asigna un número, llamado probabilidad de A, que se denota
P (A), y que verifica:
(A1) 0 ≤ P (A) ≤ 1 para todo evento A.
(A2) P (Ω) = 1.
(A3) Ley aditiva: Si los eventos A y B son disjuntos, es decir, A ∩B = ∅,
P (A ∪B) = P (A) + P (B).
(A4) Si A1, A2, A3, . . . es una colección infinita de eventos mutuamente excluyentes, es
decir, Ai ∩Aj = ∅, para i 6= j, entonces:
P (A1 ∪A2 ∪A3 ∪ . . .) =∞∑
i=1
P (Ai)
Aclaración
A partir del (A3), se puede generalizar la propiedad aditiva para n eventos mutuamente exclu-
yentes, pero no puede generalizarse para una colección infinita numerable de eventos, por eso,
para trabajar con espacios muestrales infinitos, es necesario agregar el (A4).
A partir de esta definición de probabilidad, pueden deducirse varias propiedades de manera
bastante simple.
Algunas propiedades básicas
PROPIEDAD 1.1: Para cualquier evento A, P (A) = 1− P (Ac).
Demostración: Por definición de Ac:
A ∪Ac = Ω y A ∩Ac = ∅
Por (A2) y (A3)
1 = P (Ω) = P (A ∪Ac) = P (A) + P (Ac)
Despejando P (A): P (A) = 1− P (Ac).
Ω
A
Ac
10
-
En particular: si A = ∅, se cumple que P (∅) = 0, ya que Ac = Ω. Es importante notar que elrećıproco no es verdadero. Si P (A) = 0 no se puede concluir que A = ∅, veremos más adelante quehay eventos no vaćıos que pueden tener probabilidad cero.
PROPIEDAD 1.2: Para dos eventos cualesquiera A y B, P (B−A) = P (B)−P (A∩B).En particular, si A ⊆ B, P (B −A) = P (B)− P (A) y P (B) ≥ P (A).
Demostración: El evento B puede escribirse como:
B = (A ∩B) ∪ (B ∩Ac)donde (A ∩B) = y (B ∩Ac) = son disjuntos. Luego, por(A3):
P (B) = P (A ∩B) + P (B ∩Ac).
Ω
BA
Despejando P (B ∩ Ac) = P (B) − P (A ∩ B). Por último, por la Propiedad del complemento enel Apéndice A, B −A = B ∩Ac, por lo tanto P (B −A) = P (B)− P (A ∩B).
En el caso que A esté contenido en B, A ⊆ B, tenemos que A ∩B = A, entonces
P (B −A) = P (B)− P (A), (1.1)
por el resultado anterior. Despejando de (1.1) tenemos que P (B) = P (A) + P (B − A). Luego,como P (B −A) ≥ 0 por (A1): P (B) = P (A) + P (B −A) ≥ P (A).
PROPIEDAD 1.3: Para dos eventos cualesquiera A y B,
P (A ∪B) = P (A) + P (B)− P (A ∩B)
Demostración: Primero observemos que A ∪B = A ∪ (B ∩Ac),
donde A = y (B ∩Ac) = son disjuntos.Por (A3):
P (A ∪B) = P [A ∪ (B ∩Ac)] = P (A) + P (B ∩Ac) (1.2)
Ω
A B
Recordemos que, en la Propiedad 1.2, se llegó al siguiente resultado:
P (B ∩Ac) = P (B)− P (A ∩B)
Reemplazando ésto en (1.2), se obtiene:
P (A ∪B) = P (A) + P (B ∩Ac) = P (A) + P (B)− P (A ∩B)
Notar que si A ∩B = ∅, en esta última propiedad, obtenemos (A3).
11
-
Aclaración
Para tres eventos cualesquiera A, B y C, la probabilidad de la unión es:
P (A ∪B ∪ C)=P (A)+P (B)+P (C)−P (A ∩B)−P (A ∩ C)−P (B ∩ C)+P (A ∩B ∩ C)Para demostrarlo formalmente, se puede escribir A ∪ B ∪ C como (A ∪ B) ∪ C y aplicar laPropiedad 1.3.
Ω
A B
C
EJERCICIO 1.3
En los siguientes ejercicios aplicar las propiedades anteriores.
1. Sean A y B dos eventos disjuntos tales que P (B) = 0.72 y P (A∩Bc) = 0.02. Calcular P (A)y P (A ∪B).
2. Determinar si las siguientes afirmaciones son falsas o verdaderas. Justificar su respuesta.
• Si P (A) > 0, entonces P (A ∪B) > 0.
• Si P (A) > 1/2 y P (B) > 1/2, entonces P (A ∩B) > 0.
• Si P (A) > 0, entonces P (Ac) > 0.
• P (B ∪A) = P (B) + P (A).
Determinación de probabilidades en espacios muestrales
finito o infinito numerables
Cuando el espacio muestral es finito o infinito numerable, para definir una probabilidad sobre
todos los eventos, es suficiente asignar probabilidades P (Ei) para todos los eventos simples Ei.
Esta asignación debe satisfacer:
• P (Ei) ≥ 0
•∑
i
P (Ei) = 1
Entonces, por (A3), la probabilidad de cualquier evento compuesto A se calcula sumando las
P (Ei) para todos los Ei en A
P (A) =∑
Ei⊆AP (Ei)
12
-
Ejemplo 1.7
Consideremos el experimento que consiste en tirar un dado que no está bien equilibrado, y resulta
que cualquiera de los resultados pares tiene el doble de probabilidad de ocurrir que cualquiera
de los resultados impares.
Llamamos E1, E2, E3, E4, E5 y E6 a los eventos simples {1}, {2}, {3}, {4}, {5} y {6},respectivamente. La única asignación de probabilidades posible deberá cumplir:
• P (E1) = P (E3) = P (E5) = 1/9
• P (E2) = P (E4) = P (E6) = 2/9
Luego, la probabilidad de cualquier evento se calcula a partir de esos eventos simples. Por
ejemplo, para el evento
A = “el resultado es par” = {2, 4, 6} = {2} ∪ {4} ∪ {6} = E2 ∪ E4 ∪ E6,
luego
P (A) = P (E2 ∪ E4 ∪ E6) = P (E2) + P (E4) + P (E6) = 6/9 = 2/3
Para
B = “el resultado es menor o igual a 3” = {1, 2, 3} = {1} ∪ {2} ∪ {3}=E1 ∪ E2 ∪ E3,
entonces
P (B) = P (E1 ∪ E2 ∪ E3) = P (E1) + P (E2) + P (E3) = 1/9 + 2/9 + 1/9 = 4/9
�
EJERCICIO 1.4
Resolver los siguientes ejercicios:
1. Sean A y B dos eventos tales que: P (A) = 0.2, P (B) = 0.3 y P (A ∩B) = 0.1. Calcular:
• P (A ∪B)
• P (Ac ∪Bc)
• P (A ∩Bc)
• P (Ac ∪B)
2. Se construye un dado de manera que el 1 y el 2 ocurran con el doble de frecuencia que se
presenta el 5, el cual ocurre con la frecuencia 3 veces superior al 3, al 4 o al 6. Si se lanza una
vez, ¿cuál es la probabilidad de que el número sea par? y ¿cuál es la probabilidad de que el
número sea mayor que 4?
13
-
Espacios equiprobables
Definición:
Un espacio muestral finito, se dice equiprobable, si todos los eventos simples, Ei, tienen
la misma probabilidad. En ese caso, para que se cumplan las condiciones:
• P (Ei) ≥ 0
•n∑
i=1
P (Ei) = 1
la única posible asignación de probabilidades debe ser: P (Ei) = 1/n, donde n es el número
de elementos del espacio muestral.
Entonces, si A es un evento que está formado por k eventos simples,
P (A) =∑
Ei⊆AP (Ei) =
k
n
En consecuencia, en un espacio muestral finito equiprobable, la probabilidad de un evento se
calcula como el número de resultados que forman ese evento dividido por el número de resultados
de todo el espacio muestral:
P (A) =#A
#Ω
Ejemplo 1.8
Consideremos el experimento que consiste en tirar un dado equilibrado, en este caso # Ω = 6 y
los 6 resultados tienen igual probabilidad, 1/6.
Sea A = “sale un número par” = {2, 4, 6}, entonces
P (A) =#A
#Ω= 3/6
Sea B = “sale un número menor que 5” = {1, 2, 3, 4}, entonces
P (B) =#B
#Ω= 4/6
�
Ejemplo 1.9
Consideremos el experimento que consiste en arrojar dos veces un dado equilibrado, para este
experimento podemos escribir el espacio muestral como:
Ω = {(x, y) : donde x e y ∈ {1, 2, . . . , 6}}
= {(1, 1); (1, 2); . . . ; (1, 6); (2, 1); (2, 2); . . . ; (2, 6); . . . ; (6, 1); (6, 2); . . . ; (6, 6)}
14
-
Este espacio muestral es equiprobable y tiene 36 eventos simples, cada uno con probabi-
lidad 1/36. Sea el evento A = “la suma de los dos resultados es menor que 6”,
A = {(1, 1); (1, 2); (2, 1); (1, 3); (3, 1); (1, 4); (4, 1); (2, 2); (2, 3); (3, 2)}
entonces P (A) = 10/36.
�
Ejemplo 1.10
Consideremos el experimento aleatorio que consiste en sacar una bolilla de una caja que contiene
4 bolillas blancas, 4 rojas y 2 azules. Podemos pensar el espacio muestral formado por todas las
extracciones posibles que son 10, y todas tienen igual probabilidad 1/10.
Luego si definimos el evento B = “sale una bolilla blanca”, la P (B) = 4/10 = 0.4.
En general si en la caja hay un 40% de bolillas blancas, P (B) = 0.4.
�
Ejemplo 1.11
Consideremos que deseamos calcular la probabilidad de que un individuo elegido en una pobla-
ción tenga determinada caracteŕıstica. Supongamos que se conoce que el 46% de los individuos
de una población tienen sangre del grupo O, el 43% del grupo A, el 8% del grupo B y el 3%
del grupo AB. Se elige una persona al azar en dicha población, esto significa que todos los indi-
viduos tienen la misma probabildad de ser elegido. Como sabemos que el 46% de los individuos
tiene grupo O, la probabilidad de que el individuo elegido tengo grupo O es 0.46. Del mismo
modo la probabilidad de que tenga sangre grupo A es 0.43 y la probabilidad de que tenga sangre
grupo A o grupo B es 0.51 (dado que tener sangre grupo A o tener sangre grupo B son eventos
incompatibles o disjuntos).
�
EJERCICIO 1.5
En una repisa hay 10 libros distintos de novelas y 20 libros distintos de cuentos, de los cuales la
mitad de las novelas y la mitad de los cuentos están escritos en español. Si se selecciona uno de
estos libros al azar, hallar la probabilidad de que:
• el libro seleccionado sea una novela;
• el libro seleccionado este escrito en español;
• el libro seleccionado sea una novela y este escrito en español;
• el libro seleccionado sea una novela o este escrito en español.
15
-
Probabilidad condicional
Consideremos el siguiente ejemplo: se arroja dos veces un dado, entonces el espacio muestral se
puede definir como
Ω ={(i, j) : i es el número del primer tiro y j el número del segundo tiro,
con i, j = 1, 2, 3, 4, 5, 6}.
Nos interesa calcular la probabilidad del evento
A = “la suma de los dos resultados es mayor que 8”
= {(3, 6); (4, 5); (4, 6); (5, 4); (5, 5); (5, 6); (6, 3); (6, 4); (6, 5); (6, 6)}
Si el dado es equilibrado P (A) = 10/36.
Ω
(1, 1)
(1, 2)
(1, 3)
(1, 4)
(1, 5)
(1, 6)
(2, 1)
(2, 2)
(2, 3)
(2, 4)
(2, 5)
(2, 6)
(3, 1)(3, 2)
(3, 3)
(3, 4)
(3, 5)
(3, 6)
(4, 1)(4, 2)
(4, 3) (4, 4)
(4, 5)(4, 6)
(5, 1)(5, 2)
(5, 3)
(5, 4)
(5, 5)(5, 6)
(6, 1)
(6, 2)
(6, 3)
(6, 4)
(6, 5)
(6, 6)
A
Ahora supongamos que sabemos que en el primer tiro salió un 2, es decir, ocurrió el evento
B = “el primer tiro es 2”={(2, 1); (2, 2); (2, 3); (2, 4); (2, 5); (2, 6)}.
y en ninguno de estos posibles resultados la suma puede ser mayor que 8. Con esta información es
imposible que la suma sea mayor que 8. Usamos la notación P (A|B) para indicar la probabilidadde que ocurra A, sabiendo que ocurrió B. Entonces, en este caso, P (A|B) = 0.
Por otra parte, si sabemos que en el primer tiro salió 5, o sea ocurrió
C = {(5, 1); (5, 2); (5, 3); (5, 4); (5, 5); (5, 6)}
y sólo en tres de ellos se cumple que la suma es mayor que 8, entonces P (A|C) = 3/6.Ω
(1, 1)
(1, 2)
(1, 3)
(1, 4)
(1, 5)
(1, 6)
(2, 1)
(2, 2)
(2, 3)
(2, 4)
(2, 5)
(2, 6)
(3, 1)(3, 2)
(3, 3)
(3, 4)
(3, 5)
(3, 6)
(4, 1)(4, 2)
(4, 3) (4, 4)
(4, 5)(4, 6)
(5, 1)(5, 2)
(5, 3)
(5, 4)
(5, 5)(5, 6)
(6, 1)
(6, 2)
(6, 3)
(6, 4)
(6, 5)
(6, 6)
A
C
B
Consideremos otro ejemplo, se selecciona al azar un recién nacido y se realiza un análisis para
diagnosticar hipotiroidismo congénito (HC). Sea A = “el recién nacido padece HC”, la P (A) es
igual a la proporción de recién nacidos con HC en la población. Ahora bien, si observamos que el
recién nacido es una niña (sea B = “el recién nacido es de sexo femenino”) y queremos conocer la
16
-
probabilidad de que padezca HC, esto es la proporción de recién nacidos con HC en esa subpoblación
(recién nacidos de sexo femenino). En este ejemplo P (A|B) > P (A), pues es sabido que el HC esmás frecuente en las niñas.
Dado que ocurrió B, el espacio muestral pertinente ya no es Ω sino que consiste en los resultados
de B. En este caso, A ocurre si y sólo si ocurre uno de los resultados de la intersección A ∩B, aśıque la probabilidad condicional de A dado B es proporcional a P (A ∩B).
Definición:
Dados dos evento A y B, si P (B) > 0 se define P (A|B) como:
P (A|B) = P (A ∩B)P (B)
Obviamente, si P (A) > 0, también puede definirse
P (B|A) = P (B ∩A)P (A)
Se puede probar que fijando el evento condicionante B, la probabilidad condicional dado B,
cumple los axiomas de probabilidad:
(A1) 0 ≤ P (A|B) ≤ 1 para cualquier A
(A2) P (Ω|B) = 1 (donde Ω es el espacio muestral)
(A3) Ley aditiva: Si los eventos A y C son disjuntos:
P (A ∪ C|B) = P (A|B) + P (C|B).
(A4) Si A1, A2, A3, . . . es una colección infinita de eventos mutuamente excluyentes, entonces
P (A1 ∪A2 ∪A3 ∪ . . . |B) =∞∑
i=1
P (Ai|B).
Por lo tanto, tiene todas las propiedades de una probabilidad.
Ejemplo 1.12
Supongamos que en la población general hay 49% de hombres y 51% de mujeres, y que la
proporción de hombres y mujeres daltónicos se muestra en la siguiente tabla de probabilidad:
Datos Hombres Mujeres Total
Daltónicos 0.038 0.002 0.040
No daltónicos 0.452 0.508 0.960
Total 0.490 0.510 1
Si se escoge al azar una persona de esta población y se encuentra que es hombre (evento
B = “la persona seleccionada es hombre”), ¿cuál es la probabilidad de que sea daltónica (evento
A = “la persona seleccionada es daltónica”)?
17
-
Sabiendo que B ha ocurrido, debemos restringir nuestra atención a sólo 49% de la población
que es de hombres. La probabilidad de ser daltónico, dado que la persona es hombre, es:
P (A|B) = P (A ∩B)/P (B) = 0.038/0.49 = 0.078
Significa que si sabemos que la persona seleccionada es hombre, este hecho aumenta la pro-
babilidad de que sea daltónico que era 0.04.
Ahora nos preguntamos, ¿cuál es la probabilidad de ser daltónico, dado que la persona es
mujer? En este caso estamos restringiendo a sólo el 51% de la población que es de mujeres y por
lo tanto:
P (A|Bc) = P (A ∩Bc)/P (Bc) = 0.002/0.51 = 0.004
Podemos deducir de este cálculo que la información adicional de que la persona seleccionada es
mujer, disminuye la probabilidad de que sea daltónica.
�
EJERCICIO 1.6
Determinar si las siguientes afirmaciones son falsas o verdaderas. Justificar su respuesta.
1. P (A|B) + P (Ac|B) = 1.
2. P (A|B) + P (A|Bc) = P (A).
3. P (A|A ∩B) = P (B|A ∩B) = 1.
4. P (A|A) = P (A).
5. Si B y C son eventos disjuntos, P (A|B ∪ C) = P (A|B) + P (A|C).
6. Si A y B son eventos disjuntos, P (A ∪B|C) = P (A|C) + P (B|C).
Regla de la multiplicación
A partir de la definición de probabilidad condicional podemos deducir dos ecuaciones:
• si P (B) > 0, P (A|B) = P (A ∩B)/P (B) implica que P (A ∩B) = P (A|B)× P (B),
• si P (A) > 0, P (B|A) = P (A ∩B)/P (A) implica que P (A ∩B) = P (B|A)× P (A).
Formalizando:
18
-
REGLA DE LA MULTIPLICACIÓN: Dados dos eventos A y B la probabilidad de la
intersección puede calcularse como:
P (A ∩B) = P (A|B)× P (B) = P (B|A)× P (A),
cuando estén definidas las respectivas probabilidades condicionales.
La extensión de la regla anterior a tres eventos es:
P (A ∩B ∩ C) = P (C|A ∩B)× P (B|A)× P (A),
y de modo similar para más de tres.
Ejemplo 1.13
En un banco de sangre, 4 individuos han respondido a una solicitud. Se necesita sangre tipo A+
y sólo uno de ellos tiene ese tipo, pero no se sabe cuál. Si los donantes potenciales se seleccionan
al azar para determinar su tipo sangúıneo, ¿cuál es la probabilidad de que haya que determinar
el tipo sangúıneo en al menos tres individuos para obtener el tipo deseado?
Llamemos B = “primer donante no es A+” y A = “segundo donante no es A+”, sabemos
que P (B) = 3/4 y P (A|B) = 2/3. El evento A ∩B es:
A ∩B = “ni el primero ni el segundo son tipo A+”
= “se determina el tipo sangúıneo en al menos tres individuos”.
Usando la Regla de la multiplicación:
P (A ∩B) = P (A|B)× P (B) = 2/3× 3/4 = 1/2
�
Eventos independientes
Si volvemos al Ejemplo 1.12, del daltonismo y el género, hemos visto que P (A|B) 6= P (A), conlo cual la probabilidad de que la persona elegida al azar sea daltónica sabiendo que es hombre es
distinto a la probabilidad de que esa persona sea daltónica sin saber su género. Es decir, saber que
la persona elegida al azar es hombre modifica la probabilidad de que sea daltónica. Eso indicaŕıa
que hay alguna relación o dependencia entre los eventos B y A.
Pensemos en otro ejemplo.
19
-
Ejemplo 1.14
Se tira un solo dado dos veces y los eventos de interés son: A = “se observa un 2 en el primer
tiro” y B = “se observa un 2 en el segundo tiro”. Si el dado no está cargado, la probabilidad del
evento A es 1/6, y es lógico pensar que la probabilidad de B también es 1/6 sin importar si en
el primer tiro ocurrió A o no, es decir P (B) = P (B|A) = P (B|Ac), eso significa que los eventosA y B no están relacionados o que son “independientes”.
�
Daremos una definición de independencia ligeramente distinta.
Definición:
Los eventos A y B son independientes si y sólo si P (A ∩B) = P (A)× P (B).
A partir de esta definición de independencia, se puede ver que si A y B son eventos indepen-
dientes y P (B) > 0, se cumple P (A|B) = P (A).
La demostración es elemental, ya que
P (A|B) = P (A ∩B)P (B)
=P (A)×✟✟
✟P (B)
✟✟✟P (B)
= P (A).
Entonces la definición de independencia coincide con la idea intuitiva de que saber que
ocurrió B, no modifica la probabilidad de que ocurra A.
Definición:
Decimos que los tres eventos A, B y C son mutuamente independientes si y sólo si
todas las condiciones siguientes se mantienen:
P (A ∩B) = P (A)× P (B)
P (A ∩ C) = P (A)× P (C)
P (B ∩ C) = P (B)× P (C)
P (A ∩B ∩ C) = P (A)× P (B)× P (C)
Definición:
Los n eventos A1, A2, . . ., An son mutuamente independientes si para todo k
(k = 2, 3, . . . , n) y todo subconjunto de ı́ndices i1, i2, . . ., ik, se cumple:
P(Ai1 ∩Ai2 ∩ . . . ∩Aik
)= P
(Ai1)× P
(Ai2)× · · · × P
(Aik)
20
-
!
Observación:
La definición de independencia indica que si queremos verificar si dos eventos
son independientes, debemos ver que la probabilidad de la intersección es el
producto de las probabilidades. Sin embargo, cuando por la naturaleza del ex-
perimento aleatorio sabemos que hay independencia, como los dos tiros de un
dado, esta definición nos permite calcular la probabilidad de la intersección como
el producto de las probabilidades.
En el Ejemplo 1.14, del dado, podemos calcular P (A ∩B) = 1/6× 1/6.Por supuesto, si dos eventos no son independientes, la probabilidad de que ocurran simultánea-
mente no es el producto. Por ejemplo, si la probabilidad de que un hombre tenga una altura
superior a 1.80 m es 0.2, la probabilidad de que un padre y un hijo tengan altura superior
a 1.80 m no es 0.2 × 0.2, ya que estos eventos no son independientes (sabemos que la alturade los hijos están relacionadas con la altura de los padres).
PROPOSICIÓN 1.1: Dados dos eventos A y B, las siguientes afirmaciones son
equivalentes:
• A y B son independientes.
• A y Bc son independientes.
• Ac y B son independientes.
• Ac y Bc son independientes.
Demostración: Comenzamos probando que la independencia de A y B implica la de A y Bc.
Recordar primero que A = (A∩B)∪ (A∩Bc), con ambos conjuntos disjuntos. Luego, aplicandoprobabilidad, nos queda P (A) = P (A ∩B) + P (A ∩Bc), por (A3).Ahora, despejando y sabiendo que A y B son independientes, tenemos
P (A ∩Bc) = P (A)− P (A ∩B) (utilizando la Propiedad 1.2)
= P (A)− P (A)× P (B) (por hipótesis)
= P (A)× [1− P (B)] (sacando factor común)
= P (A)× P (Bc) (utilizando la Propiedad 1.1)
es decir, A y Bc son independientes.
Aplicando este razonamiento a los eventos A y Bc, resulta que la independencia de A y Bc implica
la de A y (Bc)c = B, lo que prueba la implicación opuesta. En consecuencia, hemos demostrado
que son equivalentes: A y B son independientes y A y Bc son independientes.
De la primera equivalencia salen las otras dos.
21
-
EJERCICIO 1.7
1. Sean A y B eventos independientes tales que P (A) = 0.3 y P (B) = 0.24. Calcular:
• P (A ∩B)
• P (A ∪B)
• P (A ∪Bc)
• P (A|Bc)
2. Sea Ω = {1, 2, 3, 4} un espacio muestral equiprobable. Dados los eventos:
A = {1, 2}, B = {2, 3} y C = {2, 4}.
¿Son A, B y C independientes?
3. Sean A y B eventos independientes. Demostrar que P (A ∪B) = 1− P (Ac)× P (Bc).
Teorema de la Probabilidad Total. Teorema de Bayes
Definición:
Los eventos A1, A2, . . . , An representan una partición del espacio muestral Ω, si cum-
plen:
(a) A1 ∪A2 ∪ . . . ∪An =n⋃
i=1
Ai = Ω y
(b) Ai ∩Aj = ∅ para todo i 6= j.
TEOREMA DE LA PROBABILIDAD TOTAL: Si A1, A2, . . . , An representan una
partición del espacio muestral Ω. Y además, P (Ai) 6= 0 para todo i. Entonces, para cualquierevento B, se cumple:
P (B) = P (B|A1)P (A1) + P (B|A2)P (A2) + · · ·+ P (B|An)P (An)
=
n∑
i=1
P (B|Ai)P (Ai).
Demostración: Como los Ai constituyen una partición del espacio Ω, (por (a)), cualquier evento
B puede escribirse como:
22
-
B = B ∩ Ω
= B ∩(A1 ∪A2 ∪ . . . ∪An
)
Ω
B
Utilizando la propiedad distributiva de la intersección respecto de la unión, tenemos que:
B ∩(A1 ∪A2 ∪ . . . ∪An
)= (B ∩A1) ∪ (B ∩A2) ∪ . . . ∪ (B ∩An),
por lo tanto:
B = (B ∩A1) ∪ (B ∩A2) ∪ . . . ∪ (B ∩An).
Como los eventos (B ∩ A1), (B ∩ A2), . . . , (B ∩ An) son mutuamente excluyentes (por (b)),podemos aplicar la Ley aditiva y escribir:
P (B) = P((B ∩A1) ∪ (B ∩A2) ∪ . . . ∪ (B ∩An)
)
= P (B ∩A1) + P (B ∩A2) + · · ·+ P (B ∩An).
Por la Regla de la multiplicación, cada término P (B ∩ Ai) = P (B|Ai)P (Ai) y reemplazando,obtenemos:
P (B) = P (B|A1)P (A1) + P (B|A2)P (A2) + · · ·+ P (B|An)P (An).
Ejemplo 1.15
En cierta comunidad, el 8% de los adultos de más de 50 años de edad padece diabetes. Se conoce
que la prueba para diagnosticar esa enfermedad tiene una sensibilidad del 95% (esto significa
que si la prueba se aplica a un individuo enfermo, la probabilidad de un resultado positivo es
0.95) y la especificidad es del 98% (la probabilidad de obtener un resultado negativo dado que
el individuo es sano es 0.98).
Recordemos que la prevalencia de una enfermedad en una población se define como la pro-
porción de enfermos en la población, y suele expresarse como porcentaje. En consecuencia, si se
elige una persona al azar, la probabilidad de que esté enferma es igual a la prevalencia.
Supongamos que se va a utilizar esta prueba diagnóstica en un gran número de individuos
de más 50 años elegidos al azar en esa comunidad, y se quiere tener una idea de la proporción
de resultados positivos que se obtendrán. Esto es equivalente a calcular la probabilidad de que
la prueba diagnóstica de un resultado positivo en uno de esos individuos.
Es conveniente definir los eventos que usaremos para resolver este problema. Llamemos:
R+ = “el resultado de la prueba es positivo”, R− = “el resultado es negativo”, D = “el individuo
tiene diabetes” y ND = “el individuo no tiene diabetes”.
23
-
Conocemos lo siguiente:
Prevalencia = P (D) = 0.08, entonces P (ND) = 0.92
Sensibildad = P (R+|D) = 0.95, entonces P (R−|D) = 0.05
Especificidad = P (R−|ND) = 0.98, entonces P (R+|ND) = 0.02
y queremos calcular P (R+).
En este caso, D y ND son eventos disjuntos y también D ∪ ND = Ω, esto significa queconstituyen una partición del espacio, que en este caso es toda la población de referencia.
Entonces podemos escribir:Ω
NDND D
R+R+ = R+ ∩ (D ∪ND)
= (R+ ∩D) ∪ (R+ ∩ND)
Aplicando la Ley aditiva en (1) y la Regla de la multiplicación en (2):
P (R+)(1)= P (R+ ∩D) + P (R+ ∩ND)(2)= P (R+|D)× P (D) + P (R+|ND)× P (ND).
Ahora, reemplazando por los valores, tenemos:
P (R+) = 0.95× 0.08 + 0.02× 0.92 = 0.0944.�
El procedimiento que utilizamos en este ejemplo es una aplicación del Teorema de la Probabi-
lidad Total.
TEOREMA DE BAYES: Si A1, A2, . . . , An representan una partición del espacio mues-
tral Ω, donde P (Ai) > 0 para todo i, y sea B un evento cualquiera con P (B) > 0, entonces
para cualquier k = 1, . . . , n, se cumple:
P (Ak|B) =P (B|Ak)P (Ak)n∑
i=1
P (B|Ai)P (Ai)
Demostración: Primero, por la definición de probabilidad condicional tenemos que:
P (Ak|B) =P (Ak ∩B)
P (B)(1.3)
Segundo, como tenemos las mismas hipótesis que en el Teorema de la Probabilidad Total, podemos
24
-
afirmar que:
P (B) =
n∑
i=1
P (B|Ai)P (Ai) (1.4)
Tercero, si aplicamos la Regla de la multiplicación al numerador de (1.3), tenemos que:
P (Ak ∩B) = P (B|Ak)P (Ak) (1.5)
Por último, reemplazando en (1.3) los resultados de (1.4) y (1.5), podemos concluir que:
P (Ak|B) =P (B|Ak)P (Ak)n∑
i=1
P (B|Ai)P (Ai)
Ejemplo 1.16
Volviendo al Ejemplo 1.15, supongamos que al individuo elegido al azar se le realizó la prueba
diagnóstica, y esta dio un resultado positivo, ¿cuál es la probabilidad de que dicho individuo
tenga realmente diabetes?
Ahora lo que se desea es calcular P (D|R+), si aplicamos la definición de probabilidad condi-cional:
P (D|R+) = P (D ∩R+)
P (R+)calculamos P (D ∩ R+) por la Regla de la multiplicación y reemplazamos P (R+) que yacalculamos previamente, tenemos:
P (D|R+) = P (R+|D)P (D)
P (R+|D)P (D) + P (R+|ND)P (ND)Esto se suele llamar valor predictivo positivo (VPP) de una prueba diagnóstica, es la pro-
babilidad de que el individuo este enfermo dado que la prueba dio un resultado positivo. En
nuestro caso:
P (D|R+) = 0.95× 0.080.0944
= 0.8051
De la misma manera se define el valor predictivo negativo (VPN) de una prueba diagnóstica,
que es la probabilidad de que el individuo esté sano dado que el resultado de la prueba fue
negativo:
P (ND|R−) = P (R−|ND)P (ND)
P (R−|D)P (D) + P (R−|ND)P (ND)
�
Este ejemplo fue una aplicación del Teorema de Bayes.
EJERCICIO 1.8
Resolver los siguientes ejercicios utilizando el Teorema de la Probabilidad Total y el Teorema de
Bayes.
1. Una persona toma al azar de una caja uno de los números 1, 2 ó 3, y luego tira un dado
25
-
equilibrado tantas veces como indica el número escogido. Después suma el resultado de las
tiradas del dado. ¿Cuál es la probabilidad de que obtenga un total de 5?
2. Una compañ́ıa utiliza las ĺıneas A1, A2 y A3 para la producción de un microchip. De los
microchip fabricados por la ĺınea A1, el 5% son defectuosos; de los fabricados por la ĺınea
A2, el 8% son defectuosos y el 10% de los fabricados por A3 son defectuosos. El 50% de
todos los microchips son producidos por A1, el 30% por A2 y el restante por A3. Se selecciona
un microchip al azar.
a. ¿Cuál es la probabilidad de que el microchip haya sido producido por A3 y sea defec-
tuoso?
b. ¿Cuál es la probabilidad de que el microchip sea defectuoso?
c. Si se observa que es defectuoso, ¿cuál es la probabilidad de que el microchip haya sido
producido por A1?
Referencias
Cramer, H. (1968). Elementos de la Teoŕıa de Probabilidades y algunas de sus aplicaciones. Madrid.
Ed. Aguilar.
Devore Jay, L. (2001). Probabilidad y Estad́ıstica para Ingenieŕıa y Ciencias. Ed. Books/Cole
Publishing Company.
Feller, W. (1975). Introducción a la Teoŕıa de Probabilidades y sus Aplicaciones. Ed. Limusa-Wiley
S.A.
Maronna, R. (1995). Probabilidad y Estad́ıstica Elementales para Estudiantes de Ciencias. Buenos
Aires. Ed. Exactas.
Mendenhall, W., Beaver, R. J. & Beaver, B. M. (2006). Introducción a la Probabilidad y Estad́ıstica.
México. Cengage Learning Editores.
Meyer Paul, L. (1970). Probabilidad y aplicaciones Estad́ısticas. Addison-Wesley Iberoamericana.
Parzen, E. (1987). Teoŕıa Moderna de Probabilidades y sus Aplicaciones. Ed. Limusa.
Ross, S. M. (1987). Introduction to Probability and Statistics for Enginees and Scientists. John
Wiley & Sons.
Ross, S. M. (1997). A first course in Probability. New Jersey. Pearson Prentice Hall.
Walpole, R. E. & Myers, R. H. (2007). Probabilidad y Estad́ıstica para Ingenieŕıa y Ciencias.
México. Ediciones McGraw-Hill.
26
-
CAPÍTULO 2
Variables aleatorias discretas
Variables aleatorias
Al realizar un experimento aleatorio, muchas veces no estamos interesados en el resultado sino
en una función del mismo. Por ejemplo, si tiramos dos veces un dado podemos estar interesados en
saber cuál es la suma de los resultados de ambas tiradas, cuántas veces salió un valor en particular,
cuál es el máximo de los dos valores observados, etc.
En muchos experimentos aleatorios el espacio Ω no es un espacio numérico, entonces nos puede
interesar transformar los resultados en valores numéricos.
Podemos lograr ese objetivo definiendo una función que a cada elemento del espacio muestral
le haga corresponder un número.
Definición:
Una variable aleatoria X es una función que a cada elemento w del espacio muestral Ω,
le hace corresponder un número real. Es decir, X : Ω → R si ω ∈ Ω, X(ω) ∈ R.
Notación
En general abreviaremos variable aleatoria escribiendo v.a.
27
-
Ejemplo 2.1
Se tira un dado dos veces y se observa X = “el número de veces que sale 1”.
�
Ejemplo 2.2
Se tira un dado dos veces y se observa Y = “el máximo de los dos valores”.
�
Ejemplo 2.3
Se tira una moneda hasta que sale cara y se define Z = “el número de tiradas necesarias”.
�
Ejemplo 2.4
Se administra un nuevo tratamiento a tres personas que padecen una enfermedad, interesa co-
nocer la eficacia de ese tratamiento para lograr la recuperación en una semana (esto también
puede considerarse un experimento aleatorio), se observa V = “el número de pacientes, entre los
tres tratados, que se recupera en una semana”.
�
Ejemplo 2.5
Se elige una persona al azar en una población y se observa W= “peso de la persona elegida”.
�
Ejemplo 2.6
Se enciende una lámpara y se observa T = “el tiempo hasta que se quema”.
�
Todas las variables definidas en los ejemplos anteriores son variables aleatorias. Ahora, si con-
sideramos el conjunto de valores que puede tomar cada una de ellas vemos que:
vX = {0, 1, 2} vV = {0, 1, 2, 3}
vY = {1, 2, 3, 4, 5, 6} vW = (0,∞)
vZ = {1, 2, 3, . . .} vT = (0,∞)
Los conjuntos de valores vX , vY y vV son finitos, vZ es infinito numerable (ya que hay un
primer elemento, un segundo elemento, etc.), por otra parte vT y vW son infinitos no numerables.
28
-
Definición:
Cuando el conjunto de valores (también llamado rango) que toma una v.a. es finito o infinito
numerable, la variable se denomina discreta.
Notación
Sea a ∈ R y X una v.a., se utilizará la notación (X = a) para hacer referencia al evento de Ωformado por todos los resultados para los cuales X toma el valor a, y (X ≤ a) para el eventoformado por todos aquellos resultados para los que X toma valores menores o iguales que a.
Esto se puede escribir:
(X = a) = {ω ∈ Ω tal que X(ω) = a}
(X ≤ a) = {ω ∈ Ω tal que X(ω) ≤ a}
De la misma manera se utilizará la notación: (X < a), (X > a) y (X ≥ a).
Ejemplo 2.7
Si se considera el Ejemplo 2.1, el espacio muestral es Ω = {(1, 1); (1, 2); . . . ; (1, 6); (2, 1); (2, 2); . . . ;(2, 6); . . . ; (6, 1); (6, 2); . . . ; (6, 6)} y la variable X definida alĺı es “el número de veces que sale 1”.Podemos definir los eventos:
(X = 0) = {(2, 2); (2, 3); . . . ; (2, 6); (3, 2); (3, 3); . . . ; (3, 6); . . . ; (6, 2); (6, 3); . . . ; (6, 6)}
(X = 1) = {(1, 2); (1, 3); (1, 4); (1, 5); (1, 6); (2, 1); (3, 1); (4, 1); (5, 1); (6, 1)}
(X = 2) = {(1, 1)}
Si suponemos que el dado es equilibrado y el espacio muestral es equiprobable, con lo cual es
fácil ver que:
P (X = 0) = 25/36, P (X = 1) = 10/36 y P (X = 2) = 1/36
�
Ejemplo 2.8
Para la variable Y definida en el Ejemplo 2.2, el espacio muestral Ω es el mismo del
29
-
Ejemplo 2.7. Luego podemos definir los eventos:
(Y = 1) = {(1, 1)}
(Y = 2) = {(1, 2); (2, 1); (2, 2)}
(Y = 3) = {(1, 3); (3, 1); (2, 3); (3, 2); (3, 3)}
(Y = 4) = {(1, 4); (4, 1); (2, 4); (4, 2); (3, 4); (4, 3); (4, 4)}
(Y = 5) = {(1, 5); (5, 1); (2, 5); (5, 2); (3, 5); (5, 3); (4, 5); (5, 4); (5, 5)}
(Y = 6) = {(1, 6); (6, 1); (2, 6); (6, 2); (3, 6); (6, 3); (4, 6); (6, 4); (5, 6); (6, 5); (6, 6)}
Si el dado es equilibrado, podemos calcular las probabilidades P (Y = y) para valores de
y = 1, 2, 3, 4, 5, 6 como:
P (Y = 1) = 1/36 P (Y = 2) = 3/36 P (Y = 3) = 5/36
P (Y = 4) = 7/36 P (Y = 5) = 9/36 P (Y = 6) = 11/36
�
Función de frecuencia de probabilidad
Definición:
Sea X una v.a. discreta y vX su conjunto de valores. Se define la función de frecuencia
de probabilidad (o simplemente función de frecuencia) de X como:
f(x) = P (X = x) para todos los x ∈ vX
La función de frecuencia nos permite calcular probabilidades referidas a la v.a. X:
P (X ∈ A) =∑
x∈Ax∈vX
f(x), para todo A ⊆ R (2.1)
En particular si A = [a, b]:
P (a ≤ X ≤ b) =∑
a≤x≤bx∈vX
f(x), para todo a, b ∈ R (2.2)
PROPIEDAD 2.1: Sea X v.a. discreta, su función de frecuencia f cumple:
• f(x) ≥ 0, para todo x ∈ vX
•∑
x∈vXf(x) = 1.
30
-
EJERCICIO 2.1
1. Demostrar la Propiedad 2.1.
2. SeaX una v.a. discreta con vX = {−3, 1, 5, 8}. ¿Cuáles de las siguientes funciones correspondea una función de frecuencia de X? Justifique.
• f(1) = 0.2, f(−3) = 0.3, f(5) = 0.5002, f(8) = −0.0002.
• f(1) = 1/8, f(−3) = 1/2, f(5) = 1/8 y f(8) = 1/4.
• f(1) = 5/12, f(−3) = 1/6, f(5) = 1/4 y f(8) = 3/4.
Ejemplo 2.9
0.1
0.2
0.3
0.4
0.5
0.6
0.7
1 2
x
f(x)
25/36
10/36
1/36
0 A
La función de frecuencia de la v.a. X definida en el Ejemplo 2.7, está
dada por:
x 0 1 2
f(x) 25/36 10/36 1/36
Se puede comprobar fácilmente que verifica la Propiedad 2.1. La gráfi-
ca de la función de frecuencia se encuentra a la izquierda (por con-
vención las frecuencias se grafican como segmentos verticales).
A partir de esta función se pueden determinar, por (2.1), todas las
probabilidades que uno desee. Por ejemplo, si A = (0, 1.5)
P (X ∈ A) = P (0 < X < 1.5) = P (X = 1) = f(1) = 1036
.
�
Ejemplo 2.10
La función de frecuencia de la v.a. Y hallada en el Ejemplo 2.8 se
resume en la siguiente tabla:
y 1 2 3 4 5 6
f(y) 1/36 3/36 5/36 7/36 9/36 11/36
La cual también verifica la Propiedad 2.1.
Si se define el evento A= “el máximo de los dos valores está entre 3
y 5 inclusive”, este evento puede escribirse como A = (3 ≤ Y ≤ 5)y su probabilidad se calcula como:
0.1
0.2
0.3
1 2 3 4 5 6
y
f(y)
0A
1/36
3/36
5/36
7/36
9/36
11/36
31
-
P (A) = P (3 ≤ Y ≤ 5) =∑
3≤y≤5f(y) =
5∑
y=3
f(y)(por (2.2)
)
= f(3) + f(4) + f(5) = 5/36 + 7/36 + 9/36 = 21/36.
�
Función de distribución o función de distribución acumulada
Definición:
La función de distribución o función de distribución acumulada de una v.a. X se
define como:
F (x) = P (X ≤ x) para todo x ∈ R. (2.3)
Se puede comprobar fácilmente que la función de distribución cumple:
• es una función no decreciente: si a, b ∈ R y a < b entonces F (a) ≤ F (b)
• toma valores entre 0 y 1
Notación
En general abreviaremos función de distribución acumulada escribiendo fda.
PROPIEDAD 2.2: Sea F la fda de la v.a. X, sean a, b ∈ R tales que a < b, entonces secumple:
P (a < X ≤ b) = F (b)− F (a)
Demostración: Como a < b entonces podemos escribir (X ≤ b) = (X ≤ a) ∪ (a < X ≤ b) yestos dos eventos son disjuntos entonces por (A3), la Ley aditiva:
P (X ≤ b) = P (X ≤ a) + P (a < X ≤ b),
por lo tanto, despejando y aplicando (2.3), obtenemos que P (a < X ≤ b) = F (b)− F (a).
32
-
Aclaración
Notar que en la definición anterior y en la Propiedad 2.2 no estamos aclarando que la v.a. X sea
una v.a. discreta. Es decir, la definición y esta propiedad son válidas tanto para v.a. discretas
como para continuas.
Cuando la v.a. X es discreta, la fda se calcula como:
F (x) = P (X ≤ x) =∑
k≤xk∈vX
f(k) (2.4)
Entonces, la función de distribución de una v.a. discreta es escalonada, con saltos en los valores
que toma la variable y constante en el resto. Notar que la magnitud del salto es igual a la función
de frecuencia en este valor (ver el siguiente ejemplo).
Ejemplo 2.11
Se puede calcular la fda de la v.a. X del Ejemplo 2.9, utilizando (2.4), de la siguiente manera:
• Si x < 0, F (x) = P (X ≤ x) =∑
k≤xf(k) = 0
0 1 2x
• Si 0 ≤ x < 1, F (x) = P (X ≤ x) =∑
k≤xf(k) = f(0) =
25
36
0 1 2x
• Si 1 ≤ x < 2, F (x) = P (X ≤ x) =∑
k≤xf(k) = f(0)+f(1) =
35
36
0 1 2x
• Si x ≥ 2, F (x) = P (X ≤ x) =∑
k≤xf(k) = f(0)+f(1)+f(2) = 1
0 1 2 x
Resumiendo, la función de distribución
para la v.a X es:
F (x) =
0 si x < 0
25/36 si 0 ≤ x < 135/36 si 1 ≤ x < 21 si x ≥ 2
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1 2
x
F (x)
0
25/36
35/36
�
33
-
Ejemplo 2.12
De la misma manera se puede calcular la fda de la v.a. Y del Ejemplo 2.10. Resumiendo, la
función de distribución para la v.a Y es:
F (y) =
0 si y < 1
1/36 si 1 ≤ y < 24/36 si 2 ≤ y < 39/36 si 3 ≤ y < 416/36 si 4 ≤ y < 525/36 si 5 ≤ y < 61 si y ≥ 6
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1 2 3 4 5 6
y
F (y)
0
1/36
4/36
9/36
16/36
25/36
Luego, la probabilidad de cualquier evento que se relacione con el máximo de las dos tiradas
puede calcularse usando esta función de distribución. Por ejemplo, sean los eventos:
A = “el máximo de las dos tiradas es a lo sumo 3”,
B = “el máximo de las dos tiradas es 4” y
C = “el máximo es mayor que 2 y menor que 5”.
Entonces sus probabilidades son:
P (A) = P (Y ≤ 3) = F (3) = 9/36
P (B) = P (Y = 4) = P (Y ≤ 4)− P (Y ≤ 3) = F (4)− F (3) = 7/36
P (C) = P (2 < Y < 5) = P (2 < Y ≤ 4) = F (4)− F (2) = 1/3�
EJERCICIO 2.2
Calcular para cada una de las siguientes v.a. X la función de frecuencia y la fda. Graficar ambas
funciones.
1. Supongamos un juego donde se tira un dado y usted gana $12 si en el dado sale 6 y
pierde $3 si sale otro número. Sea la v.a. X = “ganancia en este juego” y vX = {−3, 12}, endonde -3 refleja que se han perdido $3, lo que representa una ganancia negativa.
2. Cinco pelotas numeradas del 1 al 5 se colocan en una urna. Se seleccionan dos de ellas al
azar. Sea la v.a. X = “el mayor número obtenido”.
3. Una pieza de equipo electrónico contiene 6 chips de computadora, dos de los cuales son
defectuosos. Al azar se seleccionan tres chips, se retiran del equipo y se inspeccionan. Sea la
v.a. X = “el número de chips defectuosos observados”.
34
-
Variables aleatorias independientes
Tal como definimos el concepto de independencia entre dos eventos A y B, definimos la inde-
pendencia de v.a. Lo que queremos decir intuitivamente es que si X e Y son v.a. independientes,
el resultado de una de ellas no influye en el resultado de la otra.
Definición:
Las v.a. X, Y son independientes si y sólo si para todo a, b ∈ R, los eventos (X ≤ a) e(Y ≤ b) son independientes.
!Observación:
En particular, para v.a. discretas, se puede decir que X e Y son independientes
si y sólo si para todo a, b ∈ R, los eventos (X = a) e (Y = b) son independientes.
Esta noción será útil para representar los resultados de experimentos que no se influyen mu-
tuamente.
Ejemplo 2.13
Se arrojan dos dados equilibrados a la vez, uno de color rojo y el otro verde. Considerar las v.a.:
X = “el número del dado rojo”.
Y = “el número del dado verde”.
Z = “la suma de los dos dados”.
¿Las v.a. X e Y son independientes? ¿Las v.a. X y Z son independientes?
Primero veamos las funciones de frecuencia de estas tres variables. El espacio muestral en este
caso es: Ω = {(1, 1); (1, 2); . . . ; (1, 6); (2, 1); (2, 2); . . . ; (2, 6); . . . ; (6, 1); (6, 2); . . . ; (6, 6)}, donde laprimer coordenada es el resultado del dado rojo y la segunda es el resultado del dado verde.
Luego podemos definir los eventos:
(X = a) = {(a, 1); (a, 2); (a, 3); (a, 4); (a, 5); (a, 6)}, para todo a ∈ {1, 2, . . . , 6}
(Y = b) = {(1, b); (2, b); (3, b); (4, b); (5, b); (6, b)}, para todo b ∈ {1, 2, . . . , 6}
(Z = 2) = {(1, 1)}
35
-
(Z = 3) = {(1, 2); (2, 1)}
(Z = 4) = {(1, 3); (2, 2); (3, 1)}...
(Z = 10) = {(4, 6); (5, 5); (6, 4)}
(Z = 11) = {(5, 6); (6, 5)}
(Z = 12) = {(6, 6)}
Es claro que fX(a) = P (X = a) = 6/36 = 1/6 para todo a ∈ {1, 2, . . . , 6},fY (b) = P (Y = b) = 6/36 = 1/6 para todo b ∈ {1, 2, . . . , 6} y
z 2 3 4 5 6 7 8 9 10 11 12
fZ(z) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
Para todo a, b ∈ {1, 2, . . . , 6}, P((X = a) ∩ (Y = b)
)= 1/36 y
P (X = a) × P (Y = b) = 1/6 × 1/6 = 1/36, es decir, (X = a) e (Y = b) son independien-tes. Por lo tanto, las v.a. X e Y son v.a. independientes.
Por otro lado, P((X = 1) ∩ (Z = 2)
)= P
({(1, 1)}
)= 1/36 y
P (X = 1) × P (Z = 2) = 1/6 × 1/36 = 1/216 6= 1/36, es decir, (X = 1) y (Z = 2) no sonindependientes. Por lo tanto, las v.a. X y Z no son v.a. independientes.
�
Valor esperado o media
El valor esperado de una variable aleatoria (llamado también esperanza matemática, valor
medio, o media) es el promedio pesado de los valores que toma, en donde cada valor recibe un
peso igual a su probabilidad. La media es una medida de centralidad, es decir, nos da un centro
alrededor del cual se distribuyen los valores de la v.a.
Definición:
Sea X una v.a. discreta con valores en el conjunto vX y función de probabilidad f , se define
el valor esperado de X como:
E(X) =∑
x∈vXxf(x), (2.5)
si se cumple que∑
x∈vX|x|f(x) < ∞. Si esta suma diverge se dice E(X) no existe.
El significado intuitivo del valor esperado es el siguiente: imaginemos que el experimento se
repite un gran número N de veces, y se toma el promedio de los valores de X observados en cada
36
-
repetición, entonces E(X) es el ĺımite de esos promedios cuando N tiende a infinito.
Ejemplo 2.14
Volvamos al juego del Ejercicio 2.2 en el que se tira un dado y usted gana $12 si en el dado sale
6 y pierde $3 si sale otro número. ¿Jugaŕıa usted a este juego? ¿Esperaŕıa ganar?
Veamos: primero definamos la v.a. X = “ganancia en este juego”, donde vX = {−3, 12}.Ahora, la función de probabilidad de esta v.a., que se obtuvo en el ejercicio, es:
x -3 12
f(x) 5/6 1/6
Como en este caso vX es finito, sabemos que existe la esperanza y la podemos calcular como:
E(X) = −3× 5/6 + 12× 1/6 = −3/6 = −0.5
Luego, el valor que uno espera ganar es -0.5. Esto significa que si usted jugara muchas veces a
este juego, algunas veces ganaŕıa, otras perdeŕıa, pero el promedio final es negativo, a la larga
no espere ganar!!!
�
Valor esperado o media de una función de una v.a.
Si queremos calcular por definición la esperanza de una v.a. Y , que es función de una v.a.
discreta X, debeŕıamos calcular su función de frecuencia. Pero si se conoce de antemano la función
de frecuencia de X, la siguiente proposición nos permite calcular la media de Y de una manera
más sencilla.
PROPOSICIÓN 2.1: Sea X una v.a. discreta con valores en el conjunto vX y función
de frecuencia f y h : R → R una función cualquiera, entonces Y = h(X) es una v.a. cuyamedia se calcula como:
E(Y ) = E(h(X)
)=∑
x∈vXh(x)f(x) (2.6)
si se cumple que∑
x∈vX|h(x)|f(x) < ∞. Si esta suma diverge se dice E(Y ) no existe.
Aceptamos este resultado sin demostración.
Una consecuencia inmediata de la proposición anterior, es que el valor medio tiene la siguiente
propiedad:
37
-
PROPIEDAD DE LINEALIDAD DE LA ESPERANZA: Sea X una v.a. con media
E(X) y sean a y b números reales, entonces
E(aX + b) = aE(X) + b. (2.7)
Demostración: Si X es discreta con valores en el conjunto vX y función de probabilidad f , la
demostración de esta propiedad es simple, utilizando la Proposición anterior con h(X) = aX + b,
tenemos que:
E(aX + b) =∑
x∈vX(ax+ b)f(x)
=∑
x∈vX
(axf(x) + bf(x)
) (distributiva en el sumando
)
= a∑
x∈vXxf(x) + b
∑
x∈vXf(x)
(distributiva y factor común en la sumatoria
)
= aE(X) + b(por (2.5) y por la Propiedad 2.1
).
EJERCICIO 2.3
Sea X una v.a. discreta con función de frecuencia de X:
x 0 1 2 3 4
f(x) 0.08 0.15 0.45 0.27 0.05
1. Calcular la E(√X).
2. Calcular la E(−2√X + 3.5).
Varianza y desviación t́ıpica
Ya definimos que la media es una medida de centralidad. Ahora, vamos a definir un parámetro
que nos da una idea de la dispersión de los valores de X alrededor de su valor medio.
Definición:
Sea X una v.a. que tiene media E(X), se define la varianza de X como:
var(X) = E[(X − E(X)
)2](2.8)
cuando dicha esperanza existe. Y se define la desviación t́ıpica (o estándar) como:
dt(X) =√var(X) (2.9)
38
-
La var(X) (o V (X)) se expresa en las unidades de X al cuadrado, pero dt(X) se expresa en
las mismas unidades que X.
La siguiente propiedad nos permite una forma práctica de calcular la varianza.
PROPIEDAD 2.3: La definición de var(X) es equivalente a:
var(X) = E(X2)−(E(X)
)2
Demostración: Sea X una v.a. discreta con valores en el conjunto vX , función de probabilidad
f y llamamos E(X) = µ:
var(X) = E[(X − µ)2
]= E(X2 − 2Xµ+ µ2) (desarrollo del cuadrado)
=∑
x∈vX(x2 − 2xµ+ µ2)f(x)
(por (2.6)
)
=∑
x∈vXx2f(x)− 2µ
∑
x∈vXxf(x) + µ2
∑
x∈vXf(x) (distributiva y factor común)
= E(X2)− 2µ2 + µ2(por (2.5), (2.6) y Propiedad 2.1
)
= E(X2)− µ2
PROPIEDAD 2.4: Sea X una v.a. y sean a y b números reales. Entonces:
var(aX + b) = a2var(X) (2.10)
dt(aX + b) = |a| dt(X)
Demostración: Por la definición dada en (2.8), tenemos que:
var(aX + b) = E[((aX + b)− E(aX + b)
)2]
Luego,
E[((aX + b)− E(aX + b)
)2]= E
[(aX + ✁b − aE(X)− ✁b)2
] (por (2.7)
)
= E[(a(X − E(X))
)2] (factor común
)
= E[a2(X − E(X)
)2]
= a2E[(X − E(X)
)2](∗)
= a2var(X)(por (2.8)
)
En (∗) observar que si Y =(X −E(X)
)2es una v.a. y por (2.7) tenemos que E(a2Y ) = a2E(Y ).
39
-
Por último:
dt(aX + b) =√var(aX + b)
(por (2.9)
)
=√a2var(X)
(por (2.10)
)
=√a2√var(X)
(distributiva de la ráız
)
= |a| dt(X)(por (2.9)
)
Ejemplo 2.15
0.1
0.2
0.3
0.4
1 2 3 4 5 6
x
f(x)
0E(X)
0.1
0.2
0.3
0.4
1 2 3 4 5 6 7
y
f(y)
0E(Y )
Aún cuando ambas distribuciones ilustradas tienen la misma media (E(X) = E(Y ) = 3), la
distribución de la v.a. Y tiene mayor dispersión o variabilidad que la v.a. X. Calcule las varianzas
en ambos casos y compare.
�
Algunas variables aleatorias discretas
Se pueden hallar ejemplos de v.a. discretas en numerosas aplicaciones cotidianas y en casi
todas las disciplinas. No obstante, hay dos distribuciones de probabilidad discretas que sirven para
modelizar un gran número de estas aplicaciones, la distribución de probabilidad binomial y la
distribución de Poisson, las cuales estudiaremos en esta sección.
40
-
Distribución binomial
Definición:
Un experimento binomial es el que cumple las siguientes condiciones:
1. El experimento consiste en n repeticiones idénticas de un ensayo que toma dos resul-
tados posibles, que se denotan éxito (E) y fracaso (F ).
2. Las repeticiones son independientes, lo que significa que el resultado de cualquier
repetición particular no influye en el resultado de ninguna otra.
3. La probabilidad de éxito es constante en cada repetición del ensayo, esta probabilidad
se denota con P (E) = p. Se deduce aśı, que la probabilidad de fracaso será igual a
P (F ) = 1− p.
Con este tipo de experimentos se asocia la v.a. binomial.
Ejemplo 2.16
Supongamos que en un hospital hay 3 pacientes internados con determinada enfermedad, a los
cuales se les aplica el mismo tratamiento (estos individuos no son parientes). Supongamos que
la probabilidad de que un individuo se recupere en una semana de tratamiento es 0.8 (p = 0.8).
Sea Y la variable aleatoria que cuenta el número de individuos que se recuperan en una semana
de tratamiento entre los 3. Los posibles resultados y sus respectivas probabilidades se resumen
en la siguiente tabla, donde S y N indican que el individuo se recupera y no se recupera:
Ω: resultados posibles de la Probabilidad del resultado obtenido Valores
evolución de 3 pacientes (Se utiliza independencia) de Y
(S, S, S) 0.8× 0.8× 0.8 = 0.83 = 0.83 × (1− 0.8)0 3
(S, N, N) 0.8× (1− 0.8)× (1− 0.8) = 0.81 × (1− 0.8)2 1
(N, S, N) (1− 0.8)× 0.8× (1− 0.8) = 0.81 × (1− 0.8)2 1
(N, N, S) (1− 0.8)× (1− 0.8)× 0.8 = 0.81 × (1− 0.8)2 1
(S, S, N) 0.8× 0.8× (1− 0.8) = 0.82 × (1− 0.8)1 2
(S, N, S) 0.8× (1− 0.8)× 0.8 = 0.82 × (1− 0.8)1 2
(N, S, S) (1− 0.8)× 0.8× 0.8 = 0.82 × (1− 0.8)1 2
(N, N, N) (1− 0.8)× (1− 0.8)× (1− 0.8) = 0.80 × (1− 0.8)3 0
Si nos interesa únicamente saber cuántos pacientes se recuperan en la primera semana de
tratamiento (el valor de Y ), y las respectivas probabilidades, se puede resumir aún más:
41
-
Valor de Y Probabilidad
0 1× 0.80 × (1− 0.8)3
1 3× 0.81 × (1− 0.8)2
2 3× 0.82 × (1− 0.8)1
3 1× 0.83 × (1− 0.8)0
Veamos con detalle cómo se llegó a estos resultados tomando uno de los casos como ejemplo:
f(1) = P (Y = 1) = P{(S,N,N), (N,S,N), (N,N, S)}
= P{(S,N,N)}+ P{(N,S,N)}+ P{(N,N, S)} (por ser disjuntos)
= 0.81 × (1− 0.8)2 + 0.81 × (1− 0.8)2 + 0.81 × (1− 0.8)2 = 3× 0.81 × (1− 0.8)2
Generalizando, la función de frecuencia de la v.a. Y es la que se muestra en el siguiente
cuadro:
Valor de Y Probabilidad
0 1× 0.80× (1− 0.8)3 =
(
3
0
)
× 0.80 × (1− 0.8)3−0
1 3× 0.81× (1− 0.8)2 =
(
3
1
)
× 0.81 × (1− 0.8)3−1
2 3× 0.82× (1− 0.8)1 =
(
3
2
)
× 0.82 × (1− 0.8)3−2
3 1× 0.83× (1− 0.8)0 =
(
3
3
)
× 0.83 × (1− 0.8)3−3
�
Definición:
El número total de éxitos observados entre los n ensayos de un experimento binomial, es
una variable aleatoria binomial con parámetros n y p.
Los valores que puede tomar esta variable son: vX = {0, 1, 2, . . . , n}.La función de frecuencia de X es:
f(k) = P (X = k) =(nk
)pk(1− p)n−k, k ∈ vX (2.11)
donde(nk
)=
n!
k!(n− k)! .
Notación
Si X es una v.a. binomial con parámetros n y p, lo denotaremos como X ∼ B(n, p).
Para demostrar que la expresión (2.11) representa una función de frecuencia leǵıtima se debe
verificar la Propiedad 2.1, es decir:
42
-
• f(k) =(nk
)pk(1− p)n−k ≥ 0, para todo k ∈ vX
•n∑
k=0
f(k) =n∑
k=0
(nk
)pk(1−p)n−k = 1 (en este caso se usa el Teorema del binomio de Newton).
Ejemplo 2.17
Se arroja cinco veces una moneda equilibrada. Se desea calcular la función de frecuencia y de
distribución del número de caras en las cinco tiradas.
Definimos la v.a. X= “número de caras en las 5 tiradas”. Como X ∼ B(5, 0.5) entoncesvX = {0, 1, 2, 3, 4, 5}. Luego las gráficas de f y F son:
0.1
0.2
0.3
1 2 3 4 5
x
f(x)
0
0.0313
0.1562
0.3125
0.2
0.4
0.6
0.8
1.0
1 2 3 4 5
x
F (x)
0
0.0313
0.1875
0.5
0.8125
0.9688
�
PROPOSICIÓN 2.2: Si X ∼ B(n, p), entonces:
• E(X) = np
• V (X) = np(1− p)
• dt(X) =√
np(1− p)
Esta proposición se puede demostrar utilizando la definición de esperanza y varianza para una
v.a. discreta, y recordando además, el Teorema del binomio de Newton.
43
-
Ejemplo 2.18
Para la v.a. X del Ejemplo 2.17, se tiene que E(X)=5×0.5 = 2.5, V (X)=5×0.5×(1−0.5)=1.25y dt(X) =
√1.25 = 1.1180.
Para la v.a. Y ∼ B(3, 0.8), del Ejemplo 2.16, tenemos que E(Y ) = 3 × 0.8 = 2.4,V (Y ) = 3× 0.8× (1− 0.8) = 0.48 y dt(Y ) =
√0.48 = 0.6928.
�
EJERCICIO 2.4
De una urna que contiene una bola blanca y nueve bolas negras, se hacen cinco extracciones suce-
sivas con reemplazo. Llamamos X al número de bolas blancas obtenidas en las cinco extracciones.
1. Indicar la distribución de probabilidad de X, su rango y cuales son sus parámetros.
2. ¿Cuál es la probabilidad de que se saquen exactamente dos bolas blancas?
3. ¿Cuál es la probabilidad de obtener al menos dos bolas blancas?
4. ¿Cuál es la probabilidad de que se saque no más de tres bolas blancas?
Definición:
Si n = 1, o sea X ∼ B(1, p), la v.a. X toma sólo los valores: 1 con probabilidad p y 0 conprobabilidad 1− p. En este caso se dice que X tiene distribución de Bernoulli.
Resumimos en una tabla la función de frecuencia de X:
x 0 1
f(x) 1− p p
!
Observación:
En general, cuando se realizan extracciones con reposición, como en el Ejercicio
2.4, estamos en presencia de un experimento binomial.
Por el contrario, si las extracciones son sin reposición, el resultado de cada ex-
tracción depende de las anteriores, de modo que no vale la hipótesis de indepen-
dencia y por ende no es un experimento binomial. Sin embargo, si la población
es grande y la muestra extráıda no supera el 5% del tamaño de la población,
cada extracción puede considerarse “prácticamente” independiente de las ante-
riores y es posible analizar el experimento como binomial. En consecuencia, la
v.a. número de éxitos en esas extracciones puede pensarse como binomial.
44
-
EJERCICIO 2.5
En cada caso, indicar si el experimento puede ser considerado binomial recordando las condiciones
que debeŕıan cumplirse y justificando correctamente.
1. Se tiene una urna con 15 bolillas blancas y 5 verdes. Se extraen al azar y con reemplazo 3
bolillas y se observa si son blancas.
2. Se tiene una urna con 15 bolillas blancas y 5 verdes. Se extraen al azar y sin reemplazo 3
bolillas y se observa si son blancas.
3. Se realizan tres extracciones sin reemplazo de una urna que contiene 1500 bolillas blancas y
500 verdes, interesa observar si se seleccionaron bolillas blancas.
Distribución de Poisson
Definición:
Se dice que una v.a. X tiene distribución de Poisson con parámetro λ (λ > 0) si su
función de frecuencia es:
f(x) = e−λλx
x!para x = 0, 1, 2, . . . (2.12)
Notación
Si la v.a. X tiene distribución de Poisson con parámetro λ, lo denotaremos como: X ∼ P (λ).
La distribución de Poisson sirve para modelizar el número X de eventos que ocurren aleatoria-
mente en el tiempo o en una región. A continuación veamos algunos ejemplos de experimentos en
los cuales la variable aleatoria puede ser modelizada con distribución de Poisson:
• El número de llamadas recibidas por un conmutador durante un tiempo determinado.
• El número de bacterias por volumen de fluido.
• El número de llegadas de clientes al mostrador de una caja de pago en un tiempo determinado.
• El número de descomposturas de una máquina durante cierto d́ıa.
• El número de accidentes de tránsito en un cruce dado durante un tiempo establecido.
• El número de árboles de determinada especie distribuidos aleatoriamente en un área.
Algunos de estos ejemplos son procesos temporales, interesa conocer cuántas veces ocurre un
evento en un intervalo de tiempo, y otros son procesos espaciales, interesa conocer cuántos “puntos”
hay en un volumen o un área.
45
-
Definición:
Se denomina proceso temporal de Poisson cuando cumple con las siguientes caracteŕısti-
cas:
• Invariancia: las condiciones no cambian en el tiempo.
• Falta de memoria: lo que sucede en el intervalo de tiempo [0, t) no influye en lo quesuceda en el intervalo [s, r) para r > s > t.
• Sucesos aislados: la probabilidad de que en un intervalo de tiempo muy corto ocurramás de una vez el evento, es despreciable comparada con la probabilidad de que ocurra
una vez o ninguna.
Para un proceso de este tipo, si Xt es la v.a. que mide el número de veces que ocurre el evento
en un intervalo de tiempo de longitud t, puede verse que Xt es una variable aleatoria discreta cuya
función de frecuencia está dada por:
f(x) = e−c×t(c× t)x
x!para x = 0, 1, 2, . . .
Comparando con la expresión (2.12), se puede ver que Xt tiene distribución de Poisson con paráme-
tro λt = c × t, donde c es una constante positiva que indica la cantidad de veces que ocurre elevento de interés por unidad de tiempo, c se llama tasa de ocurrencia del proceso.
Ejemplo 2.19
Llegan clientes a un mostrador de un negocio con una distribución de Poisson a una tasa de 5
por hora. Si queremos saber cuál es la probabilidad de que no lleguen más de tres clientes en
una hora, definimos la v.a. X1 =“cantidad de clientes que llegan al mostrador en una hora”.
Entonces X1 ∼ P (λ1), pues λ1 = 5× 1. Aśı, la probabilidad pedida es:
P (X1 ≤ 3) = F (3) = 0.2650 (por Tabla)
Sin embargo, si queremos calcular la probabilidad de que lleguen al menos 6 clientes en dos horas,
no podemos utilizar la v.a. X1 antes definida, tendremos que redefinirla, ya que el intervalo de
tiempo ahora es de 2 hs. Luego, X2 =“cantidad de clientes que llegan al mostrador en dos horas”,
X2 ∼ P (λ2), ya que λ2 = 5× 2 = 10. El cálculo de la probabilidad pedida es:
P (X2 ≥ 6) = 1− P (X2 < 6) = 1− P (X2 ≤ 5) = 1− F (5) = 1− 0.0671 = 0.9329 (por Tabla)
Por último, si queremos calcular la probabilidad de que lleguen exactamente 5 clientes en media
hora, X1/2 =“cantidad de clientes que llegan al mostrador en media hora”, X1/2 ∼ P (2.5) y
P (X1/2 = 5) = e−2.5 2.5
5
5!= 0.0668
Las gráficas de la función de frecuencia para las v.a. X1, X1/2 y X2 son, respectivamente:
46
-
0.05
0.10
0.15
0.20
0.25
1 2 3 4 5 6 7 8 9 1011
x
f(x)
0
X1 ∼ P (5)
0.05
0.10
0.15
0.20
0.25
1 2 3 4 5 6 7 8 9
x
f(x)
0
X1/2∼P (2.5)
0.05
0.10
0.15
0.20
0.25
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
x
f(x)
0
X2 ∼ P (10)
�
Definición:
Se denomina proceso espacial de Poisson cuando cumple con las siguientes
caracteŕısticas:
• Homogeneidad espacial: la probabilidad de que un punto este en una región dada,sólo depende del tamaño de esa región (área o volumen) y no de su forma o posición.
• No interacción: lo que ocurre en una región es independiente de lo que ocurre enotra, si no se superponen.
La v.a.Xa que mide el número de “puntos” en una región de área o volumen a, tiene distribución
de Poisson con parámetro λa = c×a, donde c se interpreta como la tasa de ocurrencia del proceso.
Ejemplo 2.20
La distribución de plantas de cierta especie en una zona sigue un proceso de Poisson con una
tasa de 5 plantas por metro cuadrado. Si deseamos calcular la probabilidad de no hallar plantas
en un área cuadrada de 1 metro de lado, definimos la v.a. X1 = “número de plantas en una
región cuadrada de área 1 m2”, donde X1 ∼ P (λ1) con λ1 = 5 × 1. Es decir, X1 ∼ P (5) y laprobabilidad pedida es P (X1 = 0) = e
−5 × 500! = 0.0067.Ahora, ¿de qué medida debe ser tomado el radio r de una región circular de muestreo para que
la probabilidad de hallar al menos una planta de esa especie sea por lo menos 0.99? Necesitamos
definir otra v.a. Xa = “número de plantas en una región circular de área a m2”, donde Xa ∼
P (λa) y λa = c× a, entonces el planteo es
P (Xa > 0) ≥ 0.99 (2.13)
Si la región de muestreo es circular de radio r, el área de esa región es a = π × r2, y la v.a.
47
-
Xa que mide el número de plantas en esa región tendrá distribución de Poisson con parámetro
λa = c× a = 5× (π × r2), entonces,
P (Xa > 0) = 1− P (Xa ≤ 0) = 1− P (Xa = 0)
= 1− e−5×π×r2 (5× π × r2)0
0!= 1− e−5×π×r2 .
Luego, si reemplazamos en (2.13), obtenemos:
1− e−5×π×r2 ≥ 0.99
0.01− e−5×π×r2 ≥ 0 (restando de ambos lados 0.99)
0.01 ≥ e−5×π×r2 (sumando de ambos lados e−5×π×r2)
ln(0.01) ≥ ln(e−5×π×r2) (aplicando de ambos lados la función ln)
ln(0.01) ≥ −5× π × r2 (por propiedad de función inversa)ln(0.01)
−5× π ≤ r2 (dividiendo en ambos lados por − 5× π)
[− ln(0.01)5× π
]1/2≤ r (aplicando en ambos lados ráız cuadrada)
0.5415 ≤ r
Por lo tanto, el radio de la región circular de muestreo debe ser de al menos 0.5415 metros para
poder hallar alĺı una planta o más, con probabilidad mayor o igual a 0.99.
�
EJERCICIO 2.6
Se está registrando la emisión de part́ıculas radiactivas y se supone que es un proceso de Poisson
con tasa 6 por minuto.
1. ¿Cuál es la probabilidad de que no haya registro de emisión de part́ıculas en un peŕıodo de
1 minuto?
2. ¿Cuál es la probabilidad de que en un peŕıodo de 30 segundos ocurran al menos dos emisiones?
3. Si no hubo registro de emisión entre las 9:10 AM y las 9:12 AM, ¿cuál es la probabilidad de
que ocurra una emisión entre las 10:10 AM y las 10:12 AM?
4. ¿Cuál es el peŕıodo de tiempo para que la probabilidad que haya al menos una emisión sea
mayor a 0.95?
48
-
PROPOSICIÓN 2.3: Si X tiene una distribución de Poisson con parámetro λ, X ∼ P (λ),entonces:
• E(X) = λ
• V (X) = λ
• dt(X) =√λ
Estos resultados también se pueden obtener de manera directa de las definiciones de media y
varianza de una v.a. discreta.
Ejemplo 2.21
En base al Ejemplo 2.19, tenemos las siguientes v.a. X1 ∼ P (5), X2 ∼ P (10) y X1/2 ∼ P (2.5)entonces:
E(X1) = V (X1) = 5 dt(X1) = 2.2361
E(X2) = V (X2) = 10 dt(X2) = 3.1623
E(X1/2) = V (X1/2) = 2.5 dt(X1/2) = 1.5811
�
Aproximación de Poisson a la binomial
Si X ∼ B(n, p), se puede demostrar que cuando n es grande y p pequeño, vale la siguienteaproximación:
f(k) = P (X = k) =(nk
)pk(1− p)n−k ∼= e−λ λ
k
k!k ∈ vX y λ = np
Es decir, X ≈ P (np). La notación ≈ significa que tiene aproximadamente esa distribución.Esta aproximación es aceptable si p ≤ 0.05 y n ≥ 20.
Ejemplo 2.22
Se sabe que un peso muy bajo en el nacimiento, menor a 1500 gr, es una de las causas de
mortalidad infantil. Se conoce que en determinada población, el porcentaje de niños con muy
bajo peso al momento de nacer es de 1,2%. Si consideramos 200 nacimientos en un hospital de
esa población, ¿cuál es la probabilidad de que el número de recién nacidos con muy bajo peso
en ese grupo sea mayor a 3?
Sea la v.a.X =“número de niños con muy bajo peso entre los 200 nacimientos de un hospital”,
49
-
X ∼ B(200, 0.012) entonces:
P (X > 3) = 1− P (X ≤ 3) = 1−3∑
k=0
(200
k
)0.012k(1− 0.012)200−k = 1− 0.7795 = 0.2205
Como p = 0.012 ≤ 0.05 y n ≥ 20, se puede usar la aproximación de Poisson a la binomial yaśı facilitar las cuentas. Por lo tanto:
X ≈ P (200× 0.012) ⇔ X ≈ P (2.4)
Entonces:
P (X > 3) = 1− P (X ≤ 3) ∼= 1− e−2.4[2.40
0!+
2.41
1!+
2.42
2!+
2.43
3!
]= 1− 0.7787 = 0.2213
La siguiente tabla muestra que tan buena es la aproximación de sus frecuencias:
k B(200, 0.012) P (2.4)
0 0.0894105 0.0907179
1 0.2171917 0.2177231
2 0.2624766 0.2612677
3 0.2104063 0.2090142
4 0.1258605 0.1254085
5 0.0599238 0.0601960
6 0.0236541 0.0240784
7 0.0079622 0.0082554
8 0.0023330 0.0024766
9 0.0006045 0.0006604
10 0.0001402 0.0001585
11 0.0000294 0.0000345
�
Referencias
Cramer, H. (1968). Elementos de la Teoŕıa de Probabilidades y algunas de sus aplicaciones. Madrid.
Ed. Aguilar.
Devore Jay, L. (2001). Probabilidad y Estad́ıstica para Ingenieŕıa y Ciencias. Ed. Books/Cole
Publishing Company.
Feller, W. (1975). Introducción a la Teoŕıa de Probabilidades y sus Aplicaciones. Ed. Limusa-Wiley
S.A.
Maronna, R. (1995). Probabilidad y Estad́ıstica Elementales para Estudiantes de Ciencias. Buenos
Aires. Ed. Exactas.
Mendenhall, W., Beaver, R. J. & Beaver, B. M. (2006). Introducción a la Probabilidad y Estad́ıstica.
México. Cengage Learning Editores.
Meyer Paul, L. (1970). Probabilidad y aplicaciones Estad́ısticas. Addison-Wesley Iberoamericana.
Parzen, E. (1987). Teoŕıa Moderna de Probabilidades y sus Aplicaciones. Ed. Limusa.
50
-
Ross, S. M. (1987). Introduction to Probability and Statistics for Enginees and Scientists. John
Wiley & Sons.
Ross, S. M. (1997). A first course in Probability. New Jersey. Pearson Prentice Hall.
Walpole, R. E. & Myers, R. H. (2007). Probabilidad y Estad́ıstica para Ingenieŕıa y Ciencias.
México. Ediciones McGraw-Hill.
51
-
CAPÍTULO 3
Variables aleatorias continuas
En este caṕıtulo estudiaremos variables aleatorias que pueden tomar valores en un intervalo de
números reales.
Función de densidad de probabilidad
Definición:
Se dice que un v.a. X, que toma valores en un intervalo de números reales, es continua si
existe una función f que cumple las siguientes condiciones:
• f(x) ≥ 0, para todo x ∈ R,
•∫ ∞
−∞f(x) dx = 1,
• P (X ∈ A) =∫
x∈Af(x) dx, para todo subconjunto A ⊆ R.
La función f es llamada función de densidad de probabilidad, o simplemente función
de densidad y la abreviaremos como fdp.
52
-
!
Observación:
Para una v.a. continua X, la probabilidad de
que tome valores en una región A incluida en
R, es igual al área bajo la curva densidad sobre
esa región. Por ejemplo, si A = (a, b), luego el
área sombreada en la gráfica corresponde al valor
P (X ∈ A). x
f(x)
0 a bA
Ejemplo 3.1
Sea X una v.a. con función de densidad dada por:
f(x) =
x si 0 ≤ x ≤ 11 si 1 < x ≤ 1.50 cc
Luego si A = [0.3, 1.2] podemos calcular:
0.5
1.0
0.5 1.0 1.5 2.0−0.5
x
f(x)
0 A
P (X ∈ A) =∫
x∈Af(x) dx =
∫ 1.2
0.3
f(x) dx
=
∫ 1
0.3
f(x) dx+
∫ 1.2
1
f(x) dx =
∫ 1
0.3
x dx+
∫ 1.2
1
1 dx = 0.655
�
Función de distribución o función de distribución acumulada
Igual que para una v.a. discreta, la función de distribución F de una v.a. X continua se define
como:
F (x) = P (X ≤ x) para todo x ∈ R.
y, en este caso, se calcula como:
F (x) = P (X ≤ x) =∫ x
−∞f(y) dy (3.1)
de donde se deduce que la función de distribución de una v.a. continua, es una función continua.
53
-
Aplicando el Teorema Fundamental del Cálculo Integral en (3.1), se obtiene que la derivada de
la función de distribución, en todos los puntos en los que la derivada existe, es la fdp:
f(x) =dF (x)
dx= F ′(x).
La función F preserva las siguientes propiedades que vimos para el caso discreto, es decir:
• es una función no decreciente
• toma valores entre 0 y 1
• para todo a, b ∈ R tales que a < b se cumple:
P (a < X ≤ b) = F (b)− F (a)
Como ya se mencionó antes, la fda de una v.a. continua es una función continua.
Es importante resaltar que si X es una v.a. continua entonces:
P (X = a) = 0, para todo a ∈ R.
Luego, es evidente que para una v.a. continua y a, b ∈ R:
P (a < X < b) = P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a ≤ X < b)
Ejemplo 3.2
Sea X una v.a. con función de densidad dada por:
f(x) =
1
4si 0 ≤ x ≤ 1
1
x2si 1 < x ≤ 4
0 cc0.2
0.4
0.6
0.8
1.0
1 2 3 4 5
x
f(x)
0
1/4
1/16
Calculemos la fda de X, es decir, la expresión de la función F (x) = P (X ≤ x) =∫ x
−∞f(t) dt.
La función f no tiene la misma expresión en todo el eje real, ésto se muestra a continuación en
un simple esquema:
0 1 4
f(t)=0 f(t)=1/4 f(t)=1/t2 f(t)=0
Para hallar la función F se procede de la siguiente manera:
• Si x < 0, F (x) =∫ x
−∞f(t) dt =
∫ x
−∞0 dt = 0
0 1 4x
• Si 0 ≤ x ≤ 1, F (x) =∫ x
−∞f(t) dt =
∫ 0
−∞f(t) dt +
∫ x
0
f(t) dt =0 1 4x
54
-
∫ 0
−∞0 dt+
∫ x
0
1
4dt =
x
4
• Si 1 < x ≤ 4, F (x) =∫ x
−∞f(t) dt =
∫ 0
−∞f(t) dt+
∫ 1
0
f(t) dt+
∫ x
1
f(t) dt =0 1 4x
∫ 0
−∞0 dt+
∫ 1
0
1
4dt+
∫ x
1
1
t2dt =
5
4− 1
x
• Si x > 4, F (x)=∫ x
−∞f(t) dt=
∫ 0
−∞f(t) dt+
∫ 1
0
f(t) dt+
∫ 4
1
f(t) dt+
∫ x
4
f(t) dt=0 1 4 x
∫ 0
−∞0 dt+
∫ 1
0
1
4dt+
∫ 4
1
1
t2dt+
∫ x
4
0 dt = 1
Ésto se resume aśı:
F (x) =
0 si x < 0
x
4si 0 ≤ x ≤ 1
5
4− 1
xsi 1 < x ≤ 4
1 si x >