Probabilidades y EstadísticaTablas Apéndice C _ 182 Resoluciones Los Autores_ 190...

Probabilidades y Estadística Análisis de datos

FACULTAD DECIENCIAS EXACTAS

María Carmen Apezteguía y Julieta Ferrario

Libros de Cátedra

PROBABILIDADES Y ESTADÍSTICA ANÁLISIS DE DATOS

María Carmen Apezteguía Julieta Ferrario

(Coordinadoras)

Facultad de Ciencias Exactas

Agradecimientos

Es nuestro deseo agradecer a todos los miembros de la Cátedra Análisis de Datos que

formaron parte de este proyecto realizando aportes significativos y críticas constructivas;

invirtiendo su tiempo, sus recursos y sus energías para contribuir a la realización del mismo.

Agradecer muy especialmente a la Secretaria de Asuntos Académicos, Facultad de

Ciencias Exactas, Universidad Nacional de La Plata, por promover la realización del Libro de

Cátedra para la materia Análisis de Datos mediante La Convocatoria 2015 del proyecto que

lleva su nombre.

Índice

Capítulo 1 _________________________________________________________________ 5 0Probabilidades

Capítulo 2 ________________________________________________________________27 Variables aleatorias discretas

Capítulo 3 ________________________________________________________________52 Variables aleatorias continuas

Capítulo 4 ________________________________________________________________76 Sumas de variables independientes y Teorema Central del Límite

Capítulo 5 ________________________________________________________________88 Estimación

Capítulo 6 _______________________________________________________________110 Tests de hipótesis

Capítulo 7 _______________________________________________________________126 Inferencias basadas en dos muestras

Capítulo 8 _______________________________________________________________149 Modelo de regresión lineal

Apéndice A _____________________________________________________________ 169 Teoría de Conjuntos

Apéndice B ______________________________________________________________173 Tablas

Apéndice C _____________________________________________________________182 Resoluciones

Los Autores ______________________________________________________________190

Introducción ______________________________________________________________ 4

INTRODUCCIÓN

Este libro intenta dar una introducción a las ideas básicas de Probabilidades y Estad́ıstica. Fue

concebido para ser usado por los estudiantes del ciclo básico de la Facultad de Ciencias Exactas

de la UNLP (CiBEx), con conocimientos básicos de Análisis Matemático.

La temática puede considerarse dividida en dos núcleos centrales:

1. Nociones básicas de probabilidades: son las herramientas necesarias para desarrollar las pri-

meras nociones de inferencia estad́ıstica.

2. Algunos elementos de inferencia estad́ıstica: estimación puntual y mediante intervalos de

confianza, test de hipótesis, regresión lineal.

La gran mayoŕıa de los temas son introducidos con ejemplos, tratando de enfatizar la manera

correcta de encararlos.

4

CAPÍTULO 1

Probabilidades

Introducción: ¿Por qué estudiar Probabilidades?

La Teoŕıa de Probabilidades es una rama de la Matemática, que en sus oŕıgenes se relacionó

con la resolución de problemas vinculados con los juegos de azar. Sin embargo, tiene aplicaciones

en situaciones muy diversas, ya que se utiliza para estudiar cualquier fenómeno donde no se puede

tener certeza del resultado. Este tipo de fenómeno se llama experimento aleatorio. Cuando se

realizan replicaciones de cualquier medición, por ejemplo en qúımica cĺınica, se puede observar

una variación en los resultados. Esta variación es inherente al proceso de medición. Entonces, el

resultado de una medición es incierto, por ese motivo puede considerarse como un experimento

aleatorio. La teoŕıa de probabilidades brinda herramientas útiles para manejar este tipo de datos.

Para ejemplificar los primeros conceptos de probabilidad usaremos algunos experimentos alea-

torios que se refieren a juegos de azar simples como: arrojar un dado, realizar un tiro de ruleta,

sacar una bolilla de una caja con bolillas de diferente color, etc.

5

Definiciones y propiedades básicas

Espacio muestral. Eventos

Para cada experimento aleatorio existe un conjunto de resultados posibles, llamado espacio

muestral, denotado por Ω.

Ejemplo 1.1

El lanzamiento de un dado puede dar lugar a 6 resultados: 1, 2, 3, 4, 5, 6, y el espacio muestral

o espacio de probabilidad en este caso es Ω = {1, 2, 3, 4, 5, 6}.�

Ejemplo 1.2

El espacio muestral correspondiente al tiro de una ruleta es Ω = {0, 1, 2, . . . , 36}.�

Ejemplo 1.3

Si se extrae una bolilla de una caja que contiene bolillas rojas, blancas y azules, los posibles

resultados son los colores y el espacio muestral correspondiente es Ω = {roja, blanca, azul}.�

Ejemplo 1.4

Si se lanza una moneda tantas veces como sea necesario hasta que sale cara y designamos, por

ejemplo,XC al resultado “en el primer lanzamiento sale ceca y en el segundo sale cara”, podemos

escribir el espacio muestral como Ω = {C,XC,XXC,XXXC,XXXXC, . . .}.�

Ejemplo 1.5

Si se hace un tiro a un blanco circular de radio r y se determinan las coordenadas del punto de

impacto, los resultados posibles son todos los puntos del ćırculo (para simplificar suponemos el

origen de coordenadas en el centro del ćırculo). En este caso el espacio muestral es

Ω = {(x, y) que verifican x2 + y2 ≤ r2}�

6

!

Observación:

En los Ejemplos 1.1, 1.2 y 1.3 el espacio muestral tiene un número finito de

elementos: 6, 37 y 3, respectivamente. En el Ejemplo 1.4, el espacio muestral

es infinito numerable (sus elementos se pueden enumerar), mientras que en el

Ejemplo 1.5, el espacio muestral es infinito no numerable.

EJERCICIO 1.1

Describir en cada una de las siguientes situaciones el espacio muestral, indicando si se trata de un

espacio finito, infinito numerable o infinito no numerable.

1. Se observa el tiempo en que una máquina trabaja sin romperse.

2. Se quiere contar la cantidad de clavos defectuosos en cajas de 100.

3. Se observa la cantidad de alumnos inscriptos en la materia Análisis de Datos de la Facultad

de Ciencias Exactas de la UNLP.

Definición:

A los subconjuntos de Ω se los llama eventos. Si un evento está formado por un único

resultado será un evento simple, en cambio, si consta de más de un resultado, un evento

compuesto.

Ejemplo 1.6

En el Ejemplo 1.1 los eventos simples son: {1}, {2}, {3}, {4}, {5}, {6}; y un ejemplo de eventocompuesto es {2, 4, 6}. Por convención, a los eventos aleatorios se los suele designar con algunade las primeras letras del alfabeto en mayúscula, por ejemplo, A = {2, 4, 6}. Gráficamente, éstoseŕıa: Ω

A 1

23

4

56

Evento simple

Evento compuesto

Esta grágica se conoce como Diagrama de Venn.

�

7

El espacio muestral es también un evento aleatorio, como sabemos, todo conjunto es subconjunto

de śı mismo; también lo es el conjunto vaćıo ∅, ya que está inclúıdo en cualquier conjunto, enparticular en Ω.

Una vez realizado el experimento, un determinado evento B puede ocurrir o no. Se dice que

ocurre cuando el resultado del experimento es un elemento de B, y no ocurre en caso contrario.

Como el evento Ω siempre ocurre (por constar de todos los resultados), se dice que es un evento

seguro; el evento ∅ que no consta de ningún resultado, como nunca puede suceder, se dice que esun evento imposible.

Las operaciones y relaciones habituales entre conjuntos, tienen una traducción intuitiva en

términos probabiĺısticos. Dados dos eventos A y B:

• la intersección, A ∩B, es el evento: “A y B ocurren simultáneamente”;• la unión, A ∪B, es el evento: “ocurre al menos uno de los dos”;• el complemento de A, Ac, es el evento: “no ocurre A”;• la diferencia, A−B = A ∩Bc, es el evento: “ocurre A pero no B”;• si A está inclúıdo en B, A ⊆ B, se puede interpretar que: “siempre que ocurre A, ocurre B”;• si A y B no tienen elementos en común, A ∩ B = ∅, entonces: “A y B no pueden ocurrir

simultáneamente” y, en este caso, se dice que A yB son eventos mutuamente excluyentes,

disjuntos o incompatibles.

En cualquier libro básico de Álgebra se pueden encontrar las nociones fundamentales de Teoŕıa

de Conjuntos.

EJERCICIO 1.2

Para resolver los siguientes ejercicios les recomendamos realizar las gráficas de cada uno.

1. Sean Ω el conjunto de los enteros positivos de 1 a 8, A = {1, 3, 5}, B = {1, 4} y C = {2, 3, 4, 6}.Anote los elementos de los siguientes conjuntos: A ∩ B, Cc, {x ∈ Ω : x ∈ C y x /∈ B},(C −Bc) ∩Ac y (A ∪B ∪ C)c.

2. Sean Ω = {x ∈ R : 0 ≤ x ≤ 2}, A = {x ∈ R : 0.5 < x ≤ 1} y B = {x ∈ R : 0.25 ≤ x < 1.5}.Describa los siguientes conjuntos: Ac, (A ∪B)c, A ∪Bc, (A ∩B)c y Ac ∩B.

Definición de Probabilidad. Axiomas de Probabilidad

Si bien ante un experimento aleatorio no se puede saber de antemano qué resultado se va a

obtener, nos interesa disponer de algún número que mida la posibilidad de que ocurra cada uno de

los eventos. Si se lanza una moneda al aire n veces, una medida de la posibilidad de que salga cara

(evento C) podŕıa ser la frecuencia relativa de caras, es decir, el número frC = nC/n (donde nC

indica la cantidad de veces que se obtuvo cara, es decir, el número de ocurrencia del suceso C en

8

los n lanzamientos). Sin embargo, al lanzar 10 veces la moneda, podŕıa obtenerse una frecuencia

relativa de 0.6, en tanto que al lanzarla otras 10 veces distintas, podŕıa conseguirse un valor de 0.4

o cualquier otro número; y no resultaŕıa útil que la medida de la posibilidad de un evento dependa

de una experiencia particular, esta medida debe ser un número objetivo. En la siguiente tabla se

muestran las frecuencias relativas de caras, nC/n, en una realización de este experimento:

n 10 25 50 75 100 200 500 750 1000

nC/n 0.3000 0.4800 0.4400 0.5067 0.5100 0.4700 0.5260 0.4800 0.4920

Se puede observar que cuando una moneda normal se lanza un número de veces cada vez mayor,

la frecuencia relativa de caras se va estabilizando alrededor de un número fijo, 0.5. La siguiente

gráfica muestra esta estabilidad, pero para apreciarla se han graficado los puntos(log(n), nC/n

)

en lugar de (n, nC/n).

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

1 2 3 4 5 6 7 8 9 10 11 12 13 14

b

b

bb

b bb

bb b

bb b b b b b b b b

log(n)

nC/n

La estabilización de las frecuencias relativas de un evento alrededor de un número, ocurre para

cualquier experimento aleatorio que se repita muchas veces. Una idea intuitiva de la probabilidad

de un evento A, seŕıa el ĺımite de las frecuencias relativas, cuando n tiende a infinito.

Se puede verificar fácilmente que la frecuencia relativa tiene las siguientes propiedades:

• 0 ≤ frA = nA/n ≤ 1 para todo evento A.

• frΩ = nΩ/n = 1 (donde Ω es el espacio muestral).

• Ley aditiva: Si los eventos A y B son disjuntos:

frA∪B = nA∪B/n = nA/n+ nB/n = frA + frB

Entonces, el ĺımite de esas frecuencias heredaŕıa esas propiedades.

Para que el concepto de probabilidad coincida con esta idea intuitiva, vamos a definirlo de modo

que cumpla esas mismas propiedades.

9

Definición:

Dado un experimento aleatorio con espacio muestral Ω, una probabilidad es una función

P , que a cada evento A de Ω le asigna un número, llamado probabilidad de A, que se denota

P (A), y que verifica:

(A1) 0 ≤ P (A) ≤ 1 para todo evento A.

(A2) P (Ω) = 1.

(A3) Ley aditiva: Si los eventos A y B son disjuntos, es decir, A ∩B = ∅,

P (A ∪B) = P (A) + P (B).

(A4) Si A1, A2, A3, . . . es una colección infinita de eventos mutuamente excluyentes, es

decir, Ai ∩Aj = ∅, para i 6= j, entonces:

P (A1 ∪A2 ∪A3 ∪ . . .) =∞∑

i=1

P (Ai)

Aclaración

A partir del (A3), se puede generalizar la propiedad aditiva para n eventos mutuamente exclu-

yentes, pero no puede generalizarse para una colección infinita numerable de eventos, por eso,

para trabajar con espacios muestrales infinitos, es necesario agregar el (A4).

A partir de esta definición de probabilidad, pueden deducirse varias propiedades de manera

bastante simple.

Algunas propiedades básicas

PROPIEDAD 1.1: Para cualquier evento A, P (A) = 1− P (Ac).

Demostración: Por definición de Ac:

A ∪Ac = Ω y A ∩Ac = ∅

Por (A2) y (A3)

1 = P (Ω) = P (A ∪Ac) = P (A) + P (Ac)

Despejando P (A): P (A) = 1− P (Ac).

Ω

A

Ac

10

En particular: si A = ∅, se cumple que P (∅) = 0, ya que Ac = Ω. Es importante notar que elrećıproco no es verdadero. Si P (A) = 0 no se puede concluir que A = ∅, veremos más adelante quehay eventos no vaćıos que pueden tener probabilidad cero.

PROPIEDAD 1.2: Para dos eventos cualesquiera A y B, P (B−A) = P (B)−P (A∩B).En particular, si A ⊆ B, P (B −A) = P (B)− P (A) y P (B) ≥ P (A).

Demostración: El evento B puede escribirse como:

B = (A ∩B) ∪ (B ∩Ac)donde (A ∩B) = y (B ∩Ac) = son disjuntos. Luego, por(A3):

P (B) = P (A ∩B) + P (B ∩Ac).

Ω

BA

Despejando P (B ∩ Ac) = P (B) − P (A ∩ B). Por último, por la Propiedad del complemento enel Apéndice A, B −A = B ∩Ac, por lo tanto P (B −A) = P (B)− P (A ∩B).

En el caso que A esté contenido en B, A ⊆ B, tenemos que A ∩B = A, entonces

P (B −A) = P (B)− P (A), (1.1)

por el resultado anterior. Despejando de (1.1) tenemos que P (B) = P (A) + P (B − A). Luego,como P (B −A) ≥ 0 por (A1): P (B) = P (A) + P (B −A) ≥ P (A).

PROPIEDAD 1.3: Para dos eventos cualesquiera A y B,

P (A ∪B) = P (A) + P (B)− P (A ∩B)

Demostración: Primero observemos que A ∪B = A ∪ (B ∩Ac),

donde A = y (B ∩Ac) = son disjuntos.Por (A3):

P (A ∪B) = P [A ∪ (B ∩Ac)] = P (A) + P (B ∩Ac) (1.2)

Ω

A B

Recordemos que, en la Propiedad 1.2, se llegó al siguiente resultado:

P (B ∩Ac) = P (B)− P (A ∩B)

Reemplazando ésto en (1.2), se obtiene:

P (A ∪B) = P (A) + P (B ∩Ac) = P (A) + P (B)− P (A ∩B)

Notar que si A ∩B = ∅, en esta última propiedad, obtenemos (A3).

11

Aclaración

Para tres eventos cualesquiera A, B y C, la probabilidad de la unión es:

P (A ∪B ∪ C)=P (A)+P (B)+P (C)−P (A ∩B)−P (A ∩ C)−P (B ∩ C)+P (A ∩B ∩ C)Para demostrarlo formalmente, se puede escribir A ∪ B ∪ C como (A ∪ B) ∪ C y aplicar laPropiedad 1.3.

Ω

A B

C

EJERCICIO 1.3

En los siguientes ejercicios aplicar las propiedades anteriores.

1. Sean A y B dos eventos disjuntos tales que P (B) = 0.72 y P (A∩Bc) = 0.02. Calcular P (A)y P (A ∪B).

2. Determinar si las siguientes afirmaciones son falsas o verdaderas. Justificar su respuesta.

• Si P (A) > 0, entonces P (A ∪B) > 0.

• Si P (A) > 1/2 y P (B) > 1/2, entonces P (A ∩B) > 0.

• Si P (A) > 0, entonces P (Ac) > 0.

• P (B ∪A) = P (B) + P (A).

Determinación de probabilidades en espacios muestrales

finito o infinito numerables

Cuando el espacio muestral es finito o infinito numerable, para definir una probabilidad sobre

todos los eventos, es suficiente asignar probabilidades P (Ei) para todos los eventos simples Ei.

Esta asignación debe satisfacer:

• P (Ei) ≥ 0

•∑

i

P (Ei) = 1

Entonces, por (A3), la probabilidad de cualquier evento compuesto A se calcula sumando las

P (Ei) para todos los Ei en A

P (A) =∑

Ei⊆AP (Ei)

12

Ejemplo 1.7

Consideremos el experimento que consiste en tirar un dado que no está bien equilibrado, y resulta

que cualquiera de los resultados pares tiene el doble de probabilidad de ocurrir que cualquiera

de los resultados impares.

Llamamos E1, E2, E3, E4, E5 y E6 a los eventos simples {1}, {2}, {3}, {4}, {5} y {6},respectivamente. La única asignación de probabilidades posible deberá cumplir:

• P (E1) = P (E3) = P (E5) = 1/9

• P (E2) = P (E4) = P (E6) = 2/9

Luego, la probabilidad de cualquier evento se calcula a partir de esos eventos simples. Por

ejemplo, para el evento

A = “el resultado es par” = {2, 4, 6} = {2} ∪ {4} ∪ {6} = E2 ∪ E4 ∪ E6,

luego

P (A) = P (E2 ∪ E4 ∪ E6) = P (E2) + P (E4) + P (E6) = 6/9 = 2/3

Para

B = “el resultado es menor o igual a 3” = {1, 2, 3} = {1} ∪ {2} ∪ {3}=E1 ∪ E2 ∪ E3,

entonces

P (B) = P (E1 ∪ E2 ∪ E3) = P (E1) + P (E2) + P (E3) = 1/9 + 2/9 + 1/9 = 4/9

�

EJERCICIO 1.4

Resolver los siguientes ejercicios:

1. Sean A y B dos eventos tales que: P (A) = 0.2, P (B) = 0.3 y P (A ∩B) = 0.1. Calcular:

• P (A ∪B)

• P (Ac ∪Bc)

• P (A ∩Bc)

• P (Ac ∪B)

2. Se construye un dado de manera que el 1 y el 2 ocurran con el doble de frecuencia que se

presenta el 5, el cual ocurre con la frecuencia 3 veces superior al 3, al 4 o al 6. Si se lanza una

vez, ¿cuál es la probabilidad de que el número sea par? y ¿cuál es la probabilidad de que el

número sea mayor que 4?

13

Espacios equiprobables

Definición:

Un espacio muestral finito, se dice equiprobable, si todos los eventos simples, Ei, tienen

la misma probabilidad. En ese caso, para que se cumplan las condiciones:

• P (Ei) ≥ 0

•n∑

i=1

P (Ei) = 1

la única posible asignación de probabilidades debe ser: P (Ei) = 1/n, donde n es el número

de elementos del espacio muestral.

Entonces, si A es un evento que está formado por k eventos simples,

P (A) =∑

Ei⊆AP (Ei) =

k

n

En consecuencia, en un espacio muestral finito equiprobable, la probabilidad de un evento se

calcula como el número de resultados que forman ese evento dividido por el número de resultados

de todo el espacio muestral:

P (A) =#A

#Ω

Ejemplo 1.8

Consideremos el experimento que consiste en tirar un dado equilibrado, en este caso # Ω = 6 y

los 6 resultados tienen igual probabilidad, 1/6.

Sea A = “sale un número par” = {2, 4, 6}, entonces

P (A) =#A

#Ω= 3/6

Sea B = “sale un número menor que 5” = {1, 2, 3, 4}, entonces

P (B) =#B

#Ω= 4/6

�

Ejemplo 1.9

Consideremos el experimento que consiste en arrojar dos veces un dado equilibrado, para este

experimento podemos escribir el espacio muestral como:

Ω = {(x, y) : donde x e y ∈ {1, 2, . . . , 6}}

= {(1, 1); (1, 2); . . . ; (1, 6); (2, 1); (2, 2); . . . ; (2, 6); . . . ; (6, 1); (6, 2); . . . ; (6, 6)}

14

Este espacio muestral es equiprobable y tiene 36 eventos simples, cada uno con probabi-

lidad 1/36. Sea el evento A = “la suma de los dos resultados es menor que 6”,

A = {(1, 1); (1, 2); (2, 1); (1, 3); (3, 1); (1, 4); (4, 1); (2, 2); (2, 3); (3, 2)}

entonces P (A) = 10/36.

�

Ejemplo 1.10

Consideremos el experimento aleatorio que consiste en sacar una bolilla de una caja que contiene

4 bolillas blancas, 4 rojas y 2 azules. Podemos pensar el espacio muestral formado por todas las

extracciones posibles que son 10, y todas tienen igual probabilidad 1/10.

Luego si definimos el evento B = “sale una bolilla blanca”, la P (B) = 4/10 = 0.4.

En general si en la caja hay un 40% de bolillas blancas, P (B) = 0.4.

�

Ejemplo 1.11

Consideremos que deseamos calcular la probabilidad de que un individuo elegido en una pobla-

ción tenga determinada caracteŕıstica. Supongamos que se conoce que el 46% de los individuos

de una población tienen sangre del grupo O, el 43% del grupo A, el 8% del grupo B y el 3%

del grupo AB. Se elige una persona al azar en dicha población, esto significa que todos los indi-

viduos tienen la misma probabildad de ser elegido. Como sabemos que el 46% de los individuos

tiene grupo O, la probabilidad de que el individuo elegido tengo grupo O es 0.46. Del mismo

modo la probabilidad de que tenga sangre grupo A es 0.43 y la probabilidad de que tenga sangre

grupo A o grupo B es 0.51 (dado que tener sangre grupo A o tener sangre grupo B son eventos

incompatibles o disjuntos).

�

EJERCICIO 1.5

En una repisa hay 10 libros distintos de novelas y 20 libros distintos de cuentos, de los cuales la

mitad de las novelas y la mitad de los cuentos están escritos en español. Si se selecciona uno de

estos libros al azar, hallar la probabilidad de que:

• el libro seleccionado sea una novela;

• el libro seleccionado este escrito en español;

• el libro seleccionado sea una novela y este escrito en español;

• el libro seleccionado sea una novela o este escrito en español.

15

Probabilidad condicional

Consideremos el siguiente ejemplo: se arroja dos veces un dado, entonces el espacio muestral se

puede definir como

Ω ={(i, j) : i es el número del primer tiro y j el número del segundo tiro,

con i, j = 1, 2, 3, 4, 5, 6}.

Nos interesa calcular la probabilidad del evento

A = “la suma de los dos resultados es mayor que 8”

= {(3, 6); (4, 5); (4, 6); (5, 4); (5, 5); (5, 6); (6, 3); (6, 4); (6, 5); (6, 6)}

Si el dado es equilibrado P (A) = 10/36.

Ω

(1, 1)

(1, 2)

(1, 3)

(1, 4)

(1, 5)

(1, 6)

(2, 1)

(2, 2)

(2, 3)

(2, 4)

(2, 5)

(2, 6)

(3, 1)(3, 2)

(3, 3)

(3, 4)

(3, 5)

(3, 6)

(4, 1)(4, 2)

(4, 3) (4, 4)

(4, 5)(4, 6)

(5, 1)(5, 2)

(5, 3)

(5, 4)

(5, 5)(5, 6)

(6, 1)

(6, 2)

(6, 3)

(6, 4)

(6, 5)

(6, 6)

A

Ahora supongamos que sabemos que en el primer tiro salió un 2, es decir, ocurrió el evento

B = “el primer tiro es 2”={(2, 1); (2, 2); (2, 3); (2, 4); (2, 5); (2, 6)}.

y en ninguno de estos posibles resultados la suma puede ser mayor que 8. Con esta información es

imposible que la suma sea mayor que 8. Usamos la notación P (A|B) para indicar la probabilidadde que ocurra A, sabiendo que ocurrió B. Entonces, en este caso, P (A|B) = 0.

Por otra parte, si sabemos que en el primer tiro salió 5, o sea ocurrió

C = {(5, 1); (5, 2); (5, 3); (5, 4); (5, 5); (5, 6)}

y sólo en tres de ellos se cumple que la suma es mayor que 8, entonces P (A|C) = 3/6.Ω

(1, 1)

(1, 2)

(1, 3)

(1, 4)

(1, 5)

(1, 6)

(2, 1)

(2, 2)

(2, 3)

(2, 4)

(2, 5)

(2, 6)

(3, 1)(3, 2)

(3, 3)

(3, 4)

(3, 5)

(3, 6)

(4, 1)(4, 2)

(4, 3) (4, 4)

(4, 5)(4, 6)

(5, 1)(5, 2)

(5, 3)

(5, 4)

(5, 5)(5, 6)

(6, 1)

(6, 2)

(6, 3)

(6, 4)

(6, 5)

(6, 6)

A

C

B

Consideremos otro ejemplo, se selecciona al azar un recién nacido y se realiza un análisis para

diagnosticar hipotiroidismo congénito (HC). Sea A = “el recién nacido padece HC”, la P (A) es

igual a la proporción de recién nacidos con HC en la población. Ahora bien, si observamos que el

recién nacido es una niña (sea B = “el recién nacido es de sexo femenino”) y queremos conocer la

16

probabilidad de que padezca HC, esto es la proporción de recién nacidos con HC en esa subpoblación

(recién nacidos de sexo femenino). En este ejemplo P (A|B) > P (A), pues es sabido que el HC esmás frecuente en las niñas.

Dado que ocurrió B, el espacio muestral pertinente ya no es Ω sino que consiste en los resultados

de B. En este caso, A ocurre si y sólo si ocurre uno de los resultados de la intersección A ∩B, aśıque la probabilidad condicional de A dado B es proporcional a P (A ∩B).

Definición:

Dados dos evento A y B, si P (B) > 0 se define P (A|B) como:

P (A|B) = P (A ∩B)P (B)

Obviamente, si P (A) > 0, también puede definirse

P (B|A) = P (B ∩A)P (A)

Se puede probar que fijando el evento condicionante B, la probabilidad condicional dado B,

cumple los axiomas de probabilidad:

(A1) 0 ≤ P (A|B) ≤ 1 para cualquier A

(A2) P (Ω|B) = 1 (donde Ω es el espacio muestral)

(A3) Ley aditiva: Si los eventos A y C son disjuntos:

P (A ∪ C|B) = P (A|B) + P (C|B).

(A4) Si A1, A2, A3, . . . es una colección infinita de eventos mutuamente excluyentes, entonces

P (A1 ∪A2 ∪A3 ∪ . . . |B) =∞∑

i=1

P (Ai|B).

Por lo tanto, tiene todas las propiedades de una probabilidad.

Ejemplo 1.12

Supongamos que en la población general hay 49% de hombres y 51% de mujeres, y que la

proporción de hombres y mujeres daltónicos se muestra en la siguiente tabla de probabilidad:

Datos Hombres Mujeres Total

Daltónicos 0.038 0.002 0.040

No daltónicos 0.452 0.508 0.960

Total 0.490 0.510 1

Si se escoge al azar una persona de esta población y se encuentra que es hombre (evento

B = “la persona seleccionada es hombre”), ¿cuál es la probabilidad de que sea daltónica (evento

A = “la persona seleccionada es daltónica”)?

17

Sabiendo que B ha ocurrido, debemos restringir nuestra atención a sólo 49% de la población

que es de hombres. La probabilidad de ser daltónico, dado que la persona es hombre, es:

P (A|B) = P (A ∩B)/P (B) = 0.038/0.49 = 0.078

Significa que si sabemos que la persona seleccionada es hombre, este hecho aumenta la pro-

babilidad de que sea daltónico que era 0.04.

Ahora nos preguntamos, ¿cuál es la probabilidad de ser daltónico, dado que la persona es

mujer? En este caso estamos restringiendo a sólo el 51% de la población que es de mujeres y por

lo tanto:

P (A|Bc) = P (A ∩Bc)/P (Bc) = 0.002/0.51 = 0.004

Podemos deducir de este cálculo que la información adicional de que la persona seleccionada es

mujer, disminuye la probabilidad de que sea daltónica.

�

EJERCICIO 1.6

Determinar si las siguientes afirmaciones son falsas o verdaderas. Justificar su respuesta.

1. P (A|B) + P (Ac|B) = 1.

2. P (A|B) + P (A|Bc) = P (A).

3. P (A|A ∩B) = P (B|A ∩B) = 1.

4. P (A|A) = P (A).

5. Si B y C son eventos disjuntos, P (A|B ∪ C) = P (A|B) + P (A|C).

6. Si A y B son eventos disjuntos, P (A ∪B|C) = P (A|C) + P (B|C).

Regla de la multiplicación

A partir de la definición de probabilidad condicional podemos deducir dos ecuaciones:

• si P (B) > 0, P (A|B) = P (A ∩B)/P (B) implica que P (A ∩B) = P (A|B)× P (B),

• si P (A) > 0, P (B|A) = P (A ∩B)/P (A) implica que P (A ∩B) = P (B|A)× P (A).

Formalizando:

18

REGLA DE LA MULTIPLICACIÓN: Dados dos eventos A y B la probabilidad de la

intersección puede calcularse como:

P (A ∩B) = P (A|B)× P (B) = P (B|A)× P (A),

cuando estén definidas las respectivas probabilidades condicionales.

La extensión de la regla anterior a tres eventos es:

P (A ∩B ∩ C) = P (C|A ∩B)× P (B|A)× P (A),

y de modo similar para más de tres.

Ejemplo 1.13

En un banco de sangre, 4 individuos han respondido a una solicitud. Se necesita sangre tipo A+

y sólo uno de ellos tiene ese tipo, pero no se sabe cuál. Si los donantes potenciales se seleccionan

al azar para determinar su tipo sangúıneo, ¿cuál es la probabilidad de que haya que determinar

el tipo sangúıneo en al menos tres individuos para obtener el tipo deseado?

Llamemos B = “primer donante no es A+” y A = “segundo donante no es A+”, sabemos

que P (B) = 3/4 y P (A|B) = 2/3. El evento A ∩B es:

A ∩B = “ni el primero ni el segundo son tipo A+”

= “se determina el tipo sangúıneo en al menos tres individuos”.

Usando la Regla de la multiplicación:

P (A ∩B) = P (A|B)× P (B) = 2/3× 3/4 = 1/2

�

Eventos independientes

Si volvemos al Ejemplo 1.12, del daltonismo y el género, hemos visto que P (A|B) 6= P (A), conlo cual la probabilidad de que la persona elegida al azar sea daltónica sabiendo que es hombre es

distinto a la probabilidad de que esa persona sea daltónica sin saber su género. Es decir, saber que

la persona elegida al azar es hombre modifica la probabilidad de que sea daltónica. Eso indicaŕıa

que hay alguna relación o dependencia entre los eventos B y A.

Pensemos en otro ejemplo.

19

Ejemplo 1.14

Se tira un solo dado dos veces y los eventos de interés son: A = “se observa un 2 en el primer

tiro” y B = “se observa un 2 en el segundo tiro”. Si el dado no está cargado, la probabilidad del

evento A es 1/6, y es lógico pensar que la probabilidad de B también es 1/6 sin importar si en

el primer tiro ocurrió A o no, es decir P (B) = P (B|A) = P (B|Ac), eso significa que los eventosA y B no están relacionados o que son “independientes”.

�

Daremos una definición de independencia ligeramente distinta.

Definición:

Los eventos A y B son independientes si y sólo si P (A ∩B) = P (A)× P (B).

A partir de esta definición de independencia, se puede ver que si A y B son eventos indepen-

dientes y P (B) > 0, se cumple P (A|B) = P (A).

La demostración es elemental, ya que

P (A|B) = P (A ∩B)P (B)

=P (A)×✟✟

✟P (B)

✟✟✟P (B)

= P (A).

Entonces la definición de independencia coincide con la idea intuitiva de que saber que

ocurrió B, no modifica la probabilidad de que ocurra A.

Definición:

Decimos que los tres eventos A, B y C son mutuamente independientes si y sólo si

todas las condiciones siguientes se mantienen:

P (A ∩B) = P (A)× P (B)

P (A ∩ C) = P (A)× P (C)

P (B ∩ C) = P (B)× P (C)

P (A ∩B ∩ C) = P (A)× P (B)× P (C)

Definición:

Los n eventos A1, A2, . . ., An son mutuamente independientes si para todo k

(k = 2, 3, . . . , n) y todo subconjunto de ı́ndices i1, i2, . . ., ik, se cumple:

P(Ai1 ∩Ai2 ∩ . . . ∩Aik

)= P

(Ai1)× P

(Ai2)× · · · × P

(Aik)

20

!

Observación:

La definición de independencia indica que si queremos verificar si dos eventos

son independientes, debemos ver que la probabilidad de la intersección es el

producto de las probabilidades. Sin embargo, cuando por la naturaleza del ex-

perimento aleatorio sabemos que hay independencia, como los dos tiros de un

dado, esta definición nos permite calcular la probabilidad de la intersección como

el producto de las probabilidades.

En el Ejemplo 1.14, del dado, podemos calcular P (A ∩B) = 1/6× 1/6.Por supuesto, si dos eventos no son independientes, la probabilidad de que ocurran simultánea-

mente no es el producto. Por ejemplo, si la probabilidad de que un hombre tenga una altura

superior a 1.80 m es 0.2, la probabilidad de que un padre y un hijo tengan altura superior

a 1.80 m no es 0.2 × 0.2, ya que estos eventos no son independientes (sabemos que la alturade los hijos están relacionadas con la altura de los padres).

PROPOSICIÓN 1.1: Dados dos eventos A y B, las siguientes afirmaciones son

equivalentes:

• A y B son independientes.

• A y Bc son independientes.

• Ac y B son independientes.

• Ac y Bc son independientes.

Demostración: Comenzamos probando que la independencia de A y B implica la de A y Bc.

Recordar primero que A = (A∩B)∪ (A∩Bc), con ambos conjuntos disjuntos. Luego, aplicandoprobabilidad, nos queda P (A) = P (A ∩B) + P (A ∩Bc), por (A3).Ahora, despejando y sabiendo que A y B son independientes, tenemos

P (A ∩Bc) = P (A)− P (A ∩B) (utilizando la Propiedad 1.2)

= P (A)− P (A)× P (B) (por hipótesis)

= P (A)× [1− P (B)] (sacando factor común)

= P (A)× P (Bc) (utilizando la Propiedad 1.1)

es decir, A y Bc son independientes.

Aplicando este razonamiento a los eventos A y Bc, resulta que la independencia de A y Bc implica

la de A y (Bc)c = B, lo que prueba la implicación opuesta. En consecuencia, hemos demostrado

que son equivalentes: A y B son independientes y A y Bc son independientes.

De la primera equivalencia salen las otras dos.

21

EJERCICIO 1.7

1. Sean A y B eventos independientes tales que P (A) = 0.3 y P (B) = 0.24. Calcular:

• P (A ∩B)

• P (A ∪B)

• P (A ∪Bc)

• P (A|Bc)

2. Sea Ω = {1, 2, 3, 4} un espacio muestral equiprobable. Dados los eventos:

A = {1, 2}, B = {2, 3} y C = {2, 4}.

¿Son A, B y C independientes?

3. Sean A y B eventos independientes. Demostrar que P (A ∪B) = 1− P (Ac)× P (Bc).

Teorema de la Probabilidad Total. Teorema de Bayes

Definición:

Los eventos A1, A2, . . . , An representan una partición del espacio muestral Ω, si cum-

plen:

(a) A1 ∪A2 ∪ . . . ∪An =n⋃

i=1

Ai = Ω y

(b) Ai ∩Aj = ∅ para todo i 6= j.

TEOREMA DE LA PROBABILIDAD TOTAL: Si A1, A2, . . . , An representan una

partición del espacio muestral Ω. Y además, P (Ai) 6= 0 para todo i. Entonces, para cualquierevento B, se cumple:

P (B) = P (B|A1)P (A1) + P (B|A2)P (A2) + · · ·+ P (B|An)P (An)

=

n∑

i=1

P (B|Ai)P (Ai).

Demostración: Como los Ai constituyen una partición del espacio Ω, (por (a)), cualquier evento

B puede escribirse como:

22

B = B ∩ Ω

= B ∩(A1 ∪A2 ∪ . . . ∪An

)

Ω

B

Utilizando la propiedad distributiva de la intersección respecto de la unión, tenemos que:

B ∩(A1 ∪A2 ∪ . . . ∪An

)= (B ∩A1) ∪ (B ∩A2) ∪ . . . ∪ (B ∩An),

por lo tanto:

B = (B ∩A1) ∪ (B ∩A2) ∪ . . . ∪ (B ∩An).

Como los eventos (B ∩ A1), (B ∩ A2), . . . , (B ∩ An) son mutuamente excluyentes (por (b)),podemos aplicar la Ley aditiva y escribir:

P (B) = P((B ∩A1) ∪ (B ∩A2) ∪ . . . ∪ (B ∩An)

)

= P (B ∩A1) + P (B ∩A2) + · · ·+ P (B ∩An).

Por la Regla de la multiplicación, cada término P (B ∩ Ai) = P (B|Ai)P (Ai) y reemplazando,obtenemos:

P (B) = P (B|A1)P (A1) + P (B|A2)P (A2) + · · ·+ P (B|An)P (An).

Ejemplo 1.15

En cierta comunidad, el 8% de los adultos de más de 50 años de edad padece diabetes. Se conoce

que la prueba para diagnosticar esa enfermedad tiene una sensibilidad del 95% (esto significa

que si la prueba se aplica a un individuo enfermo, la probabilidad de un resultado positivo es

0.95) y la especificidad es del 98% (la probabilidad de obtener un resultado negativo dado que

el individuo es sano es 0.98).

Recordemos que la prevalencia de una enfermedad en una población se define como la pro-

porción de enfermos en la población, y suele expresarse como porcentaje. En consecuencia, si se

elige una persona al azar, la probabilidad de que esté enferma es igual a la prevalencia.

Supongamos que se va a utilizar esta prueba diagnóstica en un gran número de individuos

de más 50 años elegidos al azar en esa comunidad, y se quiere tener una idea de la proporción

de resultados positivos que se obtendrán. Esto es equivalente a calcular la probabilidad de que

la prueba diagnóstica de un resultado positivo en uno de esos individuos.

Es conveniente definir los eventos que usaremos para resolver este problema. Llamemos:

R+ = “el resultado de la prueba es positivo”, R− = “el resultado es negativo”, D = “el individuo

tiene diabetes” y ND = “el individuo no tiene diabetes”.

23

Conocemos lo siguiente:

Prevalencia = P (D) = 0.08, entonces P (ND) = 0.92

Sensibildad = P (R+|D) = 0.95, entonces P (R−|D) = 0.05

Especificidad = P (R−|ND) = 0.98, entonces P (R+|ND) = 0.02

y queremos calcular P (R+).

En este caso, D y ND son eventos disjuntos y también D ∪ ND = Ω, esto significa queconstituyen una partición del espacio, que en este caso es toda la población de referencia.

Entonces podemos escribir:Ω

NDND D

R+R+ = R+ ∩ (D ∪ND)

= (R+ ∩D) ∪ (R+ ∩ND)

Aplicando la Ley aditiva en (1) y la Regla de la multiplicación en (2):

P (R+)(1)= P (R+ ∩D) + P (R+ ∩ND)(2)= P (R+|D)× P (D) + P (R+|ND)× P (ND).

Ahora, reemplazando por los valores, tenemos:

P (R+) = 0.95× 0.08 + 0.02× 0.92 = 0.0944.�

El procedimiento que utilizamos en este ejemplo es una aplicación del Teorema de la Probabi-

lidad Total.

TEOREMA DE BAYES: Si A1, A2, . . . , An representan una partición del espacio mues-

tral Ω, donde P (Ai) > 0 para todo i, y sea B un evento cualquiera con P (B) > 0, entonces

para cualquier k = 1, . . . , n, se cumple:

P (Ak|B) =P (B|Ak)P (Ak)n∑

i=1

P (B|Ai)P (Ai)

Demostración: Primero, por la definición de probabilidad condicional tenemos que:

P (Ak|B) =P (Ak ∩B)

P (B)(1.3)

Segundo, como tenemos las mismas hipótesis que en el Teorema de la Probabilidad Total, podemos

24

afirmar que:

P (B) =

n∑

i=1

P (B|Ai)P (Ai) (1.4)

Tercero, si aplicamos la Regla de la multiplicación al numerador de (1.3), tenemos que:

P (Ak ∩B) = P (B|Ak)P (Ak) (1.5)

Por último, reemplazando en (1.3) los resultados de (1.4) y (1.5), podemos concluir que:

P (Ak|B) =P (B|Ak)P (Ak)n∑

i=1

P (B|Ai)P (Ai)

Ejemplo 1.16

Volviendo al Ejemplo 1.15, supongamos que al individuo elegido al azar se le realizó la prueba

diagnóstica, y esta dio un resultado positivo, ¿cuál es la probabilidad de que dicho individuo

tenga realmente diabetes?

Ahora lo que se desea es calcular P (D|R+), si aplicamos la definición de probabilidad condi-cional:

P (D|R+) = P (D ∩R+)

P (R+)calculamos P (D ∩ R+) por la Regla de la multiplicación y reemplazamos P (R+) que yacalculamos previamente, tenemos:

P (D|R+) = P (R+|D)P (D)

P (R+|D)P (D) + P (R+|ND)P (ND)Esto se suele llamar valor predictivo positivo (VPP) de una prueba diagnóstica, es la pro-

babilidad de que el individuo este enfermo dado que la prueba dio un resultado positivo. En

nuestro caso:

P (D|R+) = 0.95× 0.080.0944

= 0.8051

De la misma manera se define el valor predictivo negativo (VPN) de una prueba diagnóstica,

que es la probabilidad de que el individuo esté sano dado que el resultado de la prueba fue

negativo:

P (ND|R−) = P (R−|ND)P (ND)

P (R−|D)P (D) + P (R−|ND)P (ND)

�

Este ejemplo fue una aplicación del Teorema de Bayes.

EJERCICIO 1.8

Resolver los siguientes ejercicios utilizando el Teorema de la Probabilidad Total y el Teorema de

Bayes.

1. Una persona toma al azar de una caja uno de los números 1, 2 ó 3, y luego tira un dado

25

equilibrado tantas veces como indica el número escogido. Después suma el resultado de las

tiradas del dado. ¿Cuál es la probabilidad de que obtenga un total de 5?

2. Una compañ́ıa utiliza las ĺıneas A1, A2 y A3 para la producción de un microchip. De los

microchip fabricados por la ĺınea A1, el 5% son defectuosos; de los fabricados por la ĺınea

A2, el 8% son defectuosos y el 10% de los fabricados por A3 son defectuosos. El 50% de

todos los microchips son producidos por A1, el 30% por A2 y el restante por A3. Se selecciona

un microchip al azar.

a. ¿Cuál es la probabilidad de que el microchip haya sido producido por A3 y sea defec-

tuoso?

b. ¿Cuál es la probabilidad de que el microchip sea defectuoso?

c. Si se observa que es defectuoso, ¿cuál es la probabilidad de que el microchip haya sido

producido por A1?

Referencias

Cramer, H. (1968). Elementos de la Teoŕıa de Probabilidades y algunas de sus aplicaciones. Madrid.

Ed. Aguilar.

Devore Jay, L. (2001). Probabilidad y Estad́ıstica para Ingenieŕıa y Ciencias. Ed. Books/Cole

Publishing Company.

Feller, W. (1975). Introducción a la Teoŕıa de Probabilidades y sus Aplicaciones. Ed. Limusa-Wiley

S.A.

Maronna, R. (1995). Probabilidad y Estad́ıstica Elementales para Estudiantes de Ciencias. Buenos

Aires. Ed. Exactas.

Mendenhall, W., Beaver, R. J. & Beaver, B. M. (2006). Introducción a la Probabilidad y Estad́ıstica.

México. Cengage Learning Editores.

Meyer Paul, L. (1970). Probabilidad y aplicaciones Estad́ısticas. Addison-Wesley Iberoamericana.

Parzen, E. (1987). Teoŕıa Moderna de Probabilidades y sus Aplicaciones. Ed. Limusa.

Ross, S. M. (1987). Introduction to Probability and Statistics for Enginees and Scientists. John

Wiley & Sons.

Ross, S. M. (1997). A first course in Probability. New Jersey. Pearson Prentice Hall.

Walpole, R. E. & Myers, R. H. (2007). Probabilidad y Estad́ıstica para Ingenieŕıa y Ciencias.

México. Ediciones McGraw-Hill.

26

CAPÍTULO 2

Variables aleatorias discretas

Variables aleatorias

Al realizar un experimento aleatorio, muchas veces no estamos interesados en el resultado sino

en una función del mismo. Por ejemplo, si tiramos dos veces un dado podemos estar interesados en

saber cuál es la suma de los resultados de ambas tiradas, cuántas veces salió un valor en particular,

cuál es el máximo de los dos valores observados, etc.

En muchos experimentos aleatorios el espacio Ω no es un espacio numérico, entonces nos puede

interesar transformar los resultados en valores numéricos.

Podemos lograr ese objetivo definiendo una función que a cada elemento del espacio muestral

le haga corresponder un número.

Definición:

Una variable aleatoria X es una función que a cada elemento w del espacio muestral Ω,

le hace corresponder un número real. Es decir, X : Ω → R si ω ∈ Ω, X(ω) ∈ R.

Notación

En general abreviaremos variable aleatoria escribiendo v.a.

27

Ejemplo 2.1

Se tira un dado dos veces y se observa X = “el número de veces que sale 1”.

�

Ejemplo 2.2

Se tira un dado dos veces y se observa Y = “el máximo de los dos valores”.

�

Ejemplo 2.3

Se tira una moneda hasta que sale cara y se define Z = “el número de tiradas necesarias”.

�

Ejemplo 2.4

Se administra un nuevo tratamiento a tres personas que padecen una enfermedad, interesa co-

nocer la eficacia de ese tratamiento para lograr la recuperación en una semana (esto también

puede considerarse un experimento aleatorio), se observa V = “el número de pacientes, entre los

tres tratados, que se recupera en una semana”.

�

Ejemplo 2.5

Se elige una persona al azar en una población y se observa W= “peso de la persona elegida”.

�

Ejemplo 2.6

Se enciende una lámpara y se observa T = “el tiempo hasta que se quema”.

�

Todas las variables definidas en los ejemplos anteriores son variables aleatorias. Ahora, si con-

sideramos el conjunto de valores que puede tomar cada una de ellas vemos que:

vX = {0, 1, 2} vV = {0, 1, 2, 3}

vY = {1, 2, 3, 4, 5, 6} vW = (0,∞)

vZ = {1, 2, 3, . . .} vT = (0,∞)

Los conjuntos de valores vX , vY y vV son finitos, vZ es infinito numerable (ya que hay un

primer elemento, un segundo elemento, etc.), por otra parte vT y vW son infinitos no numerables.

28

Definición:

Cuando el conjunto de valores (también llamado rango) que toma una v.a. es finito o infinito

numerable, la variable se denomina discreta.

Notación

Sea a ∈ R y X una v.a., se utilizará la notación (X = a) para hacer referencia al evento de Ωformado por todos los resultados para los cuales X toma el valor a, y (X ≤ a) para el eventoformado por todos aquellos resultados para los que X toma valores menores o iguales que a.

Esto se puede escribir:

(X = a) = {ω ∈ Ω tal que X(ω) = a}

(X ≤ a) = {ω ∈ Ω tal que X(ω) ≤ a}

De la misma manera se utilizará la notación: (X < a), (X > a) y (X ≥ a).

Ejemplo 2.7

Si se considera el Ejemplo 2.1, el espacio muestral es Ω = {(1, 1); (1, 2); . . . ; (1, 6); (2, 1); (2, 2); . . . ;(2, 6); . . . ; (6, 1); (6, 2); . . . ; (6, 6)} y la variable X definida alĺı es “el número de veces que sale 1”.Podemos definir los eventos:

(X = 0) = {(2, 2); (2, 3); . . . ; (2, 6); (3, 2); (3, 3); . . . ; (3, 6); . . . ; (6, 2); (6, 3); . . . ; (6, 6)}

(X = 1) = {(1, 2); (1, 3); (1, 4); (1, 5); (1, 6); (2, 1); (3, 1); (4, 1); (5, 1); (6, 1)}

(X = 2) = {(1, 1)}

Si suponemos que el dado es equilibrado y el espacio muestral es equiprobable, con lo cual es

fácil ver que:

P (X = 0) = 25/36, P (X = 1) = 10/36 y P (X = 2) = 1/36

�

Ejemplo 2.8

Para la variable Y definida en el Ejemplo 2.2, el espacio muestral Ω es el mismo del

29

Ejemplo 2.7. Luego podemos definir los eventos:

(Y = 1) = {(1, 1)}

(Y = 2) = {(1, 2); (2, 1); (2, 2)}

(Y = 3) = {(1, 3); (3, 1); (2, 3); (3, 2); (3, 3)}

(Y = 4) = {(1, 4); (4, 1); (2, 4); (4, 2); (3, 4); (4, 3); (4, 4)}

(Y = 5) = {(1, 5); (5, 1); (2, 5); (5, 2); (3, 5); (5, 3); (4, 5); (5, 4); (5, 5)}

(Y = 6) = {(1, 6); (6, 1); (2, 6); (6, 2); (3, 6); (6, 3); (4, 6); (6, 4); (5, 6); (6, 5); (6, 6)}

Si el dado es equilibrado, podemos calcular las probabilidades P (Y = y) para valores de

y = 1, 2, 3, 4, 5, 6 como:

P (Y = 1) = 1/36 P (Y = 2) = 3/36 P (Y = 3) = 5/36

P (Y = 4) = 7/36 P (Y = 5) = 9/36 P (Y = 6) = 11/36

�

Función de frecuencia de probabilidad

Definición:

Sea X una v.a. discreta y vX su conjunto de valores. Se define la función de frecuencia

de probabilidad (o simplemente función de frecuencia) de X como:

f(x) = P (X = x) para todos los x ∈ vX

La función de frecuencia nos permite calcular probabilidades referidas a la v.a. X:

P (X ∈ A) =∑

x∈Ax∈vX

f(x), para todo A ⊆ R (2.1)

En particular si A = [a, b]:

P (a ≤ X ≤ b) =∑

a≤x≤bx∈vX

f(x), para todo a, b ∈ R (2.2)

PROPIEDAD 2.1: Sea X v.a. discreta, su función de frecuencia f cumple:

• f(x) ≥ 0, para todo x ∈ vX

•∑

x∈vXf(x) = 1.

30

EJERCICIO 2.1

1. Demostrar la Propiedad 2.1.

2. SeaX una v.a. discreta con vX = {−3, 1, 5, 8}. ¿Cuáles de las siguientes funciones correspondea una función de frecuencia de X? Justifique.

• f(1) = 0.2, f(−3) = 0.3, f(5) = 0.5002, f(8) = −0.0002.

• f(1) = 1/8, f(−3) = 1/2, f(5) = 1/8 y f(8) = 1/4.

• f(1) = 5/12, f(−3) = 1/6, f(5) = 1/4 y f(8) = 3/4.

Ejemplo 2.9

0.1

0.2

0.3

0.4

0.5

0.6

0.7

1 2

x

f(x)

25/36

10/36

1/36

0 A

La función de frecuencia de la v.a. X definida en el Ejemplo 2.7, está

dada por:

x 0 1 2

f(x) 25/36 10/36 1/36

Se puede comprobar fácilmente que verifica la Propiedad 2.1. La gráfi-

ca de la función de frecuencia se encuentra a la izquierda (por con-

vención las frecuencias se grafican como segmentos verticales).

A partir de esta función se pueden determinar, por (2.1), todas las

probabilidades que uno desee. Por ejemplo, si A = (0, 1.5)

P (X ∈ A) = P (0 < X < 1.5) = P (X = 1) = f(1) = 1036

.

�

Ejemplo 2.10

La función de frecuencia de la v.a. Y hallada en el Ejemplo 2.8 se

resume en la siguiente tabla:

y 1 2 3 4 5 6

f(y) 1/36 3/36 5/36 7/36 9/36 11/36

La cual también verifica la Propiedad 2.1.

Si se define el evento A= “el máximo de los dos valores está entre 3

y 5 inclusive”, este evento puede escribirse como A = (3 ≤ Y ≤ 5)y su probabilidad se calcula como:

0.1

0.2

0.3

1 2 3 4 5 6

y

f(y)

0A

1/36

3/36

5/36

7/36

9/36

11/36

31

P (A) = P (3 ≤ Y ≤ 5) =∑

3≤y≤5f(y) =

5∑

y=3

f(y)(por (2.2)

)

= f(3) + f(4) + f(5) = 5/36 + 7/36 + 9/36 = 21/36.

�

Función de distribución o función de distribución acumulada

Definición:

La función de distribución o función de distribución acumulada de una v.a. X se

define como:

F (x) = P (X ≤ x) para todo x ∈ R. (2.3)

Se puede comprobar fácilmente que la función de distribución cumple:

• es una función no decreciente: si a, b ∈ R y a < b entonces F (a) ≤ F (b)

• toma valores entre 0 y 1

Notación

En general abreviaremos función de distribución acumulada escribiendo fda.

PROPIEDAD 2.2: Sea F la fda de la v.a. X, sean a, b ∈ R tales que a < b, entonces secumple:

P (a < X ≤ b) = F (b)− F (a)

Demostración: Como a < b entonces podemos escribir (X ≤ b) = (X ≤ a) ∪ (a < X ≤ b) yestos dos eventos son disjuntos entonces por (A3), la Ley aditiva:

P (X ≤ b) = P (X ≤ a) + P (a < X ≤ b),

por lo tanto, despejando y aplicando (2.3), obtenemos que P (a < X ≤ b) = F (b)− F (a).

32

Aclaración

Notar que en la definición anterior y en la Propiedad 2.2 no estamos aclarando que la v.a. X sea

una v.a. discreta. Es decir, la definición y esta propiedad son válidas tanto para v.a. discretas

como para continuas.

Cuando la v.a. X es discreta, la fda se calcula como:

F (x) = P (X ≤ x) =∑

k≤xk∈vX

f(k) (2.4)

Entonces, la función de distribución de una v.a. discreta es escalonada, con saltos en los valores

que toma la variable y constante en el resto. Notar que la magnitud del salto es igual a la función

de frecuencia en este valor (ver el siguiente ejemplo).

Ejemplo 2.11

Se puede calcular la fda de la v.a. X del Ejemplo 2.9, utilizando (2.4), de la siguiente manera:

• Si x < 0, F (x) = P (X ≤ x) =∑

k≤xf(k) = 0

0 1 2x

• Si 0 ≤ x < 1, F (x) = P (X ≤ x) =∑

k≤xf(k) = f(0) =

25

36

0 1 2x

• Si 1 ≤ x < 2, F (x) = P (X ≤ x) =∑

k≤xf(k) = f(0)+f(1) =

35

36

0 1 2x

• Si x ≥ 2, F (x) = P (X ≤ x) =∑

k≤xf(k) = f(0)+f(1)+f(2) = 1

0 1 2 x

Resumiendo, la función de distribución

para la v.a X es:

F (x) =

0 si x < 0

25/36 si 0 ≤ x < 135/36 si 1 ≤ x < 21 si x ≥ 2

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

1 2

x

F (x)

0

25/36

35/36

�

33

Ejemplo 2.12

De la misma manera se puede calcular la fda de la v.a. Y del Ejemplo 2.10. Resumiendo, la

función de distribución para la v.a Y es:

F (y) =

0 si y < 1

1/36 si 1 ≤ y < 24/36 si 2 ≤ y < 39/36 si 3 ≤ y < 416/36 si 4 ≤ y < 525/36 si 5 ≤ y < 61 si y ≥ 6

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

1 2 3 4 5 6

y

F (y)

0

1/36

4/36

9/36

16/36

25/36

Luego, la probabilidad de cualquier evento que se relacione con el máximo de las dos tiradas

puede calcularse usando esta función de distribución. Por ejemplo, sean los eventos:

A = “el máximo de las dos tiradas es a lo sumo 3”,

B = “el máximo de las dos tiradas es 4” y

C = “el máximo es mayor que 2 y menor que 5”.

Entonces sus probabilidades son:

P (A) = P (Y ≤ 3) = F (3) = 9/36

P (B) = P (Y = 4) = P (Y ≤ 4)− P (Y ≤ 3) = F (4)− F (3) = 7/36

P (C) = P (2 < Y < 5) = P (2 < Y ≤ 4) = F (4)− F (2) = 1/3�

EJERCICIO 2.2

Calcular para cada una de las siguientes v.a. X la función de frecuencia y la fda. Graficar ambas

funciones.

1. Supongamos un juego donde se tira un dado y usted gana $12 si en el dado sale 6 y

pierde $3 si sale otro número. Sea la v.a. X = “ganancia en este juego” y vX = {−3, 12}, endonde -3 refleja que se han perdido $3, lo que representa una ganancia negativa.

2. Cinco pelotas numeradas del 1 al 5 se colocan en una urna. Se seleccionan dos de ellas al

azar. Sea la v.a. X = “el mayor número obtenido”.

3. Una pieza de equipo electrónico contiene 6 chips de computadora, dos de los cuales son

defectuosos. Al azar se seleccionan tres chips, se retiran del equipo y se inspeccionan. Sea la

v.a. X = “el número de chips defectuosos observados”.

34

Variables aleatorias independientes

Tal como definimos el concepto de independencia entre dos eventos A y B, definimos la inde-

pendencia de v.a. Lo que queremos decir intuitivamente es que si X e Y son v.a. independientes,

el resultado de una de ellas no influye en el resultado de la otra.

Definición:

Las v.a. X, Y son independientes si y sólo si para todo a, b ∈ R, los eventos (X ≤ a) e(Y ≤ b) son independientes.

!Observación:

En particular, para v.a. discretas, se puede decir que X e Y son independientes

si y sólo si para todo a, b ∈ R, los eventos (X = a) e (Y = b) son independientes.

Esta noción será útil para representar los resultados de experimentos que no se influyen mu-

tuamente.

Ejemplo 2.13

Se arrojan dos dados equilibrados a la vez, uno de color rojo y el otro verde. Considerar las v.a.:

X = “el número del dado rojo”.

Y = “el número del dado verde”.

Z = “la suma de los dos dados”.

¿Las v.a. X e Y son independientes? ¿Las v.a. X y Z son independientes?

Primero veamos las funciones de frecuencia de estas tres variables. El espacio muestral en este

caso es: Ω = {(1, 1); (1, 2); . . . ; (1, 6); (2, 1); (2, 2); . . . ; (2, 6); . . . ; (6, 1); (6, 2); . . . ; (6, 6)}, donde laprimer coordenada es el resultado del dado rojo y la segunda es el resultado del dado verde.

Luego podemos definir los eventos:

(X = a) = {(a, 1); (a, 2); (a, 3); (a, 4); (a, 5); (a, 6)}, para todo a ∈ {1, 2, . . . , 6}

(Y = b) = {(1, b); (2, b); (3, b); (4, b); (5, b); (6, b)}, para todo b ∈ {1, 2, . . . , 6}

(Z = 2) = {(1, 1)}

35

(Z = 3) = {(1, 2); (2, 1)}

(Z = 4) = {(1, 3); (2, 2); (3, 1)}...

(Z = 10) = {(4, 6); (5, 5); (6, 4)}

(Z = 11) = {(5, 6); (6, 5)}

(Z = 12) = {(6, 6)}

Es claro que fX(a) = P (X = a) = 6/36 = 1/6 para todo a ∈ {1, 2, . . . , 6},fY (b) = P (Y = b) = 6/36 = 1/6 para todo b ∈ {1, 2, . . . , 6} y

z 2 3 4 5 6 7 8 9 10 11 12

fZ(z) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

Para todo a, b ∈ {1, 2, . . . , 6}, P((X = a) ∩ (Y = b)

)= 1/36 y

P (X = a) × P (Y = b) = 1/6 × 1/6 = 1/36, es decir, (X = a) e (Y = b) son independien-tes. Por lo tanto, las v.a. X e Y son v.a. independientes.

Por otro lado, P((X = 1) ∩ (Z = 2)

)= P

({(1, 1)}

)= 1/36 y

P (X = 1) × P (Z = 2) = 1/6 × 1/36 = 1/216 6= 1/36, es decir, (X = 1) y (Z = 2) no sonindependientes. Por lo tanto, las v.a. X y Z no son v.a. independientes.

�

Valor esperado o media

El valor esperado de una variable aleatoria (llamado también esperanza matemática, valor

medio, o media) es el promedio pesado de los valores que toma, en donde cada valor recibe un

peso igual a su probabilidad. La media es una medida de centralidad, es decir, nos da un centro

alrededor del cual se distribuyen los valores de la v.a.

Definición:

Sea X una v.a. discreta con valores en el conjunto vX y función de probabilidad f , se define

el valor esperado de X como:

E(X) =∑

x∈vXxf(x), (2.5)

si se cumple que∑

x∈vX|x|f(x) < ∞. Si esta suma diverge se dice E(X) no existe.

El significado intuitivo del valor esperado es el siguiente: imaginemos que el experimento se

repite un gran número N de veces, y se toma el promedio de los valores de X observados en cada

36

repetición, entonces E(X) es el ĺımite de esos promedios cuando N tiende a infinito.

Ejemplo 2.14

Volvamos al juego del Ejercicio 2.2 en el que se tira un dado y usted gana $12 si en el dado sale

6 y pierde $3 si sale otro número. ¿Jugaŕıa usted a este juego? ¿Esperaŕıa ganar?

Veamos: primero definamos la v.a. X = “ganancia en este juego”, donde vX = {−3, 12}.Ahora, la función de probabilidad de esta v.a., que se obtuvo en el ejercicio, es:

x -3 12

f(x) 5/6 1/6

Como en este caso vX es finito, sabemos que existe la esperanza y la podemos calcular como:

E(X) = −3× 5/6 + 12× 1/6 = −3/6 = −0.5

Luego, el valor que uno espera ganar es -0.5. Esto significa que si usted jugara muchas veces a

este juego, algunas veces ganaŕıa, otras perdeŕıa, pero el promedio final es negativo, a la larga

no espere ganar!!!

�

Valor esperado o media de una función de una v.a.

Si queremos calcular por definición la esperanza de una v.a. Y , que es función de una v.a.

discreta X, debeŕıamos calcular su función de frecuencia. Pero si se conoce de antemano la función

de frecuencia de X, la siguiente proposición nos permite calcular la media de Y de una manera

más sencilla.

PROPOSICIÓN 2.1: Sea X una v.a. discreta con valores en el conjunto vX y función

de frecuencia f y h : R → R una función cualquiera, entonces Y = h(X) es una v.a. cuyamedia se calcula como:

E(Y ) = E(h(X)

)=∑

x∈vXh(x)f(x) (2.6)

si se cumple que∑

x∈vX|h(x)|f(x) < ∞. Si esta suma diverge se dice E(Y ) no existe.

Aceptamos este resultado sin demostración.

Una consecuencia inmediata de la proposición anterior, es que el valor medio tiene la siguiente

propiedad:

37

PROPIEDAD DE LINEALIDAD DE LA ESPERANZA: Sea X una v.a. con media

E(X) y sean a y b números reales, entonces

E(aX + b) = aE(X) + b. (2.7)

Demostración: Si X es discreta con valores en el conjunto vX y función de probabilidad f , la

demostración de esta propiedad es simple, utilizando la Proposición anterior con h(X) = aX + b,

tenemos que:

E(aX + b) =∑

x∈vX(ax+ b)f(x)

=∑

x∈vX

(axf(x) + bf(x)

) (distributiva en el sumando

)

= a∑

x∈vXxf(x) + b

∑

x∈vXf(x)

(distributiva y factor común en la sumatoria

)

= aE(X) + b(por (2.5) y por la Propiedad 2.1

).

EJERCICIO 2.3

Sea X una v.a. discreta con función de frecuencia de X:

x 0 1 2 3 4

f(x) 0.08 0.15 0.45 0.27 0.05

1. Calcular la E(√X).

2. Calcular la E(−2√X + 3.5).

Varianza y desviación t́ıpica

Ya definimos que la media es una medida de centralidad. Ahora, vamos a definir un parámetro

que nos da una idea de la dispersión de los valores de X alrededor de su valor medio.

Definición:

Sea X una v.a. que tiene media E(X), se define la varianza de X como:

var(X) = E[(X − E(X)

)2](2.8)

cuando dicha esperanza existe. Y se define la desviación t́ıpica (o estándar) como:

dt(X) =√var(X) (2.9)

38

La var(X) (o V (X)) se expresa en las unidades de X al cuadrado, pero dt(X) se expresa en

las mismas unidades que X.

La siguiente propiedad nos permite una forma práctica de calcular la varianza.

PROPIEDAD 2.3: La definición de var(X) es equivalente a:

var(X) = E(X2)−(E(X)

)2

Demostración: Sea X una v.a. discreta con valores en el conjunto vX , función de probabilidad

f y llamamos E(X) = µ:

var(X) = E[(X − µ)2

]= E(X2 − 2Xµ+ µ2) (desarrollo del cuadrado)

=∑

x∈vX(x2 − 2xµ+ µ2)f(x)

(por (2.6)

)

=∑

x∈vXx2f(x)− 2µ

∑

x∈vXxf(x) + µ2

∑

x∈vXf(x) (distributiva y factor común)

= E(X2)− 2µ2 + µ2(por (2.5), (2.6) y Propiedad 2.1

)

= E(X2)− µ2

PROPIEDAD 2.4: Sea X una v.a. y sean a y b números reales. Entonces:

var(aX + b) = a2var(X) (2.10)

dt(aX + b) = |a| dt(X)

Demostración: Por la definición dada en (2.8), tenemos que:

var(aX + b) = E[((aX + b)− E(aX + b)

)2]

Luego,

E[((aX + b)− E(aX + b)

)2]= E

[(aX + ✁b − aE(X)− ✁b)2

] (por (2.7)

)

= E[(a(X − E(X))

)2] (factor común

)

= E[a2(X − E(X)

)2]

= a2E[(X − E(X)

)2](∗)

= a2var(X)(por (2.8)

)

En (∗) observar que si Y =(X −E(X)

)2es una v.a. y por (2.7) tenemos que E(a2Y ) = a2E(Y ).

39

Por último:

dt(aX + b) =√var(aX + b)

(por (2.9)

)

=√a2var(X)

(por (2.10)

)

=√a2√var(X)

(distributiva de la ráız

)

= |a| dt(X)(por (2.9)

)

Ejemplo 2.15

0.1

0.2

0.3

0.4

1 2 3 4 5 6

x

f(x)

0E(X)

0.1

0.2

0.3

0.4

1 2 3 4 5 6 7

y

f(y)

0E(Y )

Aún cuando ambas distribuciones ilustradas tienen la misma media (E(X) = E(Y ) = 3), la

distribución de la v.a. Y tiene mayor dispersión o variabilidad que la v.a. X. Calcule las varianzas

en ambos casos y compare.

�

Algunas variables aleatorias discretas

Se pueden hallar ejemplos de v.a. discretas en numerosas aplicaciones cotidianas y en casi

todas las disciplinas. No obstante, hay dos distribuciones de probabilidad discretas que sirven para

modelizar un gran número de estas aplicaciones, la distribución de probabilidad binomial y la

distribución de Poisson, las cuales estudiaremos en esta sección.

40

Distribución binomial

Definición:

Un experimento binomial es el que cumple las siguientes condiciones:

1. El experimento consiste en n repeticiones idénticas de un ensayo que toma dos resul-

tados posibles, que se denotan éxito (E) y fracaso (F ).

2. Las repeticiones son independientes, lo que significa que el resultado de cualquier

repetición particular no influye en el resultado de ninguna otra.

3. La probabilidad de éxito es constante en cada repetición del ensayo, esta probabilidad

se denota con P (E) = p. Se deduce aśı, que la probabilidad de fracaso será igual a

P (F ) = 1− p.

Con este tipo de experimentos se asocia la v.a. binomial.

Ejemplo 2.16

Supongamos que en un hospital hay 3 pacientes internados con determinada enfermedad, a los

cuales se les aplica el mismo tratamiento (estos individuos no son parientes). Supongamos que

la probabilidad de que un individuo se recupere en una semana de tratamiento es 0.8 (p = 0.8).

Sea Y la variable aleatoria que cuenta el número de individuos que se recuperan en una semana

de tratamiento entre los 3. Los posibles resultados y sus respectivas probabilidades se resumen

en la siguiente tabla, donde S y N indican que el individuo se recupera y no se recupera:

Ω: resultados posibles de la Probabilidad del resultado obtenido Valores

evolución de 3 pacientes (Se utiliza independencia) de Y

(S, S, S) 0.8× 0.8× 0.8 = 0.83 = 0.83 × (1− 0.8)0 3

(S, N, N) 0.8× (1− 0.8)× (1− 0.8) = 0.81 × (1− 0.8)2 1

(N, S, N) (1− 0.8)× 0.8× (1− 0.8) = 0.81 × (1− 0.8)2 1

(N, N, S) (1− 0.8)× (1− 0.8)× 0.8 = 0.81 × (1− 0.8)2 1

(S, S, N) 0.8× 0.8× (1− 0.8) = 0.82 × (1− 0.8)1 2

(S, N, S) 0.8× (1− 0.8)× 0.8 = 0.82 × (1− 0.8)1 2

(N, S, S) (1− 0.8)× 0.8× 0.8 = 0.82 × (1− 0.8)1 2

(N, N, N) (1− 0.8)× (1− 0.8)× (1− 0.8) = 0.80 × (1− 0.8)3 0

Si nos interesa únicamente saber cuántos pacientes se recuperan en la primera semana de

tratamiento (el valor de Y ), y las respectivas probabilidades, se puede resumir aún más:

41

Valor de Y Probabilidad

0 1× 0.80 × (1− 0.8)3

1 3× 0.81 × (1− 0.8)2

2 3× 0.82 × (1− 0.8)1

3 1× 0.83 × (1− 0.8)0

Veamos con detalle cómo se llegó a estos resultados tomando uno de los casos como ejemplo:

f(1) = P (Y = 1) = P{(S,N,N), (N,S,N), (N,N, S)}

= P{(S,N,N)}+ P{(N,S,N)}+ P{(N,N, S)} (por ser disjuntos)

= 0.81 × (1− 0.8)2 + 0.81 × (1− 0.8)2 + 0.81 × (1− 0.8)2 = 3× 0.81 × (1− 0.8)2

Generalizando, la función de frecuencia de la v.a. Y es la que se muestra en el siguiente

cuadro:

Valor de Y Probabilidad

0 1× 0.80× (1− 0.8)3 =

(

3

0

)

× 0.80 × (1− 0.8)3−0

1 3× 0.81× (1− 0.8)2 =

(

3

1

)

× 0.81 × (1− 0.8)3−1

2 3× 0.82× (1− 0.8)1 =

(

3

2

)

× 0.82 × (1− 0.8)3−2

3 1× 0.83× (1− 0.8)0 =

(

3

3

)

× 0.83 × (1− 0.8)3−3

�

Definición:

El número total de éxitos observados entre los n ensayos de un experimento binomial, es

una variable aleatoria binomial con parámetros n y p.

Los valores que puede tomar esta variable son: vX = {0, 1, 2, . . . , n}.La función de frecuencia de X es:

f(k) = P (X = k) =(nk

)pk(1− p)n−k, k ∈ vX (2.11)

donde(nk

)=

n!

k!(n− k)! .

Notación

Si X es una v.a. binomial con parámetros n y p, lo denotaremos como X ∼ B(n, p).

Para demostrar que la expresión (2.11) representa una función de frecuencia leǵıtima se debe

verificar la Propiedad 2.1, es decir:

42

• f(k) =(nk

)pk(1− p)n−k ≥ 0, para todo k ∈ vX

•n∑

k=0

f(k) =n∑

k=0

(nk

)pk(1−p)n−k = 1 (en este caso se usa el Teorema del binomio de Newton).

Ejemplo 2.17

Se arroja cinco veces una moneda equilibrada. Se desea calcular la función de frecuencia y de

distribución del número de caras en las cinco tiradas.

Definimos la v.a. X= “número de caras en las 5 tiradas”. Como X ∼ B(5, 0.5) entoncesvX = {0, 1, 2, 3, 4, 5}. Luego las gráficas de f y F son:

0.1

0.2

0.3

1 2 3 4 5

x

f(x)

0

0.0313

0.1562

0.3125

0.2

0.4

0.6

0.8

1.0

1 2 3 4 5

x

F (x)

0

0.0313

0.1875

0.5

0.8125

0.9688

�

PROPOSICIÓN 2.2: Si X ∼ B(n, p), entonces:

• E(X) = np

• V (X) = np(1− p)

• dt(X) =√

np(1− p)

Esta proposición se puede demostrar utilizando la definición de esperanza y varianza para una

v.a. discreta, y recordando además, el Teorema del binomio de Newton.

43

Ejemplo 2.18

Para la v.a. X del Ejemplo 2.17, se tiene que E(X)=5×0.5 = 2.5, V (X)=5×0.5×(1−0.5)=1.25y dt(X) =

√1.25 = 1.1180.

Para la v.a. Y ∼ B(3, 0.8), del Ejemplo 2.16, tenemos que E(Y ) = 3 × 0.8 = 2.4,V (Y ) = 3× 0.8× (1− 0.8) = 0.48 y dt(Y ) =

√0.48 = 0.6928.

�

EJERCICIO 2.4

De una urna que contiene una bola blanca y nueve bolas negras, se hacen cinco extracciones suce-

sivas con reemplazo. Llamamos X al número de bolas blancas obtenidas en las cinco extracciones.

1. Indicar la distribución de probabilidad de X, su rango y cuales son sus parámetros.

2. ¿Cuál es la probabilidad de que se saquen exactamente dos bolas blancas?

3. ¿Cuál es la probabilidad de obtener al menos dos bolas blancas?

4. ¿Cuál es la probabilidad de que se saque no más de tres bolas blancas?

Definición:

Si n = 1, o sea X ∼ B(1, p), la v.a. X toma sólo los valores: 1 con probabilidad p y 0 conprobabilidad 1− p. En este caso se dice que X tiene distribución de Bernoulli.

Resumimos en una tabla la función de frecuencia de X:

x 0 1

f(x) 1− p p

!

Observación:

En general, cuando se realizan extracciones con reposición, como en el Ejercicio

2.4, estamos en presencia de un experimento binomial.

Por el contrario, si las extracciones son sin reposición, el resultado de cada ex-

tracción depende de las anteriores, de modo que no vale la hipótesis de indepen-

dencia y por ende no es un experimento binomial. Sin embargo, si la población

es grande y la muestra extráıda no supera el 5% del tamaño de la población,

cada extracción puede considerarse “prácticamente” independiente de las ante-

riores y es posible analizar el experimento como binomial. En consecuencia, la

v.a. número de éxitos en esas extracciones puede pensarse como binomial.

44

EJERCICIO 2.5

En cada caso, indicar si el experimento puede ser considerado binomial recordando las condiciones

que debeŕıan cumplirse y justificando correctamente.

1. Se tiene una urna con 15 bolillas blancas y 5 verdes. Se extraen al azar y con reemplazo 3

bolillas y se observa si son blancas.

2. Se tiene una urna con 15 bolillas blancas y 5 verdes. Se extraen al azar y sin reemplazo 3

bolillas y se observa si son blancas.

3. Se realizan tres extracciones sin reemplazo de una urna que contiene 1500 bolillas blancas y

500 verdes, interesa observar si se seleccionaron bolillas blancas.

Distribución de Poisson

Definición:

Se dice que una v.a. X tiene distribución de Poisson con parámetro λ (λ > 0) si su

función de frecuencia es:

f(x) = e−λλx

x!para x = 0, 1, 2, . . . (2.12)

Notación

Si la v.a. X tiene distribución de Poisson con parámetro λ, lo denotaremos como: X ∼ P (λ).

La distribución de Poisson sirve para modelizar el número X de eventos que ocurren aleatoria-

mente en el tiempo o en una región. A continuación veamos algunos ejemplos de experimentos en

los cuales la variable aleatoria puede ser modelizada con distribución de Poisson:

• El número de llamadas recibidas por un conmutador durante un tiempo determinado.

• El número de bacterias por volumen de fluido.

• El número de llegadas de clientes al mostrador de una caja de pago en un tiempo determinado.

• El número de descomposturas de una máquina durante cierto d́ıa.

• El número de accidentes de tránsito en un cruce dado durante un tiempo establecido.

• El número de árboles de determinada especie distribuidos aleatoriamente en un área.

Algunos de estos ejemplos son procesos temporales, interesa conocer cuántas veces ocurre un

evento en un intervalo de tiempo, y otros son procesos espaciales, interesa conocer cuántos “puntos”

hay en un volumen o un área.

45

Definición:

Se denomina proceso temporal de Poisson cuando cumple con las siguientes caracteŕısti-

cas:

• Invariancia: las condiciones no cambian en el tiempo.

• Falta de memoria: lo que sucede en el intervalo de tiempo [0, t) no influye en lo quesuceda en el intervalo [s, r) para r > s > t.

• Sucesos aislados: la probabilidad de que en un intervalo de tiempo muy corto ocurramás de una vez el evento, es despreciable comparada con la probabilidad de que ocurra

una vez o ninguna.

Para un proceso de este tipo, si Xt es la v.a. que mide el número de veces que ocurre el evento

en un intervalo de tiempo de longitud t, puede verse que Xt es una variable aleatoria discreta cuya

función de frecuencia está dada por:

f(x) = e−c×t(c× t)x

x!para x = 0, 1, 2, . . .

Comparando con la expresión (2.12), se puede ver que Xt tiene distribución de Poisson con paráme-

tro λt = c × t, donde c es una constante positiva que indica la cantidad de veces que ocurre elevento de interés por unidad de tiempo, c se llama tasa de ocurrencia del proceso.

Ejemplo 2.19

Llegan clientes a un mostrador de un negocio con una distribución de Poisson a una tasa de 5

por hora. Si queremos saber cuál es la probabilidad de que no lleguen más de tres clientes en

una hora, definimos la v.a. X1 =“cantidad de clientes que llegan al mostrador en una hora”.

Entonces X1 ∼ P (λ1), pues λ1 = 5× 1. Aśı, la probabilidad pedida es:

P (X1 ≤ 3) = F (3) = 0.2650 (por Tabla)

Sin embargo, si queremos calcular la probabilidad de que lleguen al menos 6 clientes en dos horas,

no podemos utilizar la v.a. X1 antes definida, tendremos que redefinirla, ya que el intervalo de

tiempo ahora es de 2 hs. Luego, X2 =“cantidad de clientes que llegan al mostrador en dos horas”,

X2 ∼ P (λ2), ya que λ2 = 5× 2 = 10. El cálculo de la probabilidad pedida es:

P (X2 ≥ 6) = 1− P (X2 < 6) = 1− P (X2 ≤ 5) = 1− F (5) = 1− 0.0671 = 0.9329 (por Tabla)

Por último, si queremos calcular la probabilidad de que lleguen exactamente 5 clientes en media

hora, X1/2 =“cantidad de clientes que llegan al mostrador en media hora”, X1/2 ∼ P (2.5) y

P (X1/2 = 5) = e−2.5 2.5

5

5!= 0.0668

Las gráficas de la función de frecuencia para las v.a. X1, X1/2 y X2 son, respectivamente:

46

0.05

0.10

0.15

0.20

0.25

1 2 3 4 5 6 7 8 9 1011

x

f(x)

0

X1 ∼ P (5)

0.05

0.10

0.15

0.20

0.25

1 2 3 4 5 6 7 8 9

x

f(x)

0

X1/2∼P (2.5)

0.05

0.10

0.15

0.20

0.25

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

x

f(x)

0

X2 ∼ P (10)

�

Definición:

Se denomina proceso espacial de Poisson cuando cumple con las siguientes

caracteŕısticas:

• Homogeneidad espacial: la probabilidad de que un punto este en una región dada,sólo depende del tamaño de esa región (área o volumen) y no de su forma o posición.

• No interacción: lo que ocurre en una región es independiente de lo que ocurre enotra, si no se superponen.

La v.a.Xa que mide el número de “puntos” en una región de área o volumen a, tiene distribución

de Poisson con parámetro λa = c×a, donde c se interpreta como la tasa de ocurrencia del proceso.

Ejemplo 2.20

La distribución de plantas de cierta especie en una zona sigue un proceso de Poisson con una

tasa de 5 plantas por metro cuadrado. Si deseamos calcular la probabilidad de no hallar plantas

en un área cuadrada de 1 metro de lado, definimos la v.a. X1 = “número de plantas en una

región cuadrada de área 1 m2”, donde X1 ∼ P (λ1) con λ1 = 5 × 1. Es decir, X1 ∼ P (5) y laprobabilidad pedida es P (X1 = 0) = e

−5 × 500! = 0.0067.Ahora, ¿de qué medida debe ser tomado el radio r de una región circular de muestreo para que

la probabilidad de hallar al menos una planta de esa especie sea por lo menos 0.99? Necesitamos

definir otra v.a. Xa = “número de plantas en una región circular de área a m2”, donde Xa ∼

P (λa) y λa = c× a, entonces el planteo es

P (Xa > 0) ≥ 0.99 (2.13)

Si la región de muestreo es circular de radio r, el área de esa región es a = π × r2, y la v.a.

47

Xa que mide el número de plantas en esa región tendrá distribución de Poisson con parámetro

λa = c× a = 5× (π × r2), entonces,

P (Xa > 0) = 1− P (Xa ≤ 0) = 1− P (Xa = 0)

= 1− e−5×π×r2 (5× π × r2)0

0!= 1− e−5×π×r2 .

Luego, si reemplazamos en (2.13), obtenemos:

1− e−5×π×r2 ≥ 0.99

0.01− e−5×π×r2 ≥ 0 (restando de ambos lados 0.99)

0.01 ≥ e−5×π×r2 (sumando de ambos lados e−5×π×r2)

ln(0.01) ≥ ln(e−5×π×r2) (aplicando de ambos lados la función ln)

ln(0.01) ≥ −5× π × r2 (por propiedad de función inversa)ln(0.01)

−5× π ≤ r2 (dividiendo en ambos lados por − 5× π)

[− ln(0.01)5× π

]1/2≤ r (aplicando en ambos lados ráız cuadrada)

0.5415 ≤ r

Por lo tanto, el radio de la región circular de muestreo debe ser de al menos 0.5415 metros para

poder hallar alĺı una planta o más, con probabilidad mayor o igual a 0.99.

�

EJERCICIO 2.6

Se está registrando la emisión de part́ıculas radiactivas y se supone que es un proceso de Poisson

con tasa 6 por minuto.

1. ¿Cuál es la probabilidad de que no haya registro de emisión de part́ıculas en un peŕıodo de

1 minuto?

2. ¿Cuál es la probabilidad de que en un peŕıodo de 30 segundos ocurran al menos dos emisiones?

3. Si no hubo registro de emisión entre las 9:10 AM y las 9:12 AM, ¿cuál es la probabilidad de

que ocurra una emisión entre las 10:10 AM y las 10:12 AM?

4. ¿Cuál es el peŕıodo de tiempo para que la probabilidad que haya al menos una emisión sea

mayor a 0.95?

48

PROPOSICIÓN 2.3: Si X tiene una distribución de Poisson con parámetro λ, X ∼ P (λ),entonces:

• E(X) = λ

• V (X) = λ

• dt(X) =√λ

Estos resultados también se pueden obtener de manera directa de las definiciones de media y

varianza de una v.a. discreta.

Ejemplo 2.21

En base al Ejemplo 2.19, tenemos las siguientes v.a. X1 ∼ P (5), X2 ∼ P (10) y X1/2 ∼ P (2.5)entonces:

E(X1) = V (X1) = 5 dt(X1) = 2.2361

E(X2) = V (X2) = 10 dt(X2) = 3.1623

E(X1/2) = V (X1/2) = 2.5 dt(X1/2) = 1.5811

�

Aproximación de Poisson a la binomial

Si X ∼ B(n, p), se puede demostrar que cuando n es grande y p pequeño, vale la siguienteaproximación:

f(k) = P (X = k) =(nk

)pk(1− p)n−k ∼= e−λ λ

k

k!k ∈ vX y λ = np

Es decir, X ≈ P (np). La notación ≈ significa que tiene aproximadamente esa distribución.Esta aproximación es aceptable si p ≤ 0.05 y n ≥ 20.

Ejemplo 2.22

Se sabe que un peso muy bajo en el nacimiento, menor a 1500 gr, es una de las causas de

mortalidad infantil. Se conoce que en determinada población, el porcentaje de niños con muy

bajo peso al momento de nacer es de 1,2%. Si consideramos 200 nacimientos en un hospital de

esa población, ¿cuál es la probabilidad de que el número de recién nacidos con muy bajo peso

en ese grupo sea mayor a 3?

Sea la v.a.X =“número de niños con muy bajo peso entre los 200 nacimientos de un hospital”,

49

X ∼ B(200, 0.012) entonces:

P (X > 3) = 1− P (X ≤ 3) = 1−3∑

k=0

(200

k

)0.012k(1− 0.012)200−k = 1− 0.7795 = 0.2205

Como p = 0.012 ≤ 0.05 y n ≥ 20, se puede usar la aproximación de Poisson a la binomial yaśı facilitar las cuentas. Por lo tanto:

X ≈ P (200× 0.012) ⇔ X ≈ P (2.4)

Entonces:

P (X > 3) = 1− P (X ≤ 3) ∼= 1− e−2.4[2.40

0!+

2.41

1!+

2.42

2!+

2.43

3!

]= 1− 0.7787 = 0.2213

La siguiente tabla muestra que tan buena es la aproximación de sus frecuencias:

k B(200, 0.012) P (2.4)

0 0.0894105 0.0907179

1 0.2171917 0.2177231

2 0.2624766 0.2612677

3 0.2104063 0.2090142

4 0.1258605 0.1254085

5 0.0599238 0.0601960

6 0.0236541 0.0240784

7 0.0079622 0.0082554

8 0.0023330 0.0024766

9 0.0006045 0.0006604

10 0.0001402 0.0001585

11 0.0000294 0.0000345

�

Referencias

Cramer, H. (1968). Elementos de la Teoŕıa de Probabilidades y algunas de sus aplicaciones. Madrid.

Ed. Aguilar.

Devore Jay, L. (2001). Probabilidad y Estad́ıstica para Ingenieŕıa y Ciencias. Ed. Books/Cole

Publishing Company.

Feller, W. (1975). Introducción a la Teoŕıa de Probabilidades y sus Aplicaciones. Ed. Limusa-Wiley

S.A.

Maronna, R. (1995). Probabilidad y Estad́ıstica Elementales para Estudiantes de Ciencias. Buenos

Aires. Ed. Exactas.

Mendenhall, W., Beaver, R. J. & Beaver, B. M. (2006). Introducción a la Probabilidad y Estad́ıstica.

México. Cengage Learning Editores.

Meyer Paul, L. (1970). Probabilidad y aplicaciones Estad́ısticas. Addison-Wesley Iberoamericana.

Parzen, E. (1987). Teoŕıa Moderna de Probabilidades y sus Aplicaciones. Ed. Limusa.

50

Ross, S. M. (1987). Introduction to Probability and Statistics for Enginees and Scientists. John

Wiley & Sons.

Ross, S. M. (1997). A first course in Probability. New Jersey. Pearson Prentice Hall.

Walpole, R. E. & Myers, R. H. (2007). Probabilidad y Estad́ıstica para Ingenieŕıa y Ciencias.

México. Ediciones McGraw-Hill.

51

CAPÍTULO 3

Variables aleatorias continuas

En este caṕıtulo estudiaremos variables aleatorias que pueden tomar valores en un intervalo de

números reales.

Función de densidad de probabilidad

Definición:

Se dice que un v.a. X, que toma valores en un intervalo de números reales, es continua si

existe una función f que cumple las siguientes condiciones:

• f(x) ≥ 0, para todo x ∈ R,

•∫ ∞

−∞f(x) dx = 1,

• P (X ∈ A) =∫

x∈Af(x) dx, para todo subconjunto A ⊆ R.

La función f es llamada función de densidad de probabilidad, o simplemente función

de densidad y la abreviaremos como fdp.

52

!

Observación:

Para una v.a. continua X, la probabilidad de

que tome valores en una región A incluida en

R, es igual al área bajo la curva densidad sobre

esa región. Por ejemplo, si A = (a, b), luego el

área sombreada en la gráfica corresponde al valor

P (X ∈ A). x

f(x)

0 a bA

Ejemplo 3.1

Sea X una v.a. con función de densidad dada por:

f(x) =

x si 0 ≤ x ≤ 11 si 1 < x ≤ 1.50 cc

Luego si A = [0.3, 1.2] podemos calcular:

0.5

1.0

0.5 1.0 1.5 2.0−0.5

x

f(x)

0 A

P (X ∈ A) =∫

x∈Af(x) dx =

∫ 1.2

0.3

f(x) dx

=

∫ 1

0.3

f(x) dx+

∫ 1.2

1

f(x) dx =

∫ 1

0.3

x dx+

∫ 1.2

1

1 dx = 0.655

�

Función de distribución o función de distribución acumulada

Igual que para una v.a. discreta, la función de distribución F de una v.a. X continua se define

como:

F (x) = P (X ≤ x) para todo x ∈ R.

y, en este caso, se calcula como:

F (x) = P (X ≤ x) =∫ x

−∞f(y) dy (3.1)

de donde se deduce que la función de distribución de una v.a. continua, es una función continua.

53

Aplicando el Teorema Fundamental del Cálculo Integral en (3.1), se obtiene que la derivada de

la función de distribución, en todos los puntos en los que la derivada existe, es la fdp:

f(x) =dF (x)

dx= F ′(x).

La función F preserva las siguientes propiedades que vimos para el caso discreto, es decir:

• es una función no decreciente

• toma valores entre 0 y 1

• para todo a, b ∈ R tales que a < b se cumple:

P (a < X ≤ b) = F (b)− F (a)

Como ya se mencionó antes, la fda de una v.a. continua es una función continua.

Es importante resaltar que si X es una v.a. continua entonces:

P (X = a) = 0, para todo a ∈ R.

Luego, es evidente que para una v.a. continua y a, b ∈ R:

P (a < X < b) = P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a ≤ X < b)

Ejemplo 3.2

Sea X una v.a. con función de densidad dada por:

f(x) =

1

4si 0 ≤ x ≤ 1

1

x2si 1 < x ≤ 4

0 cc0.2

0.4

0.6

0.8

1.0

1 2 3 4 5

x

f(x)

0

1/4

1/16

Calculemos la fda de X, es decir, la expresión de la función F (x) = P (X ≤ x) =∫ x

−∞f(t) dt.

La función f no tiene la misma expresión en todo el eje real, ésto se muestra a continuación en

un simple esquema:

0 1 4

f(t)=0 f(t)=1/4 f(t)=1/t2 f(t)=0

Para hallar la función F se procede de la siguiente manera:

• Si x < 0, F (x) =∫ x

−∞f(t) dt =

∫ x

−∞0 dt = 0

0 1 4x

• Si 0 ≤ x ≤ 1, F (x) =∫ x

−∞f(t) dt =

∫ 0

−∞f(t) dt +

∫ x

0

f(t) dt =0 1 4x

54

∫ 0

−∞0 dt+

∫ x

0

1

4dt =

x

4

• Si 1 < x ≤ 4, F (x) =∫ x

−∞f(t) dt =

∫ 0

−∞f(t) dt+

∫ 1

0

f(t) dt+

∫ x

1

f(t) dt =0 1 4x

∫ 0

−∞0 dt+

∫ 1

0

1

4dt+

∫ x

1

1

t2dt =

5

4− 1

x

• Si x > 4, F (x)=∫ x

−∞f(t) dt=

∫ 0

−∞f(t) dt+

∫ 1

0

f(t) dt+

∫ 4

1

f(t) dt+

∫ x

4

f(t) dt=0 1 4 x

∫ 0

−∞0 dt+

∫ 1

0

1

4dt+

∫ 4

1

1

t2dt+

∫ x

4

0 dt = 1

Ésto se resume aśı:

F (x) =

0 si x < 0

x

4si 0 ≤ x ≤ 1

5

4− 1

xsi 1 < x ≤ 4

1 si x >

Probabilidades y EstadísticaTablas Apéndice C _ 182 Resoluciones Los Autores_ 190...

Documents

Transcript of Probabilidades y EstadísticaTablas Apéndice C _ 182 Resoluciones Los Autores_ 190...

Probabilidades y EstadísticaTablas Apéndice C _____ 182 Resoluciones Los Autores_____ 190...

Documents

Transcript of Probabilidades y EstadísticaTablas Apéndice C _____ 182 Resoluciones Los Autores_____ 190...

Probabilidades y EstadísticaTablas Apéndice C _ 182 Resoluciones Los Autores_ 190...

Transcript of Probabilidades y EstadísticaTablas Apéndice C _ 182 Resoluciones Los Autores_ 190...