Tamaño Muestral y Cálculos de Poder - · PDF file1. Introducción a las...

54
Tamaño Muestral y Cálculos de Poder Enrique Seira ITAM & J-PAL [email protected]

Transcript of Tamaño Muestral y Cálculos de Poder - · PDF file1. Introducción a las...

Tamaño Muestral y Cálculos de Poder

Enrique Seira

ITAM & J-PAL

[email protected]

1. Introducción a las Evaluaciones de Impacto

2. Teoría de Cambio e Indicadores

3. Por qué y Cómo Aleatorizar

4. Tamaño de Muestra y Cálculos de Poder

5. Inferencia Causal

6. Evaluaciones Experimentales y Políticas

Públicas

7. Evidencia de Evaluaciones Experimentales

8. Evaluación Experimental de Principio a Fin

Contexto del Curso

• Introducción al método científico

• Estimación

• Prueba de hipótesis

• Significancia estadística

• Magnitud del efecto

• Poder

• Factores que influyen en el poder

Resumen de la exposición

Pruebas de hipótesis

• En derecho penal, la mayoría de las

instituciones siguen la regla: “inocente hasta

que se pruebe lo contrario”

• La presunción es que el acusado es inocente y

es responsabilidad del fiscal demostrar que es

culpable

– El juez comienza con “la hipótesis nula” de que el

acusado es inocente

– El fiscal tiene una hipótesis de que el acusado es

culpable

4

• En la evaluación del programa, en lugar de la

“presunción de inocente,” la regla es:

“presunción de insignificancia”

• La “hipótesis nula” (H0) es que no hubo (cero)

impacto del programa

• El evaluador debe demostrar un efecto

significativo del programa

Pruebas de hipótesis

• Hipótesis nula y alternativa

– Nula: no hay efecto, Alternativa: el efecto es

positivo.

• La idea es ver si los datos que recolectamos vienen

de la nula o de la alternativa

• Si la diferencia entre las poblaciónes de tratamiento

y control es “grande”, entonces rechazamos la

hipótesis nula.

Distancia entre poblaciones

USTED CONCLUYE

Sí tuvo efecto No rechazo Ho: nula

No tuvo efecto Rechazo Ho en favor de H1

LA

VERDAD

Programa tuvo efecto

Error tipo II

(bajo poder)

Dije que no tuvo efecto cuando en

verdad sí (muestra muy chica para

detectar efectos?)

Programa no tuvo efecto

Error tipo I

Dije que Sí hay efecto

cuando en verdad no

El problema es que podemos cometer error de dos tipos

7

Bajo poder Baja confianza

¿Qué es el nivel de significancia?

• Error tipo I: rechazar la hipótesis nula,

aún cuando sea verdadera (positivo falso)

• Nivel de significancia: La probabilidad

de que rechacemos la hipótesis nula aún

cuando sea verdadera

¿Qué es Poder Estadístico?

• Error Tipo II: No rechazar la hipótesis

nula (concluir que no hay diferencia),

cuando en realidad la hipótesis nula es

falsa.

• Poder: Si hay un efecto medible de

nuestra intervención (la hipótesis nula es

falsa), la probabilidad que detectemos un

efecto (rechazar la hipótesis nula)

Problemas de las muestras chicas

• En muestras arbitrariamente grandes ambos tipos de errores

tienden a cero. Pero en muestras chicas hay los siguientes

problemas:

• Sesgo: Puedes tener mala suerte y que la muestra no

represente a la población: e.g. si tiras una moneda 2 veces

puede caer sol en ambas.

• Imprecisión: Puede haber mucho “ruido”/ imprecisión,

aunque no haya sesgo.

• Se complica usar estadística porque en muestras chicas la

distribución de estimadores es complicada.

Exactitud vs. Precisión

Pre

cis

ión

(Tam

o M

uestr

a)

No sesgo (Aleatorización)

truth

estimates

Haciendo rodar 2 dados:

Puntaje promedio de los dados y probabilidad

1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6

Frequency 1/36 1/18 1/12 1/9 5/36 1/6 5/36 1/9 1/12 1/18 1/36

0

0

1/6

1/4

Like

liho

od

Frecuencia

>99% de todas las rodaduras darán un promedio entre 3 y 4

0,0%

0,5%

1,0%

1,5%

2,0%

2,5%

3,0%

3,5%

1 1,5 2 2,5 3 3,5 4 4,5 5 5,5

Haciendo rodar 30 dados:

Se distribuye Normal, con media 3.5

Exactitud versus Precisión

0

20

40

60

80

100

120

140

160

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100

PUNTAJES

control

treatment

Distribución de calificaciones de control y tratamiento

Control

Tratamiento

Vamos a necesitar una medida de distancia para “decir” si hay efecto o no

Significancia: probabilidad de correctamente decir que sí hay efecto

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

significance

Sin programa

Con Programa

a =Significancia o error tipo 1: decir que hay efecto cuando

no es verdad

t= valor critico

Verdad bajo Ho Verdad bajo H1

Poder: probabilidad de detectar el efecto cuando este existe

Sin programa

Con Programa

t= valor critico

Poder: Probabilidad de detectar el efecto cuando SÍ es cierto

Verdad bajo Ho Verdad bajo H1

error tipo 2

Trade-off: si subes t-crítico reduces error tipo 1

pero subes error tipo 2 (i.e. bajas poder)

• Una forma de reducir ambos tipos de errores es

“haciendo” las distribuciones más delgadas. Esto se

logra subiendo el tamaño de muestra.

• Por lo tanto, la práctica común es fijar un nivel de

significancia y escoger el tamaño de muestra para

aumentar el poder, típicamente 80% o 90% de poder es

aceptable en economía.

Teorema del límite central

• Para calcular aéreas de curvas necesito saber cual es la

curva. ¿Pero cómo sé cual es la distribución de las

calificaciones en la población?

• En general no sabemos, sin embargo sí sabemos como se

distribuye el promedio.

• No importa cual es la población de la que estemos hablando

(calificaciones de alumnos, días de estancia en el hospital,

etc) el promedio de la variable se distribuye normal

N(mu, var/n).

• Noten que el promedio está centrado en la media y la

varianza de la media muestral (llamado o error estándar)

disminuye con el tamaño muestra.

Cómo pasamos desde aquí…

0

100

200

300

400

500

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100

Puntajes

Hasta aquí…

Esta es la distribución de la población

(Distribución Poblacional)

Esta es la distribución de los Promedios de todas las muestras

aleatorias

(Distribución Muestral)

Pruebas de hipótesis: conclusiones

• Es altamente improbable (probabilidad

inferior al 5%) que la diferencia se deba

solamente a la casualidad:

– Nosotros “rechazamos nuestra hipótesis nula”

• Ahora podemos decir:

– “nuestro programa tiene un impacto

estadísticamente significativo”

Detectando Impacto

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

Antes del Programa

H0 Hβ

Control

Tratamiento

Asuma que hay dos efectos: efecto nulo y efecto β

¿Qué afecta el poder?

¿Cuáles son los factores que cambian la

proporción de la hipótesis de investigación

que está sombreada; es decir, la proporción

que está a la derecha (o izquierda) de la

curva de la hipótesis nula?

Comprender esto nos ayuda a diseñar

experimentos más potentes

24

Poder: Ingredientes Principales

1. Magnitud del efecto

2. Tamaño de la muestra

3. Varianza

4. Proporción de la muestra en T vs. C

5. Grupos (clusters)

Magnitud del Efecto: 1*Error Est.

• Hypothesized effect size determines distance between means

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

1 Desviación Estándar

Hβ H0

Control

Tratamiento

Magnitud del Efecto = 1*Error Est.

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

significanceH0 Hβ

Control

Tratamiento

Significancia

Poder: 26% Si el impacto verdadero fuese 1*Error Est.

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

powerHβ H0

La hipótesis nula sería rechazada el 26% de las veces

Control

Tratamiento

Poder

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

Magnitud del Efecto: 3*Error Est.

3*SE

Mayor magnitud del efecto hipotetizado las distribuciones se apartan

Control

Tratamiento

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

power

Magnitud del Efecto 3*Error Est: Poder= 91%

H0

Control

Tratamiento

Poder

Efecto más grande Más poder

Poder: Ingredientes Principales

1. Magnitud del efecto

2. Tamaño de la muestra

3. Varianza

4. Proporción de la muestra en T vs. C

5. Grupos (clusters)

Poder: Magnitud del efecto = 1SD,

Tamaño de la muestra = N

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

significance

Control

Tratamiento

Significancia

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

significance

Poder: Tamaño de la muestra = 4N

Control

Tratamiento

Significancia

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

power

Poder: 64%

Control

Tratamiento

Poder

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

significance

Poder: Tamaño de la muestra = 9

Control

Tratamiento

Significancia

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

power

Poder: 91%

Control

Tratamiento

Poder

Poder: Ingredientes Principales

1. Magnitud del efecto

2. Tamaño de la muestra

3. Varianza

4. Proporción de la muestra en T vs. C

5. Grupos (clusters)

Varianza

• En ocasiones, podemos hacer muy poco para

reducir el ruido

• Podemos tratar de “absorber” la varianza:

– usando una línea base

– controlando otras variables

• Podemos tratar de hacer mediciones más

precisas

Poder: Ingredientes Principales

1. Magnitud del efecto

2. Tamaño de la muestra

3. Varianza

4. Proporción de la muestra en T vs. C

5. Grupos (clusters)

División de la muestra: 50% C, 50% T

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

significanceH0

Control

Tratamiento

Significancia

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

power

Poder: 91%

Control

Tratamiento

Poder

¿Y si no tenemos una división 50-50?

¿Qué pasa con el “grosor” relativo si la

división no es 50-50 y es 25-75?

División de la muestra: 25% C, 75% T

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

significanceH0

Control

Tratamiento

Significancia

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

power

Poder: 83%

Control

Tratamiento

Poder

Poder: Ingredientes Principales

1. Magnitud del efecto

2. Tamaño de la muestra

3. Varianza

4. Proporción de la muestra en T vs. C

5. Grupos (clusters)

Fórmula sencilla

Fórmula sencilla con asignación de individuos a

tratamiento y control

• “k” = error tipo 2, alfa=error tipo 1.

• t(1-k) con 80% de poder es aproximadamente = 0.80

• t(alpha) con 5% de significancia es aproximadamente 1.96

Hay varios programas en el internet que les calculan el tamaño de

muestra, e.g. “Optimal Design”. En Stata “sampsi”.

TAMAÑO DE MUESTRA

7.7284 t's al cuadrado

4 proporciones al cuadrado

40 varianza

N 1237 Efecto=1

309 Efecto=2

137 Efecto=3

Diseño agrupado: intuición

• Usted desea saber cuán estrechas serán las

próximas elecciones nacionales

• Método 1: Seleccione aleatoriamente a 50

personas de toda la población en Perú

• Método 2: Seleccione aleatoriamente a 5

familias, y pregúnteles la opinión a diez

miembros de cada familia

Baja correlación intra-cluster (Rho)

Alta correlación intra-cluster (rho)

¡Gracias!

• Digamos que creemos que el impacto

en nuestros participantes es “3”

• ¿Qué sucede si la tasa de participación

en el programa es de 1/3?

Mostremos esto gráficamente

Magnitud del efecto y aceptación

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

Magnitud del Efecto: 3*SE

3*SE

Control

Tratamiento

Digamos que creemos que el impacto en nuestros participantes es de “3”

La aceptación es 33%. La magnitud del

efecto es un tercio

• Hypothesized effect size determines distance between means

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

1 Desviación Estándar

Hβ H0

Control

Tratamiento

De vuelta al Poder = 26%

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4 5 6

control

treatment

powerHβ H0

La tasa de aceptación se refleja en la magnitud del efecto

Control

Tratamiento

Poder