Post on 11-Apr-2015
La reemergencia bayesiana en el Siglo XXI: los detalles de un episodio simple y elocuente
Luis Carlos Silva Ayçaguer
CNICM, La Habana Barcelona2 de diciembre, 2011
Universidad Autónoma de BarcelonaServei d'Estadística
Thomas S. Kuhn (1922-1996)La estructura de las
revoluciones científicas (1962).
Thomas S. Kuhn (1922-1996)La estructura de las
revoluciones científicas (1962).
PARADIGMASPARADIGMAS“(...)realizaciones científicas universalmente reconocidas que, durante cierto tiempo, proporcionan modelos de problemas y soluciones a una comunidad científica”.
Deconstrucción : “Desmontaje de un concepto o de una construcción intelectual por medio de su análisis, mostrando así contradicciones y ambigüedades”.
Diccionario de la Real Academia Española
Valoración crítica de los valores “p” y
las pruebas de significación
Anderson DR, Burnham KR (2002) Avoiding pitfalls when using information–theoretic methods. Journal of Wildlife Management 66: 912–918.
““la utilidad de los valores p es la utilidad de los valores p es completamente limitada y completamente limitada y nosotros nos mantenemos nosotros nos mantenemos reclamando eutanasia para reclamando eutanasia para tales procedimientos”tales procedimientos”
Loftus GR (1991) On the tyranny of hypothesis testing in the social sciences. Contemporary
Psychology 36:102-105.
““es difícil imaginar una es difícil imaginar una manera menos apropiada manera menos apropiada para traducir los datos en para traducir los datos en conclusiones”conclusiones”
Gill J (2004) Grappling with Fisher’s Legacy in Social Science Hypothesis Testing: Journal de la Société Française de Statistique psblade.ucdavis.edu/papers/denis.pdf
““Las PSE no deberían siquiera existir, Las PSE no deberían siquiera existir, mucho menos deberían prosperar como mucho menos deberían prosperar como el método dominante para presentar el método dominante para presentar evidencias estadísticas en las ciencias evidencias estadísticas en las ciencias sociales. Ellas entrañan una bancarrota sociales. Ellas entrañan una bancarrota intelectual y son profundamente intelectual y son profundamente inconsistentes tanto desde una inconsistentes tanto desde una perspectiva lógica como práctica.”perspectiva lógica como práctica.”
Rozeboom WW (1997) Good science is abductive, not Rozeboom WW (1997) Good science is abductive, not hypothetico-deductive. En LL Harlow, SA Mulaik, & JH hypothetico-deductive. En LL Harlow, SA Mulaik, & JH Steiger (Eds.), What if there were no significance tests? Steiger (Eds.), What if there were no significance tests? (pp. 335–391). Hillsdale, NJ: Erlbaum.(pp. 335–391). Hillsdale, NJ: Erlbaum.
“Las PSE constituyen con toda seguridad Las PSE constituyen con toda seguridad el más idiota proceder jamás el más idiota proceder jamás institucionalizado en el entrenamiento institucionalizado en el entrenamiento maquinal de los estudiantes de cienciamaquinal de los estudiantes de ciencia”
INFERENCIA ESTADÍSTICA
A principios de siglo XX las anécdotas clínicas poblaban las revistas médicas
¿Qué significaban los resultados?EDITORES
¿Cómo cuantificar la evidenciay complementar los razonamientos
verbales?
Karl Pearson (1857-1939)
Biometrika ( A journal for the statistical study of biological problems), fue fundada en 1901por Galton, Weldon, Pearson y Davenport.
Ronald Fisher
(Londres, 1890-Australia, 1962)
Aportes a la estadística:
• introducción de los valores p
•análisis de la varianza
• principio de la aleatorización
• idea de la replicación
Ho: la Sra. no tiene ese don
Se observa el número de aciertos obtenidos0d
)( 00 HdaciertosPp
pSi?05,0¿ se dice que hay una diferencia
estadísticamente significativa
T
T
T
T L
L L L L
T L LT
T
T
L
INFERENCIA ESTADÍSTICA
Fisher (década de los 20) Ho: d=0
Se observa 0d
Medida de la discrepancia de los datos con la hipótesis, llamada a tener un papel informal (no especificado), junto con el resto de la información, en el flujo inferencial
)( 00 HddPp
Jerzy Neyman Egon Pearson
En la década de los 30...
...los valores p no resuelven el problema inferencial
INFERENCIA ESTADÍSTICA
Se observa 0d
Y se adopta una decisión
pSi se rechaza Ho: d=0
)( 00 HdDPp se computa
pSi Se acepta Ho: d=0
Neyman y Pearson
(década de los 30)
Ho: d=0
H1: d0
(1899)
(1928)
(1941)
(1925) (1935) (1956)
Departamento de EC, MP y SP e HC
Los padres de la estadística se Los padres de la estadística se divorciandivorcian
• Neyman :”los métodos de Fisher eran "peores que inútiles".
• Fisher: “ Neyman bien podría haber seleccionado un tema acerca del cual pudiera disertar con alguna autoridad"
Pero también se divorcian de Bayes (Pearson, Neyman y Fisher eran antibayesianos furiosos
Transposición de condicionantesTransposición de condicionantes
P(H|D) = P(D|H)
)Pr( 00 HdDp
FalaciaFalacia
¿Cuál es la probabilidad de que un velocista que gane una medalla olímpica (M) sea negro (N)?
¿Cuál es la probabilidad de que una persona de raza negra elegido al azar (N) sea medallista olímplico (M)?
P(N|M) =0.98 o más
P(M|N)=0.0001 o menos
“Normas para la presentación de comunicaciones libres a premio al mejor trabajo” del XIII CONGRESO NACIONAL DE MEDICINA en Argentina del año 2003
“Las abreviaturas y siglas en tablas y figuras, deben aclararse en las leyendas respectivas, pero NS (no significativo), ES (error estándar), DS (desvío estándar), IC95 (intervalo de confianza del 95 %) y p (probabilidad de que la hipótesis nula sea cierta) no requieren aclararse.”
p= P(H0|D))Pr( 00 HdDp
Es importante que los investigadores sean precavidos con la potencia de sus experimentos; no solo han de poder detectarse los efectos buscados, sino que también debe evitarse la detección de pequeños efectos triviales.
Rossi JS (1997) A case study in the failure of psychology as a cumulative science: The spontaneous recovery of verbal learning. En L. L. Harlow, S. A. Mulaik, & J. H. Steiger (Eds.), What if there were no significance tests? (pp. 175–197). Hillsdale, NJ: Erlbaum.
Sacket (1979)
Las muestras demasiado pequeñas pueden servir para no probar nada, las muestras demasiado grandes pueden servir para no probar nada.
¿ SON IGUALES ESTAS DOS HORMIGAS?
¿ SON IGUALES ESTAS DOS HORMIGAS?
Eligiendo entre dos trayectos urbanos en París
Trayecto1 Trayecto21 12 972 7 153 10 134 11 915 10 86 12 157 9 148 54 119 30 17
10 62 8511 1012 115
Promedio 22 41Prueba t t(20)=0,86 p=0,18
10 veces
12 veces
Eligiendo entre dos trayectos urbanos en París
n=10 tm=22 min
n=12 tm=41 min
p=0,18
n=232 tm=31 min
n=225 tm=34 min
P=0,02
Eligiendo entre dos trayectos urbanos en París
31 min
34 min
“En lo que concierne al tamaño muestral, es concebible que las diferencias en homeostasis de la glucosa y en la distribución de tejido adiposo entre los grupos pudiera haber sido detectadas con un tamaño de muestra mayor”. (Bitnun, 2003)
“Se tomaron mediciones de la RVIP, pero no mostraron efectos de la ingestión de agua; sin embargo, no podemos descartar la posibilidad de que se hubieran detectado cambios con un tamaño de muestra mayor”. (Neave, Scholey, Emmett, Moss, Kennedy y Wesnes, 2001)
“Es de esperar que en un estudio con un tamaño de muestra mayor, la diferencia entre estos valores y los del resto del grupo sea estadísticamente significativa”. (Perich, González, Valdés, Arranz, 2002)
“El presente estudio, de Salud mostró un aumento en el riesgo para la mortalidad neonatal, pero éste no fue significativo. Sin embargo, …con un mayor tamaño de muestra esta asociación, después del ajuste, podría ser significativa”. (Delgado, Muñoz, Orejuela y Sierra, 2003)
“Con un tamaño de muestra mayor, estas diferencias pudieran pasar a ser estadísticamente significativas”. (Kowatch y col, 2000)
“Aunque no confiable a los niveles convencionales de significación estadística, la tendencia de los datos sugiere que de haber tenido una muestra mayor, y por tanto mayor potencia, los hallazgos relacionados con el folato hubieran sido similares a los hallados para la vitamina B12”. (Bunce, Kivipelto y Wahlin, 2004)
“La adición de fluoxetina a la PUVA ha mostrado una tendencia hacia una más rápida mejoría, pero no alcanza el nivel de significación estadística. Por lo tanto, una muestra mayor puede ser considerada”. (Mitra, 2001)
“Obsérvese que si bien hallamos que la diferencia entre el consumo de opiáceos para mujeres y hombres fue significativa, con, una muestra MENOR probablemente no la hubiéramos encontrado”. (Silva, 2011)
CIENCIA FICCIÓN:
BAYES Y LA INFERENCIA INDUCTIVA
BAYES CAPTÓ LA IMPORTANCIA DE DESARROLLAR UNA TEORÍA CUANTITATIVA Y EXACTA DEL RAZONAMIENTO INDUCTIVO
BAYES - PRICE -LAPLACE
1702-1761 1723-1791 1749-1827
El código “ENIGMA” y la 2ª Guerra Mundial
ALAN TURING (1912 – 1954)
Período
Artículos en PUBMED
1990-1999
2000-2009
Títulos 566 3132
Resúmenes 1469 9890
Número de artículos registrados en PUBMED en cuyos títulos y resúmenes aparece el término “bayesian” en dos decenios consecutivos
Si la distribución a priori para es N( pr , pr)
entonces la distribución a posteriori es N( pt , pt)
Los valores pt , pt dependerán de pr , pr y de los datos que se observaron ( dt , dt ) según las fórmulas siguientes:
22
2dt
2pr
pt 11
μμ
μ
dtpr
dtpr
22
pt 11
1σ
dtpr
Vivienda Hospital TotalMueren 13 23 36Sobreviven 150 125 275Total 163 148 311 Tasa 8.00% 15.50%
Reducción relativa: 49,015,5
8.0-15,5
47,0150*23125*13 OR
IC(95%): 0,23 – 0,97
Pocock SJ, Spiegelhalter DJ (1992) Grampian region early anistreplase trial, British Medical Journal 305: 1015.
Editor: Mucha publicidad se ha dado, y se dará, a los hallazgos del ensayo con anistreplase en la región de Grampian en la que los pacientes que recibieron tratamiento trombolítico en la vivienda tuvieron un 49% menos de muertes que aquellos que la recibieron en el hospital. Desafortunadamente, el ensayo fue ciertamente muy pequeño como para estimar de una manera confiable una reducción en la mortalidad, de modo tal que la significación pudiera haberse alcanzado solo si (en virtud del azar o de un sesgo) una poco plausible diferencia muy grande se hubiera observado. En tales circunstancias un análisis bayesiano provee una interpretación útil una vez que se coloque un hallazgo sorprendente en el contexto de una visión a priori más cautelosa
En el propio artículo del grupo GREAT se decía:
Valoración a priori de Pocock y Spiegelhalter:
80,0871845
155129 OR IC(95%): 0,6 – 1,0
83,017,015.15
tromboltm 9,12tromboltm
Vivienda HospitalMueren 129 155Sobreviven 871 845Total 1000 1000 Tasa 12.90% 15.50%
¿Cuál sería el odds ratio en esta situación?
¿Cuál ha de ser la tasa inherente al trombolítico para tener una reducción de 17% ?
Admitamos que sabemos que [Inf, Sup] es un intervalo de confianza para OR y que ln(OR) se distribuye normal N(,2) . ¿Cuál sería el valor estimado de y ?
Evidentemente, tendríamos:
)ln(OR
Por otra parte:
96.1)ln( SupDe modo que se tiene:
92.3
)ln()ln(
96.1*2
)ln()ln( InfSupInfSup
EN GENERAL, SE TIENE:
)ln(Inf )ln(Sup
)ln(Inf )ln(Sup
96.1
y el valor de es:
Si [Inf, Sup] es un intervalo de confianza para OR, aceptando que ln(OR) se distribuye normal N(,2), tenemos:
)ln(OR
92.3
)ln()ln( InfSup
EN SINTESIS:
Consideremos que:
lnOR (datos) se distribuye N( dt , dt )
Si llamamos ORpr al OR a priori y llamamos Infpr y Suppr a sus límites de confianza, tendremos:
lnOR (posteriori) se distribuye N( pt , pdt )
lnOR (priori) se distribuye N( pr , pr )
)ln( prpr OR
92.3
)ln()ln( prprpr
InfSup
Si llamamos ORdt al OR procedente de los datos y llamamos Infdt y Supdt a sus límites de confianza, tendremos:
)ln( dtdt OR
92.3
)ln()ln( dtdtdt
InfSup
pt ,pt se pueden obtener ahora en función de pr , pr y dt , dt
En nuestro caso teníamos:
47,0OR
IC(95%): 0,23 – 0,97
80,0OR
IC(95%): 0,6 – 1,0
DATOSA PRIORI
223.0)8.0ln( pr
130.092.3
)6,0ln()1ln(
pr
755,0)47,0ln( dt
367.092.3
)23,0ln()97,0ln(
dt
Ya sabíamos que si la distribución a priori para es N( pr , pr) entonces la distribución a posteriori es N( pt , pt) donde :
22
2dt
2pr
pt 11
μμ
μ
dtpr
dtpr
22
pt 11
1σ
dtpr
Usando toda la formulación anterior podemos calcular pt y pt ,
y con esos datos, ya se pueden obtener el OR a posteriori y su
Intervalo de confianza:
283,0
367,01
130,01
367,0755,0
130,00,223-
μ
22
22
pt
123,0
367,01
130,01
1σ
22
pt
73,0OR IC(95%): 0,57 – 0,94
O sea, el OR a priori 0,47 pasa a ser a posteriori 0,73
Y la reducción relativa del riesgo pasa de 49% a 25% aproximadamente
A priori
Datos empíricosBayes
A poteriori
or Inf Sup or Inf Sup or Inf Sup
0.80 0.60 1.00 0.47 0.23 0.97 0.73 0.57 0.94
Finalmente, la estimación de OR a posteriori es 75,0)283,0exp(
El intervalo de probabilidad para pt lo definen los extremos:
pt -1,96 pt =-0,524 pt +1,96 pt =-0,042
Aplicando exponencial a cada uno de estos extremos, se obtiene el intervalo de probabilidad al 95% para el OR a posteriori:
59,0)556,0exp( 96,0)065,0exp(
Finalmente, aplicando el exponencial al promedio de ambos extremos se obtiene la estimación de OR (pt) y aplicando exponencial a los propios extremos, el intervalo de probabilidad al 95% para el OR a posteriori:
73,0OR IC(95%): 0,6 – 0,9
O sea, el OR a priori 0,47 pasa a ser a posteriori 0,73
Y la reducción del riesgo pasa de 49% a 25% aproximadamente
Morrison, L., P. R. Verbeek, A. McDonald, B. Sawadsky, D. Cook. 2000. Mortality and prehospital thrombolysis for acute myocardial infarction: a meta-analysis. Journal of the American Medical Association 283: 2686-2692.
Y ESTO ES VIRTUALMENTE LO MISMO QUE PRODUJO UN METANÁLISIS DESARROLLADO CASI 10 MÁS TARDE
Lo cual dio lugar a los artículos de prensa
Silva LC, Muñoz A (2000) Debate sobre métodos frecuentistas vs bayesianos. Gaceta Sanitaria 14(6): 482-494.
http://www.lcsilva.sbhac.net
URUGUAY COLOMBIA
How Statistical Expertise Is Used in Medical Research
D. G. Altman, S. N. Goodman, S. Schroter
http://jama.ama-assn.org/issues/v287n21/abs/joc11896.html
Douglas Altman
Goodman, S. (1999a). Toward evidence-based medical statistics, 1: the p valuefallacy. Annals of Internal Medicine, 130, 995–1004.
Goodman, S. (1999b). Toward evidence-based medical statistics, 2: the Bayes factor. Annals of Internal Medicine, 130, 1005–1013.
Steven Goodman
http://jama.ama-assn.org/issues/v287n21/abs/joc11896.html
D. G. Altman, S. N. Goodman, S. Schroter
JAMA 2002
Dear Luis Carlos:
My brief answer is this. In medical research we do not in general seek a yes/no answer, as is provided by significant/nonsignificant decisions, but rather hope to estimate the effect(s) of interest. By contrast, in the sort of study we did we were more interested in seeking evidence whether certain aspects of publications were related to the statistical involvement, and perhaps the magnitude of the effect is not of direct importance. But you are right that it is a bit inconsistent, for which I plead guilty. We were also under extreme pressure from JAMA to keep the manuscript brief, but I do not consider that that can be a real excuse.
Even Bayesians (I do not consider myself one) do some (or many) of their statistical analyses using frequentist methods and they may even quote P values. There are many approaches and one chooses for each part of each study the one which seems most appropriate.
Best wishesDoug Altman
Luis Carlos Silva AyçaguerInvestigador Titular
Centro Nacional de Información de Ciencias Médicas (INFOMED)
lcsilva@infomed.sld.cu:http://lcsilva.sbhac.net