Daniels capítulo 9 Bioestadística: base para el análisis de las ciencias de la salud . Daniel...

73
----------------- 9.1 INTRODUCCION 9.2 MODELO DE REGRESION 9.3 ECUACION DE REGRESION DE LAMUESTRA 9.4 EVALUACION DE LA ECUACION DE REGRESION 9.1 INTRODUCCION 9.5 USO DE LA ECUACION DE REGRESION 9.6 MODELO DE CORRELACION 9.7 COEFICIENTE DE CORRELACION 9.8 ALGUNAS PRECAUCIONES 9.9 RESUMEN AI analizar los datos en las disciplinas que conforman las ciencias de la salud, con frecuencia es convehiente obtener algUn conocimiento acerca de la relacion entre dos variables. Por ejemplo, es posible que se tenga interes en analizar la relacion entre presion sangufnea y edad, estatura y peso, la concentracion de un medicamento inyectable y la frecuencia cardiaca, el nivel de consumo de algunos nutrientes y la ganancia de peso, la intensidad de un estfmulo y el tiempo de reaccion, el ingreso familiar y los gastos medicos. La naturaleza e intensidad de relaciones entre variables como las anteriores pueden ser examinadas por medio de los analisis de regresion y correlacion, que son dos tecnicas estadisticas que, aunque estan relacionadas, sirven para propositos diferentes. Regresi6n EI analisis de regresi6n es util para averiguar la forma probable de las relaciones entre las variables, y el objetivo final, cuando se emplea este metodo de analisis, es predecir 0 estimar el valor de una variable que corresponde al valor dado de otra variable. Las ideas de regresi6n fueron expuestas por primera vez por el cientffico ingles Sir Francis Galton (1822-1911) en sus informes de investigacion acerca de la herencia, primero en chfcharos y despues en la estatura humana. Afir- 400

Transcript of Daniels capítulo 9 Bioestadística: base para el análisis de las ciencias de la salud . Daniel...

-----------------9.1INTRODUCCION 9.2MODELODE REGRESION 9.3ECUACION DE REGRESIONDE LAMUESTRA 9.4EVALUACIONDE LAECUACION DE REGRESION 9.1INTRODUCCION 9.5USODE LAECUACION DE REGRESION 9.6MODELODE CORRELACION 9.7COEFICIENTE DE CORRELACION 9.8ALGUNASPRECAUCIONES 9.9RESUMEN AIanalizar losdatos en lasdisciplinas que conforman las ciencias de la salud, con frecuencia es convehiente obtener algUnconocimiento acerca de la relacion entre dos variables.Por ejemplo, es posible que setenga interes en analizar la relacion entre presion sangufnea y edad, estatura y peso, la concentracion de un medicamento inyectable y la frecuencia cardiaca,el nivel de consumo de algunos nutrientes y la ganancia de peso, la intensidad de un estfmulo y el tiempo de reaccion,el ingreso familiar y losgastos medicos.La naturaleza e intensidad de relaciones entre variables como las anteriores pueden ser examinadas por medio de los analisis de regresiony correlacion,que son dos tecnicas estadisticas que, aunque estan relacionadas, sirven para propositos diferentes. Regresi6nEIanalisis de regresi6n esutil para averiguar la forma probable de lasrelaciones entre las variables, y el objetivo final,cuando se emplea este metodo de analisis,es predecir0estimarelvalor de una variableque correspondealvalor dado de otra variable. Las ideasde regresi6n fueron expuestas por primera vez por el cientffico ingles Sir Francis Galton (1822-1911) en sus informes de investigacion acerca de la herencia, primero en chfcharos y despues en la estatura humana. Afir400 9.2MODELO 1m REGRESION401 moquela estaturadeunindividuoadulto,sinimportar sidesciendedepadres altos 0bajos, tiende a revertirse hacia la estatura promedio de la poblacion. Utilizo inicialmentelapalabra reversion,yposteriormente regresion,para referirseaeste fenomeno. CQrrelacionPor otra parte, el amilisis de correlacion se refiere ala medicion de la intensidad de la relacion entre variables.Cuando se calculan mediciones de correlacion a partir de un cotiunto de datos, el interes recae en el grado de correlacion entre las variables.Nuevamente,el origen de losconceptos y la terminologfa del amilisis de correlacion seremonta a Galton, el primero en utilizar la palabra correlacionen1888. En este capitulo, el amilisis se limita a la exploracion de la relaci6n lineal entre dos variables. En la siguiente secci6n se estudian los conceptos y metodos de regresi6n, y en lasecci6n9.6sepresentan lasideas y tecnicasde correlacion.En el siguiente capitulo se estudia el caso donde el in teres se centra en lasrelaciones que existen entre tres 0 mas variables. Los analisis de regresion y correlaci6n son areas en lasque la rapidez y exactitudde la computadora sonde gran valor,por 10que losdatos para los ejercicios deestecapitulosepresentan entalformaquepueden serprocesadosmediante computadora. Como siempre, los requerimientos de entrada y las caracterfsticas de salida de los programas y paquetes de software que se uti1izan deberan ser analizados con cui dado. 9.2MODELO DE REGRESION En el problema representativo de regresion, como en la mayorfa de los problemas de estadfstica aplicada, losinvestigadores disponen de una muestra de observacionesextrafdadeunapob1acionhipotetica0real.Conbaseenlosresultadosdel analisis de losdatos de la muestra, sepretende llegar a una decisi6nrespecto a la poblacion de la que se extrajo la muestra. Por 10 tanto, es importante que los investigadores comprendan la naturaleza de laspoblaciones en lasque est RegressionMTB>NameC3='FITS1'C4'RESl1' Teclear y en Response y x en Predictors.MTB>Regress'y'1'x'; Clic Storage. Verificar Residuals y Fits.SUBC>Fits'FITS1'j Clic OK.SUBC>Constant; SUBC>Residuals'RESI'. Resultados: Analisis de regresi6n Theregressionequationis y-216+3.46x ~ - - ~ - - - - - - - - -PredictorCoefStdevt-ratiop Constant-215.9821. 80-9.910.000 x3.45890.234714.740.000 s=33.06R-sq=67.0%R-sq()=66.7% AnalysisofVariance SOURCEDFSSMSF P Regression1237549237549217.280.000 Error1071169821093 Total108354531 Observacionesinusuales Obs.xyFitStdev.FitResidualSt.Resid 5886155.0082.523.4372.482.20R 6512090.41197.707.23-107.29-3.33R 66120106.00198.747.29-92.74-2.88R 7110787.99154.124.75-66.13-2.02R 97106241.00150.664.5890.342.76R 102109229.00161. 385.1367.622.07R 103115253.00181.796.2871.212.19R Rdenotaunaobservaci6nconunerrorresidualestandargrande. FIGURA 9.3.2Procedimiento MINITAB y resultados para obtener la ecuaci6n de regresi6n por mfnimos cuadrados a partir de losdatosde la tabla 9.3.1. 9.3ECUACION DE REGRESION DE LA MUESTRA409 La ecuaci6n dice que, puesto que a es un valor negativo, la recta cruza el eje Y por abajo del origen y que,puesto que el valor b,la pendiente,espositivo,la rectase . .I extiende desde el extrema izquierdo inferior de la grafica hasta el extrema derecho superior.Tambien,es posibleapreciar quepor cada unidad que aumente x, y aumenta por una cantidad igual a3.46. El simbolo yrepresenta el valor calculado de y mediante la ecuaci6n, en lugar del valor observado de Y. AIsustituir losvaloresadecuados de X en la ecuaci6n9.3.2,seobtienenlas coordenadas necesarias para trazar la recta. Suponga, primero, que X = 70 y que se obtiene y = -216 +3.46(70)26 Si X =lIO, seobtiene y =-216+3.46(110)164 La recta, junto con los datos originales, se muestra en la figura 9.3.3. 260 240 220 200>E ~ 180 0 "0 ::>"160 e c. ""ffi c140 'E----_............._0 "0 .0 120ro 0 :2 ' 100 Q) "0 ~80. 60 40 20 0 0 Cireunfereneia de la eintura (em),X FIGURA 9.3.3Datos originales y recta por minimos cuadrados para el ejemplo 9.3.1. 410CAPITULO 9REGRESION Y CORRELACION LINEAL SIMPLE Criterio de m{nimos cuadradosOespues de obtener 10 que se llama la mejor recta que describe las relaciones entre las variables, es necesario identificar que criterio puede ser elmejor.Antes de establecer elcriterio,hayqueexaminar la figura 9.3.3. Es posible apreciar que, por 10 general, la recta de minimos cuadrados no pasa atraves de los puntos observados que se marcan en el diagrama de dispersion. En otras palabras, la mayor parte de los puntos observados se desviande la_ recta por cantidades que varian. La recta trazada a traves de los puntos tiene el siguiente significado: La suma delas desviacionesverticales al cuadrado delos puntos obs({rvados(y)a partir delarectademinimoscuadradosesmenor quelasuma delasdesviacionesverticales al cuadrado delos puntos delos datos que formancualquier otra recta. En otras palabras, si se eleva al cuadrado la distancia desde cada punto observado(y)hasta la rectade minimos cuadrados y sesuman esos valorespara todos esos puntos, el total que resulta sera menor que-el total calculado en forma semejante para cualquier otra recta que pueda trazarse a traves de lospuntos.Por esta razon, la recta trazada se llama recta de minimos cuadrados. FJERCICIOS 9.3.1Grafiquelassiguientesecuacionesde regresionsobrepapelmilimetrico ydefinasiX yY guardan una relacion directa 0inversa. a)y = -3 + 2x b)Y= 3+ .05x c)y=1O-0.75x 9.3.2Las siguientes calificaciones corresponden a la evaluacion de las enfermeras (X) y a las evaluaciones de losmedicos (Y)sobre la condicion de10 pacientes al momento de hospitalizacion en la unidad de traumatologia: X:1813181510128473 Y:23201816141110764 a)Construya un diagrama de dispersion para estos datos. b) Grafique las siguientes ecuaciones de regresion lineal sobre el diagrama de dispersion, e indique cual recta se ajusta mejor a los datos.Explique por que se escogio. I)y = 8+ .05x 2)Y= -10+ 2x 3)Y= 1 + Ix Para cada uno de los siguientes ejercicios, a) dibuje un diagrama de dispersion y b) obtenga la ecuacion de regresion y grafiquela sobre el diagrama. 9.3.3UnproyectodeinvestigacionrealizadoporPhillips et.al.(A-2)estuvomotivadoporque existe una gran variedad de manifestaciones cHnicas de anemia de celulas falciformes.En un esfuerzo por explicar esta variacion, los investigadores utilizaron un microrre6metro esferico magnetoacustico, desarrollado en su laboratorio para medir algunos panimetros reologicos de suspensiones de celulas en individuos con esta enfermedad. Correlacionaron sus resultados con eventos cHnicos y fallas terminales organicas en los individuos con anemia de celulas falciformes.La siguientetablamuestra lascalificacionespara cada una delasmediciones EJERCICIOS411 reol6gicas, m6dulos de viscosidad (VIC) (X), y calificadones de fallasterminales organicas (Y).Las calificaciones de fallas terminales se hicieron con base en la presencia de nefropatia, necrosisavasculardelhueso,ataquesdeapoplejfa,retinopatia,dehipoxemiaenreposo despues de sfndrome toracico agudo, ulcera de miembros inferiores y priapismo con impotencia. yxXY .320.572 .723.635 .381.371FUENTE:GeorgePhlllips, Jr., Bruce Coffey, .614.451Roger Tran-Son-Tay, T.R.Kinney.Eugene .483.854P.Orringer y R.M.Hochmuth, .481.804 "Relationship of Clinical Severity to .703.361 Packed Cell Rheology in Sickle Cell Anemia", Blood,78,2735-2739. .412.694 9.3.4Habib y Lutchen (A-3) presentaron una tecnica de diagn6stico que resulta ser muy interesante para medicos especialistas en problemas respiratorios. Las siguientes calificaciones fueron produddas por esta tecnica,Hamada AMDN;tambien se presentan las calificaciones (%de predicci6n) del volumen espiratorio forzado (VEF) registrado en 22individuos.Los primerossieteindividuoseran sanos,deloctavoaldecimoseptimoindividuotenfanasma,yel resto de individuos eran pacientes con fibrosisquistica. PacienteAMDN 11.36102 21.4292 31.41111 41.4494 ----_.........._51.4799 61.3998 71.4799 81.7980 91.7187 101.44100 111.6386 121.68102 131.7581 141.9551 151.6478 162.2252 171.8543 182.2459 FUENTE:Robert H.Habib y Kenneth R. 192.5130 Lutchen, "Moment Analysis of a 202.2061 Multibreath Nitrogen Washout Based on 212.2029 an Alveolar Gas Dilution Number", 221.9786 American Review ofRespiratory Disease,144, 513-519. 412CAPITULO 9REGRESION Y CORRELACION LINEAL SIMPLE 9.3.5En un articulo de la revistaAmericanJournal o/Clinical Pathology,de Metz et al.(A-4)publicaron la comparaci6n de tres metodos para determinar el porcentaje de eritrocitos dism6rficos en la orina. Obtuvieron lossiguientes resultados al utilizar losmetodos A (X) Y B (Y)en 75 muestras de orina. x y XYXYXY 65558981 002016 9080 16186671 0I 67709190 0111730 193069719097 20 7460 5020299289 183575599398 63 73253273709397 75699498 953040 76709589 3245 86 394978809595 97 4050 101578829597 48417790 10179598 1313474382739785 158574285749895 187506085809995 10096 19960658675 2096070100100 8874 1613596910099 8883 8891 19166270 FUENTE:Utilizada con autorizaci6n de Menno de Metz. 9.3.6La estatura es,con frecuencia,utilizada como una variable adecuada para predecir el peso entre lagente de la misma edad y sexo.Lossiguientes datos corresponden a las estaturas y pesos de 14 varones con edades entre 19 y 26 afios que participaron en un estudio conducido por Roberts et al.(A-5). PesoEstaturaPesoEstatura 83.918569.2174 99.018056.4164 63.817366.2169 71.316888.7205 65.317559.7161 79.618364.6177 70.318478.8174 FUENTE: Utilizada con autorizaci6n de Susan B.Roberts. 4139.4EVALUACION DE LA ECUACION DE REGRESION 9.3.7Ogasawara (A-6)recolect6lassiguientescalificaciones enla escala completa del IQ (coeficiente intelectual)a partir de45paresdehermanoscon distrofiamuscularprogresivade Duchenne. yx 78114 7768 112116 114123 104107 9981 9276 8090 11391 9995 97106 8099 8482 8977 10081 IIIIII 7580 9498 6782 4656 106II7 9998 10289 XY 127 113 91 91 96 100 97 82 43 77 109 99 99 100 56 56 67 71 66 78 95 38 113 112 103 93 90 102 104 92 43 100 90 100 103 103 67 67 67 66 63 76 86 64 FUENTE:Utilizadaconautorizaci6ndeAkihiko Ogasawara. 9.4EVALUACION DE IA ECUACION ,DE REGRESION Despues de obtener la ecuaci6n de regresi6n, es necesario evaluarla para determinar sl describe adecuadamente la relaci6n entre las dos variables y si puede utilizarseconvenientemente con finesde predicci6n y estimaci6n. Si H0: f3= 0no es rechw:.adaSien lapoblaci6n la relaci6n entre X yYes lineal, ~ ,la pendiente de la recta que describe esa relaci6n, sera positiva, negativa 0 igual acero.Si~escera,losdatosdela muestra extraida delapoblaci6n,ala larga,praporcionaran ecuaciones de regresi6n lineal quetienen poco 0ningiln valor para prap6sitos de predicci6n 0de estimaci6n. Ademas, aunque se suponga 414CAPITULO 9REGRESION Y CORRELACION LINEAL SIMPLE que la relaci6n entre X y Y es lineal,esprobable que la relaci6n tenga mejor descripci6n mediante otro modelo no lineal. Cuando sucede este caso, sise ajustan los datosdelamuestraalmodelolinealproducenresultadoscompatiblesconuna pendiente cero para la poblaci6n. Asi, al efectuar una prueba en la que la hip6tesis nula,queindicaque~esigualacero,noserechaza,sepuedeconduir(bajola suposici6n de que no se comete el error de tipo II al aceptar una hip6tesis nula):1) que aunque la relaci6n entre X y Y puede ser lineal, no es 10suficientemente estrecha para permitir que X sea de gran valor para estimar 0predecir a Y,0bien, 2) que la relaci6n entre X y Y no es lineal; es decir,algunos modelos curvilineos se ajustan mejor a los datos. La FIgura 9.4.1muestra las clases de relaciones entre X yYen una poblaci6n que puede prevenir el rechazo de la hip6tesis nula ~O. Si H0:f3= 0es rechazadaConsidere las siguientes situaciones en una poblaci6n que puede pioducir el rechazo de la hip6tesis nula ~= O.Suponga que si nosecometeun error detipoI,elrechazode lahip6tesisnula,~0,puede y X (a) y X (b) FIGURA 9.4.1Condiciones en una poblaci6n que pueden prevenir eI rechazo de la hip6tesis nula de que ~=O.a) La relaci6n entre X y Yes lineal, pero ~tiende tanto a cero que los datos de la muestra probablemente no generaran ecuaciones titiles para predecir Y cuando el valor de X esta dado. b) Las reIaci6n entre X yY no es lineal, el modelo curvilineo ofrece un ajuste mejor para los datos; los datos de la muestra probablemente no generaran ecuaciones que sean titiles para predecir Y cuando el valor de X esta dado. 4159.4EVALUACION DE LA ECUACION DE REGRESION y ~ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - x (a) y ~ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - x (b) FIGURA 9.4.2Las condiciones de la poblaci6n con respecto a X y Y que pueden causar el rechazo de la hip6tesis nula de que 13O.a) La relaci6n X y Yes lineal y de suficiente intensidad parajustificar el uso de la ecuaci6n de regresi6n muestral para predecir y estimar Y para valores dados de X.b)Un modelo lineal ofrece un buen ajuste de datos, pero algunos modelos curvilfneos ofrecerfan un ajuste todavfa mejor. atribuirseaunadelassiguientescondicionesen lapoblacion:1)larelaciones lineal y de suficiente fuerza parajustificar el uso de ecuaciones de regresion muestral parapredecir yestimarYconbaseenlosvaloresdadosde X,y2)losdatos se ajustan bien aun modelo lineal,pero alglin modelo curvilineo podria proporcionar un ajuste mas adecuado. La figura 9.4.2 ilustra las dos condiciones que puedan producir el rechazo de Ho:~O. De esta forma, se puede apreciar que es aconsejable probar Ho:~==0 antes de utilizar la ecuacion de regresion de la muestra para prediccion y estimacion. Esto se puede hacer mediante el analisis de variancia y la estadfstica F,0bien, mediante la estadfstica t.Ambosmetodos semuestran posteriormente,peroantesde esto, es conveniente saber como se investiga la fuerza de la relacion entre X y Y. Coejiciente de determinacionUna forma de evaluar la eficiencia de la ecuacion deregresionescomparar la dispersionde lospuntos en tomo ala recta de regresion con la dispersion en torno ay, la media de los valores de la muestra de Y. 'II A -216 + 3.46x~Y Y=101.89 1 0 416CAPITULO 9REGRESION Y CORRELACION LINEAL SIMPLE 260, 240'- I 220~ ::.. 200 ~ .30 "0 180 c: ::I '@ C\. 160 "i'ilc:'E 0 140 "0 .c F Model1237548.51620237548.51620217 .2790.0001 Error107116981.986021093.28959 CTotal108354530.50222 RootMSE33.06493R-square0.6700 DepMean 101.89404AdjR-sq0.6670 C.V. 32.45031 ParameterEstimates ParameterStandardTforHO; VariableDFEstimateErrorParameter=OProb> ITI INTERCEP1-215.98148821.79627076-9.9090.0001 X13.4588590.2346520514.7400.0001 FIGURA 9.5.1Resultados parciales impresos del amilisispor computadora de losdatos dados en el ejemplo 9.3.1,mediante el uso del paquete de software SAS@. Elmetodo de minimos cuadrados para ajustar losdatos a una linea recta es sensitivoalasobservacionesinusuales,ylaubicaci6ndelarectaajustadapuede resultar afectada de manera sustancial. Se dice que debido a esta caracteristica del metodo por minimos cuadradosla rectapierde resistenciapor lainfluencia de las observaciones inusuales. Algunos metodos est{m diseiiados para tratar este problema,entreelIosseencuentraeldesarrolladopor John WTukey.Alarectaque resulta seIellama en ocasiones rectadeTukeyy recta de resistencia. Con base en las medianas, previamente estudiadas, que son medidas descriptivas que por sf mismas son resistentes (insensibles) a los valores extremos, la metodologiaparalarectaderesistenciaesunaherramientadeanalisisdedatos exploratoria, capaz de investigar que tan rapido se ajusta la linea recta al conjunto de datos formado por las coordenadas x, y.Con base en la variable independiente, la tecnica comprende la agrupaci6n de las mediciones de la muestra en tres grupos, con tamaiios 10masposiblemente iguales:las medicionesmas pequeiias,lasmas grandes y las intermedias. La recta de resistencia es la recta ajustada en tal forma EJERCICIOS429 Caja de dialogo:Comandos de la sesi6n: Stat> EDA >Resistant LineMTB>NameC3='RESI1'C4='FITS1' MTB>RLineC2C1'RESI1''FITS1'; SUBC>MaxIterations10. Teclear C2en Response y CIen Predictors. Verificar Residuals y Fits.Clic OK. Resultados: Ajuste de larecta de resistencia Slope3.2869Level-203.7868Half-sloperatio=0.690 FIGURA 9.5.2Procedimiento de la recta de resistencia del paquete MINITAB y resultados para los datosde la tabla 9.3.1. que hay un numero igual de valores por arriba y por abajo de ella en losgropos de valoresmayoresymenores.Lapendientequeresultaylasestimacionesdelas intercepciones de y son resistentesa losefectosde susvaloresextremos xy y.Para ilustrar el ajuste de una recta de resistencia se utilizan los datos de la tabla 9.3.1 y el paquete MINITAB. El procedimiento y los resultados se muestran en la figura 9.5.2. Es posible observar en los resultados de la figura 9.5.2 que la recta de resistencia tiene una pendiente de 3.2869 y una intercepci6n paray de -203.7868. La raz6n defamitad de la pendiente,igual a .690, es un indicador del grado de linealidad entre x yy. Una pendiente, Hamada mitad de la pendiente, se ca1cula para cada una de las mitades de los datos de la muestra. La raz6n de la mitad de la pendiente derecha, bR,y la mitad de la pendiente izquierda, bu es igua1 a br/bLSi 1a relaci6n entre x y y es una recta, las mitades de la pendiente son igua1es, y por 10 tanto, la raz6n es igua1 a1. La raz6n de la mitad de 1a pendiente que no esta pr6xima a 1 indica que pierde resistencia de linealidad entre x yy. La metodologia de la recta de resistencia se analiza con mas detaHe en Hartwig y Dearing (1), Johnstone y Velleman (2),McNeil(3) y Velleman y Hoaglin (4). EJERCICIOS Para cada ejercicio se debe tomar como referencia el conjunto correpondiente de ejercicios de la secci6n 9.3, y para el valor X indicado en los ejercicios de esta secci6n: a)construya un intervalo de confianza de 95por ciento paraIl)/x'Y b)construya un intervalo de predicci6n de 95 por dento para Y. 9.5.1Consulte el ejercicio 9.3.3 y sea X = .75. 9.5.2Consulte el ejercicio 9.3.4 y sea X ==2.00 (AMDN),100 (VEFj ). 9.5.3Consulte el ejercicio 9.3.5 y sea X =60. 9.5.4Consulte el ejercicio 9.3.6 y sea X =200. 9.5.5Consulte el ejercicio 9.3.7 Y sea X =100. 430CAPITULO 9REGRESION Y CORRELACION LINEAL SIMPLE 9.6MODEI.O DE CORREIACION En el modelo chlsico de regresi6n, que ha sido el modelo fundamental en la exposici6n hasta este punto, solo Y,Hamada variable dependiente, es aleatoria. La v a r i a ~ ble X se define como una variable fIja(no aleatoria 0matematica) y recibe el nombre de variable independiente. Tambien esnecesario recordar que en este modelo las observaciones a menudo se obtienen mediante la preseleccion de los valores de X y determinando los valores correspondientes de Y. Cuando X y Y son variables aleatorias, se tiene 10 que se conoce como modelo de correlaci6n.Tipicamente, bcUoel modelo de correlacion, seobtienen observaciones de 1a muestra mediante la selecci6n de una muestra al azar de las unidades de asociaci6n(que pueden ser personas, lugares, animales, puntos en el tiempo 0cualquier otro elemento sobre el cual se toman las dos medidas) y tomando una medida de X y una de Y.En este procedimiento, los valores de X no se preseleccionan, sino que son al azar,seglin la unidad de asociacion seleccionada en la muestra. Aunque no se puede llevar a cabo con sentido el analisis de correlacion bajo el modelo de clasico de regresion, el analisis de regresion puede llevarse a cabo bajo el modelo de correlacion. La correlacion que comprende dos variables, implica una correlacion entre ambasquelospone sobreun mismoterreno y no lasdistingue refiriendose a una como la variable dependiente y a 1aotra como la variable independiente. De hecho, en los procedimientos basicos de d.lculo, que son los mismos que para el modelo de regresion, puede ajustarse una recta a los datos, ya sea minimizandoL(Yi- .W, 0bien minimizadoL(xi - X)2.En otras palabras, puede hacerse una regresion de X sobre Y,aSIcomo una regresi6n de Y sobre X.En general,las rectas en ambos casos seran distintas, y surge una pregunta logica: (cual recta ajustar? Siel objetivo es unicamente obtener una medida de la intensidad de 1arelacion entre las dos variables,no importa que recta seajuste,porque, en general,la medida quesecalculasera lamisma en cualquier caso.Sin embargo,sisedesea utilizar la ecuacion que describe la relaci6n entre las dos variables para los propositos estudiados en las secciones anteriores, es importante decidir cual recta ajustar. La variable para la que se desea estimar las medias 0hacer predicciones debe tratarse comola variabledependiente;esdecir,deberealizarselaregresionde esta variable sobre la otra variable. Distribucion normul bivuriadaBajo el modelo de correlacion,sesupone que X y Yvarfan conjuntamente en 10 que se conoce como distribuci6n conjunta. Si la forma de esta distribuci6n conjunta sigue una distribuci6n normal, se conoce como distribuci6nnormalbivariada.Es posible hacer inferencias sobreesta poblacion con base en los resultados de las muestras extrafdas adecuadamente de ella. Si, por otra parte, se sabe que la distribuci6n conjunta no es normal, 0si se desconoce la forma y no existe justificacion para suponer que existe normalidad, se invalidan los procedimientos inferenciales, aunque bien pueden calcularse medidas descriptivas. Supuestas puracarreludonDebencumplirselassiguientessuposiciones para que sean validas las inferencias acerca de la poblacion, cuando el muestreo se realiza a partir de una distribuci6n bivariada. 4319.6MODELODECORRELACION 1.Para cada valor de X existe una subpoblaci6n de valores de Yque siguen una distribuci6n normal. 2.Para cada valor de Y,existe una subpoblaci6n de valores de X que sigue una distribuci6n normal. 3.La distribuci6n conjunta de X y Yes una distribuci6n normaillamada distribucion normal bivariada. 4.Todas las subpoblaciones de los val ores de Y tienen la misma variancia. 5.Todas lassubpoblaciones de los val ores de X tienen la misma variancia. La distribuci6n normal bivariada se representa graficamente en la figura 9.6.1. En esta ilustraci6n se observa que sise corta el montfculo en forma paralela a Y en alglin valor de X,el corte revela ladistribuci6n normal correspondiente de Y.Asimismo, un corte paralelo a X en alg(tn valor de Y revela la subpoblaci6n correspondiente de X con distribuci6n normal. f(X,Y)f(X,Y) YxYx (a)(b) f(X,Y) Yx (e) FIGURA 9.6.1Distribuci6n normal bivariada. a) Distribuci6n normal bivariada. b)Corte quemuestraunasubpoblaci6ncondistribuci6nnormaldeYpara Xdada.c)Corteque muestra una subpoblaci6n con distribuci6n normal de X,dada Y. 432CAPITULO 9REGRESION Y CORRELACION LINEAL SIMPLE 9.7COEFICIENTE DE CORRElACiON Ladistribuci6nnormalbivariadaqueseanalizaenlasecci6n9.6tienecinco parametros: ax' a , I1x'11"Yp. Los primeros cuatro son respectivamente las desviacionesestandaryl ~ smediasasociadasconlasdistribucionesindividuales.Elotro parametro,p,seconocecomocoeficientedecorrelaci6ndelapoblaci6n ymidela intensidad de la relaci6n lineal entre X y Y. El coeficiente de correlaci6n de la poblaci6n es la raiz cuadrada de p2,el coeficiente de determinaci6n de la poblaci6npreviamente estudiada, y dado que este lOrna valores entre 0 y 1 inclusive,p puede tomar cualquier valor entre -1 y +1.Si P =1, existe una correlacion lineal directa perfecta entre las dos variables, mientras que p=-1 indica una correlaci6n lineal inversa perfecta. Si p= 0, las dos variables no estan correlacionadas en formalineal.El signodep siempretendra el mismo signo que tenga ~ ,la pendiente de la recta de regresi6n de la poblacion para Xy Y. El coeficiente de correlaci6n de la muestra, r,describe la relaci6n lineal entre lasobservacionesdelamuestraendosvariablesdelamismamanera enquep describe la relacion en una poblaci6n. El coeficiente de correlaci6n de la muestra es laraizcuadradadelcoeficientedelamuestradedeterminaci6nquesedefinio antes. Las figuras 9.4.5(d) y 9.4.5{c), respectivamente, muestran los tipicos diagramas de dispersiondonde r~ 0 (r2~ 0)y r+1(r2=1).La figura9.7.1muestra el tfpico diagrama de dispersion donde r-1. Por 10general,elinteres principal essabersiesposible concluir que p '# 0, esto es,que X yYestan linealmentecorrelacionadas.En general,no se conocep, por 10queseextrae una muestra aleatoriasimplede la poblaciondeinteres,se calcula r, la estimacion de p, y se prueba Ho:p =0 contra la hip6tesis alternativa p '# 0. El procedimiento se ilustra con el siguiente ejemplo. y x FIGURA 9.7.1Diagrama de dispersi6n para r-1. 4339.7COEFICIENTE DE CORRELACION EJEMPLO 9.7.1 Estelles et ai.(A-7) estudiaron los panimetros fibronoliticos durante embarazos normales,en embarazos con presi6n arterial normal y retardo en el crecimiento fetal intrauterino, y en pacientes con preeclampsia con y sin retardo en elcrecimiento fetalintrauterino.La tabla 9.7.1muestra los pesos de losniiios recien nacidos y los niveles del inhibidor tipo 2 del activador de plasmin6geno (PAl-2) en 26 casos estudiados. Se pretende evaluar la intensidad de la relaci6n entre estas dos variables. Soluci6n:EI diagrama de dispersi6n y la recta de regresi6n por mfnimos cuadrados semuestra en la figura 9.7.2. TABlA 9.7.1Pesos al nacer (g) y niveles de PAI-2(ng/ml) de los individuos descritos en el ejemplo 9.7.1 PesoPAl2 2150 2050 1000 2300 900 2450 2350 2350 1900 2400 1700 1950 1250 1700 2000 920 1270 1550 1500 1900 2800 3600 3250 3000 3000 3050 185 200 125 25 25 78 290 60 65 125 122 75 25 180 170 12 25 25 30 24 200 300 300 200 200 230 FUENTE: Justo Aznar,M.D.,Ph. D.Usada con autorizaci6n. 434 0 CAPITULO 9REGRESION Y CORRELACION LINEAL SIMPLE 300 275 250 225 200 175 150 1125 .s ~100if 75 50 25 0 Peso al nacer (g) FIGURA 9.7.2Pesosal nacer y nivelesde inhibido'rtipo 2 del activador del plasminogeno (PAl-2) de los individuos descritos en el ejemplo 9.7.1. Se supone que los investigadores pretenden obtener una ecuaci6n de regresi6n para efectuar estimaciones y predicciones.En ese caso,el coeficiente de correlaci6n de la muestra se obtendra mediante los me todos estudiados bajo el modelo de regresi6n. Ecuaci6n de regresi6n Suponga que se quiere predecir los niveles de PAI-2 a partir de los pesos de los nmos recien nacidos. En este caso, los pesos son tratados como la variable independiente, y losniveles de PAI-2son tratados como la variable dependiente. La ecuaci6n de regresi6n y los coeficientes de correlaci6n se obtienen mediante el paquete MINITAB,tal como se muestra en la figura 9.7.3. Para este ejemplo, r~ . 5 4 5= .7382. En este caso se sabeque respositiva porque lapendiente de la rectade regresi6nes positiva.Tambien es posible utilizar el procedimiento de correlaci6n del programa MINITAB para obtener r como se muestra en la figura 9.7.4. Seobserva una ligera diferencia entre elresultado.7382 contra .7380, aparentemente causada por el error de redondeo en los calculos intermedios. En la figura 9.7.5 se muestran los resultados producidos por el procedimiento de correlaci6n del paquete SAS.Esposibleobservar queel procedimiento del paquete SAS presenta las mediciones descriptivas para cada variable as! como el valor de ppara el coeficiente de correlaci6n. 4359.7COEFICIENTE DE CORRELACIQN Theregressionis C2- 72.1+0.0953Cl PredictorCoefStdevt-ratio P Constant-72.1239.27-1. 840.079 Cl0.095250.017785.360.000 s=65.35R-sq54.5%R-sq(adj)=52.6% AnalysisofVariance SOURCEDFSSMSF P Regression112259612259628.700.000 Error241025104271 Total25225107 UnusualObservations Obs.ClC2FitStdev.FitResidualSt. Resid 72350290.0151. 713.6138.32.16R Rdenotesanobs.withalargest.resid. FIGURA 9.7.3Resultados producidos por MINITAB para el ejemplo 9.7.1, el uso del procedimiento de regresi6n simple. Datos: C1:Weight C2:PAI-2 Caja de dialogo:Comandos de la sesi6n: Stat> Basic Statistics> CorrelationMTB>Correlation C1C2. Teclee Cl, C2 en Variables.elic OK. Resultados: Correlaciones (Pearson) CorrelationofClandC20.738 FIGURA 9.7.4Procedimiento MINITAB yresultados para e1ejemplo 9.7.1mediante el uso del comando de correlaci6n. 436CAPITULO 9REGRESION Y CORRELACION LINEAL SIMPLE TheSASSystem CorrelationAnalysis 2'VAR'Variables:WEIGHTPAI2 SimpleStatistics Variable WEIGHT PAI2 N 26 26 Mean 2088.076923 126.769231 Std.Dev 735.189876 94.890804 Sum 54290 3296.000000 Minimum 900.000000 12.000000 Maximum 3600.000000 300.000000 PearsonCorrelationCoefficients N26 /Prob>IRIunderHO:Rho0/ WEIGHT PAI2 WEIGHT 1. 00000 0.0 0.73798 0.0001 PAI2 0.73798 0.0001 1. 00000 0.0 FIGURA 9.7.5Resultados impresos por SASpara el ejemplo 9.7.1. Cuando no se dispone de una computadora para efectuar los cilculos,rse puede obtener mediante las siguientes f6rmulas: r= (9.7.1) Una f6rmula alternativa para ca1cular resta dada por: r (9.7.2) Una ventaja de esta f6rmula es que noes necesario calcular primerob.Este procedimiento es aconsejable cuando no se ha previsto que se utilizara la ecuaci6n de regresi6n. Esimportanterecordarqueelcoeficientedecorrelaci6ndela muestra, r,siempre tendril el mismo signa que la pendiente de la muestra, b. 4319.7COEFICIENTE DE CORRELACION EJEMPLO9.7.2 De acuerdo con los datos del ejemplo 9.7.1, se desea verificar si el valor de r= .7380 de la muestra, dene una magnitud suficiente para indicar que en la poblaci6nlas dos variables de interes estan correlacionadas. Solucion:Se efectua la prueba de hip6tesis como sigue: 1.Datos.Ver el planteamiento del ejemplo 9.7.1. 2.Supuestos.Se piensa que las suposiciones dadas en la secci6n 9.6 son aplicables. 3.Hipotesis: Ho:p=O HA: p:;t: 0 4. Estadistica de prueba.Cuando p=0,es posiblemostrarquela estadistica de prueba adecuada es: (9.7.3)l-r2 5. Distribucion de Ia estadistica de prueba.Cuando Ho es verdadera y se cumplen las suposiciones, la estadfstica de prueba sigue una distribuci6n t de Student con n2 grados de libertad. 6.RegIa de decision.Si a.05, los valores crfticos de t en el ejemplo son 2.0639. Si a partir de los datos se calcula un valor de t que sea mayor 0 igual a+2.0639, 0bien, menor 0 igual a -2.0639, entonces serechaza la hip6tesis nula. 7.Calculo de Ia estadistica de prueba.EI valor calculado de t es t=.7380 =5.3575

8. Decision estadistica.Dado que el valor calculado de la estadistica de prueba excede el valor crftico de t,se rechaza la hip6tesis nula. 9.Conclusion.Seconcluye que, en la poblaci6n, los pesos de los ninos recien nacidos y los niveles de PAI-2estan linealmente correla. cionados. 10.Valordep.Puesto que 5.3595> 2.8039, se tiene paraesta prueba, p