VALIDEZ Y CONFIABILIDAD DE UN TES1[].docx

download VALIDEZ Y CONFIABILIDAD DE UN TES1[].docx

of 11

Transcript of VALIDEZ Y CONFIABILIDAD DE UN TES1[].docx

VALIDEZ Y CONFIABILIDAD DE UN TESTLa psicometra, engloba la teora y la construccin de pruebas, test y otros procedimientos de medicin vlidos y confiables o fiables. Incluye, por tanto, la elaboracin y aplicacin de procedimientos estadsticos que permitan determinar si una prueba o test es vlido o no para la medicin de una variable o conducta psicolgica previamente definida.

Sin embargo, la medida de estos aspectos no directamente observables es difcil, y gran parte de la investigacin y tcnicas acumuladas en esta disciplina estn diseadas para definirlos de manera fiable antes de cuantificarlos.Los primeros trabajos de psicometra se desarrollaron para medir lainteligencia. Posteriormente, la teora psicomtrica se ha aplicado a la medida de otros aspectos como los rasgos de personalidad, actitudes y creencias, rendimiento acadmico, y en campos relacionados con la salud y la calidad de vida.No debe confundirse conpsicrometraque es la encargada del estudio de laspropiedades termodinmicasdel aire hmedo y del efecto que ejerce sobre los materiales y sobre el confort humano.Enfoques tericosLos contenidos de la psicometra se articulan, fundamentalmente, en dos grandes bloques:Teora de los test, que hace referencia a la construccin, validacin y aplicacin de los test, Escalamiento, que incluye los mtodos para la elaboracin de escalas psicofsicas y psicolgicas.A su vez, la teora de los test se divide en dos ramas: lateora clsica de los testy la ms recienteteora de respuesta al tem.Los conceptos clave de la teora clsica de los test son: confiabilidad (o fiabilidad) yvalidez. Un test es vlido si mide realmente el atributo que pretende medir; mientras que es confiable si lo mide siempre de igual manera, es decir, si la aplicacin del instrumento da medidas estables y consistentes.Ambas propiedades, validez y confiabilidad, admiten un tratamientomatemtico.La consistencia interna puede calcularse por correlacin entre distintos test. Los mtodos ms conocidos se denominan:mtodo de las formas paralelas,mtodo del test-re testy mtodo.La validez puede calcularse correlacionando las mediciones con las de una medida patrn aceptado como vlida. Se distinguen los siguientes aspectos:contenido, validezyvalidez de constructo.Laconfiabilidad(o fiabilidad) tiene tambin relacin con laprecisindel instrumento que se utiliza para medir. Por ejemplo, si se compara un termmetro con la mano de una madre para determinar si un nio tiene fiebre, se puede afirmar que el termmetro es ms confiable, puesto que es ms preciso.

Fiabilidad (psicometra)En el campo de lapsicologa, laeducaciny la investigacin social, lafiabilidad(tambin llamada tcnicamenteconfiabilidad) es una propiedadpsicomtricaque hace referencia a la ausencia deerrores de medida, o lo que es lo mismo, al grado de consistencia y estabilidad de las puntuaciones obtenidas a lo largo de sucesivos procesos de medicin con un mismoinstrumento.

Consideraciones generalesEs necesario aclarar que la fiabilidad no es una propiedad de los test en s mismos, sino de las interpretaciones, inferencias o usos especficos que se hagan a partir de los datos y medidas que estos proporcionan. Asimismo, no puede hablarse de la fiabilidad en trminos absolutos; s cabra hablar delgradode fiabilidad que puedan presentar los instrumentos de medida en un contexto de aplicacin determinado.A partir de la variabilidad en las puntuaciones encontradas tras una serie de mediciones repetidas puede determinarse el ndice de precisin, consistencia y estabilidad de un instrumento. En el supuesto de que el resto de condiciones se mantengan inalteradas, puede concluirse que, a mayor variabilidad de resultados, menor fiabilidad del instrumento de medicinNo obstante, uno de los principales problemas que se presentan en el campo de la investigacin en ciencias sociales tiene que ver con la dificultad de conseguir que las distintas medidas se realicen exactamente en las mismas condiciones. Las condiciones personales de los sujetos, como lamotivacin, la maduracin o el grado deatencin, pueden variar de una medicin a otra, por lo que resulta imprescindible establecer un procedimiento estandarizado de medicin que permita reducir al mnimo lasvariables extraasque puedan influir en los resultados finales. Por lo tanto, la fiabilidad hace referencia a la estabilidad y consistencia de las mediciones en aquellos casos en los que no existen razones tericas o empricas que nos hagan suponer que la variable que se mide se haya visto modificada de forma significativa por los sujetos, por lo que se asume su estabilidad

La teora clsica de los testEn el marco de lateora clsica de los test, segn el modelo lineal clsico propuesto porCharles Spearman(1904, 1907, 1913); la puntuacin emprica (X) que obtiene un sujeto en un test, es la suma de dos componentes: la puntuacin verdadera (V) y el inevitable error de medida asociado al instrumento.Es decir, si a la puntuacin emprica (obtenida en la prueba) se le elimina el error de medida, se obtendr la puntuacin verdadera. En este contexto, la fiabilidad hace referencia a laproporcinde lavarianzaverdadera, es decir, la parte de la varianza total que los tems discriminan por lo que tienen en comnSiguiendo este razonamiento, obtendramos:

Dondees el smbolo de la fiabilidad de las puntuaciones observadas (X); y,, yson las varianzas de las puntuaciones empricas, verdaderas y de error, respectivamente. Dado que no existe modo alguno de determinar la puntuacin verdadera directamente, existe una serie de mtodos para realizar una estimacin de la fiabilidad.Coeficiente de fiabilidadEl coeficiente de fiabilidad () es lacorrelacinentre las puntuaciones obtenidas por los sujetos en dos formas paralelas de un test (X y X'). Suponiendo que las dos formas del test sean realmente paralelas (es decir, midan realmente lo mismo), las puntuaciones de los sujetos deberan ser iguales en ambas aplicaciones. As, cuando la correlacin es igual a 1, la fiabilidad es mxima. El grado en que el coeficiente de fiabilidad se aleje de 1 ser un indicador del grado de error aleatorio de medida que estaremos cometiendo en la aplicacin de las pruebas. El coeficiente de fiabilidad no debe confundirse con elndice de fiabilidad, que es la correlacin entre las puntuaciones verdaderas y las empricas (), y se obtiene a partir de la raz cuadrada del coeficiente.Estimacin emprica del coeficiente de fiabilidadDesde la Teora Clsica de los Test (TCT) se han propuesto diferentes procedimientos para calcular la fiabilidad. Algunos de ellos son los siguientes:

Formas paralelas

Este procedimiento es el que se deriva naturalmente del modelo. Requiere que se utilicen dos pruebas o instrumentos paralelos, esto es, que midan lo mismo de forma diferente.Por ejemplo: dos test que con diferentes preguntas midan un determinadorasgo. Despus se comparan los dos test, calculando elcoeficiente de correlacin de Pearson. Esta correlacin ser, como hemos visto en el apartado anterior, el coeficiente de fiabilidad. Si la correlacin es alta, se considera que hay una buena fiabilidad. Al valor obtenido tambin se le conoce comocoeficiente de equivalencia, en la medida en que supone un indicador del grado de equivalencia entre las dos formas paralelas de un test.La dificultad de este procedimiento radica en conseguir que dos instrumentos sean realmente "paralelos", dada la dificultad que supone realizar dos pruebas que midan exactamente lo mismo, pero con diferentes tems. No obstante, en condiciones ideales en las que se pueda garantizar el paralelismo de ambas formas, este es el mtodo ms recomendable.

Test-re test Con este mtodo el coeficiente de fiabilidad se calcula pasando mismo test dos veces a los mismos sujetos. Se pueden pasar inmediatamente, o dejando un intervalo de tiempo entre el test y el re test. Despus se calcula la correlacin de Pearson entre las puntuaciones de ambas aplicaciones, y el resultado obtenido ser el coeficiente de fiabilidad. Se considera un caso especfico de formas paralelas, dado que evidentemente un testes paralelo a s mismo. Al resultado obtenido se le denominacoeficiente estabilidad, al servir de indicador de hasta qu punto son estables las mediciones realizadas durante la primera aplicacin del test. Las diferencias en los resultados se atribuyen al grado de consistencia interna o muestreo de los tems de la prueba en el caso de pasar el retes de forma inmediata, y se le suman las fluctuaciones en el tiempo en el caso del intervalo temporal.Dejar transcurrir un espacio de tiempo excesivo entre ambas aplicaciones puede suponer una amenaza a la validez interna por las posibles influencias externas a la que pueden estar expuestos los sujetos durante el intervalo, y que pueden afectar a su desempeo en la segunda aplicacin. En el extremo opuesto, una aplicacin demasiado apresurada del re test podra afectar igualmente a la validez interna, en este caso por los posibles efectos del recuerdo reciente de la primera aplicacin. La eleccin del intervalo de tiempo adecuado entre ambas aplicaciones depender en gran medida del tipo de test, ya que en funcin de su formato puede ser ms sensible al efecto de una u otra amenaza

Dos mitadesA diferencia de los anteriores, este mtodo slo requiere una aplicacin del test. Tras obtener las puntuaciones obtenidas por los sujetos en cada una de las dos mitades en que se habr dividido, se procede a calcular lacorrelacinentre las dos puntuaciones. El resultado obtenido ser un indicador de lacovariacinentre ambas mitades, es decir, de la consistencia internadel test. La principal dificultad de este sistema es asegurarse de que ambas mitades sean efectivamente paralelas. Un sistema habitual es dividir el test entre los tems pares y los impares; no es recomendable dividirlo sin ms por la mitad, dado que muchos test muestran un incremento gradual de la dificultad de sus tems

Otros mtodos basados en la consistencia internaAlfa de Cron Bach (1951): El coeficientealfa() es un indicador de la fiabilidad de un test basado en su grado de consistencia interna. Indica el grado en que los tems de un test covaran. Coeficientes de Kuder-Richardson(1937): Se trata de dos frmulas aplicables a sendos casos particulares de alfa. KRse aplica en el caso en que los tems del test sean dicotmicos, y KR, en el caso de que adems de ser dicotmicos, tengan la misma dificultad. Mtodo de Rulon(1939): Una estimacin de la fiabilidad de un test a partir de las puntuaciones obtenidas en sus dos mitades. Considera que la diferencia entre las dos mitades se debe slo al error aleatorio. Mtodo de Guttman/Flanagan(1945/1937): Otra frmula basada en la consistencia interna, equivalente a la de Rulon. Coeficiente beta (): Propuesto por Raju (1977) para calcular la fiabilidad de una batera compuesta por diversos subtests. En los casos en los que se desea calcular la fiabilidad de una batera, se trata a los distintos subtests como si fueran los tems de un nico test y se calcula el coeficiente alfa global. El problema surge en los casos en los que los distintos subtests no tienen el mismo nmero de tems, lo que suele ser lo ms frecuente, y que repercute en una infraestimacin del alfa global. El coeficiente beta permite sortear esta infraestimacin. Coeficientes theta () y omega (): Basados en elanlisis factorialde los tems, son indicadores de la consistencia interna similares al coeficiente alfa. El coeficiente theta fue desarrollado por Carmines y Zeller (1979) El coeficiente omega fue desarrollado por Heise y Bohrnstedt (1970). Relaciones entre fiabilidad y otros factoresHay dos factores que afectan al grado de fiabilidad de un test: la variabilidad y la longitud. Fiabilidad y variabilidad: El tipo de muestra de sujetos que se haya escogido para calcular la fiabilidad de un test puede influir en el resultado obtenido. Esto significa que la fiabilidad ya no depende nicamente de las caractersticas del test, sino tambin de la muestra de sujetos a los que se aplique, por lo que no se puede decir que un mismo test tenga un coeficiente de fiabilidad fijo. En suma, puede afirmarse que la fiabilidad de un test ser mayor cuanta mayor variabilidad exista en la muestra de sujetos seleccionada. Fiabilidad y longitud: En trminos generales, puede decirse que la fiabilidad de un test aumenta a medida que aumenta su longitud, es decir, su nmero de tems. Ello no significa que resulte recomendable alargar innecesariamente un test en pro de aumentar su fiabilidad, ni que cualquier test pueda convertirse en un instrumento fiable por el nico medio de aumentar indefinidamente su longitud. Lafrmula de Spearman-Brownpermite pronosticar el aumento de fiabilidad obtenida tras el incremento de la longitud de un test, siempre y cuando los tems aadidos sean paralelos a los ya existentes

Validez (psicometra)

En el campo de lametrologa,psicometrayestadstica, lavalidezes un concepto que hace referencia a la capacidad de uninstrumento de medicinpara cuantificar de forma significativay adecuada el rasgo para cuya medicin ha sido diseado. De esta forma, un instrumento de medida es vlido en la medida en que las evidencias empricas legitiman la interpretacin de las puntuaciones arrojadas por el test.

Consideraciones generales La constatacin de la validez de un instrumento de medida no ofrece mayores problemas cuando se trata de cuantificar variables objetivas, como elpeso, laestaturao elvolumen. Pero en el caso de variables psicolgicas es necesario probar de forma emprica que el instrumento es vlido para aquello que dice evaluar. No obstante, ms que el test en s mismo, lo que se somete a validacin son las posiblesinferenciasque se vayan a realizar a partir de los resultados obtenidos. Tanto lafiabilidadcomo la validez son dos propiedadespsicomtricasque deben cumplir las interpretaciones e inferencias que se hagan de los resultados obtenidos por los test psicolgicos. La validez, pues, no debe ser una caracterstica propia del test, sino de las generalizaciones y usos especficos de las medidas que el test proporcionaEs importante sealar que un instrumento de medicin no tiene uncoeficientefijo de validez que vaya a servir para cualquier propsito o para cualquier grupo de individuos, sino que siempre depender de la correcta eleccin del criterio a valorar (variable criterio) y lamuestraseleccionadaExisten diversos tipos de validez, pero estas subdivisiones no constituyen conceptos que deban ser asumidos como independientes entre s. Los tipos de validez mantienen una relacin de influencia recproca y conforman las diversas partes de un todo, que es lo que conocemos de forma genrica como "validez"

Definiciones de validez Desde el punto de vistaestadstico, la validez es laproporcinde lavarianza verdaderaque es relevante para los fines de la prueba; es decir, que es atribuible a la variable, caractersticas o dimensin que mide la prueba. Desde el punto de vistapsicomtrico, la validez es el resultado de un proceso de recopilacin de evidencias empricas sustentado en supuestos tericos que, en suma, permiten emitir un juicio valorativo que afirme la pertinencia y la suficiencia de las interpretaciones basadas en los resultados de una prueba. Este juicio no depende nicamente de los tems de la prueba, sino tambin de la muestra sobre la que se efecte el test, y del contexto de aplicacinAs, para Messick (1984, pp. 741), la validez unificada integra consideraciones de contenido, criterio y consecuencias en un marco de referencia de constructo para la evaluacin emprica de hiptesis racionales acerca del significado de las puntuaciones y de relaciones relevantes desde el punto de vista terico, incluyendo las de naturaleza cientfica y aplicada

Tipos de validez.Validez de contenido.Se dice que una prueba otestcumple con las condiciones de validez de contenido si constituye unamuestraadecuada y representativa de los contenidos y alcance delconstructoo dimensin a evaluar. En los casos en los que la materia objeto de medicin se puede precisar con facilidad, lapoblacinde contenidos que se pretende evaluar est bien definida, por lo que la seleccin de los tems del test no ofrece mayores dificultades, pudindose recurrir a mtodos estadsticos demuestreo aleatoriopara obtener una muestra representativa de tems. No obstante, en el campo de lapsicologano siempre es posible disponer de poblaciones de contenidos bien definidas.Por ejemplo: si se pretenden medir variables psicolgicas clsicas, como laextraversin, lainteligenciao elliderazgo). En estos casos suele recurrirse a un anlisis racional de tems, consistente en la evaluacin de los contenidos del test por parte de un grupo de expertos en el rea a tratar. La validez de contenido es esencial a la hora de realizar inferencias o generalizaciones a partir de los resultados del test.Un caso particular de la validez de contenido es la denominada validez aparente. Una prueba posee una validez aparente adecuada cuando produce en los sujetos a los que se aplica la impresin de que efectivamente es una prueba adecuada. Es un tipo peculiar de validez de contenido, pero que tiene su parte de importancia al poder influir sobre la motivacin de los participantes, que pueden mostrar una actitud negativa ante la prueba si no perciben que sta tenga el sentido que se le supone.

Validez predictiva.Tambin conocida como validez criterial, validez relativa al criterio o validez de pronstico, se refiere al grado de eficacia con que se puede predecir o pronosticar una variable de inters (criterio) a partir de las puntuaciones en un test. Es frecuente que en los procesos deseleccin de personalse utilicen instrumentos que pretendan determinar o predecir el rendimiento futuro de los candidatos al puesto de trabajo basndose en las respuestas obtenidas. Para ello es necesario que se haya obtenido una evidencia emprica de que los resultados obtenidos en la pruebacorrelacionenefectivamente con el rendimiento futuro en el puesto de trabajo.As pues, la operacionalizacin del concepto se realiza a partir del denominadocoeficiente de validez, que es la correlacin entre el test y el criterio. A mayor correlacin, mayor capacidad predictiva del test. Existen distintos diseos experimentales que permiten determinar esta correlacin. La eleccin de undiseou otro depender de las necesidades y circunstancias especficas de cada caso: Validez concurrenteosimultnea: El test y el criterio se miden al mismo tiempo (concurrentemente). Puede utilizarse para validar un nuevo test por comparacin con otro ya validado previamente. Validez de pronstico: El criterio se mide pasado un periodo de tiempo tras la aplicacin del test. Es el tipo ms habitual en los procesos de seleccin de personal, en los que se pretende predecir el rendimiento futuro de los sujetos. Validez retrospectiva: El test se aplica un tiempo despus del criterio que se pretende evaluar. til cuando se pretende dilucidar mediante una prueba algn aspecto del pasado que actualmente no es accesible. La frmula general del coeficiente de validez es:

Donde "x" hace referencia a las puntuaciones obtenidas en el test, e "y" hace referencia a las puntuaciones obtenidas en la variable criterio.

Validez de constructo.A diferencia de lo que ocurre en otros campos, muchos de los conceptos manejados en el mbito de la psicologa no son directamente observables, por lo que requieren del apoyo de medidas indirectas. Los conceptos de peso o volumen son suficientemente tangibles como para no resultar susceptibles de interpretaciones subjetivas al respecto de su significado, pero no ocurre lo mismo en el caso de variables psicolgicas como elneuroticismoo laintroversin. Estos conceptos precisan del acuerdo o consenso sobre sus significados para poder ser catalogados como tiles y vlidos desde un punto de vista cientfico. La validez de constructo, pues, hace referencia a la recogida de evidencias empricas que garanticen la existencia de unconstructo psicolgicoen las condiciones exigibles a cualquier otro modelo o teora cientfica.Por todo ello, la validez de constructo se presenta como una condicin indispensable a la hora de valorar la eficacia de un instrumento de evaluacin sobre una variable psicolgica determinada.Para Messick (1980; p.1015) la validez de constructo es el concepto unificador que integra las consideraciones de validez de contenido y de criterio en un marco comn para probar hiptesis acerca de relaciones tericamente relevantes. Asimismo,Cron Bach(1984; p.126) refiere que la meta final de la validacin es la explicacin y comprensin, y por tanto, esto nos lleva a considerar que toda validacin es validacin de constructo.Los procedimientos metodolgicos ms utilizados para la obtencin de datos referentes a la validez de constructos psicolgicos han sido elanlisis factorialy lamatriz multirrasgo-multimtodo. Ambos sistemas son indicadores respectivos de las denominadas "validez factorial" y "validez convergente-discriminante"Validez factorial] Elanlisis factoriales una tcnica delanlisis multivariadoque permite realizar una estimacin de losfactoresque dan cuenta de una serie de variables. Se trata de una tcnica de reduccin de datos que permite encontrar grupos homogneos de variables a partir de un grupo de variables mucho ms numeroso.

Los criterios de formacin de grupos se basan en la necesidad de que las variables a agrupar correlacionen entre s, y cumplan el requisito de ser independientes.

Es decir, formarn un grupo aquellas variables que, siendo independientes entre s, muestren un ndice decorrelacinelevado.

As, podremos hablar de validez factorial de un constructo en aquellos casos en los que todas las medidas que se hayan diseado para evaluarlo arrojen resultados similares al ser sometidas a un anlisis factorial.

Este anlisis puede serevaluatorio, si se realiza con la intencin de descubrir la posible estructura subyacente factorial de un conjunto de datos cualesquiera; oconfirmatorio, si se realiza con base en unas expectativas y teoras previas al respecto de esa estructura. Validez convergente-discriminanteEste tipo de validez se determina a partir de los resultados arrojados por la matriz multirrasgo-multimtodo (diseo MRMM, sistematizado por Campbell y Fiske en 1959). El sistema consiste en realizar mediciones de varios rasgos con distintos mtodos de medicin. De este modo podemos encontrarnos con varios resultados. Validez convergente: existe validez convergente cuando las mediciones del mismo rasgo realizadas con distintos mtodos correlacionan entre s. El hecho de que un mismo rasgo sea detectado por igual con varias metodologas diferentes, es un indicador fiable de la existencia real de ese rasgo. Se dice que en este caso, las medidas convergen. Validez discriminante: se refiere al grado de diferenciacin entre distintos constructos a partir de un nico sistema de medicin. Es decir, las medidas de distintos rasgos por el mismo mtodo muestran una baja correlacin en comparacin con la que muestran las medidas del mismo rasgo con diferentes mtodos, seal de que los rasgos son independientes entre s, e independientes al sistema de medicin empleado.