INTRODUCCIÓN AL MÉTODO Y METODOLOGÍA ESTADÍSTICA DE LA
PSICOMETRÍA
Melissa Judith Ortiz Barrero
Mg. Psicología
La conexión entre la psicometría y la psicología matemática, permite considerar el
método de la Psicometría desde una doble vertiente: por un lado, en tanto que la
teoría psicométrica se refiera a contenidos empíricos, el método no es otro que el
método científico propio de toda ciencia empírica; y por otro lado, el componente
matemático de los modelos formales de medición, sujeta a la teoría psicométrica,
como a la psicología matemática, a los criterios formales de las matemáticas (Meliá,
1990).
Muchos campos de la Psicometría la utilizan como técnica de obtención de datos,
cuando el problema de investigación hace imposible contrastar el modelo con datos
empíricos. Este es el caso cuando se pretende descubrir las propiedades y
características de índices estadísticos, métodos de estimación, potencia de
contrastes, etc. Además, la simulación preserva también el estatus de método en
cuanto generadora de conocimiento.
El análisis del método no puede obviar el papel instrumental de la Psicometría
como herramienta metodológica para la contrastación empírica de las teorías
psicológicas. La aplicación del método científico en psicología obliga a que la
Psicometría desempeñe un papel activo en diferentes momentos del proceso.
Arnau (1989) articula las relaciones entre el plano teórico y empírico del método
científico en tres niveles: el nivel teórico-conceptual, que abarca desde el
planteamiento del problema hasta la formulación de hipótesis empíricamente
contrastables; el nivel técnico-metodológico que abarca el plan de investigación y la
estrategia de recogida de datos; y el nivel estadístico-analítico, donde se realiza la
modelización estadística de los datos y las inferencias sobre las hipótesis
sometidas a contrastación. La generalización de los resultados hace retornar la
aplicación del método al nivel teórico-conceptual con lo que se cierra el ciclo. La
Psicometría acompaña a la aplicación del método en cada uno de los tres niveles.
Los contenidos de la Psicometría
Hay un consenso amplio en la disciplina sobre cuáles son los contenidos propios de la
Psicometría. Si se unen las diferentes versiones de la teoría de los tests bajo una
denominación común, se obtiene la división en tres grandes grupos de los
contenidos psicométricos: teoría de la medición, escalamiento y teoría de los tests.
- La teoría de los tests
La teoría de los tests puede verse como un esquema conceptual formalizado para
hacer inferencias a partir de las puntuaciones de las personas en los tests y permitir la
toma de decisiones que impliquen el constructo objeto de la medición. La teoría de
los tests proporciona los fundamentos para la elaboración y uso de los tests,
aportando además las herramientas para examinar las propiedades métricas de las
mediciones obtenidas con ellos.
La definición de “test” no ha variado de forma significativa conforme evolucionaba la
teoría de los tests. un test psicológico es esencialmente una medida objetiva y
tipificada de una muestra de conducta; es un procedimiento estandarizado que busca
mostrar la índole o grado de instrucción, aptitud o manera de ser de un sujeto.
Otras características definitorias de un test psicológico son que los tests deben
permitir la cuantificación objetiva de acuerdo con unas reglas establecidas y que los
autores de los tests deben aportar información técnica sobre la precisión y
relevancia para el objetivo de la evaluación de las mediciones aportadas por el test.
Se han elaborado diversas clasificaciones de los tests utilizando diferentes criterios.
Crocker y Algina (1986) ofrecen una clasificación útil de los tests atendiendo al
carácter general de la tarea que deben realizar las personas: tests de ejecución
óptima, en los que se instruye a la persona para que conteste lo mejor que pueda
(incluiría los tests de inteligencia, aptitudes y rendimiento); y tests de ejecución típica,
que demandan de la persona información sobre sus actitudes, sentimientos,
intereses, etc., donde se incluirían los cuestionarios e inventarios de personalidad.
Crocker y Algina (1986) enumeran los problemas por los que la medida
psicológica está contaminada por el error:
• Ausencia de aproximaciones únicas a la medición de la mayoría de los
constructos.
• Muestreo limitado del comportamiento (muestreo reducido de situaciones y
momentos temporales).
• Presencia inevitable de los errores de medida.
• Evolución de las teorías psicológicas (el significado de las mediciones siempre
estará sujeto a la evolución de la teoría de la que forma parte).
La finalidad de la teoría de los tests es aportar soluciones para minimizar el impacto
de estos problemas sobre la medición psicológica (Martínez-Arias, 1995).
La imposibilidad de observar de forma directa la mayoría de las variables psicológicas
obliga a considerar la teoría de los tests como una maquinaria conceptual para la
inferencia psicométrica. El papel de los ítems es el de provocar que las respuestas de
las personas en una situación estandarizada, reflejen la conductas que en situaciones
“espontáneas”, se considerarían los indicadores conductuales del constructo. La
cuantificación se produce cuando a través de un procedimiento de escalamiento se
asignan valores cuantitativos a los patrones de repuesta de las personas en el test.
El objetivo principal de la teoría de los tests es estudiar el proceso de inferencia y
aportar procedimientos para realizarla (Crocker y Algina, 1986). Este objetivo ha
hecho que bajo la denominación “teoría de los tests” tengan cabida contenidos tan
diversos como: construcción de tests, elaboración de ítems, análisis de ítems,
métodos de puntuación e interpretación de las puntuaciones y, de forma
preponderante, el análisis de la fiabilidad y validez de las medidas aportadas por los
tests.
La teoría de los tests suele dividirse en dos grandes ramas: la teoría clásica de los
tests (parte de la concepción de que la puntuación observada en el test está
compuesta de un componente verdadero y otro de error) y la teoría de respuesta a los
ítems (o teoría del rasgo latente).
Criterios de calidad en la construcción de test
Utilice como guía la siguiente página web: http://www.uned.es/psico-3-psicometria/ En
ella encontrará la explicación de conceptos y técnicas importantes para la
construcción de pruebas tales como los de Validez y Confiabilidad (fiabilidad), que se
encuentran a continuación. Además encontrará ejercicios (plantillas) que podrá
resolver.
Confiabilidad
Criterio de calidad relacionado con la precisión de las medidas obtenidas con un test
y que proporciona información acerca de:
• La estabilidad temporal de las puntuaciones obtenidas con el test (test-retest y
formas paralelas)
• La consistencia interna del test (alpha y dos mitades)
Validez
Criterio de calidad relacionado con la adecuación de las puntuaciones del test
para el objetivo que suscitó su aplicación.
Conceptos estadísticos, normas y estandarización
Por lo general, el resultado inicial de las pruebas es una puntuación natural como el
número total de afirmaciones de personalidad refrendadas en una dirección en
particular o el número total de problemas resueltos correctamente, esta puntuación
inicial es inútil en sí misma, los examinadores deben ser capaces de convertir la
puntuación inicial a alguna forma de puntuación derivada que se base en la
comparación con un grupo normativo o de estandarización. Se compara la puntuación
del examinado con la distribución de puntuaciones obtenidas por la muestra de
estandarización. Así, se determina, a partir de las normas, si una puntuación obtenida
es baja, promedio o alta
Un grupo normativo consiste en una muestra de personas examinadas que son
representativas de la población hacia la cual se dirige la prueba. El objetivo esencial
de la estandarización de una prueba consiste en determinar la distribución de las
puntuaciones naturales en un grupo normativo, de modo que quienes desarrollan la
prueba tengan la posibilidad de publicar las puntuaciones derivadas conocidas como
normas.
Las normas indican la posición que tiene un individuo dentro de la prueba, en relación
con el desempeño de otras personas de la misma edad, grado escolar, sexo y otras
variables. Dichas normas pueden volverse anticuadas en sólo unos cuantos años, de
modo que la regla, más que la excepción, debe ser el establecimiento periódico de
nuevas normas.
La gran parte de las pruebas psicológicas se interpreta a través de la consulta de
normas; como ya se señaló, estos instrumentos se denominan pruebas referidas a la
norma. Sin embargo, existen otros tipos de instrumentos; las pruebas referidas a
criterio que ayudan a determinar si una persona puede alcanzar un criterio
objetivamente. En el caso de las pruebas referidas a criterio, las normas no son
esenciales.
Existen diferentes tipos de normas, pero éstas tienen una característica en común:
cada una incorpora un resumen estadístico de un enorme conjunto de puntuaciones.
Así, para comprenderlas, el lector necesita dominar la estadística descriptiva
elemental.
Ejemplo:
La prueba es un cuestionario de opción múltiple con 30 palabras difíciles como
firmamento, paradisiaco y melifluo. Una profesora toma la prueba y elige la alternativa
correcta para 17 de las 30 palabras. Pregunta cómo se compara su calificación con
otras personas con el mismo nivel académico. ¿Cómo podría responderse a su
pregunta?
Una manera de responder a la interrogante consistiría en darle una lista de las
puntuaciones naturales de la muestra preliminar de estandarización con 100
profesores representativos de su universidad. Cuando se nos confronta con un
conjunto de datos cuantitativos, la tendencia humana natural es la de resumir y
organizar dichos datos en patrones significativos. Por ejemplo, en la evaluación del
significado de la puntuación de vocabulario de la profesora, se podría calcular la
puntuación promedio de toda la muestra o establecer la posición relativa de la
puntuación de la profesora.
- Distribución de frecuencias
Una manera simple y útil de resumir los datos consiste en tabular una distribución de
frecuencias, la cual se prepara al especificar un pequeño número de intervalos de
clase de igual tamaño y después determinar cuántas puntuaciones caen dentro de
cada intervalo. La suma de las frecuencias de todos los intervalos será igual a N, el
número total de puntuaciones en la muestra. No existe una regla simple para
determinar el tamaño de los intervalos; éste, obviamente, depende del número de
intervalos deseado. Es común que la distribución de frecuencias tenga entre 5 y 15
intervalos de clase.
Ejemplo:
Tabla 1. Distribución de frecuencia de las puntuaciones de 100 profesores en una
prueba de vocabulario (Tomado de Gregory, 2001)
Intervalo de clase Frecuencia
4-6 1 7-9 8
10-12 12 13-15 21
16-18 24
19-21 21 22-24 7 25-27 5
28-30 1
W=100
- Medidas de tendencia central
¿Se puede establecer una sola puntuación representativa de las 100 puntuaciones de
vocabulario en nuestra muestra? La media (X) o promedio aritmético es una de dichas
puntuaciones. Se calcula sumando todas las puntuaciones y dividiéndolas entre N, el
número de puntuaciones. Otro índice útil de tendencia central es la mediana, la
puntuación que se encuentra a la mitad cuando se han ordenado todas las
puntuaciones. Si el número de puntuaciones es par, la mediana es el promedio de las
dos puntuaciones a la mitad. En cualquier caso, la mediana es el punto que divide en
dos la distribución, de modo que la mitad de los casos se encuentren por encima de
ella y la mitad por debajo. Por último, la moda es simplemente la puntuación que
ocurre con mayor frecuencia. Si dos puntuaciones tienen la mayor frecuencia de
ocurrencia, se dice que la distribución es bimodal. La media es sensible a los valores
extremos y puede ser engañosa si una distribución tiene pocas puntuaciones
inusualmente altas o bajas. Considérese el caso extremo donde nueve personas
ganan $10 000.00 y una décima persona gana $910 000.00. El ingreso promedio para
este grupo de personas sería de $100 000; sin embargo, este nivel de ingresos no es
típico de nadie dentro del grupo. La mediana del ingreso, colocada en $10 000, es
mucho más representativa. Por supuesto, éste es un ejemplo extremo, pero ilustra un
punto en general: si una distribución está sesgada (es decir, es asimétrica), la
mediana es un mejor índice de la tendencia central que la medía.
- Medidas de variabilidad
Dos o más distribuciones de puntuaciones de prueba pueden tener la misma media y,
sin embargo, es posible que difieran en gran medida en el grado de dispersión de las
puntuaciones con respecto a la media. Para describir el grado de dispersión, es
necesario un índice estadístico que exprese la variabilidad de las puntuaciones en una
distribución.
El índice estadístico de variabilidad que se utiliza con mayor frecuencia en un grupo
de puntuaciones es la desviación estándar (DE). Desde un punto de vista conceptual,
el lector necesita saber que la DE refleja el grado de dispersión en un grupo de
puntuaciones. De hecho, en el caso extremo donde todas las puntuaciones son
idénticas, la DE es exactamente cero. A medida que un grupo de puntuaciones se
dispersa más, la DE se vuelve más grande.
La varianza es otra medida de variabilidad, pero en general, los psicólogos prefieren
informar la desviación estándar, que se calcula obteniendo la raíz cuadrada de la
varianza.
- Distribución normal
Los psicólogos prefieren una distribución normal de puntuaciones de prueba, aun
cuando muchas otras distribuciones son teóricamente posibles. Por ejemplo, una
mayor proporción de personas obtendría puntuaciones en el rango superior si las
pruebas psicológicas se conformaran a una distribución rectangular de puntuaciones,
en vez de a una distribución normal.
Figura 1. Distribución normal (Tomada de Gregory, 2001)
Una razón por la que los psicólogos prefieren las distribuciones normales es que la
curva normal tiene características matemáticas útiles que forman la base para varios
tipos de investigación estadística. Así, a fin de facilitar el uso de estadísticas
inferenciales, los psicólogos prefieren que las puntuaciones de prueba en la población
normal sigan una distribución normal o casi normal, otra propiedad útil de las
distribuciones normales es que el porcentaje de casos que caen dentro de un cierto
rango o más allá de un cierto valor se conoce de manera exacta.
- Transformación de las puntuaciones naturales
Darle sentido a los resultados de prueba es, en gran medida, una cuestión de
transformar las puntuaciones naturales en formas más interpretables y útiles de
información.
Percentiles y rangos percentiles: Un percentil expresa el porcentaje de personas
dentro de la muestra de estandarización que obtuvieron puntuaciones por debajo de
una puntuación natural específica. Un percentil indica sólo cómo se compara a un
individuo con la muestra de estandarización y no transmite el porcentaje de preguntas
respondidas de manera correcta. Los percentiles también pueden concebirse como
látigos en un grupo de 100 sujetos representativos, donde 1 es el rango inferior y 100
el superior.
Puntuación estándar o puntuación z: Una puntuación estándar utiliza la desviación
estándar de la distribución total de puntuaciones naturales como la unidad
fundamental de medida. La puntuación estándar expresa la distancia de la media en
unidades de desviación estándar. Por ejemplo, una puntuación natural que se
encuentra exactamente a una desviación estándar por encima de la media se
convierte en una puntuación estándar de +1.00. Una puntuación estándar no sólo
expresa la magnitud de la desviación con respecto a la media, sino también la
dirección de esa desviación (positiva o negativa). El cálculo de la puntuación estándar
de un individuo es sencillo: se resta la puntuación natural de la persona examinada a
la media del grupo normativo y después se divide esta diferencia entre la desviación
estándar del grupo normativo.
Puntuaciones T y otras puntuaciones estandarizadas: Desde un punto de vista
conceptual, las puntuaciones estandarizadas son idénticas a las puntuaciones
estándar. La relación entre las puntuaciones estándar y estandarizadas siempre se
traza como una línea recta, sin embargo, las puntuaciones estandarizadas siempre se
expresan como números enteros positivos (no existen fracciones decimales ni signos
negativos), de modo que muchos usuarios de prueba prefieren representar los
resultados en esta forma. El punto importante acerca de las puntuaciones
estandarizadas es que se puede transformar cualquier distribución a una escala
preferida con media y desviación estándar predeterminadas.
Un tipo muy conocido de puntuación estandarizada es la puntuación T, que tiene una
media de 50 y desviación estándar de 10. Las escalas en puntuación T son
especialmente comunes en las pruebas de personalidad. Por ejemplo, en el MMPI,
cada escala clínica (como Depresión, Paranoia) se convierte a una medida común,
donde 50 es la puntuación promedio y 10 es la desviación estándar de la muestra
normativa.
- Selección de un grupo normativo
Cuando se elige un grupo normativo, quienes desarrollan pruebas se esfuerzan por
obtener una muestra representativa de la población para la cual se diseñó la prueba
(Gregory, 2001). Considérese una prueba de rendimiento escolar diseñada para niños
de quinto de primaria en Colombia, la población serian todos los niños en quinto grado
del país. Se puede obtener una muestra representativa de estos individuos
potenciales a través de un muestreo aleatorio por computadora de 10 000 niños, entre
los millones de niños elegibles. Cada uno tendría igual probabilidad de ser elegido
para realizar la prueba; es decir, la estrategia de selección sería un muestreo
aleatorio.
En el mundo real, obtener muestras normativas nunca es tan sencillo y definitivo como
el caso hipotético anterior; los investigadores no tienen una lista completa de todos los
niños en el país. Para ayudar a asegurar que los grupos normativos de menor tamaño
sean verdaderamente representativos de la población para la cual se diseñó la
prueba, los autores de la misma utilizan un muestreo aleatorio estratificado. Este
enfoque consiste en estratificar, o clasificar, a la población blanco en cuanto a
variables antecedentes (como edad, sexo, raza, clase social, nivel educativo) y
después seleccionar al azar un porcentaje apropiado de personas dentro de cada
estrato. Pero lo que es más típico es un esfuerzo de buena fe por elegir una muestra
diversa y representativa de escuelas fuertes y débiles; vecindarios minoritarios y
blancos; ciudades grandes y pequeñas y comunidades del norte, este, centro y sur. Si
esta muestra engloba entonces aproximadamente el mismo porcentaje de minorías,
habitantes de las ciudades, familias de clase alta y baja que el censo nacional,
entonces los autores de la prueba se sienten seguros de que el grupo es
representativo.
Construcción de pruebas
Las pruebas válidas surgen de manera lenta de un proceso evolutivo. En esta sección
se enfatiza en los aspectos básicos del desarrollo de pruebas. Así, la construcción de
pruebas consta de seis etapas entrelazadas:
- Definición de la prueba.
- Selección de un método de escalamiento.
- Construcción de los reactivos.
- Examen de los reactivos.
- Revisión de la prueba.
- Publicación de la prueba.
La definición de la prueba consiste en la delimitación de su alcance y propósito, lo cual
debe saberse antes de que el autor pueda proseguir con su construcción. La selección
de un método de escalamiento es un proceso en el que se establecen las reglas
mediante las cuales se asignan números a los resultados de la prueba. La
construcción de los reactivos es tanto un arte como una ciencia y es aquí donde
puede requerirse la habilidad del autor.
Una vez que se tiene disponible una versión preliminar de la prueba, los autores en
general la aplican a una muestra de tamaño modesto de individuos (pilotaje), a fin de
reunir los datos iníciales sobre las características de los reactivos. El examen de éstos
implica una variedad de procedimientos estadísticos conocidos como análisis de
reactivos, cuyo propósito consiste en determinar cuáles reactivos deben conservarse,
revisarse o eliminarse. Con base en el análisis de reactivos y en otras fuentes de
información, se revisa la prueba. Si las revisiones son sustanciales, es posible que se
requieran nuevos reactivos y prepruebas adicionales con nuevos individuos.
Así, la construcción de pruebas implica un circuito de realimentación donde se podrían
producir varios borradores de un instrumento. La publicación de la prueba es el paso
final. Además de difundir los materiales de una prueba, el autor debe producir un
manual fácil de comprender para el psicólogo que vaya a aplicarla.
- Construcción de Reactivos
Construir los reactivos de una prueba es un procedimiento intenso y cuidadoso que
impone demandas a la creatividad de los autores de pruebas. Quien los redacta se
enfrenta con varias preguntas iníciales:
¿El contenido de los reactivos debe ser homogéneo o variado?
¿Qué rango de dificultad deberían cubrir los reactivos?
¿Cuántos reactivos iníciales deberían construirse?
¿Qué procesos cognitivos y dominios del reactivo deberían cubrirse?
¿Qué tipos de reactivos de prueba deberían utilizarse?
- Pautas para la redacción de reactivos de opción múltiple
o Elija palabras que tengan significados precisos.
o Evite la sintaxis compleja o extraña.
o Incluya toda la información necesaria para la selección de la respuesta.
o Incluya lo más posible de la pregunta dentro del planteamiento.
o No tome los planteamientos al pie de la letra de los libros de texto.
o Utilice opciones de igual extensión y fraseo paralelo.
o Utilice "ninguna de las anteriores" y "todas las anteriores" en raras
ocasiones.
o Reduzca al mínimo el empleo de negativos como no.
o Evite la utilización de palabras no funcionales.
o Evite la especificidad innecesaria en el planteamiento.
o Evite indicios innecesarios de la respuesta correcta.
o Presente los reactivos a otras personas para escrutinio editorial.
Las Pruebas y su Proceso de Aplicación
El procedimiento estandarizado es una característica esencial de cualquier prueba
psicológica. Se considera que una prueba está estandarizada si los procedimientos
para su aplicación son uniformes de un examinador a otro y de un ambiente a otro.
Por supuesto, la estandarización depende, en cierto grado, de la capacidad del
examinador. Incluso la mejor prueba puede resultar inútil en manos de un evaluador
descuidado, con entrenamiento deficiente o mal informado. Sin embargo, la mayoría
de los examinadores son competentes. Por tanto, la estandarización depende en gran
medida de las disposiciones de aplicación que se encuentran en el manual de
instrucciones que por lo común acompaña a una prueba.
La formulación de las instrucciones es un paso esencial para la estandarización de
una prueba. A fin de garantizar procedimientos uniformes de aplicación, quien
desarrolla una prueba debe proporcionar materiales estímulo comparables para todos
los examinados, debe especificar con una precisión considerable las instrucciones
verbales para cada reactivo o subprueba y debe aconsejarle al examinador cómo ha
de manejar una diversidad de dudas por parte de la persona evaluada.
Quien desarrolla una prueba puede incluso llegar hasta el punto de recomendar el
comportamiento deseado en el examinador, como mantener una expresión facial
neutra cuando se registra la respuesta de un sujeto. Estas influencias aparentemente
sutiles pueden tener un serio impacto sobre la uniformidad de los procedimientos de
prueba. Por ejemplo, un examinador que se sonríe con displicencia cuando registra
las respuestas podría provocar que el sujeto se sienta ansioso y falle en una tarea
fácil.
Una prueba psicológica también es una muestra limitada de conducta. Ni el sujeto ni el
examinador tienen el tiempo suficiente para una prueba realmente amplia, incluso
cuando ésta se dirige a un dominio conductual bien definido y finito. Sin embargo, la
muestra de conducta es de interés sólo en la medida que permita que el examinador
realice inferencias acerca del dominio total de conductas relacionadas, la predicción
exitosa es una cuestión empírica que se resuelve a través de la investigación
apropiada.
Una prueba psicológica también debe permitir la derivación de puntuaciones o catego-
rías; toda prueba suministra una o más puntuaciones o proporciona evidencia de que
una persona pertenece a una categoría y no a otra. En pocas palabras, las pruebas
psicológicas resumen la ejecución en números o clasificaciones. Las pruebas miden
las diferencias individuales, se supone que todas las personas poseen el rasgo o
característica medida, aunque en diferentes cantidades. El propósito de la prueba con-
siste en estimar la cantidad del rasgo o cualidad que posee un individuo.
En este contexto, se deben hacer dos advertencias. Primero, toda puntuación de prue-
ba siempre reflejará cierto grado de error de medición. La imprecisión de las pruebas
es simplemente inevitable: éstas deben depender de una muestra externa de
conducta para estimar la característica no observable y, por tanto, inferida. Con
frecuencia, los psicómetras expresan este punto fundamental con la ecuación:
X = T + e
donde “X” es la puntuación observada, “T” la puntuación verdadera y “e” el
componente de error positivo o negativo. Lo mejor que puede hacer quien desarrolla
una prueba es procurar que “e” sea muy pequeño.
Una prueba psicológica también debe poseer normas o estándares. En general, la
puntuación de prueba de una persona se interpreta al compararla con las
puntuaciones obtenidas por otros individuos en la misma prueba. Las normas no sólo
establecen un desempeño promedio, sino que también sirven para indicar la
frecuencia con la que se obtienen diferentes puntuaciones altas y bajas Así, las nor-
mas permiten que el examinador determine el grado al que se desvía una puntuación
con respecto a las expectativas. Tal información puede ser muy importante en la
predicción de la conducta externa a la prueba del individuo examinado. Las normas
tienen tal importancia trascendental en la interpretación de pruebas, que después se
les considerará con amplitud en una sección independiente dentro de este texto.
Tipos y usos de las pruebas
Las pruebas pueden agruparse de manera amplia en dos bandos: pruebas grupales y
pruebas individuales. Las pruebas grupales son medidas principalmente de lápiz y
papel, adecuadas para examinar a grandes grupos de personas a un mismo tiempo.
Las pruebas individuales son instrumentos que, por su diseño y propósito, deben
aplicarse a una sola persona. Una ventaja importante de estas últimas es que el exa-
minador puede estimar el nivel de motivación del sujeto y evaluar la relevancia de
otros factores (p. ej., impulsividad o ansiedad) sobre los resultados de prueba.
Por conveniencia, las pruebas se clasificarán en ocho categorías representadas en;
cada una de ellas contiene pruebas referidas a la norma, referidas a criterio, indi-
viduales y grupales. El lector observará que cualquier tipología de las pruebas es una
determinación puramente arbitraria. Por ejemplo, podría postularse incluso otra
dicotomía: pruebas que buscan medir el desempeño máximo (p. ej., una prueba de
inteligencia) contra las que buscan estimar una respuesta típica (p. ej., un inventario
de personalidad).
- Principales tipos de pruebas psicológicas:
Pruebas de inteligencia: miden la capacidad de un individuo en áreas
relativamente globales como comprensión verbal, organización perceptual o
razonamiento y, por tanto, ayudan a determinar el potencial para el trabajo
escolar o para ciertas ocupaciones.
Pruebas de aptitud: miden la capacidad para una tarea o tipo de habilidad
relativamente específica; en efecto, las pruebas de aptitud son una forma
estrecha de prueba de capacidad.
Pruebas de aprovechamiento: miden el grado de aprendizaje, éxito o logro de
una persona en un tema o tarea.
Pruebas de creatividad: evalúan el pensamiento novedoso y original y la
capacidad para encontrar soluciones poco comunes o inesperadas, en
especial, para problemas definidos de manera vaga.
Pruebas de personalidad: miden los rasgos, cualidades o conductas que
determinan la individualidad de una persona; dichas pruebas incluyen listas de
verificación, inventarios y técnicas proyectivas.
Inventarios de intereses: miden la preferencia de un individuo por ciertas
actividades o temas y, por tanto, ayudan a determinar la elección de carrera.
Procedimientos conductuales: describen de manera objetiva una conducta y
estiman su frecuencia, identificando los antecedentes y consecuencias de la
conducta.
Pruebas neuropsicológicas: miden el desempeño cognoscitivo, sensorial,
perceptual y motor para determinar el grado, localización y consecuencias
conductuales del daño cerebral
En un sentido estricto, existen cientos de tipos diferentes de pruebas, cada una de las
cuales mide un aspecto ligeramente diferente del individuo.
Procesos de aplicación deseables
Se analizarán primero las pruebas individuales y después se enumerarán de manera
breve algunos puntos importantes acerca de los procedimientos deseables en las
pruebas con grupos.
- Procedimientos deseables con pruebas individuales
Un componente esencial de las pruebas individuales es que los examinadores deben
familiarizarse íntimamente con los materiales e instrucciones antes de comenzar con
la aplicación. En su mayoría, esto implica extensos ensayos y anticipación de las
circunstancias poco comunes y de la respuesta apropiada. Un examinador bien
preparado tiene memorizados los elementos clave de las instrucciones verbales y está
listo para manejar lo inesperado. La atención apropiada a los detalles de aplicación es
esencial para obtener resultados válidos.
Otro ingrediente importante de la aplicación válida de una prueba es la sensibilidad a
las discapacidades de la persona evaluada. Las discapacidades en audición, visión,
habla o control motor pueden distorsionar gravemente los resultados de prueba. Si el
examinador no reconoce la discapacidad física responsable del desempeño deficiente
en la prueba, puede clasificarse al sujeto como discapacitado a nivel intelectual o
emocional cuando, de hecho, el problema esencial es una discapacidad sensorial o
motora.
Las pruebas válidas con sujetos que tienen discapacidades auditivas requieren antes
que nada que el examinador ¡detecte la existencia de la discapacidad! Con frecuencia
esto es más difícil de lo que parece. Las indicaciones de una posible dificultad auditiva
incluyen falta de respuesta normal ante el sonido, falta de atención, dificultades para
obedecer instrucciones orales, observación intensa de los labios del hablante y
articulación deficiente En el caso de personas con una pérdida auditiva leve, es
esencial que el examinador se coloque de frente al sujeto, hable más fuerte y repita
las instrucciones lentamente. En contraste con los individuos que tienen alteraciones
auditivas, las personas con discapacidades visuales generalmente atienden bien a los
materiales de prueba presentados de modo verbal. La persona con alteraciones
visuales introduce un tipo diferente de reto para el examinador; delectar la existencia
de una alteración visual y después, asegurarse de que el sujeto puede ver bien los
materiales de prueba.
En general, es tan común que los niños requieran anteojos correctores, que los
examinadores deben estar alertas a un problema de visión en cualquier sujeto joven
que no utilice anteojos y que no haya pasado por un examen reciente de la visión.
Las alteraciones del habla representan otro problema para quienes deben hacer un
diagnóstico. Las respuestas verbales de las personas con alteraciones del habla son
difíciles de descifrar. Debido a la incapacidad del examinador para entender las
respuestas, los sujetos pueden recibir un menor crédito del que merecen
- Procedimientos deseables con pruebas de grupo
Conducir una prueba grupal requiere tanto refinamiento como aplicar una prueba
individual. Sin duda, la más grande fuente de error en la aplicación de una prueba
grupal tiene que ver con tomar de manera inadecuada el tiempo en las pruebas
cronometradas. Los examinadores deben conceder el tiempo suficiente para el pro-
ceso completo de prueba: organización, lectura de las instrucciones en voz alta y
presentación de la prueba en sí por parte de los sujetos. Conceder el tiempo suficiente
requiere previsión en la programación. Por supuesto, reducir el tiempo en una prueba
causa que las normas sean completamente inválidas y con toda probabilidad reduce la
puntuación de la mayoría de los sujetos en el grupo. Conceder demasiado tiempo para
una prueba puede constituir también un tremendo error.
Una segunda fuente de error en la aplicación de pruebas grupales es la falta de
claridad en las instrucciones para los examinados. Los examinadores deben leer las
instrucciones con lentitud, con una voz clara y fuerte que atraiga la atención de los
sujetos. Las instrucciones no deben parafrasearse. Cuando el manual lo permite, los
examinadores deben detenerse en la lectura y aclarar las dudas de los individuos que
tienen alguna confusión.
Las variaciones en las condiciones físicas de aplicación de prueba constituyen una
tercera fuente de error potencial en la conducción de una prueba grupal. Los
examinadores deben asegurarse de que la habitación de examen esté bien iluminada
y, de ser necesario, que tenga calefacción o aire acondicionado para controlar las
variaciones extremas en cuanto a temperatura y humedad. La importancia de la
superficie de escritura se aumenta por la tendencia actual a utilizar hojas separadas
de respuesta. Los sujetos necesitan de un espacio más amplio de escritorio cuando
emplean hojas separadas de respuesta que bajo otras condiciones. Aunque pocos
editores de prueba lo señalan, sería bueno especificar en los manuales de prueba las
variaciones admisibles en cuanto a superficie de escritura que de todos modos
permiten resultados comparables de prueba.
- La importancia del rapport
Los editores de pruebas instan a los examinadores a establecer un rapport; una
atmósfera cómoda y cálida que sirva para motivar a los examinandos y que produzca
la cooperación. Dar lugar a un ambiente cordial para la prueba es un aspecto crucial
de una prueba válida. Un examinador que no establece rapport puede provocar que
una persona reaccione con ansiedad, falta de cooperación de naturaleza pasivo-
agresiva u hostilidad abierta. El fracaso para establecer el rapport distorsiona los datos
de la prueba: se subestima la capacidad y se hace un juicio inadecuado de la
personalidad. El rapport es de particular importancia en las pruebas individuales y en
particular cuando se evalúa a niños.
- Ansiedad ante la prueba
La ansiedad ante la prueba se refiere a aquellas respuestas fenomenológicas,
fisiológicas y conductuales que acompañan a la preocupación acerca del posible
fracaso en una prueba. No hay duda de que los sujetos experimentan diferentes
niveles de ansiedad ante la prueba, que van desde una actitud despreocupada, hasta
un temor incapacitante ante el prospecto de que se les someta a prueba.
Entonces…
Los contenidos de la psicometría se articulan, fundamentalmente, en dos grandes
bloques: teoría de los test, que hace referencia a la construcción, validación y
aplicación de los test, y escalamiento, que incluye los métodos para la elaboración de
escalas psicofísicas y psicológicas. A su vez, la teoría de los test se divide en dos
ramas: la teoría clásica de los tests y la más reciente teoría de respuesta a los ítems.
Los conceptos clave de la teoría clásica de los tests son: confiabilidad y validez.
"confiabilidad" es medir algo de forma consistente; mientras que "validez" es medir lo
que realmente se pretende medir. Ambas propiedades admiten un tratamiento
matemático.
La consistencia interna puede calcularse por correlación entre distintos tests. Los
métodos más conocidos se denominan: método de las formas paralelas, método
del test-retest y método de las dos mitades.
La validez puede calcularse correlacionando las mediciones con las de una medida
patrón aceptada como válida. Se distinguen los siguientes aspectos: validez de
contenido, validez predictiva y validez de constructo.
Con frecuencia, el estudiante de evaluación inexperto supone que los procedimientos
de examen son tan sencillos y simples que una sola lectura rápida del manual será
suficiente como preparación para la prueba. Aunque algunas pruebas individuales son
sumamente rudimentarias y poco complicadas, muchas de ellas tienen aspectos
complejos de aplicación que, si no se toman en cuenta, pueden causar que el
individuo examinado falle de manera innecesaria en los reactivos.
Ya sea que una prueba grupal utilice o no una corrección para la puntuación, el punto
importante reside en enfatizar en este contexto que quien aplica la prueba debe seguir
el procedimiento estandarizado y nunca ofrecer consejo adicional acerca de adivinar
las respuestas. En las pruebas grupales, las desviaciones con respecto al manual de
instrucciones son simplemente inaceptables.
Referencias
Arnau, J. (1989). Metodología de la investigación y diseño. En J. Arnau y H. Carpintero (Eds.). Historia, teoría y método. Madrid: Alhambra Universidad.
Crocker, L. y Algina, J. (1986). Introduction to classical and modern test theory. New
York: Holt, Rinehart and Winston. Gregory, R. (2001). Evaluación psicológica: Historia, principios y aplicaciones. México:
Manual Moderno Martínez-Arias, R (1995). Psicometría: Teoría de los tests psicológicos y
educativos. Madrid: Síntesis.
Meliá, J.L. (1990). La construcción de la Psicometría coma ciencia teórica y
aplicada. Valencia: Cristóbal Serrano.
Top Related