Post on 02-Jan-2016
1
TEMA 1. INTRODUCCIÓN AL CONCEPTO DE PSICOMETRÍA
MÉTODOS DE ESCALAMIENTO
PSICOFÍSICO
Constante de Weber
Umbral mínimo
dap
Función de Fechner
Desarrolló los métodos psicofísicos indirectos
Su función representa la relación entre los 2 continuos a los que se refiere el
escalamiento: físico y psicológico
Introduce los concpetos
umbral absoluto y umbral
diferencial
Métodos:
Método de los límites o cambios mínimos: el experimentador modifica la intensidad
Método de ajuste o error promedio: el sujeto modifica la intensidad
Método de los estímulos constantes: el umbral absoluto es la magnitud percibida el 50% de
las ocasiones
Función potencial de
Stevens
Desarrolló los métodos directos
Trata de encontrar una fucnión que relacione
estímulos y respuestas
Métodos
Emparejamiento de magnitudes
Emparejamiento de razones
Emparejamiento de intervalos
Escalas de categorías o clasificación
2
MÉTODOS DE ESCALAMIENTO
PSICOLÓGICO
Thurstone
Ley del juicio comparativo o método de las comparaciones
binarias
Ley del juicio categórico o método de intervalos sucesivos,
aparentemente iguales y de ordenación de rasgos
Nuevas formas de escalamiento psicológico
Guttman Escalamiento de
respuestas: escala de entrelazamiento
Coombs Tª del despliegue
3
ORÍGENES Y DESARROLLO DE LOS TESTS
Primeros tests
mentales
Cattell
Primeros tests de inteligencia
Binet y Simon
1ª escala de inteligencia
Terman
EM
Stern
CI = EM/EC x 100
Tests colectivos
Yerkes
Tests alpha y beta
Baterías de aptitud
múltiple
Batería de aptitudes mentales primarias
de Thurstone
Tests de personalidad
Kraepelin
Test de asociación
libre
Rorschach
Test proyectivo de las manchas
de tinta
4
TEORÍAS DE LOS TESTS
Tª clásica Modelo lineal de
Spearman X = V + E
Tª de la generalizabilidad de Cronbach
Tiene en cuenta todas las posibles fuentes de error e intenta diferenciarlas
mediante ANOVA
Tª de la respuesta al ítem Sujetos e ítems son
independientes
5
TEMA 2. PRINCIPIOS BÁSICOS PARA LA CONSTRUCCIÓN DE INSTRUMENTOS DE MEDICIÓN PSICOLÓGICA
ESPECIFICACIÓN DE LAS
CARACTERÍSTICAS DEL TEST
Contenido
Dominio de conductas
Dominio de contenido (en los TRC)
Formato de los ítems
Ítems de elección
Dos alternativas
Elección múltiple
EMparejamiento
Formato cloze o
incompleto
Escalas de clasificación
Listados
Ítems de construcción
Desrespuesta corta
De respuesta extensa o
ensayo
Longitud del test
Características
psicométricas de los ítems
Nivel de dificultad
Test de velocidad
Test de ejecución máxima (de potencia)
Test de ejecución típica
Homogeneidad
Capacidad de discriminación
6
TEMA 3. TÉCNICAS PARA LA CONSTRUCCIÓN DE ESCALAS DE ACTITUDES
MODELO ESCALAR DE THURSTONE
Se basa en
Variabilidad perceptual de los sujetos
Limitaciones para percibir las diferencias de magnitud entre
2 estímulos
Supuestos básicos
Existe un cotinuo psicológico subjetivo, se origina un proceso discriminante, un estímulo presentado varias
veces no origina siempre el mismo proceso discriminante, se puede hacer una distribución de los valores subjetivos ajustada a la distribución normal
Ley del juicio comparativo o método de las
comparaciones binarias
Diferencia discriminante: comparar cada estímulo con
todos los demás t decir cuál es el preferido
Ley del juicio categórico
Asignar cada estímulo a una categoría en función del grado
de atributo
Método de los intervalos aparentemente iguales
Calcular valores escalares de los estímulos (mediana)
8
DIFERENCIAL SEMÁNTICO DE
OSGOOD
Mide el significado connotativo (afectivo o
subjetivo) de los estímulos
Formato de la escala
Conceptos: estímulos ha evaluar
Escalas bipolares: para evaluar el significado de los conceptos. Se suelen dividir
en 7 categorías
Si se clasifica el concepto en la categoría media: no hay
asociación i relación semántica entre el concepto y la escala
Espacio semántico: cirerios de selección de
escalas
Criterio de la composición factorial
Que cada factor esté representado, al menos, por 4 o
6 escalas bipolares
Criterio del grado de relevancia para la
evaluación del concepto
No incluir escalas poco relevantes
Criterio de la estabilidad semántica de la escala
9
ESCALOGRAMA DE GUTTMAN
Ordenación de sujetos y
estímulos en un continuo (escala
de entrelazamiento
)
Método centrado en la respuesta
Permite establecer la
unidimensionalidad del conjunto
de datos mediante una
escala acumulativa
perfecta (matriz triangular)
Evaluación del error
Este modelo no lleva implícita ninguna Tª del
error
Uso del Coeficiente de
reproductividad: grado de ajuste entre los datos
obtenidos empíricamente y
el modelo teórico
Si CR igual o mayor que 0'90 los datos se ajustan
al modelo
11
TESTS PARALELOS:
CONDICIONES DE PARALELISMO
1er supuesto: las puntuaciones
verdaderas son iguales en ambos tests
2º supuesto: la varianza de los errores de medida es la misma
en ambos tests
Deducciones
La media de las puntuaciones de 2 tests
paralelos es la misma
Las varianzas de las puntuaciones son iguales
La correlación entre las puntuaciones empíricas de los 2 tests es igual al
cuadrado de la correlación entre
puntuaciones empíricas y verdaderas
En 2 o más tests paralelos las
intercorrelaciones entre cada 2 de ellos son
iguales
12
TIPOS DE ERRORES DE MEDIDA
Error de medida Diferencia entre las
puntuaciones empíricas y verdaderas
Error de estimación de la puntuación verdadera
Diferencia entre la puntuación verdadera y la
pronosticada por la regresión.
Error de sustitución
Error que se comete al sustituir las puntuaciones
del test X1 por las obtenidas en un test paralelo X2
Error de predicción
Diferencia entre puntuaciones obtenidas en
un test (X1) y las pronosticadas en ese mismo
test (X´1) a partir de una forma paralela X2
13
FACTORES QUE AFECTAN A LA
FIABILIDAD
Longitud del test
Ecuación Spearman-Brown (cuando se quiere aumentar la longitud del
test n veces)
Variabilidad de la muestra
Cuanto más homogéneo el grupo, menor es el
coeficiente de fiabilidad y la desviación típica de las puntuaciones empíricas
Características de los ítems
14
FIABILIDAD COMO EQUIVALENCIA Y COMO
ESTABILIDAD DE LAS MEDIDAS
Métodos basados en la estabilidad para calcular
el coeficiente de fiabilidad
Método de las formas paralelas
Se calcula el coeficiente de correlación de
Pearson entre 2 formas paralelas
El coeficiente de fiabilidad obtenido se llama coeficiente
de equivalencia
Método test-retest
Se aplica el mismo test en 2 momentos
diferentes
El coeficiente de fiabilidad obtenido se llama coeficiente
de estabilidad
15
LA FIABILIDAD COMO CONSISTENCIA INTERNA
Métodos basados en la división del test en 2
mitades
Ecuación de Spearman-Brown de 2
mitades paralelas
Fórmula de Rulon:
cuando, no siendo las 2
mitades estrictamente
paralelas, podemos
considerarlas equivalentes
Fórmula de Guttman-Flanagan:
equivalente a Rulon pero
más sencilla
Métodos basados en la covariación de los
ítems
Coeficiente Alfa de
Cronbach: indicador de
la consistencia interna.
Expresa la fiabilidad en
función del nº de ítems y de la proporción de la varianza total del test debida a la covariación
entre los Ítems. A mayor
covariación mayor
fiabilidad.
KR20 y KR21
Ecuaciones de Kuder-
Richardson: cuando
los ítems son
dicotómicos
Coeficientes basados en el análisis
factorial de los ítems
Coeficientes Theta y
Omega: son indicadores
de la consistencia
interna de los ítems de un test y una
aproximación al coeficiente
Alfa
Coeficiente Beta de
Raju: para tests
compuestos por
subtests, se aplica
cuando no se conocen
las puntuacion
es en los ítems
16
ESTIMACIÓN DE LA
PUNTUACIÓN VERDADERA
DE LOS SUJETOS EN EL ATRIBUTO DE
INTERÉS
No se puede calcular la
puntuación verdadera exacta pero sí establecer
el intervalo confidencial
Desigualdad de Chebychev
Cuando no se hace ningún supuesto sobre la
distribución de las puntuaciones empíricas
o de los errores
Distribución normal de los errores
Asume una distribución normal de los errores de medida (con media 0
y varianza S2e) y de las
puntuaciones empíricas condicionadas a un determinado
valor de V
Modelo de regresión
Mientras que la correlación entre las puntuaciones verdaderas y los errores de
medida es igual a cero (rVE = 0); la correlación entre las puntuaciones empíricas y los errores
de medida se ve afectada por los errores
Valor máximo cuando la fiabilidad del test es nula (rXX´ = 0) Puntuaciones
empíricas = Errores
Valor mínimo cuando la fiabilidad del test es perfecta (rXX´ = 1)
Punt. Empíricas = Punt. Verdaderas
El intervalo de confianza se hace sobre la puntuación verdadera estimada por regresión lineal
17
TEMA 5. LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO
MÉTODOS PARA CALCULAR LA FIABILIDAD DE LOS TRC
Métodos que requieren 2 aplicaciones
del test
Coeficiente de Hambleton y
Novick
Coeficiente Kappa de Cohen
Índice de Crocker y Algina
Métodos que requieren una sóla aplicación
del test
Método de Huynh
Método de Subkoviak
Coeficiente de Livingston
18
LONGITUD DEL TEST
Modelo de Millman
Modelo binomial. Considera la proporción esperada de ítems que
un sujeto puede contestar
correctamente para ser considerado apto y el
error máximo a tolerar.
Supuestos del modelo:
Muestra aleatoria de ítems dicotómicos
La probabilidad de una respuesta correcta por
parte de un sujeto es constante para todos los
ítems del test
Las respuestas a los ítems son independientes unas
de otras
Los errores se ajustan al modelo binomial.
19
ÍNDICES DE ACUERDO CON 2
APLICACIONES DEL TEST (CÁLCULO DE
FIABILIDAD)
Coeficiente de
Hambleton y Novick
Supone la utilización de la proporción de sujetos que consistentemente son clasificados dentro del grupo de maestría o no maestría como un índice de
fiabilidad de un test.
Coeficiente Kappa de
Cohen
Elimina del valor de la proporción de sujetos clasificados consistentemente el valor de la proporción de clasificación consistente esperada por azar
Proporciona una medida de la consistencia de clasificación de los sujetos independientemente del posible valor esperado por azar
Este valor oscila: Entre 1 (fiabilidad perfecta) y 0 (atribuida al azar)
Puede expresarse en función de las frecuencias absolutas
Índice de Crocker y
Algina
Alternativa al Coeficiente Kappa
Se basa en que la probabilidad mínima de una decisión consistente es 0.50
Tiene lugar si las puntuaciones del test son estadísticamente independientes y el punto de corte está en la mediana
20
ÍNDICES DE ACUERDO CON UNA SÓLA
APLICACIÓN DEL TEST
Método de Huynh
Un solo test y una sola aplicación: procedimiento matemático sofisticado para
estimar la consistencia de clasificación.
Este método presupone que la distribución de puntuaciones es aproximadamente normal y es
adecuado cuando el número de ítems es superior a 8 y la razón entre la media de las puntuaciones de los sujetos en el test y el número de ítems oscila entre
0,15 – 0,85.
Método de Subkoviak
Procedimiento con una sola aplicación cuando no es posible establecer una forma paralela de un test,
por lo que simulan las puntuaciones de una segunda forma paralela al test.
Coeficiente de Livingston
A diferencia de los anteriores, considera los errores cometidos al clasificar a un sujeto en el grupo que no le corresponde. Estima más importantes los errores de clasificación de los sujetos más distanciados del punto de
corte de aquellos que están más cerca del punto de corte
21
MÉTODOS PARA ESTIMAR EL PUNTO DE CORTE EN LOS TRC
Métodos valorativos
Método Nedelsky
Se utiliza para fijar el punto
de corte en los test de
competencia mínima. Se utiliza en el
ámbito académico con
test compuestos por ítems de
elección múltiple
Método Angoff
Variante del método
Nedelsky, se puede aplicar a
toda clase de ítems (no sólo
a los de elección
múltiple)
Método Ebel
Similar al método Angof.
Los jueces evalúan
globalmente desde una
doble perspectiva: la dificultad del
ítem (fácil, medio y difícil) y su relevancia
(esencial, importante, aceptable y
dudoso)
Método Jaeger
Otra variante del método
Angoff
Métodos combinados
Método del grupo límite
(Zieky y Livingstone)
Los jueces, por acuerdo,
definen tres niveles de
competencia (competente,
límite y no competente). Después los
jueces seleccionan a
los sujetos límite y se les aplica el test.
Método de los grupos de
contraste
Los jueces clasifican a los sujetos en dos
grupos (los que son
competentes y los que no lo son) y se les
administra el test
Métodos de compromiso
Método de Beuk
Método de Hofstee
22
TEMA 6. VALIDEZ DE LAS INFERENCIAS I
CONCEPTO DE VALIDEZ
Validez relacionada con criterios externos
Validez predictiva
Un test era válido en la medida en que existiera correlación
entre las puntuaciones obtenidas por los sujetos en el
test y las obtenidas en el criterio externo
Validez concurrente La recogida de la información tanto del test como del criterio
se hace simultáneamente
Validez retrospectiva Cuando se puede obtener la
medida del criterio con anterioridad a la del test
Validez relacionada con criterios internos
Validez de contenido El test en sí mismo constituye
su propio criterio
Validez de constructo
Para garantizar que las conductas elegidas como
indicadores del constructo, lo son realmente
23
VA
LID
AC
IÓN
DE
L
CO
NT
EN
IDO
Objetivo: Analizar hasta qué punto los elementos o ítems que componen un test son una muestra relevante y representativa
En los TRC y tests de rendimiento académico, las puntuaciones se suelen utilizar para hacer inferencias sobre el grado en que los sujetos dominan un
campo de conocimientos (dominio), no para hacer inferencias sobre conductas externas al test o sobre el constructo medido
La forma típica de llevar a cabo un estudio de validación de contenido, es utilizando un grupo de expertos (juicio subjetivo)
Representatividad: grado en que se han cubierto las especificaciones del dominio, en cuanto a contenidos y a objetivos propuestos
24
VA
LID
AC
IÓN
DE
L
CO
NST
RU
CT
O
Proceso que permitirá obtener evidencia acerca de la capacidad del test para medir el constructo
Trata de garantizar científicamente que la variable que el test pretende medir es una variable aceptable y consistente en el
ámbito teórico
Es necesario estudiar las relaciones entre: el constructo y las conductas observables representativas del constructo, el constructo y otros
constructos y las conductas tomadas como indicadores del constructo y las puntuaciones obtenidas por los sujetos en el test
Los estudios de validación de constructo se centran en el análisis de la estructura del test
25
MÉTODOS PARA LA VALIDACIÓN
DEL CONSTRUCTO
Matriz multimétodo-multirrasgo
Permite el análisis de la estructura externa del test). Se intenta medir un mismo constructo
mediante distintos procedimientos y distintos constructos mediante el mismo procedimiento
Análisis Factorial
Técnica más utilizada para poner a prueba las hipótesis planteadas a cerca de la estructura externa del
constructo y las relaciones del mismo con otras variables
Enfoques
Exploratorio (no se establecen hipótesis previas acerca del número de dimensiones, es la propia técnica
la que nos aportará esta información)
Confirmatorio (se establecen a priori hipótesis, y mediante las
técnicas oportunas se comprueba si se pueden aceptar las hipótesis
propuestas)
Validez convergente: cuando en un mismo factor se
agrupan múltiples indicadores del constructo
Validez divergente: cuando en el análisis se han obtenido medidas de otros constructos y estas aparecen
agrupadas en distintos factores
26
VALIDACIÓN REFERIDA AL CRITERIO
Objetivo: evaluar la hipótesis de relación entre test y criterio
Índices utilizados
Medidas correlacionales (coeficiente de validez, de determinación, de alineación, etc.)
Medidas de error en la predicción (errores de estimación)
Perspectivas
Validez predictiva (los tests se van a utilizar para la selección, clasificación o colocación de personas en determinados puestos)
Validez concurrente (utilizar los test para hacer un diagnóstico. La medida del criterio se obtiene a la vez que la del test)
Procedimientos estadísticos
Un único test predictor y un solo indicador del criterio: la correlación y el modelo de la regresión lineal simple. Según la medida (Pearson, biserial, coeficiente phi, etc.)
Varios predictores y un solo indicador de criterio (cuando se utiliza una batería de tests para un único criterio): la correlación y la regresión lineal múltiple
Varios predictores cuantitativos y varios indicadores del criterio cuantitativos: la regresión lineal múltiple y la correlación canónica (dificultad para interpretar resultados)
Procedimientos basados en la teoría de decisión (validez y utilidad en las decisiones): Se basan en diferentes métodos para optimizar las decisiones realizadas con el test: Teoría de la utilidad multiatributo
27
VALIDACIÓN CON UN ÚNICO
PREDICTOR Y UN SOLO INDICADOR
DEL CRITERIO
El coeficiente de validez
Correlación de Pearson
X e Y variables continuas
Correlación Biserial
X continua e Y dicotomizada
Correlación Biserial puntual
X continua e Y dicotómica
Coeficiente Ф X dicotómica e Y dicotómica
Coeficiente Ф Biserial
X dicotomizada e Y dicotómica
Correlación Tetracórica
Tanto X como Y son variables continuas que se han dicotomizado artificialmente. Cálculo muy
laborioso
Modelo de regresión lineal
Conocido el grado de asociación entre el test y el criterio, se puede utilizar el modelo de
regresión para hacer pronósticos
Mediante el modelo de regresión se intenta buscar una ecuación lineal que haga
mínimos los errores de pronóstico
Interpretación de la evidencia
obtenida
Coeficiente de determinación
(CD)
Varianza común o asociada entre el test y el criterio
Coeficiente de alienación
(CA)
Alude a la inseguridad o el azar que afecta a los pronósticos
Coeficiente de valor predictivo (CVP)
Representa la proporción de seguridad en los pronósticos (o el porcentaje si se
multiplica por 100)
28
TEMA 7. VALIDEZ DE LAS INFERENCIAS II
VALIDACION CON VARIOS
PREDICTORES Y UN SOLO
INDICADOR DEL CRITERIO
El coeficiente de validez múltiple
Correlación Múltiple entre las puntuaciones obtenidas por la muestra en la variable criterio y las obtenidas en el conjunto de las variables predictoras
Modelo de regresión lineal
múltiple
Se traduce en ecuaciones de un plano (no de una recta como en la simple) o hiperplano si son más de
dos variables predictoras
Puntuaciones directas y diferenciales: planos paralelos
Puntuaciones diferenciales y típicas: pasan por el origen de las coordenadas
Varianza residual o varianza error y
error típico
Cuanto más alto sea el coeficiente de validez, más exacta es la estimación. Pero el coeficiente de validez no es perfecto y está afectada por el error de estimación
Error de estimación: diferencia entre la
puntuación obtenida en el criterio y la
pronosticada mediante la ecuación de
regresión (Y – Y´)
Intervalos de confianza: la
distribución de los errores de estimación
se ajusta a una distribución normal,
cuya desviación típica viene dada por el error típico de estimación
múltiple
Interpretación del coeficiente de validez múltiple
Coeficiente de determinación múltiple (CD)
Varianza común o asociada entre el
criterio y las variables predictoras
Coeficiente de alienación múltiple
(CA)
Representa las puntuaciones en el criterio que no se puede predecir a
partir de las variables predictoras
Coeficiente de valor predictivo múltiple (CVP)
Proporción o porcentaje de
seguridad con que se hacen los pronósticos
29
VALIDEZ Y UTILIDAD DE LAS
DECISIONES
Índices de validez
Coeficiente Kappa de Cohen
Evalúa la consistencia o acuerdo entre las decisiones adoptadas a partir de las puntuaciones en el
predictor (test) y el criterio (rendimiento)
Proporción clasificaciones
correctas
Sensibilidad Proporción de sujetos seleccionados en el test respecto al total que tuvieron éxito en
el criterio
Especificidad Proporción de sujetos correctamente
rechazados en el test respecto al total de no aptos en el criterio (valor máximo 1)
Razón de eficacia
Proporción de aspirantes seleccionados en el test
con buen rendimiento en el criterio
Índices de selección
Razón de idoneidad Proporción de sujetos que rinden bien en el criterio
Razón de selección Proporción de sujetos
aptos en el test
30
MÉ
TO
DO
S D
E S
EL
EC
CIÓ
N
Modelo Compensatorio (aditivo): a cada sujeto se le asigna una única puntuación global (los sujetos pueden compensar las bajas
puntuaciones). La forma adecuada de otorgar una puntuación global es mediante el modelo de regresión
Modelo conjuntivo: se fijan de antemano unos mínimos en cada una de las pruebas. Sólo se seleccionan los sujetos que hayan
superado esos mínimos en todas las pruebas
Modelo disyuntivo: sólo se exige superar un determinado nivel de competencia en algún
de los predictores
Modelo conjuntivo – compensatorio: se aplica el modelo conjuntivo y se seleccionan los sujetos que superan los mínimos en cada uno de los predictores. A continuación se les
aplica el modelo compensatorio de forma que queden ordenados según su puntuación global. Para efectuar la selección, se puede elegir a los mejores o establecer un PC
Modelo disyuntivo – compensatorio (después de aplicar el modelo disyuntivo se
aplica el compensatorio)
31
EST
IMA
R L
A E
FIC
AC
IA D
E U
NA
SE
LE
CC
IÓN
Mediante la razón de eficacia (proporción de personas seleccionadas que tienen éxito en el
criterio)
Mediante el modelo de regresión (si se verifican los supuestos, permite determinar la probabilidad
de que los seleccionados tengan éxito en el criterio)
32
TEMA 8. ANÁLISIS DE LOS ÍTEMS
DIF
ICU
LTA
D D
E L
OS
ÍTE
MS
Para cuantificar la dificultad de los ítems dicotómicos o dicotomizados se utiliza la proporción de sujetos que han respondido correctamente al ítem (depende de la muestra utilizada): ID = A / N (Oscila entre 0 y 1) A = número de sujetos que aciertan el ítem. N = número de personas que intentan responder el ítem.
Cero indica que ningún sujeto lo ha acertado (difícil) / Uno que todos lo ha acertado (fácil)
El Índice de dificultad está directamente relacionado con la media y la varianza del test
Corrección de los aciertos por azar En ítems de elección múltiple, se debe hacer una corrección en el cálculo de la dificultad del ítem que controle las respuestas al azar. A mayor número de distractores
(alternativas incorrectas) menos probables son los aciertos por azar
Los ítems no deben tener dificultades por debajo de 0,20 no por encima de 0,80
33
PODER DISCRIMINATIVO
DE LOS ÍTEMS
Índice de discriminación basado en los grupos extremos D = pS – pi
pS = proporción aciertos grupo superior
pi = proporción aciertos grupo inferior
Índices de discriminación basados en la correlación
La discriminación también se puede definir como la correlación entre las
puntuaciones de los sujetos en el ítem y sus puntuaciones en el
test. La puntuación total de los sujetos en el test se calcula
descontando la puntuación del ítem y el índice de correlación
debe ser coherente con el tipo de puntuaciones del ítem y del test
Correlación Φ
Correlación biserial-puntual
Correlación biserial
Ítems de actitudes
Índice de Homogeneidad (IH)
Índice de discriminación (grupos extremos)
34
FACTORES QUE AFECTAN A LA
DISCRIMINACIÓN
Variabilidad de los ítems (si no hay
variabilidad en las respuestas el ítem no
discrimina)
Dificultad del ítem (con dificultad media,
p = 0,5, el ítem alcanza máximo
poder discriminativo)
Dimensionalidad del test (el test debe medir
un único concepto; unidimensional)
Fiabilidad del test (ítems con poco
poder discriminativo se asocian a tests
poco fiables)
35
ÍNDICES DE FIABILIDAD Y VALIDEZ DE LOS ÍTEMS
Índice de Fiabilidad de los ítems (criterio interno) se utiliza para cuantificar el grado
que el ítem en cuestión está midiendo con precisión el atributo de interés
Índice de Validez de los ítems (criterio externo) Implica correlacionar las
puntuaciones obtenidas por una muestra de sujetos en el ítem con las puntuaciones
obtenidas por los mismos sujetos en algún criterio externo de interés
36
ANÁLISIS DE LOS DISTRACTORES
Equiprobabilidad de los distractores Los distractores son equiprobables si son
seleccionados por un número mínimo de sujetos y son igualmente atractivos para los que no conocen la respuesta correcta. Se comprueba mediante la
prueba Chi-Cuadrado de Independencia
Poder discriminativo de los distractores (basado en la correlación biserial puntual) Si, normalmente, esperamos que la correlación entre el test y la opción
correcta sea alta y positiva; en el caso de los distractores, lo esperable es que su correlación sea
negativa (cuando aumenta la aptitud de los sujetos, disminuye la proporción de sujetos que elige la opción
incorrecta). Para cuantificar el poder discriminativo de los distractores recurrimos a la correlación que será
biserial, biserial puntual o de Pearson en función de las variables
37
FUNCIONAMIENTO DIFERENCIAL DE LOS
ÍTEMS
Sesgo (sujetos igualmente hábiles no tienen la misma probabilidad de acertar el ítem por el hecho de pertenecer a subpoblaciones distintas). El sesgo está relacionado con la validez de constructo e indica que está actuando alguna
variable extraña
FDI (detecta que un ítem está funcionando de manera distinta en dos grupos con el mismo nivel de aptitud). Detectada la circunstancia, no apunta posibles causas
Impacto (diferencias reales entre grupos que se deben a diferencias en el nivel de competencia de las
subpoblaciones).Mientras que en el FDI las diferencias se deben a motivos distintos al nivel de competencia, en el
impacto hay un grupo de sujetos más competente
39
EQUIPARACIÓN DE LAS
PUNTUACIONES
Diseños de equiparación
Diseños de un sólo grupo
Se administran las dos formas del test, cuyas puntuaciones queremos equiparar, al mismo grupo de sujetos; ambas
formas deben medir la misma característica y presentar el mismo grado de dificultad
Diseños de grupos
equivalentes
Se extraen dos muestras de la población y a cada una se le administra una forma del test (también
se pueden alternar las formas dentro de cada grupo)
Diseños de grupos no equivalentes con ítems comunes o diseño de anclaje
A cada grupo se le administra una sola forma del test y, como a priori no son equivalentes, además se les aplica un test común
(test de anclaje) que permite establecer las equivalencias entre los test equiparar
Métodos de equiparación
Método de la media
Se asume que las puntuaciones de uno de los test difieren, en una cuantía constante, de las
puntuaciones del otro test (la diferencia entre las puntuaciones obtenidas por los sujetos en
ambos test es constante)
Método lineal
Las diferencias entre las puntuaciones pueden variar. Se contemplan procedimientos para:
Diseños de un sólo grupo
Diseños de grupos equivalentes
Diseño de anclaje
Método equipercentil
Consiste en equiparar aquellas puntuaciones cuyos percentiles son
iguales