La validez, alfa y omega de la evaluación
María José Navas Ara (UNED)[email protected]
III GIELE 16 de noviembre de 2019
Real Decreto 1/2019 de 11 de enero
Se elaborarán, administrarán y evaluarán según unos estándares que garanticen su validez, fiabilidad, viabilidad, equidad, transparencia e impacto positivo.
Dispositivo de certificación lingüística (SICELE)
Elaboración y desarrollo del examen
Edición e impresión de materiales
Verificación de los materiales de examen
Formación de administradores y examinadores
Logística y distribución de los materiales
Administración del examen
Formación de calificadores
Calificación y notificación de resultados
Análisis de resultados y validación
Información y atención al usuario
Dispositivo de certificación lingüística (SICELE)
Elaboración y desarrollo del examen
Edición e impresión de materiales
Verificación de los materiales de examen
Formación de administradores y examinadores
Logística y distribución de los materiales
Administración del examen
Formación de calificadores
Calificación y notificación de resultados
Análisis de resultados y validación
Información y atención al usuario
Validez
CONCEPTO VIVO
• Cambiante• Proceso inconcluso
GIGANTES
• Lee J. Cronbach• Samuel Messick• Michael Kane
Cronbach y la validez de constructo
• Validez predictiva• Validez de contenido• Validez de constructo
Cronbach y Meehl (1955) ‘Toda validación es una y, en cierto modo, todo es validez de constructo’ (Cronbach,
1980, p. 99)
Messick o la perspectiva unificadora
INTERPRETACIÓN USO
EVIDENCIAS Validez de constructo (VC)
VC + Relevancia/Utilidad
(RU)
CONSECUENCIAS VC + Implicaciones de Valor (IV)
VC + R/U + IV + Consecuencias
sociales
NPS: Net Promotor Score
Kane y sus argumentos
• Argumento de Interpretación/Uso (I/U)
• Argumento de validez
Las medidas obtenidas con la prueba administrada se pueden interpretar en términos de un nivel del MCERL
Kane (1996): La fiabilidad también es contingente al uso e interpretación previstas de las puntuaciones del test
Fuentes de evidencia para construir el argumento de validez
(AERA, APA y NCME, 1999, 2014)
Contenido Proceso de respuesta Relación con otras variables
Estructura interna Consecuencias
Evidencia de validación de contenido
• Argumento I/ULas medidas obtenidas con la prueba administrada se pueden interpretar en términos de un nivel del MCERL
• Adecuación para evaluar el nivel ABC/12
Tarea de los juecesPREGUNTA Adecuación
al nivelC1 C2 C3 C4 Ninguna de
las anteriores
1
2
3
4
….
….
23
24
25
Respuesta dicotómicaPREGUNTA Adecuación
al nivelC1 C2 C3 C4 Ninguna de
las anteriores
1 Sí X
2 Sí X
3 Sí X
4 No X
…. ….
…. ….
23 Sí X
24 Sí X
25 Sí X
Respuesta politómicaPREGUNTA Adecuación
al nivelC1 C2 C3 C4 Ninguna de
las anteriores
1 3 2
2 3 X
3 3 1
4 1 2
…. ….
…. ….
23 3 1
24 3 3
25 2 3
1: POCO 2: REGULAR 3: MUCHO
Elección de la escala de respuesta
• Valorar la complejidad introducida en la tarea
• Considerar el posterior análisis de los datos
Elección de la escala de respuesta
• Valorar la complejidad introducida en la tarea
• Considerar el posterior análisis de los datos
Poco Regular Bastante Mucho
Tarea de los juecesTEXTO C. Temática y
conceptualC. Estructural C. Discursiva C. Sintáctica C. Léxica C. Orto‐
tipográfica
1
2
3
4
5
VALORACIÓN DE LA COMPLEJIDAD
• Escala dicotómica• Texto con una complejidad adecuada al nivel• Texto con una complejidad no adecuada al nivel
• Escala politómica• Texto poco complejo• Texto de complejidad media• Texto muy complejo
Evaluación de la cobertura y representatividad del dominio
Distribución empírica
Juicios expertos
Distribución teórica
Documento de
especificación
Evaluación de la cobertura y representatividad del dominio
Distribución empírica
Distribución teórica
Control de calidad
• Introducir ítems señuelo
• Contar con un buen número de jueces
Evidencia relativa al proceso de respuesta
PREGUNTA Adecuación al nivel
C1 C2 C3 C4 Ninguna de las anteriores
1
2
3
4
….
….
23
24
25
C: Contenido C: Competencias C: Objetivos curriculares
• De los examinados
• De los calificadores
Evidencia relativa al proceso de respuesta
Evidencia relativa a la relación con otras variables
Evidencia convergente‐discriminante
Predicción de otras variables
Evidencia relativa a la estructura interna de la prueba
Teoría clásica de los tests
Charles Spearman
Analisisfactorial
Primera teoría sobre
la inteligencia
El análisis factorial
n variables observables
p factores (p
Tipos de análisis factorial
EXPLORATORIO
Determinar empíricamente la
estructura dimensional
CONFIRMATORIOConfirmar la estructura dimensional
propuesta en las especificaciones
Modelo pentafactorial
Modelo unidimensional
Modelo bifactor
Ajuste del modelo
• Estadísticos de ajuste datos‐modelo
• Valoración del ajuste
Estándar SICELE
Los resultados de los análisis del examen realizado se han de utilizar para retroalimentar la elaboración de posteriores versiones del examen.
Recomendación de Antonio Valdecantos
Mírese con la mayor prevención aquello que la gente avisada toma como los ‘últimos avances’ de la disciplina que uno cultiva. Lo cierto es que, con frecuencia, nuestros antepasados sabían mucho más y mejor del asunto que uno se trae entre manos, porque esta clase de conocimientos raramente progresa y, cuando lo hace, cada aumento de saber deja en la sombra (y hace crecer) cantidades enormes de
sospechas y de preguntas, a las que, puerilmente, se deja de prestar atención.
(Comienzo de curso, EL PAÍS 24 de septiembre de 2019)
Fases en la construcción de un instrumento de medida
Objetivo
Especificación
Confección de las tareas
Confección de la prueba
Objetivo de la prueba
QUÉ A QUIÉNPARA QUÉ
Acreditar un nivel C1
Ver cuál es el nivel de dominio
Prueba para acreditar el nivel C1
A1 A2 B1 B2 C1 C2
Prueba para ver el nivel de dominio
A1 A2 B1 B2 C1 C2
Objetivo: A QUIÉN evaluar
A1 A2 B1 B2 C1 C2
Objetivo: QUÉ evaluar
• Un nivel del MCERL
• Argumento I/ULas medidas obtenidas con la prueba administrada se pueden interpretar en términos de un nivel del MCERL
Especificación de la prueba
Contenido de la prueba• MCERL
Longitud de la prueba• Normativa ministerio (EOIs)
Formato de los ítems• Normativa ministerio (EOIs)
Características métricas de los ítems• Máximamente informativos para el nivel de dominio de la prueba
Confección de las tareas
Los ítems en cada tarea se redactarán de modo claro, conciso, correcto, y asequible para el nivel correspondiente; no serán interdependientes; estarán exentos de
ambigüedad; y se redactarán sobre la información general o específica relevante, y, en su caso, siempre por referencia al texto soporte de manera que no puedan resolverse correctamente con la simple ayuda del conocimiento del mundo o
enciclopédico, o mediante mera inferencia lógica.
(RD 1/2019, artículo 5, punto h)
Fases en la construcción de un instrumento de medida
Objetivo Qué A quién Para qué
Especificación Contenido Longitud Formato C. métricas
Confección de las tareas
Confección de la prueba
Formato de presentación
Instrucciones de realización
Formato de registro de las respuestas
Confección de la prueba: Instrucciones de realización
Todas las tareas irán precedidas de unas instrucciones escritas, y debidamente señaladas, sobre su realización. Dichas instrucciones serán suficientes, concisas, claras y relevantes; se redactarán en un tipo de lenguaje asequible para el nivel
correspondiente, y no contendrán expresiones metalingüísticas o técnicas propias de un conocimiento especializado de la lengua, ni referencias a, o mención de,
exponentes lingüísticos, léxicos, sintácticos o discursivos, que pudieran ser necesarios o adecuados para la realización de la tarea.
(RD 1/2019, artículo 5, punto j)
Bancos de ítems/tareas
Un único constructo
Base de datos
Organización de la
información
Bancos de ítems: Características distintivas
Elevado número de ítems
Propiedades métricas• Dificultad • Discriminación• Información
Invarianza de la medida• De la TCT a la TRI/IRT
Función de información de un ítem
0
1
2
3
4
5
6
A1 A2 B1 B2 C1 C2
FIT = ∑FII
Ventajas de los bancos de ítems/tareas
Equidad•Construcción de formas paralelas de los exámenes
•Definición del punto de corte
Tests Adaptativos Informatizados (TAIs)
Tests Adaptativos Informatizados (TAIs)
VENTAJAS
• Ahorro en tiempo• Ganancia en precisión
• Posibilidad de acreditar distintos niveles en las actividades de lengua
ALGUNAS EXPERIENCIAS
• e‐CAT (UAM)• simtest (UAB)
Esfuerzo colaborativo
PARA QUÉ• Facilitar la elaboración de exámenes• Construir exámenes más paralelos
ALGUNAS EXPERIENCIAS• EOIs• CLUC• Pilotaje de pruebas/tareas
Medidas justas y equitativas del nivel de dominio de la lengua
Esfuerzo colaborativo
• Sistematizar los esfuerzos a la hora de elaborar las tareas y preguntas del banco• Diseñar la estrategia de recogida de datos • Estimar las propiedades métricas de las preguntas • Poner las estimaciones en la misma escala de medida
Evaluar de manera justa y equitativa el nivel de dominio de la
lengua
LO QUE FALTARÍA
La validez, alfa y omega de la evaluación
María José Navas Ara (UNED)[email protected]
III GIELE 16 de noviembre de 2019
Material proporcionado• Standards for Educational and Psychological Testing (AERA, APA, NCME, 2014)• Documentación muy básica
• Prieto y Delgado (2010): Fiabilidad y validez• Navas (2001):
• Validez• Construcción de instrumentos de medida
• Números monográficos• Journal of Educational Measurement, 2013 Volumen 50(1)
Validity• Psicología Educativa, 2014 Volumen 20
Bringing added value to educational assessment: A shift from an audit mode of assessment to an assistence mode
• TAI UAM (e‐CAT)
Top Related