Análisis estadístico en la elaboración de exámenes.
-
Upload
juan-parra-paez -
Category
Documents
-
view
230 -
download
0
Transcript of Análisis estadístico en la elaboración de exámenes.
Análisis estadísticoen la elaboración de
exámenes
EL OBJETIVOExplicar los estándares de calidad en la elaboración
de exámenes según los Estándares para la Evaluación Educativa y Psicológica (AERA, APA, NCME; 2014).
Facilitar la comprensión de los requisitos que ACLES exige en su solicitud en los apartados 9 y 10: Características del examen y Control de Calidad.
El taller - 1ª parte
Trataremos la parte más teórica: • Evidencias de validez: contenido, proceso
de respuesta, estructura interna, relación con otras variables y consecuencias • Fiabilidad
Trataremos una parte más aplicada.
Exposición de las fases del análisis:• Pilotaje.• Post-convocatoria.
Descripción de los conceptos estadísticos basados en teoría clásica de test.
Programas estadísticos que podemos emplear.
El taller - 2ª parte
En la última parte del taller repasaremos juntos el modelo ACLES (puntos 9 y 10) para resolver posibles dudas:
• Características del examen• Control de calidad
El taller - 3ª parte
Primera parte
“We have found the following adjectives attached to validity in
discussions of conceptualization and mesurement: a priori,
apparent, assumption, common-sense, conceptual, concurrent,
congruent, consensual, consequential, construct, content,
convergent, criterion related, curricular, definitional, differential,
discriminant, empirical, face, factorial, incremental, instrumental,
intrisic, linguistic, logical, nomological, postdictive, practical,
pragmatic, predictive, rational, response, sampling, status,
subtantive, theorical, and trait.” (Adcock & Collier, p.530, 2001).
VALIDEZ
VALIDEZ
“Grado en que la teoría y los datos disponibles apoyan la interpretación de las puntuaciones de un test para un uso concreto”. (pág.161, Medición en Ciencias Sociales y de la Salud).
Estándares para la Evaluación Educativa
Estándares de 2014La validez puede estar basada en evidencias según …
El contenido del test
El proceso de respuesta
La estructura interna
La relación con otras variables
Las consecuencias de la evaluación
La fiabilidad
La equidad
ContenidoÁmbito: temas, tareas, expresión, formato de los ítems, instrucciones para la administración y puntuación del test.
Las pruebas son de tipo teórico, lógico y empírico.• Revisión bibliográfica.• Opinión de las personas interesadas:
− Expertos del constructo a evaluar.− Población diana.
ContenidoConsideraciones generales sobre escritura de ítems:•Definición clara y precisa del constructo a medir.•Número aproximado y formato de los ítems.•Confeccionar el doble o triple de ítems. •Representación relevante.
Contenidoítems de elección múltiple, las alternativas:•Homogéneas en longitud y relevancia.•Evitar negaciones dobles.•Evitar reiteraciones innecesarias.•Si se utilizan cifras, presentarlas ordenadas.•Evitar usar “todas las anteriores”.•La ubicación de la alternativa correcta se ha de establecer al azar.
Proceso de respuestaPara mejorar el proceso: conocer qué factores influyen, cómo detectar posibles procesos inadecuados, y cómo introducir las correcciones que podamos.
Factores que influyen en el proceso de respuesta:• Contenido de los ítems• Instrucciones para contestar el cuestionario• Longitud del cuestionario
Metodología:• Observar que hacen las personas al responder.• Preguntar a las personas.• Análisis empírico de las respuestas: – Detección de patrones anómalos.
Resultados:Mucha variabilidad en el proceso de respuesta, conlleva
una revisión del formato del test.
Proceso de respuesta
¿Mide nuestro test un constructo coherente o se trata simplemente de un conjunto de ítems no relacionados?
Para estudiarla:• Estudios de dimensionalidad (AFE, AFC).• Funcionamiento diferencial de los ítems
(DIF).
Estructura Interna
Consecuencias de la aplicación del test
• Demostrar que las consecuencias de la avaluación coinciden con las consecuencies previstas
• Indagar sobre la existencia de posibles consecuencias no previstas–debidas a infrarepresentación del constructo–debidas a incluir aspectos irrelevantes
Relación con otras variables
El objetivo es establecer si las relaciones observadas entre las puntuaciones en el test y otras variables externas relevantes son consistentes con la interpretación propuesta para las puntuaciones.
Evidencia convergente, discriminante o referida a un criterio.
Relación con otras variablesVariables externas relevantes:• Otras medidas del mismo constructo
obtenidas con diferentes tests. • Medidas de constructos diferentes pero que
se insertan en el mismo modelo teórico. • Algún tipo de variable que pretendamos
predecir a partir de las puntuaciones en el test.
“ Grado en que una medida es consistente en diferentes aplicaciones del mismo
instrumento de medida”.
(pág.161, Medición en Ciencias Sociales y de la Salud).
FIABILIDAD
FIABILIDAD Confianza
Coherencia Reproductibilidad
Seguridad Precisión
• Teoría clásica de test.
• Teoría de respuesta al ítem.
• Teoría de la generalizabilidad.
¿Cómo estudiar la fiabilidad?
Estrategias
Estrategia Aplicaciones Paso de tiempo entre aplicaciones
Estadísticos
Test-retest Dos aplicaciones Sí Correlación:PearsonSpearmanKappa de Cohen
T. Paralelas Una aplicación No necesaria Igual que en Test-retest
Consistencia interna
Una aplicación No necesaria Homogeneidad y consistencia:Spearman-BrownGlutman-FlaneganAlfa de Cronbach
Consistencia Interna
EQUIDAD
• Ausencia de sesgo.• Tratamiento equitativo durante el proceso.• Igualdad en la exposición de los resultados.• Derechos y responsabilidades de los examinados.• Background de los examinandos.• Atención a los discapacitados.
Segunda parte
Pilotaje – parte cualitativa¿Qué vamos a evaluar? ¿A quién vamos a evaluar?
Tabla de especificaciones para la creación de ítems. (Crear más de los necesarios).– Tipologías– Número– Nivel
Revisión por parte de expertos que no han elaborado los ítems.
“No puede olvidarse que el objetivo esencial es conseguir una muestra de ítems relevante para cada uno de los componentes del constructo,
asegurar que cada componente esté bien representado por los ítems elaborados y en la
proporción adecuada en función de su importancia dentro de la definición adoptada.”
(Desarrollo y revisión de estudios instrumentales, Carretero-Dios y Perez)
Pilotaje
¿Cuántos alumnos necesito? (Muestra)- Número de ítems/ejercicios.- Número de niveles implicados.- Tiempo para llevarlo a cabo.- Población disponible.
¿Necesitamos crear paquetes?
Pilotaje – recogida de datos
Características de los paquetes:
•20 % ítems de anclaje (comunes).•Misma distribución de ítems.– Tipología.– Dificultad.
Pilotaje – recogida de datos
Condiciones de aplicación:•Instrucciones.•Condiciones del aula.•Recogida de datos.Muestra:•Alumnos del nivel inmediatamente inferior y superior.•300 alumnos o 5-10 alumnos por ítem.
Pilotaje – recogida de datos
Control de calidad:•Análisis descriptivo ítem de anclaje por paquete.•Análisis gráfico del comportamiento.
Análisis de ítems: dificultad, discriminación, distractores.
Análisis de validez y fiabilidad:•Evidencias de validez (basadas en las cinco evidencias).•Fiabilidad (consistencia interna).
Pilotaje – análisis cuantitativo
Dificultad• Es la proporción de estudiantes que contestan
correctamente a la pregunta.• Por su interpretacion podría denominarse índice de
éxito.• ¿Qué valores toma el índice de dificultad?
Ejemplo:Una muestra de 130 alumnos si un ítem lo responden
correctamente 80. 0,6153
Dificultad
Valor Calidad0.81 – 1.00 Muy fácil0.61 – 0.80 Fácil0.41 – 0.60 Moderada0.21 – 0.40 Difícil0.00 – 0.20 Muy difícil
Discriminación• Coeficiente de discriminación.• Correlación biserial.• Índice de discriminación.
Dividir la muestra en 3 grupos: 27% (Pa), 46%, 27% (Pb).
Discriminación= Pa – Pb
(Pa: Proporción de respuestas correctas del 27% de los alumnos con mejor nota.)
(Pa: Proporción de respuestas correctas del 27% de los alumnos con peor nota.)
Discriminación
Discriminación Valor Calidad Recomendación> 0.39 Excelente Conservar0.31 – 0.39 Buena Posibilidades de mejorar0.20 – 0.30 Regular Necesita ser revisado0.00 – 0.19 Pobre Descartar o revisar en
profundidadNegativo Pésima Descartar definitivamente
Tabla. Poder de dsicriminación (valor D). Ebel y Frisbie (1986)
Análisis de distractores• Consiste en estudiar las respuestas a las
alternativas incorrectas.
• Al aumentar el número de alternativas, se reduce la probabilidad de aciertos al azar. El número óptimo de alternativas sería 3 (Grier, 1976).
Correlación• Relación entre dos variables cuantitativas.
• Toma valores entre -1 y +1:– Negativo: a mayor valor de una variable, menor
valor de la otra.– Positivo: a mayor valor de la variable, mayor valor
de la otra.
Correlación
Correlación
Análisis descriptivo (media, desviación estándar, cuartiles, gráficos):•De los ejercicios.•Del global.
Análisis de validez y fiabilidad:•Evidencias de validez (contenido, proceso de respuesta, estructura interna, consecuencias y relación con otras variables).•Fiabilidad (consistencia interna).
Post análisis – cuantitativo
Programas informáticos
• Comerciales: SPSS, SAS, STATA BILOG, WINSTEP, PARSCALE
• Gratuitos: TAP (www.ohio.edu/people/brooksg/software.htm) R (R-commander) www.rcommander.com
OpenOffice
Tercera parte
SOLICITUD PUNTO 9
SOLICITUD PUNTO 10