16 de noviembre de 2011 VI Jornadas MAVIR
Creación de un corpus oral espontáneo de errores de estudiantes de español
Leonardo Campillos Llanos
Laboratorio de Lingüística Informática
Universidad Autónoma de Madrid
16 de noviembre de 2011 VI Jornadas MAVIR
EsquemaObjetivos del proyecto
Metodología
Participantes
Tipología de L1s
Composición y diseño
Tipología de errores
Procesamiento de los datos
Evaluación de la interfaz de consulta
Resultados
16 de noviembre de 2011 VI Jornadas MAVIR
Nivel investigador
-Análisis de errores de la producción oral.
-Investigación sobre adquisición del español/LE:
· ¿Cuáles son los errores más frecuentes?
· ¿Errores comunes y diferentes entre hablantes de distinta L1?
→ mejorar los materiales de enseñanza de ELE.
Nivel tecnológico
-Desarrollo de herramienta para formación de profesores.
Objetivos
16 de noviembre de 2011 VI Jornadas MAVIR
Metodología
16 de noviembre de 2011 VI Jornadas MAVIR
-Estudiantes de ELE (casi todos de 20-26 años).
-Nivel intermedio-bajo (A2 y B1, Marco Común Europeo de Referencia).
-N=40, distribuido en:
• 9 grupos de 4 estudiantes con la misma L1:
• 1 grupo mixto de 4 estudiantes con otras L1s:
• 20 de A2 y 20 de B1
Italiano Inglés JaponésFrancés Alemán ChinoPortugués Neerlandés Polaco
Coreano Finés
Turco Húngaro
Participantes
16 de noviembre de 2011 VI Jornadas MAVIR
Tipología de lenguas maternas
16 de noviembre de 2011 VI Jornadas MAVIR
Composición y diseño del corpus
16 de noviembre de 2011 VI Jornadas MAVIR
Datos orales:
Entrevistas semiespontáneas entre investigador y aprendiz.
15-20 minutos cada grabación.
Tareas: (similares a exámenes de idiomas)
-Descripción de dos fotografías
-Dos tareas narrativas a partir de viñetas:
- Diálogo espontáneo: opinión sobre la comida.
Metodología de obtención de datos
16 de noviembre de 2011 VI Jornadas MAVIR
- Fenómenos del habla:
Solapamientos p. ej., *AIS: <sí> ///
*ENT: [<] <muy bien> /// Pausas y alargamientos
Repeticiones y reformulaciones
Titubeos y palabras fragmentadas…
p. ej., bueno &mm / lo → [/] lo mezclas ///
- Fenómenos de la adquisición del español:.
Deformaciones p. ej., mejillones {%err: melijones}
Pronunciación errónea … p. ej., tranquilo {%pho: [tɾan'kwilo]}
Transcripción de las grabaciones
16 de noviembre de 2011 VI Jornadas MAVIR
Metadatos
Información sobre la grabación: fecha, lugar…
Información sobre el estudiante:
Información personal:
Perfil lingüístico:
☐Edad ☐Origen geográfico
☐ Papel en la grabación ☐ Profesión / ocupación
☐ Nivel educativo
☐Nivel de español (MCER) ☐Tiempo de estudio de español
☐ Lengua materna ☐ Tiempo en país hispanohablante
☐ Lenguas habladas
16 de noviembre de 2011 VI Jornadas MAVIR
Muestra de datos XML (metadatos)
16 de noviembre de 2011 VI Jornadas MAVIR
Muestra de datos XML (metadatos)
16 de noviembre de 2011 VI Jornadas MAVIR
Muestra de datos XML (metadatos)
16 de noviembre de 2011 VI Jornadas MAVIR
-Sincronización texto-sonido:
Sincronización manual (programa Transana©).
Muestra de datos XML (texto)
16 de noviembre de 2011 VI Jornadas MAVIR
Clasificación según estos criterios:
– Nivel lingüístico: gramática, vocabulario, pronunciación…
– Categoría: artículo, verbo, adjetivo…
– Mecanismo de cambio: orden incorrecto, deformación…
p. ej., *higenias (higiene)
– Tipo: ser/estar, conjugación, tiempo de pasado…
p. ej., *escribido (escrito)
– Etiología (causa del error): interlingüístico, desconocido...
p. ej., to realize ('darse cuenta') ≠ realizar
Tipología de errores
16 de noviembre de 2011 VI Jornadas MAVIR
-Etiquetas de errores:
Muestra de datos XML (errores)
16 de noviembre de 2011 VI Jornadas MAVIR
Procesamiento de los datos
-Tecnología empleada en la interfaz:
·XML: transcripciones, errores, códigos de tiempo y metadatos.
·XSLT: visualización del contenido (transcripciones, metadatos y errores).
·XQuery: consultas predefinidas para la base de datos.
·Base de datos nativa (eXist, W. Meier).
16 de noviembre de 2011 VI Jornadas MAVIR
Muestra de la interfaz-Criterios de búsqueda:
-Menú de consulta:
16 de noviembre de 2011 VI Jornadas MAVIR
Muestra de la interfaz
-Información sobre el estudiante:
16 de noviembre de 2011 VI Jornadas MAVIR
Muestra de la interfaz
-Indicación y explicación sobre el error:
16 de noviembre de 2011 VI Jornadas MAVIR
Muestra de la interfaz
-Recuento de errores:
16 de noviembre de 2011 VI Jornadas MAVIR
Muestra de la interfaz
-Versión
en inglés:
16 de noviembre de 2011 VI Jornadas MAVIR
Evaluación de la interfaz-Evaluación formativa: cuestionario a 22 profesores de español/LE.
Opinión sobre los términos para describir erroresOpinión sobre los criterios de búsqueda
Ausencia de algún tipo de error
Conclusiones de la evaluación:
Sugerencia de guía didáctica.
Simplificación de la búsqueda y la visualización de resultados.
16 de noviembre de 2011 VI Jornadas MAVIR
Disminución de errores al progresar de nivel.
Alta tasa de ambigüedad en oralidad: ≈ 1 ambiguo cada 23.
Resultados del análisis de errores
16 de noviembre de 2011 VI Jornadas MAVIR
Mayor número de errores: gramática
Resultados del análisis de errores
16 de noviembre de 2011 VI Jornadas MAVIR
Sobre análisis de errores:
Baralo, M. (1999) Errores y fosilización. Fundación Antonio de Nebrija.
Corder, P. (1971) Idiosyncratic Dialects and Error Analysis. International Review of Applied Linguistics, 9(2): 147-60.
Fernández López, S. (1997) Interlengua y Análisis de Errores en el aprendizaje del español como lengua extranjera. Madrid: Edelsa.
García, J. (2005) “Una propuesta de tipología de errores”. Actas del XXIII Congreso de Lingüística Aplicada. Universidad de les Illes Balears.
James, C. (1998) Errors in Language Learning and Use. London/N.Y.: Longman.
Vázquez, G. (1999) ¿Errores? ¡Sin falta! Madrid: Edelsa.
Sobre corpus orales:
Cresti, E. & Moneglia, M. (2005) C-ORAL-ROM. Integrated Reference Corpora for Spoken Romance Languages. Amsterdam/Philadelphia: J. Benjamins.
Díaz Rodríguez, L. (2007) Interlengua española. Barcelona: Printulibro.
Mitchell, R., Dominguez, L., Arche, M. J., Myles, F. & Marsden, E. (2008) SPLLOC: A new database for Spanish second language acquisition research. EuroSLA Yearbook, 8, 287-304.
Referencias
16 de noviembre de 2011 VI Jornadas MAVIR
Sobre etiquetado de errores en corpus:
Díaz-Negrillo, A., y J. Fernández-Domínguez. 2006. "Error tagging systems for learner corpora". RESLA, 19: 83-102
Granger, S. (2003) “Error-tagged Learner Corpora and CALL: a promising synergy”, CALICO Journal, 20 (3), pp. 465-480.
Granger, S., Kraifa, O., Pontona, C., Antoniadisa, G. & V. Zampa (2007) “Integrating learner corpora and natural language processing”. ReCALL Journal, 19, pp. 252-268.
Izumi, E. et al. 2004. “SST speech corpus of Japanese learners’ English and automatic detection of learners’ errors”. ICAME Journal 28, pp. 31-48.
Lüdeling, A., Walter, M., Kroymann, E. & Adolphs, P. (2005) “Multi-level error annotation in learner corpora”. Proceedings of Corpus Linguistics Conference 2005.
Nicholls, D. (2003) “The Cambridge Learner Corpus – error coding and analysis for Lexicography and ELT”. En Archer et al. (eds.) Proceedings of the Corpus Linguistics Conference 2003, pp. 572-581.
Sobre la evaluación formativa de la interfaz:
-Colpaert, J. (2004) Design of online interactive language courseware: conceptualization, specification and prototyping: research into the impact of linguistic-didactic functionality on software architecture Universiteit Antwerpen, Faculteit Letteren en Wijsbegeerte, Departement Taalkunde. Tesis doctoral.
-Ward, M. (2006) “Using Software Design Methods in CALL”. Computer Assisted Language Learning, vol. 19, nº. 2-3, Special edition of CALL: Software Design and Development, pp.129-147.
Referencias
16 de noviembre de 2011 VI Jornadas MAVIR
¡Gracias por su atención!
¿Comentarios?
Leonardo Campillos Llanos
Laboratorio de Lingüística Informática
Universidad Autónoma de Madrid
Proyecto financiado por la Comunidad de Madrid y el Fondo Social Europeo.
Top Related