Download - 16 de noviembre de 2011 VI Jornadas MAVIR Creación de un corpus oral espontáneo de errores de estudiantes de español Leonardo Campillos Llanos [email protected].

Transcript

16 de noviembre de 2011 VI Jornadas MAVIR

Creación de un corpus oral espontáneo de errores de estudiantes de español

Leonardo Campillos Llanos

[email protected]

Laboratorio de Lingüística Informática

Universidad Autónoma de Madrid

16 de noviembre de 2011 VI Jornadas MAVIR

EsquemaObjetivos del proyecto

Metodología

Participantes

Tipología de L1s

Composición y diseño

Tipología de errores

Procesamiento de los datos

Evaluación de la interfaz de consulta

Resultados

16 de noviembre de 2011 VI Jornadas MAVIR

Nivel investigador

-Análisis de errores de la producción oral.

-Investigación sobre adquisición del español/LE:

· ¿Cuáles son los errores más frecuentes?

· ¿Errores comunes y diferentes entre hablantes de distinta L1?

→ mejorar los materiales de enseñanza de ELE.

Nivel tecnológico

-Desarrollo de herramienta para formación de profesores.

Objetivos

16 de noviembre de 2011 VI Jornadas MAVIR

Metodología

16 de noviembre de 2011 VI Jornadas MAVIR

-Estudiantes de ELE (casi todos de 20-26 años).

-Nivel intermedio-bajo (A2 y B1, Marco Común Europeo de Referencia).

-N=40, distribuido en:

• 9 grupos de 4 estudiantes con la misma L1:

• 1 grupo mixto de 4 estudiantes con otras L1s:

• 20 de A2 y 20 de B1

Italiano Inglés JaponésFrancés Alemán ChinoPortugués Neerlandés Polaco

Coreano Finés

Turco Húngaro

Participantes

16 de noviembre de 2011 VI Jornadas MAVIR

Tipología de lenguas maternas

16 de noviembre de 2011 VI Jornadas MAVIR

Composición y diseño del corpus

16 de noviembre de 2011 VI Jornadas MAVIR

Datos orales:

Entrevistas semiespontáneas entre investigador y aprendiz.

15-20 minutos cada grabación.

Tareas: (similares a exámenes de idiomas)

-Descripción de dos fotografías

-Dos tareas narrativas a partir de viñetas:

- Diálogo espontáneo: opinión sobre la comida.

Metodología de obtención de datos

16 de noviembre de 2011 VI Jornadas MAVIR

- Fenómenos del habla:

Solapamientos p. ej., *AIS: <sí> ///

*ENT: [<] <muy bien> /// Pausas y alargamientos

Repeticiones y reformulaciones

Titubeos y palabras fragmentadas…

p. ej., bueno &mm / lo → [/] lo mezclas ///

- Fenómenos de la adquisición del español:.

Deformaciones p. ej., mejillones {%err: melijones}

Pronunciación errónea … p. ej., tranquilo {%pho: [tɾan'kwilo]}

Transcripción de las grabaciones

16 de noviembre de 2011 VI Jornadas MAVIR

Metadatos

Información sobre la grabación: fecha, lugar…

Información sobre el estudiante:

Información personal:

Perfil lingüístico:

☐Edad ☐Origen geográfico

☐ Papel en la grabación ☐ Profesión / ocupación

☐ Nivel educativo

☐Nivel de español (MCER) ☐Tiempo de estudio de español

☐ Lengua materna ☐ Tiempo en país hispanohablante

☐ Lenguas habladas

16 de noviembre de 2011 VI Jornadas MAVIR

Muestra de datos XML (metadatos)

16 de noviembre de 2011 VI Jornadas MAVIR

Muestra de datos XML (metadatos)

16 de noviembre de 2011 VI Jornadas MAVIR

Muestra de datos XML (metadatos)

16 de noviembre de 2011 VI Jornadas MAVIR

-Sincronización texto-sonido:

Sincronización manual (programa Transana©).

Muestra de datos XML (texto)

16 de noviembre de 2011 VI Jornadas MAVIR

Clasificación según estos criterios:

– Nivel lingüístico: gramática, vocabulario, pronunciación…

– Categoría: artículo, verbo, adjetivo…

– Mecanismo de cambio: orden incorrecto, deformación…

p. ej., *higenias (higiene)

– Tipo: ser/estar, conjugación, tiempo de pasado…

p. ej., *escribido (escrito)

– Etiología (causa del error): interlingüístico, desconocido...

p. ej., to realize ('darse cuenta') ≠ realizar

Tipología de errores

16 de noviembre de 2011 VI Jornadas MAVIR

-Etiquetas de errores:

Muestra de datos XML (errores)

16 de noviembre de 2011 VI Jornadas MAVIR

Procesamiento de los datos

-Tecnología empleada en la interfaz:

·XML: transcripciones, errores, códigos de tiempo y metadatos.

·XSLT: visualización del contenido (transcripciones, metadatos y errores).

·XQuery: consultas predefinidas para la base de datos.

·Base de datos nativa (eXist, W. Meier).

16 de noviembre de 2011 VI Jornadas MAVIR

Muestra de la interfaz-Criterios de búsqueda:

-Menú de consulta:

16 de noviembre de 2011 VI Jornadas MAVIR

Muestra de la interfaz

-Información sobre el estudiante:

16 de noviembre de 2011 VI Jornadas MAVIR

Muestra de la interfaz

-Indicación y explicación sobre el error:

16 de noviembre de 2011 VI Jornadas MAVIR

Muestra de la interfaz

-Recuento de errores:

16 de noviembre de 2011 VI Jornadas MAVIR

Muestra de la interfaz

-Versión

en inglés:

16 de noviembre de 2011 VI Jornadas MAVIR

Evaluación de la interfaz-Evaluación formativa: cuestionario a 22 profesores de español/LE.

Opinión sobre los términos para describir erroresOpinión sobre los criterios de búsqueda

Ausencia de algún tipo de error

Conclusiones de la evaluación:

Sugerencia de guía didáctica.

Simplificación de la búsqueda y la visualización de resultados.

16 de noviembre de 2011 VI Jornadas MAVIR

Disminución de errores al progresar de nivel.

Alta tasa de ambigüedad en oralidad: ≈ 1 ambiguo cada 23.

Resultados del análisis de errores

16 de noviembre de 2011 VI Jornadas MAVIR

Mayor número de errores: gramática

Resultados del análisis de errores

16 de noviembre de 2011 VI Jornadas MAVIR

Sobre análisis de errores:

Baralo, M. (1999) Errores y fosilización. Fundación Antonio de Nebrija.

Corder, P. (1971) Idiosyncratic Dialects and Error Analysis. International Review of Applied Linguistics, 9(2): 147-60.

Fernández López, S. (1997) Interlengua y Análisis de Errores en el aprendizaje del español como lengua extranjera. Madrid: Edelsa.

García, J. (2005) “Una propuesta de tipología de errores”. Actas del XXIII Congreso de Lingüística Aplicada. Universidad de les Illes Balears.

James, C. (1998) Errors in Language Learning and Use. London/N.Y.: Longman.

Vázquez, G. (1999) ¿Errores? ¡Sin falta! Madrid: Edelsa.

Sobre corpus orales:

Cresti, E. & Moneglia, M. (2005) C-ORAL-ROM. Integrated Reference Corpora for Spoken Romance Languages. Amsterdam/Philadelphia: J. Benjamins.

Díaz Rodríguez, L. (2007) Interlengua española. Barcelona: Printulibro.

Mitchell, R., Dominguez, L., Arche, M. J., Myles, F. & Marsden, E. (2008) SPLLOC: A new database for Spanish second language acquisition research. EuroSLA Yearbook, 8, 287-304.

Referencias

16 de noviembre de 2011 VI Jornadas MAVIR

Sobre etiquetado de errores en corpus:

Díaz-Negrillo, A., y J. Fernández-Domínguez. 2006. "Error tagging systems for learner corpora". RESLA, 19: 83-102

Granger, S. (2003) “Error-tagged Learner Corpora and CALL: a promising synergy”, CALICO Journal, 20 (3), pp. 465-480.

Granger, S., Kraifa, O., Pontona, C., Antoniadisa, G. & V. Zampa (2007) “Integrating learner corpora and natural language processing”. ReCALL Journal, 19, pp. 252-268.

Izumi, E. et al. 2004. “SST speech corpus of Japanese learners’ English and automatic detection of learners’ errors”. ICAME Journal 28, pp. 31-48.

Lüdeling, A., Walter, M., Kroymann, E. & Adolphs, P. (2005) “Multi-level error annotation in learner corpora”. Proceedings of Corpus Linguistics Conference 2005.

Nicholls, D. (2003) “The Cambridge Learner Corpus – error coding and analysis for Lexicography and ELT”. En Archer et al. (eds.) Proceedings of the Corpus Linguistics Conference 2003, pp. 572-581.

Sobre la evaluación formativa de la interfaz:

-Colpaert, J. (2004) Design of online interactive language courseware: conceptualization, specification and prototyping: research into the impact of linguistic-didactic functionality on software architecture Universiteit Antwerpen, Faculteit Letteren en Wijsbegeerte, Departement Taalkunde. Tesis doctoral.

-Ward, M. (2006) “Using Software Design Methods in CALL”. Computer Assisted Language Learning, vol. 19, nº. 2-3, Special edition of CALL: Software Design and Development, pp.129-147.

Referencias