El uso de los corpus lingüísticos disponibles en Internet ... · zJergas de Habla Hispana (JHH)...

133
CRE 4 de diciembre de 2008 Université de Montréal El uso de los corpus lingüísticos disponibles en Internet como herramienta pedagógica para la enseñanza-aprendizaje de ELE” Elena Pitkowski [email protected] Javier Vásquez Gamarra [email protected] Université de Montréal

Transcript of El uso de los corpus lingüísticos disponibles en Internet ... · zJergas de Habla Hispana (JHH)...

CRE4 de diciembre de 2008Université de Montréal

“El uso de los corpus lingüísticosdisponibles en Internet como

herramienta pedagógica para la enseñanza-aprendizaje de ELE”

Elena [email protected]

Javier Vásquez [email protected]

Université de Montréal

CRE4 de diciembre de 2008Université de Montréal

Los Corpus en ELE: una nueva herramienta

Corpus: característicasAlgunos corpus…

Jergas de Habla Hispana (JHH)Así hablamos Corpus del españolCorpus Diacrónico del Español (CORDE)Corpus Referencia del Español Actual (CREA)Corpus del Español del Siglo XXIPresentación de otros corpus

¿Qué nos permiten hacer?Ventajas y desventajas

CRE4 de diciembre de 2008Université de Montréal

Los corpus…

Nacen gracias a la evolución de la informática

Son un nuevo medio actualmente disponible en Internet

Consisten en una fuente de ideas porque nos permiten conseguir material pedagógico fiable y real

CRE4 de diciembre de 2008Université de Montréal

¿Qué nos permiten obtener?Muestras de cuestiones gramaticalesEl uso real de una palabra o expresión en:

Un país determinadoLa obra de un autor En un cierto período de la historia del español

Contextualizar una palabra o expresión en relación a un tema específico

La evaluación computarizada de textosLa búsqueda de ejemplos reales para las clases de ELE

CRE4 de diciembre de 2008Université de Montréal

Características

Acceso gratuito

No es necesario un ordenador muy moderno

No se precisan conocimientos en informática

No se requiere de algún programa o de algo nuevo en nuestro ordenador

Consulta interactiva

CRE4 de diciembre de 2008Université de Montréal

Ventajas en comparación a un buscador

Respaldo académico

Datos lingüísticos fiables

Posibilidad de selección de varios criterios

Optimizar la búsqueda

Contextualizar los resultados

Terminar con la inevitable pérdida en el laberinto de Internet

CRE4 de diciembre de 2008Université de Montréal

Tipos de CorpusCorpus textual

Conjunto de textos seleccionados a través de uno o más criterios de homogeneidad

Corpus oralEstán constituidos por las transcripciones de los registros de la lengua habladaCorpus Oral y Sonoro del Español Rural(COSER)www.uam.es/coser

CRE4 de diciembre de 2008Université de Montréal

JHHJergas de Habla Hispanawww.jergasdehablahispana.org

CRE4 de diciembre de 2008Université de Montréal

JHHJergas de Habla Hispana

www.jergasdehablahispana.org

CRE4 de diciembre de 2008Université de Montréal

JHHJergas de Habla Hispana

www.jergasdehablahispana.org

CRE4 de diciembre de 2008Université de Montréal

JHHJergas de Habla Hispana

www.jergasdehablahispana.org

CRE4 de diciembre de 2008Université de Montréal

JHHJergas de Habla Hispana

www.jergasdehablahispana.org

CRE4 de diciembre de 2008Université de Montréal

JHHJergas de Habla Hispana

www.jergasdehablahispana.org

CRE4 de diciembre de 2008Université de Montréal

JHHJergas de Habla Hispana

www.jergasdehablahispana.org

CRE4 de diciembre de 2008Université de Montréal

JHHJergas de Habla Hispana

www.jergasdehablahispana.org

CRE4 de diciembre de 2008Université de Montréal

JHHJergas de Habla Hispana

www.jergasdehablahispana.org

CRE4 de diciembre de 2008Université de Montréal

JHHJergas de Habla Hispana

www.jergasdehablahispana.org

CRE4 de diciembre de 2008Université de Montréal

JHHJergas de Habla Hispana

www.jergasdehablahispana.org

CRE4 de diciembre de 2008Université de Montréal

JHHJergas de Habla Hispana

www.jergasdehablahispana.org

CRE4 de diciembre de 2008Université de Montréal

JHHJergas de Habla Hispana

www.jergasdehablahispana.org

CRE4 de diciembre de 2008Université de Montréal

JHHJergas de Habla Hispana

www.jergasdehablahispana.org

CRE4 de diciembre de 2008Université de Montréal

JHHJergas de Habla Hispana

www.jergasdehablahispana.org

CRE4 de diciembre de 2008Université de Montréal

JHHJergas de Habla Hispana

www.jergasdehablahispana.org

CRE4 de diciembre de 2008Université de Montréal

Así hablamoshttp://www.asihablamos.com/

CRE4 de diciembre de 2008Université de Montréal

Así hablamos

Diccionario latinoamericano

Permite apreciar la diversidad de nuestra lengua

Búsqueda del significado de una misma palabra en diferentes países o en un país determinado, usando el filtro por país

Característica: se construye con el aporte de los usuarios

http://www.asihablamos.com/

CRE4 de diciembre de 2008Université de Montréal

Así hablamos

http://www.asihablamos.com/

CRE4 de diciembre de 2008Université de Montréal

Filtros por paísBúsqueda de una palabra en un país en

particular

http://www.asihablamos.com/

CRE4 de diciembre de 2008Université de Montréal

http://www.asihablamos.com

CRE4 de diciembre de 2008Université de Montréal

Búsqueda por orden alfabético

http://www.asihablamos.com

CRE4 de diciembre de 2008Université de Montréal

Lista de palabras

http://www.asihablamos.com

CRE4 de diciembre de 2008Université de Montréal

Buscar una palabra…Comparar: Jergas de Habla Hispana

http://www.asihablamos.com

CRE4 de diciembre de 2008Université de Montréal

Término: “mamón”

http://www.asihablamos.com

CRE4 de diciembre de 2008Université de Montréal

En otros países…

http://www.asihablamos.com

CRE4 de diciembre de 2008Université de Montréal

En México…

http://www.asihablamos.com

CRE4 de diciembre de 2008Université de Montréal

Palabras cercanas

http://www.asihablamos.com

CRE4 de diciembre de 2008Université de Montréal

Objetivo: buscar el significado de una palabra en los diferentes países

http://www.asihablamos.com

CRE4 de diciembre de 2008Université de Montréal

Actividad para la clase de ELE:

Realizar búsquedas variadasInvestigar el vocabulario general de un país determinadoComparar el uso de un vocablo entre diferentes culturasContextualizar el empleo de los términos con ejemplos

http://www.asihablamos.com

CRE4 de diciembre de 2008Université de Montréal

Expresiones idiomáticas: Echar…

http://www.asihablamos.com

CRE4 de diciembre de 2008Université de Montréal

“Echar carro”

http://www.asihablamos.com

CRE4 de diciembre de 2008Université de Montréal

Expresiones idiomáticas: Echar…

http://www.asihablamos.com

CRE4 de diciembre de 2008Université de Montréal

“Echar el cobre”

http://www.asihablamos.com

CRE4 de diciembre de 2008Université de Montréal

Expresiones idiomáticas: Echar…

http://www.asihablamos.com

CRE4 de diciembre de 2008Université de Montréal

“Echar infantería”

http://www.asihablamos.com

CRE4 de diciembre de 2008Université de Montréal

Expresiones idiomáticas: Echar…

http://www.asihablamos.com

CRE4 de diciembre de 2008Université de Montréal

“Echar ojo”

http://www.asihablamos.com

CRE4 de diciembre de 2008Université de Montréal

Ahora…

Echen un ojo a lo que sigue…

CRE4 de diciembre de 2008Université de Montréal

Corpus del españolDe Mark Davies

www.corpusdelespanol.org

CRE4 de diciembre de 2008Université de Montréal

Corpus del español

www.corpusdelespanol.org

CRE4 de diciembre de 2008Université de Montréal

Corpus del español

www.corpusdelespanol.org

CRE4 de diciembre de 2008Université de Montréal

Corpus del español

www.corpusdelespanol.org

CRE4 de diciembre de 2008Université de Montréal

Corpus del español

www.corpusdelespanol.org

CRE4 de diciembre de 2008Université de Montréal

Corpus del español

www.corpusdelespanol.org

CRE4 de diciembre de 2008Université de Montréal

Corpus del español

www.corpusdelespanol.org

CRE4 de diciembre de 2008Université de Montréal

Corpus del español

www.corpusdelespanol.org

CRE4 de diciembre de 2008Université de Montréal

Corpus del español

www.corpusdelespanol.org

CRE4 de diciembre de 2008Université de Montréal

Corpus del español

www.corpusdelespanol.org

CRE4 de diciembre de 2008Université de Montréal

Corpus del español

www.corpusdelespanol.org

CRE4 de diciembre de 2008Université de Montréal

CREA - CORDE Real Academia Española

CRE4 de diciembre de 2008Université de Montréal

CREA - CORDE Real Academia Española

Corpus de Referencia del Español Actual(CREA)

Escrito y oralMás de 150 millones de formas léxicasMás de ocho millones en la parte oralTextos: fechados a partir de 1975

Corpus Diacrónico del Español (CORDE)

EscritoCerca de 300 millones de formas léxicasTextos: hasta 1974

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

CREA - CORDE Real Academia Española

Ambos corpus contemplan todos los países de habla hispana

Abarcan todos los períodos del español, tanto en España como en América

Constituyen un importante recurso léxico de palabras disponibles para el idioma español

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

El Corpus de Referencia del Español Actual (CREA)

Permite extraer información para estudiar las palabras, sus significados y sus contextos

Se compone de una amplia variedad de textos escritos y orales, producidos en todos los países de habla hispana desde 1975

Procedencia de los textos escritos: libros, periódicos y revistas

Abarca más de cien materias distintas

Fuente: Real Academia Español

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

CREA : corpus oralConformado por transcripciones de documentos sonoros

Materiales: codificación de textos orales

Obtención de los documentos sonoros: diferentes convenios

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

El Corpus de Referencia del Español Actual (CREA) Corpus Diacrónico del Español (CORDE)

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

http://www.rae.es/rae.html

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

http://www.rae.es/rae.html

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

El Corpus de Referencia del Español Actual (CREA)

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

Ejemplo: uso del subjuntivoEspero, deseo, quiero…

+ Verbo subordinado en subjuntivo:

≠ sujeto

Verbo subordinado en infinitivo:= sujeto

CRE4 de diciembre de 2008Université de Montréal

1ra. ventana: construcción del perfil de consultaEjemplo: uso del subjuntivo Deseo

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

2da. ventana: resultados

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

3ra. ventana: visualización de los ejemplos

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

Concordancias

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

1ra. ventana: construcción del perfil de consultaEjemplo: uso del subjuntivo Deseo que

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

2da. ventana: resultados

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

3ra. ventana: visualización de los ejemplos

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

Concordancia: 3

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

Recuperar otro ejemplo

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

Ejemplo: expresión idiomática con partes del cuerpo “Meter la pata”

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

2da. ventana: resultados

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

3ra. ventana: visualización de los ejemplos

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

Párrafos

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

Uso del prefijo antiEscrito - Oral

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

Resultados

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

Ejemplos de uso

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

Lista de autores y obras

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

2da. ventana: resultados

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

3ra. ventanaLista de autores y obras

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

Filtros

Reducción del númerode ejemplos

(no se puede recuperar demasiados documentos)

CRE4 de diciembre de 2008Université de Montréal

1ra. ventana: construcción del perfil de consultaEjemplo: verbo estar

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

2da. ventana: resultados

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

2da. ventana: resultadosFiltros

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

Tipos de filtros Filtro [Documentos]

Disminuye el número de documentos

Filtro [Casos]

Disminuye el número de ejemplos que se ofrecen en cada documento

CRE4 de diciembre de 2008Université de Montréal

OTROS USOS DE LOS CORPUS…

CRE4 de diciembre de 2008Université de Montréal

Comodines: signos “?” y “*”

Uso de “comodines” en la formación de una palabra

“?” : sustituye a un carácter en una posición determinada

“*” : sustituye a cualquier número de caracteres

CRE4 de diciembre de 2008Université de Montréal

Ejemplo “?” : sustituye a un carácter en una posición determinada

ro ? a

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

2da. ventana: resultados

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

ropa - roca - rosa - roja

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

Ejemplo “*” : sustituye a cualquier número de caracteres

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

2da. ventana: resultados

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

hiperconcebidas – hipersensibilidad –hiperesfera – hipertiroidismo – hipertensión –hipercreativos - hiperactiva -

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

Corpus Diacrónico del Español (CORDE)

Corpus textualTextos: hasta 1974

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

Corpus Diacrónico del Español (CORDE)

RAEwww.rae.es/rae.html

CRE4 de diciembre de 2008Université de Montréal

Manual de consulta

CRE4 de diciembre de 2008Université de Montréal

¿?

CRE4 de diciembre de 2008Université de Montréal

NovedadNueva versión del CREA (textos de junio de 2008)

Se añade algo más de 3,5 millones de formas, correspondientes todas ellas al período, 2000-2004

El bloque que se incorpora en junio de 2008: corresponde fundamentalmente a la prensa americana

RAEwww.rae.es/rae.html

Fuente: Real Academia Español

CRE4 de diciembre de 2008Université de Montréal

Corpus del Español del Siglo XXI

Antecedentes: el CREA y el CORDE

Aumento del banco de datos léxicos iniciado en 1995

Primera fase: 300 millones de formas

Distribución:

Antes: 50% España y 50% América

Ahora: 30% España y 70% América

Materiales: investigación lexicográfica y gramatical del español

Fuente: Real Academia Español

CRE4 de diciembre de 2008Université de Montréal

BDSBase de datos sintáctico

del español actualwww.bds.usc.es/consultas/index.html

CRE4 de diciembre de 2008Université de Montréal

Base de datos sintácticodel español actual

www.bds.usc.es/consultas/index.html

CRE4 de diciembre de 2008Université de Montréal

Base de datos sintácticodel español actual

www.bds.usc.es/consultas/index.html

CRE4 de diciembre de 2008Université de Montréal

Base de datos sintácticodel español actual

www.bds.usc.es/consultas/index.html

CRE4 de diciembre de 2008Université de Montréal

Base de datos sintácticodel español actual

www.bds.usc.es/consultas/index.html

CRE4 de diciembre de 2008Université de Montréal

Otros corpus

Más información….

CRE4 de diciembre de 2008Université de Montréal

Universidad Autónoma de Madridhttp://www.uam.es/

CRE4 de diciembre de 2008Université de Montréal

Universidad Autónoma de Madrid

http://www.lllf.uam.es/esprincipal.html

CRE4 de diciembre de 2008Université de Montréal

http://www.lllf.uam.es/esprincipal.html

CRE4 de diciembre de 2008Université de Montréal

Lista de corpus

http://www.lllf.uam.es/esprincipal.html

CRE4 de diciembre de 2008Université de Montréal

Corpus Oral de Referencia de la LenguaEspañola Contemporánea

(CORLEC)

Características:

Base de datos textual (corpus de lengua hablada).

Transliteración de textos grabados en cintas de audio del registro oral.

1.100.000 palabras en soporte informático.

Comienzo de la elaboración del corpus: enero de 1991.

Finalización de su realización: febrero de 1992.

Director: Francisco Marcos Marín Catedrático de Lingüística General de la Universidad Autónoma de Madrid

http://www.lllf.uam.es/esprincipal.html

CRE4 de diciembre de 2008Université de Montréal

Corpus Oral de Referencia de la LenguaEspañola Contemporánea

(CORLEC)

http://www.lllf.uam.es/esprincipal.html

CRE4 de diciembre de 2008Université de Montréal

Muestra del corpus

http://www.lllf.uam.es/esprincipal.html

CRE4 de diciembre de 2008Université de Montréal

Corpus Oral de Referencia de la LenguaEspañola Contemporánea

(CORLEC)

http://www.lllf.uam.es/esprincipal.html

CRE4 de diciembre de 2008Université de Montréal

Corpus de Referencia de la Lengua Española en la Argentina

http://www.lllf.uam.es/esprincipal.html

CRE4 de diciembre de 2008Université de Montréal

Corpus de Referencia de la Lengua Española en la Argentina Universidad Autónoma de Madrid (UAM)

CRE4 de diciembre de 2008Université de Montréal

Corpus de Referencia de la Lengua Española en Chile

http://www.lllf.uam.es/esprincipal.html

CRE4 de diciembre de 2008Université de Montréal

Corpus de Referencia de la Lengua EspañolaContemporánea: corpus escritodel español en la República de Chile

Dirigido: por Francisco Marcos-Marín

Coordinado: por Ernesto Evans Espiñeira

Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid (UAM) con el patrocinio de la Sociedad Estatal del QuintoCentenario.

CRE4 de diciembre de 2008Université de Montréal

Corpus Histórico del Español de México (CHEM)

http://www.iling.unam.mx/chem

CRE4 de diciembre de 2008Université de Montréal

Corpus Histórico del Español de México (CHEM)

Corpus diacrónico de español de México

Reúne una colección de documentos

Período: entre los siglos XVI y XIX

Información cuantitativa y cualitativa de naturaleza variada

Se requiere registrarse en la base de datos

http://www.iling.unam.mx/chem/

CRE4 de diciembre de 2008Université de Montréal

Requerimiento: registrarse como usuario

http://www.iling.unam.mx/chem/

CRE4 de diciembre de 2008Université de Montréal

Corpus Histórico del Español de México (CHEM)

http://www.iling.unam.mx/chem/

CRE4 de diciembre de 2008Université de Montréal

Desventajas

Conexión Internet

Tiempo

CRE4 de diciembre de 2008Université de Montréal

¿Qué podemos hacer?Documentar con rapidez y seguridad

Frecuencia de uso de:Palabra/sPrefijosSufijosAgrupaciones de palabrasExpresiones idiomáticas

Documentar el contexto situacional

Combinar diferentes variables:Autor ObraAño o intervalo de añosÁrea temática País

CRE4 de diciembre de 2008Université de Montréal

Algunas sugerencias…

Buscar el uso frecuente de palabras o construcciones en los libros de textos y lecturas recomendadas

Corregir barbarismos o malos usos lingüísticos (errores más repetidos, construcciones no normativas, léxico mal usado, grafías incorrectas, etc.)

CRE4 de diciembre de 2008Université de Montréal

Más ideas…Contextualizar una palabra o expresión en relación a un tema específico

Obtener términos que comiencen o terminen por un determinado prefijo, sufijo

Consultar el empleo de ciertas expresiones idiomáticas en diferentes países

CRE4 de diciembre de 2008Université de Montréal

Otros usos…

Comparar el uso de un vocablo entre el oral y el escrito

Indagar los rasgos contextuales que acompañan una palabra o expresión

Sistematizar el conocimiento intuitivo ante algo que “suene extraño”, pero no se sepa exactamente el motivo

CRE4 de diciembre de 2008Université de Montréal

MUCHAS GRACIAS