TECNOLOGÍAS DEL LENGUAJE
Ana MaríaTangarife Patiño
¿QUÉ SON?
Las tecnologías del lenguaje, también llamadas tecnologías lingüísticas o tecnologías para el lenguaje humano se integran en aplicaciones informáticas para permitir el tratamiento de textos escritos, procesamiento, dictado o lectura automática en voz alta de un mensaje.
Estas tecnologías hacen posible la creación de herramientas en las que se utilizan los ordenadores sin renunciar por ello a nuestro uso habitual del lenguaje como medio de interacción y de intercambio de información.
SE DISTINGUEN…
Tecnologías lingüísticas que se centran en la lengua escrita. Procesamiento del lenguaje natural o tecnologías del texto escrito.
Tecnologías lingüísticas que tienen por objeto el habla.
El desarrollo de estas tecnologías y sus aplicaciones requieren disponer de recursos lingüísticos, entre los que se cuentan los corpus, los diccionarios y las gramáticas.
OBJETO DE LAS TECNOLOGÍAS DEL HABLA
Speech technologies Tienen por objeto el tratamiento informático de
la lengua oral. Permiten que un ordenador:
Ofrezca información hablada: síntesis del habla. Reconozca los enunciados emitidos por un locutor:
reconocimiento automático del habla. Combine ambas tecnologías para entablar una
interacción: sistemas de diálogo. Tiene su origen en la ingeniería de
telecomunicaciones: telefonía, tratamiento digital de señales.
TECNOLOGÍAS DEL HABLA - LINGÜÍSTICA
Síntesis del habla: conversión de texto en habla Reconocimiento del habla Sistemas de diálogo
La fonética, tanto en su vertiente descriptiva como experimental, es la disciplina lingüística que más directamente entronca con las tecnologías del habla.
Es necesario recurrir a conocimientos fonológicos, morfológicos, sintácticos, semánticos e incluso pragmáticos para representar fenómenos más precisos.
TECNOLOGÍAS DEL HABLA.SÍNTESIS DEL HABLA
Objetivo: generar automáticamente mensajes orales, partiendo de un texto escrito
Conversión de texto en habla Representación simbólica
Transforma automáticamente cualquier texto escrito y disponible en formato electrónico en su correspondiente realización sonora.
TECNOLOGÍAS DEL HABLA.SÍNTESIS DEL HABLA
La estructura de un conversor es modular, de manera que cada uno se ocupa de un aspecto de conversión de la cadena inicial de caracteres (texto) hasta la señal sonora, equivalente a su lectura en voz alta.
TECNOLOGÍAS DEL HABLA.SÍNTESIS DEL HABLA
Ejemplos: Conversión de texto a habla:
En línea:
http://vozme.com/index.php?lang=es
http://www.ivona.com/us/
Para descarga:
https://addons.mozilla.org/en-US/firefox/addon/text-to-voice/
TECNOLOGÍAS DEL HABLA.RECONOCIMIENTO DEL HABLA
Transformar una señal sonora (habla) y su correspondiente representación simbólica en un texto escrito.
Ejemplo:
Programas comerciales de dictado automático orientados a los usuarios que desean escribir sus textos sin recurrir al teclado del ordenador.
TECNOLOGÍAS DEL HABLA.RECONOCIMIENTO DEL HABLA
Los reconocedores son sistemas que aprenden automáticamente de un extenso corpus de habla y, en el momento de enfrentarse a un nuevo enunciado, lo comparan con los datos que previamente han extraído de este corpus.
Actividades para desarrollar un sistema de reconocimiento: Diseñar y recoger el corpus de aprendizaje (o de
entrenamiento). Adquirir información para crear modelos de cada
una de las unidades de reconocimiento. Obtención la gramática del reconocedor: modelo
que recoge las probabilidades de aparición de palabras en un determinado punto.
TECNOLOGÍAS DEL HABLA.RECONOCIMIENTO DEL HABLA
TECNOLOGÍAS DEL HABLA.RECONOCIMIENTO DEL HABLA
Disciplinas como la fonética y la dialectología son muy relevantes para el reconocimiento automático del habla, puesto que aportan información básica y criterios prácticos para el desarrollo de los sistemas.
Ejemplo
http://www.e-speaking.com/publish.htm
TECNOLOGÍAS DEL HABLASISTEMAS DE DIÁLOGO
Objetivo: facilitar la interacción mediante el habla entre una persona y un sistema informático.
Se utilizan en: Servicios telefónicos automáticos de información. Servicios de atención al cliente en ámbitos como la
banca y el comercio electrónicos. Tecnologías básica que sustentan los
denominados portales de voz. Información meteorológica. Cartelera, museos, restaurantes, farmacias de
guardia, compañías de taxi, etc. Son equivalentes a los que se encuentran en los
portales convencionales en la web.
TECNOLOGÍAS DEL HABLASISTEMAS DE DIÁLOGO
Un sistema de diálogo consta de un conjunto de módulos que realizan todas las tareas necesarias para facilitar una información o llevar a cabo una transacción.
TECNOLOGÍAS DEL HABLASISTEMAS DE DIÁLOGO
Problemas lingüísticos implicados en el desarrollo sistemas de diálogo Reconocimiento del habla
Ejemplo: un reconocedor puede presentar problemas a la hora de distinguir entre “Palencia” y “Valencia”, lo que hace necesario que en el módulo de gestión del diálogo se prevean estrategias de confirmación de la información dudosa, preguntando, por ejemplo “¿Desea usted viajar a Palencia o a Valencia?” o “¿Quiere usted saber los horarios de trenes a Palencia?”.
Reconocimiento de los rasgos prosódicos Ejemplo: “No, quiero viajar por la mañana” o “No quiero
viajar por la mañana” depende exclusivamente de la correcta detección de la pausa.
Diferencia a partir de la entonación Ejemplo: Pregunta: “¿Puedo viajar el lunes?” o una
aseveración: “Puedo viajar el lunes”
TECNOLOGÍAS DEL HABLASISTEMAS DE DIÁLOGO
Ejemplo
http://www.youtube.com/watch?v=zGpuZNLWT8Y
TECNOLOGÍAS DEL TEXTO
Se ocupan de la vertiente escrita de la lengua.
Se distinguen:
Las herramientas con las que se procesa la lengua escrita.
Las tecnologías empleadas en el desarrollo de aplicaciones.
TECNOLOGÍAS DEL TEXTOHERRAMIENTAS DE AYUDA A LA ESCRITURA
Programas de corrección ortográfica y gramatical que se encuentran incorporados a la mayoría de los procesadores de textos y que pueden describirse genéricamente como herramientas de ayuda a la escritura.
En la corrección automática de textos se distinguen tres niveles de complejidad:
Verificación ortográfica. Verificación gramatical. Verificación de estilo.
TECNOLOGÍAS DEL TEXTOHERRAMIENTAS DE AYUDA A LA ESCRITURA
Problemas
Ciertos errores en el texto escapan con facilidad al sistema. Por ejemplo en palabras que utilizan ciertos prefijos.
Aparecen como erróneas palabras que contienen equivocaciones ortográficas o de mecanografiado, sino también palabras existentes en la lengua pero que no han sido incluidas en el diccionario en el que se basa el corrector.
TECNOLOGÍAS DEL TEXTOHERRAMIENTAS DE ANÁLISIS LINGÜÍSTICO
Programas que realizan de manera automática operaciones en morfología y sintaxis:
Extraer la raíz de una palabra. Segmentar la palabra en morfemas. Asignar la categoría gramatical correspondiente. Determinar la parte de la oración a la que pertenece la
palabra. Descomponer una frase en sus constituyentes indicando
la función sintáctica de cada uno de ellos. Estas herramientas se denominan lematizadores:
su función es detectar el radical de una palabra, separándola de los morfemas derivativos o flexivos que la acompañan
Analizadores semánticos
TECNOLOGÍAS DEL TEXTOPROCESAMIENTO DEL LENGUAJE NATURAL
Generación del lenguaje: Se realiza a partir de una representación abstracta que debe transformarse en un texto bien formado. Problema: El contenido de una misma
representación puede manifestarse en la lengua de diversos modos.
Traducción automática: Requiere conocimiento morfológico, sintáctico, léxico y semántico automáticos. Es imprescindible además tener un conocimiento
del mundo, información que difícilmente puede formalizarse por ahora en un programa informático. Ejemplo: http://translate.google.com/toolkit
TECNOLOGÍAS DEL TEXTOTRADUCCIÓN AUTOMÁTICA
TECNOLOGÍAS DEL TEXTORECUPERACIÓN Y EXTRACCIÓN Esta operación consiste en seleccionar, en un conjunto de
documentos, aquellos que contienen la información que un usuario solicita mediante una consulta.
Problemas
Reconocimiento de nombres propios, ya que éstos se encuentran de diversas formas en los textos
“Lorca”, “García Lorca” o “Federico García Lorca” Poeta o ciudad
Correferencia: la misma persona puede aparecer en un documento con su apellido, su nombre y apellido o su cargo, y los tres deben identificarse como referentes al mismo individuo.
Anáfora: La extracción de información se lleva a cabo partiendo de un análisis morfológico, léxico y sintáctico de los documentos, y se basa en nociones como entidades, relaciones, o acontecimientos en el marco de un dominio determinado.
RECURSOS LINGÜÍSTICOS Corpus: Conjunto estructurado de textos que
constituyen una muestra realista del uso de la lengua.
Orales Escritos o textuales
Tienen un diseño coherente, marcas en los textos, estructura según estándares y documentación completa de la procedencia y características de los textos.
Léxicos computacionales: léxicos monolingües o multilingües y redes léxico-semánticas. Contiene información morfológica, sintáctica y semántica
relevante para diversas aplicaciones de PLN. Gramáticas computacionales: Descripción
formalizada del conocimiento lingüístico que puede ser empleada por las herramientas de análisis y de generación de textos.
REFERENCIAS
Sistemas de diálogo hablado y multimodal. En: http://www.ugr.es/~rlopezc/sistemas_dialogo.htm
Llisterri, Joaquim. Lingüística y tecnologías del lenguaje. Lynx. Panorámica de Estudios Lingüísticos, 2; pp. 9-71. En: http://liceu.uab.es/~joaquim/publicacions/Llisterri_03_Linguistica_Tecnologias_Lenguaje.pdf