Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
XXIII Trobada Internacional de l’Associació de Joves Lingüistes
Universitat de Girona
27 de març de 2008
Los lingüistas en el mundo de las
tecnologías del habla
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia
Espanyola, Universitat Autònoma de Barcelona
http://liceu.uab.cat/~joaquim
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
XXIII Trobada Internacional de l’Associació de Joves Lingüistes
Universitat de Girona
27 de març de 2008
Materiales en Internet
http://liceu.uab.cat/~joaquim/
speech_technology/AJL_08/AJL_08.html
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Los lingüistas en el mundo de las
tecnologías del habla
La relación entre la lingüística y lastecnologías del habla
La incorporación de conocimientoslingüísticos a las tecnologías del habla
Los obstáculos para la integración delconocimiento lingüístico en lastecnologías del habla
Algunas perspectivas de futuro
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Los lingüistas en el mundo de las
tecnologías del habla
La relación entre la lingüística y lastecnologías del habla
La incorporación de conocimientoslingüísticos a las tecnologías del habla
Los obstáculos para la integración delconocimiento lingüístico en lastecnologías del habla
Algunas perspectivas de futuro
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
La relación entre la lingüística y las
tecnologías del habla
http://www.speech.kth.se/~gunnar/
“Can we leave it to the
computer to learn about
speech or shall we insist on
developing our own insights in
the many dimensions of the
speech code?” (Fant 1983: 17)
“Computing power can not
substitute crucial knowledge”
(Fant 2004: 11)
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
La relación entre la lingüística y las
tecnologías del habla
• En sus inicios las tecnologías del
habla pretendían incorporar
conocimiento lingüístico,
especialmente fonético …
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Pattern PlaybackHaskins Laboratories
• Sistema analógico de reproducción de
espectrogramas estilizados
http://www.haskins.yale.edu/featured/patplay.html
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Pattern PlaybackHaskins Laboratories
http://www.haskins.yale.edu/featured/sentences/ppsentences.html
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
• Sistema de síntesis
por reglas
desarrollado en la
Joint Speech Research
Unit (JSRU) por
Holmes, Mattingly &
Shearme
[Klatt, 1987 (17)]
Holmes, Mattingly
& Shearme (1964)
http://mambo.ucsc.edu/psl/smus/smus.html
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
• Desarrollado a partir de
los trabajos de Allen
(1976, 1985) en el MIT,
basado en el sintetizador
por formantes de Klatt
[Klatt, 1987 (30)]
MITalk
Allen, Hunnicut & Klatt (1979)
http://www.speech.kth.se/~sherihttp://www.ling.su.se/fon/phoneticians/Gubbar.html
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
La relación entre la lingüística y las
tecnologías del habla
• … sin embargo,
“in the last decades we have witnessed a decrease in theamount of phonetic knowldege used in ASR and TTS”(Strik 2005: 168)
“the linguistic approach soon lost terrain, in recognitionapplications at least, to (nonlinguistically oriented)engineers who were less concerned with formallinguistic insights, treating the signal as a pattern justlike any other, and this with outstanding success”(Barry et al. 2005: 1)
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Actor, Loquendohttp://tts.loquendo.com/ttsdemo/
Es, m, f
EsCh, f
EsMx, f
EsAr, m
Cat, f Cat, m
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Loquendo Gilded TTS
http://tts.loquendo.com/ttsdemo/
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Acapela Grouphttp://www.acapela-group.com/text-to-
speech-interactive-demo.html
Es, f
En, f
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Nuance Mobile Dictation“The amazing race”
http://www.youtube.com/watch?v=-L4Jk6GDud0
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
La relación entre la lingüística y las
tecnologías del habla
• División muy marcada entre la
comunidad investigadora dedicada a la
lingüística y la comunidad centrada en
las tecnologías del habla
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Los lingüistas en el mundo de las
tecnologías del habla
La relación entre la lingüística y lastecnologías del habla
La incorporación de conocimientoslingüísticos a las tecnologías del habla
Los obstáculos para la integración delconocimiento lingüístico en lastecnologías del habla
Algunas perspectivas de futuro
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
La incorporación de conocimientos
lingüísticos a las tecnologías del habla
• A pesar de la división entre comunidades y“culturas” existe un acuerdo sobre la necesidadde incorporar información lingüística a lastecnologías del habla
BARRY, W.J.- van DOMMELEN, W.A. (Eds.)(2005) The Integration of Phonetic Knowledge inSpeech Technology. Dordrecht: Springer (Text,
Speech and Language Technology, 25)
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
La incorporación de conocimientos
lingüísticos a las tecnologías del habla
La conversión de texto en habla
El reconocimiento automático
del habla
Los sistemas de diálogo
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
La incorporación de conocimientos
lingüísticos a las tecnologías del habla
La conversión de texto en habla
El reconocimiento automático
del habla
Los sistemas de diálogo
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Reglas para el procesamiento previo
del texto que contemplen la expansión
de los signos de puntuación sin valor
lingüístico, las expresiones numéricas,
las siglas y las abreviaturas
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Reglas para el procesamiento
morfológico y sintáctico en los
casos en que el conversor
contempla un análisis lingüístico
automático del texto de entrada o
supervisión manual del resultado
de un proceso de etiquetado
automático
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Reglas de transcripción fonética
automática, que establecen la
correspondencia entre grafías y
alófonos, la silabación y la
acentuación, complementadas
por diccionarios de
pronunciación para el
tratamiento de las excepciones
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Establecimiento del inventariode fonemas y alófonos de lalengua para la constitución deldiccionario de unidades desíntesis
Diseño del corpus de unidades desíntesis teniendo en cuenta lasrestricciones fonotácticas de lalengua y la frecuencia deaparición de unidades
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Modelos de duración segmental queconsideren los diversos factores queinfluyen en la duración y basados endatos procedentes de corpusrepresentativos.
Modelos de intensidad segmental que,igualmente, consideren los factores queinciden en la intensidad y se basen encorpus representativos.
Modelos de asignación de pausas quecontemplen tanto las marcadasmediante signos de puntuación comolas no marcadas y que establezcan,además, diferencias de duración entrelos distintos tipos de pausas.
Modelos de entonación que permitangenerar una curva melódica natural,teniendo en cuenta factores fonéticos,sintácticos, semánticos y pragmáticos
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Conversión de texto en habla
• Evaluación objetiva de los distintos módulosdel conversor, en un proceso iterativo quepermita la corrección de errores.
• Diseño de pruebas de evaluación subjetivatanto de la inteligibilidad como de lanaturalidad del resultado de la conversión detexto en habla.
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
La incorporación de conocimientos
lingüísticos a las tecnologías del habla
La conversión de texto en habla
El reconocimiento automático
del habla
Los sistemas de diálogo
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Diseño del corpus de
entrenamiento teniendo en cuenta
el inventario de unidades
previamente definido y las
restricciones sobre su aparición
Selección de la muestra de
población para la grabación del
corpus de entrenamiento,
considerando factores de variación
individual, geográfica , social y de
registro
Segmentación (o supervisión de
una segmentación
semiautomática) del corpus de
entrenamiento del reconocedor
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Definición del inventario de fonemas y
alófonos de la lengua para determinar
las unidades del sistema de
reconocimiento
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Realización o validación de los
diccionarios de pronunciación, que
incorporan las formas canónicas y las
variantes encontradas en el corpus
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
La incorporación de conocimientos
lingüísticos a las tecnologías del habla
La conversión de texto en habla
El reconocimiento automático
del habla
Los sistemas de diálogo
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Estudio de los fenómenos propiosdel habla espontánea paramodelarlos adecuadamente en elsistema de diálogo.
Análisis de la relación entre elnivel fonético y el nivelpragmático, especialmente en loque se refiere a lasmanifestaciones prosódicas de losactos que habla y a los correlatosacústicos de las emociones
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Diseño de estrategias de
acceso, de salida y de
confirmación adecuadas
desde el punto de vista
pragmático
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Sistemas de diálogo
• Transcripción, anotación y estudio de corpus
de interacciones naturales entre personas para
• definir el dominio del sistema
• diseñar posibles estrategias de gestión del
diálogo
• establecer los escenarios que se emplearán
en el corpus de entrenamiento
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
MACHUCA, M.J.- BUENO, L.- CALONGE, R.- ESTRUCH, M.- RIERA, M. (2000) Eines de
reconeixement i prototip de conversa oral, Jornades del Centre de Referència en Enginyeria
Lingüística (CREL), Institut d'Estudis Catalans, Barcelona, 4 i 5 d'abril de 2000.
<consulta de preus><trucada tallada><operadora><donar informació><línia>És R6<\línia>, el <bitllet>bitllet
senzill<\bitllet> són <preu><número>sis-centesnoranta<\número>pessetes<\preu><pausa>...<\donar informació>
<usuari dona><confirmació>Mhm<\confirmació>.<operadora><donar informació>I el <bitllet>bitllet anada i tornada<\bitllet>
<preu><número>mil vint-i-cinc<\número><\preu><\donar informació>.<usuari dona><confirmació><desviació lingüística>Vale<\desviació
lingüística><\confirmació>, gràcies, eh?<operadora>A vostè. <comiat>Adéu, bon dia <\comiat>.<usuari dona><comiat>Adéu <\comiat>.<\consulta de preus>
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Sistemas de diálogo
• Selección de la muestra de población para laobtención del corpus de entrenamiento,teniendo en cuenta factores de variaciónindividual, geográfica, social y de registro
• Transcripción, anotación y análisis de corpusde interacciones simuladas (obtenidas medianteel protocolo del Mago de Oz) para elentrenamiento del sistema
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
MACHUCA, M.J.- BUENO, L.- CALONGE, R.- ESTRUCH, M.- RIERA, M. (2000) Eines de
reconeixement i prototip de conversa oral, Jornades del Centre de Referència en Enginyeria
Lingüística (CREL), Institut d'Estudis Catalans, Barcelona, 4 i 5 d'abril de 2000.
[usuari home]<salutació>Bon dia</salutació>.
[oz]Quin tipus de consulta desitja realitzar?
[usuari home]<demanar informació>Vull conèixer ladurada del trajecte de <estaciód'origen>Gràcia</estació d'origen> a <estaciódestí>Les Planes</estació destí></demanarinformació>.
[oz]<confirmació explícita>M'està demanant informacióde durada d'un trajecte</confirmació explícita>?
[usuari home]<confirmació>Sí</confirmació>.
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Verificación del grado de
corrección y adecuación
lingüística del diálogo
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
La incorporación de conocimientos
lingüísticos a las tecnologías del habla
• Aunque se reconoce el papel del
lingüista..
“Speech technology can proudly point to its
apparent success with speech recognition
and concatenative synthesis in defense of
its machine-learning-centric approach…”
(Greenberg 2005: 111)
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Dragon Naturally Speakinghttp://www.nuance.com/talk/
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
TC-STAR
http://www.tc-star.org/
Technology and Corpora for Speech-to-
Speech Translation
• 2004-2006 IST-2002-2.3.1.6 Multimodal
interfaces
• Traducción de habla espontánea en
varios dominios
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
TC-STAR
http://www.tc-star.org/
Technology and Corpora for Speech-to-
Speech Translation
• 2004-2006 IST-2002-2.3.1.6 Multimodal
interfaces
• Traducción de habla espontánea en
varios dominios
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
TC-STARhttp://www.tc-star.org/Demo/demo_apr07_tcstar.zip
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
La incorporación de conocimientos
lingüísticos a las tecnologías del habla
… pero
“imperfect science is capable of providingan effective foundation for technology -
as long as the demands of themarket are not exceedinglystringent or profund” (Greenberg
2005: 111)
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Windows Vistahttp://www.youtube.com/watch?v=G-dYiTc88Pc
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Los lingüistas en el mundo de las
tecnologías del habla
La relación entre la lingüística y lastecnologías del habla
La incorporación de conocimientoslingüísticos a las tecnologías del habla
Los obstáculos para la integración delconocimiento lingüístico en lastecnologías del habla
Algunas perspectivas de futuro
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Los obstáculos para la integración del conocimiento
lingüístico en las tecnologías del habla
• Obstáculos derivados de la propia
naturaleza de la información
lingüística disponible
• Obstáculos que obedecen a las
distintas tradiciones académicas
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Los obstáculos para la integración del conocimiento
lingüístico en las tecnologías del habla
“phonetics does not provide ready-made
quantitative models that can be plugged
directly into a system” (Strik 2005: 177)
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Los obstáculos para la integración del conocimiento
lingüístico en las tecnologías del habla
• La información fonética sobre un
determinado fenómeno
• no es lo suficientemente detallada
• no está cuantificada
• no se expresa con el formalismo
adecuado para un entorno
computacional
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Los obstáculos para la integración del conocimiento
lingüístico en las tecnologías del habla
Barry et al. (2005: 10)
• Hacerse una idea de un fenómeno
• Obtener datos cuantitativos sobre el
fenómeno
• Presentar los datos en un formato que
permita incorporarlos a una aplicación
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Los obstáculos para la integración del conocimiento
lingüístico en las tecnologías del habla
• Datos de laboratorio
• Obtenidos mediante un diseño
experimental en que se establece un
control de las variables
• A menudo, en condiciones muy
distintas de aquellas en las que se
emplean las tecnologías del habla
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Los obstáculos para la integración del conocimiento
lingüístico en las tecnologías del habla
• Acceso a grandes corpus realistas
“The greater access phonetically trained
researchers have to the databases and tools
used in mainline techology applications, the
more likely is that quantitative answers to
phonetic questions can be presented in a way
which can be useful for speech technology
applications” (Barry et al. 2005: 11)
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Los obstáculos para la integración del conocimiento
lingüístico en las tecnologías del habla
• Proliferación de modelos
“There is too much emphasis on theoretical
concepts and on the discussion of which
one is better suited for the description of
a special language or of languages in
general" (Batliner y Möbius 2005: 25)
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Los obstáculos para la integración del conocimiento
lingüístico en las tecnologías del habla
• Niveles de abstracción quizás innecesarios yconocimiento de los hechos mediatizado por elmodelo
“Phonological systems like the ToBI approachonly introduce a quantisation error: the wholevariety of F0 values available in acoustics isreduced to a mere binary opposition L vs. H,and to some few additional, diacriticdistinctions” (Batliner y Möbius 2005: 26)
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Los obstáculos para la integración del conocimiento
lingüístico en las tecnologías del habla
• Falta de formación interdisciplinar de losfonetistas
“a successful phonetician working on a spokenlanguage system will need some knowledge ofcomputers, algorithms, statistics and signalprocessing […] Also desired is proficiency withcommon computing environments such asWindows, UNIX and Macintosh, text editors,and speech analysis packages” (Acero 1995:175)
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Los obstáculos para la integración del conocimiento
lingüístico en las tecnologías del habla
• Resultados de la separación entre las dos
“culturas”
“the phonetics community has not focused on
questions most relevant for speech technology
while the speech technology community has not
developed algorithms and data structures that
are optimally receptive for the incorporation of
phonetic knowledge” (van Santen 2005: 149)
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Los lingüistas en el mundo de las
tecnologías del habla
La relación entre la lingüística y lastecnologías del habla
La incorporación de conocimientoslingüísticos a las tecnologías del habla
Los obstáculos para la integración delconocimiento lingüístico en lastecnologías del habla
Algunas perspectivas de futuro
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Algunas perspectivas de futuro
“Over the coming decades this tension is
likely to dissolve into a collaborative
relationship melding linguistic knowledge
with machine-learning and statistical
methods as a means of developing mature
science and technology” (Greenberg
2005: 129)
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Algunas perspectivas de futuro
• La lingüística ha tenido y debe seguir teniendo un papelrelevante en las tecnologías del habla
• Existen obstáculos nada desdeñables, pero algunospueden superarse
• Apropiándose de nuevos enfoques y problemas
• Estableciendo mecanismos de interacción ycoordinación que favorezcan el conocimiento mutuoen foros conjuntos
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Algunas perspectivas de futurohttp://www.youtube.com/watch?v=YhWmzTjScfA
• Aplicar conocimientos lingüísticos permite desarrollartecnologías del habla útiles
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
XXIII Trobada Internacional de l’Associació de Joves Lingüistes
Universitat de Girona
27 de març de 2008
Materiales en Internet
http://liceu.uab.cat/~joaquim/
speech_technology/AJL_08/AJL_08.html
Top Related