Post on 21-Feb-2020
DESARROLLO DE UN SISTEMA
AVANZADO DE AYUDA A LA
COMUNICACIÓN ORAL PARA
PERSONAS SORDAS
AUTORA: Raquel Martín Maganto
TUTOR: Rubén San Segundo Hernández
UNIVERSIDAD POLITÉCNICA DE MADRID
DEPARTAMENTO DE INGENIERÍA ELECTRÓNICA
GRUPO DE TECNOLOGÍA DEL HABLA
Desarrollo de un Sistema Avanzado de Ayuda a la Comunicación Oral para Personas Sordas2
ÍNDICE
Objetivos Estado del Arte
Editor de signos
Sistema de traducción de Lengua de Signos Española (LSE) a voz en castellano
Sistema de traducción de voz en castellano a LSE
Evaluación de nuevas estrategias de traducción de voz en castellano a LSE basada en ejemplos
Conclusiones y líneas futuras
Marco del proyecto y difusión
Demos
Desarrollo de un Sistema Avanzado de Ayuda a la Comunicación Oral para Personas Sordas3
OBJETIVOS Desarrollo de un sistema software avanzado que facilite la comunicación
bidireccional, y en tiempo real, entre las personas sordas y oyentes en un
ámbito de aplicación concreto: un servicio de atención personal de la
Administración Pública
Dominios de aplicación: solicitud y renovación del DNI y carné de conducir
Nuevas estrategias de traducción castellano-LSE basada en ejemplos
Desarrollo de un Sistema Avanzado de Ayuda a la Comunicación Oral para Personas Sordas4
ÍNDICE
Objetivos
Estado del Arte
Editor de signos
Sistema de traducción de LSE a voz en castellano
Sistema de traducción de voz en castellano a LSE
Evaluación de nuevas estrategias de traducción de
voz en castellano a LSE basada en ejemplos
Conclusiones y líneas futuras
Marco del proyecto y difusión
Demos
Desarrollo de un Sistema Avanzado de Ayuda a la Comunicación Oral para Personas Sordas5
SISTEMAS DE TRADUCCIÓN BIDIRECCIONAL QUE INCLUYEN LS
Productos comerciales (emplean vídeos):
Paquetes de la compañía Aramedia. 10-40 $
“Signtel Interpreter Voice Recognition” de Signtel Inc. >5000$
“iCommunicator”: en educación, instituciones
gubernamentales y lugares públicos de EEUU y Canadá.
>250mil palabras en inglés y 9mil vídeos en ASL. 2500-6500$
Proyectos de investigación (agente animado 3D):
ESTADO DEL ARTE
HandTalkerII:
Reconocimiento y síntesis de la
LS China y oral. No traducción
750 frases, 5113 signos
VANESSA:
Comunicación con empleados del ayuntamiento
Interfaz básica: entrada en modo texto o
selección de frases frecuentes
100 frases. Fácilmente ampliable y extensible
Desarrollo de un Sistema Avanzado de Ayuda a la Comunicación Oral para Personas Sordas6
ÍNDICE
Objetivos
Estado del Arte
Editor de signos
Sistema de traducción de LSE a voz en castellano
Sistema de traducción de voz en castellano a LSE
Evaluación de nuevas estrategias de traducción de
voz en castellano a LSE basada en ejemplos
Conclusiones y líneas futuras
Marco del proyecto y difusión
Demos
Desarrollo de un Sistema Avanzado de Ayuda a la Comunicación Oral para Personas Sordas7
EDITOR DE SIGNOS: Codificación Creación de la base de datos de signos generando
el código SiGML para los avatares disponibles (eSIGN):
Sistemas de signo-escritura para definir el signo:
SEA (Sistema de Escritura Alfabética): diccionario normativo. Ej: s ymòazy-faho: “cualquiera”
HamNoSys (Notación de la Univ.de Hamburgo): Equivalente a SiGML. Ej: :
“persona”
SiGML (Signing Gesture Markup Language): basado en XML
Posibilidad de especificar gestos no manuales: de cara, cabeza y cuerpo
Cuadro de estado con los movimientos insertados
VGuido Visia ARPman
Desarrollo de un Sistema Avanzado de Ayuda a la Comunicación Oral para Personas Sordas8
EDITOR DE SIGNOS: Animaciones
Crear animaciones de los signos en formato GIF
Captura de las imágenes (en formato bitmap):
o pulsando la tecla de espacio
Generación del GIF:
Especificación de nombre y
ubicación
Creación del GIF: concatenación
de las imágenes por procesamiento
por lotes con el software MakeGIF1.6
(permite definir parámetros: tamaño, fondo,
velocidad de transición entre imágenes, etc)
Visualización automática del GIF generado
Desarrollo de un Sistema Avanzado de Ayuda a la Comunicación Oral para Personas Sordas9
ÍNDICE
Objetivos
Estado del Arte
Editor de signos
Sistema de traducción de LSE a voz en castellano
Sistema de traducción de voz en castellano a LSE
Evaluación de nuevas estrategias de traducción de voz en castellano a LSE basada en ejemplos
Conclusiones y líneas futuras
Marco del proyecto y difusión
Demos
Desarrollo de un Sistema Avanzado de Ayuda a la Comunicación Oral para Personas Sordas10
SISTEMA DE TRADUCCIÓN LSE-VOZ EN CASTELLANO
Solución ideal: Reconocimiento automático de vídeo (no disponible)
Alternativa: aplicación basada en signo-escritura (glosas) con gran componente visual (mayor facilidad)
Arquitectura del sistema:
Dominio: solicitud y renovación del DNI y del permiso de conducir
Desarrollo de un Sistema Avanzado de Ayuda a la Comunicación Oral para Personas Sordas11
SISTEMA DE TRADUCCIÓN LSE-VOZEN CASTELLANO: Interfaz y Utilidades (I)
Interfaz sencilla, se potencia la componente visual
Búsqueda, borrado, deletreo, listado de glosas
por inicial y sugerencia de signo siguiente
Inserción de fecha y hora
Avatar VGuido para signar
Presentación de la secuencia de glosas
seleccionada y de la frase traducida (castellano)
Sintetizador de voz
Inserción de la frase en lenguaje SMS
Lenguaje cada vez más extendido Conversión SMS – castellano – voz
Desarrollo de un Sistema Avanzado de Ayuda a la Comunicación Oral para Personas Sordas12
SISTEMA DE TRADUCCIÓN LSE-VOZEN CASTELLANO: Utilidades (II)
Frases frecuentes:
Saludos, afirmaciones, negaciones, fórmulas decortesía
Mostradas alfabéticamente como secuencia deglosas y con animaciones sobre botones
Se animan al pasar el ratón sobre los botones
Generación automática de animaciones en
formato GIF
Proceso: captura imagen original Si no hay
código SiGML deletrea el signo va reproduciendo la secuencia y
generando los bitmaps crea el GIF inclusión como frase habitual
Desarrollo de un Sistema Avanzado de Ayuda a la Comunicación Oral para Personas Sordas13
SISTEMA DE TRADUCCIÓN LSE-VOZEN CASTELLANO: Módulo de Traducción
GLOSAS-CASTELLANO:
Combinación de estrategias
Sistema de decisión basadoen umbrales:
prioridad: ejemplos reglas estadística
SMS – CASTELLANO: Traducción estadística basada en subfrases
Desarrollo de un Sistema Avanzado de Ayuda a la Comunicación Oral para Personas Sordas14
ÍNDICE
Objetivos
Estado del Arte
Editor de signos
Sistema de traducción de LSE a voz en castellano
Sistema de traducción de voz en castellano a LSE
Evaluación de nuevas estrategias de traducción de voz en castellano a LSE basada en ejemplos
Conclusiones y líneas futuras
Marco del proyecto y difusión
Demos
Desarrollo de un Sistema Avanzado de Ayuda a la Comunicación Oral para Personas Sordas15
SISTEMA DE TRADUCCIÓN VOZ EN CASTELLANO-LSE
Arquitectura básica:
Módulo de traducción: análogo a la conversión glosas-castellano. Sólo
traducción basada en ejemplos y estadística por FSTs
Dominio: solicitud y renovación del DNI y del permiso de conducir
Desarrollo de un Sistema Avanzado de Ayuda a la Comunicación Oral para Personas Sordas16
SISTEMA DE TRADUCCIÓN VOZ EN
CASTELLANO-LSE: Interfaz usuario y utilidades
UTILIDADES:
Calibración nivel de ruido
Indicador de confianza
Modos de funcionamiento:
RAH-traducción-signado
Texto-traducción-signado
Presentación escrita de la:
frase introducida
secuencia de glosas traducida
Uso “a ciegas” y realimentación
(por voz) para la persona oyente
INTERFAZ: gran espacio para el avatar VGuido (del proyecto eSIGN)
Desarrollo de un Sistema Avanzado de Ayuda a la Comunicación Oral para Personas Sordas17
ÍNDICE
Objetivos
Estado del Arte
Editor de signos
Sistema de traducción de LSE a voz en castellano
Sistema de traducción de voz en castellano a LSE
Evaluación de nuevas estrategias de
traducción de voz en castellano a LSE
basada en ejemplos
Conclusiones y líneas futuras
Marco del proyecto y difusión
Demos
Desarrollo de un Sistema Avanzado de Ayuda a la Comunicación Oral para Personas Sordas18
TRADUCCIÓN BASADA EN EJEMPLOS:Concepto
Determinación del ejemplo en la lengua origen más parecido de los
contenidos en un corpus bilingüe en base a una distancia
Distancia de Levenshtein o Edición:
métrica para la analogía entre frases:
nº mínimo de operaciones (inserción, borrado,
sustitución) para transformar una frase en otra
Algoritmo Wagner-Fisher
Salida: la traducción del ejemplo más parecido
Corpus bilingüe: frases en lengua origen y destino alineadas.
Fuerte dependencia extensos
Categorización: sustitución de las palabras conceptualmente análogas
por etiquetas. Ej: Enero, febrero, etc $MES
Desarrollo de un Sistema Avanzado de Ayuda a la Comunicación Oral para Personas Sordas19
TRADUCCIÓN BASADA EN EJEMPLOS:Nuevas estrategias
NUEVAS ESTRATEGIAS PARA MEJORAR LA DISTANCIA:
Se basan en incorporar información procedente de:
Traducción estadística: vectores de probabilidades de traducción
de las palabras por signos concretos
Ej: Palabra renovar Signos: RENOVAR (0,94), NULL (0,04), DNI (0,02)
Reconocimiento automático de habla: fiabilidad del proceso (confianza)
Desarrollo de un Sistema Avanzado de Ayuda a la Comunicación Oral para Personas Sordas20
TRADUCCIÓN BASADA EN EJEMPLOS:Evaluación
1425 frases pronunciadas por 3 locutores: 475 ejemplos corpus DNI x 3
Tasas (WER) de RAH (dos configuraciones): 13,34% y 7,77%
MÉTRICAS DE EVALUACIÓN
SER (Sign Error Rate):
tasa de error de signos
BLEU: precisión en n-gramas entre la traducción del sistema y la referencia.
Correlación con evaluación subjetiva
NIST: Similar a BLEU pero con media aritmética y precisión de un único n-grama
BANDAS DE FIABILIDAD de resultados, con 95% de nivel de confianza
L(ref)
nesSustituciosInsercioneBorradosSER(%)
Desarrollo de un Sistema Avanzado de Ayuda a la Comunicación Oral para Personas Sordas21
TRADUCCIÓN BASADA EN EJEMPLOS:Resultados. Análisis
Causas de error:
Errores en RAH incorregibles en traducción (lunes vs martes) Solución: Mejorar el RAH
Coge el primer ejemplo de menor distancia, no el mejor Solución: otros algoritmos
Imprecisión de los datos utilizados Solución: evaluar con datos mejorados. Ej. entrenar los
sistemas estadísticos con frases reconocidas en lugar de correctas
Mantener las categorías “basura” dota de coincidencias no reales Solución: minimizar
su uso
Eliminarlas deja frases no significativas para comparar Solución: quitar las de palabras
no relevantes, ej: el, son, ...
Errores de la evaluación objetiva que no impedirían una perfecta comprensión. Ej: gorra
por gorro, foto-fotos, ...
Mejoras estadísticamente
significativas con información
de traducción en la distancia
para WER de RAH baja
Desarrollo de un Sistema Avanzado de Ayuda a la Comunicación Oral para Personas Sordas22
ÍNDICE
Objetivos
Estado del Arte
Editor de signos
Sistema de traducción de LSE a voz en castellano
Sistema de traducción de voz en castellano a LSE
Evaluación de nuevas estrategias de traducción de
voz en castellano a LSE basada en ejemplos
Conclusiones y líneas futuras
Marco del proyecto y difusión
Demos
Desarrollo de un Sistema Avanzado de Ayuda a la Comunicación Oral para Personas Sordas23
CONCLUSIONES
Editor de signos, sistema de traducción de voz a LSE y de LSE a voz
Interfaz: importante componente visual, imágenes, GIFs, …
Funcionalidades: generación animaciones, lenguaje SMS, …
Traducción: combinaciones de estrategias
Dominios de aplicación: DNI y DGT
Experimentación estrategias de traducción basada en ejemplos
Mejor SER al incorporar información de traducción estadística en la distancia
(sólo para WER de RAH bajas) SER = 2,57 %
Resultados formativos:
Técnicas de programación (C, aplicaciones Windows, ...), software para crear
animaciones, estrategias de traducción, ...
Desarrollo de un Sistema Avanzado de Ayuda a la Comunicación Oral para Personas Sordas24
LÍNEAS FUTURAS
Nueva evaluación por parte de usuarios finales: personas sordas y funcionarios
Adaptación a otros dominios de aplicación
Nuevas formas de generar animaciones. Ej: por temporización
Ajuste de las confianzas de traducción. Ej: ponderar con la distancia o
las tasas
Evaluación de:
Nuevos costes de inserción y corrección que incluyan información de traducción o RAH
Nuevas estrategias de traducción y sus combinaciones y, mejora de las mismas en ambos sentidos: LSE-voz y voz-LSE.
Desarrollo de un Sistema Avanzado de Ayuda a la Comunicación Oral para Personas Sordas25
ÍNDICE
Objetivos
Estado del Arte
Editor de signos
Sistema de traducción de LSE a voz en castellano
Sistema de traducción de voz en castellano a LSE
Evaluación de nuevas estrategias de traducción de
voz en castellano a LSE basada en ejemplos
Conclusiones y líneas futuras
Marco del proyecto y difusión
Demos
Desarrollo de un Sistema Avanzado de Ayuda a la Comunicación Oral para Personas Sordas26
MARCO DEL PROYECTOwww.traduccionvozlse.es
Desarrollo de un Sistema Avanzado de Ayuda a la Comunicación Oral para Personas Sordas27
DIFUSIÓN DE RESULTADOS
5 publicaciones internacionales
5 publicaciones nacionales
3 ponencias en cursos de máster
Desarrollo de un Sistema Avanzado de Ayuda a la Comunicación Oral para Personas Sordas28
DEMOS
SISTEMA DE TRADUCCIÓN LSE-VOZ
SISTEMA DE TRADUCCIÓN VOZ-LSE
Desarrollo de un Sistema Avanzado de Ayuda a la Comunicación Oral para Personas Sordas29
GRACIAS
raquel.mmaganto@gmail.com