Traducción automática de código abierto: una oportunidad para lenguas menores
2012 Traducción Automática para LSPs
-
Upload
tauyou -
Category
Technology
-
view
70 -
download
3
description
Transcript of 2012 Traducción Automática para LSPs
![Page 1: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/1.jpg)
© 2012 #1
traducción automática
para LSPs
Diego Bartolomé, CEO
![Page 2: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/2.jpg)
© 2012 #2
presentaciones
![Page 3: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/3.jpg)
© 2012 #3
¿dónde estamos?
1954 machine translation movie
![Page 4: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/4.jpg)
© 2012 #4
¡nunca!
no funciona para lo que hacemos
salen errores muy graves
se equivoca en cosas muy sencillas
pierdo más tiempo que empezando de cero
la calidad final siempre será peor
nos va a quitar el trabajo
...
![Page 5: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/5.jpg)
© 2012 #5
... pero ...
los precios van a la baja
los deadlines son cada vez más ajustados
la competencia es cada vez más dura
hay diferentes niveles de calidad tolerados
cada vez con más contenido para traducir
y en más idiomas
a veces, es necesario traducir en tiempo real
![Page 6: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/6.jpg)
© 2012 #6
![Page 7: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/7.jpg)
© 2012 #7
![Page 8: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/8.jpg)
© 2012 #8
le podemos dar una oportunidad
incrementa la productividad
nos elimina ciertas tareas repetitivas
mejora con el tiempo
reduce los costes
permite acceder a nuevos clientes
proporciona nuevos modelos de negocio
no sirve para todo
![Page 9: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/9.jpg)
© 2012 #9
Gartner hype cycle
![Page 10: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/10.jpg)
© 2012 #10
en los 80/90
3 sistemas principales: Systran, Logos, Metal
interés renovado por 3 motivos principales
aumento de la capacidad computacional
reducción del coste de hardware y software
aparición de los modelos estadísticos (IBM)
métodos basados en ejemplos
principalmente en Japón
proyecto de S2S: Verbmobil
![Page 11: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/11.jpg)
© 2012 #11
boom actual
plena efervescencia de sistemas
reglas
basados en ejemplos
estadísticos
basados en contexto
alternativas: crowdsourcing
importantes compañías involucradas
IBM, SAP, Google, Microsoft ...
![Page 12: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/12.jpg)
© 2012 #12
![Page 13: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/13.jpg)
© 2012 #13
modelo SMT
![Page 14: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/14.jpg)
© 2012 #14
sobre la SMT
ventajas
rapidez de desarrollo de idiomas y dominios
superioridad en aplicaciones acotadas
alto volumen de texto multilingüe disponible
no necesita intervención lingüística
inconvenientes
metodología estadística
cómo particularizar
![Page 15: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/15.jpg)
© 2012 #15
productividad en Autodesk
![Page 16: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/16.jpg)
© 2012 #16
productividad según longitud
![Page 17: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/17.jpg)
© 2012 #17
¿qué tenemos en tauyou?
demo ttext
![Page 18: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/18.jpg)
© 2012 #18
características<idiomas _ dominios _ palabras traducidas>
ilimitadas
<glosarios>
traducciones y palabras prohibidas
<formatos de ficheros>
tmx, ttx, xliff, Déjà Vu, doc, docx, ppt, pptx,
xls, xlsx, xml, html, rtf, InDesign, ...
<y mucho más>
aprendizaje
dinos lo que necesitas y lo hacemos
![Page 19: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/19.jpg)
© 2012 #19
creación de dominio
<LSP> <tauyou>
memorias de traducción corpus open-source
documentos previos alineación documentación
webs de clientes información pública
reglas programación de reglas
otros datos extracción de terminología
<algunas cuestiones>
mínimo número de palabras
necesidad de clasificación de datos
pares de idiomas
![Page 20: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/20.jpg)
© 2012 #20
y más
<selección y limpieza de datos>
tablas de traducción y modelos de lenguaje
datos y parámetros para ajuste fino
medidas de test
<creación de motores>
varios + purga
<validación>
por traductores profesionales
<mejora continua>
nuevos ficheros, corpus, reglas, etc...
![Page 21: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/21.jpg)
© 2012 #21
el proceso de producción (I)
decodificación SMT
conversiónformato
segmentartexto
tareasNLP
tokenizarreescribirorigen
minúsculas
![Page 22: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/22.jpg)
© 2012 #22
el proceso de producción (II)
decodificación SMT
fichero traducido
reformatear detokenizar
reescribir destino
mayúsculasevaluación
![Page 23: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/23.jpg)
© 2012 #23
minimización del riesgo
<tauyou>cálculo medidas calidad
<LSP>análisis de coste y tiempo
<LSP> + <tauyou>medir la evolución
![Page 24: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/24.jpg)
© 2012 #24
Niveles de calidad
Nivel Traducción Contenido Calidad
1111 HumanaHumanaHumanaHumana Marketing, traducciones con Marketing, traducciones con Marketing, traducciones con Marketing, traducciones con
certificcicertificcicertificcicertificcióóóón, documentacin, documentacin, documentacin, documentacióóóón n n n
ttttéééécnica muy especializada cnica muy especializada cnica muy especializada cnica muy especializada
para uso externo, webs de para uso externo, webs de para uso externo, webs de para uso externo, webs de
mucho trmucho trmucho trmucho trááááficoficoficofico
AltaAltaAltaAlta
2222 MT posteditadaMT posteditadaMT posteditadaMT posteditada DocumentaciDocumentaciDocumentaciDocumentacióóóón e uso interno, n e uso interno, n e uso interno, n e uso interno,
ppppááááginas web de trginas web de trginas web de trginas web de trááááfico mediofico mediofico mediofico medio
MediaMediaMediaMedia
3333 MT +terminologMT +terminologMT +terminologMT +terminologíííía, a, a, a,
TM y/o diccionariosTM y/o diccionariosTM y/o diccionariosTM y/o diccionarios
InformaciInformaciInformaciInformacióóóón bn bn bn báááásica, conocer el sica, conocer el sica, conocer el sica, conocer el
contenido del textocontenido del textocontenido del textocontenido del texto
Debajo de la Debajo de la Debajo de la Debajo de la
mediamediamediamedia
4444 MT en brutoMT en brutoMT en brutoMT en bruto Medios sociales/digitales, Medios sociales/digitales, Medios sociales/digitales, Medios sociales/digitales,
informaciinformaciinformaciinformacióóóón para clienten para clienten para clienten para cliente
PobrePobrePobrePobre
![Page 25: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/25.jpg)
© 2012 #25
postedición suficientemente buena
Se intenta obtener una traducción correcta desde el punto de vista semántico.
Se asegura que no se haya añadido ni omitido ninguna información accidentalmente.
Se modifica todo contenido ofensivo, inadecuado o no aceptable culturalmente.
Se utiliza tanto como sea posible del resultado “en bruto” de la traducción automática.
Se aplican las reglas básicas con respecto a la ortografía.
No hay que implementar correcciones de naturaleza estilística.
No hay que reestructurar oraciones solo para mejorar el flujo natural del texto.
![Page 26: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/26.jpg)
© 2012 #26
postedición de calidad
Se intenta obtener una traducción correcta desde el punto de vista gramatical, sintáctico y semántico.
Se asegura que la terminología clave esté correctamente traducida y que los términos no traducidos sean los que aparecen en la lista de “Términos que no se deben traducir“ del cliente.
Se asegura que no se haya añadido ni omitido ninguna información.
Se modifica todo contenido ofensivo, inadecuado o no aceptable culturalmente.
Se utiliza tanto como sea posible del resultado “en bruto” de la traducción automática.
Se aplican reglas básicas con respecto a la ortografía, puntuación y guiones.
Se asegura que el formato sea el correcto.
![Page 27: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/27.jpg)
© 2012 #27
casos habituales
![Page 28: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/28.jpg)
© 2012 #28
datos 1
<gran volumen de datos heterogéneos>
entrenamiento con todo
clasificación semántica por dominios
ajuste fino para cada cliente
priorización por glosarios
aprendizaje continuo
![Page 29: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/29.jpg)
© 2012 #29
datos 2
<datos escasos>
añadir diccionarios al corpus
completar con segmentos complementarios
combinar datos del cliente con texto genérico
adaptación a dominio en base a genérico
aumentar el número de frases con reglas
![Page 30: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/30.jpg)
© 2012 #30
datos 3
<datos sucios>
eliminar traducciones múltiples
detectar texto en otros idiomas
corregir ortografía
seleccionar frases con gramática correcta
alineación con terminología del cliente
filtrar otros segmentos indeseados
![Page 31: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/31.jpg)
© 2012 #31
datos 4
<creación y mejora de datos>
cliente final definido
documentos traducidos sin alinear
traducciones genéricas
creacion del corpus/memorias óptimas
extensión y filtrado basado en reglas
![Page 32: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/32.jpg)
© 2012 #32
cuestiones lingüísticas 1
<palabras no traducidas>
creación de diccionarios
<errores gramaticales>
reglas de post-proceso
<filtrado de calidad>
eliminar aquellas que no cumplan requisitos
![Page 33: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/33.jpg)
© 2012 #33
cuestiones lingüísticas 2
<limpieza del texto original>
ortografía y gramática
simplificación de frases
homogeneización terminológica
<detección de palabras especiales>
personas, lugares, organizaciones
códigos alfanuméricos
![Page 34: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/34.jpg)
© 2012 #34
caso de uso ...<volumen recurrentes>
traducciones frecuencues
clientes de diferentes dominios
<flujo>
conseguir cuanto más datos mejor
recibir un nuevo fichero para traducir
crear un dominio ad-hoc para ese fichero
entrenar la solución y reglas básicas
<salida>
adaptación óptima en alrededor 4 horas
![Page 35: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/35.jpg)
© 2012 #35
algunos consejos
clientes más grandes
idiomas
con volúmenes más altos
con estructura similar
con necesidades o terminología específica
involucrar a traductores innovadores
empezar ... probar
![Page 36: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/36.jpg)
© 2012 #36
otras soluciones<author>
mejorar la calidad del texto original
coherencia y simplificación
ortografía, gramática, semántica
<web>
traducción de páginas web
MT + postedición automática
<API>
integración en otras aplicaciones
posibilidad de tiempo real
![Page 37: 2012 Traducción Automática para LSPs](https://reader033.fdocumento.com/reader033/viewer/2022052321/555928ded8b42a543d8b457d/html5/thumbnails/37.jpg)
© 2012 #37
¡Gracias!
// Diego Bartolomé, PhD
<dirección> C/ Les Planes 39 – 08201 Sabadell
<teléfono> +34 93 711 29 96
<móvil> +34 670 331 225
<email> [email protected]
<www> tauyou.com