Hacia la gestión automática de contenidos multilingües en XLIFF
description
Transcript of Hacia la gestión automática de contenidos multilingües en XLIFF
DELi (UD) + Code&Syntax Albacete 2002, CLIP 1
Hacia la gestión automática de contenidos multilingües en XLIFF
• Objetivos– gestión de contenidos multilingües para publicación en
web– reutilización de traducciones (memorias de traducción)– creación de fondos: terminología, texto alineado– herramientas: segmentadores, alineadores, filtros– filtros: formatos TXT, HTML, XML, TMX, XLIFF– control de flujo: redacción, traducción, publicación
DELi (UD) + Code&Syntax Albacete 2002, CLIP 2
X-Flow: Antecedentes– Corpus LEGE-Bi (1995-2002)
• Boletines bilingües (~3 M. palabras, proyectos LEGEBiDUNA)
– Proyecto XTRA-Bi (2000-2001)• Segmentación y etiquetado de boletines• SGML XML, TMX
– Proyecto XML-Bi (2001-2002)• Recursos (LEGE-Bi+, servidor SARE-Bi, herramientas)• Procedimientos (EFQM)
– Proyecto X-Flow (2002-2003)
DELi (UD) + Code&Syntax Albacete 2002, CLIP 3
XTRA-Bi: Extracción automática de entidades bitextuales para software
de traducción asistida
• Compilación de corpus (extracción)• Herramientas de captura de webs (Teleport Pro,
HTTrack)
• Boletines Oficiales (BOG, BOB, BOTHA, BON, BOPV)
• Prensa diaria bilingüe
DELi (UD) + Code&Syntax Albacete 2002, CLIP 4
XTRA-Bi: Extracción automática de entidades bitextuales para software
de traducción asistida• Segmentación en TEI/XML
• Disparidad de formatos originales (Word, PDF, HTML, TXT)
• Filtros y segmentadores (ad-hoc y generales)
• Conversión a XML/TEI P4: subset propio de TEI (TEI-Bi)
DELi (UD) + Code&Syntax Albacete 2002, CLIP 5
XTRA-Bi: Extracción automática de entidades bitextuales para software
de traducción asistida
• Alineación y reordenación en TMX• Párrafo como unidad de segmentación• Índice de alineación automática: 99%• Posibilidad de alineación de unidades menores
(oraciones y nombres propios) con menor fiabilidad• Conversión a TMX (Transit, WordFast, Déjà-Vu,
etc.)
DELi (UD) + Code&Syntax Albacete 2002, CLIP 6
Ejemplo de formato TMX:
<tu tuid="0100227-p11”> <prop type="project">XTRA-Bi: GAO-BOG</prop>
<tuv lang="ES”> <seg>Asimismo, se hace saber que este acuerdo pone fin a la vía administrativa... </seg></tuv>
<tuv lang="EU"> <seg>Era berean, erabaki hau behin betikoa da eta amaiera ematen dio administrazio bideari... </seg></tuv>
</tu>
DELi (UD) + Code&Syntax Albacete 2002, CLIP 7
ETIBOG
BOG2TEI
HTML2TEI
ALINBOG ALINBOTHA
BOG(html)
ETIBOTHA
BOTHA2TEI
TXT2TEI
BOTHA(txt)
BOG(tei)
BOTHA(tei)
ALINTEI
ALINPAR
ALINLIST
PAREJAS.TXT
ALARMAS.TXT ALINPAREJAS.TXT
TMXTEI
TEI2TMX
TMX
DELi (UD) + Code&Syntax Albacete 2002, CLIP 8
XML-Bi: Análisis del flujo documental multilingüe
• diseño de procedimientos de optimización de flujo documental para subsanar desfases en la traducción y publicación plurilingüe
• distintas fases del ciclo de vida de la documentación, desde concepción inicial hasta la distribución, pasando por la redacción, corrección, traducción, revisión, publicación, archivación, recuperación, extracción y reutilización
• estudio de campo: Universidad de Deusto
DELi (UD) + Code&Syntax Albacete 2002, CLIP 9
XML-Bi: Análisis del flujo documental multilingüe
• Desarrollos:
– Estudio de campo (corpus UD-Bi)– Procedimientos operativos EFQM– Compilación e instalación de corpus LEGE-Bi en
intranet (SARE-Bi)– Diseño y adaptación de segmentadores para corpus en
formato TEI/XML y de filtros para conversión a TMX– Integración en plataforma web:
www.deli.deusto.es/SareBi
DELi (UD) + Code&Syntax Albacete 2002, CLIP 10
SARE-Bi: Gestor de documentación multilingüe sobre XML/TEI
• Opciones para el servidor / gestor de corpus:– TEI/XML + XSLT + JavaScript– XML Query Engine, SQL, etc.– XML=Web, web-servers:
• Microsoft .Net• WebSphere• ZOPE:
– Open Source (www.zope.org)– Code&Syntax (www.codesyntax.com)– Localizer (www.j-david.net/localizer/)
DELi (UD) + Code&Syntax Albacete 2002, CLIP 11
LEGE-Bi <teiHeader>, <front>
• <teiHeader> <fileDesc>
<encodingDesc> <classDecl> <taxonomy>...</taxonomy>
• <text> <front>
<DocDate>...</DocDate> <DocAuthor>...</DocAuthor> <head type="place">...</head> <head type"DepSup">...</head> <head type"DepInf">...</head>
DELi (UD) + Code&Syntax Albacete 2002, CLIP 12
X-Flow: Gestor de contenidos multilingüe sobre XLIFF
• Objetivos– seleccionar y organizar utilidades informáticas de apoyo a la
importación y exportación de contenidos multilingües y de memorias de traducción (sobre los estándar TMX y TBX)
– desarrollar un sistema de control de flujo de textos y traducciones basado en los estándar TMX y XLIFF
– proporcionar herramientas para el mantenimiento actualizado de contenidos multilingües adaptadas a estos formatos.
DELi (UD) + Code&Syntax Albacete 2002, CLIP 13
¿Qué es XLIFF?
• XML Localisation Interchange File Format:• Formato para intercambio de archivos de localización. • Su definición comenzó a finales de 2000 (de la mano de
Oracle, Novell, Sun y IBM/Lotus).• Basado en Open Tag, parecido a TMX con innovaciones
para el intercambio de información en web. • Primer borrador de mayo de 2001, última
especificación de abril de 2002. • Se anuncia como una nueva especificación XML para
intercambio de datos para web multilingües.
DELi (UD) + Code&Syntax Albacete 2002, CLIP 14
Referencias
• TEI: http://www.tei-c.org• TMX: http://www.lisa.org/tmx• Transit: http://www.star-ag.ch/• XLIFF:
http://www.opentag.com/xliff.htm• DELi: http://www.deli.deusto.es