Hacia la gestión automática de contenidos multilingües en XLIFF

14
DELi (UD) + Code&Syntax Albacete 2002, CLIP 1 Hacia la gestión automática de contenidos multilingües en XLIFF • Objetivos gestión de contenidos multilingües para publicación en web reutilización de traducciones (memorias de traducción) creación de fondos: terminología, texto alineado herramientas: segmentadores, alineadores, filtros filtros: formatos TXT, HTML, XML, TMX, XLIFF control de flujo: redacción, traducción, publicación

description

Hacia la gestión automática de contenidos multilingües en XLIFF. Objetivos gestión de contenidos multilingües para publicación en web reutilización de traducciones (memorias de traducción) creación de fondos: terminología, texto alineado herramientas: segmentadores, alineadores, filtros - PowerPoint PPT Presentation

Transcript of Hacia la gestión automática de contenidos multilingües en XLIFF

Page 1: Hacia la gestión automática de contenidos multilingües en XLIFF

DELi (UD) + Code&Syntax Albacete 2002, CLIP 1

Hacia la gestión automática de contenidos multilingües en XLIFF

• Objetivos– gestión de contenidos multilingües para publicación en

web– reutilización de traducciones (memorias de traducción)– creación de fondos: terminología, texto alineado– herramientas: segmentadores, alineadores, filtros– filtros: formatos TXT, HTML, XML, TMX, XLIFF– control de flujo: redacción, traducción, publicación

Page 2: Hacia la gestión automática de contenidos multilingües en XLIFF

DELi (UD) + Code&Syntax Albacete 2002, CLIP 2

X-Flow: Antecedentes– Corpus LEGE-Bi (1995-2002)

• Boletines bilingües (~3 M. palabras, proyectos LEGEBiDUNA)

– Proyecto XTRA-Bi (2000-2001)• Segmentación y etiquetado de boletines• SGML XML, TMX

– Proyecto XML-Bi (2001-2002)• Recursos (LEGE-Bi+, servidor SARE-Bi, herramientas)• Procedimientos (EFQM)

– Proyecto X-Flow (2002-2003)

Page 3: Hacia la gestión automática de contenidos multilingües en XLIFF

DELi (UD) + Code&Syntax Albacete 2002, CLIP 3

XTRA-Bi: Extracción automática de entidades bitextuales para software

de traducción asistida

• Compilación de corpus (extracción)• Herramientas de captura de webs (Teleport Pro,

HTTrack)

• Boletines Oficiales (BOG, BOB, BOTHA, BON, BOPV)

• Prensa diaria bilingüe

Page 4: Hacia la gestión automática de contenidos multilingües en XLIFF

DELi (UD) + Code&Syntax Albacete 2002, CLIP 4

XTRA-Bi: Extracción automática de entidades bitextuales para software

de traducción asistida• Segmentación en TEI/XML

• Disparidad de formatos originales (Word, PDF, HTML, TXT)

• Filtros y segmentadores (ad-hoc y generales)

• Conversión a XML/TEI P4: subset propio de TEI (TEI-Bi)

Page 5: Hacia la gestión automática de contenidos multilingües en XLIFF

DELi (UD) + Code&Syntax Albacete 2002, CLIP 5

XTRA-Bi: Extracción automática de entidades bitextuales para software

de traducción asistida

• Alineación y reordenación en TMX• Párrafo como unidad de segmentación• Índice de alineación automática: 99%• Posibilidad de alineación de unidades menores

(oraciones y nombres propios) con menor fiabilidad• Conversión a TMX (Transit, WordFast, Déjà-Vu,

etc.)

Page 6: Hacia la gestión automática de contenidos multilingües en XLIFF

DELi (UD) + Code&Syntax Albacete 2002, CLIP 6

Ejemplo de formato TMX:

<tu tuid="0100227-p11”> <prop type="project">XTRA-Bi: GAO-BOG</prop>

<tuv lang="ES”> <seg>Asimismo, se hace saber que este acuerdo pone fin a la vía administrativa... </seg></tuv>

<tuv lang="EU"> <seg>Era berean, erabaki hau behin betikoa da eta amaiera ematen dio administrazio bideari... </seg></tuv>

</tu>

Page 7: Hacia la gestión automática de contenidos multilingües en XLIFF

DELi (UD) + Code&Syntax Albacete 2002, CLIP 7

ETIBOG

BOG2TEI

HTML2TEI

ALINBOG ALINBOTHA

BOG(html)

ETIBOTHA

BOTHA2TEI

TXT2TEI

BOTHA(txt)

BOG(tei)

BOTHA(tei)

ALINTEI

ALINPAR

ALINLIST

PAREJAS.TXT

ALARMAS.TXT ALINPAREJAS.TXT

TMXTEI

TEI2TMX

TMX

Page 8: Hacia la gestión automática de contenidos multilingües en XLIFF

DELi (UD) + Code&Syntax Albacete 2002, CLIP 8

XML-Bi: Análisis del flujo documental multilingüe

• diseño de procedimientos de optimización de flujo documental para subsanar desfases en la traducción y publicación plurilingüe

• distintas fases del ciclo de vida de la documentación, desde concepción inicial hasta la distribución, pasando por la redacción, corrección, traducción, revisión, publicación, archivación, recuperación, extracción y reutilización

• estudio de campo: Universidad de Deusto

Page 9: Hacia la gestión automática de contenidos multilingües en XLIFF

DELi (UD) + Code&Syntax Albacete 2002, CLIP 9

XML-Bi: Análisis del flujo documental multilingüe

• Desarrollos:

– Estudio de campo (corpus UD-Bi)– Procedimientos operativos EFQM– Compilación e instalación de corpus LEGE-Bi en

intranet (SARE-Bi)– Diseño y adaptación de segmentadores para corpus en

formato TEI/XML y de filtros para conversión a TMX– Integración en plataforma web:

www.deli.deusto.es/SareBi

Page 10: Hacia la gestión automática de contenidos multilingües en XLIFF

DELi (UD) + Code&Syntax Albacete 2002, CLIP 10

SARE-Bi: Gestor de documentación multilingüe sobre XML/TEI

• Opciones para el servidor / gestor de corpus:– TEI/XML + XSLT + JavaScript– XML Query Engine, SQL, etc.– XML=Web, web-servers:

• Microsoft .Net• WebSphere• ZOPE:

– Open Source (www.zope.org)– Code&Syntax (www.codesyntax.com)– Localizer (www.j-david.net/localizer/)

Page 11: Hacia la gestión automática de contenidos multilingües en XLIFF

DELi (UD) + Code&Syntax Albacete 2002, CLIP 11

LEGE-Bi <teiHeader>, <front>

• <teiHeader> <fileDesc>

<encodingDesc> <classDecl> <taxonomy>...</taxonomy>

• <text> <front>

<DocDate>...</DocDate> <DocAuthor>...</DocAuthor> <head type="place">...</head> <head type"DepSup">...</head> <head type"DepInf">...</head>

Page 12: Hacia la gestión automática de contenidos multilingües en XLIFF

DELi (UD) + Code&Syntax Albacete 2002, CLIP 12

X-Flow: Gestor de contenidos multilingüe sobre XLIFF

• Objetivos– seleccionar y organizar utilidades informáticas de apoyo a la

importación y exportación de contenidos multilingües y de memorias de traducción (sobre los estándar TMX y TBX)

– desarrollar un sistema de control de flujo de textos y traducciones basado en los estándar TMX y XLIFF

– proporcionar herramientas para el mantenimiento actualizado de contenidos multilingües adaptadas a estos formatos.

Page 13: Hacia la gestión automática de contenidos multilingües en XLIFF

DELi (UD) + Code&Syntax Albacete 2002, CLIP 13

¿Qué es XLIFF?

• XML Localisation Interchange File Format:• Formato para intercambio de archivos de localización. • Su definición comenzó a finales de 2000 (de la mano de

Oracle, Novell, Sun y IBM/Lotus).• Basado en Open Tag, parecido a TMX con innovaciones

para el intercambio de información en web. • Primer borrador de mayo de 2001, última

especificación de abril de 2002. • Se anuncia como una nueva especificación XML para

intercambio de datos para web multilingües.

Page 14: Hacia la gestión automática de contenidos multilingües en XLIFF

DELi (UD) + Code&Syntax Albacete 2002, CLIP 14

Referencias

• TEI: http://www.tei-c.org• TMX: http://www.lisa.org/tmx• Transit: http://www.star-ag.ch/• XLIFF:

http://www.opentag.com/xliff.htm• DELi: http://www.deli.deusto.es