Guía de uso del servicio de vaciado...

15
http://terminologia.uoc.edu Guía de uso del servicio de vaciado terminológico Versión beta 2.0 11 de abril de 2012

Transcript of Guía de uso del servicio de vaciado...

Page 1: Guía de uso del servicio de vaciado terminológicoblogs1.uoc.es/escripturailectura/files/2012/05/ManualServeiBuidatgeTerm-es.pdf · Esta guía es un manual de uso de la aplicación

http://terminologia.uoc.edu

Guía de uso del servicio de vaciado terminológico

Versión beta 2.0

11 de abril de 2012

Page 2: Guía de uso del servicio de vaciado terminológicoblogs1.uoc.es/escripturailectura/files/2012/05/ManualServeiBuidatgeTerm-es.pdf · Esta guía es un manual de uso de la aplicación

Contenido

1. Introducción.........................................................................................................32. Aplicación web......................................................................................................33. Herramientas del servicio.......................................................................................4

3.1. Convertidor de documentos a texto plano.........................................................43.2. Alineador de documentos por parejas de lenguas..............................................63.3. Extractor terminológico..................................................................................73.4. Extractor terminológico con equivalentes de traducción......................................83.5. Extractor terminológico con equivalentes de traducción y el contexto.................13

Page 3: Guía de uso del servicio de vaciado terminológicoblogs1.uoc.es/escripturailectura/files/2012/05/ManualServeiBuidatgeTerm-es.pdf · Esta guía es un manual de uso de la aplicación

1. Introducción

Esta guía es un manual de uso de la aplicación web del servicio de vaciado terminológico en que se describen las funciones y el uso de la interfaz.

2. Aplicación web

La aplicación ofrece directamente dos funciones principales:

a) Remisión nueva

Ilustración 1: portada de acceso para hacer una remisión nueva

En la ilustración 1 se puede ver la portada de acceso a las herramientas que se ofrecen. Es el primer paso para poder hacer una remisión nueva1. Una vez seleccionada la herramienta del tratamiento y anotados los datos que se piden, todo ello se enviará para continuar la configuración de la remisión nueva con un segundo y último paso, el cual sirve para acabar de configurar los parámetros de cada herramienta en particular y que se describe, con la explicación para cada herramienta, en el apartado siguiente.

En el primer paso, la persona solicitante tiene que rellenar:

◦ un nombre para la remisión, que puede ser repetido;

◦ la dirección electrónica personal para recibir el aviso cuando se acabe el tratamiento pedido en la remisión.

b) Consulta

Ilustración 2: portada de acceso a la consulta de estado de los tratamientos

1 Con una remisión nueva se hace una solicitud de pedido de una herramienta del servicio de vaciado.

Page 4: Guía de uso del servicio de vaciado terminológicoblogs1.uoc.es/escripturailectura/files/2012/05/ManualServeiBuidatgeTerm-es.pdf · Esta guía es un manual de uso de la aplicación

La consulta permite saber el estado de cualquier tratamiento solicitado (ilustración 2), así como acceder a los resultados con el número de remisión que se ha recibido. Los diferentes estados del proceso de petición son los siguientes:

Creado El tratamiento está creado y pendiente de ser ejecutado.

En ejecución El tratamiento se está ejecutando.

Finalizado El tratamiento se ha acabado en este estado y se da acceso a los resultados.

3. Herramientas del servicio

Actualmente se ofrecen cinco herramientas, y la aplicación está preparada para ampliar la oferta a medida que se detecten más necesidades.

3.1. Convertidor de documentos a texto plano

Ilustración 3: configuración del tratamiento para la conversión

La ilustración 3 muestra el segundo y último paso para crear un tratamiento nuevo de la herramienta de convertir formatos, que extrae el texto plano de diversos documentos en diferentes formatos. La entrada de documentos se tiene que hacer con un fichero comprimido (en formato Zip). Los formatos aceptados son MS-Word (.doc), documento de texto de OpenOffice (.odt), texto plano (.txt), Portable Document Format (.pdf), Rich Text Format (.rtf), presentación de MS-Office (.ppt) y presentación de OpenOffice (.odp).

Uno de los parámetros más importantes para obtener el resultado esperado es especificar correctamente el idioma de los documentos. Hay tres opciones para marcarlo:

• en el nombre del fichero, formato Servicio Lingüístico

Page 5: Guía de uso del servicio de vaciado terminológicoblogs1.uoc.es/escripturailectura/files/2012/05/ManualServeiBuidatgeTerm-es.pdf · Esta guía es un manual de uso de la aplicación

El idioma de cada documento se señala en el nombre. La manera de indicarlo sigue el formato que aparece a continuación:

– La abreviatura de la lengua original se añade con un guion alto y «cat», «esp» o «eng» (para el catalán, el castellano y el inglés respectivamente).

– El original se marca con un guion bajo y «OR»: XXXX-cat_OR.

– La corrección se marca con un guion bajo y el código de la lengua en que está (CA, ES, EN...): XXXX-cat_CA, por ejemplo.

– La traducción se marca con un guion bajo y el código de la lengua en que está (CA, ES, EN...): XXXX-cat_ES, por ejemplo.

• en el nombre del fichero

El idioma de cada documento se señala en el nombre. La manera de indicarlo sigue el formato que aparece a continuación:

– La abreviatura de la lengua se añade con un guion alto y «cat», «esp» o «eng», o el identificador que convenga.

En los campos Catalán, Castellano e Inglés se puede indicar el identificador de idioma utilizado para cada caso.

• especificado

El idioma no se extrae del nombre del fichero, sino del parámetro Idioma de la interfaz (selector). Por lo tanto, se interpreta que todos los ficheros proporcionados en la remisión tienen el mismo idioma.

El resultado de esta herramienta es el conjunto de documentos convertidos (el cual conserva la misma estructura de directorios) comprimidos en un fichero (en formato Zip), y se puede bajar desde de la función principal Consulta, con la que la interfaz proporciona un enlace de bajada (véase la ilustración 4).

Ilustración 4: enlace para bajar los resultados

Page 6: Guía de uso del servicio de vaciado terminológicoblogs1.uoc.es/escripturailectura/files/2012/05/ManualServeiBuidatgeTerm-es.pdf · Esta guía es un manual de uso de la aplicación

3.2. Alineador de documentos por parejas de lenguas

Ilustración 5: configuración del tratamiento para la alineación de documentos por parejas de lenguas

La ilustración 5 muestra el segundo y último paso para crear un tratamiento nuevo de la herramienta de alineación de documentos por parejas de lenguas. Las parejas de lenguas admitidas son tres: catalán-inglés, catalán-castellano e inglés-castellano. En un primer momento esta herramienta extrae el texto plano de diferentes formatos de documentos (véase la sección anterior) y seguidamente alinea los dos textos de los ficheros. Atención: únicamente alinea los ficheros que tienen el mismo nombre y están dentro de la misma carpeta. La entrada de documentos se tiene que hacer con un fichero comprimido (en formato Zip).

Uno de los parámetros más importantes para obtener el resultado esperado es especificar correctamente el idioma. Hay dos posibilidades:

• en el nombre del fichero, formato Servicio Lingüístico

El idioma de cada documento se señala en el nombre. La manera de indicarlo sigue el formato que aparece a continuación:

– La abreviatura de la lengua original se añade con un guion alto y «cat», «esp» o «eng» (para el catalán, el castellano y el inglés respectivamente).

– El original se marca con un guion bajo y «OR»: XXXX-cat_OR.

– La corrección se marca con un guion bajo y el código de la lengua en que está (CA, ES, EN...): XXXX-cat_CA, por ejemplo.

– La traducción se marca con un guion bajo y el código de la lengua en que está (CA, ES, EN...): XXXX-cat_ES, por ejemplo.

– Con el parámetro Tipo se puede elegir si se quiere hacer la alineación de la traducción con el fichero original (acabado en OR) o con el fichero corregido (acabado en CA, ES o EN según el idioma original).

• en el nombre del fichero

El idioma de cada documento se señala en el mismo nombre. La manera de indicarlo sigue el formato que aparece a continuación:

– La abreviatura de la lengua se añade con un guion alto y «cat», «esp» o «eng», o el

Page 7: Guía de uso del servicio de vaciado terminológicoblogs1.uoc.es/escripturailectura/files/2012/05/ManualServeiBuidatgeTerm-es.pdf · Esta guía es un manual de uso de la aplicación

identificador que convenga.

En los campos Catalán, Castellano e Inglés se puede indicar el identificador de idioma utilizado para cada caso.

El resultado de esta herramienta es un conjunto de ficheros, cada uno de los cuales es la alineación de un par de lenguas, comprimidos en un fichero (en formato Zip). Se puede bajar desde de la función principal Consulta, con la que la interfaz proporciona un enlace de bajada (véase la ilustración 4).

3.3. Extractor terminológico

Ilustración 6: configuración del tratamiento del extractor terminológico

La ilustración 6 muestra el segundo y último paso para crear un tratamiento nuevo de la herramienta de extracción terminológica. Esta herramienta extrae una lista de términos de un conjunto de documentos en diferentes formatos. La entrada de documentos se tiene que hacer por medio de un fichero comprimido (en formato Zip).

La interfaz permite configurar el umbral en la frecuencia mínima de aparición para considerar un candidato a término, con el parámetro Frecuencia mínima de aparición (por defecto 3). También se puede indicar el número de n-gramas2 con el parámetro n-gramas (por defecto de 1 a 3).

Uno de los parámetros más importantes para obtener el resultado esperado es especificar correctamente el idioma. Hay tres posibilidades:

• en el nombre del fichero, formato Servicio Lingüístico

El idioma de cada documento se señala en el nombre. La manera de indicarlo sigue el formato que aparece a continuación:

– La abreviatura de la lengua original se añade con un guion alto y «cat», «esp» o «eng» (para el catalán, el castellano y el inglés respectivamente).

– El original se marca con un guion bajo y «OR»: XXXX-cat_OR.

– La corrección se marca con un guion bajo y el código de la lengua en que está (CA, ES,

2 Subsecuencia de n palabras dada una secuencia de palabras.

Page 8: Guía de uso del servicio de vaciado terminológicoblogs1.uoc.es/escripturailectura/files/2012/05/ManualServeiBuidatgeTerm-es.pdf · Esta guía es un manual de uso de la aplicación

EN...): XXXX-cat_CA, por ejemplo.

– La traducción se marca con un guion bajo y el código de la lengua en que está (CA, ES, EN...): XXXX-cat_ES, por ejemplo.

– Con el parámetro Tipo se puede elegir si se quieren extraer los términos del fichero original (acabado en OR) o del fichero corregido (acabado en CA, ES o EN según el idioma original).

• en el nombre del fichero

El idioma de cada documento se señala en su nombre. La manera de indicarlo sigue el formato que aparece a continuación:

– La abreviatura de la lengua se añade con un guion alto y «cat», «esp» o «eng», o el identificador que convenga.

En los campos Catalán, Castellano e Inglés se puede indicar el identificador de idioma utilizado para cada caso.

• especificado

El idioma no se extrae del nombre del fichero, sino del parámetro Idioma de la interfaz (selector). Por lo tanto, se interpreta que todos los ficheros proporcionados en la remisión tienen el mismo idioma.

El resultado de esta herramienta es un fichero con la lista de términos y su frecuencia de aparición comprimido en un fichero en formato Zip, y se puede bajar desde la función principal Consulta, con la que la interfaz proporciona un enlace de bajada (véase la ilustración 4). Hay que tener en cuenta que actualmente solo está preparada para la extracción de términos del catalán.

3.4. Extractor terminológico con equivalentes de traducción

Ilustración 7: interfaz de configuración de un tratamiento con la herramienta Extractor terminológico con equivalentes de traducción

Page 9: Guía de uso del servicio de vaciado terminológicoblogs1.uoc.es/escripturailectura/files/2012/05/ManualServeiBuidatgeTerm-es.pdf · Esta guía es un manual de uso de la aplicación

La ilustración 7 muestra el segundo y último paso para crear un tratamiento nuevo de la herramienta de extracción terminológica con equivalentes de traducción. Esta herramienta extrae una lista de términos con los equivalentes de traducción a partir de un conjunto de documentos en diferentes formatos. La entrada de documentos se tiene que hacer con un fichero comprimido (en formato Zip).

La interfaz permite configurar el umbral en la frecuencia mínima de aparición para considerar un candidato a término, con el parámetro Frecuencia mínima de aparición (por defecto 3), y también se puede indicar el número de n-gramas3 con el parámetro n-gramas (por defecto de 1 a 3).

Uno de los parámetros más importantes para obtener el resultado esperado es especificar correctamente el idioma. Hay tres posibilidades:

• en el nombre del fichero, formato Servicio Lingüístico

El idioma de cada documento se señala en su nombre. La manera de indicarlo sigue el formato que aparece a continuación:

– La abreviatura de la lengua original se añade con un guion alto y «cat», «esp» o «eng» (para el catalán, el castellano y el inglés respectivamente).

– El original se marca con un guion bajo y «OR»: XXXX-cat_OR.

– La corrección se marca con un guion bajo y el código de la lengua en que está (CA, ES, EN...): XXXX-cat_CA, por ejemplo.

– La traducción se marca con un guion bajo y el código de la lengua en que está (CA, ES, EN...): XXXX-cat_ES, por ejemplo.

– Con el parámetro Tipo se puede elegir si se quieren extraer los términos de origen del fichero original (acabado en OR) o del fichero corregido (acabado en CA, ES o EN según el idioma original).

• en el nombre del fichero

El idioma de cada documento se señala en su nombre. La manera de indicarlo sigue el formato que aparece a continuación:

– La abreviatura de la lengua se añade con un guion alto y «cat», «esp» o «eng», o el identificador que convenga.

En los campos Catalán, Castellano e Inglés se puede indicar el identificador de idioma utilizado para cada caso.

• especificado

El idioma no se extrae del nombre del fichero, sino del parámetro Idioma de la interfaz (selector). Por lo tanto, se interpreta que todos los ficheros proporcionados en la remisión tienen el mismo idioma.

El resultado de esta herramienta, accesible desde la función principal Consulta, se proporciona por etapas:

• Validación de los candidatos a término: la ilustración 8 muestra la interfaz de la primera etapa, que proporciona el acceso a la edición de la terminología detectada y también el enlace para bajarla con un fichero comprimido (Zip), en el apartado Candidatos a término. Al acceder a la edición de términos, se pueden modificar los lemas4 y elegir los términos que se quieren extraer marcando las casillas de selección (véase la ilustración 9). Hay que tener en cuenta que actualmente solo está preparada para la extracción de términos del catalán.

• Inicio del proceso de detección de equivalentes de traducción: una vez acabada la selección de términos, desde el apartado Equivalentes se accede a un botón para iniciar la ejecución del proceso de búsqueda de los candidatos a equivalentes de traducción de los términos. Una vez ejecutada la búsqueda, ya no se podrá modificar la terminología. El tratamiento se vuelve a poner en marcha y pasará por los diferentes estados de creación,

3 Subsecuencia de n palabras dada una secuencia de palabras.4 Se puede dar el caso de que el análisis morfológico se haya equivocado al asignar el lema a una forma.

Page 10: Guía de uso del servicio de vaciado terminológicoblogs1.uoc.es/escripturailectura/files/2012/05/ManualServeiBuidatgeTerm-es.pdf · Esta guía es un manual de uso de la aplicación

ejecución y finalización. Durante este tiempo se puede abandonar la interfaz de Consulta. Una vez acabado el proceso, se recibirá un aviso por correo electrónico. En todo momento se puede consultar el estado (véase la ilustración 10).

• Edición de los candidatos a equivalentes de traducción: una vez acabado el proceso, se proporciona una interfaz con dos botones. Uno de ellos es para editar los equivalentes (véase la ilustración 11, formulario para editar los candidatos a equivalentes de traducción); el otro, para recoger los resultados (véase la ilustración 12, formulario para editar o bajar los resultados de los términos con los equivalentes de traducción).

Ilustración 8: visualización del menú de los resultados de un tratamiento con la herramienta de extracción de términos con equivalentes de traducción

Page 11: Guía de uso del servicio de vaciado terminológicoblogs1.uoc.es/escripturailectura/files/2012/05/ManualServeiBuidatgeTerm-es.pdf · Esta guía es un manual de uso de la aplicación

Ilustración 9: formulario para editar los candidatos a término

Ilustración 10: estado del tratamiento de detección de equivalentes de traducción

Page 12: Guía de uso del servicio de vaciado terminológicoblogs1.uoc.es/escripturailectura/files/2012/05/ManualServeiBuidatgeTerm-es.pdf · Esta guía es un manual de uso de la aplicación

Ilustración 11: formulario para editar los candidatos a equivalentes de traducción

Ilustración 12: formulario para editar o bajar los resultados de los términos con los equivalentes de traducción

Page 13: Guía de uso del servicio de vaciado terminológicoblogs1.uoc.es/escripturailectura/files/2012/05/ManualServeiBuidatgeTerm-es.pdf · Esta guía es un manual de uso de la aplicación

3.5. Extractor terminológico con equivalentes de traducción y el contexto

Ilustración 13: interfaz de configuración de un tratamiento con la herramienta Extractor terminológico con equivalentes de traducción y el contexto

La ilustración 13 muestra el segundo y último paso para crear un tratamiento nuevo de la herramienta de extracción de términos con equivalentes de traducción enmarcados en un contexto. Esta herramienta extrae una lista de términos con los equivalentes de traducción y el contexto en que aparecen a partir de un conjunto de documentos de diferentes formatos. La entrada de documentos se tiene que hacer con un fichero comprimido (en formato Zip).

La interfaz permite configurar el umbral en la frecuencia mínima de aparición para considerar un candidato a término, con el parámetro Frecuencia mínima de aparición (por defecto 3), y también se puede indicar el número de n-gramas5, con el parámetro n-gramas (por defecto de 1 a 3).

Uno de los parámetros más importantes para obtener el resultado esperado es especificar correctamente el idioma. Hay tres posibilidades:

• en el nombre del fichero, formato Servicio Lingüístico

El idioma de cada documento se señala en el nombre. La manera de indicarlo sigue el formato que aparece a continuación:

– La abreviatura de la lengua original se añade con un guion alto y «cat», «esp» o «eng» (para el catalán, el castellano y el inglés respectivamente).

– El original se marca con un guion bajo y «OR»: XXXX-cat_OR.

– La corrección se marca con un guion bajo y el código de la lengua en que está (CA, ES, EN...): XXXX-cat_CA, por ejemplo.

– La traducción se marca con un guion bajo y el código de la lengua en que está (CA, ES, EN...): XXXX-cat_ES, por ejemplo.

– Con el parámetro Tipo se puede elegir si se quieren extraer los términos de origen del fichero original (acabado en OR) o del fichero corregido (acabado en CA, ES o EN según el idioma original).

• en el nombre del fichero

El idioma de cada documento se señala en el nombre. La manera de indicarlo sigue el formato que aparece a continuación:

– La abreviatura de la lengua se añade con un guion alto y «cat», «esp» o «eng», o el identificador que convenga.

Por medio de los campos Catalán, Castellano e Inglés se puede indicar el identificador de idioma utilizado para cada caso.

• especificado

El idioma no se extrae del nombre del fichero, sino del parámetro Idioma de la interfaz (selector). Por lo tanto, se interpreta que todos los ficheros proporcionados en la remisión

5 Subsecuencia de n palabras dada una secuencia de palabras.

Page 14: Guía de uso del servicio de vaciado terminológicoblogs1.uoc.es/escripturailectura/files/2012/05/ManualServeiBuidatgeTerm-es.pdf · Esta guía es un manual de uso de la aplicación

tienen el mismo idioma.

El resultado de esta herramienta, accesible desde la función principal Consulta, se proporciona por etapas:

• Validación de los candidatos a término: la ilustración 8 muestra la interfaz de la primera etapa, que proporciona el acceso a la edición de la terminología detectada y también el enlace para bajarla con un fichero comprimido (Zip), en el apartado Candidatos a término. Al acceder a la edición de términos, se pueden modificar los lemas6 y elegir los términos que se quieren extraer marcando las casillas de selección (véase la ilustración 9). Hay que tener en cuenta que actualmente solo está preparada para la extracción de términos del catalán.

• Inicio del proceso de detección de equivalentes de traducción: una vez acabada la selección de términos, desde el apartado Equivalentes se accede a un botón para iniciar la ejecución del proceso de búsqueda de los candidatos a equivalentes de traducción de los términos. Una vez ejecutada la búsqueda, ya no se podrá modificar la terminología. El tratamiento se vuelve a poner en marcha y pasará por los diferentes estados de creación, ejecución y finalización. Durante este tiempo se puede abandonar la interfaz de Consulta. Una vez acabado el proceso, se recibirá un aviso por correo electrónico. En todo momento se puede consultar el estado (véase la ilustración 10).

• Edición de los candidatos a equivalentes de traducción y generación de contextos: una vez acabado el proceso, se proporciona una interfaz con tres botones. Uno es para editar los equivalentes (véase la ilustración 11, formulario para editar los candidatos a equivalentes de traducción), otro es para recoger los resultados, y el último es para poner en marcha el proceso que generará los contextos (véase la ilustración 14, formulario para editar o bajar los resultados de los términos con los términos traducidos y para generar los contextos). Una vez acabado el proceso, se recibirá un aviso por correo electrónico. En todo momento se puede consultar el estado (véase la ilustración 15).

• Recogida de los contextos: finalmente, una vez generados los contextos, estos se podrán recoger pulsando el único botón que aparecerá en la interfaz (véase la ilustración 16).

Ilustración 14: formulario para editar o bajar los resultados de los términos con los términos traducidos y para generar los contextos

6 Se puede dar el caso de que el análisis morfológico se haya equivocado al asignar el lema a una forma.

Page 15: Guía de uso del servicio de vaciado terminológicoblogs1.uoc.es/escripturailectura/files/2012/05/ManualServeiBuidatgeTerm-es.pdf · Esta guía es un manual de uso de la aplicación

Ilustración 15: estado del tratamiento de generación de contextos

Ilustración 16: formulario para bajar los contextos de los términos extraídos