A5

31

2 TERMINOLOGA

La palabra terminologa en una primera instancia se puede considerar como la materia de

interseccin que se ocupa de la designacin de los conceptos de las lenguas de especialidad

(Cabr, 1992). Un lenguaje especializado es un lenguaje que se usa en un campo del

conocimiento y que se caracteriza por el uso de medios especficos de expresin lingstica

(ISO 1087-1:2000, 2000). Por tanto, en otras palabras, la terminologa, como disciplina, es

una materia interdisciplinaria que se encarga de designar conceptos del lenguaje que se

emplean en los campos del conocimiento y que tienen caractersticas especficas que las

diferencian de la lengua general o cotidiana.

A lo largo de este tercer captulo se abordar la terminologa no solamente como disciplina

sino tambin sus aplicaciones, su relacin con el procesamiento de lenguaje y la aplicacin

de ambas materias en diversos sistemas y herramientas.

2.1 Terminologa y terminografa

La Terminologa, no slo designa a una disciplina, sino tambin define el conjunto de

unidades lxicas usadas con un valor preciso en los mbitos de especialidad (Cabr, 1992).

Es decir, todo el grupo de conceptos que la terminologa, como disciplina, designa. Tomando

en cuenta lo anterior, para Cabr (1992), existen cuatro puntos que muestran los distintos

enfoques sobre el estudio y la prctica de la terminologa:

Para los lingistas, la terminologa es una parte del lxico delimitada por criterios

temticos y pragmticos.

Para los especialistas, la terminologa es el reflejo formal de la organizacin

conceptual de una especialidad, y un medio inevitable de expresin y de

comunicacin profesional.

Para los usuarios (directos e intermediarios), la terminologa es un conjunto de

unidades de comunicacin, tiles y prcticas, cuyo valor se mide en funcin de

criterios de economa, de precisin y de adecuacin.

32

Para los planificadores lingsticos, la terminologa es un mbito del lenguaje donde

se debe intervenir para reafirmar la existencia, la utilidad y la pervivencia de una

lengua, y para garantizar, mediante su modernizacin, su continuidad como medio de

expresin.

2.1.1 Los trminos

Una unidad terminolgica, o trmino, es un smbolo convencional que representanta una

nocin definida en un cierto dominio del saber (Lrat, 1989). La unin de varios trminos,

forman la terminologa del dominio de especialidad.

Existen distintos tipos de trminos, estos se suelen clasificar de distinta manera, en

torno a cuatro aspectos que son forma, funcin, significado y procedencia (Cabr, 1992).

El aspecto de forma es un conjunto de criterios que no son necesariamente

excluyentes y que expresan la manera en que un trmino puede estar conformado. Estos

criterios son los siguientes:

Nmero de morfemas7: Dependiendo del nmero de morfemas un trmino puede ser

simple o complejo. Ejemplo: cuadern-o, cuadern-os, en-cuadern-ado.

Tipos de morfemas: Los distintos tipos de morfemas existentes en un trmino

complejo determinan si es derivado o compuesto. Ejemplos de derivados son fruter-

a, libr-ero, verd-oso. En cambio, algunos ejemplos de trminos compuestos son para-

brisas, saca-corchos, balon-cesto.

Estructura: Existen trminos complejos que son la combinacin de palabras que

siguen una determinada estructura sintctica. Algunos ejemplos de estructuras que se

emplean en el espaol son sustantivo-preposicin-sustantivo (mtodo de Newton-

Raphson), sustantivo-adjetivo (cristal lquido).

7 Segn el diccionario de la Real Academia Espaola un morfema es la unidad mnima analizable que posee

slo significado gramatical. En otras palabras es la parte variante de la palabra que otorga un significado y

permite formar nuevas palabras. Ejemplo: ni-o, ni-a, ni-os, ni-as

33

Origen complejo: En algunos casos los trminos simples provienen de trminos

complejos; casos de este criterio son las abreviaturas (Del., av.), las siglas (SIDA,

ONU), acrnimos (bit, sonar) o formas abreviadas (tele, cine).

El segundo aspecto existente es el de funcin, es decir, los trminos siempre tienen

una funcin determinada en las oraciones. Estas funciones pueden ser de nombres, adjetivos,

verbos y adverbios. En el caso de las palabras funcionales, como las preposiciones,

conjunciones, artculos, entre otros, Cabr (1992) indica que no tienen un carcter

terminolgico.

El aspecto siguiente es el de significado, el cual indica que un trmino denomina una

determinada clase de conceptos. Para Cabr (1992) se pueden establecer cuatro grandes

clases conceptuales que son las siguientes:

Objetos o entidades: Nombres.

Procesos, operaciones o acciones: Verbos, nominalizaciones de verbos8.

Propiedades, estados, cualidades: Adjetivos.

Relaciones: Adjetivos, verbos.

El ltimo aspecto que es mencionado por Cabr es el de procedencia lingstica, es

decir, los trminos pueden ser creados o construidos a partir de reglas del propio lenguaje o

provenir de otras lenguas.

2.1.2 La terminografa

La terminografa es la rama aplicada de la terminologa que se ocupa de la elaboracin de

diccionarios especializados o de glosarios terminolgicos (Cabr, 1995). Esta tarea incluye

adems la compilacin, la sistematizacin y la presentacin de los trminos de las reas de

especializacin.

8 Es el proceso de convertir un verbo en un sustantivo, por ejemplo gotear goteo.

34

Aunque la tarea de la terminografa es similar al de la lexicografa9 (el de crear

diccionarios y glosarios), estas dos tareas difieren en el mtodo que emplean, la forma en que

emplean los datos y la manera en que presentan los resultados.

Mientras que la lexicografa sigue un proceso semasiolgico, es decir, a partir del

trmino crea la definicin; la terminografa parte de la definicin o de una lista de conceptos

para determinar su trmino (que corresponda a la forma en que se emplea en el rea

especializada), es decir, sigue un proceso onomasiolgico.

De igual forma, dentro del proceso de la terminografa se lleva a cabo una

normalizacin, esto quiere decir que se busca estandarizar los trminos que se emplean

dentro de un rea especializada para conseguir una comunicacin profesional precisa,

moderna y unvoca (Cabr, 1995).

El proceso de la terminografa est conformado por seis fases que son las siguientes

(Cabr, 1992):

Definicin y delimitacin del trabajo: En esta primera fase se debe definir el tema a

trabajar, cul es el pblico al que va dirigido, cul es la funcin que va a tener el

trabajo y el alcance de la obra en funcin de las condiciones anteriores, pero tambin

de las econmicas, temporales, materiales, acadmicas, entre otras.

Preparacin del trabajo: Consiste en adquirir y reunir toda la informacin sobre el

tema a trabajar, en la seleccin de asesores de trabajo, en la estructuracin que se va

emplear y en la propuesta del plan de trabajo.

Elaboracin de la terminologa: En la tercera fase de la terminografa se localizan

los trminos en el corpus y se determina que pertenezcan al rea analizada.

Presentacin del trabajo: En esta fase se crea la publicacin que contendr el

trabajo realizado en las etapas anteriores.

9 Es la rama aplicada de la lexicologa. Segn la RAE la lexicologa es el estudio de las unidades lxicas de una

lengua y de las relaciones sistemticas que se establecen entre ellas.

35

Supervisin del trabajo: Durante esta fase se juntan los expertos en terminologa y

los del rea determinada para supervisar que el trabajo realizado no tenga problemas

y sea el adecuado.

Tratamiento y resolucin de los casos problemticos: Si existen casos

problemticos es necesario resolverlos; para ello se emplean diversos caminos

dependiendo del caso, como consultar bibliografa complementaria, consultar a

especialistas en la materia, lexicgrafos, especialistas multilinges o consultar a

organismos oficiales de normalizacin.

2.1.3 Extraccin de informacin terminolgica

El desarrollo de nuevas materias de investigacin y aplicacin, como la informtica o las

ciencias computacionales, y su incursin dentro de diversas reas, han hecho que muchas

materias de investigacin cambien su metodologa, planteamiento o rendimiento. La

terminologa no es la excepcin, ya que en la actualidad existe la termintica. Para Cabr

(1992) la termintica es la materia que se ocupa, en general, de las relaciones entre la

informtica y la terminologa; y, en particular, que trata de la aplicacin de la informtica al

trabajo terminolgico.

Esta incursin de la informtica en el rea de la terminologa, de manera ms

especfica en la terminografa ha adquirido cierto protagonismo en algunas de las tareas que

se llevan a cabo en la metodologa, como la documentacin previa, la constitucin del

corpus, la verificacin de la informacin, entre otras tareas. Pero tambin la extraccin de

trminos ha sido una de las tareas donde la informtica, especficamente el PLN, participa

activamente por medio de la extraccin de informacin, esto ha desarrollado la extraccin de

informacin terminolgica, extraccin terminolgica o terminology extraction (TE).

La extraccin de informacin terminolgica es el uso de mtodos propios de la

extraccin de informacin con el objetivo de extraer los trminos de un corpus apoyndose

en el poder de procesamiento de las computadoras.

Cabe destacar que la extraccin terminolgica est altamente relacionada con la

recuperacin de informacin, no solamente porque la extraccin de informacin est

relacionada con esa tarea, sino por que frecuentemente los trminos (empleando su sentido de

36

la bsqueda de informacin) que indizan los documentos son los trminos (en su sentido

lingstico) que conforman a un documento. La nica diferencia es que la extraccin

terminolgica busca obtener todas las unidades terminolgicas y no slo las ms

representativas de un documento. Por tanto, son constantemente empleadas tcnicas que en

un principio eran solamente de indizacin de documentos en sistemas de extraccin de

terminologa.

2.2 Sistemas actuales de extraccin terminolgica

Segn Cabr et al. (2001) desde el 2000 los lingistas computacionales, los investigadores en

lingista aplicada, traductores, intrpretes, periodistas, cientficos e ingenieros en

computacin han estado interesados en el aislamiento automtico de la terminologa de

textos. La razn de ello es que la terminologa no slo sirve para crear diccionarios o

glosarios, tambin es til en la traduccin automtica, en el resumen automtico, en bases de

conocimiento, en sistemas expertos, entre otras tareas.

Por lo anterior se han desarrollado sistemas que extraigan de manera automtica la

terminologa de grandes cantidades de texto, de una manera rpida. Sin embargo, con el paso

del tiempo los desarrolladores de los sistemas de extraccin terminolgica han observado que

existen diversas complicaciones la cuales, segn Cabr et al. (2001), son las siguientes:

Identificacin de trminos complejos, es decir, se necesita reconocer cundo una

unidad discursiva10

constituye una frase terminolgica y dnde comienza y termina

sta.

Identificacin de la naturaleza terminolgica de una unidad lxica11, esto es, conocer

cuando dentro de un texto especializado una unidad lxica tiene una naturaleza

terminolgica o pertenece al lenguaje general.

La propiedad y conveniencia de una unidad terminolgica en un vocabulario dado.

10 Una unidad discursiva es una estructura que puede ser identificable dentro de un texto (http://linguistics-

ontology.org/gold/DiscourseUnit).

11 Una unidad lxica es un elemento que es objeto de definicin en un diccionario, vocabulario, glosario,

etctera (Luna Trail et al., 2005).

37

Los sistemas de extraccin terminolgica se basan en tres tipos de conocimientos que

son los lingsticos, los estadsticos y los hbridos. Cada uno de estos tipos de sistemas se

explicar en los apartados siguientes, adems de que se darn a conocer algunos sistemas de

extraccin terminolgica.

2.2.1 Sistemas basados en conocimiento lingstico

Como se indic en el apartado anterior, los sistemas de extraccin terminolgica se basan en

distintos tipos de conocimiento y uno de ellos es el lingstico; su razn de uso es porque la

terminologa y los trminos estn ampliamente relacionados con la lingstica.

Para Pazienza et al. (2005) los sistemas con un acercamiento lingstico tratan de

identificar trminos a travs de sus propiedades sintcticas, esto se debe a que

frecuentemente las unidades terminolgicas tienen estructuras sintcticas definidas, como se

vio en la seccin 2.1.1. Estos sistemas se pueden basar en dos tipos de informacin (Cabr et

al., 2001):

Trmino especfico: Este consiste en la deteccin de patrones recurrentes de

unidades terminolgicas complejas; en la Tabla 5 podemos ver algunas estructuras

empleadas en el espaol que definen por lo general un trmino; en cambio en la Tabla

6 podemos observar algunas estructuras sintcticas que por lo general no forman un

trmino. Los patrones que se buscan provienen de reglas que se obtienen de manera

emprica a travs del anlisis de datos y se pueden programar a travs de expresiones

regulares o autmatas de estados finitos.

Lenguaje genrico: Consiste en la deteccin de estructuras lingsticas ms bsicas,

como los sintagmas12

nominales (por ejemplo: libro, campo de trigo), sintagmas

preposicionales (de Mara, para cocinar), entre otros. Para ello se emplean

herramientas de PLN complejas, como son los analizadores sintcticos, tambin

conocidos como parsers, que son herramientas que analizan la estructura de un texto

con base en una gramtica.

12 Un sintagma, segn la Real Academia Espaola, es un conjunto de palabras. Por ejemplo: un sintagma

nominal est construido en torno a un nombre o sustantivo. En cambio, uno preposicional, es el formado

alrededor de una preposicin.

38

Estructura sintctica Ejemplos

sustantivo agua, planeta, protozoario, cimiento

sustantivo + adjetivo plano inclinado, agua oxigenada

sustantivo + preposicin + sustantivo lmpara de halgeno, dixido de carbono

Tabla 5. Ejemplos de estructuras sintcticas para trminos en espaol

Estructura sintctica Ejemplos

artculo + sustantivo la casa, el nio, los pases

sustantivo + y/o + sustantivo guila o sol, coseno y tangente

Tabla 6. Ejemplos de estructuras sintcticas que no forman por lo general trminos en espaol

Los tipos de informacin explicados anteriormente se basan en el anlisis

morfolgico.

Los sistemas terminolgicos basados en conocimiento lingstico tienen como ventaja

que encuentran trminos sin importar su frecuencia o importancia en el texto, pues se basan

en su estructura. En cambio, su desventaja, es que son propensos al ruido, es decir, los

sistemas son proclives a encontrar estructuras falsas debido a errores en la asignacin de la

categora gramatical (anlisis morfolgico); de igual manera, los sistemas basados en

conocimiento lingstico son dependientes de la lengua, ya que las reglas generadas pueden

no servir en otras lenguas.

2.2.1.1 LEXTER

El sistema de extraccin de trminos LEXTER (Bourigault, 1994) fue desarrollado para el

francs basndose en conocimiento lingstico; su objetivo principal era mejorar el sistema

de indizacin de la compaa EDF (Electricit de France).

El principio bsico de LEXTER es encontrar las fronteras de los sintagmas

nominales, pero en lugar de hacerlo de manera positiva, es decir, encontrando las

estructuras que emplean los trminos frecuentemente en francs, se realiz de manera

negativa, en otras palabras, era encontrar estructuras sintcticas que claramente no

formaran un trmino.

39

La primera tarea que realiza LEXTER es un anlisis morfolgico y de

desambiguacin para cada uno de los textos que se va a analizar. Posteriormente, el sistema

busca, dentro del texto preprocesado, patrones que no sean parte de un sintagma nominal y

por tanto, de un trmino. Algunos casos segn Bourigault et al. (1996) son verbos,

pronombres, preposiciones unidos a artculos posesivos, entre otros. Este proceso deja

secuencias de palabras que por lo general corresponden a sintagmas nominales y son

candidatos a ser trminos o partes de ellos son candidatos; a este conjunto de palabras le

llamaron MLNP (Maximal-Length Noun Phrases).

La segunda tarea consiste en un analizador sintctico que analiza los MLNP para

dividir candidatos terminolgicos complejos en partes ms sencillas llamadas cabeza (head,

H) y expansin (expansion, E). El mdulo del analizador sintctico se basa en reglas, que

indican qu partes son la cabeza y qu partes son la expansin del MLNP; en caso de

encontrar estructuras ambiguas, existe un algoritmo de desambiguacin que ejecuta distintas

formas de una regla si se hallan formaciones en la estructura ambigua que ya hubieran sido

encontradas durante el anlisis. A continuacin, en la Tabla 7 se muestra una regla no

ambigua, mientras que en la Tabla 8 se ejemplifica otra donde se presentan casos de

ambigedad.

Regla no ambigua

Cabeza:

Cabeza:

Extensin:

Extensin:

Tabla 7. Ejemplo de una regla no ambigua empleada en LEXTER

40

Regla ambigua

Caso 1

Cabeza:

Extensin:

Cabeza:

Extensin:

Caso 2

Cabeza:

Cabeza:

Extensin: :

Extensin:

Tabla 8. Ejemplo de una regla ambigua empleada en LEXTER

La tercera parte del proceso es un mdulo de estructuracin que emplea la

informacin dada por el paso anterior para crear una red terminolgica. Este consiste en

vincular las cabezas y extensiones de trminos complejos con trminos menos complejos, y

estos, a su vez, vincularlos con trminos todava menos complejos hasta formar una red. En

la Figura 6 se muestra un ejemplo13

de la red terminolgica generada por LEXTER.

vanne

vanne manuelle

vanne manuelle disolement

commande manucllc

lignage manucl

ordre manucl

repositionnement manucl

robinct manucl

manuelle

isolement

vanne motorise

vannc pneumatiquc

vannc d'isolcmcnt d'enceinte

vanne dc dbit nul

vanne dc recirculation directe

vanne d'alimcntation

H

E

H E

Figura 6. Ejemplo de una red terminolgica creada por LEXTER

Al sistema extractor de trminos LEXTER se le considera un sistema robusto, preciso

e independiente del dominio desarrollado para el idioma francs. Sin embargo, LEXTER

tiene algunos problemas de ruido por errores en el anlisis morfolgico, como ocurre en la

mayora de los sistemas basados en conocimiento lingstico. Aun as, se le considera a este

13 Ejemplo extrado de Bourigault et al. (1996)

41

extractor de trminos un buen sistema por su habilidad de aprender conforme se van

obteniendo unidades terminolgicas.

2.2.1.2 HEID

HEID (Heid et al., 1996) es un sistema de extraccin terminolgica que se basa en

conocimiento lingstico para el idioma alemn. Su objetivo es aumentar la eficiencia del

proceso de creacin de glosarios en tareas relacionadas con la traduccin de textos tcnicos,

en este caso de ingeniera automovilstica.

El sistema de extraccin est compuesto de dos partes, la primera de ellas es el

anlisis lingstico y la anotacin de los textos; la segunda es la extraccin de trminos por

medio de consultas en el corpus.

El anlisis lingstico consiste en un tokenizador, un analizador morfosintctico14

, un

etiquetador POS15

y un lematizador que se ejecutan al inicio del anlisis. Posteriormente se

extraen construcciones caractersticas de los sintagmas nominales, esto se debe a que no

exista en el momento del desarrollo del extractor terminolgico un analizador sintctico de

cobertura amplia para el alemn que pudiera extraer de manera total sintagmas nominales.

La extraccin de trminos est conformada por tres componentes principales:

Procesador de consultas de corpus general (CPQ): Es un procesador que puede

soportar expresiones complejas de consultas, como expresiones regulares, etiquetas

POS, lemas, entre otras.

Macroprocesador para el lenguaje de consulta CPQ: La extraccin de trminos en

HEID se basa en listas de afijos y en la verificacin de los contextos tpicos de los

candidatos a trmino (Heid et al., 1996); para llevar a cabo este proceso, dado un

parmetro en consulta, ejecuta este en un gran nmero de palabras mientras mantiene

los dems parmetros de la consulta iguales.

14 Identifica las categoras gramaticales, morfosintcticas y caractersticas distribucionales (Heid et al., 1996)

15 Es un etiquetador de partes de la oracin, el cual segn Heid et al. (1996) desambigua los casos identificados

en el proceso morfosintctico.

42

XKWIC: Esta herramienta grfica muestra los trminos y sus concordancias16;

tambin permite ordenar de manera automtica el material extrado segn las

necesidades del usuario.

El extractor terminolgico HEID fue evaluado empleando manuales de

mantenimiento en alemn. Se busc extraer principalmente trminos monopalabra, que

frecuentemente representan sintagmas nominales en alemn; en este tipo de casos se

obtuvieron algunos problemas por ruido los cuales, segn los desarrolladores, pueden ser

eliminados con el uso de filtros (por frecuencia, por categora gramatical, entre otros).

Asimismo, HEID permite extraer colocaciones17

combinando sustantivos y verbos, aunque,

en este caso los resultados no son muy buenos.

2.2.2 Sistemas basados en conocimiento estadstico

Adems de los sistemas basados en conocimiento lingstico, existen aquellos que se basan

en conocimiento estadstico, es decir, en el empleo de frmulas matemticas, modelos

probabilsticos, modelos heursticos, entre otros.

Estos sistemas, adems de extraer trminos, otorgan una calificacin que permite

clasificar los resultados en buenos o malos. Aunque lo anterior es algo ambiguo, lo que se

busca es que los trminos extrados con una alta calificacin expresen una mayor relevancia

en el documento o corpus, mientras que uno con baja calificacin indique lo opuesto.

Existen mltiples medidas estadsticas que se emplean en los extractores

terminolgicos, como el TF-IDF, el logaritmo de la verosimilitud (Log Likelihood), el T-

score, entre otros.

La ventaja de estos sistemas de extraccin es que son independientes de la lengua e

indican una calificacin para cada uno de los trminos. El problema con este tipo de enfoque

16 Las concordancias, segn la Real Academia Espaola (RAE), es el ndice de todas las palabras de un libro o

del conjunto de la obra de un autor, con todas las citas de los lugares en que se hallan.

17 Propiedad que tienen ciertos sustantivo y verbos, y algunos sustantivos y adjetivos de coincidir en estructuras

sintagmticas, gracias a su estructura semntica: gato y ronronear, planta y marchita (Luna Trail et al., 2005).

43

es que existen trminos de baja frecuencia difciles de manejar por los sistemas de extraccin

(Cabr et al., 2001), esto genera lo que se llama silencio.

2.2.2.1 ANA

El sistema ANA (Euguehard y Pantera, 1994), Automatic Natural Acquisition, es un

extractor terminolgico basado en conocimiento estadstico. Se bas en la idea de que este

sistema deba poder extraer los trminos de cualquier texto, sin importar si estaba bien escrito

o no, si eran textos escritos o transcripciones de conversaciones y sin la utilizacin de

conocimiento lingstico. El extractor estaba diseado para funcionar con cualquier lengua

europea que no fuera aglutinante; sus pruebas se basaron en el ingls y el francs.

El sistema est formado por dos mdulos: el de familiarizacin y el de

descubrimiento. El primero de estos determina tres listas que emplea como conocimiento de

la lengua a analizar; este conocimiento es extrado de manera estadstica sin el uso de

diccionarios o gramticas. Las listas empleadas como conocimiento son las siguientes:

Palabras funcionales: Es un conjunto de palabras que aportan poco o ninguna

informacin (Seccin 1.1.6). En esta lista entran artculos, pronombres y algunos

verbos recurrentes.

Palabras esquemticas: Son las palabras que establecen una relacin semntica

entre otras palabras. Por ejemplo, Euguehard y Pantera (1994) indican que en el

fragmento box of nails, la palabra of indica una cierta relacin entre box y

nails, por lo tanto of es una palabra esquemtica.

Palabras base (bootstrap): Es el conjunto de trminos base con el que se inicia el

sistema, es decir, este grupo de unidades terminolgicas es el ncleo del extractor

terminolgico ANA.

El segundo mdulo que conforma ANA es el de descubrimiento y se basa en la

adquisicin de nuevos trminos a travs del descubrimiento, como lo hace una persona que

aprende un idioma. Este proceso se apoya en la co-ocurrencia de las palabras, esto puede

tener tres interpretaciones:

44

Expresiones: Una expresin se genera y se agrega a la lista de trminos (bootstrap)

cuando dos trminos co-ocurren frecuentemente, es decir, aparecen en estructuras

similares. Por ejemplo, en las frases the diesel engine is, this diesel engine has,

los trminos diesel y engine, que pertenecen al bootstrap, aparecen contiguos

frecuentemente, por lo tanto es posible que diesel engine sea un trmino y se agrega

a la lista de palabras base.

Candidato: Cuando una palabra, llammosla X, aparece seguidamente de una

palabra esquemtica y de trminos pertenecientes al bootstrap, se le considera como

un candidato a trmino y se agrega a la lista de palabras base. Ejemplo: en las frases

shade of wood, shade of color, shade of beech, donde of es una palabra

esquemtica y las palabras wood, color y beech son trminos, la palabra

shade cumple con la interpretacin de candidato.

Expansin: Este caso es similar al anterior, la diferencia es que no existe ninguna

palabra esquemtica entre el trmino y la palabra X. Un ejemplo sera: use any soft

woods to, this soft woods or, donde wood18 es un trmino, por tanto la palabra

soft wood se agregara al conjunto de trminos.

El proceso del mdulo 2 se realiza de manera recursiva hasta que no se encuentre

ningn trmino nuevo en el documento. Adems, durante el proceso de descubrimiento se

genera una red semntica, en el cual se muestran algunas relaciones morfolgicas y las co-

ocurrencias de los trminos.

Con respecto a los resultados, el sistema ANA fue evaluado para el ingls y para el

francs. En el caso del ingls se emple un corpus de 25,000 palabras el cual no fue

ejecutado en el mdulo de familiarizacin, sino que se indicaron de manera manual cada una

de las listas que se crean en este mdulo por el pequeo tamao que tena el corpus; del uso

de ANA en este corpus se obtuvieron 200 nuevos trminos. Para el francs, en cambio, se

18 Aunque la palabra en el ejemplo es woods y el trmino es wood, ANA reconoce que son la misma

palabra debido a que emplea una herramienta que llama Reconocimiento Flexible de Cadenas. Esta herramienta

emplea la distancia de edicin; por ejemplo, si se tiene casa y casas su distancia de edicin es 1 (adicin de una s), en cambio para caza y casa es de 2 (eliminacin de z y adicin de s); por tanto dos palabras se parecen si su distancia de edicin es muy pequea.

45

us un corpus de 120,000 palabras el cual s pas por el mdulo de familiarizacin; del

proceso de extraccin se obtuvieron ms de 3,000 nuevos trminos.

A pesar de los resultados obtenidos, los desarrolladores de ANA consideran que este

sistema es un extractor terminolgico especializado en corpus de gran tamao pero que sean

de mala calidad, ya que aprende sobre la lengua empleada.

2.2.2.2 Extractor de trminos estadstico basado en corpus

Este extractor terminolgico fue desarrollado por Pantel y Lin (2001) y se basa nicamente

en conocimiento estadstico.

El extractor terminolgico consta de dos partes; la primera consta de la extraccin de

candidatos de trminos. Para ello primero se recuperan todas los bigramas que se encuentren

en el texto y su frecuencia; esta informacin se almacena en una base de datos de

proximidad19

. Posteriormente, se eliminan los bigramas que no cumplen con una serie de

valores que estn relacionados con la frecuencia del bigrama, con el valor de informacin

mutua entre bigramas adyacentes20

y el valor del logaritmo de la verosimilitud entre las

palabras que pertenecen a un mismo bigrama21

.

La segunda parte del extractor consiste en la extraccin de trminos multipalabra; en

esta parte se realiza la extraccin de todas las construcciones que puede tener un bigrama

(extrado en el paso anterior) con sus palabras adyacentes, esto para obtener trminos que

sean ms grandes que bigramas; de este proceso slo se guardan las palabras adyacentes que

aparecieron en una misma construccin con el bigrama en cuestin varias veces. En seguida,

la base de datos de proximidad se actualiza con el bigrama formado por una palabra del

trmino original y por la de la nueva palabra que se encontr en la construccin. Finalmente,

19 Una base de datos de proximidad es una base de datos con dos tablas; en la primera se almacena el objeto o el

registro, mientras que en la segunda se guardan vnculos; cada tabla adems tiene algunos atributos, como el

nombre o valor (http://c2.com/cgi/wiki/Wiki?ProximityDatabase; http://kdl.cs.umass.edu/software/about.html).

20 Esto se lleva a cabo para eliminar bigramas que tengan una palabra que no est altamente relacionada con un

posible trmino.

21 Esto se realiza para saber si las palabras dentro del bigrama estn por casualidad o por una verdadera

importancia.

46

el proceso se vuelve recursivo y se emplea la nueva informacin que se obtuvo en la base de

datos de proximidad, para que se pueda extender un trmino y obtener sus variantes.

Este sistema de extraccin terminolgica se evalu usando precisin y cobertura

usando un corpus segmentado en el idioma chino, la razn de lo anterior es que dicen los

desarrolladores del sistema que el detectar palabras en chino es similar a detectar frases en

ingls. La precisin fue evaluada contra los valores que se obtuvieron del logaritmo de la

verosimilitud, mientras que la cobertura contra la frecuencia mnima de las palabras. Este

sistema de extraccin terminolgica obtuvo una precisin mxima de 74.4% y una cobertura

del 62.3%

2.2.3 Sistemas basados en conocimiento hbrido

Los sistemas de extraccin terminolgica no slo pueden estar basados en un tipo de

conocimiento; pueden emplear tanto el lingstico como el estadstico, de esta manera se

forma un sistema con conocimiento hbrido. El objetivo de este tipo de extractores

terminolgicos es crear sistemas que aprovechen al mximo las ventajas tanto de la parte

lingstica como de la estadstica y disminuyan las desventajas que ambos tienen.

2.2.3.1 Termext

Termext (Barrn-Cedeo et al., 2009) es un extractor terminolgico de tipo hbrido que se

basa en una adaptacin para el espaol del mtodo de C-Value/NC-Value (Frantzi et al.,

2000). Adems el mtodo fue modificado para que aceptara unigramas como trminos.

Este extractor de trminos est dividido a grandes rasgos en dos partes, la de C-Value,

y la de NC-Value. La primera parte, a su vez, se divide en dos procesos, el lingstico y el

estadstico. El proceso lingstico consiste en etiquetar con partes de la oracin y lematizar

cada uno de los textos a analizar por medio de la herramienta TreeTagger. Posteriormente,

dentro de este mismo proceso, se aplica un filtro lingstico que consiste en almacenar las

estructuras que pueden formar un trmino en espaol; este filtro puede ser abierto o cerrado,

si es abierto este es ms flexible con los patrones de los trminos, de lo contrario es estricto

con los patrones encontrados. En el proceso estadstico se calcula cul es la probabilidad de

que una estructura extrada sea un trmino; es decir, el C-Value, y para tal fin se toma en

47

cuenta la frecuencia de la estructura, la frecuencia de la estructura en estructuras ms

grandes, el nmero de ocurrencias de las estructuras ms grandes anteriores y la longitud de

la estructura.

La segunda parte que conforma a Termext es la del clculo de NC-value. Este valor

considera el contexto en el cual se encontraban los trminos obtenidos en el proceso anterior,

esto con base en que un trmino, por lo general, est rodeado de palabras que estn altamente

relacionadas y pueden ser un indicio que exprese qu tan representativo el trmino es o no.

Para ello se obtienen las palabras que en el contexto del trmino tengan cierta relevancia y se

les calcula un peso. Posteriormente, se calcula el NC-Value, usando estos pesos y el valor C-

Value del trmino. Finalmente, los trminos con valores ms altos de NC-Value son los

trminos que son ms importantes en el documento, mientras que los de menor valor, son

trminos no tan representativos.

El extractor Termext fue evaluado con precisin y cobertura cuatro veces, la primera

de ella con un filtro abierto sin una lista de paro obtuvo 23% de precisin y 82.6% en

cobertura. La segunda de evaluacin fue con un filtro lingstico abierto y con lista de paro,

la cual tuvo una precisin de 26.5% y una cobertura de 79.4%. La tercera evaluacin se llev

a cabo con un filtro cerrado sin lista de paro y la curta de ellas con un filtro cerrado y lista de

paro, en precisin se obtuvo un 24% y 30.8% respectivamente mientras que en cobertura se

alcanz un 46.3% y 50.3% de manera respectiva. Adems, para su uso, se indica que

Termext obtiene los mejores resultados de precisin y cobertura cuando se emplea un corpus

de carcter tcnico o cientfico de alto nivel de especializacin, de lo contrario se genera una

gran cantidad de ruido.

2.2.3.2 YATE

YATE (Vivaldi, 2001) es un extractor terminolgico que emplea conocimiento tanto

estadstico como lingstico. Permite extraer trminos tanto en espaol como en cataln, en

los dominios de medicina, economa y gentica. Las principales caractersticas de YATE son

dos: la primera es que emplea una combinacin de varias tcnicas de extraccin de trminos

y la segunda, que usa EuroWordNet como recurso lxico principal; de este recurso se hablar

ms adelante en la seccin 2.4.1.

48

Grosso modo, existen 3 procesos que conforman YATE, los cuales se explican a

continuacin:

Proceso lingstico: Este es el primer proceso del extractor YATE. En l se lleva a

cabo la segmentacin, un anlisis morfolgico y, finalmente, un etiquetado de partes

de la oracin. En este proceso se emplean recursos lxicos como diccionarios,

EuroWordNet y un corpus de referencia.

Filtro lingstico: Este proceso filtra las construcciones sintcticas que tienden a

generar trminos ya sea en espaol o en cataln, dependiendo del texto analizado. De

este proceso se obtienen los candidatos a trmino que sern utilizados en el siguiente

proceso.

Analizador de candidatos a trmino: Este es el ltimo proceso que forma parte de

YATE. En l se calculan las diversas mtricas y los datos que emplea YATE para

determinar si un candidato a trmino pertenece o no al dominio seleccionado.

Algunos de sus mdulos son los siguientes (Vivaldi et al., 2001):

o Sistema de combinacin: En este mdulo se unen todos los resultados para

crear la lista final de candidatos.

o Extractor de contenido semntico: Este mdulo emplea EuroWordNet para

determinar cundo una palabra dada pertenece al dominio analizado,

empleando identificadores de dominio.

o Formas griegas y latinas: En el vocabulario mdico se emplean muchas

palabras que contienen formas griegas y latinas; por lo tanto, el conocer los

trminos que contienen estas formas puede dar informacin til.

o Anlisis colocacional: En este mdulo se emplean algunas medidas

estadsticas para clasificar los candidatos a trmino, como la informacin

mutua y la informacin mutua cbica (MI3).

Para llevar a cabo la evaluacin de YATE se emple un corpus de 10,000 palabras

que consista en resmenes de artculos mdicos. Este sistema de extraccin terminolgica

fue evaluado con las medidas de precisin y cobertura, donde obtuvo un 97.2% de exactitud

para una cobertura del 30%.

49

2.3 Evaluacin de los extractores terminolgicos

Los sistemas de extraccin terminolgica, al igual que muchos otros sistemas realizados por

el hombre, necesitan que se les evale, ya que se necesita ver que el sistema cumpla con los

objetivos, funcione con los estndares adecuados y sea lo suficientemente bueno como para

realizar la tarea de forma automtica y no manual. Sin embargo, aun cuando la extraccin y

el reconocimiento automtico de trminos han sido trabajados por largo tiempo y desde

diferentes perspectivas, ningn gold standard22

de evaluacin ha sido introducido para

evaluar claramente y comparar distintos enfoques (Pazienza et al., 2005).

Aun as, se han desarrollado dos tcnicas para la evaluacin de los extractores

terminolgicos y se presentan a continuacin.

2.3.1 Lista de referencia

Uno de los mtodos utilizados para la evaluacin de los sistemas de extraccin terminolgica

es el empleo de una lista de referencia. En este caso, segn Pazienza et al. (2005), una lista de

referencia se toma como un gold standard; esta puede ser una lista de trminos ya existente

de un dominio o rea especfica, o puede ser construida por un experto analizando el corpus

que se emple para extraer los trminos.

Con la lista de referencia, el extractor terminolgico se evala mediante el empleo de

las mtricas de precisin y de cobertura que se vieron en el apartado 1.2.3.

Aunque la lista de referencia tiene sus ventajas, para Pazienza et al. (2005), en

trminos de eficiencia, la lista de referencia no es la mejor tcnica para calcular la precisin.

Esto se debe a que puede haber trminos reales que no fueron colocados en la lista y, por

tanto, se consideran como falsos, disminuyendo la precisin del sistema.

22 Un gold standard o una prueba estndar es una prueba o punto de referencia que califica, en este sentido, un

sistema; puede que esta prueba no sea la mejor, pero no existe alguna otra y cumple con los estndares ms

bsicos (http://en.wikipedia.org/wiki/Gold_standard_%28test%29).

50

2.3.2 Validacin

Otro de los mtodos empleados para la evaluacin de los extractores terminolgicos es la

validacin. Este mtodo es preferido cuando ningn gold standard est disponible o cuando

algunas caractersticas particulares del proceso de extraccin de trminos tienen que ser

explcitas (Pazienza et al., 2005).

Este mtodo consiste en validar los trminos que se encuentran en la lista creada por

el sistema en evaluacin. Para poder llevar esto a cabo, Pazienza et al. (2005) indican que es

necesario que se cumplan dos cosas. La primera de ellas, es que la validacin de la lista debe

ser realizada por varios expertos, esto para tener una lista de trminos mucho ms confiable.

El segundo parmetro a cumplir es que cada experto que va a participar en el anlisis debe

recibir una introduccin a lo que es un trmino. De todas maneras, cabe aclarar que aun

siguiendo estos dos parmetros, es posible que las listas resultantes sean diferentes, esto

puede ser debido a los distintos conocimientos de los expertos, al juicio del experto o a la

ambigedad de lo que es una unidad terminolgica; por tanto, es necesario que se llegue a un

acuerdo entre los expertos para obtener una lista validada.

Con la lista de trminos validada se emplean las mtricas de precisin y de cobertura

de la misma forma que ocurre en los sistemas de recuperacin de informacin.

Al igual que la lista de referencia, este mtodo de evaluacin tiene sus desventajas,

una de ellas es que no es el mejor mtodo para calcular la cobertura del sistema. La razn de

ello es que, al enfocarse en una lista extrada por el mismo sistema, se cierra la posibilidad de

conocer si existen otros trminos que se debieran haber obtenido.

2.4 Recursos electrnicos para la validacin

Actualmente, existen algunos extractores terminolgicos que validan cada uno de los

trminos encontrados en el documento antes de presentrselos al usuario; adems algunos de

ellos agregan informacin que podra ser de utilidad. Para ello emplean recursos semnticos,

en su mayora creados por expertos, que otorgan informacin sobre el dominio al que

51

pertenecen, como sinnimos. Algunos extractores que emplean este tipo de validacin,

adems de YATE, son MetaMap (Aronson y Lang, 2010) y TRUCKS (Maynard, 2000).

2.4.1 WordNet y EuroWordNet

WordNet es una base de datos lxica electrnica desarrollada por la Universidad de

Princeton, la cual sirve como recurso para aplicaciones en PLN y recuperacin de

informacin (Fellbaum, 1998). Esta base de datos slo maneja ingls y es de acceso libre por

internet23

. Su extensin a otros idiomas, como el espaol, se realiz por medio de

EuroWordNet (EWN), que es de paga y actualmente est en crecimiento en algunas lenguas.

Dentro de WordNet y, por consiguiente, de EuroWordNet, existen tres estructuras que

se encargan de las diversas categoras lingsticas que maneja, es decir, hay una para

sustantivos, otra para verbos y una para adjetivos y adverbios.

Esta base de datos se basa principalmente en conjuntos de sinnimos, llamados

synset, que representan todo un concepto. Por ejemplo, en el caso del ingls, cuando se busca

elevator tambin se muestra su variante britnica que es lift; en el caso del espaol si

buscamos tepalcate nos muestra que tiene como synset tejoleta, tiesto y casco.

La estructura de sustantivos, de WordNet y EWN, adems de manejarse a travs de

los synset, se maneja por medio de relaciones de hiponimia e hiperonimia. La hiponimia es

una relacin que denota un subconjunto o subclase de una palabra; por ejemplo, en EWN la

palabra automvil tiene como hipnimos las palabras limosina, sedn, jeep, entre

otros. En cambio, la hiperonimia es una relacin que expresa una superclase de una palabra;

vivienda, por ejemplo, es un hipernimo de casa, de estudio y de algunos otros ms.

WordNet y EWN, adems de contar con los synset, incluye definiciones tipo

diccionario y ejemplos de uso.

23 http://wordnetweb.princeton.edu/perl/webwn

52

2.4.2 Lexicn Specialist UMLS

Uno de los recursos lxicos electrnicos ms importantes del rea de la biomedicina es el

lexicn Specialist de UMLS. Este lexicn es uno de los tres recursos que se generaron dentro

del proyecto UMLS (Unified Medical Language System) creado por la Biblioteca Nacional

de Medicina de los Estados Unidos de Amrica (NLM).

Segn Ananiadou y McNaught (2006), el lexicn Specialist es un diccionario general

del ingls que contiene una gran cantidad de trminos de biomedicina. Todos estos trminos

fueron extrados de diversos recursos, como de los registros de MEDLINE/PubMed24

, del

metatesauro UMLS25

y de diccionarios mdicos del ingls.

Cada una de las entradas del lexicn puede ser monopalabra o multipalabra; a su vez,

estos trminos tienen informacin como categora gramatical, patrones complementarios

permitidos, lema, variantes ortogrficas y morfolgicas.

2.4.3 Wikipedia

Otro de los recursos que se han estado empleando actualmente para la validacin de

extractores es Wikipedia26

. La Wikipedia es una enciclopedia gratuita, multilenguaje, creada

para la red y construida de manera colaborativa por voluntarios (Zesch et al., 2008).

Esta enciclopedia est formada por artculos que crean una red interconectada de

conocimiento, adicionada con categoras y subcategoras (se podra decir que es un tipo de

hiperonimia e hiponimia, aunque no cumplan forzosamente con las relaciones) que los

voluntarios crean y organizan, y que permiten hasta cierto punto dividir los conocimientos en

reas o dominios. El uso de categoras y subcategoras forma lo que se conoce como una

taxonoma, es decir una ordenacin jerrquica y sistemtica; aunque hay autores como Peters

24 MEDLINE es una base de datos que almacena bibliografa mdica que provienen desde 1950. Su motor de

bsqueda es la herramienta de PubMed.

25 Es otro de los recursos del proyecto de UMLS que incluye conceptos del rea de biomedicina, nombres de

conceptos, sinnimos, as como las relaciones entre los conceptos.

26 http://www.wikipedia.org

53

(2009), que consideran esto realmente como una folksonoma27

, ya que es la gente quien

desarrolla la jerarquizacin y sistematizacin de la Wikipedia.

Adems Wikipedia contiene una gran cantidad de informacin semntica y lxica que

se complementa con el conocimiento de entidades nombradas y trminos de dominio

especfico o especializado que incluye el sitio. De igual forma, incluye un sistema de

redireccionamiento, que podra ser considerado un diccionario de sinnimos en el cual se

toman en cuenta variaciones ortogrficas, morfolgicas y de abreviaturas; por ejemplo, si se

busca en la Wikipedia ajolote, axolote o axolotl se redirecciona a Ambystoma

mexicanum, el nombre cientfico del ajolote. Tambin el sistema de redireccionamiento

funciona, en un menor grado, como un sistema que pasa de un tema especfico a uno general,

o de un verbo a un sustantivo.

Entre las ventajas con las que cuenta Wikipedia se puede mencionar que es un recurso

libre, que se actualiza y crece rpidamente, que maneja una gran cantidad de dominios y que

est en diversas lenguas, no solamente en las principales. Algunas de sus desventajas es que

no existe un control editorial o por expertos, y que no se siguen lineamientos especficos para

su construccin.

De este recurso electrnico se hablar ms adelante, en la seccin 3.4, donde se

abordar la estructura interna y la manera en que fue empleada en el proyecto de tesis.

27 Una folksonoma es un sistema de clasificacin de contenidos desarrollado de manera colaborativa (Peters,

2009).

A5

Documents

Transcript of A5