A5

23
31 2 TERMINOLOGÍA La palabra terminología en una primera instancia se puede considerar como la materia de intersección que se ocupa de la designación de los conceptos de las lenguas de especialidad (Cabré, 1992). Un lenguaje especializado es un lenguaje que se usa en un campo del conocimiento y que se caracteriza por el uso de medios específicos de expresión lingüística (ISO 1087-1:2000, 2000). Por tanto, en otras palabras, la terminología, como disciplina, es una materia interdisciplinaria que se encarga de designar conceptos del lenguaje que se emplean en los campos del conocimiento y que tienen características específicas que las diferencian de la lengua general o cotidiana. A lo largo de este tercer capítulo se abordará la terminología no solamente como disciplina sino también sus aplicaciones, su relación con el procesamiento de lenguaje y la aplicación de ambas materias en diversos sistemas y herramientas. 2.1 Terminología y terminografía La Terminología, no sólo designa a una disciplina, sino también define el conjunto de unidades léxicas usadas con un valor preciso en los ámbitos de especialidad (Cabré, 1992). Es decir, todo el grupo de conceptos que la terminología, como disciplina, designa. Tomando en cuenta lo anterior, para Cabré (1992), existen cuatro puntos que muestran los distintos enfoques sobre el estudio y la práctica de la terminología: Para los lingüistas, la terminología es una parte del léxico delimitada por criterios temáticos y pragmáticos. Para los especialistas, la terminología es el reflejo formal de la organización conceptual de una especialidad, y un medio inevitable de expresión y de comunicación profesional. Para los usuarios (directos e intermediarios), la terminología es un conjunto de unidades de comunicación, útiles y prácticas, cuyo valor se mide en función de criterios de economía, de precisión y de adecuación.

description

h

Transcript of A5

  • 31

    2 TERMINOLOGA

    La palabra terminologa en una primera instancia se puede considerar como la materia de

    interseccin que se ocupa de la designacin de los conceptos de las lenguas de especialidad

    (Cabr, 1992). Un lenguaje especializado es un lenguaje que se usa en un campo del

    conocimiento y que se caracteriza por el uso de medios especficos de expresin lingstica

    (ISO 1087-1:2000, 2000). Por tanto, en otras palabras, la terminologa, como disciplina, es

    una materia interdisciplinaria que se encarga de designar conceptos del lenguaje que se

    emplean en los campos del conocimiento y que tienen caractersticas especficas que las

    diferencian de la lengua general o cotidiana.

    A lo largo de este tercer captulo se abordar la terminologa no solamente como disciplina

    sino tambin sus aplicaciones, su relacin con el procesamiento de lenguaje y la aplicacin

    de ambas materias en diversos sistemas y herramientas.

    2.1 Terminologa y terminografa

    La Terminologa, no slo designa a una disciplina, sino tambin define el conjunto de

    unidades lxicas usadas con un valor preciso en los mbitos de especialidad (Cabr, 1992).

    Es decir, todo el grupo de conceptos que la terminologa, como disciplina, designa. Tomando

    en cuenta lo anterior, para Cabr (1992), existen cuatro puntos que muestran los distintos

    enfoques sobre el estudio y la prctica de la terminologa:

    Para los lingistas, la terminologa es una parte del lxico delimitada por criterios

    temticos y pragmticos.

    Para los especialistas, la terminologa es el reflejo formal de la organizacin

    conceptual de una especialidad, y un medio inevitable de expresin y de

    comunicacin profesional.

    Para los usuarios (directos e intermediarios), la terminologa es un conjunto de

    unidades de comunicacin, tiles y prcticas, cuyo valor se mide en funcin de

    criterios de economa, de precisin y de adecuacin.

  • 32

    Para los planificadores lingsticos, la terminologa es un mbito del lenguaje donde

    se debe intervenir para reafirmar la existencia, la utilidad y la pervivencia de una

    lengua, y para garantizar, mediante su modernizacin, su continuidad como medio de

    expresin.

    2.1.1 Los trminos

    Una unidad terminolgica, o trmino, es un smbolo convencional que representanta una

    nocin definida en un cierto dominio del saber (Lrat, 1989). La unin de varios trminos,

    forman la terminologa del dominio de especialidad.

    Existen distintos tipos de trminos, estos se suelen clasificar de distinta manera, en

    torno a cuatro aspectos que son forma, funcin, significado y procedencia (Cabr, 1992).

    El aspecto de forma es un conjunto de criterios que no son necesariamente

    excluyentes y que expresan la manera en que un trmino puede estar conformado. Estos

    criterios son los siguientes:

    Nmero de morfemas7: Dependiendo del nmero de morfemas un trmino puede ser

    simple o complejo. Ejemplo: cuadern-o, cuadern-os, en-cuadern-ado.

    Tipos de morfemas: Los distintos tipos de morfemas existentes en un trmino

    complejo determinan si es derivado o compuesto. Ejemplos de derivados son fruter-

    a, libr-ero, verd-oso. En cambio, algunos ejemplos de trminos compuestos son para-

    brisas, saca-corchos, balon-cesto.

    Estructura: Existen trminos complejos que son la combinacin de palabras que

    siguen una determinada estructura sintctica. Algunos ejemplos de estructuras que se

    emplean en el espaol son sustantivo-preposicin-sustantivo (mtodo de Newton-

    Raphson), sustantivo-adjetivo (cristal lquido).

    7 Segn el diccionario de la Real Academia Espaola un morfema es la unidad mnima analizable que posee

    slo significado gramatical. En otras palabras es la parte variante de la palabra que otorga un significado y

    permite formar nuevas palabras. Ejemplo: ni-o, ni-a, ni-os, ni-as

  • 33

    Origen complejo: En algunos casos los trminos simples provienen de trminos

    complejos; casos de este criterio son las abreviaturas (Del., av.), las siglas (SIDA,

    ONU), acrnimos (bit, sonar) o formas abreviadas (tele, cine).

    El segundo aspecto existente es el de funcin, es decir, los trminos siempre tienen

    una funcin determinada en las oraciones. Estas funciones pueden ser de nombres, adjetivos,

    verbos y adverbios. En el caso de las palabras funcionales, como las preposiciones,

    conjunciones, artculos, entre otros, Cabr (1992) indica que no tienen un carcter

    terminolgico.

    El aspecto siguiente es el de significado, el cual indica que un trmino denomina una

    determinada clase de conceptos. Para Cabr (1992) se pueden establecer cuatro grandes

    clases conceptuales que son las siguientes:

    Objetos o entidades: Nombres.

    Procesos, operaciones o acciones: Verbos, nominalizaciones de verbos8.

    Propiedades, estados, cualidades: Adjetivos.

    Relaciones: Adjetivos, verbos.

    El ltimo aspecto que es mencionado por Cabr es el de procedencia lingstica, es

    decir, los trminos pueden ser creados o construidos a partir de reglas del propio lenguaje o

    provenir de otras lenguas.

    2.1.2 La terminografa

    La terminografa es la rama aplicada de la terminologa que se ocupa de la elaboracin de

    diccionarios especializados o de glosarios terminolgicos (Cabr, 1995). Esta tarea incluye

    adems la compilacin, la sistematizacin y la presentacin de los trminos de las reas de

    especializacin.

    8 Es el proceso de convertir un verbo en un sustantivo, por ejemplo gotear goteo.

  • 34

    Aunque la tarea de la terminografa es similar al de la lexicografa9 (el de crear

    diccionarios y glosarios), estas dos tareas difieren en el mtodo que emplean, la forma en que

    emplean los datos y la manera en que presentan los resultados.

    Mientras que la lexicografa sigue un proceso semasiolgico, es decir, a partir del

    trmino crea la definicin; la terminografa parte de la definicin o de una lista de conceptos

    para determinar su trmino (que corresponda a la forma en que se emplea en el rea

    especializada), es decir, sigue un proceso onomasiolgico.

    De igual forma, dentro del proceso de la terminografa se lleva a cabo una

    normalizacin, esto quiere decir que se busca estandarizar los trminos que se emplean

    dentro de un rea especializada para conseguir una comunicacin profesional precisa,

    moderna y unvoca (Cabr, 1995).

    El proceso de la terminografa est conformado por seis fases que son las siguientes

    (Cabr, 1992):

    Definicin y delimitacin del trabajo: En esta primera fase se debe definir el tema a

    trabajar, cul es el pblico al que va dirigido, cul es la funcin que va a tener el

    trabajo y el alcance de la obra en funcin de las condiciones anteriores, pero tambin

    de las econmicas, temporales, materiales, acadmicas, entre otras.

    Preparacin del trabajo: Consiste en adquirir y reunir toda la informacin sobre el

    tema a trabajar, en la seleccin de asesores de trabajo, en la estructuracin que se va

    emplear y en la propuesta del plan de trabajo.

    Elaboracin de la terminologa: En la tercera fase de la terminografa se localizan

    los trminos en el corpus y se determina que pertenezcan al rea analizada.

    Presentacin del trabajo: En esta fase se crea la publicacin que contendr el

    trabajo realizado en las etapas anteriores.

    9 Es la rama aplicada de la lexicologa. Segn la RAE la lexicologa es el estudio de las unidades lxicas de una

    lengua y de las relaciones sistemticas que se establecen entre ellas.

  • 35

    Supervisin del trabajo: Durante esta fase se juntan los expertos en terminologa y

    los del rea determinada para supervisar que el trabajo realizado no tenga problemas

    y sea el adecuado.

    Tratamiento y resolucin de los casos problemticos: Si existen casos

    problemticos es necesario resolverlos; para ello se emplean diversos caminos

    dependiendo del caso, como consultar bibliografa complementaria, consultar a

    especialistas en la materia, lexicgrafos, especialistas multilinges o consultar a

    organismos oficiales de normalizacin.

    2.1.3 Extraccin de informacin terminolgica

    El desarrollo de nuevas materias de investigacin y aplicacin, como la informtica o las

    ciencias computacionales, y su incursin dentro de diversas reas, han hecho que muchas

    materias de investigacin cambien su metodologa, planteamiento o rendimiento. La

    terminologa no es la excepcin, ya que en la actualidad existe la termintica. Para Cabr

    (1992) la termintica es la materia que se ocupa, en general, de las relaciones entre la

    informtica y la terminologa; y, en particular, que trata de la aplicacin de la informtica al

    trabajo terminolgico.

    Esta incursin de la informtica en el rea de la terminologa, de manera ms

    especfica en la terminografa ha adquirido cierto protagonismo en algunas de las tareas que

    se llevan a cabo en la metodologa, como la documentacin previa, la constitucin del

    corpus, la verificacin de la informacin, entre otras tareas. Pero tambin la extraccin de

    trminos ha sido una de las tareas donde la informtica, especficamente el PLN, participa

    activamente por medio de la extraccin de informacin, esto ha desarrollado la extraccin de

    informacin terminolgica, extraccin terminolgica o terminology extraction (TE).

    La extraccin de informacin terminolgica es el uso de mtodos propios de la

    extraccin de informacin con el objetivo de extraer los trminos de un corpus apoyndose

    en el poder de procesamiento de las computadoras.

    Cabe destacar que la extraccin terminolgica est altamente relacionada con la

    recuperacin de informacin, no solamente porque la extraccin de informacin est

    relacionada con esa tarea, sino por que frecuentemente los trminos (empleando su sentido de

  • 36

    la bsqueda de informacin) que indizan los documentos son los trminos (en su sentido

    lingstico) que conforman a un documento. La nica diferencia es que la extraccin

    terminolgica busca obtener todas las unidades terminolgicas y no slo las ms

    representativas de un documento. Por tanto, son constantemente empleadas tcnicas que en

    un principio eran solamente de indizacin de documentos en sistemas de extraccin de

    terminologa.

    2.2 Sistemas actuales de extraccin terminolgica

    Segn Cabr et al. (2001) desde el 2000 los lingistas computacionales, los investigadores en

    lingista aplicada, traductores, intrpretes, periodistas, cientficos e ingenieros en

    computacin han estado interesados en el aislamiento automtico de la terminologa de

    textos. La razn de ello es que la terminologa no slo sirve para crear diccionarios o

    glosarios, tambin es til en la traduccin automtica, en el resumen automtico, en bases de

    conocimiento, en sistemas expertos, entre otras tareas.

    Por lo anterior se han desarrollado sistemas que extraigan de manera automtica la

    terminologa de grandes cantidades de texto, de una manera rpida. Sin embargo, con el paso

    del tiempo los desarrolladores de los sistemas de extraccin terminolgica han observado que

    existen diversas complicaciones la cuales, segn Cabr et al. (2001), son las siguientes:

    Identificacin de trminos complejos, es decir, se necesita reconocer cundo una

    unidad discursiva10

    constituye una frase terminolgica y dnde comienza y termina

    sta.

    Identificacin de la naturaleza terminolgica de una unidad lxica11, esto es, conocer

    cuando dentro de un texto especializado una unidad lxica tiene una naturaleza

    terminolgica o pertenece al lenguaje general.

    La propiedad y conveniencia de una unidad terminolgica en un vocabulario dado.

    10 Una unidad discursiva es una estructura que puede ser identificable dentro de un texto (http://linguistics-

    ontology.org/gold/DiscourseUnit).

    11 Una unidad lxica es un elemento que es objeto de definicin en un diccionario, vocabulario, glosario,

    etctera (Luna Trail et al., 2005).

  • 37

    Los sistemas de extraccin terminolgica se basan en tres tipos de conocimientos que

    son los lingsticos, los estadsticos y los hbridos. Cada uno de estos tipos de sistemas se

    explicar en los apartados siguientes, adems de que se darn a conocer algunos sistemas de

    extraccin terminolgica.

    2.2.1 Sistemas basados en conocimiento lingstico

    Como se indic en el apartado anterior, los sistemas de extraccin terminolgica se basan en

    distintos tipos de conocimiento y uno de ellos es el lingstico; su razn de uso es porque la

    terminologa y los trminos estn ampliamente relacionados con la lingstica.

    Para Pazienza et al. (2005) los sistemas con un acercamiento lingstico tratan de

    identificar trminos a travs de sus propiedades sintcticas, esto se debe a que

    frecuentemente las unidades terminolgicas tienen estructuras sintcticas definidas, como se

    vio en la seccin 2.1.1. Estos sistemas se pueden basar en dos tipos de informacin (Cabr et

    al., 2001):

    Trmino especfico: Este consiste en la deteccin de patrones recurrentes de

    unidades terminolgicas complejas; en la Tabla 5 podemos ver algunas estructuras

    empleadas en el espaol que definen por lo general un trmino; en cambio en la Tabla

    6 podemos observar algunas estructuras sintcticas que por lo general no forman un

    trmino. Los patrones que se buscan provienen de reglas que se obtienen de manera

    emprica a travs del anlisis de datos y se pueden programar a travs de expresiones

    regulares o autmatas de estados finitos.

    Lenguaje genrico: Consiste en la deteccin de estructuras lingsticas ms bsicas,

    como los sintagmas12

    nominales (por ejemplo: libro, campo de trigo), sintagmas

    preposicionales (de Mara, para cocinar), entre otros. Para ello se emplean

    herramientas de PLN complejas, como son los analizadores sintcticos, tambin

    conocidos como parsers, que son herramientas que analizan la estructura de un texto

    con base en una gramtica.

    12 Un sintagma, segn la Real Academia Espaola, es un conjunto de palabras. Por ejemplo: un sintagma

    nominal est construido en torno a un nombre o sustantivo. En cambio, uno preposicional, es el formado

    alrededor de una preposicin.

  • 38

    Estructura sintctica Ejemplos

    sustantivo agua, planeta, protozoario, cimiento

    sustantivo + adjetivo plano inclinado, agua oxigenada

    sustantivo + preposicin + sustantivo lmpara de halgeno, dixido de carbono

    Tabla 5. Ejemplos de estructuras sintcticas para trminos en espaol

    Estructura sintctica Ejemplos

    artculo + sustantivo la casa, el nio, los pases

    sustantivo + y/o + sustantivo guila o sol, coseno y tangente

    Tabla 6. Ejemplos de estructuras sintcticas que no forman por lo general trminos en espaol

    Los tipos de informacin explicados anteriormente se basan en el anlisis

    morfolgico.

    Los sistemas terminolgicos basados en conocimiento lingstico tienen como ventaja

    que encuentran trminos sin importar su frecuencia o importancia en el texto, pues se basan

    en su estructura. En cambio, su desventaja, es que son propensos al ruido, es decir, los

    sistemas son proclives a encontrar estructuras falsas debido a errores en la asignacin de la

    categora gramatical (anlisis morfolgico); de igual manera, los sistemas basados en

    conocimiento lingstico son dependientes de la lengua, ya que las reglas generadas pueden

    no servir en otras lenguas.

    2.2.1.1 LEXTER

    El sistema de extraccin de trminos LEXTER (Bourigault, 1994) fue desarrollado para el

    francs basndose en conocimiento lingstico; su objetivo principal era mejorar el sistema

    de indizacin de la compaa EDF (Electricit de France).

    El principio bsico de LEXTER es encontrar las fronteras de los sintagmas

    nominales, pero en lugar de hacerlo de manera positiva, es decir, encontrando las

    estructuras que emplean los trminos frecuentemente en francs, se realiz de manera

    negativa, en otras palabras, era encontrar estructuras sintcticas que claramente no

    formaran un trmino.

  • 39

    La primera tarea que realiza LEXTER es un anlisis morfolgico y de

    desambiguacin para cada uno de los textos que se va a analizar. Posteriormente, el sistema

    busca, dentro del texto preprocesado, patrones que no sean parte de un sintagma nominal y

    por tanto, de un trmino. Algunos casos segn Bourigault et al. (1996) son verbos,

    pronombres, preposiciones unidos a artculos posesivos, entre otros. Este proceso deja

    secuencias de palabras que por lo general corresponden a sintagmas nominales y son

    candidatos a ser trminos o partes de ellos son candidatos; a este conjunto de palabras le

    llamaron MLNP (Maximal-Length Noun Phrases).

    La segunda tarea consiste en un analizador sintctico que analiza los MLNP para

    dividir candidatos terminolgicos complejos en partes ms sencillas llamadas cabeza (head,

    H) y expansin (expansion, E). El mdulo del analizador sintctico se basa en reglas, que

    indican qu partes son la cabeza y qu partes son la expansin del MLNP; en caso de

    encontrar estructuras ambiguas, existe un algoritmo de desambiguacin que ejecuta distintas

    formas de una regla si se hallan formaciones en la estructura ambigua que ya hubieran sido

    encontradas durante el anlisis. A continuacin, en la Tabla 7 se muestra una regla no

    ambigua, mientras que en la Tabla 8 se ejemplifica otra donde se presentan casos de

    ambigedad.

    Regla no ambigua

    Cabeza:

    Cabeza:

    Extensin:

    Extensin:

    Tabla 7. Ejemplo de una regla no ambigua empleada en LEXTER

  • 40

    Regla ambigua

    Caso 1

    Cabeza:

    Extensin:

    Cabeza:

    Extensin:

    Caso 2

    Cabeza:

    Cabeza:

    Extensin: :

    Extensin:

    Tabla 8. Ejemplo de una regla ambigua empleada en LEXTER

    La tercera parte del proceso es un mdulo de estructuracin que emplea la

    informacin dada por el paso anterior para crear una red terminolgica. Este consiste en

    vincular las cabezas y extensiones de trminos complejos con trminos menos complejos, y

    estos, a su vez, vincularlos con trminos todava menos complejos hasta formar una red. En

    la Figura 6 se muestra un ejemplo13

    de la red terminolgica generada por LEXTER.

    vanne

    vanne manuelle

    vanne manuelle disolement

    commande manucllc

    lignage manucl

    ordre manucl

    repositionnement manucl

    robinct manucl

    manuelle

    isolement

    vanne motorise

    vannc pneumatiquc

    vannc d'isolcmcnt d'enceinte

    vanne dc dbit nul

    vanne dc recirculation directe

    vanne d'alimcntation

    H

    E

    H E

    Figura 6. Ejemplo de una red terminolgica creada por LEXTER

    Al sistema extractor de trminos LEXTER se le considera un sistema robusto, preciso

    e independiente del dominio desarrollado para el idioma francs. Sin embargo, LEXTER

    tiene algunos problemas de ruido por errores en el anlisis morfolgico, como ocurre en la

    mayora de los sistemas basados en conocimiento lingstico. Aun as, se le considera a este

    13 Ejemplo extrado de Bourigault et al. (1996)

  • 41

    extractor de trminos un buen sistema por su habilidad de aprender conforme se van

    obteniendo unidades terminolgicas.

    2.2.1.2 HEID

    HEID (Heid et al., 1996) es un sistema de extraccin terminolgica que se basa en

    conocimiento lingstico para el idioma alemn. Su objetivo es aumentar la eficiencia del

    proceso de creacin de glosarios en tareas relacionadas con la traduccin de textos tcnicos,

    en este caso de ingeniera automovilstica.

    El sistema de extraccin est compuesto de dos partes, la primera de ellas es el

    anlisis lingstico y la anotacin de los textos; la segunda es la extraccin de trminos por

    medio de consultas en el corpus.

    El anlisis lingstico consiste en un tokenizador, un analizador morfosintctico14

    , un

    etiquetador POS15

    y un lematizador que se ejecutan al inicio del anlisis. Posteriormente se

    extraen construcciones caractersticas de los sintagmas nominales, esto se debe a que no

    exista en el momento del desarrollo del extractor terminolgico un analizador sintctico de

    cobertura amplia para el alemn que pudiera extraer de manera total sintagmas nominales.

    La extraccin de trminos est conformada por tres componentes principales:

    Procesador de consultas de corpus general (CPQ): Es un procesador que puede

    soportar expresiones complejas de consultas, como expresiones regulares, etiquetas

    POS, lemas, entre otras.

    Macroprocesador para el lenguaje de consulta CPQ: La extraccin de trminos en

    HEID se basa en listas de afijos y en la verificacin de los contextos tpicos de los

    candidatos a trmino (Heid et al., 1996); para llevar a cabo este proceso, dado un

    parmetro en consulta, ejecuta este en un gran nmero de palabras mientras mantiene

    los dems parmetros de la consulta iguales.

    14 Identifica las categoras gramaticales, morfosintcticas y caractersticas distribucionales (Heid et al., 1996)

    15 Es un etiquetador de partes de la oracin, el cual segn Heid et al. (1996) desambigua los casos identificados

    en el proceso morfosintctico.

  • 42

    XKWIC: Esta herramienta grfica muestra los trminos y sus concordancias16;

    tambin permite ordenar de manera automtica el material extrado segn las

    necesidades del usuario.

    El extractor terminolgico HEID fue evaluado empleando manuales de

    mantenimiento en alemn. Se busc extraer principalmente trminos monopalabra, que

    frecuentemente representan sintagmas nominales en alemn; en este tipo de casos se

    obtuvieron algunos problemas por ruido los cuales, segn los desarrolladores, pueden ser

    eliminados con el uso de filtros (por frecuencia, por categora gramatical, entre otros).

    Asimismo, HEID permite extraer colocaciones17

    combinando sustantivos y verbos, aunque,

    en este caso los resultados no son muy buenos.

    2.2.2 Sistemas basados en conocimiento estadstico

    Adems de los sistemas basados en conocimiento lingstico, existen aquellos que se basan

    en conocimiento estadstico, es decir, en el empleo de frmulas matemticas, modelos

    probabilsticos, modelos heursticos, entre otros.

    Estos sistemas, adems de extraer trminos, otorgan una calificacin que permite

    clasificar los resultados en buenos o malos. Aunque lo anterior es algo ambiguo, lo que se

    busca es que los trminos extrados con una alta calificacin expresen una mayor relevancia

    en el documento o corpus, mientras que uno con baja calificacin indique lo opuesto.

    Existen mltiples medidas estadsticas que se emplean en los extractores

    terminolgicos, como el TF-IDF, el logaritmo de la verosimilitud (Log Likelihood), el T-

    score, entre otros.

    La ventaja de estos sistemas de extraccin es que son independientes de la lengua e

    indican una calificacin para cada uno de los trminos. El problema con este tipo de enfoque

    16 Las concordancias, segn la Real Academia Espaola (RAE), es el ndice de todas las palabras de un libro o

    del conjunto de la obra de un autor, con todas las citas de los lugares en que se hallan.

    17 Propiedad que tienen ciertos sustantivo y verbos, y algunos sustantivos y adjetivos de coincidir en estructuras

    sintagmticas, gracias a su estructura semntica: gato y ronronear, planta y marchita (Luna Trail et al., 2005).

  • 43

    es que existen trminos de baja frecuencia difciles de manejar por los sistemas de extraccin

    (Cabr et al., 2001), esto genera lo que se llama silencio.

    2.2.2.1 ANA

    El sistema ANA (Euguehard y Pantera, 1994), Automatic Natural Acquisition, es un

    extractor terminolgico basado en conocimiento estadstico. Se bas en la idea de que este

    sistema deba poder extraer los trminos de cualquier texto, sin importar si estaba bien escrito

    o no, si eran textos escritos o transcripciones de conversaciones y sin la utilizacin de

    conocimiento lingstico. El extractor estaba diseado para funcionar con cualquier lengua

    europea que no fuera aglutinante; sus pruebas se basaron en el ingls y el francs.

    El sistema est formado por dos mdulos: el de familiarizacin y el de

    descubrimiento. El primero de estos determina tres listas que emplea como conocimiento de

    la lengua a analizar; este conocimiento es extrado de manera estadstica sin el uso de

    diccionarios o gramticas. Las listas empleadas como conocimiento son las siguientes:

    Palabras funcionales: Es un conjunto de palabras que aportan poco o ninguna

    informacin (Seccin 1.1.6). En esta lista entran artculos, pronombres y algunos

    verbos recurrentes.

    Palabras esquemticas: Son las palabras que establecen una relacin semntica

    entre otras palabras. Por ejemplo, Euguehard y Pantera (1994) indican que en el

    fragmento box of nails, la palabra of indica una cierta relacin entre box y

    nails, por lo tanto of es una palabra esquemtica.

    Palabras base (bootstrap): Es el conjunto de trminos base con el que se inicia el

    sistema, es decir, este grupo de unidades terminolgicas es el ncleo del extractor

    terminolgico ANA.

    El segundo mdulo que conforma ANA es el de descubrimiento y se basa en la

    adquisicin de nuevos trminos a travs del descubrimiento, como lo hace una persona que

    aprende un idioma. Este proceso se apoya en la co-ocurrencia de las palabras, esto puede

    tener tres interpretaciones:

  • 44

    Expresiones: Una expresin se genera y se agrega a la lista de trminos (bootstrap)

    cuando dos trminos co-ocurren frecuentemente, es decir, aparecen en estructuras

    similares. Por ejemplo, en las frases the diesel engine is, this diesel engine has,

    los trminos diesel y engine, que pertenecen al bootstrap, aparecen contiguos

    frecuentemente, por lo tanto es posible que diesel engine sea un trmino y se agrega

    a la lista de palabras base.

    Candidato: Cuando una palabra, llammosla X, aparece seguidamente de una

    palabra esquemtica y de trminos pertenecientes al bootstrap, se le considera como

    un candidato a trmino y se agrega a la lista de palabras base. Ejemplo: en las frases

    shade of wood, shade of color, shade of beech, donde of es una palabra

    esquemtica y las palabras wood, color y beech son trminos, la palabra

    shade cumple con la interpretacin de candidato.

    Expansin: Este caso es similar al anterior, la diferencia es que no existe ninguna

    palabra esquemtica entre el trmino y la palabra X. Un ejemplo sera: use any soft

    woods to, this soft woods or, donde wood18 es un trmino, por tanto la palabra

    soft wood se agregara al conjunto de trminos.

    El proceso del mdulo 2 se realiza de manera recursiva hasta que no se encuentre

    ningn trmino nuevo en el documento. Adems, durante el proceso de descubrimiento se

    genera una red semntica, en el cual se muestran algunas relaciones morfolgicas y las co-

    ocurrencias de los trminos.

    Con respecto a los resultados, el sistema ANA fue evaluado para el ingls y para el

    francs. En el caso del ingls se emple un corpus de 25,000 palabras el cual no fue

    ejecutado en el mdulo de familiarizacin, sino que se indicaron de manera manual cada una

    de las listas que se crean en este mdulo por el pequeo tamao que tena el corpus; del uso

    de ANA en este corpus se obtuvieron 200 nuevos trminos. Para el francs, en cambio, se

    18 Aunque la palabra en el ejemplo es woods y el trmino es wood, ANA reconoce que son la misma

    palabra debido a que emplea una herramienta que llama Reconocimiento Flexible de Cadenas. Esta herramienta

    emplea la distancia de edicin; por ejemplo, si se tiene casa y casas su distancia de edicin es 1 (adicin de una s), en cambio para caza y casa es de 2 (eliminacin de z y adicin de s); por tanto dos palabras se parecen si su distancia de edicin es muy pequea.

  • 45

    us un corpus de 120,000 palabras el cual s pas por el mdulo de familiarizacin; del

    proceso de extraccin se obtuvieron ms de 3,000 nuevos trminos.

    A pesar de los resultados obtenidos, los desarrolladores de ANA consideran que este

    sistema es un extractor terminolgico especializado en corpus de gran tamao pero que sean

    de mala calidad, ya que aprende sobre la lengua empleada.

    2.2.2.2 Extractor de trminos estadstico basado en corpus

    Este extractor terminolgico fue desarrollado por Pantel y Lin (2001) y se basa nicamente

    en conocimiento estadstico.

    El extractor terminolgico consta de dos partes; la primera consta de la extraccin de

    candidatos de trminos. Para ello primero se recuperan todas los bigramas que se encuentren

    en el texto y su frecuencia; esta informacin se almacena en una base de datos de

    proximidad19

    . Posteriormente, se eliminan los bigramas que no cumplen con una serie de

    valores que estn relacionados con la frecuencia del bigrama, con el valor de informacin

    mutua entre bigramas adyacentes20

    y el valor del logaritmo de la verosimilitud entre las

    palabras que pertenecen a un mismo bigrama21

    .

    La segunda parte del extractor consiste en la extraccin de trminos multipalabra; en

    esta parte se realiza la extraccin de todas las construcciones que puede tener un bigrama

    (extrado en el paso anterior) con sus palabras adyacentes, esto para obtener trminos que

    sean ms grandes que bigramas; de este proceso slo se guardan las palabras adyacentes que

    aparecieron en una misma construccin con el bigrama en cuestin varias veces. En seguida,

    la base de datos de proximidad se actualiza con el bigrama formado por una palabra del

    trmino original y por la de la nueva palabra que se encontr en la construccin. Finalmente,

    19 Una base de datos de proximidad es una base de datos con dos tablas; en la primera se almacena el objeto o el

    registro, mientras que en la segunda se guardan vnculos; cada tabla adems tiene algunos atributos, como el

    nombre o valor (http://c2.com/cgi/wiki/Wiki?ProximityDatabase; http://kdl.cs.umass.edu/software/about.html).

    20 Esto se lleva a cabo para eliminar bigramas que tengan una palabra que no est altamente relacionada con un

    posible trmino.

    21 Esto se realiza para saber si las palabras dentro del bigrama estn por casualidad o por una verdadera

    importancia.

  • 46

    el proceso se vuelve recursivo y se emplea la nueva informacin que se obtuvo en la base de

    datos de proximidad, para que se pueda extender un trmino y obtener sus variantes.

    Este sistema de extraccin terminolgica se evalu usando precisin y cobertura

    usando un corpus segmentado en el idioma chino, la razn de lo anterior es que dicen los

    desarrolladores del sistema que el detectar palabras en chino es similar a detectar frases en

    ingls. La precisin fue evaluada contra los valores que se obtuvieron del logaritmo de la

    verosimilitud, mientras que la cobertura contra la frecuencia mnima de las palabras. Este

    sistema de extraccin terminolgica obtuvo una precisin mxima de 74.4% y una cobertura

    del 62.3%

    2.2.3 Sistemas basados en conocimiento hbrido

    Los sistemas de extraccin terminolgica no slo pueden estar basados en un tipo de

    conocimiento; pueden emplear tanto el lingstico como el estadstico, de esta manera se

    forma un sistema con conocimiento hbrido. El objetivo de este tipo de extractores

    terminolgicos es crear sistemas que aprovechen al mximo las ventajas tanto de la parte

    lingstica como de la estadstica y disminuyan las desventajas que ambos tienen.

    2.2.3.1 Termext

    Termext (Barrn-Cedeo et al., 2009) es un extractor terminolgico de tipo hbrido que se

    basa en una adaptacin para el espaol del mtodo de C-Value/NC-Value (Frantzi et al.,

    2000). Adems el mtodo fue modificado para que aceptara unigramas como trminos.

    Este extractor de trminos est dividido a grandes rasgos en dos partes, la de C-Value,

    y la de NC-Value. La primera parte, a su vez, se divide en dos procesos, el lingstico y el

    estadstico. El proceso lingstico consiste en etiquetar con partes de la oracin y lematizar

    cada uno de los textos a analizar por medio de la herramienta TreeTagger. Posteriormente,

    dentro de este mismo proceso, se aplica un filtro lingstico que consiste en almacenar las

    estructuras que pueden formar un trmino en espaol; este filtro puede ser abierto o cerrado,

    si es abierto este es ms flexible con los patrones de los trminos, de lo contrario es estricto

    con los patrones encontrados. En el proceso estadstico se calcula cul es la probabilidad de

    que una estructura extrada sea un trmino; es decir, el C-Value, y para tal fin se toma en

  • 47

    cuenta la frecuencia de la estructura, la frecuencia de la estructura en estructuras ms

    grandes, el nmero de ocurrencias de las estructuras ms grandes anteriores y la longitud de

    la estructura.

    La segunda parte que conforma a Termext es la del clculo de NC-value. Este valor

    considera el contexto en el cual se encontraban los trminos obtenidos en el proceso anterior,

    esto con base en que un trmino, por lo general, est rodeado de palabras que estn altamente

    relacionadas y pueden ser un indicio que exprese qu tan representativo el trmino es o no.

    Para ello se obtienen las palabras que en el contexto del trmino tengan cierta relevancia y se

    les calcula un peso. Posteriormente, se calcula el NC-Value, usando estos pesos y el valor C-

    Value del trmino. Finalmente, los trminos con valores ms altos de NC-Value son los

    trminos que son ms importantes en el documento, mientras que los de menor valor, son

    trminos no tan representativos.

    El extractor Termext fue evaluado con precisin y cobertura cuatro veces, la primera

    de ella con un filtro abierto sin una lista de paro obtuvo 23% de precisin y 82.6% en

    cobertura. La segunda de evaluacin fue con un filtro lingstico abierto y con lista de paro,

    la cual tuvo una precisin de 26.5% y una cobertura de 79.4%. La tercera evaluacin se llev

    a cabo con un filtro cerrado sin lista de paro y la curta de ellas con un filtro cerrado y lista de

    paro, en precisin se obtuvo un 24% y 30.8% respectivamente mientras que en cobertura se

    alcanz un 46.3% y 50.3% de manera respectiva. Adems, para su uso, se indica que

    Termext obtiene los mejores resultados de precisin y cobertura cuando se emplea un corpus

    de carcter tcnico o cientfico de alto nivel de especializacin, de lo contrario se genera una

    gran cantidad de ruido.

    2.2.3.2 YATE

    YATE (Vivaldi, 2001) es un extractor terminolgico que emplea conocimiento tanto

    estadstico como lingstico. Permite extraer trminos tanto en espaol como en cataln, en

    los dominios de medicina, economa y gentica. Las principales caractersticas de YATE son

    dos: la primera es que emplea una combinacin de varias tcnicas de extraccin de trminos

    y la segunda, que usa EuroWordNet como recurso lxico principal; de este recurso se hablar

    ms adelante en la seccin 2.4.1.

  • 48

    Grosso modo, existen 3 procesos que conforman YATE, los cuales se explican a

    continuacin:

    Proceso lingstico: Este es el primer proceso del extractor YATE. En l se lleva a

    cabo la segmentacin, un anlisis morfolgico y, finalmente, un etiquetado de partes

    de la oracin. En este proceso se emplean recursos lxicos como diccionarios,

    EuroWordNet y un corpus de referencia.

    Filtro lingstico: Este proceso filtra las construcciones sintcticas que tienden a

    generar trminos ya sea en espaol o en cataln, dependiendo del texto analizado. De

    este proceso se obtienen los candidatos a trmino que sern utilizados en el siguiente

    proceso.

    Analizador de candidatos a trmino: Este es el ltimo proceso que forma parte de

    YATE. En l se calculan las diversas mtricas y los datos que emplea YATE para

    determinar si un candidato a trmino pertenece o no al dominio seleccionado.

    Algunos de sus mdulos son los siguientes (Vivaldi et al., 2001):

    o Sistema de combinacin: En este mdulo se unen todos los resultados para

    crear la lista final de candidatos.

    o Extractor de contenido semntico: Este mdulo emplea EuroWordNet para

    determinar cundo una palabra dada pertenece al dominio analizado,

    empleando identificadores de dominio.

    o Formas griegas y latinas: En el vocabulario mdico se emplean muchas

    palabras que contienen formas griegas y latinas; por lo tanto, el conocer los

    trminos que contienen estas formas puede dar informacin til.

    o Anlisis colocacional: En este mdulo se emplean algunas medidas

    estadsticas para clasificar los candidatos a trmino, como la informacin

    mutua y la informacin mutua cbica (MI3).

    Para llevar a cabo la evaluacin de YATE se emple un corpus de 10,000 palabras

    que consista en resmenes de artculos mdicos. Este sistema de extraccin terminolgica

    fue evaluado con las medidas de precisin y cobertura, donde obtuvo un 97.2% de exactitud

    para una cobertura del 30%.

  • 49

    2.3 Evaluacin de los extractores terminolgicos

    Los sistemas de extraccin terminolgica, al igual que muchos otros sistemas realizados por

    el hombre, necesitan que se les evale, ya que se necesita ver que el sistema cumpla con los

    objetivos, funcione con los estndares adecuados y sea lo suficientemente bueno como para

    realizar la tarea de forma automtica y no manual. Sin embargo, aun cuando la extraccin y

    el reconocimiento automtico de trminos han sido trabajados por largo tiempo y desde

    diferentes perspectivas, ningn gold standard22

    de evaluacin ha sido introducido para

    evaluar claramente y comparar distintos enfoques (Pazienza et al., 2005).

    Aun as, se han desarrollado dos tcnicas para la evaluacin de los extractores

    terminolgicos y se presentan a continuacin.

    2.3.1 Lista de referencia

    Uno de los mtodos utilizados para la evaluacin de los sistemas de extraccin terminolgica

    es el empleo de una lista de referencia. En este caso, segn Pazienza et al. (2005), una lista de

    referencia se toma como un gold standard; esta puede ser una lista de trminos ya existente

    de un dominio o rea especfica, o puede ser construida por un experto analizando el corpus

    que se emple para extraer los trminos.

    Con la lista de referencia, el extractor terminolgico se evala mediante el empleo de

    las mtricas de precisin y de cobertura que se vieron en el apartado 1.2.3.

    Aunque la lista de referencia tiene sus ventajas, para Pazienza et al. (2005), en

    trminos de eficiencia, la lista de referencia no es la mejor tcnica para calcular la precisin.

    Esto se debe a que puede haber trminos reales que no fueron colocados en la lista y, por

    tanto, se consideran como falsos, disminuyendo la precisin del sistema.

    22 Un gold standard o una prueba estndar es una prueba o punto de referencia que califica, en este sentido, un

    sistema; puede que esta prueba no sea la mejor, pero no existe alguna otra y cumple con los estndares ms

    bsicos (http://en.wikipedia.org/wiki/Gold_standard_%28test%29).

  • 50

    2.3.2 Validacin

    Otro de los mtodos empleados para la evaluacin de los extractores terminolgicos es la

    validacin. Este mtodo es preferido cuando ningn gold standard est disponible o cuando

    algunas caractersticas particulares del proceso de extraccin de trminos tienen que ser

    explcitas (Pazienza et al., 2005).

    Este mtodo consiste en validar los trminos que se encuentran en la lista creada por

    el sistema en evaluacin. Para poder llevar esto a cabo, Pazienza et al. (2005) indican que es

    necesario que se cumplan dos cosas. La primera de ellas, es que la validacin de la lista debe

    ser realizada por varios expertos, esto para tener una lista de trminos mucho ms confiable.

    El segundo parmetro a cumplir es que cada experto que va a participar en el anlisis debe

    recibir una introduccin a lo que es un trmino. De todas maneras, cabe aclarar que aun

    siguiendo estos dos parmetros, es posible que las listas resultantes sean diferentes, esto

    puede ser debido a los distintos conocimientos de los expertos, al juicio del experto o a la

    ambigedad de lo que es una unidad terminolgica; por tanto, es necesario que se llegue a un

    acuerdo entre los expertos para obtener una lista validada.

    Con la lista de trminos validada se emplean las mtricas de precisin y de cobertura

    de la misma forma que ocurre en los sistemas de recuperacin de informacin.

    Al igual que la lista de referencia, este mtodo de evaluacin tiene sus desventajas,

    una de ellas es que no es el mejor mtodo para calcular la cobertura del sistema. La razn de

    ello es que, al enfocarse en una lista extrada por el mismo sistema, se cierra la posibilidad de

    conocer si existen otros trminos que se debieran haber obtenido.

    2.4 Recursos electrnicos para la validacin

    Actualmente, existen algunos extractores terminolgicos que validan cada uno de los

    trminos encontrados en el documento antes de presentrselos al usuario; adems algunos de

    ellos agregan informacin que podra ser de utilidad. Para ello emplean recursos semnticos,

    en su mayora creados por expertos, que otorgan informacin sobre el dominio al que

  • 51

    pertenecen, como sinnimos. Algunos extractores que emplean este tipo de validacin,

    adems de YATE, son MetaMap (Aronson y Lang, 2010) y TRUCKS (Maynard, 2000).

    2.4.1 WordNet y EuroWordNet

    WordNet es una base de datos lxica electrnica desarrollada por la Universidad de

    Princeton, la cual sirve como recurso para aplicaciones en PLN y recuperacin de

    informacin (Fellbaum, 1998). Esta base de datos slo maneja ingls y es de acceso libre por

    internet23

    . Su extensin a otros idiomas, como el espaol, se realiz por medio de

    EuroWordNet (EWN), que es de paga y actualmente est en crecimiento en algunas lenguas.

    Dentro de WordNet y, por consiguiente, de EuroWordNet, existen tres estructuras que

    se encargan de las diversas categoras lingsticas que maneja, es decir, hay una para

    sustantivos, otra para verbos y una para adjetivos y adverbios.

    Esta base de datos se basa principalmente en conjuntos de sinnimos, llamados

    synset, que representan todo un concepto. Por ejemplo, en el caso del ingls, cuando se busca

    elevator tambin se muestra su variante britnica que es lift; en el caso del espaol si

    buscamos tepalcate nos muestra que tiene como synset tejoleta, tiesto y casco.

    La estructura de sustantivos, de WordNet y EWN, adems de manejarse a travs de

    los synset, se maneja por medio de relaciones de hiponimia e hiperonimia. La hiponimia es

    una relacin que denota un subconjunto o subclase de una palabra; por ejemplo, en EWN la

    palabra automvil tiene como hipnimos las palabras limosina, sedn, jeep, entre

    otros. En cambio, la hiperonimia es una relacin que expresa una superclase de una palabra;

    vivienda, por ejemplo, es un hipernimo de casa, de estudio y de algunos otros ms.

    WordNet y EWN, adems de contar con los synset, incluye definiciones tipo

    diccionario y ejemplos de uso.

    23 http://wordnetweb.princeton.edu/perl/webwn

  • 52

    2.4.2 Lexicn Specialist UMLS

    Uno de los recursos lxicos electrnicos ms importantes del rea de la biomedicina es el

    lexicn Specialist de UMLS. Este lexicn es uno de los tres recursos que se generaron dentro

    del proyecto UMLS (Unified Medical Language System) creado por la Biblioteca Nacional

    de Medicina de los Estados Unidos de Amrica (NLM).

    Segn Ananiadou y McNaught (2006), el lexicn Specialist es un diccionario general

    del ingls que contiene una gran cantidad de trminos de biomedicina. Todos estos trminos

    fueron extrados de diversos recursos, como de los registros de MEDLINE/PubMed24

    , del

    metatesauro UMLS25

    y de diccionarios mdicos del ingls.

    Cada una de las entradas del lexicn puede ser monopalabra o multipalabra; a su vez,

    estos trminos tienen informacin como categora gramatical, patrones complementarios

    permitidos, lema, variantes ortogrficas y morfolgicas.

    2.4.3 Wikipedia

    Otro de los recursos que se han estado empleando actualmente para la validacin de

    extractores es Wikipedia26

    . La Wikipedia es una enciclopedia gratuita, multilenguaje, creada

    para la red y construida de manera colaborativa por voluntarios (Zesch et al., 2008).

    Esta enciclopedia est formada por artculos que crean una red interconectada de

    conocimiento, adicionada con categoras y subcategoras (se podra decir que es un tipo de

    hiperonimia e hiponimia, aunque no cumplan forzosamente con las relaciones) que los

    voluntarios crean y organizan, y que permiten hasta cierto punto dividir los conocimientos en

    reas o dominios. El uso de categoras y subcategoras forma lo que se conoce como una

    taxonoma, es decir una ordenacin jerrquica y sistemtica; aunque hay autores como Peters

    24 MEDLINE es una base de datos que almacena bibliografa mdica que provienen desde 1950. Su motor de

    bsqueda es la herramienta de PubMed.

    25 Es otro de los recursos del proyecto de UMLS que incluye conceptos del rea de biomedicina, nombres de

    conceptos, sinnimos, as como las relaciones entre los conceptos.

    26 http://www.wikipedia.org

  • 53

    (2009), que consideran esto realmente como una folksonoma27

    , ya que es la gente quien

    desarrolla la jerarquizacin y sistematizacin de la Wikipedia.

    Adems Wikipedia contiene una gran cantidad de informacin semntica y lxica que

    se complementa con el conocimiento de entidades nombradas y trminos de dominio

    especfico o especializado que incluye el sitio. De igual forma, incluye un sistema de

    redireccionamiento, que podra ser considerado un diccionario de sinnimos en el cual se

    toman en cuenta variaciones ortogrficas, morfolgicas y de abreviaturas; por ejemplo, si se

    busca en la Wikipedia ajolote, axolote o axolotl se redirecciona a Ambystoma

    mexicanum, el nombre cientfico del ajolote. Tambin el sistema de redireccionamiento

    funciona, en un menor grado, como un sistema que pasa de un tema especfico a uno general,

    o de un verbo a un sustantivo.

    Entre las ventajas con las que cuenta Wikipedia se puede mencionar que es un recurso

    libre, que se actualiza y crece rpidamente, que maneja una gran cantidad de dominios y que

    est en diversas lenguas, no solamente en las principales. Algunas de sus desventajas es que

    no existe un control editorial o por expertos, y que no se siguen lineamientos especficos para

    su construccin.

    De este recurso electrnico se hablar ms adelante, en la seccin 3.4, donde se

    abordar la estructura interna y la manera en que fue empleada en el proyecto de tesis.

    27 Una folksonoma es un sistema de clasificacin de contenidos desarrollado de manera colaborativa (Peters,

    2009).