Procesamiento del Lenguaje Natural · 2018-05-09 · Esfuerzos para fomentar la miner a de textos...

5
Procesamiento del Lenguaje Natural ISSN: 1135-5948 [email protected] Sociedad Española para el Procesamiento del Lenguaje Natural España Villegas, Marta; de la Peña, Santiago; Intxaurrondo, Ander; Santamaria, Jesus; Krallinger, Martin Esfuerzos para fomentar la minería de textos en biomedicina más allá del inglés: el plan estratégico nacional español para las tecnologías del lenguaje Procesamiento del Lenguaje Natural, núm. 59, 2017, pp. 141-144 Sociedad Española para el Procesamiento del Lenguaje Natural Jaén, España Disponible en: http://www.redalyc.org/articulo.oa?id=515754427019 Cómo citar el artículo Número completo Más información del artículo Página de la revista en redalyc.org Sistema de Información Científica Red de Revistas Científicas de América Latina, el Caribe, España y Portugal Proyecto académico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto

Transcript of Procesamiento del Lenguaje Natural · 2018-05-09 · Esfuerzos para fomentar la miner a de textos...

Procesamiento del Lenguaje Natural

ISSN: 1135-5948

[email protected]

Sociedad Española para el

Procesamiento del Lenguaje Natural

España

Villegas, Marta; de la Peña, Santiago; Intxaurrondo, Ander; Santamaria, Jesus; Krallinger,

Martin

Esfuerzos para fomentar la minería de textos en biomedicina más allá del inglés: el plan

estratégico nacional español para las tecnologías del lenguaje

Procesamiento del Lenguaje Natural, núm. 59, 2017, pp. 141-144

Sociedad Española para el Procesamiento del Lenguaje Natural

Jaén, España

Disponible en: http://www.redalyc.org/articulo.oa?id=515754427019

Cómo citar el artículo

Número completo

Más información del artículo

Página de la revista en redalyc.org

Sistema de Información Científica

Red de Revistas Científicas de América Latina, el Caribe, España y Portugal

Proyecto académico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto

Esfuerzos para fomentar la minerıa de textos enbiomedicina mas alla del ingles: el plan estrategiconacional espanol para las tecnologıas del lenguaje

Efforts to foster biomedical text mining efforts beyond English:the Spanish national strategic plan for language technologies

Marta Villegas1, Santiago de la Pena2, Ander Intxaurrondo2,Jesus Santamaria2, Martin Krallinger2*

1Barcelona Supercomputing Center (BSC). Jordi Girona, 29 08034 Barcelona2Centro Nacional de Investigaciones Oncologicas (CNIO)

Melchor Fernandez Almagro, 3 28029 [email protected]

{sdelapena,aintxaurron,jsantamaria,mkrallinger}@cnio.es

Resumen: Si bien se han hecho esfuerzos considerables para aplicar las tecnologıasde minerıa de texto a la literatura biomedica y los registros clınicos escritos en ingles,lo cierto es que intentos de procesar documentos en otros idiomas han atraıdo mu-cha menos atencion a pesar de su interes practico. Debido al considerable numerode documentos biomedicos escritos en espanol, existe una necesidad apremiante depoder acceder a los recursos de minerıa de textos biomedicos y clınicos desarrolladospara esta lengua de alto impacto. Para abordar este asunto, la Secretarıa de Estadoencargo las actuaciones de apoyo tecnico especializado para el desarrollo del Plan deImpulso de las tecnologıas del Lenguaje en el ambito de la biomedicina. El artıculodescribe brevemente las lıneas principales de actuacion del proyecto en su primerafase, esto es: facilitar el acceso a recursos y herramientas en PNL, analizar y garan-tizar la interoperabilidad del sistema, la definicion de metodos y herramientas deevaluacion, la difusion del proyecto y sus resultados y la alineacion y colaboracioncon otros proyectos nacionales e internacionales. Ademas, hemos identificado algu-nas de las tareas crıticas en el procesamiento de textos biomedicos que requiereninvestigacion adicional y disponibilidad de herramientas.Palabras clave: Text mining, minerıa de textos, plan de impulso, infraestructuraslinguısticas, recursos linguısticos.

Abstract: A considerable effort has been made to apply text mining technologiesto biomedical literature and clinical records written in English, while attempts toprocess documents in other languages have attracted far less attention despite thekey practical relevance. Due to the considerable number of biomedical documentswritten in Spanish, there is a pressing need to be able to access biomedical andclinical text mining resources developed for this high impact language. To addressthis issue, the Spanish Ministry of State for Telecommunications launched the Planfor Promotion of Language Technologies in the field of biomedicine with the aim ofproviding specialized technical support to research and development of software so-lutions adapted to this domain. This article briefly describes the main lines of actionof this project in its initial stages, namely: (a) identification of relevant biomedicalNLP resources/tools, (b) examining and enabling system interoperability aspects,(c) to outline strategies and support for evaluation settings, (d) to disseminate theproject and its results, and (e) to align and collaborate with other related nationaland international projects. Moreover we have identified some of the critical biome-dical text processing tasks that require additional research and availability of tools.Keywords: Plan for promotion of language technologies, text mining, linguisticinfraestructures, biomedical documents, clinical records.

Procesamiento del Lenguaje Natural, Revista nº 59, septiembre de 2017, pp 141-144 recibido 30-03-2017 revisado 11-05-2017 aceptado 29-05-2017

ISSN 1135-5948 © 2017 Sociedad Española para el Procesamiento del Lenguaje Natural

1 Introduccion y antecedentes

Las tecnicas de minerıa de textos en litera-tura biomedica escrita en ingles han expe-rimentado resultados significativos mientrasque los intentos de procesar documentos enotros idiomas han atraıdo mucha menos aten-cion a pesar de su interes practico. Sin em-bargo, el considerable numero de documen-tos biomedicos escritos en espanol, genera lanecesidad apremiante de poder acceder a losrecursos de minerıa de textos biomedicos yclınicos desarrollados tambien para esta len-gua. Para abordar este asunto, la Secretarıade Estado encargo las actuaciones de apo-yo tecnico especializado para el desarrollo delPlan de Impulso de las Tecnologıas del Len-guaje en el ambito de la biomedicina.

Ası pues, el proyecto que anunciamos seinscribe dentro del Plan de Impulso de lasTecnologıas del Lenguaje de la Agenda Di-gital para Espana1, aprobada en febrero de2013 como la estrategia del Gobierno paradesarrollar la economıa y la sociedad digital.Esta estrategia se configuro como el paraguasde todas las acciones del Gobierno en mate-ria de Telecomunicaciones y de Sociedad dela Informacion y marca la hoja de ruta enmateria de Tecnologıas de la Informacion ylas Comunicaciones (TIC) y de Administra-cion Electronica para el cumplimiento de losobjetivos de la Agenda Digital para Europa2.

Para la puesta en marcha y ejecucion dela Agenda se definieron diferentes planes es-pecıficos entre los que se encuentra el Plande Impulso de las Tecnologıas del lenguaje3

que tiene como objetivo fomentar el desarro-llo del procesamiento del lenguaje natural yla traduccion automatica en lengua espanolay lenguas co-oficiales. Para ello, el Plan definemedidas que:

Aumenten el numero, calidad y disponi-bilidad de las infraestructuras linguısti-cas en espanol y lenguas co-oficiales.

Impulsen la Industria del lenguaje fo-mentando la transferencia de conoci-miento entre el sector investigador y laindustria.

1http://www.agendadigital.gob.es2https://ec.europa.eu/

digital-single-market/3http://www.agendadigital.gob.

es/tecnologias-lenguaje/Paginas/plan-impulso-tecnologias-lenguaje.aspx

Incorporen a la Administracion comoimpulsor del sector de procesamiento delenguaje natural.

Ası pues, el proyecto que describimos for-ma parte de la encomienda que la Secretarıade Estado encargo para la realizacion de lasactuaciones de apoyo tecnico especializadopara el desarrollo del Plan en el ambito dela biomedicina. En breve se habilitara el sitioweb del proyecto y se anunciara en la web dela agenda digital.

2 Tareas

Los objetivos del proyecto incluyen los si-guientes aspectos, con un enfoque especialal ambito del procesamiento de documentosbiomedicos/clınicos:

La definicion y fomento de estandares deinteroperabilidad y de modelos de licen-cias.

La especificacion de requisitos para laproteccion de datos personales.

El fomento y metodologıa para la reuti-lizacion de recursos.

La supervision y soporte a los diferen-tes proyectos de PLN (procesamientodel lenguaje natural) en biomedicina quesurjan para garantizar que estos se ali-nean con los objetivos del Plan.

La creacion de metodos y campanas deevaluacion que potencien el desarrollo deinfraestructuras linguısticas biomedicas.

3 Lıneas de actuacion

En una primera fase, el proyecto gira entornoa cinco lıneas basicas de actuacion: facilitarel acceso a recursos y herramientas, garan-tizar la interoperabilidad del sistema, esta-blecer metodos de evaluacion y divulgar elproyecto. Ademas, se buscara establecer si-nergias y colaboraciones con otros proyectosnacionales e internacionales con el fin de lo-grar el maximo impacto.

En adelante se describen brevemente lasacciones a realizar durante este ano para cadauna de las lıneas de trabajo.

3.1 Compilacion de corpusbiomedico

Uno de los objetivos del proyecto es poner adisposicion de la comunidad cientıfica y la in-dustria un corpus biomedico exhaustivo y con

Marta Villegas, Santiago de la Peña, Ander Intxaurrondo, Jesus Santamaria, Martin Krallinger

142

licencia abierta que permita: ejecutar tareasde PLN sobre big data y replicar los expe-rimentos. Para ello se contemplan diferentesacciones:

Creacion de un agregador de publicacionesde acceso abierto en biomedicina. El proyectopartira de la tarea realizada por otras iniciati-vas en el ambito de las publicaciones cientıfi-cas como son el buscador de ciencia abiertaRecolecta4, IBECS5, MEDES6, o Scielo7, bi-blioteca virtual formada por una coleccion derevistas cientıficas espanolas de ciencias dela salud. El objetivo es colaborar con estosbuscadores para poder ir un paso mas alla yconvertir los diferentes repositorios digitalesque estos recolectan y agrupan en sus porta-les en un gran corpus biomedico. El sistemadebera poder indexar los artıculos y permitirla creacion de sub-corpus a demanda.

Se exploraran otras vıas de agregacion decontenidos textuales en biomedicina como lacreacion de un corpus de patentes, un cor-pus de informes medicos y otro de informa-cion farmaceutica. En este caso, el proyectoincentivara convenios de colaboracion con or-ganismos del sistema publico sanitario y fa-cilitara servicios de anonimizacion de datospara cumplir con los requisitos de la ley deproteccion de datos.

3.2 Recursos linguısticos

El proyecto creara y mantendra un catalo-go estructurado de recursos especıficos crea-dos dentro del plan (recursos in house), comodiccionarios lexico-semanticos, terminologıasy listados de entidades de relevancia biomedi-ca, tanto para el indexado de documentos co-mo para diferentes modalidades y las tecni-cas de Extraccion de Informacion. Se iden-tificaran e incluiran tambien aquellos recur-sos externos que por su relevancia deban for-mar parte del catalogo de recursos del ambi-to biomedico(Primo-Pena, 2016). El catalo-go sera compatible con el modelo de meta-datos de META-SHARE8 y con los catalogosde recursos de otros proyectos europeos co-mo OpenMinTeD, CLARIN9 y OLAC10. Pa-ra ello se generaran descripciones de metada-

4https://www.recolecta.fecyt.es/#5http://ibecs.isciii.es/6https://www.medes.com/7http://scielo.isciii.es/8http://www.meta-net.eu/meta-share9https://vlo.clarin.eu/?2

10http://www.language-archives.org/

tos en los diferentes esquemas cuando ello seanecesario.

3.3 Herramientas linguısticas

El proyecto debe facilitar el uso e integracionde herramientas de procesamiento de lengua-je natural y minerıa de textos. Se implemen-tara un registro de servicios que permita laejecucion de los mismos. Para ello se iden-tificaran las herramientas basicas que debenformar parte de cualquier aplicacion de PLN,incluyendo herramientas de pre-proceso y he-rramientas linguısticas.

Se evaluaran especıficamente herramien-tas de minerıa de textos en biomedicina co-mo MetaMap11 (desarrollado por la Bibliote-ca Nacional de Medicina de EEUU), cTakes12

(herramienta similar a Metamap desarrolladapor Apache), i2b213 (desarrollada por el cen-tro i2b2 y utilizada para detectar termino-logıa medica y abreviaturas) o MedTagger14

(parte de la OHNLP15). Todas las herramien-tas identificadas se describiran y incluiranen un registro disponible para la comunidadcientıfica y la industria. En este contexto sellevara a cabo un estudio de interoperabili-dad entre las herramientas del registro quepermita definir las acciones a realizar paragarantizar su correcta integracion y compati-bilidad. Se prestara especial atencion a inicia-tivas similares con el fin de asegurar la maxi-ma compatibilidad con otros proyectos y/opropuestas.

3.4 Evaluacion

El proyecto dedicara especial atencion a laevaluacion, para ello se organizaran cam-panas de evaluacion comparativa de herra-mientas de PLN (por ejemplo en el contextode la competicion de BioCreative16 y IberE-val17). Estas campanas potenciaran el desa-rrollo de infraestructuras linguısticas en elarea de la biomedicina de utilidad para elPlan y tendran como resultado la creacionde corpus Gold Standard reutilizables parala validacion y el desarrollo de componentesde procesamiento del lenguaje natural en bio-medicina, ası como la definicion de metricas

11https://metamap.nlm.nih.gov/12http://ctakes.apache.org/13https://www.i2b2.org/index.html14http://ohnlp.org/index.php/MedTagger15http://www.ohnlp.org/index.php/Main_Page16http://www.biocreative.org/17http://sepln2017.um.es/ibereval.html

Esfuerzos para fomentar la minería de textos en biomedicina más allá del inglés: el plan estratégico nacional español para las tecnologías del lenguaje

143

comparativas de validacion. La infraestructu-ra de evaluacion sera testeada en el contextode campanas de evaluacion y tiene como ob-jetivo facilitar una validacion de componentescon metricas estandar, ası como ofrecer la po-sibilidad de visualizar anotaciones automati-cas / manuales y proporcionar la generacionde un informe de analisis de errores.

3.5 Interoperabilidad

El proyecto elaborara las recomendaciones yacciones necesarias para garantizar la inter-operabilidad necesaria entre los distintos re-cursos y herramientas del sistema y ası ga-rantizar la reutilizacion y mantenimiento deinfraestructuras linguısticas en el area dela biomedicina. Se pondra especial enfasisen asegurar el cumplimiento y desarrollo deestandares y especificaciones de interopera-bilidad y compatibilidad para la integracionde los recursos generados tanto de datos es-tructurados (recursos linguısticos) como no-estructurados (corpus) de relevancia para elsector.

Para facilitar la interoperabilidad entre losdiferentes recursos y entre estos y las herra-mientas disponibles, se crearan los converso-res de formato necesarios y se definiran lasinterfaces comunes de ejecucion para las di-ferentes herramientas.

Se prestara especial atencion a promovery garantizar la interoperabilidad con recursosy herramientas de otros proyectos del Plan.

3.6 Difusion

La difusion de los resultados del proyecto esclave para el fomento y el desarrollo de lastecnologıas del lenguaje en este ambito. Seprestara especial atencion a la creacion de tu-toriales y manuales de buenas practicas queavancen en el uso de estandares y metodosque garanticen la interoperabilidad de los fu-turos recursos del sistema. Con el fin de fo-mentar el uso del PLN se crearan calls y hac-kathons que sirvan de incentivo y ejemplo deuso.

4 Alineacion con otros proyectos

Parte fundamental del proyecto es su alinea-cion con proyectos nacionales (como la redReTeLe18) e internacionales de relevancia enel ambito. Ası, se ha establecido ya colabora-

18http://retele.linkeddata.es

cion con OpenMinTeD19 y ELIXIR20. Open-MinTeD se propone crear una infraestructu-ra abierta y orientada a servicios para la mi-nerıa de texto y datos de contenido cientıficoy academico. ELIXIR, por su parte, tiene porobjetivo coordinar, integrar y mantener re-cursos en el ambito de la bioinformatica parasu uso en la investigacion.

El proyecto presta tambien especial aten-cion a las actividades de la Research DataAlliance.

Bibliografıa

Primo-Pena, E. 2016. Las bases de datosde informacion biomedica, ¿en espanol?:Presente y futuro. Educacion Medica,17(2):39–44.

Przyby lla, P., M. Shardlow, S. Aubin,R. Bossy, R. Eckart de Castilho, S. Piperi-dis, J. McNaught, y S. Ananiadou. 2016.Text mining resources for the life sciences.Database, 2016(0):baw145.

Rehm, G., J. Hajic, J. van Genabith, yA. Vasil.jevs. 2016. Fostering the nextgeneration of european language tech-nology: Recent developments - emerginginitiatives - challenges and opportunities.En N. C. C. Chair) K. Choukri T. De-clerck S. Goggi M. Grobelnik B. MaegaardJ. Mariani H. Mazo A. Moreno J. Odijk,y S. Piperidis, editores, Proceedings of theTenth International Conference on Lan-guage Resources and Evaluation (LREC2016), Paris, France, may. European Lan-guage Resources Association (ELRA).

Sarma, G. P. 2016. Scientific data scien-ce and the case for open access. CoRR,abs/1611.00097.

19http://openminted.eu/20https://www.elixir-europe.org/

Marta Villegas, Santiago de la Peña, Ander Intxaurrondo, Jesus Santamaria, Martin Krallinger

144