Extracción de información

Post on 15-Aug-2015

89 views 0 download

Transcript of Extracción de información

Extracción de Información

Pedro Contreras Flores2015

NER• El reconocimiento de nombres de entidades, Named entity

recognition (NER), es una subtarea de la recuperación de información que busca localizar y clasificar elementos atómicos en texto sobre categorías predefinidas como nombres de personas, organizaciones, localizaciones, expresiones de horas, cantidades, valores monetarios, porcentajes, etc.

• Desde 1998 existe un gran interés en el reconocimiento de entidades en las áreas de la biología molecular, bioinformática y procesamiento del lenguaje natural.

Stanford

• Implementación en java, licencia GNU GPL• Reconoce person, organization, location• Con modelos de entrenamiento CoNLL2003• Utiliza Conditional Random Field (CRF)• CRF es un modelo estocástico utilizado

habitualmente para etiquetar y segmentar secuencias de datos o extraer información de documentos. En algunos contextos también se les denomina campos aleatorios de Márkov (inglés: Markov random Fields,MRF).

Standford

• Software provided here is similar to the baseline local+Viterbi model

• CoNLL-2002 and CoNLL-2003 (British newswire) – Multiple languages: Spanish, Dutch, English, German – 4 entities: Person, Location, Organization, Misc

• MUC-6 and MUC-7 (American newswire) – 7 entities: Person, Location, Organization, Time, Date, Percent,

Money • ACE

– 5 entities: Location, Organization, Person, FAC, GPE • BBN (Penn Treebank)

– 22 entities: Animal, Cardinal, Date, Disease, …

Modelos

• Included with Stanford NER are a 4 class model trained for CoNLL, a 7 class model trained for MUC, and a 3 class model trained on both data sets for the intersection of those class sets.– 3 class:Location, Person, Organization– 4 class:Location, Person, Organization, Misc– 7 class:Time, Location, Organization, Person, Money, Percent, Date

• As of version 3.4.1, we have a Spanish model available for NER. It is included in the Spanish corenlp models jar.

Spanish CoreNLP models

Ejemplo online• http://nlp.stanford.edu:8080/ner/process

Gate

Intellexer• http://www.intellexer.com/intellexer1.html

AFNER

• http://afner.sourceforge.net/afner.html