Extracción de información

9
Extracción de Información Pedro Contreras Flores 2015

Transcript of Extracción de información

Page 1: Extracción de información

Extracción de Información

Pedro Contreras Flores2015

Page 2: Extracción de información

NER• El reconocimiento de nombres de entidades, Named entity

recognition (NER), es una subtarea de la recuperación de información que busca localizar y clasificar elementos atómicos en texto sobre categorías predefinidas como nombres de personas, organizaciones, localizaciones, expresiones de horas, cantidades, valores monetarios, porcentajes, etc.

• Desde 1998 existe un gran interés en el reconocimiento de entidades en las áreas de la biología molecular, bioinformática y procesamiento del lenguaje natural.

Page 3: Extracción de información

Stanford

• Implementación en java, licencia GNU GPL• Reconoce person, organization, location• Con modelos de entrenamiento CoNLL2003• Utiliza Conditional Random Field (CRF)• CRF es un modelo estocástico utilizado

habitualmente para etiquetar y segmentar secuencias de datos o extraer información de documentos. En algunos contextos también se les denomina campos aleatorios de Márkov (inglés: Markov random Fields,MRF).

Page 4: Extracción de información

Standford

• Software provided here is similar to the baseline local+Viterbi model

• CoNLL-2002 and CoNLL-2003 (British newswire) – Multiple languages: Spanish, Dutch, English, German – 4 entities: Person, Location, Organization, Misc

• MUC-6 and MUC-7 (American newswire) – 7 entities: Person, Location, Organization, Time, Date, Percent,

Money • ACE

– 5 entities: Location, Organization, Person, FAC, GPE • BBN (Penn Treebank)

– 22 entities: Animal, Cardinal, Date, Disease, …

Page 5: Extracción de información

Modelos

• Included with Stanford NER are a 4 class model trained for CoNLL, a 7 class model trained for MUC, and a 3 class model trained on both data sets for the intersection of those class sets.– 3 class:Location, Person, Organization– 4 class:Location, Person, Organization, Misc– 7 class:Time, Location, Organization, Person, Money, Percent, Date

• As of version 3.4.1, we have a Spanish model available for NER. It is included in the Spanish corenlp models jar.

Spanish CoreNLP models

Page 6: Extracción de información

Ejemplo online• http://nlp.stanford.edu:8080/ner/process

Page 7: Extracción de información

Gate

Page 8: Extracción de información

Intellexer• http://www.intellexer.com/intellexer1.html

Page 9: Extracción de información

AFNER

• http://afner.sourceforge.net/afner.html