Bases De datos y sus caracterìsticas para extracción y estrucuturación de información
Extracción de información
-
Upload
pedro-contreras-flores -
Category
Technology
-
view
89 -
download
0
Transcript of Extracción de información
Extracción de Información
Pedro Contreras Flores2015
NER• El reconocimiento de nombres de entidades, Named entity
recognition (NER), es una subtarea de la recuperación de información que busca localizar y clasificar elementos atómicos en texto sobre categorías predefinidas como nombres de personas, organizaciones, localizaciones, expresiones de horas, cantidades, valores monetarios, porcentajes, etc.
• Desde 1998 existe un gran interés en el reconocimiento de entidades en las áreas de la biología molecular, bioinformática y procesamiento del lenguaje natural.
Stanford
• Implementación en java, licencia GNU GPL• Reconoce person, organization, location• Con modelos de entrenamiento CoNLL2003• Utiliza Conditional Random Field (CRF)• CRF es un modelo estocástico utilizado
habitualmente para etiquetar y segmentar secuencias de datos o extraer información de documentos. En algunos contextos también se les denomina campos aleatorios de Márkov (inglés: Markov random Fields,MRF).
Standford
• Software provided here is similar to the baseline local+Viterbi model
• CoNLL-2002 and CoNLL-2003 (British newswire) – Multiple languages: Spanish, Dutch, English, German – 4 entities: Person, Location, Organization, Misc
• MUC-6 and MUC-7 (American newswire) – 7 entities: Person, Location, Organization, Time, Date, Percent,
Money • ACE
– 5 entities: Location, Organization, Person, FAC, GPE • BBN (Penn Treebank)
– 22 entities: Animal, Cardinal, Date, Disease, …
Modelos
• Included with Stanford NER are a 4 class model trained for CoNLL, a 7 class model trained for MUC, and a 3 class model trained on both data sets for the intersection of those class sets.– 3 class:Location, Person, Organization– 4 class:Location, Person, Organization, Misc– 7 class:Time, Location, Organization, Person, Money, Percent, Date
• As of version 3.4.1, we have a Spanish model available for NER. It is included in the Spanish corenlp models jar.
Spanish CoreNLP models
Ejemplo online• http://nlp.stanford.edu:8080/ner/process
Gate
Intellexer• http://www.intellexer.com/intellexer1.html