1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega...

40
1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías del Lenguaje Instituto Nacional de Astrofísica, Óptica y Electrónica

Transcript of 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega...

Page 1: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

1

Descubrimiento Automático de Hiperónimos en

Texto no Estructurado

Tomado de

Rosa María Ortega Mendoza, Tesis de Maestría, INAOE

Laboratorio de Tecnologías del Lenguaje

Instituto Nacional de Astrofísica, Óptica y Electrónica

Page 2: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

2

Introducción

Relaciones semánticas: Sinonimia, antonimia,

meronimia, hiperonimia, etc.

Hiperónimo: Palabra cuyo

significado incluye el de

otra(s). animal – gato color – azul país – México

Recursos lingüísticos

construcción

Manual Automática

•Ejemplo: WordNet

•Gran esfuerzo

•Tiempo

•General

•Un sólo idioma

•Orientación a un dominio específico.

•Menos esfuerzo

•Menor precisión

Page 3: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

3

Introducción

Un paso hacia la construcción automática de ontologías

Independiente del uso de recursos lingüísticos externos

Independencia del idioma Aprovechar información

léxica

fútbol----------

tenis----------

Atletismo

----------

deportes

Ejemplo del uso / Clasificación de textos

Page 4: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

4

Estado del ArteTrabajo Propósito Entrada Boot-

strapping

Evaluación

de patrones

Recursos

Externos

(Denicia et al., 2006)

Respuesta a

preguntas de

definición

Semillas No No No

(Pasca, 2004) Relaciones

is-a

Patrones léxico-Sintácticos

Si No Etiquetador

(Ravichandrany Hovi 2002)

Respuesta a

Preguntas

Semillas Si Si No

(Ravichandran et al., 2004)

Relaciones

is-a

Patrones léxico-sintácticos

Si ? Etiquetador

Page 5: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

5

Objetivos

Objetivo General: Desarrollar un método para extraer automáticamente hiperónimos a partir de textos no estructurados tomados automáticamente la Web.

Objetivos Específicos: Definir y aplicar un método de minería de texto que permita

obtener patrones léxicos de extracción para la relación de hiperonimia.

Especificar y desarrollar un método incremental para enriquecer el conjunto de patrones de extracción.

Proponer y aplicar un método de selección de tuplas usando algoritmos de ordenamiento basados en grafos.

Page 6: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

6

Método propuesto

Page 7: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

7

Método propuesto

Paso 1: Extraer patrones léxicos a través de la Web. Paso 2: Aplicar los patrones léxicos para extraer

tuplas asociadas al dominio específico. Paso 3: Pesar los patrones léxicos con base en un

método de recomendación. Paso 4: Pesar las tuplas (idem). Paso 5: Repetir todos los pasos anteriores, eligiendo

las tuplas más confiables como nuevas semillas.

Page 8: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

8

Pesado patrones/tuplas

Peso de la tupla: Mientras más patrones extraigan la misma tupla

tenemos más evidencia de que es correcta.

Peso del patrón: Mientras más tuplas correctas extraiga un patrón

tenemos más evidencia de que es relevante.

•Peso del patrón•Número de repeticiones•Número de patrones activados

Page 9: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

9

Pesado patrones/tuplas Método de recomendación basado en grafos Ejemplo:

Tuplas(P3) Tuplas(P4)P1

P4

P2

P3

w12

w13

w23

w34

País – Turquía

País – caballo

País – México

País – Turquía

País – Francia

País – Turquía

País – costa

País – Francia

País – Egipto

Tuplas(P1) Tuplas(P2)Tuplas(P2) Tuplas(P3)

Tuplas(P1) Tuplas(P3)

Page 10: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

10

Evaluación

El catálogo es muy grande por lo que su evaluación manual es prácticamente imposible.

La evaluación será a través de un método estadístico Tomar una muestra aleatoria proporcional al tamaño

del catálogo Con un nivel de confianza definido

Medir la precisión del catálogo No. de instancias correctas/ No. total de instancias

Page 11: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

11

1er Intento

Experimento: probar un método semi-supervisado para seleccionar tuplas correctas Minería de texto para obtener patrones léxicos Se utilizó el algoritmo Expectation- Maximization:

Entrena un clasificador usando los datos etiquetados disponibles y probabilísticamente etiqueta los datos no etiquetados.

Colección de noticias EFE de 1994 y 1995 457 mil documentos ( ~1 Gb ).

Page 12: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

12

Resultados PreliminaresNo Patrón Léxico No Patrón Léxico

1 <INSTANCIA>. <CLASE> 18 <INSTANCIA>, <CLASE> Para

2 <CLASE>. <INSTANCIA> 19 la <INSTANCIA>, <CLASE>

3 <CLASE> - <INSTANCIA> 20 <INSTANCIA>, <CLASE> del

4 <CLASE> (<INSTANCIA>, 21 <INSTANCIA>, <CLASE> y

5 : <INSTANCIA>, <CLASE> 22 la <CLASE> de <INSTANCIA>

6 <INSTANCIA> y otros <CLASE> 23 <INSTANCIA> ( <CLASE> )

7 - <INSTANCIA> - <CLASE> 24 la <INSTANCIA> como <CLASE>

8 <INSTANCIA> - <CLASE> - 25 <CLASE> GNU / <INSTANCIA>

9 los <CLASE> del <INSTANCIA> 26 el <INSTANCIA> es un <CLASE>

10 <INSTANCIA>: <CLASE> 27 el <INSTANCIA> es el <CLASE>

11 , <INSTANCIA>, <CLASE> 28 <INSTANCIA> es un <CLASE> muy

12 de <INSTANCIA>, <CLASE> 29 <INSTANCIA> es un <CLASE> que

13 <INSTANCIA>, <CLASE> de 30 el <INSTANCIA> es una <CLASE>

14 el <INSTANCIA> - <CLASE> 31 un <INSTANCIA> es una <CLASE>

15 el <INSTANCIA>, <CLASE> 32 , la <INSTANCIA> es una <CLASE>

16 <INSTANCIA> - <CLASE>. 33 la <INSTANCIA> es el tercer <CLASE>

17 <CLASE>: <INSTANCIA> de 34 <INSTANCIA> es una <CLASE> limitada por

A través de un conjunto de 17 semillas se descubrieron 34 patrones léxicos

Instancia Clase

amor sentimiento

girasol planta

oro metal

pino árbol

linux sistema operativo

fútbol deporte

manzana fruta

tierra planeta

agua líquido

: :

Page 13: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

13

Resultados Preliminares

Se caracterizaron las tuplas en función de los patrones

Instancia P1 P2 P3 P4 … P33 P34 clase

pais_Japon 0 0 0 2 … 0 0 1

pais_Guinea 1 0 0 0 … 0 0 1

pais_Moscu 0 0 1 0 … 0 0 1...

.

.

.

.

.

.

.

.

.

.

.

.

… ...

.

.

.

.

.

.

Page 14: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

14

Resultados Preliminares Entrenamiento: 500 tuplas (218 positivas y 282 negativas)

etiquetadas manualmente Prueba: 16,450 tuplas Después de 8 iteraciones EM convergió.

Concepto Correctas Incorrectas

Animal 2 0

Equipo 76 18

Organismo 27 16

País 84 16

Países 0 0

Presidente 219 25

Total 408 75

Precisión 84.47% 15.53%

Concepto Correctas Incorrectas

Total 626 75

Precisión 89.30% 10.7%

Clasificación EM

Catálogo Completo: Clasificación EM + clasificación manual

Page 15: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

15

2do Intento

Experimento: proponer un método basado en el pesado de semillas y patrones Minería de texto para obtener patrones léxicos

Se utilizó la Web para obtener los patrones utilizando semillas

Se utilizó la Web para recuperar tuplas usando los patrones descubiertos

Page 16: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

16

Aplicar SFM’s. Recuperar únicamente aquellas secuencias que contengan ambas etiquetas <instancia> y

<concepto> Se obtuvieron 4 conjuntos de SFM´s. El umbral de soporte utilizado para cada conjunto fue: instancia(singular)/concepto(singular): instancia(singular)/concepto(plural): instancia(plural)/concepto(singular): instancia(plural)/concepto(plural):

Reunir los 4 conjuntos de SFM’s en un solo conjunto.

Encontrando patrones léxicos

Pertenecer a varios dominios Incluir semillas en género masculino y

femenino. Contemplar instancias y conceptos en

forma plural y en singular.

Seleccionar Semillas (instancia-concepto)

Reunir Ejemplos

Etiquetar Ejemplos

Aplicar y Filtrar SFM’s

10

10

5

5

Resultado de esta Fase: Una lista compuesta de 184/156 patrones léxicos

1

2

3

4Se observó que las semillas deberían:

Todos los ejemplos son normalizados con etiquetas <instancia> <concepto>

Se utilizó el motor de búsqueda Google. Se bajaron 500 ejemplos de uso

(snippets) para cada semilla.

Page 17: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

17

Análisis de los patrones léxicos

# Patrón

1 <concepto>, <instancia>,

2 , <instancia>, <concepto> y

3 la <instancia> es un <concepto>

4 <instancia>, el <concepto> de

5 <concepto> ( <instancia> )

6 : <concepto> : <instancia>• •• •• •

184

las <concepto> de <instancia>

# Patrón

1 las <instancia> son <concepto>

2 los <concepto> de <instancia>

3 del <concepto> de <instancia>

4 de las <instancia> como <concepto>

5 <concepto> de <instancia> y

6 las <instancia> son <concepto>• •• •• •

64 las <concepto> de <instancia>

Análisis de los patrones léxicos obtenidos.

Algunos patrones son muy generales, pues carecen de alguna frontera.

Varios patrones contienen signos de puntuación. Sin embargo, Google no reconoce signos de puntuación en sus búsquedas.

Lo anterior puede tratarse de la sig. forma:1. Filtrar los patrones, eligiendo solo aquellos

que no contienen signos de puntuación.

2. Filtrar los patrones, recuperando aquellos que contienen por lo menos una frontera (izquierda o derecha).

59

Page 18: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

18

Aplicación los patrones léxicos.

En esta fase, los patrones son aplicados sobre la Web, con la finalidad de obtener un conjunto de tuplas, asociadas a un dominio específico.

Una tupla se encuentra constituída por: (hipónimo, hiperónimo)

Experimento 1: Mostrar la utilidad de los patrones obtenidos, así como, comprobar que la Web puede ser utilizada como un corpus de texto para extraer hipónimos. Se buscarán conceptos (hiperónimos) para las palabras

(instancias) del vocabulario.

Page 19: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

19

Experimento 1Fijar los patrones

Lanzar los patrones fijados a la Web

Casar patrones fijos con la colección

Aplicar y Filtrar SFM’s

1

2

3

4

Todos los patrones son fijados con cada una de las palabras del vocabulario.

El conjunto de snippets recolectados, representa la colección sobre la cual se se aplican los patrones.

El matching se realiza casando 1 sola palabra.

Se bajaron 100 ejemplos de uso (snippets) para cada patrón fijado.

Vocabulariojava

Méxicopetróleo

EuroPatrones p/

javaEl * de javaEl java es un * que

:

Patrones p/Euro

El * deEuro

:

. . .

Patrones p/ java

snippet 1

Patrones p/Euro

snippet1:

. . .

Lista de conceptos

p/javaIsla quelenguaje

:

Lista de conceptos

p/EuroLa moneda...

. . .

Se aplicó SFM’s a caada lista de conceptos (existe una para cada palabra del vocabulario).

Como resultado obtuvimos un catálogo de conceptos para cada instancia (del vocabulario).

..

....

Page 20: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

20

Experimento 1

Análisis de resultados del experimento 1 Se obtuvo un catálogo de palabras relacionadas pero no

necesariamente relaciones is-a. Se piensa que con un número mayor de patrones la precisión mejoraría

Palabra del Vocabulario

java México Petróleo Euro

Ejemplo de las primeras SFM’s

islaappletsappletlenguajexml

ciudad

estadogolfopaiseslos

gasbarrilprecioyacimientosbarrilesRecurso

centimosmonedabilletesmonedas

Número de palabras en el catálogo con Soporte >=10

23 palabras 11 palabras 17 palabras 14 palabras

Precisión 21.73%_ 63.63% 11.7% 28.57%

Page 21: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

21

Experimento 2 Objetivo: Obtener tuplas con el nombre completo del(a) concepto/instancia

cuando se forman de más de una palabra. 1: Seleccionar un vocabulario y fijarlos como instancias y como conceptos.

2: Lanzar los patrones fijos a la Web. Se recolectaron 100 snippets por cada patrón fijo. Como resultado obtenemos una colección, sobre la cual aplicamos los patrones convertidos en expresiones regulares. El “matching” es realizado de la siguiente forma:

bancodoctordiccionariofelino

novelaprofesiónrocasvino

Vocabulario 46 patrones*8 palabras del vocabulario = 368 patrones fijos para obtener instancias

Matching Ejemplo de Instancia extraída

A: Normal tigre de bengala

B: Una sola palabra tigre

C:Limitado por palabras vacías

tigre

D: Completo El tigre de bengala es un felino que

Patrón: el <instancia> es un felino queSnippet: El tigre de bengala es un felino que siempre le ha fascinado al hombre

Ejemplo:

3: Aplicar SFM’s

Page 22: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

22

Resultados Experimento 2

Opción BBuscando conceptos Buscando instancias

Bancoinstitucionbilletespresidentetornillogobernador

cajerodirectoriogerenteprestamotarjeta

pruebasdesarrollomexicosangreespaña

germoplasmacreditoinversionimagenespichincha

Tamaño del Catálogo =31 Tamaño del Catálogo = 15

Precisión= 4/31=12.90% Precisión= 2/15=13.33%● Diccionarioformaataquesproyectoherramientadefinicion

enciclopediaespeciedefinicionesusoobra

lunfardolenguasinonimosterminosdatos

autoridadesfilosofiainglesfisicaescritores

Tamaño del Catálogo =12 Tamaño del Catálogo = 14

Precisión= 1/12=8.33%Precisión=3/14 = 21.42%

Opción ABuscando conceptos Buscando instancias

Banco

billetesbancocuentainstituciónPresidente

tornillosistemacuentasgobernadorcajero

desarrollopruebasmexicoespañasangre

germoplasmacreditoinversiontejidosbancos

Tamaño del Catálogo = 37 Tamaño del Catálogo 47

Precisión= 4/37=10.81% Precisión=5/47=10.63%● Diccionario

definicionesdefinicionayudaespecieherramienta

diccionarioproyectosignificadotextopalabra

terminosdiccionario deinglesautoridadesLa Real Academia Española

filosofiala lengua españolaespañolla RAEPalabras

Tamaño del Catálogo = 33 Tamaño del Catálogo = 21

Precisión:4/33 =12.21% Precisión:4/21= 19.04%

Page 23: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

23

Fase 2: Experimento 2

Opción CBuscando conceptos Buscando instancias

Banco

[34] billetes[29] institucion[21] cuenta[20] presidente[19] banco

[14] gobernador[12] cuentas[11] tornillo[11] directorio[11] cajero

[38] pruebas[37] mexico[37] desarrollo[36] sangre[31] germoplasma

[24] inversion[24] credito[19] nacion[19] banco

[18] pichincha

Tamaño del Catálogo = 16 Tamaño del Catálogo = 36

Precisión= 2/16=12.5% Precisión= 4/36=11.11%● Diccionario

[22] especie[22] definicion[20] herramienta[17] forma[16] ataques

[15] ayuda[14] diccionario[14] definiciones[13] seccion[13] proyecto

[55] sinonimos[31] terminos[27] diccionario[27] datos[24] RAE

[20] autoridades[19] filosofia[16] ingles[14] Real Academia Española

Tamaño del Catálogo = 16 Tamaño del Catálogo = 14

Precisión= 3/16=18.75% Precisión= 4/14=28.57%

Opción DBuscando conceptos Buscando instancias

Banco[98] de banco o[89] banco como[74] de banco[48] el banco y las[44] el banco es la[15]cajero

[28] banco,de,desarrollo[21] banco,de,datos.[18] un,banco,de,datos[16] banco,de,mexico[16] banco,de,inversiones

Tamaño del Catálogo = 39 Tamaño del Catálogo = 45

Precisión= 4/39=10.25% Precisión= 15/45=33.33%

● DiccionarioEn forma de diccionarioDel diccionario comoEnciclopediaUna obraConcepto

banco,quebanco,de,inversion

banco,de,españa,yel,banco,del,pichinchael,banco,del,estado

Tamaño del Catálogo = 21 Tamaño del Catálogo = 31

Precisión= 2/21=9.52% Precisión= 14/31=45.16%

Page 24: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

24

Fase 4 y 5: Esquema general

el-<instancia>-y-las-<concepto> Fijar

patrones

el-*-es-un-felino-de Pesar

patrones

el-felino-es-un-*-de = 17

Matching

MatchingPesar

las tuplas

Lista de patrones Patrones fijando

<concepto>

enfermedaddiccionario

felinorocas.

Vocabulario

FelinoPantera….16.5Fuego….....0.1Enfemedad

FelinoPanteraFuegoEnfemedad

Snippet1snippet2

... ...

...

... ...

......

NOTA: Repetir el proceso fijando <instancias> para encontrar <conceptos>

Patrones pesadosWeb

Page 25: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

25

Fase 4 y 5:Esquema General Fijar los patrones con las palabras del vocabulario buscando que los patrones

resultantes sean completamente cerrados. Ejemplo:

Patrón Fijar cada palabra del vocabulario como:

el <instancia> es una <concepto> → Concepto

<instancia> es un <concepto> muy → Instancia

el <instancia> es un <concepto> que → Ambos

25 patrones fueron fijados con instancias

31 patrones fueron fijados con conceptos

Pesar los patrones: Definir una medida que evalúe la confiabilidad de cada patrón. Realizar el matching de los patrones fijos con la Web

Se bajaron en promedio 600 ejemplos (snippets) por cada uno de los 46 patrones fijados. Matching a la colección de snippets

Los patrones fueron convertidos a expresiones regulares para permitir extraer parejas (hiperónimo-hiponimo)

Pesar las Tluplas: Definir una medida que evalúe la confiabilidad de cada tupla.

Page 26: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

26

Peso = Patrón.17/74 = de <instancia> y <concepto> 16/74 = <instancia> y <concepto> de 3/74 = del <concepto> del <instancia> 3/74 = el <instancia> es uno de los <concepto> mas

1/74 = las <instancia> marinas son <concepto>

Parámetros del Experimento

W(p) Inicial W(I)

Hipótesis: Un patrón es más confiable si proviene de varias semillas. Eliminar aquellos patrones cuyo peso <= 1/74 ya que son muy

específicos.

Fase 4 y 5: Experimento 3

• De los 59 patrones se eliminaron 13 por tener pesos <= 1/74.

• Finalmente se trabajó con 46 patrones.

...

Una de las conclusiones es que tenemos mucha información

•Una lista de palabras relacionadas||

||)(

semillaspgeneranquesemillas

pW ii

n

jj

n

jj

i

PW

PW

IW

1

1

)(

)(

)(

Donde

n= |Patrones|

Si Pj no generó

esa tupla

W(Pj)=min[W(Pj)]

Page 27: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

27

Parámetros del Experimento

W(p) Inicial W(I)

Fase 4 y 5: Experimento 4 Hipótesis: Un patrón es más confiable si proviene de varias Eliminar

aquellos patrones cuyo peso <= 1 ya que son muy específicos. 13 patrones fueron eliminados, por lo tanto se trabajó con 46.

Únicamente extraer instancias que son generadas por 2 o más patrones.

Si Pj no generó

esa tupla

W(Pj)=min[W(Pj)]

n

jji PWIW

1

)()(Donde

n= |Patrones|

semillasdeTotalpgeneranquesemillasde

pW ii

#)(

Page 28: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

28

Fase 4 y 5: Conclusiones de los experimentos 3 y 4 Buscando Conceptos

Experimento 8 Experimento 9 Experimento 8 Experimento9

Banco Rocas

SUCURSAL 1.13E-54 SUCURSAL 1.50E-43 MINERALES 4.37E-55 MINERALES 5.62E-44

CAJERO 5.72E-55 CAJERO 7.49E-44 CAIDA 3.88E-55 CAIDA 5.00E-44

TARJETAS 1.98E-55 TARJETAS 2.50E-44 ACANTILADOS 1.51E-55 ACANTILADOS 1.87E-44

GERENTE 1.80E-55 GERENTE 1.87E-44 SUELOS 1.51E-55 SUELOS 1.87E-44

CUENTAS 1.34E-55 CUENTAS 1.67E-44 SECUENCIAS 1.34E-55 SECUENCIAS 1.67E-44

NUMERO 1.19E-55 NUMERO 1.43E-44 FORMACIONES 1.34E-55 FORMACIONES 1.67E-44

CUENTA 9.38E-56 CUENTA 9.37E-45 MECANICA 1.02E-55 MECANICA 1.25E-44

BILLETE 6.25E-56 BILLETE 6.25E-45 CAIDAS 6.82E-56 CAIDAS 8.33E-45

SERVICIOS 5.21E-56 SUCURSAL 1.50E-43 GRIETAS 6.82E-56 HENDIDURAS 8.33E-45

Enfermedad Diccionario RIESGO 1.64E-53 RIESGO 2.40E-42 DICCIONARIO 2.81E-54 DICCIONARIO 4.00E-43

TRATAMIENTO 4.29E-54 TRATAMIENTO 6.00E-43 INSTRUMENTO 9.62E-56 INSTRUMENTO 1.00E-44

CAUSA 1.01E-54 CAUSA 1.12E-43 DEFINICIONES 6.82E-56 BASE 8.33E-45

PROCESO 5.63E-55 SINTOMA 6.25E-44 BASE 6.82E-56 DEFINICIONES 8.33E-45

SINTOMA 5.63E-55 PROCESO 6.25E-44 PROYECTO 6.25E-56 PROYECTO 6.25E-45

FORMA 2.69E-55 FORMA 2.81E-44 TERMINOS 5.21E-56 TERMINOS 6.25E-45

FENOMENO 7.59E-56 FENOMENO 8.92E-45 RECURSO 4.55E-56 RECURSO 5.35E-45

Page 29: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

29

Fase 4 y 5: Conclusiones de los experimentos 3 y 4 Buscando Instancias

Experimento8 Experimento9 Experimento8 Experimento9

Banco Rocas

CREDITO 3.50E-53 CREDITO 3.93E-53 PORFIDOS 1.40E-53 PORFIDOS 1.45E-53

DATOS 8.18E-54 DATOS 8.73E-54 HIELO 4.19E-54 HIELO 4.36E-54

DESARROLLO 6.21E-54 DESARROLLO 6.55E-54 GRANITO 2.46E-54 GRANITO 2.42E-54

BANCOS 4.78E-54 BANCOS 4.85E-54 GRANITOS 1.73E-54 BASALTOS 1.62E-54

OCCIDENTE 2.12E-54 OCCIDENTE 2.18E-54 BASALTOS 1.73E-54 GRANITOS 1.62E-54

COSTA RICA 7.69E-55 COSTA RICA 7.27E-55 ARENISCAS 1.01E-54 ARENISCAS 9.70E-55

GALICIA 7.69E-55 GALICIA 7.27E-55 CALIZA 7.42E-55 CALIZA 6.42E-55

RESERVA 7.42E-55 RESERVA 6.42E-55 ESQUISTOS 6.99E-55 ESQUISTOS 6.23E-55

BBVA 7.10E-55 BBVA 6.23E-55 MINERALES 2.56E-55 ALZHEIMER 5.13E-55

Enfermedad Novela CANCER 7.12E-52 CANCER 8.08E-52 HISTORIA 3.50E-54 HISTORIA 3.12E-54

EPILEPSIA 2.16E-54 GUMBORO 2.18E-54 INTRIGA 2.12E-54 TERROR 2.18E-54

ALCOHOLISMO 2.13E-54 EPILEPSIA 1.87E-54 FICCION 2.12E-54 INTRIGA 2.18E-54

GUMBORO 2.12E-54 ALCOHOLISMO 1.87E-54 TERROR 2.12E-54 FICCION 2.18E-54

TUBERCULOSIS 1.28E-54 TUBERCULOSIS 1.04E-54 AMOR 7.69E-55 AMOR 7.27E-55

CARIES 1.06E-54 ASMA 8.31E-55 NOVELA 7.44E-55 NOVELA 6.23E-55

ASMA 1.01E-54 CARIES 8.31E-55 RELATO 3.72E-55 RELATO 3.12E-55

Page 30: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

30

Fase 4 y 5: Resultados de los experimentos 3 y 4

Estadísticas

Vocabulario

Buscando instancias

Exp 3 Exp 4

Precisión No. de tuplas PrecisiónNo. de tuplas

Banco 1/20= 5% 3116 1/20= 5% 178Diccionario 1/20= 5% 1062 1/20= 5% 76Enfermedad 15/20= 75% 3203 15/20= 75% 256256Felino 5/20= 25% 236 4/8=50% 88Profesión 10/20= 50% 2543 10/20=50% 198198Rocas 8/20= 40% 1718 9/20=45% 114114

Page 31: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

31

Parámetros del Experimento

W(P) Inicial W(I) W(P) a través de I

Fase 3 y 4: Experimento 10

||)( ii pgeneranquesemillaspW

Hipótesis: Un patrón es más confiable si proviene de varias semillas. El peso de los patrones no esta normalizado con la finalidad de evitar

cantidades muy pequeñas al momento de multiplicarlos. Eliminar aquellos patrones cuyo peso <= 1 ya que son muy

específicos. Únicamente extraer tuplas que son generadas por 2 o más patrones.

Donde

n= |Patrones|

Si Pj no generó

esa tupla

W(Pj)=min[W(Pj)]

nt

IWIgeneranquePatrones

PW

nt

jjj

i

1

)(*

)(

Donde nt= Num. de tuplas que genera un

determinado patrón

n

jji PWIW

1

)()(

Page 32: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

32

Fase 3 y 4: Experimento 12 Hipótesis: Un patrón ideal tendría alto recuerdo y alta precisión F-measure da un promedio entre precisión y recuerdo

Únicamente extraer tuplas que son generadas por 2 o más patrones

rppr

F

2

2 )1(

1

||||patrónelporextraídastuplas

extraídassemillasp

Parámetros del Experimento

W(P) Inicial W(I) W(P) a través de I

01.0*)(

)( donde

FMaxF

pW i

n

jji PWIW

1

)()(

Donde

n= |Patrones|

Si Pj no generó esa tupla W(Pj)=min[W(Pj)]

nt

IWIgeneranquePatrones

PW

nt

jjj

i

1

)(*

)(

Donde nt= |tuplas que genera un patrón

específico|

Precisión Recuerdo

||||

semillaspatrónelporextraídassemillas

r

*
Falta un experimento antes
Page 33: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

33

Fase 3 y 4:Experimento 14 Información mutua. Pantel y Pennacchiotti (2006) utilizan una medida

basada en Información Mutua (pmi) para evaluar la fuerza de asociación entre una instancia y un patrón.

Ellos estiman la información mutua entre una tupla i y un patron p con:

Parámetros del Experimento

W(P) inicial W(I) W(P) a través de I

01.0*)(

)( donde

FMaxF

pW i

nt

IWIgeneranquePatrones

PW

nt

jjj

i

1

)(*

)(

Donde nt= Num. De tuplas que genera un

Determinado patrón

)(iW

)(iW

Page 34: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

34

Fase 3 y 4: Comparación de Resultados

BUSCANDO INSTANCIAS

Exp. 10 Exp 12 Exp14 BANCO CREDITO CREDITO BID BANCO MUNDIAL BID BID DATOS DESARROLLO CUAL BHU BANCO MUNDIAL BANCO MUNDIAL DESARROLLO DATOS CITIBANK BBVA BHU BHU BANCOS BANCOS HSBC RESULTADO CUAL HSBC OCCIDENTE BBVA BBVA FMI NO CITIBANK BANCO DEL ESTADO COSTA RICA ADN BANCO DEL ESTADO BNDES BBVA NACION GALICIA BID BANCO MUNDIAL PROGRAMA BANCO DEL ESTADO CUAL RESERVA OCCIDENTE BHU FNDR HSBC BSCH BBVA RESERVA CREDITO PERU CREDITO BBVA ADN CITIBANK BANCOS BANCO SANTANDER ADN REPUBLICA CEREBROS COSTA RICA NACION BANHVI BANCOS CITIBANK PREVISION SOCIAL GALICIA KFW BANCO KFW FMI NO LOS TRABAJADORES CUAL REPUBLICA BICE NACION BNDES INGLATERRA BANCO MUNDIAL PROGRAMA SISTEMA PROGRAMA RESULTADO CHILE BHU FIDUCIARIO ENTIDAD REPUBLICA ENTIDAD CORNEAS PROGRAMA ADN NACION ARGENTINA BSCH NACION ARGENTINA COMERCIO DEPOSITOS GALICIA FIRA FMI NO KFW INFORMACION PRESTAMO BSCH BANSEFI BNDES ADN

ROCAS

PORFIDOS PORFIDOS PORFIDOS ARENISCAS GRANITO GRANITO HIELO HIELO BASALTOS ARENA MARMOL BASALTOS GRANITO GRANITO GRANITOS PIEDRAS BASALTOS MARMOL BASALTOS BASALTOS MARMOL CHOCOLATE GRANITOS GRANITOS GRANITOS GRANITOS GRANITO YACIMIENTOS PORFIDOS PORFIDOS CUARZO ARENISCAS LAVAS ANDESITA CALIZA CUARZO ARENISCAS ESQUISTOS MINERALES LOS ACANTILADOS LAVAS LAVAS CALIZA CALIZA SEDIMENTOS LOS CERROS CUARZO CALIZA ESQUISTOS CUARZO CALIZA DESMONTE LOS GRANITOIDES LOS GRANITOIDES MINERALES CORALES HIELO ESCOMBROS OCEANO BASALTO SEDIMENTOS MATERIALES CUARZO NIEVE FONDO LAVA ARENA MINERALES CORALES LOS MINERALES PAISAJE ECLOGITAS PIEDRAS SEDIMENTOS MATERIALES PLANTAS BASALTO PIZARRAS MARMOL MARMOL SUELO VEGETACION LAVA LOS GRANITOS ORIGEN VOLCANICO ARENA FONDO COLINAS HIELO TOBAS FALLA PIEDRAS PAISAJE TIERRAS ECLOGITAS OCEANO CORALES LAVAS OCEANO CANTOS RODADOS PIZARRAS FONDO MATERIALES ORIGEN VOLCANICO CORAL TIERRA LOS GRANITOS PAISAJE

1ra Iteración

2da Iteración

Page 35: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

35

Fase 3 y 4: Comparación de Resultados

Vocabulario

Buscando instancias

Exp 10 Exp 12 Exp. 14Precisión (20)

Precisión (30)

TuplasPrecisión (20)

(30) TuplasPrecisión (20)

Precisión (30)

Tuplas

Banco 5% 6% 45% 46.6% 55% 46.6%Diccionario 5% 3.3% 15% 10% 15% 10%Enfermedad 75% 8% 95% 96.6% 100%100% 96.6%96.6%Felino 57.1% 57.1% 57.1% 57.1% 57.1%57.1% 57.1%57.1%Profesión 60% 50% 70% 66.66% 60%60% 63.3%63.3%Rocas 40% 30% 35% 36.6% 65%65% 50%50%

Buscando Conceptos

Banco 15% 10% 20% 16.6% 5% 3%Diccionario 20% 16% 30% 20% 20% 23.3%Enfermedad 30% 23% 30% 26% 10% 10%Felino 16.6% 16.6% 18.1% 18.1% 18.1% 18.1%Profesión 15% 10% 15% 10% 10% 10%Rocas 30% 20% 25% 20% 10% 13.3%

Page 36: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

36

Fase 3 y 4: Comparación de Resultados

Buscando Instancias

Buscando Conceptos

0%

20%

40%

60%

80%

100%

120%

Banco Diccionario Enfermedad Felino Profesión Rocas

Exp 10

Exp 12

Exp 14

0.00%

5.00%

10.00%

15.00%

20.00%

25.00%

30.00%

35.00%

Banco Diccionario Enfermedad Felino Profesión Rocas

Exp10

Exp12

Exp14

Page 37: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

37

Patrones# Patrón # Patrón

1 <concepto>, <instancia>, 22 del <concepto> del <instancia>

2 , <instancia>, <concepto> y 23 <instancia> como <concepto>.

3 la <instancia> es un <concepto> 24 la <instancia> una <concepto>

4 <instancia>, el <concepto> de 25 tecas / <instancia> por 260 euros <concepto>.

5 las <concepto> de <instancia> 26 <instancia> y otros <concepto>,

6 <instancia> de la facultad de <concepto> 27 peces, <instancia>, <concepto>

7 , <instancia>, <concepto>, etc 28 , <instancia> y otros <concepto>

8 de <instancia> y <concepto> 29 <instancia>, <concepto> natural

9 marmol, <instancia>, <concepto> 30 el <instancia>, <concepto> que

10 el <instancia> es el <concepto> que 31 anorexia y <instancia>, <concepto>

11 <instancia>, <concepto> en 32 perros, <instancia>, peces y pequeños <concepto>. 12 <concepto> griego <instancia>

13 las <instancia> marinas son <concepto> 33 ecobosques 12 tecas / <instancia> por 260 euros <concepto> 14 la <instancia> es la <concepto>

15 <concepto> de <instancia> y 34 licenciado en <concepto> de la actividad <instancia> y del deporte 16 los <instancia> y otros <concepto>

17 <instancia>, las <concepto> 35 anorexia y <instancia>, <concepto>

18 <instancia> e historia de las <concepto> 36 en <concepto> de <instancia>

19 <concepto> ( <instancia> ) 37 . <instancia>. <concepto>

20 la <instancia> y otros <concepto> 38 la <instancia> es el <concepto> de

21 el <instancia> es un <concepto> de 39 de las <instancia> como <concepto>

Page 38: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

38

Patrones# Patrón # Patrón

40 <instancia> es un <concepto> muy 58 <instancia>, <concepto> o

41 de la <instancia>, <concepto> 59 los <concepto>, las <instancia>

42 <instancia> ; <concepto> 60 <concepto> / <instancia>

43 , <instancia> y <concepto> 61 , pintura, <instancia>, <concepto>

44 <instancia>. los <concepto> 62 <concepto> como la <instancia>

45 el <instancia> es el unico <concepto> 63 de los <concepto> de <instancia>

46 <instancia> y <concepto>. 64 la <instancia> ( <concepto>

47 hojuelas o copos de <instancia> ); <concepto> 65 > <concepto> > <instancia>

66 . el <instancia> es el <concepto>

48 <instancia> es una <concepto>. 67 de <concepto> como <instancia> y

49 <concepto>, la <instancia> 68 la <instancia> como una <concepto>

50 de la <concepto> de <instancia> 69 el <instancia>, un <concepto>

51 el <instancia>, la luna y las <concepto> 70 del <concepto> de <instancia>

52 las <instancia> son <concepto> que 71 el <instancia> es un <concepto> que

53 de los <instancia> y <concepto> 72 <concepto> eran <instancia>

54 <concepto> aplicadas de la <instancia> 73 <instancia>, <concepto> aplicadas

55 de <concepto> ( <instancia> 74 <instancia> es una <concepto> de

56 . <instancia>, materiales para la contruccion, marmoles, <concepto> naturales, natural´marbles, granite and stones

75 de accesorios y alimentacion para perros, <instancia>, aves, reptiles, peces y pequeños <concepto>.

57 : <instancia>, <concepto>

Page 39: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

39

Patrones# Patrón # Patrón

76 <instancia> y <concepto>, una <concepto> de <instancia>

77 en <concepto> ( <instancia> de <instancia> ( <concepto>

78 <instancia>. la <concepto> la <instancia>, el <concepto>

79 la <instancia>, <concepto> de de <instancia> o <concepto>

80 : <concepto> : <instancia> de <instancia>, <concepto> y

81 ( <instancia>, <concepto> , <instancia>, <concepto>.

82 lunas, <instancia>, <concepto> los <instancia>, <concepto>

83 de <instancia> como <concepto> de de <instancia> y otros <concepto>

84 <instancia> y <concepto> y la <instancia>. <concepto>

85 en <instancia>, <concepto> el <instancia>, <concepto> de

86 , <concepto> y <instancia> las <instancia> son <concepto>,

87 el <instancia> es la <concepto> <instancia> : <concepto>

88 de <instancia>, <concepto> de <instancia> en estado <concepto>

89 el <instancia> y las <concepto> <instancia>, <concepto> griego

0 los <instancia> son <concepto> el uso de la <instancia> como <concepto>

las <instancia> son una <concepto> de los <instancia> y los <concepto>

las <concepto> son <instancia> <instancia> u otros <concepto>

facultad de <concepto> de la actividad <instancia> y

<instancia>, la <concepto>

aparte de segregar por el abdomen la <instancia> con la que fabrica las <concepto> de araña.el <instancia> es el <concepto> de mayor

longevidad

Page 40: 1 Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías.

40

Patrones# Patrón # Patrón

<instancia> - <concepto> de <instancia>. <concepto>

<instancia> y <concepto> naturales la <instancia> es una <concepto> que

que la <instancia> es una <concepto> el <concepto> de la <instancia>

la <instancia> es el unico <concepto> natural <instancia> ( <concepto> de

<instancia>. el <concepto> <instancia> ( <concepto> )

, <instancia>, <concepto> de la <instancia>, <concepto> graficas,

el <instancia>, el <concepto> <concepto>. <instancia>

al <instancia>, <concepto> el <instancia> es el <concepto> interno mas

<instancia> / <concepto> del <instancia>, <concepto>

<concepto> de los <instancia> de la <instancia> como <concepto> de

<concepto> del grupo de las <instancia> 156 <instancia> y <concepto> de

<instancia>, el <concepto> mas

<instancia>, <concepto> caliza

, <instancia>, <concepto> graficas

del <instancia> como <concepto>

de <concepto> de <instancia>.

. <instancia>, <concepto>

<concepto> de la actividad <instancia> y el deporte

<instancia>, <concepto> del