Cuando las computadoras entiendan lo que lean, …Cuando las computadoras entiendan lo que lean,...

Cuando las computadoras

entiendan lo que lean,

¿qué pasará?

Adolfo Guzmán Arenas

Centro de Investigación en Computación, IPN

[email protected]

No solo buscar con palabras clave

No me des documentos irrelevantes.

No me des documentos –contesta mis

preguntas.

¿Cuáles son las sales del ácido

nítrico?

OK

¿Cuál es el río más largo de

México?

??

¿Qué países perdieron la Segunda

Guerra Mundial?

??

La mayoría (¿todos?) estos servicios

interpretan tu búsqueda.

Y te proporcionan documentos

– para que tú mismo te contestes tu pregunta.

Se debe a que la máquina no entiende lo que lee.

Alcanza a ver palabras clave.

O da las respuestas que más éxito han tenido en el pasado.

Si las computadoras entendieran lo

que leen… Podrían leer de antemano gran cantidad de documentos.

– Digerirlos. Entenderlos. Comprenderlos.

– Buscar otros documentos (en la Web) con el mismo tema, o temas afines.

Leer más de lo mismo. Profundizar.

– Ligarlos. Juntar lo que aprendió (o dedujo) de uno, con lo que extrajo del otro.

– Complementar la información. Integrarla. Guardarla en una estructura.

– Leer, digerir, nuevos documentos, conforme aparezcan. Estar al día.


que leen…

Amasar una enorme cuantía de

conocimientos sobre cierto tema.

¿Para qué servirá todo esto?

Para tener a mano la información.

Para estar al día.

La máquina podría hacer inferencias.

– Extrapolaciones.

– Deducciones.

Analizar las consecuencias.

Sopesar los cursos o acciones más probables. Recomendarme:

– Los más seguros.

– Los más baratos…

¿Para qué servirá todo esto?

Dar respuestas a las preguntas que me interesan.

Proporcionarme información útil.

Evitar que yo lea mucho (la máquina ya leyó y entendió).

Es útil tener a mi lado a un ayudante

que sabe mucho de lo que me importa.

Y continúa leyendo y aprendiendo. Mientras yo duermo…

O mientras vengo a darles una charla.

Hacer un resumen de un tema.

Contrastar dos puntos de vista.

Imagina que voy a la biblioteca del

CIC

Le pregunto a la bibliotecaria “¿Cuáles

son las sales del ácido nítrico?”

Ella me trae muchos libros de Química.

“Busca ahí tu respuesta”.

Ahora imagina que ella ya leyó y

entendió todos los libros que tiene

Le pregunto “¿Cuáles son las sales del ácido nítrico?”

Me responde: Los nitratos. El nitrato de sodio, nitrato sódico, sal de Chile, nitrato de

Chile… Su fórmula es NaNO3 …

– Previene el botulismo.

– Se extrae de yacimientos en Chile…

El nitrato de potasio, o nitrato de potasa

– Componente del salitre.

– Se usa como fertilizante…

Diferencia entre un ayudante que te da

documentos y otro que te da respuestas.

Sería un ayudante inteligente

Porque sabe mucho de un tema.

Porque lo puede analizar, sintetizar,

contrastar, computar…

– Señalar consecuencias.

Puede responder mis preguntas.

Sería la inteligencia dentro de la máquina.

La Inteligencia Artificial.

Y mientras una máquina amasa

conocimientos de un tema…

Otra máquina lo amasa de otro tema…

… y otra, de otro tema…

Y mientras una máquina amasa

conocimientos de un tema…

Otra máquina lo amasa de otro tema…

… y otra, de otro tema…

Y luego se intercambian sus bases de

datos.

– O sus ontologías.

– Y seguirían aprendiendo, día y noche…

Algo que los humanos no podemos hacer.

Pero las máquinas sí.

Una máquina sabría mucho de muchas cosas.

Serían de gran ayuda para nosotros,

– al conocer muchos temas,

– de manera profunda y actualizada,

y ser capaces de responder preguntas,

hacer deducciones, síntesis,

comparaciones…


que leen…

Entonces,

¿Serían capaces de saber qué es cierto y qué es falso?

No. Solo aprendieron lo que leyeron.

Bueno, pues vamos haciéndolo

¿Qué se requiere?

Localizar documentos en la Web.

– Que hablen de ciertos temas.

– Poder saber de qué temas habla un documento.

Concentrarlos en una biblioteca.

– Clasificarlos, organizarlos.

Pasar la información de un documento a

una estructura que la máquina maneje.

– Una ontología, o red semántica.

Bueno, pues vamos haciéndolo Etiquetar cada palabra de cada oración.

Hallar sujeto, verbo, complemento.

Resolver ambigüedades.

Resolver anáforas (pronombres).

Resolver anáfora indirecta.

Resolver proposiciones.

Hallar sinónimos y homogeneizarlos.

Reducir contradicciones.

Detectar inconsistencias. Eliminarlas.

Bueno, pues vamos haciéndolo Etiquetar cada palabra de cada oración.

Hallar sujeto, verbo, complemento.

Resolver ambigüedades.

Resolver anáforas (pronombres).

Resolver anáfora indirecta.

Resolver proposiciones.

Hallar sinónimos y homogeneizarlos.

Reducir contradicciones.

Detectar inconsistencias. Eliminarlas.

Análisis

sintáctico

Análisis

semántico

Hecho esto, solo he extraído la

información de un documento



Hay que extraer la de muchos otros.



Hay que extraer la de muchos otros.

Luego, fundir cada ontología en otra que

crece más y más.

Bien. Ya tengo una gran ontología

¿Qué hago con ella?

– (Mi sabio sabe mucho. Pero no sabe hablar)

Necesito hacerle un deductor

– Para que me conteste preguntas “puntuales”

¿Cuándo nació Juárez? ¿Cuál es el río más largo de

México? ¿Dónde se promulgó la primer Ley de Reforma?

– O que me diga “falso” o “verdadero” a alguna afirmación.

A la fruta larga, curva y amarilla se le llama chorizo.

– O que conteste preguntas complejas.

¿En qué estados de México hay más vacas que gente?

Bien. Ya tengo una gran ontología

¿Qué hago con ella?

– (Mi sabio sabe mucho. Pero no sabe hablar)

Necesito hacerle un deductor

– Algo como el lenguaje SQL para las bases de

datos.

Para que me sea útil.

Lo que se debe hacer Localizar documentos en la Web

Que hablen de ciertos temas

Construir una biblioteca digital

Traerlos a la biblioteca

Evitar duplicaciones

A cada documento

Hacerle su ontología

Fundir dos ontologías

En una grande, que capture el

conocimiento de todas ellas

y otra y otra

A la gran ontología

Hacerle un extractor o

deductor o contestador

de preguntas

Para poder responder preguntas no triviales

Dame los nombres de las

esposas de los presidentes

municipales en cuyos municipios

el porcentaje de reprobados en

tercer año de primaria sea mayor

al 30%.

Describe las herramientas de mano

que pueden perforar la madera.

Dos militares presidentes de

México entre 1868 y 1884.

Resumen del plan

Localizar documentos y meterlos a la biblioteca

Hacer la ontología de cada documento

Fusionar las ontologías en una sola

Con un extractor contestar preguntas no triviales

Qué está hecho ya.

Localizar documentos y

meterlos a la biblioteca

Clasitex. Programa que

nos dice de qué temas

habla un documento (A.

Guzmán, 1997)

BiblioDigital ©. Una

biblioteca digital

distribuida (A. Guzmán,

V. Polo de Gyves, 2003)

Arañas. Recolectan documentos

de la Web. (V. Polo de Gyves,

2003, dentro de BiblioDigital)

Arañas distribuidas. Evitan duplicar esfuerzos

(Luis Antonio Olguín, 2007)

Todos estos trabajos en: a-guzman.blogspot.com

Producto comercial.

Producto comercial.


Mapeando palabras a

conceptos: desambiguación.

Caballo vs caballo vs caballo.

Fabiola Colorado (2008)


Etiquetador. Jennifer Meneses (2011)

Resolución de la anáfora (pronombres). Erick Valtierra (2012)

Frases temáticas. Jennifer Meneses y Mario García A. (2011)

Proyecto OM*. En marcha. Extracción del conocimiento a

partir de documentos descriptivos.

Gabriela Yebra. 2012

Agregar semántica a Freeling. Enfoque A. Alma D. Cuevas. 2012-2014

Agregar semántica a Freeling. Enfoque B. A. Guzmán. 2012-2014


COM. Halla en una ontología el concepto

más similar a otro. Jesús Olivares (2002).

OM. Fusiona dos ontologías en una sola. Resuelve homónimos,

sinónimos, diferentes puntos de vista, inconsistencias, elimina

redundancias. Usa COM. Alma D. Cuevas, 2006.

Teoría de la confusión. ¿Cómo hallar el parecido entre

dos conceptos? S. Levachkine, A. Guzmán (2005).

Teoría de la inconsistencia. ¿Cuál es la

discrepancia en un conjunto de afirmaciones sobre

datos cualitativos?. Adriana Jiménez, 2012.

Qué está hecho

Qué está hecho


Visualización usando jerarquías.

Despliegue inteligible. César Cruz. 2011.

Análisis temático del conocimiento

científico. Eduardo Godínez, 2009.

Extractor. Fusión de bases de datos

heterogéneas. Alejandro Botello. Por terminar.

Contestar preguntas no triviales, con un extractor.

Formación automática de ontologías de

dominio. Hallar nuevos conceptos,

nuevas relaciones (nuevos artefactos,

nuevos usos). Israel Toledo. En progreso.

Extracción de eventos en noticias

en las redes sociales. Eduardo

Godínez. En progreso.

Resumen del plan

Clasitex. BiblioDigital.

Arañas.

COM.

OM. Confusión.

Inconsistencia.

Desambiguación.

Computing with words.

Etiquetador.

Resolución de la anáfora

Frases temáticas.

Extracción del conocimiento

Agregar semántica a Freeling. A.

Agregar semántica a Freeling. B.

Anáfora indirecta.

Extractor.

Resumen

Faltan partes del analizador sintáctico-

semántico.

Y el deductor-contestador (extractor).

Conclusión

Estamos trabajando para lograrlo.

Es hora de que la computadora entienda lo

que lee.

– Será un gran ayudante, inteligente y sabe-mucho.

Fin.

Clasitex

COM

OM

KERNEL COM.ppt

KERNEL OM.ppt

Desambiguador de preposiciones

“La vida de los colibríes está en estrecha

relación con la de ciertas plantas y flores; de

hecho constituyen una gran importancia para

los ecosistemas, pues, son agentes

polinizadores de gran cantidad de plantas en

los bosques tropicales”.

la DA0FS0

vida NCFS000

de SPS00 [posesión]

los DA0MP0

colibríes NCMP000

científicos NCMP000

de SPS00 [procedencia, parte]

méxico NCMS000

hablar VMN0000

sobre SPS00 [tema]

literatura NCFS000

Cuando las computadoras entiendan lo que lean, …Cuando las computadoras entiendan lo que lean,...

Documents

Transcript of Cuando las computadoras entiendan lo que lean, …Cuando las computadoras entiendan lo que lean,...