Cuando las computadoras entiendan lo que lean, …Cuando las computadoras entiendan lo que lean,...
Transcript of Cuando las computadoras entiendan lo que lean, …Cuando las computadoras entiendan lo que lean,...
Cuando las computadoras
entiendan lo que lean,
¿qué pasará?
Adolfo Guzmán Arenas
Centro de Investigación en Computación, IPN
No solo buscar con palabras clave
No me des documentos irrelevantes.
No me des documentos –contesta mis
preguntas.
¿Cuáles son las sales del ácido
nítrico?
OK
¿Cuál es el río más largo de
México?
??
¿Qué países perdieron la Segunda
Guerra Mundial?
??
La mayoría (¿todos?) estos servicios
interpretan tu búsqueda.
Y te proporcionan documentos
– para que tú mismo te contestes tu pregunta.
Se debe a que la máquina no entiende lo que lee.
Alcanza a ver palabras clave.
O da las respuestas que más éxito han tenido en el pasado.
Si las computadoras entendieran lo
que leen… Podrían leer de antemano gran cantidad de documentos.
– Digerirlos. Entenderlos. Comprenderlos.
– Buscar otros documentos (en la Web) con el mismo tema, o temas afines.
Leer más de lo mismo. Profundizar.
– Ligarlos. Juntar lo que aprendió (o dedujo) de uno, con lo que extrajo del otro.
– Complementar la información. Integrarla. Guardarla en una estructura.
– Leer, digerir, nuevos documentos, conforme aparezcan. Estar al día.
Si las computadoras entendieran lo
que leen…
Amasar una enorme cuantía de
conocimientos sobre cierto tema.
¿Para qué servirá todo esto?
Para tener a mano la información.
Para estar al día.
La máquina podría hacer inferencias.
– Extrapolaciones.
– Deducciones.
Analizar las consecuencias.
Sopesar los cursos o acciones más probables. Recomendarme:
– Los más seguros.
– Los más baratos…
¿Para qué servirá todo esto?
Dar respuestas a las preguntas que me interesan.
Proporcionarme información útil.
Evitar que yo lea mucho (la máquina ya leyó y entendió).
Es útil tener a mi lado a un ayudante
que sabe mucho de lo que me importa.
Y continúa leyendo y aprendiendo. Mientras yo duermo…
O mientras vengo a darles una charla.
Hacer un resumen de un tema.
Contrastar dos puntos de vista.
Imagina que voy a la biblioteca del
CIC
Le pregunto a la bibliotecaria “¿Cuáles
son las sales del ácido nítrico?”
Ella me trae muchos libros de Química.
“Busca ahí tu respuesta”.
Ahora imagina que ella ya leyó y
entendió todos los libros que tiene
Le pregunto “¿Cuáles son las sales del ácido nítrico?”
Me responde: Los nitratos. El nitrato de sodio, nitrato sódico, sal de Chile, nitrato de
Chile… Su fórmula es NaNO3 …
– Previene el botulismo.
– Se extrae de yacimientos en Chile…
El nitrato de potasio, o nitrato de potasa
– Componente del salitre.
– Se usa como fertilizante…
Diferencia entre un ayudante que te da
documentos y otro que te da respuestas.
Sería un ayudante inteligente
Porque sabe mucho de un tema.
Porque lo puede analizar, sintetizar,
contrastar, computar…
– Señalar consecuencias.
Puede responder mis preguntas.
Sería la inteligencia dentro de la máquina.
La Inteligencia Artificial.
Y mientras una máquina amasa
conocimientos de un tema…
Otra máquina lo amasa de otro tema…
… y otra, de otro tema…
Y mientras una máquina amasa
conocimientos de un tema…
Otra máquina lo amasa de otro tema…
… y otra, de otro tema…
Y luego se intercambian sus bases de
datos.
– O sus ontologías.
– Y seguirían aprendiendo, día y noche…
Algo que los humanos no podemos hacer.
Pero las máquinas sí.
Una máquina sabría mucho de muchas cosas.
Serían de gran ayuda para nosotros,
– al conocer muchos temas,
– de manera profunda y actualizada,
y ser capaces de responder preguntas,
hacer deducciones, síntesis,
comparaciones…
Si las computadoras entendieran lo
que leen…
Entonces,
¿Serían capaces de saber qué es cierto y qué es falso?
No. Solo aprendieron lo que leyeron.
Bueno, pues vamos haciéndolo
¿Qué se requiere?
Localizar documentos en la Web.
– Que hablen de ciertos temas.
– Poder saber de qué temas habla un documento.
Concentrarlos en una biblioteca.
– Clasificarlos, organizarlos.
Pasar la información de un documento a
una estructura que la máquina maneje.
– Una ontología, o red semántica.
Bueno, pues vamos haciéndolo Etiquetar cada palabra de cada oración.
Hallar sujeto, verbo, complemento.
Resolver ambigüedades.
Resolver anáforas (pronombres).
Resolver anáfora indirecta.
Resolver proposiciones.
Hallar sinónimos y homogeneizarlos.
Reducir contradicciones.
Detectar inconsistencias. Eliminarlas.
Bueno, pues vamos haciéndolo Etiquetar cada palabra de cada oración.
Hallar sujeto, verbo, complemento.
Resolver ambigüedades.
Resolver anáforas (pronombres).
Resolver anáfora indirecta.
Resolver proposiciones.
Hallar sinónimos y homogeneizarlos.
Reducir contradicciones.
Detectar inconsistencias. Eliminarlas.
Análisis
sintáctico
Análisis
semántico
Hecho esto, solo he extraído la
información de un documento
Hecho esto, solo he extraído la
información de un documento
Hay que extraer la de muchos otros.
Hecho esto, solo he extraído la
información de un documento
Hay que extraer la de muchos otros.
Luego, fundir cada ontología en otra que
crece más y más.
Bien. Ya tengo una gran ontología
¿Qué hago con ella?
– (Mi sabio sabe mucho. Pero no sabe hablar)
Necesito hacerle un deductor
– Para que me conteste preguntas “puntuales”
¿Cuándo nació Juárez? ¿Cuál es el río más largo de
México? ¿Dónde se promulgó la primer Ley de Reforma?
– O que me diga “falso” o “verdadero” a alguna afirmación.
A la fruta larga, curva y amarilla se le llama chorizo.
– O que conteste preguntas complejas.
¿En qué estados de México hay más vacas que gente?
Bien. Ya tengo una gran ontología
¿Qué hago con ella?
– (Mi sabio sabe mucho. Pero no sabe hablar)
Necesito hacerle un deductor
– Algo como el lenguaje SQL para las bases de
datos.
Para que me sea útil.
Lo que se debe hacer Localizar documentos en la Web
Que hablen de ciertos temas
Construir una biblioteca digital
Traerlos a la biblioteca
Evitar duplicaciones
A cada documento
Hacerle su ontología
Fundir dos ontologías
En una grande, que capture el
conocimiento de todas ellas
y otra y otra
A la gran ontología
Hacerle un extractor o
deductor o contestador
de preguntas
Para poder responder preguntas no triviales
Dame los nombres de las
esposas de los presidentes
municipales en cuyos municipios
el porcentaje de reprobados en
tercer año de primaria sea mayor
al 30%.
Describe las herramientas de mano
que pueden perforar la madera.
Dos militares presidentes de
México entre 1868 y 1884.
Resumen del plan
Localizar documentos y meterlos a la biblioteca
Hacer la ontología de cada documento
Fusionar las ontologías en una sola
Con un extractor contestar preguntas no triviales
Qué está hecho ya.
Localizar documentos y
meterlos a la biblioteca
Clasitex. Programa que
nos dice de qué temas
habla un documento (A.
Guzmán, 1997)
BiblioDigital ©. Una
biblioteca digital
distribuida (A. Guzmán,
V. Polo de Gyves, 2003)
Arañas. Recolectan documentos
de la Web. (V. Polo de Gyves,
2003, dentro de BiblioDigital)
Arañas distribuidas. Evitan duplicar esfuerzos
(Luis Antonio Olguín, 2007)
Todos estos trabajos en: a-guzman.blogspot.com
Producto comercial.
Producto comercial.
Hacer la ontología de cada documento
Mapeando palabras a
conceptos: desambiguación.
Caballo vs caballo vs caballo.
Fabiola Colorado (2008)
Hacer la ontología de cada documento
Etiquetador. Jennifer Meneses (2011)
Resolución de la anáfora (pronombres). Erick Valtierra (2012)
Frases temáticas. Jennifer Meneses y Mario García A. (2011)
Proyecto OM*. En marcha. Extracción del conocimiento a
partir de documentos descriptivos.
Gabriela Yebra. 2012
Agregar semántica a Freeling. Enfoque A. Alma D. Cuevas. 2012-2014
Agregar semántica a Freeling. Enfoque B. A. Guzmán. 2012-2014
Fusionar las ontologías en una sola
COM. Halla en una ontología el concepto
más similar a otro. Jesús Olivares (2002).
OM. Fusiona dos ontologías en una sola. Resuelve homónimos,
sinónimos, diferentes puntos de vista, inconsistencias, elimina
redundancias. Usa COM. Alma D. Cuevas, 2006.
Teoría de la confusión. ¿Cómo hallar el parecido entre
dos conceptos? S. Levachkine, A. Guzmán (2005).
Teoría de la inconsistencia. ¿Cuál es la
discrepancia en un conjunto de afirmaciones sobre
datos cualitativos?. Adriana Jiménez, 2012.
Qué está hecho
Qué está hecho
Fusionar las ontologías en una sola
Visualización usando jerarquías.
Despliegue inteligible. César Cruz. 2011.
Análisis temático del conocimiento
científico. Eduardo Godínez, 2009.
Extractor. Fusión de bases de datos
heterogéneas. Alejandro Botello. Por terminar.
Contestar preguntas no triviales, con un extractor.
Formación automática de ontologías de
dominio. Hallar nuevos conceptos,
nuevas relaciones (nuevos artefactos,
nuevos usos). Israel Toledo. En progreso.
Extracción de eventos en noticias
en las redes sociales. Eduardo
Godínez. En progreso.
Resumen del plan
Clasitex. BiblioDigital.
Arañas.
COM.
OM. Confusión.
Inconsistencia.
Desambiguación.
Computing with words.
Etiquetador.
Resolución de la anáfora
Frases temáticas.
Extracción del conocimiento
Agregar semántica a Freeling. A.
Agregar semántica a Freeling. B.
Anáfora indirecta.
Extractor.
Resumen
Faltan partes del analizador sintáctico-
semántico.
Y el deductor-contestador (extractor).
Conclusión
Estamos trabajando para lograrlo.
Es hora de que la computadora entienda lo
que lee.
– Será un gran ayudante, inteligente y sabe-mucho.
Fin.
Clasitex
Desambiguador de preposiciones
“La vida de los colibríes está en estrecha
relación con la de ciertas plantas y flores; de
hecho constituyen una gran importancia para
los ecosistemas, pues, son agentes
polinizadores de gran cantidad de plantas en
los bosques tropicales”.
la DA0FS0
vida NCFS000
de SPS00 [posesión]
los DA0MP0
colibríes NCMP000
científicos NCMP000
de SPS00 [procedencia, parte]
méxico NCMS000
hablar VMN0000
sobre SPS00 [tema]
literatura NCFS000