Ciencias de la computación e inteligencia artiﬁcial ... · Un lenguaje Lh para representar...

Aprendizaje lógico probabilístico (C3)

M.J. Hidalgo

Ciencias de la computación e inteligencia artificialUniversidad de Sevilla

AA 2008–09 1 / 24

Introducción

◮ El aprendizaje lógico probabilístico es un campo de investigaciónsituado en la intersección del razonamiento probabilístico, lasrepresentaciones lógicas y el aprendizaje automático.

◮ Idea: integrar representciones lógicas o relacionales conmecanismos de razonamiento probabilístico y aprendizajeautomático.

◮ En este contexto:◮ El término probabilístico hace referencia al uso de

representaciones y mecanismos de razonamiento basados en lateoría de la probabilidad, como redes bayesianas, modelos ocultosde Markov o gramáticas estocásticas.

◮ El término lógico se refiere a representciones relacionales y enlógica de primer orden.

◮ El término aprendizaje significa obtener determinados aspectos dela lógica probabilística a partir de bases de datos.

AA 2008–09 2 / 24

Introducción

AA 2008–09 2 / 24

Introducción

AA 2008–09 2 / 24

Introducción

AA 2008–09 2 / 24

Introducción

AA 2008–09 2 / 24

Introducción

◮ Si consideramos las parejas formadas por estos tres campos:◮ Probabilidad + Lógica: Lógica probabilística

◮ La construcción manual de las teorías es una tarea costosa ydifícil.

◮ Probabilidad + Aprendizaje: Aprendizaje estadístico◮ La representación no captura las relaciones presentes en muchas

situaciones.

◮ Lógica + Aprendizaje: Programación lógica inductiva◮ No permite tratar con incertidumbre.

◮ Solución: Probabilidad + Lógica + Aprendizaje

AA 2008–09 3 / 24

Introducción

situaciones.

AA 2008–09 3 / 24

Introducción

situaciones.

AA 2008–09 3 / 24

Introducción

situaciones.

AA 2008–09 3 / 24

Introducción

situaciones.

AA 2008–09 3 / 24

Introducción: de dónde partimos

◮ Un problema en PLI clásica consiste en:◮ Dados:

◮ Un conjunto de ejemplos positivos Pos

◮ Un conjunto de ejemplos negativos Ne

◮ Una teoría subyacente B

◮ Un lenguaje Le para representar ejemplos◮ Un lenguaje Lh para representar hipótesis◮ Una relación de cobertura cubre sobre Lh × Le

◮ Encontrar una hipótesis h tal que

h ∈ Lh ∧ ∀p ∈ Pos(cubre(h, p)) ∧ ∀n ∈ Ne(¬cubre(h, n))

AA 2008–09 4 / 24

◮ La relación de cobertura admite distintas definiciones, lo que dalugar a distintas formas de aprendizaje:

◮ Aprendizaje a partir de consecuencias◮ cubre(h, e)⇔ B ∧ h |= e

◮ Programas: FOIL, PROGOL, GOLEM

◮ Aprendizaje como interpretaciones◮ cubre(h, e)⇔ e es un modelo de B ∧ h

◮ Cada ejemplo es una interpretación de Herbrand◮ Programas: ICL, CLAUDIEN

◮ Aprendizaje a partir de las pruebas◮ cubre(h, e)⇔ e es una prueba de B ∧ h

◮ Cada ejemplo es un árbol de prueba◮ Programas: Model inference system (MIS), Grammar induction.

AA 2008–09 5 / 24

Introducción: PILP

◮ Idea: transformar la relación de cobertura en una relación deprobabilidad.

◮ Así, un problema general en PLIP consistiría en:

◮ Dados:◮ Un conjunto de ejemplos E

◮ Un lenguaje Le para representar ejemplos◮ Un lenguaje Lh para representar hipótesis◮ Una relación de cobertura probabilística P sobre Lh × Le

◮ Encontrar una hipótesis h∗ que maximice alguna puntuaciónbasada en la relación de cobertura probabilística.

◮ De forma análoga: aprendizaje a partir de consecuencias, a partirde interpretaciones y a partir de pruebas.

◮ Representación del conocimiento: será necesario manajerextensiones de programas lógicos, redes bayesianas, modelosocultos de Markov, gramáticas, etc.

AA 2008–09 6 / 24

Introducción: PILP

AA 2008–09 6 / 24

Introducción: PILP

AA 2008–09 6 / 24

Introducción: PILP

AA 2008–09 6 / 24

Introducción: PILP

AA 2008–09 6 / 24

Introducción: PILP

AA 2008–09 6 / 24

Preliminares (IA2)

◮ Representación de conocimiento incierto:◮ Se tienen datos acerca de un realidad, expresados en forma de

relaciones causa–efecto: directa, indirecta, inexistente.◮ Se conoce la distribución de probabilidad condicionada.◮ Se construye una red bayesiana para representar el conocimiento.◮ A partir de la red bayesiana se infiere nuevo conocimiento, en

forma de probabilidades condicionadas a posteriori.◮ Características:

◮ Una red bayesiana codifica una distribución de probabilidad de lasvariables.

◮ Es una representación más eficiente que la representación explícitade la distribución de probabilidad conjunta.

◮ La codificación se basa en la hipótesis de independenciacondicional.

◮ Limitación desde el punto de vista lógico: la distribución deprobabilidad está definida sólo sobre interpretacionesproposicionales.

◮ Mediante redes bayesianas no se pueden modelizar situacionesrelacionales.

AA 2008–09 7 / 24

Preliminares (IA2)

AA 2008–09 7 / 24

Preliminares (IA2)

AA 2008–09 7 / 24

Preliminares (IA2)

AA 2008–09 7 / 24

Preliminares (IA2)

AA 2008–09 7 / 24

Preliminares (IA2)

AA 2008–09 7 / 24

Preliminares (IA2)

AA 2008–09 7 / 24

Preliminares (IA2)

AA 2008–09 7 / 24

Preliminares: representaciones

◮ Posibles extensiones de los modelos de representación:◮ Definen distribuciones de probabilidad sobre interpretaciones:

◮ Programas lógicos bayesianos◮ Redes lógicas de Markov

◮ Definen distribuciones de probabilidad sobre las pruebas:◮ Programas lógicos estocásticos◮ PRISM◮ ICL

AA 2008–09 8 / 24

Preliminares: modelos de aprendizaje (IA2)

◮ Dados:◮ Un conjunto de datos observados D◮ Un conjunto de hipótesis H = {h1, . . . }, de las que se conocen sus

probabilidades a priori P(hi)◮ La verosimilitud de los datos respecto de las hipótesis P(d |hi)

◮ Encontrar la hipótesis más probable a partir de los datos: h ∈ H

que maximiza P(h|D).

◮ Aplicaciones: predicciones.

AA 2008–09 9 / 24

◮ Tenemos:◮ Un conjunto de datos observados: observaciones completas sobre

los valores de las variables aleatorias.◮ La estructura de la red bayesiana correspondiente a las variables,

pero no las tablas de probabilidad condicionada.

◮ Aprender las tablas de probabilidad condicionada de la red.

◮ Caso particular: clasificador naive de Bayes.

AA 2008–09 10 / 24

◮ Aprender las tablas de probabilidad de una red bayesiana, de laque se conoce su estructura, con variables ocultas: algotirmo EM.

◮ Aprender la estructura de una red bayesiana.

◮ Dividir un conjunto de datos de entrada en subconjuntos(clusters), de forma que los elementos de cada subconjuntocomparten características desconocidas a priori.

AA 2008–09 11 / 24

Lógicas probabilísticas de primer orden

◮ Programas lógicos bayesianos.

◮ Modelos probabilísticos relacionales.

◮ Lógica de Markov.

◮ Pruebas probabilísticas.

◮ ...

AA 2008–09 12 / 24

Programas lógicos bayesianos

◮ Se unifican en un marco común la estructura de una redbayesiana y las relaciones lógicas contenidas en un programalógico.

◮ Idea subyacente:◮ Establecer una correspondencia entre los átomos básicos y las

variables aleatorias.◮ Establecer una correspondencia “semántica” entre el operador de

consecuencia inmediata y la relación de influencia directa.

◮ Ejemplo: Consideremos un modelo genético de herencia de un

gen que determina el grupo sanguíneo de una persona, bt(X ).Cada persona X tiene dos copias del cromosoma que contiene

ese gen; una, mc(Y ), heredada de su madre m(Y ,X ); y otra,

pc(Z ), heredada de su padre f (Z ,X ).

AA 2008–09 13 / 24

◮ Estructura gráfica de una red bayesiana, que modeliza lainfluencia de la herencia en los grupos sanguíneos de una familiaparticular:

mc_ann pc_ann mc_brian pc_brian

bt_ann mc_dorothy pc_dorothy bt_brian

bt_dorothy

AA 2008–09 14 / 24

◮ Programa Prolog correspondiente:p (ann).p (brian).m (ann).m (brian).m (dorothy) :- m (ann), p (ann).p (dorothy) :- m (brian), p (brian).bt(ann) :- m (ann), p (ann).bt(brian) :- m (brian), p (brian).bt(dorothy) :- m (dorothy), p (dorothy).◮ Mediante una red bayesiana clásica no podemos expresar que

otra familia tenga las mismas relaciones.

AA 2008–09 15 / 24

◮ Programa Prolog correspondiente:p (ann).p (brian).m (ann).m (brian).m (dorothy) :- m (ann), p (ann).p (dorothy) :- m (brian), p (brian).bt(ann) :- m (ann), p (ann).bt(brian) :- m (brian), p (brian).bt(dorothy) :- m (dorothy), p (dorothy).◮ Mediante una red bayesiana clásica no podemos expresar que

otra familia tenga las mismas relaciones.

AA 2008–09 15 / 24

◮ Cláusula bayesiana◮ Dos tipos de predicados: determinísticos (o lógicos) y

probabilísticos (o bayesianos).◮ Dos tipos de átomos: lógicos y bayesianos.◮ Cláusula bayesiana: A|A1, . . . ,An, donde A es un átomo bayesiano

y A1, . . . ,An son átomos lógicos o bayesianos.

◮ Consideraciones:◮ Cada predicado bayesiano tiene asociado un dominio finito (es

generalizable). Por ejemplo, D(mc) = D(pc) = {a, b, 0} yD(bt) = {a, b, ab, 0}.

◮ Intuitivamente, un predicado bayesiano representa un conjunto devariables aleatorias. Por ejemplo, bt(ann) representa el gruposanguíneo de una persona llamada Ann como una variablealeatoria cuyos posibles valores son {a, b, ab, 0}

◮ Se usa | en vez de : − para indicar una probabilidad condicional.◮ Se supone que Var(cabeza(c)) ⊆ Var(cuerpo(c)).◮ Las cláusulas bayesiannas codifican la componente estructural o

cualitativa de los programas lógicos bayesianos.

AA 2008–09 16 / 24

◮ Para representar el modelo probabilístico:◮ Cada cláusula está anotada con una distribución de probabilidad

condicional cpd(c), que codifica P(cabeza(c)|cuerpo(c))(Normalmente, se representará mediante una tabla).

◮ Cada predicado bayesiano tiene asociada una regla decombinación: función que, a un conjunto de distribuciones deprobabilidad condicionada {P(A|Ai1, . . . ,Aini

)|i = 1, . . . ,m} enuna distribución de probabilidad condicionada combinadaP(A|B1, . . . ,Bk) con {B1, . . . ,Bk} ⊆ ∪m

i=1{Ai1, . . . ,Aini}.

◮ Un programa lógico bayesiano es un conjunto finito de cláusulasbayesianas. Cada cláusula c tiene asociada exactamente unadistribución de probabilidad condicionada cpd(c), y para cadapredicado bayesiano p existe exactamente una regla decombinación cr(p).

AA 2008–09 17 / 24

i=1{Ai1, . . . ,Aini}.

AA 2008–09 17 / 24

i=1{Ai1, . . . ,Aini}.

AA 2008–09 17 / 24

◮ Ejemplo:m(ann, dorothy).f(brian, dorothy).p (ann).p (brian).m (ann).m (brian).m (X) | m (Y,X), m (Y), p (Y).p (X) | f(Y,X), m (Y), p (Y).bt(X) | m (X), p (X).◮ Para cada predicado bayesiano, la regla de combinación es la

identidad.

AA 2008–09 18 / 24

◮ Ejemplo:m(ann, dorothy).f(brian, dorothy).p (ann).p (brian).m (ann).m (brian).m (X) | m (Y,X), m (Y), p (Y).p (X) | f(Y,X), m (Y), p (Y).bt(X) | m (X), p (X).◮ Para cada predicado bayesiano, la regla de combinación es la

identidad.

AA 2008–09 18 / 24

Programa lógico bayesiano

◮ Distribución de probabilidad condicionada para cada cláusula:mc(X) pc(X) P(bt(X))

a a (0.97, 0.01, 0.01, 0.01)b a (0.01, 0.01, 0.97, 0.01)... ... ...0 0 (0.01, 0.01, 0.01, 0.97)

m(Y,X) mc(Y) pc(Y) P(mc(X))

true a a (0.98, 0.01, 0.01)true b a (0.01, 0.98, 0.01)... ... ... ...

false a a (0.33, 0.33, 0.33)... ... ... ...

AA 2008–09 19 / 24

PLB: semántica declarativa

◮ Cada programa lógico bayesiano B representa una red bayesiana(posiblemente infinita), donde los nodos son los átomos delmenor modelo de Herbrand del programa, LH(B).

◮ Grafo de dependencia DG(B):◮ Nodos: los átomos del menor modelo de Herbrand LH(B).◮ Arcos: existe un arco de un nodo x a un nodo y si y sólo si existe

una cláusula c ∈ B y una sustitución θ tal que

y = cabeza(cθ) ∧ x ∈ cuerpo(cθ) ∧ ∀z ∈ cθ(z ∈ LH(B))

◮ A cada nodo se le asocia la distribución de probabilidadcombinada que resulta de aplicar la regla de combinación cr(p) dep al conjunto de distribuciones cpd(cθ), donde cabeza(cθ) = x y{x} ∪ cuerpo(cθ) ⊆ LH(B).

AA 2008–09 20 / 24

◮ La base de Herbrand BH(P) contiene el conjunto de todas lasposibles variables aleatorias.

◮ Los átomos del menor modelo de Herbrand LH(P) ⊆ BH(P) sonlas variables aleatorias relevantes; aquellas sobre las que ladistribución de probabilidad está bien definida.

◮ Un programa lógico bayesiano está bien definido si:◮ LH(B) 6= ∅◮ DG(B) es acíclico,◮ cada nodo en DG(B) está influenciado por un número finito de

variables.

◮ En ese caso, B especifica una única distribución de probabilidadPB sobre LH(B).

AA 2008–09 21 / 24

variables.

AA 2008–09 21 / 24

variables.

AA 2008–09 21 / 24

variables.

AA 2008–09 21 / 24

Ejemplo

◮ Grafo de dependencia del ejemplo:

m(ann, dorothy) f(brian, dorothy)

mc(ann) pc(ann) mc(brian) pc(brian)

bt(ann) mc(dorothy) pc(dorothy) bt(brian)

bt(dorothy)

AA 2008–09 22 / 24

Ejemplo

◮ Programa lógico proposicional, con las cláusulas c tales quecabeza(c) ∈ LH(B) y cuerpo(c) ⊆ LH(B)m(ann, dorothy).f(brian, dorothy).p (ann).p (brian).m (ann).m (brian).m (dorothy) | m (ann,dorothy), m (ann), p (ann).p (dorothy) | f(brian,dorothy), m (brian), p (brian).bt(ann) | m (ann), p (ann).bt(brian) | m (brian), p (brian).bt(dorothy) | m (dorothy), p (dorothy).

◮ La estructura de la red bayesiana asociada coindice con el grafode dependencia del programa lógico bayesiano.

AA 2008–09 23 / 24

Ejemplo

◮ Programa lógico proposicional, con las cláusulas c tales quecabeza(c) ∈ LH(B) y cuerpo(c) ⊆ LH(B)m(ann, dorothy).f(brian, dorothy).p (ann).p (brian).m (ann).m (brian).m (dorothy) | m (ann,dorothy), m (ann), p (ann).p (dorothy) | f(brian,dorothy), m (brian), p (brian).bt(ann) | m (ann), p (ann).bt(brian) | m (brian), p (brian).bt(dorothy) | m (dorothy), p (dorothy).

◮ La estructura de la red bayesiana asociada coindice con el grafode dependencia del programa lógico bayesiano.

AA 2008–09 23 / 24

PLB: semántica procedural

AA 2008–09 24 / 24

Ciencias de la computación e inteligencia artiﬁcial ... · Un lenguaje Lh para representar...

Documents

Transcript of Ciencias de la computación e inteligencia artiﬁcial ... · Un lenguaje Lh para representar...

PROGRAMACIÓN DINÁMICA PROBABILÍSTICA

Capitulo 2-1 - Elementos de Hidrología Probabilística [Modo de Compatibilidad]

Inteligencia artiﬁcial avanzada - exabyteinformatica.com · este motivo, pese a que la inteligencia artiﬁcial se considera una rama de la informática teórica, es una disciplina

Inteligencia Artiﬁcial, Modelos de Negocio y Comercio Internacional · 2019. 6. 21. · Inteligencia Artiﬁcial, Modelos de Negocio y Comercio Internacional Claudia Del Pozo Jefa

Distribución probabilística³n probabilística Enumeración de todos los resultados de un experimento junto con la probabilidad asociada a cada uno. Suponga que se está interesado

ESTADÍSTICA PROBABILÍSTICA - …imagenes.uniremington.edu.co/moodle/Módulos de aprendizaje... · 3 estadÍstica probabilÍstica 3 transversal tabla de contenido pág. 1 mapa de

Máster en Inteligencia Artiﬁcial Título en Proceso de ......Máster en Inteligencia Artiﬁcial ABRIL 2020/21 Nota: El calendario podrá sufrir variaciones puntuales acorde las

Análisis Probabilística de Riesgos

Dpto. Ciencias de la Computaci´on e Inteligencia Artiﬁcial ...

Evaluación probabilística de licuación en arenas de …...61 2017 bras y Proyectos 22 6174 Evaluación probabilística de licuación en arenas de la ciudad de Piura en Perú Denisse

Una revisión de la versión probabilística del método de ...

Artiﬁcial disc and vertebra system: a novel motion ... · Artiﬁcial disc and vertebra system: a novel motion preservation device for cervical spinal disease after vertebral corpectomy

Problemas de Inteligencia Artiﬁcial I (Curso 2008–2009 ... · Problemas de Inteligencia Artiﬁcial I (Curso 2008–2009) ... Se desea distribuir varios trabajos de computo entre

Enrique Dans: “En inteligencia artiﬁcial nos están guiando … · Enrique Dans: “En inteligencia artiﬁcial nos están guiando cantos ... ... 2 of 16 7/2/17, 1:02 PM. 2017.

Técnicas de Inteligencia Artiﬁcial empleando Mundos ...

Vida real, vida artiﬁcial

Causalidad Probabilística Alfredo Muñoz

Aprendizaje en Inteligencia Artiﬁcial - SinDominio.Netapm/articulos/IAIC/aprendizaje/aprendizaje.pdf · Aprendizaje en Inteligencia Artiﬁcial Alberto Pesquera Martín 1. Introducción

DECISIÓN MULTICRITERIO BOOLEANA, PROBABILÍSTICA Y ...

AMENAZA PROBABILÍSTICA POR CAÍDA DE CENIZA EN LA …