Post on 03-Nov-2018
Aprendizaje lógico probabilístico (C3)
M.J. Hidalgo
Ciencias de la computación e inteligencia artificialUniversidad de Sevilla
AA 2008–09 1 / 24
Introducción
◮ El aprendizaje lógico probabilístico es un campo de investigaciónsituado en la intersección del razonamiento probabilístico, lasrepresentaciones lógicas y el aprendizaje automático.
◮ Idea: integrar representciones lógicas o relacionales conmecanismos de razonamiento probabilístico y aprendizajeautomático.
◮ En este contexto:◮ El término probabilístico hace referencia al uso de
representaciones y mecanismos de razonamiento basados en lateoría de la probabilidad, como redes bayesianas, modelos ocultosde Markov o gramáticas estocásticas.
◮ El término lógico se refiere a representciones relacionales y enlógica de primer orden.
◮ El término aprendizaje significa obtener determinados aspectos dela lógica probabilística a partir de bases de datos.
AA 2008–09 2 / 24
Introducción
◮ El aprendizaje lógico probabilístico es un campo de investigaciónsituado en la intersección del razonamiento probabilístico, lasrepresentaciones lógicas y el aprendizaje automático.
◮ Idea: integrar representciones lógicas o relacionales conmecanismos de razonamiento probabilístico y aprendizajeautomático.
◮ En este contexto:◮ El término probabilístico hace referencia al uso de
representaciones y mecanismos de razonamiento basados en lateoría de la probabilidad, como redes bayesianas, modelos ocultosde Markov o gramáticas estocásticas.
◮ El término lógico se refiere a representciones relacionales y enlógica de primer orden.
◮ El término aprendizaje significa obtener determinados aspectos dela lógica probabilística a partir de bases de datos.
AA 2008–09 2 / 24
Introducción
◮ El aprendizaje lógico probabilístico es un campo de investigaciónsituado en la intersección del razonamiento probabilístico, lasrepresentaciones lógicas y el aprendizaje automático.
◮ Idea: integrar representciones lógicas o relacionales conmecanismos de razonamiento probabilístico y aprendizajeautomático.
◮ En este contexto:◮ El término probabilístico hace referencia al uso de
representaciones y mecanismos de razonamiento basados en lateoría de la probabilidad, como redes bayesianas, modelos ocultosde Markov o gramáticas estocásticas.
◮ El término lógico se refiere a representciones relacionales y enlógica de primer orden.
◮ El término aprendizaje significa obtener determinados aspectos dela lógica probabilística a partir de bases de datos.
AA 2008–09 2 / 24
Introducción
◮ El aprendizaje lógico probabilístico es un campo de investigaciónsituado en la intersección del razonamiento probabilístico, lasrepresentaciones lógicas y el aprendizaje automático.
◮ Idea: integrar representciones lógicas o relacionales conmecanismos de razonamiento probabilístico y aprendizajeautomático.
◮ En este contexto:◮ El término probabilístico hace referencia al uso de
representaciones y mecanismos de razonamiento basados en lateoría de la probabilidad, como redes bayesianas, modelos ocultosde Markov o gramáticas estocásticas.
◮ El término lógico se refiere a representciones relacionales y enlógica de primer orden.
◮ El término aprendizaje significa obtener determinados aspectos dela lógica probabilística a partir de bases de datos.
AA 2008–09 2 / 24
Introducción
◮ El aprendizaje lógico probabilístico es un campo de investigaciónsituado en la intersección del razonamiento probabilístico, lasrepresentaciones lógicas y el aprendizaje automático.
◮ Idea: integrar representciones lógicas o relacionales conmecanismos de razonamiento probabilístico y aprendizajeautomático.
◮ En este contexto:◮ El término probabilístico hace referencia al uso de
representaciones y mecanismos de razonamiento basados en lateoría de la probabilidad, como redes bayesianas, modelos ocultosde Markov o gramáticas estocásticas.
◮ El término lógico se refiere a representciones relacionales y enlógica de primer orden.
◮ El término aprendizaje significa obtener determinados aspectos dela lógica probabilística a partir de bases de datos.
AA 2008–09 2 / 24
Introducción
◮ Si consideramos las parejas formadas por estos tres campos:◮ Probabilidad + Lógica: Lógica probabilística
◮ La construcción manual de las teorías es una tarea costosa ydifícil.
◮ Probabilidad + Aprendizaje: Aprendizaje estadístico◮ La representación no captura las relaciones presentes en muchas
situaciones.
◮ Lógica + Aprendizaje: Programación lógica inductiva◮ No permite tratar con incertidumbre.
◮ Solución: Probabilidad + Lógica + Aprendizaje
AA 2008–09 3 / 24
Introducción
◮ Si consideramos las parejas formadas por estos tres campos:◮ Probabilidad + Lógica: Lógica probabilística
◮ La construcción manual de las teorías es una tarea costosa ydifícil.
◮ Probabilidad + Aprendizaje: Aprendizaje estadístico◮ La representación no captura las relaciones presentes en muchas
situaciones.
◮ Lógica + Aprendizaje: Programación lógica inductiva◮ No permite tratar con incertidumbre.
◮ Solución: Probabilidad + Lógica + Aprendizaje
AA 2008–09 3 / 24
Introducción
◮ Si consideramos las parejas formadas por estos tres campos:◮ Probabilidad + Lógica: Lógica probabilística
◮ La construcción manual de las teorías es una tarea costosa ydifícil.
◮ Probabilidad + Aprendizaje: Aprendizaje estadístico◮ La representación no captura las relaciones presentes en muchas
situaciones.
◮ Lógica + Aprendizaje: Programación lógica inductiva◮ No permite tratar con incertidumbre.
◮ Solución: Probabilidad + Lógica + Aprendizaje
AA 2008–09 3 / 24
Introducción
◮ Si consideramos las parejas formadas por estos tres campos:◮ Probabilidad + Lógica: Lógica probabilística
◮ La construcción manual de las teorías es una tarea costosa ydifícil.
◮ Probabilidad + Aprendizaje: Aprendizaje estadístico◮ La representación no captura las relaciones presentes en muchas
situaciones.
◮ Lógica + Aprendizaje: Programación lógica inductiva◮ No permite tratar con incertidumbre.
◮ Solución: Probabilidad + Lógica + Aprendizaje
AA 2008–09 3 / 24
Introducción
◮ Si consideramos las parejas formadas por estos tres campos:◮ Probabilidad + Lógica: Lógica probabilística
◮ La construcción manual de las teorías es una tarea costosa ydifícil.
◮ Probabilidad + Aprendizaje: Aprendizaje estadístico◮ La representación no captura las relaciones presentes en muchas
situaciones.
◮ Lógica + Aprendizaje: Programación lógica inductiva◮ No permite tratar con incertidumbre.
◮ Solución: Probabilidad + Lógica + Aprendizaje
AA 2008–09 3 / 24
Introducción: de dónde partimos
◮ Un problema en PLI clásica consiste en:◮ Dados:
◮ Un conjunto de ejemplos positivos Pos
◮ Un conjunto de ejemplos negativos Ne
◮ Una teoría subyacente B
◮ Un lenguaje Le para representar ejemplos◮ Un lenguaje Lh para representar hipótesis◮ Una relación de cobertura cubre sobre Lh × Le
◮ Encontrar una hipótesis h tal que
h ∈ Lh ∧ ∀p ∈ Pos(cubre(h, p)) ∧ ∀n ∈ Ne(¬cubre(h, n))
AA 2008–09 4 / 24
Introducción: de dónde partimos
◮ Un problema en PLI clásica consiste en:◮ Dados:
◮ Un conjunto de ejemplos positivos Pos
◮ Un conjunto de ejemplos negativos Ne
◮ Una teoría subyacente B
◮ Un lenguaje Le para representar ejemplos◮ Un lenguaje Lh para representar hipótesis◮ Una relación de cobertura cubre sobre Lh × Le
◮ Encontrar una hipótesis h tal que
h ∈ Lh ∧ ∀p ∈ Pos(cubre(h, p)) ∧ ∀n ∈ Ne(¬cubre(h, n))
AA 2008–09 4 / 24
Introducción: de dónde partimos
◮ Un problema en PLI clásica consiste en:◮ Dados:
◮ Un conjunto de ejemplos positivos Pos
◮ Un conjunto de ejemplos negativos Ne
◮ Una teoría subyacente B
◮ Un lenguaje Le para representar ejemplos◮ Un lenguaje Lh para representar hipótesis◮ Una relación de cobertura cubre sobre Lh × Le
◮ Encontrar una hipótesis h tal que
h ∈ Lh ∧ ∀p ∈ Pos(cubre(h, p)) ∧ ∀n ∈ Ne(¬cubre(h, n))
AA 2008–09 4 / 24
Introducción: de dónde partimos
◮ La relación de cobertura admite distintas definiciones, lo que dalugar a distintas formas de aprendizaje:
◮ Aprendizaje a partir de consecuencias◮ cubre(h, e)⇔ B ∧ h |= e
◮ Programas: FOIL, PROGOL, GOLEM
◮ Aprendizaje como interpretaciones◮ cubre(h, e)⇔ e es un modelo de B ∧ h
◮ Cada ejemplo es una interpretación de Herbrand◮ Programas: ICL, CLAUDIEN
◮ Aprendizaje a partir de las pruebas◮ cubre(h, e)⇔ e es una prueba de B ∧ h
◮ Cada ejemplo es un árbol de prueba◮ Programas: Model inference system (MIS), Grammar induction.
AA 2008–09 5 / 24
Introducción: de dónde partimos
◮ La relación de cobertura admite distintas definiciones, lo que dalugar a distintas formas de aprendizaje:
◮ Aprendizaje a partir de consecuencias◮ cubre(h, e)⇔ B ∧ h |= e
◮ Programas: FOIL, PROGOL, GOLEM
◮ Aprendizaje como interpretaciones◮ cubre(h, e)⇔ e es un modelo de B ∧ h
◮ Cada ejemplo es una interpretación de Herbrand◮ Programas: ICL, CLAUDIEN
◮ Aprendizaje a partir de las pruebas◮ cubre(h, e)⇔ e es una prueba de B ∧ h
◮ Cada ejemplo es un árbol de prueba◮ Programas: Model inference system (MIS), Grammar induction.
AA 2008–09 5 / 24
Introducción: de dónde partimos
◮ La relación de cobertura admite distintas definiciones, lo que dalugar a distintas formas de aprendizaje:
◮ Aprendizaje a partir de consecuencias◮ cubre(h, e)⇔ B ∧ h |= e
◮ Programas: FOIL, PROGOL, GOLEM
◮ Aprendizaje como interpretaciones◮ cubre(h, e)⇔ e es un modelo de B ∧ h
◮ Cada ejemplo es una interpretación de Herbrand◮ Programas: ICL, CLAUDIEN
◮ Aprendizaje a partir de las pruebas◮ cubre(h, e)⇔ e es una prueba de B ∧ h
◮ Cada ejemplo es un árbol de prueba◮ Programas: Model inference system (MIS), Grammar induction.
AA 2008–09 5 / 24
Introducción: de dónde partimos
◮ La relación de cobertura admite distintas definiciones, lo que dalugar a distintas formas de aprendizaje:
◮ Aprendizaje a partir de consecuencias◮ cubre(h, e)⇔ B ∧ h |= e
◮ Programas: FOIL, PROGOL, GOLEM
◮ Aprendizaje como interpretaciones◮ cubre(h, e)⇔ e es un modelo de B ∧ h
◮ Cada ejemplo es una interpretación de Herbrand◮ Programas: ICL, CLAUDIEN
◮ Aprendizaje a partir de las pruebas◮ cubre(h, e)⇔ e es una prueba de B ∧ h
◮ Cada ejemplo es un árbol de prueba◮ Programas: Model inference system (MIS), Grammar induction.
AA 2008–09 5 / 24
Introducción: PILP
◮ Idea: transformar la relación de cobertura en una relación deprobabilidad.
◮ Así, un problema general en PLIP consistiría en:
◮ Dados:◮ Un conjunto de ejemplos E
◮ Una teoría subyacente B
◮ Un lenguaje Le para representar ejemplos◮ Un lenguaje Lh para representar hipótesis◮ Una relación de cobertura probabilística P sobre Lh × Le
◮ Encontrar una hipótesis h∗ que maximice alguna puntuaciónbasada en la relación de cobertura probabilística.
◮ De forma análoga: aprendizaje a partir de consecuencias, a partirde interpretaciones y a partir de pruebas.
◮ Representación del conocimiento: será necesario manajerextensiones de programas lógicos, redes bayesianas, modelosocultos de Markov, gramáticas, etc.
AA 2008–09 6 / 24
Introducción: PILP
◮ Idea: transformar la relación de cobertura en una relación deprobabilidad.
◮ Así, un problema general en PLIP consistiría en:
◮ Dados:◮ Un conjunto de ejemplos E
◮ Una teoría subyacente B
◮ Un lenguaje Le para representar ejemplos◮ Un lenguaje Lh para representar hipótesis◮ Una relación de cobertura probabilística P sobre Lh × Le
◮ Encontrar una hipótesis h∗ que maximice alguna puntuaciónbasada en la relación de cobertura probabilística.
◮ De forma análoga: aprendizaje a partir de consecuencias, a partirde interpretaciones y a partir de pruebas.
◮ Representación del conocimiento: será necesario manajerextensiones de programas lógicos, redes bayesianas, modelosocultos de Markov, gramáticas, etc.
AA 2008–09 6 / 24
Introducción: PILP
◮ Idea: transformar la relación de cobertura en una relación deprobabilidad.
◮ Así, un problema general en PLIP consistiría en:
◮ Dados:◮ Un conjunto de ejemplos E
◮ Una teoría subyacente B
◮ Un lenguaje Le para representar ejemplos◮ Un lenguaje Lh para representar hipótesis◮ Una relación de cobertura probabilística P sobre Lh × Le
◮ Encontrar una hipótesis h∗ que maximice alguna puntuaciónbasada en la relación de cobertura probabilística.
◮ De forma análoga: aprendizaje a partir de consecuencias, a partirde interpretaciones y a partir de pruebas.
◮ Representación del conocimiento: será necesario manajerextensiones de programas lógicos, redes bayesianas, modelosocultos de Markov, gramáticas, etc.
AA 2008–09 6 / 24
Introducción: PILP
◮ Idea: transformar la relación de cobertura en una relación deprobabilidad.
◮ Así, un problema general en PLIP consistiría en:
◮ Dados:◮ Un conjunto de ejemplos E
◮ Una teoría subyacente B
◮ Un lenguaje Le para representar ejemplos◮ Un lenguaje Lh para representar hipótesis◮ Una relación de cobertura probabilística P sobre Lh × Le
◮ Encontrar una hipótesis h∗ que maximice alguna puntuaciónbasada en la relación de cobertura probabilística.
◮ De forma análoga: aprendizaje a partir de consecuencias, a partirde interpretaciones y a partir de pruebas.
◮ Representación del conocimiento: será necesario manajerextensiones de programas lógicos, redes bayesianas, modelosocultos de Markov, gramáticas, etc.
AA 2008–09 6 / 24
Introducción: PILP
◮ Idea: transformar la relación de cobertura en una relación deprobabilidad.
◮ Así, un problema general en PLIP consistiría en:
◮ Dados:◮ Un conjunto de ejemplos E
◮ Una teoría subyacente B
◮ Un lenguaje Le para representar ejemplos◮ Un lenguaje Lh para representar hipótesis◮ Una relación de cobertura probabilística P sobre Lh × Le
◮ Encontrar una hipótesis h∗ que maximice alguna puntuaciónbasada en la relación de cobertura probabilística.
◮ De forma análoga: aprendizaje a partir de consecuencias, a partirde interpretaciones y a partir de pruebas.
◮ Representación del conocimiento: será necesario manajerextensiones de programas lógicos, redes bayesianas, modelosocultos de Markov, gramáticas, etc.
AA 2008–09 6 / 24
Introducción: PILP
◮ Idea: transformar la relación de cobertura en una relación deprobabilidad.
◮ Así, un problema general en PLIP consistiría en:
◮ Dados:◮ Un conjunto de ejemplos E
◮ Una teoría subyacente B
◮ Un lenguaje Le para representar ejemplos◮ Un lenguaje Lh para representar hipótesis◮ Una relación de cobertura probabilística P sobre Lh × Le
◮ Encontrar una hipótesis h∗ que maximice alguna puntuaciónbasada en la relación de cobertura probabilística.
◮ De forma análoga: aprendizaje a partir de consecuencias, a partirde interpretaciones y a partir de pruebas.
◮ Representación del conocimiento: será necesario manajerextensiones de programas lógicos, redes bayesianas, modelosocultos de Markov, gramáticas, etc.
AA 2008–09 6 / 24
Preliminares (IA2)
◮ Representación de conocimiento incierto:◮ Se tienen datos acerca de un realidad, expresados en forma de
relaciones causa–efecto: directa, indirecta, inexistente.◮ Se conoce la distribución de probabilidad condicionada.◮ Se construye una red bayesiana para representar el conocimiento.◮ A partir de la red bayesiana se infiere nuevo conocimiento, en
forma de probabilidades condicionadas a posteriori.◮ Características:
◮ Una red bayesiana codifica una distribución de probabilidad de lasvariables.
◮ Es una representación más eficiente que la representación explícitade la distribución de probabilidad conjunta.
◮ La codificación se basa en la hipótesis de independenciacondicional.
◮ Limitación desde el punto de vista lógico: la distribución deprobabilidad está definida sólo sobre interpretacionesproposicionales.
◮ Mediante redes bayesianas no se pueden modelizar situacionesrelacionales.
AA 2008–09 7 / 24
Preliminares (IA2)
◮ Representación de conocimiento incierto:◮ Se tienen datos acerca de un realidad, expresados en forma de
relaciones causa–efecto: directa, indirecta, inexistente.◮ Se conoce la distribución de probabilidad condicionada.◮ Se construye una red bayesiana para representar el conocimiento.◮ A partir de la red bayesiana se infiere nuevo conocimiento, en
forma de probabilidades condicionadas a posteriori.◮ Características:
◮ Una red bayesiana codifica una distribución de probabilidad de lasvariables.
◮ Es una representación más eficiente que la representación explícitade la distribución de probabilidad conjunta.
◮ La codificación se basa en la hipótesis de independenciacondicional.
◮ Limitación desde el punto de vista lógico: la distribución deprobabilidad está definida sólo sobre interpretacionesproposicionales.
◮ Mediante redes bayesianas no se pueden modelizar situacionesrelacionales.
AA 2008–09 7 / 24
Preliminares (IA2)
◮ Representación de conocimiento incierto:◮ Se tienen datos acerca de un realidad, expresados en forma de
relaciones causa–efecto: directa, indirecta, inexistente.◮ Se conoce la distribución de probabilidad condicionada.◮ Se construye una red bayesiana para representar el conocimiento.◮ A partir de la red bayesiana se infiere nuevo conocimiento, en
forma de probabilidades condicionadas a posteriori.◮ Características:
◮ Una red bayesiana codifica una distribución de probabilidad de lasvariables.
◮ Es una representación más eficiente que la representación explícitade la distribución de probabilidad conjunta.
◮ La codificación se basa en la hipótesis de independenciacondicional.
◮ Limitación desde el punto de vista lógico: la distribución deprobabilidad está definida sólo sobre interpretacionesproposicionales.
◮ Mediante redes bayesianas no se pueden modelizar situacionesrelacionales.
AA 2008–09 7 / 24
Preliminares (IA2)
◮ Representación de conocimiento incierto:◮ Se tienen datos acerca de un realidad, expresados en forma de
relaciones causa–efecto: directa, indirecta, inexistente.◮ Se conoce la distribución de probabilidad condicionada.◮ Se construye una red bayesiana para representar el conocimiento.◮ A partir de la red bayesiana se infiere nuevo conocimiento, en
forma de probabilidades condicionadas a posteriori.◮ Características:
◮ Una red bayesiana codifica una distribución de probabilidad de lasvariables.
◮ Es una representación más eficiente que la representación explícitade la distribución de probabilidad conjunta.
◮ La codificación se basa en la hipótesis de independenciacondicional.
◮ Limitación desde el punto de vista lógico: la distribución deprobabilidad está definida sólo sobre interpretacionesproposicionales.
◮ Mediante redes bayesianas no se pueden modelizar situacionesrelacionales.
AA 2008–09 7 / 24
Preliminares (IA2)
◮ Representación de conocimiento incierto:◮ Se tienen datos acerca de un realidad, expresados en forma de
relaciones causa–efecto: directa, indirecta, inexistente.◮ Se conoce la distribución de probabilidad condicionada.◮ Se construye una red bayesiana para representar el conocimiento.◮ A partir de la red bayesiana se infiere nuevo conocimiento, en
forma de probabilidades condicionadas a posteriori.◮ Características:
◮ Una red bayesiana codifica una distribución de probabilidad de lasvariables.
◮ Es una representación más eficiente que la representación explícitade la distribución de probabilidad conjunta.
◮ La codificación se basa en la hipótesis de independenciacondicional.
◮ Limitación desde el punto de vista lógico: la distribución deprobabilidad está definida sólo sobre interpretacionesproposicionales.
◮ Mediante redes bayesianas no se pueden modelizar situacionesrelacionales.
AA 2008–09 7 / 24
Preliminares (IA2)
◮ Representación de conocimiento incierto:◮ Se tienen datos acerca de un realidad, expresados en forma de
relaciones causa–efecto: directa, indirecta, inexistente.◮ Se conoce la distribución de probabilidad condicionada.◮ Se construye una red bayesiana para representar el conocimiento.◮ A partir de la red bayesiana se infiere nuevo conocimiento, en
forma de probabilidades condicionadas a posteriori.◮ Características:
◮ Una red bayesiana codifica una distribución de probabilidad de lasvariables.
◮ Es una representación más eficiente que la representación explícitade la distribución de probabilidad conjunta.
◮ La codificación se basa en la hipótesis de independenciacondicional.
◮ Limitación desde el punto de vista lógico: la distribución deprobabilidad está definida sólo sobre interpretacionesproposicionales.
◮ Mediante redes bayesianas no se pueden modelizar situacionesrelacionales.
AA 2008–09 7 / 24
Preliminares (IA2)
◮ Representación de conocimiento incierto:◮ Se tienen datos acerca de un realidad, expresados en forma de
relaciones causa–efecto: directa, indirecta, inexistente.◮ Se conoce la distribución de probabilidad condicionada.◮ Se construye una red bayesiana para representar el conocimiento.◮ A partir de la red bayesiana se infiere nuevo conocimiento, en
forma de probabilidades condicionadas a posteriori.◮ Características:
◮ Una red bayesiana codifica una distribución de probabilidad de lasvariables.
◮ Es una representación más eficiente que la representación explícitade la distribución de probabilidad conjunta.
◮ La codificación se basa en la hipótesis de independenciacondicional.
◮ Limitación desde el punto de vista lógico: la distribución deprobabilidad está definida sólo sobre interpretacionesproposicionales.
◮ Mediante redes bayesianas no se pueden modelizar situacionesrelacionales.
AA 2008–09 7 / 24
Preliminares (IA2)
◮ Representación de conocimiento incierto:◮ Se tienen datos acerca de un realidad, expresados en forma de
relaciones causa–efecto: directa, indirecta, inexistente.◮ Se conoce la distribución de probabilidad condicionada.◮ Se construye una red bayesiana para representar el conocimiento.◮ A partir de la red bayesiana se infiere nuevo conocimiento, en
forma de probabilidades condicionadas a posteriori.◮ Características:
◮ Una red bayesiana codifica una distribución de probabilidad de lasvariables.
◮ Es una representación más eficiente que la representación explícitade la distribución de probabilidad conjunta.
◮ La codificación se basa en la hipótesis de independenciacondicional.
◮ Limitación desde el punto de vista lógico: la distribución deprobabilidad está definida sólo sobre interpretacionesproposicionales.
◮ Mediante redes bayesianas no se pueden modelizar situacionesrelacionales.
AA 2008–09 7 / 24
Preliminares: representaciones
◮ Posibles extensiones de los modelos de representación:◮ Definen distribuciones de probabilidad sobre interpretaciones:
◮ Programas lógicos bayesianos◮ Redes lógicas de Markov
◮ Definen distribuciones de probabilidad sobre las pruebas:◮ Programas lógicos estocásticos◮ PRISM◮ ICL
AA 2008–09 8 / 24
Preliminares: modelos de aprendizaje (IA2)
◮ Dados:◮ Un conjunto de datos observados D◮ Un conjunto de hipótesis H = {h1, . . . }, de las que se conocen sus
probabilidades a priori P(hi)◮ La verosimilitud de los datos respecto de las hipótesis P(d |hi)
◮ Encontrar la hipótesis más probable a partir de los datos: h ∈ H
que maximiza P(h|D).
◮ Aplicaciones: predicciones.
AA 2008–09 9 / 24
Preliminares: modelos de aprendizaje (IA2)
◮ Dados:◮ Un conjunto de datos observados D◮ Un conjunto de hipótesis H = {h1, . . . }, de las que se conocen sus
probabilidades a priori P(hi)◮ La verosimilitud de los datos respecto de las hipótesis P(d |hi)
◮ Encontrar la hipótesis más probable a partir de los datos: h ∈ H
que maximiza P(h|D).
◮ Aplicaciones: predicciones.
AA 2008–09 9 / 24
Preliminares: modelos de aprendizaje (IA2)
◮ Dados:◮ Un conjunto de datos observados D◮ Un conjunto de hipótesis H = {h1, . . . }, de las que se conocen sus
probabilidades a priori P(hi)◮ La verosimilitud de los datos respecto de las hipótesis P(d |hi)
◮ Encontrar la hipótesis más probable a partir de los datos: h ∈ H
que maximiza P(h|D).
◮ Aplicaciones: predicciones.
AA 2008–09 9 / 24
Preliminares: modelos de aprendizaje (IA2)
◮ Tenemos:◮ Un conjunto de datos observados: observaciones completas sobre
los valores de las variables aleatorias.◮ La estructura de la red bayesiana correspondiente a las variables,
pero no las tablas de probabilidad condicionada.
◮ Aprender las tablas de probabilidad condicionada de la red.
◮ Caso particular: clasificador naive de Bayes.
AA 2008–09 10 / 24
Preliminares: modelos de aprendizaje (IA2)
◮ Tenemos:◮ Un conjunto de datos observados: observaciones completas sobre
los valores de las variables aleatorias.◮ La estructura de la red bayesiana correspondiente a las variables,
pero no las tablas de probabilidad condicionada.
◮ Aprender las tablas de probabilidad condicionada de la red.
◮ Caso particular: clasificador naive de Bayes.
AA 2008–09 10 / 24
Preliminares: modelos de aprendizaje (IA2)
◮ Tenemos:◮ Un conjunto de datos observados: observaciones completas sobre
los valores de las variables aleatorias.◮ La estructura de la red bayesiana correspondiente a las variables,
pero no las tablas de probabilidad condicionada.
◮ Aprender las tablas de probabilidad condicionada de la red.
◮ Caso particular: clasificador naive de Bayes.
AA 2008–09 10 / 24
Preliminares: modelos de aprendizaje (IA2)
◮ Aprender las tablas de probabilidad de una red bayesiana, de laque se conoce su estructura, con variables ocultas: algotirmo EM.
◮ Aprender la estructura de una red bayesiana.
◮ Dividir un conjunto de datos de entrada en subconjuntos(clusters), de forma que los elementos de cada subconjuntocomparten características desconocidas a priori.
AA 2008–09 11 / 24
Preliminares: modelos de aprendizaje (IA2)
◮ Aprender las tablas de probabilidad de una red bayesiana, de laque se conoce su estructura, con variables ocultas: algotirmo EM.
◮ Aprender la estructura de una red bayesiana.
◮ Dividir un conjunto de datos de entrada en subconjuntos(clusters), de forma que los elementos de cada subconjuntocomparten características desconocidas a priori.
AA 2008–09 11 / 24
Preliminares: modelos de aprendizaje (IA2)
◮ Aprender las tablas de probabilidad de una red bayesiana, de laque se conoce su estructura, con variables ocultas: algotirmo EM.
◮ Aprender la estructura de una red bayesiana.
◮ Dividir un conjunto de datos de entrada en subconjuntos(clusters), de forma que los elementos de cada subconjuntocomparten características desconocidas a priori.
AA 2008–09 11 / 24
Lógicas probabilísticas de primer orden
◮ Programas lógicos bayesianos.
◮ Modelos probabilísticos relacionales.
◮ Lógica de Markov.
◮ Pruebas probabilísticas.
◮ ...
AA 2008–09 12 / 24
Programas lógicos bayesianos
◮ Se unifican en un marco común la estructura de una redbayesiana y las relaciones lógicas contenidas en un programalógico.
◮ Idea subyacente:◮ Establecer una correspondencia entre los átomos básicos y las
variables aleatorias.◮ Establecer una correspondencia “semántica” entre el operador de
consecuencia inmediata y la relación de influencia directa.
◮ Ejemplo: Consideremos un modelo genético de herencia de un
gen que determina el grupo sanguíneo de una persona, bt(X ).Cada persona X tiene dos copias del cromosoma que contiene
ese gen; una, mc(Y ), heredada de su madre m(Y ,X ); y otra,
pc(Z ), heredada de su padre f (Z ,X ).
AA 2008–09 13 / 24
Programas lógicos bayesianos
◮ Se unifican en un marco común la estructura de una redbayesiana y las relaciones lógicas contenidas en un programalógico.
◮ Idea subyacente:◮ Establecer una correspondencia entre los átomos básicos y las
variables aleatorias.◮ Establecer una correspondencia “semántica” entre el operador de
consecuencia inmediata y la relación de influencia directa.
◮ Ejemplo: Consideremos un modelo genético de herencia de un
gen que determina el grupo sanguíneo de una persona, bt(X ).Cada persona X tiene dos copias del cromosoma que contiene
ese gen; una, mc(Y ), heredada de su madre m(Y ,X ); y otra,
pc(Z ), heredada de su padre f (Z ,X ).
AA 2008–09 13 / 24
Programas lógicos bayesianos
◮ Se unifican en un marco común la estructura de una redbayesiana y las relaciones lógicas contenidas en un programalógico.
◮ Idea subyacente:◮ Establecer una correspondencia entre los átomos básicos y las
variables aleatorias.◮ Establecer una correspondencia “semántica” entre el operador de
consecuencia inmediata y la relación de influencia directa.
◮ Ejemplo: Consideremos un modelo genético de herencia de un
gen que determina el grupo sanguíneo de una persona, bt(X ).Cada persona X tiene dos copias del cromosoma que contiene
ese gen; una, mc(Y ), heredada de su madre m(Y ,X ); y otra,
pc(Z ), heredada de su padre f (Z ,X ).
AA 2008–09 13 / 24
Programas lógicos bayesianos
◮ Estructura gráfica de una red bayesiana, que modeliza lainfluencia de la herencia en los grupos sanguíneos de una familiaparticular:
mc_ann pc_ann mc_brian pc_brian
bt_ann mc_dorothy pc_dorothy bt_brian
bt_dorothy
AA 2008–09 14 / 24
Programas lógicos bayesianos
◮ Programa Prolog correspondiente:p (ann).p (brian).m (ann).m (brian).m (dorothy) :- m (ann), p (ann).p (dorothy) :- m (brian), p (brian).bt(ann) :- m (ann), p (ann).bt(brian) :- m (brian), p (brian).bt(dorothy) :- m (dorothy), p (dorothy).◮ Mediante una red bayesiana clásica no podemos expresar que
otra familia tenga las mismas relaciones.
AA 2008–09 15 / 24
Programas lógicos bayesianos
◮ Programa Prolog correspondiente:p (ann).p (brian).m (ann).m (brian).m (dorothy) :- m (ann), p (ann).p (dorothy) :- m (brian), p (brian).bt(ann) :- m (ann), p (ann).bt(brian) :- m (brian), p (brian).bt(dorothy) :- m (dorothy), p (dorothy).◮ Mediante una red bayesiana clásica no podemos expresar que
otra familia tenga las mismas relaciones.
AA 2008–09 15 / 24
Programas lógicos bayesianos
◮ Cláusula bayesiana◮ Dos tipos de predicados: determinísticos (o lógicos) y
probabilísticos (o bayesianos).◮ Dos tipos de átomos: lógicos y bayesianos.◮ Cláusula bayesiana: A|A1, . . . ,An, donde A es un átomo bayesiano
y A1, . . . ,An son átomos lógicos o bayesianos.
◮ Consideraciones:◮ Cada predicado bayesiano tiene asociado un dominio finito (es
generalizable). Por ejemplo, D(mc) = D(pc) = {a, b, 0} yD(bt) = {a, b, ab, 0}.
◮ Intuitivamente, un predicado bayesiano representa un conjunto devariables aleatorias. Por ejemplo, bt(ann) representa el gruposanguíneo de una persona llamada Ann como una variablealeatoria cuyos posibles valores son {a, b, ab, 0}
◮ Se usa | en vez de : − para indicar una probabilidad condicional.◮ Se supone que Var(cabeza(c)) ⊆ Var(cuerpo(c)).◮ Las cláusulas bayesiannas codifican la componente estructural o
cualitativa de los programas lógicos bayesianos.
AA 2008–09 16 / 24
Programas lógicos bayesianos
◮ Cláusula bayesiana◮ Dos tipos de predicados: determinísticos (o lógicos) y
probabilísticos (o bayesianos).◮ Dos tipos de átomos: lógicos y bayesianos.◮ Cláusula bayesiana: A|A1, . . . ,An, donde A es un átomo bayesiano
y A1, . . . ,An son átomos lógicos o bayesianos.
◮ Consideraciones:◮ Cada predicado bayesiano tiene asociado un dominio finito (es
generalizable). Por ejemplo, D(mc) = D(pc) = {a, b, 0} yD(bt) = {a, b, ab, 0}.
◮ Intuitivamente, un predicado bayesiano representa un conjunto devariables aleatorias. Por ejemplo, bt(ann) representa el gruposanguíneo de una persona llamada Ann como una variablealeatoria cuyos posibles valores son {a, b, ab, 0}
◮ Se usa | en vez de : − para indicar una probabilidad condicional.◮ Se supone que Var(cabeza(c)) ⊆ Var(cuerpo(c)).◮ Las cláusulas bayesiannas codifican la componente estructural o
cualitativa de los programas lógicos bayesianos.
AA 2008–09 16 / 24
Programas lógicos bayesianos
◮ Cláusula bayesiana◮ Dos tipos de predicados: determinísticos (o lógicos) y
probabilísticos (o bayesianos).◮ Dos tipos de átomos: lógicos y bayesianos.◮ Cláusula bayesiana: A|A1, . . . ,An, donde A es un átomo bayesiano
y A1, . . . ,An son átomos lógicos o bayesianos.
◮ Consideraciones:◮ Cada predicado bayesiano tiene asociado un dominio finito (es
generalizable). Por ejemplo, D(mc) = D(pc) = {a, b, 0} yD(bt) = {a, b, ab, 0}.
◮ Intuitivamente, un predicado bayesiano representa un conjunto devariables aleatorias. Por ejemplo, bt(ann) representa el gruposanguíneo de una persona llamada Ann como una variablealeatoria cuyos posibles valores son {a, b, ab, 0}
◮ Se usa | en vez de : − para indicar una probabilidad condicional.◮ Se supone que Var(cabeza(c)) ⊆ Var(cuerpo(c)).◮ Las cláusulas bayesiannas codifican la componente estructural o
cualitativa de los programas lógicos bayesianos.
AA 2008–09 16 / 24
Programas lógicos bayesianos
◮ Cláusula bayesiana◮ Dos tipos de predicados: determinísticos (o lógicos) y
probabilísticos (o bayesianos).◮ Dos tipos de átomos: lógicos y bayesianos.◮ Cláusula bayesiana: A|A1, . . . ,An, donde A es un átomo bayesiano
y A1, . . . ,An son átomos lógicos o bayesianos.
◮ Consideraciones:◮ Cada predicado bayesiano tiene asociado un dominio finito (es
generalizable). Por ejemplo, D(mc) = D(pc) = {a, b, 0} yD(bt) = {a, b, ab, 0}.
◮ Intuitivamente, un predicado bayesiano representa un conjunto devariables aleatorias. Por ejemplo, bt(ann) representa el gruposanguíneo de una persona llamada Ann como una variablealeatoria cuyos posibles valores son {a, b, ab, 0}
◮ Se usa | en vez de : − para indicar una probabilidad condicional.◮ Se supone que Var(cabeza(c)) ⊆ Var(cuerpo(c)).◮ Las cláusulas bayesiannas codifican la componente estructural o
cualitativa de los programas lógicos bayesianos.
AA 2008–09 16 / 24
Programas lógicos bayesianos
◮ Cláusula bayesiana◮ Dos tipos de predicados: determinísticos (o lógicos) y
probabilísticos (o bayesianos).◮ Dos tipos de átomos: lógicos y bayesianos.◮ Cláusula bayesiana: A|A1, . . . ,An, donde A es un átomo bayesiano
y A1, . . . ,An son átomos lógicos o bayesianos.
◮ Consideraciones:◮ Cada predicado bayesiano tiene asociado un dominio finito (es
generalizable). Por ejemplo, D(mc) = D(pc) = {a, b, 0} yD(bt) = {a, b, ab, 0}.
◮ Intuitivamente, un predicado bayesiano representa un conjunto devariables aleatorias. Por ejemplo, bt(ann) representa el gruposanguíneo de una persona llamada Ann como una variablealeatoria cuyos posibles valores son {a, b, ab, 0}
◮ Se usa | en vez de : − para indicar una probabilidad condicional.◮ Se supone que Var(cabeza(c)) ⊆ Var(cuerpo(c)).◮ Las cláusulas bayesiannas codifican la componente estructural o
cualitativa de los programas lógicos bayesianos.
AA 2008–09 16 / 24
Programas lógicos bayesianos
◮ Cláusula bayesiana◮ Dos tipos de predicados: determinísticos (o lógicos) y
probabilísticos (o bayesianos).◮ Dos tipos de átomos: lógicos y bayesianos.◮ Cláusula bayesiana: A|A1, . . . ,An, donde A es un átomo bayesiano
y A1, . . . ,An son átomos lógicos o bayesianos.
◮ Consideraciones:◮ Cada predicado bayesiano tiene asociado un dominio finito (es
generalizable). Por ejemplo, D(mc) = D(pc) = {a, b, 0} yD(bt) = {a, b, ab, 0}.
◮ Intuitivamente, un predicado bayesiano representa un conjunto devariables aleatorias. Por ejemplo, bt(ann) representa el gruposanguíneo de una persona llamada Ann como una variablealeatoria cuyos posibles valores son {a, b, ab, 0}
◮ Se usa | en vez de : − para indicar una probabilidad condicional.◮ Se supone que Var(cabeza(c)) ⊆ Var(cuerpo(c)).◮ Las cláusulas bayesiannas codifican la componente estructural o
cualitativa de los programas lógicos bayesianos.
AA 2008–09 16 / 24
Programas lógicos bayesianos
◮ Para representar el modelo probabilístico:◮ Cada cláusula está anotada con una distribución de probabilidad
condicional cpd(c), que codifica P(cabeza(c)|cuerpo(c))(Normalmente, se representará mediante una tabla).
◮ Cada predicado bayesiano tiene asociada una regla decombinación: función que, a un conjunto de distribuciones deprobabilidad condicionada {P(A|Ai1, . . . ,Aini
)|i = 1, . . . ,m} enuna distribución de probabilidad condicionada combinadaP(A|B1, . . . ,Bk) con {B1, . . . ,Bk} ⊆ ∪m
i=1{Ai1, . . . ,Aini}.
◮ Un programa lógico bayesiano es un conjunto finito de cláusulasbayesianas. Cada cláusula c tiene asociada exactamente unadistribución de probabilidad condicionada cpd(c), y para cadapredicado bayesiano p existe exactamente una regla decombinación cr(p).
AA 2008–09 17 / 24
Programas lógicos bayesianos
◮ Para representar el modelo probabilístico:◮ Cada cláusula está anotada con una distribución de probabilidad
condicional cpd(c), que codifica P(cabeza(c)|cuerpo(c))(Normalmente, se representará mediante una tabla).
◮ Cada predicado bayesiano tiene asociada una regla decombinación: función que, a un conjunto de distribuciones deprobabilidad condicionada {P(A|Ai1, . . . ,Aini
)|i = 1, . . . ,m} enuna distribución de probabilidad condicionada combinadaP(A|B1, . . . ,Bk) con {B1, . . . ,Bk} ⊆ ∪m
i=1{Ai1, . . . ,Aini}.
◮ Un programa lógico bayesiano es un conjunto finito de cláusulasbayesianas. Cada cláusula c tiene asociada exactamente unadistribución de probabilidad condicionada cpd(c), y para cadapredicado bayesiano p existe exactamente una regla decombinación cr(p).
AA 2008–09 17 / 24
Programas lógicos bayesianos
◮ Para representar el modelo probabilístico:◮ Cada cláusula está anotada con una distribución de probabilidad
condicional cpd(c), que codifica P(cabeza(c)|cuerpo(c))(Normalmente, se representará mediante una tabla).
◮ Cada predicado bayesiano tiene asociada una regla decombinación: función que, a un conjunto de distribuciones deprobabilidad condicionada {P(A|Ai1, . . . ,Aini
)|i = 1, . . . ,m} enuna distribución de probabilidad condicionada combinadaP(A|B1, . . . ,Bk) con {B1, . . . ,Bk} ⊆ ∪m
i=1{Ai1, . . . ,Aini}.
◮ Un programa lógico bayesiano es un conjunto finito de cláusulasbayesianas. Cada cláusula c tiene asociada exactamente unadistribución de probabilidad condicionada cpd(c), y para cadapredicado bayesiano p existe exactamente una regla decombinación cr(p).
AA 2008–09 17 / 24
Programas lógicos bayesianos
◮ Ejemplo:m(ann, dorothy).f(brian, dorothy).p (ann).p (brian).m (ann).m (brian).m (X) | m (Y,X), m (Y), p (Y).p (X) | f(Y,X), m (Y), p (Y).bt(X) | m (X), p (X).◮ Para cada predicado bayesiano, la regla de combinación es la
identidad.
AA 2008–09 18 / 24
Programas lógicos bayesianos
◮ Ejemplo:m(ann, dorothy).f(brian, dorothy).p (ann).p (brian).m (ann).m (brian).m (X) | m (Y,X), m (Y), p (Y).p (X) | f(Y,X), m (Y), p (Y).bt(X) | m (X), p (X).◮ Para cada predicado bayesiano, la regla de combinación es la
identidad.
AA 2008–09 18 / 24
Programa lógico bayesiano
◮ Distribución de probabilidad condicionada para cada cláusula:mc(X) pc(X) P(bt(X))
a a (0.97, 0.01, 0.01, 0.01)b a (0.01, 0.01, 0.97, 0.01)... ... ...0 0 (0.01, 0.01, 0.01, 0.97)
m(Y,X) mc(Y) pc(Y) P(mc(X))
true a a (0.98, 0.01, 0.01)true b a (0.01, 0.98, 0.01)... ... ... ...
false a a (0.33, 0.33, 0.33)... ... ... ...
AA 2008–09 19 / 24
PLB: semántica declarativa
◮ Cada programa lógico bayesiano B representa una red bayesiana(posiblemente infinita), donde los nodos son los átomos delmenor modelo de Herbrand del programa, LH(B).
◮ Grafo de dependencia DG(B):◮ Nodos: los átomos del menor modelo de Herbrand LH(B).◮ Arcos: existe un arco de un nodo x a un nodo y si y sólo si existe
una cláusula c ∈ B y una sustitución θ tal que
y = cabeza(cθ) ∧ x ∈ cuerpo(cθ) ∧ ∀z ∈ cθ(z ∈ LH(B))
◮ A cada nodo se le asocia la distribución de probabilidadcombinada que resulta de aplicar la regla de combinación cr(p) dep al conjunto de distribuciones cpd(cθ), donde cabeza(cθ) = x y{x} ∪ cuerpo(cθ) ⊆ LH(B).
AA 2008–09 20 / 24
PLB: semántica declarativa
◮ Cada programa lógico bayesiano B representa una red bayesiana(posiblemente infinita), donde los nodos son los átomos delmenor modelo de Herbrand del programa, LH(B).
◮ Grafo de dependencia DG(B):◮ Nodos: los átomos del menor modelo de Herbrand LH(B).◮ Arcos: existe un arco de un nodo x a un nodo y si y sólo si existe
una cláusula c ∈ B y una sustitución θ tal que
y = cabeza(cθ) ∧ x ∈ cuerpo(cθ) ∧ ∀z ∈ cθ(z ∈ LH(B))
◮ A cada nodo se le asocia la distribución de probabilidadcombinada que resulta de aplicar la regla de combinación cr(p) dep al conjunto de distribuciones cpd(cθ), donde cabeza(cθ) = x y{x} ∪ cuerpo(cθ) ⊆ LH(B).
AA 2008–09 20 / 24
PLB: semántica declarativa
◮ Cada programa lógico bayesiano B representa una red bayesiana(posiblemente infinita), donde los nodos son los átomos delmenor modelo de Herbrand del programa, LH(B).
◮ Grafo de dependencia DG(B):◮ Nodos: los átomos del menor modelo de Herbrand LH(B).◮ Arcos: existe un arco de un nodo x a un nodo y si y sólo si existe
una cláusula c ∈ B y una sustitución θ tal que
y = cabeza(cθ) ∧ x ∈ cuerpo(cθ) ∧ ∀z ∈ cθ(z ∈ LH(B))
◮ A cada nodo se le asocia la distribución de probabilidadcombinada que resulta de aplicar la regla de combinación cr(p) dep al conjunto de distribuciones cpd(cθ), donde cabeza(cθ) = x y{x} ∪ cuerpo(cθ) ⊆ LH(B).
AA 2008–09 20 / 24
PLB: semántica declarativa
◮ La base de Herbrand BH(P) contiene el conjunto de todas lasposibles variables aleatorias.
◮ Los átomos del menor modelo de Herbrand LH(P) ⊆ BH(P) sonlas variables aleatorias relevantes; aquellas sobre las que ladistribución de probabilidad está bien definida.
◮ Un programa lógico bayesiano está bien definido si:◮ LH(B) 6= ∅◮ DG(B) es acíclico,◮ cada nodo en DG(B) está influenciado por un número finito de
variables.
◮ En ese caso, B especifica una única distribución de probabilidadPB sobre LH(B).
AA 2008–09 21 / 24
PLB: semántica declarativa
◮ La base de Herbrand BH(P) contiene el conjunto de todas lasposibles variables aleatorias.
◮ Los átomos del menor modelo de Herbrand LH(P) ⊆ BH(P) sonlas variables aleatorias relevantes; aquellas sobre las que ladistribución de probabilidad está bien definida.
◮ Un programa lógico bayesiano está bien definido si:◮ LH(B) 6= ∅◮ DG(B) es acíclico,◮ cada nodo en DG(B) está influenciado por un número finito de
variables.
◮ En ese caso, B especifica una única distribución de probabilidadPB sobre LH(B).
AA 2008–09 21 / 24
PLB: semántica declarativa
◮ La base de Herbrand BH(P) contiene el conjunto de todas lasposibles variables aleatorias.
◮ Los átomos del menor modelo de Herbrand LH(P) ⊆ BH(P) sonlas variables aleatorias relevantes; aquellas sobre las que ladistribución de probabilidad está bien definida.
◮ Un programa lógico bayesiano está bien definido si:◮ LH(B) 6= ∅◮ DG(B) es acíclico,◮ cada nodo en DG(B) está influenciado por un número finito de
variables.
◮ En ese caso, B especifica una única distribución de probabilidadPB sobre LH(B).
AA 2008–09 21 / 24
PLB: semántica declarativa
◮ La base de Herbrand BH(P) contiene el conjunto de todas lasposibles variables aleatorias.
◮ Los átomos del menor modelo de Herbrand LH(P) ⊆ BH(P) sonlas variables aleatorias relevantes; aquellas sobre las que ladistribución de probabilidad está bien definida.
◮ Un programa lógico bayesiano está bien definido si:◮ LH(B) 6= ∅◮ DG(B) es acíclico,◮ cada nodo en DG(B) está influenciado por un número finito de
variables.
◮ En ese caso, B especifica una única distribución de probabilidadPB sobre LH(B).
AA 2008–09 21 / 24
Ejemplo
◮ Grafo de dependencia del ejemplo:
m(ann, dorothy) f(brian, dorothy)
mc(ann) pc(ann) mc(brian) pc(brian)
bt(ann) mc(dorothy) pc(dorothy) bt(brian)
bt(dorothy)
AA 2008–09 22 / 24
Ejemplo
◮ Programa lógico proposicional, con las cláusulas c tales quecabeza(c) ∈ LH(B) y cuerpo(c) ⊆ LH(B)m(ann, dorothy).f(brian, dorothy).p (ann).p (brian).m (ann).m (brian).m (dorothy) | m (ann,dorothy), m (ann), p (ann).p (dorothy) | f(brian,dorothy), m (brian), p (brian).bt(ann) | m (ann), p (ann).bt(brian) | m (brian), p (brian).bt(dorothy) | m (dorothy), p (dorothy).
◮ La estructura de la red bayesiana asociada coindice con el grafode dependencia del programa lógico bayesiano.
AA 2008–09 23 / 24
Ejemplo
◮ Programa lógico proposicional, con las cláusulas c tales quecabeza(c) ∈ LH(B) y cuerpo(c) ⊆ LH(B)m(ann, dorothy).f(brian, dorothy).p (ann).p (brian).m (ann).m (brian).m (dorothy) | m (ann,dorothy), m (ann), p (ann).p (dorothy) | f(brian,dorothy), m (brian), p (brian).bt(ann) | m (ann), p (ann).bt(brian) | m (brian), p (brian).bt(dorothy) | m (dorothy), p (dorothy).
◮ La estructura de la red bayesiana asociada coindice con el grafode dependencia del programa lógico bayesiano.
AA 2008–09 23 / 24
PLB: semántica procedural
◮
AA 2008–09 24 / 24