Sesión 5: Modelos Ocultos de Markov

Incertidumbre - HMM, L.E. Sucar 2

Modelos Ocultos de Markov

• Cadenas de Markov• Modelos Ocultos de Markov• Problemas básicos

– Evaluación– Secuencia óptima– Aprendizaje

• Aplicaciones– Reconocimiento de voz– Reconocimiento de gestos

Máquina de estados

• Es un dispostivo de procesamiento de información especificado por:– Un conjunto de estados, S– Un estado incial, S0

– Un conjunto finito de entradas, I– Un conjunto finito de salidas, S– Una función de transición de Si -> Sj

– Una función de salida de Si -> O

Cadena de Markov (MM)

• Máquina de estados finitos en la que:– Las transiciones de un estado a otro no son

determinísticas– La probabilidad de transición de un estado a

otro sólo depende del estado actual (y no de los anteriores) – propiedad de Markov

Ejemplo

• Estados del clima:– Lluvioso (q1)– Nublado (q2)– Soleado (q3)

• Probabilidades de transición:0.4 0.3 0.30.2 0.6 0.20.1 0.1 0.8

• Probabilidades iniciales: 0.3 0.5 0.2

Ejemplo

q1 q2 q3

Especificación de un MM

• Conjunto de estados Q = {q1 ... qn}• Una vector de probabilidades iniciales,

= {1 ... n}, i = P (S0 = qi)• Un matriz de probabilidades de transición, A

= {aij}, donde aij = P (St = qj | St-1 = qi)• En forma compacta:

= {A, }

Propiedades

• 1. i i = 1

• 2. j aij = 1

• 3. P (St = qj | St-1 = qi, St-2 = qk, ...) = P (St = qj | St-1 = qi)

Salidas

• A cada estado le corresponde una salida, Oi

• Una secuencia de observaciones de t = 1 a t = T se denota por:

O = {o1 ... oT}

Preguntas

• Probabilidad de pertenencia: probabilidad de cierta secuencia de estados

• Probabilidad de permanencia: probabilidad de que permanezca en cierto estado por cierto tiempo

• Permanencia promedio: tiempo esperado de permanencia en un estado

Preguntas

• Probabilidad de pertenencia: P(qj qk ql ...) = a0j ajk akl ...

• Probabilidad de permanencia:P (di ) = aii

d-1 (1 - aii)

• Permanencia promedio:

E{d} = di P(di )

E{d} = di aii d-1

(1 - aii) = 1/(1 - aii)

Ejemplos de Preguntas

Dado el modelo del clima - • Probabilidad de pertenencia:

– Dado que el tiempo inicial es soleado, cual es la P de que sea sol, sol, lluv, lluv, sol, nub, sol?

• Probabilidad de permanencia:• Probabilidad de que este nublado por 3 días seguidos?

• Permanencia promedio:– Tiempo esperado que permanezca nublado?

Estimación de parámetros

• Dada una secuencia de observaciones, se pueden determinar los parámetros (A, ) del modelo:– Probabilidades iniciales: i i

– Probabilidades de transición: aij iji

• Donde:– i= número de veces que el estado i es el inicial

– i= número de veces que pasa por el estado i

– ijnúmero de transiciones del estado i al j

Ejemplo de estimación

• Obtener los parámetros del modelo dada la secuencia:

q2q2q3q3q3q3q1q1q3q2q3q3q3q3q3q3q2q2q2q1q2q2q1q1q3

Modelos Ocultos de Markov (HMM)

• Es un modelo de Markov en que los estados no son directamente observables

• Se puede ver como un doble proceso estocástico:– Un proceso estocástico “escondido” que es no

observable– Otro proceso estocástico que produce la

secuencia de observaciones

Ejemplo

• Se tienen dos monedas (M1 y M2) que se seleccionan en forma aleatoria

• Cada moneda esta cargada:– M1 – P=0.8 de águila– M2 – P=0.8 de sol

• Se tiran en secuencia (N) las moneda y sólo se observa la salida (A o S)

Ejemplo

Águila Sol

Especificación de un HMM• Conjunto de estados Q = {q1 ... qn} y de posibles

observaciones O {o1 ... om} • Una vector de probabilidades iniciales,

= {1 ... n}, i = P (S0 = qi)• Un matriz de probabilidades de transición,

A = {aij}, donde aij = P (St = qj | St-1 = qi)• Un vector de probabilidades de salida por cada estado (matriz),

B = {bik}, donde bik = P (Ot = ok | St = qi)• En forma compacta:

= {A, B, }

Ejemplo - especificación

• P:0.5 0.5

• A:0.5 0.50.5 0.5

• B:0.8 0.20.2 0.8

Preguntas básicas• Dado el modelo, calcular la probabilidad de

una secuencia de observaciones (evaluación)

• Dado el modelo, obtener la secuencia de estados más probable correspondiente a una secuencia de observaciones (secuencia óptima)

• Dada una secuencia de observaciones, ajustar los parámetros del modelo (aprendizaje)

Evaluación – método directo

• Dada la secuencia de observaciones: O1 O2 O3 O4 ...

• Pueden ser generados por diferentes secuencias de estados, considerando una: S1 S2 S3 S4 ...

• Entonces la probabilidad de las observaciones y dicha secuencia de estado es:

P(O, Qi) = q1 bq1 (O1) aq12 bq2 (O2) ... aq(T-1)T bqt (OT)

• Considerando todas las secuencias:

P(O) = Q P(O, Qi) • Qué es lo mismo que:P(O) =

Q [ q1 bq1 (O1) aq12 bq2 (O2) ... aq(T-1)T bqt (OT) ]

• Número de operaciones– Para cada término:

2T – Número de posibles secuencias (sumatoria)

NT – Total:

2T x NT

• Por ejemplo, N=5 y T=100 -> 1072 operaciones!• Se requiere de un método más eficiente!

Evaluación – método iterativo• Se basa en la idea de ir evaluando en paralelo

la probabilidad de estados/observaciones para cada tiempo

Evaluación – método iterativo• Se define la variable “forward”:

t(i) = P (O1 O2 O3 O4 ... Ot , St = qi)

• Es decir, la probabilidad de una secuencia parcial de observaciones y que llegue a cierto estado

Algoritmo

1. Inicializaciónt(1) = P (O1, S1 = qi) = i bi (O1)

2. Inducciónt+1(j) = [ i t(i) aij ] bj (Ot+1)

3. TerminaciónP(O) = i T(i)

Complejidad

• En cada iteración se tiene del orden de N multiplicaciones y N sumas

• Para las T iteraciones:N2 x T

Secuencia óptima

• Encontrar la secuencia de estados óptima dada la secuencia de observaciones

• Óptimo se puede definir de diferentes maneras:– Estados más probables– Secuencia total más probable

Definiciones

• Variable “backward”: t(i) = P (Ot+1 Ot+2 ... OT , St = qi)

• En forma iterativa:t(j) = [ j t+1(j) aij ] bj (Ot+1)

• Definiendo:T(j) = 1

Definiciones

• Por lo tanto, combinando ambas definiciones:

P (O, St = qi) = t(i) t(i) • Y entonces:

P(O) = j t(i) t(i)

Cálculo iterativo

O1 O2 OTOt

Más definiciones

• Probabilidad condicional:t(i) = P (St = qi | O) = P (St = qi , O) / P (O)

• En términos de y :t(i) = t(i) t(i) / P(O)

t(i) = t(i) t(i) / i t(i) t(i)

Estados más probable

• El estado individual más probable para el tiempo t es:

ARG MAX i t(i) • El problema es que la concatenación de los

estados más probables no necesariamente corresponde a la secuencia más probable

Secuencia más probable

• Secuencia total más probable es:MAX P(Q | O)

• Dado que P(Q|O) = P(Q,O) / P(O), entonces es equivalente a:

MAX P(Q , O)

Algoritmo de Viterbi

• Antes de ver el algoritmo es necesario definir otra variable

• La subsecuencia de estados óptimos hasta el tiempo t:

t(i) = P (S1 S2 ... St = qi, O1 O2 ... Ot )• En forma iterativa:

t+1(i) = [ MAX t(i) aij ] bj (Ot+1)

Algoritmo1. Inicialización:1(i) = i bi (O1)

1(i) = 0

2. Recursiónt(i) = MAXi [t-1(i) aij ] bj (Ot)

t(i) = ARGMAXi [t(i)]

3. TerminaciónP*= MAXi [T(i)]

qT*= ARGMAXi [T(i)]

4. Backtrackingqt*= t+1(qt+1*)

Aprendizaje

• Consiste en determinar los parámetros del modelo, = {A, B, }, dada una secuencia de observaciones

• Para ello, se buscan los parámetros que maximizen P(O | ) – no se pueden obtener con precisión

• Número de parámetros:N + N2 + N x M

Algoritmo de Baum-Welch• Otra variable auxiliar – probabilidad de estar en el

estado i en t y pasar a j en t+1 dada la secuencia de observaciones:

t(i,j) = P (St = qi , St+1 = qj | O) = P (St = qi , St+1 = qj , O) / P (O)

• En términos de y :t(i,j) = t(i) aij bj (Ot+1) t+1(j) / P(O)t(i,j) = t(i) aij bj (Ot+1) t+1(j) /

i j t(i) aij bj (Ot+1) t+1(j)

Algoritmo de Baum-Welch• La variable t(i) se puede calcular como:

t(i) =j t(i,j)• Esta variable sumada sobre todos los tiempos da

una estimación del número de veces que se pasa por el estado “i”

t t(i) • Mientras que la suma sobre t de t(i,j) da una

estimación del número de transiciones de “i -> j”:

t t(i,j)

Re-estimación de los parámetros1. Probabilidades iniciales – número de veces en el

estaod “i” en t=1:i=1(i)

2. Probabilidades de transición – número de transiciones de “i -> j” entre el número de veces en “i”

aij = t t(i,j) / t t(i) 3. Probabilidades de salidas – número de veces en

estado “j” y observar “k” entre el número de veces en dicho estado:

bjk = t,O = k t(i) / t t(i)

Re-estimación de los parámetros

• Se inicia con ciertos valores (al azar) y se van mejorando iterativamente (se repite el proceso varias veces)

• Se obtiene un estimador de máxima verosimilitud

• No se garantiza el óptimo global

Aplicaciones

• Modelado de procesos dinámicos, como:– Reconocimiento de voz– Reconocimiento de gestos

Reconocimiento de voz

• Se modela a nivel palabra o fonema utilizando HMM

• Las observaciones consisten de vectores de característcas obtenidas del procesamiento de la señal de voz

• Se utilizan secuencias de voz para el entrenamiento y, posteriormente durante reconocimiento, se obtiene la probabilidad de cada modelo (palabra o fonema), seleccionando la de mayor probabilidad

Reconocimiento de voz

t ow m

ini mid fin

eyt ow

Palabra: “tomato”

Fonema

Reconocimiento de gestos

Seguimiento de la mano en una secuenciaimágenes

Características• Observaciones:

– cambio en X (X)– cambio en Y (Y)– cambio en área (A)– cambio en razón X-Y (R)

• Cada una se codifica en 3 valores: (+, 0, -), lo que da un total de 81 posibles observaciones

X1,Y,1X2,Y2

HMM• Se utiliza un HMM para cada gesto (5

gestos):– 3 estados: gestos simples– 5 estados: gestos complejos

Referencias

• L. R. Rabiner, B. H. Juang, “An introduction to hidden Markov models”, IEEE ASSP, Enero 1986.

• L. R. Rabiner, “A tutorial on hidden Markov Models and selected applications in speech recognition”, IEEE 1989.

• J. K. Kemeny, J. L. Snell, “Finite Markov Chains”, Van Nostrand, 1965.

Actividades

• Hacer ejercicio de HMM

Sesión 5: Modelos Ocultos de Markov

Documents

Transcript of Sesión 5: Modelos Ocultos de Markov

HMMs ASAL JGR - arantxa.ii.uam.esarantxa.ii.uam.es/~jortega/HMMs_ASAL.pdf · Markov Ejemplos de modelos ocultos de Markov Un modelo oculto de Markov es un modelo de Markov (de primer

Sesión 5: Modelos Ocultos de Markov. Incertidumbre - HMM, L.E. Sucar2 Modelos Ocultos de Markov Cadenas de Markov –Preguntas básicas –Aplicación: orden.

Apunte largo de Modelos Ocultos de Markov (Diego …bioingenieria1.wdfiles.com/local--files/descargas/hmmsweet.pdf · 1 An´alisis de la senal˜ de voz 1 En este documento se hara

Modelos Gráficos Probabilistas: Principios y Aplicacionesesucar/Clases-mgp/pgm01-intro-2012.pdf · Cadenas ocultas de Markov D D P Campos / Redes de Markov N S P Redes bayesianas

Procesos de Markov - Universidad de Sevilla · 2017-03-02 · Cadenas de MarkovModelos Ocultos de MarkovProcesos de Decisión de Markov Representación gráﬁca de una cadena de

Sistema de localización en espacios interiores para un robot … · 2020-04-17 · un robot móvil utilizando nubes de puntos y modelos ocultos de Markov Para optar por el grado

Motivos de Markov ocultos (HMM). Los HMM son modelos probabilísticos de una secuencia.

Reconocimiento Automático de Voz basado en … · Reconocimiento Automático de Voz basado en Modelos Ocultos de Markov Autor: Dr. Juan Carlos Gómez. Presentación basada en las

TEMA-11 Los Modelos Ocultos y Sus Peligros

Modelos ocultos de Markov (HMM)

PLN Modelos del lenguaje1 Modelos Estadísticos del lenguaje Modelos del lenguaje (Language Models, LM) Noisy Channel model Modelos simples de Markov Smoothing.

Conversi on de voz basada en Modelos Ocultos de Markov

MODELOS DE CADENAS DE MARKOV EN LA PRÁCTICA: UNA …

Modelos basados en autómatas probabilísticosbioingenieria1.wdfiles.com/local--files/descargas/AutomProb2008.pdf · Modelos ocultos de Markov • En cada estado de un MM se emite

“Métodos de encaje de patrones”tamarisco.datsi.fi.upm.es/ASIGNATURAS/FRAV/apuntes/... · 2001. 12. 4. · Modelos ocultos de Markov (III) Un modelo oculto de Markov puede considerarse

Modelos ocultos de Markov para el desarrollo de un sistema ...

Sesión 6: Campos de Markov. © L.E. Sucar: PGM - CAM2 Campos de Markov Introducción –Modelo de Ising Representación –Tipos de Modelos –Redes de Markov.

Modelos de Markov Escondidos (HMM) - Quantil S.A.S.

Procesos de Markov - cs.us.es · Cadenas de MarkovModelos Ocultos de MarkovProcesos de Decisión de Markov Tiempo e Incertidumbre En este tema vamos a ver razonamiento probabilístico

Bases Formales de la Computación: Sesión 3. Modelos ...cic.puj.edu.co/wiki/lib/exe/fetch.php?media=materias:bfc_sesion3... · Modelos Ocultos de Markov Los tres problemas fundamentales