FUSIÓN DE MÚLTIPLES CLASIFICADORES EN VERIFICACIÓN DE … · sistema de verificación de...

1

UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS DEPARTAMENTO DE INGENIERÍA ELÉCTRICA

FUSIÓN DE MÚLTIPLES CLASIFICADORES EN VERIFICACIÓN DE LOCUTOR

TESIS PARA OPTAR AL GRADO DE DOCTOR EN INGENIERÍA ELÉCTRICA

FERNANDO FABIAN HUENUPÁN QUINAN

PROFESOR GUÍA: NÉSTOR BECERRA YOMA

MIEMBROS DE LA COMISIÓN: ISMAEL SOTO GÓMEZ

MARCOS DIAZ QUEZADA ROLANDO CARRASCO GONZÁLEZ

SANTIAGO DE CHILE ABRIL 2010

2

“Fusión de múltiples clasificadores en verificación de locutor”

En la actualidad, la tendencia en los sistemas de verificación de locutor consiste en diseñar clasificadores

cada vez más complejos con el fin de incrementar las mejoras de desempeño. Sin embargo, por muy

avanzado que sea un clasificador, éste tiene un límite en la exactitud que puede alcanzar. Una solución

alternativa consiste en incorporar información adicional por medio de otros clasificadores y combinarlas

de modo que, en conjunto, formen un sistema más preciso que el clasificador con menor tasa de error. Lo

anterior se conoce como sistema de múltiples clasificadores (MCS) donde cada experto se considera

como una fuente de información. En verificación de locutor se han desarrollados diversos trabajos sobre

MCS. Sin embargo, generalmente se han utilizado sistemas clásicos de fusión tales como la combinación

Bayesiana, redes neuronales o aquellos basados en heurísticas.

El objetivo de esta tesis es proponer e investigar nuevas estrategias de combinación de MCS y

evaluarlas en un problema de verificación de locutor. Así, se exploran dos estrategias diferentes de

optimización de MCS: una off-line y otra on-line.

En el diseño de un sistema off-line, la optimización de los parámetros para la combinación se

realiza con una base de datos a priori. Para ello, se utiliza una medida de confiabilidad basada en Bayes

(Bayes Based Confidence Measure, BBCM). Como se muestra en esta tesis, la combinación de un

esquema MCS con BBCM corresponde a la combinación clásica de Bayes ponderada por la confiabilidad

de cada clasificador. Los resultados obtenidos muestran que la fusión MCS con BBCM, cuando es

comparada con el mejor clasificador y la combinación Bayesiana clásica, logra reducciones tan altas

como un 53% y 37% en EER, respectivamente, en el problema de verificación de locutor. Cabe destacar

que el método propuesto es un cambio de paradigma con respecto a la tradicional combinación bayesiana

puesto que, en vez de maximizar la probabilidad a posteriori, se propone maximizar la confiabilidad a

posteriori del sistema de múlti-clasificación.

La fusión on-line de un sistema MCS propuesta en esta tesis se realiza optimizando los

parámetros de la combinación utilizando solamente la señal de test. En contraste con los esquemas

clásicos de combinación, el método no necesita distribuciones a priori o pesos estimados previamente. El

esquema de combinación on-line de MCS utiliza una combinación lineal ponderada de los scores de

salida de los clasificadores. La idea es mejorar el clasificador más exacto incorporando la información

complementaria que provee un segundo clasificador menos preciso. Los resultados obtenidos con la

fusión on-line en la base de datos YOHO muestran reducciones en el EER tan altas como un 28% y 11%

cuando comparadas con el mejor clasificador y con un método estándar para optimizar la combinación

lineal de clasificadores, respectivamente.

Los dos métodos de combinación de MCS propuestos en esta tesis, si bien son evaluados en un

sistema de verificación de locutor, son aplicable a cualquier problema de reconocimiento de patrones

independientemente del número de clases. Finalmente, ambos métodos de fusión representan un avance al

estado-del-arte en MCS, disciplina que últimamente se ha convertido en un destacada sub-área del campo

de reconocimiento de patrones.

3

“Multiple classifier fusion in speaker verification” Improving the accuracy of single classifiers has been a usual and popular target in the field of pattern

recognition. However, given a problem and a technology, reducing the error rate becomes a very difficult

target after some preliminary research. Consequently, a significant effort is required to achieve further

improvements in accuracy. An alternative solution is to combine two or more classifiers and generate a

system that could be more accurate than the classifier with the lowest error rate. This strategy is known as

multiple classifier system (MCS) where each expert is considered as an information source. In the field of

speaker verification MCS has not been explored exhaustively. MCS approaches usually employ classical

fusion schemes such as Bayesian combination, neural networks or fusion based on heuristics methods. All

those methods require a significant amount of estimation data and are very dependable of training-testing

matching conditions.

The main objective of this thesis is to propose original MCS strategies that can be applicable to any

pattern recognition problem, despite the fact that here they are evaluated in a speaker verification problem. In

this context two different MCS schemes are presented: the first method is based on the off-line optimization

function estimation; the second one optimizes the classification fusion on an on-line basis by making use of

the testing utterance only.

In an off-line combination system optimization, the fusion parameters are estimated a priori by

employing a training data set. This thesis proposes the use of Bayes-based confidence measure (BBCM) as a

metric to combine classifiers. As shown in this research, the BBCM based MCS fusion scheme corresponds to

the ordinary Bayes fusion weighted by the reliability of each individual classifier. The experiments show that

MCS with BBCM fusion, when compared with the best classifier and with the classical Bayesian

combination, can lead to reductions in EER as high as 53% and 37%, respectively, in a speaker verification

problem. The proposed method presents a new paradigm with respect to the traditional Bayesian combination:

instead of maximizing the a posteriori probability, the BBCM based scheme maximizes the a posteriori

reliability of the multi-classification system.

The on-line based MCS method proposed in this thesis optimizes the fusion parameters by making

use of testing data only. In contrast to the classical combination schemes, the technique presented here does

not need a priori distributions or weights previously estimated on a training dataset. The proposed MCS on-

line scheme optimizes a linear combination of output classifier scores. The idea is to improve the most

accurate classifier by making use of the information provided by the second classifier. The results obtained in

this research show that the on-line combination can lead to reductions in EER as high as 28% and 11% when

compared with the most accurate classifier and with a standard method for the optimization of linear

combination of classifiers, respectively.

Both MCS optimization methods proposed in this thesis are applicable to any pattern recognition

problem independently of the number of classes. Finally, the techniques presented here represent an advance

to the state-of-the-art in MCS, which in turn is a discipline that has become recently a prominent sub-area in

the field of pattern recognition.

4

Declaración de originalidad

Esta tesis y el trabajo que en ella se reporta fueron elaborados y generados enteramente por el autor.

Fernando Fabián Huenupán Quinan

5

Agradecimientos

Deseo agradecer a mi profesor guía, Néstor Becerra Yoma por su disposición, colaboración

y paciencia, ya que sin él, este trabajo no hubiese sido posible.

A mis compañeros del Laboratorio de Procesamiento y Transmisión de Voz

(LPTV), por brindarme su apoyo y colaboración durante mi estadía.

Finalmente, me gustaría agradecer al profesor Jean-François Bonastre, por sus

enseñanzas y ayuda constante, ya que gracias a él se pudo concretar mi pasantía en Francia.

6

A mis padres Fernando y María Purísima, a mi hermano Alexis y a Celia por todo el apoyo que siempre me han entregado.

1

INDICE

CAPÍTULO 1 INTRODUCCIÓN .......................................................................................................... 8 1.1 SISTEMAS DE MÚLTIPLES CLASIFICADORES ...................................................................................... 8 1.2 VERIFICACIÓN DE LOCUTOR............................................................................................................. 9 1.3 MOTIVACIÓN...................................................................................................................................10 1.4 OBJETIVOS ......................................................................................................................................11

1.4.1 Objetivo general ........................................................................................................................11 1.4.2 Objetivos específicos .................................................................................................................11

1.5 ALCANCE Y ORIGINALIDAD .............................................................................................................12 1.6 ESTRUCTURA DE LA TESIS ...............................................................................................................12

CAPÍTULO 2 SISTEMAS DE MÚLTIPLES CLASIFICADORES (MCS) ......................................14 2.1 INTRODUCCIÓN ...............................................................................................................................14 2.2 SISTEMAS DE MÚLTIPLES CLASIFICADORES (MCS) EN RECONOCIMIENTO DE PATRONES.................14

2.2.1 Estrategias de combinación en MCS.........................................................................................18 2.2.2 Fusión Bayesiana ......................................................................................................................18

2.2.2.1 Mean Rule .......................................................................................................................................19 2.2.2.2 Product Rule....................................................................................................................................19 2.2.2.3 Majority Vote Rule (MVR).............................................................................................................20

2.2.3 Fusión utilizando inteligencia computacional...........................................................................20 2.2.4 Combinación de clasificadores utilizando medidas de confiabilidad........................................21 2.2.5 Uso de entropía e información mutua en combinación de clasificadores .................................21 2.2.6 Sistemas de múltiples clasificadores en verificación de locutor................................................22 2.2.7 Sistemas de múltiples clasificadores implementados en otras áreas de reconocimiento de patrones 22 2.2.8 Limitaciones en combinación de MCS.......................................................................................22

2.3 CLASIFICADORES PARA VERIFICACIÓN DE LOCUTOR .......................................................................23 2.3.1 Medidas de desempeño en Verificación de locutor ...................................................................25 2.3.2 Extracción de parámetros acústicos..........................................................................................28 2.3.3 Verificación de locutor con HMM.............................................................................................30

2.3.3.1 Modelos ocultos de Markov (HMM) ..............................................................................................31 2.3.3.2 La probabilidad de observación ......................................................................................................33

2.3.4 El algoritmo de Viterbi ..............................................................................................................34 2.3.4.1 Normalización de la verosimilitud ..................................................................................................35 2.3.4.2 Verificación de locutor basado en MVR-FV (majority voting rule for sequences of feature vectors) 37

2.3.5 Support Vector Machines en verificación de locutor.................................................................38 2.3.6 Otros clasificadores encontrados en la literatura .....................................................................39 2.3.7 Limitaciones en la tecnología de verificación de locutor ..........................................................39 2.3.8 Arquitectura Cliente servidor ....................................................................................................41

2.4 MEDIDA DE CONFIABILIDAD BASADA EN BAYES (BBCM, BAYES BASED CONFIDENCE MEASURE) 43 2.5 APORTE DE LA TESIS .......................................................................................................................44

CAPÍTULO 3 OPTIMIZACIÓN OFF-LINE DE FUSIÓN DE CLASIFICADORES BASADA EN MEDIDA DE CONFIABILIDAD............................................................................................................45

3.1 INTRODUCCIÓN ...............................................................................................................................45 3.2 CLASIFICACIÓN DE BAYES APLICADA A VERIFICACIÓN DE LOCUTOR..............................................46 3.3 BAYES BASED CONFIDENCE MEASURE (BBCM) EN VERIFICACIÓN DE LOCUTOR (SV).................47 3.4 FUSIÓN DE CLASIFICADORES CON BBCM EN SV.............................................................................49

3.4.1 BBCM como criterio de clasificación........................................................................................50 3.4.2 Fusión con BBCM .....................................................................................................................51

3.4.2.1 Mean Rule con BBCM....................................................................................................................53 3.4.2.2 Product Rule con BBCM.................................................................................................................54 3.4.2.3 Weighted Majority Vote Rule (WMVR-MCS) con BBCM ............................................................55

3.4.3 Diferencias entre el score BBCM y el de Bayes .......................................................................55 3.5 EXPERIMENTOS ...............................................................................................................................56

2

3.5.1 Base de Datos ............................................................................................................................56 3.5.2 Clasificadores individuales .......................................................................................................58 3.5.3 Configuración de los experimentos ...........................................................................................58

3.6 RESULTADOS...................................................................................................................................59 3.7 CONCLUSIONES ...............................................................................................................................65

CAPÍTULO 4 OPTIMIZACIÓN ON-LINE DE COMBINACIÓN LINEAL DE CLASIFICADORES BASADA EN INFORMACIÓN MUTUA.................................................................66

4.1 INTRODUCCIÓN ...............................................................................................................................66 4.2 MÉTODOS TRADICIONALES DE OPTIMIZACIÓN DE LA COMBINACIÓN LINEAL DE CLASIFICADORES ..67 4.3 COMBINACIÓN LINEAL DE CLASIFICADORES E INFORMACIÓN MUTUA .............................................68

4.3.1 Estimación de la distribución de ( )P A .....................................................................................71 4.3.2 Optimización de la combinación lineal de clasificadores basado en la información mutua.....74

4.4 OPTIMIZACIÓN ON-LINE DE UNA COMBINACIÓN LINEAL DE CLASIFICADORES SEÑAL-POR-SEÑAL...76 4.4.1 Estimación de Aoptimal como constante en la señal .....................................................................78 4.4.2 Estimacion de Aoptimo frame por frame......................................................................................79 4.4.3 Estimación de optimalα como promedio de ( )optimal iα ............................................................80

4.5 EXPERIMENTOS ...............................................................................................................................81 4.5.1 Clasificadores............................................................................................................................81 4.5.2 Configuración de los experimentos ...........................................................................................81

4.6 DISCUSIONES ..................................................................................................................................83 4.7 CONCLUSIONES ...............................................................................................................................86

CAPÍTULO 5 CONCLUSIONES..........................................................................................................88 5.1 RESUMEN DE LOS RESULTADOS.......................................................................................................88 5.2 TRABAJO FUTURO ...........................................................................................................................90

REFERENCIAS ..............................................................................................................................................91 ANEXO ............................................................................................................................................................97

9

LISTA DE FIGURAS

Figura 2.1: Esquema de fusión de clasificadores en cascada ............................................... 21

Figura 2.2: Diagrama de fusión de clasificadores en paralelo.............................................. 22

Figura 2.3: Diagrama de fusión de clasificadores jerárquico. .............................................. 22

Figura 2.4: Fusión MCS en abstract level ............................................................................ 23

Figura 2.5: Fusión MCS en score level ................................................................................ 23

Figura 2.6: Etapa de enrolamiento en un sistema de verificación de locutor....................... 30

Figura 2.7: Etapa de verificación en verificación de locutor................................................ 30

Figura 2.8: Curvas de Falsa Aceptación y Falso Rechazo ................................................... 32

Figura 2.9: Curva DET ......................................................................................................... 33

Figura 2.10: Diagrama de bloques que describe el proceso de parametrización cepstral del

frame de una señal de voz..................................................................................................... 35

Figura 2.11: Topología izquierda derecha sin salto de estado de un HMM......................... 37

Figura 2.12: Representación gráfica del algoritmo de Viterbi. ............................................ 40

Figura 2.13: Diagrama arquitectura cliente-servidor............................................................ 47

Figura 2.14: Esquema de la demo de verificación de locutor en el LPTV........................... 48

Figura 2.15: Esquema de la arquitectura de Asterisk ........................................................... 49

Figura 3.1: Curvas BBCM estimada con base de datos Teléfono (⎯) y YOHO (----) para: a)

VBS, b) MVR-FV y c) SVM................................................................................................ 63

Figura 3.2: curva DET obtenida para el esquema de combinación de MCS con la

aproximación Mean Rule con la base de datos Telefono_A. Los resultados son comparados

con el sistema baseline (VBS).............................................................................................. 68


aproximación Product Rule con la base de datos Telefono_A. Los resultados son

comparados con el sistema baseline (VBS). ........................................................................ 68


aproximación WMVR con la base de datos Telefono_A. Los resultados son comparados con

el sistema baseline (VBS). ................................................................................................... 69

10

Figura 3.5: curva DET obtenida para el esquema de combinación MCS con la aproximación

Mean Rule con la base de datos YOHO_A. Los resultados son comparados con el sistema

baseline (VBS). .................................................................................................................... 69


aproximación Product Rule con la base de datos YOHO_A. Los resultados son comparados

con el sistema baseline (VBS).............................................................................................. 70


aproximación WMVR con la base de datos YOHO_A. Los resultados son comparados con

el sistema baseline (VBS). ................................................................................................... 70

Figura 4.1: métodos de estimación de parámetros para combinar MCS: a) método on-line y

b) método off-line. ................................................................................................................ 72

Figura 4.2: Histogramas de los scores del clasificador VBS para dos señales. Los scores

son estimados frame por frame............................................................................................. 78

Figura 4.3: Histogramas de los scores del clasificador SVM para dos señales. Los scores

son estimados frame por frame............................................................................................. 78

Figura 4.4: Comparación de las f.d.p correspondiente a P(1) (el mejor clasificador),

( )1(1) | pPε ⎡ ⎤Φ⎣ ⎦ , y el P optimo (el score de la combinación lineal), | ( )Pg P⎡ ⎤Φ Α⎣ ⎦ . ............ 80

Figura 4.5 : Diagrama de bloques de la método de optimización on-line propuesto basado

en la información incremental para una combinación lineal de clasificadores. ................... 83

Figura 4.6: Curvas DET, en línea continua para VBS y en línea punteada la combinación

lineal de clasificadores VBS/SVM optimizados con PODF (Promedio de la optimización

dependiente del frame) de acuerdo a (4.20). ......................................................................... 90

11

LISTA DE TABLAS

Tabla 3.1: EER y área bajo la curva ROC para clasificadores individuales y los esquemas

de combinación con base de datos Teléfono_A ................................................................... 66

Tabla 3.2: EER y área bajo la curva ROC para clasificadores individuales y los esquemas

de combinación con base de datos YOHO_A ...................................................................... 67

Tabla 4.1: EER (%) y área bajo la curva DET de los clasificadores individuales: VBS,

Viterbi based score; y, SVM, support vector machine......................................................... 89

Tabla 4.2: EER (%) vs. la optimización en base a la aproximación polinomial para la

combinación lineal de clasificadores VBS/SVM con PODF (Promedio de la optimización

dependiente del frame) de acuerdo a (4.20). ......................................................................... 89

Tabla 4.3: EER y área bajo la curva DET con la optimización basado en la aproximación

polinomial (Nsample y orden de los polinomios igual a 10 y 3, respectivamente). La

combinación lineal de clasficadores VBS/SVM se optimiza de acuerdo a : OIF,

Optimización independiente del frame, descrito en la sección 4.4.1; ODF, optimización

dependiente del frame, ver sección 4.4.2; y, PODF, Promedio de la optimización

dependiente del frame, descrito en la sección 4.4.3. ............................................................ 90

Tabla 4.4: optimización off-line de la combinación lineal de clasificadores VBS/SVM con

LLR, logistic regression linear combination, (Brümmer et al., 2007). Los pesos de la fusión

se estiman con la base de datos YOHO_B y se testea con YOHO_A................................. 91

12

GLOSARIO

ASR Automatic Speaker Recognition

ATA Analog Telephone Adapter

BBCM Bayes Based Confidence Measure

DCT Discrete Cosine Transform

DET Detection Error Tradeoff

DFT Discrete Fourier Transform

EER Equal Error Rate

FA Falsa Aceptación

FR Falso Rechazo

GMM Gaussian Mixture Model

HMM Hidden Markov Model

IVR Interactive Voice Response

LLR Logistic Linear Regression

MCS Multiple Classifier System

MFCC Mel Frequency Cepstral Coefficient

MGCP Media Gateway Control Protocol

MVR-FV Majority voting rule for sequences of feature vectors

ODF Optimización dependiente del frame

OIF Optimización independiente del frame

PBX Private Branch Exchange

PODF Promedio de la optimización dependiente del frame

POTS Plain Old Telephony Services

PSTN Public Switched Telephone Network

ROC Receiver Operating Characteristic

SD Speaker Dependent

SI Speaker Independent

SIP Session Initiation Protocol

SV Speaker Verification

SVM Support Vector Machine

13

TDM Time-division multiplexing

TEER Threshold of Equal Error Rate

VBS Viterbi Based Score

VoIP Voice over Internet Protocol

f.d.p. Función de distribución de probabilidad

14

Capítulo 1

Introducción

Uno de los grandes desafíos tecnológicos en este siglo es el de emular el sistema nervioso

central del ser humano en lo que respecta a la habilidad para reconocer patrones y formas.

La capacidad para realizar cálculos numéricos extendidos y engorrosos parece que no fuera

una habilidad fácil de encontrar en las personas. No obstante identificar figuras, objetos,

voces, aromas, texturas y hasta significados semánticos en el lenguaje son capacidades

comunes en el hombre que se practican sin ni siquiera pensar al respecto. Pero la

implementación de programas de computación que realicen estas tareas no es para nada

trivial y es una de las grandes metas en el desarrollo de la ingeniería de punta para las

próximas décadas.

Dentro de lo que se denomina como área de reconocimiento de patrones existe la

temática de cómo optimizar el uso simultaneo de más de un clasificador para la misma

tarea. La inspiración no podría ser más cercana a la realidad del día-a-día. Por ejemplo, así

como las personas pueden identificar a individuos mediante la voz y el rostro, también se

puede realizar verificación biométrica automática multimodal. Yendo aun más lejos, se

puede considerar la verificación biométrica monomodal con más de una tecnología lo que

sería equivalente a, por ejemplo, usar varios individuos de referencia para verificar las

identidades que correspondan a las voces en una determinada conversación telefónica.

Dado este contexto, esta tesis se enmarca en como optimizar la combinación de

clasificadores en el problema verificación de locutor.

1.1 Sistemas de múltiples clasificadores

En el área de reconocimiento de patrones, tradicionalmente, la decisión es realizada por un

solo clasificador y el análisis se concentra en encontrar o diseñar el mejor sistema para un

problema en particular. Se ha observado que, para diferentes clasificadores, los conjuntos

de patrones mal clasificados no necesariamente se superponen. Estas observaciones han

15

motivado el interés en sistemas de fusión de sistemas discriminadores y actualmente estos

ya forman parte de una sub-disciplina en reconocimiento de patrones. La idea es aprovechar

la diversidad de los sistemas expertos y no depender de uno solo en la toma de decisiones.

La idea entonces es utilizar un conjunto de clasificadores y, mediante una combinación de

sus scores o decisiones, obtener una decisión final en consenso. Es más, el objetivo de un

sistema de multi-clasificación es superar al mejor clasificador: la integración de

clasificadores simples puede superar ampliamente a un clasificador mucho más complejo.

Sin embargo, la combinación de clasificadores no es una tarea sencilla, un mal

esquema de combinación puede empeorar el desempeño del sistema. Además, se debe

considerar que el conjunto de clasificadores a combinar deben presentar una cierta

divergencia en sus decisiones con el fin de aportar información. En la literatura es posible

distinguir tres grandes grupos para combinar clasificadores: fusión estadística,

generalmente mediante la decisión de Bayes; fusión utilizando herramientas de inteligencia

computacional, tales como redes neuronales o Support Vector Machines; y fusión

optimizada empíricamente ajustando parámetros.

En el área de reconocimiento de patrones, los sistemas de combinación de múltiples

clasificadores se han utilizado en diversas tareas. Entre algunos ejemplos se pueden

mencionar: reconocimiento de escritura manuscrita; en plataformas multi-modales;

combinación de sensores; etc.

En el caso particular de sistemas de múltiples clasificadores en verificación de

locutor, se ha utilizado diversas estrategias de combinación tales como la clásica

combinación Bayesiana, redes neuronales o combinaciones lineales, etc. No obstante la

mayoría de los esquemas de combinación realizados en verificación de locutor carecen de

un modelamiento analítico.

1.2 Verificación de locutor

La biometría es la identificación de personas extrayendo características físicas propias del

ser humano, tales como voz, iris, huellas dactilares, etc. Se conoce por verificación de

locutor a la disciplina que enfrenta el problema de identificar una persona utilizando solo la

voz como medida biométrica. Los sistemas de verificación de locutor pueden ser usados en

una amplia gama de aplicaciones, que incluyen desde control de acceso automático por vía

16

telefónica hasta indexación de audio dependiente del locutor en ambientes multi-speaker.

Las plataformas basadas en tecnologías de procesamiento de voz, en comparación a los

métodos convencionales de interacción hombre-maquina (teclados, mouse, etc.),

proporcionan una mayor naturalidad y facilidad en su uso, así como un amplia variedad de

aplicaciones orientadas a diferentes tipos de usuarios y condiciones de operación.

Verificación de locutor es un problema específico dentro del área de reconocimiento

de locutor. Esta disciplina tiene por objeto decidir si una persona es quien dice ser, en otras

palabras, validar la afirmación de identidad de una persona. Verificación de locutor es un

problema de clasificación binaria (aceptar o rechazar). Además es multidisciplinario, i.e. es

necesario aplicar conocimientos relacionados con reconocimiento de patrones, acústica y

fonética.

Actualmente en verificación de locutor existe una gran variedad de clasificadores. Sin

embargo, las técnicas más usadas han sido las basadas en mezclas de funciones de

distribución de probabilidad (f.d.p.) Gaussianas tales como GMM (Gaussian Mixture

Models) y HMM (Hidden Harkov Models). Junto con estas técnicas han surgido otras

alternativas como Support Vector Machines (SVM) y algoritmos basados en Redes

Neuronales. El uso de una u otra técnica puede depender de factores como la dependencia

del texto, o los medios de captura de voz usados en la verificación.

1.3 Motivación

Actualmente en los sistemas de verificación de locutor, la tendencia es diseñar

clasificadores cada vez más complejos para lograr una mejora de desempeño. Sin embargo,

éste tiene un límite de rendimiento donde cualquier mejora adicional implica un esfuerzo

computacional enorme. Por otro lado, en la literatura especializada existe una gran variedad

de clasificadores, los cuales pese a ser más simples pueden incorporar información

adicional a un clasificador más avanzado. Así, en conjunto se puede formar un sistema que

logre obtener mejoras más elevadas en la clasificación en vez de incrementar la

complejidad de un solo experto. En este contexto nace la motivación por incluir los

sistemas de múltiples clasificadores en verificación de locutor. Pese a que lo anterior parece

obvio, sorprendentemente es un área poco explorada en huella de voz. Además, los trabajos

de fusión de clasificadores que se encuentran en biometría por voz corresponden a métodos

17

de combinaciones clásicos como la típica fusión bayesiana o esquemas tradicionales como

redes neuronales y combinaciones lineales, etc. Asimismo, éstos carecen de un adecuado

análisis matemático.

1.4 Objetivos

Los objetivos de esta tesis están definidos en la generación de nuevas técnicas de

combinación de multi-clasificadores para verificación de locutor que puedan llevar a mejor

resultados que el mejor clasificador aislado. Además, estos métodos deberán ser, en

principio, aplicables a cualquier problema de reconocimiento de patrones. Esta tesis apunta

a proponer técnicas de fusión de clasificadores off-line basados en medidas de

confiabilidad; y proponer estrategias de fusión de clasificadores on-line utilizando criterios

de teoría de la información.

1.4.1 Objetivo general

Investigar y proponer nuevas estrategias de combinación de clasificadores aplicados

principalmente al problema de verificación de locutor y compararlas con métodos

tradicionales de fusión de clasificadores.

1.4.2 Objetivos específicos

Dados el objetivo general, los objetivos específicos corresponden a: investigar y desarrollar

técnicas de fusión off-line de clasificadores basados en medidas de confiabilidad

proponiendo un nuevo criterio a optimizar en reconocimiento de patrones; y proponer

estrategias de fusión de clasificadores on-line utilizando criterios de teoría de la

información para reducir la dependencia de las condiciones de matching entre

entrenamiento y test.

18

1.5 Alcance y originalidad

En esta tesis se proponen nuevos métodos para fusionar clasificadores aplicados al

problema de verificación de locutor. Para ello, se evalúan dos técnicas de diseño: fusión de

clasificadores off-line y on-line. En el primero de ellos, la optimización de los parámetros

necesarios para la combinación se realiza con datos a priori, mientras que en la fusión de

clasificadores on-line se realiza con los datos de test. Para la fusión off-line se propone

utilizar una medida de confiabilidad basada en bayes, actualmente empleada en

reconocimiento de voz. En el caso de la combinación de clasificadores on-line, se plantea

mejorar el desempeño del mejor clasificador utilizando el criterio de la minimización de

información mutua. Hay que destacar que los dos métodos para la optimización de arreglos

de clasificadores que se proponen son técnicas originales que no habían sido publicadas

previamente en la literatura. Prueba de ello son las dos publicaciones1,2 en revistas de

corriente principal (ISI) logradas en esta tesis (ver anexo). Ambas técnicas superan en

exactitud al mejor clasificador empleado y a las técnicas clásicas de combinación. Como

conclusión, todos los objetivos planteados inicialmente fueron alcanzados.

1.6 Estructura de la tesis

Esta tesis se ha estructurado de modo de introducir gradualmente al lector al problema

abordado, comenzando con una visión macro de la temática estudiada para llegar

posteriormente a los detalles del los métodos propuestos. Así, se comienza con un marco

introductorio sobre sistemas de múltiples clasificadores y verificación de locutor, para

luego dar paso a las técnicas propuestas de fusión de clasificadores. Cada método planteado

es comparado con sistemas convencionales encontrados en la literatura especializada. De

esta forma se tendrá un soporte conceptual adecuado para seguir el desarrollo de las

técnicas propuestas y los experimentos realizados. Esta tesis se compone de 5 capítulos,

cada uno trata temas relevantes relacionados con el trabajo de documentación,

1 Fernando Huenupán, Néstor Becerra Yoma, Claudio Garretón and Carlos Molina. “On-line linear combination of classifiers based on incremental information in speaker verification,” Aceptado para publicar en ETRI (Electronics and Telecommunications Research Institute). 2010. 2 Fernando Huenupán, Nestor Becerra Yoma, Carlos Molina and Claudio Garretón. “Confidence based multiple classifier fusion in speaker verification,” Pattern Recognition Letters, Volume 29, Issue 7, 1, Pages 957-966. May 2008.

19

investigación y resultados experimentales. A continuación se describe brevemente la

estructura de cada uno de ellos.

El capítulo 2 tiene como objetivo especifico introducir al lector en el tema de

sistemas de múltiples clasificadores, verificación de locutor y medidas de confiabilidad. En

éste se busca entregar una base teórica suficiente para adentrarse en las técnicas y análisis

propuestos en esta tesis. En sistemas de múltiples clasificadores se presentan las técnicas en

el estado-del-arte más comúnmente utilizadas. En éste capítulo, se realiza además una

descripción de la tecnología de los sistema de verificación de locutor, comenzando con el

procesamiento de las señales de voz, metodologías de evaluación, técnicas de clasificación

y arquitectura cliente-servidor. Especial énfasis se hace al sistema de verificación de

locutor desarrollado en el Laboratorio de Procesamiento y Transmisión de Voz (LPTV) de

la Universidad de Chile. Finalmente, en éste capitulo se presenta la medida de confiabilidad

basada en Bayes.

En el capítulo 3, se propone una nueva técnica para fusionar sistemas de múltiples

clasificadores en modo off-line, donde la optimización de los parámetros para fusionar se

realiza con datos a priori. Para ello, se utiliza una medida de confiabilidad basada en Bayes

(Bayes Based Confidence Measure, BBCM). Como se mostrará en este capítulo, la

combinación de un esquema MCS (Multiple clasiffier fusion) con BBCM corresponde a la

combinación clásica de Bayes ponderada por la confiabilidad de cada clasificador. Además,

se demuestra que BBCM provee un modelo formal a funciones de pesos estimada de forma

heurísticas por otros autores. Cabe destacar que el método propuesto es un cambio de

paradigma con respecto a la tradicional combinación bayesiana puesto que, en vez de

maximizar la probabilidad a posteriori, se propone maximizar la confiabilidad a posteriori

del sistema de Múlti-clasificación.

El capítulo 4 propone una estrategia nueva para combinar sistemas de múltiples-

clasificadores. El esquema propuesto optimiza de modo on-line una combinación lineal de

dos clasificadores. El término on-line utilizado en este capitulo se refiere a que la

optimización de la combinación se realiza en el proceso de verificación o de test. En

contraste a los esquemas clásicos de combinación, el método propuesto no necesita

distribuciones a priori o pesos estimados previamente. Finalmente, el capítulo 6 presenta las

conclusiones y análisis de las técnicas propuestas en esta tesis además de los trabajos

propuestos a futuro.

20

Capítulo 2

Sistemas de múltiples clasificadores (MCS) 2.1 Introducción

Este capítulo tiene como objetivo principal interiorizar al lector en los sistemas de múltiples

clasificadores, en la tecnología de verificación de locutor y en medidas de confiabilidad. Se

busca entregar una base teórica suficiente para adentrarse en las técnicas y análisis

propuestos en esta tesis.

En primer lugar, se describen los sistemas de múltiples clasificadores y las técnicas

mas comunes para fusionar. Luego, se presentan los sistemas de verificación de locutor

donde se analiza el procesamiento de las señales de voz, las metodologías de evaluación y

los clasificadores más utilizados. Finalmente, se explica la medida de confiabilidad basada

en Bayes.

2.2 Sistemas de múltiples clasificadores (MCS) en reconocimiento de patrones

En el área de reconocimiento de patrones la meta es lograr el mejor desempeño de

clasificación posible para una tarea determinada. Tradicionalmente para cumplir este

objetivo se desarrollan diferentes sistemas de expertos para el problema que deba

resolverse. Se ha observado en estos estudios de diseño que, aunque uno de los esquemas

produzca mejores resultados, los conjuntos de patrones mal clasificados por los diferentes

clasificadores no necesariamente se superponen (Kittler, et al., 1998). Lo anterior sugiere

que diferentes sistemas expertos ofrecen información complementaria, la cual podría

aprovecharse para mejorar el rendimiento del sistema.

Estas observaciones han motivado el interés en sistemas de fusión de clasificadores.

La idea es no depender de un único esquema en la toma de decisiones. En lugar de ello,

21

todos los diseños o sus subconjuntos se utilizan en la toma de decisiones mediante una

combinación de sus opiniones, y así obtener una decisión en consenso.

La principal razón para combinar clasificadores es mejorar la exactitud (Kittler, et

al., 1998). Esto se debe al hecho a que un complemento en la información lleva a una

mejora del desempeño en el sistema de clasificación. Un factor importante en la

combinación de sistemas expertos, es que ésta se vuelve útil si los clasificadores

individuales son diferentes (Dietterich, 2000; Kuncheva, et al., 2001). En caso contrario, el

conjunto de errores resultaría similar y no habría información adicional.

El estudio de estrategias de fusión de clasificadores es un problema interesante y

actualmente se considera una prominente subdisciplina en el campo de reconocimiento de

patrones (Kuncheva, 2002; Kuncheva, 2004). Las topologías de combinación de

clasificadores se pueden agrupar en tres categorías (Ranawana & Palade, 2006): Cascada o

serie; paralelo; y, jerárquico (híbrido). En la fusión en serie, los resultados obtenidos por

cada sistema experto son la entrada en el siguiente clasificador, hasta que la decisión final

es obtenida por el clasificador al final en la cadena (Figura 2.1). La desventaja principal del

empleo de éste método es la inhabilidad de los sistemas expertos posteriores de corregir los

errores realizados por los clasificadores anteriores.

Figura 2.1: Esquema de fusión de clasificadores en cascada.

Los métodos de fusión en paralelo son los más utilizados en MCS. Todos los

clasificadores operan en paralelo sobre la señal de entrada, y los resultados de todos son

fusionados con algún método con el fin de obtener una decisión en consenso (Figura 2.2).

Esta metodología tiene un elevado costo computacional ya que todos los clasificadores se

deben ejecutar antes de tomar la decisión final. Por otro lado, si el proceso de combinación

esta bien diseñado el sistema puede obtener un desempeño superior al de cada sistema

experto individual.

22

En la combinación jerárquica, se utilizan los métodos de cascada y paralelo (Figura

2.3) con el fin de obtener el funcionamiento óptimo. El empleo de esta metodología puede

suplir las desventajas de la combinación en cascada.

Para los sistemas de fusión en paralelo, en (Kittler, et al., 1998) se mencionan dos

escenarios de combinación. En el primero, todos los clasificadores utilizan la misma

entrada u observación. En el segundo caso, cada sistema experto utiliza su propia

representación paramétrica de la observación de entrada. Es decir, las características

extraídas son únicas para cada clasificador. Una importante aplicación en este último

escenario es la integración de distintos tipos de características o atributos de las

observaciones. Es común encontrar este esquema en sistemas multimodales.

Figura 2.2: Diagrama de fusión de clasificadores en paralelo.

Figura 2.3: Diagrama de fusión de clasificadores jerárquico.

23

En MCS los clasificadores en paralelo son combinados generalmente en dos niveles

(Mak, et al., 2003a): abstract level (Figura 2.4) y score level (Figura 2.5). En abstrac level,

cada clasificador realiza una decisión y posteriormente son combinadas. En el esquema

score level la fusión se realizada con el score de cada sistema experto. Considere las

Figura 2.4 y Figura 2.5: O es señal de entrada observada; CLj es el clasificador j, donde

1 j J≤ ≤ y J es el numero total de clasificadores; ( )jCLS O es el score de salida del

clasificador j; jCLd es la decisión local del clasificador j; y D(O) es la decisión final del

sistema de múltiples clasificadores para una entrada O. D(O) y jCLd indica una de las M

clases denotada por Cm, donde 1 m M≤ ≤ y M es el numero total de clases.

Classifier 2(CL2)

Classifier J(CLJ)

.

.

.

FUSION

OSequence

Observation

1( )CLS O

2( )CLS O

( )JCLS O

Classifier 1(CL1)

DecisionThreshold

DecisionThreshold

DecisionThreshold

1CLd

2CLd

JCLd

D(O)

Figura 2.4: Fusión MCS en abstract level.

Classifier 2(CL2)

Classifier J(CLJ)

.

.

.

FUSIOND(O)

OSequence

Observation

1( )CLS O

2( )CLS O

( )JCLS O

Classifier 1(CL1)

Figura 2.5: Fusión MCS en score level.

24

2.2.1 Estrategias de combinación en MCS

Una vez que los clasificadores han sido desarrollados e implementados, se debe realizar la

combinación de éstos. Es posible distinguir en la literatura dos grandes grupos: fusión

estadística, generalmente mediante la decisión de bayes; y, fusión utilizando herramientas

de inteligencia computacional, tales como redes neuronales o support vector machines.

En algunos trabajos, como en (Ranawana & Palade, 2006) también se mencionan

métodos de combinación lineal (suma, producto etc.) y no lineal (como Majority Vote Rule)

como estrategias de combinación. Sin embargo, como se muestra en (Kittler, et al., 1998),

éstas son aproximaciones de la fusión Bayesiana.

2.2.2 Fusión Bayesiana

Teóricamente la vía óptima para la fusión de clasificadores es mediante la clasificación de

Bayes (Kittler, et al., 1998; Duda & Hart, 1973):

[ ] [ ]

[ ]1

( ) | ( )( ) arg max ( | ( ) arg max

( ) | ( )

m mm M

m mm m

m

Pr S O C Pr CD O Pr C S O

Pr S O C Pr C=

⎧ ⎫⎪ ⎪⋅⎪ ⎪= = ⎨ ⎬⎪ ⎪⋅⎪ ⎪⎩ ⎭∑

(2.1)

donde 1

( ) ( ),..., ( ),...., ( )j JCL CL CLS O S O S O S O⎡ ⎤= ⎣ ⎦ . Teóricamente, el error de clasificación

es minimizado por (2.1). Sin embargo, [ ]( ) | mPr S O C es una distribución de probabilidad

multivariable y para su estimación es necesario una gran cantidad de datos para obtener un

resultado confiable (Kittler, et al., 1998). Este problema puede ser simplificado si (2.1) es

calculado en términos de distribuciones de probabilidad por cada clasificador individual.

Las técnicas más clásicas para simplificar la fusión Bayesiana son (Kittler, et al., 1998;

Kuncheva, et al., 2001; Kuncheva, 2002; Kittler & Alkoot, 2003): regla del producto

(Product Rule); máximo (Max rule); mínimo (Min Rule); suma o promedio (Mean Rule); y,

votación (Majority Vote Rule). Mean Rule y Majority Vote Rule son las aproximaciones

más usadas (Kittler & Alkoot, 2003; Fumera & Roli, 2005). Por otro lado, Product Rule

25

corresponde a la fusión bayesiana óptima si los clasificadores son estadísticamente

independiente.

2.2.2.1 Mean Rule

Si las clases son consideradas equiprobables la aproximación de (2.1) por Mean Rule está

definido como:

( )1 1

1

( ) |1 1( ) arg max | ( ) arg max|

j

j

j

J J CL mm CL M

m mj jCL m

m

Pr S O CD O Pr C S O

J JPr S O C= =

=

⎧ ⎫⎪ ⎪⎡ ⎤⎧ ⎫⎪ ⎪ ⎪ ⎪⎣ ⎦⎡ ⎤= =⎨ ⎬ ⎨ ⎬⎣ ⎦⎪ ⎪ ⎪ ⎪⎩ ⎭ ⎡ ⎤

⎣ ⎦⎪ ⎪⎩ ⎭

∑ ∑∑

(2.2)

donde M es el total de clases y J es el número de clasificadores.

2.2.2.2 Product Rule

Si los clasificadores son considerados estadísticamente independiente y las clases son

equiprobables, la decisión de Bayes puede ser simplificada como:

( )1 1

1

( ) |( ) arg max | ( ) arg max

|

j

j

j

J J CL mm CL M

m mj jCL m

m


Pr S O C= =

=

⎧ ⎫⎪ ⎪⎡ ⎤⎧ ⎫⎪ ⎪ ⎪ ⎪⎣ ⎦⎡ ⎤= =⎨ ⎬ ⎨ ⎬⎣ ⎦⎪ ⎪ ⎪ ⎪⎩ ⎭ ⎡ ⎤

⎣ ⎦⎪ ⎪⎩ ⎭

∏ ∏∑

(2.3)

donde M es el total de clases y J es el número total de clasificadores. Según (Tax, et al.,

1997), si la estimación de las distribuciones no es confiable, la combinación puede ser muy

sensible a los errores de clasificación. Por ejemplo, si uno de los clasificadores es igual a

cero, la salida de todo el sistema será cero. Por este motivo el producto es muy sensible a

los errores de estimación de las distribuciones de probabilidades. Como consecuencia se

puede afirmar que la combinación mediante el producto puede ser considerada más

inestable que aquella mediante la suma o promedio.

26

2.2.2.3 Majority Vote Rule (MVR)

Majority Vote Rule (MVR) en MCS, corresponde a un esquema sencillo ampliamente

utilizado en la literatura para combinar las salidas de clasificadores como en la Figura 2.4,

MVR se define como (Hazen, et al., 2000):

1

2

if (O) 0( )

if (O) < 0C

D OC

Δ ≥⎧= ⎨ Δ⎩

(2.4)

donde

1( )

j

J

CLj

O=

Δ = Δ∑

y

1

2

1 if ( )

1 if ( ) j

j

j

CLCL

CL

d O C

d O C

=⎧⎪Δ = ⎨− =⎪⎩

Por otro lado, se utiliza también una variación de MVR, weighted Majority Vote Rule (De

Stefano, et al., 2002), que se define como:

1

( )j

J

CL jj

O α=

Δ = Δ∑ (2.5)

donde | ( )j jj CL CLPr d S Oα ⎡ ⎤= ⎣ ⎦ .

2.2.3 Fusión utilizando inteligencia computacional

Debido al empleo de técnicas de inteligencia computacional (redes neuronales, SVM,

algoritmos genéticos, etc) se puede contar con una gran variedad de métodos de

combinación. Sin embargo, el uso de éstas técnicas para obtener un buen desempeño

requiere de una gran cantidad de datos para su entrenamiento (Ranawana & Palade, 2006;

Esmaeili & Rahmati, 2007). Esto puede ser un problema en el caso que no se disponga de

una cantidad de datos suficiente o que haya mistmach en las condiciones de entrenamiento

27

y de test. Entre los métodos de combinación con inteligencia computacional, las redes

neuronales son el sistema más utilizado en la literatura especializada. En éste caso, las

salidas de los clasificadores individuales son usadas como entradas en una red neuronal.

2.2.4 Combinación de clasificadores utilizando medidas de confiabilidad

El uso de medidas de confiabilidad para combinar clasificadores no es muy utilizado en la

literatura especializada, aunque existen trabajos en esta área (Genoud, et al., 1996; Tamura,

et al., 2005), consisten en combinaciones lineales donde se ponderan los sistemas expertos

utilizando algún criterio de confiabilidad, careciendo de un modelado analítico.

2.2.5 Uso de entropía e información mutua en combinación de clasificadores

El uso de técnicas de entropía e información mutua en combinación de clasificadores es

muy utilizado en la literatura actual. En algunos trabajos se utiliza como un método

alternativo para estimar las funciones de distribución en la combinación bayesiana (2.1),

como en (Fassinut-Mombot & Choquel, 2000; Pan, et al., 1999; Pan, et al., 2000). Métodos

basados en teoría de la información se utilizan como un mecanismo para seleccionar el

conjunto de clasificadores a combinar. En (Kang & Doermann, 2005) se minimiza la

información mutua entre sistemas expertos con la finalidad de seleccionar un grupo de ellos

para una posterior combinación.

Por otro lado, los de criterios de entropía son utilizados además en sistemas multi-

modales (Pan, et al., 2000; Beckerman, 1992) y en fusión de sistemas de multi-sensores

(Di, et al., 2003; Zhou & Leung, 1997) donde se presentan criterios para fusionar datos de

multi-sensores ponderando cada sensor por un peso. Estos factores de ponderación se

estiman mediante un criterio de minimización de la entropía. Sorprendentemente, la

aplicación de elementos de teoría de la información como criterio de fusión no ha sido

modelada analíticamente en la literatura especializada.

28

2.2.6 Sistemas de múltiples clasificadores en verificación de locutor

En (Chen, et al., 1997) se realiza un estudio para verificación de locutor de diversas

estrategias de combinación, tales como las clásicas fusiones bayesianas y aquellas basadas

en la técnica de expectation maximitation (EM) como método de fusión. Sin embargo, en la

literatura especializada, los métodos de fusión que se realizan son generalmente mediante

las redes neuronales (Farrel, 1995; Farrel, et al., 1997; Xiang & Berger, 2003;

Yegnanarayana, et al., 2005) y combinaciones lineales (Benzeghiba & Bourlard, 2003;

Mak, et al., 2003b). No obstante, en la mayoría de los esquemas de combinación realizados

en verificación de locutor carecen de un modelamiento analítico (Kim & Ko, 2003).

2.2.7 Sistemas de múltiples clasificadores implementados en otras áreas de

reconocimiento de patrones

Los sistemas de combinación de múltiples clasificadores se han utilizado en diversas áreas

de reconocimiento de patrones (Lam, 2000). Entre algunos ejemplos se pueden mencionar

reconocimiento de escritura manuscrita (Kittler & Alkoot, 2003; Kumar Sharma, 2007;

Liwicki & Bunke, 2007; Xu, et al., 1992); en sistemas multi-modales (Tamura, et al., 2005;

Pan, et al., 2000; Beckerman, 1992); combinación de sensores (Zhou & Leung, 1997;

Tzeng, 2006); reconocimiento de caras (Parveen & Thuraisingham, 2006), etc.

2.2.8 Limitaciones en combinación de MCS

Como se ha mencionado en toda esta sección, la combinación de MCS bajo ciertas

condiciones puede lograr un gran desempeño en la tarea de clasificación. Sin emabrgo,

existen serias limitaciones a considerar a la hora de diseñar un sistema de fusión de MCS.

Como generalmente ocurre en el área de reconocimiento de patrones, el principal problema

es la diferencia entre los datos de entrenamientos de las curvas o pesos a priori estimadas,

con las señales de test, lo que implica que las curvas o pesos calculados no representan en

forma óptima las condiciones de test. Una solución a este problema consiste en estimar o

modificar los pesos o curvas necesarias para la fusión de modo on-line, es decir, utilizando

29

los datos de la señal de test. Sorprendentemente, en la literatura de MCS este tema no ha

sido abordado.

Por otro lado, la combinación de clasificadores tiene sentido siempre y cuando los

sistemas expertos aporten información entre si (Kittler, et al., 1998; Kuncheva & Whitaker,

2003), en caso contrario la fusión puede empeorar el sistema de clasificación.

2.3 Clasificadores para verificación de locutor

Un sistema de verificación de locutor debe decidir (clasificar) si la persona que declara una

cierta identidad es o no quien dice ser (Furui, 1997). La frase, pronunciada por un usuario

cualquiera, es comparada con el modelo del cliente cuya identidad es declarada por el

locutor. De esta forma, si el modelo del usuario y la pronunciación coinciden dentro de los

límites permitidos (umbral de decisión), la identidad será aceptada. En caso contrario, será

rechazada.

Una sistema de verificaron de locutor consta de dos etapas (Bimbot, et al., 2004),

enrolamiento y verificación. En la etapa de enrolamiento, la señal de voz correspondiente

es sometida a una etapa de pre-procesamiento después de la cual se entrena un modelo que

represente al cliente (Fig. 2.6). Por su parte, las elocuciones de verificación serán sometidas

al mismo pre-procesamiento, salvo que los parámetros obtenidos serán comparados con los

modelos del cliente mediante la verosimilitud (en el caso de modelos estocásticos HMM).

Si esta verosimilitud calculada es mayor que el umbral de decisión definido para el cliente

en particular, o para todo el conjunto de clientes, la identidad afirmada por el locutor será

aceptada. Caso contrario, será rechazada (Fig. 2.7).

30

Extraccion de parámetros acusticos

Elocución de enrolamiento para cada usuario

Entrenamiento modelo cliente

Modelo Usuario 1

Modelo Usuario 2

0 1 2 3 4 5 6 7 8 9-0.15

-0.1

-0.05

0

0.05

0.1

0.15

0.2

0 1 2 3 4 5 6 7 8 9-0.15

-0.1

-0.05

0

0.05

0.1

0.15

0.2

Voz del usuario 1

Voz del usuario 2

Modelo por cada usuario

Figura 2.6: Etapa de enrolamiento en un sistema de verificación de locutor.

0 1 2 3 4 5 6 7 8 9-0.15

-0.1

-0.05

0

0.05

0.1

0.15

0.2

Figura 2.7: Etapa de verificación en verificación de locutor.

Existen diversos tipos de sistemas de verificación de locutor. Entre ellos se pueden

distinguir los sistemas de texto dependiente y los de texto independiente. Los sistemas de

texto dependiente requieren que el usuario pronuncie una palabra o frase determinada por el

sistema. Los sistemas de texto independiente están preparados para realizar el proceso de

verificación cualquiera sean las palabras o frases pronunciada.

En todo sistema de verificación de locutor se cuenta con una base de datos de

usuarios o clientes registrados. Esta base de datos está compuesta por modelos que

representan las características del tracto vocal de cada uno de los clientes. Estos modelos se

consiguen mediante el procesamiento de las señales de voz capturadas en sesiones de

entrenamiento o enrolling, en las cuales el usuario pronunciará una cierta cantidad de

frases.

31

En el estado-del-arte las tecnologías de verificación de locutor pretenden alcanzar

un error entre 0,1% a 5% usando señales en condiciones controladas a niveles bajos de

ruido. Para los procesos de enrolamiento y verificación estos sistemas utilizan elocuciones

entre 10 a 30 segundos y entre 2 a 10 segundos de duración, respectivamente (Yoma &

Villar, 2002). Dadas estas tasas de error, un sistema de verificación de locutor se presenta

como una alternativa interesante si es utilizada en combinación con, por ejemplo, números

de identificación personal.

2.3.1 Medidas de desempeño en Verificación de locutor

En un sistema de verificación de locutor sólo existen dos respuestas posibles: aceptar o

rechazar al usuario testeado. Por lo tanto, hay dos tipos de acierto (aceptar un cliente y

rechazar a un impostor) y dos de error (aceptar un impostor y rechazar un cliente).

Los errores en un sistema de verificación de locutor se producen al aceptar un

impostor o al rechazar a un cliente. Estas equivocaciones corresponden a los denominados

errores de falsa aceptación (FA) y falso rechazo (FR), respectivamente. Es importante

mencionar que si el sistema en cuestión posee un umbral de decisión demasiado estricto,

este tenderá a rechazar clientes. En el caso contrario, si el sistema es demasiado permisivo

aumentará la aceptación a impostores. Como resultado para aumentar el desempeño del

sistema se deben minimizar conjuntamente ambos tipos de errores en función de la

aplicación. Para encontrar el umbral de decisión óptimo se utilizan las curvas de falso

rechazo y falsa aceptación. La curva de falso rechazo se construye moviendo el umbral de

decisión en un amplio de rango e identificando, para cada uno de estos puntos, qué

porcentaje de las ocasiones el cliente trató de verificarse y fue rechazado. Por su parte, la

curva de falsa aceptación se obtiene desplazando el umbral de decisión e identificando para

cada punto qué porcentaje de los impostores fue aceptado. La intersección de estas curvas

indica el umbral óptimo para el cual se minimiza el error del sistema. Este umbral óptimo

se denomina TEER (Threshold of Equal Error Rate). A partir del TEER se puede encontrar

el porcentaje de error del sistema de SV, llamado EER (Equal Error Rate). La Figura 2.8

ilustra gráficamente la situación descrita; en ella se observan las curvas de FA y FR cuya

intersección corresponde al TEER. Las curvas de FA y de FR pueden ser construidas para

cada uno de los clientes o ser el promedio para todos los usuarios. Así, el umbral de

32

decisión puede ser optimizado para cada cliente TEERSD (TEER Speaker Dependent), o

común a todos los usuarios, TEERSI (TEER Speaker Independent).

Figura 2.8: Curvas de Falsa Aceptación y Falso Rechazo.

La segunda medida de desempeño es la curva DET (Detection Error Tradeoff). Esta curva

se genera estimando el error de FR y FA en un rango amplio de valores del umbral de

decisión. En los ejes vertical y horizontal se ubican las tasas de error de FA y FR,

respectivamente. Dados los niveles de error manejados por este tipo de sistemas, estas

curvas generalmente se grafican en escala logarítmica (gráfico log-log). Un ejemplo de ella

se presenta en la Fig. 2.8.

En el dominio lineal, la curva que representa la relación FA vs. FR es comúnmente

denominada curva ROC (Receiver Operating Characteristic), el valor del área bajo la curva

ROC sirve como indicador de la habilidad discriminativa del sistema bajo el rango de

valores de umbral de decisión que se está probando: mientras mejor desempeño presentado

por el sistema, menor será el área bajo la curva ROC.

33

Figura 2.9: Curva DET.

Finalmente, existe la función de costo de detección, la que usa información de los

pesos relativos de errores de detección y las probabilidades a priori de los locutores a

testear (NIST, 2006). La función tiene la siguiente forma:

[ ] ( )1DET FR FR Loc FA FA LocC C P P C P P⎡ ⎤= ⋅ ⋅ + ⋅ ⋅ −⎣ ⎦ (2.6)

donde FRC y FAC son los costos relativos de los errores de FR y FA, respectivamente.

FRP y FAP son las probabilidades de FR y FA del sistema, las que son estimadas según el

umbral de decisión con el que se este operando. Finalmente, LocP es la probabilidad de que

un locutor en particular intente ingresar al sistema. Para comparar el desempeño de

sistemas de verificación de locutor se usa el valor mínimo de la función de costo de

detección, { }min DETC .

La estimación de los parámetros de la función DETC es relativamente sencilla en el

caso que el sistema se este probando con una base de datos de locutores. Sin embargo, al

usar el sistema en una aplicación real se dificulta la estimación de estos parámetros. Lo que

muestra una desventaja de esta medida de desempeño.

34

2.3.2 Extracción de parámetros acústicos

Una de las particularidades que tiene la señal de voz es que es un proceso estocástico no-

estacionario. Además, las variaciones temporales entre señales que fonéticamente son

iguales también son una dificultad extra. Las variaciones en los parámetros acústicos

pueden ser producidas por diversos factores. En este sentido existen variables producidas

por el mismo locutor (intra-locutor) o por el entorno en el cual fueron realizadas (inter-

locutor). La variabilidad temporal en la voz, la información extra-lingüística que tiene la

señal, la fuerte dependencia de la fuente por la cual fue generada la señal y las variaciones

del ambiente son algunas de las características que hacen difícil modelar la verificación de

locutor. Las distribuciones que modelen el proceso de generación de la voz deben tomar en

cuenta estas variabilidades. Previo a la etapa de extracción de parámetros, lo que se hace

generalmente es un pre-procesamiento de la señal. En él se prepara la señal antes de la

extracción de características.

La conversión análogo-digital es la primera etapa en este pre-procesamiento. En

aplicaciones con interfaces hombre-máquina la conversión viene dada por las tarjetas

telefónicas. Luego, se aplica la detección de inicio-fin (end-point detection) que

básicamente elimina de la señal acústica los períodos de silencio antes del inicio del primer

pulso de voz y después del último. Algunos tipos de detección inicio-fin se detallan en

(Lamel, et al., 1981; Savoji, 1989). Una vez realizada esta discriminación voz/no-voz, lo

siguiente es caracterizar la señal mediante secuencias estacionarias o casi-estacionarias.

Esto se realiza a través de un proceso de segmentación donde cada segmento es conocido

como “frame”. Para ello se utiliza, entre otras, la ventana de Hamming (Picone, 1993). El

siguiente paso es realizar un análisis espectral por cada frame en el cual la señal es

procesada en primera instancia por la transformada discreta de Fourier (DFT, “Discrete

Fourier Transform”). Luego, debido a que la percepción auditiva humana no es capaz de

distinguir frecuencias individuales, sino que capta franjas, se utilizan bancos de filtros. Por

otro lado, la percepción acústica no es lineal en el espectro de frecuencias de una señal de

voz (aproximadamente entre 300Hz y 3400Hz), lo anterior hace necesario utilizar una

escala adecuada que concentre los filtros donde la capacidad de discriminación del oído

humano sea mayor. Por este motivo se utiliza la escala Mel (2.7).

35

10( ) 2595 1700

fMel f Log ⎛ ⎞= ⋅ +⎜ ⎟⎝ ⎠

(2.7)

Los filtros utilizados son triángulos con ganancia unitaria para la frecuencia central,

con superposición de 50% y un ancho de banda constante en escala Mel (no así en Hz). Para

la extracción de parámetros en verificación de locutor se acostumbra a trabajar con los

coeficientes cepstrales de la señal. Con ellos se contribuye a enfatizar, incluso con ruido, la

estructura de formantes del tracto vocal. Los parámetros basados en el cepstrum se han

convertido en los más usados para las técnicas de clasificación de patrones acústicos y ya se

han transformado en un estándar dentro del campo de verificación de locutor (Forsyth,

1995). Los coeficientes cepstrales en escala Mel, MFCC (“Mel Frequency Cepstral

Coefficient”) se calculan a partir de la energía contenida en cada filtro y mediante una

transformación DCT (“Discrete Cosine Transform”). En la Figura 2.10 se puede apreciar

el proceso de extracción de características acústicas. En procesamiento de voz, se obtiene

un vector de parámetros MFCC para cada frame a analizar, es decir, una señal de voz es

caracterizada como una secuencia de vectores de observación en el dominio MFCC,

[ ]1 2, ,..., ,...,t TO O O O O= donde T es el número de frames, y Ot es el vector de observación

para el frame t.

Figura 2.10: Diagrama de bloques que describe el proceso de parametrización cepstral del frame de una señal de voz.

36

2.3.3 Verificación de locutor con HMM

Si dada una señal o elocución se considera que el frame en el instante t es representado por

un vector de parámetros espectrales [ ]( ) ( ,1),..., ( , ),... , ( , )O t O t O t n O t N= , donde N es el

número total de parámetros y ( , )O t n es el n-ésimo parámetro en el cuadro t, entonces una

elocución estará representada por una secuencia de vectores O:

[ ](1), (2), . . . , ( )O O O O T= (2.8)

donde T es la duración en frames de la señal.

La tarea de clasificación de patrones acústicos para un sistema de verificación de

locutor consiste en medir la verosimilitud entre el modelo del locutor j y la secuencia de

vectores de observación O del locutor i. La verosimilitud obtenida es comparada con un

umbral de decisión. De esta forma se decide aceptar o rechazar la afirmación de identidad

recibida del usuario.

En un sistema basado en Modelos ocultos de Markov (HMM), la medida usada para

evaluar una secuencia de observación O corresponde a la probabilidad de que esta haya

sido pronunciada por el cliente j (Sj) cuya identidad dice tener el usuario que se está

verificando, dado el modelo de referencia del cliente j (λj). Los términos O y λj son

generados a partir de la señal de entrada y las elocuciones de entrenamiento,

respectivamente. Utilizando el teorema de Bayes esta medida de probabilidad,

( )Pr ,j jS O λ , puede escribirse como:

( ) ( ) ( )( )

Pr , ·PrPr ,

Prj j j

j jO S S

S OO

λλ = (2.9)

Debido a que ( )Pr jS y ( )Pr O pueden ser considerados constantes e independientes del

locutor, el término relevante para estimar la probabilidad ( )Pr ,j jS O λ corresponde al

valor de la verosimilitud definida por ( )Pr ,j jO S λ o, simplemente, ( )Pr jO λ .

37

2.3.3.1 Modelos ocultos de Markov (HMM)

El proceso de verificación de locutor basado en modelos ocultos de Markov (HMM) asume

que cada secuencia de vectores de observación corresponde a palabras pronunciadas por

un locutor determinado. Además, cada una de ellas es generada por un modelo de Markov.

Un modelo de Markov consiste en una secuencia finita de estados conectados entre sí por

probabilidades de transición. Cada unidad temporal, que en este caso corresponde al frame,

debe evaluar la posibilidad de mantenerse en el estado actual o pasar al siguiente estado. En

un HMM cada estado e se caracteriza por una función de densidad de probabilidad de

observar un cierto frame O(t). Esta función también se denomina probabilidad de salida o

de emisión y se denota por be(O(t)). En aplicaciones relacionadas con el procesamiento de

voz, una topología comúnmente considerada es la denominada izquierda-derecha sin salto

de estados como se muestra en la Figura 2.11.

Figura 2.11: Topología izquierda derecha sin salto de estado de un HMM.

Tomando los conceptos definidos hasta este punto se tendrá que el modelo de

referencia para un locutor será λj = (A,B,π) donde: A es la matriz que contiene las

probabilidades de transición; B contiene los parámetros que definen las probabilidades de

observación; y π es el vector que corresponde a las probabilidades de que cada estado sea el

primero de la secuencia.

a12 a23 a a a a a34 45 56 67 782 3 4 5 6 7

a22 a33 a44 a55 a66 a77

o2 o3 o4 o5 o6 o7 o8 o9 o10 o11

b (o )2 2 b (o )2 3 b (o )3 4 b (o )4 5 b (o )4 6 b (o )5 7 b (o )5 8 b (o )6

a11

9 b (o )7 10 b (o )7 11

1

a88

8

Modelo de Markov

o1

b (o )1 1

o12

b (o )8 12

38

En la Figura 2.11 se puede ver el modelo HMM λj, la secuencia de vectores de

observación [ ](1), (2), . . . , (12)O O O O= , y la secuencia de estados

[ ]1, 2, 2,3, 4, 4,5,5,6,7,7,8E = .

La probabilidad conjunta de que el vector de observación O sea generado por el

modelo λj de la identidad afirmada a lo largo de la secuencia E es calculada como el

producto entre las probabilidades de transición y las probabilidades de observación. Así,

para la secuencia E se tendrá:

( ) ( ) ( ) ( ) ( )1 12 2 22 2 23 3Pr , (1) · · (2) · · (3) · · (4) . . .jO E b O a b O a b O a b Oλ = (2.10)

En un sistema real de verificación de locutor, sólo se conocerá la secuencia de

observación O=[O(1),O(2),..,O(T)] siendo que la correspondiente secuencia de estados E

estará oculta. Este es el motivo por el cual estos modelos se denominan “modelos ocultos

de Markov”. De esta forma, dado que E es desconocido, la verosimilitud requerida es

computada mediante la sumatoria de todas las posibles secuencias de estados

e=[e(1),e(2),..,e(T)] donde e(t) puede ser cualquier estado del modelo. De esta forma la

expresión para la verosimilitud se define como:

( ) ( )( ) ( 1) ( )todas las secuencias 1

Pr ( ) ·T

j e t e t e te t

O b O t aλ −=

⎡ ⎤= ⎢ ⎥

⎢ ⎥⎣ ⎦∑ ∏ (2.11)

donde e(1) =1 corresponde al estado inicial del HMM. La estimación de ( )Pr jO λ de

acuerdo a (2.11) requiere de una excesiva carga computacional lo que la hace

impracticable. Una solución es aproximar ( )Pr jO λ con ( )Pr , jO e λ donde e es la

secuencia de estado óptima que maximiza ( )Pr , jO e λ :

( ) ( ) ( )( ) ( 1) ( )1

Pr Pr , max ( ) ·T

j j e t e t e te t

O O e b O t aλ λ −=

⎧ ⎫⎪ ⎪≅ = ⎨ ⎬⎪ ⎪⎩ ⎭∏ (2.12)

39

No existe una solución analítica para (2.12). Sin embargo, se ha diseñado un algoritmo

recursivo que permite calcular una solución de manera eficiente. Este procedimientos

corresponde al algoritmo de Viterbi (Jelinek, 1997), el cual permite determinar la secuencia

de estados óptima y la verosimilitud asociada a esta.

2.3.3.2 La probabilidad de observación

Los valores de los parámetros de cada vector de observación O(t), se asumen como

continuos. Así la probabilidad de observación se puede modelar como una función de

densidad de probabilidad multivariable. En general esta función de densidad de

probabilidad estará constituida por una combinación lineal de Gaussianas:

( ) ( ), , ,1

( ) , ; ( ) ,1G

e e g e g e gg

b O t C O t e Nμ=

= ⋅ℵ Σ ≤ ≤∑ (2.13)

donde N corresponde al número total de estados que compone al HMM, G es el número

total de Gaussianas por cada estado e y Ce,g es la ponderación de cada Gaussiana la que

debe cumplir las siguientes condiciones:

,1

,

=1 , [1... ]

0 , [1... ] [1... ]

G

e gg

e g

C e N

C e N g G=

=

≥ = ∧ =

∑ (2.14)

La expresión ( ),μℵ Σ representa una función de distribución de probabilidad (f.d.p.)

Gaussiana multivariable con vector de medias μ de dimensión n y matriz de covarianza Σ

de dimensión n n× :

( ) ( ) ( )11 1, ; ( ) ·exp ( ) ( )2(2 ) ·

Tn

O t O t O tμ μ μπ

−⎛ ⎞ℵ Σ = − − Σ −⎜ ⎟⎝ ⎠Σ

(2.15)

40

2.3.4 El algoritmo de Viterbi

En la sección 2.3.3 se muestra que la verosimilitud ( )Pr , jO e λ , es decir, la probabilidad

conjunta de que el vector de observación O haya sido generado por el modelo λj a través de

la secuencia de estados e, es calculada como el producto entre las probabilidades de

transición y la probabilidad de observación en e. Ya que la secuencia de estados e no es

conocida se puede estimar aquella que es más probable, tal como se muestra en la ecuación

(2.12). Para encontrar esta secuencia de estados óptima se utiliza el algoritmo de

decodificación de Viterbi. La Figura 2.12 muestra la gráfica que genera el algoritmo de

Viterbi operando sobre un modelo HMM de 8 estados con topología izquierda - derecha y

sin salto de estado.

Figura 2.12: Representación gráfica del algoritmo de Viterbi.

El algoritmo de Viterbi puede visualizarse como una solución para encontrar el

camino óptimo a través de una malla, la cual tiene en el eje vertical la secuencia de estados

del modelo HMM y en el eje horizontal la secuencia de vectores de observación O de la

señal de voz parametrizada. Cada punto de la malla en la Figura 2.12 representa la

Estado

1 2 3 5 6 7 8 9 104 Frame

a

a

ii

ij

j tb (o )

41

probabilidad de observar al frame en el instante correspondiente y cada arco entre dos

puntos corresponde a la probabilidad de transición. Si (1), (2), . . . , ( )e e e e T⎡ ⎤= ⎣ ⎦ es la

secuencia óptima de estados obtenida para la secuencia de vectores de observación

[ ](1), (2), . . . , ( )O O O O T= , y además se considera δy(τ) como la probabilidad máxima

calculada a lo largo de un camino trazado hasta el tiempo τ y finalizado en el estado y. Se

tiene que:

[ ]( )( ) Pr (1), (2),. . ., ( ) , (1), (2), . . . , ( )y ce e e y O O Oδ τ τ τ λ= = (2.16)

La probabilidad δy(τ) es máxima en función de las posibles secuencias de estados

desde t = 1 hasta t = τ. Luego, la verosimilitud para el instante 1t τ= + y estado e se

calcula usando los valores que se obtienen de la siguiente ecuación:

( ) ( ){ } ( )( )1 max · · 1y y ye ey

a b Oδ τ δ τ τ+ = + (2.17)

Para recuperar la secuencia de estados, es necesario guardar el camino que maximiza (2.17)

para cada τ y j. Para esto se define la matriz Ψj(t) en la cual se almacenan los máximos que

definen el camino óptimo.

2.3.4.1 Normalización de la verosimilitud

En un sistema de verificación de locutor las decisiones son tomadas calculando la

verosimilitud de la elocución de verificación con respecto al modelo HMM de la identidad

que un locutor afirma. En el caso de un sistema de verificación de locutor texto

dependiente, en el cálculo del valor de verosimilitud también se considera la información

lingüística de la señal de testeo. De esta forma, el valor de la verosimilitud deseada

presentará una fuerte dependencia de la variabilidad natural del locutor, por lo que un

umbral de decisión estándar es difícil de fijar. Una forma de enfrentar el problema de la

variación del umbral de decisión es aplicar una normalización de la verosimilitud (Furui,

1997; Bimbot, et al., 2004; Matsui & Furui, 1993; Higgins, et al., 1991). Esta

42

normalización puede mostrar mejoras significativas en el desempeño del sistema, y se

aplica evaluando la relación entre las verosimilitudes de la elocución de test con respecto al

HMM de referencia del usuario a verificar y con respecto a un HMM global:

( ) ( )( )

Pr |Pr

SD

SI

OL O

Oλ

λ= (2.18)

donde SDλ y SIλ son los modelos speaker dependent (SD) y speaker independent (SI),

respectivamente. La estimación de la verosimilitud normalizada se realiza en el dominio

logarítmico:

( ) ( ) ( ) ( )Pr PrSD SILL O Log L O Log O Log Oλ λ⎡ ⎤ ⎡ ⎤= = −⎡ ⎤⎣ ⎦ ⎣ ⎦ ⎣ ⎦ (2.19)

donde el término ( )LL O se denomina verosimilitud logarítmica (loglikelihood)

normalizada.

La probabilidad que la secuencia de vectores de observación O corresponda al

modelo de referencia del locutor ( )Pr SDO λ se calcula estimando la verosimilitud de O en

el modelo SD. Por su parte la probabilidad ( )Pr SIO λ , denominada término normalizador,

corresponde a la verosimilitud calculada con respecto a un modelo general de impostores o

modelo SI. Este modelo, se entrena idealmente con elocuciones pertenecientes a un gran

cantidad usuarios que no se encuentren registrados en el sistema. Para independizar el

cálculo de ( )LL O de la duración de las señales de voz, se divide el resultado por el número

total de frames total de la señal de voz, T:

( ) ( )LL OLL O

T′ = (2.20)

El uso de normalización de la verosimilitud ha demostrado una reducción

significativa del error provocado por la presencia de ruido convolucional al usar distintos

43

tipos de micrófono. Existen variadas formas adicionales de aplicar una normalización a la

verosimilitud o score de una elocución de verificación. Cada una de estas ha sido diseñada

con algún objetivo en particular (eliminar dependencia al locutor, compensación de

mismatch de canal, etc.).

2.3.4.2 Verificación de locutor basado en MVR-FV (majority voting rule for sequences

of feature vectors)

A partir de los scores obtenidos en la normalización de la verosimilud descrito en la sub-

sección anterior, es posible generar diferentes esquemas de clasificación para una señal de

verificación. En el procedimiento descrito en la sección 2.3.4.1 se utiliza el score de todos

los frames de una señal para estimar un score promedio, definido en (2.20), y tomar una

decisión en base a éste. Por otro lado, en el caso de MVR-FV definido en (Radova &

Padrta, 2004), se obtiene un conjunto de decisiones locales obtenidas a partir de un set de

ventanas de frames. Cada ventana contiene más de un frame y menos del total de frames

que componen la señal entera, O.

Considere que la señal de entrada O está compuesta de T frames. Esta señal es

dividida en R ventanas de K-frames, donde K es el número de frames por cada ventana.

Considere la ventana vr que comienza en el frame r KO ⋅ y termina en el frame ( )1 1r KO + ⋅ − . El

logaritmo de la verosimilitud normalizada definida en (2.19) para la rth ventana, vr, es:

( )( )1 11log ( )r K

r kk r K

L v Log L OK

+ ⋅ −

= ⋅⎡ ⎤= ⎣ ⎦∑ (2.21)

La decisión local por cada ventana vr es estimada de acuerdo a (Radova & Padrta, 2004):

1 si log ( )

( )1 si log ( )

rr

r

L v ThD v

L v Th>⎧

= ⎨− ≤⎩ (2.22)

donde Th es un umbral que se estima previamente con una base de entrenamiento. Así, el

score final por cada señal de entrada se estima como:

44

1

1( ) ( )R

rr

S O D vR =

= ⋅∑ (2.23)

Es importante destacar que, como se observa fácilmente, el método descrito en esta

sección agrega un costo computacional muy bajo a la clasificación mediante la

normalización de los store. Por lo tanto, es totalmente factible que estos dos esquemas de

clasificación se encuentren implementados juntos en aplicaciones reales de verificación de

locutor.

2.3.5 Support Vector Machines en verificación de locutor

Support Vector Machines (SVM) es un clasificador que discrimina entre dos clases, en el

cual se determina el máximo margen entre ellas. SVM realiza la clasificación mediante la

proyección de los vectores de entrada a un espacio de dimensión más alta, en la que las dos

clases se separan mediante un hiperplano. Éste hiperplano de separación divide el espacio

de entrada en dos regiones. Cada una de estas regiones corresponderá a una de las clases

definidas. Su funcionamiento se basa inicialmente en la transición del problema original a

uno de mayor dimensión utilizando generalmente una transformación con funciones no

lineales. La naturaleza discriminativa de SVM es particularmente adecuada para un sistema

de verificación de locutor donde cada locutor se distingue de los demás.

SVM ha demostrado un gran potencial en tareas de clasificación principalmente por

su buena capacidad de generalización. Una descripción detallada de SVM se puede

encontrar en (Vapnik, 1998; Burges, 1998). SVM en un su forma básica es un clasificador

binario, construido por una suma de funciones kernel ( , )k ⋅ ⋅ (Burges, 1998; Campbell, et

al., 2004):

1

( ) ( , )N

i i i ii

f x t K x x bγ=

= ⋅ ⋅ +∑ (2.24)

donde ti son los objetivos, γi es el multiplicador de Lagrange, 1

0N

i ii

tγ=

⋅ =∑ , y xi son los

vectores de soporte obtenidos del conjunto de entrenamiento. Los valores objetivos son 1 o

−1 dependiendo si es la clase cliente o impostor (Wan & Campbell, 2000), en el caso de

45

verificación de locutor, respectivamente. Para clasificación, se decide si el score otorgado

por f(x) es mayor a un umbral.

2.3.6 Otros clasificadores encontrados en la literatura

Un clasificador ampliamente utilizado en verificación de locutor texto-independiente es

GMM (Gaussian Mixture Model) (Xiang & Berger, 2003; Bimbot, et al., 2004; Radova &

Padrta, 2004; Kim, et al., 2008). La ventaje de utilizar GMM radica en su bajo costo

computacional. Además, es insensible a aspectos temporales de la voz tal como la

secuencia de palabras pronunciadas, modelando solamente las distribuciones de la señal

acústica. Esta última característica se puede asumir también como una desventaja, debido a

que no se considera información que puede ser muy útil tal como la secuencia de fonemas.

En (Yegnanarayana, et al., 2005; Finan, et al., 1997; Paoloni, et al., 1996; Ig-Tae,

et al., 2000) se presentan trabajos utilizando como clasificador sistemas de redes

neuronales. Sin embargo, pese a la popularidad de este tipo de clasificadores en el área de

reconocimiento de patrones, en el campo de biometría por voz no son muy utilizados

debido principalmente a que su desempeño es menor comparado con SVM, GMM y VBS.

Actualmente es posible encontrar en la literatura una variedad de métodos de

clasificación que se han utilizado en verificación de locutor. Se han propuesto

clasificadores basados en PCA (Principal component analysis) y KDF (Kernel Fisher

Discriminant). En (Aronowitz, 2007) se utiliza PCA obteniendo mejores resultados que un

clasificador GMM básico. En (Ming, et al., 2008) en se propone un método jerárquico para

verificación locutor basado en PCA y KDF. Un esquema de clasificación basado en lógica

difusa llamado FVQ (Fuzzy Vector Quantization) es presentrado en (Jayanna & Prasanna,

2008) para mejorar el desempeño de un sistema de verificación de locutor en condiciones

de baja disponibilidad de datos.

2.3.7 Limitaciones en la tecnología de verificación de locutor

La operación de un sistema de verificación de locutor en condiciones reales (ambiente no

controlado) implica una serie de inconvenientes. El trabajar en ambientes ruidosos y poco

predecibles genera grandes dificultades al momento de modelar y compensar el ruido. Si el

46

sistema de verificación de locutor es evaluado en un conjunto de señales de test y grabadas

en un ambiente con características distintas a las que presentó en la etapa de entrenamiento,

el conjunto de test no estará representado en forma óptima por el modelo entrenado. Esta es

una de las principales causas de error en las aplicaciones reales de verificación de locutor

(Openshaw, et al., 1993).

Además, al operar una aplicación de verificación de locutor en un sistema

telefónico, se deben tener en cuenta peculiaridades asociadas a esta plataforma de

comunicación. En este caso, se agregan dificultades adicionales a la tarea de verificación de

locutor, algunos de estos problemas son: distorsiones producto del canal de transmisión,

condiciones del entorno en que se realiza la llamada, distorsiones provocadas por el handset

(micrófono-auricular) del aparato telefónico usado, y problemas asociados a variabilidad

intra-locutor. El concepto de variabilidad intra-locutor se refiere a las variaciones que sufre

la voz de una misma persona debido a factores dependientes del locutor, fenómenos propios

del habla, u otras causas independientes del locutor en cuestión.

Como se ha mencionado con anterioridad, un sistema de verificación de locutor

requiere que los clientes del sistema estén registrados, por esto cada locutor que desee

ingresar al sistema debe realizar sesiones de entrenamiento. Factores como el número de

sesiones, la cantidad de información que se registra en cada sesión y la separación de

tiempo que existe entre cada sesión de entrenamiento tienen una importante influencia en el

desempeño del sistema de verificación de locutor. Ya con un sistema entrenado con un

mayor número de elocuciones del cliente se podría, en principio, crear un modelo del habla

mucho más representativo y robusto.

La cantidad de sesiones de entrenamiento que deban realizarse para una

determinada aplicación práctica estarán determinadas por el nivel de seguridad que esta

requiera. Es así como un sistema de alta seguridad deberá requerir de una cantidad de

tiempo y recursos importantes en entrenamiento. Por otro lado, el hecho de trabajar en

sistemas telefónicos implica una disponibilidad limitada del tiempo de captura de

información de voz, tanto para test como enrolamiento, ya que un servicio ofrecido en una

plataforma telefónica debe garantizar un dialogo natural, fluido y sin largas esperas.

Finalmente, uno de los mayores desafíos dentro de las aplicaciones de

reconocimiento de locutor ha sido enfrentar los problemas de variabilidad de canal.

Usualmente una persona se enrolará con su voz haciendo uso de un micrófono o handset

47

telefónico y es probable que se verifique haciendo uso de otro micrófono. Dado que los

diferentes tipos de micrófonos tendrán diferentes respuestas en frecuencia, los parámetros

que se extraigan en sesiones de enrolamiento y verificación serán diferentes, lo que

producirá una degradación en el desempeño del sistema.

2.3.8 Arquitectura Cliente servidor

La tecnología de verificación de locutor utilizada en esta tesis opera en un ambiente

telefónico y fue implementada en el Laboratorio de Procesamiento y Transmisión de Voz

(LPTV) de la Universidad de Chile. El sistema del LPTV está basado en una arquitectura

cliente-servidor. Lo anterior permite que la plataforma sea mas flexible puesto que el

servidor de verificación (hardware donde se ejecuta el clasificador) puede ser una maquina

dedicada a este proceso y distinta de la empleada en la plataforma IVR (interactive voice

response) que recibe y gestiona las llamadas de entrada.

En la Figura 2.13 se muestra un esquema de la arquitectura cliente servidor en la

que se basa el sistema de verificación de locutor. La aplicación cliente se encarga de

comunicarse con el servidor de verificación, y este última realiza el procesamiento acústico

de las señales y la clasificación, devolviendo al cliente la decisión de aceptado o rechazado

según corresponda.

Figura 2.13: Diagrama arquitectura cliente-servidor.

En la Figura 2.14 se presenta un esquema de la plataforma del sistema de grabación

de datos y de la demo de verificación de locutor implementada en el LPTV. Como se

puede observar de la Figura 2.14 el sistema de verificación de locutor se conecta a la red

48

PSTN mediante un ATA (analog telephone adapter). Este dispositivo actúa como gateway

IP permitiendo a un teléfono o línea telefónica tradicional conectarse a dispositivos VoIP.

La arquitectura cliente-servidor permite que el servidor IVR y el servidor de verificación se

ejecuten independientemente en dos PC’s diferentes. Un computador se utiliza como

servidor de verificación de locutor y el otro para la plataforma telefónica IVR donde se

implementa el dialogo telefónico. Como se mencionó anteriormente, esta plataforma

telefónica se desarrolló en el software libre Asterisk.

PSTN

LAN

INTERNET

Servidor IVR(Asterisk)

Servidor verificación de locutor

Teléfono IP

Teléfono móvil

Teléfono fijo

Adaptador TelefoníaAnalógica

Figura 2.14: Esquema de la demo de verificación de locutor en el LPTV.

Asterisk es una plataforma híbrida TDM (time division multiplexing) que admite

voz paquetizada y un IVR con funcionalidad ACD (Automatic Call Distributor). Además,

viene con aplicaciones integradas en el software tales como conferencia, correo de voz,

llamada en espera, etc. Asterisk puede incluir protocolos de VoIP tales como SIP, MGCP,

H.323, IAX, así como también tecnologías TDM más tradicionales tales como T1, ISDN

PRI, servicios análogos POTS (Plain Old Telephony Services) y PSTN (Public Switched

Telephone Network), BRI (Basic Rate ISDN), etc. La Figura 2.15 presenta un esquema de

la arquitectura de Asterix. Finalmente, para realizar pruebas remotas o desde el mismo

laboratorio se puede utilizar líneas telefónicas PSTN o teléfonos celulares.

49

CodecTrans lator

API

Mu-Law LinearG.729 A-Law

GSMADPCM Speex

As teris kFile

FormatAPI

GSMs f .wavG.729 G.711

H.263

As teris k Channel APIIAX SIP H.323 MGCP Cus tom Hardware

ISDN Cis co Skinny UniSTM T1

As teris k Gateway Inte rface (AGI) As te ris k Manage ment Interface (AMI)

Paging Dialing Direc tory Voic emailCalling Card Co nferenc ing Cus tom Applicatio ns

As teris k Application API

CodecTrans lator

CDR Core

ApplicationLauncher

PBXSwitching

Core

Schedulerand I/O

Manager

DynamicModuleLoader

Figura 2.15: Esquema de la arquitectura de Asterisk3.

2.4 Medida de confiabilidad basada en bayes (BBCM, Bayes Based Confidence

Measure)

En (Yoma, et al., 2005) se propone una medida de confiabilidad basado en la teoría de

Bayes para un reconocedor automático de voz (ASR, automatic speaker recognition). Un

sistema ASR recibe una señal de entrada y entrega un cadena de palabras

( 1 2 I, ,..., ,..., iw w w w ), donde wi es la i-ésima palabra de la cadena. Si WF es alguna

característica dada de cada palabra, que puede ser log-likelihood o Word density confidence

measure, etc. (Hazen, et al., 2000; Andorno, 2002; Kwan, et al., 2002; Lee & Huo, 2000;

Stolcke, et al., 1997). BBCM es definida para un sistema ASR como (Yoma, et al., 2005):

3 Fuente: http://www.berklix.com/

50

( | is OK) ( is OK)( ) ( is OK| )( )

i i ii i i

i

Pr WF w Pr wBBCM WF Pr w WFPr WF

⋅= = (2.25)

El evento “OK” corresponde al hecho que la palabra wi fue debidamente reconocida, es

decir, está en la trascripción de la señal de prueba. Note que BBCM(WFi) es una

probabilidad en si misma. Además, la distribución Pr(WFi | wi is OK) y la probabilidad

Pr(wi is OK) proveen información adicional sobre le desempeño del reconocedor.

2.5 Aporte de la tesis

Los aportes de esta tesis se enmarcan en la propuesta de nuevas técnicas para combinar

clasificadores evaluadas en el caso particular de verificación de locutor. No obstante todos

los aportes son, en principio, generalizables a cualquier problema de reconocimiento de

patrones. Los métodos de fusión que se proponen en este trabajo corresponden a: una nueva

metodología basada en confiabilidad en el marco de la combinación clásica de Bayes; un

nuevo paradigma de optimización para clasificación basado en confiabilidad; y la

combinación de clasificadores sin el uso de información a priori utilizando únicamente la

señal de test. Todos estos aportes representan un avance al estado-del-arte en el problema

de optimización de fusión de clasificadores reduciendo las limitaciones teóricas y prácticas

de los métodos publicados anteriormente.

51

Capítulo 3

Optimización off-line de fusión de clasificadores

basada en medida de confiabilidad

3.1 Introducción

En este capítulo, se propone una nueva técnica para fusionar sistemas de múltiples

clasificadores utilizando una medida de confiabilidad basada en Bayes (BBCM). El método

de fusión es del tipo off-line, es decir, la optimización de los parámetros necesarios para la

fusión se realiza con una base de datos a priori. Como se mostrará aquí, la combinación de

un esquema MCS con BBCM corresponde a la combinación clásica de Bayes (sección

2.3.1) ponderada por la confiabilidad de cada clasificador. Por otro lado, se demuestra que

BBCM provee un modelo formal a funciones de pesos estimada de forma heurísticas por

otros autores. Cabe destacar que el método propuesto es un cambio de paradigma con

respecto a la tradicional combinación bayesiana, puesto que en vez de maximizar la

probabilidad a posteriori, se propone maximizar la confiabilidad a posteriori del sistema de

Múlti-clasificación. Para validar ésta técnica, la fusión de MCS con BBCM es testeada y

comparada con la clásica combinación de Bayes en un sistema de verificación de locutor.

Sin embargo, hay que resaltar, el método propuesto es aplicable a cualquier problema de

reconocimiento de patrones e independiente del número de clases. El esquema MCS

utilizado consta de tres técnicas estándares de clasificación en verificación de locutor (ver

seccion 2.3.3): Viterbi based score (VBS); Majority Voting Rule for sequence of feature

vectors, (MVR-FV); y Support Vector Machines, (SVM). Finalmente, los resultados

presentados en este capítulo muestran que, comparado con el mejor clasificador y la

combinación Bayesiana, la fusión utilizando BBCM logra reducciones tan altas como un

53% y 37% en EER; y, en el área bajo la curva ROC un 68% y 35%, respectivamente.

52

3.2 Clasificación de Bayes aplicada a Verificación de locutor

En verificación de locutor, la tarea es decidir si la persona que declara una cierta identidad

es o no quien dice ser. Así, dos clases son posibles: cliente, C1; e impostor, C2. En el

proceso de enrolamiento, cada usuario pronuncia una cierta cantidad de señales que serán

empleadas para generar el modelo speaker dependent (SD). En verificación, la señal de voz

de un usuario es comparada con el modelo SD. En un sistema HMM, la señal es comparada

además con un modelo impostor (Furui, 1997). Este modelo impostor se denomina speaker

independent (SI) debido a que usualmente es entrenado con una amplia variedad de

usuarios. En un sistema MCS de verificación de locutor, a partir de la señal de entrada, en

cada clasificador CLj se obtiene un score ( )jCLS O , 1( ) |

jCLPr S O C⎡ ⎤⎣ ⎦ y 2( ) |

jCLPr S O C⎡ ⎤⎣ ⎦ .

Consecuentemente, el conjunto de clasificadores provee un set de scores ( )S O ,

[ ]1( ) |Pr S O C y [ ]2( ) |Pr S O C . Si las probabilidades a priori de cliente e impostor se

asumen uniformemente distribuidas, reemplazando 1 2( ) ( ) 0.5Pr C Pr C= = en (2.1), la

decisión final de verificación, ( )D O , dado un set de scores ( )S O de acuerdo al teorema de

Bayes se puede escribir como:

[ ]{ } [ ]

[ ]1

( ) |( ) arg max | ( ) arg max

( ) |

mm M

m mm

m


Pr S O C=

⎧ ⎫⎪ ⎪⎪ ⎪= = ⎨ ⎬⎪ ⎪⎪ ⎪⎩ ⎭∑

(3.1)

donde M=2, y m=1 (cliente) o m=2 (impostor). Como se ha mencionado antes,

[ ]( ) | mPr S O C requiere una gran cantidad de datos y la expresión de la fusión bayesiana de

(3.1) puede ser aproximada mediante (ver sección 2.3.1): Product Rule, Mean Rule y

Majority Vote Rule, entre otras.

53

3.3 Bayes Based Confidence Measure (BBCM) en Verificación de Locutor (SV)

Como se ha mencionado antes, en verificación de locutor hay dos clases: cliente, C1; e

impostor, C2. Por otro lado, las características utilizadas en ASR pueden ser reemplazadas

por los scores de salida de cada clasificador. Como consecuencia, aplicando la definición

de BBCM (subsección 2.4) a verificación de locutor se obtiene que:

( ) is OK| ( )

( ) | is OK ( is OK)

( )

j j j

j j j

j

CL CL CL

CL CL CL

CL

BBCM S O Pr d S O

Pr S O d Pr d

Pr S O

⎡ ⎤ ⎡ ⎤=⎣ ⎦ ⎣ ⎦⎡ ⎤ ⋅⎣ ⎦=

⎡ ⎤⎣ ⎦

(3.2)

donde “ is OKjCLd ” corresponde a la decisión del clasificador CLj, cliente (C1) o impostor

(C2) in SV, sea correcta. Por lo tanto, (3.2) se puede expresar como:

{ }1 1 2 2

( ) is OK| ( )

( ) ( ) | ( )

j j j

j j j

CL CL CL

CL CL CL

BBCM S O Pr d S O

Pr O C d O C O C d O C S O

⎡ ⎤ ⎡ ⎤=⎣ ⎦ ⎣ ⎦

⎡ ⎤ ⎡ ⎤= ∈ ∧ = ∨ ∈ ∧ =⎣ ⎦ ⎣ ⎦

(3.3)

donde O ∈ Cm es la señal de entrada O que pertenece a la clase Cm. Es factible considerar

que:

{ }1 1 2 2( ) ( ) | ( ) 0j j jCL CL CLPr O C d O C O C d O C S O⎡ ⎤ ⎡ ⎤∈ ∧ = ∧ ∈ ∧ = =⎣ ⎦ ⎣ ⎦

Esto significa que el clasificador escoge solamente una clase. Consecuentemente,

( ) is OK| ( )j j jCL CL CLBBCM S O Pr d S O⎡ ⎤ ⎡ ⎤=⎣ ⎦ ⎣ ⎦ en (3.3) se escribe como:

1 1 2 2

is OK| ( )

( ) | ( ) ( ) | ( )

j j

j j j j

CL CL

CL CL CL CL

Pr d S O

Pr O C d O C S O Pr O C d O C S O

⎡ ⎤ =⎣ ⎦⎡ ⎤ ⎡ ⎤∈ ∧ = + ∈ ∧ =⎣ ⎦ ⎣ ⎦

(3.4)

54

La generalización de este resultado es directa y la extensión de (3.4) a un problema de M-

clases se escribe como:

1

( ) is OK| ( )

( ) | ( )

j j j

j j

CL CL CL

M

m CL m CLm

BBCM S O Pr d S O

Pr O C d O C S O=

⎡ ⎤ ⎡ ⎤=⎣ ⎦ ⎣ ⎦

⎡ ⎤= ∈ ∧ =⎣ ⎦∑ (3.5)

Utilizando el teorema de Bayes, ( ) | ( )j jm CL m CLPr O C d O C S O⎡ ⎤∈ ∧ =⎣ ⎦ se obtiene:

( ) | ( )

( ) | ( ) ( )

( )

j j

j j j

j

m CL m CL

CL m CL m m CL m

CL

Pr O C d O C S O

Pr S O O C d O C Pr O C d O C

Pr S O

⎡ ⎤∈ ∧ = =⎣ ⎦⎡ ⎤ ⎡ ⎤∈ ∧ = ⋅ ∈ ∧ =⎣ ⎦ ⎣ ⎦

⎡ ⎤⎣ ⎦

(3.6)

donde ( )jCLPr S O⎡ ⎤

⎣ ⎦ corresponde a:

1

( ) ( ) | ( )j j

M

CL CL m mm

Pr S O Pr S O C P C=

⎡ ⎤ ⎡ ⎤= ⋅⎣ ⎦ ⎣ ⎦∑ (3.7)

y 1

( ) 1M

mm

P C=

=∑ . Finalmente, ( )jCLBBCM S O⎡ ⎤

⎣ ⎦ en (3.5) se puede expresar como una

función de f.d.p a priori:

1

1

( )

( ) | ( ) ( )

( ) | ( )

j

j j j

j

CL

M CL m CL m m CL mM

mCL m m

m

BBCM S O

Pr S O O C d O C Pr O C d O C

Pr S O C Pr C=

=

⎡ ⎤ =⎣ ⎦⎡ ⎤ ⎡ ⎤∈ ∧ = ⋅ ∈ ∧ =⎣ ⎦ ⎣ ⎦

⎡ ⎤⎣ ⎦

∑∑

(3.8)

55

Observe que (3.8) se puede aplicar a cualquier problema de clasificación e

independiente del numero de clases M. Finalmente, ( ) | ( )j jm CL m CLPr O C d O C S O⎡ ⎤∈ ∧ =⎣ ⎦

en (3.6) sugiere la siguiente definición:

( ) ( ) | ( )j j jCL m m CL m CLBBCM S O C Pr O C d O C S O⎡ ⎤ ⎡ ⎤∧ = ∈ ∧ =⎣ ⎦ ⎣ ⎦ (3.9)

donde ( ) jCL mBBCM S O C⎡ ⎤∧⎣ ⎦ es la probabilidad de que ( )

jCLd O sea OK e igual a mC

dado un score ( )jCLS O . Así, ( )

jCLBBCM S O⎡ ⎤⎣ ⎦ en (3.5) se puede escribir como:

1

1

( ) ( ) | ( )

( )

j j j

j

M

CL m CL m CLmM

CL mm

BBCM S O Pr O C d O C S O

BBCM S O C

=

=

⎡ ⎤ ⎡ ⎤= ∈ ∧ =⎣ ⎦ ⎣ ⎦

⎡ ⎤= ∧⎣ ⎦

∑

∑ (3.10)

3.4 Fusión de clasificadores con BBCM en SV

Como se ha mencionado antes en la sección 2.3, el esquema mas simple para combinar

clasificadores es la fusión Bayesiana. La combinación de Bayes propone que la clase

reconocida es aquella que maximiza la probabilidad a posteriori dado la señal observada.

En esta sub-sección, se sugiere que la BBCM definida en (3.10) puede ser empleada como

el criterio de clasificación que necesita ser maximizado para minimizar el error de

clasificación. Lo anterior presenta un cambio de paradigma en reconocimiento de patrones,

puesto que para optimizar la clasificación se propone maximizar la confiabilidad en vez de

la probabilidad a posteriori.

56

3.4.1 BBCM como criterio de clasificación

De acuerdo a (3.9), ( )

jCL mBBCM S O C⎡ ⎤∧⎣ ⎦ se puede escribir como:

( ) ( ) | ( )

= | ( ) ( ) | ( ),

j j j

j j j

CL m m CL m CL

m CL CL m CL m

BBCM S O C Pr O C d O C S O

Pr O C S O Pr d O C S O O C

⎡ ⎤ ⎡ ⎤∧ = ∈ ∧ =⎣ ⎦ ⎣ ⎦⎡ ⎤ ⎡ ⎤∈ ⋅ = ∈⎣ ⎦ ⎣ ⎦

(3.11)

donde | ( ) | ( )j jm CL m CLPr O C S O Pr C S O⎡ ⎤ ⎡ ⎤∈ =⎣ ⎦ ⎣ ⎦ es la probabilidad a priori que aparece en

la maximización de la combinación de Bayes en (2.2) y (2.3); y,

( ) | ( ),j jCL m CL mPr d O C S O O C⎡ ⎤= ∈⎣ ⎦ corresponde a la información adicional que BBCM

incorpora y esta relacionada con el desempeño de un clasificador individual dadas una

entrada y una clase seleccionada. Como consecuencia, es razonable seleccionar la clase que

maximice ( )jCL mBBCM S O C⎡ ⎤∧⎣ ⎦ :

{ }{ }

arg max ( )

arg max | ( ) ( ) | ( ),

j j

j j j

CL CL mm

m CL CL m CL mm

d BBCM S O C

Pr O C S O Pr d O C S O O C

⎡ ⎤= ∧⎣ ⎦

⎡ ⎤ ⎡ ⎤= ∈ ⋅ = ∈⎣ ⎦ ⎣ ⎦

(3.12)

Observe que (3.12) maximiza una medida de confiabilidad en vez de la convencional

probabilidad a posteriori | ( )jm CLPr C S O⎡ ⎤

⎣ ⎦ . Sin embargo, la medida de confiabilidad

empleada aquí es una probabilidad y también incorpora | ( )jm CLPr C S O⎡ ⎤

⎣ ⎦ , más la

información del desempeño del clasificador. Finalmente, el resultado mostrado en (3.12)

puede ser aplicado a cualquier problema de clasificación independiente del numero de

clases.

57

3.4.2 Fusión con BBCM

Como se puede observar en la Figura 2.5, la fusión de MCS a nivel de score utiliza los

scores de salida de un conjunto de clasificadores, ( )S O , para entregar una decisión final o

clasificación ( )D O . Así, [ ]( )BBCM S O se puede definir como:

[ ] [ ]( ) ( ) is OK| ( )BBCM S O Pr D O S O= (3.13)

Utilizando el mismo análisis en (3.2)-(3.4) se puede mostrar fácilmente que la

definición de (3.13) resulta aplicable a un problema de clasificación de M-clases:

1

[ ( )] Pr[ ( ) | ( )]M

m mm

BBCM S O O C D O C S O=

= ∈ ∧ =∑ (3.14)

Aplicando el teorema de Bayes, Pr[ ( ) | ( )]m mO C D O C S O∈ ∧ = en (3.14) se puede

escribir como:

[ ] [ ]

[ ]1

Pr[ ( ) | ( )]( ) | ( ) ( )

( ) | ( )

m m

m m m mM

m mm

O C D O C S OPr S O O C D O C Pr O C D O C

Pr S O C Pr C=

∈ ∧ = =

∈ ∧ = ⋅ ∈ ∧ =

⋅∑ (3.15)

Así como en (3.9), observe que Pr[ ( ) | ( )]m mO C D O C S O∈ ∧ = en (3.14) sugiere la

siguiente definición:

[ ] [ ]( ) ( ) | ( )m m mBBCM S O C Pr O C D O C S O∧ = ∈ ∧ = (3.16)

donde [ ]( ) mBBCM S O C∧ es la probabilidad de que ( )D O sea correcta e igual a mC dado

un set de scores ( )S O . Consecuentemente, [ ]( )BBCM S O en (3.14) se puede re-escribir:

58

[ ] [ ]1

( ) ( ) M

mm

BBCM S O BBCM S O C=

= ∧∑ (3.17)

La generalización de (3.11) en la subsección 3.4.1, [ ]( ) mBBCM S O C∧ se puede expresar

como:

[ ] [ ]

[ ] [ ]( ) ( ) | ( )

= | ( ) ( ) | ( ),m m m

m m m

BBCM S O C Pr O C D O C S O

Pr O C S O Pr D O C S O O C

∧ = ∈ ∧ =

∈ ⋅ = ∈ (3.18)

El mismo análisis presentado en la subsección 2.3.1 es aplicable a (3.18):

[ ] [ ]| ( ) | ( )m mPr O C S O Pr C S O∈ = es la probabilidad a posteriori que aparece en la

maximización según el criterio de Bayes representado en (3.1)para combinar clasificadores;

y [ ]( ) | ( ),m mPr D O C S O O C= ∈ corresponde a la información adicional incorporada por

BBCM y esta relacionada al desempeño de MCS a nivel de score dado una entrada y una

clase seleccionada. Como consecuencia, parece razonable clasificar seleccionando la clase

que maximiza [ ]( ) mBBCM S O C∧ :

( ) [ ]{ }

[ ] [ ]{ }

arg max ( )

arg max | ( ) ( ) | ( ),

mm

m m mm

D O BBCM S O C

Pr O C S O Pr D O C S O O C

= ∧

= ∈ ⋅ = ∈ (3.19)

Como se mencionó antes, la clasificación de MCS a nivel de score según (3.19)

maximiza una medida de confiabilidad en vez de la convencional probabilidad a posteriori

| ( )jm CLPr C S O⎡ ⎤

⎣ ⎦ , y es aplicable a cualquier problema de clasificación independiente del

número de clases. En (3.15), la f.d.p. a priori [ ]( ) | ( )m mPr S O O C D O C∈ ∧ = requerida

para estimar [ ] [ ]( ) ( ) | ( )m m mBBCM S O C Pr O C D O C S O∧ = ∈ ∧ = requiere una gran

cantidad de datos de entrenamiento, lo cual no siempre está disponible. Consecuentemente,

el mismo tipo de aproximación mencionada en la sección 2.3.1 para la fusión de Bayes se

adopta en este capítulo.

59

3.4.2.1 Mean Rule con BBCM

Considere MCS a nivel de score como en la Figura 2.5, la aproximación de (3.19) por mean

rule se expresa como:

1

1

1( ) arg max ( )

1 = arg max ( ) | ( )

j

j j

J

CL mm j

J

m CL m CLm j

D O BBCM S O CJ

Pr O C d O C S OJ

=

=

⎧ ⎫⎪ ⎪⎡ ⎤= ∧⎨ ⎬⎣ ⎦⎪ ⎪⎩ ⎭⎧ ⎫⎪ ⎪⎡ ⎤∈ ∧ =⎨ ⎬⎣ ⎦⎪ ⎪⎩ ⎭

∑

∑ (3.20)

y ( )D O en (3.20) se puede escribir como:

1

1( ) arg max | ( ) ( ) | ( ),j j j

J

m CL CL m CL mm j

D O Pr O C S O Pr d O C S O O CJ =

⎧ ⎫⎪ ⎪⎡ ⎤ ⎡ ⎤= ∈ ⋅ = ∈⎨ ⎬⎣ ⎦ ⎣ ⎦⎪ ⎪⎩ ⎭∑ (3.21)

Como se puede observar, ( )D O en (3.21) corresponde a la aproximación mean rule

ponderada por la confiabilidad del clasificador j dado la clase Cm. Observe que

( ) ( ) | ( )j j jCL m m CL m CLBBCM S O C = Pr O C d O C S O⎡ ⎤ ⎡ ⎤∧ ∈ ∧ =⎣ ⎦ ⎣ ⎦ en (3.21) requiere las

siguientes entradas: score ( )jCLS O , entregado por el clasificador jCL ; y la decisión

local ( )jCLd O y la clase mC que está implícitos en la condición. De hecho, la optimización

de (3.21) corresponde a encontrar la clase m que maximiza

1

1 ( ) | ( )j j

J

m CL m CLj

Pr O C d O C S OJ =

⎡ ⎤∈ ∧ =⎣ ⎦∑ .

60

3.4.2.2 Product Rule con BBCM

Si se considera MCS a nivel de score como se muestra en la Figura 2.5, y aplicando

product rule al criterio de combinación con BBCM (3.19). ( )D O se puede aproximar

como:

1

1

( ) arg max ( )

arg max ( ) | ( )

j

j j

J

CL mm j

J

m CL m CLm j

D O BBCM S O C

Pr O C d O C S O

=

=

⎧ ⎫⎪ ⎪⎡ ⎤= ∧⎨ ⎬⎣ ⎦⎪ ⎪⎩ ⎭⎧ ⎫⎪ ⎪⎡ ⎤= ∈ ∧ =⎨ ⎬⎣ ⎦⎪ ⎪⎩ ⎭

∏

∏ (3.22)

Similar a BBCM mean rule, ( )D O en (3.22) se puede escribir como:

1( ) arg max | ( ) ( ) | ( ),

j j j

J

m CL CL m CL mm j

D O Pr O C S O Pr d O C S O O C=

⎧ ⎫⎪ ⎪⎡ ⎤ ⎡ ⎤= ∈ ⋅ = ∈⎨ ⎬⎣ ⎦ ⎣ ⎦⎪ ⎪⎩ ⎭∏ (3.23)

Como en BBCM mean rule en (3.21), BBCM product rule en (3.23) corresponde a la

aproximación de la fusión de Bayes con product rule ponderado por la confiabilidad del

clasificador j dado la clase Cm. Además, como en la subsección 3.2.1,

( ) ( ) | ( )j j jCL m m CL m CLBBCM S O C = Pr O C d O C S O⎡ ⎤ ⎡ ⎤∧ ∈ ∧ =⎣ ⎦ ⎣ ⎦ en (3.22) requiere: score

( )jCLS O , dado por el clasificador jCL ; y, la decisión local ( )

jCLd O y la clase mC .

61

3.4.2.3 Weighted Majority Vote Rule (WMVR-MCS) con BBCM

Reemplazando | ( )j jCL CLPr d S O⎡ ⎤

⎣ ⎦ con ( ) ( )j jCL CLBBCM S O d O⎡ ⎤∧⎣ ⎦ en (2.5). BBCM

WMVR-MCS se define como:

1

( ) ( ) ( )j j j

J

CL CL CLj

D O BBCM S O d O=

⎡ ⎤= Δ ⋅ ∧⎣ ⎦∑ (3.24)

Comparado con (2.5), la ponderación en (3.24) reemplaza la probabilidad a

posteriori | ( )j jCL CLPr d S O⎡ ⎤

⎣ ⎦ con ( ) ( )j jCL CLBBCM S O d O⎡ ⎤∧⎣ ⎦ , la cual incorpora

información sobre la confiabilidad del clasificador. La misma interpretación dada para

BBCM Mean Rule y BBCM Product Rule se aplica también a (3.24). Sin embargo,

( ) ( ) | ( )j j jCL m m CL m CLBBCM S O C = Pr O C d O C S O⎡ ⎤ ⎡ ⎤∧ ∈ ∧ =⎣ ⎦ ⎣ ⎦ en (3.24) requieren el

score ( )jCLS O y ( )

jCLd O del clasificador jCL . Note que Majority Vote Rule está

definida en el contexto de MCS a nivel abstracto de acuerdo a la Figura 2.4.

3.4.3 Diferencias entre el score BBCM y el de Bayes

Como se ha mencionado antes, BBCM incorpora información sobre el desempeño y

confiabilidad del clasificador, y la probabilidad a posteriori en sí. En contraste, la

clasificación de Bayes emplea solamente la probabilidad a posteriori. Además, el score de

BBCM es entre 0 y 1 por definición, pero la suma sobre todas las clases no es

necesariamente igual a 1. Por otro lado, la probabilidad a posteriori de Bayes es definida en

un rango que es dependiente del clasificador pero la suma sobre todas las clases es igual a

1. Como resultado, BBCM es un interesante esquema para aplicar al problema de

combinación en MCS, debido al hecho que el concepto de confiabilidad se puede utilizar en

cualquier clasificador y los valores de BBCM están definidos en el intervalo [0,1].

62

3.5 Experimentos

3.5.1 Base de Datos

Los resultados presentados en este capítulo se realizaron con dos base de datos: una base

de datos telefónica local, grabada en el LPTV; y otra comercial, YOHO (Campbell &

Higgins, 1994a). El objetivo de las bases de datos, es abarcar la mayor cantidad de usuarios

posibles de ambos géneros, con el fin de evaluar el comportamiento del sistema ante la

variabilidad entre locutores en diferentes entornos de operación.

La base de datos local fue grabada en su totalidad en el LPTV y se compone de 140

usuarios (70 hombres y 70 mujeres). De éstos, 80 usuarios pronunciaron 15 elocuciones:

seis repeticiones de la secuencia de dígitos “0-1-2-3-4-5-6-7-8-9” para enrolamiento; y tres

repeticiones de cada una de las secuencias “1-8-6-4”, “4-5-2-0” y “9-5-7-3” para los

experimentos de verificación. Esta sección fue dividida en dos grupos: Telefono_A y

Telefono_B. La base de datos Telefono_A, compuesta de 70 usuarios (35 hombres y 35

mujeres), es utilizada para test. La base de datos Telefono_B, compuesta por 10 usuarios (5

hombres y 5 mujeres), se emplea para estimar a priori las p.d.f’s y las curvas BBCM. Los

60 usuarios restantes grabaron solamente las seis repeticiones de la secuencia de digitos “0-

1-2-3-4-5-6-7-8-9” cada uno y se utilizaron para entrenar el modelo SI que se necesita para

el clasificador VBS de acuerdo a (2.19) y para la clase impostor en SVM (subsección

2.3.3). Para grabar la base de datos se implementó un dialogo telefónico en una plataforma

IVR desarrollada con el software libre Asterisk (descrita en la seccion 2.3.7).

La base de datos YOHO es un corpus generado para verificación de locutor

(Campbell & Higgins, 1994b). Las señales para enrolamiento y test utilizan un vocabulario

formado por secuencias de tres decenas en inglés, como por ejemplo “62-31-53” o “sixty-

two thirty-one fifty-three”. La base de datos esta divida en segmentos para enrolamiento y

verificación. Cada segmento contiene datos de 138 usuarios (106 hombres y 32 mujeres).

Hay cuatro sesiones de enrolamiento por usuario y cada sesión contiene 24 elocuciones.

Cada segmento de verificación contiene 10 sesiones y cada sesión contiene 4 señales por

usuario. En los experimentos realizados en éste capítulo, la base de datos YOHO fue divida

en tres grupos: YOHO_A, YOHO_B y YOHO_C. La base de datos YOHO_A, compuesta

63

de 60 usuarios (45 hombres y 15 mujeres), es utilizada para test. YOHO_B, compuesta de

37 usuarios (32 hombres y 5 mujeres), fue empleada para entrenar las f.d.p.’s y las curvas

BBCM (Figura 3.1). Finalmente, YOHO_C, compuesta de 41 usuario (29 hombres y 12

mujeres), fue utilizado para entrenar el modelo SI requerido para el clasificador VBS según

(2.19) y la clase impostor en el clasificador SVM (subsección 2.3.5).

Figura 3.1: Curvas BBCM estimada con base de datos Teléfono (⎯) y YOHO (----) para: a) VBS,

b) MVR-FV y c) SVM.

64

3.5.2 Clasificadores individuales

Como se ha mencionado antes, en este capítulo se utilizaron tres técnicas estándar para SV:

Viterbi based score, VBS (Furui, 1997); Maximum Vote Rate for sequence of feature

vectors, MVR-FV (Radova & Padrta, 2004); y, Support Vector Machines, SVM (Campbell,

et al., 2004). La descripción de cada clasificador se encuentra en la sección 2.3.

3.5.3 Configuración de los experimentos

El enrolamiento y la verificación se descomponen en secuencia de trifonemas. Treinta y

tres coeficientes cepstrales son calculados por frame: la energía del frame mas diez

coeficientes estáticos y su primera y segunda derivada. En VBS, los HMM’s son

entrenados con el algoritmo de Viterbi. Cada trifonema es modelado con la topología de

tres estados de izquierda a derecha sin salto de transiciones, con una Gaussiana

multivariable por estado en el modelo SD y ocho Gausianas multivariables para el modelo

SI. Ambos modelos emplean una matriz de covarianza diagonal. En MVR-FV, K es igual a

dos y el umbral Th de la ecuación (2.22) se estima con las base de datos Telefono_B y

YOHO_B cuando las bases de datos de test corresponde a, respectivamente, Telefono_A y

YOHO_A. En los experimentos con la base de datos telefónica, SVM emplea un kernel

Gaussiano (Burges, 1998) y el algoritmo K-means es utilizado para agrupar los datos de

entrenamiento. El numero de codewords es 256 y 512 para la clase cliente e impostor,

respectivamente. En el caso de la base de datos Telefono_A, los errores de FA y FR son

calculados de la siguiente manera: la curva FR se estima con 70 usuarios x 9 señales de

verificación por cliente = 630 tests; y, la curva FA se estima sin considerar cruces de

impostores entre géneros con 34 impostores x 9 señales de verificación por impostor x 70

usuarios = 21420 experimentos. En el caso de la base de datos YOHO_A, los errores de

FA y FR se estiman como: las curvas de FR se calculan con 60 usuarios x 40 señales de

verificación por cliente = 2400 señales; y, la curva FA se obtiene con 59 impostores x 3

señales de verificación por impostor x 60 usuarios = 10620 experimentos. En los

experimentos con YOHO_A, SVM se aplica de la siguiente forma: 100 y 4100 codewords

para la clase cliente e impostores, respectivamente; el algoritmo K-means se utiliza para

estimar los codebooks; y, se emplea un kernel polinomial (Wan & Campbell, 2000).

65

El baseline en este capítulo esta dado por el VBS que es el clasificador con mejor

desempeño en comparación a MVR-FV y SVM. El sistema baseline tiene un EER igual a

6,69% y 0,58% con los datos de Telefono_A y YOHO_A, respectivamente. MVR-FV

provee un EER igual a 10,64% y 0,92% con, respectivamente Telefono_A y YOHO_A.

SVM entrega un EER de 12,84% y 2,39% con las bases de datos Telefono_A y YOHO_A,

respectivamente. El bajo desempeño de SVM se debe a que este clasificador no ha sido

propuesto para el problema de texto dependiente en verificación de locutor. Actualmente,

SVM se aplica con gran éxito al tarea de verificación de locutor con texto-independiente

(Campbell, et al., 2004). Comparado con el EER de la base datos de Telefono_A, en

YOHO_A se obtiene un error mucho mas bajo. Este resultado se debe principalmente a dos

razones: primero, la base de datos YOHO corresponde a señales de voz de una calidad más

alta y grabadas en un ambiente cerrado generando un señal limpia; y segundo, el número de

señales de enrolamiento en YOHO (96 señales por usuario) es mucho mas alta que en la

base de datos telefónica (3 señales por usuario). Como resultado, el problema de

enrolamiento con datos limitados, el cual es muy relevante para aplicaciones en

condiciones reales, es mucho mas sensible en la base de datos telefónica que en YOHO.

Los resultados se presentan en las Tablas 3.1-3.2 y las Figs. 3.2-3.7.

3.6 Resultados

En la Figura 3.1 se muestran las curvas BBCM, como se define en (3.2), obtenidas para el

sistema verificación de locutor mencionado en la subsección 3.3. Como se puede observar

en la Figura 3.1, el valor mínimo de BBCM se encuentra en el lugar donde el score es

igual a TEER (Threshold of Equal Error Rate) en la base de datos donde las f.d.p’s a priori

y BBCM son evaluadas (Teléfono_B y YOHO_B). Este resultado es intuitivo y significa

que mientras mas cerca se encuentre el score del umbral de decisión, la confiabilidad del

clasificador es más baja. Sin embargo, BBCM provee una estructura formal para modelar la

confiabilidad como una probabilidad y no es un método heurístico como se han propuesto

en otros casos. Además, al comparar la Fig. 3.1 con las Tablas 3.1 y 3.2 se obtiene que a

menor EER de un clasificador SV, la curva BBCM calculada es más plana. En otras

palabras, a un mayor desempeño del clasificador, mayor es su confiabilidad

independientemente de los scores de salida.

66

De acuerdo a las Tablas 3.1 y 3.2 y Figs. 3.2 – 3.7, todos los métodos de combinación

mejoran el sistema baseline, VBS. Comparado con el sistema baseline en los experimentos

realizado con la base de datos Telefono_A (Tabla 3.1 y Figs. 3.2 - 3.4), con la clásica

fusión de Bayes de MCS se obtiene una reducción en EER igual a 21.4%, 24.7% y 24.1%

con Mean Rule, Product Rule y WMVR-MCS, respectivamente. Sin embargo, cuando se

aplica la fusión de MCS con BBCM, se logran reducciones en EER igual a 50.2%, 39.6% y

52.6% utilizando BBCM Mean Rule, BBCM Product Rule y BBCM WMVR-MCS,

respectivamente. Comparado con el esquema de fusion de Bayes, la mejora más elevada

obtenida con el esquema propuesto se obtiene con BBCM Mean rule y BBCM WMVR-

MCS: se alcanza una reducción en EER de 37%.

Tabla 3.1: EER y área bajo la curva ROC para clasificadores individuales y los esquemas de

combinación con base de datos Teléfono_A.

Clasificador EER (%)

Area ROC

Reducción en EER comparada con la combinación clásica de Bayes

VBS 6.69 156 MVR-FV 10.64 414 SVM 12.84 548 BBCM Mean Rule 3.33 50 36.7 Mean Rule 5.26 77 BBCM Product Rule 4.04 82 19.8 Product Rule 5.04 77 BBCM WMVR - MCS 3.17 56 37.6

WMVR – MCS 5.08 81

Comparado con el sistema baseline en los experimentos con la base de datos

YOHO_A (Figs. 3.5-3.7), la fusión de Bayes clásica obtiene una reducción en EER igual a

12.1% y 8.6% con, respectivamente, Mean Rule y WMVR-MCS. En contraste, Product

Rule degrada el desempeño del sistema. Como se ha explicado en la subsección 2.2.2, este

resultado se debe al hecho que Product Rule es más inestable que Mean Rule (Tax et al.,

1997). Sin embargo, al fusionar MCS con BBCM se logran reducciones en EER de 19.0%

y 22.4% al combinar con BBCM Mean Rule y BBCM WMVR-MCS, respectivamente. Al

67

comparar la combinación de Bayes con el esquema propuesto, la fusión BBCM WMVR-

MCS logra la más alta mejora de desempeño, obteniendo una reducción de 15.1% en EER.

Una mejora en el rendimiento se observa en Product Rule cuando la combinación se

realiza con BBCM. Sin embargo, la reducción en EER que se obtiene no es suficiente para

superar al sistema baseline. Observe que con el esquema propuesto se obtiene una mejora

más alta con la base de datos telefónica que con YOHO. Este resultado se debe a que con

YOHO se obtiene un EER muy bajo, lo cual produce curvas de BBCM más planas y menos

discriminativas del punto de vista de confiabilidad (Fig. 3.1).

Tabla 3.2: EER y área bajo la curva ROC para clasificadores individuales y los esquemas de

combinación con base de datos YOHO_A.

Clasificador EER (%)

Area ROC

Reducción en EER comparada con la combinación clásica de Bayes

VBS 0.58 2.4 MVR-FV 0.92 3.7 SVM 2.39 28.2 BBCM Mean Rule 0.47 1.5 7.8 Mean Rule 0.51 1.8 BBCM Product Rule 0.69 2.1 2.8 Product Rule 0.71 2.2 BBCM WMVR - MCS 0.45 1.7 15.1

WMVR – MCS 0.53 1.9

El desempeño superior de la fusión de MCS con BBCM se observa también en las

Figs. 3.2 y 3.4. Como se puede observar de estas Figuras, la estrategia de combinar con

BBCM logra reducciones tan altas como 65% y 35% en el área bajo la curva ROC cuando

es comparado con el sistema baseline y la clásica fusión de Bayes, respectivamente.

El bajo rendimiento obtenido con BBCM Product Rule, por sobre el desempeño de

la combinación clásica, se debe al hecho que las imprecisiones de las curvas BBCM son

amplificadas al combinar con el esquema Product Rule, el cual es más sensible a los errores

que Mean Rule (Tax, et al., 1997). Observe que las curvas BBCM son estimadas con una

base de datos diferente a la utilizada en test.

68

FA (%)2,5 5 7,5 251,0 10,0

FR (%

)

2,5

5,0

7,5

25,0

1,0

10,0

VBSMean RuleBBCM Mean Rule

Figura 3.2: curva DET obtenida para el esquema de combinación de MCS con la aproximación

Mean Rule y la base de datos Telefono_A. Los resultados son comparados con el sistema baseline

(VBS).

FA (%)2,5 5 7,5 251,0 10,0

FR (%

)

2,5

5,0

7,5

25,0

1,0

10,0

VBSProduct RuleBBCM Product Rule


Product Rule y la base de datos Telefono_A. Los resultados son comparados con el sistema

baseline (VBS).

69

FA (%)2,5 5 7,5 251,0 10,0

FR (%

)

2,5

5,0

7,5

25,0

1,0

10,0

VBSWMVRBBCM WMVR


WMVR y la base de datos Telefono_A. Los resultados son comparados con el sistema baseline

(VBS).

FA (%)0,25 0,5 0,75 2,5 50,10 1,00

FR (%

)

0,3

0,5

0,8

2,5

5,0

0,1

1,0

VBSMean RuleBBCM Mean Rule

Figura 3.5: curva DET obtenida para el esquema de combinación MCS con la aproximación Mean

Rule y la base de datos YOHO_A. Los resultados son comparados con el sistema baseline (VBS).

70

FA (%)0,25 0,5 0,75 2,5 50,10 1,00

FR (%

)

0,3

0,5

0,8

2,5

5,0

0,1

1,0

VBSProduct RuleBBCM Product Rule


Product Rule y la base de datos YOHO_A. Los resultados son comparados con el sistema baseline

(VBS).

FA (%)0,25 0,5 0,75 2,5 50,10 1,00

FR (%

)

0,3

0,5

0,8

2,5

5,0

0,1

1,0

VBSWMVRBBCM WMVR


WMVR y la base de datos YOHO_A. Los resultados son comparados con el sistema baseline

(VBS).

71

3.7 Conclusiones

En este capítulo se abordó el problema de fusión de MCS off-line en verificación de

locutor. Se propuso una nueva estrategia formal de combinación basada en la confiabilidad

empleando la métrica bayesiana BBCM realizando una extensión del concepto de BBCM,

definido inicialmente para ASR, a verificación de locutor. No obstante, este resultado es

generalizable a cualquier área de reconocimiento de patrones. Además, se presenta la

BBCM como criterio de clasificación en verificación de locutor, lo que también se

generaliza a cualquier problema de clasificación independiente del número de clases. Se

muestra que el esquema de combinación de MCS con BBCM corresponde a la fusión

clásica de Bayes ponderada por la confiabilidad de cada clasificador individual. Además, la

BBCM provee un modelo formal para la combinación de clasificadores con pesos

heurísticos adoptada en otras publicaciones.

El método de fusión de clasificadores presentado en éste capítulo fue evaluado con

la combinación de tres técnicas estándares en el problema de verificación de locutor. La

fusión basada BBCM cuando es comparada con el mejor clasificador y la combinación de

Bayes fue capaz de obtener reducciones tan altas como un 53% y 37% en el EER; y, en el

área bajo la curva ROC un 68% y 35%, respectivamente. Lo experimentos realizados

validan fuertemente el método de fusión propuesto y, cabe destacar, que éste es un cambio

de paradigma con respecto a las técnicas de combinación tradicionales. La fusión por

BBCM en vez de maximizar la probabilidad a posteriori propone, como criterio, maximizar

la confiabilidad a posteriori de un sistema de múlti-clasificación. Finalmente, la

aplicabilidad de fusión de MCS basada en confiabilidad en condiciones más severas, como

las encontradas en aplicaciones reales, y en otros problemas de clasificación se propone

como trabajos a futuro.

72

Capítulo 4

Optimización on-line de combinación lineal de

clasificadores basada en información mutua

4.1 Introducción

En este capitulo se propone una nueva estrategia para combinar sistemas de múltiples-

clasificadores. El esquema propuesto optimiza de modo on-line una combinación lineal de

dos clasificadores. El término on-line utilizado en este capítulo se refiere a que la

optimización de la combinación se realiza en el proceso de verificación o de test sin el

requerimiento de condiciones de matching entre los datos de entrenamiento y test (ver

Figura 4.1). En contraste a los esquemas clásicos de combinación, el método propuesto no

necesita distribuciones a priori o pesos estimados previamente. La idea es mejorar el

clasificador más exacto utilizando la información que provee el segundo clasificador (el

menos preciso). La optimización on-line de la combinación de clasificadores presentada

aquí es aplicable a cualquier problema de reconocimiento de patrones, no necesita

distribuciones a priori y no considera condiciones de matching entre entrenamiento y test.

MCS

Método de estimación de

parámetros Off-line para combinar

MCS

Datos entrenamiento

MCS

Método de estimación de

parámetros On-line para combinar

MCS

Datos Test

a)

b)

Figura 4.1: métodos de estimación de parámetros para combinar MCS: a) método off-line y b)

método on-line.

73

El esquema de combinación de MCS propuesto utiliza una combinación lineal

ponderada (conocida también como la regla de la suma) de los scores de salida de los

clasificadores. El método presentado se evalúa en una task de verificación de locutor texto

dependiente. La combinación se realiza con dos técnicas estándares para verificación de

locutor: Viterbi based score, VBS (Furui, 1997) y, Support Vector Machines, SVM

(Campbell, et al., 2004). Finalmente, se presentan resultados con la base de datos YOHO,

con la cual se obtienen reducciones en el EER tan altas como un 28% y 11% al comparar

con el mejor clasificador y con un método ampliamente aceptado en la literatura para

optimizar la combinación lineal de clasificadores, respectivamente.

4.2 Métodos tradicionales de optimización de la combinación lineal de clasificadores

Como se ha mencionado en esta tesis, teóricamente la vía óptima para la fusión de

clasificadores es mediante la clasificación de Bayes. Las clásicas técnicas para simplificar

la fusión Bayesiana son: Product Rule; Sum Rule; Max Rule; Min rule; Mean Rule y,

Majority Vote Rule. Sin embargo, en todas ellas es necesario estimar una distribución para

cada clasificador con lo que aparecen problemas mistmatch entre los datos de

entrenamiento y test, el cual ciertamente degrada el desempeño de los sistemas de

clasificación.

Con el objetivo de contrarrestar las limitaciones presentadas por las técnicas usuales

de fusión, se han propuesto varios métodos basados en la teoría de maximización de la

entropía y la información mutua para combinar diversas fuentes de información (Chen, et

al., 2006; Fassinut-Mombot & Choquel, 2004; Saerens & Fouss, 2004). Entropía e

información mutua se han usado para combinar clasificadores con el esquema clásico de

combinación Bayesiana (Saerens & Fouss, 2004; Kang & Lee, 1999) aplicados a sistemas

multimodales (Tamura, et al., 2005; Gravier, et al., 2002) y sistemas multi-sensores (Zhou

& Leung, 1997; Chung & Shen, 1998), entre otros.

El criterio de máxima entropía es un modelo versátil que permite una integración de

características relevantes tales como la correlación entre clasificadores y confiabilidad de

estos (Saerens & Fouss, 2004). La motivación en el uso de la teoría de la información en la

combinación es tomar en consideración la incertidumbre de cada fuente de información.

Así, se mejora la estimación de las distribuciones a priori. Algunos ejemplos de la

74

aplicación de la teoría de información en reconocimiento de patrones son: entropía (Chen,

et al., 2006; Saerens & Fouss, 2004; Berger, et al., 1996; Nasersharif & Akbari, 2005);

información mutua (Matton, et al., 2005; Omar, et al., 2002); y, entropía condicional

(Fassinut-Mombot & Choquel, 2004).

Sin embargo, aunque se mejora el desempeño de la combinación utilizando teoría de

la información, los métodos propuestos en la literatura asumen condiciones de matching

entre los datos de entrenamiento y test, además de requerir de una cantidad adecuada de

datos de entrenamientos. Por otro lado, la maximización de la entropía como método de

optimización de una combinación lineal de clasificadores no es un criterio confiable puesto

que el clasificador que aporte un score de mayor varianza será el que provea la máxima

entropía. Además, la entropía condicional y la información mutua necesitan ser evaluadas

en una distribución multivariable, la cual esta asociada a requerimientos de matching entre

los datos de entrenamiento y test, y de un tamaño adecuado de datos de entrenamiento.

En resumen, en los esquemas clásicos de combinación de clasificadores los

parámetros son optimizados a priori con un conjunto de datos de entrenamiento (método

off-line de la Figura 4.1). Como consecuencia, la combinación de MCS es intrinsicamente

vulnerable a las condiciones de mismatch entre los datos de entrenamiento y test.

4.3 Combinación lineal de clasificadores e información mutua

La combinación lineal, usualmente llamada como una suma ponderada, es uno de los

estrategias mas comunes para combinar y es una simplificación de la combinación

Bayesiana (Kittler, et al., 1998). En este capítulo se realiza la optimización de los

pesos de un esquema de combinación lineal con dos clasificadores, CL1 y CL2. Dado

una señal de entrada X compuesta de I frames { }1 2, ,..., ,...,i IX x x x x= , hay dos

conjuntos de scores de salida { }(1) (1) (1)(1)1 ,.., ,..,i IP P P P= y { }(2) (2) (2)(2)

1 ,.., ,..,i IP P P P=

entregados por los clasificadores CL1 y CL2, respectivamente. (1)iP y (2)

iP son los

scores de los dos clasificadores correspondiente al frame xi. La combinación lineal de

CL1 y CL2 en el frame i, iP , se expresa como:

75

( ) ( ) (1) (2)1i i i ii iP P Pα α α= − ⋅ + ⋅ (4.1)

Donde 0 ≤ αi ≤ 1 es un peso o factor de escala que define la combinación lineal.

Como resultado iP es una función de αi, (1)iP y (2)

iP . Entonces, la combinación lineal

de los scores de salida de los clasificadores asociados a la entrada X se evalúa como:

( ) (1) (2)

1 1

1 1( ) ( ) 1 i

I Ii i i i i

i iP A P P P

I Iα α α

= =

⎡ ⎤= = − ⋅ + ⋅⎣ ⎦∑ ∑ (4.2)

donde { }1 2, ,..., ,...,i IA α α α α= es el conjunto entero de los pesos de la señal X.

Como se ha mencionado en esta tesis, verificación de locutor es un problema de dos

clases (Bimbot, et al., 2004) donde la decisión final, D(X), se obtiene de acuerdo a:

( ) claimed identity is accepted

( )( ) claimed identity is rejected

P A ThD X

P A Th

⎧ > ⇒⎪= ⎨≤ ⇒⎪⎩

(4.3)

donde Th es el umbral de decisión. Observe que la estimación de { }iA α= , 1≤ i ≤ I, en

(4.1) que minimice el error se puede modelar como un problema de combinación de fuentes

de información. Cabe destacar que la fusión lineal es probablemente el procedimiento más

sencillo y directo para combinar métricas o scores en reconocimiento de patrones.

La teoría de información, particularmente la maximización de la entropía, es un

enfoque que se emplea en varios problemas (Chen, et al., 2006; Saerens & Fouss, 2004;

Berger, et al., 1996; Nasersharif & Akbari, 2005). Como se ha mencionado antes, la

estimación de { }iA α= , 1≤ i ≤ I, de acuerdo a la maximizaron de la entropía de P en (4.2)

no es aplicable. Por ejemplo, si las distribuciones de P(1) y P(2) son consideradas

Gaussianas, la entropía de P(1) y P(2) es proporcional al logaritmo natural de sus varianzas

(Lazo & Rathie, 1978). Como consecuencia, se puede mostrar fácilmente que la entropía de

P aumenta o decrece monótonamente entre las entropías de P(1) y P(2). En este contexto, la

información mutua y la entropía condicional (Chen, et al., 2006; Fassinut-Mombot &

Choquel, 2004; Matton, et al., 2005; Omar, et al., 2002) pueden ser candidatos interesantes

76

para optimizar la combinación lineal en (4.2) tomando en cuenta la información

incremental de P con respecto a P(1). En este caso la información mutua está definida

como (Gray, 1990):

(1) (1) (1)( , ) ( ) ( | )I P P H P H P P= − (4.4)

y la entropía condicional corresponde a:

( ) ( ) ( )(1) (1) (1)| ,H P P H P P H P= + (4.5)

De acuerdo a (4.4) y (4.5), la información mutual y la entropía condicional requieren de la

estimación de la entropía cruzada (1)( , )H P P , que a su vez requiere la estimación de la

distribución de la probabilidad conjunta o f.d.p. (1)Pr( , )P P . Como resultado, la

optimización de (1)( , )I P P y (1)( | )H P P puede ser altamente dependiente de la cantidad de

datos disponibles y difícilmente podría ser utilizada en una aplicación on-line donde los

datos son limitados.

Considere que el clasificador CL1 provee un error de clasificación mas bajo que el

CL2. La optimización de la combinación lineal de clasificadores propuesta en este capitulo

intenta mejorar el desempeño del clasificador mas exacto (CL1) con la información

adicional que provee el clasificador menos preciso, CL2. En consecuencia, la distribución

de ( )P A en (4.2) se puede interpretar como la modificación de la distribución de P(1)

utilizando la información adicional del segundo clasificador, CL2. El método propuesto

para combinación de multi-clasificadores optimiza la información mutua entre el score del

clasificador con mejor desempeño, P(1), y la distribución de ( )P A en (4.2).

Cabe destacar que el criterio para optimizar la información mutual entre P(1) y P(2)

requiere de la estimación de las distribuciones de P(1) y P(2), la cual necesita de una gran

cantidad de datos. En contraste, como se mostrará mas adelante, el presente esquema utiliza

la distribución de ( )P A cuya estimación se puede obtener fácilmente con la información

obtenida señal por señal.

77

4.3.1 Estimación de la distribución de ( )P A

Las Figs. 4.2 – 4.3 muestran los histogramas de los score de los clasificadores para dos

señales de verificación. En promedio, cada elocución tiene 300 frames. Los scores son

calculados frame-por-frame. De acuerdo a la Fig. 4.2, los scores de los clasificadores se

pueden modelar como una f.d.p. Gaussiana. Considere que ( )1(1) | pPε ⎡ ⎤Φ⎣ ⎦ , ( 2)

(2)| Pf P⎡ ⎤Φ⎣ ⎦

y ( )| Pg P A⎡ ⎤Φ⎣ ⎦ son las f.d.p. de ( )1iP , ( )2

iP y iP estimadas con una señal, respectivamente,

donde: ( ) ( ) ( ){ }1 1 12,p p pμ σΦ = corresponde al promedio y la varianza de ( )1

iP ;

{ }( 2) ( 2) ( 2)2,P P Pμ σΦ = corresponde al promedio y la varianza de ( )2

iP ;

y, ( ) { }2ˆ ( ), ( )P P PA A Aμ σΦ = son el promedio y la varianza de iP , respectivamente.

Observe que (1)PΦ y ( 2)PΦ son estimadas señal-por-señal de acuerdo a:

( ) ( )

(1) ( 2)

(1) (1) ( 2) ( 2)

(1) (2)

1 12 2

(1) (2)2 2

1 1

1 1

1 1

I I

i iP Pi i

I I

i iP P P Pi i

P PI I

P PI I

μ μ

σ μ σ μ

= =

= =

= =

= − = −

∑ ∑

∑ ∑

donde, ( )P AΦ se calcula de acuerdo a:

( ) (1) (2)

1 1

1 1( ) ( ) 1I I

i i i ii iPi i

A P P PI I

μ α α α= =

⎡ ⎤= = − ⋅ + ⋅⎣ ⎦∑ ∑ (4.6)

22

1

1( ) ( )I

iP Pi

A P AI

σ μ=

⎡ ⎤= −⎣ ⎦∑ (4.7)

78

VBS-10 -5 0 5 10 15 20

a)

0

10

20

30

40

50

60

VBS-5 0 5 10 15 20

b)

0

10

20

30

40

50señal 1 señal 2

Figura 4.2: Histogramas de los scores del clasificador VBS para dos señales. Los scores son

estimados frame por frame.

Score SVM-10 -5 0 5 10 15

a)

0

20

40

60

80

Score SVM-10 -5 0 5 10 15

d)

0

10

20

30

40

50

60

Figura 4.3: Histogramas de los scores del clasificador SVM para dos señales. Los scores son

estimados frame por frame.

79

Si se asume que α es constante por cada señal, es decir, iα α= , donde 1 i I≤ ≤ , el

promedio y la varianza de iP corresponde a:

( ) ( ) ( 2)1( ) 1 PPPμ α α μ α μ= − ⋅ + ⋅ (4.8)

y

( )

( ) ( )( )

( )( ) ( )

( ) ( )

( 2) ( 2)1 1

( 2)1 1 1

1 22 2 2 2

1 22 2

( ) 2 2

- 2

P PP PP

PP P P

E P P

E P P

σ α α σ σ μ μ

α σ μ μ σ

⎡ ⎤⎡ ⎤= ⋅ + − ⋅ ⋅ + ⋅⎢ ⎥⎢ ⎥⎣ ⎦⎣ ⎦⎡ ⎤⎡ ⎤⋅ − ⋅ + ⋅ +⎢ ⎥⎢ ⎥⎣ ⎦⎣ ⎦

(4.9)

donde, (1) (2)(1) (2)

1

1 I

i ii

E P P P PI =

⎡ ⎤⋅ = ⋅⎣ ⎦ ∑ .

Como se puede observar en (4.6) y (4.7), | ( )Pg P A⎡ ⎤Φ⎣ ⎦ es función de A, la que a su

vez es optimizada para mejorar la capacidad de discriminación de la combinación lineal de

clasificadores comparado con el mejor clasificador. Como un ejemplo, la Figura 4.4

muestra la distribución del score para el clasificador con menor error, P(1), y la distribución

del score como resultado de la combinación lineal, ( )P A , cuando esta es optimizada con

respecto a A. Como se observa en la Figura 4.4, el problema de optimización de la

combinación lineal de clasificadores puede ser interpretado como una corrección a la

distribución del mejor clasificador para de aumentar la exactitud de clasificación.

80

Figura 4.4: Comparación de las f.d.p correspondiente a P(1) (el mejor clasificador),

( )1(1) | pPε ⎡ ⎤Φ⎣ ⎦ , y el P optimo (el score de la combinación lineal), | ( )Pg P⎡ ⎤Φ Α⎣ ⎦ .

4.3.2 Optimización de la combinación lineal de clasificadores basado en la

información mutua

Como se ha mencionado antes, en este capítulo se propone la optimización de una

combinación lineal de clasificadores en base a la información mutua entre P(1) y

( )| Pg P A⎡ ⎤Φ⎣ ⎦ . La información mutua (Gray, 1990) entre P(1) y ( )| Pg P A⎡ ⎤Φ⎣ ⎦ se puede

escribir como:

( ){ } ( ){ }(1) (1) (1); | | |P PI P g P A H P H P g P A⎡ ⎤ ⎡ ⎤⎡ ⎤Φ = − Φ⎣ ⎦⎣ ⎦ ⎣ ⎦ (4.10)

La maximización de la información adicional que provee ( )| Pg P A⎡ ⎤Φ⎣ ⎦ a P(1) es

equivalente a minimizar la información mutual entre ( )| Pg P A⎡ ⎤Φ⎣ ⎦ y P(1),

81

( ){ }(1); | PI P g P A⎡ ⎤Φ⎣ ⎦ . Como consecuencia, el A optimo, optimalA que define la

combinación lineal de clasificadores de acuerdo a (4.2) se puede estimar como:

( ){ }

( ){ }

(1)

(1) (1)

arg min ; |

arg min | |

optimal PA

PA

A I P g P A

H P H P g P A

⎡ ⎤= Φ⎣ ⎦

⎡ ⎤⎡ ⎤= − Φ⎣ ⎦ ⎣ ⎦

(4.11)

Como se puede observar en (4.11), ( )1H P⎡ ⎤⎢ ⎥⎣ ⎦

no depende de A y la minimización de

( ){ }(1); | PI P g P A⎡ ⎤Φ⎣ ⎦ es equivalente a maximizar ( ){ }(1) | | PH P g P A⎡ ⎤Φ⎣ ⎦ .

( ){ }(1)arg max | |optimal PA

A H P g P A⎡ ⎤= Φ⎣ ⎦ (4.12)

Como resultado, optimalA puede ser calculado estimando la derivada parcial de

( ){ }(1) | | PH P g P A⎡ ⎤Φ⎣ ⎦ con respecto a A para luego igualar a cero:

( ) ( ){ }1 |0

PH P g P A

A

⎡ ⎤⎡ ⎤∂ Φ⎢ ⎥⎣ ⎦⎣ ⎦ =∂

(4.13)

donde (Molina, et al., 2010):

( ) ( ){ }( ){ } ( ){ }

1

(1) (1)

1

| ,

Pr | ln Pr |

P

I

i iP Pi

H P g P A A

P g P A P g P A=

⎡ ⎤Φ =⎣ ⎦

⎡ ⎤ ⎡ ⎤− Φ ⋅ Φ⎣ ⎦ ⎣ ⎦∑ (4.14)

82

( ){ }(1)Pr |i PP g P A⎡ ⎤Φ⎣ ⎦ se estima evaluando (1)iP en ( )| Pg P A⎡ ⎤Φ⎣ ⎦ . Note que la pdf

( )| Pg P A⎡ ⎤Φ⎣ ⎦ en (4.14) es evaluado previamente con (4.8) y (4.9). La Figura 4.5 resume el

esquema MCS propuesto aquí.

4.4 Optimización on-line de una combinación lineal de clasificadores señal-por-

señal

Como se ha mencionado en este capítulo, los métodos más clásicos de fusión como la

combinación bayesiana o redes neuronales requieren datos de entrenamiento para estimar

las distribuciones a priori o las ponderaciones necesarias. Como resultado, estas técnicas de

fusión requieren implícitamente condiciones de matching entre los datos de entrenamiento

y test. Como es bien conocido, el principal problema en el área de reconocimiento de

patrones se debe a que la condición de matching entre los datos de entrenamiento y test

difícilmente se cumple, lo que implica una degradación en el desempeño del sistema de

multi-clasificación. El método de fusión on-line propuesto aquí optimiza la combinación de

clasificadores sin el uso de información a priori o pesos pre-estimados. Aplicado al

problema de verificación de locutor, la optimización de un sistema on-line de multi-

clasificación se realiza señal por señal. Como se mencionó antes, la optimización on-line de

A en (4.2) se obtiene maximizando ( ){ }(1) | | PH P g P A⎡ ⎤Φ⎣ ⎦ por medio de (4.11). En este

capítulo se proponen tres procedimientos para estimar un Aoptimal: optimización

independiente del frame; optimización dependiente del frame; y promedio de la

optimización dependiente del frame.

83

Figura 4.5 : Diagrama de bloques de la método de optimización on-line propuesto basado en la información incremental para una combinación lineal de

clasificadores.

84

4.4.1 Estimación de Aoptimal como constante en la señal

Si por cada señal α se asume igual a una constante, es decir. iα α= y 1 i I≤ ≤ , el

promedio y la varianza de ( )| Pg P α⎡ ⎤Φ⎣ ⎦ como función de α se puede estimar de acuerdo a

(4.8) y (4.9). Entonces, { }optimal i optimalA α α= = , con 1 i I≤ ≤ , según (4.2), se puede

estimar como (4.13) que lleva a resolver la siguiente ecuación:

( ) ( ){ }1 |0

optimalP

optimal

H P g P α

α

⎡ ⎤⎡ ⎤∂ Φ⎢ ⎥⎣ ⎦⎣ ⎦ =∂

(4.15)

donde ( ) ( ){ }1 | PH P g P α⎡ ⎤Φ⎣ ⎦ es definida como en (4.14) donde { }iA α α= = , con

1 i I≤ ≤ , y se expresa como:

( ) ( ){ }( ){ } ( ){ }

1

(1) (1)

1

|

Pr | ln Pr |

P

I

i iP Pi

H P g P

P g P P g P

α

α α=

⎡ ⎤Φ =⎣ ⎦

⎡ ⎤ ⎡ ⎤− Φ ⋅ Φ⎣ ⎦ ⎣ ⎦∑ (4.16)

La estimación de optimalα aplicando (4.15) no tiene una solución analítica, por este motivo

se adopta una solución numérica para resolver (4.15):

Paso 1: Estimar samplesN muestras de α, αj, uniformemente distribuida en el

intervalo[ ]0,1 :

1 0 1jsamples

samplesj j N

Nα = ⋅ ≤ ≤ −

85

Paso 2: Estimar ( )| jPg P α⎡ ⎤Φ⎣ ⎦ con (4.8) y (4.9), donde jα se calcula como se

describió en el paso anterior.

Paso 3: Obtener ( ) ( ){ }1 | jPH P g P α⎡ ⎤Φ⎣ ⎦ de acuerdo a (4.16), donde jα esta

definida en el paso 1.

Paso 4: optimalα se estima usando una aproximación polinomial (Molina, et al.,

2010).

Paso 5: Finalmente, el score P se calcula como:

( ) ( ){ }(1) (2)

1

1 1I

optimal optimal optimali ii

P P PI

α α α=

= − ⋅ +∑ (4.17)

4.4.2 Estimacion de Aoptimo frame por frame

La estimación de αi óptimo por cada frame i se define de acuerdo a la siguiente

maximización:

( ) ( ){ } ( ){ }(1) (1)arg max Pr | ln Pr |optimal i iP Pi P g P P g Pα

α α α⎡ ⎤ ⎡ ⎤= Φ × Φ⎣ ⎦ ⎣ ⎦ (4.18)

Observe que ( ){ } ( ){ }(1) (1)Pr | ln Pr |i iP PP g P P g Pα α⎡ ⎤ ⎡ ⎤Φ ⋅ Φ⎣ ⎦ ⎣ ⎦ es el término que se

encuentra dentro de la sumatoria en (4.16). La optimización de (4.18) se puede obtener

como:

Paso 1: Estimar samplesN muestras de α, jα , uniformemente distribuida en el intervalo

[ ]0,1 :

86

1 0 1jsamples

samplesj j N

Nα = ⋅ ≤ ≤ −

Paso 2: Estimar ( )| jPg P α⎡ ⎤Φ⎣ ⎦ con (4.8) y (4.9), donde jα se calcula como se

describe en el paso anterior.

Paso 3: A cada frame i, calcular ( ){ } ( ){ }(1) (1)Pr | ln Pr |j ji iP PP g P P g Pα α⎡ ⎤ ⎡ ⎤Φ ⋅ Φ⎣ ⎦ ⎣ ⎦

donde jα se define en el paso 1. Paso 4: A cada frame i, estimar ( )optimal iα utilizando una aproximación polinomial en

base al método mencionado en la sección 4.3.1.

Paso 5: Finalmente, el score P se calcula como:

( ) ( ) ( ){ }(1) (2)

1

1 1I


P A i P i PI

α α=

⎡ ⎤= − ⋅ + ⋅⎣ ⎦∑ (4.19)

4.4.3 Estimación de optimalα como promedio de ( )optimal iα

Si el α óptimo se estima frame por frame como se describe en la sub-sección 5.3.2,

optimalA se puede obtener como ( ){ }optimal i optimalA iα α= = , con 1 i I≤ ≤ , donde ( )optimal iα se

define como:

( )1

1( )N

optimal optimali

i iN

α α=

= ∑ (4.20)

Finalmente, el score P se estima como:

( )( ) ( )( ) ( )(1) (2)

1

1 1N


P i i P i PT

α α α=

⎡ ⎤= − ⋅ + ⋅⎣ ⎦∑ (4.21)

87

4.5 Experimentos

Para evaluar la técnica propuesta, en este capítulo se presentan resultados con la base de

datos YOHO (Campbell & Higgins, 1994a) descrita en el capítulo 3. La base de datos

YOHO fue divida en tres grupos: YOHO_A, YOHO_B y YOHO_C. La base de datos

YOHO_A, compuesta de 80 usuarios (65 hombres y 15 mujeres), es utilizada para test.

YOHO_B, compuesta de 17 usuarios (12 hombres y 5 mujeres), fue empleada para estimar

los pesos de la combinación lineal según (Brümmer, et al., 2007). Finalmente, YOHO_C,

compuesta de 41 usuario (29 hombres y 12 mujeres), fue utilizado para entrenar el modelo

SI requerido para el clasificador VBS según (Furui, 1997) y la clase impostor en el

clasificador SVM (Burges, 1998; Campbell, et al., 2004).

La técnica propuesta de combinación lineal de clasificadores basado en información

mutua es comparada con el método para optimizar una combinación lineal de clasificadores

descrito en (Brümmer, et al., 2007), donde los pesos para la fusión son estimados a priori

mediante el método de logistic regression (Pigeon, et al., 2000). Dos clasificadores son

combinados: Viterbi based score (VBS) y support vector machine (SVM).

4.5.1 Clasificadores

Como se ha mencionado en este capitulo, se utilizaron dos técnicas estándar para

verificación de locutor: Viterbi based score, VBS (Furui, 1997); y Support Vector

Machines, SVM (Campbell, et al., 2004). La descripción de cada clasificador se encuentra

en la sección 2.3.3.

4.5.2 Configuración de los experimentos

El enrolamiento y la verificación se descomponen en secuencia de trifonemas. Treinta y

tres coeficientes cepstrales son calculados por frame: la energía del frame mas diez

coeficientes estáticos y su primera y segunda derivada. Como se ha mencionado antes en

este capitulo, por cada señal hay aproximadamente 300 frames. En VBS, los HMM’s son

88

entrenados con el algoritmo de Viterbi. Cada trifonema es modelado con la topología de

tres estados de izquierda a derecha sin salto de transiciones, con una gaussiana

multivariable por estado en el modelo SD y ocho gausianas multivariables para el modelo

SI. Ambos modelos emplean una matriz de covarianza diagonal. SVM se aplica de la

siguiente forma: 100 y 4100 codewords para la clase cliente e impostores, respectivamente;

el algoritmo K-means se utiliza para estimar los codebooks; y, se emplea un kernel

polinomial (Wan & Campbell, 2000). Los errores de FA y FR en la base de datos

YOHO_A se estiman usando el siguiente procedimiento: las curvas de FR se calculan con

80 usuarios x 40 señales de verificación por cliente = 3200 señales; y la curva FA se

obtiene con 79 impostores x 3 señales de verificación por impostor x 80 usuarios = 18960

experimentos.

El sistema baseline en este capítulo esta dado por el VBS que es el clasificador con la

tasa de acierto más elevada de acuerdo a la Tabla 4.1. Como se mencionó en el capitulo 3,

el bajo desempeño de SVM se debe a que este clasificador no ha sido propuesto para el

problema de verificación de locutor texto dependiente.

De acuerdo al método propuesto en este capitulo, la combinación lineal de

clasificadores definida en (4.2) se optimiza señal por señal, sin distribuciones a priori o

pesos previamente estimados, utilizando solamente la base da datos YOHO_A. Como

se ha descrito en la sección 4.4, tres estrategias para la optimización on-line de la

combinación lineal de clasificadores son presentadas: Optimización independiente del

frame, OIF, según (4.17); Optimización dependiente del frame, ODF, como se definió

en (4.19); y, el promedio de la optimización dependiente del frame, PODF, como se

indica en (4.21). La aproximación polinomial implementada corresponde al método de

ajuste lineal por mínimos cuadrados, linear least square fitting, (Rice, 1995). Los

resultados se muestran en las Tablas 4.2-4.4 y la Figura 4.6 .

89

Tabla 4.1: EER (%) y área bajo la curva DET de los clasificadores individuales: VBS, Viterbi

based score; y, SVM, support vector machine.

Clasificador EER (%) Area bajo la curva DET

VBS 0,78 3,2

SVM 2,46 25,1

Tabla 4.2: EER (%) vs. la optimización en base a la aproximación polinomial para la combinación

lineal de clasificadores VBS/SVM con PODF (Promedio de la optimización dependiente del frame)

de acuerdo a (4.20).

Orden del polinomio Nsamples

3 4 5 6 7 8 9

6 0,57 0,6 0,6 - - - -

8 0,57 0,58 0,57 0,61 0,61 - -

10 0,56 0,59 0,6 0,59 0,59 0,58 0,59

4.6 Discusiones

La tabla 4.2 muestra la combinación VBS/SVM optimizada de acuerdo a PODF descrito en

la sub-sección 4.4.3. Como se puede observar de la tabla 4.2, hay un amplio rango de

valores de sampleN y ordenes polinomiales donde PODF con VBS/SVM logra mejoras

significativas en EER comparada con el mejor clasificador (VBS). Este resultado valida el

criterio de optimización descrita en la sección 4.4. Al comparar con VBS, con sampleN y

orden polinomial igual a 10 y 3, respectivamente, se obtienen reducciones en EER tan altas

como un 28%. La tabla 4.3 presenta resultados con OIF, ODF y PODF para optimizar la

combinación lineal de clasificadores VBS/SVM. Según la tabla 4.3, OIF, ODF y PODF

obtienen reducciones en EER iguales a 12%, 4% y 28%, respectivamente, al comparar con

VBS (el clasificador con menor EER). La mejora en el error de clasificación del método

presentado en este capítulo se puede observar en la Figura 4.6, donde las curvas DET de la

90

combinación VBS/SVM optimizadas con el método PODF, descrito en la sub-sección

4.4.3, es comparada con el mejor clasificador, VBS. El mismo comportamiento se observa

en la tabla 4.3. Comparado con VBS, se logran reducciones en área bajo la curva DET

iguales a 3%, 3% y 41% con, respectivamente, VBS/SVM optimizado con OIF (sub-

sección 4.4.1); ODF (sub-sección 4.4.2); y PODF (sub-sección 4.4.3).

Figura 4.6: Curvas DET, en línea continua para VBS y en línea punteada la combinación lineal de

clasificadores VBS/SVM optimizados con PODF (Promedio de la optimización dependiente del

frame) de acuerdo a (4.20).

Tabla 4.3: EER y área bajo la curva DET con la optimización basada en la aproximación

polinomial (Nsample y orden de los polinomios igual a 10 y 3, respectivamente). La combinación

lineal de clasficadores VBS/SVM se optimiza de acuerdo a: OIF, Optimización independiente del

frame, descrito en la sección 4.4.1; ODF, optimización dependiente del frame, ver sección 4.4.2; y

PODF, Promedio de la optimización dependiente del frame, descrito en la sección 4.4.3.

Optimización on-line de la combinación lineal de

clasificadores utilizando información mutual EER

Area bajo la curva

DET

OIF de acuerdo a (4.16) 0,69 3,1

ODF de acuerdo a (4.18) 0,75 3.1

PODF de acuerdo a (4.20) 0,56 1,9

91

Tabla 4.4: optimización off-line de la combinación lineal de clasificadores VBS/SVM con LLR,

logistic regression linear combination (Brümmer et al., 2007). Los pesos de la fusión se estiman

con la base de datos YOHO_B y se testea con YOHO_A.

Optimización off-line de la combinación lineal con Logistic

Regresión

EER Area bajo la curva

DET

VBS/SVM 0,63 2,14

La mejora en la clasificación obtenida en la optimización de la combinación lineal

de clasificadores con logistic linear regression (Brümmer, et al., 2007) LLR, se presenta en

la Tabla 4.4. Comparado con LLR, PODF obtiene reducciones en EER igual a 11%. Este

resultado valida fuertemente el método propuesto. En contraste a los esquemas más clásicos

de combinación de MCS, el método basado en la información mutua presentado en este

capitulo no requiere la estimación a priori de ninguna distribución o pesos pre-estimados.

En consecuencia, el escenario de comparación es el peor posible ya que las condiciones de

matching entre entrenamiento y test son altamente satisfactorias en los experimentos

realizados aquí. Como resultado, el método descrito en este capítulo es especialmente

prometedor para hacer frente al problema de combinación de clasificadores en ambientes

donde no se cumple la condición de matching en entrenamiento y test.

A pesar que el clasificador SVM obtiene un EER muy alto en comparación a VBS, la

información adicional que provee SVM es capaz de mejorar el desempeño del mejor

clasificador. El EER obtenido por VBS es comprable al estado-del-arte encontrado en la

literatura especializada (0.5 – 0.8) (Dong & Zhaohui, 2001; Gu & Thomas, 1999; Lei, et

al., 2006; Liu, et al., 2006; Pellom & Hansen, 1998). Como resultado, la optimización de

una combinación lineal de score de clasificadores utilizando información mutua se

convierte en un interesante método para reducir el error del clasificador más preciso dado

un set de expertos.

92

4.7 Conclusiones

En este capítulo se propuso un método para realizar la combinación de clasificadores de

modo on-line, es decir, la optimización de los parámetros para la fusión se realizan

solamente con las señales de test. La fusión on-line se realizó mediante la optimización de

una combinación lineal de clasificadores utilizando un criterio basado en la información

mutua. La técnica fue testeada en la tarea de verificación de locutor texto dependiente. La

combinación lineal es una de las aproximaciones más populares en reconocimiento de

patrones de la combinación de Bayes. El método descrito, no requiere distribuciones a

priori o pesos pre-estimados con datos de entrenamiento. La estimación de los pesos de la

combinación lineal de clasificadores se realiza solamente con la información obtenida de la

señal de test. Como consecuencia, la técnica propuesta es capaz de capturar la dependencia

de los clasificadores de la señal de test. Esto es especialmente prometedor para abordar el

problema de fusión de multi-clasificadores cuando no se cumplen las condiciones de

matching entre las condiciones de entrenamiento y de test. La idea es mejorar el

clasificador mas preciso incorporando la información adicional que provee el segundo

clasificador. Los resultados presentados aquí muestran que la estrategia de optimización

presentada aqui de la combinación lineal de clasificadores on-line logra reducciones en

EER tan altas como un 28% y 11% comparadas con el mejor clasificador y con un método

estándar de combinación descrito en (Brümmer, et al., 2007), respectivamente. El escenario

de comparación es el peor posible para el esquema presentado, debido a que las

condiciones de matching adoptadas en entrenamiento y test son altamente satisfactorias. Es

importante destacar que la optimización on-line de multi-clasificadores propuesta en este

capitulo es aplicable a cualquier problema de reconocimiento de patrones. El presente

método no utiliza información sobre los ambientes de entrenamiento-test y logra

significantes reducciones en EER. Observe que la tarea de mejorar el desempeño de un

clasificador altamente optimizado no es una tarea fácil. Adicionalmente, MCS es una

prominente subdisciplina en el área de reconocimiento de patrones (Kuncheva & Whitaker,

2003), aunque es un tema reciente en el área de procesamiento de voz.

93

Finalmente, la evaluación del método propuesto en condiciones diferentes para

entrenamiento y test, la aplicación del esquema propuesto a una combinación de tres o más

clasificadores y a otro problema de clasificación, y la reducción del costo computacional en

el procedimiento de optimización se proponen como investigación a futuro.

94

Capítulo 5

Conclusiones

5.1 Resumen de los resultados

El objetivo principal de esta tesis es proponer y evaluar nuevas estrategias de combinación

de multi-clasificadores y compararlas con técnicas estándares de fusión. Para ello, se

propusieron dos nuevos métodos para fusionar sistemas de clasificadores: combinación con

una medida de confiabilidad basada en Bayes; y fusión lineal de clasificadores utilizando

teoría de la información. Ambas técnicas se evaluaron en dos tasks de verificación de

locutor texto dependiente. Sin embargo, las dos técnicas propuestas son, en principio,

generalizables a cualquier problema de reconocimiento de patrones independiente del

número de clases. Las estrategias de combinación presentadas se desarrollaron en base a

dos metodologías de optimización de parámetros. En el caso de la combinación utilizando

medida de confiabilidad, la estimación de los parámetros de la fusión se realiza con datos a

priori. Este proceso es llamado también optimización off-line. En la combinación lineal en

base a la teoría de la información, se explora la optimización on-line, es decir, se utiliza la

información de la señal de test para calcular los parámetros de la fusión de clasificadores.

El primer método de combinación propuesto y evaluado en esta tesis fue la fusión

de clasificadores utilizando una medida de confiabilidad basada en la Bayes-based

confidence measure, BBCM. El esquema presentado es un cambio de paradigma en lo que

respecta la optimización del criterio de clasificación, puesto que se propone maximizar la

confiabilidad en vez de la probabilidad a posteriori. Se muestra además que la fusión con

BBCM corresponde a la combinación clásica de Bayes ponderada por la confiabilidad de

cada clasificador individual. También se muestra que la BBCM provee un modelo formal

para pesos heurísticos empleados por otros autores. Para evaluar el desempeño del método

de combinación por BBCM propuesto, se realizó la fusión de un sistema de tres

clasificadores estándares en el problema de verificaron de locutor. La combinación por

BBCM se comparó con el esquema clásico de fusión bayesiana. Los resultados obtenidos

95

mostraron que el método de propuesto basado en BCBM cuando es comparado con el

mejor clasificador y la combinación de Bayes fue capaz de obtener reducciones tan altas

como un 53% y 37% en EER; y, en el área bajo la curva ROC un 68% y 35%,

respectivamente.

El segundo método presentado en esta tesis tiene como objetivo realizar la

combinación de modo on-line. La estrategia propuesta optimiza una combinación lineal de

clasificadores utilizando la información mutua obtenida señal-por-señal. El método no

requiere de distribuciones a priori o pesos pre-estimados con datos de entrenamiento. Como

consecuencia, la técnica descrita en esta tesis es capaz de capturar la dependencia de los

clasificadores de la señal de test. Esto es especialmente prometedor para abordar el

problema de fusión de multi-clasificadores cuando no se cumplen las condiciones de

matching entre los ambientes de entrenamiento y test. La idea es mejorar el clasificador

más preciso incorporando la información adicional que provee el segundo experto que

puede ser mucho más inexacto. Para evaluar el método de fusión on-line se utiliza una task

de verificación de locutor texto dependiente combinando dos clasificadores. Los resultados

presentados en esta tesis muestran que la optimización de la combinación lineal de

clasificadores on-line pueden lograr reducciones en EER tan altas como un 28% y 11% al

comparar con, respectivamente, el mejor clasificador y con un método estándar de

combinación ampliamente utilizada en la literatura. Es interesante destacar que, aunque

evaluado inicialmente con dos clasificadores, el criterio de la minimización de la

información mutua es generalizable a un número mayor de sistemas de clasificación. Por

otro lado, también es importante resaltar que en la actualidad no se encuentran en la

literatura técnicas de fusión que realicen la optimización de los parámetros de combinación

solamente con las señales de test, por lo cual lo cual la fusión on-line propuesta aquí,

representa un avance importante al estado-del-arte en el área de reconocimiento de

patrones.

Los dos esquemas propuestos en esta tesis logran superar el desempeño del

clasificador más exacto y de sistemas de fusión clásicos utilizados ampliamente en la

literatura. Por otra parte, hay que destacar que en los diseños de estrategias de combinación

presentados aquí se hayan analizado y explorado dos condiciones diferentes de

optimización: off-line y on-line. Finalmente, Los dos métodos de combinación de

96

clasificadores propuestos en esta tesis presentan un avance en el campo de MCS, disciplina

que se actualmente produce un alto interés en el área de reconocimiento de patrones y, en

particular, en el campo de la biometría.

5.2 Trabajo Futuro

Evaluar los dos métodos de fusión de clasificadores propuestos en esta tesis en el contexto

de verificación de locutor en condiciones de mismatch entre los datos de entrenamiento y

de test se puede considerar como una continuidad natural de esta investigación. Este

mismatch puede ser provocado por: variabilidad intra-locutor; ruido aditivo; y distorsión de

canal. Paralelamente, la generalización a otros problemas de reconocimiento de patrones de

los métodos de fusión de clasificadores presentados aquí es un tema que debe ser abordado

en el corto o mediano plazo. En particular la aplicación del criterio de la minimización de

la información mutua para optimizar la combinación lineal de tres o más clasificadores es

también un tópico que podría ser explorado como tema de investigación a futuro.

97

Referencias

[1] J. Kittler, M. Hatef, R. P. W. Duin et al., “On combining classifiers,” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 20, pp. 226-239, 1998.

[2] T. G. Dietterich, "Ensemble methods in machine learning," Workshop on Multiple Classifier Systems. pp. 1-15, 2000.

[3] L. I. Kuncheva, J. C. Bezdeck, and R. P. W. Duin, “Decision templates for multiple classifier fusion: an experimental comparison,” Pattern Recognition, vol. 34(2), pp. 299-314, 2001.

[4] L. I. Kuncheva, “A Theoretical Study on Six Classifier Fusion Strategies,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 24 (2), pp. 281-286, 2002.

[5] L. Kuncheva, Combining Pattern Classifiers: Methods and Algorithms: Wiley-Interscience, 2004.

[6] R. Ranawana, and V. Palade, “Multi-Classifier Systems: Review and a roadmap for developers,” Int. J. Hybrid Intell. Syst., pp. 35-61., 2006.

[7] M.-W. Mak, M.-C. Cheung, and S.-Y. Kung, "Robust speaker verification from GSM-transcoded speech based on decision fusion and feature transformation," International Conference on Acoustics, Speech, and Signal Processing (ICASSP). pp. 745 -748, 2003a.

[8] R. Duda, and P. Hart, Pattern classification and scene analysis: John Wiley and Sons, 1973.

[9] J. Kittler, and F. M. Alkoot, “Sum versus Vote Fusion in Multiple Classifier Systems,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 25, no. 1, 2003.

[10] G. Fumera, and F. Roli, “A theoretical and experimental analysis of linear combiners for multiple classifier systems,” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 27(6), pp. 942-956, 2005.

[11] D. M. J. Tax, R. P. W. Duin, and M. Van Breukelen, "Comparison between product and mean classifier combination rules," In Proc. of International Conference on Statistical Techniques in Pattern Recognition. pp. 165-170, 1997.

[12] T. J. Hazen, T. Burianek, J. Polifroni et al., "Recognition confidence scoring for use in speech understanding systems," In Proc. ISCA Tutorial Research Workshop. pp. 213–220, 2000.

[13] C. De Stefano, A. Della Cioppa, and A. Marcelli, "An Adaptive Weighted Majority Vote Rule for Combining Multiple Classifiers," Proceedings of the 16 th International Conference on Pattern Recognition (ICPR). pp. 192-195, 2002.

[14] M. Esmaeili, and M. Rahmati, “Creating of Multiple Classifier Systems by Fuzzy Decision Making in Human-Computer Interface Systems ” IEEE International Fuzzy Systems Conference, pp. 1-7, 2007.

[15] D. Genoud, F. Bimbot, G. Gravier et al., "Combining methods to improve speaker verification," ICSLP. pp. 1756-1759, 1996.

[16] S. Tamura, K. Iwano, and S. Furui, "Toward robust multimodal speech recognition," LKR2005, 2005.

98

[17] B. Fassinut-Mombot, and J.-B. Choquel, "An Entropy Method For Multisource Data Fusion," Proceedings of the Third International Conference on Information Fusion. pp. 17-23, 2000.

[18] H. Pan, Z. P. Liang, and T. S. Huang, "Exploiting the Dependencies in Information Fusion," Proceedings of IEEE Conf. Computer Vision and Pattern Recognition. pp. 407-412, 1999.

[19] H. Pan, Z.-P. Liang, and T. S. Huang, "A new approach to integrate audio and visual features of speech," IEEE International Conference on Multimedia and Expo (ICME). pp. 1093-1096, 2000.

[20] H.-J. Kang, and D. Doermann, "Selection of Classifiers for the Construction of Multiple Classifier Systems," Proceedings of the 2005 Eight International Conference on Document Analysis and Recognition (ICDAR), 2005.

[21] M. Beckerman, “A Bayes-Maximum Entropy Method For Multi-sensor Data Fusion,” in International Conference on Robotics and Automation, Nice, France, 1992, pp. 1668-1674.

[22] L. Di, Z. Yi, and Y. Yu, “Sensor Management Based on Cross-entropy,” in Instrumentation and Measurement Technology Conference, Vail, CO, USA, 2003, pp. 1555-1558.

[23] Y. Zhou, and H. Leung, “Minimum Entropy Approach for Multisensor Data Fusion,” in IEEE Signal Processing Workshop on Higher-Order Statistics, Banff, Alta., Canada, 1997, pp. 336-339.

[24] K. Chen, L. Wang, and H. Chi, “Methods of Combining Multiple Classifiers with Different Features and Their Applications to Text-Independent Speaker Identification,” International Journal of Pattern Recognition and Artificial Intelligence, vol. 11, pp. 417-445, 1997.

[25] K. R. Farrel, "Text-dependent speaker verification using data fusion," ICASSP. pp. 349-352, 1995.

[26] K. R. Farrel, R. P. Ramachandran, M. Sharma et al., "Sub-word speaker verification using data fusion methods," IEEE Workshop on Neural Networks for Signal Processing. pp. 531-540, 1997.

[27] B. Xiang, and T. Berger, “Efficient text-independent speaker verification with structural Gaussian mixture models and neural network,” IEEE Trans. on Speech and Audio Process, vol. 11, pp. 447- 456, 2003.

[28] B. Yegnanarayana, S. R. Mahadeva Prasanna, J. M. Zachariah et al., “Combining evidence from source, suprasegmental and spectral features for a fixed-text speaker verification system,” IEEE Trans. on Speech and Audio Process, vol. 13(4), pp. 578-582, 2005.

[29] M. F. Benzeghiba, and H. Bourlard, "Hybrid HMM/ANN and GMM combination for user-customized password speaker verification," ICASSP. pp. 225-228, 2003.

[30] M.-W. Mak, M.-C. Cheung, and S.-Y. Kung, “Robust speaker verification from GSM-transcoded speech based on decision fusion and feature transformation,” ICASSP, pp. 745 -748, 2003b.

[31] T. Kim, and H. Ko, "Utterance verification under distributed detection and fusion framework," Eurospeech. pp. 889-892, 2003.

[32] L. Lam, “Classifier Combinations: Implementations And Theoretical Issues, Multiple Classifier Systems ” Lect. Notes in Comp. Sci. (LNCS-1857), pp. 77–86, 2000.

99

[33] P. Kumar Sharma, "Multiple Classifiers for Unconstrained Offline Handwritten Numeral Recognition," International Conference on Computational Intelligence and Multimedia Applications. pp. 244-248, 2007.

[34] M. Liwicki, and H. Bunke, "Combining On-Line and Off-Line Systems for Handwriting Recognition," Ninth International Conference on Document Analysis and Recognition. pp. 422-426, 2007.

[35] L. Xu, A. Krzyzak, and C. Y. Suen, “Methods of combining multiple classifiers and- their applications to handwriting recognition,” IEEE Trans. Syst.. Man, Cybern., no. 418-435., 1992.

[36] Y. C. Tzeng, "Remote Sensing Images Classification/ Data Fusion Using Distance Weighted Multiple Classifiers Systems," Proceedings of the Seventh International Conference on Parallel and Distributed Computing, Applications and Technologies. pp. 56-60, 2006.

[37] P. Parveen, and B. Thuraisingham, "Face Recognition Using Multiple Classifiers," International Conference on Tools with Artificial Intelligence. pp. 179-186, 2006.

[38] L. I. Kuncheva, and C. Whitaker, “Measures of Diversity in Classifier Ensembles and Their Relationship with the Ensemble Accuracy,” Machine Learning, vol. 51, no. 2, pp. 181 - 207 2003.

[39] S. Furui, “Recent advances in speaker recognition,” Pattern Recognition Letters, vol. 18, pp. 859-872, 1997.

[40] F. Bimbot, J.-F. Bonastre, C. Fredouille et al., “A Tutorial on Text-Independent Speaker Verification,” EURASIP Journal on Applied Signal Processing, pp. 430-451, 2004.

[41] N. B. Yoma, and M. Villar, “Speaker Verification in noise using a stochastic version of the weighted Viterbi algorithm,” IEEE Transactions on Speech and Audio Processing, vol. 10, no. 3, 2002.

[42] NIST, The NIST Year 2006 Speaker Recognition Evaluation Plan. (http://www.nist.gov/speech/tests/spk/2006/), 2006.

[43] L. F. Lamel, L. R. Rabiner, A. E. Rosenberg et al., “An improved endpoint detector for isolated word recognition,” IEEE Trans. on Acoustics speech, and signal processing, vol. ASSP-29, pp. 777-785, 1981.

[44] M. H. Savoji, “A robust algorithm for accurate endpointing of speech signals,” Speech Communication archive, vol. 8, no. 1, pp. 45-60, 1989.

[45] J. Picone, "Signal Modeling Techniques in Speech Recognition," Proceedings of the IEEE, Vol. 81. pp. 1215-1247, 1993.

[46] M. Forsyth, “Discriminating observation probability (dop) hmm for speaker verification,” Speech Communications, vol. 17, pp. 117-129., 1995.

[47] F. Jelinek, Statistical methods for speech recognition: Massachusetts Institute of Technology, 1997.

[48] T. Matsui, and S. Furui, "Concatenated phoneme models for text-variable speaker recognition," Proceedings of ICASSP. pp. 391-394, 1993.

[49] A. Higgins, L. Bahler, and J. Porter, “Speaker verification using randomized phrase prompting.,” Digital Signal Processing, vol. 1, pp. 89-106, 1991.

[50] V. Radova, and A. Padrta, "Comparison of several speaker verification procedures based on GMM," Interspeech. pp. 1777-1780, 2004.

[51] V. N. Vapnik, Statistical Learning Theory, 1998.

100

[52] C. J. C. Burges, “A tutorial on support vector machines for pattern recognition,” Data Mining and Knowledge Discovery, vol. 2, pp. 121–167, 1998.

[53] W. M. Campbell, J. P. Campbell, D. A. Reynolds et al., "High-level speaker verification with support vector machines," ICASSP. pp. 73-76, 2004.

[54] V. Wan, and W. M. Campbell, "Support vector machines for speaker verification and identification," In Proc. Neural Networks for Signal Processing X. pp. 775-784, 2000.

[55] M.-S. Kim, I.-H. Yang, and H.-J. Yu, "Maximizing Distance between GMMs for Speaker Verification Using Particle Swarm Optimization," Fourth International Conference on Natural Computation. pp. 175-178, 2008.

[56] R. A. Finan, A. T. Sapeluk, and R. I. Damper, "Text-independent speaker verification using predictive neural networks," International conference on artificial neural networks, 1997.

[57] A. Paoloni, S. Ragazzini, and G. Ravaioli, "Predictive neural networks in text independent speaker verification: an evaluation on the SIVA database," International Conference on Spoken Language (ICSLP). pp. 2423 - 2426, 1996.

[58] U. Ig-Tae, W. Jong-Jin, and K. Moon-Hyun, "Text independent speaker verification using modular neural network," International Joint Conference on Neural Networks (IJCNN). pp. 97 - 102, 2000.

[59] H. Aronowitz, "Speaker Recognition Using Kernel-PCA and Intersession Variability Modeling," INTERSPEECH. pp. 298-301, 2007.

[60] L. Ming, X. Yujuan, and L. Ruiling, "Hierarchical Speaker Verification Based on PCA and Kernel Fisher Discriminant," International Conference on Natural Computation. pp. 152-156 2008.

[61] H. S. Jayanna, and S. R. M. Prasanna, "Fuzzy vector quantization for speaker recognition under limited data conditions," TENCON. pp. 1-4, 2008.

[62] J. P. Openshaw, S. P. Sun, and J. S. Mason, "A comparison of composite features under degraded speech in speaker recognition," Proceedings of ICASSP. pp. 371-374, 1993.

[63] N. B. Yoma, J. Carrasco, and C. Molina, “Bayes-Based Confidence Measure in Speech Recognition,” IEEE Signal Processing Letters, vol. 12, no. 11, pp. 745-748, 2005.

[64] M. Andorno, Laface, P., Gemello, R., , "Experiments in confidence scoring for word and sentence verification," Proceedings ICSLP. pp. 1377–1380, 2002.

[65] K. Y. Kwan, T. Lee, and C. Yang, "Unsupervised N-best based model adaptation using model-level confidence measures," In Proc. ICSLP. pp. 69–72., 2002.

[66] C. H. Lee, and Q. Huo, "On adaptive decision rules and decision parameter adaptation for automatic speech recognition," Proc. IEEE. pp. 1241–1267., 2000.

[67] A. Stolcke, K. Y., and M. Weintraub, "Explicit word error minimization in N-best list rescoring," In Proc. 5th Eur. Conf. Speech Communication Technology. pp. 163–166, 1997.

[68] J. Campbell, and A. Higgins, “YOHO Speaker Verification,” in Linguistic Data Consortium, Philadelphia, 1994a.

[69] J. Campbell, and A. Higgins, YOHO Speaker Verification, Philadelphia, 1994b. [70] Y. Chen, C.-Y. Wan, and L.-S. Lee, "Entropy-based Feature Parameter Weighting

for Robust Speech Recognition," International Conference on Acoustics, Speech and Signal Processing, 2006.

101

[71] B. Fassinut-Mombot, and J.-B. Choquel, “A new probabilistic and entropy fusion approach for management of information sources,” Information Fusion, vol. 5, pp. 35-47, 2004.

[72] M. Saerens, and F. Fouss, “Yet Another Method for Combining Classifiers Outputs: A Maximum Entropy Approach,” Lecture Notes in Computer Science, vol. 3077, pp. 82-91, 2004.

[73] H.-J. Kang, and S.-W. Lee, "Combining Classifers based on Minimization of a Bayes Error Rate," Proc. 5th int. Conf. On Document Analysis and Recognition. pp. 398-401, 1999.

[74] G. Gravier, S. Axelrod, G. Potamianos et al., “Maximum Entropy and MCE based HMM Stream Weight Estimation for Audio-Visual ASR,” in ICASSP, 2002, pp. 853-856.

[75] A. C. S. Chung, and H. C. Shen, "Dependence in Sensory Data Combination," International Conference on Intelligent Robots and Systems. pp. 1676-1681, 1998.

[76] A. L. Berger, S. A. Della Pietra, and D. P. V. J., “A Maximum Entropy Approach to Natural Language Processing,” Computational Linguistics, vol. 22, pp. 42-71, 1996.

[77] B. Nasersharif, and A. Akbari, “Improved HMM entropy for Robust sub-band speech recognition,” in Eusipco, Turkey, 2005.

[78] M. Matton, M. De Wachterz, D. V. Compernollez et al., “Maximum Mutual Information Training of Distance Measures for Template Based Speech Recognition,” in International Conference on Speech and Computer, Patras, Greece, 2005, pp. 511-514.

[79] M. K. Omar, K. Chen, M. Hasegawa-Johnson et al., “An evaluation of using Mutual Information for selection of acoustic-features representation of phonemes for Speech Recognition,” in ICSLP, Denver, USA, 2002, pp. 2129-2132.

[80] A. C. Lazo, and P. N. Rathie, “On the entropy of continuous probability distributions,” IEEE Transactions on Information Theory, vol. IT-24, 1978.

[81] R. Gray, Entropy and Information Theory, 1 ed., p.^pp. 332, New York: Springer-Verlag New York, Inc., 1990.

[82] C. Molina, N. Becerra Yoma, F. Huenupán et al., “Modelling, Maximum Entropy-Based Reinforcement Learning Using a Confidence Measure in Speech Recognition for Telephone Speech,” IEEE Transactions on Audio, Speech and Language Processing, vol. 18, no. 2, 2010.

[83] N. Brümmer, L. Burget, J. Cernocký et al., “Fusion of Heterogeneous Speaker Recognition Systems in the STBU Submission for the NIST Speaker Recognition Evaluation 2006,” IEEE Transactions on Speech and Audio Process, vol. 15, no. 7, pp. 2072-2084, 2007.

[84] S. Pigeon, P. Druyts, and P. Verlinde, “Applying Logistic Regression to the Fusion of the NIST'99 1-Speaker Submissions,” Digital Signal Processing, vol. 10, no. 1, pp. 237-248, 2000.

[85] J. Rice, "Mathematical statistics and data analysis," W. publishing, ed., pp. 507-570, 1995.

[86] X. Dong, and W. Zhaohui, “Speaker recognition using continuous density support vector machines,” Electronics Letters, vol. 37, no. 17, pp. 1099-1101, 2001.

[87] Y. Gu, and T. Thomas, "A hybrid score measurement for hmm-based speaker verification," ICASSP. pp. 317-320, 1999.

102

[88] Z. Lei, Y. Yang, and Z. Wu, "An UBM-Based Reference Space for Speaker Recognition," International Conference on Pattern Recognition (ICPR), 2006.

[89] Y. Liu, M. Russell, and M. Carey, "The role of dynamic features in text-dependent and -independent speaker verification," ICASSP. pp. 669-672, 2006.

[90] B. L. Pellom, and J. H. L. Hansen, “An Efficient Scoring Algorithm for Gaussian Mixture Model Based Speaker Identification,” IEEE Signal Processing Letters, vol. 5, no. 11, pp. 281-284, 1998.

103

Anexo

Publicaciones del autor

Artículos en revistas internacionales como primer autor

• Fernando Huenupán, Néstor Becerra Yoma, Claudio Garretón and Carlos

Molina. “On-line linear combination of classifiers based on incremental

information in speaker verification,” Aceptado para publicar en ETRI (Electronics

and Telecommunications Research Institute). 2010.

• Fernando Huenupán, Nestor Becerra Yoma, Carlos Molina and Claudio

Garretón. “Confidence based multiple classifier fusion in speaker verification,”

Pattern Recognition Letters, Volume 29, Issue 7, 1, Pages 957-966. May 2008.

Artículo en proceedings de congresos internacionales como primer autor

• Fernando Huenupan, Néstor Becerra Yoma, Carlos Molina, Claudio Garretón.

“Speaker verification with multiple classifier fusion using Bayes based confidence

measure,” INTERSPEECH 2007. August 27-31, Antwerp, Belgium. 2007.

FUSIÓN DE MÚLTIPLES CLASIFICADORES EN VERIFICACIÓN DE … · sistema de verificación de...

Documents

Transcript of FUSIÓN DE MÚLTIPLES CLASIFICADORES EN VERIFICACIÓN DE … · sistema de verificación de...