Experimentos - Universidad de Sevillabibing.us.es/Proyectos/Abreproy/3851/Fichero/PFC-5.pdfEn este...

Capıtulo 5

Experimentos

5.1. Introduccion

En este capıtulo se describiran los desarrollos y resultados de los experimentos realizadoscon el sistema de reconocimiento de voz presentado en este proyecto. Las pruebas sehan realizado con un ordenador portatil de gama media. Este ordenador consta de unmicroprocesador mobile AMD Athlon XP2500+ a 1.86 GHz. y con 512 Mb de memoriaRAM (64 de ellos compartidos con la tarjeta grafica). La tarjeta de sonido es una tarjetaintegrada en la placa base Conexant AC-Link Audio y se ha empleado para la captura deaudio un microfono corriente de uso domestico.

Para mostrar el entrenamiento y el reconocimiento mediante modelos ocultos de Markovse han elegido las cinco vocales empleadas en el habla del espanol. Se han elegido estosfonemas porque se pueden pronunciar de forma aislada para su entrenamiento en solitario.Como ya se ha comentado en el capıtulo anterior, para trabajar con un numero suficientede fonemas como para entrenar y reconocer terminos especıficos se requiere una extensabase de datos de pronunciaciones con su correspondiente segmentacion fonetica. Al nodisponer de dicha base de datos se ha optado por esta solucion para poder demostrar lateorıa expuesta mediante ejercicios practicos.

En el desarrollo del experimento se realizan mil grabaciones de cada fonema . Seanalizara la distribucion espacial de cada una de ellas en el espacio de los coeficientescepstrales y su clasificacion dentro de este espacio. Ademas se estudiara la evolucion delos niveles de acierto en funcion del volumen de entrenamiento y las caracterısticas de losmodelos.

115

116 CAPITULO 5. EXPERIMENTOS

5.2. Distribucion espacial de los vectores de coeficientes

cepstrales

De cada pronunciacion de cada fonema (de la senal muestreada de cada una paraser exacto) se extrae una secuencia de vectores de coeficientes cepstrales y se clasificacada uno de esos vectores de modo que se obtiene una secuencia de entrada para losmodelos de Markov. El hecho de que los vectores de coeficientes cepstrales caractericen lapronunciacion de un fonema queda demostrado en este experimento si se representan losvalores de estos.

En las figuras que se incluyen a continuacion (Figuras 5.1, 5.2, y 5.3) se han representadopor parejas (una en abscisas y otra en ordenadas) algunas de las componentes de estosvectores. Cada uno de los puntos representa a un vector y su color indica a que vocalpertenece (vease la leyenda de las figuras). De las trece componentes de cada vector,siendo las tres ultimas la energıa y sus derivadas primera y segunda, algunas son massignificativas en la diferenciacion entre vocales y otras apenas permiten su distincion. Seobserva en las figuras que los vectores de cada vocal, aun coexistiendo en los lımites, seencuentran localizados en zonas especıficas para cada una de ellas. Esto es el motivo porel que se aplica el proceso de agrupacion explicado en el Apartado 4.2.3 y cuyos resultadosse exponen en el siguiente apartado.

Figura 5.1: Distribucion de los coeficientes cepstrales de cada vocal en algunas de suscoordenadas.

5.3. PROCESO DE AGRUPAMIENTO O CLUSTERING 117



5.3. Proceso de agrupamiento o clustering

Como ya se ha dicho en el Capıtulo 4, para la obtencion de los distintos conjuntos delespacio o clusters se ha empleado la funcion fcm del programa Matlab. Esta funcion recibecomo entrada los vectores representativos del espacio que se quiere subdividir y devuelvelos centros que determinan dicha subdivision.

Al estar basada la pertenencia a los clusters de cada punto del espacio en la distancia


euclıdea entre unos y otros, antes de la obtencion de los centros se deben reducir lascoordenadas de los vectores de entrada a rangos similares. Un primer intento se hizonormalizando los valores de cada coordenada de los vectores. La normalizacion produjoun resultado inadecuado al encontrarse los centros concentrados en una zona determinadadel espacio en lugar de distribuirse homogeneamente entre los vectores introducidos. Seopto entonces por escalar y trasladar cada coordenada hasta que cada una se situara en unrango entre -1 y 1. Ası se obtuvieron unos centros adecuados para caracterizar las zonasentre las que se reparten los vectores de coeficientes cepstrales. Obviamente para clasificarcada nuevo vector entre estos clusters habra que someterlos a la misma transformacionrealizada para obtener los centros.

Figura 5.4: Representacion de los centros de los clusters sobre los vectores de las pronun-ciaciones de las vocales.

Estos centros se han obtenido a partir de la posicion de los vectores de doscientaspronunciaciones de cada vocal. Los vectores de coeficientes cepstrales de las cinco milpronunciaciones se clasifican en los conjuntos en los que se ha dividido el espacio. En laFigura 5.5 y en la Tabla 5.1 se representa la ocurrencia de cada vocal dentro de cada grupopara la clasificacion de 16 clusters.

5.4. Entrenamiento

Las secuencias de vectores de coeficientes cepstrales se han transformado en secuenciasde ındices de observacion, cada ındice perteneciente al conjunto donde se encuentra elvector.

5.4. ENTRENAMIENTO 119

Figura 5.5: Representacion grafica de la ocurrencia de los vectores de cada vocal en cadacluster.

0 1 2 3 4 5 6 7a 1664 5 3 65 250 5557 3 0e 1705 33 42 3 784 18 71 605i 1705 2 42 0 365 0 21 1436o 1298 787 24 5979 2180 8 140 0u 1260 6300 141 98 3238 0 774 0

8 9 10 11 12 13 14 15a 523 0 4372 527 1 75 0 0e 202 1145 0 825 340 514 531 6340i 0 1475 0 796 4352 35 3461 681o 2106 0 2 819 0 469 0 1u 133 0 0 1210 0 1086 0 0

Cuadro 5.1: Tabla de ocurrencia de los vectores de cada vocal en cada cluster.

Con las secuencias obtenidas de la pronunciacion de las vocales se han entrenado Mode-los Ocultos de Markov de 3, 4 y 5 estados. Se ha escogido como conjunto de entrenamientoquinientas de las mil grabaciones realizadas para cada vocal. Con este conjunto de entre-


namiento se han entrenado modelos con un volumen de entrenamiento desde cinco hastaquinientas unidades en incrementos de cinco unidades.

Como ya se ha visto, un modelo con mas estados tiene mas parametros que adaptarası como con 32 ındices de observacion se requieren mas parametros que con 16.

5.5. Reconocimiento

Para estudiar la capacidad de reconocimiento de los modelos entrenados en el apartadoanterior se escoge como conjunto de evaluacion las quinientas grabaciones de cada vocalque no se han incluido en el conjunto de entrenamiento. Cada una de las pronunciaciones seevalua con el modelo de cada vocal y se asigna a aquel que devuelva una mayor probabilidadde ocurrencia.

En las Tablas 5.2, 5.3, 5.4 se representan las asignaciones realizadas a cada observacionde cada vocal del conjunto de evaluacion (500 por vocal) cuando se ha aplicado todoel conjunto de entrenamiento (500 observaciones por vocal) para la construccion de losmodelos. Estas tablas corresponden a los modelos de 3, 4 y 5 estados respectivamente.

Asignada: a e i o u NAPronunciada a 492 0 0 7 1 0Pronunciada e 1 491 4 2 2 0Pronunciada i 0 64 436 0 0 0Pronunciada o 0 0 0 495 3 2Pronunciada u 0 0 0 26 474 0

Cuadro 5.2: Tabla de asignacion para el modelo de tres estados. NA: no asignadas.


Cuadro 5.3: Tabla de asignacion para el modelo de cuatro estados. NA: no asignadas.

En la Figura 5.6 se observa la influencia del volumen de entrenamiento en el nivel deacierto en el reconocimiento para cada vocal. Aunque la tendencia es una eficacia crecientecon el volumen se observan altibajos. Estos estan provocados probablemente por la entrada

5.5. RECONOCIMIENTO 121


Cuadro 5.4: Tabla de asignacion para el modelo de cinco estados. NA: no asignadas.

en el conjunto de entrenamiento de observaciones que incitan al modelo a acercarse al deotras vocales. Despues de introducirse nuevas observaciones el porcentaje de acierto siguecreciendo.

Figura 5.6: Porcentaje de acierto de cada vocal frente al volumen de entrenamiento parael modelo de cuatro estados.

En la Figura 5.7 se representa el porcentaje de acierto acumulado para las cinco vocalestambien frente al volumen de entrenamiento (tambien para el modelo de cuatro estados).

En principio un modelo se adapta mejor a los sucesos que representa cuanto mayor esel numero de parametros que contiene. Por contra, cuantos mas parametros formen unmodelo mayor es el volumen de entrenamiento necesario para adaptarlos e incluso apareceredundancia en la informacion que contienen. En estos experimentos se han entrenadomodelos ocultos de Markov de tres, cuatro y cinco estados. En la Figura 5.8 se representaconjuntamente el porcentaje de acierto total de cada modelo frente al volumen de entre-


Figura 5.7: Porcentaje de acierto frente al volumen de entrenamiento para los modelos decuatro estados.

namiento. El modelo de tres estados es demasiado simple para modelar correctamente laocurrencia de coeficientes cepstrales y obtiene tras su entrenamiento un menor porcentajede acierto que el modelo de cuatro estados. Por otra parte, el modelo de cinco estadoses demasiado complejo frente al de cuatro y con el entrenamiento aportado no alcanza elporcentaje de acierto en el reconocimiento que alcanza aquel.

Tambien es interesante observar el reconocimiento del conjunto de entrenamiento com-parado con el conjunto de validacion. En principio el conjunto de entrenamiento al habersido usado para la obtencion de los parametros del modelo debe ser reconocido con unmayor porcentaje de acierto pero su evolucion con el volumen de entrenamiento debe sermuy distinta. Vease lo expuesto al respecto al explicar el entrenamiento de las redes neu-ronales en el Apartado 3.2.2.5, y la representacion de este hecho en la Figura 3.7. En laFigura 5.9 se representa el porcentaje de acierto del conjunto de validacion junto al deentrenamiento para el modelo de cuatro estados. Se observa que el porcentaje de aciertodel conjunto de entrenamiento, como era de esperar, es claramente superior al del conjuntode evaluacion. Tambien se observa la tendencia al alza del segundo, mientras el primerodesciende levemente.

5.5. RECONOCIMIENTO 123

Figura 5.8: Porcentaje de acierto frente al volumen de entrenamiento para cada grupo demodelos entrenados.

Figura 5.9: Porcentaje de acierto frente al volumen de entrenamiento para cada grupo demodelos entrenados.

5.5.1. Robustez frente al Cambio de Hablante

El entrenamiento de los modelos de cada fonema se ha realizado para un unico hablante.El sujeto con el que se ha realizado dicho entrenamiento es un hombre de veintinueve anos.En este apartado se presentan los resultados de reconocimiento del sistema al ser empleado


por otro hablantes distintos a aquel con que se entreno.

En primer lugar se presenta la tabla de resultados (Tabla 5.6) para una mujer detreinta anos. En esta prueba se han realizado 20 grabaciones de cada vocal, que aun siendopocas frente a los experimentos anteriores, son suficientes para hacer una apreciacion delfuncionamiento de los modelos en este caso. Se aprecia un alto ındice de acierto de lasvocales ’a’, ’e’, ’i’, y ’o’ y el resultado llamativo de que las pronunciaciones de la ’u’ sonconfundidas en un 95 % con pronunciaciones de la vocal ’o’. Se pone ası de manifiestolas grandes diferencias existentes entre dos hablantes de distinto sexo y como en estesistema se confunden las caracterısticas de la pronunciacion de una vocal con las de otraal encontrarse diferencias de genero.


Cuadro 5.5: Tabla de asignacion de observaciones para la pronunciacion de una mujer de30 anos.

Por ultimo se presentan los resultados con otro hablante diferente del que ha realizadoel entrenamiento; se trata de un hombre de 27 anos y de procedencia geografica distinta.Al igual que en el caso anterior se han realizado 20 grabaciones de cada vocal. Se apreciaque aunque los aciertos son altos se da una mayor dispersion en las identificaciones. Conestas pruebas el sistema demuestra ser robusto ante un cambio de hablante.


Cuadro 5.6: Tabla de asignacion de observaciones para la pronunciacion de un hombre de27 anos.

Experimentos - Universidad de Sevillabibing.us.es/Proyectos/Abreproy/3851/Fichero/PFC-5.pdfEn este...

Documents

Transcript of Experimentos - Universidad de Sevillabibing.us.es/Proyectos/Abreproy/3851/Fichero/PFC-5.pdfEn este...