Con la Rubrica del Mariscal de Juan I. Livieres Argaña Tomo VI año 1859-60 Asunción
Proyecto Fin de Carrera Autor: Juan Carmona Mariscal Tutor: Juan Manuel Montero Martínez
description
Transcript of Proyecto Fin de Carrera Autor: Juan Carmona Mariscal Tutor: Juan Manuel Montero Martínez
DESARROLLO DE UN SEGMENTADOR FONTICO AUTOMTICO PARA HABLA EXPRESIVA BASADO EN MODELOS OCULTOS DE MARKOV
DESARROLLO DE UN SEGMENTADOR FONTICO AUTOMTICO PARA HABLA EXPRESIVA BASADO EN MODELOS OCULTOS DE MARKOVProyecto Fin de Carrera
Autor: Juan Carmona MariscalTutor: Juan Manuel Montero MartnezndiceObjetivosAnteriores trabajos relacionadosEstructura del sistemaLas bases de datosResultados de los experimentosConclusiones y lneas futuras
2Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona Mariscal2Objetivos (I)Segmentacin automtica a partir de ficheros de audio (.wav o .pcm) y su transcripcin fontica (.lab)
Empleado para segmentar archivos de habla expresiva en castellano
Conjunto de experimentos ms amplio y exhaustivo sobre una BD ya empleada, SES
Experimentos sobre BDs nuevas: SEV y UPC
Open Source
3Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona Mariscal3Objetivos (II)Restricciones de diseo Automatizacin y configurabilidad:Variables: algoritmo de parametrizacinnmero de estados de los modelosnmero de gaussianas por estadonmero de iteraciones a realizar (reestimaciones)coeficientes extra (deltas, aceleraciones, de energa)inclusin o no de normalizacin cepstral
4Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalAnteriores trabajos relacionadosSegmentacin fontica automtica de Doroteo Torres (2003). Segmentacin en dos etapas:Esquema bsico de segmentacin (comparable al nuestro) error del 20,73% para tolerancia de 20 msProcedimiento adicional de correccin estadstica de las marcas automticas reduce el error al 4%Experimentos con SES de Gallardo et al. (Interspeech 2007):Errores entre el 8,70% y el 14,45% entrenando con toda la base de datos
Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona Mariscal5Herramientas empleadasHTK (Hidden Markov Model Toolkit)
Lenguaje de scripts (archivos de procesos por lotes .bat)
Lenguaje PERLEj: perl -e "while ($_=){$v=uc \"%1_%6\";s/TARGETKIND[\s\t]+=[\s\t]+[a-zA-z_0-9]+/TARGETKIND = $v/i;print;}" < %LIB_DIR%\tmp.tmp >%CONFIG_FILE_HCOPY%6Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalEstructura del sistema (I)
7Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalLanzamiento del sistemaDefinicin de las variables del experimentoPermite barrido de una batera de experimentos de manera desatendida
Estructura del sistema (II)
8Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalDefine la estructura de las distintas etapas del procesoLlamada secuencial de cada uno de los scriptsEstructura del sistema (III)
9Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalConfiguracin del sistema y acondicionamiento de ficherosDefinicin de la BDDefinicin de conjuntos de entrenamiento y segmentacin y evaluacin de manera separadaPermite definir dos conjuntos diferentes de evaluacinGeneracin automtica de ficheros de configuracinEstructura del sistema (IV)
10Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalParametrizacin de los ficheros de entradaEstructura del sistema (V)
11Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalEntrenamiento de los modelosGeneracin automtica:Lista y diccionario de fonemasGramtica empleadaGeneracin automtica de los modelos semilla y actualizacinGenera automticamente un script para tareas dependientes de las variables definidasEstructura del sistema (VI)
12Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalReconocimiento automtico (a modo de comprobacin del funcionamiento del sistema)Generacin automtica de la red de fonemasGenera automticamente un script para tareas dependientes de las variables definidas
Estructura del sistema (VII)
13Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalSegmentacin automticaGenera automticamente un script para tareas dependientes de las variables definidas
Estructura del sistema (VIII)
14Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalEvaluacin de la segmentacin realizadaGenera automticamente un script para tareas dependientes de las variables definidas
La base de datos SESGrabaciones de actor varn simulando voz neutra y 4 emociones (alegra, enfado, sorpresa, tristeza)Contenido semntico y sintctico neutroCorpus empleado:15 frases cortas en 3 sesiones, segmentadas manualmente4 prrafos completos en 3 sesioneslos tres primeros prrafos divididos y etiquetados manualmente (1 sesin, a excepcin del enfado)
15Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalLa base de datos SEVGrabaciones de locutora (Rosa) simulando voz neutra y 6 emociones (alegra, enfado, sorpresa, tristeza, asco, miedo)Corpus empleado (todo menos Logatomos):Corpus de frases largas provenientes de prrafos de SES; 3 frases por emocin (21 en total) segmentadas manualmente Corpus de frases largas del Quijote; 2 frases por emocin (14) s.m. Corpus de Prosodia, unas frases cortas y otras largas, incluyendo interrogativas; 10 frases por emocin (70) s.m.Grabaciones de actor varn (Joaqun): dem, pero sin etiquetar manualmente16Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalResultados de los experimentosEl entrenamiento con frases produce peores resultados que con prrafos (pocos datos)17Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalResultados del cambio de versinEleccin de la versin de HTKIdnticos resultados para las versiones 3.3 y 3.4
Resultados de la optimizacin del nmero de estados, iteraciones y gaussianas (I)SES Estados: 6(4) Iteraciones: 6Gaussianas: 5 (MFCC)Estados: 6(4) Iteraciones: 6Gaussianas: 2-5 (PLP)Error mnimo: 8,01% (MFCC) 7,60% (PLP)
18Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalResultados de la optimizacin del nmero de estados, iteraciones y gaussianas (II)SEV Estados: 6(4) Iteraciones: 5/6Gaussianas: 5 (MFCC)Estados: 6(4)Iteraciones: 4Gaussianas: 10 (PLP)
Error mnimo: 18,06% (MFCC) 18,17% (PLP)
Posibles factores de que depende la diferencia:Revisin del marcaje manualCaractersticas de la voz del locutor
19Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalResultados de la combinacin de coeficientes_0_E_0_E
_D_A_D_0_E
_D_A_T_D_A
_0_D_A_E_D_A _D_A
Mejor queMejor queMejor queMejor quePeor queSegn casoSegn caso20Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalResultados de la combinacin de frases y prrafos (I)Combinaciones de frases y prrafos (SES) como grupos de entrenamiento y evaluacin
21Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalResultados de la combinacin de frases y prrafos (II)Combinaciones de frases y prrafos (SES) como grupos de entrenamiento y evaluacin
22Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalResultados de la segmentacin interemocionesPara segmentar frases con emocin es mejor entrenar con frases con emocin que con voz neutra.Voz mejor segmentada: Neutra (5% en MFCC, SES)Voz peor segmentada: Tristeza (11,18% en MFCC, SES)Mejor voz para entrenar en solitario: SES: 1.Tristeza (9,15% en media, MFCC), 2.Alegra (9,98)SEV: Alegra (21,08% en media, MFCC), Neutra (21,74)Peor voz para entrenar en solitario:SES: Neutra (22,67% en media, MFCC)SEV: Tristeza (29,48% en media, MFCC), Miedo (26,56)Diferencias entre la mejor y la peor voz son significativas
23Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalResultados de la segmentacin con normalizacin cepstralMejora en general, ms con MFCC que con PLP
24Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalResultados de la variacin del nmero de canalesVariacin del nmero de canales
25Resultados de la variacin del desplazamiento de tramas (I)Variacin del desplazamiento de tramas y del tamao de la ventana de anlisisValores usuales (10 y 25 ms) son ptimos
26Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona Mariscal
Resultados de la variacin del desplazamiento de tramas (II)Variacin del desplazamiento de tramas y del tamao de la ventana de anlisisDisminuirlas mejora la desviacin media (mejor resolucin) pero aumenta el nmero de errores
27Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalResultados de la inclusin de filtradoEn general los mejores resultados se dan sin filtrado (buenas condiciones de ruido en SES)Slo mejora un poco con filtro paso bajo a 7800 HzCanal telefnico (300-3400 Hz): empeora entre 2,65 y 4,8 puntos porcentuales absolutosHay ms informacin a menos de 300 Hz que de 3400 Hz para arriba
28Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalResultados de la segmentacin de UPCErrores mnimos: 11,17% (MFCC) y 11,48% (PLP)
29Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalBD para Albayzn 2012Segmentacin de la base de datos SEV, locutor masculinoRealizada para proporcionar datos a los desarrolladores de sntesis de voz para la competicin Albayzn 2012Evaluacin cualitativa e informal, considerando los resultados bastante aceptablesAlgunos errores concretos:Transicin entre dos vocales en un diptongoTransicin entre silencios y principios o finales de palabraConsonantes oclusivasPausas no transcritas
30Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalConclusiones (I)Obtencin de un segmentador automtico que cumple los objetivos iniciales:Automatizacin y configurabilidadTrabajo con diferentes bases de datosOpen Source
Ha sido necesaria una cierta complejidad (HTK, scripts, perl, C)
31Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalConclusiones (II)Mejores tasas de error:SES: en torno al 7-8%UPC: en torno al 11%SEV: en torno al 17-18%Posibles factores de que dependen:Correccin del marcaje manualCaractersticas de la voz del locutor32Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalConclusiones (III)Sugerencia de parametrizacin para el uso del segmentador:algoritmo de parametrizacin: PLPnmero de estados de los modelos: 6 (4)nmero de iteraciones a realizar (reestimaciones): 6nmero de gaussianas por estado: 5coeficientes extra: _E_D_A (de energa, derivados y aceleraciones)inclusin de normalizacin cepstral: snmero de canales: 20desplazamiento de tramas: 10 mstamao de la ventana de anlisis: 25 msfiltrado de altas frecuencias para reducir ruido (+7800 Hz)emocin: si se puede entrenar con todas las emociones, con todas; si se debe elegir una para entrenar, alegra (para segmentar frases con emocin es mejor entrenar con frases con emocin que con voz neutra)
33Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalLneas futuras de investigacinMejorar graf2fon efecto de coarticulacin entre palabras
Medida estndar de error: fronteras a ms de 20 ms de las marcadas manualmente Puede penalizar a las emociones con ritmo lento. Experimentar teniendo esto en cuenta
Segmentar otras bases de datos (diferentes estilos)
Modelos independientes de locutor
Realizar adaptacin y comprobar el impacto en resultados de segmentacin automtica34Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona MariscalPreguntas?35Desarrollo de un segmentador fontico automtico para habla expresiva basado en modelos ocultos de Markov - Juan Carmona Mariscal