cenidet...S.E.P. S.E.i.i. S.N.1.T CENTRO NACIONAL DE INVESTIGACI6N Y DESARROLLO TECNOL6GiCO cenidet...

95
S.E.P. S.E.I.T. D.G.I.T. CENTRO NACIONAL DE INVESTIGACION Y DESARROLLO TECNOLOGICO cenidet "SINTESIS DE VOZ PARA EL IDIOMA ESPAÑOL USANDO WAVELETS" T E S I S PARA OBTENER EL GRADO DE: MAESTRO EN CIENCIAS EN INGENIERIA ELECTRONICA PRESENTA RICARDO CORONADO VAZQUEZ DIRECTOR DE TESIS M.I. CARLOS ENRIQUE RAMIREZ VALENZUELA CUERNAVACA, MORELOS DICIEMBRE 1999

Transcript of cenidet...S.E.P. S.E.i.i. S.N.1.T CENTRO NACIONAL DE INVESTIGACI6N Y DESARROLLO TECNOL6GiCO cenidet...

  • S.E.P. S.E.I.T. D.G.I.T.

    CENTRO NACIONAL DE INVESTIGACION Y DESARROLLO TECNOLOGICO

    cenidet

    "SINTESIS DE VOZ PARA EL IDIOMA ESPAÑOL USANDO WAVELETS"

    T E S I S

    PARA OBTENER EL GRADO DE:

    MAESTRO EN CIENCIAS EN INGENIERIA ELECTRONICA

    PRESENTA

    RICARDO CORONADO VAZQUEZ

    DIRECTOR DE TESIS

    M.I. CARLOS ENRIQUE RAMIREZ VALENZUELA

    CUERNAVACA, MORELOS DICIEMBRE 1999

  • S.E.P. S.E.i.i. S.N.1.T

    CENTRO NACIONAL DE INVESTIGACI6N Y DESARROLLO TECNOL6GiCO cenidet

    ACADEMIA DE LA MAESTRfA EN ELECTRbNICA

    FORMA R11 ACEPTACION DEL TRABAJO DE TESIS

    Cuernavaca, Mor.

    Dr. Juan Manuel Ricaiio Castillo Director del cenidet Presente

    Jefe del Depto. de Electrónica At‘n. Dr. Jaime E. Arau Roffiel

    Después de haber revisado el trabaio de tesis t.....ado: ‘‘ 1 DE VOZ PARA EL IDIOMA ESPAÑOL USANDO WAVELETS”, elaborado por el alumno Ricardo Coronado Vázquez, bajo la dirección del M.I. Carlos E. Ramirez Valenzueia, el trabajo presentado se ACEPTA para proceder a su impresión.

    A T E N T A M E N T E

    ÍNTI

    J e Pi%? c L 9 , Dr. Víctor Manuel Cárdenas Galindo

    C.C.P.: Dr. Abraham Claudio Sáncbez I Pdte. de la Academia de Electrónica Ing. Jaime Rosas Álvarez I Jefe del Depto. de Servicios Escolares Expediente.

    INTERIOR INTERNADO PALMIRA S/N. CUERNAVACA. MOR. MEXICO AP 5-164 CP 62050. CUERNAVACA, TELS. (73112 2314.12 7613.18 7741. FAX (73) 12 2434 Dr. Jaime Arau RaifieUJete del Depia de Elecir6nico EMAIL [email protected]

  • :entro Nacional de Investigación y Desarrollo Tecnológico

    Cuernavaca, Morelos

    ng. Ricardo Coronado Vazquer >andidat0 al grado de Maestro en Ciencias !n Ingeniería Electrónica ’resente

    lespués de haber sometido a revisión su trabajo final de tesis titulado: “SíNTESIS DE VOZ PARA EL DlOMA ESPAÑOL USANDO WAVELETS”, y habiendo cumplido con todas las indicaciones que el jurado evisor de tesis le hizo, le comunico que se le concede autorización para que proceda a la impresión de la nisma, como requisito para la obtención del grado.

    ?eciba un cordial saludo

    : .c.p. expediente.

    gTERIOR INTERNADO PALMIRA SIN. CUERNAVACA, MOR. MCXICO iP 5-164 CP 62050. CUERNAVACA, ELS. (731122314, 127613, 187741. FAX 1731 122434 )r. Jaime Arau RoffielIJefe del Oepto de Electrónico :MAIL [email protected] cenidof

  • DEDICATORIA

    A REYNALDO, VIRGINIA, ANDREA, PERLA, J. REYNALDO Y CECILIA.

  • AGRADECIMIENTOS

    Gracias

    A Dios por estar conmigo.

    A mis Padres y a mi Abuela por todo su apoyo.

    A mis Hermanos Reynaldo y Cecilia.

    A Perla por su amor y a su Familia por sus atenciones.

    A mi Asesor Carlos Ramírez V. por su orientación.

    AI cenidet por permitirme realizar mis estudios de Maestría.

    A la SEP y a Conacyt por su apoyo económico.

    A mis Revisores: Raúl Fernández, Guillermo Cahue, Tomás Ramírez y Victor M. Cárdenas por su valiosa ayuda.

    A mis Profesores.

    A mis compañeros.

  • CONTENIDO

    ... LISTA DE FIGURAS .......................................................................................... H I

    INTRODUCCI~N ................................................................................................. 1

    CAPITULO 1 . GENERALIDADES 1 . 1. INTRODUCCIÓN ..................... .................................................................... 2 1.2. SINTESIS DE VOZ ....................................................................................... 3 1.3. ANALISIS WAVELET ................................................................................... 4 1.4. JUSTIFICACIÓN DEL TRABAJO ................................................................. 5 1.5. ALGUNOS TRABAJOS REALIZADOS EN EL TEMA .................................. 6

    1.5.1 Análisis por wavelets usado en síntesis de texto a voz ................... 6 1.5.2 Métodos de codificación por segmentos de voz y control del tono para sistemas de síntesis de voz ................................................ 7

    1.6. FINALIDAD DEL TRABAJO ......................................................................... 8 1.7. HERRAMIENTAS DE TRABAJO ................................................................. 9

    CAPITULO I I . GENERACION DE VOZ 2.1. INTRODUCCIÓN ....................................................................................... 10 2.2. ORGANOS QUE INTERVIENEN EN LA GENERACIÓN DE VOZ ............ 11 2.3. PRODUCCIÓN DE LA VOZ ...................................................................... 12 2.4. PROCESAMIENTO DE VOZ ..................................................................... 13 2.5. INVESTIGACIÓN EN SíNTESlS DE VOZ ................................................ 14 2.6. SíNTESlS POR SEGMENTOS ................................................................. 15 2.7. CONTROL PROSÓDICO .......................................................................... 15 2.8. DETERMINACIÓN DE LA FRECUENCIA FUNDAMENTAL Fo ................ 16

    CAPITULO 111 . PROCESAMIENTO DE SEÑALES 3.1. INTRODUCCIÓN ....................................................................................... 19 3.2. CORRELACIÓN DE SEÑALES EN TIEMPO DISCRETO ......................... 20

    3.2.1. Funciones de correlación cruzada y autocorrelación ................... 20 3.2.2. Algoritmo para la correlación de dos secuencias ......................... 21

    3.3. ANALISIS WAVELET ................................................................................. 22 3.3.1. Transformada Fourier ................................................................... 23 3.3.2. La transformada de Fourier de tiempo corto (STFT) .................... 26 3.3.3. La transformada wavelet continua ................................................ 27 3.3.4. Discretización de la transformada wavelet continua .................... 29

    I

  • 3.3.5. La transformada wavelet discreta ..., ............................................ 31 3.3.6. Herramienta de computaci6n ...... : ................................................ 35

    CAPITULO IV . METODOLOGíA PARA LA SíNTESlS DE VOZ 4.1, INTRODUCC16N ....................................................................................... 40 4.2. PRINCIPIO PARA LA SlNTESlS DE VOZ ................................................. 41 4.3. PROCESO DE ANALISIS DE SEÑALES DE VOZ .................................... 42

    4.3.1. Tipos de sonidos ............................ : ............................................. 42 4.3.2. Selección de micro funciones para análisis .................................. 44

    4.3.2.1. Seccionamiento de sonidos vocales ............................... 45 4.3.2.2. Seccionamiento de sonidos sernivocales y nasales ........................................................................................ 46 4.3.2.3. Seccionamiento de sonidos oclusivos ............................ 48 4.3.2.4. Seccionamiento de sonidos fricativos ............................. 49

    4.3.3. Extracción del pitch y envolvente ................................................. 50 4.3.4. Análisis de señales de voz ........................................................... 52

    4.3.4.1. Análisis por correlación ................................................... 52 4.3.4.2. Análisis por transformada wavelet .................................. 56

    4.4. AJUSTE DEL PERIODO "PITCH" PARA LA SlNTESlS (GENE- RACIÓN DE VOZ) ............................................................................................. 60

    4.4.1. Concatenación por traslape .......................................................... 61 4.4.2. Concatenación por interpolación .................................................. 64

    4.5. METODOLOGiA PROPUESTA PARA LA SiNTESIS DE VOZ ................. 66 4.6. RESULTADOS ........................................................................................... 67

    4.6.1. Generación de fonemas y sílabas ................................................ 68 4.6.2. Generación de palabras ............................................................... 69

    CAPITULO V . CONCLUSIONES 5.1 CONCLUSIONES ....................................................................................... 71 5.2 TRABAJOS FUTUROS .............................................................................. 72

    REFERENCIAS ................................................................................................ 73

    APÉNDICE A . DOCUMENTACI~N DE FUNCIONES DE SOFT WARE.........^^ A.1. FUNCIONES PRINCIPALES .................................................................... 78 A.2 FUNCIONES UTILIZADAS POR FUNCIONES PRINCIPALES ................ 80

  • LISTA DE FIGURAS

    Figura 1 . 1. Wavelet descubierto Por Ingrid Daubachies ................................. 5 Figura 1.2. Preparación del diccionario de unidades de síntesis .................... 7

    Figura 1.3. Generación de una señal por la superposición de wavelets ......... 8

    Figura 2.1. Principales órganos que intervienen en la generación de voz .... I 2 Figura 2.2. Sistema de producción de voz .................................................... 13

    Figura 2.3. Detección del pitch por corte central ........................................... 17

    Figura 3.1. Algoritmo de la correlación para la rutina spcorr 21

    Figura 3.2. Señal compuesta por la suma de dos funciones senoidales con frecuencias de 10 y 50 Hz ...................................................................... 24

    Figura 3.3. Espectro de la señal de la Figura 3.2 .......................................... 24 Figura 3.4. Señal no estacionaria compuesta por 10 y 50 Hz ....................... 25

    Figura 3.5. Espectro de la señal de la Figura 3.4 .......................................... 25

    .........................

    Figura 3.6. Representación de la STFT ........................................................ 26 Figura 3.7. Interpretación de la resolución de tiempo y frecuencia ............... 28

    plano discreto de la transformada wavelet .................................................... 30 Figura 3.8. Representación de la escala contra razón de muestre0 en el

    Figura 3.9. Algoritmo para la obtención de la DWT ....................................... 33 Figura 3.10. Algoritmo para obtener la DWT inversa .................................... 34 Figura 3.1 1 . Wavelets disponibles en el toolbox ........................................... 36

    la síntesis de VOZ ........................................................................................... 41 Figura 4.2. Señal del fonema vocal "a" en dominio del tiempo ..................... 42 Figura 4.3. Forma de onda de los diferentes tipos de sonidos ...................... 43

    Figura 4.1. Diagrama a bloques de los pasos para realizar

    Figura 4.4. Separación del sonido (sílaba "ME) para extraer micro funciones ................................................................................. 44 Figura 4.5. Fonerna original de una vocal ("a") Con Su micro función elegida para el análisis ........................................................... 45

  • 46 Figura 4.6. Fonema "MA" original ....................... : .......................................... Figura 4.7. Correlación de cada micro función contigua del fonema de "MA" : 46

    Figura 4.8. Envolvente de la señal de la figura 4.7 ...................................... 47 Figura 4.9. Fonema semivocal por secciones y micro funciones de cada seccion ............................................................................................ 47 Figura 4.10. Micro funciones para la Sílaba "PO" ........ ~ ................................. 48

    Figura 4.1 1 . Micro funciones seleccionadas para una sílaba con sonido fricativo ....................................................................................... 49 Figura 4.1 2 . Diferentes pasos en la detección del pitch ............................... 50

    Figura 4.1 3 . Pendientes máximas de un fonema (fonema "E") .................... 51

    Figura 4.14. Forma de onda del wavelet Coiflet, generado con la función makewavelet .................................................................................................. 53

    Figura 4.15. Correlación entre dos señales .................... : ............................. 53

    Figura 4.16. Representación de los máximos o picos resultantes de la correlación con cinco escalas diferentes de wavelets ...... 54

    Figura 4.17. Reconstrucción de la señal usando 5 wavelets (5 correlaciones) ........................................................................ 54 Figura 4.18. Señal original contra señal reconstruida ................................. 55

    ............................................ .........................................

    ..

    Figura 4.19. Fonema "a" sintetizado ........................................................... 55

    Figura 4.20. Formas de onda de los wavelets disponibles en el paquete de software Wavelab .......................... ; ...................................... 57 Figura 4.21. Micro función original y coeficientes wavelet .......................... 58

    Figura 4.22. Efecto que se produce cuando el período de la micro función base es menor al período pitch de la señal original

    Figura 4.23. Forma de obtener micro función base de mayor longitud

    Figura 4.24. Distorsión en formas de onda mediante

    ............. 61

    62 ......

    .. concatenation por traslape .......................................................................... 63 Figura 4.25. Señal resultante de la concatenación por traslape ................ 63

    Figura 4.26. Ajuste de micro función por medio de ¡nterpOlaCiÓn ............... 64

    Figura 4.27. Señal resultante del concatenación de micro funciones mediante interpolation ...................................................... 64

    iv

  • Figura 4.28. Diagrama a bloques del proceso de análisis de voz ............ 66 Figura 4.29. Diagrama a bloques del proceso de síntesis ....................... 67 Figura 4.30. Proceso de síntesis para la palabra "casa" ......................... 69 Figura 4.31. Forma de onda de la palabra "casa". sonido original y sonido sintetizado ................................................................................ 70

    Figura 4.32. Forma de onda de la palabra "sapo", sonido original y sonido sintetizado ................................................................................ 70 Figura 5.1. Variación de los coeficientes wavelets de cada micro función que forman al fonema "a" .................................................. 72

    V

  • I I

    . .

    i

    En la actualidad existe mayor desarrollo de sistemas de sintesis y reconocimiento de voz en computadoras personales. Las aplicaciones en dichos sistemas son muy variadas, desde diccionarios que nos permiten conocer la pronunciación, hasta sistemas TTS (text-to-speech), que permiten la reproducción automática de voz a partir de un gráfico (texto). La sintesis de voz se apoya en técnicas de procesamiento de señales como en la transformada de Fourier. En años recientes se ha aplicado una nueva técnica de análisis señales con algunas ventajas sobre la transformada de Fourier, esta técnica se basa en el wavelet (ondeletas). En este trabajo se aplican los wavelets al análisis de señales de voz para observar su desempeño y también pretende ser una base para futuros proyectos encaminados al desarrollo de sistemas de síntesis de voz a partir de texto. Este documento se encuentra organizado en cinco capítulos y un apéndice, En el capítulo uno se tratan aspectos generales sobre la síntesis de voz y el proyecto de tesis; la mayor parte del capítulo dos describe cómo se lleva a cabo la generación de voz, el desarrollo de técnicas e investigación en la síntesis de voz. El CaPitulo tres explica las herramientas matemáticas y algoritmos usados en la metodologia propuesta en esta tesis; el capítulo cuatro es el más importante, Puesto que describe el desarrollo del trabajo de tesis, ia forma en que se determinó la metodología propuesta para realizar sintesis de voz, así como

    1 también los resultados obtenidos. Por último en el capitulo cinco se mencionan conclusiones del trabajo y se proponen algunos trabajos futuros. Se anexa un apéndice que contiene la documentación de los programas que se desarrollaron con el paquete Matlab, con la idea de utilizarlos como herramienta para posibles trabajos futuros.

    I

  • CapilulO 1. Generalidades

    CAPiTULO I GENERALIDADES

    1.1. INTRODUCCI~N

    En este capítulo se tratan aspectos generales sobre síntesis de voz y el trabajo realizado en esta tesis. Se inicia con el procesamiento de voz, en qué consiste la síntesis de voz y algunas de las técnicas desarrolladas para este fin. Se describe brevemente el análisis wavelet, algunos trabajos realizados sobre el tema, así como también cuál es la finalidad del trabajo de tesis, su objetivo y sus aportaciones. También se menciona la5 herramientas de software utilizadas en el proyecto.

    2

  • v-puuru 1. UUIIUldIIUdUüS

    1.2. SíNTESlS DE VOZ

    Debido al rápido avance en la capacidad de procesamiento de las computadoras personales y el desarrollo de tecnología multimedia, existe en la actualidad un mayor desarrollo de sistemas de síntesis y reconocimiento de voz en computadoras personales. Las aplicaciones para dichos sistemas son muy variadas, desde diccionarios que nos permiten conocer la pronunciación, hasta sistemas TTS (text-to-speech), es decir, la reproducción automática de voz a partir de un gráfico (texto), resultado de la transcripción de una oración. Por lo anterior y por la aparición de mejores algoritmos para el procesamiento digital de señales, el procesamiento de voz ha tenido un gran desarrollo [I], El procesamiento de voz se puede clasificar según [2] en: análisis, que se encarga de descomponer una señal en sus diferentes componentes; síntesis, que es la formación de una señal a partir de señales básicas; y análisis - síntesis, es decir, un análisis seguido por síntesis, principalmente usado en transmisión de voz de manera comprimida. De esta forma se llama síntesis de voz a la generación artificial de la voz usando señales correspondientes a los fonemas o sílabas. Aún no se conoce la teoría general de cómo el cerebro reconoce la voz O al individuo que habla (reconocimiento de voz); sin embargo, la generación acústica del sonido está mejor comprendida (síntesis). Con las técnicas modernas de procesamiento digital es más fácil duplicar este mecanismo generación. En Io que a síntesis se refiere, existen varias técnicas [3] como son:

    Por hardware, la cual tiene dos formas generales. Codificador digital de forma de onda. En este tipo de sistemas el material que se va a reproducir ha sido preparado y almacenado previamente; en su nivel más simple, consta solamente de un convertidor digital-analógico acoplado a un medio de almacenamiento y algún tipo de controlador Para Seleccionar 10 que se va a reproducir. En otros sistemas de este tiPo se aplica alguna técnicas de codificación e incorporan el decodificador necesario para la reproducción de la voz. . Sintetizador analógico - terminal. Es llamado así porque sus características son una analogía de los órganos usados en el habla. Esencialmente es una aproximación matemática del modelo de producción del habla.

    Sistemas de respuesta a voz. En estos sistemas el vocabulario es previamente seleccionado y almacenado en memoria, se utiliza algún tipo de codificación. La reproducción se lleva a cabo haciendo una mezcla de palabras y frases almacenadas previamente. Las principales diferencias con respecto a las técnicas anteriores son: se utiliza una mayor cantidad de memoria, la complejidad del hardware para la decodificación es mayor y existe una mejora en la calidad de la voz sintetizada.

    Es uno de los sistemas de síntesis mas utilizados, empezando con un texto escrito como entrada y la producción de habla de aceptable calidad como salida. El texto escrito puede ser una representación fonética del habla o en casos mas ambiciosos lenguaje escrito convencional. Este último proceso

    Sistemas por regla.

    3

  • Capitulo I. Generalidades I

    puede ser dividido en dos subprocecoc: traducci6n de gráfico a fonema y traducción de fonema al habla. La traducción del fonema al habla presenta los siguientes problemas:

    1.Cómo seleccionar alófonos apropiados (dos o más formas del mismo fonema). 2.CÓmo unir sonidos en forma natural. 3.Cómo proporcionar tono y ritmo a la oración.

    La síntesis basada en sistemas TTS básicamente se centra en dos problemas: el procesamiento natural del lenguaje y el procesamiento digital de señales [4]. El primero debe ser capaz de producir transcripción fonética correcta del texto, incluyendo entonación y ritmo, por otro lado la parte de procesamiento digital de señales debe adecuar la transformación de estos símbolos a voz digitalizada. Puesto que este trabajo pretende ser parte de un sistema TTS, se puede clasificar dentro de la síntesis de sistemas por regla. A mediados de la década de los 80’s como resultado de los avances en las investigaciones sobre este tema apareció el concepto de síntesis TTS de alta calidad. Las aplicaciones son diversas, como en la telefonía, sistemas multimedia, ayuda a discapacitados, juguetes, comunicación hombre-máquina, etc.

    1.3. ANALISIS WAVELET

    Los wavelets son señales de corta duración y que se pueden manipular para modificar su duración y amplitud, de esta forma, al sumarse con otros wavelets obtenemos señales muy semejantes a las originales. Para algunas aplicaciones es deseable ver a la transformada wavelet (por sus siglas en ingles WT) como la descomposición de una señal en un grupo de funciones básicas, en este caso las funciones básicas son llamadas wavelets [5]. Este análisis tiene muchas aplicaciones en lo que se refiere a procesamiento digital de señales. Actualmente se están utilizando los wavelets para el análisis de señales; ya que presenta ventajas sobre el análisis de Fourier, principalmente para análisis de señales no periódicas y discontinuas [6]. Cuando una señal se representa mediante señales senoidales (análisis de Fourier) se emplean tantos coeficientes de la serie como necesitemos que se acerque a la señal original, con los wavelets se necesitan menos coeficientes para representar a la misma señal (dependiendo también de la señal a analizar), esto representa una clara ventaja de la eficiencia del análisis wavelet sobre el análisis de Fourier [7]; Otra ventaja es que los wavelets tienen localización en tiempo por lo que las señales discontinuas son

    .mejor representadas, además de que el algoritmo para calcular la transformada wavelet es más rápido, debido a que se realiza un menor número de operaciones matemáticas.

    A

  • Capítulo l . Generalidades

    Figura 1.1. Se observa el mismo wavelet pero con sus parámetroc modificados, estos doc pertenecen a la familia descubierta en los años 80's por Ingrid Daubachiec. [8]

    Los wavelets son familias de funciones ha,b:

    ; a,bE R , a#O = Ial-''2h(a) x - b

    generadas de una sola función h por dilataciones y traslaciones [9]. Una de las aplicaciones de la teoría es construir un conjunto de bases { ha,b } para una eficiente y exacta aproximación de funciones y señales. Un ejemplo de estas funciones se presenta en la Figura 1 .I.

    1.4. JUSTIFICACIÓN DEL TRABAJO

    La herramienta wavelets presenta ventajas con respecto a otras, una es que se puede aplicar a señales discontinuas y no periódicas, otra es que la cantidad de memoria utilizada para guardar la información de los fonemas es menor. La calidad de la salida dependerá en parte de qué tan parecida sea la señal sintetizada con respecto a una señal de voz real y a su vez esto dependerá de la selección del wavelet empleado, del número de coeficientes wavelet tomados para la reconstrucción de la señal y de las características prosódicas que se darán al sonido sintetizado. La alternativa del uso de esta herramienta relativamente nueva motiva al estudio de su desempeño en la síntesis de voz. La síntesis se realiza a partir de ciclos de la señal de voz, por lo que desde este punto de vista se podrán formar diferentes sonidos mediante la utilización de la misma información (ciclos de la señal de voz) variando algunos parametros y

    5

  • Caplfulo I . Generalidades

    concatenando con otros ciclos de voz correspondientes a otros sonidos (se podrá sintetizar diferentes sílabas a partir de la unión de diferentes ciclos, variando el tono y amplitud de la sella1 de voz) y como resultado se tendrá una menor cantidad de información para reproducir un sonido sintetizado.

    1.5. ALGUNOS TRABAJOS REALIZADOS EN EL TfiMA

    A continuación se exponen dos trabajos de investigación realizados con diferentes técnicas utilizando wavelets.

    1.5.1 Análisis Dor wavelets usado en síntesis de texto a voz. En el primer trabajo que analizaremos [ IO ] se desarrollaron cuatro nuevas tecnologías para mejorar la calidad de la voz sintetizada del sistema. Las tecnologías desarrolladas fueron: determinación precisa del tono (pitch) por análisis de wavelets, generación de formas de onda usando un método modificado de tono síncrono de traslape-suma en dominio del tiempo, unidad de selección de síntesis de voz usando el método de agrupamiento dependiente del contexto y un eficiente control prosódico usando analizador sintáctico de tres frases. La síntesis fue hecha para el idioma japonés y se elaboró un diccionario de sonidos básicos (fonemas) a partir de 1500 palabras en texto leídas por oradores profesionales. Los datos grabados son analizados para separar los fonemas y etiquetados, también se determina el tono exacto (pitch) mediante el análisis por wavelets. Esto se basa en determinar el momento del cierre glotal, calculando la transformada wavelet de la forma de onda de la voz y tomando el período del pico máximo de la transformada se determina el período de los impulsos glotales, este dato servirá posteriormente para realizar la síntesis. Otra tecnología desarrollada fue la de clasificar los sonidos dependiendo del contexto, es decir se tiene un diccionario con los sonidos de las sílabas pero también dependen de la sílaba anterior y de la siguiente. De esta forma se tienen nuevas combinaciones de los sonidos que formarán el diccionario. La preparación de las unidades de síntesis para el diccionario se esquematiza en la Figura 1.2. Lo descrito anteriormente fue para la creación del diccionario, la forma en que se realiza la síntesis se describe a continuación. Se tiene un control prosódico usando un analizador sintáctico de tres frases, en el cual se examinan tres frases adyacentes y se determinan parámetros prosódicos como acentuación, pausas, conexión neutral, etc. Por Último se tiene un método modificado de tono síncrono de traslape-suma en dominio del tiempo ( TD-PSOLA ). La función de este método es producir la señal sintetizada a partir de la mezcla de los diferentes elementos previamente seleccionados que forman parte del diccionario, además de proporcionar cierta suavidad al habla. Esto se lleva a cabo separando la señal original en pequeñas secuencias y traslapándolas mediante una ventana Hanning. Esta ventana debe ser sincronizada con el instante de excitación en cada periodo del tono y además la ventana de la señal de voz debe conservar sus propiedades espectrales. Por lo anterior es importante la determinación exacta del periodo del tono.

    I

  • 1 I Capitulo 1. Generabdades

    Analisis espectral

    i Patrones

    espectrales

    Transformada wavelet -

    i

    4 Detección del tona

    Candidatos a marca de tono -

    ---- AgNpamiento de fonemas

    dependiendo de contexto

    Generación de unidades de

    sintesis

    unidades de

    Figura 1.2. Preparación del diccionario de unidades de sintesis.

    1.5.2 Métodos de codificación por seqmentos de voz Y control del tono Dara sistemas de síntesis de voz. Este trabajo [I I] se refiere al desarrollo de una técnica y sistema para la sintesis de voz utilizando una descomposición de una forma de onda periódica o cuasi- periódica como lo son las señales de la voz, también utiliza un esquema de codificación relocalizada. La técnica consiste en separar la señal de la voz en ciclos, estos ciclos son determinados por el tono (pitch) de la señal y cada ciclo corresponde a un estímulo o pulso glotal, de tal forma que identificando los ciclos y separándolos se tiene el primer paso, posteriormente cada uno de estos ciclos se descompone en wavelets. Una vez que se tienen los wavelets esta información se codifica y almacena, es decir, se obtienen los coeficientes de los wavelets asi como el tipo de wavelet y se guarda en memoria.

    7

  • Capitulo l. Generaiidades

    Hasta aquí se tiene ~610 el método de codificación, esta codificación se realiza para cualquier sonido, se menciona que el método es aplicable no sólo a la VOZ, sino también a otro tipo de sonidos como música. Para la parte de decodificación se tiene que con base en un texto como entrada se traduce a símbolos o información fonética, la función principal de esta parte es identificar qué sonidos se generarán, sí existen al6fonos, así como extraer la información prosódica. Una vez que se conoce qué sonidos se van a generar se forman los wavelets a partir de la información codificada, es decir se decodifican los wavelets correspondientes a cada ciclo de la señal de voz que está por formarse. Finalmente la señal de la voz es generada por la superposición de los wavelets como se muestra en la Figura 1.3. Hay que mencionar que en este método se puede variar la frecuencia del tono mediante la separación de los wavelets así como su amplitud, esto tiene como efecto la modificación de características prosódicas, las cuales son obtenidas mediante otras técnicas que incluye este trabajo.

    TIEMPO + A . Wavelets de cada ciclo.

    B . Señal resultante de la superposición de los Wavelets Figura 1.3. Generación de una sena1 por la superposición de wavelets.

    1.6. FINALIDAD DEL TRABAJO

    El objetivo principal de este trabajo es aplicar y observar el desempeño del uso de wavelets en fonemas y/o sílabas para obtener una metodología que permita realizar la síntesis de voz en el idioma español; esta metodología servirá como base para realizar un sistema de síntesis de voz a partir de texto. Para esto se aplica el análisis wavelet a señales de voz, eligiendo los wavelets adecuados para la síntesis de voz en español, analizando cada fonema por wavelets y obteniendo coeficientes correspondientes a cada uno de ellos. Con dichos coeficientes se puede formar un diccionario de manera similar a otras técnicas de síntesis, pero con la ventaja de que la cantidad de información que constituye cada fonema será

    8

  • 1 Capitulo l . Generalidades menor, de hecho en los sistemas de síntesis existentes no se hace mucho énfasis en la forma de almacenar los componentes del diccionario de fonemas, como en (121 y como ejemplo se puede mencionar que para almacenar la sílaba "Sa" se necesitan 12000 bytes de memoria en el formato PCM, mientras que por la metodología propuesta se necesitan 4025 bytes. Se definirán reglas de concatenación de los fonemas. La aportación de este trabajo es proponer un método para realizar síntesis de voz usando wavelets; observar los resultados de la aplicación de los wavelets, y determinar si es un buen método para este fin; tener una base para estudios posteriores y contribuir en la linea de investigación de procesamiento digital de señales del cenideí ! con la asimilación del análisis por wavelets.

    1.7. HERRAMIENTAS DE TRABAJO

    El desarrollo de este proyecto se realizó utilizando una computadora personal con tarjeta de sonido, sistema operativo Windows 95. El software de programación fue Matlab ver. 4.2, además del toolbox de análisis wavelet Wavelab versión 7. Toda la programación se llevó a cabo en Matlab.

    9

  • CAPITULO II GENERACIÓN DE VOZ

    2.1. INTRODUCCI~N

    La mayor parte del capitulo dos está dedicado a profundizar sobre aspectos de generación artificial de la voz, no sin antes describir la forma en que se lleva a cabo la generación de voz en el cuerpo humano y los Órganos que intervienen en ello. La investigación en la síntesis de voz a llevado a la aplicación de técnicas como la síntesis por segmentos y al desarrollo de algunas formas de extraer caracteristicas propias de la voz así como también de su control, como en el caso de las características prosódicas y el tono o "pitch". De este último describimos algunas de las formas existentes para la detección. Estas características de la voz son importantes debido a que de ellas dependen la inteligibilidad y la naturalidad.

    IO

  • Cap/tu/o /l. Generacdn de VOZ I

    2.2. ORGANOS QUE INTERVIENEN EN LA GENERACI~N DE VOZ

    ~1 sistema generador de voz, se divide en tres Partes [I311 1) pulmones y tráquea 2) laringe 3) tracto vocal

    LOS pulmones y la tráquea son la fuente de poder del sistema, la laringe Contiene el mecanismo principal de generación de sonido y el interior de la boca modula el sonido resultante. Los órganos vocales funcionan usando el aire comprimido proporcionado por los pulmones y entregado al sistema por medio de la tráquea. Estos órganos también controlan la sonoridad de la voz resultante, pero no hacen una contribución audible a la voz. Los pulmones se encuentran encerrados en una cámara hermética llamada pleura, la cual está rodeada por sus lados de costillas, y por abajo del diafragma. Los pulmones son expandidos y comprimidos, de esta forma atraen y exhalan gases cambiando el tamaño de la pleura. El diafragma es un músculo en la parte baja de las costillas que cuando se contrae presiona el aire en los pulmones, cuando se relaja regresa a su forma normal y el proceso es el inverso. La tráquea tiene aproximadamente 12 cm de largo por 2 cm de diámetro, une a los pulmones y a la laringe. La tráquea y los pulmones juntos constituyen el tracto pulmonar. La laringe consta de un complicado sistema de cartílagos y músculos que contienen y controlan las cuerdas vocales. Cuando en su parte final las cuerdas están separadas, se dice que están abiertas, y es ésta la posición para la respiración, el espacio entre las cuerdas vocales se llama glotis. Cuando el final de las cuerdas está cerrado proporcionan un sello hermético que no permite el paso al tracto pulmonar, pero sí permite el paso at estómago. La función acústica de las cuerdas vocales es proporcionar una fuente de excitación para producir la voz. El tracto vocal es un sistema compuesto por muchas partes como son: epiglotis, mandíbula, lengua, velo, paladar, dientes y labios. Cada una de estas partes cumplen una función biológica, pero además, tienen una función en el habla. Mediante el movimiento de los músculos y tejidos cambian la forma del interior de la boca, que tiene como consecuencia la modulación del flujo de aire proveniente de la glotis.

    9 9 - 0 6 1 9

  • i I Capitulo /I Generacdn de VOZ I

    - Pulmones

    Diafragma

    Figura 2.1, Principales 6rganos que intervienen en la generación de voz,

    2.3. PRODUCCIÓN DE LA VOZ [I41

    La operación del sistema como un conjunto es dividida en dos funciones: excitación y modulación; la mayor parte de la excitación tiene lugar en la glotis, mientras que la modulación es realizada por varios órganos del tracto vocal. La excitación puede ser de varios tipos, la más importante es la fonación, que consiste en la oscilación de las cuerdas vocales cuando el aire es forzado a pasar por ellas, vibrando como los labios de una trompeta. La apertura y cierre de las cuerdas rompe el flujo de aire y produce ondas de presión, la forma de estas ondas y su ciclo se reflejan en aspectos como sonoridad, tono, voz con respiración, etc. La razón de repetición de los pulsos es llamada "pitch" y es controlado principalmente por la tensión en las cuerdas vocales y regulado por retroalimentación a través de los oídos y el cerebro. Desde el punto de vista fisiológico, el sonido es modulado por el movimiento de los Órganos del habla (principalmente la lengua) para cambiar la calidad de la voz y para interponer sonidos adicionales o interrupciones en la voz. Acústicamente, la principal razón de la modulación es la operación de filtrado. La forma de onda glotal es muy rica en armónicos, y el tracto vocal, como cualquier tubo acústico tiene frecuencias naturales las cuales son una función de su forma. Estas resonancias son las formas más importantes de modular la voz.

    12

  • Capitulo If. Generación de VOZ

    Excitaci6n Modulaci6n (glotis) (tracto vocal) Radiada

    Figura 2.2. Sistema de producci6n de voz

    2.4. PROCESAMIENTO DE VOZ

    Las investigaciones en procesamiento de voz y comunicaciones en un Principio fueron motivadas por el deseo de construir modelos mecánicos para emular la capacidades de comunicación verbal humana [I 51. Uno de los primeros intentos fue, un aparato mecánico-mímico, que emula el aparato vocal humano, realizado por Wolfgang Von Kempelen y que es descrito en un libro publicado en 1791; Mas tarde, 40 años después Charles Wheatstone, construyó una máquina basado en las especificaciones de Kempelen, en esta máquina emula los 6rganos que intervienen en la generación de la voz mediante dispositivos mecánicos, por ejemplo, un fuelle hace la función del pulmón, las cuerdas vocales son reemplazadas por lengüetas colocadas al final de un tubo flexible (el tracto vocal), cuya área transversal puede variar, para producir varios sonidos. Posteriormente ya en el siglo XX, Helmholz, Miller, Koenig, y otros siguieron otro principio, ellos sintetizaron sonidos de vocales superponiendo armónicas de senoides con los ajustes apropiados de amplitud. La visión de los investigadores en voz hoy en día es mayor debido a los avances en las herramientas matemáticas (algoritmos), computación, y todas las aplicaciones potenciales de procesamiento de voz en las comunicaciones modernas y en redes de computadoras.

    13

  • 1 I i

    Capitulo II Generacibn de VOZ

    2.5. INVESTIGACIÓN EN SíNTESIS DE voz 1161

    Generación de voz es el proceso que permite la transformación de una cadena de simbolos fonéticos y prosódicos en una setiai de VOZ sintética. La calidad resultante depende tanto de la calidad de la cadena. como del proceso de generación [17]. La calidad de la voz sintetizada en 10s sistemas texto a VOZ se relaciona con dos criterios, el primero la inteligibilidad, la cual puede ser medida tomando en cuenta algunas clases de unidades (fonemas, silabas, palabras, frases). La segunda y más dificil de definir, es frecuentemente descrita como naturalidad. Actualmente el concepto de naturalidad se refiere al concepto de realismo en el campo de la sintesis de imágenes: La meta no es restituir la realidad, pero si sugerir esta. AS¡, escuchando una voz sintética debemos permitir al escucha atribuir esta voz a un pseudo orador y percibir alguna clase de expresión tan bien como algunas características del estilo del orador y la situación particular de elocución. Para este propósito debe ser proporcionada información lingüística extra al sistema. La mayoría de los sistemas texto a voz producen una aceptable inteligibilidad, pero la naturalidad, la habilidad del control de expresión, estilo de voz y la identidad del pseudo orador es pobre. En los años recientes de la sintesis, los esfuerzos de los investigadores fueron dirigidos principalmente a simular los mecanismos humanos de producción de voz, usando modelos básicos de articulación basados en teorías electroacústicas. Aunque este modelado es aún una de las principales metas en la investigación de la síntesis, avances en las ciencias de la computación han ampliado el campo de la investigación hasta incluir síntesis de texto a voz, en la cuál se modelada la generación de voz y también se procesa texto. Como este modelado es generalmente hecho por un conjunto de reglas derivadas de teorías fonéticas y de análisis acústico, la tecnología es típicamente referida como síntesis de voz por regla. La síntesis por regla ha alcanzado una calidad altamente inteligible y puede servir en muchos usos prácticos; esta calidad se ha logrado por la alternación del análisis de características de la voz con el desarrollo de reglas de control. Sin embargo, la mayoria de estos progresos han sido sistemas dependientes y permanecen profundamente incrustados dentro de la arquitectura en impenetrables redes de reglas detalladas y de parámetros finamente sintonizados. Como consecuencia, el conocimiento para desarrollar sistemas de síntesis similares no está disponible y puede ser muy difícil reproducirlo en sistemas equivalentes por otros investigadores. En contraste a este método basado en reglas, también se ha desarrollado un método basado en corpus’, en el cual se tienen conjuntos de datos de voz bien definidos a varios niveles con información, tal como etiquetas acústico-fonéticas Y marcado sintáctico, para seguir como fundamento para un modelado estadístico. Parámetros espectrales y características prosódicas de los datos de voz se analizan en relación a la información etiquetada; basados en los resultados de

    Corpus. Conjunto lo más extenso y ordenado posible de datos o textos cientiflcos. literarios, etc., que pueden servir de I base a una investigación [is].

    14

  • este análisis, se crea un modelo computacional que es entrenado usando el corpus. Por medio de la aplicación subsecuente de datos de prueba (entrenamiento) se valida el modelo resultante y cualquier defecto puede ser mostrado cuantitativamente para realizar mejoras adicionales al modelo en un proceso iterativo. Este procedimiento caracteristico, formalizado del método basado en corpus, proporciona una clara formulación empírica de los controles fundamentales de la voz, con su procedimiento especifico de entrenamiento y con su resultado objetivo de la evaluación; asi que puede ser reproducido por otros investigadores para otras bases de datos de corpus de voz equivalentes.

    2.6. SíNTESlS POR SEGMENTOS [I91

    En los sistemas texto a VOZ se utilizan unidades más pequeñas que las palabras, típicamente se hace un modelado en sílabas, fonemas, o pares de fonemas. Las características espectrales de un segmento de voz varían dependiendo del: contexto fonético, cómo es influido por fonemas vecinos, estrés y diferencias de posición de este último. Sin embargo, aunque en la sintesis por regla tradicional las unidades de voz incluyen las variaciones fonéticas, no se han realizado estudios sistemáticos para determinar cómo y dónde es mejor extraer los parámetros acústicos de las unidades o que clase de corpus de voz puede considerarse Óptimo. Con el objetivo de tener una técnica para la generación apropiada de unidades de voz, la síntesis por selección de unidades ha sido propuesta en [20], [21] y [22]. Las unidades pueden ser determinadas automáticamente a través del análisis del corpus de voz, usando una medida de entropia2 entre las subcadenas de etiquetas de sonidos (las etiquetas se subdividen). En la selección de unidades de síntesis, se toman en cuenta medidas objetivas que indican el adecuado grado contextual, así como también la suavidad y las transiciones espectrales dentro y entre las unidades. A diferencia de la concatenación en la sintesis por regla, los segmentos de voz no están limitados a un símbolo (etiqueta fonética) por tipo de unidad, además son usados varios tipos y tamaños de unidades. De esta forma se seleccionan unidades ÓDtimas aue correspondan a una cadena fonética de entrada de una base de datos de voz para generar voz de salida.

    2.7. CONTROL PROSÓDICO [23]

    Para obtener naturalidad en la calidad del sonido en la sintesis de voz es necesario el control prosódico, para asegurar el correcto ritmo, tiempo, acento, entonación y estrés. El control de duración de segmento se necesita para modelar caracteristicas temporales y el control de frecuencia fundamental se necesita para

    2 Enlropia. Medida de incertidumbre eliminada por el conocimiento de cierta información con base a una probabilidad

  • 1 Capltulo If. Generacibn de VOZ

    características tonales. En contraste a la relativa escasez en trabajos de voz en generación de unidades, muchos análisis cuantitativos se han llevado a cabo para el control prosódico. Específicamente, análisis cuantitativos y modelado de control de duración de segmentos se han realizado para muchos lenguajes usando corpus de voz masivos. Para generar una curva adecuada de la frecuencia fundamental (Fo) cuando sólo es dado texto como entrada. necesita ser especificada una estructura prosódica _ _ --. intermedia y para ello es necesario un procesamiento del texto. Como en el caso del control de duración, en los primeros modelos de reglas para el control de Fo fueron hechas independientemente sólo por la reunión de análisis de las características de Fo. Sin embargo, recientemente se han empleado modelos estadísticos para asociar patrones de FO con entradas de información lingüística directamente, sin requerir estimar la estructura prosódica intermedia.

    2.8. DETERMINACIÓN DE LA FRECUENCIA FUNDAMENTAL Fo (PITCH) [24]

    Las señales de voz se componen de muchos armónicos de frecuencias, llamados formantes. El armónico principal, frecuencia fundamental o pitch es de crucial importancia, ya que determina cierta periodicidad en la voz. La determinación del pitch es muy importante tanto en el reconocimiento como en la síntesis de voz, debido a que forma parte de las características prosódicas que definen la calidad de la síntesis en nuestro caso. Aunque la determinación exacta del pitch en las señales de voz es un problema que no se ha resuelto totalmente, existen muchas formas de determinarlo; a continuación mencionamos algunas de ellas. Uno de los primeros métodos fue simplemente un filtro pasa baja para remover todos los armónicos y después medir la frecuencia fundamental por medios convenientes. Pero este método tiene dos inconvenientes. El primero, puesto que el pitch puede cubrir fácilmente uno o dos rangos, el filtro debe asegurarse de permitir el paso de la frecuencia fundamental y rechazar el segundo armónico. El segundo problema está en que el pitch se tiene que detectar, en muchos casos, de voz con calidad telefónica. La respuesta de frecuencia de un canal telefónico cae abruptamente debajo de 300 Hz, por lo que para voces masculinas la frecuencia fundamental está ausente o es muy débil. En una función periódica la autocorrelación puede mostrar un máximo en un retraso igual al periodo de la función; sin embargo la voz no es exactamente periódica debido a los cambios de pitch y de los formantes, lo que es un problema para la detección del pitch mediante la autocorrelación. El principal problema con la autocorrelación, es que la primera formante puede interferir con la fundamental, así que se han desarrollado técnicas para tener un espectro de amplitud plana y así todos los armónicos tengan esencialmente el mismo tamaño, para lo anterior se tienen algunas técnicas [25].

    Filtrado adaptativo. En este método se tiene un banco de filtros pasa banda a través de los cuales se filtrada la señal. Cada filtro cubre aproximadamente 100 Hz y tiene un control automático de ganancia, la función de los filtros es la de

  • I Capitulo I I . Generacibn de VOZ

    obtener un espectro plano, posteriormente las salidas son autocorrelacionadas para obtener una estimación del pitch (261.

    Cortado central. En este metodo las porciones de la señal con amplitudes bajas se remueven con base a un punto de corte, este punt0 representa un umbral y rechaza toda la porción de la señal por debajo de este umbral. Posteriormente al recorte, la señal es autocorrelacionada para obtener una señal con los máximos que representan los ciclos de la frecuencia fundamental, como se muestra en la Figura 2.3.

    Figura 2.3. a) Función de corte; b ) cefial de entrada: c) seiíal de salida,

    17

  • Capitulo I / . Generaci6n de voz

    El Cepstrum. Es la transformada de Fourier del logaritmo de su espectro de potencia; es otro método bastante poderoso para la obtención de un espectro plano. Este se deriva del modelo de excitación - modulación del tracto vocal. El espectro de voz esta dado por:

    X(f) = G(f)H(f)

    Donde G(f) es el espectro de la excitación glotal y H(f) es la función de transferencia del tracto vocal. Si tomamos el logaritmo del espectro de potencia, podemos transformar estos componentes multiplicativos en aditivos.

    T ( f ) = 2lnlX(f] = 2[lnlG(f)l+InlH(f)/]

    Note que T(f) consta de dos componentes, un componente de variación lenta el cual corresponde al espectro de la envolvente y una componente de variación rápida la cual corresponde a los picos de armónicos del pitch. Estos componentes pueden separarse por filtrado o tomando la segunda transformada de Fourier. Así el cepstrum queda expresado como [27]:

    C(q) = FF(f)J = 2F(ln/G(f)/+InlH(f)I)

    Análisis en dominio del tiempo. Algunos investigadores han intentado determinar la frecuencia fundamental por análisis detallado de la forma de onda misma. En 1969 Gold y Rabiner [28] propusieron un detector de pitch, el cual usa los atributos de la forma de onda como son las mediciones de las amplitudes de los picos positivos y negativos, las posiciones de pico a pico y de pico a valle. Las mediciones se efectuaron después de procesar la señal por un filtro pasa baja de 600 Hz. Miller [29] menciona que cada período de pitch está caracterizado normalmente por una excursión que es significativamente más grande que sus vecinas, estas excursiones son llamadas ciclos principales; antes se hace una reducción de datos por medio de un filtro pasa bajo y se identifican los ciclos de mayor potencia con base a criterios de cruce por cero y área bajo la curva. Estas técnicas se mencionan con más detalle en [24].

  • Capitulo 111. Procesamiento de seilales

    CAPITULO 111 PROCESAMIENTO DE SEÑALES

    3.1. INTRODUCCI~N

    El objetivo principal de este capitulo es explicar en qué consisten las herramientas matemáticas y algoritmos usados en la metodología propuesta para realizar la síntesis de voz. Iniciamos describiendo la operación de correlación entre señales, en un principio se pretendía usar la correlación para implementar la transformada wavelet, aunque finalmente se utilizó la transformada wavelet incluida en un paquete de software; también se utilizó esta operación en el seccionamiento de fonemas, como se verá en el siguiente capítulo. Posteriormente se explica el análisis wavelet; para lo cual se considera necesario iniciar con una explicación del análisis de Fourier, debido al parecido de estos dos tipos de análisis y a que, en principio, es más conocido el análisis de Fourier. Se parte de la serie de Fourier para seguir con la transformada y su caso particular la transformada de Fourier de tiempo corto; posteriormente explicamos la transformada wavelet continua para llegar al caso discreto. Finalmente se explica el algoritmo para el cálculo de la transformada wavelet discreta.

    19

  • Caplfulo 111. Procesamiento de seriales

    3.2. CORRELACIdN DE SENALES EN TIEMPO DISCRETO

    La correlación entre dos señales es una medida de la similitud entre éstas. Es una operación muy empleada en el procesamiento de señales con diferentes aplicaciones como son radar, sonar, transmisión de datos y muchas más. En aplicaciones como radar se tiene una señal transmitida x(n) y una señal recibida y(n), si existe un objeto en el área de búsqueda la señal recibida y(n) será una versión retrasada de x(n), puesto que es una señal reflejada por algún objeto y distorsionada por el ruido w(n), por otra parte si no existe ningún objeto la señal y(n) consistirá solamente de ruido. Lo anterior se puede expresar mediante la ecuación 3.1 [30].

    y(n) = ax(n - d ) + w(n) (3.1 1 Donde aes un factor de atenuación y d representa el atraso de la señal recibida. El problema en la detección por radar y sonar consiste en comparar la señal transmitida x(n) con la señal recibida y(n), para determinar si existe un objeto y si así es debe determinarse el retraso d. del cual se puede calcular la distancia del objeto. La correlación es una importante herramienta para revelar la existencia o ausencia de la señal reflejada, tomando en cuenta que en la práctica la identificación de la señal no es tan sencilla pues la señal reflejada puede estar contaminada por ruido.

    3.2.1. Funciones de correlación cruzada y autocorrelación

    Dadas dos secuencias de energía finita x[n] e y[n], la correlación cruzada entre ellas se define por la ecuación 3.2 1311.

    Donde I representa el atraso, el subíndice xy en la secuencia de correlación cruzada rxv[& representa las secuencias que son correlacionadas. El orden de los subindices, x precedido por y. indica la dirección de desplazamiento de una secuencia con respecto a otra. Si el orden de las secuencias x[n] e y[n] en la ecuación 3.2 se invierten, obtenemos la ecuación 3.3

    Comparando la ecuación 3.2 y 3.3 se concluye que:

    rxy 111 = ryr [-I1

    (3.3)

    (3.4)

    20

  • i Capltulo 111. Procesamiento de serlales I

    I La ecuación 3.4 dice que, con respecto a la similitud entre ambas secuencias la información proporcionada por r,& y rvx[/l es la misma. Cuando la secuencia x[n]=y[n], la función de correlación se expresa como la ecuación 3.5, y recibe el nombre de autocorrelación.

    3.2.2. Algoritmo para la correlación de dos secuencias

    En este trabajo se elaboró una rutina que realizará la función de correlación entre dos señales. El algoritmo utilizado calcula el producto punto de dos secuencias (señales) n veces (donde n = longitud de los vectores de entrada), con un desplazamiento de una muestra entre cada una de las operaciones del producto punto. La Figura 3.1 explica mejor la operación para dos secuencias (x[n] e y[n]) cada una con una longitud de cinco muestras. Para cada iteración se realiza el producto punto entre las dos secuencias, después de la primera iteración se introduce un cero en la última muestra de la secuencia y[n] y el primer valor de dicha secuencia se descarta; esta operación tiene el propósito de realizar el corrimiento en tiempo de la secuencia.

    xc[n] - Valor

    descartado y? y2 y3 y4 y5 O

    Figura 3.1. Algoritmo de la correlación para la rutina spcorr.

    21

  • Capitulo 111. Procesamiento oe senafes

    La siguiente es la sintaxis de la funci6n SPCorr:

    xc = spcorr ( x. y)

    x = señal a correlacionar. Longitud =n. y = señal a correlacionar. Longitud =n.

    xc = función de correlación entre x e y.

    Sintaxis:

    Entradas:

    Salidas:

    Comentarios: Los vectores x e y deben ser de la misma longitud. El vector resultante xc tiene la misma longitud que x e y.

    3.3. ANÁLISIS WAVELET

    Las transformadas son poderosas herramientas matemáticas para el análisis de sistemas, señales y funciones; en el caso de señales, el análisis consiste en la extracción de información que generalmente no se aprecia en su forma natural. Las señales de voz se encuentran en dominio del tiempo, como la mayoría de las señales en la práctica, sin embargo algunas veces es necesario conocer las componentes de frecuencia, por lo que se requiere de una transformación lineal al dominio de la frecuencia. En el campo de la ingeniería son ampliamente utilizadas una variedad de transformadas lineales, una de las más usadas es la transformada de Fourier y recientemente la transformada wavelet. El punto central de esta tesis es aplicar el análisis wavelet a señales de voz, por lo que a continuación se explica en qué consiste, pero antes es pertinente hacer mención del análisis de Fourier puesto que se relaciona en gran parte con el análisis wavelet. Joseph Fourier estableció que una función periódica f(t) puede ser representada como una serie trigonométrica [32], siempre y cuando cumpla con ciertas condiciones. Así se tiene que:

    m 1 f(f)=-a, +C(a,cosno,t+b, sennw,t) (3.6)

    2 “=I

    donde: W, = 2 n l T

    T i 2

    a, = - j f( f) cos(nw,t )df 7- -7-12

    22

  • Capitulo 111. Procesamiento de seilales

    2 b, = -- If(t)sen(no,t)dt

    T -Ti2 n = 1,2,3, ...

    Una serie representada como en la ecuación 3.6 se llama serie trigonométrica de Fourier [33] y a cada elemento de la serie se le llama armónico. Conceptualmente la representación de una función mediante series de Fourier es la representación de dicha señal como la combinación lineal de un conjunto de funciones bases, en este caso senoidalec, es decir, se representa una función mediante la suma de componentes senoidales de diferentes frecuencias (armónicos) y con diferentes amplitudes. Es necesario que el conjunto de funciones base (senoidales) sean ortogonales entre ellas y, además, que la función a ser representada por series de Fourier cumpla con las condiciones de Dirichlet.

    3.3.1. Transformada Fourier

    El concepto anterior se puede extender para encontrar la representación de una señal no periódica como una combinación lineal de exponenciales complejas relacionadas armónicamente y es de aquí de donde se parte para obtener la transformada de Fourier [34]. La serie de Fourier de la ecuación 3.6 puede ser expresada en forma compleja como:

    i

    De estas ecuaciones se obtiene la ecuacion que permite calcular la Transformada de Fourier, ecuación 3.9, as¡ como también la transformada inversa, ecuación 3.10.

    (3.9)

    (3.10)

    La transformada de Fourier de una señal no periódica se conoce como el espectro de la función f(t), ya que proporciona la información acerca de qué componentes senoidales y de qué frecuencia forman a f(t) (proporciona información de la

    23

  • Capltulo 111. Procesamiento de senales

    frecuencia, fase y magnitud de las componentes). Dicho -de otra forma, y por analogla con la terminología de las series de Fourier, la transformada de Fourier son los coeficientes de la serie que componen a la función. Como se ve la transformada de Fourier proporciona información en dominio de la frecuencia a partir de señales en dominio del tiempo.

    T i e m p o

    Figura 3.2. Seilal compuesta por la suma de dos funciones senoidales con frecuencias de 10 y 50 Hz. Ambas frecuencias (10 y 50 Hz) están presentes en todo el intervalo de tiempo.

    Figura 3.3. Espectro de la seilal de la Figura 3.2. Como se ve esta seilal tiene dos componentes senoidales a 10 y 50 Hz.

    Uno de los inconvenientes de la transformada de Fourier es que no hay información referente al tiempo, es decir no se conoce en qué instante de tiempo está presente una frecuencia dada. La transformada supone que todas las componentes de frecuencia están presentes en todo tiempo (señal estacionaria), pero si la señal analizada no es estacionaria la transformada de Fourier no será adecuada para el análisis de este tipo de señales.

    24

  • Capltulo 111. Procesamiento de senales

    La Figura 3.3 muestra el espectro (transformada de Fourier) de la señal de la Figura 3.2, de la misma forma en la Figura 3.5 existen dos picos a 10 y 50 Hz, sin embargo el espectro de la Figura 3.5 corresponde a la señal de la Figura 3.4. Como puede observarse las señales de las Figuras 3.2 y 3.4 son diferentes, y sin embargo los espectros (Figuras 3.3 y 3.5) muestran básicamente lo mismo, con pequeñas diferencias. Una solución a este inconveniente fue la transformada de Fourier de tiempos cortos (STFT).

    Figura 3.4. Señal compuesta por 10 y 50 Hz, a diferencia de la señal de la Figura 3.2, esta señal no presenta ambas frecuencias en todo el intervalo de tiempo; una sena1 de 10 Hz se presenta en los primeros 500 ms. y en los siguentes 500 ms se presenta la seilal de 50 Hz.

    3 0 0

    2 5 0

    2 0 0 - ._ c

    1 5 0

    I

    1 0 0

    5 0

    n

    Figura 3.5. Espectro de la serial de la Figura 3.4, nuevamente se observan dos componentes a 10 y 50 Hz.

    25

  • Capítulo 111. Procesamiento de sedales

    3.3.2. La transformada de Fourier de tiempo corto (STFT)

    Es una variación de la transformada de Fourier que tiene el propósito de proporcionar una representación en tiempo - frecuencia.

    ST iTg) ( t ' , f ) = j [x ( t )w * ( t - t')e-'2ddt] (3.11) t

    Donde, x(t) es la señal, w (t) es una funpón 'ventana, y el * denota el complejo conjugado.

    La ecuación 3.11 muestra la función de la STFT, se puede ver que es la transformada de Fourier con la diferencia de que se tiene una función ventana (o(t)) que será precisamente la que dará la localización en tiempo. Esta ventana se desplaza en el tiempo para realizar el análisis de la señal a intervalos regulares determinados por el ancho de la ventana. 1

    I I

    21 O 0 2200 2300 2400 2500 2600 2700 Tempo

    Figura 3.6. Aqui se muestra una representación de la STFT, donde la función ventana son las gausianas. Cada ventana corresponde a un tiempo t' diferente.

    Como se muestra en la Figura 3.6 caida ventana corresponde a un tiempo t' diferente, y en cada uno de ellos se realiza el cálculo de la transformada de Fourier, como resultado se tiene un espectro de frecuencias para el tiempo t', de esta forma sabemos qué componentes de frecuencias existen en un determinado

    Recordando que cuando se tiene la señal en dominio del tiempo no existen problemas de resolución en tiempo, poique se conoce el valor de la función en cualquier instante, sin embargo no se sabe el valor de la frecuencia, es decir la resolución de frecuencia es cero cuando la señal está en dominio del tiempo. De

    intervalo de tiempo. i

    26

  • Capítulo Ill. Procesamiento de senales

    manera similar, cuando la señal está en dominio de la frecuencia se conoce la magnitud a cualquier frecuencia, pero no en qué instante sucede, es decir la resolución del tiempo cuando la seilal está en dominio de la, frecuencia es cero. Cuando se usa la STFT la función ventana dice qué en determinado rango o intervalo de tiempo existe tal banda de frecuencias, así que ahora la resolución del tiempo cuando la señal está en dominio de la frecuencia ya no es cero. Esta resolución depende del ancho de la ventana, es decir entre más estrecha sea la ventana, mayor será la resolución en tiempo, sin embargo la resolución en frecuencia es baja, pues sólo se toma una pequeña porción de la señal, en la cual posiblemente no estén componentes de frecuencias bajas. Es as¡ como el ancho de la ventana establece un compromiso, si la ventana es estrecha, la resolución en tiempo es buena, pero la resolución en frecuencia es pobre; y si la ventana es ancha, la resolución en frecuencia es buena, pero la resolución en tiempo es pobre. Este inconveniente podría ser superado si el ancho de la ventana pudiera variarse, pero uno de los problemas de la STFT es precisamente que el ancho de la ventana permanece fijo, cosa que no sucede en la transformada wavelet, pues el ancho de la ventana es variable. LOS problemas de resolución en el análisis de señales son un fenómeno físico que se explica por el principio de incertidumbre de Heisenberg [351 [36l. Para mayores detalles de la STFT se puede Consultar [VI.

    3.3.3. La transformada wavelet continua

    Un wavelet es una forma de onda oscilatoria que persiste sólo por uno o pocos ciclos y tiene la característica de presentar localización (posición) y una escala (duración) [38]. La transformada wavelet continua (CWT) surgió como un método de análisis que supera los problemas que presenta la transformada de Fourier de tiempo corto. La transformada wavelet continua utiliza un método llamado análisis de multiresolución (MRA) [39], el cual consiste en analizar una señal a diferentes frecuencias con diferentes resoluciones, por lo que con MRA tenemos buena resolución en tiempo y pobre resolución en frecuencia para altas frecuencias y buena resolución en frecuencia y pobre resolución en tiempo para bajas frecuencias.

    C W : ( t , s ) = Y~(z ,s ) = k(tk *,,s (t)dt (3.12)

    (3.13)

    El análisis de la CWT es similar al de STFT, en el sentido de que se utiliza una ventana que multiplica a la señal; esta ventana, llamada wavelet, es desplazada

    21

  • Capitulo 111. Procesamiento de seilales

    en tiempo para dar la localizaci6n en tiempo. La principal diferencia de la CWT con la STFT, es que el ancho de la ventana (ancho del wavelet) es variable. En la ecuación 3.12 vemos la función de la CWT, donde a se le llama wavelet madre y está definida por la ecuación 3.13. La CWT está en función de las variables "K" y "s", que son traslación y escala respectivamente. Como se puede suponer "K" representa la traslación de la ventana o wavelet y "s" es la escala que representa una señal de alta frecuencia para escalas altas y de baja frecuencia para escalas bajas. El efecto del escalamiento es una dilatación o compresión de la señal, así para escalas grandes corresponde a un alargamiento del wavelet y para escalas pequeñas corresponde a una compresión del wavelet. Se le llama wavelet madre a la ecuación 3.1 3, debido a que es la función prototipo que genera a toda la familia de funciones base (genera a los wavelets dilatados o comprimidos con un cierto desplazamiento). Como se puede ver, la ecuación 3.12 es una correlación entre la señal x(t) y una función ventana (wavelet), para diferentes anchos de ventanas (wavelets de diferentes frecuencias). Para cada ancho "s" del wavelet se realiza una correlación que nos indica que tanto pertenece dicho wavelet a la señal x(t), dicho de otra forma se obtiene una descomposición de la señal en funciones de la ventana actual. El radical en la ecuación 3.12 tiene el propósito de normalizar la energía y así tener la misma energía en cada escala.

    Frecuencia 4

    - Tiempo

    Figura 3.7. Esta figura muestra una interpretación d e la resolución d e tiempo y frecuencia.

    En la Figura 3.7 se puede ver una representación del plano tiempo-frecuencia, cada porción del plano está representado por un mosaico y como se observa a bajas frecuencias el alto del mosaico es más corto, lo que corresponde a mejor resolución en frecuencia, puesto que hay menos ambigüedad al tomar un valor exacto de frecuencia, sin embargo el ancho de los mosaicos es más largo, lo que corresponde a pobre resolución en tiempo, puesto que hay más ambigüedad en tomar en cuenta un valor exacto de tiempo. A altas frecuencias el ancho de los

    2R

  • Capitulo Ill. Procesamrento de senales

    mosaicos decrece, es decir, la resolución en tiempo aumenta y el alto de los mosaicos se incrementa, lo que indica que la resoluci6n en frecuencia es pobre. También se puede observar la escala del wavelet para cada largo del mosaico; cada mosaico en la Figura 3.7 corresponde a un valor de la CWT, por lo que todos los puntos que caen dentro de un mosaico son representados por un valor de la CWT. La ecuación 3.14 muestra la transformada inversa wavelet continua, para esto es necesario satisfacer la ecuación 3.15. La CWT es reversible aunque la función base puede no ser ortonormal.

    (3.14)

    La reconstrucción de x(t) depende de la constante c,,, (constante de admisibilidad) y el valor de ella se relaciona con el wavelet usado.

    Donde p({)es la transformada de Fourier de dt). La ecuación 3.15 implica que p(0) = O , lo cual significa:

    (3.15)

    (3.16)

    Como establece la ecuación 3.16 esta es una condición que puede cumplir muchas funciones wavelet, sólo es.necesario que su integral sea cero.

    3.3.4. Discretización de la transformada wavelet continua

    Hasta aquí se ha visto la transformada wavelet continua, pero es necesario un análisis para el plano discreto, que al igual que sus similares como la transformada discreta de Fourier se pueda implementar en computadora para hacer más práctico el cálculo de análisis y síntesis. Una forma intuitiva de pasar al plano discreto la transformada wavelet es realizar un muestreo directamente del plano tiempo-frecuencia. Sin embargo, el cambio de escala en la WT puede ser utilizado para reducir la razón de muestreo; es decir de acuerdo con el teorema de Nyquist a bajas frecuencias la razón de muestreo puede decrecer. En otras palabras, la porción del plano tiempo-frecuencia que contiene bajas frecuencias puede tener una razón de muestreo más baja que la porción del plano tiempo-frecuencia que contiene las frecuencias más altas. La consideración anterior tiene como ventaja una reducción en el número de operaciones a realizar en el cálculo de la transformada wavelet.

    29

  • Capítulo 111. Procesamienfo de señales

    I La forma de pasar al plano discreto es poner la escala como una función logaritmica y el parámetro tiempo es discretizado en función del parámetro escala, es decir una razón de muestreo diferente será usada para cada escala. Así la Figura 3.8 muestra el planoescala-tiempo en su forma discreta, donde cada punto representa un valor de la transformada wavelet (coeficiente). Por conveniencia la base del logaritmo es 2, as¡ las escalas calculadas serán 2, 4, 8, 16, 32, 64, ... etc. Puesto que en el plano discreto se relaciona la razón de muestreo con la escala, la razón de muestreo se reduce a la mitad en cada escala (debido a que el logaritmo usado para la escala es 2). Nótese en la Figura 3.8, que en la escala más baja (s=2) existen 32 muestras, en la siguiente escala el número de muestras se reduce a la mitad y as¡ sucesivamente.

    0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

    0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

    O

    0

    O

    O

    Figura 3.8. Representación de la escala contra razón de muestreo en el plano discreto de la transformada wavelet.

    Se tiene que la escala y la traslación (tiempo) quedan expresados como:

    S = S ; z = k . s i . 7 , , S,>1 r O > Q

    Sustituyendo las expresiones anteriores en la ecuación 3.13 se obtiene:

    v,,k(t) = si’’*v(so’t - kc,)

    Si {v,,~} constituye una base ortonormal, la transformada wavelet sera:

    Y? = b(t)v*i,k(t)df

    O

    (3.17)

    (3.18)

    (3.19)

    30

  • Capitulo 111. Procesamiento de serlales

    En resumen el cambio de escala utilizado en la I ransformada es aprovechado para reducir la razón de muestreo, puesto que es suficiente cumplir con el teorema de Nyquist. La operación anterior implica una reducción en el número de operaciones realizadas en el cálculo y una mayor eficiencia del algoritmo. Por conveniencia se tiene que la variación de la escala está en función logaritmica (base 2); además como se expreso anteriormente la traslación en tiempo es función de la escala. Para un estudio más a fondo puede consultarse [40] y [41].

    3.3.5. La transformada wavelet discreta

    Los fundamentos de la transformada wavelet discreta (DWT) tienen sus bases en esquemas tales como la codificación de sub-banda 1421 y el análisis de multiresolución [39]. Como se ve en la ecuación 3.12, la CWT es la correlación entre un wavelet a diferentes escalas y la señal, usando la escala como una medida de similaridad. La CWT se calcula cambiando la escala de la ventana, desplazando la ventana en el tiempo, multiplicando la señal por la ventana e integrando cada producto de la señal por la ventana. En el caso de la transformada discreta, filtros de diferentes frecuencias de corte se usan para analizar la señal a diferentes escalas. La señal se pasa a traves de una serie de filtros pasa alta para analizar altas frecuencias y por una serie de filtros pasa baja para analizar las bajas frecuencias. La resolución de la señal, la cual es una medida de la cantidad de información detallada en la señal, es cambiada por las operaciones de filtrado, y la escala es cambiada por una operación de sobre muestreo o sub muestreo (esta última operación también conocida como diezmado). La operación de filtrado corresponde a la convolución de la señal con la respuesta al impulso del filtro. La ecuación 3.20 corresponde a la operación de convolución.

    m

    ~ [ n ] * h[n] = C ~ [ k ] . h[n - k] k=-m

    (3.20)

    Sí se expresa la frecuencia de señales discretas en función de radianes y además para generalizar la explicación a cualquier frecuencia se hace una normalización de la frecuencia de muestreo a 2n radianes, la componente de frecuencia más alta que puede existir en una señal es de n radianes, si la razón de muestreo de la setial está de acuerdo con el teorema de Nyquist. Cuando la señal pasa por un filtro pasa baja de media banda, la mitad de las muestras de la señal resultante del filtrado pueden ser descartadas de acuerdo al teorema de Nyquist y ahora la señal tendrá la componente más alta de frecuencia a un máximo de n12 radianes en lugar de n radianes; por lo que se realiza un diezmado por 2, descartando una muestra y dejando sin cambio otra muestra, así que ahora se reduce a la mitad el número de muestras que anteriormente se tenía. Resumiendo: la operación del filtro pasa baja removió la alta frecuencia y además cambió la resolución (se redujo a la mitad la resolución), por otra parte la operación de diezmado reduce a la mitad el número de muestras de la señal y

    31

  • Capitulo 111. frocesarn/ento de seirales

    además cambia la escala (ahora está al doble). Esto puede ser expresado en la ecuacibn 3.21.

    (3.21)

    La DWT emplea dos conjuntos de funciones, llamadas de escalamiento y wavelet, las cuales están asociadas con filtros pasa baja y pasa alta, respectivamente. La descomposición en bandas de frecuencias de la señal se obtiene por la operación de filtrado pasa alta y pasa baja de la señal en dominio del tiempo. La señal x[n] pasa primeramente por filtros de media banda pasa alta g[n] y pasa baja h[n]. Despues del filtrado la mitad de las muestras puede ser eliminada de acuerdo al teorema de Nyquist y este proceso constituye un nivel de descomposición expresado por las ecuaciones 3.22 y 3.23, donde Yhigh e YI,, son las salidas de los filtros posteriormente al diezmado por 2.

    (3.22)

    (3.23)

    La Figura 3.9 explica el procedimiento del cálculo de la DWT. Como se muestra la Señal x[n] con una banda de frecuencia de O a ÍT se filtra por h[n], que divide la banda de frecuencia de la señal ahora de O a 7d2, para después diezmar las muestras por 2; por otra parte g[n] divide la banda de frecuencia de d 2 a n para posteriormente diezmarla y obtener el primer nivel de coeficientes wavelets. El procedimiento se repite hasta que el número de muestras sea 2. Los niveles de coeficientes se unen para obtener un vector de igual longitud a la señal analizada x[n]* dicho vector contiene los coeficientes wavelets de la señal.

    32

  • .

    Capitulo 111. Procesamiento de serlales

    Nivel 1 1 Coeficientes DWT

    Nivel 2 Coeficientes DWT

    I Nivel 3 T

    Coeficientes DWT ... Figura 3.9. Algoritmo para la obtención de la DWT.

    Obsérvese que los primeros coeficientes obtenidos (primeros niveles de coeficientes) tienen las componentes de frecuencias más altas y los últimos coeficientes obtenidos son las componentes de más baja frecuencia. En algunos tipos de señales (como en voz) las componentes de alta frecuencia tienen menor potencia con respecto a las componentes de baja frecuencia, por lo que los coeficientes wavelets correspondientes a las altas frecuencias tienen un valor pequeño que frecuentemente puede despreciarse haciendo cero su valor bajo algún criterio, incluso algunas veces estas componentes de alta frecuencia representa ruido de la señal. Aunque el algoritmo de la DWT devuelve el mismo número de coeficientes que el número de muestras de la señal, muchos de estos coeficientes tienen valores relativamente pequeños o con valor cero y frecuentemente se pueden despreciar, es aquí donde la transformada wavelet muestra su carácter de compresor de señales.

    33

  • I Capifuio 111. Procesamiento de seriales

    La Figura 3.10 explica el algoritmo que recupera una señal a partir de los coeficientes wavelets, como se ve el procedimiento es el inverso al de la D W .

    1 1 1, Nivel3 Coeflcientes DWT ...

    I f=o-pi/a

    Nivel 2 j

    I 1

    Coeflcientes DWT

    Nivel 1 Coeflclentes D W

    Figura 3.10. Algoritmo para, obtener la DWT inversa

    I

    La reconstrucción de la señal (por capa) está expresada por la ecuación 3.24 Para una explicación más detallada de la DWT puede consultarse [43] y [44].

    m

    mi = c G/,,,wI. g w - ni)+ (Y,,,,[~I. w - 4) (3.24) k = a ,

    34

  • Capítulo 111. Procesamienfo de seiiaíes

    Cada nivel del algoritmo de la transformada wavelet está compuesto por dos filtros media banda pasa baja (h[n]) y pasa alta (g[n]), estos filtros se conocen como Filtros espejo de cuadratura (QMF) y son filtros del tipo FIR. Para una mayor explicación consúltese [43] y [45]. Los filtros pasa baja y pasa alta no son independientes uno del otro, su relación está expresada por la Ecuación 3.25.

    g[L - 1 - n] = (-l)”h[n] (3.25)

    Donde g[n] es el filtro pasa alto, h[n] el pasa bajo y L es la longitud del filtro en número de puntos. Como se mencionó antes h[n] y g[n] se relacionan con dos funciones llamadas de escalamiento y wavelet, respectivamente. Estas funciones están representadas por una serie que se compone de coeficientes y de funciones base (wavelets). La operación de filtrado es la convolución de la señal con los coeficientes que componen dicha serie; pa’ra mayor detalle véase [46].

    3.3.6. Herramienta de computación

    Los algoritmos de DWT y DWT inversa están implementados en módulos de programas (funciones) incluidos en el paquete de software Toolbox Wavelab ver. 0.700, que se ejecutan bajo el ambiente de MATLAB. El software Toolbox Wavelab es un conjunto de librerías que utiliza el análisis wavelet, paquetes wavelet, paquetes cosenoidales, etc.; este Toolbox se obtiene en la dirección: http://playfair.stanford.edu/-wavelab. El conjunto de wavelets (funciones base) para el análisis y síntesis de señales disponible en este software son los wavelets Haar, Coiflet, Daubechies, Symmlet y el wavelet de interpolación promedio. A continuación mostramos gráficamente estos wavelets.

    35

    http://playfair.stanford.edu/-wavelab

  • CapMulo 111. Procesamiento de senales - L . o . o 5

    - 0 . I

    0.2

    0.15.

    0.1

    0.05.

    O

    0.05.

    4 . 1

    0 .15 .

    0 . 2

    . r b-

    -

    J

    I 2 0 0 4 0 0 6 0 0

    o 2

    o . I 5

    o . 1 o . o 5

    o

    . o . o 5

    - 0 . I

    . o . I 5

    . o . 2

    - 0 2 5

    s " r n m I* t

    o . o 5 .

    O

    - 0 . o 5

    . o ol'-Li4 . o ., . I 5 o Z O O 4 0 0 6 0 0

    36

  • Caolfulo 111. Procesamiento de serlales

    qmf = Filtro espejo de cuadratura (ortonormal).

    Salidas: wc = transformada wavelet de x.

    Comentarios: 1. El filtro qmf se puede obtener de la función MakeOnFilter. 2. Generalmente la longitud del filtro se expresa como:

    Lengfb(qmf)

  • Capitulo 111. Procesamiento de seriales

    Entradas: wc = coeficientes de la transformada wavelet. Su longitud debe ser potencia de 2. Length(~)=2~: L = Nivel más alta; L-J. D = Grado del polinomio para la interpolación promedio. F = Filtro creado por la función rnakeaifiiter. EF = Filtro de borde creado por la función rnakeaibdryfilter.

    x = Señal reconstruida a partir de wc. Salidas:

    Construcción de los filtros digitales utilizados por las transformadas.

    + Cálculo del filtro QMF mediante la función MakeOnFilter. Sintaxis:

    qmf = MakeOnFi/ter( Tipo, Par)

    Tipo = Cadena con el tipo de wavelet: 'Haar', 'Beylkin', 'Coiflet', 'Daubechies'. 'Symrnlet', 'Vaidyanathan'.

    Entradas:

    Par = Número entero, por ejemplo, sí el Tipo = 'Coiflet', Par=3, especifica el wavelet Coiflet.

    qrnf = Filtro espejo de cuadratura. Salidas:

    + Cálculo de filtro mediante la función makeaifilter. Sintaxis:

    Entradas: Filt = makeaifi/fer(D)

    D = Grado del polinomio para la interpolación promedio. Debe ser un entero par.

    Filt = Filtro de interpolación promedio. Salidas:

    + Cálculo de filtro mediante la función rnakeaibdryfilter. EdgeFilt = makeaibdryfi/ter(D)

    D = Grado del polinomio para la interpolación promedio. Debe ser un entero par.

    uso:

    Entradas:

    38

  • CapltUlO 111. Procesamiento de seilales

    Salidas: EdgeFilt = Filtro de borde.

    Estos datos fueron obtenidos del manual de referencia de Waveiab [47].

    39

  • Capitulo IV. Metodologia para la sintesis de voz

    CAPITULO IV METODOLOGíA PARA LA

    SíNTESIS DE VOZ

    4.1. INTRODUCCI~N

    Este capítulo describe la metodología propuesta para realizar síntesis de voz, así como también los resultados obtenidos. La metodología propuesta presenta varias etapas; básicamente se realiza la detección del período pitch y la amplitud envolvente; dependiendo del tipo de sonido se hace un seccionamiento del fonema; se hace la selección de micro funciones, el análisis de una micro función mediante wavelets; esta información sirve para reconstruir la señal, es decir para generar el fonerna sintetizado por medio de concatenación de micro funciones reconstruidas. Para algunas de las etapas se probaron dos alternativas diferentes para seleccionar la mejor, tal es el caso del análisis de micro funciones y los métodos de concatenación de micro funciones.

    40

  • Capitulo ;V. Metodologia para la sintesis de voz

    4.2. PRINCIPIO PARA LA SiNTESIS DE VOZ

    En forma general, la síntesis de voz se realiza a partir de un análisis de voz grabada para extraer coeficientes wavelets, así como también las características propias de la voz, como son la razón de repetición (pitch) y la amplitud de la envolvente’; esta información, que es menor que la información de sella1 original, servirá para realizar una reconstrucción de la señal y así llevar a cabo la síntesis, véase la Figura 4.1.

    ENVOLVENTE

    Figura 4.1. Diagrama a bloques.de los pasos para realizar la síntesis de voz.

    Como se observa en la Figura 4.2, una señal de voz presenta cierta periodicidad, es decir, está formada por ciclos que van cambiando su forma de onda en el tiempo; dicha forma de onda cambia en mayor o menor grado dependiendo del tipo de sonido. Los sonidos vocálicos presentan en menor grado este cambio en su forma de onda (ver la Figura 4.2), esto significa que los ciclos de un sonido vocálico son muy parecidos entre sí. Con base en este hecho, la síntesis de voz en este trabajo se basa en tomar uno de estos ciclos (que llamaremos micro función), analizarlo mediante wavelets, para posteriormente repetirlo con ciertas reglas y formar un fonema sintetizado. El tomar un ciclo o micro función de la señal de voz original para, a partir de su información, generar un segmento o todo el fonema es el enfoque que diferencia este trabajo de otras formas para llevar a cabo la generación artificial de voz. En la actualidad la forma mas común de realizar la síntesis es grabando unidades básicas como fonemas o sílabas de sonidos y concatenarlas mediante alguna técnica para disminuir la transición de los segmentos, además de agregar características que permitan variar algunos de sus parámetros de entonación y

    Amplitud de la envolvenle. En este trabajo nos referimos a la amplitud de la envolvente como el valor de 1 amplitud máximo de cada uno de los ciclos que componen a la señal de voz.

    41

    http://bloques.de

  • Capitulo IV. Metodologla para is sintesis de voz

    ritmo, como es la amplitud de la envolvente y el período del pitch, como se describe [48] y [49]. En esta tesis se parte de unidades básicas de informacibn para generar el fonema o sílaba, lo anterior implica una pérdida de informacibn, por lo que sólo se intenta tener inteligibilidad en la síntesis, sin embargo la principal ventaja es que la cantidad de información necesaria para generar un fonema o sílaba se reduce. Las herramientas y programas utilizados fueron realizados bajo el ambiente del paquete computacional Matlab y el toolbox Wavelab. Todas las señales de voz fueron grabadas en archivos de formato wav con una frecuencia de muestre0 de 22KHz.

    O

    -0.2

    -0.4

    -0.6

    I 2400 2500 2600 2700 2800 2900

    Figura 4.2. Arriba aparece una señal del fonema vocal "a" en dominio del tiempo, haciendo un acercamiento de algunos de los ciclos de la señal, se observa la similitud entre ellos.

    4.3. PROCESO DE ANÁLISIS DE SENALES DE VOZ

    4.3.1. Tipos de sonidos

    Existe una diversidad de sonidos generados por el ser humano dependiendo de la articulación en la cavidad bucal, sin embargo cada idioma tiene determinados tipos de sonidos. Para nuestro idioma, el español, la fonética ha hecho una clasificación extensa dependiendo de la articulación y también dependiendo de las

    42

  • Capitulo IV. Metodologla para la síntesis de VOZ

    características del sonido, para información detallada de la forma en que se clasifican los sonidos consúltese [50] y (511. Debido a la cantidad de sonidos existentes para probar la hipótesis del proyecto, solamente se analizaron algunos ellos, como son:

    Vocales o sonoros (sonidos como: caso, mesa, piso, modo, cura), se realizó la síntesis para las cinco vocales.

    Para sonidos semivocales, nasales, oclusivos y fricativos se realizó la síntesis de sílabas directas';

    En el caso de sonidos semivocales y nasales (como lodo, perro y sonidos con m y n, respectivamente), se realizó la síntesis para I, m, n. Para sonidos oclusivos (punto, baño, tino, donde, casa, ganga), se sintetizaron sonidos con p, t, k. Por lo que corresponde a los fricativos (falda, casa, jamás), para este tipo de sonido se sintetizaron sílabas con c.

    Esta clasificación de sonidos se propone en [52].

    1

    0.5

    O

    -0.5

    -1 ' I O 1000 2000 3000 4000 5000 6000 7000 8000

    1

    0 5

    O

    -0 5

    - 1 O 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 1

    0.5

    O

    -0.5 I. I

    1000 2000 3000 4000 5000 6000 7000 8000 9000 J O 1

    o 5

    O

    -0 5

    -1

    Figura 4.3. De arriba abajo se tiene la forma de onda de: un sonido vocal, uno semivocal. uno oclusivo y uno fricativo.

    * Sl