Prof. Eduardo López Gonzalo e-mail:...

45
Síntesis de Voz Prof. Eduardo López Gonzalo e-mail: [email protected] Dpto. Señales, Sistemas y Dpto. Señales, Sistemas y Radiocomunicaciones Radiocomunicaciones

Transcript of Prof. Eduardo López Gonzalo e-mail:...

Page 1: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de Voz

Prof. Eduardo López Gonzaloe-mail: [email protected]

Dpto. Señales, Sistemas y Dpto. Señales, Sistemas y RadiocomunicacionesRadiocomunicaciones

Page 2: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de Voz

Tipos de Síntesis de Voz y Aplicaciones

Principios básicos de Sistemas de Conversión de Texto a Voz (TTS systems)

Sintetizadores de Voz

Sistemas y Dificultades

Page 3: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de Voz

Tipos de Síntesis de Voz y Aplicaciones

(C)Conversión de Concepto

a VozConcept-to-Speech CTS

Locutores virtuales (visual – TTS)

Otros: Enseñanza (I. Cervantes), ..http://oesi.cervantes.es/jsp/noticias/noticia.jsp?xml=/docs/20030424/0001.xml&xsl=/docs/plantillas/noticia.xsl

Comunicadores y Ayudas para Discapacitados

Asistentes de Lectura

Acceso a Inform.Telefónica(A)

Voz Pre-Grabada(codificación)

(B)Conversión de Texto

a VozText-to-Speech TTS

Page 4: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

1791

• El barón Wolfgang von Kempelen describió una máquina que reproducía fielmente la anatomía del aparato fonador humano

Page 5: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

1835

• Sistema parlante diseñado por Sir Charles Wheatstone

Page 6: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Sprachsynthese (TTS, Vocoder) Historie der Sprachsynthese

1939Homer Dudley’s “Voder”:

Primer Sintetizador “electrónico” compuesto de:

• Un oscilador (controlado por un pedal) y una fuente de ruído blanco

• Diez filtros paso banda, con salida conectada a potenciómetros

• Algunos botones para generar consonantes como t, p, etc...

http://www.acoustics.hut.fi/~slemmett/dippa/appa.htmlProseminar Sprachdialogsysteme Philipp S. Bach

Page 7: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de Voz

Principios básicos de Sistemas de Conversión de Texto a Voz (TTS systems)

ProcesoLingüístico-Prosódico

Proceso de Señal

•Sonidos (pausas)•Prosodia:

o F0o Duracióno Energía

Análisis del TextoAnálisis FonéticoAnálisis Prosódico

Modelos de Síntesisde Voz

SINTETIZADOR

Texto Voz

Cotovía es un sistema de conversión texto-voz bilingüe para Gallego y Castellano desarrollado por el Grupo de Tratamientode la Señal de la Universidad de Vigo (España) y un grupo de investigadores de la Universidad de Santiago de Compostela

con el apoyo del Centro Ramón Piñeiro para a Investigación en Humanidades.

Page 8: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de VozPrincipios básicos de sistemas de conversión de texto a voz

Proceso Lingüístico-Prosódico: Análisis del Texto

Detección de la Estructuradel Texto

Texto de Entrada

Normalización del Texto

Análisis Lingüístico

Componentes:

Page 9: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de VozPrincipios básicos de sistemas de conversión de texto a voz

Proceso Lingüístico-Prosódico: Análisis del Texto

Detección de la Estructura:– Segmentación de

párrafos.– Separación de frases.– Tipos de frases.– Detección de estructura

de SMS, e-mail, página web, ...

– Identificación del Idioma, ...

Detección de la Estructuradel Texto

Texto de Entrada

Normalización del Texto

Análisis Lingüístico

Page 10: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de VozPrincipios básicos de sistemas de conversión de texto a voz

Proceso Lingüístico-Prosódico: Análisis del Texto

Normalización del Texto:– Abreviaturas (Vd. Sr. ),

acrónimos (CEE, BMW) , etc.

– Fechas, Horas, Cantidades, Números

– Corrección automática de errores o expansión de formas de escritura (SMSs)

– Identificación de palabras extranjeras, ..

Detección de la Estructuradel Texto

Texto de Entrada

Normalización del Texto

Análisis Lingüístico

Page 11: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de VozPrincipios básicos de sistemas de conversión de texto a voz

Proceso Lingüístico-Prosódico: Análisis del Texto

Análisis Lingüístico:– Análisis sintáctico y

semántico (posible)– Desambiguación de

palabras.– Estructura de la frase.– Identificación de tipo de

frase.

Detección de la Estructuradel Texto

Texto de Entrada

Normalización del Texto

Análisis Lingüístico

Page 12: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de VozPrincipios básicos de sistemas de conversión de texto a voz

Proceso Lingüístico-Prosódico: Análisis Fonético

Salida del Componente de Análisis de Texto

Análisis Morfológico

ConversiónLetra-a-sonido

(Grafema-a-alófono)

Componentes:

Page 13: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de VozPrincipios básicos de sistemas de conversión de texto a voz

Proceso Lingüístico-Prosódico: Análisis Fonético

Salida del Componente de Análisis de Texto

Análisis Morfológico

ConversiónLetra-a-sonido

(Grafema-a-alófono)

Análisis Morfológico:– Palabras de función:

pronombres, preposiciones, conjunciones (determinar sílabas, ej.: sublunar)

– Palabras de contenido – Prefijos y sufijos,

conjugaciones, plurales, aumentativos, etc

– Descubrir homógrafas que cambian sentidoEj.: para (preposición) y para (verbo)

Page 14: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de VozPrincipios básicos de sistemas de conversión de texto a voz

Proceso Lingüístico-Prosódico: Análisis Fonético

Salida del Componente de Análisis de Texto

Análisis Morfológico

ConversiónLetra-a-sonido

(Grafema-a-alófono)

Conversión Grafema-Alófono:– Soluciones basadas en

diccionario• Palabras divididas en

morfemas (para disminuir diccionario)

• Si la palabra no está: usa reglas

– Soluciones basadas en reglas: Reglas de conversión letras-fonemas + Tabla + algoritmos de excepciones

Page 15: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de VozPrincipios básicos de sistemas de conversión de texto a voz

Proceso Lingüístico-Prosódico: Análisis Prosódico

Salida del Componente de Análisis Fonético

Modelado de:• Entonación• Duración• Intensidad

Sonidos y pausas +F0, duración y Energía

Módulo Pausador

Componentes:

Page 16: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de VozPrincipios básicos de sistemas de conversión de texto a voz

Proceso Lingüístico-Prosódico: Análisis Prosódico

Salida del Componente de Análisis Fonético

Modelado de:• Entonación• Duración• Intensidad

Sonidos y pausas +F0, duración y Energía

Módulo Pausador

Módulo Pausador:– Decisión de dónde insertar

pausas –ortográficas y no ortográficas- :

• Información gramatical: coeficientes de relación

• Número de sílabas– Asignación de la duración

adecuada a las pausas

Page 17: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de VozPrincipios básicos de sistemas de conversión de texto a voz

Proceso Lingüístico-Prosódico: Análisis Prosódico

Salida del Componente de Análisis Fonético

Modelado de:• Entonación• Duración• Intensidad

Sonidos y pausas +F0, duración y Energía

Módulo Pausador

Modelado Prosódico:– Modelos:

• Patrones pre-establecidos• Basados en reglas• Estocásticos, a partir de

datos.– Modelado de F0 y duración:

¿independiente o conjunto?– Intensidad, generalmente

sólo normalización

Page 18: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de VozMODELOS PROSÓDICOS

Lineales o de Secuencia de Tonos – generar la curva de F0 de izquierda a derecha como una secuencia de valores o movimientos

Escuela Británica – basada en análisis auditivoPierrehumbert 1980 – análisis acústico (ToBI)Dutch school - ‘t Hart, Collier and Cohen 1990 – información perceptualTilt - Taylor 1998 – base fonética

Modelos Jerárquicos o de superposición: - generar el contorno de F0 modelando factores de forma aislada (fonema, sílaba, palabra, frase, sentencia) y

luego combinar los modelos parciales.

Fujisaki 1983, Grønnum 1992, Möbius et al. 1993,

Tomás Navarro Tomás, Manual de Pronunciación Española (1945) New York:

Hispanic Institute. Guadarrama 1974.

http://liceu.uab.es/publicacions/Linguistica_CTH_FDS02.pdf

Page 19: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de Voz

Sintetizadores de VozParamétricos

Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980)

Modelos Articulatorios

No Paramétricos: Concatenación de unidadesBase de datos de unidades “pequeña” +

modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990)

Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)

Page 20: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de VozSintetizadores de Voz: Paramétricos

Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980):

Síntesis por regla: a partir de la secuencia de fonemas genera los parámetros de control del sintetizador.

Síntesis por formantes: produce la voz sintética a partir de los parámetros de control.

Text-to-phoneconversiontext

Phonestring Synthesis-

by-rule

Synthesisercontrol

parameters Synthesiser

“letter-to-sound”

rules

Exceptionsdictionary

Speakertable

Rules

Linguisticanalysis

Prosodyparameters

Page 21: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de VozSintetizadores de Voz: Paramétricos

Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Parámetros de Control

Unvoiced Excitation

VoicedExcitation

A

A

A

A

F1

F2

F3

F4

ExcitationMixers

FormantAmplitude

ControlFormant

Resonators

VoicingControl

Speech Out+

Page 22: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de VozSintetizadores de Voz: Paramétricos

Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Parámetros de Control

El sintetizador de formantes de mayor éxito comercial fue el DECTalk, basado en MIT Klatt-

talk

Page 23: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de VozSintetizadores de Voz: No Paramétricos

Base de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990)

Dificultad y elevado tiempo de desarrollo de los sistemas de síntesis por regla.

Síntesis por concatenación de unidades:

• Selección de unidades: tipo “dífonos” para representarla coarticulación entre dos sonidos.

• Algoritmo de modificación prosódica (PSOLA: PitchSynchronous Overlap-Add)

Page 24: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de VozSintetizadores de Voz: concatenación de unidades

Generación de la base de datos

Lista de Unidades

Informac.unidades

Sintetizador de VozModificación Prosódica

BD Unidadesde síntesis

Concatenación

Síntesis

DecodificaciónDe voz

Segmentaciónde unidades

Corpusde voz

BDUnidades

de VozAnálisis

BD Unidades

Parametriz. Ecualización

Codificaciónde voz

Fonemas yProsodia

Voz

Page 25: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de VozSintetizadores de Voz: concatenación de unidades: Dífonos

...# L L AA T T A A #

Modificación de paramètrosprosódicos

0 200 400 600 800 1000 1200 1400 1600 1800 2000-2

-1.5

-1

-0.5

0

0.5

1

1.5

2x 10

4

0 500 1000 1500 2000 2500-2

-1.5

-1

-0.5

0

0.5

1

1.5

2x 10

4

Page 26: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

PSOLA: Pitch Synchronous Overlap and Add

• PSOLA (Charpentier-Moulines, 1986)• Es el método más utilizado en síntesis por

concatenación de unidades• Existen 3 versiones TD-PSOLA,

LP-PSOLA y FD-PSOLA

Page 27: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

PSOLA

De: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001

Page 28: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Modification de la Voz usandoPSOLA

• Además de la síntesis de voz a partir de segmentos hay dos aplicaciones del PSOLAque se usan en TTS:– Modificación del Pitch– Modificación de la Duración

Page 29: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Aumentando el pitch con PSOLA

De: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001

Page 30: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Disminuyendo el pitch PSOLA

De: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001

Page 31: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Modificando el Pitch

=X

Hannedpitch period

Dífono Original Extractedpitch period

Hanningwindow‘C_A’

Page 32: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Modificando el PitchPSOLA – Pitch Synchronous Overlap and Add

=

50% Overlap + Add

Pitch Up > 50%Pitch Down < 50%

Page 33: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

PSOLA strengths and weaknesses

• Strengths– Produces good quality speech

• Weaknesses– Large, annotated corpus needed for each ‘voice’– Requires accurate pitch peak detection– Inflexible – new voices can only be produced by

recording and labelling significant speech corpora from new speakers

• Automatic annotation of corpora using techniques from speech recognition

Page 34: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de Voz

Sintetizadores de Voz: No ParamétricosBase de datos de unidades “pequeña” + modificación

prosódica (PSOLA – CNET, Moulines & Charpentier 1990)

Hay otros modelos de síntesis: Modelos Armónicos

Voz como combinación lineal de L sinusoides con amplitudes, fases y frecuencias variantes con el tiempo

Page 35: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de VozSintetizadores de Voz: Paramétricos

Modelos Articulatorios:

Page 36: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de VozSintetizadores de Voz: No Paramétricos

Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)

Objetivo: Sintetizar una frase = seleccionar la secuencia de unidades {ui} que represente mejor la secuencia de sonidos + prosodia {ti} (ti: target = sonido + prosodia):

S (silencio) t1 t2 t3 t4 ... ... ...... tn S(silencio)

u1 u2 u3 u4 ... ... ...... un Gran BD deUnidades de Voz ui10 – 150 min.

Page 37: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de VozSintetizadores de Voz: No Paramétricos

Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)

Se define:Coste de ajuste al objetivo:

Coste de concatenación::

j: diferencia de f0, duración, contexto, ...wj

t: peso de cada factor

( )iit utC ,

( )iic uuC ,1−

( ) ∑=

=P

jii

tj

tjii

t utcwutC1

),(,

Page 38: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de VozSintetizadores de Voz: No Paramétricos

Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)

Se define:Coste de concatenación::

j: distancias en el punto de unión: cepstral, log-energía, f0, ...

wjc: peso de cada factor

( )iic uuC ,1−

( ) ( )∑=

−− = Q

jii

cj

iic

uucuuC

11

cj

1 ,w

la BD en existesecuencia la si 0,

Page 39: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de VozObjetivo: Sintetizar una frase = seleccionar la secuencia de unidades {ui} que represente mejor la secuencia de sonidos + prosodia {ti} (ti: target = sonido + prosodia):

S (silencio) t1 t2 t3 t4 ... ... ...... tn S(silencio)

u1 u2 u3 u4 ... ... ...... un

{ui} óptima => mínimo

Gran BD deUnidades de Voz ui10 – 150 min.

( )nn utC 11 ,

( ) ( ) ∑∑=

−=

+++=n

in

cii

cn

iii

tcnn SuCuuCutCuSCutC2

11

111 ),(),(),(,,

Page 40: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de VozSintetizadores de Voz: No Paramétricos

Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)

Problemas:

Qué factores y entrenamiento de los pesos: wjc, wj

t

Algoritmo de búsqueda de unidades

Page 41: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de Voz

Sistemas y DificultadesDificultades

Naturalidad: prosodia, sistemas mixtos por corpus + dífonos

Expresividad: sistemas de diálogo, comunicadores personales: síntesis de emociones

Personalización/Generación rápida de nuevas voces

Síntesis Audio-Visual

Page 42: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de VozSistemas y Dificultades

Sistemas Comerciales (castellano):Telefónica Investigación y Desarrollo

http://oesi.cervantes.es/jsp/noticias/noticia.jsp?xml=/docs/20030424/0001.xml&xsl=/docs/plantillas/noticia.xslTecnología / Diálogo / etc...

ATLAS: http://www.atlas-cti.com/es/download-atlastts.htmScanSoft (RealSpeak: http://www.scansoft.com/realspeak/demo/)Loquendo (http://www.loquendo.com/es/demos/demo_tts.htm)ELAN Informatique

(http://www.elanspeech.com/demos/sayso.html)Nuance (RealSpeak & Vocalicer:

http://www.nuance.com/prodserv/demo_vocalizer.html)

Page 43: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de VozSistemas y Dificultades

Sistemas Investigación y Distribución Libre:Festival

http://www.cstr.ed.ac.uk/projects/festival/MBROLA

http://tcts.fpms.ac.be/synthesis/mbrola/mbrola.htmlFreeTTS (Festival => Java)

http://freetts.sourceforge.net/docs/index.php

Universidades españolas:http://www.gts.tsc.uvigo.es/cotovia/cotovia.es.html , corpushttp://www-gth.die.upm.es/research/synthesis/synth-form-

concat.html

Otros Contextos:MPEG-4 & MPEG-7Microsoft Speech API

Page 44: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de VozSistemas y Dificultades

Otros Contextos: Síntesis Audio-Visual

Identificación de Sonidos(Reconocedor de Habla)

sonidos --> visemas

Audio(voz pre-grabada)

Conversor Texto-VozTexto

Animación

Audio

visemas

• Animación 2D o 3D

• Composición de Vídeo

Page 45: Prof. Eduardo López Gonzalo e-mail: eduardo@gaps.ssr.upmfdiaz/docencia/ProcesadoMultimedia/Transparencias/CTVCarlosIII.pdfSalida del Componente de Análisis de Texto Análisis Morfológico

Síntesis de VozSíntesis de VozSistemas y Dificultades

Otros Contextos: Síntesis Audio-VisualHaptek

http://www.haptek.comFaceWorks

http://interface.digital.com/Lipsync

(aplicaciones http://www.annosoft.com/index.htm)

Composición de vídeo:Vir2elle: http://www.vir2elle.com/Oddcast: http://vhost.oddcast.com/vhost_minisite/

Web bots: Alicebot(aplicaciones http://www.alicebot.org/)