SSML
description
Transcript of SSML
![Page 1: SSML](https://reader033.fdocumento.com/reader033/viewer/2022052702/56814f2a550346895dbcb5bc/html5/thumbnails/1.jpg)
SSMLSpeech Synthesys markup language
Autor: Mario Rodríguez Boya
“Estado actual del estándar SSML para la síntesis del habla dentro del ‘Speech Interface Framework’ desarrollado por el
grupo de trabajo ‘Voice Browser’ del W3C”
![Page 2: SSML](https://reader033.fdocumento.com/reader033/viewer/2022052702/56814f2a550346895dbcb5bc/html5/thumbnails/2.jpg)
Índice de Contenidos
• Introducción
• Proceso de Síntesis del Habla
• Formato de un Documento SSML
• Integración con otros Lenguajes
• Implementaciones Actuales
• Desafíos Futuros
• Conclusiones
![Page 3: SSML](https://reader033.fdocumento.com/reader033/viewer/2022052702/56814f2a550346895dbcb5bc/html5/thumbnails/3.jpg)
Introducción
• Lenguaje de marcas basado en XML
• Especificación desarrollada por el Voice Browser Working Group
• Parte del W3C Speech Interface Framework
• Método estándar para la pronunciación, tono, volumen, velocidad …
• Generación automática (XSLT) o manual
![Page 4: SSML](https://reader033.fdocumento.com/reader033/viewer/2022052702/56814f2a550346895dbcb5bc/html5/thumbnails/4.jpg)
Índice de Contenidos
• Introducción
• Proceso de Síntesis del Habla
• Formato de un Documento SSML
• Integración con otros Lenguajes
• Implementaciones Actuales
• Desafíos Futuros
• Conclusiones
![Page 5: SSML](https://reader033.fdocumento.com/reader033/viewer/2022052702/56814f2a550346895dbcb5bc/html5/thumbnails/5.jpg)
Proceso de Síntesis del Habla
• Análisis Gramatical
• Análisis de la Estructura
• Normalización del Texto
• Conversión del Texto a Fonemas
• Análisis Prosódico
• Generación de la Forma de Onda
![Page 6: SSML](https://reader033.fdocumento.com/reader033/viewer/2022052702/56814f2a550346895dbcb5bc/html5/thumbnails/6.jpg)
Proceso de Síntesis del Habla
• Análisis Gramatical– Se extraen las etiquetas del árbol– La estructura, etiquetas y atributos extraídos
serán utilizados en las etapas posteriores
![Page 7: SSML](https://reader033.fdocumento.com/reader033/viewer/2022052702/56814f2a550346895dbcb5bc/html5/thumbnails/7.jpg)
Proceso de Síntesis del Habla
• Análisis de la Estructura– Markup Support: <p> y <s>– Non-Markup Behaviour: Procesador de
Sintesis (por defecto)
![Page 8: SSML](https://reader033.fdocumento.com/reader033/viewer/2022052702/56814f2a550346895dbcb5bc/html5/thumbnails/8.jpg)
Proceso de Síntesis del Habla• Normalización del Texto
– Construcciones especiales (1/2, 100 € …)– Ambigüedad– Markup Support: <say-as>– Non-Markup Behaviour:
• Procesador de síntesis• Múltiples posibilidades• Análisis del contexto• Errores muy probables en la transformación
![Page 9: SSML](https://reader033.fdocumento.com/reader033/viewer/2022052702/56814f2a550346895dbcb5bc/html5/thumbnails/9.jpg)
Proceso de Síntesis del Habla• Conversión del Texto a Fonemas
– Deducir la pronunciación de las palabras– Distintos tipos de lenguajes Distintos tipos
de conversiones (uno a uno, muchos a uno...)– Markup Support: <phoneme>– Non-Markup Behaviour: procesador de
síntesis (diccionario de pronunciación)
![Page 10: SSML](https://reader033.fdocumento.com/reader033/viewer/2022052702/56814f2a550346895dbcb5bc/html5/thumbnails/10.jpg)
Proceso de Síntesis del Habla• Análisis Prosódico
– Prosodia: conjunto de rasgos del habla– Buena prosodia Voz humana natural y
comprensible– Markup Support: <emphasis>, <break> y
<prosody>– Non-Markup Behaviour: procesador de
síntesis muy efectivo al establecer los rasgos
![Page 11: SSML](https://reader033.fdocumento.com/reader033/viewer/2022052702/56814f2a550346895dbcb5bc/html5/thumbnails/11.jpg)
Proceso de Síntesis del Habla• Generación de la Forma de Onda
– Llevada a cabo automáticamente por el procesador de síntesis (Non-Markup Behaviour)
– Se puede solicitar explícitamente (Markup Suport) una voz con determinadas cualidades (e.g. Voz de una mujer joven)
![Page 12: SSML](https://reader033.fdocumento.com/reader033/viewer/2022052702/56814f2a550346895dbcb5bc/html5/thumbnails/12.jpg)
Índice de Contenidos
• Introducción
• Proceso de Síntesis del Habla
• Formato de un Documento SSML
• Integración con otros Lenguajes
• Implementaciones Actuales
• Desafíos Futuros
• Conclusiones
![Page 13: SSML](https://reader033.fdocumento.com/reader033/viewer/2022052702/56814f2a550346895dbcb5bc/html5/thumbnails/13.jpg)
Formato de un Documento SSML
• DOCTYPE<!DOCTYPE speak PUBLIC "-//W3C//DTD SYNTHESIS 1.0//EN" "http://www.w3.org/TR/speech-synthesis/synthesis.dtd">
• Elemento Raíz: <speak> <?xml version="1.0"?><speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.w3.org/2001/10/synthesis http://www.w3.org/TR/speech-synthesis/synthesis.xsd" xml:lang="en-US">
![Page 14: SSML](https://reader033.fdocumento.com/reader033/viewer/2022052702/56814f2a550346895dbcb5bc/html5/thumbnails/14.jpg)
Formato de un Documento SSML<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.w3.org/2001/10/synthesis http://www.w3.org/TR/speech-synthesis/synthesis.xsd" xml:lang="es"> <p>
<s> Tienes 4 mensajes.</s> <s> El primero es de Mario, recibido a las <break/> 3:45pm.</s>
<s> El asunto es <prosody rate="-20%">vacaciones</prosody> </s> </p></speak>
![Page 15: SSML](https://reader033.fdocumento.com/reader033/viewer/2022052702/56814f2a550346895dbcb5bc/html5/thumbnails/15.jpg)
Formato de un Documento SSML …
<p>
<voice gender="female">
La canción habla de dos personas
</voice>
</p>
<p>
<voice gender="male">
Aquí tiene una muestra
<audio src="http://www.example.com/music.wav"/>
¿Le gustaría comprar la canción?
</voice>
</p>
…
![Page 16: SSML](https://reader033.fdocumento.com/reader033/viewer/2022052702/56814f2a550346895dbcb5bc/html5/thumbnails/16.jpg)
Índice de Contenidos
• Introducción
• Proceso de Síntesis del Habla
• Formato de un Documento SSML
• Integración con otros Lenguajes
• Implementaciones Actuales
• Desafíos Futuros
• Conclusiones
![Page 17: SSML](https://reader033.fdocumento.com/reader033/viewer/2022052702/56814f2a550346895dbcb5bc/html5/thumbnails/17.jpg)
Integración con otros Lenguajes
• Colabora con SMIL para descripción de aplicaciones multimedia con salida de voz
• Complementa a ACSS– Mayor funcionalidad que ACSS– ACSS controla mejor el aspecto espacial
• Junto con VoiceXML permite el desarrollo de navegadores de voz
![Page 18: SSML](https://reader033.fdocumento.com/reader033/viewer/2022052702/56814f2a550346895dbcb5bc/html5/thumbnails/18.jpg)
Índice de Contenidos
• Introducción
• Proceso de Síntesis del Habla
• Formato de un Documento SSML
• Integración con otros Lenguajes
• Implementaciones Actuales
• Desafíos Futuros
• Conclusiones
![Page 19: SSML](https://reader033.fdocumento.com/reader033/viewer/2022052702/56814f2a550346895dbcb5bc/html5/thumbnails/19.jpg)
Implementaciones Actuales
• Loquendo TTS
• Microsoft Speeh Server: aplicaciones de telefonía por voz
• OptimTalkv
• Voice Center
• Código Abierto: FreeTTS
![Page 20: SSML](https://reader033.fdocumento.com/reader033/viewer/2022052702/56814f2a550346895dbcb5bc/html5/thumbnails/20.jpg)
Índice de Contenidos
• Introducción
• Proceso de Síntesis del Habla
• Formato de un Documento SSML
• Integración con otros Lenguajes
• Implementaciones Actuales
• Desafíos Futuros
• Conclusiones
![Page 21: SSML](https://reader033.fdocumento.com/reader033/viewer/2022052702/56814f2a550346895dbcb5bc/html5/thumbnails/21.jpg)
Desafíos Futuros
• Normalización del texto– Homógrafos– Abreviaturas – Símbolos
• Implantación en navegadores Web
• Naturalización del habla– Prosodia– Comunicación fluida
![Page 22: SSML](https://reader033.fdocumento.com/reader033/viewer/2022052702/56814f2a550346895dbcb5bc/html5/thumbnails/22.jpg)
Índice de Contenidos
• Introducción
• Proceso de Síntesis del Habla
• Formato de un Documento SSML
• Integración con otros Lenguajes
• Implementaciones Actuales
• Desafíos Futuros
• Conclusiones
![Page 23: SSML](https://reader033.fdocumento.com/reader033/viewer/2022052702/56814f2a550346895dbcb5bc/html5/thumbnails/23.jpg)
Conclusiones
• Estándares del W3C Voice Browser Group sirven para interacción hombre-máquina de forma natural
• SSML ofrece control de la prosodia por parte del autor o automático
• Problemas en la inferencia de significado de símbolos y abreviaturas en distintos contextos
![Page 24: SSML](https://reader033.fdocumento.com/reader033/viewer/2022052702/56814f2a550346895dbcb5bc/html5/thumbnails/24.jpg)
Fin
SSML“Estado actual del estándar SSML para la síntesis del habla dentro
del ‘Speech Interface Framework’ desarrollado por el agrupo de
trabajo ‘Voice Browser’ del W3C”
Autor: Mario Rodríguez Boya
Hola estudiantes del curso de doctorado “Tecnologías, estándares y servicios Web”, espero que les
haya gustado la presentación de Mario