Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/...

65
Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/D OC/ Tema2.ppt Dpto. Señales, Sistemas Dpto. Señales, Sistemas y Radiocomunicaciones y Radiocomunicaciones

Transcript of Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/...

Page 1: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Tratamiento Digital de Voz

Prof. Luis A. Hernández Gómez

ftp.gaps.ssr.upm.es/pub/TDV/DOC/Tema2.ppt

Dpto. Señales, Sistemas y Dpto. Señales, Sistemas y RadiocomunicacionesRadiocomunicaciones

Page 2: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Introducción al Sistema Auditivo Introducción al Sistema Auditivo PeriféricoPeriférico

Vías de Estudio del Sistema Auditivo Periférico Anatomía y Fisiología del Oído Percepción de SonidosReferencia:http://www3.labc.usb.ve/EC4514/AUDIO/Sistema%20Auditivo/Sistema%20Auditivo.html

Aplicación en Tratamiento de VozAyudas a la Audición Reconocimiento de Habla Codificación de Voz

EnmascaramientoMedidas de Calidad

Page 3: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Introducción al Sistema Auditivo Introducción al Sistema Auditivo PeriféricoPeriférico

Vías de Estudio del Sistema Auditivo PeriféricoPLANTEAMIENTO:

FUENTEINFORMACIÓN

GENERACIÓNÓRDENES

PRODUCCIÓN

DESONIDOS

SONIDO(VOZ)

SISTEMA

AUDITIVO

PERIFÉRICO

EXTRACCIÓNINFORMACIÓN

PROCESADO

ALTO NIVEL

NERVIOAUDITIVO

Page 4: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Introducción al Sistema Auditivo Introducción al Sistema Auditivo PeriféricoPeriférico

Vías de Estudio del Sistema Auditivo Periférico Anatomía y Fisiología del Oido

ÓRGANOS QUE INTERVIENEN EN LA PERCEPCIÓN: Descripción FUNCIONES ASOCIADAS A ESOS ÓRGANOS: Como Señales y Sistemas

Percepción de Sonidos LIMITACIONES DEL CONOCIMIENTO FÍSICO COMPORTAMIENTOS DIFÍCILES DE MODELAR:

No Linealidades Enmascaramiento de Sonidos

Page 5: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sistema Auditivo PeriféricoSistema Auditivo Periférico

FUNCIÓN (General) Traducción de SONIDOS a IMPLUSOS en NERVIO AUDITIVO

SONIDO(VOZ)

SISTEMA

AUDITIVO

PERIFÉRICO

EMISIÓN

IMPULSOS NERVIOAUDITIVO

Page 6: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sistema Auditivo PeriféricoSistema Auditivo Periférico

Oído EXTERNO: Pabellón y Canal Auditivo Externo

PABELLÓN: Captación de Sonidos

Importancia de la Percepción Binaural

CANAL AUDITIVO EXTERNO: Conexión Oído Medio

CONDUCTO: APROX. 2.7 cm Largo y 0.7 cm Diámetro RESONANCIA (NO MUY MARCADA) 3-4 KHz

Page 7: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sistema Auditivo PeriféricoSistema Auditivo Periférico

RESPUESTA EN FRECUENCIA DEL OÍDO EXTERNO http://www.harbeth.co.uk/How_we_hear.htm This graph, Response of the outer ear, shows the effect of the physical arrangement of our torso, neck, pinna, concha and ear canal and drum which conveniently (for nature) combine to give a dramatic +20dB boost to those sounds in the 3-4kHz region

Page 8: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sistema Auditivo PeriféricoSistema Auditivo Periférico

Adicionalmente, el pabellón auricular, junto con la cabeza y los hombros, contribuye a modificar el espectro de la señal sonora. Las señales sonoras que entran al conducto auditivo externo sufren efectos de difracción debidos a la forma del pabellón auricular y la cabeza, y estos efectos varían según la dirección de incidencia y el contenido espectral de la señal; así, se altera el espectro sonoro debido a la difracción. Estas alteraciones son usadas por el sistema auditivo para determinar la procedencia del sonido en el llamado "plano medio" (plano imaginario perpendicular a la recta que une ambos tímpanos).

Page 9: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Oído MEDIO: Tímpano, Cadena de Huesecillos Tímpano:

Contacto con Oído Externo (Canal Auditivo Externo – Tímpano)

Cadena de Huesecillos: Contacto con Oído Interno (Estribo

– Ventana Oval)

Sistema Auditivo PeriféricoSistema Auditivo Periférico

Page 10: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Oído MEDIO: Funciones TRANSDUCTOR: Variación de

Presión en el Aire a Vibración Impedancia acústica líquido 4000

veces superior al aire Adaptación de impedancias: Relación

de Áreas (Tímpano –Ventana Oval) y movimiento de la cadena de huesecillos (martillo, yunque, estribo)

No Reflexión – Máxima Transferencia de Potencia

PROTECCIÓN ALTA INTENSIDAD: Control Automático de Ganancia :

“Reflejo Timpánico” NO-Lineal (Potencias> 90dB SPL, Peor a Alta Frecuencia)

Sistema Auditivo PeriféricoSistema Auditivo Periférico

Page 11: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Oído EXTERNO + MEDIO: Respuesta en Frecuencia Máximo Ajuste de Impedancias a 1 KHz Esta respuesta sólo es válida cuando el sistema se comporta

de modo lineal; es decir, cuando la intensidad del sonido no es muy elevada, para evitar que actúe el “Reflejo Timpánico”

Sistema Auditivo PeriféricoSistema Auditivo Periférico

Page 12: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Oído MEDIO “conexión” con Oído Interno: Estribo – Ventana Oval

Sistema Auditivo PeriféricoSistema Auditivo Periférico

Page 13: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sistema Auditivo PeriféricoSistema Auditivo Periférico

Oído INTERNO: Caracol o Cóclea (Órgano de Corti, Membrana Basilar)

CONVERSIÓN DE VIBRACIONES A IMPULSOS NERVIO AUDITIVO

Page 14: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sistema Auditivo PeriféricoSistema Auditivo Periférico

Oído INTERNO:– El interior del conducto está dividido en sentido longitudinal por la membrana basilar y la membrana de Reissner, las cuales forman tres compartimientos o escalas. La escala vestibular y la escala timpánica contienen un mismo fluido (perilinfa), puesto que se interconectan por una pequeña abertura situada en el vértice del caracol, llamada helicotrema.

– Por el contrario, la escala media se encuentra aislada de las otras dos escalas, y contiene un líquido de distinta composición a la perilinfa (endolinfa).

Escala Vestibular

Escala Timpánica

Escala Media

Page 15: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sistema Auditivo PeriféricoSistema Auditivo Periférico

Oído INTERNO:Sobre la membrana basilar y en el interior de la escala media se encuentra el órgano de Corti, el cual se extiende desde el vértice hasta la base de la cóclea y contiene las células ciliares que actúan como transductores de señales sonoras a impulsos nerviosos.

Page 16: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sistema Auditivo PeriféricoSistema Auditivo Periférico

Oído INTERNO:Sobre las células ciliares se ubica la membrana tectorial, dentro de la cual se alojan las prolongaciones o cilios de las células ciliares externas.El sonido propagado a través del oído externo y medio llega hasta la cóclea, donde las oscilaciones en los fluidos hacen vibrar a la membrana basilar y a todas las estructuras que ésta soporta.

Page 17: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sistema Auditivo PeriféricoSistema Auditivo Periférico

Oído INTERNO: La membrana basilar es una estructura cuyo espesor y rigidez no es constante: cerca de la ventana oval, la membrana es gruesa y rígida, pero a medida que se acerca hacia el vértice de la cóclea se vuelve más delgada y flexible.

La rigidez decae casi exponencialmente con la distancia a la ventana oval; esta variación de la rigidez en función de la posición afecta la velocidad de propagación de las ondas sonoras a lo largo de ella, y es responsable en gran medida de un fenómeno muy importante: la selectividad en frecuencia del oído interno.

Page 18: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sistema Auditivo PeriféricoSistema Auditivo PeriféricoOído INTERNO: Supóngase que se excita el sistema auditivo con una señal sinusoidal de una frecuencia dada:

La membrana basilar vibrará sinusoidalmente, pero la amplitud de la vibración irá en aumento a medida que se aleja de la ventana oval (debido a la variación en la velocidad de propagación), hasta llegar a un punto en el cual la deformación de la membrana basilar sea máxima; en ese punto de "resonancia", la amplitud de la vibración y, por tanto, la transmisión de la energía de la onda al fluido de la escala timpánica es máxima en dicho punto y la excitación del nervio acústico en ese punto es máximo.

Page 19: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sistema Auditivo PeriféricoSistema Auditivo PeriféricoOído INTERNO: ANÁLISIS ESPECTRAL:La membrana basilar dispersa las distintas componentes de frecuencia de una señal en posiciones bien definidas respecto a la ventana oval.

Page 20: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sistema Auditivo PeriféricoSistema Auditivo PeriféricoOído INTERNO: ANÁLISIS ESPECTRAL:

Page 21: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sistema Auditivo PeriféricoSistema Auditivo PeriféricoOído INTERNO: ANÁLISIS ESPECTRAL:

Page 22: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sistema Auditivo PeriféricoSistema Auditivo PeriféricoOído INTERNO:

20 Hz

80 Hz 150 Hz

200 Hz

250 Hz350 Hz

600 Hz

800 Hz

1000 Hz

1400 Hz

2000 Hz

2500 Hz

3200 Hz

4 kHz

5 kHz6 kHz

8 kHz

10 kHz

12 kHz

15 kHz

20 kHz

Page 23: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sistema Auditivo PeriféricoSistema Auditivo PeriféricoOído INTERNO:

Análisis en 25 bandas de frecuencia entre 20 Hz y 20 KHz, conocidas como bandas críticas. Los anchos de bandas críticas son asimétricos y dependen de la frecuencia. Por debajo de los 500 Hz, el ancho de banda crítico es aproximadamente constante (alrededor de los 100 Hz), mientras que por encima de los 500 Hz crece en proporción a la frecuencia (Q constante): el ancho de banda crítica centrada en una frecuencia superior a 500 Hz es de alrededor del 20% de la frecuencia central.

Page 24: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sistema Auditivo PeriféricoSistema Auditivo PeriféricoOído INTERNO:

Análisis en 25 bandas de frecuencia entre 20 Hz y 20 KHz, conocidas como bandas críticas. Los anchos de bandas críticas son asimétricos y dependen de la frecuencia. Por debajo de los 500 Hz, el ancho de banda crítico es aproximadamente constante (alrededor de los 100 Hz), mientras que por encima de los 500 Hz crece en proporción a la frecuencia (Q constante): el ancho de banda crítica centrada en una frecuencia superior a 500 Hz es de alrededor del 20% de la frecuencia central.

Page 25: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sistema Auditivo PeriféricoSistema Auditivo PeriféricoLimitaciones del Estudio Fisiológico:Hasta ahora se ha visto que las distintas partes del sistema auditivo son susceptibles de ser modeladas matemáticamente, en términos de su comportamiento como sistemas físicos.

Se podría por tanto pensar que el modelo perceptual ideal es aquel que simula, en términos de los procesos físicos y fisiológicos, todas las etapas del sistema auditivo, incluyendo la etapa de procesamiento neural en el cerebro. Sin embargo, la comprensión que se tiene acerca de lo que ocurre en las estructuras cerebrales es muy limitada, especialmente en lo relativo a los centros "superiores" del cerebro. Por lo tanto, es necesario recurrir a la descripción psicoacústica de los fenómenos perceptuales y de las sensaciones.(http://www3.labc.usb.ve/EC4514/AUDIO/Sistema%20Auditivo/Mecanismo_de_transduccion.html)

Page 26: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sistema Auditivo PeriféricoSistema Auditivo PeriféricoDificultad del Estudio Fisiológico: Respuesta al Impulso (5 mseg.)

Tiempo (mseg.)

Frec

uenc

ia C

arac

terí

stic

a

Am

plit

ud v

ibra

ción

de

la

Mem

bran

a B

asil

ar

Cada Posición Responde a su Frecuencia CaracterísticaAltas Frecuencias se Atenúan más rápidamente que Bajas Frecuencias

Page 27: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

N de banda crítica Frec. central (Hz) Frec. superior (Hz) Ancho Banda crítica (Hz)

1 50 100 100

2 150 200 100

3 250 300 100

4 350 400 100

5 450 510 110

6 570 630 120

7 700 770 140

8 840 920 150

9 1000 1080 160

10 1170 1270 190

11 1370 1480 210

12 1600 1720 240

13 1850 2000 280

14 2150 2320 320

15 2500 2700 380

16 2900 3150 450

17 3400 3700 550

18 4000 4400 700

19 4800 5300 900

20 5800 6400 1100

21 7000 7700 1300

22 8500 9500 1800

23 10500 12000 2500

24 13500 15500 3500

Page 28: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sistema Auditivo PeriféricoSistema Auditivo PeriféricoPERCEPCIÓN DE SONIDOS: experimentos psicoacústicos Se justificarán (siempre que sea posible) en términos de la estructura y fisiología del aparato auditivo.No todos los fenómenos perceptuales auditivos están relacionados directamente con un fenómeno físico sino que reflejan un conjunto muy complejo de relaciones que , para poder ser descritos, requieren de calificativos subjetivos de difícil repetibilidad entre observadores.

Page 29: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sistema Auditivo PeriféricoSistema Auditivo PeriféricoPERCEPCIÓN DE SONIDOS: experimentos psicoacústicos

Page 30: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sistema Auditivo PeriféricoSistema Auditivo PeriféricoPERCEPCIÓN DE SONIDOS: experimentos psicoacústicos

El ser humano es capaz de detectar únicamente aquellos sonidos que se encuentren dentro de un determinado rango de amplitudes y frecuencias: UMBRAL DE SONORIDAD.

Rango de frecuencias desde los 20 Hz hasta los 20 kHz. La sensibilidad del sistema auditivo depende de la frecuencia; dos sonidos de igual presión sonora pueden provocar distintas sensaciones de intensidad o "sonoridad", dependiendo de su contenido espectral.

Discriminación Temporal: Percepción de dos impulsos seguidos.

Análisis en Frecuencia: Bandas Críticas.

ENMASCARAMIENTO DE SONIDOS: TIEMPO y FRECUENCIA

Page 31: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sistema Auditivo PeriféricoSistema Auditivo PeriféricoPERCEPCIÓN DE SONIDOS: experimentos psicoacústicos

Análisis en Frecuencia: Bandas Críticas.

Así pues, se define una banda crítica (BC) como un intervalo de frecuencia que representa la máxima resolución frecuencial del sistema auditivo en diversos experimentos psicoacústicos. Adicionalmente, puede decirse que una BC constituye el intervalo de frecuencia en el cual el oído interno efectúa una integración espacial (es decir, espectral) de la intensidad de la señal sonora :

La BC es el intervalo en el cual se "suma" la energía de las distintas componentes espectrales de la señal

El "bark": un intervalo de frecuencia de 1 bark es, por definición, un intervalo de una BC de ancho en cualquier punto del rango de

frecuencias audibles

Bark = 13atan(0.76f / 1000) + 3.5atan((f / 7500)2)

Page 32: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sistema Auditivo PeriféricoSistema Auditivo PeriféricoPERCEPCIÓN DE SONIDOS: experimentos psicoacústicos

Análisis en Frecuencia: Bandas Críticas.

Inicialmente, se determina el Umbral de Audición con un solo tono de 920 Hz, y el valor obtenido (3 dB SPL) corresponde al nivel de presión sonora del tono de prueba apenas audible. Posteriormente se añade un nuevo tono de 940 Hz; para que el complejo de tonos esté en el umbral de detección, el nivel de cada tono debe reducirse a la mitad, de modo que la intensidad total del complejo de tonos sigue siendo de 3 dB SPL.Si se va aumentando el número de tonos del complejo (separados entre sí por un intervalo de 20 Hz), es preciso ir reduciendo proporcionalmente el nivel de cada tono individual para que la señal total siga siendo apenas perceptible, hasta que el ancho de banda ocupado por el complejo alcanza un valor crítico de aprox. 160 Hz (es decir, abarca una banda crítica). A partir de ese valor, aun cuando aumente el número de tonos, para que el complejo sea apenas audible es necesario mantener el nivel individual de cada tono.

Page 33: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sistema Auditivo PeriféricoSistema Auditivo PeriféricoPERCEPCIÓN DE SONIDOS: experimentos psicoacústicos

ENMASCARAMIENTO DE SONIDOS: TIEMPO y FRECUENCIA.

El enmascaramiento sonoro puede definirse como el proceso en el cual el umbral de audibilidad correspondiente a un sonido se eleva,

debido a la presencia de otro sonido.

Un sujeto escucha una señal sonora A (p. ej., un tono puro) que sea perfectamente audible, es decir, cuyo nivel de presión por encima del umbral de audibilidad. Luego, se añade una señal sonora B (p. ej., una banda de ruido centrada en la frecuencia del tono) de bajo nivel SPL, y se va aumentando progresivamente el nivel de B, manteniendo constante el nivel de A. El sujeto notará que, a medida que aumenta el nivel de la señal B, la intensidad aparente o subjetiva de A disminuye hasta que, eventualmente, A se hace inaudible. En este caso se dice que la señal A está totalmente enmascarada4 por la señal B.

Page 34: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sistema Auditivo PeriféricoSistema Auditivo PeriféricoPERCEPCIÓN DE SONIDOS: experimentos psicoacústicos

ENMASCARAMIENTO DE SONIDOS: TIEMPO y FRECUENCIA.

Enmascaramiento en Frecuencia: Dos señales simultáneas en tiempo Asimetría: Nivel de Presión Sonora: tono – ruido banda estrecha Asimetría: frecuencia superior ó inferior

Page 35: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sistema Auditivo PeriféricoSistema Auditivo PeriféricoPERCEPCIÓN DE SONIDOS: experimentos psicoacústicos

ENMASCARAMIENTO DE SONIDOS: TIEMPO y FRECUENCIA.

Enmascaramiento en Tiempo: Un sonido de elevada amplitud enmascara igualmente los sonidos más débiles inmediatamente anteriores o posteriores También se manifiesta un comportamiento asimétrico.

Page 36: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sistema Auditivo PeriféricoSistema Auditivo PeriféricoAplicación en Tratamiento de Voz

Ayudas a la Audición Reconocimiento de Habla Codificación de Voz

EnmascaramientoMedidas de Calidad

Ayudas Tecnológicas: Procesado de la Señal de Voz para compensar problemas en el Sistema Auditivo

Page 37: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sistema Auditivo PeriféricoSistema Auditivo PeriféricoReconocimiento de Habla

Extracción de Características basadas en consideraciones perceptuales:

Escala Mel: MFCC, Mel-LPC Bark = 13atan(0.76f / 1000) + 3.5atan((f / 7500)2) Mel = 1127.01048log(1 + f / 700).

The mel scale, proposed by Stevens, Volkman and Newman in 1937 is a scale of pitches judged by listeners to be equal in distance one from another. The reference point between this scale and normal frequency measurement is defined by equating a 1000 Hz tone, 40 dB above the listener's threshold, with a pitch of 1000 mels. Below about 500 Hz the mel and hertz scales coincide; above that, larger and larger intervals are judged by listeners to produce equal pitch increments. As a result, four octaves on the hertz scale above 500 Hz are judged to comprise about two octaves on the mel scale. (http://en.wikipedia.org/wiki/Mel_scale)

Page 38: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sistema Auditivo PeriféricoSistema Auditivo Periférico Codificación de Voz

Codificación de Audio: Ausencia de “Modelo de Producción” ; Análisis en frecuencia y enmascaramiento. Codificación de Voz:

PONDERACIÓN PERCEPTUAL DEL RUIDO DE CUANTIFICACIÓN: Enmascarmiento del ruido de cuantificación en la zona de formantes. POST-FILTRADO ADAPTATIVO: Reducción del Ruido en laz zonas más audibles: entre formantes y entre armónicos de la frecuencia fundamental

PESQ PERCEPTUAL EVALUATION OF SPEECH QUALITY: ITU-T P.862 (02/2001)

Page 39: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sistema Auditivo PeriféricoSistema Auditivo Periférico Codificación de Voz

PESQ PERCEPTUAL EVALUATION OF SPEECH QUALITY: ITU-T P.862 (02/2001)

An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs.Real systems may include filtering and variable delay, as well as distortions due to channel errors and low bit-rate codecs. The PSQM method as described in ITU-T P.861 (February 1998), was only recommended for use in assessing speech codecs, and was not able to take proper account of filtering, variable delay, and short localized distortions. PESQ addresses these effects with transfer function equalization, time alignment, and a new algorithm for averaging distortions over time. It is recommended that PESQ be used for speech quality assessment of 3.1 kHz (narrow-band) handset telephony and narrow-band speech codecs.

Page 40: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Sistema Auditivo PeriféricoSistema Auditivo Periférico Codificación de Voz: PESQ

Page 41: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Perceptual Evaluation ofSpeech Quality

by

Lars Birger NielsenBrüel & Kjær

ACOUTEL February 2003

Page 42: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Agenda• Perceptual evaluation of Speech Quality• Traditional evaluation of Speech Quality• A new approach to evaluation of Speech Quality• Perceptual Evaluation of Speech Quality within

ITU-T

Page 43: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Agenda• Perceptual evaluation of Speech Quality• Traditional evaluation of Speech Quality• A new approach to evaluation of Speech Quality• Perceptual Evaluation of Speech Quality within

ITU-T

Page 44: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

• Communications Industry

– Telephone Manufacture (Handset, Answering Machines)

– Network operators (Router, Switches, End-to-end)

– Audio Equipment Manufacture (Hearing aids, Headset, PC, PDA, in-car applications)

– Manufacturer of chips (Codec)

• Transportation Industry

– Manufactures of announcement systems for trains, buses, ferries and aeroplanes

• Construction Industry

– Announcement systems in Stadiums, Stations and Airports

Perceptual Evaluation of Speech Quality, where?

Page 45: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Perceptual Evaluation of Speech Quality:

• Perceptual – how is the speech perceived by a human

Important features when evaluating overall speech quality:

• intelligibility

• naturalness

• suitability

Procedures for evaluating speech quality:

• objective methods - measurements

• subjective methods - listening test

Perceptual Evaluation of Speech Quality, what?

Page 46: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Intelligibility

• articulation index (AI)

• speech transmission index (STI)

• rapid speech transmission index (RASTI)

Naturalness and Suitability

• Listening test

Overall speech quality

• Perceptual model

• Mean opinion score (MOS)

• Listening test

Perceptual Evaluation of Speech Quality, how?

Page 47: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Agenda• Perceptual evaluation of Speech Quality• Traditional evaluation of Speech Quality• A new approach to evaluation of Speech Quality• Perceptual Evaluation of Speech Quality within

ITU-T

Page 48: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Traditional Evaluation of Speech Quality?

Voice processing Chain

• Acoustic to Electrical*

• Analogue pre-processing*

• Coding

• Transmission

• Decoding

• Analogue post-processing*

• Electrical to Acoustic*

Voice processing Chain

• Acoustic to Electrical*

• Analogue pre-processing*

• Coding

• Transmission

• Decoding

• Analogue post-processing*

• Electrical to Acoustic*

* Areas where classical linearity test techniques are appropriate

Page 49: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Agenda• Perceptual evaluation of Speech Quality• Traditional evaluation of Speech Quality• A new approach to evaluation of Speech Quality• Perceptual Evaluation of Speech Quality within

ITU-T

Page 50: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

The idea

• To simulate the sound perception of subjects in real-life situations

• To have a objective technique based on a perceptual model that will reveal the same MOS score as that of Listening Test

What is MOS?

• Methods and procedures for conducting subjective evaluation of transmission quality (ITU -T Rec. 800)

• Quality of speech based on Listening Tests

A new approach to evaluation of Speech Quality

Page 51: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Objective techniques used for predicting subjective test scores

• PSQM (Perceptual Speech Quality Measure)

• PSQM+ (ITU -T Rec. 861)

• PESQ (Perceptual Evaluation of Speech Quality) (ITU -T Rec. 862)

• and others like MNB, PAMS, TOSQA, PACE, VQI and PESQM.

About PSQM, PSQM+, PESQ

• For jugging the listening and talking quality of Telephone band speech signals (300-3400Hz)

• Signals of the input and output of the device under test are mapped onto a psychophysical representation that match as close as possible the internal representation inside our head

A new approach to evaluation of Speech Quality

Page 52: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Agenda• Perceptual evaluation of Speech Quality• Traditional evaluation of Speech Quality• A new approach to evaluation of Speech Quality• Perceptual Evaluation of Speech Quality within

ITU-T

Page 53: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Generic perceptual measurement algorithm

Perceptual Model

Feature-Extractor

Test

Perceptual Model

Reference

Cognitive Model

Quality measure

Impairment Grade

Excellent 5

Good 4

Fair 3

Poor 2

Bad 1

Perceptual Model

Is a model of the Human Ear

Cognitive Model

Is a model of the judgement behaviour

of the test subject

Page 54: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Basic model of PSQM & PSQM+ algorithm

Perceptual Model

Internal representation of the reference signal

Test

Perceptual Model

Reference

Cognitive Model

Quality measureDifference in internal

representation

Internal representation of the test signal

Improvements in PSQM+• Time alignment: variable delay, frame repeats• Weight of distortion: time clipping, time frequency distortion

Improvements in PSQM+

• Time alignment: variable delay, frame repeats• Weight of distortion: time clipping, time frequency distortion

Page 55: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Basic model of PESQ algorithm

Auditory transform

Degraded

Level align

Reference

Cognitive Modelling

Quality measure

Input filter

Auditory transform

Disturbance processing

Identify bad intervals

Time align and

equalise

Level align

Input filter

Next step is PESQM

• Assessment of Handset on a perceptual basis using HATS

• Covering echo and Sidetone

Next step is PESQM

• Assessment of Handset on a perceptual basis using HATS

• Covering echo and Sidetone

Page 56: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Perceptual measurement algorithms - roadmap

PSQM P.861, 1996

Intrusive Narrowband

Speech Quality

PSQM+ 1996

PESQ P.862, 1996

PESQM 2001,2002

Conversational Quality

P3SQM 2001,2002

Echo and Acoustical

measurement

Non-Intrusive Narrowband

Speech Quality

Wideband Audio

Video measurement

PEAQ BS1387, 1996

PEAQ+ 2002

Acoustical PESQ

extension

Single-ended Voice Quality

PEVQ

Wideband Voice Quality

Audiovisual Quality

Page 57: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.
Page 58: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.
Page 59: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.
Page 60: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.
Page 61: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Nivel de Presión Sonora (NPS)

Lp = 20 log (P / Pref)

Pref: 20 Pa (presión de referencia umbral de audición humana a 1 KHz)

Pa = 1 Newton / m2 = 10 mbarPresión atmosférica = 101.325 Pa

Acústica Básica

Page 62: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Ley 16/2002, de 28 de junio, de protección contra la contaminación acústica de Cataluña

Anexo 3.Determinación de los niveles de evaluación de la inmisión sonora, LAr, en el ambiente exterior producida por las actividades y el vecindario

LA r,i = LA eq,ti + K 1,i + K 2,i + K 3,i

4.2. La corrección de nivel K2 toma en consideración los componentes tonales del ruido en el lugar de la inmisión:

a. Por percepción nula de componentes tonales: 0 dB(A).b. Por percepción neta de componentes tonales: 3 dB(A).c. Por percepción fuerte de componentes tonales: 6 dB(A).

Acústica Básica

Page 63: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

NORMAS BÁSICAS DE LA EDIFICACIÓN (NBE)CONDICIONES ACÚSTICAS EN LOS EDIFICIOS

Anexo 1: Conceptos fundamentales, definiciones, notaciones y unidades1.21 Nivel de sonoridad Se dice que el nivel de sonoridad de un sonido o de un ruido es de n fonios cuando, a juicio de un oyente normal, la sonoridad, en escucha biaural, producida por el sonido o ruido es equivalente a la de un sonido puro de 1.000 Hz continuo, que incide frente al oyente en forma de onda plana libre, progresiva y cuyo nivel de presión acústica es n dB superior a la presión de referencia P0. A continuación se representan las curvas de igual sonoridad para tonos puros que constituyen la base para la elaboración de las curvas de ponderación.

Acústica Básica

Page 64: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

NORMAS BÁSICAS DE LA EDIFICACIÓN (NBE)CONDICIONES ACÚSTICAS EN LOS EDIFICIOS

Acústica Básica

Page 65: Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

NORMAS BÁSICAS DE LA EDIFICACIÓN (NBE)CONDICIONES ACÚSTICAS EN LOS EDIFICIOS1.22 Escala ponderada A de niveles, decibelio A (dBA) Escala de medida de niveles que se establece mediante el empleo de la curva de ponderación A representada, tomada de la Norma UNE 21-314-75, para compensar las diferencias de sensibilidad que el oído humano tiene para las distintas frecuencias dentro del campo auditivo.

Acústica Básica