Técnicas de Análisis por Síntesis...Técnicas de análisis por síntesis Tratamiento digital de...

28
Técnicas de Análisis por Técnicas de Análisis por Síntesis Síntesis Curso de doctorado 2001/2002 Inmaculada Hernáez [email protected]

Transcript of Técnicas de Análisis por Síntesis...Técnicas de análisis por síntesis Tratamiento digital de...

Page 1: Técnicas de Análisis por Síntesis...Técnicas de análisis por síntesis Tratamiento digital de la señal de voz 11 Predicción a Largo Plazo En las zonas del residuo de mayor amplitud

Técnicas de análisis por síntesis

Tratamiento digital de la señal de voz 1

Técnicas de Análisis por Técnicas de Análisis por SíntesisSíntesis

Curso de doctorado 2001/2002Inmaculada Herná[email protected]

Page 2: Técnicas de Análisis por Síntesis...Técnicas de análisis por síntesis Tratamiento digital de la señal de voz 11 Predicción a Largo Plazo En las zonas del residuo de mayor amplitud

Técnicas de análisis por síntesis

Tratamiento digital de la señal de voz 2

Técnicas de análisis por síntesis

Descripción generalPonderación perceptual del error

El Multipulso LPCPredicción “a largo”

Codificador RPE-LPTBibliografía

Page 3: Técnicas de Análisis por Síntesis...Técnicas de análisis por síntesis Tratamiento digital de la señal de voz 11 Predicción a Largo Plazo En las zonas del residuo de mayor amplitud

Técnicas de análisis por síntesis

Tratamiento digital de la señal de voz 3

Técnicas de análisis por síntesis

GENERADORDE

EXCITACIONES

W(z)FILTRO DE

PONDERACIÓN

P(z)

+ -Señal

SintéticaSeñal

Original

Filtro deSÍNTESIS

CÁLCULO DE LAEXCITACIÓNÓPTIMA POR

MINIMIZACIÓNde

s(n)

e(n)

ew(n)

Error ponderado

2∑=N

weE

)(ˆ ns

El problema principal del vocoder se encuentra fundamentalmente en la excitación. El objetivo de las técnicas que vamos a ver es obtener la excitación adecuada para el filtro predictor. Las técnicas de análisis por síntesis siguen el esquema de la figura.Tal y como puede verse, la síntesis de la señal se realiza de forma similar al vocoder. Un generador de señales produce una excitación que es la entrada al filtro de síntesis. Lo que cambia aquí es la forma de calcular la excitación. Una vez elegido algún tipo de parametrización de la excitación, tratamos de calcular cual es la excitación óptima, utilizando un criterio de error cuadrático medio mínimo cometido en la síntesis. Veremos que en esta familia de codificadores se distinguirán unos de otros por la forma de modelar la excitación. Además, para el criterio de minimización utilizaremos un criterio “perceptual”: tendremos en cuenta la respuesta del oído, para considerar en qué zonas del espectro podemos cometer mayor o menor error. Este concepto de ponderación perceptual vamos a estudiarlo con más detalle.

Page 4: Técnicas de Análisis por Síntesis...Técnicas de análisis por síntesis Tratamiento digital de la señal de voz 11 Predicción a Largo Plazo En las zonas del residuo de mayor amplitud

Técnicas de análisis por síntesis

Tratamiento digital de la señal de voz 4

Ponderación perceptual del error

Utilización de un filtro ponderador del error. Es una de las novedades de la familia de codificadores que utilizan análisis por síntesis. Función: modificar las características frecuenciales del error a minimizar, concediendo más importancia a las zonas de frecuencia en las que el oído va a ser más sensible y menos importancia a las zonas en las que el oído va aser menos sensible. Basado en el enmascaramiento frecuencial que se produce en el oído: las curvas de enmascaramiento definen la respuesta frecuencial del filtro:

En las zonas de máxima energía (formantes) se podrá cometer más error. La respuesta del filtro tendrá la forma inversa a la envolvente espectral de la señal de voz a codificar.Función de transferencia utilizada: W(z)=A(z)/A(g-1z); A(z)=1+P(z)=1/H(z)Parámetro g=[0,1], controla en nivel de ponderación realizado. Debe actualizarse junto con el predictor.

Una de las novedades introducidas con esta familia de codificadores fue la idea del empleo del filtro ponderador de error. La función de este filtro es modificar las características frecuenciales del error a minimizar, concediendo más importancia a las zonas de frecuencia en las que el oído va a ser más sensible –va a percibir mejor el error- y menos importancia a las zonas en las que el oído va a ser menos sensible al error.Esta operación aprovecha el fenómeno de enmascaramiento frecuencial que se produce en el oído. Este fenómeno consiste en que una señal con una cierta amplitud, puede quedar enmascarada por una señal de mayor nivel, si se encuentra próxima en el espectro, como vemos en la figura siguiente.

Page 5: Técnicas de Análisis por Síntesis...Técnicas de análisis por síntesis Tratamiento digital de la señal de voz 11 Predicción a Largo Plazo En las zonas del residuo de mayor amplitud

Técnicas de análisis por síntesis

Tratamiento digital de la señal de voz 5

Filtro de Ponderación del error

(a) (b))·(

)()( 1 zgAzAzW −=

Por debajo del umbral de silencio, el oído no percibe sonido. Si tenemos una senoide de 1KHz, con una determinada amplitud (de 60dBSPL en la figura (a)), esta señal eleva a su alrededor el umbral mínimo de audición, de forma que todas las señales con amplitudes situadas por debajo del nuevo nivel de enmascaramiento quedarían ocultas (no se percibirán). La definición de las zonas más o menos sensibles al error vendrán definidas por las curvas de enmascaramiento. En nuestro caso, ¿cuáles serán las zonas frecuenciales en las que podemos cometer mayor error? Claramente, las zonas de los formantes, que son las zonas de mayor energía espectral. Así, utilizamos un filtro de ponderación del error con una respuesta frecuencial de características justo inversas a la envolvente espectral de la señal de voz a codificar, tal y como se representa en la figura (b).

Page 6: Técnicas de Análisis por Síntesis...Técnicas de análisis por síntesis Tratamiento digital de la señal de voz 11 Predicción a Largo Plazo En las zonas del residuo de mayor amplitud

Técnicas de análisis por síntesis

Tratamiento digital de la señal de voz 6

g=1

g<1

W(z)

f=0KHzf=4KHz

Plano Z

Filtro de ponderación del error

La función de transferencia del filtro de ponderación de error habitualmente utilizado es W(z)=A(z)/A(g-1·z), en donde A(z)=1+P(z), es decir, el filtro inverso A(z)=1/H(z). El parámetro g que toma valores en el rango [0,1] (habitualmente g=0.8), controla el nivel de poderación realizado, y se ajusta mediante pruebas de escucha. Si g=1, no hay ponderación, pues los ceros y los polos de W(z) están compensados. A medida que el valor de g disminuye, los ceros de A(g-1·z), que son los polos de W(z) se acercan hacia el origen del plano Z, en la dirección radial, por lo que dejan de compensar el efecto de los ceros. Como vemos, el filtro de ponderación utiliza los coeficientes del filtro predictor, por lo que deberá actualizarse al mismo tiempo que éste. El fenómeno de enmascaramiento que se produce en el oído se aprovecha actualmente en todos los sistemas de codificación, y de gran importancia en los sistemas de codificación de audio.

Page 7: Técnicas de Análisis por Síntesis...Técnicas de análisis por síntesis Tratamiento digital de la señal de voz 11 Predicción a Largo Plazo En las zonas del residuo de mayor amplitud

Técnicas de análisis por síntesis

Tratamiento digital de la señal de voz 7

Técnicas de análisis por síntesis

Descripción generalPonderación perceptual del error

El Multipulso LPCPredicción “a largo”

Codificador RPE-LPTBibliografía

Page 8: Técnicas de Análisis por Síntesis...Técnicas de análisis por síntesis Tratamiento digital de la señal de voz 11 Predicción a Largo Plazo En las zonas del residuo de mayor amplitud

Técnicas de análisis por síntesis

Tratamiento digital de la señal de voz 8

El Multipulso LPC

Empleo de más de un pulso por periodo de pitchLa excitación se representa por un cierto número de pulsos no nulos por trama de datos (8/5ms/40muestras).Decodificador:

GENERADOREXCITACIÓN

SINTETIZADORLPC

Excitación

vn

COEFICIENTESde REFLEXIÖN

Vozsintética

Amplitudes

Posiciones

En el codificador multipulso, la idea es utilizar más de un pulso por periodo de pitch (no un único pulso como hacía el vocoder). Ahora representamos la excitación con un cierto número de pulsos por trama de datos, habitualmente 8 pulsos por trama de 5ms. (8 pulsos por cada 40 muestras trabajando a 8kHz). El cálculo de la excitación consistirá en calcular las amplitudes y las posiciones de los diferentes pulsos.

Page 9: Técnicas de Análisis por Síntesis...Técnicas de análisis por síntesis Tratamiento digital de la señal de voz 11 Predicción a Largo Plazo En las zonas del residuo de mayor amplitud

Técnicas de análisis por síntesis

Tratamiento digital de la señal de voz 9

El multipulso LPCCodificador: cálculo de las amplitudes y posiciones de los diferentes pulsos.

GENERADORDE

EXCITACIONES

W(z)FILTRO DE

PONDERACIÓN

P(z)

+ -Señal

SintéticaSeñal

Original

Filtro deSÍNTESIS

CÁLCULO DE LAEXCITACIÓNÓPTIMA POR

MINIMIZACIÓNde

s(n)

e(n)

ew(n)

Error ponderado

2∑=N

weE

Excitación

)(ˆ ns

El método de cálculo de la excitación óptima lleva a un sistema de ecuaciones no lineal, y sin una solución cerrada, ya que las posiciones de los pulsos son desconocidas. Así que la solución adoptada es necesariamente sub-óptima.

Page 10: Técnicas de Análisis por Síntesis...Técnicas de análisis por síntesis Tratamiento digital de la señal de voz 11 Predicción a Largo Plazo En las zonas del residuo de mayor amplitud

Técnicas de análisis por síntesis

Tratamiento digital de la señal de voz 10

El Multipulso LPCEl método de cálculo de la excitación óptima lleva a un sistema de ecuaciones no lineal y sin solución cerrada (las posiciones de los pulsos son desconocidas).Soluciones sub-óptimas.En general, el método consiste en ir introduciendo en el sistema un pulso nuevo en cada iteración. En una iteración dada solo tendremos 2 incógnitas: la amplitud y la posición del nuevo pulso. La amplitud se obtiene con ecuación cerrada al minimizar el error, pero el cálculo de la posición requiere una búsqueda exhaustiva sobre las posiciones posibles.

Señal Original

Excitación

Señal sintética

Error

Aunque se han propuesto varias soluciones, la idea general del método es ir introduciendo en el sistema un pulso nuevo en cada iteración. De esta forma, en una iteración dada, solo tendremos 2 incógnitas: la amplitud y la posición del nuevo pulso. La amplitud se obtiene de forma cerrada tras minimizar el error, pero la posición requiere de una búsqueda exhaustiva sobre todas las posiciones posibles. El algoritmo termina cuando el error es suficientemente pequeño o bien cuando se han calculado el número de pulsos deseado. Una vez que se han calculado todos los pulsos, se recalculan las amplitudes óptimas. En la figura se observa cómo va disminuyendo el error a medida que vamos introduciendo más pulsos.

Page 11: Técnicas de Análisis por Síntesis...Técnicas de análisis por síntesis Tratamiento digital de la señal de voz 11 Predicción a Largo Plazo En las zonas del residuo de mayor amplitud

Técnicas de análisis por síntesis

Tratamiento digital de la señal de voz 11

Predicción a Largo Plazo

En las zonas del residuo de mayor amplitud el sistema tiende a colocar más pulsos: los pulsos tienden a agruparse en torno a los impulsos de pitch, con lo que quedan menos pulsos para modelar el resto de la excitación. El sistema funcionaría mucho mejor si las amplitudes de la excitación a modelar fueran más uniformes.El predictor ‘largo’ es un predictor basado en muestras alejadas de la muestra a predecir aproximadamente un periodo de pitch: aplicado sobre el residuo, se consigue extraer su periodicidad.

Un problema que se observó en este codificador era el siguiente: en las zonas de mayor amplitud del residuo (correspondientes a los impulsos de pitch), el sistema tiende lógicamente a colocar más pulsos, con objeto de modelarlo mejor. Es decir, los pulsos tienden a agolparse en torno a los impulsos de pitch. La consecuencia directa es que quedan menos pulsos para modelar el resto de la excitación. El sistema funcionaría mejor si las amplitudes de la excitación a modelar fueran más uniformes, es decir, si de alguna forma pudiéramos extraer esa periodicidad del residuo del predictor lineal. La forma de hacer esto es utilizar un predictor basado en las muestras que se encuentran alejadas de la muestra a predecir aproximadamente un periodo de pitch. Así, se introdujo en el sistema el llamado Predictor a Largo Plazo (Long-Term Predictor). Hasta este momento, todos los intentos por conseguir una reproducción fiel de la señal están encaminados a mejorar la excitación del filtro. Esto se hace así porque la información de la señal correspondiente a la envolvente espectral se encuentra bastante bien representada por unos pocos parámetros correspondientes al filtro predictor. Sin embargo, no se ha extraído toda la información de la señal. Observando el residuo tras realizar el fitlrado inverso, se aprecian unas características de periodicidad muy claras en las zonas sonoras (precisamente las que dieron lugar al modelo del vocoder LPC).

Page 12: Técnicas de Análisis por Síntesis...Técnicas de análisis por síntesis Tratamiento digital de la señal de voz 11 Predicción a Largo Plazo En las zonas del residuo de mayor amplitud

Técnicas de análisis por síntesis

Tratamiento digital de la señal de voz 12

Predicción a Largo Plazo

s(n) rL(n)

ANÁLISISA CORTO

ANÁLISISA LARGO

P(z)

-PL(z)

-r(n)

SÍNTESIS

PL(z) P(z)

r(n)rL(n)+ +

s(n)

)()(ˆ Mnrnr −= β

))1(()())1(()(ˆ 321 −−+−++−= MnrMnrMnrnr βββEstimación

o también

)(ˆ nr

)(ˆ nr )(ˆ ns

La idea básica de los predictores largos es utilizar el principio de predicción lineal para predecir el valor de una cierta muestra utilizando muestras situadas en un periodo de pitch anterior. El valor de la predicción será una combinación lineal de dichas muestras, y es habitual utilizar predictores de orden 1, en donde el valor de la predicción se calcula utilizando únicamente una muestra, convenientemente ponderada, situada un periodo de pitch antes. Así, durante la síntesis de la señal, se retienen las muestras del periodo anterior y se utilizan para calcular las muestras que van a ser la entrada al predictor corto. Únicamente la parte del residuo que no queda bien modelada por las muestras del periodo anterior deberá ser representada por nuevos pulsos. Hay dos métodos básicos para calcular el retardo. El primero, conocido como cálculo en lazo abierto, consiste simplemente en estimar el valor del retardo M a partir del máximo de la función de autocorrelación del residuo corto r(n), de forma que se corresponde aproximadamente con un periodo de pitch cuando es periódica, y tomará un valor aleatorio cuando r(n) no sea periódica. El otro método consiste en calcularlo dentro del bucle de cálculo de la excitación óptima, calculando el valor de M que minimiza el error. Este último método es mucho más costoso, y es habitual el cálculo en lazo abierto.

Page 13: Técnicas de Análisis por Síntesis...Técnicas de análisis por síntesis Tratamiento digital de la señal de voz 11 Predicción a Largo Plazo En las zonas del residuo de mayor amplitud

Técnicas de análisis por síntesis

Tratamiento digital de la señal de voz 13

Predicción a Largo Plazo

Eliminando la predicción a largo plazo del residuo obtenido tras la predicción a corto, encontraremos una señal muy incorrelada, con características gaussianas, que será la que trataremos de reproducir, con la debida ponderación perceptual, al buscar la excitación óptima. El resultado para el residuo anterior lo tenemos en la figura, en donde puede verse cómo ha desaparecido todo rastro de periodicidad. Un algoritmo basado en el codificador multipulso que empleaba predicción a largo a 9.6kpbs fue desarrollado por British Telecom International (BTI) para el servicio Skyphone, un servicio telefónico para líneas aéreas, basado en una transmisión digital entre el avión y las centrales telefónicas de BTI internacionales. Sin embargo se trata de un algoritmo computacionalmente muy costoso, razón por la que no ha alcanzado gran popularidad en el mercado.

Page 14: Técnicas de Análisis por Síntesis...Técnicas de análisis por síntesis Tratamiento digital de la señal de voz 11 Predicción a Largo Plazo En las zonas del residuo de mayor amplitud

Técnicas de análisis por síntesis

Tratamiento digital de la señal de voz 14

Predicción a Largo Plazo

Page 15: Técnicas de Análisis por Síntesis...Técnicas de análisis por síntesis Tratamiento digital de la señal de voz 11 Predicción a Largo Plazo En las zonas del residuo de mayor amplitud

Técnicas de análisis por síntesis

Tratamiento digital de la señal de voz 15

Predicción a Largo Plazo

Page 16: Técnicas de Análisis por Síntesis...Técnicas de análisis por síntesis Tratamiento digital de la señal de voz 11 Predicción a Largo Plazo En las zonas del residuo de mayor amplitud

Técnicas de análisis por síntesis

Tratamiento digital de la señal de voz 16

Técnicas de análisis por síntesis

Descripción generalPonderación perceptual del error

El Multipulso LPCPredicción “a largo”

Codificador RPE-LTPBibliografía

Este es el codificador empleado actualmente en el sistema de telefonía móvil europeo GSM. Las siglas RPE-LTP responden a Regular-Pulse Excited LongTerm Predictor.

Page 17: Técnicas de Análisis por Síntesis...Técnicas de análisis por síntesis Tratamiento digital de la señal de voz 11 Predicción a Largo Plazo En las zonas del residuo de mayor amplitud

Técnicas de análisis por síntesis

Tratamiento digital de la señal de voz 17

Codificador RPE-LTP

b

k=1

k=4

k=2

k=3

b(0) b(1) b(Q)

Excitaciones

P(z)

MINIMIZACIÓN DELERROR

Algoritmo

GENERADOR DEEXCITACIONES W(z)-

e(n) ew(n)v(n)

-s(n)

∑= )(2 neE w

El esquema de la figura es similar al visto anteriormente con la diferencia de que ahora se calcula el residuo LPC a partir de la señal, y este se resta directamente de la excitación generada. Al igual que en el multipulso, la excitación consiste en múltiples pulsos por cada trama. La diferencia básica entre los dos es que en este caso los pulsos están uniformemente espaciados (lo cual da el nombre al codificador, Regular-Pulse Excitation), y por tanto, elegido el grupo k=[1..N], queda fijada la psoición de todos los pulsos de la subtrama de la excitación. La figura muestra la forma de la excitación. Se deberá elegir uno de los N posibles vectores de excitación (en la gráfica, N=4). Como vemos, cada vector contiene un total de 13 pulsos, situados regularmente sobre las 40 muestras que forman la subtrama. La construcción de la excitación codificada consistirá en la selección de uno de los N posibles vectores, y en la asignación de una amplitud a cada uno de los pulsos. El método para calcular la excitación está también basado en la minimización del error cuadrático medio ponderado, y el desarrollo teórico implicará una búsqueda exhaustiva para cada valor de k (4 búsquedas). En cada paso de la búsqueda, es decir, fijado k, debemos resolver un sistema de ecuaciones que proporciona los valores de las amplitudes óptimas –para ese k-, es decir, los valores que van a dar la mínma potencia de error ponderado. Con el vectro obtenido, se calcula el valor de la potencia del error. La operación se repite para cada vlaor de k posible, y no nos quedamos con el vector que nos dé la menor de todas las potencias.

Page 18: Técnicas de Análisis por Síntesis...Técnicas de análisis por síntesis Tratamiento digital de la señal de voz 11 Predicción a Largo Plazo En las zonas del residuo de mayor amplitud

Técnicas de análisis por síntesis

Tratamiento digital de la señal de voz 18

El residuo LPC se resta directamente de la excitación generada.La excitación consiste en múltiples pulsos por cada trama. Los pulsos están uniformemente espaciados, y por tanto, elegido k, queda fijada la posición de todos los pulsos.Cálculo de la excitación

Elección de uno de los N (4) posibles vectores de excitación. Cada vector contiene 13 pulsos, regularmente situados sobre las 40 muestras de la subtrama. Asignación de una amplitud a cada uno de los pulsos.

Método de resolución por búsqueda exhaustiva en k (de 1 a 4): fijado k, se resuelve un sistema de ecuaciones que proporciona los valores de las amplitudes óptimas para ese valor de k. Se calcula la potencia del error ponderado para ese valor, y se selecciona el vector de amplitudes correspondiente al valor de k que proporciona la menor de las potencias de error.El proceso implica la inversión de una matriz y varios productos de matrices: computacionalmente caro. Se realizan simplificaciones.

Codificador RPE-LTP

En este búsqueda debemos invertir una matriz, y realizar varios productos de matrices, resultando un algoritmo computacionalmente costoso. Sin embargo, es posible simplificar extraordinariamente el proceso de búsqueda realizando aproximaciones. Para empezar, el filtro de ponderación del error utilizado en este esquema, se tomará como fijo, es decir, invariante en el tiempo. Esto es bastante razonable, se trata de tomar una especie de espectro promediado para las señales de voz, teniendo las mismas implicaciones que poner un predictor fijo en un sistema diferencial con predicción fija (DPCM). Nótese que esta ponderación del error se efectúa a nivel de residuos y no de señales de voz en sí, de forma que queda una parte de ponderación variable fuera del lazo. Esto, unido a ciertas aproximaciones que se derivban de ello, da lugar a un método de cálculo extremadamente sencillo. Los razonamientos que permiten llegar a las conclusiones que vamos a presentar a continuación requieren diversas demostraciones matemáticas. El alumno interesado, puede consultar la bibliografía (ver por ejemplo Kroon, 1986).

Page 19: Técnicas de Análisis por Síntesis...Técnicas de análisis por síntesis Tratamiento digital de la señal de voz 11 Predicción a Largo Plazo En las zonas del residuo de mayor amplitud

Técnicas de análisis por síntesis

Tratamiento digital de la señal de voz 19

Simplificaciones:Filtro de ponderación del error utilizado en el esquema invariante en el tiempo. Derivado de ello, pueden realizarse ciertas aproximaciones

Método de cálculo:Para un cierto k, la secuencia de excitación adecuada puede obtenerse mediante filtrado y diezmado del residuo con diferentes fases, seleccionándose simplemente aquélla de mayor energía (se elimina la búsqueda exhaustiva del algoritmo)

Codificador RPE-LTP

Page 20: Técnicas de Análisis por Síntesis...Técnicas de análisis por síntesis Tratamiento digital de la señal de voz 11 Predicción a Largo Plazo En las zonas del residuo de mayor amplitud

Técnicas de análisis por síntesis

Tratamiento digital de la señal de voz 20

SELECCIÓNDE

EXCITACIÓN

P(z)

-

3

3

3

ENERGÍA

MÁXIMA

k

kq(n)

q(n)s(n) r(n)

...

...

...

...

L1=14

L2=13

L3=13L=40

FILTRO SUAVIZADOR

Codificador RPE-LTP

La conclusión a la que se llega tras las aproximaciones es que para un cierto k, la secuencia de excitación adecuada puede obtenerse mediante filtrado y diezmado del residuo con diferentes fases, seleccionándose aquélla de mayor energía, tal y como se muestra en la figura. De esta forma se elimina la búsqueda exhaustiva del algoritmo. En la figura, las 40 muestras de subtrama del residuo suavizado q(n), son diezmadas para obtener 4 secuencias distintas, con un desplazamiento de una muestra en cada diezmado. Las tres primeras secuencias son de longitud 13 y la cuarta de longitud 14.

Page 21: Técnicas de Análisis por Síntesis...Técnicas de análisis por síntesis Tratamiento digital de la señal de voz 11 Predicción a Largo Plazo En las zonas del residuo de mayor amplitud

Técnicas de análisis por síntesis

Tratamiento digital de la señal de voz 21

Codificador RPE-LTP

Esta figura muestra el diezmado que se realiza sobre la secuencia r(n) para obtener las cuatro secuencias x1, x2, x3 y x4 a partir de las cuales se decidirá la fase adecuada para la excitación.

Page 22: Técnicas de Análisis por Síntesis...Técnicas de análisis por síntesis Tratamiento digital de la señal de voz 11 Predicción a Largo Plazo En las zonas del residuo de mayor amplitud

Técnicas de análisis por síntesis

Tratamiento digital de la señal de voz 22

Transcodificador GSM 06.10

Cada 160 muestras (20 ms.)LAR1, LAR2->6 bitsLAR3, LAR4->5 bitsLAR5, LAR6->4 bitsLAR7, LAR8->3 bitsTotal LAR’s->36 bits

Cada 40 muestras (5ms.)Retardo Predictor largo-> 7 bitsGanancia Predictor largo-> 2 bitsPosición rejilla (k)->2 bitsAmplitud del bloque-> 6 bitsAmplitud de cada pulso (13)->3 bitsTotal subtrama excitación-> 56 bits

36+56·4=260 bits / 20 ms.

Bitrate = 13 kpbs

El algoritmo utilizado en el estándar GSM 6.1 utiliza uno total de 260 bits por cada trama de 20ms., repartidos como se indica en la tabla, alcanzando un flujo binario de 13kbps. Las amplitudes de los pulsos están codificadas con dos valores: por un lado un valor de ganancia de bloque para toda una subtrama, y por otro, la amplitud individual de cada impulso dentro de cada bloque.

Page 23: Técnicas de Análisis por Síntesis...Técnicas de análisis por síntesis Tratamiento digital de la señal de voz 11 Predicción a Largo Plazo En las zonas del residuo de mayor amplitud

Técnicas de análisis por síntesis

Tratamiento digital de la señal de voz 23

Ejemplos:Señal original: Señal transcodificada GSMDiferencia original-transcodificada

(ruido de transcodificación)Ruido blanco con la misma potenciaSeñal original + ruido blanco

(es decir, sin ponderación del error cometido).

Transcodificador GSM 06.10

Un forma de apreciar la importancia del filtro de ponderación del error nos la proporciona el siguiente experimento: realizando la codificación / decodificación de una señal mediante el sistema estudiado, obtenemos el error cometido en el proceso calculando la diferencia entre la señal transcodificada y la original. Si escuchamos esa diferencia, se aprecia que tiene parecido con la señal original, siendo incluso posible ‘entender’ el mensaje. Generamos por otro lado una señal de ruido blanco, es decir, espectralmente plana, pero asignando en cada trama la misma potencia total que la que tiene la señal de error. Sumando este ruido sobre la señal original, obtendremos un ruido añadido por igual en todas las partes del espectro. Al escuchar estas señales se aprecia claramente la importancia de realizar la ponderación del error. Las siguientes gráficas muestran los espectros de estas dos señales de ruido: la correspondiente al ruido o error de transcodificación y al ruido blanco. Obsérvese como el espectro del primero no es plano, sino que adquiere la forma de la envolvente espectral de la señal original.

Page 24: Técnicas de Análisis por Síntesis...Técnicas de análisis por síntesis Tratamiento digital de la señal de voz 11 Predicción a Largo Plazo En las zonas del residuo de mayor amplitud

Técnicas de análisis por síntesis

Tratamiento digital de la señal de voz 24

Transcodificador GSM 06.10

Page 25: Técnicas de Análisis por Síntesis...Técnicas de análisis por síntesis Tratamiento digital de la señal de voz 11 Predicción a Largo Plazo En las zonas del residuo de mayor amplitud

Técnicas de análisis por síntesis

Tratamiento digital de la señal de voz 25

Transcodificador GSM 06.10

En esta gráfica puede apreciarse como la envolvente espectral del error tiene las características de la señal original.

Page 26: Técnicas de Análisis por Síntesis...Técnicas de análisis por síntesis Tratamiento digital de la señal de voz 11 Predicción a Largo Plazo En las zonas del residuo de mayor amplitud

Técnicas de análisis por síntesis

Tratamiento digital de la señal de voz 26

Original

Transcodificada

Mantenimiento de la forma de onda

Transcodificador GSM 06.10

Para terminar, en estas figuras podemos observar la capacidad de las técnicas de análisis por síntesis de mantener la forma de onda de la señal original.

Page 27: Técnicas de Análisis por Síntesis...Técnicas de análisis por síntesis Tratamiento digital de la señal de voz 11 Predicción a Largo Plazo En las zonas del residuo de mayor amplitud

Técnicas de análisis por síntesis

Tratamiento digital de la señal de voz 27

Comparación

1 8 1642 32 64

BitrateBitrate ((kbpskbps)Pobre

Aceptable

Buena

Excelente

VocodersVocoders

Cod. de Forma de ondaCod. de Forma de ondaHíbridosHíbridos

CalidadCalidad

A modo de conclusión, se muestra una comparación sencilla entre los métodos de codificación de voz que se han estudiado. Por un lado se encuentran los codificadores de forma de onda (tipo DPCM, ADPCM), que pueden ofrecer una calidad excelente pero requiriendo para ello flujos binarios superiores a 32kbps. A velocidades inferiores a 16kbps, estos codificadores se degradan rápidamente. Son adecuados por tanto cuando no existan problemas de ancho de banda en la transmisión. En el extremo opuesto encontramos los codificadores totalmente paramétricos tipo el Vocoder. Se utilizan cuando la limitación de ancho de banda es extrema, existiendo diseños para velocidades de hasta 300bps. La calidad que ofrecen es aceptable a velocidades tan bajas como 2.400bps, pero dado su diseño paramétrico, no pueden superar dicha calidad, por mucho que se asigne un mayor flujo binario. Los codificadores híbridos emplean las técnicas de análisis por síntesis estudiadas (Multipulso, CELP, RELP). Estos pueden lograr calidades muy buenas a velocidades relativamente reducidas, como el estándar estudiado de 13kbps.

Page 28: Técnicas de Análisis por Síntesis...Técnicas de análisis por síntesis Tratamiento digital de la señal de voz 11 Predicción a Largo Plazo En las zonas del residuo de mayor amplitud

Técnicas de análisis por síntesis

Tratamiento digital de la señal de voz 28

BibliografíaBishnu S. Atal, Predictive Coding of Speech at Low Bit Rates IEEE Transactions on Communications, Vol COM-30. no4, Aprill982, pp. 600-614Bishnu S. Atal and Joel R. Remde; A New Model of LPC Excitation forProducing Natural-Sounding Speech at Low Bit Rates Proc. IEEE Int. Conf. ASSP 1982 614-117S. Singhal and Bishnu S. Atal Improving the performance of mu1tipu1se coders at low bit rates Proc.IEEE Int. Conf. ASSP 1984 pp.1.3.1.-1.3.4.Bishnu S. Atal High-Quality Speech at Low Bit Rates: Multi-Pulse andStochastically Excited Linear Predictive Coders Proc.IEEE Int. Conf. ASSP 1986 pp. 33.1.1.-33.1.14Bernt Ribbum, Andrew Perkis, K.K. Paliwal and Tor Ramstad; Performance study of stochastic speech coders Speech Communicactions10,1991, pp.277-310P. Kroon, E. Deprettere, and R.J. Sluyeter; Regular-pulse excitation-A

novel approach to effective an efficient multipulse coding of speech IEEE Trans. Acoust. Speech and Signal Processing, Vol. ASSP-34, no5, Oct. 1986P. Vary et al.;Speech codec for the european mobile radio system Proc. IEEE Int. Conf. ASSP 1988, pp.227-230GSM fu11-rate transcoding; Tech. Rep. Version 3.2 July 1989 ETSI/GSM, GSM 06.10