TEMA 5 Compresión de Audio - OCW UNED

56
Programa Oficial de Postgrado: Master en Comunicaciones, Redes y Gestión de Contenidos TECNOLOGÍA DE LOS CONTENIDOS MULTIMEDIA Optativa de 2º cuatrimestre TEMA 5 Compresión de Audio

Transcript of TEMA 5 Compresión de Audio - OCW UNED

Page 1: TEMA 5 Compresión de Audio - OCW UNED

Programa Oficial de Postgrado:

Master en Comunicaciones, Redes y Gestión de Contenidos

TECNOLOGÍA DE LOS CONTENIDOS MULTIMEDIA

Optativa de 2º cuatrimestre

TEMA 5

Compresión de Audio

Page 2: TEMA 5 Compresión de Audio - OCW UNED
Page 3: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5

Compresión de Audio

5.1 COMPRESIÓN

Enn este capítulo se presentan los conceptos básicos fundamentales relacionados con la compre-sión de audio, describiendo superficialmente el estándar MPEG-1. Algunos conceptos son exac-tamente iguales a los descritos para la compresión de vídeo, y se retoman aquí en el contexto dela compresión de audio. Posteriormente se analizan con más detalle, y por tanto con más nivel decomplejidad, los estándares MPEG.

La técnica mas simple para reducir el volumen de datos en una señal digital es la reducción de lafrecuencia de muestreo o de la cantidad de bits de cuantización. Si bien es un método bastanterudimentario y poco eficiente, todavía puede ser utilizado en

algunas aplicaciones. Solamente hay que tener en cuenta que reduciendo la frecuencia de mues-treo se reduce el ancho de banda que es posible procesar, y reduciendo los bits de cuantizacióndisminuye el SQNR introduciéndose ruido en la señal.

Existen otras técnicas mas elaboradas para comprimir audio digital. En este punto es necesariodistinguir entre compresión con pérdida (lossy) o compresión sin pérdida de datos (lossless).

Lossless: La compresión lossless consiste en eliminar aquellos datos que son redundantes en laseñal de audio. Por ejemplo, si se observa que una determinada cadena de bits se repite con bas-tante frecuencia en la señal no es necesario transmitirla todas las veces que aparezca. Se trans-mite una sola vez y luego se insertan bits de control que indican en que lugares se debenreinsertar estas cadenas.

Otro método de compresión sin pérdidas es el denominado DPCM (Diferential Pulse CodeModulation); es parecido al PCM que se analizó anteriormente, pero en este caso, no se procesanlas muestras en su totalidad, sino que se trabaja con las diferencias entre una muestra y la ante-

Page 4: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

5.2 Tecnología de los Contenidos Multimedia

rior. Debido a que las señales de audio son bastante continuas, una muestra y su precedente sonmuy similares, por lo que no es necesario almacenar el valor absoluto de cada muestra, sino sola-mente la diferencia entre muestras contiguas. Estas diferencias son, por lo general, bastantepequeñas, por lo que son necesarios pocos bits para transmitirlas; logrando de esta forma unacompresión de los datos.

Estas técnicas de compresión y otras del mismo tipo son por lo general muy poco eficientes;logran relaciones de compresión máximas de 4:1 aproximadamente.

Lossy: La compresión lossy, es decir, con pérdida de datos, es mas bien una reducción en la can-tidad de información y no una compresión de la misma (eliminación de datos irrelevantes). Estosignifica que en el proceso de compresión-reducción, parte de la información se pierde irreme-diablemente. Se trata entonces de un proceso irreversible; no es posible recuperar la señal origi-nal en su totalidad efectuando el proceso inverso porque parte de la misma se perdió parasiempre. Un método lossy es, por ejemplo, el proceso de compresión denominado ADPCM.

Si bien las técnicas de compresión de señales digitales de audio progresaron de manera notabledurante los 70; especializándose según la aplicación final y abarcando casi todas las áreas delaudio digital; las eficiencias (niveles o relaciones de compresión) alcanzadas por la mayoría delas técnicas todavía eran muy bajas. Por este motivo, durante la década de los 80, numerososlaboratorios y equipos de investigación de todo el mundo se dedicaron a la búsqueda y desarrollode un algoritmo de compresión de audio mas eficiente, con una mayor relación de compresión eindependiente de la fuente original del sonido.

Así es como surge una de las técnicas lossy mas complejas y eficientes: la denominada P.A.C.,Perceptual Audio Coding desarrollada por Bell Laboratories. Con esta técnica se alcanzan radiosde compresión realmente notables (desde 3:1 a 24:1 según el algoritmo) y es parte esencial denumerosos productos de consumo masivo o de uso profesional.

Los métodos de compresión de audio más eficientes se basan en la eliminación de datos

considerados irrelevantes, por ejemplo, datos que representan sonidos considerados inaudibles enpresencia de otros elementos de una señal compleja.

Este tipo de codificación es denominada PAC, Perceptual Audio Coding (Codificación del AudioPercibido) y está basada en los dos principios básicos del comportamiento del oído humano yadescritos, el enmascarado temporal y el enmascarado frecuencial. La técnica es del tipo lossy, esdecir, con pérdida de datos.

El método implica contar con un modelo matemático del sistema de audición humano y es ente-ramente dependiente de la precisión del mismo, además del manejo preciso de técnicas de fil-trado y del análisis del audio.

Fundamentalmente, la técnica consiste en eliminar aquella parte de la señal de audio que el oídohumano no será capaz de percibir debido a la presencia de otras señales que la enmascaran. Para

Page 5: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

Tecnología de los Contenidos Multimedia 5.3

poder entender como funciona el PAC, es necesario conocer algunos principios psicoacústicosfundamentales.

En la actualidad existen diversos algoritmos de compresión que utilizan este tipo de codificación,tal es el caso del ATRAC, (Adaptive Transform Acoustic Coding)), de compresión 5:1, utilizadoen los MiniDisk de Sony y en el formato de audio Surround SDDS (Sony Dynamics DigitalSound) para reproducciones cinematográficas, AC3 (Audio Code number 3) de los LaboratoriosDolby, usado en las transmisiones de televisión digital y en los DVD), PASC (utilizado en elDCC, Digital Compact Cassette de Philips); y MPEG, utilizado en los DVD (Digital VersatileDisc), CD-I (Compact Disc Interactive, de Philips), transmisiones satelitales, RDSI, Internet y enreproductores de audio portátiles. Para comprender el funcionamiento de las técnicas PAC, esnecesario manejar algunos conceptos de psicoacústica.

La mayor parte del tiempo el mundo se presenta con gran variedad de sonidos simultáneos; el serhumano automáticamente lleva a cabo la tarea de distinguir cada uno de ellos y atender a los demayor importancia. Es muy difícil percibir un sonido cuando existe otro de mayor intensidadpresente al mismo tiempo. Este proceso, al parecer intuitivo, a niveles psicoacústicos y cognosci-tivos es muy complejo. El término para este fenómeno es enmascaramiento (masking), y es pro-bablemente la cualidad auditiva mas investigada.

El enmascaramiento está definido por la Asociación Americana de Normalización (ASA) como:"...el proceso por el cual el umbral de audición para un sonido (enmascarado) es elevado en lapresencia de otro sonido (enmascarador)...". Por ejemplo: el potente sonido de la radio de unautomóvil puede enmascarar el sonido del motor.

El término fue acuñado en estudios de la visión humana, significando el defecto o imposibilidadpara reconocer un estímulo en presencia de otro a niveles normalmente adecuados para percibirel primero. Como se mencionó anteriormente, existen dos tipos de enmascaramiento: el frecuen-cial y el temporal.

Figura 5.1 Umbral de audición en el silencio.

40

30

20

10

0

dB

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Frecuencia (KHz)

Page 6: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

5.4 Tecnología de los Contenidos Multimedia

Enmascaramiento frecuencial. Para explicar el fenómeno de enmascaramiento en frecuencia (ofrequency masking), supóngase el siguiente experimento: se coloca

una persona en una habitación en silencio; luego se va incrementando la intensidad de un tono deaudio de 1 KHz desde los 0dB hasta que sea apenas audible, se registra dicho nivel de intensidad.

Si se repite la prueba para varias frecuencias distintas y se grafican los diversos niveles de inten-sidad se obtiene una curva como la representada en la figura 5.1.

Todos los puntos debajo de la curva corresponden a diferentes combinaciones de frecuencias eintensidades que son inaudibles para el oído humano. Es importante notar que esta curva cambiasignificativamente con la edad.

Si ahora se produce un tono de 4 KHz a una intensidad fija, por ejemplo 60 dB (tono enmascara-dor) y al mismo tiempo se va incrementando la intensidad de un tono de audio de 1 KHz (tono deprueba) desde los 0dB hasta que sea apenas audible, se registra dicho punto y se repite paravarias frecuencias del tono de prueba se obtiene la curva mostrada en la figura 5.2.

Puede observarse como el tono enmascarador (de 4 KHz) eleva el umbral de audición y convierteuna multitud de "puntos audibles" en "puntos inaudibles". Ahora el nuevo umbral de audición esel definido por la curva superior. Todos los puntos debajo de dicha curva corresponden a sonidosinaudibles y todos los puntos encerrados entre la curva inferior y la superior corresponden a soni-dos enmascarados por el tono de 4 KHz, sonidos que antes (en el silencio) podían oírse.

Figura 5.2 Enmascarado por un tono de 4 Khz

Enmascarado temporal. El enmascarado temporal (o temporal masking) está vinculado con laimposibilidad del oído humano de percibir un sonido débil si antes de éste se estaba escuchandoun sonido mas potente. Es decir, si se está escuchando un sonido fuerte y luego se detiene, al oído

60

40

20

0

dB

80

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Frecuencia (KHz)

Page 7: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

Tecnología de los Contenidos Multimedia 5.5

humano le lleva un determinado tiempo hasta poder percibir algún sonido próximo mas débil.Para explicar mejor el fenómeno supóngase el siguiente experimento. Se ejecuta un tono enmas-carador de 1 KHz a 60 dB junto con un tono de prueba de 1,1 KHz a 40 dB, el tono de prueba nopuede oírse, está enmascarado.

Se detiene el tono enmascarador y, luego de un pequeño retardo, se detiene el tono de prueba. Seajusta el retardo al mínimo tal que el tono de prueba todavía pueda ser oído (por ejemplo 5 ms) yse registra dicho valor de tiempo. Si se repite la prueba para distintas intensidades del tono deprueba y se registran los diferentes tiempos se obtiene una curva como la de la figura 5.3.

Figura 5.3 Enmascaramiento Temporal

En una señal de audio mas compleja, con multitud de frecuencias de distintas intensidadessonando al mismo tiempo, ambos fenómenos interactúan (enmascaramiento frecuencial y tempo-ral), produciendo una curva como se muestra en la figura 5.4.

Además de los dos principios psicoacústicos de enmascarado frecuencial y temporal vistos hastaahora, existe otro concepto de psicoacústica que es también fundamental para poder comprenderel funcionamiento de las técnicas PAC de reducción de datos. Es el concepto de bandas críticas.El sistema auditivo del ser humano tiene una respuesta en frecuencia limitada en cuanto a resolu-ción. Es decir, existen bandas de frecuencias que el oído humano percibe como una sola, siendoincapaz de identificar diferencias entre dos frecuencias distintas dentro de una misma banda.

Estas bandas de frecuencia son las denominadas bandas críticas y sus respectivos anchos no sonconstantes a lo largo de todo el espectro audible. A frecuencias bajas miden menos de 100 Hz,mientras que a frecuencias mas altas miden mas de 4 KHz. De esto se desprende que en la partebaja del espectro de audición humano hay mas cantidad de bandas críticas que en el extremo masalto. En total, todo el rango de frecuencias de audio puede ser particionado en 25 bandas críticas.

0

Retardo (ms)

5 10 20 50 100 200 500

dB

60

40

20

0

Page 8: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

5.6 Tecnología de los Contenidos Multimedia

Figura 5.4 Efecto total del enmascarado frecuencial y temporal.

El concepto de bandas críticas está muy relacionado con los fenómenos de enmascaramientoantes vistos, esto se debe a que: un sonido de mucha intensidad dentro de una banda crítica ten-derá a enmascarar cualquier otro sonido mas débil dentro de la misma banda. Estos tres princi-pios psicoacústicos que se acaban de explicar son los elementos fundamentales necesarios paracomprender el funcionamiento de un codificador PAC, es decir, las técnicas PAC de reducciónde datos basan su funcionamiento en estos dos fenómenos de enmascaramiento, frecuencial ytemporal, y en el concepto de bandas críticas para alcanzar relaciones de compresión varias vecessuperiores a los alcanzados por otras técnicas menos complejas.

Como se mencionó anteriormente, existen en la actualidad numerosas implementaciones distin-tas de las técnicas PAC (PASC, ATRAC, AC3, MPEG, etc.), cada una de ellas con sus caracte-rísticas particulares de acuerdo a la aplicación para la cual fueron desarrolladas. Como todasestas implementaciones se basan en la codificación del audio perceptual (PAC, Perceptual AudioCoding), todas utilizan en definitiva los principios psicoacústicos desarrollados anteriormente enesta sección.

De todas las implementaciones mencionadas antes existe una en particular que ha cobrado nota-ble relevancia en los últimos tiempos. Es el caso de la norma MPEG (Moving Pictures ExpertsGroup).

• La norma ISO/IEC-11172

En 1987, un grupo de investigadores del Instituto Fraunhofer IIS, con sede en Alemania, traba-jando bajo los auspicios de la ISO (International Organization for Standardization) y el IEC(International Electrotechnical Commission) comenzó a desarrollar un algoritmo para comprimirseñales digitales de audio y video mediante técnicas de codificación basadas en la percepción

dB

TiempoTono enmascarador

Sonidos inaudibles(debajo de la curva)

Frecuencia

Page 9: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

Tecnología de los Contenidos Multimedia 5.7

(PAC). Este grupo de trabajo se denominó MPEG (Motion Pictures Experts Group). A mediadosde la década del '80 los recién presentados Discos Compactos (Compact Discs o CD's) se perfila-ban como el soporte de almacenamiento masivo de datos del futuro. No tardaron en aparecer losCD's para almacenar archivos de computadora (CDROM), fotografías (Photo-CD de Kodak) eincluso discos multimedia interactivos (CD-i de Philips). En vista de todo esto, el objetivo funda-mental del MPEG era desarrollar un algoritmo de compresión de datos que permitiera almacenaruna hora de audio y video de alta calidad dentro de un CD. Trabajando con esta premisa durante3 años, el Grupo desarrolló un algoritmo que luego fue publicado como Norma Internacional porel ISO/IEC bajo el nombre de ISO/IEC-11172, mas conocido como MPEG-1.

El título completo de la Norma es: "ISO/IEC-11172: Coding Of Moving Pictures And Associa-ted Audio For Digital Storage Media At Up To About 1.5 Mbit/s" (Codificación de imágenesanimadas y audio asociado para medios de almacenamiento digitales de hasta aproximadamente1,5 Mbit/s). La mención de la tranferencia del medio (1,5 Mbit/s) en el título de la norma hacereferencia a la capacidad de transferencia máxima de un Disco Compacto; de esta capacidad totalla norma utiliza aproximadamente 1,2 Mbps para el video y 0,3 Mbps para el audio.

A pesar de que la compresión MPEG se ajusta perfectamente a aplicaciones de audio solamente,la Norma MPEG-1 es en realidad un conjunto mas amplio de especificaciones independientespero relacionadas entre si. El estándar puede dividirse en 3 partes:

• "ISO/IEC-11172-1: referida a como se integran las informaciones de audio y video junto con otros datos adicionales que quiera agregar el usuario y de como debe "formatearse" la cadena de bits (o bitstream) resultante para su almacenamiento y recuperación.

• "ISO/IEC-11172-2: referida a la codificación del Video.• "ISO/IEC-11172-3: referida a la codificación del Audio.

MPEG-1 es un estándar para la compresión de audio genérico, es decir, el algoritmo alcanza susaltos niveles de compresión sin asumir nada sobre la naturaleza de la fuente del sonido. En otraspalabras: no está pensado para comprimir, por ejemplo, señales de voz solamente (como es elcaso del algoritmo CELP), en lugar de esto, MPEG-1 puede comprimir cualquier señal de audiopensada para ser escuchada por el oído humano; esto es debido a los principios psicoacústicos enlos que se basa.

El estándar MPEG es rígido solamente cuando es necesario asegurar la interoperabilidad entresistemas. Por ejemplo, la norma define la sintaxis del bitstream codificado y el proceso de deco-dificación, entre otros aspectos. Esto garantiza que, sin importar el origen, un decodificador ente-ramente compatible con MPEG-1 podrá decodificar cualquier bitstream MPEG con resultadospredecibles.

En otros determinados aspectos la norma es mas flexible para futuras mejoras e innovaciones.Por ejemplo, los diseñadores que utilicen la norma quedan libres para probar nuevas y diferentesimplementaciones del codificador y el decodificador MPEG sin traspasar los límites impuestospor la norma. Existe mas potencial de diversidad en cuanto al codificador debido a que el están-

Page 10: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

5.8 Tecnología de los Contenidos Multimedia

dar no define uno en particular. No así con el decodificador, que, además del formato del bits-tream de datos, es lo único que define específicamente la norma.

A continuación se detallan algunos aspectos generales de la norma, mas adelante en esta secciónse profundizará el estudio sobre el codificador y el decodificador MPEG.

• La frecuencia de muestreo del audio digital que le sirve de entrada al codificador puede ser: 32, 44.1 o 48 KHz.

• El bitstream de datos comprimidos puede contar con uno o dos canales de audio en alguno de los siguientes modos:

1.- Modo monofónico: un solo canal de audio.

2.- Modo doble monofónico: para dos canales de audio independientes (esta funcio-nalidad es idéntica al modo estéreo tradicional).

3.- Modo estéreo: para canales estéreo que poseen bits en común.

4.- Modo Joint-Stereo: que toma ventaja de las correlaciones entre canales estéreo yde la irrelevancia de la diferencia de fase entre canales.

• La cadena de bits comprimida (bitstream) puede tener una de varias cadencias (bit rates) predefi-nidas: de 32 Kbps a 224 Kbps por canal. Dependiendo de la frecuencia de muestreo de la señal esto se traduce en radios de compresión que van de 2,7 a 24. Además, el estándar provee un modo de velocidad de bits libre para soportar otras cadencias distintas a las preestablecidas.

• MPEG-1 ofrece la posibilidad de elegir entre tres niveles o layers (capas o estratos) de compre-sión. Esto provee un amplio rango de soluciones de compromiso entre complejidad del algoritmo y calidad del audio comprimido. Los niveles son:

• Layer 1: es la mas simple de todas; esta pensada para bitrates superiores a los 128 Kbps. Por ejemplo, el DCC (Digital Compact Cassette) de Philips utiliza una variante del Layer 1 denominada PASC alcanzando un bitrate de 192 Kbps por canal.

• Layer 2: ofrece un nivel de complejidad intermedio y está pensada para bitrates cercanos a los 128 Kbps por canal. Las posibles aplicaciones para esta capa incluyen la codificación de audio para la Emisión de Audio Digital que es la base de la radio digital, DAB (Digital Audio Broadcasting), CD-i y Video CD.

• Layer 3: es la mas compleja de todas, pero ofrece la mejor calidad de audio a los bitrates mas bajos (alrededor de los 64 Kbps por canal). Esta capa se adapta muy bien para la trans-misión de audio sobre RDSI y reproductores de audio portátiles.

Las tres capas están diseñadas de manera tal que un decodificdor de layer 2 pueda entender tam-bién un bitstream de layer 1; y un decodificador de layer 3 haga lo propio con uno de layer 1 y 2.Las tres capas son los suficientemente simples como para permitir la implementación de un deco-dificador en un solo chip de circuito integrado.

• El bitstream de audio comprimido soporta (como una opción) la detección de errores a través de un código de CRC (Cyclic Redundancy Check).

Page 11: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

Tecnología de los Contenidos Multimedia 5.9

• MPEG-1 ofrece la posibilidad de incluir datos auxiliares en la cadena de bits comprimida (anci-llary data).

• Además la organización o formato del bitstream de datos comprimidos permite la existencia de algunas prestaciones adicionales tales como el acceso aleatorio a cualquier porción de la cadena, avance y retroceso rápido del audio, etc..

5.2 CODIFICADOR MPEG

Un codificador MPEG, es un codificador del tipo perceptual; es decir, su principio de funciona-miento se basa en determinados fenómenos psicoacústicos (enmascarado frecuencial, temporal ybandas críticas) que ocurren en el oído humano. Básicamente, los codificadores perceptualesmantienen la frecuencia de muestreo pero disminuyen la longitud de la información generadapara representarla.

En general, los codificadores de este tipo operan descomponiendo la señal en bloques o unidades,correspondiendo cada uno a un cierto rango de frecuencia y tiempo determinados. Utilizandoesta distribución tiempo-frecuencia, la señal es analizada de acuerdo con principios psicoacústi-cos. Este análisis indica qué bloques o unidades son críticos y precisan ser codificados con lamáxima precisión, y cuales son menos "delicados" y pueden tolerar cierto nivel de ruido de cuan-tización sin degradar la calidad final del sonido percibido. Basándose en esta información, losbits disponibles (según el bitrate elegido) son distribuidos en estas unidades de tiempo-frecuen-cia. Los coeficientes espectrales en cada unidad son, entonces, cuantizados utilizando los bitsasignados.

El codificador MPEG-1 recibe como entrada las muestras de audio digital (PCM samples) y pro-duce el bitstream comprimido para su almacenamiento o transporte. El algoritmo codificador noestá estandarizado por la Norma ISO/IEC 11172-3, pero su bitstream de salida debe ser tal queun decodificador MPEG-1 (normalizado) pueda reproducir el audio original a partir de allí. Paraestudiar el funcionamiento de un codificador MPEG-1 tómese en consideración el diagrama enbloques de la figura 5.5.

Figura 5.5 Diagrama en bloques de un codificador MPEG-1.

Banco deFiltros

Cuantización Formateo delBitsream

ModeloPsicoacústico Información

auxiliar(opcional)

Entrada de audioPCM

Bitsream codificado

Page 12: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

5.10 Tecnología de los Contenidos Multimedia

• Banco de filtros (filterbank):

El banco de filtros (filterbank) es un componente fundamental del codificador MPEG-1 y comúna todas las capas (layers) que define la norma. Este banco de filtros divide la señal de audio en 32bandas de frecuencia de igual ancho (excepto en Layer 3 que son variables).

La implementación de los filtros puede variar entre codificadores y entre las distintas capas(layers) de la norma. Conceptualmente el banco de filtros puede considerarse como un conjuntode 32 filtros pasabanda trabajando en paralelo, todos reciben la misma señal de entrada y todosentregan una porción del espectro a la salida.

• Modelo psicoacústico:

Cuando se analizaron los principios básicos del audio digital se introdujo el concepto de Relaciónseñal/ruido de cuantización (SQNR), que en conclusión indicaba que cuando se agrega un bitmás para cuantizar una muestra de audio se agregan 6 dB de resolución y el ruido de cuantiza-ción disminuye en la misma magnitud.

El modelo psicoacústico de un codificador MPEG-1 es un modelo matemático del comporta-miento del oído humano y, como su nombre indica, tiene en cuenta los principios psicoacústicosde enmascaramiento frecuencial y temporal. Su función es analizar la entrada de audio PCM y lasalida de los filtros para determinar qué bandas de frecuencia deben conservarse en el bitstreamcomprimido y en que medida deben ser conservadas. Es decir, algunas bandas de frecuencia vana ser enmascaradas por otras bandas vecinas y no será necesario tenerlas en cuenta a la salida,pero otras bandas que no estarán enmascaradas necesitan ser procesadas. Ahora bien, el bitstreamcomprimido a la salida debe tener un bitrate específico, por este motivo las bandas de frecuenciaque sí deben tenerse en cuenta no pueden cuantizarse con un número excesivo de bits, debencuantizarse con el número justo de bits de manera tal que el ruido de cuantización que se generaen el proceso caiga por debajo del umbral de audición humano.

En definitiva, el bloque analiza el audio original en base a principios psicoacústicos y determinael número de bits necesarios para cuantificar cada una de las bandas de frecuencia que entrega elbanco de filtros, de manera tal que el ruido de cuantificación siempre quede enmascarado porotras componentes de la señal de audio y que el bitrate resultante a la salida no supere un deter-minado límite. La salida definitiva del bloque (la cantidad de bits de cuantificación por banda) seexpresa en términos de una relación denominada Mask to Noise Ratio (relación enmascara-miento/ruido) calculada de la siguiente forma:

MNRdB = SNRdB - SMRdB

donde

MNRdB: es la Relación Enmascaramiento-Ruido, Mask to Noise RatioSNRdB: es la Relación Señal-Ruido, Signal to Noise RatioSMRdB: es la Relación Señal-Enmascaramiento, Signal to Mask Ratio, (del modelo psicoacús-tico)

Page 13: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

Tecnología de los Contenidos Multimedia 5.11

Aunque la norma no define ninguna implementación específica del modelo psicoacústico, ofrecedos posibilidades de acuerdo a la cantidad de bits disponibles para cada una de las bandas; infor-mación suministrada por el modelo psicoacústico. Este bloque también es denominado Noise/Bits Allocation o "Asignación de Ruido/Bits". Finalmente, la cadena de bits resultante es enviadaal bloque de formateo para su acondicionamiento final. La figura 5.6 es otro esquema de un codi-ficador en donde puede visualizarse cómo la salida de cada uno de los filtros es cuantizada porseparado de acuerdo al análisis del modelo psicoacústico.

Figura 5.6 Esquema alternativo de un codificador MPEG-1.

• Codificador MPEG-1, Layer 1, 2 y 3:

Aunque el principio básico de funcionamiento de un codificador MPEG-1 es siempre el mismo;existen algunas diferencias de implementación según el Layer que se esté utilizando, a continua-ción se detallan algunas de ellas:

Layer 1: En este nivel el banco de filtros divide la señal de audio en 32 sub-bandas de frecuencia,todas del mismo ancho (frecuencia de muestreo / 64), . Los filtros están basados en transforma-das rápidas de Fourier (FFT - Fast Fourier Transform) de 512 puntos (sobre un solo frame) y pro-veen una aceptable resolución en frecuencia. El hecho de dividir la señal en 32 bandas de igualancho no se corresponde completamente con el concepto de bandas críticas explicado con ante-rioridad. Aún mas, Layer 1 no tiene en cuenta el fenómeno de enmascaramiento temporal, solo elenmascaramiento en frecuencia (por ello el análisis con FFT se realiza sobre un solo frame). Enel proceso de cuantificación, la asignación puede ir de 0 a 15 bits por sub-banda.

Layer 2: El algoritmo utilizado en esta capa representa una pequeña mejora respecto del Layer 1.Los filtros también dividen el espectro audible en 32 bandas de igual ancho, pero están basadosen FFT's de 1024 puntos. Layer 2 contempla un poco de enmascarado temporal.

Layer 3: El algoritmo del Layer 3 es una aproximación mucho mas refinada a los conceptos psi-coacústicos que ya se han explicado. El banco de filtros divide el espectro en 32 sub-bandas peroel ancho de cada una de ellas depende de un análisis previo sobre la señal original, de esta formase aproxima mucho mas al concepto de bandas críticas. La implementación matemática de estos

Banco deFiltros

Cuantización

ModeloPsicoacústico

Entrada

Cuantización

Cuantización

Multiplexor

Salida

Page 14: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

5.12 Tecnología de los Contenidos Multimedia

filtros está basada en la denominada Modified Discrete Cosine Transform, MDCT (Transfor-mada Discreta del Coseno Modificada), que provee mejor definición en frecuencia. El efecto delenmascarado temporal está plenamente contemplado en este algoritmo.

Además de todas estas mejoras, Layer 3 implementa a la salida del bloque cuantificador, unaetapa más de compresión. El proceso es del tipo lossless y se basa en la eliminación de informa-ciones redundantes dentro del bitstream. El algoritmo se denomina "Compresión Huffman" yañade un nivel mas de compresión a todo el conjunto.

• Decodificador MPEG

El algoritmo decodificador MPEG-1 es uno de los pocos aspectos normativos del estándar ISO/IEC-11172-3. El proceso es mucho mas simple que el codificador, pero aún así ofrece un gradoimportante de complicación matemática.

Los aspectos cualitativos mas importantes de este algoritmo son los siguientes. En un decodifica-dor PAC, el espectro cuantizado es reconstruido de acuerdo a los bits asignados y luego, sinteti-zado en una señal de audio compleja. Para comprender mejor el proceso, considérese el diagramaen bloques de la figura 5.7.

Figura 5.7 Diagrama en bloques de un decodificador MPEG-1.

El primer bloque detecta los frames dentro del bitstream y decodifica la información auxiliar quepudieran contener. El bloque siguiente reconstruye el espectro cuantizado según los bits asigna-dos y el último bloque devuelve toda la información al dominio del tiempo para obtener lasmuestras PCM definitivas. La figura 5.8 muestra un esquema alternativo de un decodificadorMPEG-1:

Figura 5.8 Diagrama alternativo de un decodificador MPEG-1.

Descomposicóndel Bitstream

Cadena de bits(Bitsream) codificada Reconstrucción de las

muestras frecuencialessConversión

frecuencia-tiempo

Salida deaudio PCM

Información auxilar(opcional)

Demultiplexor

CuantizacióninversaEntrada

Banco deFiltros

SalidaCuantizacióninversa

Cuantizacióninversa

Page 15: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

Tecnología de los Contenidos Multimedia 5.13

• Extensiones de la norma

Poco tiempo después de la introducción de la Norma ISO/IEC-11172-3, el comité MPEG publicóotra serie de documentos extendiendo las capacidades y los alcances del primero. Estos nuevosdocumentos también fueron normalizados internacionalmente por el ISO y el IEC. El nombre delestándar es "Generic Coding of Moving Pictures and Associated Audio: Audio ISO/IEC-13818-3". Mas conocido como MPEG-2.

Los cambios respecto de MPEG-1 son en realidad ampliaciones. En MPEG-2 se agregan 3 nue-vas frecuencias se muestreo (16, 22,05 y 24 KHz); se reduce el bitrate del bitstream hasta unmínimo de 8 Kbps y se suman 3 nuevos canales de audio (totalizando 5). Durante el desarrollo deesta norma se puso especial énfasis en la compatibilidad con MPEG-1. Un decodificador MPEG-2 puede entender perfectamente un bitstream comprimido con MPEG-1.

Existe a su vez otra extensión a MPEG-2, conocida como MPEG-2.5. Este documento es undesarrollo de la empresa Alemana FhG Erlangen y solo modifica algunos aspectos del Layer 3;agregando mas frecuencias de muestreo para lograr bitrates aún mas bajos.

5.3 FORMATOS DE ARCHIVO DE SONIDO DIGITAL:

Existe una variedad enorme de formatos de sonido digital. Los principales aparecen en la tabla5.1:

Tabla 5.1 Principales formatos de sonido digital

Los parámetros que definen la calidad de un sonido digital así como el tamaño que finalmenteocupe el archivo son los siguientes:

Aplicación Tamaño de archivo

WAV El más utilizado en Windows. Datos en PCM, sin compresión. Muy grande

MID Hace servir patrones que ya están activos en la tarjeta de sonido. Partituras y notas musicales. Muy pequeño

MUS Parecido al mid. Muy pequeño

AIF Formato estándar en las plataformas MAC (también se puede escuchar en Windows). Es el paralelo con el wav

Muy grande

MP3 Trabaja en formato wav pero comprimiendo aquellas partes que pueden resultar inaudibles. Rebaja mucho el tamaño de los archivos.

Pequeña

RM

Formato de audio utilizado en Internet por el estándar de la empresa Real. Posee la característica Streaming, que permite no necesitar todo el archivo en el disco duro para comenzar a escucharlo.

Muy pequeño

Page 16: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

5.14 Tecnología de los Contenidos Multimedia

a) Frecuencia de muestreo: Es la cantidad de muestras de sonido capturadas en cada segundo. Suvalor puede oscilar entre 8 Khz (8.000 muestras en cada segundo) y 48 Khz.

b) Precisión de las muestras: Indica la escala de bits que se ha utilizado para guardar el sonido.Pueden ser 8 bits (256 valores posibles) o 16 bits (más de 65.000 valores posibles).

c) Mono / estéreo: El sonido pude grabarse en un solo canal (mono). en dos (estéreo), o en múlti-ples canales, 5, 6 o más. Debemos combinar estos tres parámetros de forma coherente a los resul-tados que queramos obtener, pues tanto la calidad del sonido como el espacio que ocupe elfichero dependerá de ellos. Así, por ejemplo, si queremos conseguir una calidad estándar de CDdeberemos seleccionar una frecuencia de 44,1 Khz, una precisión de 16 bits y dos canales (esté-reo). En cambio, si simplemente lo que queremos es grabar una voz, con 11 Khz, 8 bits y calidadmono será suficiente. Es importante saber escoger los parámetros adecuados en cada caso pues lacalidad CD ocupa unas 12 veces más espacio en el disco duro que el segundo caso.

En general son dos los tipos fundamentales de archivos digitales de audio: • PCM, Pulse Code Modulation. Contienen datos en los que cada valor del archivo representa

exactamente una muestra de la forma de onda. Se ha realizado la digitalización pero no se realiza compresión alguna. Ejemplos de archivos PCM son los WAV y AIFF.

• El otro tipo son los ficheros comprimidos. Los formatos iniciales utilizaban codificación logarít-mica pero en la actualidad se basan en los métodos de compresión con modelos psicoacústicos.. Los ejemplos característicos son los MP3 (MPEG I, layer 3), Ogg Vorbis, y WMA (Windows Media Audio). La tabla 5.2 muestra los principales archivos comprimidos con sus extensiones y los estándares a los que pertenecen.

Tabla 5.2 Archivos de audio comprimido y sus estándares.

:

Tabla 5.3 Datos de las capas del estándar MPEG de audio

Formato del fichero de audio

Extensión del fichero Estándar Aplicación

Digital Theater Systems DTS ETSI TS 102 114 DVD, Audio CD Dolby Digital AC-3 ATSC Standard A/52A DVD MPEG-1 Layer I MPA ISO/IEC-11172-3 MPEG-1 Layer II MP2 ISO/IEC-11172-3 VCD, SVCD MPEG-1 Layer III MP3 ISO/IEC-11172-3 MPEG-2 Layer I MPA ISO/IEC-13818-3 MPEG-2 Layer II MP2 ISO/IEC-13818-3 5.1 SVCD MPEG-2 Layer III MP3 ISO/IEC-13818-3

Capa (Layer) Compresión Transferencia 1 4:1 384 Kbits/s 2 6:1 a 8:1 256 a 192 Kbits/s 3 10:1 a 12:1 128 a 112 Kbits/s

Page 17: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

Tecnología de los Contenidos Multimedia 5.15

Los datos fundamentales de las capas del estándar MPEG de audio se muestran en la tabla 5.3.

Por último, debe tenerse en cuenta la diferencia entre sonido digitalizado y el sintetizado. Elsonido MIDI no se obtiene de una señal de sonido natural. El formato MIDI no es un sonidoalmacenado como tal sino en forma de datos y para que para que pueda ser reproducido es nece-sario un sintetizador, presente en la tarjeta de sonido. De hecho es como si se tratase de una par-titura que contiene la nota que se toca en cada momento, su intensidad y su duración.

Los archivos de este tipo son pequeños y en muy pocos Kb podemos almacenar gran cantidad demúsica, aunque, eso sí, con una sonoridad un tanto artificial. Existen dos extensiones que Win-dows reconoce perfectamente: .mid (la más habitual) y .rmi. Programas como Music Time creany reproducen estos tipos de ficheros.

5.3.1 FORMATEO DEL BITSTREAM (FRAMING):El formato de la cadena de bits que debe entregar el codificador MPEG está normalizado; estebloque se encarga de cumplir con dicho requerimiento, además de añadir cualquier informaciónadicional que el usuario desee (ancillary data).

El bitstream resultante esta divido en pequeños paquetes de datos denominados frames (cuadroso marcos). Cada frame es totalmente independiente de cualquier otro y, según el layer, el bitrateelegido y la frecuencia de muestreo, puede contener entre 20 y 70 ms de audio digital compri-mido. Un frame MPEG-1 está dividido en cuatro partes:

- Encabezamiento (header): contiene información de sincronización y datos sobre las caracterís-ticas del frame.

- Control de error (CRC): para detectar posibles errores en bitstream.

- Datos de audio: parte del bitstream que contiene las muestras de audio comprimido.

- Datos auxiliares (ancillary data): parte del bitstream en donde pueden incluirse datos auxilia-res.

El tamaño en bytes de cada frame puede ser calculado utilizando la siguiente expresión (sólo paraLayer 3):

en donde:

FrameSize: es el tamaño del frame en bytes.

BitRate: es la cadencia de bits elegida a la salida del compresor.

SampleRate: es la frecuencia de muestreo de la señal de audio digital original.

144[ ]

BitRateFrameSize bytes

SampleRate×

=

Page 18: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

5.16 Tecnología de los Contenidos Multimedia

• Ejemplo: supóngase una frecuencia de muestreo típica de 44,1 KHz y un Bitrate de 128 Kbps, con estos datos el tamaño del paquete sería:

Frame Size = 144 x 128000 / 44100 = 417 bytes

y representa aproximadamente 26,12 ms de audio.

5.3.2 ENCABEZAMIENTO DEL FRAME (HEADER):Los primeros 4 bytes (32 bits) del frame contienen importante información sobre los datos conte-nidos en el paquete. Esta información es lo que le permite al frame ser autosuficiente y completa-mente independiente del resto de los frames de un programa de audio completo. La norma indicacon precisión el significado que deben tener cada uno de los 32 bits del encabezamiento (o hea-der) del frame.

Supóngase el siguiente esquema de un frame, en donde cada letra representa un bit:

AAAAAAAA AAABBCCD EEEEFFGH IIJJKLMM

La figura 5.9 muestra un modelo de sistema de codificación de audio MPEG, desde el punto devista de la creación de las tramas.

Figura 5.9 Sistema de codificación de audio MPEG, desde el punto de vista de la creación de las tramas.

La tabla 5.4 resume el significado de los 32 primeros bits del encabezado de un frame:

Análisis ensubbandas

Entrada de audio digital

Modelopsicoacústico

Cuantificador yCodificador

Empaquetadorde tramas

Trama de datoscodificados

CODIFICADOR

Datos auxiliares

Desempaquetadorde tramas

Reconstrucción Síntesis ensub-bandas

DECODIFICADOR

Datos auxiliares

Salida de audio digital

Page 19: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

Tecnología de los Contenidos Multimedia 5.17

Tabla 5.4 Encabezado de un frame MPEG-1

Letra Tamaño (bits)

Posición (bits)

Descripción

A 11 31-21 Bits de sincronización del frame, todos en 1 (indican el comienzo de un frame).

B 2 20-19

Versión MPEG: 00 : Versión 2.5 01 : reservado 10 : Versión 2 –MPEG2- (ISO/IEC-13818-3) 11 : Versión 1 –MPEG1- (ISO/IEC-11172-3)

C 2 18-17

Descripción del Layer: 00 : reservado 01 : Layer 3 10 : Layer 2 11 : Layer 1

D 1 16 Bit de protección CRC: 0 : Protegido con CRC (16 bits de CRC le siguen al encabezado) 1 : No protegido con CRC

Indicación del Bitrate: Bits V1-L1 V1-L2 V1-L3 V2-L1 V2-L2 V2-L3 0000 Libre Libre Libre Libre Libre Libre 0001 32 32 32 32 32 8 0010 64 48 40 64 48 16 0011 96 56 48 96 56 24 0100 128 64 56 128 64 32 0101 160 80 64 160 80 64 0110 192 96 80 192 96 80 0111 224 112 96 224 112 56 1000 256 128 112 256 128 64 1001 288 160 128 288 160 128 1010 320 192 160 320 192 160 1011 352 224 192 352 224 112 1100 384 256 224 384 256 128 1101 416 320 256 416 320 256 1110 448 384 320 448 384 320 1111 - - - - - -

E 4 15-12

Notas: Todos los valores están en kbps. V1 : MPEG Versión 1 (ISO/IEC-11172-3) V2 : MPEG Versión 2 y 2.5 L1 : Layer 1 L2 : Layer 2 L3 : Layer 3 Indicación de la frecuencia de muestro del audio original (valores en Hz.):

bits MPEG-1 MPEG-2 MPEG-2.5 00 44100 22050 11025 01 48000 24000 12000 10 32000 16000 8000

F 2 11-10

11 Reservado Reservado Reservado

G 1 9 Bit de relleno: 0 : el frame no está rellenado 1 : el frame está rellenado con un bit extra

H 1 8 Bit reservado (función desconocida)

I 2 7-6

Indicación de los canales: 00 : stereo 01 : joint stereo 10 : dos canales (stereo) 11 : un canal (mono)

J 2 5-4 Extensión de los modos de los canales (solo para Joint stereo):

Page 20: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

5.18 Tecnología de los Contenidos Multimedia

En el diagrama de bloques del modelo de sistema de codificación de audio MPEG-1 se puede verel proceso básico de codificación/decodificación de la señal de audio digital. Esta señal se divideen 32 subbandas de frecuencia con un banco de filtros. Simultáneamente se calcula para cadasubbanda, en el modelo psicoacústico, los coeficientes entre los niveles de señal y el umbral deenmascaramiento (los sonidos no se distinguen por debajo de este umbral). A cada banda se leasigna un número de bits para reducir el ruido total de cuantificación, esto se realiza en el bloquede asignación de bits y cuantificación. El último bloque empaqueta la información anterior yañade los datos auxiliares en la trama.

La trama MPEG-2 se construye en torno a los dos canales principales (izquierdo y derecho), paraque sea compatible con la trama MPEG-1, el resto de información necesaria para los canales desonido envolvente (surround) o los canales multilingües se incluye en la zona de datos auxiliares.Así un decodificador que siga la norma MPEG-1 obtendrá los canales izquierdo y derecho, mien-tras que un decodificador MPEG-2 puede obtener todos los canales.

Figura 5.10 Estructura de la trama multicanal MPEG-2.

• El archivo "MP3"

El bitstream (cadena de bits) a la salida del codificador MPEG-1 está formado por frames (cua-dros). Como ya se explicó, estos frames cuentan con un encabezamiento; un control de errorespor medio del método de redundancia cíclica (CRC), los datos

correspondientes al audio codificado e información auxiliar. Los mencionados frames o cuadros,se almacenan en un archivo de computadora de manera secuencial.

CabeceraCRC BAL SCFSI

SCF

Muestras delas subbandas

Datosanteriores 1

Datosanteriores 2

Cabecera MCMC-CRC

MC-BAL MC-SCFSIMC-SCF

Predicción-MC

Multilenguaje

MC-Muestras delas subbandas

Datosanteriores 2

Estéreo Básico L/R Extensión multicanal

ISO/IEC 11172-3 Layer II frame

EstéreoBásico

L/R

Datos de audio multicanalMulti-

lenguaje

Extensión multicanal

Page 21: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

Tecnología de los Contenidos Multimedia 5.19

La extensión del nombre de este archivo es ".MP3", identificando de esta manera a un bitstreamcodificado en MPEG1 Layer 3. De la misma manera, la extensión ".MP2" está relacionada conarchivos codificados en MPEG1 Layer 2.

Estos archivos no contienen ningún tipo de encabezamiento general, simplemente son grandes"paquetes" de frames. No obstante esto, es posible encontrar al final del archivo, informaciónsobre el origen del audio comprimido a manera de etiqueta (tag -en inglés-); de esta manera eldispositivo o programa que comprime una grabación musical puede añadir el nombre del autor,de la obra, del álbum al que corresponde (con 30 caracteres asignados a cada uno), año de reali-zación (en 4 bytes), comentarios (30 caracteres), y un índice numérico correspondiente al géneromusical (1 byte). El campo (si es especificado y es correcto) tiene como identificación inicial lapalabra 'TAG'. Con estos tres caracteres totaliza 128 bytes.

5.4 COMPRESIÓN MPEG A FONDO

En esta sección se presentan los métodos de compresión de audio fundamentales con mayor deta-lle. La complejidad de los mismos requiere ciertos conocimientos de tratamiento digital de seña-les. Para el lector no instruido en estos temas es suficiente con entender lo descrito anteriormente,pero no debe renunciar a la lectura de esta sección, aunque sólo sea para observar los conoci-mientos necesarios para abordarlo.

A continuación se van a detallar los mecanismos de los algoritmos de compresión MPEG bási-cos. Para ello se presentan inicialmente algunas herramientas fundamentales.

5.4.1 RUN LENGTH ENCODING (RLE)Es una de las técnicas de compresión orientadas al carácter, que se basan en el uso de un carácterespecial que indica que se ha realizado la compresión. Estas técnicas pueden utilizarse de formaaislada o combinadas entre sí.

Es una generalización del método de eliminación de blancos. Con esta técnica se puede reducircualquier secuencia de caracteres cuando el nivel de la ocurrencia es de tres o más caracteresiguales consecutivos.

Cuando se encuentran 3 o más caracteres iguales consecutivos lo que se hace es sustituir estasecuencia por:

- un carácter especial indicador de compresión

- el carácter que se comprime

- número que indica la cantidad de caracteres que se comprimen.• Ejemplo de compresión en el emisor:

La cadena de entrada es:

fghhhhjjerØØØØØØØØØtttrrrrrywqad

Page 22: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

5.20 Tecnología de los Contenidos Multimedia

Una vez realizada la compresión, la cadena resultante será:

fgSch4jjerScØ9Sct3Scr5ywqad

donde Ø representa un carácter blanco y Sc es el carácter especial indicador de compresión.

En el proceso de descompresión, el receptor recorre la cadena de datos. Cuando encuentra uncarácter especial que indique compresión sabrá que en esa posición se ha realizado una compre-sión y que el siguiente carácter indica el carácter que ha sido comprimido y a continuación apa-rece el número que indica cuantos caracteres fueron comprimidos y de esta forma podráreconstruir la cadena original.

• Ejemplo de descompresión en el receptor

La cadena recibida a través del canal es la siguiente:

gtScr5juliScØ4jklScp3hj

Una vez realizada la descompresión obtenemos que la cadena original era:

gtrrrrrjuliØØØØjklppphj

5.4.2 CÓDIGO DE HUFFMANEs un código estadístico. La construcción de este tipo de códigos se basa en la propiedad del pre-fijo, según la cual, ninguna secuencia de bits que represente a un carácter del código podrá apare-cer como subsecuencia inicial de otra secuencia de longitud mayor que represente a otro carácterdel código. Este código es un código óptimo dentro de los códigos de codificación estadística, yaque es el código de menor longitud media.

La construcción de este código se fundamenta en asignar a cada símbolo del alfabeto fuente unasecuencia de bits cuya longitud esté relacionada de forma directa con la probabilidad de apari-ción de ese símbolo. De esta forma, a los símbolos con mayor frecuencia de aparición se les asig-narán las palabras de código de menor longitud.

En el proceso de construcción de este código, lo primero que se hace es ordenar el conjunto desímbolos del alfabeto fuente en orden decreciente de probabilidades de aparición. A continuaciónse juntan los dos símbolos con menor probabilidad de aparición en un único símbolo cuya proba-bilidad será la suma de las probabilidades de los símbolos que dieron origen a este nuevo sím-bolo.

Se repite este proceso hasta que sólo tengamos dos símbolos. A continuación se realiza el pro-ceso de codificación. Primeramente asignamos un 1 a uno de los dos símbolos que tenemos y un0 al otro. Posteriormente recorreremos la estructura que hemos construido hacia atrás de formaque cuando dos símbolos hayan dado origen a un nuevo símbolo, estos dos símbolos "heredarán"la codificación asignada a este nuevo símbolo y a continuación se le añadirá un 1 a la codifica-ción de uno de los símbolos y un 0 a la del otro símbolo.

Page 23: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

Tecnología de los Contenidos Multimedia 5.21

5.4.3 COMPRESIÓN DE AUDIOExisten numerosas técnicas para la compresión de audio. Los compresores reales pueden utilizarvarias de ellas, teniendo en cuenta las ventajas e inconvenientes de cada una, con el fin de obte-ner diferentes posibilidades en función del coste y la complejidad. En esta sección se analizan lastécnicas fundamentales por separado, y posteriormente se exponen las combinaciones básicas.

El método de codificación más elemental es la compensación. Este método es el equivalentedigital a los mecanismos de reducción de ruido en los grabadores analógicos de cintas. Esta téc-nica se ilustra en la figura 5.11. La señal de entrada se monitoriza y cuando su nivel disminuyepor debajo de un máximo, se amplifica en el codificador. La ganancia aplicada para aumentar laseñal se añade a los datos transmitidos de manera que en el decodificador puede aplicarse unaatenuación del mismo valor. En los grabadores analógicos de cintas esta técnica se utiliza paramaximizar la relación señal/ruido mientras que en la compresión digital se utiliza para mantenerel nivel de la señal todo lo alejado posible, según las ganancias disponibles, de la distorsión intro-ducida por sucesivas etapas de codificación.

(a)

(b) (c)

Figura 5.11 Compensación digital. (a) El codificador amplifica la entrada al nivel máximo y el decodificador atenúa en lamisma cantidad. (b) Señal antes de la compresión. (c) En el sistema compensado la señal se manitiene tanlejos como es posible del ruido que se produce por la longitud de palabra de la muestra.

Medida denivel Inversor

SalidaEntrada

com presor denivel

descom presor denivel

código de nivel

Max

Nivel de Señal

SNR

Antes de la compensación

Nivel de Ruido

Después de la compensación

Max Nivel de Señal

SNRNivel de Ruido

Page 24: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

5.22 Tecnología de los Contenidos Multimedia

Una forma habitual de obtener la codificación de la ganancia es reducir el tamaño de palabra delas muestras de manera que se necesite transmitir un número menor de bits. Al realizar estareducción la distorsión crecerá alrededor de 6 dB por cada bit eliminado, ya que al eliminar un bitse divide por la mitad el número de intervalos cuantificados con lo que deben ser el doble degrandes, duplicando por tanto el error en amplitud.

Una alternativa a la reducción de la longitud de palabra consiste en convertir la señal PCM uni-forme en un formato no uniforme. En este caso el tamaño del paso de cuantificación crece con lamagnitud de la muestra tal que el nivel de distorsión es mayor que cuando se dan los niveles másaltos.

La compensación está relacionada con la codificación en punto flotante. Esta técnica se muestraen la figura 5.12. El valor de la muestra se expresa como una mantisa y un exponente binario quedetermina el desplazamiento que debe realizarse sobre la mantisa para obtener el valor absolutocorrecto sobre una escala PCM. El exponente es el equivalente a la ganancia o al factor de escalaen un sistema compensado.

Figura 5.12 Codificación en punto flotante

En punto flotante la relación señal-ruido viene determinada por el número de bits en la mantisa.La figura 5.13 ilustra cómo la relación señal-ruido varía como una función diente de sierra. Elmejor valor, que se obtiene cuando la mantisa es cercana al desbordamiento, es remplazado porel peor valor cuando la mantisa se desborda y el exponente se incrementa.

Como puede observarse, en el ejemplo mostrado en la figura 5.13, la máxima relación SNR es de6db×8=48 decibelios con una entrada m·xima de 0db. Como el nivel de entrada disminuye y elnivel de ruido permmanece igual entonces la SNR disminuye a 42 db.Una mayor reducción en elnivel de señal tendría como consecuencia que el conversor desplazase el rango (punto A de lafigura 5.13) aumentando la ganacia de la entrada analógica en 6 db. La SNR volvería al valor ini-cial y el el exponenete cambiaría de 7 a 6 para obtener el mismo cambio en el receptor. En estesistema tan simple, el ruido modulado se escucharía y por ello en la práctica es necesria una pala-bra mayor para la mantisa.

M

7 6 5 4 3 2 1 0

0 0 1 1 0 0 1 0 = 1 0 0 1 01

M E

= 0 1 1 0 1 10 0 0 0 1 0 1 1

M

Page 25: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

Tecnología de los Contenidos Multimedia 5.23

Figura 5.13 Ejemplo de sistema con Mantisa de 8 bits y 3 bits de exponente.

La notación en punto flotante se utiliza en los DSPs ya que facilita los problemas computaciona-les debidos a longitudes de palabras grandes. Así por ejemplo, al multiplicar números en puntoflotante basta con multiplicar las mantisas, mientras que los exponentes sólo se suman, redu-ciendo el coste computacional.

Un sistema en punto flotante necesita un exponente con cada mantisa, lo que es innecesario ydemasiado costoso ya que en los sistemas de audio reales el nivel no cambia tan rápidamentecomo para necesitar una información tan precisa, por lo que puede considerarse que existe redun-dancia en los exponentes. Una alternativa más adecuada es la codificación en punto flotante enbloque, también conocida como compensación cuasi-instantánea. En ella la magnitud de lamuestra mayor de un bloque se utiliza para determinar el valor de un exponente que será válidopara el bloque completo. Enviar un exponente por bloque requiere una velocidad de datos menorque en la codificación en punto flotante.

En la codificación por bloques la recuantificación en el codificador aumenta el error de cuantifo-cación, pero lo hace a lo largo de la duración de todo el bloque. La figura 5.14 muestra que si seda un transitorio hacia el final del bloque, el decodificador reproducirá la forma de onda correcta-mente, pero el ruido de cuantificación comenzará al principio del bloque y puede producir unaumento considerable en la distorsión, también llamada pre-ruido o pre-eco que es audible antesdel transitorio. Para hacerlo inaudible puede utilizarse un enmascaramiento temporal. Con unbloque de un milisegundo el efecto es suficientemente breve como para no ser oído.

Otra solución consiste en utilizar una ventana temporal variable en función del contenido deltransitorio de la forma de onda de audio. Cuando ocurren los transitorios musicales se necesitanbloques cortos y la ganancia de codificación será baja. En otro caso los bloques se vuelven mayo-

0 1 2 3 4 5 6 7Conversor de exponente

Nivel de entrada (db bajo el máximo) 42 36 30 24 18 12 6 0

A

48

48

48

48

48

SNR

(db)

Page 26: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

5.24 Tecnología de los Contenidos Multimedia

res permitiendo una ganancia de codificación mayor. Mientras que este sistema se utilice sólo sepermite codificación de ganancia, el factor de compresión tiene que limitarse porque se obtienepoco beneficio del enmascaramiento. Esto se debe a que estas técnicas producen distorsión quepuede encontrarse en cualquier lugar de toda la banda de audio. Si el espectro de la entrada deaudio es estrecho este ruido no se enmascarará.

Figura 5.14 Transitorio en el final de un bloque de una transformada

La codificación sub-banda separa el espectro de audio en diferentes bandas de frecuencia, con loque posteriormente cada banda puede procesarse individualmente. En las señales de audio realesmuchas bandas contendrán señales de menor nivel que la de tono más alto. La compensaciónindividual de cada banda será más eficaz que la de la banda completa. La codificación sub-bandatambién permite que el nivel de los productos de distorsión aumente selectivamente de maneraque la distorsión sólo se crea a frecuencias en las que el enmascaramiento espectral sea eficaz.

Debe tenerse en cuenta que el resultado de reducir la longitud de palabra de las muestras en uncodificador sub-banda es considerado a menudo como ruido. Estrictamente, el ruido es una señalno deseada que no está correlacionada con la señal deseada. Esto no sucede generalmente en lacompresión de audio. El elemento aleatorio en la linealización en los bits de bajo orden estará dealguna manera debajo de el final de la palabra reducida. Si la palabra es simplemente redondeadaal entero más cercano el efecto de la linealización se perderá produciendo distorsión por la cuan-tificación. Como la distorsión se produce en un sistema de banda limitada los armónicos genera-dos aparecerán con alias en la banda. Cuando la recuantificación se realiza en una sub-banda ladistorsión se confinará a esa sub-banda, tal y como se ilustra en la figura 5.15. Esta distorsión esanarmónica.

Figura 5.15 Codificación por transformación en bloques cortos.

Ruidoenmascarado

Transitorio

Ruido que puedepercibirse si el bloque es

demasiado largo

Nivel de ruido constanteen bloque

TiempoBloque de transformada

Page 27: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

Tecnología de los Contenidos Multimedia 5.25

La señal de audio se considera usualmente una forma de onda en el dominio temporal ya que estoes los que produce un micrófono. Sin embargo, el análisis espectral permite que cualquier formade onda se represente por un conjunto de elementos armónicamente relacionados de amplitud yfase dadas. En teoría es perfectamente posible descomponer una forma de onda periódica en susfrecuencias y fases, y grabar o transmitir la transformada. Esta puede invertirse y reconstruir laforma de onda temporal original.

La transformada de una forma de onda típica de audio cambia con relativa lentitud la mayoría delas veces. La lenta decaída de la mayoría de los sonidos musicales permite reducir la velocidadde muestreo de la transformada, con lo que se obtiene una codificación de ganancia. En algunasfrecuencias el nivel estará por debajo del máximo y puede utilizarse una longitud de palabramenor. Además podrá obtenerse codificación de ganancia si los coeficientes que describen lasfrecuencias que se enmascararán se cuantificarán menos finamente.

En la práctica aparecen algunas dificultades. Los sonidos reales no son periódicos, contienentransitorios para los que la transformación no puede realizarse de forma precisa. Una posiblesolución consiste en separar la forma de onda en dos segmentos cortos y transformar cada unoindividualmente. El retardo se reduce pero existe la posibilidad de que aparezcan efectos nodeseados debido a que la forma de onda ha sido truncada en ventanas temporales rectangulares.Una solución es utilizar funciones de ventana, y superponer los segmentos, tal y como se ilustraen la figura 5.15. Entonces, cada muestra de entrada aparece en sólo dos transformadas, pero conpero variable dependiendo de su posición a lo largo del eje temporal.

La DFT no produce un espectro continuo sino coeficientes a frecuencias discretas. La resoluciónen frecuencia, es decir, el número de coeficientes a diferentes frecuencias, es igual al número demuestras en la ventana. Si se utilizan ventanas superpuestas, se produce el doble de coeficientesya que son necesarios teóricamente. Además la DFT necesita cálculos intensivos y además esnecesario utilizar la aritmética de los números complejos para determinar tanto la fase como laamplitud. Una alternativa es utilizar la DCT (Discrete Cosine Transform) o la MDCT (ModifiedDiscrete Cosine Transform), que tiene la capacidad de eliminar la sobrecarga debida a la super-posición de las ventanas y volver al dominio críticamente muestreado. El término muestreo crí-tico se utiliza para indicar que el número de coeficientes no excede el número que se obtendríasin superposición de ventanas.

5.4.4 CODIFICACIÓN SUB-BANDALa codificación sub-banda tiene la ventaja de que los sonidos reales no tienen un energía espec-tral uniforme. La longitud de palabra del PCM de audio se basa en el rango dinámico requerido yeste es generalmente constante e independiente de la frecuencia, aunque cualquier pre-énfasispuede afectar. Cuando una señal con un espectro no par es expresada como PCM, el rango diná-mico completo se ocupa sólo por el componente espectral menos alto, y todos los demás compo-nentes se codifican con espacio excesivo.

Page 28: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

5.26 Tecnología de los Contenidos Multimedia

En su forma más simple la codificación binaria consiste en separar la señal de audio en unnúmero de bandas de frecuencia y compensar cada una de acuerdo con su propio nivel. Las ban-das en las que hay poca energía producen menores amplitudes que pueden transmitirse con longi-tudes de palabra cortas. Por tanto, cada banda produce muestras de longitud variable, pero lasuma de todas las longitudes de palabra de las muestras es menor que la del PCM y así puede rea-lizarse la codificación de ganancia. Debe tenerse en cuenta que la codificación sub-banda no seutiliza sólo en el contexto digital, los sistemas de reducción de ruido Dolby son un ejemplo dedispositivo analógico que lo utilizan ampliamente.

El número de sub-bandas que deben utilizarse depende de las herramientas de conversión que secombinen con la codificación sub-banda. Si se intenta optimizar la compresión basada en enmas-caramiento las bandas deberán ser preferiblemente más estrechas que las bandas críticas del oído,y entonces se necesitará un gran número. Sin embargo, esta característica a menudo no sealcanza. Por ejemplo los ISO/MPEG Layers I y II usan únicamente 32 sub-bandas. La figura 5.16muestra la condición crítica donde el enmascaramiento está en la arista superior de la sub-banda.La utilización de un número excesivo de sub-bandas aumenta la complejidad y el retardo de lacodificación, así como el riego de pre-rizado en los transitorios, los cuales pueden exceder elenmascaramiento temporal. Por último debe tenerse en cuenta que el proceso de separación debandas es complejo y necesita gran cantidad de cálculo.

Figura 5.16 Condición crítica en la que el tono del enmascaramiento se encuentra en el límite superior de la sub-banda

5.4.5 FORMATOS DE COMPRESIÓN DE AUDIOExisten numerosos formatos para la compresión de audio y en general pueden dividirse en for-matos estándar internacionales y formatos de propietario.

Dos estándares internacionales, ISO (International Standards Organization) e IEC (InternationalElectrotechnical Commission), reconocieron rápidamente la importancia de la compresión, y en1988 establecieron el ISO/IEC/MPEG (Moving Picture Experts Group) para comparar diferentestécnicas de compresión con el fin de desarrollar un estándar internacional para la compresión devideo. Los objetivos se extendieron ese mismo año para incluir el audio, y el grupo MPEG/audiose constituyó con este fin.

Nivel deenmanscaramiento

Frecuencia

Ruido que puede enmascararse

Tono deenmanscaramiento

Frecuencia

La banda estrechapermite enmascarar

más ruido

Page 29: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

Tecnología de los Contenidos Multimedia 5.27

La codificación MPEG/audio se utiliza para DAB (digital audio broadcasting) y para el audio dela emisión de televisión digital.

En Estados Unidos se ha propuesto utilizar una compresión alternativa para el contenido de audiode las emisiones de televión digital ATSC (Advanced Television Systems Commitee). Este es elsistema AC-3 desarrollado por los laboratorios Dolby. La estructura de transporte MPEG ha sidotambién estandarizada para permitir transportar audio codoficado AC-3. El DVD (Digital VideoDisk) puede también transportar codificación de audio AC-3 o MPEG.

Otro codificador popular, que es de propietario, es el ATRAC, que es el que se utiliza en losMiniDisc

5.5 COMPRESIÓN DE AUDIO MPEG

El objetivo de la compresión de audio quedó bien establecido cuando se formó el grupo MPEG/Audio. En un principio no era necesario para el grupo producir codificadores (codecs) porque eltrabajo existente y los desarrollos hasta ese momentos eran adecuados. Como parte del proyectoEureka 147, se desarrolló el sistema conocido como MUSICAM (Masking pattern adapted Uni-versal Sub-band Integrated Coding And Multiplexing). Fue desarrollado por la CCETT en Fran-cia, IRT en Alemania y Philips en Holanda. Este sistema fue diseñado para que fuese apropiadopara la emisión DAB (Digital Audio Broadcasting). En paralelo se desarrolló el sistema ASPEC(Adaptive Spectral Perceptual Entropy Coding), a partir de numerosos sistemas anteriores, porlos laboratorios AT&T Bell Labs, Thomson, la Fraunhofer Society y el CNET. El sistemaASPEC fue diseñado para utilizar altos factores de compresión para permitir la transmisión deaudio sobre RDSI.

Los dos sistemas anteriores fueron implementados completamente en Julio de 1990, cuando laCorporación Sueca de Emisiones realizó un test exhaustivo. Como resultado de estas pruebas, elgrupo MPEG/Audio combinó las características de los sistemas ASPEC y MUSICAM en unúnico estándar manteniendo tres niveles de complejidad y de especificaciones.

Los tres niveles, conocidos como layers (capas), son necesarios ya que existen numerosas aplica-ciones, con diferentes exigencias. Los codificadores de audio pueden trabajar con diferentesniveles de calidad en las especificaciones y con distintos factores de compresión. Por ejemplo,los equipos clásicos estereofónicos requieren unas especificaciones de calidad diferentes a losmono. La complejidad del codificador será menor cuando el factor de compresión sea menor.Cuando se necesite una compresión moderada un codificador sencillo será más eficaz. Por otrolado, cuando el factor de compresión aumenta será necesario emplear un codificador más com-plejo para mantener la calidad.

El codificador MPEG Layer I es una versión simplificada del MUSICAM, que es muy apropiadopara aplicaciones de compresión media y bajo coste. El Layer II es idéntico al MUSICAM y seutiliza para DAB y para el contenido audio de la televisión digital DVB. El Layer III es una com-

Page 30: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

5.28 Tecnología de los Contenidos Multimedia

binación de las mejores características del ASPEC y el MUSICAM y se utiliza principalmentepara las telecomunicaciones, en las que se suelen necesitar altos factores de compresión.

En cada capa, la codificación MPEG Audio permite velocidades de muestreo de entrada de 32,44.1 y 48 KHz y velocidades de salida de 32, 48, 56, 64, 96, 112, 128, 192, 256 y 384 kbits/seg.La transmisión puede ser mono, canal dual (por ejemplo bilingüe) o estéreo. Otra posibilidad esutilizar el modo estéreo de manera que el audio se vuelve mono sobre un cierto rango de frecuen-cias. Esto permite una velocidad de bits menor con la desventaja evidente de que se reduce lafidelidad estéreo.

Las capas del codificador MPEG Audio, (I, II y III), no deben confundirse con los estándar decodificación para televisión MPEG-1 y MPEG-2. Estos definen un rango de sistemas para lacodificación de video y audio mientras que los layers definen tipos de codificación de audio. Elprimer estándar de MPEG-1 comprime audio y video con cerca de 1.5 Mbits/SEG. La codifica-ción de audio del MPEG-1 puede utilizarse para codificar uno o dos canales a velocidades supe-riores a 448 kbits/seg. MPEG-2 permite que el número de canales crezca hasta cinco: izquierdo,derecho, centro, izquierdo surround y derecho surround. Con el fin de mantener la compatibili-dad con MPEG-1, el MPEG-2 convierte los cinco canales de entrada en una señal compatible dedos canales, Lo, Ro, tal y como se muestra en la figura 5.17.

Figura 5.17 Obtención de una señal estéreo a partir de cinco señales envolventes para permitir la compatibilidad conun sistema de dos canales.

Los datos de estos dos canales se codifican en un estándar MPEG-1 de audio, siguiendo MPEG-2 con un sistema de datos subordinado que el decodificador MPEG-1 ignorará. El sistema subor-dinado contiene datos de otros tres canales de audio. La figura 5.18 muestra como hay ochomodos en los que estos tres canales pueden obtenerse. El codificador seleccionará el modo quetendrá la menor velocidad de datos para la distribución de energía dominante en los canales deentrada. Un decodificador MPEG-2 extraerá esos tres canales además del sistema MPEG-1 de

Lo=L+αC+βLsLs Σ

Σ

β

L

C

α

R

Rs

β

Ro=R+αC+βRs

Envolvente Izquierdo(Left Surround)

Centro

Izquierdo (Left)

Derecho (Right)

Envolvente derecho(Right Surround)

Par compatible estéreo

Page 31: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

Tecnología de los Contenidos Multimedia 5.29

manera que se recuperan los cinco canales originales mediante una matriz inversa que es dirigidapor los bits de selección de modo de la cadena de bits.

Figura 5.18 Combinaciones posibles de señales que deben enviarse, además del par compatible estéreo.

En todos los casos mostrados en la figura 5.18 pueden repuerearse los cinco canales originales apartir de una matriz inversa adecuada.

Las especificaciones para el MPEG-2 de audio para que se mantenga la compatibilidad conMPEG-1 era fundamental para algunas aplicaciones pero comprometía las prestaciones ya quealgunas herramientas de codificación muy útiles no se utilizaban. Por ello el grupo MPEG Audiodesarrolló un estándar multicanal que no era compatible ya que incorporaba herramientas decodificación adicionales con el fin de obtener mayores prestaciones. Este estándar fue denomi-nado MPEG-2 AAC (Advanced Audio Coding).

5.6 CODIFICACIÓN DE AUDIO MPEG LAYER I

La figura 5.19 muestra el diagrama de bloques del codificador Layer I, que es una versión simpli-ficada del sistema MUSICAM. Un filtro polifásico divide el espectro de audio en 32 sub-bandasiguales. La salida del banco de filtros es muestreada críticamente. Es decir, la velocidad de salidade los datos no es mayor que la velocidad de entrada. La compresión de sub-bandas tiene la ven-taja de que los sonidos reales no tienen espectro de energía uniforme. La longitud de palabra delPCM audio se basa en el rango dinámico necesario que generalmente es, como se dijo, constantepara todas las frecuencias. Cuando una señal con un espectro no par se convierte en PCM, elrango dinámico completo se ocupa únicamente por la componente espectral menos alta, y todaslas demás componentes se codifican con espacio excesivo. En su forma más simple la codifica-ción sub-banda divide la señal de audio en un número determinado de bandas de frecuencia ycada banda se compensada de acuerdo con su propio nivel. Las bandas en las que hay poca ener-gía producen amplitudes pequeñas que pueden transmitirse con longitudes de palabra pequeñas.Por tanto, cada banda produce muestras de longitud variable, pero la suma de todas las longitudesde palabra de las muestras es menor que la del PCM y así puede realizarse la codificación deganancia. La figura 5.20 muestra el decodificador.

L R C L Rs C Ls R C Ls Rs C L R Ls L R R Ls R R L Rs Ls

Page 32: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

5.30 Tecnología de los Contenidos Multimedia

Figura 5.19 Diagrama de bloques de un codificador de sub-bandas.

Figura 5.20 Diagrama de bloques de un decodificador de sub-bandas

Un codificador supeditado al Layer I, es decir, aquel cuya salida puede ser entendida por cual-quier decodificador estándar, puede realizarse simplemente de esta manera. Una vez garantizadoque la sintaxis de la cadena de bits es correcta el decodificador no tiene que considerar cómo serealizaron las decisiones en la codificación. Sin embargo, los factores de distorsión elevadosnecesitan que el nivel de distorsión aumente y esto debe hacerse sólo si se sabe que los productosde distorsión serán enmascarados. En el caso ideal las sub-bandas serán más estrechas que lasbandas críticas del oído.

La figura 5.16 mostró que la condición crítica en la que el tono enmascarado está en el lado supe-rior de la sub-banda. Sin embargo, la utilización de un número excesivo de sub-bandas aumen-tará la complejidad y el retardo del codificador. El uso de 32 sub-bandas iguales en los MPEGLayers I y II es una solución de compromiso entre ambos factores.

Filtros separadores de banda polifásicos eficientes pueden sólo operar con achura de sub-bandasiguales y por ello en un modelo de audición basado en la octava las sub-bandas son demasiadoanchas para bajas frecuencias y demasiado estrechas para las altas.

Con el fin de soslayar el problema de la precisión en el filtro sub-banda se utiliza un una transfor-mada rápida de Fourier para dirigir el modelo de enmascaramiento. El estándar sugiere algunosde estos modelos de enmascaramientos pero se pueden obtener cadenas de bits adecuadas a partirde otros modelos. En el Layer-I se utiliza una FFT de 512 puntos. La salida de la FFT se utiliza

Banco deFiltros

Compresión

Modelo deenmascaramiento

del factor de escala

Subbandas

FFT

Recuantificación Multiplexor

Tamaño deescalón

Audiocomprimido

Demultiplexor

Entrada de audio comprimido

Factor deescala

Salida AudioPCMMuestras

Cuantificacióninversa

Tamaño deescalón

Expansión

Banco de filtros

inverso

Page 33: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

Tecnología de los Contenidos Multimedia 5.31

para determinar el umbral de enmascaramiento que es la suma de todas las fuentes de enmascara-miento. Estas fuentes incluyen al menos el umbral de audición que puede aumentar localmentepor el contenido en frecuencia de la entrada de audio. El grado con el que el umbral crecedepende de si la entrada de audio es sinusoidal o atona (cuasi-ruido). En el caso de una onda sin-usoidal la magnitud y la fase de la FFT para cada frecuencia será similar en una ventana y en lasiguiente, mientras que si la señal es átona la información de la magnitud y la fase sería caótica.

El umbral de enmascaramiento es en efecto una medida del ruido como función de la frecuencia,tal y como ilustra la figura 5.21. El umbral de enmascaramiento se calcula convolucionando elespectro de la FFT con la función ampliada con correcciones por tonalidad. El nivel del umbralde enmascaramiento no puede caer por debajo de umbral absoluto, que es el umbral de audición.Por tanto el umbral de enmascaramiento se sobrepone sobre las frecuencias reales de cada sub-banda tal que puede establecerse el nivel permitido de distorsión en cada una.

Figura 5.21 (a) Curva que muestra el nivel de ruido observable calculada mediante el modelo de enmascaramiento. (b)Niveles de ruido en cada subbanda.

Los niveles de ruido en cada subbanda mostrados en la figura 5.21 deben establecerse de formaque no excedan el nivel de la curva.

Se utilizan bloques de entrada de tamaño constante con 384 muestras. A 48 KHz las 384 mues-tras corresponden a un periodo de 8 mseg. Después del filtro de sub-banda cada banda contiene12 muestras por bloque. El tamaño del bloque es suficientemente grande para evitar el fenómenodel pre-enmascaramiento, que se observaba en la figura 5.16. Por tanto el modelo de enmascara-miento debe garantizar que no se utiliza una recuantificación masiva en un bloque que contieneun gran transitorio seguido de un periodo estacionario. Esto puede realizarse comparando losparámetros del bloque con los de los bloques anteriores, ya que una diferencia significativa indi-cará una actividad transitoria.

(a) Nivel de Ruidoobservable

(b) Nivel de Ruido en cada subbanda

FrecuenciaSubbanda

Page 34: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

5.32 Tecnología de los Contenidos Multimedia

Las muestras de cada bloque de sub-banda, denominadas bin, se compensan de acuerdo con elvalor de pico en los bin. Se utiliza un factor de escala de seis bits para cada sub-banda que seaplica a las 12 muestras. La ganancia de etapa es de 2 dB y por tanto es posible un código de seisbits sobre un rango dinámico de 120 dB.

Se utiliza una velocidad de bits de salida fija, y el tamaño del bloque se salida codificado seráfijo. La longitud de palabra en cada bin será tal que la suma de los bits de todas las sub-bandas esigual al tamaño del bloque codificado. Por tanto, algunas sub-bandas pueden tener longitudes depalabra grandes si otras las tienen pequeñas. El proceso para determinar el tamaño del paso derecuantificación, y pro tanto la longitud de palabra en cada sub-banda, se denomina localizadorde bit. En el Layer I todas las sub-bandas se tratan de la misma manera y se utilizan 14 clasesdiferentes de recuantificaciones. Cada una tiene un número impar de intervalos cuantificados.Cuando se realiza el enmascaramiento la señal se cuantifica con menos presisión hasta que elnivel de distorsión aumenta hasta el nivel de enmascaramiento. Esta cuantificación menos pre-cisa necesita longitudes de palabra más pequeñas y permite una codificación en ganancia. Lalocalización de bit puede ser iterativa ya que se van realizando ajustes a lo largo de todas las sub-bandas con el fin de obtener la misma relación ruido-enmascaramiento, NMR (Noise to maskingratio). Si la velocidad de datos permitible es adecuada se producirá una NMR positiva y entoncesla calidad de la decodificación será óptima. Sin embargo, a velocidades de bit más bajas y enausencia de almacenamiento no es posible un aumento en la velocidad de bit. La distorsión de lacodificación no puede enmascararse y lo mejor que puede hacer el codificador es igualar la NMRnegativa a lo largo del espectro de manera que la distorsión no se enfatice en ninguna sub-banda.Es posible que en algunas sub-bandas no haya dato alguno, debido a que sus frecuencias no estu-vieran presentes originalmente o porque el codificador las descarte para obtener una velocidad debit menor.

Las muestras de diferentes longitud de palabra en cada bin se ensamblan en el bloque codificadode salida. A diferencia de un bloque PCM, que contiene muestras de longitud de palabra fija, unbloque codificado contiene numerosas longitudes de palabra diferentes que pueden variar de unasub-banda a la siguiente. Con el fin de descomponer el bloque en muestras de distintas longitudesde palabra y demultiplexar estas muestras en los bins de frecuencias apropiadas, es necesario quese comunique al decodificador cuáles fueron las localizaciones de bits utilizadas cuando seempaquetaron, con lo que es imprescindible algún tipo de sincronismo para permitir que se iden-tifique el principio del bloque.

El factor de compresión se determina por un sistema de localización de bit. Cambiar el tamañodel bloque de salida para obtener un factor de compresión diferente es sencillo. Si se especificaun bloque mayor el localizador de bit simplemente itera hasta que se ajuste el nuevo tamaño debloque. Análogamente el decodificador sólo necesita descomponer correctamente el bloquemayor en muestras codificadas y entonces el proceso de expansión es idéntico excepto por elhecho de que las palabras expandidas contienen menor ruido. Por tanto puede disponerse de

Page 35: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

Tecnología de los Contenidos Multimedia 5.33

codificadores con grados de compresión variable que pueden incorporar diferentes prestacionesde ancho de banda/especificaciones con el mismo hardware.

La figura 5.22.a muestra el formato de la cadena elemental del Layer I. El sistema comienza conun patrón síncrono para inicializar la fase de descomposición, y una cabecera que describe lavelocidad de muestreo y cualquier uso de preénfasis. A continuación sigue un bloque de 32 gru-pos de cuatro bits que son códigos de localización, que especifican la longitud de palabra utili-zada en cada una de las sub-bandas y permiten que el descodificador descomponga el bloque demuestras de las sub-bandas. Seguidamente se encuentra un bloque de 32 grupos de seis bits queindican los factores de escala, que especifican las ganancias dadas a cada banda durante la com-presión. El último bloque contiene 32 conjuntos de 12 muestras, que tienen longitudes de palabradistintas de un bloque al siguiente, y pueden tener una longitud entre 0 y 15 bits. La descomposi-ción tiene que utilizar la información de los códigos de las 32 localizaciones para analizar cómose descomponen los bloques de muestras en muestras individuales de longitud variable. La figura5.22.b muestra el formato de la cadena elemental del Layer II.

(a)

(b)

Figura 5.22 (a).Formato de la cadena elemental del Layer I. (b) Formato de la cadena elemental del Layer I.

La figura 5.23 muestra el decodificador Layer I MPEG. La cadena elemental se descompone uti-lizando el patrón de sincronismo y las muestras de longitud variable se ensamblan utilizando loscódigos de localización. Las muestras de longitud variable se convierten en muestras con longi-tud de palabra de 15 bits añadiendo ceros. Los índices del factor de escala se utilizan entoncespara determinar los factores de multiplicación utilizados para reconstruir la amplitud original lasformas de onda de cada sub-banda. Entonces se mezclan las 32 señales de las sub-bandas en unespectro mediante filtrado de síntesis, que consiste en un banco de filtros pasa-banda que rea-signa cada sub-banda a su localización correcta en el espectro de audio y seguidamente los sumapara producir la salida de audio.

Cabecera CRC Localización de bt

Factores deescala Subbanda muestras Datos

auxiliares

Cabecera CRC Localización de bt

Factores deescala Subbanda

muestras/granulos

DatosauxiliaresCRC Código

SCFSI

Page 36: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

5.34 Tecnología de los Contenidos Multimedia

Figura 5.23 Decodificador Layer I

5.7 CODIFICACIÓN DE AUDIO MPEG LAYER II

Este codificador es idéntico al MUSICAM. Se utiliza en mismo banco de filtros de 32 bandas yel mismo esquema de compresión que en el Layer I. Con el fin de proporcionar una mejor resolu-ción espectral al modelo de enmascaramiento la FFT tiene 1024 puntos. La FFT dirige el modelode enmascaramiento que puede ser la misma que la utilizada en el Layer I. La longitud del bloqueaumenta a 1152 muestras. Esta es tres veces la longitud del bloque del Layer I, correspondiendoa 24 mseg a 48 kHz.

La figura 5.22.b muestra la estructura de la cadena elemental del Layer II. Tras el patrón de sin-cronismo se envía los datos de localización de bit. El proceso de recuantificación del Layer II esmás complicado que el del Layer I. Las sub-bandas se clasifican en tres rangos de frecuencia,baja, media y alta, y la recuantificación en cada rango es diferente. Las muestras a baja frecuen-cia pueden cuantificarse en 15 longitudes de palabra diferentes, las frecuencias medias en 7 lon-gitudes de palabra y las altas en tres. Los datos de localización de bits utilizan palabras de cuatro,tres y dos bits dependiendo del sub-canal al que se refieran. Esto reduce la cantidad de datos delocalización de bits que deben ser enviados. En cada caso existe una combinación extra en elcódigo de localización, que se utiliza para indicar que no se envían datos para esa sub-banda.

El bloque de 1152 muestras del Layer II se divide en tres bloques de 384 muestras de manera quepuede utilizarse la misma estructura de compresión que en el Layer I. Se mantiene el tamaño depaso de 2 dB en los factores de escala pero no se transmiten todos los factores de escala porque

array deíndices defactores de

escala

Tabla defactores de

escalaControl de

decodificador

array deíndices defactores de

escala

Filtroinverso

muestras

Subbandade

audio

Salida de audio

PCM

ExpansorCuantizadorinverso

Tamaño depaso

Información delocalización

Información de codificación

Factores deescala

Demuxde

Bitstream

Señal deentradaLayer I

Page 37: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

Tecnología de los Contenidos Multimedia 5.35

contienen redundancia. En la realidad la diferencia entre factores de escala de bloques sucesivosen la misma banda supera los 2 dB en menos de un 10% del tiempo. El codificador Layer II ana-liza el conjunto de tres factores de escala sucesivos en cada sub-banda. En un caso estacionarioserían iguales y sólo uno sería transmitido. A medida que un transitorio crece en una sub-bandaserá necesario enviar dos o tres factores de escala, Es necesario enviar un código de dos bits,denominado SCFSI (scale factor select information), para que el decodificador pueda determinarcuáles de los tres factores de escala han sido enviados en cada sub-banda. Esta técnica divide efi-cazmente la velocidad de bit del factor de escala.

Del mismo modo que en el Layer I, el proceso de recuantificación siempre utiliza un númeroimpar de pasos para permitir que uno sea un cero real. Con códigos de longitud de palabras gran-des esto no es un problema pero cuando se utilizan tres, cinco o nueve intervalos de cuantifica-ción es ineficiente poruqe no se usan algunas combinaciones. Por ejemplo, cinco intervalosnecesitan un código de tres bits que permiten ocho posibilidades, con lo que tres no se utilizan.La solución es que cuando se usan tres, cinco o nueve niveles se codifican juntos conjuntos detres muestras en un "gránulo". La figura 5.24 muestra el proceso de granulado. Con cinco inter-valos de cuantificación cada muestra tendría cinco valores diferentes con lo que todas las combi-naciones posibles de las tres muestras tendrían 125 valores diferentes. Dado que se puedencodificar 128 valores con un código de 7 bits esta agrupación es más eficaz que codificar lasmuestras de forma separada ya que tres códigos de cinco niveles necesitarían nueve bits. Las tresmuestras recuantificadas se utilizan para direccionar una tabla que indica el código de gránulo. Eldecodificador puede establecer que se ha utilizado la codificación de gránulo examinando losdatos de localización de bit.

Figura 5.24 Proceso de granulado.

Las muestras-gránulos recusntificados en cada sub-banda, los datos de localización de bit, losfactores de escala y los códigos de selección de los factores de escala se multiplexan en la cadenade bits de salida.

Código de 8 bits

En el decodificadorEn el codificador

Tabla deconsulta(Look up)

Tabla deconsulta(Look up)

Código 1

Código 2

Código 3

Código 1-2, -1, 0, 1, 2

Código 2-2, -1, 0, 1, 2

Código 3-2, -1, 0, 1, 2

El Código de 8 bitspuede tener 128 valores

Total de5x5x5=125 valores

Page 38: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

5.36 Tecnología de los Contenidos Multimedia

La figura 5.25 muestra el decodificador Layer II, que no es mucho más complejo que el Layer I.La demultiplexación separa las muestras de la información adicional. Los datos de localizaciónde bit especificarán la longitud de palabra o el tamaño de gránulo utilizado, de manera que el blo-que de muestras puede desagruparse y los gránulos decodifocados. El selector del factor deescala se utilizan para decodofocar los factores de escala comprimidos obteniendo un factor deescala por bloque de 384 muestras. La cuantificación inversa y el filtrado inverso de las sub-ban-das se realiza igual que en el Layer I.

Figura 5.25 Decodificador Layer II, algo más complejo que el Layer I debido a la decodificación de los gránulos y de losfactores de escala.

5.8 CODIFICADOR DE AUDIO MPEG LAYER III

El Layer III es el más complejo, y sólo es realmente necesario cuando deben conseguirse las res-tricciones más severas en la velocidad de datos. Es bien conoida la aplicación del MP3 en la dis-tribución de música por Internet. Consiste en un código transformado basado en el sistemaASPEC con algunas modificaciones para obtener cierto grado de compatibilidad con el Layer II.El codificador ASPEC original utilizaba una MDCT (modified discrete cosine transform) directosobre las muestras de entrada. En el Layer III esto se modificó para utilizar una transformadahíbrida que incorpore los 32 filtros polifásicos de los Layer I y II y mantener el tamaño de bloquede 1152 muestras. En el Layer III las 32 sub-bandas son procesadas por una MDCT críticamentemuestreada.

Las ventanas se superponen de dos a una, y se utilizan dos tamaños de ventana para reducir elpre-echo en el transitorio. La ventana mayor trabaja con 36 muestras de sub-banda a 24 msegsólo a 48 kHz y resuelve para 18 frecuencias diferentes, manejando 576 frecuencias (32 filtrospor 18 frecuencias). Los productos de codificación se extienden a lo largo de este periodo, que esaceptable en el estacionario, pero no en las cercanías de los transitorios. En este caso la longitudde la ventana se reduce a 8 mseg. Doce muestras de sub-banda se resuelven en 6 frecuencias dife-rentes con un total de 192 frecuencias (32 filtros por 6 frecuencias). Esta es la desigualdad deHeisenberg: al aumentar la resolución temporal en un factor de tres, la resolución en frecuenciadisminuye en el mismo factor.

Decodificador degránulo

Cuantizacióninversa

Compensacióninversa

Banco defiltros

inverso

Demux

Salida

DecodificadorFactores de escala

Localizaciónde bit

Entrada

Datos decadena

Datos demuestras

Page 39: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

Tecnología de los Contenidos Multimedia 5.37

La figura 5.26 muestras los tipos de ventana posibles. Además de las ventanas simétricas grandesy cortas, hay un par de ventanas de transición, conocidas como ventanas de inicio y parada, quepermiten transiciones suaves entre las ventanas de tamaños grande y pequeño. Con el fin de utili-zar un muestreo crítico las MDCTs deben resolver en un conjunto de frecuencias que sea múlti-plo de cuatro. La conmutación entre 576 y 192 frecuencias permite satisfacer este criterio.Obsérvese que una ventana de 8 mseg es todavía demasiado grande como para eliminar el pre-echo, que se eliminará mediante almacenamiento. La utilización de una ventana pequeña mini-miza el tamaño del búfer necesario.

Figura 5.26 Funciones de ventana del codificador Layer III. (a) Ventana de longitud normal. (b) Ventana corta para eltratamiento de transitorios. (c) y (d) Utilización de (a) y (b) conmutando entre ellas. (e) Ejemplo de conmu-tación de ventanas utilizando ventanas de transición.

El codificador Layer III es más complejo que el II y el I principalmente debido a la conmutaciónentre las ventanas. En las señales de audio el pre-echo se asocia con la entropía creciendo sobreel valor medio, hecho que puede utilizarse para conmutar el tamaño de ventana. Se utiliza unmodelo perceptivo ya que tiene la ventaja de la resolución a altas frecuencias que permite darforma al nivel de ruido con mayor precisión que con las 32 sub-bandas de los Layers I y II. Aun-que la MDCT tiene resolución a alta frecuencia, no transporta la fase de la forma de onda de unaforma identificable y por tanto no es útil para discriminar entre entradas tonales y atonales. Porello es todavía necesaria una FFT para dirigir el modelo de enmascaramiento, ya que proporcionadatos convencionales sobre la amplitud y la fase.

Se utiliza la cuantificación no uniforme en la que el tamaño del paso de cuantificación es mayorcuando la magnitud de los coeficientes crece. Los coeficientes cuantificados son seguidamentesometidos a una codificación de Huffman, que es una técnica en la que los valores de código máscomunes se localizan en las longitudes de palabras más cortas. El Layer III también mantienealguna cantidad de memoria de almacenamiento de manera que el pre.echo pueda ser eliminadodurante los picos de entropía a pesar de que la velocidad de salida de los bits sea constante.

(a) (c)

(b) (d)

(e)

L T S T L

Page 40: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

5.38 Tecnología de los Contenidos Multimedia

La figura 5.27 muestra el codificador Layer III. La salida del filtro de sub-bandas son 32 cadenasde muestras continuas de banda limitada, que son sometidas a 32 MDCTs paralelos. El tamañode la ventana puede conmutarse individualmente en cada sub-banda. La FFT paralela dirige elmodelo de enmascaramiento que decide el tamaño de la ventana y produce el umbral de enmas-caramiento para los coeficientes cuantificados. El bucle de control de la distorsión itera hasta quese alcanza la capacidad de datos de salida con la NMR más uniforme.

Figura 5.27 Codificador Layer III.

En la figura 5.27 puede observarse la conexión entre el búfer y el cuantizador, que permite quediferentes frames contengan distintas cantidades de datos.

La figura 5.28 muestra como la ocupación del búfer es realimentada hacia el cuantificador.Durante el estacionario los contenidos del búfer disminuyen intencionadamente. El búfer sevacía ya que la velocidad de salida es fija pero la de entrada ha sido reducida. Cuando llega untransitorio los coeficientes grandes pueden manejarse llenando el búfer, evitando que la veloci-dad de los bits de salida aumente, mientras que también se evita el pre-echo que se produciría silos coeficientes fuesen fuertemente cuantificados.

Figura 5.28 Codificación de velocidad variable del Layer III.

Para mantener el sincronismo entre el codificador y el decodificador cuando se realiza almacena-miento, las cabeceras se envían síncronamente. Sin embargo, la posición de la frontera entre losbloques de datos principales que llevan los coeficientes pueden variar respecto la posición de las

Banco de Filtros32 bandas

MDCT32 576Entrada

Cuantizador nouniforme

Código deHuffman

Búfer

FFT de 1024puntos

Modelopsico-

acu´sticoControl de

CuantizadorCódigo deHuffman

Formato

Conmutador deventanas

Ocupación del búfer

Salida

Cuantizador nouniforme

Búfer

Control deCuantizador Ocupación del búfer

Tamaño delpaso

Coeficientes

Entropía perceptual

Page 41: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

Tecnología de los Contenidos Multimedia 5.39

cabeceras para permitir un tamaño de estructura variable. La figura 5.29 muestra cómo el sistemacomienza con un único patrón de sincronismo que es seguido de la información. La informacióncontiene un parámetro denominado "comienzo del los datos principales" que especifica dóndeempiezan los datos principales de la actual estructura. Este parámetro permite que el decodifica-dor encuentre el bloque de coeficientes en el búfer del decodificador. Como las cabeceras de laestructura se mantienen en localizaciones fijas, los bloques de datos principales pueden ser inter-pretados por las cabeceras.

Figura 5.29 Patrón de sincronismo e información en el Layer III.

Como puede observarse en la figura 5.29, en el Layer III la velocidad de frame es constante y setransmite con patrones de sincronismo igualmente espaciados. Los bloques de datos no necesitancoincidir con el sincronismo. Un puntero después de cada patrón de sincronismo especificadónde comienzan los bloques de datos. En el ejemplo de la figura 5.29 el bloque 2 es el menor yel 1 y el 3 son más grandes.

5.9 MPEG-2 AAC- ADVANCED AUDIO CODING

El siguiente sistema estándar MPEG desarrolló un sistema realzado conocido como AAC. Seintentó que fuera un estándar que desarrollase las especificaciones más altas posibles utilizandonuevas herramientas desarrolladas que no podrían ser compatibles con los anteriores codificado-res. El codificador AAC es el base fundamental del codificador de audio del MPEG-4.

El codificador AAC soporta hasta 48 canales de audio con soporte por defecto monofónico, esté-reo y canales 5.1 (3/2). El concepto de AAC se basa en un número de herramientas de codifica-ción conocidas, estructuradas como módulos que pueden combinarse de diferentes formas paraproducir cadenas de bits con tres prefiles diferentes.

El perfil principal necesita el codificador más complejo y utiliza todas las herramientas de codifi-cación. El perfil de baja complejidad (LC) omite algunas herramientas y restringe la potencia deotras para reducir los requerimientos de capacidad de procesamiento y memoria. Las herramien-

Reloj del frame

Síncronismo

Infolado

1 21

Síncronismo

Infolado

2 3

Síncronismo

Infolado

3 4

Síncronismo

Infolado

4

1 2 3 4

Page 42: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

5.40 Tecnología de los Contenidos Multimedia

tas restantes en el perfil LC son iguales a las del perfil principal de modo que un decodificador denivel principal puede decodificar una cadena de bits de perfil LC.

El perfil de velocidad de muestreo variable (SSR, scaleable sampling rate) divide la entrada deaudio en cuatro bandas de frecuencia iguales, y cada una se traduce en una cadena de bits auto-contenida. Un decodificador sencillo puede decodificar sólo una, dos o tres de ellas para produciruna salida de ancho de banda reducido. No todas las herramientas de AAC están disponibles enel perfil SSR.

La mayor complejidad de AAC permite la introducción de herramientas de codificación que per-miten una velocidad de bit menor con una calidad igual o calidad superior para una velocidad debits dada. Se presta una mayor atención a la relación entre la precisión del dominio temporal y elfrecuencial en el sistema del oído humano.

La figura 5.30 muestra el diagrama de bloques del perfil principal del AAC. El camino de laseñal de audio es recto a través del centro. El formateador ensambla cualquier cadena de datoscon los datos de audio codificados para producir una cadena de bits adecuada. La señal deentrada pasa al banco de filtros y al modelo perceptual en paralelo. El banco de filtros consiste enuna MDCT muestreada críticamente al 50% que puede ser conmutada entre longitudes de blo-ques de 2048 y 256 muestras. A 48 kHz el filtro permite una resolución de 23 Hz y 21 mseg o187 Hz y 2.6 mseg. La señal se dirige de izquierda a derecha y la cadena de datos en vertical.

Figura 5.30 Diagrama de bloques del perfil principal del AAC

Como el AAC es un sistema de codificación multicanal la conmutación en la longitud de los blo-ques no puede realizarse de forma indiscriminada ya que produciría una pérdida de la fase entrecanales. Por ello, si se selecciona bloques cortos el codificador permanecerá en el modo de blo-que corto para múltiplos enteros de ocho bloques. Este hecho se ilustra en la figura 5.31 que tam-bién muestra el uso de las ventanas de transición entre los tamaños de los bloques de la mismaforma que en el Layer III.

Page 43: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

Tecnología de los Contenidos Multimedia 5.41

Figura 5.31 Bloques cortos en ACC

Los bloques cortos en ACC deben utilizarse en múltiplos de 8 con el fin de que la fase del bloquegrande no se distorsione. Esto permite mantener el sincronismo de bloque en sistemas multica-nal.

La forma de la función de ventana interfiere con la frecuencia del MDCT. En el AAC es posibleseleccionar una ventana sinusiodal o una ventana Kaiser-Bessel derivada (KBD), como funcióndel espectro de la entrada de audio. Estas ventanas permiten diferentes compromisos entre anchode banda y velocidad. La ventana KBD actúa más tarde pero es más abrupto y por tanto presentaun mejor rechazo a frecuencias mayores de aproximadamente 200 Hz, mientras que la ventanasinusoidal actúa antes pero es menos abrupta y por ello presenta un mejor rechazo a frecuenciasmenores de 70 Hz.

Figura 5.32 Dualidad de la transformada.

Tras el banco de filtros se encuentra el módulo de predicción intra bloques. Cuando está habili-tado este módulo encuentra redundancias entre los coeficientes de un bloque transformado.Recuérdese la dualidad de los dominios temporal y frecuencial. La figura 5.32 muestra que en eldominio temporal la codificación predictiva opera bien sobre señales estacionarias pero falla con

Bloque de Transición Bloque de Transición

8 bloquescortos

Longitud igual a 3 bloques largos

Tiempo

Frecuencia

Tiempo

Frecuencia

(a) (c)

(d)(b)

T T

F F

Fácil d

e

predecir

Difícil depredecir

Page 44: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

5.42 Tecnología de los Contenidos Multimedia

los transitorios. La dualidad en el dominio de la frecuencia consiste en que en este dominio lacodificación predictiva opera bien sobre señales transitorias pero falla con los estacionarios.

La dualidad de la transformada sugiere que la predicibilidad también tendrá una característicadual. Un predictor en eldominio temporal no anticipará el transitorios de la señal mostrada en lafigura 5.32.a mientras que el amplio espectro de esta señal, mostrado en la figura 5.32.b sería detratamiento sencillo para un predicitor en el dominio de la frecuencia, avanzando hacia los valo-res menores del eje frecuencial. En el caso contrario, la señal estacionaria mostrada en la figura5.32.c es fácilmente tratable en el dominio temporal, mientras que su espectro, mostrado en lafigura 5.32.d no sería fácil en absoluto. De hecho, el pico del espectro no sería predicho. Paraaquellos lectores formados en el tratamiento digital de señales, es importante reseñar que esto noes más que una consecuencia directa del teorema de convolución.

Del mismo modo un codificador predictivo operando en el dominio temporal produce un espec-tro de error relacionado con el espectro de entrada. La dualidad de esta característica implica queun codificador predictivo en el dominio de la frecuencia produce un error de predicción que estárelacionado con la entrada en el dominio temporal. Esto explica el uso de los términos modeladotemporal del ruido TNS (temporal noise shaping) utilizada en la documentación AAC. Cuando seutiliza durante los transitorios, el modulo TNS produce distorsión que es alineada temporalmentecon la entrada tal que se evita el pre-eco. La utilización de TNS también permite que el codifica-dor utilice bloques más grandes la mayoría del tiempo. Este módulo es en gran medida responsa-ble del aumento de las prestaciones del AAC.

La figura 5.33 muestra que los coeficientes en los bloques transformados son dispuestos en seriepor un conmutador. Esto puede realizarse desde la frecuencia más baja a la más alta o al revés.Este método de predicción es un predictor hacia delante convencional en el que se utiliza el resul-tado de filtrar un número dado de coeficientes (20 en el perfil principal) para predecir el coefi-ciente actual. El valor predicho se resta del valor real para producir un error de predicción, oresiduo, que es transmitido. Un predictor igual produce en el decodificador la misma prediccióna partir de los coeficientes iniciales y el error en este caso es cancelado sumando el residuo.

Figura 5.33 Conmutador de los coeficientes en los bloques transformados para disponnerlos en serie.

Predictor

-+

Coeficientes de un bloque

Error de predicción

Bloque de errores de predicción

Page 45: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

Tecnología de los Contenidos Multimedia 5.43

La figura 5.33 muestra cómo la predicción a lo largo del eje frecuencial se realiza utilizando loscoeficientes a lo largo de un bloque e intentando predecir el valor del coeficiente actual a partirde los valores de algunos anteriores. El error de predicción se transmite.

Seguido al bloque de predicción se encuentra un modulo opcional denominado etapa de intensi-dad-acoplo. Se utiliza para velocidades de bit muy bajas en las que la información espacial en losformatos estéreo y sonido envolvente se descarta para mantener bajo el nivel de distorsión. Almenos sobre parte del espectro una señal mono se transmite con códigos de amplitud que permi-ten que la señal sea repartida en el dominio espacial en el decodificador.

La siguiente etapa es el modulo de predicción inter-bloques. Mientras que el predictor intra-blo-ques es muy útil sobre los transitorios el predictor inter bloques explora las redundancias entrebloques sucesivos en las señales en estacionario. Esta predicción sólo opera sobre coeficientespor debajo de los 16 kHz. Para cada coeficiente DCT en un bloque dado el predictor utiliza loscoeficientes cuantificados a partir de las mismas localizaciones en dos bloques previos para esti-mar el valor actual. Como antes la predicción se resta para producir un residuo que se transmite.Obsérvese que es necesario el uso de los coeficientes cuantificados para dirigir al predictor, por-que esto será lo que el decodificador tendrá que hacer. El predictivo es adaptativo y calcula suspropios coeficientes a partir de la historia de la señal. El decodificador utiliza el mismo algoritmotal que los dos predictores siempre ajusten.

Los coeficientes de audio están asociados en conjuntos, denominados bandas de factor de escala,para posterior compresión. Dentro de cada banda de factores de escala la predicción inter-bloquepuede activarse o desactivarse dependiendo de si se da una codificación de ganancia.

El uso prolongado de la predicción hace que el decodificador reparta los errores de bits y elimi-nen puntos de la cadena de bits. Por ello el proceso de predicción es inicializado cíclicamente.Los predictores se ensamblan en grupos de 30 y después se inicializa cierto número de estructu-ras de un grupo diferente hasta que todas hayan sido inicializados. Los códigos de inicializaciónde los predictores se transmiten en los datos. También se inicializará si se seleccionan estructurascortas.

En formato estéreo y envolvente 3/2 hay menos redundancia porque las señales también trans-portan información espacial. El efecto del enmascaramiento puede ser hasta 20 dB menor cuandolos productos de distorsión están en diferentes localizaciones en la imagen estéreo. Por ello lasseñales estéreo necesitan una velocidad de bit mucho mayor que dos canales mono, particular-mente sobre los transitorios que son muy ricos en indicaciones espaciales.

En algunos casos pueden obtenerse mejores resultados convirtiendo la señal a un formato medio-lateral (MS mid/side) o suma-diferencia antes de la cuantificación. En sonido envolvente la codi-ficación MS puede aplicarse a los pares frontal L/R (izquierdo/derecho) y trasero L/R.

Seguidamente aparece la etapa en la que la distorsión es introducida selectivamente como fun-ción de la frecuencia tal como se determinó por el umbral de enmascaramiento. Esto se realiza

Page 46: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

5.44 Tecnología de los Contenidos Multimedia

mediante de una combinación de amplificación y recuantificación. Los coeficientes o residuos seagrupan en bandas de factores de escala. La figura 5.34 muestra como el número de coeficientesvaría con el fin de dividir los coeficientes en bandas críticas aproximadas. Dentro de la banda defactores de escala todos los coeficientes se multiplicarán por el mismo factor de escala antes derecuantificar. Por tanto, en ACC los coeficientes de resolución fina se agrupan para formar ban-das de factores de escala. El tamaño de estas bandas varía.

Figura 5.34 Variación del número de coeficientes

Los coeficientes que hayan sido multiplicados por un factor de escala grande sufrirá menos dedistorsión mediante la recuantificación mientras que los que hayan sido multiplicados por un fac-tor de escala pequeño tendrán más distorsión. Los factores de escala permiten control de ganan-cia en pasos de 1.5 dB sobre un rango dinámico equivalente a un PCM de 24 bits, y sontransmitidos como parte de los datos de manera que el decodificador puede reconstruir las mag-nitudes correctas. Los factores de escala son codificados de manera diferente al primero del blo-que y las diferencias son codificadas mediante un código de Huffman.

La recuantificación utiliza pasos no uniformes que dan una menor codificación de ganancia ytiene un rango de 8191. El tamaño de paso global, es decir el que se aplica a todas las bandas defactores de escala, puede ajustarse a 1.5 dB pasos Tras la recuantificación los coeficientes soncodificados mediante un código de Huffman.

Hay muchas maneras en las que puede controlarse el codificador y cualquiera que produzca unacadena de bits adecuada es válida aunque no se alcancen las especificaciones más exigentes. Esnecesario controlar las etapas de recuantificación y de factor de escala para hacer un mejor usode las velocidades de bit y del almacenamiento disponibles. Esto no es trivial porque la utiliza-ción de la codificación de Huffman después de recuantificar hace imposible predecir la cantidadde datos que resultará de un tamaño de etapa dado. Esto significa que deben iterarse los procesos.

1 10 20 30 40 49Número de bandas de factores de escala

0

20

40

60

80

100

Anc

hura

de

las

band

as d

e fa

ctor

es d

e es

cala

Page 47: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

Tecnología de los Contenidos Multimedia 5.45

Cuando se selecciona una velocidad de bit un buen codificador producirá calidad consistente conella seleccionando los tamaños de ventana, la predicción intra e intersistemas y la utilización delalmacenamiento para tratar los picos de entropía. Esto sugiere una conexión entre la ocupacióndel búfer y el sistema de control. El modelo analizará la entropía del audio entrante y durante losperiodos de entropía promedio vaciará el búfer mediante un leve aumento del tamaño de paso decuantificación de manera que disminuya la velocidad de bit entrante. Al descargar el búfer elcodificador puede soportar temporalmente una velocidad de bit mayor para manejar transitorioso material difícil.

El proceso de factor de escala se controla tal que el espectro de la distorsión tenga la mismaforma que el umbral de enmascaramiento y el tamaño del paso de cuantificación es controladopara hacer que el nivel del espectro de distorsión sea tan bajo como sea posible dentro de la velo-cidad de bit permitida. Si la velocidad de bit permitida es suficientemente alta los productos dedistorsión se enmascararán.

5.10 DOLBY AC-3

De hecho, el sistema Dolby AC-3 es una familia de codificadores basados en la cancelación delaliasign en el dominio temporal, TDAC. Permite varios compromisos entre retardo de codifica-ción y velocidad de bit. En la MDCT se utilizan ventanas con el 50% de superposición. Por ellose utiliza un gran número de coeficientes, que son submuestreados por un factor de dos para pro-ducir una transformada críticamente muestreada, que producirá un potencial aliasing en el domi-nio de la frecuencia. Sin embargo, realizando un pequeño cambio en la transformada, los alias dela segunda mitad de una ventana determinada serán iguales en tamaño pero de polaridad opuestaa los alias de la primera mitad de la siguiente ventana, y por tanto será cancelada en la recons-trucción. Este es el principio del TDAC.

La figura 5.35 muestra el diagrama de bloques del codificador AC-3. La entrada de audio sedivide en bloques de 512 muestras superpuestos al 50%. Estas muestras se someten a una trans-formación TDAC que utiliza alternativamente transformadas seno y coseno. Las transformadasproducen 512 coeficientes por bloque pero hay redundancia, y cuando se eliminan las redundan-cias quedan 256 coeficientes por bloque. La forma de onda de entrada se analiza constantementepara determinar la presencia de transitorios, y si se dan entonces la longitud de bloque se dividepara prevenir el pre-ruido. Esto divide la resolución en frecuencia pero duplica la resolución tem-poral.

Page 48: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

5.46 Tecnología de los Contenidos Multimedia

Figura 5.35 Diagrama de bloques del codificador Dolby AC-3.

Los coeficientes tienen resolución a alta frecuencia y se combinan selectivamente en subbandasque aproximan las bandas críticas. Los coeficientes de cada sub-banda se normalizan y se expre-san en notación de punto flotante con exponente común. De hecho los coeficientes representan laenvolvente espectral logarítmica de la señal y puede utilizarse para obtener los modelos que rea-lizan la localización de bit. Entonces se recuantifica la mantisa de los coeficientes de acuerdo conel bit localizado.

La cadena de bits de salida consta de los coeficientes recuantificados y de la envolvente espectralen la forma de los exponentes, en los que se produce gran cantidad de redundancia. En cualquierbloque sólo se transmite completamente el primer exponente, que corresponde al de la menor fre-cuencia. Los demás coeficientes se transmiten de forma diferencia. Cuando la entrada tiene unespectro suave los coeficientes de varias bandas serán los mismos y las diferencias cero. En estecaso los exponentes se pueden agrupar utilizando banderas.

Por otro lado, también se utiliza la redundancia temporal. El esquema de sincronismo en el AC-3utiliza seis bloques. El primero contiene datos absolutos de exponente pero cuando se encuentranestacionarios de audio los bloques sucesivos pueden utilizar los mismos exponentes.

El receptor utiliza la envolvente espectral para desserializar la mantisa de los coeficientes en lon-gitudes de palabras correctas. Los exponentes altamente redundantes se decodifican comenzandocon los coeficientes de menor frecuencia en el primer bloque y sumando las diferencias paracrear los restantes. Seguidamente se utilizan los exponentes para convertir los coeficientes a lanotación de punto fijo. Por último se calculan las transformadas inversas seguidas por una super-posición de las ventanas con el fin de obtener los datos PCM.

5.11 AUDIO MPEG-4

La codificación de audio MPEG-4 aumenta en complejidad de manera análoga a la de codifica-ción de vídeo. De la misma forma que la codificación de vídeo MPEG-4 se ha dirigido hacia losobjetos, el MPEG-4 introduce el audio estructurado, en el que la síntesis de audio tiene lugar en

Ventanas desuperposición

Compresorpunto

flotantede bloquesubbanda

CuantizadorAdaptativo

Coeficientes dela transformada

comprimidos

Salida AudioCodificada

Entrada de AudioPCM

MDCT/MDST

Envolventeespectral

Coeficientes dela transformada

cuantizados

LocalizaciónDinámica de

bit

Codificaciónde

Exponentes

Multiplexor

Page 49: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

Tecnología de los Contenidos Multimedia 5.47

el decodificador, colocando esta técnica en la esfera de los sistemas interactivos y de realidad vir-tual. En este sentido los formatos previos deben entenderse como de sonido natural, es decir,aquellos que pueden ser obtenidos con un micrófono. MPEG-4 soporta bien este tipo de sonidomediante el desarrollo de AAC que se describe seguidamente.

De la misma manera que en la codificación de vídeo, la de audio MPEG-4 puede basarse en obje-tos. Por ejemplo, en lugar de codificar las formas de onda de un mezclador estéreo, cada fuentede sonido del mezclador puede considerarse un objeto de sonido que se codifica individualmente.En el decodificador, se suministra cada objeto de sonido a la etapa de composición en la querepartirá y mezclará con otros objetos. Cuando la fuente de audio es sintética o se dispone de unamezcla de pistas naturales puede utilizarse directamente la codificación de objetos. También esposible definir instrumentos virtuales en el decodificador y hacer que cada uno reproduzca trans-mitiendo una indicación apropiada.

También soporta bien la codificación de voz. La voz natural puede codificarse a velocidades debits muy bajas y el fin es la inteligibilidad del mensaje, más bien que la fidelidad. Esto puede rea-lizarse con varias herramientas, como por ejemplo HVXC (Harminic Vector eXcitation Coding)o CELP (Code Excited Linear Prediction). MPEG-4 ha estandarizado la transmisión de la infor-mación de voz en el denominado IPA (International Phonetic Alphabet).

5.12 MPEG-4 AAC

MPEG-4 extiende las herramientas de codificación MPEG-2 AAC. Las mejoras fundamentalesson la sustitución de ruido perceptual, PNS (Perceptual noise substitution) y la cuantización vec-torial. Todos los esquemas de codificación tienen dificultades con el tratamiento del ruido porqueno contiene redundancias. El audio real puede incorporar cierta cantidad de ruido de decodifica-ción en decodificación, con lo que tradicionalmente se ha requerido una velocidad de bit alta paraevitar efectos no deseados.

Sin embargo, se ha observado experimentalmente que bajo ciertas circunstancias el oyente no escapaz de distinguir entre la forma de onda original parecida al ruido típico y la generada en eldecodificador. Esta es la idea básica que explota la PNS. En lugar de intentar codificar unasecuencia de ruido difícil, la PNS transmitirá la amplitud del ruido y el decodificador lo creará.El sistema PNS se selecciona en el decodificador si sobre cierto rango no hay un tono dominantey las formas de onda en el dominio temporal permanecen estables, es decir, no hay transitorios.

En los sistemas que utilizan codificación de Huffman los símbolos que describen los coeficientespara cada frecuencia se sustituirán por un indicador (flag) PNS. Los coeficientes desaparecidosse obtendrán en el decodificador de forma aleatoria. La amplitud del ruido se codifica en pasosde 1.5 db.

Page 50: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

5.48 Tecnología de los Contenidos Multimedia

En las aplicaciones estéreo, en las que se utiliza PNS al mismo tiempo y para la misma frecuen-cia en ambos canales, el proceso aleatorio en cada canal será diferente con el fin de evitar la crea-ción de objeto de ruido.

En MPEG-2 AAC los coeficientes o sus residuos se cuantifican de acuerdo con el sistema delocalización de bits, y entonces se codifican con el código de Huffman. A velocidades de bitsbajas la fuerte cuantificación tendrá como consecuencia que aparezcan errores en algunos coefi-cientes. A velocidades de bits por debajo de los 16 kbits/seg por canal se utiliza un esquema decodificación alternativo conocido como TwinVQ (Transform Domain Weigthed InterleavedVector Quantization). La cuantificación vectorial, también conocida como cuantificación de blo-ques, utiliza bloques en lugar de coeficientes individuales, de manera que cada símbolo transmi-tido representa el estado de cierto número de coeficientes. En un sistema sin pérdidas un símbolonecesitaría tantos bits como el resultado de la suma de los coeficientes que deben codificarse. Enla práctica el símbolo tiene muchos menos bits por la cuantificación, con los errores propios a lamisma. El codificador seleccionará un símbolo tal que minimice el error.

La minimización del error se refuerza mediante el entrelazado que se realiza en el decodificador,tras el cual los coeficientes adyacentes en el espacio de la frecuencia se encuentran en diferentesbloques. Después de desentrelazar en el decodificador es necesario reasignar los coeficientes asus frecuencias correctas. En la técnica TwinVQ los símbolos transmitidos tienen longitud depalabra constante debido a que la tabla de vectores tiene un tamaño fijo para una velocidad de bitdada. Los símbolos de tamaño constante tienen la ventaja en presencia de errores en los bits yaque es más fácil mantener la sincronización.

5.13 COMPRESIÓN EN ESTÉREO Y SONIDO ENVOLVENTE

Es evidente que los dispositivos de reproducción de audio actuales son mayoritariamente deaudio digital, incluso en la electrónica de consumo, debido a que el hardware tiene bajo coste.Además, cuando el sonido PCM está correctamente digitalizado produce un deterioro en la cali-dad del sonido tan pequeño que son despreciables frente a los debidos a las partes analógicas quepermanecen en los sistemas. La única excepción seria a este hecho es la compresión con pérdidasen la que no se mantiene la forma de onda original y debe ser cuidadosamente tratada antes deutilizarse en aplicaciones de calidad alta.

En un sistema monofónico todos los sistemas se emiten a partir de un único punto y el se produceenmascaramiento psicoacústico de forma muy extendida. La clase de técnicas de compresión deaudio como las analizadas anteriormente funcionan bien en sistemas mono. Sin embargo, lasaplicaciones estereofónicas, incluyendo en este contexto los sistemas de sonido envolvente, utili-zan un criterio diferente. Además de la información timbral que describe la naturaleza de lafuente de sonido los estereofónicos también contienen información espacial para describir sulocalización. El problema fundamental es que en los sistemas estereofónicos el enmascaramientono es tan eficaz. Cuando dos fuentes de sonido se encuentran en localizaciones físicamente dife-

Page 51: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

Tecnología de los Contenidos Multimedia 5.49

rentes el grado de enmascaramiento no es tan grande como cuando están en el mismo sitio.Lamentablemente todos los modelos de enmascaramiento utilizados en los compresores clásicosasumen que las fuentes están en el mismo lugar. Este hecho fue puesto de manifiesto por MichaelGerzon que introdujo el término "unmasking" para describir este hecho.

El sistema auditivo humano tiene la habilidad de concentrarse en una de muchas fuentes desonido simultáneas basándose en la dirección. El cerebro parece que es capaz de insertar unretardo de tiempo controlable en las señales nerviosas de un oído con respecto al otro de formaque cuando el sonido llega de una dirección dada las señales nerviosas de ambos oídos son cohe-rentes, causando que el umbral auditivo estéreo sea de 3 a 6 dB, en lugar de los alrededor de 4KHz del mono. Los sonidos que llegan de otras direcciones son incoherentes y se escuchanmenos bien. Este hecho se conoce como selectividad de la atención.

La audición humana puede localizar varias fuentes de sonido simultáneamente comparandoconstantemente los patrones de excitación a partir de los dos oídos con retardos diferentes. Seencontrará una fuerte correlación cuando el retardo corresponda al retardo entre los oídos parauna fuente dada. Este mecanismo de retardo variable requiere cierto tiempo, por lo que el oídoreacciona lentamente ante cambios en la dirección de la fuente. Las fuentes oscilantes puedenseguirse sólo por encima de 2 o 3 Hz y la habilidad para localizar estallidos de ruidos mejoracuando la duración del estallido está por encima de los 700 milisegundos.

Los sistemas mono evitan estos efectos completamente porque la primera versión de todos lossonidos alcanzados por el oyente provienen del mismo altavoz. Los sistemas estereofónicos per-miten selectividad atencional de forma que el oyente puede concentrar sobre diferentes fuentesde sonido determinadas. Cuando dos fuentes de sonido están separadas espacialmente, si se uti-liza este mecanismo para concentrar el sonido en una de ellas las contribuciones de ambos oídosestarán correlacionadas. Esto implica que las contribuciones de los otros altavoces no estáncorrelacionadas, reduciendo la capacidad de enmascaramiento considerablemente. Experimental-mente se observa claramente que el sistema estéreo más pobre es mejor que el mejor sistemamono. Esto es debido a que estamos acostumbrados a sonidos y reverberaciones que provienende diferentes direcciones, y todos ellos sobrepuestos en un sistema mono no son convincentes,aunque la forma de onda sea muy aproximada.

En la realidad el entorno del sistema auditivo está lleno de reflexiones de sonido. Si los oídospudieran separar cada una de las reflexiones en una sala reverberante entonces sólo se escucharíauna confusa cacofonía. En la práctica se escucha muy bien en entornos reverberantes envolven-tes, mucho mejor de lo que un micrófono puede captar. Esto se debe a la transformada natural deloído y a la manera en la que el cerebro procesa las señales nerviosas. El oído tiene una capacidadlimitada para la discriminación de frecuencias en forma de bandas críticas, y también en la discri-minación temporal. Cuando dos o más versiones de un sonido llegan al oído en un intervalo deunos 30 milisegundos, no serán tratados separadamente pero se unirán en un único sonido. Sólocuando la separación temporal es de 50 o 60 milisegundos los sonidos aparecen como ecos pro-

Page 52: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

5.50 Tecnología de los Contenidos Multimedia

venientes de diferentes direcciones. En los entornos reverberantes la mayoría de las reflexionesno afectan a la habilidad para localizar la fuente de sonido. Evidentemente la primera versión deun sonido que llega al oído es aquella que se dirige por el camino más corto, que en general es laque proviene directamente más que la de la reflexión.

Como consecuencia el oído se ha desarrollado para determinar la dirección de la fuente a partirdel tiempo transcurrido entre la llegada de la primera versión de un transitorio a un oído y al otro.La intensidad estéreo el tipo de señal obtenida con micrófonos o coincidentes opera únicamenteen función de las dos amplitudes en los dos altavoces. Las dos señales estarán exactamente enfase. Como ambos oídos escuchan los dos altavoces el espacio entre los estos y los oídos con-vierte la diferencia de intensidades en diferencia de tiempo de llegada, dando la sensación defuentes de sonido virtuales.

Una fuente de sonido virtual prodecente de un punto de emisión tiene anchura cero, es un puntoideal, y sobre un altavoz también ideal aparecería como una fuente puntual virtual. La figura5.36.a muestra cómo un punto de emisión puro sin mezcla (mezcla “seca”) aparecería de formaigualmente espaciada sobre unos altavoces ideales, mientras que la figura 5.36.b muestra lo quesucede cuando se añade una reverberación estéreo artificial. Esta figura 5.36 también es la que seobtiene con fuentes reales utilizando un par coincidente de mezcladores de alta calidad.

Cuando se escucha el sonido emitido por unos altavoces de alta calidad la compresión de audiocambia las características de la figura 5.36.b a la que se muestra en la figura 5.36.c. Incluso paravelocidades de bit altas, es decir, con la compresión más pequeña, se observa una diferenciaaudible entre el resultado original y la comprimida. Las fuentes de sonido dominantes se repro-ducen con bastante exactitud, pero lo que más llamativo es que el ambiente y la reverberación sereduce dramáticamente, o incluso está ausente, haciendo que el sonido decodificado sea muchomás seco, menos cálido, que el original. También se observa que la velocidad de decaimiento dela reverberación se acelera, tal y como muestra la figura 5.36.d.

Estos efectos se perciben porque la reverberación existe unos niveles relativamente bajos. Elcodificador supondrá que es inaudible debido al enmascaramiento y lo elimina o atenúa. Elefecto es aparentemente el mismo en los codificadores MPEG Layer II y Dolby AC-3 inclusoaunque su funcionamiento interno es bastante diferente. Esto no debe sorprender porque ambosse basarán en el mismo modelo psicoacústico de enmascaramiento.

El MPEG Layer III funciona bastante mal en estéreo porque la velocidad de bit es menor. Lostransitorios tienen un efecto peculiar por el que el sonido ambiente vendría e iría de acuerdo conla entropía de una fuente dominante. Una nota de percusión estrecharía la etapa de sonido y apa-recería poco cálida, pero seguidamente de la reverberación lo volvería.

Page 53: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

Tecnología de los Contenidos Multimedia 5.51

Figura 5.36 Disminución de la eficacia de la compresión en sistemas estéreo. (a) Resultado espacial de una mezcla sinreverberación de un punto de emisión. (b) Resultado después de reverberaciones artificiales que tambiénse obtienen en una grabación acústica con mezcladores coincidentes. (c) Reducción o ausencia del sonidoambiente y de las reverberaciones. (d) Las reverberaciones también pueden disminuor prematuramente.

Mezcla secade fuentes puntuales

AltavozIzquierdo

Altavozderecho

Reverberación y sonido ambienteentre las fuentes principales

AltavozIzquierdo

Altavozderecho

Pérdida del sonido ambientedespués de la reducción

de la velocidad de bit

AltavozIzquierdo

Altavozderecho

Niv

el

Caída prematurade la reverberación

Tiempo

Caída naturalde la reverberación

a)

b)

c)

d)

Page 54: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

5.52 Tecnología de los Contenidos Multimedia

Estos efectos no son sutiles y no requieren una capacidad auditiva especial para observarlos. Perotodos ellos desaparecen cuando las señales que van a los altavoces se suman para formar mono,ya que este evita la sensibilidad atencional y el no enmascaramiento no puede suceder. La obser-vación de los anteriores efectos no deseados es mucho más difícil si los altavoces son de bajacalidad. Los altavoces son parte de la cadena de comunicación y disponen de unas capacidadestanto timbrales es como espaciales. Si la calidad de los altavoces es baja pueden eliminar granparte de la información a partir de la señal que el compresor y la codificación precedentes nohayan eliminado.

Los efectos anteriores permiten que el oyente localice la fuente de un sonido mediante la concen-tración en la primera versión del sonido y el rechazo a las siguientes. Las versiones que puedanllegar de cualquier lugar simplemente se suman a la intensidad percibida pero no cambian la per-cepción de la localización de la fuente. Los efectos descritos anteriormente sólo permiten elrechazo de sonidos reverberantes que llegan después del retardo entre oídos. Cuando las reflexio-nes llegan dentro del intervalo de tiempo de retardo, que es de alrededor de 700 microsegundos,los efectos anteriores dejan de funcionar y la dirección percibida puede disiparse a partir de quellega la primera fuente debido a un incremento en el nivel. La figura 5.37muestra esta región,conocida como región de traspaso (trading region). En ella el traspaso de intensidad temporalsucede dentro del retardo entre oídos.

Figura 5.37 Región de traspaso.

Una vez que se supera el retardo máximo entre los oídos el mecanismo de audición sabe que ladiferencia de tiempo tiene que deberse a la reverberación. Desgraciadamente los altavoces rec-tangulares clásicos con caras planas y esquinas abruptas provocan reflexiones con retardos delorden de 700 microsegundos. Las discontinuidades entre los paneles provocan cambios de impe-dancia que actúan como reflectores acústicos. Los altavoces se convierten en fuentes múltiplesproduciendo una secuencia de señales dentro de la intensidad temporal y en lugar de actuar comouna fuente puntual los altavoces actúan como una fuente distribuida.

Retardo (ms)

0 0.2 0.4 0.6 0.8

Hacia sonidosanteriores

Hacia sonidosmás fuertes

14

12

10

8

6

4

2

Diferencia deNivel (db) Región de traspaso

Siempre haciasonidos anteriores

Page 55: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

Tecnología de los Contenidos Multimedia 5.53

La figura 5.38 muestra que cuando los altavoces actúan como una fuente distribuida, no puedencrear una imagen puntual. Se produce un efecto denominado smear (emborronamiento). Obsér-vese que las fuentes puntuales han aumentado tal que prácticamente no hay gaps entre ellos,enmascarando el ambiente de forma efectiva. Si un compresor lo elimina, el efecto no puedeescucharse. Puede suponerse erróneamente que el compresor es transparente cuando de hecho nolo es.

Figura 5.38 Altavoz que actúa como una fuente distribuida. No puede producir una imagen estéreo puntual, sólo unaextensión espacial o una imagen borrosa.

Imagen borrosaAltavoz Izquierdo

Fuente Distribuida

Altavoz Derecho

Page 56: TEMA 5 Compresión de Audio - OCW UNED

TEMA 5. COMPRESIÓN DE AUDIO UNED - CURSO 2007-2008

5.54 Tecnología de los Contenidos Multimedia