Descripción de Contenidos con Wavelets Jaime Gaviria.
-
Upload
gregorio-urquidez -
Category
Documents
-
view
216 -
download
0
Transcript of Descripción de Contenidos con Wavelets Jaime Gaviria.
Descripción de Contenidos con Wavelets
Jaime Gaviria
Introducción
Uso de Coeficientes Wavelets para la descripción de contenido del audio
Se debe aplicar una técnica óptima para la extracción de contenidos de modo que:
– Se obtenga una información precisa de contenidos que pueda diferenciar de un contenido a otro parecido
– Que no se tenga una información demasiado detallada de tal forma que no se pueda identificar algo que no este en la muestra original
Escenario
Se cuenta con 2 piezas de audio– La primera es el movimiento 4 Sonata 1 grabado
por N. Milstein, que representa la entrada de audio del usuario que hace la petición para identificar
– La segunda es la misma pieza grabada por Y. Menuhin la cual se encuentra grabada y permitirá la identificación
Escenario
Dos Posibles Soluciones
En la búsqueda de una solución, se encontraron dos alternativas que no son las óptimas pero deben ser tomadas en cuenta:– Descriptor de Envolvente Wavelet Gaussiano– Análisis Wavelet Estadístico para descripción de
contenidos
Descriptor de Envolvente Wavelet Gaussiano
El contenido de audio es representado en el dominio wavelet por varios patrones. Estos patrones se ven bastante parecidos incluso para nuestras interpretaciones del escenario
Descriptor de Envolvente Wavelet Gaussiano
Se estima la energía promedio de los coeficientes tomando segmentos de N muestras
Se estima un valor de umbral con el método que se considere más apropiado
Descriptor de Envolvente Wavelet Gaussiano
Se estiman los valores superiores e inferiores de los patrones de energia wavelet, a partir de los cuales se obtienen las funciones numéricas de modo que se pueda estimar el grado de correlación entre ambos y poder hacer la identificación de la pieza.
Problemas
La medida de correlación puede no se lo que se espera a pesar del “parecido” de las señales
Es necesaria la sincronización Función NO suave Poco Compacta Cálculos numéricos grandes
Usando Curvas Gaussianas
Para describir la función se usa una curva gaussiana
ai es la amplitud, pi la posición, y wi el ancho del pico Gaussiano i
Usando Curvas Gaussianas
Usando Curvas Gaussianas
Usando Curvas Gaussianas
Usando Curvas Gaussianas
Permite mejores cálculos, reduce la cantidad de datos
Los picos son similares con alta correlación El ancho de los picos NO presenta alta correlación. Si se estima un número inferior de picos, el
reconocimiento no será bueno. A pesar de sus bondades, no es lo suficientemente
bueno para la descripción de contenido de audio.
Análisis Wavelet Estadístico para descripción de contenidos
Se busca similaridad entre coeficientes wavelets a través de sumas estadísticas
Se trabaja en base a constelaciones de señal de audio
Herramientas de suma de datos estadísticos
Medida de escala de frecuencia
Una nueva medida de dispersión wavelets
Las anteriores técnicas primero obtenían carácterísticas de cada escala, a las cuales luego se les buscaban similaridades.
Con esta técnica se busca hacer una medida de dispersión clasificada
Los coeficientes wavelets son ordenados en orden ascendente, se guardan los índices y se crean histogramas para cada escala
Matriz clasificadora de dispersión wavelet
Permite la extracción de características especiales
Histogramas de dispersión “rankeados”
Vectores de dispersión
Se obtienen los n vectores por cada archivo de audio
A partir de los vectores se construye una matriz de n x m donde m depende del número de escalas y la técnica de reducción usada
Reducción de dimensión de la medida de dispersión
Solo un porcentaje de las barras de histograma de “rank” son mantenidas
Se borran los datos de rank mas bajos y mas altos ya que de algún modo representan los coeficientes wavelets mas pequeños
Indicador de rendimiento de la medida de dispersión
Vectores descriptores de contenido de 2 piezas ejecutadas por 4 diferentes personas
Indicadores de rendimiento