Hizketaren inguruko oinarrizko kontzeptuak
Análisis y modelado de sistemas. Predicción lineal.
Mecanismos de producción de la vozAnálisis LPC
Conceptos básicos sobre voz
Teoría de producción de la voz Estudio científico Modelo ingenieril
Análisis LPC Predecir una muestra a partir de las anteriores Calcular la mejor Combinación Lineal Predictora Invertir=Síntesis desde señal error sin información
Parámetros equivalentes
Conceptos básicos sobre voz
Voz
Es la onda acustica radiada cuando una constricción del tracto vocal perturba el flujo
de aire expulsado por los pulmones
Producción de voz
Conceptos básicos sobre voz
Sonidos sonoros: El flujo de aire procedente de los pulmones es periódicamente
interrumpido por la apertura y cierre de las cuerdas vocales. Flujo periódico, frecuencia fundamental F0 -> pitch
Sonidos sordos: No vibran las cuerdas vocales El flujo de aire encuentra un
Estrechamiento toma gran velocidad forma turbulencias
Tracto vocal + Tracto nasal: Actúan como cavidades resonantes Frecuencias de resonancia Formantes Los formantes dependen de la forma y dimensiones del TV El
espectro de la voz varía con el tiempo al varíar el TV
Teoría de la producción de voz
Conceptos básicos sobre voz
Pulso de Rosenbergg(t)
ExcitaciónCavidad
resonanteRadiación
en los labios
Teoría de la producción de voz
G(f)
Conceptos básicos sobre voz
Modelo de Fuente y Tracto vocal: Separa las características de la fuente y del tracto
vocal. Funciona mejor con parametros que varían
lentamente. Filtro V(z) todo polos: solo tiene resonancias no,
modela las nasales. Separa fuente sonora y sorda
no vale para todos los sonidos
Cambio repentino de tipo de fuente: no es realista
Teoría de la producción de voz
Conceptos básicos sobre voz
Teoría de la producción de voz
Tracto vocal tubo de sección variante y no uniforme
A(x)
Glotis Labios
A(x)
x=0 x=l
Aproximación: concatenación de tubos de secciones Ak constantes
A(x)
Glotis Labios
Ak(x)
x=0 x=l
Conceptos básicos sobre voz
Teoría de la producción de voz
Longitud de onda mayor que la longitud del tubo: f≤5000Hz ≥340m/s/5000Hz=6’8cm Aproximación de onda plana aceptable
Además se supone: No hay pérdidas por rozamiento ni por conducción
de calor Las secciones Ak no cambión con el tiempo
Conceptos básicos sobre voz
Con estas suposiciones, las ondas en el tubo cumplen estas ecuaciones:
Puesto que el área en una sección es constante:
tA
u
x
p
t
A
t
pA
cx
u
2
1
p=p(x,t) Variación de la presionu=u(x,t) Variación del flujo de aire: Densidad del airec: Velocidad del sonidoA=A(x,t) Función de área
Teoría de la producción de voz
tu
Axp
tp
cA
xu
2
Conceptos básicos sobre voz
Teoría de la producción de voz
Analogía electrica: línea de transmisión uniforme y sin pérdidas
t
iL
x
v
t
vC
x
i
v: tensión p: presióni: corriente u: velocidadL: inductancia /A: inductancia acústicaC: capacidad A/c2: capacidad acústica
c
xti
c
xti txv ,
Conceptos básicos sobre voz
Solución de las ecuaciones diferenciales:
AnA1 A2 A3 An+1An-1
t
u
Ax
p k
k
k
t
p
c
A
x
u kk
2
c
xtu
c
xtutxu kkk ,
cx
tucx
tuAc
txp kkk
k
,
Teoría de la producción de voz
Onda que avanza
Onda que retrocede
cx
tuk
cx
tuk
x=0
tuk
tuk
x=lk
Conceptos básicos sobre voz
Teoría de la producción de voz
lk lk+1
ktuk
ktuk
tuk
tuk
11 ktu
k
11 ktu
k
tuk
1
tuk
1
Condiciones de continuidad:
c
lkk Tiempo de recorrido de una sección
tptlp kkk ,0, 1
tutlu kkk ,0, 1
turturtu kkkkkk
11 1
turturtu kkkkkkk
11 kk
kkk AA
AAr
1
1Coeficiente de reflexión
|rk|<1
Se obtienen las ecuaciones:
Retardok
+
+
Retardok+1
Retardok+1
Retardok
ktuk
tuk
11 ktu
k tu
k
1
11 ktu
k tu
k
1
ktuk
tuk
tubo késimo tubo (k+1)ésimo
1+rk
1-rk
rk-rk
Diagrama de flujo que corresponde a estas ecuaciones:
Conceptos básicos sobre voz
Condiciones de contorno: En los labios En la glotis
Para modelar los labios: Pantalla acústica esférica
Difícil de modelar
Pantalla acústica plana
Teoría de la producción de voz
Conceptos básicos sobre voz
Teoría de la producción de voz
Condiciones de contorno en los labios:
Velocidad de partícula, en los labios:
Diagrama de flujo que corresponde a esta ecuación:
NNLNN turtlu 1,
NNLNN turtu
LN
LN
L
ZA
c
ZA
c
r
rL coeficiente de reflexión en los labiosZL impedancia de radiación en los labios
RetardoN
+Retardo
N
NN tu tuN
tlu NN,
NN tu tuN
tubo Nsimo
1+rL
-rL
Conceptos básicos sobre voz
Teoría de la producción de voz
Condiciones de contorno en la glotis:
Diagrama de flujo que corresponde a esta ecuación :
)(2
111 turtu
rtu GG
G
1
1
Ac
Z
Ac
Zr
G
G
G
rG coeficiente de reflexión en la glotisZG impedancia de la glotis
+
Retardo1
Retardo1
11 tu tu
1
11 tu tu
1
1er tuborG
tuG
2
1 Gr
Conceptos básicos sobre voz
Teoría de la producción de voz
Modelo de tubo sin pérdidas completo:
Retardo1
Retardo1
11 tu tu
1
11 tu tu
1
1er tuborG
tuG
2
1 Gr 1+r1
1-r1
Retardo3
+Retardo
3
33 tu tu3
tuL
33 tu tu 3
3er tubo
1+rL
-rL
Retardo2
Retardo2
22 tu tu2
22 tu tu 2
2º tubo
1+r2
1-r2
r2-r2
+
r1-r1
++
+ +
Conceptos básicos sobre voz
Teoría de la producción de voz
Modelo de tubo sin pérdidas completo:
N
i
ii
N
ii
N
G
G
L
za
rzr
zU
zUzH
1
1
2
1
)1(
2
1
)(
)()(
Retardo1
Retardo1
11 tu tu
1
11 tu tu
1
1er tuborG
tuG
2
1 Gr 1+r1
1-r1
Retardo3
+Retardo
3
33 tu tu3
tuL
33 tu tu 3
3er tubo
1+rL
-rL
Retardo2
Retardo2
22 tu tu2
22 tu tu 2
2º tubo
1+r2
1-r2
r2-r2
+
r1-r1
++
+ +
Conceptos básicos sobre voz
Teoría de la producción de voz
Modelo de tubo sin pérdidas completo:
Todos los tubos de igual longitud:
Retardo1
Retardo1
11 tu tu
1
11 tu tu
1
1er tuborG
tuG
2
1 Gr 1+r1
1-r1
Retardo3
+Retardo
3
33 tu tu3
tuL
33 tu tu 3
3er tubo
1+rL
-rL
Retardo2
Retardo2
22 tu tu2
22 tu tu 2
2º tubo
1+r2
1-r2
r2-r2
+
r1-r1
++
+ +
x Longitud de los tubosN Número de tubos l Longitud del tracto vocal Retardo en un tubo
Nl
x cx
A5A1 A2 A3 A6A4 A7 A8
xx
xx
x xx
x
l
N
i
ii
N
ii
N
G
G
L
za
rzr
zU
zUzH
1
1
2
1
)1(
2
1
)(
)()(
Conceptos básicos sobre voz
Teoría de la producción de voz
Sistema discreto equivalente:
Sistema discreto equivalente con retardos enteros:
rG
nTuG
2
1 Gr 1+r1
1-r1+
nTuN
(1+rL)
-rL
1+r2
1-r2
r2-r2
+
r1-r1
++
+ +
z-1 z-1 z-1
z3/2
rG
nTuG
2
1 Gr 1+r1
1-r1+
nTuN
1+rL
-rL
1+r2
1-r2
r2-r2
+
r1-r1
++
+ +
z-1/2
z-1/2
z-1/2
z-1/2
z-1/2
z-1/2
Conceptos básicos sobre voz
Línea continua: terminación en cortocircuito
Teoría de la producción de voz
Conceptos básicos sobre voz
Teoría de la producción de voz
Sistema linealV(z)
uG(n) uL(n)
parámetros
Modelo de tubo sin pérdidas
uG(n) uL(n)
Función de área (coeficientes de
reflexión)
Conceptos básicos sobre voz
Teoría de la producción de voz
Modelo de tubo sin pérdidas
uG(n) uL(n)
Función de área (coeficientes de
reflexión)
Sistema linealV(z)
uG(n) uL(n)
parámetros
N
k
kk za
GzV
1
1)(
x
x
k
z k
plano Z
+
+
a1
a2
uL(n)uG(n)
+
+aN-1
aN
+
z-1
z-1
z-1
G
+
+
2|z1|cos1
-|z1|2
uL(n)uG(n)
z-1
z-1
G1
+
+
z-1
z-1
G2
+
+
z-1
z-1
GM
2|z2|cos2 2|zM|cosM
-|z2|2 -|zM|2
Conceptos básicos sobre voz
Análisis LPC
Análisis por Predicción Lineal (Linear Predictive Analysis) Técnica eficaz para analizar la voz Estima el espectro de la voz de forma
Precisa Eficiente
Idea básica: una combinación lineal de muestras de voz pasadas es buena aproximación de la muestra siguiente
Conceptos básicos sobre voz
Análisis LPC
El análisis LPC (Linear Predictive Coding):
Predice los polos que modelan el tracto vocal Mediante pocos párametros
Obtenidos por cálculos sencillos
Conceptos básicos sobre voz
Análisis LPC
Sean {s(n)} las muestras de voz tomadas cada Ts seg.
Ts<1/2m, m: frecuencia máxima de la señal
Formamos una combinación lineal de P muestras:
a1·s(n-1)+a2·s(n-2)+…+ap·s(n-p)= ŝ(n)
e(n) = s(n) - ŝ(n)
P+1
s(n)
s(n-p)
Conceptos básicos sobre voz
Análisis LPC
Si {e(n)} es una variable estadística incorrelada (media 0 y varianza 2)
Conceptos básicos sobre voz
Análisis LPC
Si {e(n)} es una variable estadística incorrelada (media 0 y varianza 2)
p
ii insans
1
)()(ˆ ŝ(n) es una buena aproximación de s(n)
Conceptos básicos sobre voz
Análisis LPC
Si {e(n)} es una variable estadística incorrelada (media 0 y varianza 2)
Error cometido en la predicción, residuo:
p
ii insans
1
)()(ˆ
)(ˆ)()( nsnsne
ŝ(n) es una buena aproximación de s(n)
Conceptos básicos sobre voz
Análisis LPC
P(z) filtro predictor
P(z))(ns )(ˆ ns
p
ii insans
1
)()(ˆ
p
i
ii zSzazS
1
)()(ˆ
Transformada Z
p
i
ii zazP
1
·)(
)()()(ˆ zSzPzS
Conceptos básicos sobre voz
Análisis LPC
Error de predicción
+
P(z)
)(ns
)(ˆ ns
)(ne
+_
A(z)
transformada Z
A(z)
Conceptos básicos sobre voz
Análisis LPC
P(z)
)(ns
)(ˆ ns
)(ne+
H(z)=1/A(z)
p
i
ii zazP
1
·)(
H(z): modela la respuesta del tracto vocal
e(n): es la excitación, la fuente de sonido
Sintesis LPC
Conceptos básicos sobre voz
Análisis LPC: ejemplos E
Segmento de una e, enventanado hamming FFT de la señal y espectro LPC de orden 14
Error de predicción Espectro del error
Conceptos básicos sobre voz
Análisis LPC: ejemplos S
Error de predicción Espectro del error
Segmento de una s, enventanado hamming FFT de la señal y espectro LPC de orden 14
Conceptos básicos sobre voz
Cálculo de los coeficientes LPC
Criterio para calcular los coeficientes del filtro predictor P(z) : Minimizar el error cuadrático medio
1
0
)(22n
nn
ne 00
2
p
iiji
j
c
pj ...1mínimo
1
0
)()(n
nnij jnsinsc
10
Conceptos básicos sobre voz
Para calcular la solución en el intervalo [n0 n1] son necesarias la muestras de la señal del intervalo [n0-p n1]
Basandose en un conjunto de N muestras se han investigado dos métodos de resolución: Método de las autocorrelaciones Método de las covarianzas
Cálculo de los coeficientes LPC
00
2
p
iiji
j
c
pj ...1 Sistema de ecuaciones linealesp ecuacionesp incógnitas
Conceptos básicos sobre voz
Método de las autocorrelaciones: El error se minimiza en el intervalo [-∞ ∞] Se supone señal nula en n<0 y n>N-1
Cálculo de los coeficientes LPC
i-j
s(m+i-j)s(m)
Muestras usadas
E minimo en [n0 n1]
Conceptos básicos sobre voz
Método de las autocorrelaciones: El error se minimiza en el intervalo [-∞ ∞] Se supone señal nula en n<0 y n>N-1
Cálculo de los coeficientes LPC
)(1
0
)()()()()(jiN
mnij jiRjimsmsjnsinsc
n-i=m
Autocorrelación de s(n)
i-j
s(m+i-j)s(m)
Muestras usadas
E minimo en [n0 n1]
Conceptos básicos sobre voz
Cálculo de los coeficientes LPC
kN
m
kmsmskR1
0
)()()(
R(k) es par ijcjiRjiR |)(|)(
Las ecuaciones a resolver son 0|)(|0
p
ii jiR pj ...1
)(
...
)2(
)1(
...
)0(...)2()1(
............
)2(...)0()1(
)1(...)1()0(
2
1
pR
R
R
RpRpR
pRRR
pRRR
p
Ecuaciones deYule-Walker
[R]
Método de las autocorrelaciones:
Conceptos básicos sobre voz
Cálculo de los coeficientes LPC
La matriz [R] es Toepliz: Simétrica Los elementos en las diagonales paralelas a la
diagonal principal son iguales El método de Durbin aprovecha estas
propiedades de la matriz [R] Como s(n)=0 para n<0 y n>N-1, e(n) será grande
en 0<n<p pues la predicción se basa en muestras que han sido puestas a cero. Ocurre lo mismo en el intervalo final N<n<N+p-1
Para reducir este efecto se enventana la señal
Conceptos básicos sobre voz
LPC koefizienteak
Para obtener la solución: algoritmo de Levison-Durbin
Hasiera
E(0) = R(0)
i:1 p
Ki = 1/E(i-1) { R(i)+j(i-1)R(i-j) }
i(i) = -ki
j(i) = j
(i-1) - kii-j(i-1)
j:1 i-1
j
E(i) = (1-ki2)E(i-1)
i
Bukaera
ki
Conceptos básicos sobre voz
Método de las covarianzas: Se minimiza el error en el intervalo [p, N-1] Se utilizan todas las muestras de la señal
Cálculo de los coeficientes LPC
i-j
s(m+i-j)s(m)
Muestras usadas
E minimo en [n0 n1]
Conceptos básicos sobre voz
Método de las covarianzas: Se minimiza el error en el intervalo [p, N-1] Se utilizan todas las muestras de la señal
Cálculo de los coeficientes LPC
i-j
s(m+i-j)s(m)
Muestras usadas
E minimo en [n0 n1]
iN
ipm
N
pnij jijimsmsjnsinsc
11
),()()()()(
n-i=m
Conceptos básicos sobre voz
Cálculo de los coeficientes LPC
Las ecuaciones a resolver
p
i
iN
ipmi
p
iiji jimsmsc
0
1
0
)()(0
Método de las covarianzas:
La matriz : Es definida positiva Se puede resolver por métodos eficientes
(descomposición de Cholesky)
),0(),(1
jjip
ii
pj ...1
Conceptos básicos sobre voz
Análisis LPC
Sonido del residuo
+
P(z)
)(ns
)(ˆ ns
)(ne
+_
A(z)
Conceptos básicos sobre voz
Resi
duo d
e u
n s
egm
ento
sonoro
Análisis LPC
Conceptos básicos sobre voz
Análisis LPCR
esi
duo d
e u
n s
egm
ento
sord
o
Conceptos básicos sobre voz
Análisis LPCSeñal ori
gin
al
Conceptos básicos sobre voz
Análisis LPC
Conceptos básicos sobre voz
Análisis LPCR
esi
duo
Conceptos básicos sobre voz
Análisis LPC: ejemplos
p
k
kk zazP
1
·)(
P(z)
)(ny
)(ˆ ny
+
Análisis LPC…{ak,Gi}i {ak,Gi}i +1…)(ny
)(nsx
Gi
Ruido blanco, G=100%
Ruido blanco, G=50%
Tren de deltas G=100%
Tren de deltas G=50%
Conceptos básicos sobre voz
Parametrización de la voz
Análisis de la señal de voz Análisis LPC Análisis PARCOR Análisis CEPSTRUM Vocoder LPC Análisis por síntesis
Conceptos básicos sobre voz
Análisis PARCOR
PARtial CORrelation coefficients ei(n) es el error de predicción del método
Levinson-Durbin en el paso i forward prediction error
bi(n) se define de forma similar backward prediction error
i
k
ik
i knsansne1
)()()(
i
k
ik
i iknsainsnb1
)()()(
s(n) se predice como combinación lineal de i muestras
anteriores
s(n-i), se predice como combinación lineal de i muestras
posteriores
Conceptos básicos sobre voz
Análisis PARCOR
Sistema predictor de orden i:
Relación entre coeficientes de sistemas predictores de distinto orden
Si la entrada al sistema predictor es s(n), la salida es ei(n)
i
k
kik
i zazA1
·1)(
11
ikii
ik
ik akaa )()()( 111 zAzkzAzA ii
iii
)()()()()()()( 111 zAzSzkzSzAzSzAzE iii
iii
i muestras usadas en una predicción de
orden i
s(n)
s(n-i)
Conceptos básicos sobre voz
Análisis PARCOR
Sistema predictor de orden i:
Relación entre coeficientes de sistemas predictores de distinto orden
Si la entrada al sistema predictor es s(n), la salida es ei(n)
i
k
kik
i zazA1
·1)(
11
ikii
ik
ik akaa )()()( 111 zAzkzAzA ii
iii
)()()()()()()( 111 zAzSzkzSzAzSzAzE iii
iii
)(1 zE i
i muestras usadas en una predicción de
orden i
s(n)
s(n-i)
Conceptos básicos sobre voz
Análisis PARCOR
Sistema predictor de orden i:
Relación entre coeficientes de sistemas predictores de distinto orden
Si la entrada al sistema predictor es s(n), la salida es ei(n)
i
k
kik
i zazA1
·1)(
11
ikii
ik
ik akaa )()()( 111 zAzkzAzA ii
iii
)()()()()()()( 11)1(11 zAzSzzkzSzAzSzAzE iii
iii
)(1 zE i )(1 zB i
i muestras usadas en una predicción de
orden i
s(n)
s(n-i)
Conceptos básicos sobre voz
Análisis PARCOR
)()()()()()()( 11111)1(11 zBzkzEzAzSzzkzSzAzE ii
iiii
ii
Transformada inversa
)1()()( 11 nbknene ii
ii
)()()( 111 zAzkzAzA iii
ii
)()()( 1 zSzAzzB iii )()()( 111 zEkzBzzB i
iii
Transformada inversa
)()1()( 11 neknbnb ii
ii
b1(n)z-1
s(n)-k1
-k1
e0(n)
b0(n) z-1
+
+
-k2
-k2
e1(n)+
+bp-1(n) z-1
+
+
-kp
-kp
ep-1(n)ep(n) Estas ecuaciones
recursivas corresponden a un filtro
lattice
Conceptos básicos sobre voz
Cálculo de los coeficientes ki:
Estos coeficientes se pueden usar para generar voz
Análisis PARCOR
1
0
1
0
2121
1
0
11
)1()(
)1()(
N
n
N
n
ii
N
n
ii
i
nbne
nbnek
e(n) eta b(n) seinaleen arteko korrelazio
normalizatua
b1(n)z-1
s(n)
-k1
-k1
e0(n)
b0(n)z-1
+
+
-k2
-k2
e1(n)+
+bp-1(n)z-1
+
+
-kp
-kp
ep-1(n)ep(n)
puesto que s(n)=e0(n), se puede generar la señal de
voz usando ep(n)
Conceptos básicos sobre voz
Análisis PARCOR
Usando la configuración Lattice se han desarrollado otros métodos de síntesis: Método de Burg: minimiza la suma de los errores
forward y backward
Se llega a esta ecuación para los coef. PARCOR
1
0
22 ))(())((2
N
m
iii mbmeE
1
0
1
0
2121
1
0
11
'
)1()(
)1()(2
N
m
N
m
ii
N
m
ii
i
mbme
mbmek Con esta expresión se
cumple siempre |k’i|<1.
Se garantiza la estabilidad del filtro
Conceptos básicos sobre voz
Comparación de métodosCovarianzas
Cholesky
Autocorrelaciones
Durbin
Lattice
Burg
Memoria
Datos
Matriz correl.
Ventana
N1 N2 3N3
p2/2 p --
-- N2 --
Productos
Enventanado
Correlación
Solución
-- N2 --
N1p N2p --
p3 p2 5N3p
Estabilidad Puede ser inestable
Estable si R(i) se calcula con suficiente precisión
Estable
Conceptos básicos sobre voz
Huang, X., Acero, A., Hon, H.Spoken Language ProcessingPrentice Hall, 2001
Rabiner, L.R., Schafer, R.W. Digital Processing of Speech Signals Prentice Hall, 1978
O’Shaughnessy, D.Speech Communications Human and MachineIEEE Press, 2000
Dutoit, T.An introduction to Text-to-Speech SynthesisKluwer Academic Publishers, 1997
J. MakhoulLinear Prediction: A tutorial review Proc. of the IEEE, 1975
Bibliografía
Top Related