Modelos De Audición Y Análisis Tiempo –Frecuencia Para La Evaluación De Técnicas De Mejora De La Señal De Voz

Elizabeth Vera de Payer, Juana Armesto, Marina Voitzuk

Abstract


En este trabajo se analiza un problema que presentan varias técnicas usuales de mejora de
la señal de voz utilizadas cuando se dispone de un sólo micrófono con una relación señal/ruido (SNR)
por debajo de los 5 dB y se desea aumentar la inteligibilidad como sucede en los sistemas portátiles
compactos tales como audífonos y teléfonos celulares. Es práctica común que ellas accionen sobre la
relación señal/ruido aun a costa de provocar distorsión de la señal e introducir un ruido residual. Pero
la dificultad radica en que, si bien la SNR es una medida objetiva muy fácil de computar, ella refleja
sobre todo, la calidad percibida pero no la inteligibilidad de la señal de voz.
El problema de separar las nociones de calidad percibida e inteligibilidad es debida, en parte, a la
imposibilidad de aislar y caracterizar aquellas cualidades de la señal de voz que son propias de cada
una de ellas. Esta es la razón por la cual sobre todo cuando se quiere evaluar la inteligibilidad, se
utilizan medidas subjetivas como el ¨diagnostic rhyme test¨ (DRT), basadas en la opinión de grupos
de escuchas donde se presentan palabras que difieren sólo en la consonante principal. La desventaja
de este tipo de test es que puede presentar un sesgo dependiente del oyente por lo que se han realizado
esfuerzos para lograr establecer un protocolo de evaluación de calidad total para estos algoritmos de
mejora. El principal escollo reside en la no uniformidad de la distorsión provocada por el ruido,
tanto en tiempo como en frecuencia. Por esta razón, el objetivo aquí planteado es analizar la
vinculación de la relación señal/ruido con algunas características de la señal de voz.
La introducción de modelos que simulan la acción de la membrana basilar ha permitido reformular los
algoritmos de mejora logrando con ello perfeccionar su desempeño, como así también desarrollar
medidas objetivas de la calidad total que toman en cuenta las propiedades del sistema de audición
periférico, incluyendo la percepción de sonoridad, banda de frecuencia y el fenómeno de
enmascaramiento.
En el presente trabajo se explota la no estacionariedad de la señal de voz analizando en el dominio
tiempo-frecuencia como se modifican con la relación señal/ruido, algunos parámetros importantes
sobre los distintos fonemas y en sus respectivas bandas de frecuencia, usando para ello la distancia de
Jensen-Rényi generalizada y una versión adaptada de la distancia Itakura-Saito.
Se observa que no siempre es posible establecer un ordenamiento que haga corresponder mayor valor
de SNR con menor distancia entre sus representaciones tiempo-frecuencia sobre las distintas bandas
de frecuencia. Esta situación se agudiza en las consonantes. Estos hechos pueden interpretarse como
que la relación señal/ruido si bien da indicaciones globales respecto a las características de la señal
limpia comparada con la señal ruidosa, no siempre refleja con precisión los efectos del ruido sobre las
bandas críticas.

Full Text:

PDF



Asociación Argentina de Mecánica Computacional
Güemes 3450
S3000GLN Santa Fe, Argentina
Phone: 54-342-4511594 / 4511595 Int. 1006
Fax: 54-342-4511169
E-mail: amca(at)santafe-conicet.gov.ar
ISSN 2591-3522