Nuevos cálculos matemáticos devolverán la voz a mujeres y niños mudos

Un proyecto de investigación dirigido por el profesor Samuli Siltanen, de la Academia Finlandesa de Investigación en Ciencias Computacionales, desarrolló un emulador capaz de producir sonidos mejor adecuados a su apariencia y edad. Un grupo de investigadores de la Academia Finlandesa de Investigación en Ciencias Computacionales (LASTU) está desarrollando un método que contribuirá a la fabricación de prótesis de voz con mejores características.

Un proyecto de investigación dirigido por el profesor Samuli Siltanen de la LASTU, ha permitido alcanzar estos avances en la producción de voz artificial y se calcula que, solo en Finlandia, podrían beneficiar a cerca de 30.000 personas con problemas en las cuerdas vocales.

Gracias a este sistema, quienes hayan perdido su voz contarán con un dispositivo mejorado, cuyo timbre se adaptará a la edad del usuario, según informa la LATSU en un comunicado.

Por ejemplo, las niñas contarán con un emulador de voz artificial mejorado, capaz de producir sonidos mejor adecuados a su apariencia, en lugar de la habitual voz de un hombre adulto que producen normalmente estos sistemas.

Uno de los problemas fundamentales del análisis de las señales de un discurso es determinar el grado de excitación de las cuerdas vocales a partir de sonidos registrados digitalmente, así como definir la forma del tracto vocal al hablar, esto es, las posiciones de la boca y de la garganta.

Esta medición, denominada estimación del pulso glotal basada en filtrado inverso, requiere de una forma altamente especializada de cálculo computacional.

Con las técnicas tradicionales existentes en la actualidad, el filtrado inverso es solo posible para voces masculinas de tono bajo. Las voces de mujeres y niños son un caso más complicado por su elevada tonalidad, demasiado cercana en frecuencia a la resonancia más baja del tracto vocal.

Sistemas de articulación oral

En los actuales sistemas, la llamada síntesis articulatoria consiste en la transformación de un texto en discurso sonoro. La forma de hacerlo era registrar palabras independientes y producirlas en sonido, una tras otra, pero esta fórmula rara vez genera un discurso de sonido natural.

Según explica al respecto Sitanen: “La mayoría de los sonidos de un discurso son el resultado de un proceso específico. El aire que fluye entre los pliegues vocales hace que estos vibren. Esta vibración, si pudiéramos oírla, produciría un sonido extraño, como un zumbido. Sin embargo, a medida que se mueve por el tracto vocal, el zumbido se transforma en vocales conocidas”.

El canto y la telefonía


Un buen ejemplo de la interacción entre la respuesta de las cuerdas vocales y del tracto vocal es lo que ocurre al cantar.

“Cuando cantamos la vocal “a” en diferentes tonos, nuestro tracto vocal permanece sin cambios, pero la frecuencia de la excitación de las cuerdas vocales sí cambia. Por otro lado, también podemos cantar diferentes vocales en el mismo tono, entonces es la forma del tracto lo que cambia, mientras que la excitación de las cuerdas vocales se mantiene estable”, apunta el investigador.

Además, los nuevos cálculos harán más eficientes las síntesis del discurso y los reproductores artificiales de voz serán capaces de emular el tono original de cada hablante.

Esto podría beneficiar, además de a las personas mudas por DCV, a la calidad de los discursos sintéticos empleados en telefonía móvil y en servicios telefónicos automáticos, concluye el comunicado de la LASTU.


Fuente aquí.

Comentarios