DeepMind, la división de Google, afirmó que logró un gran avance en la producción de habla generada por computadora, lo que potencialmente puede adelantar el día en que las máquinas lleguen a sonar tan “naturales” como los seres humanos.
Los investigadores de la división de inteligencia artificial con sede en el Reino Unido dijeron que las pruebas de su sistema con una audiencia de seres humanos, aunque inevitablemente subjetivas, demostraron que la tecnología redujo a la mitad la diferencia de calidad que existe entre los sistemas computacionales y el habla humana.
Una persona familiarizada con la investigación dijo que el sistema, que lleva el nombre de WaveNet, no se utiliza en ninguno de los productos de Google, y que la gran capacidad de procesamiento que se necesita para generar el habla lo hace impráctico para su uso en el “mundo real” en el futuro próximo.
La investigación que llevó a WaveNet, junto con una serie de muestras de habla generada por el sistema, se publicó en línea el jueves.
WaveNet se diferencia de los generadores de voz artificiales que existen actualmente, conocidos como sistemas de “texto a voz”, al centrarse en las ondas de sonido reales que se producen, en lugar del lenguaje mismo. Al usar la llamada red neural, la tecnología que trata de imitar el cerebro humano, el sistema analiza las ondas de sonido y trata de modelar los patrones probables.
La gran complejidad proviene en parte por la necesidad de tomar al menos 16 mil muestras de ondas de audio por segundo, lo que genera enormes cantidades de datos.
El enfoque contrasta con la mayoría de los sistemas actuales de texto a voz, que usan grabaciones de voces humanas reales, vuelven a armar los sonidos para que coincida con el idioma en el que se expresa. Otro nuevo enfoque, que busca producir sonidos con base en registros de lenguaje, hasta el momento no ha podido igualar a los sistemas rudimentarios anteriores, de acuerdo con DeepMind.
La producción de voz con computadoras es un campo que últimamente recibe menos atención en la reciente carrera de inteligencia artificial que la comprensión de lenguaje, conocida como reconocimiento de lenguaje natural.