Meta, la controladora de las redes sociales Facebook e Instagram, y de la red de mensajería WhatsApp, lanzó Voicebox, un modelo de Inteligencia Artificial (IA) que puede realizar tareas de generación del habla, como edición, sampling y estilización, para las que no fue entrenado específicamente pero puede resolver a través del aprendizaje en contexto.
De acuerdo con información de Meta, Voicebox puede producir fragmentos de audio de alta calidad y editar audio pregrabado, como eliminar bocinas de un coche o el ladrido de un perro, conservando el contenido y el estilo del audio; además, el modelo es multilingüe y puede producir habla en seis idiomas.
La compañía aseguró que en el futuro, modelos generativos multipropósitos de IA como Voicebox podrán dar voces naturales a asistentes virtuales y personajes no jugadores del metaverso, además de que podrán permitir a personas con discapacidad visual escuchar mensajes escritos de sus amigos, leídos con IA en sus voces, dar a los creadores nuevas herramientas para crear y editar fácilmente pistas de audio para videos, y más.
¿Qué tareas se pueden realizar con Voicebox, de Meta?
- Síntesis de contexto de texto a habla: Utilizando una muestra de audio de sólo un par de segundos, Voicebox puede adaptar el estilo de audio y utilizarlo para la generación de texto a habla.
- Edición de habla y reducción de ruido: Voicebox puede recrear una parte del discurso interrumpida por ruido o sustituir palabras mal pronunciadas sin tener que volver a grabar un discurso completo. Por ejemplo, se puede identificar un segmento de un discurso interrumpido por los ladridos de un perro, recortarlo y pedir a Voicebox que vuelva a generar ese segmento, como un borrador para la edición de audio.
- Transferencia de estilo entre idiomas: Cuando se le da una muestra del habla de alguien y un pasaje de texto en inglés, francés, alemán, español, polaco o portugués, Voicebox puede leer el texto en cualquiera de esos idiomas, incluso si la muestra del habla y el texto están en idiomas diferentes. Esta capacidad podrá utilizarse en el futuro para ayudar a las personas a comunicarse de forma natural y auténtica, aunque no hablen el mismo idioma.
- Muestreo de habla diversa: Al haber aprendido de datos diversos, Voicebox puede generar un habla más representativa de cómo se expresan las personas en el mundo real, en los seis idiomas mencionados.
MRA