Meta lanza Voicebox, modelo generativo de habla

Este tipo de tecnología podrá utilizarse en el futuro para ayudar a los creadores a editar fácilmente pistas de audio, entre otras cosas.

Más adelante, los modelos generativos multipropósitos de IA como Voicebox podrán dar voces naturales a asistentes virtuales y más. Foto: (Especial)

Silvia Rodríguez

Ciudad de México / 16.06.2023 14:23:22

Meta, la controladora de las redes sociales Facebook e Instagram, y de la red de mensajería WhatsApp, lanzó Voicebox, un modelo de Inteligencia Artificial (IA) que puede realizar tareas de generación del habla, como edición, sampling y estilización, para las que no fue entrenado específicamente pero puede resolver a través del aprendizaje en contexto.

De acuerdo con información de Meta, Voicebox puede producir fragmentos de audio de alta calidad y editar audio pregrabado, como eliminar bocinas de un coche o el ladrido de un perro, conservando el contenido y el estilo del audio; además, el modelo es multilingüe y puede producir habla en seis idiomas.

La compañía aseguró que en el futuro, modelos generativos multipropósitos de IA como Voicebox podrán dar voces naturales a asistentes virtuales y personajes no jugadores del metaverso, además de que podrán permitir a personas con discapacidad visual escuchar mensajes escritos de sus amigos, leídos con IA en sus voces, dar a los creadores nuevas herramientas para crear y editar fácilmente pistas de audio para videos, y más.

¿Qué tareas se pueden realizar con Voicebox, de Meta?

Síntesis de contexto de texto a habla: Utilizando una muestra de audio de sólo un par de segundos, Voicebox puede adaptar el estilo de audio y utilizarlo para la generación de texto a habla.
Edición de habla y reducción de ruido: Voicebox puede recrear una parte del discurso interrumpida por ruido o sustituir palabras mal pronunciadas sin tener que volver a grabar un discurso completo. Por ejemplo, se puede identificar un segmento de un discurso interrumpido por los ladridos de un perro, recortarlo y pedir a Voicebox que vuelva a generar ese segmento, como un borrador para la edición de audio.
Transferencia de estilo entre idiomas: Cuando se le da una muestra del habla de alguien y un pasaje de texto en inglés, francés, alemán, español, polaco o portugués, Voicebox puede leer el texto en cualquiera de esos idiomas, incluso si la muestra del habla y el texto están en idiomas diferentes. Esta capacidad podrá utilizarse en el futuro para ayudar a las personas a comunicarse de forma natural y auténtica, aunque no hablen el mismo idioma.
Muestreo de habla diversa: Al haber aprendido de datos diversos, Voicebox puede generar un habla más representativa de cómo se expresan las personas en el mundo real, en los seis idiomas mencionados.

MRA

TAGS RELACIONADOS:
Inteligencia Artificial META

LAS MÁS VISTAS