Meta lanza Voicebox, modelo generativo de habla

Este tipo de tecnología podrá utilizarse en el futuro para ayudar a los creadores a editar fácilmente pistas de audio, entre otras cosas.

Más adelante, los modelos generativos multipropósitos de IA como Voicebox podrán dar voces naturales a asistentes virtuales y más. Foto: (Especial)
Silvia Rodríguez
Ciudad de México /

Meta, la controladora de las redes sociales Facebook e Instagram, y de la red de mensajería WhatsApp, lanzó Voicebox, un modelo de Inteligencia Artificial (IA) que puede realizar tareas de generación del habla, como edición, sampling y estilización,­ para las que no fue entrenado específicamente pero puede resolver a través del aprendizaje en contexto.

De acuerdo con información de Meta, Voicebox puede producir fragmentos de audio de alta calidad y editar audio pregrabado, como eliminar bocinas de un coche o el ladrido de un perro, conservando el contenido y el estilo del audio; además, el modelo es multilingüe y puede producir habla en seis idiomas.

La compañía aseguró que en el futuro, modelos generativos multipropósitos de IA como Voicebox podrán dar voces naturales a asistentes virtuales y personajes no jugadores del metaverso, además de que podrán permitir a personas con discapacidad visual escuchar mensajes escritos de sus amigos, leídos con IA en sus voces, dar a los creadores nuevas herramientas para crear y editar fácilmente pistas de audio para videos, y más.

¿Qué tareas se pueden realizar con Voicebox, de Meta?

  • Síntesis de contexto de texto a habla: Utilizando una muestra de audio de sólo un par de segundos, Voicebox puede adaptar el estilo de audio y utilizarlo para la generación de texto a habla.
  • Edición de habla y reducción de ruido: Voicebox puede recrear una parte del discurso interrumpida por ruido o sustituir palabras mal pronunciadas sin tener que volver a grabar un discurso completo. Por ejemplo, se puede identificar un segmento de un discurso interrumpido por los ladridos de un perro, recortarlo y pedir a Voicebox que vuelva a generar ese segmento, como un borrador para la edición de audio.
  • Transferencia de estilo entre idiomas: Cuando se le da una muestra del habla de alguien y un pasaje de texto en inglés, francés, alemán, español, polaco o portugués, Voicebox puede leer el texto en cualquiera de esos idiomas, incluso si la muestra del habla y el texto están en idiomas diferentes. Esta capacidad podrá utilizarse en el futuro para ayudar a las personas a comunicarse de forma natural y auténtica, aunque no hablen el mismo idioma.
  • Muestreo de habla diversa: Al haber aprendido de datos diversos, Voicebox puede generar un habla más representativa de cómo se expresan las personas en el mundo real, en los seis idiomas mencionados.

MRA

LAS MÁS VISTAS

¿Ya tienes cuenta? Inicia sesión aquí.

Crea tu cuenta ¡GRATIS! para seguir leyendo

No te cuesta nada, únete al periodismo con carácter.

Hola, todavía no has validado tu correo electrónico

Para continuar leyendo da click en continuar.