Meta dio a conocer una nueva herramienta de inteligencia artificial llamada ImageBind, la cual servirá para generar imágenes aunque no solamente mediante texto, ya que podría emplearse audio que se comparta en la plataforma.
De acuerdo con Meta, se trata del primer modelo de inteligencia artificial capaz de vincular información de seis modalidades. Por ejemplo, usando ImageBind, Make-A-Scene de Meta podría crear imágenes a partir de audio, como crear una imagen basada en los sonidos de una selva tropical o un mercado bullicioso.
¿Cómo funcionará ImageBind?
Otras posibilidades futuras incluyen formas más precisas de reconocer, conectar y moderar contenido, y de impulsar el diseño creativo, como generar medios más ricos de manera más fluida y crear funciones de búsqueda multimodal más amplias.
"ImageBind es parte de los esfuerzos de Meta para crear sistemas de IA multimodales que aprenden de todos los tipos de datos posibles a su alrededor. A medida que aumenta el número de modalidades, ImageBind abre las compuertas para que los investigadores intenten desarrollar nuevos sistemas holísticos, como la combinación de sensores 3D e IMU para diseñar o experimentar mundos virtuales inmersivos. ImageBind también podría proporcionar una forma rica de explorar recuerdos: buscar imágenes, videos, archivos de audio o mensajes de texto usando una combinación de texto, audio e imagen", destacó Meta.
- Te recomendamos Meta, dueña de Facebook, busca recaudar 8 mil 500 mdd en su segunda oferta de bonos Negocios
Meta detalló que al reconocer las relaciones entre estas modalidades (imágenes y video, audio, texto, profundidad, unidades de medida térmicas e inerciales (IMU)), este avance ayuda a avanzar en la inteligencia artificial al permitir que las máquinas analicen mejor muchas formas diferentes de información juntas.
"ImageBind muestra que los datos emparejados con imágenes son suficientes para unir estas seis modalidades. El modelo puede interpretar el contenido de manera más holística, permitiendo que las diferentes modalidades “hablen” entre sí y encuentren vínculos sin observarlas juntas. Por ejemplo, ImageBind puede asociar audio y texto sin verlos juntos. Esto permite que otros modelos "entiendan" las nuevas modalidades sin ningún tipo de formación intensiva en recursos.
"El sólido comportamiento de escalado de ImageBind permite que el modelo sustituya o mejore muchos modelos de IA al permitirles usar otras modalidades. Por ejemplo, mientras que Make-A-Scene puede generar imágenes mediante indicaciones de texto, ImageBind podría actualizarlo para generar imágenes mediante sonidos de audio, como la risa o la lluvia".
IR