OpenAI, Microsoft, Meta y Anthropic anunciaron planes para desarrollar agentes de inteligencia artificial (IA) que puedan ejecutar tareas para humanos de forma autónoma. Para hacer esto de manera efectiva, los sistemas deben ser capaces de realizar acciones cada vez más complejas, utilizando el razonamiento y la planeación.
Las compañías realizan “evaluaciones” de modelos de IA a cargo de equipos de personal e investigadores externos. Estas son pruebas estandarizadas, conocidas como puntos de referencia, que evalúan las habilidades de los modelos y el desempeño de los sistemas de diferentes grupos o versiones anteriores.
Sin embargo, los avances recientes en la tecnología de IA significan que muchos de los modelos más nuevos pudieron acercarse o superar 90 por ciento de precisión en las pruebas existentes, lo que resalta la necesidad de nuevos puntos de referencia.
“El ritmo de la industria es extremadamente rápido. Ahora estamos empezando a saturar nuestra capacidad para medir algunos de estos sistemas (y como industria) se está volviendo cada vez más difícil evaluarlos”, dijo Ahmad Al-Dahle, líder de IA generativa en Meta.
Para lidiar con este problema, varios grupos de tecnología, entre ellos Meta, OpenAI y Microsoft, crearon sus propios puntos de referencia internos y pruebas de inteligencia.
Pero esto generó inquietud dentro de la industria sobre la capacidad de comparar la tecnología en ausencia de pruebas públicas.
“Muchos de estos puntos de referencia nos permiten saber qué tan lejos estamos de la automatización de tareas y trabajos. Sin que se hagan públicos, es difícil para las empresas y la sociedad en general saberlo”, dijo Dan Hendrycks, director general del Centro para la Seguridad de la IA y asesor de xAI de Elon Musk.
Los puntos de referencia públicos actuales —Hellaswag y MMLU— utilizan preguntas de opción múltiple para evaluar el sentido común y el conocimiento en varios temas. Sin embargo, los investigadores argumentan que este método se volvió redundante y los modelos necesitan problemas más complejos.
“Estamos llegando a una era en la que muchas de las pruebas escritas por humanos ya no son suficientes como para ser un buen barómetro de la capacidad de los modelos”, dijo Mark Chen, vicepresidente sénior de investigación en OpenAI.
Un punto de referencia público, SWE-bench Verified, se actualizó en agosto para evaluar mejor los sistemas autónomos en función de los comentarios de las empresas, incluida OpenAI.
Utiliza problemas de software del mundo real obtenidos de la plataforma de desarrolladores GitHub e implica proporcionar al agente de IA un repositorio de código y un problema de ingeniería, y pedirle que lo solucione. Las tareas requieren razonamiento para completarse.
En esta medida, el último modelo de OpenAI, GPT-4o preview, resuelve 41.4 por ciento de los problemas, mientras que Claude 3.5 Sonnet de Anthropic obtiene 49 por ciento.
“Es mucho más difícil (con los sistemas de agentes) porque necesitas conectar esos sistemas a muchas herramientas adicionales”, dijo Jared Kaplan, director científico de Anthropic.
“Básicamente, tienes que crear un entorno de pruebas completo para que jueguen. No es tan simple como simplemente proporcionar una indicación, ver cuál es la culminación y luego evaluar eso”, agregó.
Otro factor importante al realizar pruebas más avanzadas es asegurarse de que las preguntas de referencia se mantengan fuera del dominio público, para garantizar que los modelos no “hagan trampa” de manera efectiva al generar las respuestas a partir de los datos de entrenamiento en lugar de resolver el problema.
La capacidad de razonar y planear es fundamental para liberar el potencial de los agentes de IA que pueden realizar tareas en múltiples pasos y aplicaciones, y corregirse a sí mismos.
“Estamos descubriendo nuevas formas de medir estos sistemas y, por supuesto, una de ellas es el razonamiento, que es una frontera importante”, dijo Ece Kamar, vicepresidente y director de laboratorio de AI Frontiers en Microsoft Research.
Como resultado, Microsoft trabaja en su propio punto de referencia interno, incorporando problemas que no han aparecido previamente en el entrenamiento para evaluar si sus modelos de IA pueden razonar como lo haría un humano.
Algunas personas, incluidos los investigadores de Apple, cuestionan si los modelos de lenguaje de gran tamaño actuales están “razonando” o simplemente “hacen coincidir patrones” con los datos similares más cercanos que se vieron en su entrenamiento.
“En los dominios más estrechos (que) les interesan a las empresas, sí razonan”, dijo Ruchir Puri, científico jefe de IBM Research. “(El debate gira en torno a) este concepto más amplio de razonamiento a nivel humano, que casi lo pondría en el contexto de la IA general. ¿Realmente razonan o están repitiendo lo mismo?”.
OpenAI mide el razonamiento principalmente a través de evaluaciones que cubren matemáticas, materias STEM (ciencia, tecnología, ingeniería y matemáticas) y tareas de programación.
“El razonamiento es un término muy amplio. Cada uno lo define de manera diferente y tiene su propia interpretación… esta frontera es muy difusa y tratamos de no empantanarnos demasiado con esa distinción en sí, sino analizar si impulsa la utilidad, el rendimiento o las capacidades”, dijo Chen de OpenAI.
La necesidad de nuevos puntos de referencia también llevó a que organizaciones externas realicen esfuerzos.
En septiembre, la startup Scale AI y Hendrycks anunciaron un proyecto llamado “Humanity’s Last Exam” (El último examen de la humanidad), que con colaboración abierta reunía preguntas complejas de expertos de diferentes disciplinas que requerían razonamiento abstracto para completarlas.
Otro ejemplo es FrontierMath, un nuevo punto de referencia que se lanzó esta semana, creado por matemáticos expertos. Según esta prueba, los modelos más avanzados pueden completar menos de 2 por ciento de las preguntas.
Sin embargo, sin un acuerdo explícito sobre la medición de este tipo de capacidades, los expertos advierten que puede ser difícil para las empresas evaluar a sus competidores o para las empresas y los consumidores comprender el mercado.
“No hay una manera clara de decir ‘este modelo es definitivamente mejor que este modelo’ (porque) cuando una medida se convierte en un objetivo, deja de ser una buena medida” y los modelos están entrenados para pasar los puntos de referencia establecidos, dijo Al-Dahle de Meta. “Es algo en lo que, como industria en su conjunto, trabajamos paso a paso para superar”.
Información adicional de Hannah Murphy
CHC