Los modelos de IA líderes aún luchan con las matemáticas según nuevo benchmark

Resultados recientes del benchmark MATHVISTA indican que los sistemas de inteligencia artificial actuales no han alcanzado un nivel de razonamiento humano. Investigadores de Microsoft Research, Sahara AI y la Universidad Emory evaluaron doce modelos de fundación diferentes según Decrypt. El estudio se centró en la capacidad de resolver problemas matemáticos basados en información visual.

GPT-4 Vision obtuvo la puntuación más alta entre los modelos probados con un 49.9% de precisión. Sin embargo, los participantes humanos promediaron un 60.3% en las mismas tareas. Esta diferencia resalta una limitación sustancial en las habilidades de razonamiento lógico de la tecnología actual.

El proyecto pone los problemas en imágenes, diagramas y gráficos para probar la interpretación visual. Los modelos deben resolver problemas matemáticos y lógicos de múltiples pasos sin depender solo del texto. Medir esta limitación resulta difícil cuando los conjuntos de datos existentes no requieren razonamiento visual.

Hao Cheng, investigador principal en Microsoft Research, declaró que el objetivo es que las máquinas realicen tareas diarias normales. Según él, eso es básicamente lo que todos persiguen para lograr la inteligencia artificial general. La meta implica ir más allá del simple emparejamiento de patrones en el lenguaje.

La inteligencia artificial general sigue siendo un hito citado frecuentemente sin una definición clara en la industria. Los ejecutivos tecnológicos predicen su llegada mientras los inversores financian la investigación. Los críticos advierten sobre los riesgos una vez que el sistema llegue a ese estado.

Sean Ren, director ejecutivo de Sahara AI, señala el matiz de la contaminación de datos en las evaluaciones. Si las respuestas del benchmark aparecen en los datos de entrenamiento, las altas puntuaciones pueden reflejar memorización. Esto dificulta determinar si los sistemas están mejorando realmente o solo aprendiendo el conjunto de prueba.

Crear el conjunto de datos requirió más de un etiquetado estándar de datos. Microsoft seleccionó a Sahara AI para apoyar el esfuerzo con 6,000 ejemplos multimodales. Los anotadores trabajaron a través de aritmética, álgebra, geometría y estadística para asegurar calidad.

Elon Musk mencionó que su empresa xAI asignó un 10% de probabilidad a lograr la inteligencia artificial general con Grok 5. Argumentó que el progreso dependería de datos en vivo en lugar de conjuntos de entrenamiento estáticos. El acceso a datos de X se presenta como su ventaja competitiva principal.

Los investigadores señalan límites en los datos de entrenamiento disponibles públicamente. El progreso hacia la inteligencia general puede depender menos del tamaño del modelo que de mejores datos de evaluación. Sin conjuntos de referencia confiables, medir el avance se vuelve complicado para la comunidad.

El benchmark MATHVISTA está disponible en GitHub y Hugging Face desde octubre de 2023. Se ha descargado más de 275,000 veces, incluyendo más de 13,000 en el último mes. El seguimiento de estos resultados será crucial para entender el futuro de la tecnología.