5 de febrero 2025
Dólar El Observador | Auspicio BROU Cotizaciones
Compra 42,30 Venta 44,70
5 de febrero 2025 - 10:22hs

Las inteligencias artificiales avanzan a gran velocidad, pero medir sus capacidades sigue siendo un desafío. Para hacerlo, se utilizan benchmarks, pruebas con preguntas diseñadas para evaluar su nivel de comprensión y resolución de problemas.

Uno de los más utilizados ha sido MMLU (Comprensión de Lenguaje Multitarea Masiva). Esta prueba incluye 57 exámenes en áreas como matemáticas, historia, derecho y ciencia, con preguntas de opción múltiple para medir su desempeño respecto a estándares humanos.

Sin embargo, los modelos han mejorado tanto que estas pruebas han quedado obsoletas. Por ejemplo, el modelo de OpenAI lanzado en 2022 lograba entre 40% y 45% de precisión, mientras que GPT-4 subió a 70-75%. El pasado fin de semana, el modelo O3-mini alcanzó el 85%, acercándose al límite de la prueba.

Más noticias

El surgimiento de nuevos desafíos para la IA

Ante estos avances, los investigadores han desarrollado exámenes más complejos. Un ejemplo es "El último examen de la humanidad" (HLE), creado por el Centro para la Seguridad de la IA y la Escala de IA. Se trata de una prueba con 3.000 preguntas de extrema dificultad, formuladas por expertos en distintas áreas.

La prueba ha sido un desafío incluso para las IA más avanzadas. Por ejemplo, DeepSeek R1 logró un 9% de aciertos, O3-mini alcanzó 13% y la versión avanzada de ChatGPT, DeepSearch, llegó al 26% en su lanzamiento reciente.

Además del HLE, han surgido otras pruebas para medir capacidades avanzadas. FrontierMath, desarrollado por Epoch AI, evalúa habilidades matemáticas complejas. Por otro lado, ARC-AGI, creado por el investigador François Chollet, mide habilidades de razonamiento general en IA.

El problema es que, a medida que las IA mejoran, estos benchmarks también corren el riesgo de volverse obsoletos. La evolución constante de los modelos exige pruebas cada vez más sofisticadas para seguir diferenciando sus niveles de inteligencia.

El avance acelerado de las IA plantea un dilema: ¿cómo evaluar su verdadero potencial si las pruebas tradicionales ya no son un reto? Los investigadores siguen desarrollando exámenes más complejos, pero la velocidad de mejora de estos modelos pone a prueba la capacidad humana para medir su progreso.

Temas:

Inteligencia Artificial ChatGPT

Seguí leyendo

Te Puede Interesar

Más noticias de Argentina

Más noticias de España

Más noticias de Estados Unidos