Los benchmarks de IA se están agotando: ¿cómo medimos su inteligencia?

Stefani Reynolds / AFP

Las inteligencias artificiales avanzan a gran velocidad, pero medir sus capacidades sigue siendo un desafío. Para hacerlo, se utilizan benchmarks, pruebas con preguntas diseñadas para evaluar su nivel de comprensión y resolución de problemas.

Uno de los más utilizados ha sido MMLU (Comprensión de Lenguaje Multitarea Masiva). Esta prueba incluye 57 exámenes en áreas como matemáticas, historia, derecho y ciencia, con preguntas de opción múltiple para medir su desempeño respecto a estándares humanos.

Sin embargo, los modelos han mejorado tanto que estas pruebas han quedado obsoletas. Por ejemplo, el modelo de OpenAI lanzado en 2022 lograba entre 40% y 45% de precisión, mientras que GPT-4 subió a 70-75%. El pasado fin de semana, el modelo O3-mini alcanzó el 85%, acercándose al límite de la prueba.

Más noticias

¿deepseek es mejor que chatgpt? aca esta la respuesta

NEWSLETTER

¿DeepSeek es mejor que ChatGPT? Acá está la respuesta

ChatGPT, plataforma de inteligencia artificial (IA) lanzada por OpenAI

El nuevo agente Deep Research se integra en ChatGPT para sintetizar conocimientos y realizar investigaciones complejas

El surgimiento de nuevos desafíos para la IA

Ante estos avances, los investigadores han desarrollado exámenes más complejos. Un ejemplo es "El último examen de la humanidad" (HLE), creado por el Centro para la Seguridad de la IA y la Escala de IA. Se trata de una prueba con 3.000 preguntas de extrema dificultad, formuladas por expertos en distintas áreas.

La prueba ha sido un desafío incluso para las IA más avanzadas. Por ejemplo, DeepSeek R1 logró un 9% de aciertos, O3-mini alcanzó 13% y la versión avanzada de ChatGPT, DeepSearch, llegó al 26% en su lanzamiento reciente.

Además del HLE, han surgido otras pruebas para medir capacidades avanzadas. FrontierMath, desarrollado por Epoch AI, evalúa habilidades matemáticas complejas. Por otro lado, ARC-AGI, creado por el investigador François Chollet, mide habilidades de razonamiento general en IA.

El problema es que, a medida que las IA mejoran, estos benchmarks también corren el riesgo de volverse obsoletos. La evolución constante de los modelos exige pruebas cada vez más sofisticadas para seguir diferenciando sus niveles de inteligencia.

El avance acelerado de las IA plantea un dilema: ¿cómo evaluar su verdadero potencial si las pruebas tradicionales ya no son un reto? Los investigadores siguen desarrollando exámenes más complejos, pero la velocidad de mejora de estos modelos pone a prueba la capacidad humana para medir su progreso.

Temas:

Inteligencia Artificial ChatGPT

Seguí leyendo

Edición Digital

Suscríbete ahora a El Observador y elegí hasta donde llegar.

Siguenos en:

Los benchmarks de IA se están agotando: ¿cómo medimos su inteligencia?

¿DeepSeek es mejor que ChatGPT? Acá está la respuesta

El nuevo agente Deep Research se integra en ChatGPT para sintetizar conocimientos y realizar investigaciones complejas

El surgimiento de nuevos desafíos para la IA

Las más leídas

BROU repondrá 120 vacantes en todo el país ¿Cómo se definen los nuevos ingresos en 2025?

La sorpresa que se llevaron los futbolistas de Peñarol en el entrenamiento de la mañana de este martes mientras piensan en Nacional

Video: el jugador de la selección de Uruguay de Marcelo Bielsa que se enamoró y está de novio con una influencer de fama mundial

"Necesito dar unos besos": trasladaron a Romina Celeste de cárcel y dejó una carta antes de irse

Mas noticias de Nacional

Esto fue lo más comprado en internet en Uruguay en 2024

Gobierno electo se reúne con empresarios y PIT–CNT con el cierre de empresas como telón de fondo

Gobierno lanzó una licitación por casi US$ 10 millones para evitar que una empresa se retire del país

Promedio de todos los lácteos y el de la leche en polvo entera se afirman arriba de los US$ 4.000 por tonelada

Te Puede Interesar

Mercado de pases 2025: Nacional gastó la mitad que Peñarol y contrató el doble de futbolistas; mirá el nuevo perfil de los grandes

¿Cuántos años hacía que la selección uruguaya sub 20 no perdía dos partidos seguidos en un Campeonato Sudamericano?

Enrique Antía sobre caída de proyecto de Punta Ballena: "De una vez por todas que nadie se proponga hacer una locura de estas"

Últimos días del llamado laboral para entrar a la Intendencia de Montevideo con sueldos de más de 33 mil pesos por seis horas diarias

Más noticias de Argentina

Un auto de Juan Manuel Fangio se consolidó como el más caro en la historia de la F1

Pagar en dólares con débito o en cuotas: detalles de la medida que implementó el Banco Central

PAMI | Es oficial: suspenderán las Pensiones por Invalidez Laboral si no se cumplan con estos requisitos

Sesiones extraordinarias: el oficialismo ahora va por Ficha Limpia

Más noticias de España

Ciudadanía italiana en 6 meses: la opción más rápida para sacar el documento en 2025

Emigrar y trabajar en Italia EN VIVO: empezó el Click day 2025, ¿qué es, las vacantes laborales libres sólo por hoy, requisitos y cómo aplicar?

Más noticias de Estados Unidos

La Universidad Estatal de California integra ChatGPT: los desafíos y beneficios de la llegada de la IA a la educación superior

El plan de Trump para Gaza será visto como una violación del derecho internacional

Bill Gates: "He donado más de US$100.000 millones y aún me queda más por donar"

Amazon cerró sus operaciones en Quebec y los trabajadores denuncian que fue en represalia por su sindicalización

Siguenos en: