El auge de los modelos de IA 'razonamiento' está haciendo que las pruebas de referencia sean más costosas

Los laboratorios de IA como OpenAI afirman que sus llamados modelos de IA de 'razonamiento', que pueden 'pensar' a través de problemas paso a paso, son más capaces que sus contrapartes no razonadoras en dominios específicos, como la física. Pero si bien esto parece ser generalmente cierto, los modelos de razonamiento también son mucho más costosos de probar, lo que dificulta verificar independientemente estas afirmaciones.

Según datos de Artificial Analysis, una empresa de pruebas de IA de terceros, cuesta $2,767.05 evaluar el modelo de razonamiento o1 de OpenAI en una serie de siete pruebas de referencia populares: MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, SciCode, AIME 2024 y MATH-500.

La prueba de referencia del modelo de 'razonamiento' híbrido Claude 3.7 Sonnet de Anthropic en el mismo conjunto de pruebas costó $1,485.35, mientras que la prueba del o3-mini-high de OpenAI costó $344.59, según Artificial Analysis.

Algunos modelos de razonamiento son más baratos de probar que otros. Por ejemplo, Artificial Analysis gastó $141.22 evaluando el o1-mini de OpenAI. Pero en promedio, tienden a ser costosos. En total, Artificial Analysis ha gastado aproximadamente $5,200 evaluando alrededor de una docena de modelos de razonamiento, casi el doble de la cantidad que la empresa gastó analizando más de 80 modelos no razonadores ($2,400).

El modelo no razonador GPT-4o de OpenAI, lanzado en mayo de 2024, costó a Artificial Analysis solo $108.85 para evaluar, mientras que Claude 3.6 Sonnet, el predecesor no razonador de Claude 3.7 Sonnet, costó $81.41.

El cofundador de Artificial Analysis, George Cameron, dijo a TechCrunch que la organización planea aumentar su gasto en pruebas de referencia a medida que más laboratorios de IA desarrollen modelos de razonamiento.

“En Artificial Analysis, ejecutamos cientos de evaluaciones mensuales y dedicamos un presupuesto significativo a estas”, dijo Cameron. "Estamos planeando aumentar este gasto a medida que se lancen modelos con más frecuencia".

Artificial Analysis no es la única empresa de su tipo que se enfrenta a los crecientes costos de las pruebas de referencia de IA.

Ross Taylor, CEO de la startup de IA General Reasoning, dijo que recientemente gastó $580 evaluando Claude 3.7 Sonnet en alrededor de 3,700 solicitudes únicas. Taylor estima que un solo recorrido de MMLU Pro, un conjunto de preguntas diseñado para evaluar las habilidades de comprensión del lenguaje de un modelo, habría costado más de $1,800.

“Estamos avanzando hacia un mundo en el que un laboratorio informa x% en una prueba donde gasta una cantidad y de computación, pero donde los recursos para académicos son << y”, dijo Taylor en una publicación reciente en X. “[N]adie va a poder reproducir los resultados”.

¿Por qué los modelos de razonamiento son tan caros de probar? Principalmente porque generan una gran cantidad de fichas. Las fichas representan bits de texto sin procesar, como la palabra “fantástico” dividida en las sílabas “fan,” “tas,” y “tic.” Según Artificial Analysis, el modelo o1 de OpenAI generó más de 44 millones de fichas durante las pruebas de referencia de la empresa, alrededor de ocho veces la cantidad que generó GPT-4o.

La gran mayoría de empresas de IA cobran por el uso del modelo por ficha, por lo que se puede ver cómo este costo puede sumarse.

Las pruebas modernas también tienden a generar muchas fichas por modelo porque contienen preguntas que involucran tareas complejas y de múltiples pasos, según Jean-Stanislas Denain, investigador principal en Epoch AI, que desarrolla sus propias pruebas de modelos.

“Las pruebas [actuales] son más complejas [aunque] el número de preguntas por prueba en general ha disminuido”, dijo Denain a TechCrunch. “A menudo intentan evaluar la capacidad de los modelos para realizar tareas del mundo real, como escribir y ejecutar código, navegar por internet y usar computadoras”.

Denain agregó que los modelos más caros se han vuelto más costosos por ficha con el tiempo. Por ejemplo, el modelo más costoso de Anthropic, Claude 3 Opus, fue el modelo lanzado en mayo de 2024, que costaba $75 por millón de fichas de salida. Los modelos de OpenAI GPT-4.5 y o1-pro, ambos lanzados este año, cuestan $150 por millón de fichas de salida y $600 por millón de fichas de salida, respectivamente.

“Dado que los modelos han mejorado con el tiempo, sigue siendo cierto que el costo para alcanzar un cierto nivel de rendimiento ha disminuido considerablemente con el tiempo”, dijo Denain. “Pero si desea evaluar los mejores modelos más grandes en cualquier momento, seguirá pagando más”.

Muchos laboratorios de IA, incluido OpenAI, brindan acceso gratuito o subvencionado a organizaciones de pruebas de referencia para probar sus modelos. Pero esto colorea los resultados, dicen algunos expertos, incluso si no hay evidencia de manipulación, la mera sugerencia de la participación de un laboratorio de IA amenaza con dañar la integridad de la puntuación de la evaluación.

“Desde un punto de vista científico, si publicas un resultado que nadie puede replicar con el mismo modelo, ¿es realmente ciencia?” escribió Taylor en una publicación de seguimiento en X. “(¿Alguna vez fue ciencia, jaja)”.