Cultura

"El último examen de la humanidad": hasta 5.000€ por pregunta para el test más difícil que las IA no logran aprobar

El modelo con mejores resultados no ha llegado al 10% de los aciertos

  • Imagen creada con inteligencia artificial.

Imaginen un examen compuesto de preguntas ultra específicas sobre la anatomía de un colibrí, una traducción de una inscripción en latín, un complejo problema de física sobre la masa de dos rieles en movimiento, una cuestión de filosofía analítica o un cálculo en el diseño de cohetes espaciales. La prueba existe, consta de 3.000 preguntas y ha sido diseñada por algunas de las mejores mentes de cada área para conocer los límites de las inteligencias artificiales en su camino al conocimiento supremo. El nombre con el que han titulado el examen está a la altura: "El último examen de la humanidad". 

Regresemos a nuestro colibrí para mostrar el grado de detalle de las pruebas: “Los colibríes, dentro de los Apodiformes, tienen un hueso ovalado pareado bilateralmente, un sesamoideo incrustado en la porción caudolateral de la aponeurosis cruzada expandida de la inserción del músculo depresor caudae. ¿Cuántos tendones pares sostiene este hueso sesamoideo? Responda con un número”. Si esta pregunta le parece rebuscada, más abajo verá varias sobre matemáticas que el que firma este texto encuentra imposible de llegar a plantear.

La institución responsable del examen ha sido el Center for AI Safety (CAIS) y Scale AI, pagaron entre 500 y 5.000 dólares a los expertos que plantearon las mejores preguntas y aseguran que se trata de la prueba más difícil jamás administrada a los sistemas de IA. CAIS es una organización sin ánimo de lucro cuyo fin es reducir los riesgos a escala social derivados de la inteligencia artificial. “Queríamos problemas que pusieran a prueba las capacidades de los modelos en la frontera del conocimiento y el razonamiento humanos”, dijo Dan Hendrycks, cofundador y director ejecutivo de CAIS. 

En total, los investigadores de CAIS y Scale recopilaron más de 70.000 preguntas de prueba. Esto dio lugar a una selección de 13.000 preguntas para la revisión por parte de expertos humanos que, a su vez, se redujeron a un conjunto de 3.000 preguntas en la publicación del examen final. Las preguntas estaban dirigidas a expertos de nivel mundial y se plantearon en varios LLM multimodales de vanguardia, incluidos OpenAI GPT-4o, Anthropic Claude 3.5 Sonnet, Google Gemini 1.5 Pro y OpenAI o1. Este último, de la empresa responsable de ChatGPT, obtuvo la puntuación más alta de todos con un 8,3%.

Pero las estimaciones de los expertos sobre la evolución de los modelos son muy optimistas y esperan que lleguen pronto a un aprobado en un examen que necesitaría de miles de cerebros humanos para pasarlo. Hendrycks señaló que esperaba que esas puntuaciones aumentaran rápidamente y que, potencialmente, superaran el 50% para fin de año. En ese momento, dijo, los sistemas de IA podrían considerarse “oráculos de clase mundial”, capaces de responder preguntas sobre cualquier tema con mayor precisión que los expertos humanos, según recogió The New York Times.

 

Apoya TU periodismo independiente y crítico

Ayúdanos a contribuir a la Defensa del Estado de Derecho Haz tu aportación Vozpópuli