Imaginen un examen compuesto de preguntas ultra específicas sobre la anatomía de un colibrí, una traducción de una inscripción en latín, un complejo problema de física sobre la masa de dos rieles en movimiento, una cuestión de filosofía analítica o un cálculo en el diseño de cohetes espaciales. La prueba existe, consta de 3.000 preguntas y ha sido diseñada por algunas de las mejores mentes de cada área para conocer los límites de las inteligencias artificiales en su camino al conocimiento supremo. El nombre con el que han titulado el examen está a la altura: "El último examen de la humanidad".
Regresemos a nuestro colibrí para mostrar el grado de detalle de las pruebas: “Los colibríes, dentro de los Apodiformes, tienen un hueso ovalado pareado bilateralmente, un sesamoideo incrustado en la porción caudolateral de la aponeurosis cruzada expandida de la inserción del músculo depresor caudae. ¿Cuántos tendones pares sostiene este hueso sesamoideo? Responda con un número”. Si esta pregunta le parece rebuscada, más abajo verá varias sobre matemáticas que el que firma este texto encuentra imposible de llegar a plantear.
La institución responsable del examen ha sido el Center for AI Safety (CAIS) y Scale AI, pagaron entre 500 y 5.000 dólares a los expertos que plantearon las mejores preguntas y aseguran que se trata de la prueba más difícil jamás administrada a los sistemas de IA. CAIS es una organización sin ánimo de lucro cuyo fin es reducir los riesgos a escala social derivados de la inteligencia artificial. “Queríamos problemas que pusieran a prueba las capacidades de los modelos en la frontera del conocimiento y el razonamiento humanos”, dijo Dan Hendrycks, cofundador y director ejecutivo de CAIS.
We’re releasing Humanity’s Last Exam, a dataset with 3,000 questions developed with hundreds of subject matter experts to capture the human frontier of knowledge and reasoning.
— Dan Hendrycks (@DanHendrycks) January 23, 2025
State-of-the-art AIs get <10% accuracy and are highly overconfident.@ai_risk @scaleai pic.twitter.com/kiOJKV2GfI
En total, los investigadores de CAIS y Scale recopilaron más de 70.000 preguntas de prueba. Esto dio lugar a una selección de 13.000 preguntas para la revisión por parte de expertos humanos que, a su vez, se redujeron a un conjunto de 3.000 preguntas en la publicación del examen final. Las preguntas estaban dirigidas a expertos de nivel mundial y se plantearon en varios LLM multimodales de vanguardia, incluidos OpenAI GPT-4o, Anthropic Claude 3.5 Sonnet, Google Gemini 1.5 Pro y OpenAI o1. Este último, de la empresa responsable de ChatGPT, obtuvo la puntuación más alta de todos con un 8,3%.
Pero las estimaciones de los expertos sobre la evolución de los modelos son muy optimistas y esperan que lleguen pronto a un aprobado en un examen que necesitaría de miles de cerebros humanos para pasarlo. Hendrycks señaló que esperaba que esas puntuaciones aumentaran rápidamente y que, potencialmente, superaran el 50% para fin de año. En ese momento, dijo, los sistemas de IA podrían considerarse “oráculos de clase mundial”, capaces de responder preguntas sobre cualquier tema con mayor precisión que los expertos humanos, según recogió The New York Times.
Franz Chubert
10/02/2025 00:02
Bueno, pues tengo que decir que tras meses y meses y meses y meses de investigación he llegado a poder formular dos preguntas que deepseek-R1 y que open EAI o1 en sus estados originales al acabar sus entrenamientos no pueden contestar: 1.- ¿Cuál es el título del artículo de Jesús Cacho en vozpópuli del tercer domingo del mes de septiembre de 2024? 2.- ¿Quién ganó la final de los cinco mil metros en las Olimpiadas de París de 2024? Y otra de propina ya para adornarme: ¿Cuál es el título del artículo de Jesús Cacho en vozpópuli del primer domingo del mes de septiembre de 2024? Un saludo