La inteligencia artificial general (AGI) es un concepto que ha capturado la atención de científicos y tecnólogos en todo el mundo. Sin embargo, la falta de un consenso claro sobre su definición y los métodos para medir su progreso ha generado divisiones significativas en la comunidad. A medida que empresas líderes como OpenAI, Anthropic y Google DeepMind anuncian avances, la pregunta persiste: ¿qué es realmente la AGI y cómo podemos validarla?
La AGI se refiere a una forma de inteligencia artificial que puede realizar cualquier tarea cognitiva que un ser humano pueda hacer. Sin embargo, la interpretación de este concepto varía entre expertos. Algunos argumentan que la AGI debe igualar las capacidades humanas en una amplia gama de tareas, mientras que otros se centran en su impacto económico o en su funcionamiento interno. Geoffrey Hinton, un pionero en el campo, ha señalado que estamos creando «seres alienígenas», lo que subraya la dificultad de establecer comparaciones directas entre máquinas y humanos.
### La Historia de las Evaluaciones de la Inteligencia Artificial
La historia de las pruebas de inteligencia artificial es rica y compleja. Uno de los primeros hitos fue el test de Turing, propuesto por Alan Turing en 1950, que desafía a las máquinas a hacerse pasar por humanas en diálogos escritos. Aunque este test ha sido fundamental en la evolución de la IA, no ha resuelto el dilema de cómo medir la inteligencia de manera efectiva.
Con el tiempo, se han desarrollado otros métodos de evaluación. Por ejemplo, la victoria de Deep Blue sobre Garry Kasparov en ajedrez fue un momento significativo, pero no abordó la cuestión de la inteligencia general. Modelos más recientes, como GPT-4.5, han demostrado habilidades impresionantes en la imitación del lenguaje humano, pero aún cometen errores que serían impensables para un ser humano, como confundir letras en palabras simples. Esto ha llevado a la búsqueda de criterios de evaluación que no puedan ser manipulados mediante trucos computacionales.
Uno de los nuevos benchmarks que ha ganado atención es el ARC (Abstraction and Reasoning Corpus), creado por François Chollet. Este test se centra en la capacidad de la IA para aprender nuevas habilidades a partir de pocos ejemplos, presentando rompecabezas visuales que requieren deducir reglas abstractas y aplicarlas en situaciones inéditas. Mientras que los humanos suelen resolver estos desafíos con facilidad, las máquinas a menudo fallan. OpenAI logró que uno de sus modelos superara el promedio humano en este test, pero a un costo computacional significativo.
En 2024, Chollet y la ARC Prize Foundation lanzaron una versión más difícil del test, el ARC-AGI-2, ofreciendo un premio de un millón de dólares a los equipos que logren superar el 85% de aciertos bajo condiciones estrictas. Hasta ahora, el mejor desempeño de las máquinas ha sido un 16%, en comparación con el 60% de los humanos, lo que resalta la brecha actual en el razonamiento abstracto entre la IA avanzada y los seres humanos.
### Nuevas Perspectivas y Controversias en la Evaluación de la AGI
El test ARC, aunque innovador, no está exento de críticas. Jiaxuan You, de la Universidad de Illinois, lo considera un buen benchmark teórico, pero advierte que no refleja la complejidad del mundo real ni abarca el razonamiento social. Melanie Mitchell, del Instituto Santa Fe, también ha señalado que, aunque el test describe cómo se abstraen reglas a partir de pocos ejemplos, no captura lo que la gente entiende por inteligencia general.
Para abordar estas críticas, Chollet está trabajando en una nueva versión del test que incluirá tareas inspiradas en minijuegos, ampliando así el espectro de habilidades evaluadas. Además, han surgido otros tests que buscan cubrir diferentes aspectos de la AGI. Por ejemplo, el General-Bench utiliza modalidades que integran texto, imágenes, video, audio y 3D para analizar el rendimiento en reconocimiento, razonamiento, creatividad y juicio ético. Sin embargo, ningún sistema actual ha demostrado dominar todas estas dimensiones de manera integrada.
El algoritmo Dreamer de Google DeepMind ha mostrado habilidades en más de 150 tareas virtuales, pero su desempeño en situaciones del mundo físico sigue siendo incierto. Por otro lado, el Tong test propone asignar a «personas virtuales» tareas aleatorias que examinen no solo su comprensión y habilidades, sino también sus valores y capacidad de adaptación. Sus autores argumentan que una evaluación completa de la AGI debe incluir exploración autónoma, alineación con valores humanos, comprensión causal y un flujo constante de tareas impredecibles.
El debate sobre si la AGI debe demostrar habilidades físicas o si es suficiente con las cognitivas continúa sin resolverse. Un estudio de Google DeepMind sostiene que solo se requiere software, mientras que Melanie Mitchell insiste en la necesidad de evaluar la capacidad de la IA para completar trabajos reales y reaccionar ante problemas inesperados en el mundo. Jeff Clune, de la Universidad de British Columbia, ha sugerido que no solo se debe medir el rendimiento observable, sino también los procesos internos de la IA, advirtiendo que tienden a encontrar atajos ingeniosos pero poco fiables.
La verdadera prueba para la IA, según Clune, es su impacto en el mundo real. La automatización del trabajo y la generación de descubrimientos científicos ofrecen indicadores más fiables que cualquier benchmark. Sin embargo, a pesar de los avances y la aparición de nuevas pruebas, alcanzar un consenso sobre la AGI y cómo demostrar su existencia sigue siendo un desafío. Anna Ivanova, psicóloga de Georgia Tech, ha destacado que la percepción social sobre qué es la inteligencia y qué es valioso está en constante cambio. El término AGI, aunque útil para expresar aspiraciones y temores, requiere siempre una aclaración precisa y un benchmark específico para ser verdaderamente significativo.