大模型ARC-AGI-3评测基准：首个交互式推理基准

ARC-AIG-3最新完整的评测结果可以访问DataLearnerAI的ARC-AGI-3数据：https://www.datalearner.com/benchmarks/arc-agi-3

ARC-AGI 系列基准由 ARC Prize Foundation 维护，长期被主要 AI 实验室和学术研究者作为衡量 AI 推理能力的参照。

从形式上看，ARC-AGI 可以理解为一类“从示例中归纳规则”的任务集合。系统接收到若干组输入/输出示例，每个示例由小尺寸二维网格构成，网格中的每个单元为离散取值（通常表示颜色编号）。模型需要从这些示例中推断潜在的变换规则，并将该规则应用到新的输入上生成正确输出。

需要强调的是，这里的“图像”并非自然图片，而是抽象网格结构（可视为二维数组），任务不涉及现实语义理解，而是聚焦于结构归纳、模式组合与规则外推能力。

例如，一个典型任务可能如下：

输入：

项目	内容
发布机构	ARC Prize Foundation
核心作者	François Chollet、Mike Knoop 等
正式发布时间	2026年3月25日
预览版时间	2025年7月17日
技术论文	arxiv 2603.24621，将在 ICLR 2026 正式发表
竞赛平台	Kaggle（ARC Prize 2026）
总奖金	超过 200 万美元（分三个赛道）
开源要求	所有获奖方案须以 CC0 或 MIT-0 许可公开

一、前两代基准的进展与饱和