如何评估大模型的Agent能力?τ²-Bench:评估双控对话智能体的新标准
在对话式人工智能(Conversational AI)的发展中,评测体系的重要性与模型能力同等关键。
从早期的问答模型到如今能够执行任务的智能体(agent),研究者一直希望找到一种可以客观反映模型“真实可用性”的标准。

然而,现实应用与传统评测之间存在明显脱节:在很多实际场景中,人类用户本身也具备操作能力,而智能体往往需要指导人完成任务。这类“双控”情境,是当前评测体系普遍缺乏的部分。
为了解决这个问题,普林斯顿大学与 Sierra Research 的研究团队在 2025 年 6 月提出了 τ²-Bench(Tau-Squared Benchmark),并发布了论文《τ²-Bench: Evaluating Conversational Agents in a Dual-Control Environment》。 它是对早期 τ-Bench 的扩展版本,旨在建立一种标准化方法,评估智能体在与用户共同作用于环境时的表现。
关于大模型在τ²-Bench得分数据参考DataLearnerAI的大模型评测基准结果:https://www.datalearner.com/benchmarks/Tau-Squared-Benchmark
一、现有评测的局限
当前主流智能体评测大多假设“单控环境”:智能体拥有全部工具和操作权限,而用户只负责提问或输入文字。 这种设定便于量化模型的推理和调用能力,但也造成几个现实偏差:
- 用户始终是被动方,评测无法体现模型的“指导”能力;
- 当任务失败时,很难区分是模型推理错误,还是交互沟通失败;
