如何评估大模型的Agent能力？τ²-Bench：评估双控对话智能体的新标准

在对话式人工智能（Conversational AI）的发展中，评测体系的重要性与模型能力同等关键。

从早期的问答模型到如今能够执行任务的智能体（agent），研究者一直希望找到一种可以客观反映模型“真实可用性”的标准。

然而，现实应用与传统评测之间存在明显脱节：在很多实际场景中，人类用户本身也具备操作能力，而智能体往往需要指导人完成任务。这类“双控”情境，是当前评测体系普遍缺乏的部分。

为了解决这个问题，普林斯顿大学与 Sierra Research 的研究团队在 2025 年 6 月提出了 τ²-Bench（Tau-Squared Benchmark），并发布了论文《τ²-Bench: Evaluating Conversational Agents in a Dual-Control Environment》。它是对早期 τ-Bench 的扩展版本，旨在建立一种标准化方法，评估智能体在与用户共同作用于环境时的表现。

关于大模型在τ²-Bench得分数据参考DataLearnerAI的大模型评测基准结果：https://www.datalearner.com/benchmarks/Tau-Squared-Benchmark

一、现有评测的局限

当前主流智能体评测大多假设“单控环境”：智能体拥有全部工具和操作权限，而用户只负责提问或输入文字。这种设定便于量化模型的推理和调用能力，但也造成几个现实偏差：

用户始终是被动方，评测无法体现模型的“指导”能力；
当任务失败时，很难区分是模型推理错误，还是交互沟通失败；

如何评估大模型的Agent能力？τ²-Bench：评估双控对话智能体的新标准

一、现有评测的局限

DataLearner 官方微信

二、τ²-Bench 的设计与目标

三、四个评测领域与任务构造

四、用户模拟器与评测模式

五、评测指标与流程

六、实验结果与观察

七、总结与展望

热门博客