τ²-Bench

Name: τ²-Bench - Overall
Creator: 个人

为了解决大模型的Agent操作依赖交互和人工处理这个问题，普林斯顿大学与 Sierra Research 的研究团队在 2025 年 6 月提出了 τ²-Bench（Tau-Squared Benchmark），并发布了论文《τ²-Bench: Evaluating Conversational Agents in a Dual-Control Environment》。它是对早期 τ-Bench 的扩展版本，旨在建立一种标准化方法，评估智能体在与用户共同作用于环境时的表现。

更新于 2026年4月24日·2,312 次浏览

问题数量: 2285
发布机构: 个人
评测类别: Agent能力评测
评测指标: Accuracy
支持语言: 中文
难度等级: 中等难度

简介

用于评估大模型智能体在双控（人机协同）环境下任务执行与沟通能力的开放基准

τ²-Bench评测最新大模型排名与完整榜单数据

查看 τ²-Bench 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止:

排名	模型				开源情况
	Claude Opus 4.6 扩展思考工具	91.89	2026-02-05	未知	闭源
	Gemini 3.1 Pro Preview 开启思考工具	90.80	2026-02-20	未知	闭源
	Gemini 3.0 Flash 开启思考工具	90.20	2025-12-17	未知	闭源
4	GLM-5 开启思考工具	89.70	2026-02-11	7440亿	免费商用
5	Step 3.5 Flash 开启思考工具	88.20	2026-02-02	1960亿	免费商用
6	GLM-4.7 开启思考工具	87.40	2025-12-22	3580亿	免费商用
7	Qwen3.5-397B-A17B 开启思考工具	86.70	2026-02-16	397亿	免费商用
8	Gemini 3.0 Pro (Preview 11-2025) 开启思考工具	85.40	2025-11-18	未知	闭源
9	Claude Sonnet 4.5 开启思考工具	84.70	2025-09-30	未知	闭源
10	Grok 4.1 Fast 开启思考工具	82.71	2025-11-19	未知	闭源
11	Qwen3-Max-Thinking 开启思考工具	82.10	2026-01-26	10000亿	闭源
12	GPT-5.2 思考水平 · 极高工具	82.00	2025-12-11	未知	闭源
13	Opus 4.5 扩展思考工具	81.99	2025-11-25	未知	闭源
14	DeepSeek V3.2 开启思考工具	80.30	2025-12-01	6710亿	免费商用
15	GPT-5 开启思考工具	80.00	2025-08-07	未知	闭源
16	GLM-4.7-Flash 开启思考工具	79.50	2026-01-19	310亿	免费商用
17	Qwen3.5-27B 开启思考工具	79.00	2026-02-25	270亿	免费商用
18	MiniMax M2 开启思考工具	77.20	2025-10-27	2300亿	免费商用
19	Gemma 4 31B 开启思考工具	76.90	2026-04-02	31亿	免费商用
20	GLM-4.6 开启思考工具	75.90	2025-09-30	3550亿	免费商用
21	Qwen3 Max (Preview) 常规模式工具	74.00	2025-09-05	未知	闭源
22	Claude Opus 4 开启思考工具	72.50	2025-05-23	未知	闭源
23	Qwen3 Max (Preview) 开启思考工具	72.00	2025-09-05	未知	闭源
24	Claude Sonnet 4.5 常规模式工具	71.00	2025-09-30	未知	闭源
25	Gemma 4 26B A4B 开启思考工具	68.20	2026-04	25.2亿	免费商用
26	DeepSeek V3.2-Exp 开启思考工具	66.70	2025-09-29	6710亿	免费商用
27	Kimi K2 常规模式工具	64.30	2025-07-11	10000亿	免费商用
28	Kimi K2 开启思考工具	64.30	2025-07-11	10000亿	免费商用
29	Claude Sonnet 3.7 开启思考工具	61.80	2025-02-25	未知	闭源
30	OpenAI o4 - mini 开启思考工具	56.90	2025-04-16	未知	闭源

继续滚动可加载剩余 10 条

τ²-Bench评测最新大模型排名与完整榜单数据

τ²-Bench 排名