Qwen 3.6 Plus Preview 评测深度分析

Qwen 3.6 Plus Preview 评测分析：AIME 2026 以 95.30 排名第一，HLE 有无工具差距达 21.8 分，Terminal Bench 较前代提升 9.1 分，IF Bench 则出现退步。本文基于 DataLearner 数据，对比 Kimi K2.5 与 MiniMax-M2.7，梳理本次迭代的能力取舍。

Qwen 3.6 Plus Preview 于2026年3月31日正式上线，是阿里巴巴 Qwen Plus 系列的最新预览版本。相较于前代 Qwen3.5-397B-A17B（2026年2月），这次迭代用了不到两个月时间，以 DataLearner 收录的11项评测数据为基础，本文尝试梳理这个模型的真实水平。

模型基本信息

架构层面，Qwen 3.6 Plus Preview 使用了线性注意力机制与稀疏 MoE（Mixture-of-Experts）的混合设计，上下文窗口为100万 token，最大单次输出65,536 token。模型目前不开源，参数量未披露，目前通过 OpenRouter 提供免费预览访问。

一、各类别基准表现

综合知识与推理

GPQA Diamond 是目前学界公认难度较高的研究生级问答评测，Qwen 3.6 Plus Preview 得分 90.40，在162个被收录模型中排名第11。MMLU Pro 得分 88.50，在115个模型中排名第4。C-Eval 93.30，在收录的6个参测模型中排名第2。

这三项评测的共性是题目难度偏高但属于封闭式问答，不涉及外部工具调用。Qwen 3.6 Plus 在这一类别处于第一梯队。

评测结果

Qwen 3.6 Plus Preview

评测结果

综合评估

共 5 项评测

评测名称 / 模式

得分

排名/总数

C-Eval

思考模式

93.30

2 / 9

GPQA Diamond

思考模式

90.40

15 / 175

MMLU Pro

思考模式

88.50

4 / 124

HLE

思考模式

28.80

71 / 149

HLE

思考模式工具

50.60

14 / 149

编程与软件工程

共 5 项评测

评测名称 / 模式

得分

排名/总数

LiveCodeBench

思考模式

87.10

9 / 118

SWE-bench Verified

思考模式工具

78.80

16 / 103

SWE-bench Multilingual

思考模式

73.80

5 / 17

SWE-Bench Pro - Public

思考模式

56.60

9 / 36

SWE-Bench Pro - Public

思考模式工具

56.60

9 / 36

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总数

IF Bench

思考模式

74.20

5 / 27

AI Agent - 工具使用

共 2 项评测

评测名称 / 模式

得分

排名/总数

Terminal Bench 2.0

思考模式工具

61.60

14 / 43

Tool Decathlon

思考模式工具

39.80

4 / 7

数学推理

共 2 项评测

评测名称 / 模式

得分

排名/总数

AIME 2026

思考模式

95.30

2 / 14

IMO-AnswerBench

思考模式

83.80

9 / 17

长上下文能力

共 1 项评测

评测名称 / 模式

得分

排名/总数

AA-LCR

思考模式

68.30

6 / 13

与其他模型对比

Qwen 3.6 Plus Preview 评测深度分析

模型基本信息

一、各类别基准表现

综合知识与推理

评测结果

评测结果

综合评估

编程与软件工程

指令跟随

AI Agent - 工具使用

数学推理

长上下文能力

数据来源

极难评测（HLE）的工具依赖问题

数学推理

编程与软件工程

AI Agent 能力

指令跟随

长上下文理解

二、竞品对比小结

三、代际迭代的几点观察

四、尚不明确的信息

总结