Qwen3-Max-Thinking

Name: Qwen3-Max-Thinking
Availability: InStock
Author: 阿里巴巴

推理大模型

Qwen3-Max-Thinking

发布时间: 2026-01-26更新于: 2026-03-08 21:06:20知识截止: 2024-101,551

在线体验GitHubHugging FaceCompare

模型参数

10000亿

上下文长度

1000K

中文支持

支持

推理能力

Qwen3-Max-Thinking 是由阿里巴巴发布的 AI 模型，发布时间为 2026-01-26，定位为推理大模型，参数规模约为 10000.0B，上下文长度为 1000K，采用不开源许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Qwen3-Max-Thinking

模型基本信息

推理过程

支持

思考模式

思考水平 · 扩展 (Extended) (默认)

上下文长度

1000K tokens

最大输出长度

32768 tokens

模型类型

推理大模型

发布时间

2026-01-26

模型文件大小

暂无数据

MoE架构

是

总参数 / 激活参数

10000 亿 / 暂无数据

知识截止

2024-10

Qwen3-Max-Thinking

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源- 不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

https://chat.qwen.ai/

Qwen3-Max-Thinking

官方介绍与博客

官方论文

Qwen3-Max-Thinking: Pushing the Limits of Reasoning via Test-Time Scaling

DataLearnerAI博客

暂无介绍博客

Qwen3-Max-Thinking

API接口信息

接口速度

3/5

💡默认单位：$/100万 tokens。若计费单位不同，则以供应商公开的原始标注为准。

标准计费Standard

模态	输入	输出
文本	$1.2	$6

超上下文计费Extended

模态	输入	输出
文本	$2.4	$12

Qwen3-Max-Thinking

评测结果

Qwen3-Max-Thinking 当前已收录的代表性评测结果包括 LiveCodeBench（12 / 118，得分 85.90）、C-Eval（1 / 9，得分 93.70）、HLE（19 / 149，得分 49.80）。本页还汇总了参数规模、上下文长度与 API 价格，便于结合评测结果与部署约束一起判断模型适配度。

综合评估

共 5 项评测

评测名称 / 模式

得分

排名/总数

C-Eval

思考模式

93.70

1 / 9

GPQA Diamond

思考模式

87.40

32 / 175

MMLU Pro

思考模式

85.70

19 / 124

HLE

思考模式

30.20

68 / 149

HLE

思考模式工具

49.80

19 / 149

编程与软件工程

共 2 项评测

评测名称 / 模式

得分

排名/总数

LiveCodeBench

思考模式

85.90

12 / 118

SWE-bench Verified

思考模式

75.30

28 / 103

Agent能力评测

共 1 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench

思考模式工具

82.10

11 / 40

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总数

IF Bench

思考模式工具

70.90

9 / 27

数学推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

IMO-AnswerBench

思考模式

83.90

8 / 17

OpenClaw智能体能力综合测评

共 1 项评测

评测名称 / 模式

得分

排名/总数

Pinch Bench

思考模式工具

80.30

23 / 37

查看评测深度分析与其他模型对比

Qwen3-Max-Thinking

发布机构

阿里巴巴

查看发布机构详情

Qwen3-Max-Thinking

模型解读

2025年9月，阿里层发布Qwen3-Max-Thinking的预览版本，但是直到4个多月后的2026年1月26日，才发布了Qwen3-Max-Thinking的正式版本，正式版本相比较预览版本能力显著提升。但是中间经过了这么长时间，可能是做了继续的后训练。

1. Qwen3-Max-Thinking 简介与核心定位

Qwen3-Max-Thinking 是阿里云于 2026 年 1 月正式发布的通义千问系列最强旗舰模型，也是阿里首个参数规模突破万亿（1T+）的生产级模型。作为 Qwen3 系列的巅峰之作，该模型专为解决极高复杂度的科学推理、数学计算及深度编程任务而设计。其核心突破在于引入了“测试时扩展（Test-time Scaling）”机制与自适应工具调用能力，标志着通义千问从“通用对话”向“深度推理与自主智能体”的代际跨越。在官方定位中，它不仅是常规的对话模型，更是具备“慢思考”能力的推理专家，旨在对标并超越 GPT-5.2 与 Gemini 3 Pro 等国际顶尖模型。

2. 架构与技术规格

模型参数：总参数量超过 10,000 亿（1 Trillion+），采用极其高效的 MoE（混合专家）架构，在保持超大规模知识容量的同时，通过稀疏激活显著降低了推理成本。
上下文窗口：原生支持 1M (1,000,000) Tokens 上下文，结合阿里独创的 ChunkFlow 策略，能够处理超长文档分析与代码库级的全量阅读。
架构特点：核心创新在于引入了强化学习后训练（Post-training RL）与测试时扩展机制。模型不再只是简单预测下一个 Token，而是能够通过“思考模式”在内部进行多轮自我迭代、错误修正与路径探索，从而在输出最终答案前完成深度的逻辑验证。

3. 核心能力与支持模态

模态支持：当前版本主要聚焦于纯文本与代码的高级推理（Text-in, Text-out），暂未集成视觉等多模态原生输入（需配合 Qwen-VL 使用）。
能力详述：
- 深度思考（Thinking Mode）：在处理奥数题、复杂算法或科研难题时，模型会显式地展示思维链（Chain of Thought），其推理深度与准确率随思考时间线性增长。
- 自适应工具调用：具备原生 Agent 能力，能根据问题需求自主决定是否调用代码解释器、搜索引擎或知识库，并能自我纠正工具使用的返回错误。

4. 性能与基准评测

根据 2026 年 1 月发布的官方技术报告，Qwen3-Max-Thinking 在多个权威基准测试中刷新了全球纪录：

HLE (Humanity's Last Exam)：在这一被称为“人类最后测试”的高难评测中，得分达到 58.3，显著优于 GPT-5.2-Thinking (45.5) 和 Gemini 3 Pro (45.8)。
数学与代码：在 AIME 25（数学竞赛）与 LiveCodeBench（实时编程）中均取得 SOTA 成绩，特别是在启用“深度思考”模式后，解决复杂长尾问题的成功率提升了 40% 以上。

5. 应用场景与限制

推荐用例：科学研究辅助（如论文逻辑验证）、复杂金融建模、全栈软件开发、法律文书深度分析等需要高精度与长逻辑链的场景。
已知局限：在开启“思考模式”时，首字延迟（TTFT）会显著增加，且推理成本较常规模式更高；不建议用于简单的闲聊或对实时性要求极高的客服场景。

6. 访问方式与许可

目前 Qwen3-Max-Thinking 已通过阿里云百炼平台（Model Studio）提供 API 服务，模型 ID 为 qwen3-max-2026-01-23。作为商业旗舰模型，该版本不开源，仅提供 API 访问与私有化部署选项。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

模态

输入

输出

文本

$1.2

模态

输入

输出

文本

$2.4

$12