DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
目录
大模型列表Qwen3-Max-Thinking
QW

Qwen3-Max-Thinking

推理大模型

Qwen3-Max-Thinking

发布时间: 2026-01-26更新于: 2026-03-08 21:06:20知识截止: 2024-101,551
在线体验GitHubHugging FaceCompare
模型参数
10000亿
上下文长度
1000K
中文支持
支持
推理能力

Qwen3-Max-Thinking 是由 阿里巴巴 发布的 AI 模型,发布时间为 2026-01-26,定位为 推理大模型,参数规模约为 10000.0B,上下文长度为 1000K,采用 不开源 许可。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

Qwen3-Max-Thinking

模型基本信息

推理过程
支持
思考模式
思考水平 · 扩展 (Extended) (默认)
上下文长度
1000K tokens
最大输出长度
32768 tokens
模型类型
推理大模型
发布时间
2026-01-26
模型文件大小
暂无数据
MoE架构
是
总参数 / 激活参数
10000 亿 / 暂无数据
知识截止
2024-10
Qwen3-Max-Thinking

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源- 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
https://chat.qwen.ai/
Qwen3-Max-Thinking

官方介绍与博客

官方论文
Qwen3-Max-Thinking: Pushing the Limits of Reasoning via Test-Time Scaling
DataLearnerAI博客
暂无介绍博客
Qwen3-Max-Thinking

API接口信息

接口速度
3/5
💡默认单位:$/100万 tokens。若计费单位不同,则以供应商公开的原始标注为准。
标准计费Standard
模态输入输出
文本$1.2$6
超上下文计费Extended
模态输入输出
文本$2.4$12
Qwen3-Max-Thinking

评测结果

Qwen3-Max-Thinking 当前已收录的代表性评测结果包括 LiveCodeBench(12 / 118,得分 85.90)、C-Eval(1 / 9,得分 93.70)、HLE(19 / 149,得分 49.80)。 本页还汇总了参数规模、上下文长度与 API 价格,便于结合评测结果与部署约束一起判断模型适配度。

思考模式
全部思考
思考模式细分 (1)
全部默认 (扩展)
工具使用
全部使用工具不使用工具

综合评估

共 5 项评测
评测名称 / 模式
得分
排名/总数
C-Eval
思考模式
93.70
1 / 9
GPQA Diamond
思考模式
87.40
32 / 175
MMLU Pro
思考模式
85.70
19 / 124
HLE
思考模式
30.20
68 / 149
HLE
思考模式工具
49.80
19 / 149

编程与软件工程

共 2 项评测
评测名称 / 模式
得分
排名/总数
LiveCodeBench
思考模式
85.90
12 / 118
SWE-bench Verified
思考模式
75.30
28 / 103

Agent能力评测

共 1 项评测
评测名称 / 模式
得分
排名/总数
τ²-Bench
思考模式工具
82.10
11 / 40

指令跟随

共 1 项评测
评测名称 / 模式
得分
排名/总数
IF Bench
思考模式工具
70.90
9 / 27

数学推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
IMO-AnswerBench
思考模式
83.90
8 / 17

OpenClaw智能体能力综合测评

共 1 项评测
评测名称 / 模式
得分
排名/总数
Pinch Bench
思考模式工具
80.30
23 / 37
查看评测深度分析与其他模型对比
Qwen3-Max-Thinking

发布机构

阿里巴巴
阿里巴巴
查看发布机构详情
Qwen3-Max-Thinking

模型解读

2025年9月,阿里层发布Qwen3-Max-Thinking的预览版本,但是直到4个多月后的2026年1月26日,才发布了Qwen3-Max-Thinking的正式版本,正式版本相比较预览版本能力显著提升。但是中间经过了这么长时间,可能是做了继续的后训练。



1. Qwen3-Max-Thinking 简介与核心定位

Qwen3-Max-Thinking 是阿里云于 2026 年 1 月正式发布的通义千问系列最强旗舰模型,也是阿里首个参数规模突破万亿(1T+)的生产级模型。作为 Qwen3 系列的巅峰之作,该模型专为解决极高复杂度的科学推理、数学计算及深度编程任务而设计。其核心突破在于引入了“测试时扩展(Test-time Scaling)”机制与自适应工具调用能力,标志着通义千问从“通用对话”向“深度推理与自主智能体”的代际跨越。在官方定位中,它不仅是常规的对话模型,更是具备“慢思考”能力的推理专家,旨在对标并超越 GPT-5.2 与 Gemini 3 Pro 等国际顶尖模型。

2. 架构与技术规格

  • 模型参数:总参数量超过 10,000 亿(1 Trillion+),采用极其高效的 MoE(混合专家)架构,在保持超大规模知识容量的同时,通过稀疏激活显著降低了推理成本。
  • 上下文窗口:原生支持 1M (1,000,000) Tokens 上下文,结合阿里独创的 ChunkFlow 策略,能够处理超长文档分析与代码库级的全量阅读。
  • 架构特点:核心创新在于引入了强化学习后训练(Post-training RL)与测试时扩展机制。模型不再只是简单预测下一个 Token,而是能够通过“思考模式”在内部进行多轮自我迭代、错误修正与路径探索,从而在输出最终答案前完成深度的逻辑验证。

3. 核心能力与支持模态

  • 模态支持:当前版本主要聚焦于纯文本与代码的高级推理(Text-in, Text-out),暂未集成视觉等多模态原生输入(需配合 Qwen-VL 使用)。
  • 能力详述:
     - 深度思考(Thinking Mode):在处理奥数题、复杂算法或科研难题时,模型会显式地展示思维链(Chain of Thought),其推理深度与准确率随思考时间线性增长。
     - 自适应工具调用:具备原生 Agent 能力,能根据问题需求自主决定是否调用代码解释器、搜索引擎或知识库,并能自我纠正工具使用的返回错误。

4. 性能与基准评测

根据 2026 年 1 月发布的官方技术报告,Qwen3-Max-Thinking 在多个权威基准测试中刷新了全球纪录:

  • HLE (Humanity's Last Exam):在这一被称为“人类最后测试”的高难评测中,得分达到 58.3,显著优于 GPT-5.2-Thinking (45.5) 和 Gemini 3 Pro (45.8)。
  • 数学与代码:在 AIME 25(数学竞赛)与 LiveCodeBench(实时编程)中均取得 SOTA 成绩,特别是在启用“深度思考”模式后,解决复杂长尾问题的成功率提升了 40% 以上。

5. 应用场景与限制

  • 推荐用例:科学研究辅助(如论文逻辑验证)、复杂金融建模、全栈软件开发、法律文书深度分析等需要高精度与长逻辑链的场景。
  • 已知局限:在开启“思考模式”时,首字延迟(TTFT)会显著增加,且推理成本较常规模式更高;不建议用于简单的闲聊或对实时性要求极高的客服场景。

6. 访问方式与许可

目前 Qwen3-Max-Thinking 已通过阿里云百炼平台(Model Studio)提供 API 服务,模型 ID 为 qwen3-max-2026-01-23。作为商业旗舰模型,该版本不开源,仅提供 API 访问与私有化部署选项。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码