热门大模型对比：DeepSeek V3.1与DeepSeek V3、DeepSeek-R1对比

DeepSeek-V3.1 并不是一次彻底的架构革新，而是对 V3 系列在 稳定性、推理性能与代码生成能力 上的平衡升级，同时在推理模式和 Agent 应用层面有了实质性进展。

1. 推理与非推理的混合模式

与前代模型相比，V3.1 在 “thinking 模式” 与 “normal 模式” 上的差异化表现非常明显：

在纯推理任务（如数学、复杂逻辑）中，V3.1 的 thinking 模式大幅提升精度，接近甚至超过 R1。
在代码类任务中，V3.1 能够灵活切换——thinking 模式强化复杂问题解决，normal 模式则兼顾速度与成本。
相比之下，V3-0324 几乎只能依赖 normal 模式，表现受限；而 R1 则虽然推理极强，但缺少足够的 normal 模式支撑。

这意味着 V3.1 实现了推理与高效执行之间的动态平衡，适合在不同任务下灵活调用，而不是单一走“极致推理”路线。

2. Agent 能力的提升

V3.1 在 Agent 场景中的表现也有明显改进：

长链条任务规划：在 Aider Benchmark、LiveCodeBench 等评测中，V3.1 在保持推理能力的同时，更能稳定完成复杂多步骤代码生成和调试，说明其在“自洽任务执行”上更强。
工具调用与任务协调：虽然尚未开源，但在评测反馈中可以看到 V3.1 的“深度思考”模式能更自然地衔接工具调用，相较 V3-0324 更少中断，较 R1 更均衡。
应用价值：这使得 V3.1 在 Agent 应用场景（如自动问答、运维助手、产品设计助手等）中，更具落地性——不仅能推理，还能把结果落实到工具链条中。

总结洞察

对比 V3-0324：V3.1 不仅提升了精度和鲁棒性，更在推理/非推理混合模式下表现优异，解决了前代模型“只能跑快但不够深”的短板。
对比 R1-0528：V3.1 正在逐渐接近 R 系列的推理优势，同时在 Agent 能力和成本控制上更有优势，成为更均衡的选择。

整体来看，V3.1 的核心价值在于：用混合模式和强化 Agent 能力，推动大模型从“只会答题”走向“能规划、能执行”的下一步。

评测项	DeepSeek-V3.1	DeepSeek-R1-0528	DeepSeek-V3-0324
HLE 综合评估	15.90开启思考	17.70开启思考	5.20常规模式
GPQA Diamond 综合评估	80.10开启思考	81.00开启思考	68.40常规模式
SWE-bench Verified 编程与软件工程	66.00常规模式	57.60开启思考	38.80常规模式
AIME 2024 数学推理	93.10开启思考	91.40开启思考	59.40常规模式
LiveCodeBench 编程与软件工程	74.80开启思考	73.30开启思考	49.20常规模式
AIME2025 数学推理	88.40开启思考	87.50开启思考	47.70常规模式
Terminal-Bench AI Agent - 工具使用	31.30常规模式｜工具	5.70开启思考	13.30常规模式
Aider-Polyglot Agent能力评测	76.30开启思考	71.40开启思考	55.10常规模式

评测项

DeepSeek-V3.1

DeepSeek-R1-0528

DeepSeek-V3-0324

HLE

综合评估

15.90开启思考

17.70开启思考

5.20常规模式

GPQA Diamond

综合评估

80.10开启思考

81.00开启思考

68.40常规模式

SWE-bench Verified

编程与软件工程

66.00常规模式

57.60开启思考

38.80常规模式

AIME 2024

数学推理

93.10开启思考

91.40开启思考

59.40常规模式

LiveCodeBench

编程与软件工程

74.80开启思考

73.30开启思考

49.20常规模式

AIME2025

数学推理

88.40开启思考

87.50开启思考

47.70常规模式

Terminal-Bench

AI Agent - 工具使用

31.30常规模式｜工具

5.70开启思考

13.30常规模式

Aider-Polyglot

Agent能力评测

76.30开启思考

71.40开启思考

55.10常规模式

能力与规格明细

是否 MoE、商业授权、模态支持等附加能力对比。

功能与规格	DeepSeek-V3.1DeepSeek-AI	DeepSeek-R1-0528DeepSeek-AI	DeepSeek-V3-0324DeepSeek-AI
核心规格发布时间	2025-08-20	2025-05-28	2025-03-24
上下文	128K	64K	128K
参数量	6710	6710	6710
激活参数量	370	370	370
最大输出	8192	64000	未提供
MoE 架构	支持	支持	支持
支持模式	常规模式（Non-Thinking Mode）思考模式（Thinking Mode）	思考模式（Thinking Mode）	常规模式（Non-Thinking Mode）
开源与许可代码开源	未开源	未开源	未开源
权重开源	未开源	未开源	未开源
商业授权	免费商用授权	免费商用授权	免费商用授权
模态支持文本输入/输出	/	/	/
图片输入/输出	/	/	/
音频输入/输出	/	/	/
视频输入/输出	/	/	/
Embedding 输入/输出	/	/	/
资料来源论文 / 报告	DeepSeek-V3.1 Release	DeepSeek-R1-0528 Release
DataLearner 博客	DeepSeek V4没有等到，但是DeepSeekAI把DeepSeek V3升级到DeepSeek V3.1了，小幅更新，但核心架构和参数不变	未提供	DeepSeekV3-0324发布：DeepSeek V3基础上大幅升级推理能力和前端网页的美观度，多项评测结果超过GPT-4.5

DeepSeek V3.1与DeepSeek V3、DeepSeek-R1对比

1. 推理与非推理的混合模式

2. Agent 能力的提升

总结洞察

能力分布概览

性能评测对比

评测得分表格

API 价格对比

能力与规格明细