DE

DeepSeek V3.2-Exp

推理大模型

DeepSeek-V3.2-Exp

发布时间: 2025-09-29更新于: 2026-04-08 15:40:55.9781,799

在线体验 GitHub Hugging Face Compare

模型参数

6710亿

上下文长度

128K

中文支持

不支持

推理能力

DeepSeek V3.2-Exp 是 DeepSeek 于2025年9月发布的实验版本，首次引入 DeepSeek Sparse Attention（DSA）稀疏注意力机制，在保持与 V3.1-Terminus 相当性能的同时，将长上下文推理速度提升 2–3 倍，API 定价下调超过 50%。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

DeepSeek V3.2-Exp

模型基本信息

推理过程

支持

思考模式

思考模式 (默认)

上下文长度

128K tokens

最大输出长度

64000 tokens

模型类型

推理大模型

发布时间

2025-09-29

模型文件大小

1342GB

MoE架构

是

总参数 / 激活参数

6710 亿 / 370 亿

知识截止

暂无数据

DeepSeek V3.2-Exp

开源和体验地址

代码开源状态

预训练权重开源

MIT License- 免费商用授权

GitHub 源码

https://github.com/deepseek-ai/DeepSeek-V3.2-Exp

Hugging Face

https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

在线体验

https://chat.deepseek.com

DeepSeek V3.2-Exp

官方介绍与博客

官方论文

DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention

DataLearnerAI博客

暂无介绍博客

DeepSeek V3.2-Exp

API接口信息

接口速度

3/5

暂无公开的 API 定价信息。

DeepSeek V3.2-Exp

评测结果

DeepSeek V3.2-Exp 当前已收录的代表性评测结果包括 SimpleQA（1 / 45，得分 97.10）、MMLU Pro（23 / 124，得分 85）、Aider-Polyglot（7 / 26，得分 74.50）。本页还汇总了参数规模、上下文长度与 API 价格，便于结合评测结果与部署约束一起判断模型适配度。

综合评估

共 4 项评测

评测名称 / 模式

得分

排名/总数

常规模式

84

35 / 124

常规模式

74

93 / 175

常规模式

66.64

29 / 52

常规模式

8.60

129 / 149

编程与软件工程

共 1 项评测

评测名称 / 模式

得分

排名/总数

常规模式

55

82 / 118

数学推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

常规模式

58

83 / 106

AI Agent - 工具使用

共 1 项评测

评测名称 / 模式

得分

排名/总数

常规模式工具

23

30 / 35

Agent能力评测

共 1 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

常规模式工具

34

34 / 35

查看评测深度分析与其他模型对比

DeepSeek V3.2-Exp

发布机构

DeepSeek-AI

查看发布机构详情

DeepSeek-V3.2-Exp

模型解读

DeepSeek V3.2 系列共包含三个版本：V3.2-Exp、V3.2 正式版和 V3.2-Speciale。V3.2-Exp 是2025年9月发布的实验版本，主要目的是验证新的注意力机制架构；V3.2 正式版于2026年1月发布，是完成完整后训练流程的通用旗舰版本；V3.2-Speciale 是同期发布的高算力推理变体，专为极限推理场景设计。

DeepSeek V3.2-Exp 于2025年9月29日发布，是 V3.2 系列的实验前置版本。它的核心工作只有一件事：在不损失模型性能的前提下，将原有的 Multi-head Latent Attention（MLA）替换为新设计的 DeepSeek Sparse Attention（DSA）机制，并通过大规模训练验证这一架构替换的可行性。

DSA 解决的是长上下文场景下的计算效率问题。传统 Dense Attention 的计算复杂度随序列长度平方增长，在处理 128K 以上的长上下文时算力和显存开销极高。DSA 引入了一个轻量索引器，对历史 token 快速打分后只选取最相关的 top-2048 个 KV token 参与注意力计算，将复杂度从 O(L²) 降至接近线性。在此基础上，V3.2-Exp 的长上下文推理速度提升 2–3 倍，显存占用降低 30–40%，API 定价同步下调超过 50%。

性能方面，DeepSeek 官方在发布时明确表示，V3.2-Exp 在各项公开 benchmark 上与前代 V3.1-Terminus 基本持平，没有明显提升，也没有明显下降。这符合这次发布的定位：架构验证而非能力升级。V3.2-Exp 的训练过程也印证了这一点——DeepSeek 刻意对齐了 V3.2-Exp 与 V3.1-Terminus 的训练配置，目的是排除其他变量，单独评估引入稀疏注意力机制的影响。

从实用角度看，V3.2-Exp 对于大多数开发者的意义有限，它更多是 DeepSeek 内部的一次架构迁移验证，以及为后续正式版发布提前准备推理生态适配（包括 SGLang、vLLM 等推理框架对 DSA 的支持）。模型以 MIT 协议开源，上下文窗口为 163,840 tokens，支持思考模式和工具调用。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

DataLearner 官方微信二维码