DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
目录
大模型列表DeepSeek V3.2-Exp
DE

DeepSeek V3.2-Exp

推理大模型

DeepSeek-V3.2-Exp

发布时间: 2025-09-29更新于: 2026-04-08 15:40:55.9781,799
在线体验GitHubHugging FaceCompare
模型参数
6710亿
上下文长度
128K
中文支持
不支持
推理能力

DeepSeek V3.2-Exp 是 DeepSeek 于2025年9月发布的实验版本,首次引入 DeepSeek Sparse Attention(DSA)稀疏注意力机制,在保持与 V3.1-Terminus 相当性能的同时,将长上下文推理速度提升 2–3 倍,API 定价下调超过 50%。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

DeepSeek V3.2-Exp

模型基本信息

推理过程
支持
思考模式
思考模式 (默认)
上下文长度
128K tokens
最大输出长度
64000 tokens
模型类型
推理大模型
发布时间
2025-09-29
模型文件大小
1342GB
MoE架构
是
总参数 / 激活参数
6710 亿 / 370 亿
知识截止
暂无数据
DeepSeek V3.2-Exp

开源和体验地址

代码开源状态
MIT License
预训练权重开源
MIT License- 免费商用授权
GitHub 源码
https://github.com/deepseek-ai/DeepSeek-V3.2-Exp
Hugging Face
https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
在线体验
https://chat.deepseek.com
DeepSeek V3.2-Exp

官方介绍与博客

官方论文
DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention
DataLearnerAI博客
暂无介绍博客
DeepSeek V3.2-Exp

API接口信息

接口速度
3/5
暂无公开的 API 定价信息。
DeepSeek V3.2-Exp

评测结果

DeepSeek V3.2-Exp 当前已收录的代表性评测结果包括 SimpleQA(1 / 45,得分 97.10)、MMLU Pro(23 / 124,得分 85)、Aider-Polyglot(7 / 26,得分 74.50)。 本页还汇总了参数规模、上下文长度与 API 价格,便于结合评测结果与部署约束一起判断模型适配度。

思考模式
全部常规思考
思考模式细分 (1)
全部默认 (思考模式)
工具使用
全部使用工具不使用工具

综合评估

共 5 项评测
评测名称 / 模式
得分
排名/总数
MMLU Pro
思考模式
85
23 / 124
GPQA Diamond
思考模式
79.90
74 / 175
LiveBench
思考模式
71.64
15 / 52
HLE
思考模式
19.80
96 / 149
HLE
思考模式工具
20.30
94 / 149

常识问答

共 1 项评测
评测名称 / 模式
得分
排名/总数
SimpleQA
思考模式工具
97.10
1 / 45

编程与软件工程

共 2 项评测
评测名称 / 模式
得分
排名/总数
LiveCodeBench
思考模式
74.10
39 / 118
SWE-bench Verified
思考模式工具
67.80
62 / 103

数学推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
AIME2025
思考模式
89.30
39 / 106

AI Agent - 工具使用

共 1 项评测
评测名称 / 模式
得分
排名/总数
Terminal-Bench
思考模式工具
37.70
14 / 35

Agent能力评测

共 3 项评测
评测名称 / 模式
得分
排名/总数
Aider-Polyglot
思考模式工具
74.50
7 / 26
τ²-Bench
思考模式工具
66.70
26 / 40
τ²-Bench - Telecom
思考模式工具
34
34 / 35

指令跟随

共 1 项评测
评测名称 / 模式
得分
排名/总数
IF Bench
思考模式
54.10
24 / 27

AI Agent - 信息收集

共 1 项评测
评测名称 / 模式
得分
排名/总数
BrowseComp
思考模式工具
40.10
39 / 43
查看评测深度分析与其他模型对比
DeepSeek V3.2-Exp

发布机构

DeepSeek-AI
DeepSeek-AI
查看发布机构详情
DeepSeek-V3.2-Exp

模型解读

DeepSeek V3.2 系列共包含三个版本:V3.2-Exp、V3.2 正式版和 V3.2-Speciale。V3.2-Exp 是2025年9月发布的实验版本,主要目的是验证新的注意力机制架构;V3.2 正式版于2026年1月发布,是完成完整后训练流程的通用旗舰版本;V3.2-Speciale 是同期发布的高算力推理变体,专为极限推理场景设计。


DeepSeek V3.2-Exp 于2025年9月29日发布,是 V3.2 系列的实验前置版本。它的核心工作只有一件事:在不损失模型性能的前提下,将原有的 Multi-head Latent Attention(MLA)替换为新设计的 DeepSeek Sparse Attention(DSA)机制,并通过大规模训练验证这一架构替换的可行性。


DSA 解决的是长上下文场景下的计算效率问题。传统 Dense Attention 的计算复杂度随序列长度平方增长,在处理 128K 以上的长上下文时算力和显存开销极高。DSA 引入了一个轻量索引器,对历史 token 快速打分后只选取最相关的 top-2048 个 KV token 参与注意力计算,将复杂度从 O(L²) 降至接近线性。在此基础上,V3.2-Exp 的长上下文推理速度提升 2–3 倍,显存占用降低 30–40%,API 定价同步下调超过 50%。


性能方面,DeepSeek 官方在发布时明确表示,V3.2-Exp 在各项公开 benchmark 上与前代 V3.1-Terminus 基本持平,没有明显提升,也没有明显下降。这符合这次发布的定位:架构验证而非能力升级。V3.2-Exp 的训练过程也印证了这一点——DeepSeek 刻意对齐了 V3.2-Exp 与 V3.1-Terminus 的训练配置,目的是排除其他变量,单独评估引入稀疏注意力机制的影响。

从实用角度看,V3.2-Exp 对于大多数开发者的意义有限,它更多是 DeepSeek 内部的一次架构迁移验证,以及为后续正式版发布提前准备推理生态适配(包括 SGLang、vLLM 等推理框架对 DSA 的支持)。模型以 MIT 协议开源,上下文窗口为 163,840 tokens,支持思考模式和工具调用。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码