DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
页面导航
大模型列表DeepSeek V3.2-Exp评测分析

DeepSeek V3.2-Exp 评测详情

DeepSeek V3.2-Exp 当前已收录的代表性评测结果包括 SimpleQA(1 / 45,得分 97.10)、MMLU Pro(23 / 124,得分 85)、Aider-Polyglot(7 / 26,得分 74.50)。

评测结果

DeepSeek V3.2-Exp

评测结果

思考模式
工具使用

综合评估

共 9 项评测
评测名称 / 模式
得分
排名/总数
MMLU Pro
常规模式
84
35 / 124
MMLU Pro
思考模式
85
23 / 124
GPQA Diamond
常规模式
74
93 / 175
GPQA Diamond
思考模式
79.90
74 / 175
LiveBench
常规模式
66.64
29 / 52
LiveBench
思考模式
71.64
15 / 52
HLE
常规模式
8.60
129 / 149
HLE
思考模式
19.80
96 / 149
HLE
思考模式工具
20.30
94 / 149

常识问答

共 1 项评测
评测名称 / 模式
得分
排名/总数
SimpleQA
思考模式工具
97.10
1 / 45

编程与软件工程

共 3 项评测
评测名称 / 模式
得分
排名/总数
LiveCodeBench
常规模式
55
82 / 118
LiveCodeBench
思考模式
74.10
39 / 118
SWE-bench Verified
思考模式工具
67.80
62 / 103

数学推理

共 2 项评测
评测名称 / 模式
得分
排名/总数
AIME2025
常规模式
58
83 / 106
AIME2025
思考模式
89.30
39 / 106

AI Agent - 工具使用

共 2 项评测
评测名称 / 模式
得分
排名/总数
Terminal-Bench
常规模式工具
23
30 / 35
Terminal-Bench
思考模式工具
37.70
14 / 35

Agent能力评测

共 4 项评测
评测名称 / 模式
得分
排名/总数
Aider-Polyglot
思考模式工具
74.50
7 / 26
τ²-Bench
思考模式工具
66.70
26 / 40
τ²-Bench - Telecom
常规模式工具
34
34 / 35
τ²-Bench - Telecom
思考模式工具
34
34 / 35

指令跟随

共 1 项评测
评测名称 / 模式
得分
排名/总数
IF Bench
思考模式
54.10
24 / 27

AI Agent - 信息收集

共 1 项评测
评测名称 / 模式
得分
排名/总数
BrowseComp
思考模式工具
40.10
39 / 43
与其他模型对比