DeepSeek V3.2-Exp 评测详情

常规模式

35 / 124

思考模式

23 / 124

常规模式

93 / 175

思考模式

79.90

74 / 175

常规模式

66.64

29 / 52

思考模式

71.64

15 / 52

常规模式

8.60

129 / 149

思考模式

19.80

96 / 149

思考模式工具

20.30

94 / 149

常识问答

共 1 项评测

评测名称 / 模式

得分

排名/总数

SimpleQA

思考模式工具

97.10

1 / 45

编程与软件工程

共 3 项评测

评测名称 / 模式

得分

排名/总数

常规模式

82 / 118

思考模式

74.10

39 / 118

SWE-bench Verified

思考模式工具

67.80

62 / 103

数学推理

共 2 项评测

评测名称 / 模式

得分

排名/总数

常规模式

83 / 106

思考模式

89.30

39 / 106

AI Agent - 工具使用

共 2 项评测

评测名称 / 模式

得分

排名/总数

常规模式工具

30 / 35

思考模式工具

37.70

14 / 35

Agent能力评测

共 4 项评测

评测名称 / 模式

得分

排名/总数

Aider-Polyglot

思考模式工具

74.50

7 / 26

τ²-Bench

思考模式工具

66.70

26 / 40

常规模式工具

34 / 35

思考模式工具

34 / 35

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总数

IF Bench

思考模式

54.10

24 / 27

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

思考模式工具

40.10

39 / 43

与其他模型对比

DeepSeek V3.2-Exp 评测详情

DeepSeek V3.2-Exp 当前已收录的代表性评测结果包括 SimpleQA（1 / 45，得分 97.10）、MMLU Pro（23 / 124，得分 85）、Aider-Polyglot（7 / 26，得分 74.50）。

评测结果

DeepSeek V3.2-Exp

评测结果

综合评估

共 9 项评测

评测名称 / 模式

得分

排名/总数

常规模式

35 / 124

思考模式

23 / 124

常规模式

93 / 175

思考模式

79.90

74 / 175

常规模式

66.64

29 / 52

思考模式

71.64

15 / 52

常规模式

8.60

129 / 149

思考模式

19.80

96 / 149

思考模式工具

20.30

94 / 149

常识问答

共 1 项评测

评测名称 / 模式

得分

排名/总数

SimpleQA

思考模式工具

97.10

1 / 45

编程与软件工程

共 3 项评测

评测名称 / 模式

得分

排名/总数

常规模式

82 / 118

思考模式

74.10

39 / 118

SWE-bench Verified

思考模式工具

67.80

62 / 103

数学推理

共 2 项评测

评测名称 / 模式

得分

排名/总数

常规模式

83 / 106

思考模式

89.30

39 / 106

AI Agent - 工具使用

共 2 项评测

评测名称 / 模式

得分

排名/总数

常规模式工具

30 / 35

思考模式工具

37.70

14 / 35

Agent能力评测

共 4 项评测

评测名称 / 模式

得分

排名/总数

Aider-Polyglot

思考模式工具

74.50

7 / 26

τ²-Bench

思考模式工具

66.70

26 / 40

常规模式工具

34 / 35