DeepSeek-V3.1 评测详情

常规模式

91.80

4 / 65

开启思考

93.40

1 / 65

常规模式

83.70

39 / 124

开启思考

23 / 124

常规模式

74.90

92 / 175

开启思考

80.10

72 / 175

HLE

开启思考

15.90

110 / 149

常识问答

共 1 项评测

评测名称 / 模式

得分

排名/总数

SimpleQA

开启思考

93.40

4 / 45

编程与软件工程

共 3 项评测

评测名称 / 模式

得分

排名/总数

常规模式

56.40

76 / 118

开启思考

74.80

38 / 118

SWE-bench Verified

常规模式

65 / 103

数学推理

共 4 项评测

评测名称 / 模式

得分

排名/总数

常规模式

66.30

40 / 62

开启思考

93.10

7 / 62

常规模式

49.80

87 / 106

开启思考

88.40

42 / 106

AI Agent - 工具使用

共 1 项评测

评测名称 / 模式

得分

排名/总数

Terminal-Bench

常规模式工具

31.30

19 / 35

Agent能力评测

共 2 项评测

评测名称 / 模式

得分

排名/总数

常规模式

68.40

13 / 26

开启思考

76.30

5 / 26

与其他模型对比

DeepSeek-V3.1 评测详情

DeepSeek-V3.1 当前已收录的代表性评测结果包括 MMLU（1 / 65，得分 93.40）、SimpleQA（4 / 45，得分 93.40）、AIME 2024（7 / 62，得分 93.10）。

评测结果

DeepSeek-V3.1

评测结果

综合评估

共 7 项评测

评测名称 / 模式

得分

排名/总数

常规模式

91.80

4 / 65

开启思考

93.40

1 / 65

常规模式

83.70

39 / 124

开启思考

23 / 124

常规模式

74.90

92 / 175

开启思考

80.10

72 / 175

HLE

开启思考

15.90

110 / 149

常识问答

共 1 项评测

评测名称 / 模式

得分

排名/总数

SimpleQA

开启思考

93.40

4 / 45

编程与软件工程

共 3 项评测

评测名称 / 模式

得分

排名/总数

常规模式

56.40

76 / 118

开启思考

74.80

38 / 118

SWE-bench Verified

常规模式

65 / 103

数学推理

共 4 项评测

评测名称 / 模式

得分

排名/总数

常规模式

66.30

40 / 62

开启思考

93.10

7 / 62

常规模式

49.80

87 / 106

开启思考

88.40

42 / 106

AI Agent - 工具使用

共 1 项评测

评测名称 / 模式

得分

排名/总数

Terminal-Bench

常规模式工具

31.30

19 / 35

Agent能力评测

共 2 项评测

评测名称 / 模式

得分

排名/总数

常规模式

68.40

13 / 26