大模型排行榜

大模型评测基准

大模型列表

大模型对比

语言中文

搜索博客

DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台，持续更新可落地的 AI 能力图谱。

产品

评测榜单
模型对比
数据资源

资源

部署教程
原创内容
工具导航

关于

关于我们
隐私政策
数据收集方法
联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例，为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款

GPT OSS 20B 评测结果与排名详情 | DataLearnerAI

页面导航

页面导航

大模型列表GPT OSS 20B评测分析

GPT OSS 20B 评测详情

GPT OSS 20B 当前已收录的代表性评测结果包括 AIME 2024（3 / 62，得分 96）、AIME2025（14 / 106，得分 98.70）、CodeForces（9 / 16，得分 2516）。

评测结果

GPT OSS 20B

评测结果

思考模式

工具使用

综合评估

共 5 项评测

评测名称 / 模式

得分

排名/总数

开启思考

85.30

39 / 65

开启思考

74

81 / 124

开启思考

71.50

100 / 175

开启思考

10.90

120 / 149

开启思考工具

17.30

107 / 149

编程与软件工程

共 3 项评测

评测名称 / 模式

得分

排名/总数

开启思考

2230

12 / 16

开启思考工具

2516

9 / 16

SWE-bench Verified

开启思考

34

97 / 103

数学推理

共 3 项评测

评测名称 / 模式

得分

排名/总数

开启思考

79

59 / 106

开启思考工具

98.70

14 / 106

开启思考工具

96

3 / 62

Agent能力评测

共 1 项评测

评测名称 / 模式

得分

排名/总数

开启思考工具

47.70

35 / 40

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总数

思考水平·高

65.10

17 / 27

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

开启思考工具

28.30

40 / 43

OpenClaw智能体能力综合测评

共 1 项评测

评测名称 / 模式

得分

排名/总数

开启思考工具

66

34 / 37

与其他模型对比