大模型排行榜

大模型评测基准

大模型列表

大模型对比

语言中文

搜索博客

DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台，持续更新可落地的 AI 能力图谱。

产品

评测榜单
模型对比
数据资源

资源

部署教程
原创内容
工具导航

关于

关于我们
隐私政策
数据收集方法
联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例，为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款

Claude3-Opus 评测结果与排名详情 | DataLearnerAI

页面导航

页面导航

大模型列表Claude3-Opus评测分析

Claude3-Opus 评测详情

Claude3-Opus 当前已收录的代表性评测结果包括 GSM8K（8 / 26，得分 95）、HellaSwag（1 / 3，得分 95.40）、MMLU（27 / 65，得分 86.80）。

评测结果

Claude3-Opus

评测结果

思考模式

综合评估

共 3 项评测

评测名称 / 模式

得分

排名/总数

常规模式

86.80

27 / 65

常规模式

68.45

93 / 124

常规模式

50.40

149 / 175

数学推理

共 2 项评测

评测名称 / 模式

得分

排名/总数

常规模式

95

8 / 26

常规模式

60.10

31 / 42

编程与软件工程

共 1 项评测

评测名称 / 模式

得分

排名/总数

常规模式

84.90

21 / 39

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

常规模式

95.40

1 / 3

阅读理解

共 1 项评测

评测名称 / 模式

得分

排名/总数

常规模式

83.10

6 / 9

与其他模型对比