GPT-4o(2024-11-20) 评测详情

GPT-4o(2024-11-20) 当前已收录的代表性评测结果包括 HumanEval（7 / 39，得分 90.20）、SimpleQA（19 / 45，得分 38.80）、MMLU Pro（70 / 124，得分 77.90）。本页还提供与 3 个竞品模型及 2 个前代或同系列模型的对比，在有数据时会展示性能和价格视图。并附有 1 个数据来源链接供参考。

评测结果

GPT-4o(2024-11-20)

评测结果

综合评估

共 2 项评测

评测名称 / 模式

得分

排名/总数

MMLU

常规模式

85.70

37 / 65

MMLU Pro

常规模式

77.90

70 / 124

编程与软件工程

共 2 项评测

评测名称 / 模式

得分

排名/总数

HumanEval

常规模式

90.20

7 / 39

SWE-bench Verified

常规模式

98 / 103

数学推理

共 2 项评测

评测名称 / 模式

得分

排名/总数

MATH

常规模式

68.50

24 / 42

FrontierMath

常规模式

0.30

57 / 60

常识问答

共 1 项评测

评测名称 / 模式

得分

排名/总数

SimpleQA

常规模式

38.80

19 / 45

与其他模型对比

竞品对比

GPT-4o(2024-11-20) 与同类主流模型的评测得分对比

GPT-4o(2024-11-20)Claude3-Opus Gemini 2.0 Pro Experimental DeepSeek-V3

评测类别:

柱状图按当前筛选范围内每个模型在各评测中的最高分展示；具体模式明细请看下方表格。

评测得分对比

6 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。

评测项	GPT-4o(2024-11-20)当前	Claude3-Opus	Gemini 2.0 Pro Experimental	DeepSeek-V3
MMLU 综合评估	85.70常规模式	86.80常规模式	86.50常规模式	88.50常规模式
MMLU Pro 综合评估	77.90常规模式	68.45常规模式	79.10常规模式	75.90常规模式
HumanEval 编程与软件工程	90.20常规模式	84.90常规模式	--	89.00常规模式
FrontierMath 数学推理	0.30常规模式	--	--	1.70常规模式
MATH 数学推理	68.50常规模式	60.10常规模式	91.80常规模式	87.80常规模式
SimpleQA 常识问答	38.80常规模式	--	44.30常规模式	24.90常规模式

GPT-4o(2024-11-20) 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。

这些模型暂未提供可比较的标准文本价格。

历代版本对比

GPT-4o(2024-11-20) 系列各版本的评测成绩纵向对比

GPT-4o(2024-11-20)GPT-4o GPT-4

评测类别:

柱状图按当前筛选范围内每个模型在各评测中的最高分展示；具体模式明细请看下方表格。

评测得分对比

7 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项	GPT-4o(2024-11-20)当前	GPT-4o	GPT-4
MMLU 综合评估	85.70常规模式	88.70常规模式	86.40常规模式
MMLU Pro 综合评估	77.90常规模式	77.90常规模式	--
HumanEval 编程与软件工程	90.20常规模式	90.00常规模式	67.00常规模式
SWE-bench Verified 编程与软件工程	31.00常规模式	31.00常规模式	--
FrontierMath 数学推理	0.30常规模式	0.30常规模式	--
MATH 数学推理	68.50常规模式	75.90常规模式	--
SimpleQA 常识问答	38.80常规模式	38.20常规模式	--

单评测历史趋势图

当前查看：MMLU · 综合评估

选择评测

常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间，纵轴为分数；同一模式会用实线串起版本变化，同代不同模式继续用虚线辅助对齐。

GPT-4o(2024-11-20) 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。

这些模型的价格币种或计费单位不一致，暂不直接绘制统一柱状图，以下展示原始价格。

GPT-4o

标准输入: 2.5 美元/100万 tokens

标准输出: 10 美元/100万 tokens

模型	供应商	标准输入	标准输出	标准价适用于
GPT-4o	—	2.5 美元/100万 tokens	10 美元/100万 tokens	—

数据来源

epoch.ai