GPT-4 评测详情
GPT-4 当前已收录的代表性评测结果包括 MMLU(31 / 65,得分 86.40)、HumanEval(27 / 39,得分 67)、DROP(7 / 9,得分 80.90)。本页还提供与 1 个竞品模型及 2 个前代或同系列模型的对比,在有数据时会展示性能和价格视图。并附有 1 个数据来源链接供参考。
评测结果
竞品对比
GPT-4 与同类主流模型的评测得分对比
GPT-4Claude3-Opus
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;具体模式明细请看下方表格。
评测得分对比
3 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。
GPT-4 与同类模型的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。
这些模型暂未提供可比较的标准文本价格。
历代版本对比
GPT-4 系列各版本的评测成绩纵向对比
当前筛选暂无评测数据。
GPT-4 所在系列的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。
这些模型暂未提供可比较的标准文本价格。