Opus 4.7vsGemini 3.1 Pro Preview

在 10 个共同 benchmark 中，Opus 4.7 整体领先：Opus 4.7 领先 6 项，Gemini 3.1 Pro Preview 领先 4 项，持平 0 项，平均分差 +2.53。

Anthropic · 2026-04-16 · 推理大模型

Google Deep Mind · 2026-02-20 · 多模态大模型

Opus 4.76 项(60%)(40%)4 项Gemini 3.1 Pro Preview

评测分数

按能力类目分组，每组内按分差大小排列；共 10 项。

Gemini 3.1 Pro Preview 领先 3/4

评测项	Opus 4.7	Gemini 3.1 Pro Preview	分差
HLE	54.706 / 149Extended (with tools)	51.4012 / 149Thinking High (With Tools)	+3.30
ARC-AGI-2	75.809 / 58最高（无工具）	77.107 / 58Thinking High (No Tools)	-1.30
MMLU	91.506 / 65Normal (No Tools)	92.603 / 65Thinking High (No Tools)

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

10 个共同 benchmark 上，Opus 4.7 平均高出 2.53 分。

单项差距最大的 benchmark：SWE-Bench Pro - Public — Opus 4.7 64.30，Gemini 3.1 Pro Preview 54.20（分差 +10.10）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。

评测项	Opus 4.7	Gemini 3.1 Pro Preview	分差
FrontierMath	43.806 / 60极高强度思考（无工具）	36.9011 / 60Thinking High (No Tools)	+6.90
FrontierMath - Tier 4	22.9012 / 80极高强度思考（无工具）	16.7020 / 80Normal (No Tools)	+6.20

评测项	Opus 4.7	Gemini 3.1 Pro Preview	分差
SWE-Bench Pro - Public	64.302 / 36Extended (with tools)	54.2017 / 36Thinking High (With Tools)	+10.10
SWE-bench Verified	87.602 / 103Extended (with tools)	80.607 / 103Thinking High (With Tools)	+7