热门大模型对比：Gemini 3.0 Flash 与上一代Gemini 2.5 Pro和Gemini 3.0 Pro对比

Gemini 3.0 Flash 在本组对比中定位为低成本模型，其输入与输出价格明显低于 Gemini 3.0 Pro (Preview) 及 Gemini 2.5 Pro。从评测结果来看，Gemini 3.0 Flash 在多项通用能力与任务型基准中取得了与其价格水平不相称的得分表现。在 GPQA Diamond、HLE、SimpleQA 等知识与问答相关基准中，其成绩整体高于 Gemini 2.5 Pro，显示出新一代 Flash 模型在通用理解能力上的提升。同时，在 Terminal Bench 2.0 与 SWE-bench Verified 等偏工具使用与工程能力的基准中，Gemini 3.0 Flash 的表现与 Gemini 2.5 Pro 接近或略高，说明其在实际系统集成与自动化场景中具备可用性基础。

在数学推理相关评测中，Gemini 3.0 Flash 在 AIME2025 基准上取得了该组模型中的较高分数，体现出其在特定推理任务上的能力峰值。尽管这一优势并不能完全代表其在所有复杂推理任务中的稳定性，但从对比结果看，Gemini 3.0 Flash 已具备在部分高难度任务中达到或接近高端模型水平的能力。

从整体表现来看，Gemini 3.0 Flash 的综合得分略低于 Gemini 3.0 Pro (Preview)，后者在平均分与多项 Agent、工具使用相关基准中仍保持领先。然而，在显著降低成本的前提下，Gemini 3.0 Flash 在整体性能上已超越 Gemini 2.5 Pro，并在部分单项评测中表现突出。结合价格、上下文长度以及评测结果，Gemini 3.0 Flash 在本次对比中更适合作为高频调用或默认使用模型，而 Gemini 3.0 Pro (Preview) 则更适合用于对综合能力要求较高的场景。

评测项	Gemini 3.0 Flash	Gemini 3.0 Pro (Preview 11-2025)	Gemini 2.5-Pro
ARC-AGI-2 综合评估	33.60开启思考	31.10开启思考	4.90开启思考
GPQA Diamond 综合评估	90.40开启思考	91.90开启思考	86.40开启思考
HLE 综合评估	43.50开启思考｜工具	45.80思考水平·高｜工具	21.60开启思考
SimpleQA 常识问答	68.70开启思考	72.10开启思考	54.00常规模式
SWE-bench Verified 编程与软件工程	68.70开启思考	76.20开启思考	67.20开启思考
AIME2025 数学推理	99.70开启思考｜工具	95.00开启思考	88.00开启思考
FrontierMath - Tier 4 数学推理	4.20常规模式	18.80开启思考	2.10常规模式
τ²-Bench Agent能力评测	90.20开启思考｜工具	85.40开启思考｜工具	--
Terminal Bench 2.0 AI Agent - 工具使用	47.60开启思考｜工具	56.90思考水平·高｜工具	32.60开启思考｜工具
Pinch Bench OpenClaw智能体能力综合测评	85.20开启思考｜工具	70.70开启思考｜工具	--

评测项

Gemini 3.0 Flash

Gemini 3.0 Pro (Preview 11-2025)

Gemini 2.5-Pro

ARC-AGI-2

综合评估

33.60开启思考

31.10开启思考

4.90开启思考

GPQA Diamond

综合评估

90.40开启思考

91.90开启思考

86.40开启思考

HLE

综合评估

43.50开启思考｜工具

45.80思考水平·高｜工具

21.60开启思考

SimpleQA

常识问答

68.70开启思考

72.10开启思考

54.00常规模式

SWE-bench Verified

编程与软件工程

68.70开启思考

76.20开启思考

67.20开启思考

AIME2025

数学推理

99.70开启思考｜工具

95.00开启思考

88.00开启思考

FrontierMath - Tier 4

数学推理

4.20常规模式

18.80开启思考

2.10常规模式

τ²-Bench

Agent能力评测

90.20开启思考｜工具

85.40开启思考｜工具

Terminal Bench 2.0

AI Agent - 工具使用

47.60开启思考｜工具

56.90思考水平·高｜工具

32.60开启思考｜工具

Pinch Bench

OpenClaw智能体能力综合测评

85.20开启思考｜工具

70.70开启思考｜工具

能力与规格明细

是否 MoE、商业授权、模态支持等附加能力对比。

功能与规格	Gemini 3.0 FlashGoogle Deep Mind	Gemini 3.0 Pro (Preview 11-2025)Google Deep Mind	Gemini 2.5-ProGoogle Deep Mind
核心规格发布时间	2025-12-17	2025-11-18	2025-06-05
上下文	2000K	1000K	1000K
最大输出	65536	65536	65536
MoE 架构	不支持	不支持	不支持
支持模式	常规模式（Non-Thinking Mode）思考模式（Thinking Mode）深度思考（Deeper Thinking Mode）	常规模式（Non-Thinking Mode）思考模式（Thinking Mode）深度思考（Deeper Thinking Mode）	常规模式（Non-Thinking Mode）思考模式（Thinking Mode）深度思考（Deeper Thinking Mode）
开源与许可代码开源	未提供	未提供	未提供
权重开源	未提供	未提供	未提供
商业授权	不开源	不开源	不开源
模态支持文本输入/输出	/	/	/
图片输入/输出	/	/	/
音频输入/输出	/	/	/
视频输入/输出	/	/	/
Embedding 输入/输出	/	/	/
资料来源论文 / 报告	Gemini 3 Flash: frontier intelligence built for speed	A new era of intelligence with Gemini 3	Try the latest Gemini 2.5 Pro before general availability.
DataLearner 博客	Gemini 3 Flash：Google 在 12 月 17 日发布的新一代默认模型	大模型新王者！谷歌发布Gemini 3.0 Pro，各方面评测几乎都是第一，全球首个大模型匿名投票得分超1500分的模型，支持100万输入上下文！	Google发布Gemini 2.5 Pro: Gemini系列第一个2.5版本的模型，最高支持200万上下文，全模态输入，推理大模型，LMArena排名第一

Gemini 3.0 Flash 与上一代Gemini 2.5 Pro和Gemini 3.0 Pro对比

能力分布概览

性能评测对比

评测得分表格

API 价格对比

能力与规格明细