DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
首页模型对比Gemini 3.0 Flash 与 上一代Gemini 2.5 Pro和Gemini 3.0 Pro对比

Gemini 3.0 Flash 与 上一代Gemini 2.5 Pro和Gemini 3.0 Pro对比

自动展示选中模型的核心信息与各评测得分,可左右滑动查看完整表格。 当前对比 3 个模型的评测数据与核心参数。

499 次浏览

Gemini 3.0 Flash 在本组对比中定位为低成本模型,其输入与输出价格明显低于 Gemini 3.0 Pro (Preview) 及 Gemini 2.5 Pro。从评测结果来看,Gemini 3.0 Flash 在多项通用能力与任务型基准中取得了与其价格水平不相称的得分表现。在 GPQA Diamond、HLE、SimpleQA 等知识与问答相关基准中,其成绩整体高于 Gemini 2.5 Pro,显示出新一代 Flash 模型在通用理解能力上的提升。同时,在 Terminal Bench 2.0 与 SWE-bench Verified 等偏工具使用与工程能力的基准中,Gemini 3.0 Flash 的表现与 Gemini 2.5 Pro 接近或略高,说明其在实际系统集成与自动化场景中具备可用性基础。

在数学推理相关评测中,Gemini 3.0 Flash 在 AIME2025 基准上取得了该组模型中的较高分数,体现出其在特定推理任务上的能力峰值。尽管这一优势并不能完全代表其在所有复杂推理任务中的稳定性,但从对比结果看,Gemini 3.0 Flash 已具备在部分高难度任务中达到或接近高端模型水平的能力。

从整体表现来看,Gemini 3.0 Flash 的综合得分略低于 Gemini 3.0 Pro (Preview),后者在平均分与多项 Agent、工具使用相关基准中仍保持领先。然而,在显著降低成本的前提下,Gemini 3.0 Flash 在整体性能上已超越 Gemini 2.5 Pro,并在部分单项评测中表现突出。结合价格、上下文长度以及评测结果,Gemini 3.0 Flash 在本次对比中更适合作为高频调用或默认使用模型,而 Gemini 3.0 Pro (Preview) 则更适合用于对综合能力要求较高的场景。

Google Deep Mind

Gemini 3.0 Flash

Google Deep Mind

发布时间
2025-12-17
上下文
2000K
参数量
未提供
最大输出
65,536 tokens
支持模态
常规模式(Non-Thinking Mode) · 思考模式(Thinking Mode) · 深度思考(Deeper Thinking Mode)
查看详情·在线体验

能力分布概览

每条轴代表一个评测领域的平均水平,并统一映射到 100 分雷达坐标。

视图: 非并行模式平均·6 个维度
Gemini 3.0 Flash

相对优势: 综合评估 +8.3 / 相对落后: 编程与软件工程 -3.0

Gemini 3.0 Pro (Preview 11-2025)

相对优势: AI Agent - 工具使用 +15.4 / 相对落后: Agent能力评测 -4.8

Gemini 2.5-Pro

相对优势: 暂无明显优势 / 相对落后: AI Agent - 工具使用 -19.0

计算口径:同一模型在同一 benchmark 下先平均当前模式范围内的所有分数,不取最高分;再按评测领域对这些 benchmark 分数求平均。只纳入至少两个模型有数据的 benchmark,缺项不按 0 分处理。

综合领先

Gemini 3.0 Pro (Preview 11-2025) · 64.39

单项最高

Gemini 3.0 Flash · AIME2025 99.70

模态覆盖

Gemini 3.0 Flash · 4 种模态

性能评测对比

支持不同模式与工具的榜单对比。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

思考模式
工具使用
联网能力
筛选: 最佳可用·3 个模式 · 10 评测基准
图表加载中...

评测得分表格

完整列出各模型/模式的评测得分,便于横向比较。

10 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。

评测项Gemini 3.0 FlashGemini 3.0 Pro (Preview 11-2025)Gemini 2.5-Pro
ARC-AGI-2
综合评估
33.60开启思考
31.10开启思考
4.90开启思考
GPQA Diamond
综合评估
90.40开启思考
91.90开启思考
86.40开启思考
HLE
综合评估
43.50开启思考 | 工具
45.80思考水平·高 | 工具
21.60开启思考
SimpleQA
常识问答
68.70开启思考
72.10开启思考
54.00常规模式
SWE-bench Verified
编程与软件工程
68.70开启思考
76.20开启思考
67.20开启思考
AIME2025
数学推理
99.70开启思考 | 工具
95.00开启思考
88.00开启思考
FrontierMath - Tier 4
数学推理
4.20常规模式
18.80开启思考
2.10常规模式
τ²-Bench
Agent能力评测
90.20开启思考 | 工具
85.40开启思考 | 工具
--
Terminal Bench 2.0
AI Agent - 工具使用
47.60开启思考 | 工具
56.90思考水平·高 | 工具
32.60开启思考 | 工具
Pinch Bench
OpenClaw智能体能力综合测评
85.20开启思考 | 工具
70.70开启思考 | 工具
--

API 价格对比

输入输出 token 价格并排展示

能力与规格明细

是否 MoE、商业授权、模态支持等附加能力对比。

功能与规格
Gemini 3.0 FlashGoogle Deep Mind
Gemini 3.0 Pro (Preview 11-2025)Google Deep Mind
Gemini 2.5-ProGoogle Deep Mind
核心规格发布时间
2025-12-172025-11-182025-06-05
上下文
2000K1000K1000K
最大输出
655366553665536
MoE 架构
不支持不支持不支持
支持模式
常规模式(Non-Thinking Mode)思考模式(Thinking Mode)深度思考(Deeper Thinking Mode)
常规模式(Non-Thinking Mode)思考模式(Thinking Mode)深度思考(Deeper Thinking Mode)
常规模式(Non-Thinking Mode)思考模式(Thinking Mode)深度思考(Deeper Thinking Mode)
开源与许可代码开源
未提供未提供未提供
权重开源
未提供未提供未提供
商业授权
不开源不开源不开源
模态支持文本 输入/输出
/
/
/
图片 输入/输出
/
/
/
音频 输入/输出
/
/
/
视频 输入/输出
/
/
/
Embedding 输入/输出
/
/
/
资料来源论文 / 报告
Gemini 3 Flash: frontier intelligence built for speedA new era of intelligence with Gemini 3Try the latest Gemini 2.5 Pro before general availability.
DataLearner 博客
Gemini 3 Flash:Google 在 12 月 17 日发布的新一代默认模型大模型新王者!谷歌发布Gemini 3.0 Pro,各方面评测几乎都是第一,全球首个大模型匿名投票得分超1500分的模型,支持100万输入上下文!Google发布Gemini 2.5 Pro: Gemini系列第一个2.5版本的模型,最高支持200万上下文,全模态输入,推理大模型,LMArena排名第一
Google Deep Mind

Gemini 3.0 Pro (Preview 11-2025)

Google Deep Mind

发布时间
2025-11-18
上下文
1000K
参数量
未提供
最大输出
65,536 tokens
支持模态
常规模式(Non-Thinking Mode) · 思考模式(Thinking Mode) · 深度思考(Deeper Thinking Mode)
查看详情·在线体验
Google Deep Mind

Gemini 2.5-Pro

Google Deep Mind

发布时间
2025-06-05
上下文
1000K
参数量
未提供
最大输出
65,536 tokens
支持模态
常规模式(Non-Thinking Mode) · 思考模式(Thinking Mode) · 深度思考(Deeper Thinking Mode)
查看详情·在线体验