自动展示选中模型的核心信息与各评测得分,可左右滑动查看完整表格。 当前对比 2 个模型的评测数据与核心参数。
Google DeepMind于2026年4月2日发布了Gemma 4,阿里巴巴Qwen团队于同年2月25日发布了Qwen3.5,两者都是目前30B参数量级里各自最强的开源模型。
从基础规格来看,两款模型都采用Apache 2.0许可证,都支持思考模式,都可以免费商用。Qwen3.5-27B支持201种语言,上下文窗口最长可扩展至100万tokens;Gemma 4 31B支持140+种语言,上下文窗口为256K,参数量略大一点(31B vs 27B)。在多模态输入上,Gemma 4 31B支持文本、图片和视频,Qwen3.5-27B支持文本和图片。
在代表综合学科知识的MMLU Pro上,Qwen3.5-27B得86.1%,Gemma 4 31B得85.2%,差了将近1个百分点。测试博士级物理、化学、生物推理的GPQA Diamond上,差距稍大一些:Qwen3.5-27B 85.5%,Gemma 4 31B 84.3%,差了1.2个百分点。
这两项差距放在绝对值上都不算大,但方向是一致的,Qwen3.5-27B在这两个维度上都高一点。
在LiveCodeBench v6上,Qwen3.5-27B得80.7%,Gemma 4 31B得80.0%,差距0.7个百分点,基本持平。LiveCodeBench每月滚动更新题库,抗测试集污染性较好,这个结果可以认为两者编程能力接近。
但如果拆开来看具体类型,差异就明显了。在Codeforces ELO这个衡量算法竞赛编程能力的指标上,Gemma 4 31B得2150,Qwen3.5-27B得1899,差了251分。在这个分数区间内251分不是噪声,Gemma 4 31B在竞赛类算法题上明显更强。
另一边,SWE-bench Verified测的是在真实开源代码库里定位和修复bug的能力,这比写算法题更接近实际工程场景。Qwen3.5-27B在这项上得了72.4%,Gemma 4 31B没有发布对应分数,无法比较。
在HLE这个专门针对人类最难问题的评测上,不使用任何工具的纯推理条件下,Gemma 4 31B得26.5%,Qwen3.5-27B得24.3%,Gemma 4 31B略高一点。不过两者的绝对分数都不高,这项基准对目前所有模型来说都很难。
值得注意的是,一旦允许使用工具,Qwen3.5-27B的HLE得分跳到48.5%,提升幅度非常大。Gemma 4 31B在有工具条件下的HLE分数没有公布。
在τ²-Bench这个测试Agent多步任务执行的基准上,Qwen3.5-27B得79.0,Gemma 4 31B得76.9,差了2.1分,Qwen3.5-27B胜出。
IFEval专门测模型能否准确执行格式要求和约束条件,Qwen3.5-27B在这项上得了95.0%,接近满分。Gemma 4 31B没有发布这项数据。
多语言方面,Qwen3.5-27B在跨语言版本的MMMLU上得85.9%,在覆盖29种语言的MMLU-ProX上得82.2%。Gemma 4 31B虽然声称支持140+种语言,但没有公布任何多语言评测分数。
在综合多模态理解基准MMMU Pro上,Gemma 4 31B得76.9%,Qwen3.5-27B没有发布对应分数。
在输入类型上,Gemma 4 31B支持最长60秒的视频序列输入,Qwen3.5-27B不支持视频输入。这是两者之间最明显的能力差异之一,也是Gemma 4 31B目前在多模态方向上的主要卖点。
Gemma 4 31B在LMArena文本对话榜单上的预估ELO约为1452,在所有开源模型中排名第三。Qwen3.5-27B没有发布对应的Arena排名数据。
在两者均公布了分数的评测项里,Gemma 4 31B只在Codeforces ELO(算法竞赛编程)上明显领先,综合知识、科学推理、编程通用能力、Agent任务上均持平或小幅落后。
Qwen3.5-27B的优势更集中在文本任务上:综合知识略高、科学推理略高、指令遵循接近满分、工具调用能力更强、工程代码修复有数据支撑。语言覆盖范围更广,且有评测数据验证。代价是不支持视频输入,在竞赛类算法题上比Gemma 4 31B弱。
Gemma 4 31B的差异化价值在于多模态:视频输入、图像理解,以及在竞赛算法题上的明确优势。如果任务不涉及这些,从现有公开数据来看,Qwen3.5-27B在纯文本和工具调用场景下的综合表现更稳定。
Best Overall
—
Best Single
—
Thinking 模式(默认)
Gemma 4 31B · 0 模态支持
模型数据收集自官网、Artificial Analysis等页面
完整列出各模型/模式的评测得分,便于横向比较。
其他能力
是否 MoE、商业授权、模态支持等附加能力对比。
| 功能与规格 | GE Gemma 4 31BDeepMind | QW Qwen3.5-27B阿里巴巴 |
|---|---|---|
模型信息卡片 | ||
开发机构 | DeepMind | 阿里巴巴 |
模型全名 | Gemma 4 31B(稠密旗舰模型) | Qwen3.5-27B |
模型简介 | 未提供 | 未提供 |
模型类型 | 聊天大模型 | 推理大模型 |
模型代号 | google-gemma-4-31b | qwen3-5-27b-dense |
发布时间 | 2026-04 | 2026-02-25 |
MoE 架构 | 不支持 | 不支持 |
规格与性能 | ||
上下文 | 256K | 1010K |
参数量 | 31 | 270 |
激活参数量 | 31 | 270 |
模型规模 | 3b | 34b |
模型大小 | 未提供 | 55.6 GB |
推理速度 | 未提供 | |
推理等级 | 未提供 | |
最大输出 | 32768 | 248320 |
支持模式 | 暂无模式数据 | 常规模式(Non-Thinking Mode)思考模式(Thinking Mode) |
开源与许可 | ||
代码开源 | 未提供 | 未提供 |
权重开源 | 未提供 | 未提供 |
商业授权 | 免费商用授权 | 免费商用授权 |
模态支持 | ||
文本 输入/输出 | 未提供 | 未提供 |
图片 输入/输出 | 未提供 | 未提供 |
音频 输入/输出 | 未提供 | 未提供 |
视频 输入/输出 | 未提供 | 未提供 |
Embedding 输入/输出 | 未提供 | 未提供 |
API 接口详情 | ||
文本 价格 | 未提供 | 未提供 |
图片 API 价格 | 未提供 | 未提供 |
音频 API 价格 | 未提供 | 未提供 |
视频 API 价格 | 未提供 | 未提供 |
Embedding API 价格 | 未提供 | 未提供 |
资源与链接 | ||
GitHub | 未提供 | 仓库 |
Hugging Face | 模型页 | 模型页 |
官方页面 | 未提供 | 未提供 |
实用指南 | 未提供 | 未提供 |
论文/报告 | Gemma 4: Our most intelligent open models yet | Qwen3.5: Towards Native Multimodal Agents |
DataLearnerAI | Google Gemma 4 正式开源:Apache 2.0 协议、手机端可运行、原生支持多模态和 Agent 工作流 | 未提供 |
API 价格
输入输出 token 价格并排展示