GLM-5 评测深度分析

GLM-5 当前已收录的代表性评测结果包括 τ²-Bench（4 / 40，得分 89.70）、HLE（15 / 149，得分 50.40）、τ²-Bench - Telecom（5 / 35，得分 98）。并附有 2 个数据来源链接供参考。

GLM-5作为智谱AI的第五代旗舰模型，在多个维度上实现了显著提升：

核心性能指标：

数学推理：AIME 2026得分92.7%，GPQA-Diamond得分86.0%
编程能力：SWE-bench Verified达到77.8%，SWE-bench Multilingual为73.3%
Agent任务：BrowseComp得分62.0，Terminal-Bench 2.0达到56.2
人文推理：HLE（使用工具）得分50.4，排名第3

模型规模：

总参数：744B（7440亿）
激活参数：40B（400亿）
采用MoE（混合专家）架构
上下文长度：200K tokens

二、在开源模型中的地位

GLM-5在开源模型阵营中表现突出：

多项基准测试领先
- SWE-bench Verified（77.8%）：开源模型第一
- Terminal Bench 2.0（61.1%）：开源模型第三
- τ²-Bench（89.7%）：开源模型第二
超越同类竞品
- 全面超越Google Gemini 3.0 Pro的综合表现
- 在Agent能力评测中优于多数开源模型
- 前端开发构建成功率达98%（CC-Bench-V2）
参数效率优势
- 相比前代GLM-4.7（355B参数）规模翻倍
- 但激活参数仅40B，保持高效推理

三、与顶级闭源模型的差距

虽然GLM-5在开源领域表现优异，但与顶级闭源模型仍存在差距：

与Claude Opus 4.5的对比：

SWE-bench Verified：GLM-5（77.8%）vs Claude Opus 4.5（80.9%）
官方定位：在软件工程任务上"接近"Opus 4.5的使用体验
在复杂推理和长期规划上仍有提升空间

优势领域：

成本效益：API价格仅为主流模型的20%左右
推理速度：优化后的架构提供更快响应
开源透明：完全开源，支持本地部署和定制

四、技术创新亮点

架构优化
- 首次集成DeepSeek Sparse Attention机制
- 大幅降低部署成本，提升Token效率
- 支持无损长文本性能
训练方法创新
- 引入"Slime"异步强化学习框架
- 预训练数据从23T提升至28.5T
- 异步Agent强化学习算法
能力融合
- 首个原生融合推理、编码、Agent能力的开源模型
- 支持思考模式（Thinking Mode）和常规模式切换

五、应用场景优势

特别擅长的领域：

Agentic Engineering：从"Vibe Coding"到系统化工程
前端开发：构建成功率达98%，较前代提升26个百分点
长期任务规划：自主完成多步复杂工作流
代码智能体：兼容Claude Code、Cline等主流工具

六、综合评价

优势：

开源模型中的综合能力第一梯队
极高的参数效率和成本优势
在Agent和编程任务上表现卓越
MIT开源协议，商用友好

不足：

⚠️ 与顶级闭源模型（如Claude Opus 4.5）仍有3-5%的性能差距
⚠️ 在某些复杂推理场景下表现略逊于Gemini 3 Pro

总结： GLM-5是目前开源模型中最强大的选择之一，特别适合需要高性价比AI解决方案的企业和开发者。它在编程、Agent任务和系统工程方面的能力已经达到准一线水平，是国产开源大模型的重要里程碑。

评测结果

GLM-5

评测结果

综合评估

共 5 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

开启思考

40 / 175

HLE

开启思考工具

50.40

15 / 149

HLE

开启思考

30.50

66 / 149

ARC-AGI

开启思考

44.70

44 / 65

ARC-AGI-2

开启思考

4.90

43 / 58

编程与软件工程

共 1 项评测

评测名称 / 模式

得分

排名/总数

SWE-bench Verified

开启思考

77.80

18 / 103

Agent能力评测

共 3 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

开启思考工具

5 / 35

τ²-Bench

开启思考工具

89.70

4 / 40

Terminal Bench Hard

开启思考工具

2 / 13

数学推理

共 3 项评测

评测名称 / 模式

得分

排名/总数

AIME 2026

开启思考

92.70

7 / 14

IMO-AnswerBench

开启思考

82.50

11 / 17

FrontierMath - Tier 4

常规模式

2.10

56 / 80

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总数

IF Bench

开启思考工具

8 / 27

AI Agent - 信息收集

共 2 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

开启思考工具

75.90

17 / 43

BrowseComp

开启思考

24 / 43

AI Agent - 工具使用

共 1 项评测

评测名称 / 模式

得分

排名/总数

Terminal Bench 2.0

开启思考工具

61.10

15 / 43

生产力知识

共 1 项评测

评测名称 / 模式

得分

排名/总数

GDPval-AA

开启思考

13 / 20

长上下文能力

共 1 项评测

评测名称 / 模式

得分

排名/总数

AA-LCR

开启思考

12 / 13

OpenClaw智能体能力综合测评

共 2 项评测

评测名称 / 模式

得分

排名/总数

Claw Bench

开启思考工具

91.70

5 / 29

Pinch Bench

开启思考工具

86.40

12 / 37

与其他模型对比

GLM-5 评测深度分析

GLM-5作为智谱AI的第五代旗舰模型，在多个维度上实现了显著提升：

核心性能指标：

数学推理：AIME 2026得分92.7%，GPQA-Diamond得分86.0%
编程能力：SWE-bench Verified达到77.8%，SWE-bench Multilingual为73.3%
Agent任务：BrowseComp得分62.0，Terminal-Bench 2.0达到56.2
人文推理：HLE（使用工具）得分50.4，排名第3

模型规模：

总参数：744B（7440亿）
激活参数：40B（400亿）
采用MoE（混合专家）架构
上下文长度：200K tokens

二、在开源模型中的地位

GLM-5在开源模型阵营中表现突出：

多项基准测试领先
- SWE-bench Verified（77.8%）：开源模型第一
- Terminal Bench 2.0（61.1%）：开源模型第三
- τ²-Bench（89.7%）：开源模型第二
超越同类竞品
- 全面超越Google Gemini 3.0 Pro的综合表现
- 在Agent能力评测中优于多数开源模型
- 前端开发构建成功率达98%（CC-Bench-V2）
参数效率优势
- 相比前代GLM-4.7（355B参数）规模翻倍
- 但激活参数仅40B，保持高效推理

三、与顶级闭源模型的差距

虽然GLM-5在开源领域表现优异，但与顶级闭源模型仍存在差距：

与Claude Opus 4.5的对比：

SWE-bench Verified：GLM-5（77.8%）vs Claude Opus 4.5（80.9%）
官方定位：在软件工程任务上"接近"Opus 4.5的使用体验
在复杂推理和长期规划上仍有提升空间

优势领域：

成本效益：API价格仅为主流模型的20%左右
推理速度：优化后的架构提供更快响应
开源透明：完全开源，支持本地部署和定制

四、技术创新亮点

架构优化
- 首次集成DeepSeek Sparse Attention机制
- 大幅降低部署成本，提升Token效率
- 支持无损长文本性能
训练方法创新
- 引入"Slime"异步强化学习框架
- 预训练数据从23T提升至28.5T
- 异步Agent强化学习算法
能力融合
- 首个原生融合推理、编码、Agent能力的开源模型
- 支持思考模式（Thinking Mode）和常规模式切换

五、应用场景优势

特别擅长的领域：

Agentic Engineering：从"Vibe Coding"到系统化工程
前端开发：构建成功率达98%，较前代提升26个百分点
长期任务规划：自主完成多步复杂工作流
代码智能体：兼容Claude Code、Cline等主流工具

六、综合评价

优势：

开源模型中的综合能力第一梯队
极高的参数效率和成本优势
在Agent和编程任务上表现卓越
MIT开源协议，商用友好

不足：

⚠️ 与顶级闭源模型（如Claude Opus 4.5）仍有3-5%的性能差距
⚠️ 在某些复杂推理场景下表现略逊于Gemini 3 Pro

评测结果

GLM-5

评测结果

综合评估

共 5 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

开启思考

40 / 175

HLE

开启思考工具

50.40

15 / 149

HLE

开启思考

30.50

66 / 149

ARC-AGI

开启思考

44.70

44 / 65

ARC-AGI-2

开启思考

4.90

43 / 58

编程与软件工程

共 1 项评测

评测名称 / 模式

得分

排名/总数

SWE-bench Verified

开启思考

77.80

18 / 103

Agent能力评测

共 3 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

开启思考工具

5 / 35

τ²-Bench

开启思考工具

89.70

4 / 40

Terminal Bench Hard

开启思考工具

2 / 13

数学推理

共 3 项评测

评测名称 / 模式

得分

排名/总数

AIME 2026

开启思考

92.70

7 / 14

IMO-AnswerBench

开启思考

82.50

11 / 17

FrontierMath - Tier 4

常规模式

2.10

56 / 80

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总数

IF Bench

开启思考工具

8 / 27

AI Agent - 信息收集

共 2 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

开启思考工具

75.90

17 / 43

BrowseComp

开启思考

24 / 43

AI Agent - 工具使用

共 1 项评测

评测名称 / 模式

得分

排名/总数

Terminal Bench 2.0

开启思考工具

61.10

15 / 43

生产力知识

共 1 项评测

评测名称 / 模式

得分

排名/总数

GDPval-AA

开启思考

13 / 20

长上下文能力

共 1 项评测

评测名称 / 模式

得分

排名/总数

AA-LCR

开启思考

12 / 13

OpenClaw智能体能力综合测评

共 2 项评测

评测名称 / 模式

得分

排名/总数

Claw Bench

开启思考工具

91.70

5 / 29

Pinch Bench

开启思考工具

86.40

12 / 37

与其他模型对比