Pinch Bench

Name: Pinch Bench
Creator: Kilo Code

PinchBench 是 Kilo Code 团队开发的开源基准测试系统，用于评估大型语言模型作为 OpenClaw 编码代理核心的表现。该系统运行一组固定真实世界任务，计算代理的任务完成成功率，同时记录执行速度和成本。所有结果通过公开排行榜 https://pinchbench.com 显示，目前包含 50 个模型的 403 次运行记录，最新更新时间为 2026 年 3 月 18 日。基准测试的代码和任务定义全部开源在 GitHub（pinchbench/skill 仓库），任何开发者均可本地复现或添加

更新于 2026年4月28日·1,269 次浏览

问题数量: 23
发布机构: Kilo Code
评测类别: OpenClaw智能体能力综合测评
评测指标: Accuracy
支持语言: 英文
难度等级: 中等难度

简介

一个用于评估大模型作为OpenClaw控制中心的测试基准

Pinch Bench评测最新大模型排名与完整榜单数据

查看 Pinch Bench 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止:

排名	模型				开源情况
	GPT-5.4 开启思考工具	90.50	2026-03-05	未知	闭源
	Qwen3.5-27B 开启思考工具	90.00	2026-02-25	270亿	免费商用
	Qwen3.5-397B-A17B 开启思考工具	89.10	2026-02-16	397亿	免费商用
4	Claude Sonnet 4.5 开启思考工具	88.20	2025-09-30	未知	闭源
5	Claude Sonnet 4.6 开启思考工具	88.00	2026-02-17	未知	闭源
6	MiniMax M2.5 开启思考工具	87.80	2026-02-12	2290亿	免费商用
7	Claude Opus 4.6 开启思考工具	87.40	2026-02-05	未知	闭源
8	Opus 4.5 扩展思考工具	87.20	2025-11-25	未知	闭源
9	MiniMax-M2.7 开启思考工具	87.10	2026-03-18	2290亿	非商用
10	Gemini 3.1 Pro Preview 开启思考工具	86.70	2026-02-20	未知	闭源
11	GLM-5-Turbo 开启思考工具	86.50	2026-03-15	未知	闭源
12	GLM-5 开启思考工具	86.40	2026-02-11	7440亿	免费商用
13	GLM-4.5-Air 开启思考工具	85.70	2025-07-28	1060亿	免费商用
14	Qwen3.5-122B-A10B 开启思考工具	85.50	2026-02-25	1220亿	免费商用
15	Step 3.5 Flash 开启思考工具	85.30	2026-02-02	1960亿	免费商用
16	Gemini 3.0 Flash 开启思考工具	85.20	2025-12-17	未知	闭源
17	Kimi K2.5 开启思考工具	84.80	2026-01-27	10000亿	免费商用
18	DeepSeek V3.2 开启思考工具	84.30	2025-12-01	6710亿	免费商用
19	M2.1 开启思考工具	84.30	2025-12-23	2300亿	免费商用
20	Grok 4.1 Fast 开启思考工具	82.40	2025-11-19	未知	闭源
21	Haiku 4.5 开启思考工具	82.00	2025-10-15	未知	闭源
22	Claude Sonnet 4 开启思考工具	80.50	2025-05-23	未知	闭源
23	GPT-5-mini 开启思考工具	80.30	2025-08-07	未知	闭源
24	Qwen3-Max-Thinking 开启思考工具	80.30	2026-01-26	10000亿	闭源
25	Qwen3-Coder-Next 开启思考工具	79.10	2026-02-03	80亿	免费商用
26	Qwen3.5-35B-A3B 开启思考工具	78.40	2026-02-25	350亿	免费商用
27	GPT-4o mini 开启思考工具	75.00	2024-07-18	未知	闭源
28	Mistral Large 3 开启思考工具	72.20	2025-12-02	6750亿	免费商用
29	Gemini 2.5 Pro Experimental 03-25 开启思考工具	71.90	2025-03-25	未知	闭源
30	GPT-4o 开启思考工具	71.10	2024-05-13	未知	闭源

继续滚动可加载剩余 7 条

Pinch Bench评测最新大模型排名与完整榜单数据

Pinch Bench 排名