BrowseComp

Name: BrowseComp
Creator: OpenAI

BrowseComp是一个用于评估AI代理网页浏览能力的基准测试。它包含1266个问题，这些问题要求代理在互联网上导航以查找难以发现的信息。该基准关注代理在处理多跳事实和纠缠信息时的持久性和创造性。OpenAI于2025年4月10日发布此基准，并将其开源在GitHub仓库中。

更新于 2026年4月24日·2,552 次浏览

问题数量: 1266
发布机构: OpenAI
评测类别: AI Agent - 信息收集
评测指标: Accuracy
支持语言: 英文
难度等级: 中等难度

简介

一个用于评估大模型AI Agent定位难以查找信息的能力的评测基准

BrowseComp评测最新大模型排名与完整榜单数据

查看 BrowseComp 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止:

排名	模型				开源情况
	GPT-5.5 Pro 深度思考模式工具联网	90.10	2026-04-23	未知	闭源
	GPT-5.4 Pro 开启思考工具	89.30	2026-03-05	未知	闭源
	Gemini 3.1 Pro Preview 开启思考工具联网	85.90	2026-02-20	未知	闭源
4	Claude Mythos Preview 扩展思考工具	84.90	2026-04-07	未知	闭源
5	GPT-5.5 开启思考工具联网	84.40	2026-04-23	未知	闭源
6	Claude Opus 4.6 开启思考工具联网	84.00	2026-02-05	未知	闭源
7	DeepSeek-V4-Pro 思考水平 · 极高工具	83.40	2026-04-24	16000亿	免费商用
8	Kimi K2.6 开启思考工具联网	83.20	2026-04-20	10000亿	免费商用
9	GPT-5.4 思考水平 · 极高工具	82.70	2026-03-05	未知	闭源
10	DeepSeek-V4-Pro 开启思考工具	80.40	2026-04-24	16000亿	免费商用
11	GLM 5.1 开启思考工具联网	79.30	2026-03-27	754亿	免费商用
12	Opus 4.7 扩展思考工具	79.30	2026-04-16	未知	闭源
13	Qwen3.5-397B-A17B 开启思考工具联网	78.60	2026-02-16	397亿	免费商用
14	GPT-5.2 Pro 开启思考工具	77.90	2025-12-11	未知	闭源
15	GPT-5.2 Pro 思考水平 · 极高工具	77.90	2025-12-11	未知	闭源
16	MiniMax M2.5 开启思考工具	76.30	2026-02-12	2290亿	免费商用
17	GLM-5 开启思考工具	75.90	2026-02-11	7440亿	免费商用
18	Claude Sonnet 4.6 开启思考工具	74.70	2026-02-17	未知	闭源
19	DeepSeek-V4-Flash 思考水平 · 极高工具	73.20	2026-04-24	2840亿	免费商用
20	Step 3.5 Flash 开启思考工具	69.00	2026-02-02	1960亿	免费商用
21	Qwen3.5-397B-A17B 开启思考工具	69.00	2026-02-16	397亿	免费商用
22	GPT-5.2 深度思考模式工具联网	65.80	2025-12-11	未知	闭源
23	GPT-5.2 思考水平 · 极高工具	65.80	2025-12-11	未知	闭源
24	GLM-5 开启思考	62.00	2026-02-11	7440亿	免费商用
25	Qwen3.5-27B 开启思考工具联网	61.00	2026-02-25	270亿	免费商用
26	Qwen3.5-27B 开启思考工具	61.00	2026-02-25	270亿	免费商用
27	Kimi K2.5 开启思考工具联网	60.60	2026-01-27	10000亿	免费商用
28	Kimi K2 Thinking 开启思考工具	60.20	2025-11-06	10400亿	免费商用
29	Gemini 3.0 Pro (Preview 11-2025) 思考水平 · 高工具	59.20	2025-11-18	未知	闭源
30	GPT-5 开启思考工具	54.90	2025-08-07	未知	闭源

继续滚动可加载剩余 13 条

BrowseComp评测最新大模型排名与完整榜单数据

BrowseComp 排名