LiveBench

Name: LiveBench
Creator: 个人

LiveBench是一个针对大型语言模型（LLM）的基准测试框架。该框架通过每月更新基于近期来源的问题集来评估模型性能。问题集涵盖数学、编码、推理、语言理解、指令遵循和数据分析等类别。LiveBench采用自动评分机制，确保评估基于客观事实而非主观判断。基准测试的总问题数量约为1000个，每月替换约1/6的问题，以维持测试的有效性。

更新于 2026年4月22日·1,636 次浏览

问题数量: 1000
发布机构: 个人
评测类别: 综合评估
评测指标: Accuracy
支持语言: 英文
难度等级: 中等难度

简介

一种抗污染的大型语言模型基准测试

LiveBench评测最新大模型排名与完整榜单数据

查看 LiveBench 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止:

排名	模型				开源情况
	GPT-5 思考水平 · 高	79.33	2025-08-07	未知	闭源
	GPT-5 思考水平 · 中	78.85	2025-08-07	未知	闭源
	GPT-5-Pro 开启思考	78.73	2025-08-07	未知	闭源
4	Claude Sonnet 4.5 开启思考	78.26	2025-09-30	未知	闭源
5	GPT-5 Codex 开启思考	78.24	2025-09-15	未知	闭源
6	Opus 4.5 开启思考	75.58	2025-11-25	未知	闭源
7	Opus 4.1 扩展思考	75.25	2025-08-06	未知	闭源
8	Qwen3-32B 开启思考	74.90	2025-04-28	320亿	免费商用
9	Opus 4.5 开启思考	74.87	2025-11-25	未知	闭源
10	Gemini 3.0 Pro (Preview 11-2025) 开启思考	74.14	2025-11-18	未知	闭源
11	Claude Sonnet 4 开启思考	73.82	2025-05-23	未知	闭源
12	Grok 4 常规模式	72.84	2025-07-10	未知	闭源
13	Gemini 2.5-Pro 开启思考	71.92	2025-06-05	未知	闭源
14	GPT-5-mini 常规模式	71.86	2025-08-07	未知	闭源
15	DeepSeek V3.2-Exp 开启思考	71.64	2025-09-29	6710亿	免费商用
16	DeepSeek-V3.1 Terminus 开启思考	71.40	2025-09-22	6710亿	免费商用
17	Haiku 4.5 扩展思考	71.38	2025-10-15	未知	闭源
18	GLM-4.6 常规模式	71.22	2025-09-30	3550亿	免费商用
19	GLM-4.6 开启思考	71.22	2025-09-30	3550亿	免费商用
20	Claude Sonnet 4.5 常规模式	70.56	2025-09-30	未知	闭源
21	Qwen3 Max (Preview) 常规模式	69.86	2025-09-05	未知	闭源
22	DeepSeek-R1 常规模式	69.41	2025-01-20	6710亿	免费商用
23	Qwen3-235B-A22B-Thinking-2507 开启思考	69.11	2025-07-25	2350亿	免费商用
24	Claude Sonnet 3.7 开启思考	68.64	2025-02-25	未知	闭源
25	Gemini 2.5 Flash-Preview-09-2025 开启思考	68.20	2025-09-25	未知	闭源
26	Grok 4 Fast 常规模式	68.09	2025-09-19	未知	闭源
27	Kimi K2 Thinking 开启思考	67.93	2025-11-06	10400亿	免费商用
28	Opus 4.1 常规模式	67.77	2025-08-06	未知	闭源
29	DeepSeek V3.2-Exp 常规模式	66.64	2025-09-29	6710亿	免费商用
30	Claude Sonnet 4 常规模式	65.40	2025-05-23	未知	闭源

继续滚动可加载剩余 22 条

LiveBench评测最新大模型排名与完整榜单数据

LiveBench 排名