LiveBench
LiveBench是一个针对大型语言模型(LLM)的基准测试框架。该框架通过每月更新基于近期来源的问题集来评估模型性能。问题集涵盖数学、编码、推理、语言理解、指令遵循和数据分析等类别。LiveBench采用自动评分机制,确保评估基于客观事实而非主观判断。基准测试的总问题数量约为1000个,每月替换约1/6的问题,以维持测试的有效性。
更新于 2026年4月22日·1,613 次浏览
- 问题数量
- 1000
- 发布机构
- 个人
- 评测类别
- 综合评估
- 评测指标
- Accuracy
- 支持语言
- 英文
- 难度等级
- 中等难度
简介
一种抗污染的大型语言模型基准测试
LiveBench评测最新大模型排名与完整榜单数据
查看 LiveBench 的最新得分、模型模式、发布时间与参数规模,快速了解当前完整榜单表现。
数据来源:DataLearnerAI
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
模型模式说明
LiveBench 排名
| 排名 | 模型 | 开源情况 | |||
|---|---|---|---|---|---|
![]() GPT-5 思考水平 · 高 | 79.33 | 2025-08-07 | 未知 | 闭源 | |
![]() GPT-5 思考水平 · 中 | 78.85 | 2025-08-07 | 未知 | 闭源 | |
![]() GPT-5-Pro 开启思考 | 78.73 | 2025-08-07 | 未知 | 闭源 | |
4 | 78.26 | 2025-09-30 | 未知 | 闭源 | |
5 | ![]() GPT-5 Codex 开启思考 | 78.24 | 2025-09-15 | 未知 | 闭源 |
6 | ![]() Opus 4.5 思考水平 · 高 | 75.58 | 2025-11-25 | 未知 | 闭源 |
7 | ![]() Opus 4.1 扩展思考 | 75.25 | 2025-08-06 | 未知 | 闭源 |
8 | ![]() Qwen3-32B 开启思考 | 74.90 | 2025-04-28 | 320亿 | 免费商用 |
9 | ![]() Opus 4.5 思考水平 · 中 | 74.87 | 2025-11-25 | 未知 | 闭源 |
10 | 74.14 | 2025-11-18 | 未知 | 闭源 | |
11 | ![]() Claude Sonnet 4 开启思考 | 73.82 | 2025-05-23 | 未知 | 闭源 |
12 | Grok 4 常规模式 | 72.84 | 2025-07-10 | 未知 | 闭源 |
13 | ![]() Gemini 2.5-Pro 开启思考 | 71.92 | 2025-06-05 | 未知 | 闭源 |
14 | ![]() GPT-5-mini 常规模式 | 71.86 | 2025-08-07 | 未知 | 闭源 |
15 | 71.64 | 2025-09-29 | 6710亿 | 免费商用 | |
16 | 71.40 | 2025-09-22 | 6710亿 | 免费商用 | |
17 | ![]() Haiku 4.5 扩展思考 | 71.38 | 2025-10-15 | 未知 | 闭源 |
18 | ![]() GLM-4.6 常规模式 | 71.22 | 2025-09-30 | 3550亿 | 免费商用 |
19 | ![]() GLM-4.6 开启思考 | 71.22 | 2025-09-30 | 3550亿 | 免费商用 |
20 | 70.56 | 2025-09-30 | 未知 | 闭源 | |
21 | 69.86 | 2025-09-05 | 未知 | 闭源 | |
22 | ![]() DeepSeek-R1 常规模式 | 69.41 | 2025-01-20 | 6710亿 | 免费商用 |
23 | 69.11 | 2025-07-25 | 2350亿 | 免费商用 | |
24 | 68.64 | 2025-02-25 | 未知 | 闭源 | |
25 | 68.20 | 2025-09-25 | 未知 | 闭源 | |
26 | Grok 4 Fast 常规模式 | 68.09 | 2025-09-19 | 未知 | 闭源 |
27 | ![]() Kimi K2 Thinking 开启思考 | 67.93 | 2025-11-06 | 10400亿 | 免费商用 |
28 | ![]() Opus 4.1 常规模式 | 67.77 | 2025-08-06 | 未知 | 闭源 |
29 | 66.64 | 2025-09-29 | 6710亿 | 免费商用 | |
30 | ![]() Claude Sonnet 4 常规模式 | 65.40 | 2025-05-23 | 未知 | 闭源 |
继续滚动可加载剩余 22 条






