Simple Bench

Name: Simple Bench
Creator: 个人

随着大型语言模型（LLM）的飞速发展，如何准确、全面地评估它们的能力成为了一个日益重要的课题。在众多评测基准中，Simple Bench 以其独特的定位脱颖而出，它专注于检验模型在日常人类推理方面的能力，而在这些方面，当前最先进的模型往往还不如普通人。本文将详细介绍 Simple Bench 评测基准，探讨其出现的背景、设计理念、评测流程以及当前主流模型的表现。

更新于 2026年4月19日·1,123 次浏览

问题数量: 200
发布机构: 个人
评测类别: 常识推理
评测指标: Accuracy
支持语言: 英文
难度等级: 高难度

简介

一个用于评估大模型常识水平的评测基准

Simple Bench评测最新大模型排名与完整榜单数据

查看 Simple Bench 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止:

排名	模型				开源情况
	Gemini 3.0 Pro (Preview 11-2025) 开启思考	76.40	2025-11-18	未知	闭源
	Gemini 2.5-Pro 开启思考	62.40	2025-06-05	未知	闭源
	Opus 4.5 扩展思考	62.00	2025-11-25	未知	闭源
4	GPT-5-Pro 开启思考	61.60	2025-08-07	未知	闭源
5	Grok 4 开启思考	60.50	2025-07-10	未知	闭源
6	Opus 4.1 扩展思考	60.00	2025-08-06	未知	闭源
7	Claude Opus 4 开启思考	58.80	2025-05-23	未知	闭源
8	GPT-5 思考水平 · 高	56.70	2025-08-07	未知	闭源
9	Claude Sonnet 4.5 常规模式	54.30	2025-09-30	未知	闭源
10	GPT-5.1 思考水平 · 高	53.20	2025-11-12	未知	闭源
11	OpenAI o3 思考水平 · 高	53.10	2025-04-16	未知	闭源
12	GLM-4.7 开启思考	47.70	2025-12-22	3580亿	免费商用
13	Kimi K2.5 开启思考	46.80	2026-01-27	10000亿	免费商用
14	Claude Sonnet 3.7 开启思考	46.40	2025-02-25	未知	闭源
15	Claude Sonnet 4 开启思考	45.50	2025-05-23	未知	闭源
16	Claude Sonnet 3.7 常规模式	44.90	2025-02-25	未知	闭源
17	DeepSeek-R1-0528 开启思考	40.80	2025-05-28	6710亿	免费商用
18	OpenAI o1 思考水平 · 高	40.10	2024-12-05	未知	闭源
19	OpenAI o4 - mini 开启思考	38.70	2025-04-16	未知	闭源
20	GPT-4.5 常规模式	34.50	2025-02-28	未知	闭源
21	Qwen3-235B-A22B 开启思考	31.00	2025-04-28	2350亿	免费商用
22	DeepSeek-V3-0324 常规模式	27.20	2025-03-24	6710亿	免费商用
23	GPT-4.1 常规模式	27.00	2025-04-14	未知	闭源
24	Kimi K2 常规模式	26.30	2025-07-11	10000亿	免费商用
25	OpenAI o3-mini 开启思考	22.80	2025-01-31	未知	闭源
26	GPT OSS 120B 开启思考	22.10	2025-08-06	117亿	免费商用
27	DeepSeek-V3 常规模式	18.90	2024-12-26	6810亿	免费商用

Simple Bench评测最新大模型排名与完整榜单数据

Simple Bench 排名