大模型排行榜

大模型评测基准

大模型列表

大模型对比

语言中文

搜索博客

DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台，持续更新可落地的 AI 能力图谱。

产品

评测榜单
模型对比
数据资源

资源

部署教程
原创内容
工具导航

关于

关于我们
隐私政策
数据收集方法
联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例，为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款

DataLearnerAI-GPT：可以回答关于大模型评测结果的GPT | DataLearnerAI

首页/
博客列表/
博客详情

DataLearnerAI-GPT：可以回答关于大模型评测结果的GPT

2023/11/12 11:25:50

1,444 阅读

DataLearnerAI-GPT OpenLLMLeaderboard 大模型评测

最近自定义GPTs非常火热，出现了大量的自定义GPT，可以完成各种各样的有趣的任务。DataLearnerAI目前也创建了一个DataLearnerAI-GPT，目前可以回答大模型在不同评测任务上的得分结果。这些回答是基于OpenLLMLeaderboard数据回答的。未来会考虑增加更多信息，包括DataLearner网站上所有的大模型博客和技术介绍。

DataLearnerAI-GPT：可以回答大模型相技术和评测结果的GPT

DataLearnerAI-GPT体验地址：https://chat.openai.com/g/g-8eu9KgtUm-datalearnerai-gpt

DataLearnerAI-GPT简介
DataLearnerAI-GPT的测试样例
OpenLLMLeaderboard的DataLearner访问站

DataLearnerAI-GPT简介

大模型的发展非常快，但是各家宣称自己的模型都很好，超过GPT-3.5的宣传也很多，为了更加方便大家对比和追踪评测结果，HuggingFaceH4推出了OpenLLMLeadboard，收集了全球各种大模型在不同评测任务上的评分结果。

目前OpenLLMLeaderboard收集了如下的评测结果：

AI2 Reasoning Challenge (25-shot)：一套小学科学问题。
HellaSwag (10-shot)：对于人类而言简单（大约95%）的常识推理测试，但对于最新技术模型而言具有挑战性。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

DataLearner 官方微信二维码

返回博客列表

相关博客

PinchBench：OpenClaw AI 代理真实任务基准测试介绍
AIME 2026：基于2026年美国数学邀请赛的大模型数学能力评估基准
AA-LCR：大模型长上下文推理能力的权威评测基准（Artificial Analysis Long Context Reasoning）是什么？包含哪些任务？如何测试大模型超长上下文能力？
MMEB：多模态嵌入基准评测，用于测试多模态向量检索和排序准确性的基准
Context Arena：长上下文大模型评测基准介绍

MMLU (5-shot)：测试文本模型的多任务准确性，涵盖57项任务，包括小学数学、美国历史、计算机科学、法律等。

TruthfulQA (0-shot)：测试模型复制网络上常见虚假信息的倾向。注意：工具中的 TruthfulQA 实际上至少是6次尝试的任务。

Winogrande (5-shot)：大规模的、具有对抗性的、困难的 Winograd 基准测试，用于常识推理。

GSM8k (5-shot)：多样化的小学数学文字问题，用于测试模型解决多步骤数学推理问题的能力。

DROP (3-shot)：要求对段落内容进行离散推理的英语阅读理解基准测试。

可以看到，这些评测涵盖了语言理解、数学推理等多方面的能力。但是，这些都是表格数据，为了更加方便大家查询各大模型的评测结果，或者根据指定需求筛选模型结果，我们基于OpenAI最新的自定义GPT功能建立了DataLearnerAI-GPT，目前已经支持回答基于OpenLLMLeaderboard数据回答大家关于大模型评测的问题了。

DataLearnerAI-GPT的测试样例

我们也测试了几个问题，可以方便大家看如何使用。

第一个问题，目前理解能力最强的预训练模型是哪个？（what is the most comprehensibility pretrained LLM?）

结果如下：

DataLearnerAI-GPT回答样例

它可以准确基于评测得分知道理解能力最强的是零一万物开源的Yi-34B模型，可以继续追问要求给出HF的链接。

也可以提问70亿参数规模左右推理能力比较强的模型：

DataLearnerAI-GPT关于7B规模推理能力较强的模型

这里只是示例，你也可以考虑使用中文问答。DataLearnerAI-GPT的链接： https://chat.openai.com/g/g-8eu9KgtUm-datalearnerai-gpt 欢迎大家使用。

OpenLLMLeaderboard的DataLearner访问站

另外，由于HF访问的不稳定，OpenLLMLeaderboard参考价值虽然很大，对于国内用户不够友好，为此，DataLearner也备份了相关数据：https://www.datalearner.com/ai-models/open-llm-leaderboard

截图如下：

OpenLLMLeaderboard中国站

目前是按照平均分倒排，未来会增加更多筛选内容。欢迎大家交流~

Tool Decathlon：大模型工具使用能力基准测试

Terminal-Bench 评测全解析：一个用于评测大模型在终端环境使用工具能力的评测基准以及Terminal 1.0与 2.0 的完整对比

IMO-Bench：谷歌发布的用于大模型数学推理的鲁棒评估基准

热门博客

1Dirichlet Distribution（狄利克雷分布）与Dirichlet Process（狄利克雷过程）
2回归模型中的交互项简介（Interactions in Regression）
3贝塔分布（Beta Distribution）简介及其应用
4矩母函数简介（Moment-generating function）
5普通最小二乘法（Ordinary Least Squares，OLS）的详细推导过程
6使用R语言进行K-means聚类并分析结果
7深度学习技巧之Early Stopping（早停法）
8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署