DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
首页综合排行榜Artificial Analysis Intelligence Index AI模型智能指数排行榜

Artificial Analysis Intelligence Index AI模型智能指数排行榜

Artificial Analysis Intelligence Index v4.0 综合了10项权威评测基准(GDPval-AA、Terminal-Bench、GPQA Diamond、SciCode等),从数学、科学、编程、推理等多维度对AI模型进行全面评估和排名。

榜首模型

Qwen3.7 Max

最高得分

57

模型数量

201

数据版本

2026年05月31日

数据来源: Artificial Analysis

来源:全部国产模型
榜单历史快照月份:

排名总表

排名模型名称智能指数机构
7AlibabaQwen3.7 MaxAlibaba57Alibaba
10Moonshot AIKimi K2.6Moonshot AI54Moonshot AI
17DeepSeek-AIDeepSeek-V4-Pro (max)DeepSeek-AI52DeepSeek-AI
21DeepSeek-AIDeepSeek-V4-Pro (high)DeepSeek-AI50DeepSeek-AI
22MiniMaxAIMiniMax-M2.7MiniMaxAI50MiniMaxAI
27DeepSeek-AIDeepSeek-V4-Flash (max)DeepSeek-AI47DeepSeek-AI
28DeepSeek-AIDeepSeek-V4-Flash (high)DeepSeek-AI46DeepSeek-AI
39Moonshot AIKimi K2.6Moonshot AI43Moonshot AI
42TencentHy3-previewTencent42Tencent
48DeepSeek-AIDeepSeek-V4-ProDeepSeek-AI39DeepSeek-AI
52StepFunAIStep 3.5 FlashStepFunAI38StepFunAI
60DeepSeek-AIDeepSeek-V4-FlashDeepSeek-AI36DeepSeek-AI
68TencentHy3-previewTencent34Tencent
70ByteDance SeedDoubao Seed CodeByteDance Seed34ByteDance Seed
95AlibabaQwen3.5 4BAlibaba27Alibaba
113AlibabaQwen3.5 4BAlibaba23Alibaba
134AlibabaQwen3.5 2BAlibaba16Alibaba
139StepFunStep3 VL 10BStepFun15StepFun
150AlibabaQwen3.5 2BAlibaba15Alibaba
153KimiKimi Linear 48B A3B InstructKimi14Kimi
172AlibabaQwen3.5 0.8BAlibaba11Alibaba
178AlibabaQwen3.5 0.8BAlibaba10Alibaba

数据仅供参考,以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。

评测基准组成(Intelligence Index v4.0)

Intelligence Index 综合10项严格的评测基准,全面衡量AI模型能力,避免单一维度的过拟合。

GDPval-AA
智能体真实任务
τ²-Bench
智能体工具调用
Terminal-Bench
智能体编程
SciCode
编程能力
AA-LCR
长上下文推理
AA-Omniscience
知识与幻觉检测
IFBench
指令遵循
Humanity's Last Exam
推理与知识
GPQA Diamond
科学推理
CritPt
物理推理

常见问题 (FAQ)

什么是 Artificial Analysis Intelligence Index?▼
Artificial Analysis Intelligence Index v4.0 是一个综合评测指数,聚合了10项具有挑战性的评估——涵盖数学、科学、编程、智能体任务和推理——以全面衡量AI能力。它旨在防止单一维度的过拟合,提供一个统一分数来追踪模型进步。
智能指数是如何计算的?▼
该指数综合了10项评测的分数:GDPval-AA(智能体真实任务)、τ²-Bench(工具调用)、Terminal-Bench Hard(智能体编程)、SciCode(编程)、AA-LCR(长上下文推理)、AA-Omniscience(知识与幻觉检测)、IFBench(指令遵循)、Humanity's Last Exam(推理)、GPQA Diamond(科学推理)和 CritPt(物理推理)。所有测试由 Artificial Analysis 在标准化硬件上独立运行。
这与 LMArena 排行榜有什么区别?▼
LMArena 排名基于众包用户投票(盲测A/B对比的Elo评分),反映主观的人类偏好。而 Artificial Analysis Intelligence Index 使用标准化的自动评测基准进行客观评分,衡量特定领域的技术能力。两者各有价值——LMArena 捕捉真实用户体验,而 AA Intelligence Index 提供可复现的技术测量。
在哪里可以找到原始数据?▼
原始排行榜和详细方法论可在 artificialanalysis.ai 查看。Intelligence Index 的方法论详见 Intelligence Index 页面。