DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
首页综合排行榜Image-to-Video Arena 图生视频模型排行榜

LMArena 评测赛道

文本生成代码数学图像编辑文字生成视频图生视频文生图

Image-to-Video Arena 图生视频模型排行榜

基于 Image-to-Video Arena 用户匿名投票的最新AI图生视频模型排行榜,涵盖各模型的 Elo 得分、95% 置信区间、投票量、机构与许可证。

榜首模型

Grok Imagine 0.9

最高得分

1,404

模型数量

37

数据版本

2026年03月06日

数据来源: LM Arena

关于本排行榜

本排行榜展示了当前 AI 图生视频(Image-to-Video)模型的综合实力排名。数据来源于 LMArena 的 Image-to-Video Arena 赛道,通过真实用户的匿名盲测投票来评估模型的图像动画化能力。

评测方法概要

匿名盲测:用户上传一张图片后,由两个"隐藏身份"的模型分别生成动态视频,用户投票选出更自然流畅的一方。

Elo 评分:基于 Bradley-Terry 模型计算,科学反映模型在图生视频任务中的相对实力。

筛选条件

榜单历史快照月份:

排名总表

排名模型名称得分95% CI投票数机构许可证
GRGrok Imagine 0.91,404+/-666,616xAIProprietary

数据仅供参考,以官方来源为准。模型名称旁的链接可跳转到 DataLearner 模型详情页。

2026年3月图生视频榜单分析

最新排名亮点

本次 LMArena Image-to-Video Arena 榜单更新至 2026 年 3 月 6 日,共收录 37 个模型。头部格局较上个版本更加清晰,xAI Grok 与 Google Veo 3.1 仍然构成第一梯队。

grok-imagine-video-720p 以 1404 分位列榜首,继续压制 Google 阵营。与此同时,grok-imagine-video-480p 也排到第 5,说明 Grok 在图生视频方向已经不只是单点领先,而是形成了成体系的高分版本。

Google 则凭借更厚的产品线维持最强整体实力。veo-3.1-audio-1080p、veo-3.1-audio、veo-3.1-fast-audio-1080p 和 veo-3.1-fast-audio 分列第 2、3、4、6 名,几乎包揽榜单前列。带音频版本继续明显强于旧版 Veo 3 / Veo 2。

国产模型表现

国产阵营中,vidu-q3-pro 以 1353 分位列第 7,是当前排名最高的国产图生视频模型。阿里 wan2.5-i2v-preview 以 1339 分排在第 8,wan2.6-i2v 则以 1297 分位列第 13,保持在第一梯队之外但仍具竞争力。

快手 kling-2.6-pro 以 1289 分位列第 14,和 kling-v2.1-master / standard、kling-2.5-turbo-1080p 一起构成中段主力。字节跳动的 seedance-v1.5-pro、seedance-v1-pro 与 seedance-v1-lite 也维持了稳定排名。MiniMax hailuo-2.3 则以 1255 分继续稳居中上游。

开源模型表现

开源模型中,wan-v2.2-a14b(Apache 2.0)依然是当前最有代表性的开源图生视频模型,分数达到 1167。相比头部闭源模型仍有明显差距,但在开源可用性上具有独特价值。

此外,ltx-2-19b 采用社区许可协议,也保持了较高讨论度和较大的投票量。整体而言,图生视频赛道的领先能力仍高度集中在闭源商业模型上,开源阵营更多处于追赶阶段。

2026年3月市场风向标

当前最佳 (SOTA)

01

Grok Imagine Video 720p

Elo 1404,当前图生视频榜第一名

02

Veo 3.1 Audio 1080p

Elo 1402,Google 当前最强图生视频模型之一

03

Veo 3.1 Audio

Elo 1395,Google 高质量音频版第二梯队核心

国产最佳

Vidu-Q3-Pro
Elo 1353,当前国产图生视频模型最高位次

Wan2.5-I2V-Preview
Elo 1339,阿里图生视频主力模型

Kling-2.6-Pro
Elo 1289,快手可灵系列代表作

最佳开源模型

  • •Wan-V2.2-A14BApache 2.0,当前最具代表性的开源图生视频模型
  • •LTX-2-19B社区许可,投票量高,生态关注度较强
  • •Pika-V2.2虽非开源,但在长尾入门产品中仍有一定参考价值

排名解读(更新于 2026年03月06日)

2026年3月最好的图生视频模型是哪些?

根据 2026 年 3 月 6 日的 LMArena 图生视频榜单,Grok Imagine Video 720p、Veo 3.1 Audio 1080p 和 Veo 3.1 Audio 是当前最强的三款图生视频模型,xAI 与 Google 处于第一梯队。

2026年3月最好的国产图生视频模型是哪些?

国产阵营里,Vidu-Q3-Pro 当前排名最高,其后是 Wan2.5-I2V-Preview 和 Kling-2.6-Pro。如果考虑开源路线,则 Wan-V2.2-A14B 仍是最重要的选择。

2026年3月最好的开源图生视频模型是哪些?

从当前榜单看,Wan-V2.2-A14B 是最值得关注的开源图生视频模型;LTX-2-19B 虽然不是标准开源协议,但也是这个方向的重要社区模型。

AI 图生视频常见问题

图生视频 (Image-to-Video) 和文生视频 (Text-to-Video) 有什么区别?▼
是从无到有,仅凭文字描述生成视频;而 则是基于一张参考图片生成视频。后者能更好地控制视频的主题、构图和角色形象(Consistency),因此在广告制作、角色动画等场景中更具实用价值。

覆盖多种动画场景:包括人像动画、风景运动、物体变换、艺术创作等多元化的图生视频需求。

DataLearner 在原始数据基础上提供中文解读与深度分析,并将排行榜模型关联至 DataLearner 模型库,方便您一键查看模型详情、API 定价、评测得分等完整信息。

VEVeo 3.1 Generate (Preview)
1,402
+/-12
9,786
Google Deep Mind
Proprietary
VEVeo 3.1 Generate (Preview)1,395+/-1123,406Google Deep MindProprietary
4VEVeo 3.1 Fast (Preview)1,383+/-1310,273Google Deep MindProprietary
5GRGrok Imagine 0.91,381+/-919,518xAIProprietary
6VEVeo 3.1 Fast (Preview)1,380+/-1051,820Google Deep MindProprietary
7VIvidu-q3-pro1,353+/-837,094ShengshuProprietary
8WAWan2.1-T2V-14B1,339+/-1212,023阿里巴巴Proprietary
9KLkling-v3-pro1,334+/-114,111KlingAIProprietary
10VEVeo 3.1 Generate (Preview)1,331+/-1134,535Google Deep MindProprietary
11VEVeo 3.1 Fast (Preview)1,322+/-943,885Google Deep MindProprietary
12SESeedance 2.01,300+/-968,850字节跳动Seed团队Proprietary
13WAwan2.6-i2v1,297+/-1414,157AlibabaProprietary
14KLKling 2.5 Turbo1,289+/-967,714昆仑万维Proprietary
15PIpixverse-v5.61,279+/-133,911PixverseProprietary
16SESeedance 2.01,272+/-736,448字节跳动Seed团队Proprietary
17KLKling 2.5 Turbo1,272+/-123,871昆仑万维Proprietary
18VEVeo 3.1 Fast (Preview)1,256+/-927,848Google Deep MindProprietary
19HAHailuo 2.31,255+/-772,452MiniMaxAIProprietary
20VEVeo 3.1 Generate (Preview)1,254+/-1027,715Google Deep MindProprietary
21VIvidu-q2-turbo1,244+/-172,477ShengshuProprietary
22KLKling 2.5 Turbo1,232+/-732,229昆仑万维Proprietary
23HAHailuo 2.31,228+/-1023,821MiniMaxAIProprietary
24KLKling 2.5 Turbo1,225+/-832,238昆仑万维Proprietary
25VIvidu-q2-pro1,224+/-162,562ShengshuProprietary
26HAHailuo 2.31,222+/-923,636MiniMaxAIProprietary
27RAray-31,221+/-191,578Luma AIProprietary
28P-p-video1,195+/-138,919PrunaProprietary
29MIMiniMax Hailuo 2.3 Fast1,194+/-1024,563MiniMaxAIProprietary
30HUHunyuan-A13B-Instruct1,193+/-155,429腾讯AI实验室tencent-hunyuan-community
31SESeedance 2.01,182+/-736,093字节跳动Seed团队Proprietary
32WAWan2.1-T2V-14B1,167+/-929,434阿里巴巴Apache 2.0
33VEVeo 3.1 Generate (Preview)1,164+/-1611,532Google Deep MindProprietary
34LTltx-2-19b1,126+/-748,785lightricksltx-2-community-license-agreement
35RAray21,104+/-1610,821Luma AIProprietary
36RUrunway-gen4-turbo1,047+/-137,506RunwayProprietary
37PIpika-v2.2994+/-139,453PikaProprietary
Text-to-Video
Image-to-Video
让老照片动起来(Live Portrait)应该用哪个模型?▼
对于人像动画,Kling (可灵) 和 Runway Gen-4 表现优异,特别是它们能很好地处理面部微表情。如果是专注于对口型的应用,则推荐专门的 Lip Sync 模型(如 HeyGen)。
如何保持生成视频中的人物一致性?▼
使用 Image-to-Video 技术本身就是保持角色一致性的最佳方法。通过上传角色的设定图作为首帧,模型会以此为基准生成后续帧,从而最大限度地保证人物长相、服装和场景的一致性。
什么是First Frame Fidelity(首帧保真度)?▼
首帧保真度是评估图生视频模型的核心指标之一。它衡量生成视频的第一帧与输入参考图的一致程度。高保真度意味着模型能够准确保留原图的构图、主体特征和艺术风格,让视频看起来像是从这张图片自然延伸出来的运动,而非"重新创作"了一张类似的图。