DocVQA
DocVQA是一个针对文档图像的视觉问答基准数据集。该数据集包含50,000个问题,这些问题基于12,767张文档图像构建而成。数据集旨在评估模型在提取和理解文档内容方面的能力,特别是当问题涉及布局、表格和文本时。基准通过提供标注的问答对,支持模型在真实文档场景下的测试。
更新于 2025年10月19日·1,076 次浏览
- 问题数量
- 50000
- 发布机构
- 个人
- 评测类别
- 多模态理解
- 评测指标
- Accuracy
- 支持语言
- 英文
- 难度等级
- 中等难度
简介
DocVQA是一个针对文档图像的视觉问答基准数据集。
DocVQA评测最新大模型排名与完整榜单数据
查看 DocVQA 的最新得分、模型模式、发布时间与参数规模,快速了解当前完整榜单表现。
数据来源:DataLearnerAI
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
模型模式说明
DocVQA 排名
| 排名 | 模型 | 开源情况 | |||
|---|---|---|---|---|---|
96.40 | 2025-01-28 | 720亿 | 免费商用 | ||
96.10 | 2025-10-15 | 88亿 | 免费商用 | ||
95.30 | 2025-10-15 | 40亿 | 免费商用 | ||
4 | 92.00 | 2025-09-25 | 未知 | 闭源 | |
5 | ![]() GPT-5-Nano 常规模式 | 78.30 | 2025-08-07 | 未知 | 闭源 |


