DocVQA

Name: Document Visual Question Answering
Creator: 个人

DocVQA是一个针对文档图像的视觉问答基准数据集。该数据集包含50,000个问题，这些问题基于12,767张文档图像构建而成。数据集旨在评估模型在提取和理解文档内容方面的能力，特别是当问题涉及布局、表格和文本时。基准通过提供标注的问答对，支持模型在真实文档场景下的测试。

更新于 2025年10月19日·1,087 次浏览

DocVQA是一个针对文档图像的视觉问答基准数据集。

DocVQA评测最新大模型排名与完整榜单数据

查看 DocVQA 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止:

排名	模型				开源情况
	Qwen2.5-VL-72B-Instruct 常规模式	96.40	2025-01-28	720亿	免费商用
	Qwen3-VL-8B-Instruct 常规模式	96.10	2025-10-15	88亿	免费商用
	Qwen3-VL-4B-Instruct 常规模式	95.30	2025-10-15	40亿	免费商用
4	Gemini 2.5 Flash-Lite-Preview-09-2025 常规模式	92.00	2025-09-25	未知	闭源
5	GPT-5-Nano 常规模式	78.30	2025-08-07	未知	闭源