SimpleVQA
随着多模态大语言模型(MLLM)在各个领域的应用日益广泛,一个核心问题浮出水面:我们如何信赖它们生成内容的准确性?当模型需要结合图像和文本进行问答时,其回答是否基于事实,还是仅仅是“看似合理”的幻觉?为了应对这一挑战,一个名为SimpleVQA的新型评测基准应运而生,旨在为多模态模型的事实性能力提供一个清晰、可量化的度量衡。
更新于 2026年4月3日·617 次浏览
- 问题数量
- 2025
- 发布机构
- 个人
- 评测类别
- 多模态理解
- 评测指标
- Accuracy
- 支持语言
- 英文
- 难度等级
- 中等难度
简介
首个全面评估多模态大模型在回答自然语言简短问题时事实性能力的多模态基准。
SimpleVQA评测最新大模型排名与完整榜单数据
查看 SimpleVQA 的最新得分、模型模式、发布时间与参数规模,快速了解当前完整榜单表现。
数据来源:DataLearnerAI
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
模型模式说明
SimpleVQA 排名
| 排名 | 模型 | 开源情况 | |||
|---|---|---|---|---|---|
![]() Step3 常规模式 | 62.20 | 2025-07-31 | 3210亿 | 免费商用 | |
![]() Qwen3.5-27B 开启思考 | 56.00 | 2026-02-25 | 270亿 | 免费商用 |

