Context Arena
Context Arena 是一个专注于评估大语言模型长上下文处理能力的基准平台。它基于 OpenAI 发布的 Multi-Round Coreference Resolution (MRCR) 数据集,提供交互式排行榜,用于比较不同模型在复杂长对话中的信息检索和理解性能。该基准强调模型在长上下文下的实际表现,避免单纯依赖训练数据记忆。
更新于 2026年4月6日·362 次浏览
- 问题数量
- —
- 发布机构
- 个人
- 评测类别
- 文本向量检索
- 评测指标
- Accuracy
- 支持语言
- 英文
- 难度等级
- 中等难度
简介
基于多轮对话数据集测试大模型超长上下文的能力
Context Arena评测最新大模型排名与完整榜单数据
查看 Context Arena 的最新得分、模型模式、发布时间与参数规模,快速了解当前完整榜单表现。
数据来源:DataLearnerAI
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
模型模式说明
Context Arena 排名
| 排名 | 模型 | 开源情况 | |||
|---|---|---|---|---|---|
![]() Gemma 4 26B A4B 开启思考 | 44.10 | 2026-04 | 25.2亿 | 免费商用 |
