DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
目录
大模型列表Opus 4.1
OP

Opus 4.1

推理大模型

Claude Opus 4.1

发布时间: 2025-08-06更新于: 2026-04-19 11:42:58.722知识截止: 2025-01928
在线体验GitHubHugging FaceCompare
模型参数
未披露
上下文长度
200K
中文支持
支持
推理能力

Claude Opus 4.1 是由 Anthropic 发布的 AI 模型,发布时间为 2025-08-06,定位为 推理大模型,参数规模约为 0.0B,上下文长度为 200K,采用 不开源 许可。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

Opus 4.1

模型基本信息

推理过程
支持
思考模式
思考水平 · 扩展 (Extended) (默认)常规模式
上下文长度
200K tokens
最大输出长度
32000 tokens
模型类型
推理大模型
发布时间
2025-08-06
模型文件大小
暂无数据
MoE架构
否
总参数 / 激活参数
暂无数据 / 不涉及
知识截止
2025-01
Opus 4.1

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源- 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
https://claude.ai/
Opus 4.1

官方介绍与博客

官方论文
Claude Opus 4.1
DataLearnerAI博客
暂无介绍博客
Opus 4.1

API接口信息

接口速度
2/5
💡默认单位:$/100万 tokens。若计费单位不同,则以供应商公开的原始标注为准。
了解不同定价模式详解
标准模式
类型适用条件输入输出
文本-$15.00/ 1M$75.00/ 1M
批量模式
类型适用条件输入输出
文本-$7.50/ 1M$37.50/ 1M
缓存定价Prompt缓存
类型有效期写入读取
文本5m$18.75/ 1M$1.50/ 1M
Opus 4.1

评测结果

Opus 4.1 当前已收录的代表性评测结果包括 MMLU Pro(5 / 124,得分 88)、LiveBench(7 / 52,得分 75.25)、Terminal-Bench(5 / 35,得分 46.50)。 本页还汇总了参数规模、上下文长度与 API 价格,便于结合评测结果与部署约束一起判断模型适配度。

思考模式
全部常规思考
思考模式细分 (2)
全部默认 (扩展)32K
工具使用
全部使用工具不使用工具

编程与软件工程

共 1 项评测
评测名称 / 模式
得分
排名/总数
SWE-bench Verified
扩展工具
74.50
31 / 103

AI Agent - 工具使用

共 1 项评测
评测名称 / 模式
得分
排名/总数
Terminal-Bench
扩展工具
43.30
9 / 35

指令跟随

共 1 项评测
评测名称 / 模式
得分
排名/总数
IF Bench
扩展工具
55
20 / 27

Agent能力评测

共 1 项评测
评测名称 / 模式
得分
排名/总数
Terminal Bench Hard
扩展工具
32
9 / 13
查看评测深度分析与其他模型对比
Opus 4.1

发布机构

Anthropic
Anthropic
查看发布机构详情
Claude Opus 4.1

模型解读

Anthropic 于 2025 年 8 月 5 日发布了其最新模型 Claude Opus 4.1,这是对其先前旗舰模型 Claude Opus 4 的一次升级。本次更新主要增强了模型在智能代理任务 (agentic tasks)、真实世界编码以及推理方面的能力,同时保持了与前代产品相同的定价。

核心亮点:编码与推理能力的提升

Claude Opus 4.1 在多个基准测试中展现了其性能的提升,尤其是在编码领域。根据 Anthropic 公布的数据,该模型在 SWE-bench Verified(一个衡量修复真实世界 GitHub 问题的能力的基准)上的得分达到了 74.5%。

除了编码能力的精进,Opus 4.1 还在深度研究和数据分析技能上有所提高,特别是在细节跟踪和智能代理搜索方面。GitHub 的报告指出,Opus 4.1 在多文件代码重构方面有显著的性能增长。同时,日本乐天集团 (Rakuten Group) 发现,该模型在大型代码库中能精准定位并修正问题,而不会引入不必要的调整或错误。

其他性能指标

根据 Anthropic 提供的基准测试表格,Claude Opus 4.1 在多个方面均优于 Opus 4,尽管部分提升幅度较小。

  • 研究生水平推理 (GPQA Diamond): 从 79.6% 提升至 80.9%
  • 多语言问答 (MMMLU): 从 88.8% 提升至 89.5%
  • 高中数学竞赛 (AIME 2025): 从 75.5% 提升至 78.0%

值得注意的是,在“智能代理工具使用” (Agentic tool use) 的一项特定基准测试(航空公司类别)中,其得分略有下降。

定价与可用性

Claude Opus 4.1 的定价与 Opus 4 保持一致。该模型已向付费的 Claude 用户、Claude Code 用户以及通过 API 开放。此外,用户还可以通过亚马逊的 Amazon Bedrock 和谷歌云的 Vertex AI 等云平台接入使用。

安全性与市场反响

Anthropic 表示,尽管 Opus 4.1 是一个增量升级,公司仍对其进行了安全评估,以确保其风险在可接受范围内。在无害性方面,该模型拒绝违反政策请求的比例有所上升。

从市场反响来看,部分用户认为这是一次有效的迭代,特别是在处理复杂的编程任务时。然而,也有评论指出,对于日常或不太复杂的任务,其提升感知可能不明显,且高昂的成本仍然是用户考量的主要因素之一。Anthropic 预告,未来几周内将发布更大幅度的模型改进。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码