DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
目录
大模型列表Claude Sonnet 4.5
CL

Claude Sonnet 4.5

聊天大模型

Claude Sonnet 4.5

发布时间: 2025-09-30更新于: 2025-10-19 12:28:123,854
在线体验GitHubHugging FaceCompare
模型参数
未披露
上下文长度
1000K
中文支持
支持
推理能力

Claude Sonnet 4.5 是由 Anthropic 发布的 AI 模型,发布时间为 2025-09-30,定位为 聊天大模型,参数规模约为 0.0B,上下文长度为 1000K,采用 不开源 许可。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

Claude Sonnet 4.5

模型基本信息

推理过程
支持
思考模式
不支持思考模式
上下文长度
1000K tokens
最大输出长度
65536 tokens
模型类型
聊天大模型
发布时间
2025-09-30
模型文件大小
暂无数据
MoE架构
否
总参数 / 激活参数
暂无数据 / 不涉及
知识截止
暂无数据
Claude Sonnet 4.5

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源- 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
https://claude.ai/
Claude Sonnet 4.5

官方介绍与博客

官方论文
Introducing Claude Sonnet 4.5
DataLearnerAI博客
全球最强编程大模型升级:Anthropic发布Claude Sonnet 4.5!同时还有一波重磅工具更新:Claude Code支持保存状态等
Claude Sonnet 4.5

API接口信息

接口速度
3/5
💡默认单位:$/100万 tokens。若计费单位不同,则以供应商公开的原始标注为准。
标准计费Standard
模态输入输出
文本$3$15
缓存计费Cache
模态输入 Cache输出 Cache
文本$3.75$0.3
超上下文计费Extended
模态输入输出
文本$6$22.5
Claude Sonnet 4.5

评测结果

Claude Sonnet 4.5 当前已收录的代表性评测结果包括 AIME2025(1 / 106,得分 100)、SWE-bench Verified(3 / 103,得分 82)、MMLU Pro(5 / 124,得分 88)。 本页还汇总了参数规模、上下文长度与 API 价格,便于结合评测结果与部署约束一起判断模型适配度。

思考模式
全部常规思考
工具使用
全部使用工具不使用工具
并行模式
排除并行全部并行模式

综合评估

共 12 项评测
评测名称 / 模式
得分
排名/总数
MMLU Pro
思考模式
88
5 / 124
GPQA Diamond
常规模式
73.70
94 / 175
GPQA Diamond
思考模式
83.40
55 / 175
LiveBench
常规模式
70.56
20 / 52
LiveBench
思考模式
78.26
4 / 52
ARC-AGI
常规模式
25.50
52 / 65
ARC-AGI
思考模式
63.70
32 / 65
HLE
常规模式
7.10
136 / 149
HLE
思考模式
17.70
103 / 149
HLE
思考模式工具
33.60
60 / 149
ARC-AGI-2
常规模式
3.80
48 / 58
ARC-AGI-2
思考模式
13.60
34 / 58

编程与软件工程

共 4 项评测
评测名称 / 模式
得分
排名/总数
SWE-bench Verified
思考模式工具
77.20
20 / 103
LiveCodeBench
常规模式
59
69 / 118
LiveCodeBench
思考模式
71
45 / 118
SWE-Bench Pro - Public
思考模式
43.60
29 / 36

数学推理

共 8 项评测
评测名称 / 模式
得分
排名/总数
AIME2025
常规模式
37
96 / 106
AIME2025
思考模式
87
45 / 106
AIME2025
思考模式工具
100
1 / 106
IMO-ProofBench
思考模式
27.10
8 / 16
FrontierMath
常规模式
5.20
38 / 60
IMO-ProofBench Advanced
思考模式
4.80
6 / 8
FrontierMath - Tier 4
常规模式
2.10
56 / 80
FrontierMath - Tier 4
32K
4.20
40 / 80

AI Agent - 工具使用

共 4 项评测
评测名称 / 模式
得分
排名/总数
OSWorld-Verified
思考模式工具
61.40
10 / 14
Terminal-Bench
常规模式工具
27
25 / 35
Terminal-Bench
思考模式工具
50
3 / 35
Terminal Bench 2.0
思考模式工具
42.80
38 / 43

多模态理解

共 1 项评测
评测名称 / 模式
得分
排名/总数
MMMU
思考模式
77.80
14 / 28

常识推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
Simple Bench
常规模式
54.30
9 / 27

Agent能力评测

共 4 项评测
评测名称 / 模式
得分
排名/总数
τ²-Bench - Telecom
思考模式工具
98
5 / 35
τ²-Bench
常规模式工具
71
24 / 40
τ²-Bench
思考模式工具
84.70
9 / 40
Terminal Bench Hard
思考模式工具
33
8 / 13

指令跟随

共 1 项评测
评测名称 / 模式
得分
排名/总数
IF Bench
思考模式工具
57.30
19 / 27

AI Agent - 信息收集

共 1 项评测
评测名称 / 模式
得分
排名/总数
BrowseComp
思考模式工具
24.10
41 / 43

生产力知识

共 1 项评测
评测名称 / 模式
得分
排名/总数
GDPval-AA
思考模式
39
15 / 20

长上下文能力

共 1 项评测
评测名称 / 模式
得分
排名/总数
AA-LCR
思考模式
66
8 / 13

OpenClaw智能体能力综合测评

共 2 项评测
评测名称 / 模式
得分
排名/总数
Pinch Bench
思考模式工具
88.20
4 / 37
Claw Bench
思考模式工具
88.10
13 / 29
查看评测深度分析与其他模型对比
Claude Sonnet 4.5

发布机构

Anthropic
Anthropic
查看发布机构详情
Claude Sonnet 4.5

模型解读

Anthropic于2025年9月29日正式发布了Claude Sonnet 4.5,这款模型被定位为公司迄今为止最强大的前沿模型之一。 作为Claude系列的最新迭代,Sonnet 4.5在编码、复杂代理构建以及计算机使用等方面展现出显著提升,标志着AI工具在实际生产环境中的进一步成熟。该模型的推出恰逢9月30日左右的全球AI社区热议期,迅速引发了开发者与企业的广泛关注。

核心特性与能力概述

Claude Sonnet 4.5的核心卖点在于其多模态处理能力和长时任务执行。不同于传统AI模型的短时交互,该模型能够自主运行超过30小时,同时保持对复杂、多步骤任务的专注。 它支持工具集成,如应用程序、电子表格和软件操作,这使得其在实际工作流中更具实用性。此外,Sonnet 4.5在金融、法律、医学和STEM(科学、技术、工程、数学)领域的专业知识与推理能力上表现出色,能够处理高度领域特定的挑战。

从应用角度看,该模型特别适用于构建复杂代理系统,例如自动化软件开发或多阶段决策流程。Anthropic强调,Sonnet 4.5不仅是编码领域的佼佼者,还在数学推理和问题求解上实现了实质性进步。 这些特性使其成为企业级AI部署的理想选择,尤其是在需要高可靠性和长续航的场景中。

性能基准与实证数据

Anthropic通过多项行业标准基准测试验证了Sonnet 4.5的实力。在SWE-bench Verified测试中,该模型在无额外计算的情况下达到了77.2%的得分,而在高计算配置下则提升至82.0%。 在OSWorld基准上,Sonnet 4.5的得分达61.4%,较前代Sonnet 4的42.2%大幅跃升。 其他评估包括Terminal-Bench、τ2-bench、AIME和MMMLU等,均显示出在推理、数学和多语言处理方面的领先优势。

这些数据并非孤立数字,而是基于严格的实验设置得出的,例如使用采样温度为1.0的AIME测试或多轮平均的MMMLU评估。 第三方观察显示,Sonnet 4.5在漏洞发现、代码分析和软件工程任务中表现出“显著改进”,特别是在生物风险评估领域。 总体而言,这些基准结果确立了其在AI前沿模型中的领先地位。

与前代模型的比较

相较于Claude 3.5 Sonnet,Sonnet 4.5在编码和代理构建上实现了“实质性提升”,而非渐进式改进。 例如,在OSWorld测试中的得分翻倍,反映出模型在操作系统交互和长时任务管理上的优化。同时,与Claude Opus 4.1相比,Sonnet 4.5在领域特定推理(如金融代理任务)上表现出更强的知识深度。 Anthropic将其描述为Sonnet 4的“无缝替换”,性能提升显著,但保持了相似的接口兼容性,便于现有用户迁移。

尽管如此,一些用户反馈指出,在某些主观任务中,Sonnet 4.5的改进可能不如Opus系列明显。 这提醒我们,模型选择仍需根据具体用例进行评估。

安全与合规措施

安全一直是Anthropic的核心关注点,Sonnet 4.5被归类为AI安全水平3(ASL-3),配备了针对化学、生物、放射和核(CBRN)武器的分类器,以检测潜在危险输入/输出。 与前代相比,该模型在对齐性上大幅进步,减少了奉承、欺骗和有害提示遵守等行为。 首次引入的机制解释技术进一步提升了透明度,帮助识别潜在风险。

然而,分类器仍可能产生假阳性,导致正常对话中断——Anthropic已将假阳性率降低至前代的1/10,并承诺持续优化。 对于网络安全和生物研究领域的客户,Anthropic提供白名单机制,以平衡安全与可用性。

可用性与定价

Claude Sonnet 4.5已全面上线,包括Claude API、Claude应用、Claude Code和Chrome扩展。 开发者可通过Claude Agent SDK快速构建代理系统。此外,它已集成至Amazon Bedrock服务,进一步扩展了企业级访问渠道。

定价维持与Sonnet 4一致:输入令牌每百万3美元,输出令牌每百万15美元。 这使得其在成本效益上保持竞争力,尤其适合高强度编码任务。

结语:AI生产的下一个里程碑

Claude Sonnet 4.5的发布强化了Anthropic在AI安全与实用性平衡上的领导地位。 虽然模型仍面临长上下文配置下的推理挑战,但其在基准测试和实际应用中的表现预示着AI代理时代的加速到来。对于开发者、企业决策者和AI研究者而言,这款模型值得纳入测试范围,以评估其在特定工作负载下的潜力。未来,随着更多第三方评估的涌现,我们将看到Sonnet 4.5如何进一步塑造AI生态。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码