Sonnet 4.5是Anthropic一个中等能力的模型,但很多评测结果不比Opus差。
Claude Sonnet 4.5 评测深度分析
Claude Sonnet 4.5 当前已收录的代表性评测结果包括 AIME2025(1 / 106,得分 100)、SWE-bench Verified(3 / 103,得分 82)、MMLU Pro(5 / 124,得分 88)。并附有 2 个数据来源链接供参考。
评测结果
Claude Sonnet 4.5
评测结果
综合评估
共 12 项评测评测名称 / 模式
得分
排名/总数
编程与软件工程
共 5 项评测评测名称 / 模式
得分
排名/总数
数学推理
共 8 项评测评测名称 / 模式
得分
排名/总数
AI Agent - 工具使用
共 4 项评测评测名称 / 模式
得分
排名/总数
Agent能力评测
共 4 项评测评测名称 / 模式
得分
排名/总数