Composer 2 评测详情
Composer 2 当前已收录的代表性评测结果包括 Terminal Bench 2.0(13 / 43,得分 61.70)、SWE-bench Multilingual(6 / 17,得分 73.70)。本页还提供与 3 个竞品模型及 2 个前代或同系列模型的对比,在有数据时会展示性能和价格视图。并附有 1 个数据来源链接供参考。
评测结果
Composer 2
评测结果
竞品对比
Composer 2 与同类主流模型的评测得分对比
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;具体模式明细请看下方表格。
评测得分对比
2 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。
| 评测项 | Composer 2当前 | GPT-5.4 | Claude Opus 4.6 | Kimi K2.5 |
|---|---|---|---|---|
Terminal Bench 2.0 AI Agent - 工具使用 | 61.70开启思考 | 75.10思考水平·极高 | 工具 | 65.40扩展思考 | 工具 | 50.80开启思考 | 工具 |
SWE-bench Multilingual 编程与软件工程 | 73.70开启思考 | -- | 72.00扩展思考 | 工具 | 73.00开启思考 |
Composer 2 与同类模型的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens
若存在上下文阈值,图中标准价仅适用于以下范围:
GPT-5.4: 标准价适用于 <= 272K
Claude Opus 4.6: 标准价适用于 <= 200K
| 模型 | 供应商 | 标准输入 | 标准输出 | 标准价适用于 |
|---|---|---|---|---|
Composer 2 | Cursor | $0.5 / 1M tokens | $2.5 / 1M tokens | — |
GPT-5.4 | OpenAI | $2.5 / 1M tokens | $15 / 1M tokens | <= 272K |
Claude Opus 4.6 | Anthropic | $5 / 1M tokens | $25 / 1M tokens | <= 200K |
Kimi K2.5 | — | 0.6 美元/100 万tokens | 3 美元/100 万tokens | — |
历代版本对比
Composer 2 系列各版本的评测成绩纵向对比
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;具体模式明细请看下方表格。
评测得分对比
2 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。· 点击任意行可切换下方趋势图。
| 评测项 | Composer 2当前 | Composer 1.5 | Composer 1 |
|---|---|---|---|
Terminal Bench 2.0 AI Agent - 工具使用 | 61.70开启思考 | 47.90开启思考 | 40.00开启思考 |
SWE-bench Multilingual 编程与软件工程 | 73.70开启思考 | 65.90开启思考 | 56.90开启思考 |
单评测历史趋势图
当前查看:Terminal Bench 2.0 · AI Agent - 工具使用
选择评测
Composer 2 所在系列的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens
| 模型 | 供应商 | 标准输入 | 标准输出 | 标准价适用于 |
|---|---|---|---|---|
Composer 2 | Cursor | $0.5 / 1M tokens | $2.5 / 1M tokens | — |
Composer 1.5 | Cursor | $3.5 / 1M tokens | $17.5 / 1M tokens | — |
Composer 1 | Cursor | $1.25 / 1M tokens | $10 / 1M tokens | — |