定价模式概述
大模型 API 的定价模式已经从简单的按 Token 计费演变为多维度的分层定价体系。理解这些模式对于控制成本、优化性能至关重要。目前主流的定价模式主要包括以下四种:
实时响应,平衡延迟与成本
异步处理,成本降低 50%
超低延迟,支持语音交互
复用提示词,最高节省 90%
标准模式 (Standard Mode)
标准模式是大模型 API 最基础的调用方式,请求被实时处理并返回结果。这是大多数应用的默认选择,提供了延迟与成本之间的良好平衡。在标准模式下,输入和输出 Token 分别计费,输出 Token 的价格通常是输入的 2-4 倍。
核心特点
- 请求实时处理,通常在数秒内返回结果
- 支持流式输出(Streaming),可实现打字机效果
- 按输入/输出 Token 分别计费
- 输出 Token 价格通常是输入 Token 的 2-4 倍
- 支持所有模型功能,包括 Function Calling、Vision 等
适用场景
- ✓在线聊天机器人和智能客服
- ✓实时内容生成(文案、翻译)
- ✓AI 编程助手(Copilot 类应用)
- ✓交互式问答系统
- ✓RAG 检索增强生成应用
- ✓API 网关和代理服务
批量模式 (Batch API)
Batch API 是 OpenAI 于 2024 年 4 月推出的异步处理模式,允许开发者一次性提交大量请求,系统在 24 小时内完成处理。这种模式特别适合对延迟不敏感的大规模数据处理任务。
Batch API 提供 50% 的价格折扣,适用于不需要即时响应的异步任务,如数据分析、内容总结和批量翻译。系统保证在 24 小时内返回结果。
工作流程
将所有 API 请求按 JSONL 格式打包成单个文件
通过 Files API 上传文件,然后创建 Batch 任务
系统在 24 小时内利用空闲算力处理请求
处理完成后下载结果文件,包含所有响应
✓ 优势
- •价格直降 50%,输入输出均享受折扣
- •更高的速率限制(如 GPT-4T 可排队 2.5 亿 Token)
- •不占用实时 API 配额
- •适合处理 TB 级数据
- •自动重试失败的请求
! 注意事项
- •结果返回时间不确定(最长 24 小时)
- •目前仅支持 /v1/chat/completions 端点
- •不支持流式输出
- •不适合需要即时反馈的场景
- •需要额外的任务状态管理逻辑
实时模式 (Realtime API)
Realtime API 是为语音对话和低延迟交互设计的专用接口。它支持 Speech-to-Speech 的端到端处理,无需将语音转文字再转语音,大幅降低了延迟。这是构建语音助手、实时翻译等应用的首选方案。
技术特性
- 端到端语音处理,无需 STT/TTS 转换
- 毫秒级响应延迟
- WebSocket 持久连接,双向实时通信
- 支持中途打断(Interruption)
- 原生支持多轮对话上下文
- 音频和文本两种输入/输出模态
适用场景
- ●语音助手和智能音箱
- ●实时同声传译
- ●电话客服机器人
- ●游戏中的 AI NPC 对话
- ●直播互动和虚拟主播
- ●无障碍辅助应用
Prompt 缓存 (Prompt Caching)
Prompt CachePrompt 缓存是一种成本优化技术,允许将重复使用的提示词前缀缓存起来,后续请求复用缓存内容时只需支付极低的读取费用。Anthropic Claude 和 OpenAI 都支持这项功能,可以节省高达 90% 的输入成本并降低 85% 的延迟。
Prompt 缓存通过保存模型处理提示词时构建的"注意力状态"来工作,避免每次请求都从头计算。对于包含大量系统指令、文档或代码的应用,这可以带来显著的成本和延迟改善。
工作原理
首次请求时,系统处理完整 Prompt 并将前缀部分缓存,费用略高于标准输入
后续请求命中缓存时,直接复用已缓存的计算结果,费用仅为标准的 10%
Anthropic 默认 5 分钟(可选 1 小时),OpenAI 根据使用频率自动管理
Anthropic Claude 缓存定价示例
| 类型 | 价格倍率 | 示例 (Claude 3.5 Sonnet) |
|---|---|---|
| 标准输入 | 1.0x | $3.00 / 1M tokens |
| 缓存写入 (5min) | 1.25x | $3.75 / 1M tokens |
| 缓存写入 (1hour) | 2.0x | $6.00 / 1M tokens |
| 缓存读取 | 0.1x | $0.30 / 1M tokens |
💡 最佳实践
- →将固定的系统提示词、人设描述放在 Prompt 开头
- →长篇参考文档、代码库、Few-shot 示例适合缓存
- →确保缓存内容的请求频率足够高(5 分钟内复用)
- →使用 cache_control 块明确标记缓存边界
- →监控缓存命中率,优化 Prompt 结构
模式对比总览
| 定价模式 | 延迟 | 成本 | 最佳场景 |
|---|---|---|---|
| 标准模式 | 中等 | 标准 | 在线聊天、实时生成 |
| 批量模式 | 高 (≤24h) | 低 (-50%) | 数据分析、批量翻译 |
| 实时模式 | 极低 | 高 | 语音助手、实时翻译 |
| Prompt 缓存 | 低 | 极低 (-90%) | 重复 Prompt、长文档 |
如何选择合适的定价模式?
实时交互场景(聊天、编程助手):选择标准模式,确保用户体验
批量数据处理(分析、翻译、总结):使用 Batch API,节省 50% 成本
语音对话应用:使用 Realtime API 获得最低延迟
重复性 Prompt(固定系统提示词):启用缓存功能,降低高达 90% 输入成本
成本敏感项目:结合 Batch API + Prompt 缓存 + 选择合适模型大小
参考资料
- OpenAI API Pricing— OpenAI
- OpenAI Batch API Documentation— OpenAI
- Anthropic Prompt Caching Guide— Anthropic
- OpenAI Realtime API— OpenAI