GPT Realtime

Name: GPT Realtime
Availability: InStock
Author: OpenAI

多模态大模型

GPT Realtime

发布时间: 2025-08-28更新于: 2025-08-29 04:29:49454

在线体验GitHubHugging FaceCompare

模型参数

未披露

上下文长度

32K

中文支持

支持

推理能力

GPT Realtime 是由 OpenAI 发布的 AI 模型，发布时间为 2025-08-28，定位为多模态大模型，上下文长度为 32K，采用不开源许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

GPT Realtime

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

32K tokens

最大输出长度

4096 tokens

模型类型

多模态大模型

发布时间

2025-08-28

模型文件大小

暂无数据

MoE架构

否

总参数 / 激活参数

暂无数据 / 不涉及

知识截止

暂无数据

GPT Realtime

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

https://chatgpt.com/

GPT Realtime

官方介绍与博客

官方论文

Introducing gpt-realtime and Realtime API updates for production voice agents

DataLearnerAI博客

语音大模型正式进入Voice Agent时代！OpenAI发布GPT Realtime模型，可以直接调用接口和工具进行实时语音对话！

GPT Realtime

API接口信息

接口速度

4/5

💡默认单位：$/100万 tokens。若计费单位不同，则以供应商公开的原始标注为准。

标准计费Standard

模态	输入	输出
文本	$4	$16
音频	$32	$64

GPT Realtime

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

GPT Realtime

发布机构

OpenAI

查看发布机构详情

GPT Realtime

模型解读

GPT-Realtime 是 OpenAI 于 2025 年 8 月 28 日发布的 speech-to-speech 模型。它能够通过单个模型和 API 处理从音频输入到音频输出的全流程，从而降低交互延迟并保留语音细节。该模型同步伴随 Realtime API 的更新一同推出。

模型特点

GPT-Realtime 将语音识别、理解、推理和语音生成整合在一个模型中，避免了传统“识别—推理—合成”的多阶段流程。这一结构减少了延迟，使语音交互能够更接近实时。

在语音生成方面，模型能够根据指令调整语速、节奏和风格，支持在对话中切换语言，并在生成过程中保持一致性。除了语言内容外，它还能够识别笑声、停顿等非语言提示，并将其纳入上下文。

在公开的评测中，GPT-Realtime 的表现相比前代模型有明显提升：

Big Bench Audio（音频推理任务）：准确率 82.8%，前代为 65.6%。
MultiChallenge audio（多轮语音对话指令遵循）：准确率 30.5%，前代为 20.6%。
ComplexFuncBench audio（函数调用任务）：准确率 66.5%，前代为 49.7%。

此外，GPT-Realtime 新增了 Cedar 和 Marin 两种语音，并对现有语音进行了更新。

Realtime API 更新

GPT-Realtime 的发布伴随着 Realtime API 的一般可用版本，主要更新包括：

实时音频流：支持低延迟的双向语音流交互。
多模态输入：可在语音会话中加入图像作为输入。
SIP 电话呼叫：支持通过标准电话协议接入公共电话网络和企业 PBX 系统。
可复用 Prompt：开发者可在不同会话间共享预设提示、工具与示例对话。
远端 MCP 服务器：会话可直接调用远端工具目录，由 API 处理调用过程。
上下文控制：可设置 token 上限并在长对话中批量截断，以降低成本。

安全与合规

GPT-Realtime 内置多层安全防护，包括实时活动分类器，可在检测到风险内容时中止会话。使用政策要求开发者在终端产品中明确告知用户正在与 AI 交互，并禁止将输出用于欺骗或冒名用途。所有语音均来自预设库，以降低伪造风险。

在企业与合规层面，Realtime API 提供欧盟数据驻留选项，满足部分地区对数据流向的监管要求。

定价信息

与预览版相比，Realtime API 的定价有所下调。新的价格为：

类型价格（每百万 token）备注

音频输入$32缓存输入 $0.40

音频输出$64

应用场景

GPT-Realtime 和 Realtime API 可以应用于多个领域：

客户服务：通过 SIP 接入现有呼叫中心，处理多轮问题并调用外部系统。
教育：提供语音驱动的学习辅导和多语言交互。
医疗：作为语音问答工具，支持患者咨询与初步分诊。
智能家居：与设备工具结合，实现语音控制。
娱乐与社交：在游戏、虚拟角色或互动场景中实现实时语音互动。

行业洞察

GPT-Realtime 通过单模型端到端处理，降低了语音交互的复杂性。在标准化评测中，它在推理、指令遵循和函数调用方面均优于前代模型。这意味着在生产场景中，它可以更可靠地支持多轮语音交互和任务执行。

Realtime API 的扩展能力（SIP、图像输入、远端工具接入）使其更容易嵌入企业现有系统。结合合规功能（如数据驻留），其适用范围从个人应用延伸到受监管行业。

在应用层面，客服、教育、医疗和智能家居等领域可能率先采用该技术，以降低流程成本并提升用户体验。与此同时，随着语音交互逐渐普及，行业需要同时关注透明性与滥用风险，包括用户知情权与语音伪造防护。

总结

GPT-Realtime 标志着语音交互模型向端到端方向的转变。通过 Realtime API，它不仅提供了实时语音对话的能力，还扩展了多模态输入和系统集成方式。对开发者和企业而言，这一更新降低了构建生产级语音代理的门槛，并为多行业的应用提供了新的技术基础。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送