DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
页面导航
大模型列表GPT Realtime
GP

GPT Realtime

多模态大模型

GPT Realtime

发布时间: 2025-08-28更新于: 2025-08-29 04:29:49454
在线体验GitHubHugging FaceCompare
模型参数
未披露
上下文长度
32K
中文支持
支持
推理能力

GPT Realtime 是由 OpenAI 发布的 AI 模型,发布时间为 2025-08-28,定位为 多模态大模型,上下文长度为 32K,采用 不开源 许可。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

GPT Realtime

模型基本信息

推理过程
不支持
思考模式
不支持思考模式
上下文长度
32K tokens
最大输出长度
4096 tokens
模型类型
多模态大模型
发布时间
2025-08-28
模型文件大小
暂无数据
MoE架构
否
总参数 / 激活参数
暂无数据 / 不涉及
知识截止
暂无数据
GPT Realtime

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
https://chatgpt.com/
GPT Realtime

官方介绍与博客

官方论文
Introducing gpt-realtime and Realtime API updates for production voice agents
DataLearnerAI博客
语音大模型正式进入Voice Agent时代!OpenAI发布GPT Realtime模型,可以直接调用接口和工具进行实时语音对话!
GPT Realtime

API接口信息

接口速度
4/5
💡默认单位:$/100万 tokens。若计费单位不同,则以供应商公开的原始标注为准。
标准计费Standard
模态输入输出
文本$4$16
音频$32$64
GPT Realtime

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合?打开对比工具

GPT Realtime

发布机构

OpenAI
OpenAI
查看发布机构详情
GPT Realtime

模型解读

GPT-Realtime 是 OpenAI 于 2025 年 8 月 28 日发布的 speech-to-speech 模型。它能够通过单个模型和 API 处理从音频输入到音频输出的全流程,从而降低交互延迟并保留语音细节。该模型同步伴随 Realtime API 的更新一同推出。

模型特点

GPT-Realtime 将语音识别、理解、推理和语音生成整合在一个模型中,避免了传统“识别—推理—合成”的多阶段流程。这一结构减少了延迟,使语音交互能够更接近实时。

在语音生成方面,模型能够根据指令调整语速、节奏和风格,支持在对话中切换语言,并在生成过程中保持一致性。除了语言内容外,它还能够识别笑声、停顿等非语言提示,并将其纳入上下文。

在公开的评测中,GPT-Realtime 的表现相比前代模型有明显提升:

  • Big Bench Audio(音频推理任务):准确率 82.8%,前代为 65.6%。
  • MultiChallenge audio(多轮语音对话指令遵循):准确率 30.5%,前代为 20.6%。
  • ComplexFuncBench audio(函数调用任务):准确率 66.5%,前代为 49.7%。

此外,GPT-Realtime 新增了 Cedar 和 Marin 两种语音,并对现有语音进行了更新。

Realtime API 更新

GPT-Realtime 的发布伴随着 Realtime API 的一般可用版本,主要更新包括:

  • 实时音频流:支持低延迟的双向语音流交互。
  • 多模态输入:可在语音会话中加入图像作为输入。
  • SIP 电话呼叫:支持通过标准电话协议接入公共电话网络和企业 PBX 系统。
  • 可复用 Prompt:开发者可在不同会话间共享预设提示、工具与示例对话。
  • 远端 MCP 服务器:会话可直接调用远端工具目录,由 API 处理调用过程。
  • 上下文控制:可设置 token 上限并在长对话中批量截断,以降低成本。

安全与合规

GPT-Realtime 内置多层安全防护,包括实时活动分类器,可在检测到风险内容时中止会话。使用政策要求开发者在终端产品中明确告知用户正在与 AI 交互,并禁止将输出用于欺骗或冒名用途。所有语音均来自预设库,以降低伪造风险。

在企业与合规层面,Realtime API 提供欧盟数据驻留选项,满足部分地区对数据流向的监管要求。

定价信息

与预览版相比,Realtime API 的定价有所下调。新的价格为:

类型价格(每百万 token)备注

音频输入$32缓存输入 $0.40

音频输出$64

应用场景

GPT-Realtime 和 Realtime API 可以应用于多个领域:

  • 客户服务:通过 SIP 接入现有呼叫中心,处理多轮问题并调用外部系统。
  • 教育:提供语音驱动的学习辅导和多语言交互。
  • 医疗:作为语音问答工具,支持患者咨询与初步分诊。
  • 智能家居:与设备工具结合,实现语音控制。
  • 娱乐与社交:在游戏、虚拟角色或互动场景中实现实时语音互动。

行业洞察

GPT-Realtime 通过单模型端到端处理,降低了语音交互的复杂性。在标准化评测中,它在推理、指令遵循和函数调用方面均优于前代模型。这意味着在生产场景中,它可以更可靠地支持多轮语音交互和任务执行。

Realtime API 的扩展能力(SIP、图像输入、远端工具接入)使其更容易嵌入企业现有系统。结合合规功能(如数据驻留),其适用范围从个人应用延伸到受监管行业。

在应用层面,客服、教育、医疗和智能家居等领域可能率先采用该技术,以降低流程成本并提升用户体验。与此同时,随着语音交互逐渐普及,行业需要同时关注透明性与滥用风险,包括用户知情权与语音伪造防护。

总结

GPT-Realtime 标志着语音交互模型向端到端方向的转变。通过 Realtime API,它不仅提供了实时语音对话的能力,还扩展了多模态输入和系统集成方式。对开发者和企业而言,这一更新降低了构建生产级语音代理的门槛,并为多行业的应用提供了新的技术基础。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码