5月初,OpenAI正式发布三款音频模型,宣告语音交互从”问答时代”迈入”执行时代”。这三款模型分别是GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper,它们各有分工,共同构建起完整的语音AI能力矩阵。
GPT-Realtime-2:首个具备GPT-5级推理的语音模型

Realtime-2的核心突破在于”语音到行动”的闭环能力。它不仅能听懂用户的语音指令,还能理解多步骤的复合请求,并在对话中同步调用工具完成任务。
以Zillow正在构建的房产助手为例,用户说”找到符合预算的房源并安排看房”,Realtime-2会拆解这个复合指令:先筛选预算范围内的房源,再调用日历接口确认看房时间,最后生成确认信息推送给用户。整个过程无需用户反复确认,AI自主完成多步骤规划。
GPT-Realtime-Translate:70+语言实时互译

Translate模型支持70多种输入语言实时翻译成13种输出语言,智能跟随发言人语速。这意味着跨语言会议将彻底告别同声传译人员,AI可以实时将日语发言翻译成英语、将中文方言翻译成普通话,且能识别说话者的语气和情绪。
GPT-Realtime-Whisper:流式语音转文字
Whisper模型提供边说边转录的流式能力,延迟大幅降低。对于会议记录、讲座整理、采访转录等场景,Whisper可以直接在语音输入的同时输出文字,用户无需等待说完再查看结果。
安全布局:Daybreak项目
除音频能力外,OpenAI同步推出Daybreak安全项目,提供三个专用模型:通用安全防护的GPT-5.5、面向授权环境的Trusted Access版本、以及服务高敏感工作流的GPT-5.5-Cyber。该项目借鉴了Anthropic在AI安全领域的经验,将防御能力前置到软件开发流程中。
据悉,Daybreak基于的GPT-5.4-Cyber模型已帮助修复超过3000个安全漏洞。这一布局显示,OpenAI正在从”能力领先”向”能力+安全双领先”转型。









