OpenAI发布三款音频模型：GPT-Realtime-2/Translate/Whisper有何不同

5月初，OpenAI正式发布三款音频模型，宣告语音交互从”问答时代”迈入”执行时代”。这三款模型分别是GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper，它们各有分工，共同构建起完整的语音AI能力矩阵。

GPT-Realtime-2：首个具备GPT-5级推理的语音模型

Realtime-2的核心突破在于”语音到行动”的闭环能力。它不仅能听懂用户的语音指令，还能理解多步骤的复合请求，并在对话中同步调用工具完成任务。

以Zillow正在构建的房产助手为例，用户说”找到符合预算的房源并安排看房”，Realtime-2会拆解这个复合指令：先筛选预算范围内的房源，再调用日历接口确认看房时间，最后生成确认信息推送给用户。整个过程无需用户反复确认，AI自主完成多步骤规划。

Translate模型支持70多种输入语言实时翻译成13种输出语言，智能跟随发言人语速。这意味着跨语言会议将彻底告别同声传译人员，AI可以实时将日语发言翻译成英语、将中文方言翻译成普通话，且能识别说话者的语气和情绪。

Whisper模型提供边说边转录的流式能力，延迟大幅降低。对于会议记录、讲座整理、采访转录等场景，Whisper可以直接在语音输入的同时输出文字，用户无需等待说完再查看结果。

除音频能力外，OpenAI同步推出Daybreak安全项目，提供三个专用模型：通用安全防护的GPT-5.5、面向授权环境的Trusted Access版本、以及服务高敏感工作流的GPT-5.5-Cyber。该项目借鉴了Anthropic在AI安全领域的经验，将防御能力前置到软件开发流程中。

据悉，Daybreak基于的GPT-5.4-Cyber模型已帮助修复超过3000个安全漏洞。这一布局显示，OpenAI正在从”能力领先”向”能力+安全双领先”转型。

文章版权归作者所有，未经允许请勿转载。

4周前

1.6K0

2周前

9480

3周前

1.6K0

4周前

1.1K0