OpenAI推出gpt-realtime：语音智能体进入“秒回”时代，开发者直呼交互更自然

产品发布与技术升级 - OpenAI正式发布gpt-realtime语音对语音模型并全面开放Realtime API 旨在降低延迟提升语音质量为开发者提供生产级AI语音智能体工具 [1] - 新模型采用端到端语音处理架构无需分开串联语音转文本与文本转语音显著缩短响应时间并保留语音细微差别 [1] - gpt-realtime生成更高质量语音语速语调更自然新增Cedar和Marin两个合成声音并对现有声音更新使其更逼真 [1] 模型性能提升 - 模型理解能力显著进步可识别非语言信号支持一句话内多语言切换准确处理跨语言字母数字序列支持西班牙语中文日语法语等语言 [2] - 内部测试显示 Big Bench Audio准确率从65.6%提升至82.8% MultiChallenge音频基准测试指令遵循得分从20.6%提升至30.5% [2] - 函数调用能力增强 ComplexFuncBench准确率从49.7%提升至66.5% 新增异步函数调用功能支持等待结果期间继续对话 [2] 开发者生态与集成能力 - Realtime API支持远程MCP服务器直接接入避免手动集成新增图像输入功能支持基于视觉内容对话 [3] - API新增SIP支持使语音智能体能无缝接入现有电话系统包括PBX和桌面电话提供可复用提示功能简化会话管理 [3] - API提供全面欧盟数据存储支持满足合规要求内置分类器可中止有害对话开发者可通过Agents SDK添加特定领域安全约束 [3] 行业应用与合作伙伴 - 早期企业合作伙伴在近生产环境测试功能 Zillow启动语音交互式房产搜索试点 T-Mobile探索实时响应客户服务场景 [3] - 企业强调AI语音智能体推动交互方式从传统脚本化自动化向更灵活更具领域专长方向转变 [3] - 模型与API已全面开放所有开发者可使用提供API文档与提示指南并在Playground提供演示版本 [4]