速递｜为硬件铺路：OpenAI攻坚下一代音频AI模型，打造“主动式”系列AI设备

OpenAI音频AI模型与设备开发进展 - 为筹备即将放行的AI驱动个人设备，OpenAI正着手提升其音频AI模型，该设备预计将以音频交互为主要形式[1] - 当前音频模型在回答准确度和响应速度方面均落后于文本模型[1] - 过去两个月间，公司已整合多个工程、产品与研究团队，共同致力于为未来设备优化音频模型[2] 音频模型的技术改进与目标 - 新的音频模型架构生成的回应听起来更加自然且富有情感，并能提供更准确、更具深度的答案[2] - 新音频模型能够与人类用户同时讲话，并将更好地处理对话中断，这是现有模型无法实现的功能[2] - 公司目标是在2026年第一季度发布这款新型音频模型[3] 行业背景与设计理念 - 与谷歌、亚马逊、Meta Platforms和苹果一样，OpenAI正致力于开发包括可穿戴设备在内的新型个人人工智能设备[3] - 部分公司认为，当前最受欢迎的iPhone等设备并未针对未来人工智能技术进行优化[3] - 研究人员希望用户通过语音而非屏幕与设备交互，许多人工智能研究者认为大声说话是与人工智能交互更自然的方式[3] - 部分研究者相信无屏幕设计能降低人们对设备上瘾的可能性，苹果前设计总监乔尼·艾夫将此视为优先考虑的事项[3] 面临的挑战与关键人员 - 当前面临的障碍是许多ChatGPT用户并不会通过大声说话的方式与聊天机器人互动，原因包括音频模型质量较低或用户不知道此功能[4] - 为了打造以音频为先的人工智能设备，公司必须首先让消费者习惯与ChatGPT这样的人工智能产品大声对话[4] - 音频人工智能推动背后的关键人物是Kundan Kumar，他是公司今年夏天从Character.AI聘请来的语音人工智能研究员[4] - 其他领导者包括产品研究负责人Ben Newhouse和多模态ChatGPT的产品经理Jackie Shannon[4] 设备规划与功能定位 - OpenAI正在开发一个计划逐步放行的设备系列，而不是单一设备，讨论过的想法包括眼镜和无显示屏的智能音箱[5] - 该设备将扮演陪伴者的角色，主动为用户提供建议以助其达成目标，而非仅仅作为连接应用程序与其他软件的简单通道[7] - 在获得用户允许后，设备将通过音频和视频感知周围环境及用户信息[7] 公司资源投入与收购 - OpenAI内部多个团队的员工参与了设备相关研发工作，涵盖供应链、工业设计及模型研究等领域[7] - 2025年初，OpenAI以近65亿美元收购了由乔尼·艾夫联合创立的公司io，以主导硬件设备的设计工作[7]