Workflow
Disco
icon
搜索文档
完爆ChatGPT,谷歌这招太狠:连你的「阴阳怪气」都能神还原
36氪· 2025-12-15 02:04
谷歌Gemini 2.5 Flash原生音频模型核心更新 - 谷歌发布Gemini 2.5 Flash Native Audio(原生音频模型),标志着AI从“文本转语音”跨越到真正的“拟人化交互”时代 [1][3] - 模型核心在于“原生”,无需将声音转为文字再转回,实现了直接听、直接想、直接说,大幅提升了交互的自然度和流畅感 [6][8] - 此次更新让实时语音代理成为现实,用户可在Google AI Studio、Vertex AI及搜索中与有“脑子”、有“耳朵”的智能体进行实时对话 [10] 实时语音翻译功能突破 - 实时语音翻译功能已在美国、墨西哥和印度的安卓设备上通过Google翻译App进行Beta测试 [11] - 功能支持持续监听与双向对话,可实现“无感”翻译,系统能自动识别说话者并切换语言,用户无需手动操作 [11] - 具备风格迁移能力,能捕捉并保留说话者的语调、节奏、音高及情绪,实现带情感的翻译,而不仅仅是文字转换 [12][14] 开发者与企业级应用能力提升 - 在复杂多步骤函数调用测试ComplexFuncBench Audio中,Gemini 2.5取得了71.5%的高分,表现领先 [18] - 对开发者指令的遵循率从84%提升到了90%,显著增强了构建企业级服务时的可靠性与精准度 [23] - 模型在检索上下文方面取得显著进步,能更有效地记住之前对话内容,使多轮对话更连贯、更具逻辑性 [24] 技术规格与性能优势 - 支持70多种语言和2000多个语言对,覆盖全球绝大多数人的母语 [19] - 支持多语言混输,可同时理解一场对话中混杂的几种不同语言 [19] - 具备噪声鲁棒性,专门针对嘈杂环境优化,能有效过滤背景音 [19] 实验性产品Disco与GenTabs - 谷歌实验室推出实验产品Disco,内置基于Gemini 3打造的工具GenTabs [30][31] - GenTabs能通过主动理解复杂任务(如用户打开的标签页和聊天记录)并创建交互式网络应用程序来帮助完成任务,无需编写代码 [32] - 该工具目前macOS版已开放排队,旨在将“浏览”行为转变为“创造”行为 [36] 产品发布与未来展望 - Gemini 2.5 Flash Native Audio现已在Vertex AI上全面推出,并在Google AI Studio中可供试用 [37] - 预计2026年,实时翻译等功能将通过Gemini API扩展到更多产品中 [28] - 此次更新预示着语音交互正成为下一个时代的入口,AI正从屏幕中被解放出来,融入日常听觉体验 [25][27]