Disco - 财报，业绩电话会，研报，新闻

Disco

搜索文档

36氪· 2025-12-15 02:04

谷歌Gemini 2.5 Flash原生音频模型核心更新 - 谷歌发布Gemini 2.5 Flash Native Audio（原生音频模型），标志着AI从“文本转语音”跨越到真正的“拟人化交互”时代 [1][3] - 模型核心在于“原生”，无需将声音转为文字再转回，实现了直接听、直接想、直接说，大幅提升了交互的自然度和流畅感 [6][8] - 此次更新让实时语音代理成为现实，用户可在Google AI Studio、Vertex AI及搜索中与有“脑子”、有“耳朵”的智能体进行实时对话 [10] 实时语音翻译功能突破 - 实时语音翻译功能已在美国、墨西哥和印度的安卓设备上通过Google翻译App进行Beta测试 [11] - 功能支持持续监听与双向对话，可实现“无感”翻译，系统能自动识别说话者并切换语言，用户无需手动操作 [11] - 具备风格迁移能力，能捕捉并保留说话者的语调、节奏、音高及情绪，实现带情感的翻译，而不仅仅是文字转换 [12][14] 开发者与企业级应用能力提升 - 在复杂多步骤函数调用测试ComplexFuncBench Audio中，Gemini 2.5取得了71.5%的高分，表现领先 [18] - 对开发者指令的遵循率从84%提升到了90%，显著增强了构建企业级服务时的可靠性与精准度 [23] - 模型在检索上下文方面取得显著进步，能更有效地记住之前对话内容，使多轮对话更连贯、更具逻辑性 [24] 技术规格与性能优势 - 支持70多种语言和2000多个语言对，覆盖全球绝大多数人的母语 [19] - 支持多语言混输，可同时理解一场对话中混杂的几种不同语言 [19] - 具备噪声鲁棒性，专门针对嘈杂环境优化，能有效过滤背景音 [19] 实验性产品Disco与GenTabs - 谷歌实验室推出实验产品Disco，内置基于Gemini 3打造的工具GenTabs [30][31] - GenTabs能通过主动理解复杂任务（如用户打开的标签页和聊天记录）并创建交互式网络应用程序来帮助完成任务，无需编写代码 [32] - 该工具目前macOS版已开放排队，旨在将“浏览”行为转变为“创造”行为 [36] 产品发布与未来展望 - Gemini 2.5 Flash Native Audio现已在Vertex AI上全面推出，并在Google AI Studio中可供试用 [37] - 预计2026年，实时翻译等功能将通过Gemini API扩展到更多产品中 [28] - 此次更新预示着语音交互正成为下一个时代的入口，AI正从屏幕中被解放出来，融入日常听觉体验 [25][27]

语音交互

实时语音翻译

人工智能

Gemini 2.5 Flash Native Audio

Gemini 2.5 Flash Native Audio

Disco