三维二轨评估框架
搜索文档
对话式AI,等待下一次「万亿时刻」
36氪· 2025-11-05 06:49
市场趋势与需求 - 2025年67%的企业将对话式AI智能体置于战略核心位置,84%的企业计划在未来一年增加相关投入 [1] - 声网对话式AI相关用量在2025年第三季度实现151%的环比增长,市场需求强劲 [1] - 2025年被视为AI硬件的爆发元年,对话式AI在智能硬件、情感陪伴、在线教育三大场景中率先实现规模化落地 [15] 技术挑战与行业痛点 - 目前仅21%的用户对现有AI对话体验满意,部分服务的用户流失率高到不可接受 [4] - 人类对话中超过90%的信息感知来自语调、表情等非语言要素,对AI技术提出高要求 [4] - 大部分对话式AI的端到端延迟普遍在3秒以上,而人类聊天延迟正常在400毫秒左右,构成一大痛点 [4] - AI易因环境噪音或用户迟疑而打断,上下文中断影响交互体验 [5] 主流技术方案与产品 - 行业主流技术方案为级联模式,将语音对话拆解为ASR—LLM—TTS三个串行步骤 [6] - 声网围绕级联模式推出三类产品形态:下一代对话式AI引擎2.0、模块化SDK、以及面向现有客户的扩展套件 [6][8] - 引擎2.0依托全球实时网络实现超低延迟,内置智能打断、声纹识别等功能,支持多种主流大模型 [8] 评估框架与工具 - 声网发布白皮书提出三维二轨评估框架,三维考核AI的理解、表达、交互能力,二轨包括基准测试和用户导向测试 [9][10] - 声网提供AI模型评测平台,通过模拟真实对话在全球十大城市节点动态监测数据,对比主流ASR、LLM和TTS模型性能 [13] 应用场景与生态 - 对话式AI已广泛应用于AI陪伴硬件、AI社交应用、AI教育硬件、AI客服、AI口语陪练、AI招聘、AI助教、AI医疗健康、AI游戏、AI翻译等十余个场景 [17] - 在情感陪伴领域,对话式AI使AI具备记忆力、个性和共情能力,成为社交引擎 [19] - 在教育领域,对话式AI让口语陪练更拟人,并衍生出AI双师模式,促进教育资源平等 [19] 未来发展趋势 - 对话式AI未来将在多模态交互上实现飞跃,实现边听边说、看懂表情手势等功能,人机交互接近人人交互 [19] - 未来对话式AI可能从单点工具发展为多智能体协同的超级助手,融入业务流程成为数字员工或信息入口 [20] - 技术将降低AI使用门槛,实现AI平权和技术普惠,帮助人类从繁琐任务中解放,专注于创造性工作 [21] 行业里程碑 - 声网年度服务分钟数首次突破1万亿分钟,标志着实时互动技术已成为行业不可或缺的基础设施 [22]