技术突破 - 字节跳动Seed团队推出端到端同声传译模型Seed LiveInterpret 2.0,在中英语音同传的效率与效能上表现不俗,是首个延迟&准确率接近人类水平的产品级中英语音同传系统 [2] - 该模型引入强化学习机制,在延迟、译文准确率和节奏控制上进行联合建模优化,从技术原理上为低延迟提供了支持 [2] - 采用全双工语音理解与生成框架,接收源语言语音时即可开始生成目标语言语音,实现"边听边处理",语音延迟低至2s-3s,较传统机器同传平均等待时间减少超60% [4] 性能指标 - 语音到文本场景中,输出首字平均延迟仅2.21s,语音到语音场景中输出延时2.53s [4] - 专业同传译员按中英双向RealSI标准数据集打分,语音到文本的中英互译平均得分74.8分(满分100分),语音到语音翻译译音质量得分66.3分 [4] - 支持"中英双向语音到语音同传+声音克隆",SVIP(语音译文有效信息比例)在zh-en方向67.8,en-zh方向64.7,音质、节奏和语调接近真人 [5] 创新功能 - 具备"0样本声音复刻"功能:无需提前录说话人声音,能实时采集对话语音即可模仿用户音色,用"原声"输出目标语言译文 [5] - 在会议、演讲等跨语种交流场景,能降低听众理解难度,更好传递说话人语义和情绪,使交流更自然 [5] - 发言人能听到自身音色的外语译文,利于把握节奏,也让听众更易接受信息 [6] 应用场景 - 国际商务场景中,可提升跨境谈判、跨国会议的沟通效率与准确性,对国际贸易和投资有促进作用 [7] - 教育领域可为师生提供实时翻译,打破语言壁垒,方便获取国外教育资源,促进学术合作 [7] - 旅游场景中若整合进智能手机,可成为更智能的"随身翻译",解决异国沟通麻烦 [7] 行业影响 - 可能促使传统同声传译服务提供者改进,如结合人工智能提升服务质量和效率,适应市场变化 [7] - 硬件设备制造商迎来机会,Ola Friend耳机计划8月底接入该系统,成为首个支持其语音同传功能的硬件 [8] - 未来有望支持更多语言,方便不同语言交流,在智能客服、影视作品跨国传播等领域也有潜力 [8]
赛道Hyper | 字节推出实时双语真人互译模型
华尔街见闻·2025-08-03 02:20