MoonCast - 财报，业绩电话会，研报，新闻

MoonCast

搜索文档

机器之心· 2025-07-05 05:53

技术突破 - MOSS-TTSD首次基于百万小时音频训练，成功破除AI播客的「恐怖谷」魔咒，实现超高拟人度的逼真对话语音合成[3][5] - 模型采用离散化语音序列建模方法，在约100万小时单说话人语音数据和40万小时对话语音数据上进行训练，具备中英双语语音合成能力[13] - 创新性开发XY-Tokenizer语音离散化编码器，采用8层RVQ音频Codec将比特率压缩至1kbps，支持最长960秒音频生成[15][16][22] 性能表现 - 在中文播客生成测试中，MOSS-TTSD与商业产品豆包在多个维度表现相当[8] - 说话人分离模型在AISHELL-4等测试集上DER指标显著优于开源及商用版本（9.7 vs 11.1/11.7）[28][29] - 在500条中英文双人对话测试集中，音色克隆保真度和语音韵律自然度大幅领先开源模型MoonCast[31][34] 应用场景 - 特别适合播客、影视配音、长篇访谈、数字人对话带货等需要长语音生成的场景[22] - 展示案例包括邓紫棋&周杰伦、潘长江&嘎子等音色克隆，以及原神游戏讨论等长播客生成[11] - 支持电商直播、体育解说等需要多人对话语音合成的商业应用场景[1][5] 技术架构 - 基于Qwen3-1.7B-base模型进行续训练，采用自回归加Delay Pattern进行语音token生成[13][14] - 数据清洗流水线通过说话人分离模型和DNSMOS评分（≥2.8）确保语音质量[24][27] - 两阶段多任务学习：第一阶段训练ASR和重建任务，第二阶段通过GAN损失补充细粒度声学信息[17][18][19][21]

腾讯研究院· 2025-06-04 14:24

OpenAI产品更新 - 免费版ChatGPT新增轻量级记忆功能，支持短期对话连续性和基础用户偏好记忆，适用于写作、金融分析、医疗跟踪等领域 [1] - ChatGPT Plus会员开放Codex编程工具，新增联网访问（70个安全白名单网站）、PR更新及语音输入功能，两周内已更新三次 [1] 行业并购与竞争动态 - OpenAI拟以30亿美元收购AI编程平台Windsurf，随后Anthropic切断Claude模型供应，Windsurf采取应急方案包括降价Gemini模型并停止免费用户访问Claude [2] - 业内认为断供源于OpenAI收购引发的竞争关系变化，Anthropic转型IDE和插件业务与Windsurf直接竞争 [2] 视频生成技术突破 - Manus上线智能视频生成功能，通过拼接5秒片段突破时长限制，支持分阶段规划、参考图生成及剪辑，会员专属功能消耗166积分/5秒视频 [3][4] 语音合成技术进展 - 开源模型MoonCast实现中英双语自然播客生成，利用LLM提炼摘要并添加口语化细节，采用25亿参数模型及三阶段训练支持10分钟以上音频生成 [5] AI安全与治理 - 图灵奖得主Bengio创立非营利机构LawZero，融资3000万美元开发非自主型"Scientist AI"系统，专注防止AI欺骗行为 [6] - 深度学习三巨头均下场应对AI风险：Hinton离职谷歌警示风险，LeCun批评LLM路径局限性 [6] AI与数学研究协作 - AlphaEvolve联合数学家一个月内三度破解18年未解的和差集指数θ难题（1.14465→1.173077），陶哲轩评价为AI与人类"共舞"新范式 [7] 医疗AI应用创新 - 华人科学家研发AI诊断笔，通过磁弹性笔尖和铁磁流体墨水检测帕金森病手写特征，准确率超95%，成本低且适用于资源有限地区 [9] 企业AI战略展望 - Altman预测18个月内AI将从工具转变为"执行者"，企业需立即实践积累数据闭环优势，OpenAI内部Codex已展示多步骤任务执行能力 [10]

生成式AI

AGI

AI执行者

Artificial Intelligence

Artificial Intelligence

ChatGPT

CodeX

开源播客生成MoonCast：让AI播客告别"机械味"，中英双语对话更自然！

量子位· 2025-06-04 05:21

技术突破 - MoonCast是一款革新性的对话式语音合成模型，能够仅凭数秒参考音频完成逼真复刻，目前已开源 [2][6] - 该技术专为高质量播客内容创作打造，可将文档转化为引人入胜的播客音频，且训练时未见过这些对话的文本内容和说话人音色 [5] - 采用强大的zero-shot text-to-speech技术，实现仅凭数秒参考音频就能合成逼真语音 [6] 行业痛点 - 现有语音合成技术主要针对短句、单人语音场景，难以应对播客这种长时间、多人对话、自然口语化的复杂场景 [8] - 优秀播客通常需要几分钟甚至几十分钟时长，多位主持人互动交流，具有自然随性、即兴发挥的特点 [8] - 传统技术训练于相对正式、书面化的单人场景，难以捕捉播客的"人味" [8] 解决方案 - 在剧本生成和音频建模两方面创新突破，打造更自然、高质量的AI播客系统 [9] - 利用25亿参数超大规模语言模型作为AI大脑，提升音频生成和语义理解能力 [19] - 收集海量多样化训练数据，包括30万小时中文电子书、1.5万小时中文对话和20万小时英语对话数据 [19] - 将模型上下文长度扩展到40k，理论上支持超过10分钟的超长音频生成 [19] 剧本生成技术 - 借助LLM理解能力提炼信息生成摘要，确保剧本言之有物 [12] - 利用LLM生成能力创作剧本，加入填充词、响应词、随机卡顿等口语细节增强"人味" [13][18] - 将专业知识转化为浅显易懂的口语化表达，设计流畅自然的对话结构 [18] 训练方法 - 采用三阶段训练方法：先学习短句单人语音，再处理非口语化长音频，最后掌握复杂播客生成技巧 [16][19] - 创新采用短段级别自回归音频重建技术，提升长音频生成的连贯性 [16] - 通过消融实验证明口语细节对生成"人味"音频的关键作用 [20][21] 应用场景 - 可处理多种输入知识源，包括新闻报道、学术论文、故事等 [18] - 已展示中文播客和英文播客生成能力，能创作地道相声等多样化内容 [4] - 提供GitHub开源项目、论文和Demo供用户体验 [22]