速递｜两名本科生3个月打造的AI语音模型，挑战谷歌NotebookLM，16亿参数实现自然对话生成

文章核心观点 - 两名本科生开发了名为Dia的AI语音生成模型该模型能够生成超逼真对话并支持语音克隆功能在技术演示中表现具有竞争力 [1][2][3] - 语音AI技术初创公司去年获得3.98亿美元风险投资合成语音工具市场被投资者认为具有巨大增长潜力 [1][2] - 该模型存在缺乏滥用防护措施和训练数据来源不明确的问题可能涉及受版权保护内容 [4][5] 技术特性 - Dia模型拥有16亿参数可通过脚本生成对话允许用户自定义说话者语气并插入非语言线索 [2] - 模型在Hugging Face和GitHub平台公开可用最低要求10GB VRAM的现代PC即可运行 [3] - 支持随机语音生成和语音克隆功能其中语音克隆被评价为最简单易用的功能之一 [3] 开发背景 - 开发团队Nari Labs由韩国本科生组成三个月前开始学习语音AI技术 [2] - 使用Google TPU Research Cloud计划的免费TPU AI芯片进行模型训练 [2] - 项目受Google NotebookLM启发旨在提供更好的声音控制和脚本自由度 [2] 市场环境 - 合成语音工具市场存在多个竞争者包括ElevenLabs PlayAI和Sesame等 [1] - 语音AI技术初创公司在2024年共筹集3.98亿美元风险投资 [2] 未来发展 - 计划在Dia及更大模型基础上开发具有社交功能的合成语音平台 [5] - 拟发布技术报告并将模型支持扩展至英语之外的其他语言 [5]