速递|两名本科生3个月打造的AI语音模型,挑战谷歌NotebookLM,16亿参数实现自然对话生成
Z Potentials·2025-04-23 03:49
文章核心观点 - 两名本科生开发了名为Dia的AI语音生成模型 该模型能够生成超逼真对话并支持语音克隆功能 在技术演示中表现具有竞争力 [1][2][3] - 语音AI技术初创公司去年获得3.98亿美元风险投资 合成语音工具市场被投资者认为具有巨大增长潜力 [1][2] - 该模型存在缺乏滥用防护措施和训练数据来源不明确的问题 可能涉及受版权保护内容 [4][5] 技术特性 - Dia模型拥有16亿参数 可通过脚本生成对话 允许用户自定义说话者语气并插入非语言线索 [2] - 模型在Hugging Face和GitHub平台公开可用 最低要求10GB VRAM的现代PC即可运行 [3] - 支持随机语音生成和语音克隆功能 其中语音克隆被评价为最简单易用的功能之一 [3] 开发背景 - 开发团队Nari Labs由韩国本科生组成 三个月前开始学习语音AI技术 [2] - 使用Google TPU Research Cloud计划的免费TPU AI芯片进行模型训练 [2] - 项目受Google NotebookLM启发 旨在提供更好的声音控制和脚本自由度 [2] 市场环境 - 合成语音工具市场存在多个竞争者 包括ElevenLabs PlayAI和Sesame等 [1] - 语音AI技术初创公司在2024年共筹集3.98亿美元风险投资 [2] 未来发展 - 计划在Dia及更大模型基础上开发具有社交功能的合成语音平台 [5] - 拟发布技术报告并将模型支持扩展至英语之外的其他语言 [5]