ThinkSound

搜索文档
整个HuggingFace榜,已经被中国AI模型一统江湖了。
数字生命卡兹克· 2025-07-31 01:06
国产开源模型发展现状 - 国内AI公司近期密集开源大模型 MiniMax、Kimi、Qwen、混元、智谱、昆仑万维等均在近期推出开源模型 [1] - Hugging Face榜单前10名均为中国开源模型 智谱GLM-4 5登顶 Qwen占据5席 混元3D世界模型排名第3 [8][9] - 海外模型呈现涨价闭源趋势 与国内开源形成鲜明对比 [3][54] 主要公司开源动态 腾讯 - 6月27日开源混元A13B模型 总参数80B 激活参数13B [17][18] - 7月27日开源3D世界模型HunyuanWorld-1 业界首个开源可交互世界生成模型 当前排名第3 [43] 阿里 - 7月1日开源ThinkSound音频模型 实现视频画面专属音效匹配 [21] - 7月连续开源Qwen3系列模型 包括235B参数的A22B-Instruct(排名第10) 480B参数的Coder(排名第2)等 [37][38][39] - 7月28日开源Wan2 2视频生成模型 采用MoE架构 包含文生视频/图生视频等版本 排名第9 [45] 智谱AI - 7月2日开源GLM-4 1V-Thinking视觉理解模型 9B参数规模 [23] - 7月28日开源GLM-4 5系列 包括355B参数的A32B和106B参数的Air版本 登顶HF热榜 [47] 昆仑万维 - 7月4日开源Skywork-Reward-V2系列奖励模型 参数规模从6亿到80亿不等 [25][26] - 7月9日开源Skywork-R1V3多模态理解模型 基于InternVL-38B优化 [33][34] - 7月30日开源Skywork-UniPic-1 5B多模态统一模型 实现图像理解/生成/编辑 [52] 其他公司 - 百度6月30日开源ERNIE4 5 包含纯LLM和多模态版本 [20] - Kimi7月11日开源K2模型 20分钟下载量达12 2k 提升国内模型Coding能力信心 [36] - 上海AI实验室7月26日开源Intern-S1多模态模型 241B参数规模 [41] 行业趋势 - 国内开源模型呈现技术多元化 覆盖NLP 多模态 音频 视频 3D生成等领域 [21][43][45] - 参数规模覆盖全面 从1 5B到480B均有涉及 满足不同场景需求 [26][38][47] - 两年前中文开源模型仅有GLM独苗 当前已实现全球领先地位 [53][56]
阿里通义开源首个CoT音频模型,音·画同步被狠狠拿捏了
量子位· 2025-07-01 03:51
核心观点 - 阿里通义语音团队开源泛音频生成模型ThinkSound 首次将CoT思维链推理引入音频领域 解决传统视频配乐技术难以捕捉动态细节和空间关系的难题 实现音画同步的高保真音频生成 [4][5][6] - ThinkSound在VGGSound数据集上对比6种主流方法 在核心指标上均实现显著提升 如FDJ指标降至34.56(越低越好) MOS-Q1主观评分达4.02±0.73(越高越好) 参数规模1.3B 生成时间仅1.07秒 [7] - 模型采用三阶思维链驱动架构 通过基础音效推理链构建、对象级推理链构建和指令编辑推理链构建 模仿人类音效师多阶段创作流程 精准建立音画对应关系 [16][17][18][19][22] - 配套发布AudioCoT数据集 包含2531.8小时精选音视频对 涵盖动物鸣叫、机械运转等真实场景 通过音频-文本对齐过滤等三重处理流程确保数据质量 [30][31][36] 技术架构 - 底层采用结合视觉、语言和上下文信息的多模态流式建模方法 基于条件流匹配技术实现高保真音频合成 [25][28] - 第一阶段通过VideoLLaMA2生成CoT推理链 结合Qwen2-Audio和GPT-4.1-nano输出结构化步骤 实现时空对齐 [18] - 第二阶段利用Grounded SAM-2标注"感兴趣区域"(ROI) 跟踪视频中可能发声的对象 融合多视频CoT信息优化音频处理 [20][21] - 第三阶段支持自然语言指令编辑 如"加点爆炸声" 通过GPT-4.1-nano生成结构化编辑步骤 [23][24] 性能表现 - 消融实验证明CoT推理显著提升音频质量 采用T5链式推理比CLIP文本编码生成效果更优 [35] - 门控融合机制在特征整合中表现最佳 实现音画同步的各项指标最优 [39] - 提供1.3B/724M/533M三种模型规格 支持GitHub/HuggingFace/魔搭社区下载 [7][48] 行业布局 - 通义语音团队持续深耕开源社区 CosyVoice系列在GitHub获14.9k星 上月刚发布3.0版本支持多语言语音生成 [41][42] - 此前推出音频多模态大模型MinMo 在语音对话、翻译等任务中表现良好且延迟低 [44][45] - ThinkSound延续开源路线 未来计划发布API 进一步扩大技术影响力 [48] 应用场景 - 支持为Sora生成视频自动匹配音效 可识别地上跑、水里游等物体并生成环境噪音 [14] - 最佳适配10秒视频时长 理论上不限制上传时长 [15] - 开发者可快速体验音效生成与编辑功能 如去除人声、增强特定音效等 [23][48]