ThinkSound - 财报，业绩电话会，研报，新闻

ThinkSound

搜索文档

数字生命卡兹克· 2025-07-31 01:06

国产开源模型发展现状 - 国内AI公司近期密集开源大模型 MiniMax、Kimi、Qwen、混元、智谱、昆仑万维等均在近期推出开源模型 [1] - Hugging Face榜单前10名均为中国开源模型智谱GLM-4 5登顶 Qwen占据5席混元3D世界模型排名第3 [8][9] - 海外模型呈现涨价闭源趋势与国内开源形成鲜明对比 [3][54] 主要公司开源动态腾讯 - 6月27日开源混元A13B模型总参数80B 激活参数13B [17][18] - 7月27日开源3D世界模型HunyuanWorld-1 业界首个开源可交互世界生成模型当前排名第3 [43] 阿里 - 7月1日开源ThinkSound音频模型实现视频画面专属音效匹配 [21] - 7月连续开源Qwen3系列模型包括235B参数的A22B-Instruct(排名第10) 480B参数的Coder(排名第2)等 [37][38][39] - 7月28日开源Wan2 2视频生成模型采用MoE架构包含文生视频/图生视频等版本排名第9 [45] 智谱AI - 7月2日开源GLM-4 1V-Thinking视觉理解模型 9B参数规模 [23] - 7月28日开源GLM-4 5系列包括355B参数的A32B和106B参数的Air版本登顶HF热榜 [47] 昆仑万维 - 7月4日开源Skywork-Reward-V2系列奖励模型参数规模从6亿到80亿不等 [25][26] - 7月9日开源Skywork-R1V3多模态理解模型基于InternVL-38B优化 [33][34] - 7月30日开源Skywork-UniPic-1 5B多模态统一模型实现图像理解/生成/编辑 [52] 其他公司 - 百度6月30日开源ERNIE4 5 包含纯LLM和多模态版本 [20] - Kimi7月11日开源K2模型 20分钟下载量达12 2k 提升国内模型Coding能力信心 [36] - 上海AI实验室7月26日开源Intern-S1多模态模型 241B参数规模 [41] 行业趋势 - 国内开源模型呈现技术多元化覆盖NLP 多模态音频视频 3D生成等领域 [21][43][45] - 参数规模覆盖全面从1 5B到480B均有涉及满足不同场景需求 [26][38][47] - 两年前中文开源模型仅有GLM独苗当前已实现全球领先地位 [53][56]

国产大模型开源

Artificial Intelligence

Artificial Intelligence

阿里通义开源首个CoT音频模型，音·画同步被狠狠拿捏了

量子位· 2025-07-01 03:51

核心观点 - 阿里通义语音团队开源泛音频生成模型ThinkSound 首次将CoT思维链推理引入音频领域解决传统视频配乐技术难以捕捉动态细节和空间关系的难题实现音画同步的高保真音频生成 [4][5][6] - ThinkSound在VGGSound数据集上对比6种主流方法在核心指标上均实现显著提升如FDJ指标降至34.56(越低越好) MOS-Q1主观评分达4.02±0.73(越高越好) 参数规模1.3B 生成时间仅1.07秒 [7] - 模型采用三阶思维链驱动架构通过基础音效推理链构建、对象级推理链构建和指令编辑推理链构建模仿人类音效师多阶段创作流程精准建立音画对应关系 [16][17][18][19][22] - 配套发布AudioCoT数据集包含2531.8小时精选音视频对涵盖动物鸣叫、机械运转等真实场景通过音频-文本对齐过滤等三重处理流程确保数据质量 [30][31][36] 技术架构 - 底层采用结合视觉、语言和上下文信息的多模态流式建模方法基于条件流匹配技术实现高保真音频合成 [25][28] - 第一阶段通过VideoLLaMA2生成CoT推理链结合Qwen2-Audio和GPT-4.1-nano输出结构化步骤实现时空对齐 [18] - 第二阶段利用Grounded SAM-2标注"感兴趣区域"(ROI) 跟踪视频中可能发声的对象融合多视频CoT信息优化音频处理 [20][21] - 第三阶段支持自然语言指令编辑如"加点爆炸声" 通过GPT-4.1-nano生成结构化编辑步骤 [23][24] 性能表现 - 消融实验证明CoT推理显著提升音频质量采用T5链式推理比CLIP文本编码生成效果更优 [35] - 门控融合机制在特征整合中表现最佳实现音画同步的各项指标最优 [39] - 提供1.3B/724M/533M三种模型规格支持GitHub/HuggingFace/魔搭社区下载 [7][48] 行业布局 - 通义语音团队持续深耕开源社区 CosyVoice系列在GitHub获14.9k星上月刚发布3.0版本支持多语言语音生成 [41][42] - 此前推出音频多模态大模型MinMo 在语音对话、翻译等任务中表现良好且延迟低 [44][45] - ThinkSound延续开源路线未来计划发布API 进一步扩大技术影响力 [48] 应用场景 - 支持为Sora生成视频自动匹配音效可识别地上跑、水里游等物体并生成环境噪音 [14] - 最佳适配10秒视频时长理论上不限制上传时长 [15] - 开发者可快速体验音效生成与编辑功能如去除人声、增强特定音效等 [23][48]

CoT思维链推理

多模态流式建模方法

Artificial Intelligence

Artificial Intelligence

ThinkSound

Cosyvoice 3.0

MinMo