机器之心

搜索文档
报名开启|中关村国际青年论坛:诚邀全球青年学者共探AI前沿
机器之心· 2025-08-20 09:47
机构定位与理念 - 专注于人工智能与交叉学科领域的高等教育科研机构 秉持"极基础 极应用 极交叉"的颠覆式研究理念和"极经典 极前沿 极实战"的人才培养理念 [2][3] - 通过科研项目载体开展前瞻性科学探索和学生培养 致力于推动创新成果产业化落地 [3] - 与国内31所顶尖高校和行业领军企业合作 践行项目制"超常规"科教融合培养体系 [14] 学术活动与影响力 - 2024年9月成立以来已举办两届国际青年论坛 吸引来自7个国家的98名海内外顶尖青年学者 [5] - 论坛议题覆盖人工智能 生物技术及跨学科融合前沿方向 构建高质量全球学术网络 [5] - 2025年论坛设置邀请报告 Oral Presentation 圆桌论坛 Poster Session等核心议程 促进跨界合作与知识交流 [6] 资源支持体系 - 提供高性能算力与专项经费支持科研保障 配备专业导师与优质生源团队支持 [16] - 建立头部高校 国家级机构 海淀科创企业合作网络 [16] - 提供人才落户 子女教育 住房补贴等政策支持 协助基金申报和横向项目 [6] 人才发展平台 - 提供多元个性化人才评价体系 享有北京市及海淀区两级人才政策全方位支持 [17] - 为海外学者提供短期访问计划 访问时长8天至6个月 覆盖副教授以上高级研究人员及企业首席科学家等群体 [18] - 要求申请人取得人工智能相关领域博士学位2年以上 具有顶会顶刊论文发表或前沿项目经历 [15]
Sora没做到的,LongVie框架给解决了,超长视频生成SOTA
机器之心· 2025-08-20 09:47
视频生成技术现状与挑战 - 视频生成技术在过去两年迎来爆发式进步,已能生成几十秒的高质量短片 [2] - 生成时长超过1分钟、内容与运动可控、风格统一的超长视频仍面临巨大挑战 [2] LongVie框架联合研究 - 上海人工智能实验室联合南京大学、复旦大学、南洋理工大学S-Lab、英伟达等机构提出LongVie框架 [3] - 系统性解决可控长视频生成中的核心难题 [3] 生成长视频的技术难点 - 时序不一致问题:前后画面细节与内容不连贯,出现闪烁等现象 [8] - 视觉退化问题:随时长增长出现颜色漂移、清晰度下降等问题 [8] 时序一致性解决方案 - 控制信号全局归一化:在全片段范围内统一归一化控制信号,显著提升跨片段拼接一致性 [10] - 统一噪声初始化:各片段共享同一初始噪声,从源头对齐不同片段的生成分布 [11] 视觉退化解决方案 - 融合密集控制信号(如深度图)与稀疏控制信号(如关键点)提供多模态精细控制 [16] - 引入退化感知训练策略,在更贴近长序列退化分布的条件下训练模型 [16] LongVie框架工作流程 - 先将跨片段的稠密与稀疏控制视频做全局归一化 [20] - 为所有片段采用统一的噪声初始化 [20] - 将全局归一化后的控制信号、上一片段的末帧与文本提示送入模型生成当前片段 [20] 控制信号融合优化 - 团队对比测试标准ControlNet和两种变体 [22] - 变体(c)效果更好、训练更稳定,最终被采纳 [22] 长视频生成应用场景 - 支持视频编辑:对长视频进行一致性的内容修改与编辑 [23] - 支持风格迁移:对整段长视频执行统一且时序连贯的风格迁移 [23] - 支持Mesh-to-Video:从三维体素出发生成逼真的长视频 [23] 评测基准建立 - 提出LongVGenBench基准数据集,包含100个时长超过1分钟的高分辨率视频 [25] - 首个专为超长视频生成设计的基准数据集,旨在推动系统研究与公平评测 [25] 性能表现数据 - LongVie在多项指标上优于现有方法,获得最高用户偏好度 [28] - 在视觉质量方面得分4.387,提示视频一致性得分4.471,条件一致性得分4.282 [28] - 颜色一致性得分4.298,时序一致性得分4.365,均显著高于对比方法 [28] - 在SSIM+LPIPSJ指标上达到0.557,明显优于CogVideoX的0.374和StreamingT2V的0.360 [28]
dLLM的「Free Lunch」!浙大&蚂蚁利用中间结果显著提升扩散语言模型
机器之心· 2025-08-20 04:26
扩散大语言模型技术突破 - 扩散大语言模型(dLLM)采用迭代去噪生成机制,可一次性生成多个token,在对话、推理和创作任务中展现效率优势,生成速度显著超越传统自回归模型[2] - 现有dLLM解码策略仅关注最终迭代结果,忽视中间迭代蕴含的丰富语义与推理信息,导致潜在准确答案丢失和信息浪费[2] - 数学推理任务中出现"先对后错"现象:模型在中间步骤得出正确答案(如第55步得到25),却在后续迭代中错误修正(如改为2)并坚持错误结果[3] 时序自一致性投票方法 - Temporal Self-Consistency Voting(TCV)利用dLLM去噪过程中每个时间步的中间结果进行时间轴投票,无需额外生成多条回答即可提升性能[9] - TCV为不同时间步结果分配差异化权重,更精准捕捉可靠预测,实现近乎零额外计算成本的性能提升[9] - 在GSM8K数据集上,指数加权方法使LLaDA-8B-Instruct模型准确率提升2.4个百分点(从76.3%升至78.7%)[16] - 在Countdown数据集上,固定加权方法使LLaDA-8B-Instruct准确率提升4.7个百分点(从20.3%升至25.0%)[16] 时序一致性强化训练 - 提出时序语义熵(TSE)概念,通过计算不同迭代步骤预测结果的语义熵来衡量生成过程一致性,低熵值与高任务表现正相关[11][13] - Temporal Consistency Reinforcement(TCR)将TSE作为奖励信号,引导模型降低熵值提升生成稳定性[13] - 仅使用TSE奖励即在Countdown数据集实现24.7%提升,结合正确性奖励后进一步提升至25.3%[16] - 在GSM8K、MATH500、SVAMP数据集分别取得+2.0%、+4.3%、+6.6%的绝对增幅,全面超越仅使用正确性奖励的效果[16] 实验结果验证 - 在GSM8K、MATH500、SVAMP数学推理数据集和Countdown逻辑推理数据集系统测试显示,TCV方法稳定提升性能且不增加计算成本[15] - LLaDA-1.5模型结合TCR后,在Countdown数据集512序列长度下实现34.4个百分点提升(从20.7%升至55.1%)[17] - EverPass@1指标显示模型潜在最高准确率可达88.9%(GSM8K)和49.2%(MATH500),表明中间结果蕴含高质量预测[16] 模型性能优化 - 训练后模型生成稳定性显著提升,中间预测波动减少,输出更简洁精炼[20][23] - 有效token数量下降使答案更简短,减少自我矛盾现象,但中间预测仍有进一步优化空间[23] - 该方法为挖掘dLLM潜力提供新思路,利用时间一致性和语义稳定性提升模型性能[22]
DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学
机器之心· 2025-08-20 04:26
文章核心观点 - 一篇X平台帖子质疑DiT架构存在根本性缺陷 认为其训练效率低且存在隐性设计问题 而TREAD训练策略的提出暴露了这些问题 [1][4][8] - DiT作者谢赛宁回应质疑 承认架构存在改进空间但强调需通过科学实验验证 而非纯理论推测 同时指出DiT当前真正问题是sd-vae模块的低效性 [29][33][36] - TREAD方法通过令牌路由机制显著提升训练效率 在DiT骨干网络上实现14/37倍训练加速 并达到更低FID分数(生成质量更高) [2][6] DiT架构争议点 - 帖子指出DiT使用后层归一化(Post-LayerNorm)处理数值剧烈变化的扩散任务 可能导致不稳定 [11][13] - 批评adaLN-zero机制用简单MLP替代Transformer处理条件数据 限制注意力操作表达力 [12][16] - 引用早期研究认为LayerNorm的偏置参数可能虚假改善性能而非真正优化梯度 [17] TREAD技术优势 - 采用令牌路由机制 训练时使用部分令牌集减少计算成本 推理时恢复完整设置 [6] - 在A100 GPU训练100-10000小时范围内 FID分数显著降低(质量提升)[2][3] - 方法架构无关 可与MaskDiT等技术兼容但更高效 [6] 谢赛宁的技术回应 - 强调TREAD实际更接近随机深度(Stochastic Depth)的正则化效应 而非架构缺陷证明 [36] - 推荐Lightning DiT作为升级版(含swiglu/rmsnorm/rope等技术)[36] - 指出sd-vae模块是真正硬伤:处理256×256图像需445.87 GFlops 低效且非端到端 [36] DiT行业地位 - DiT为扩散模型与Transformer结合的首个工作 替代U-Net成为图像/视频生成主流架构 [20][22][23] - 已成为Sora和Stable Diffusion 3的基础架构 具备学术与工业应用双重价值 [25]
论坛报名已启动,速来锁定席位!解码具身智能的落地挑战与产业爆点
机器之心· 2025-08-20 04:26
具身智能行业发展趋势 - 具身智能正成为AI技术竞赛的核心战场,代表AI从数字智能向物理世界延伸的关键一步,具备感知、决策与执行能力[2] - 行业在2024年呈现爆发式进展:年初春晚灵动机器人亮相、四月机器人完成全程马拉松挑战、七月WAIC展示跨场景落地能力、WRC大会再掀高潮[2] - 技术发展面临核心瓶颈是通用泛化能力,需在开放多变环境中实现有价值行动,需要技术攻坚与产业协同的双重突破[2][5] 2025外滩大会具身智能论坛 - 论坛将于2025年9月11日在上海黄浦世博园区C2馆举办,主题为"具身智能:从泛化到行动,重塑产业未来"[3][4][7] - 主办方为机器之心和张江具身智能机器人有限公司,采用主旨报告、主题演讲、思辨、圆桌对话等多种形式[3][5][7] - 论坛聚焦三大方向:技术颠覆性创新赋予机器人泛化行动能力、跨越技术可行到商业成功的鸿沟、行动驱动革命重塑经济与社会[5] 技术研发重点领域 - 清华大学孙富春教授研究方向包括智能机器人系统,担任IEEE/CAAI/CAA Fellow和多个国际期刊主编[12] - 国地共建人形机器人创新中心首席科学家江磊主导"青龙"人形机器人项目,开发350kg电动牦牛和月面移动机器人FDTM,发布开源具身智能仿真平台和7B参数"龙跃"运动生成大模型[13] - 上海人工智能实验室庞江淼研究方向为机器人学习和多模态学习,目标构建可泛化的具身通用人工智能系统,在CVPR等顶会发表论文60余篇,GitHub项目星标超50000次[14] 企业商业化实践 - 星海图许华哲专注于视觉深度强化学习和模仿学习,获CoRL'23最佳系统论文奖,在NeurIPS等顶会发表论文60余篇[13][14] - 灵心巧手苏洋专注于AI技术落地与生态共建,负责操作系统、机器人乐队和数据工厂方向的技术架构[14] - 银河通用机器人张直政曾任微软亚洲研究院高级研究员,主导基础模型和多模态大模型研发,发表顶会论文30余篇[15][16] 产业应用场景探索 - 西门子Xcelerator中国区总经理秦成深耕工业数字化领域15年,负责工业软件和智能制造数字化平台业务[17] - 魔法原子总裁吴长征带领团队研制量产多款四足机器人产品,突破力矩电机关节和机械臂等核心技术[18] - 蚂蚁灵波科技CEO朱兴专注于生活服务领域机器人研发,致力于打造行业领先的机器人产品[19] 技术平台与基础设施 - NVIDIA资深解决方案架构师金国强负责深度学习生成式AI领域模型训练和推理优化,推动大模型开发与应用云端落地[14][15] - 论坛将探讨NVIDIA Physical AI平台如何加速具身智能研发与落地[8]
ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测
机器之心· 2025-08-20 00:15
研究背景与问题 - 当前HOI检测方法依赖视觉语言模型但受限于图像编码器难以捕捉细粒度区域级交互信息[2] - 传统方法基于固定类别训练数据无法应对现实中动态变化的交互组合[6] - 现有视觉语言模型基于图像级预训练难以捕捉人物与物体间细微的局部交互语义[6] 核心技术创新 - 提出交互感知提示与概念校准方法通过动态生成交互感知提示优化语言模型引导的概念校准[2] - 交互感知提示生成机制包含通用提示和交互特定提示采用低秩分解技术高效编码交互特征[15][19] - 概念校准机制结合GPT生成视觉描述和T5构建指导嵌入形成细粒度概念结构空间[14][16] - 引入困难负样本采样策略基于语义相似度采样帮助区分视觉相似但语义不同的动作[14][20] 性能表现 - 在SWIG-HOI全量测试集上取得16.74% mAP相较前一方法CMD-SE相对提升近10%[18][22] - 在HICO-DET数据集上Unseen类别达到17.38% mAP Seen类别达到24.74% mAP Full类别达到23.12% mAP[21] - 在细粒度交互如阅读浏览等场景展现出较强识别能力[18][23] 方法优势 - 能够聚焦关键交互区域如阅读时的眼部区域和冲浪时伸展的双臂[23] - 可检测与相对较小物体的交互如部分遮挡的书籍和相机[23] - 通过语义编码空间调整有效区分视觉相似概念如猛掷和抛投[7] 学术贡献 - 被ICCV 2025接收相关代码与模型已全部开源[4] - 打破预训练视觉语言模型在区域感知与概念理解上的瓶颈展现出语言模型知识引入计算机视觉任务的潜力[25]
Meta超级智能实验室重组为四个部门,某些高管将离开
机器之心· 2025-08-20 00:15
Meta AI部门重组 - 公司将超级智能实验室(MSL)及FAIR等AI部门重组为四个新部门:AI研究、基础设施、硬件、产品集成[3] - 新架构由首席AI官Alexandr Wang主导,强调围绕超级智能目标进行组织构建[3][4] - 重组后部门包括:TB D Lab(由Alexandr Wang负责)、FAIR(基础研究)、产品与应用研究(由GitHub前CEO Nat Friedman领导)、MSL Infra(AI基础设施)[8] 人才战略与行业竞争 - 公司持续从OpenAI、Anthropic、Google DeepMind等竞争对手挖角顶尖人才,包括ChatGPT Agent核心开发者孙之清[5] - OpenAI CEO曾指责公司以1亿美元薪酬挖角其员工[5] - 6月公司向Scale AI投资140亿美元,并任命其CEO Alexandr Wang为首席AI官[5] 战略方向与资源投入 - CEO马克・扎克伯格将超级智能定位为公司长期愿景核心,强调其将开启"个人赋能新时代"[10] - 第二季度财报显示,2025年底资本支出预计达720亿美元,主要由AI基础设施投资驱动[9] - 公司考虑整合第三方AI模型,可能改变原有依赖内部开发的模式[7] 组织变动影响 - 重组可能导致部分高管离职[7] - 首席AI科学家Yann LeCun未出现在重组相关报道中,引发关注[4] - 此前报道显示LeCun需向28岁的Alexandr Wang汇报,显示管理层年轻化趋势[7]
DeepSeek开源新基础模型,但不是V4,而是V3.1-Base
机器之心· 2025-08-20 00:15
模型升级与技术规格 - 公司发布新模型DeepSeek-V3.1-Base 参数量与DeepSeek-V3相同 采用混合专家架构 上下文长度扩展至128k [1] - 模型在Hugging Face平台发布后迅速获得关注 短时间内登上热门模型榜第4位 [1] - 用户界面同步更新 移除了DeepThink旁的R1标识 [1] 命名策略与发布模式 - 新模型命名方式从"V3-日期数字"变为"V3.1" 官方未对命名规则变化提供说明 [1] - 公司延续"模型先行"的发布策略 技术说明与宣传材料滞后于模型发布 [1] 市场反应与行业评价 - AI社区对本次更新存在分歧 部分观点认为这是为DeepSeek-V4和DeepSeek-R2做铺垫 部分观点认为更新未达公司既往水准 [3]
ICCV 2025 | RobustSplat: 解耦致密化与动态的抗瞬态3DGS三维重建
机器之心· 2025-08-19 09:45
3DGS技术研究进展 - 3DGS技术在新视角合成与3D重建中实现实时照片级真实感渲染,但现有方法在建模含动态物体场景时精度不足,常导致渲染图像出现伪影[2] - 研究者提出RobustSplat解决方案,其核心设计包含延迟高斯生长策略和尺度级联掩码引导方法,前者优先优化静态场景结构,后者通过低分辨率特征相似度监督实现可靠初始动态掩码估计[2] 研究动机与方法 - 高斯致密化在3DGS中具有双重作用,既能增强场景细节表达,也会促使模型过早拟合动态区域导致伪影[6] - 研究动机源于通过调节致密化过程引入时机,平衡静态结构表达与动态干扰抑制,提出延迟高斯生长策略[8] - 采用含两层线性层的MLP作为网络架构,以DINOv2特征为输入输出瞬态掩码,因其在语义一致性和抗噪性方面表现优异[9][10] 技术实现细节 - 掩码MLP优化结合图像残差损失和特征余弦相似度损失,前者捕捉像素级动态干扰,后者增强语义级动态区域识别[12] - 延迟高斯生长策略推迟高斯致密化过程,优先完成静态场景结构优化,并通过掩码正则化减少静态区域误分类风险[13] - 尺度级联掩码引导先利用低分辨率特征相似性监督进行初始瞬态掩码估计,再过渡到高分辨率监督实现更精确预测[14] 实验结果 - 在NeRF On-the-go和RobustNeRF数据集上,RobustSplat在PSNR、SSIM、LPIPS等指标上全面领先基线方法[16] - 具体数据表现:在Android场景PSNR达24.62,SSIM 0.831;Crab2场景PSNR 34.88,SSIM 0.940;Yoda场景PSNR 35.14,SSIM 0.944[17] - 平均表现PSNR 29.36,SSIM 0.895,优于3DGS的26.21/0.864和WildGaussians的27.07/0.876[17] 研究总结 - 高斯致密化过程虽提升场景细节捕捉能力,但会生成额外高斯建模瞬态干扰,导致渲染伪影[19] - RobustSplat通过延迟高斯生长和尺度级联掩码引导有效减少瞬态物体导致的渲染伪影,在复杂场景中实现鲁棒且细节丰富的3D重建[21]
强化学习之父Richard Sutton最新演讲揭示OaK架构:通向超级智能的八步愿景
机器之心· 2025-08-19 09:45
强化学习与OaK架构 - 强化学习之父Richard Sutton提出OaK架构作为实现通用人工智能(AGI)和超级智能的路径,该架构基于经验学习并强调开放式抽象[1][2] - OaK架构目前仍是一个愿景,需要突破持续深度学习等关键技术才能实现[6][86] - 架构名称来源于两个核心概念:Options(选项)和Knowledge(知识),通过构建子问题和状态转移模型实现智能演进[78][80] 智能体设计原则 - 理想智能体应具备通用性、经验性和开放式抽象能力,不预设特定领域知识[13][23] - 强调运行时学习而非设计时预设,因世界复杂性无法预先建模[22][38] - 采用奖励假设作为目标形式化方法,简单标量奖励足以引导复杂智能行为[44][47][51] 技术实现路径 - 架构实现需完成八个步骤:从基础强化学习到特征生成、子问题构建、规划执行等[82] - 关键挑战包括持续深度学习中的灾难性遗忘问题,目前仅部分解决方案[89] - 状态特征生成是核心难题,需突破表示学习和元学习等传统方法局限[93][96] 行业应用前景 - 架构强调的计算资源瓶颈而非数据量限制,符合当前AI发展趋势[43] - 选项模型和高级规划能力可提升AI系统在复杂场景的决策水平[141][145] - 开放式抽象机制为AI系统自主演进提供理论框架[160]