机器之心
搜索文档
并行扩散架构突破极限,实现5分钟AI视频生成,「叫板」OpenAI与谷歌?
机器之心· 2025-11-20 09:35
公司技术与产品突破 - 推出Model 2.0视频生成系统,可生成长达五分钟的富有表现力、可媲美专业水准、以人为中心的视频,破解了行业“视频时长”难题[1] - 突破性进展在于采用并行扩散架构,通过同时运行多个较小的扩散算法并用双向约束连接,避免瑕疵累积,从而生成长视频[5][6] - 模型训练数据除互联网抓取外,还聘请专业工作室使用高帧率摄像系统拍摄演员,获取高质量自有素材以避免运动模糊[6] - Model 2.0是“视频到视频”转换模型,以图像和行车视频为输入,利用人物动作生成输出视频,并能保留人物身份、情感和细微差别[7] - 系统可在约15分钟内生成30秒低分辨率视频,具备先进的唇形同步和手势对齐算法,确保嘴部动作和肢体语言与音轨同步[7] 市场竞争定位与优势 - 公司产品被视为OpenAI的Sora和Google的Veo的强有力竞争者,因其视频时长远超当前行业佼佼者(如Sora 2上限仅为25秒)[1][5] - 不同于大多数视频生成企业聚焦消费者创意工具,公司瞄准ToB市场,专注于为企业(尤其是软件公司)制作培训、营销和发布视频[9] - 公司视频帧率更高,解决了行业中的“8秒AI视频难题”,可能彻底改变公司处理培训、营销和故事讲述的方式[8] 创始人背景与公司战略 - 公司由全球最广泛使用的计算机视觉库OpenCV的创建者Victor Erukhimov创立,其曾联合创立并领导Itseez,后于2016年被英特尔收购[3] - 公司近期完成一轮200万美元融资,创始人并不认同“巨额资金是成功的先决条件”,强调高质量数据比大量计算预算更重要[9] - 公司下一个重大发展方向是开发“文本转视频”模型,允许用户直接从脚本生成长篇内容,并正在开发对移动镜头场景的支持[9] 潜在商业价值与行业影响 - 长视频生成能力可为难以扩大视频制作规模的企业(用于培训、营销和客户教育)带来巨大商业价值[3] - 网友评价认为,公司利用并行传播和专有数据打造长篇AI视频是明智之举,突显了深厚计算机视觉技术可克服计算预算限制,满足企业对时长至关重要的持续内容的关键需求[7]
本周六,围观学习NeurIPS 2025论文分享会,最后报名了
机器之心· 2025-11-20 06:35
AI技术演进趋势 - AI技术发展正从“能力突破”迈向“系统构建”阶段,焦点转向可靠性、可解释性与可持续性[2] - 自主智能体开始尝试真实任务闭环,世界模型在复杂环境中持续验证,推理架构与训练范式不断重构[2] - NeurIPS 2025共收到21575份有效投稿,最终接收5290篇,整体录用率为24.52%,显示学术生态多元化布局加速[2] NeurIPS 2025论文分享会概况 - 活动专为国内AI人才打造,设置Keynote、论文分享、圆桌对话等多元环节[3] - 活动时间为北京时间11月22日09:00-17:30,地点为北京中关村皇冠假日酒店3F[5][6] - 报名截止时间为11月21日晚上24:00,将通过机器之心视频号、B站等多平台直播[3][34] 主题演讲核心内容 - 上午Keynote提出情境智能作为补全AGI的关键拼图,通过多模态信息实现知识具象化表达[14][16] - 下午Keynote探讨面向世界模型的长视频生成技术,展示Macro-from-Micro Planning方法缓解时域漂移问题[17][19] - 圆桌对话主题为“世界模型会成为下一个AI前沿吗”,由ICT产业观察家张群英主持[10][20] 论文研究重点方向 - 数据混合可诱导知识获取的相变现象,清华大学博士生展示相关研究成果[8][30] - 多模态低秩适配技术MokA提升MLLMs性能,中国人民大学博士生分享最新进展[8] - 国防科技大学研究将遥感多模态大模型分辨率提升至8K级别[8] - 灵初智能提出可扩展的自改进数据生成框架DexFlyWheel,用于灵巧操作[8] 行业合作伙伴动态 - 联想AI工作站ThinkStation PGX搭载NVIDIA GB10超级芯片,提供1 PetaFLOP算力支持2000亿参数模型[38] - Trexquant作为全球对冲基金,使用数据科学和机器学习方法开发系统化统计套利策略[38] - 黄大年茶思屋科技网站汇聚全球科学家,推动前沿学术话题交流与技术成果分享[37]
AI终于学会「读懂人心」,带飞DeepSeek R1,OpenAI o3等模型
机器之心· 2025-11-20 06:35
文章核心观点 - MetaMind是一种创新的AI框架,通过将发展心理学中的元认知理论融入大型语言模型架构,使AI具备类似人类的多层次社交推理能力[7] - 该框架采用三阶段多智能体协作设计,模拟人类“假设生成-反思修正-行为验证”的认知闭环,显著提升了AI对隐含意图、情绪和社会规范的理解能力[7][10] - 在8项标准化心智理论测试中,MetaMind使LLM达到人类平均水平,刷新多项基准记录,标志着AI在社交智能领域取得重大突破[7][28] MetaMind框架设计 - 框架受元认知理论启发,将社交理解拆解为三个由专门智能体负责的阶段:理论心智智能体生成心理状态假设,道德约束智能体应用社交规范进行过滤,响应验证智能体生成并验证最终回答[10][12][14][16] - 三阶段智能体通过共享记忆和信息形成有机整体,构建出“元认知循环”,实现不断自我反馈改进,模拟人类社交互动中的大脑活动[17] - 框架中嵌入了动态社交记忆机制,用于记录用户长期偏好、人格特征和情绪模式,并在对话中动态更新,确保推理和回应的一致性与个性化[19][20] 性能表现与基准测试 - 在ToMBench测试中,MetaMind将GPT-4的平均心理推理准确率从74.8%提升至81.0%,超过以往所有针对ToM能力的提升方法[28] - 在交互式STSS社会模拟测试中,MetaMind相比原始模型取得34.5%的性能提升,显著增强模型在真实社交场景下的应对能力[32] - MetaMind使GPT-4在“信念推理”维度达到89.3分,超越人类平均表现的88.6分;在“自然语言交流理解”维度达到89.0分,超过人类平均的88.5分[32] 架构有效性验证 - 消融实验表明,移除任一阶段智能体或社交记忆机制都会导致性能显著下降,验证了架构设计的必要性:移除阶段1性能下降约2.6%,移除阶段2下降3.8%,移除阶段3骤降16.1%[36] - 参数敏感性分析显示,生成约6条心理假设时效果最佳,在效能函数中引入约60%权重用于语境可能性、约80%权重用于情感共情可取得较优效果[38] - 框架对超参数不极端敏感,表明其具有一定鲁棒性,为实际应用提供了稳定性保障[38] 实际应用前景 - 在人机自然交互领域,具备ToM推理的AI将更善于领会用户言下之意和情感状态,使智能客服、虚拟助手等应用变得更加通情达理[47] - 在跨文化敏感对话中,MetaMind的领域代理可依据不同社会规范和礼仪调整理解与回应,帮助全球化AI系统避免文化冒犯和误解[47] - 在教育场景下,具备社交心智的AI导师能通过社交记忆了解学生知识掌握情况和情绪变化,提供更人性化的教学陪伴与指导[48] 理论创新与行业意义 - MetaMind的设计深植于认知心理学,借鉴了“朴素心理学”概念和Flavell的元认知理论,使AI对语言的理解不再停留于字面,而是尝试触及背后的心理语境[24][25] - 该框架代表AI设计理念的转变:从追求单一指标性能转向追求与人类认知过程的同构性,提示行业与其增大模型参数规模,不如让AI思考方式更接近人类[49] - 这一突破为构建“懂人心”的AI指明了方向,是迈向通用人工智能的重要一步,有望在心理咨询、医疗陪护等需要共情和伦理考量的领域发挥重要作用[49]
分割一切并不够,还要3D重建一切,SAM 3D来了
机器之心· 2025-11-20 02:07
文章核心观点 - Meta公司深夜发布其Segment Anything Model (SAM)系列的重大更新,包括SAM 3D和SAM 3 [1] - SAM 3D包含两个模型:专注于物体与场景重建的SAM 3D Objects和专注于人体形状与姿态估计的SAM 3D Body [2][5] - 公司同步开放了模型权重与推理代码,并推出全新平台Segment Anything Playground供用户体验 [7][8] SAM 3D Objects技术特点与性能 - 该模型提出全新技术路径,用于在单张自然图像中实现稳健、真实感强的3D重建与物体姿态估计,能从日常照片中重建物体的细致3D形状、纹理和场景布局 [11] - 核心创新在于通过强大的数据标注引擎突破真实世界3D数据难以大规模获取的瓶颈,并结合全新的多阶段3D训练流程 [15][22] - 借助数据引擎,公司在真实世界图像上总计标注近100万张图像,生成约314万个3D网格 [17] - 性能表现卓越:在3D形状指标F1 (0.01)上达到0.2339,显著高于对比模型(如Trellis + MegaPose的0.1436);在3D IoU指标上达到0.4254,优于Hunyuan3D1 + Foundation Pose的0.2937 [27] SAM 3D Body技术特点与性能 - 该模型旨在解决从单张图像中获得准确人体三维姿态与形体重建的长期挑战,即使图像中存在不寻常姿势、遮挡、多人同时出现等复杂情况也能保持高质量表现 [28] - 基于公司全新的开源3D网格格式Meta Momentum Human Rig (MHR),该格式通过将骨骼结构与软组织形体分离建模提供更强可解释性 [30] - 训练数据集包含约800万张图像,使其能够应对遮挡、罕见姿态和各种服装 [31] - 在多个3D基准测试中超越以往模型,例如在EMDB数据集上的MPJPE指标为61.7,优于4DHumans的98.0和NLF的68.4 [32] SAM 3技术特点与性能 - SAM 3引入可提示概念分割,模型能够根据文本提示或示例图像提示找到并分割某个概念的所有实例,克服了现有模型在面对细致、具体请求时的困难 [34][35] - 模型架构建立在公司以往AI进展之上,文本和图像编码器来自4月开源的Meta Perception Encoder,检测模块基于DETR [37] - 在概念分割性能上取得跨越式提升,将cgF1分数提升了两倍,优于基础模型和专业模型 [39] - 推理效率高:在H200 GPU上对单张包含超过100个检测目标的图像仅需30毫秒即可完成推理,在视频中约五个并发目标的情况下仍可保持近实时表现 [39]
黄仁勋GTC开场:「AI-XR Scientist」来了!
机器之心· 2025-11-20 02:07
LabOS平台核心突破 - 全球首个融合AI与XR技术的协研科学家平台,首次将多模态感知、自我进化智能体与扩展现实技术无缝衔接,构建从假说生成到实验验证的端到端闭环[3][4] - 系统具备"脑-眼-手"协同能力:自我进化AI智能体负责思考,专用视觉语言模型负责理解,XR眼镜与机器人系统负责物理操作[6][8] - 可将数年研究缩短至数周,数百万美元成本降至几千美元,数月培训周期压缩至几天[4] 技术架构创新 - **思考能力**:包含规划、开发、评审与工具创建四大智能体,能通过"工具海洋"模块从文献中自主创建新工具,实现推理能力持续进化[8] - **视觉理解**:训练专用LabOS-VLM模型,在实验室错误检测任务中准确率突破90%,远超通用模型(Gemini、GPT-4o等仅得2-3分/5分)[13] - **物理协作**:通过XR眼镜每5-10秒分析视频流,实时提供操作指导,并调度LabOS Robot机器人参与实验,所有交互通过手势和语音完成[8] 应用案例展示 - **癌症靶点发现**:自主识别黑色素瘤细胞中NK细胞杀伤抵抗基因CEACAM6,并通过TCGA数据验证其临床相关性,实现从计算推理到实验验证的完整闭环[22] - **机制研究**:通过整合通路分析自主提名ITSN1为核心调控基因,经CRISPR干扰实验验证其确实显著抑制细胞融合过程[25] - **干细胞工程**:通过XR眼镜实时指导CRISPR基因编辑操作,自动记录专家实验形成标准化流程,显著提升实验复现性与技能传承效率[29] 行业影响与愿景 - 打破传统实验室依赖"手艺"与个人经验的局限,构建人类与机器智能协同进化的科研生态系统[32] - 旨在"与AI共同拓展科学边界",推动科学发现范式的根本性跃迁,加速生命科学领域研究进程[32][34]
刚刚,Yann LeCun官宣离职创业,瞄准高级机器智能AMI
机器之心· 2025-11-20 02:07
公司动态 - 图灵奖得主Yann LeCun宣布从Meta离职并创立新公司,专注于研发高级机器智能[1][7] - 新公司目标是推动AI重大革命,使系统能够理解物理世界、拥有持久记忆、具备推理能力并规划复杂行动序列[1][8] - Meta将成为新公司合作伙伴,Yann LeCun将在Meta待到今年年底[8][9] 技术方向 - 新公司研发核心是高级机器智能,重点推进世界模型研究,使AI能够理解物理世界并预测行为后果[1][24] - Yann LeCun是大型语言模型的批评者,认为世界模型才是实现机器真正理解物理世界的关键[19][27] - 近期与学生共同提出JEPA理论,通过最大化语义相关视图的嵌入一致性来构建高维嵌入空间,作为实现世界模型的潜在方案[25] 行业影响 - Yann LeCun曾创建FAIR实验室并坚持开放研究模式,为Meta带来PyTorch等核心技术[20] - 此次创业标志着Meta AI内部一个时代的终结,但开启了AI领域新的探索周期[27][28] - 高级机器智能技术预计将在辅助技术、混合现实、个性化教育等多个经济领域产生广泛应用[8][24]
通往通用人工智能的关键一步?DeepMind放大招,3D世界最强AI智能体SIMA 2
机器之心· 2025-11-20 02:07
产品发布与定位 - Google DeepMind发布SIMA 2,这是一个能在虚拟3D世界中自主游戏、推理并持续学习的通用AI智能体[2] - 公司创始人将其定义为通往通用人工智能的关键一步[3] - SIMA 2代表了从SIMA 1的重大飞跃,是创建通用和有益AI智能体研究的下一个里程碑[6] 技术架构与核心能力 - SIMA 2集成Gemini模型的先进能力,从被动的指令遵循者进化为交互式游戏伴侣[6] - 新架构将SIMA 1的语言->行动模式升级为语言->意图->计划->行动的多步骤认知链[15] - 智能体不仅能遵循人类指令,还能在未见过的复杂环境中进行自主规划、解释行动步骤、与用户实时对话[6] - 通过试错与Gemini反馈的闭环机制自我迭代,提升技能[6] 性能提升与泛化能力 - SIMA 2能理解更复杂、更细微的指令,执行指令时成功率更高,尤其在未训练过的游戏中表现出色[24] - 具备理解多模态提示的能力,包括不同语言和表情符号[26][29] - 迁移学习能力显著,例如将一种游戏中对"采矿"的理解应用到另一种游戏的"收获"概念中[30] - 在多种任务上的表现已显著接近人类玩家水平[30] 创新测试与自我进化 - 与Genie 3结合测试时,SIMA 2能在全新生成的世界中合理定位、理解指令并采取有意义的行动[32] - 具备自我提升能力,能够通过试错法和基于Gemini的反馈执行日益复杂和新颖的任务[35] - 经过多代训练后,智能体可在完全无需人类反馈或游戏数据的情况下实现自我进化[39] 行业意义与应用前景 - 该技术对机器人技术和人工智能的未来具有重要意义,正在构建未来物理世界智能体所需的核心认知构建模块[7] - 智能体学到的技能(导航、工具使用、协作任务执行)都是未来物理世界AI助手所需的智能物理具身化的基本构建模块[43] - 这项研究为面向行动的AI提供了新路径的基础验证,证实了通才型智能体的可行性[43]
NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测
机器之心· 2025-11-19 04:07
研究背景与行业痛点 - 传统脑编码模型为每位新被试构建模型需采集数千张图像对应的脑活动数据,成本高昂且难以推广[2] - 现有方法即使使用预训练视觉模型,仍严重依赖大量被试内数据,在少样本或零样本条件下难以快速适应新个体,限制了临床等现实场景应用[2] - 人类高级视觉皮层功能组织存在显著个体差异,使得为每个新被试构建高精度编码模型必须依赖大量fMRI扫描,通常需数千图像,成本极高[6] - 当前主流"图像特征 + 线性回归"范式无法跨被试泛化,必须为每位新用户重新训练模型[6] 核心技术创新 - BraInCoRL提出基于元学习的上下文Transformer跨被试脑编码模型,仅凭少量示例图像及对应脑活动数据,即可无需微调地预测新被试对全新图像的脑响应[3][7] - 将每个脑体素视为独立的响应函数,训练目标是从稀疏观测中推断出可计算、可泛化的映射[7] - 核心思想是将每个体素的视觉响应建模为独立函数推断任务,置于元学习与上下文学习的统一框架下[10] - 在测试阶段,仅需提供新被试少量(如100个)图像-脑响应对作为上下文输入,模型通过前向计算动态生成该被试专属的体素编码器[11] 模型架构与训练策略 - 架构包含三部分:冻结的图像特征提取器、高级视觉皮层上下文Transformer、轻量体素编码器[13][18] - 采用三阶段训练策略:预训练阶段使用合成体素权重与噪声构造虚拟体素任务;上下文扩展阶段引入可变长度上下文样本;有监督微调阶段使用真实fMRI数据优化[15][19] - 高级视觉皮层上下文Transformer接收图像嵌入-脑响应对作为上下文,通过自注意力机制融合跨被试知识,直接生成体素编码器权重[18] 实验结果与性能优势 - 在NSD数据集上,BraInCoRL仅使用100张上下文图像,即在多个类别选择性脑区上达到与全量训练模型(9,000张图像)相近的解释方差[20] - 显著优于基于相同样本量的岭回归基线,在上下文数量变化情况下表现出强大稳定性[20] - 在BOLD5000数据集(3T扫描仪,不同刺激协议)上表现出色,验证其跨设备、跨协议的鲁棒性[22] - 在UMAP可视化中,BraInCoRL生成的体素权重呈现清晰语义聚类,人脸、场景、身体、食物等功能区域形成独立簇,在多被试间稳定复现[23] 语义理解与应用潜力 - 通过分析Transformer注意力机制,可了解视觉皮层功能组织,发现与体素选择相关的图像,验证语义合理性[27] - 将CLIP文本提示映射为图像嵌入输入BraInCoRL,即可零样本预测整个皮层的激活图,实现自然语言驱动的大脑探查[29] - 该方法大幅降低个体化脑编码模型构建门槛,为临床神经科学等数据受限场景应用开辟新路径[32]
NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法
机器之心· 2025-11-19 04:07
文章核心观点 - 香港大学团队提出一种名为PH-Reg的新型方法,旨在高效解决Vision Transformers模型密集特征中的伪影问题,该方法无需数据标记且计算资源消耗低 [2] - PH-Reg方法结合测试时增强的去噪策略和自蒸馏框架,能够灵活应用于CLIP、DINOv2等多种模型架构,显著提升下游任务性能 [2][3][6] 技术方法 - 采用免训练去噪算法,利用图像增强处理时伪影不会同步偏移的特性,在无需梯度反向传播的情况下生成无伪影密集特征 [10] - 通过自蒸馏框架,仅针对性更新学生模型中的register tokens、卷积层等少量参数,最大限度保留预训练权重核心信息并节省计算资源 [11] 性能表现 - 在开放词汇语义分割任务中,PH-Reg在八个基准数据集的七个上性能超越MaskCLIP、SCLIP等主流方法,例如在VOC21数据集上mIoU达到63.01,优于对比方法 [13][14] - 在线性探测任务中,PH-Reg为CLIP模型在VOC21数据集上的mIoU带来5.04%提升,在ADE20k数据集上提升3.64% [16][21] - 在深度估计任务中,该方法为预训练ViT骨干模型带来稳定性能提升,且参数量增加可忽略不计 [21] 效率优势 - 与DVT方法相比,PH-Reg训练时间从21908分钟减少至9000分钟,节省幅度超过58.9% [17][22] - 该方法可实时计算蒸馏目标,无需存储1.4 TB的神经场特征数据,显著降低存储需求 [22] 应用前景 - 该研究为未来大规模视觉模型的快速微调与蒸馏机制探索提供了新思路 [20] - 方法具备良好架构适配性,可直接应用于现有预训练模型,实现即插即用的性能提升 [3][19]
如视发布空间大模型Argus1.0,支持全景图等多元输入,行业首创!
机器之心· 2025-11-19 04:07
文章核心观点 - 公司正式发布全球首个支持全景图输入、推测空间深度的空间大模型Argus 1.0,其核心路径是“真实复刻”而非“虚构”世界 [2] - 该模型基于公司构建的“数字空间-算法-行业应用”飞轮驱动,其决定性优势在于海量、高精度、高一致性的真实世界数据 [6][41] - Argus 1.0实现了兼容性、实时性与生成质量三大突破,标志着空间智能领域从底层重建走向顶层AIGC应用的新纪元开始 [16][42] Argus 1.0的技术特性 - **兼容性突破**:是业界首个且唯一支持全景图作为输入的深度推测大模型,并广泛兼容单张/多张普通照片及AI生成图片 [17][19] - **实时性突破**:推理效率达毫秒级,是首个实时的全景图全局重建系统,通过将深度推测和位姿计算融合到一个算法模块,实现全流程无感知响应 [23] - **生成质量突破**:得益于独有的高精度、带尺度、像素级对齐的真实数据库,在处理玻璃、镜面等传统难题时表现稳健,生成质量显著优于其他方案 [11][24][29] 公司的技术积累与战略布局 - **核心数据资产**:拥有全球最大的三维空间数据库,截至2025年9月,累计数字空间数据突破5300万套,覆盖面积超过44亿平方米 [7][8] - **高质量数据特色**:通过自研硬件(如伽罗华系列3D激光扫描仪)确保数据在源头实现像素级精度的对齐,图像与点云平均匹配误差小于2个像素 [10][11] - **持续研发投入**:公司坚持应用导向的底层创新,平均每年研发投入在2亿人民币以上,已积累600余项国内外授权专利 [13] 空间智能版图与未来规划 - **四层理论框架**:公司提出空间智能四层理论,包括物理数据重建、潜藏数据感知推理、融合数据业务及AIGC生成交互,Argus 1.0是第一层的集大成者 [31][34][36] - **未来技术路线**:团队下一个重点难题是攻克第四层AIGC,预计明年初发布的Argus 2.0将用于实时渲染的3DGS模型和精细Mesh模型,赋能高阶应用 [36][38] - **开放行业生态**:为加速空间智能领域研究,公司计划于今年年底开放10000套室内房屋数据集,是目前最大规模的空间三维数据集 [39]