Workflow
机器之心
icon
搜索文档
Yann LeCun离开Meta后首篇论文?使用了宇树机器人做研究
机器之心· 2025-12-06 04:08
研究核心观点 - 伯克利、纽约大学和约翰・开普勒林茨大学的研究人员提出名为GenMimic的新方法,使人形机器人能够零样本模仿AI生成视频中的人类动作,即使视频存在噪声或变形,机器人也能提取核心动作逻辑并在物理世界中复现 [1] - 该研究是首个使人形机器人能够执行由视频生成模型生成动作的通用框架,并在仿真和真实世界实验中验证了其可行性 [4] 研究方法与框架 - 研究提出一个基于4D重建的两阶段流程:第一阶段从生成视频中提取并重定向SMPL参数到机器人关节空间,第二阶段通过新的GenMimic跟踪策略输出物理上可执行的关节角度 [15][17][18] - 方法采用加权关键点跟踪奖励和对称损失增强策略鲁棒性,使策略能选择性关注任务关键点(如末端执行器)并利用人体对称性应对生成视频中的噪声 [22][23][25][26] - 训练使用对称正则化和选择性加权的3D关键点奖励,尽管仅在现有动作捕捉数据上训练,却能泛化到充满噪声的合成视频 [4] 数据集构建 - 研究团队创建了名为GenMimicBench的合成人类动作数据集,包含428个由Wan2.1和Cosmos-Predict2视频生成模型创建的视频,涵盖广泛的主体、环境和动作类型 [8][9][11] - 数据集包含217个使用Wan2.1生成的多视角室内结构化视频,以及211个使用Cosmos-Predict2生成的模拟YouTube风格的自然场景视频,旨在评估策略在视觉和动作分布偏移下的零样本泛化能力 [11][12][13] 实验表现与结果 - 在仿真实验中,GenMimic方法在GenMimicBench数据集上显著优于基线模型,其教师模型获得了86.77%的成功率,远高于BeyondMimic的23.81%和TWIST的2.69% [30][31] - 在真实世界实验中,研究团队将策略部署在23自由度的宇树G1人形机器人上,推演了43个动作,对于原地动作(如挥手、伸展)视觉成功率高达1.0,但涉及下半身运动(如步进、转身组合)的动作成功率较低,在0.20至0.60之间 [29][32][33][34] - 仿真训练在IsaacGym中进行,样本量超过15亿,使用了四个NVIDIA RTX 4090 GPU,部署使用单个NVIDIA 4060移动版GPU [29]
AAAI 2026|新突破:北大彭宇新团队提出可见光-红外终身行人重识别方法CKDA
机器之心· 2025-12-06 04:08
研究背景与问题定义 - 终身行人重识别旨在通过持续学习新增数据中的新信息,同时保持对已知数据的识别能力,在公共安防、社区管理、运动分析等领域有重要价值 [2] - 在可见光-红外终身行人重识别场景中,现有方法在持续学习特定模态新知识时,会阻碍跨模态公共旧知识的保留,导致单模态专用知识获取与跨模态公共知识保留之间存在冲突 [2][9] 核心技术方案 - 北京大学彭宇新教授团队提出跨模态知识解耦与对齐方法CKDA,核心思想是避免可见光与红外模态知识的互相干扰,实现跨模态知识的高效平衡 [11] - CKDA包含三个核心模块:1) 跨模态通用提示模块,用于提取并净化两种模态共存的鉴别性知识;2) 单模态专用提示模块,用于促进特定模态知识的保留与净化;3) 跨模态知识对齐模块,在独立特征空间中对齐解耦后的新旧知识 [12] - 跨模态通用提示通过实例归一化缓解模态间风格差异,并自适应融合特征以提升通用知识的鉴别性与一致性 [14][16] - 单模态专用提示通过优化提示损失,促进特定模态知识的保留 [22] - 跨模态知识对齐通过构建并利用旧知识原型,在模态内与模态间特征空间分别对齐新旧知识,以缓解灾难性遗忘 [23][25] 实验结果与性能 - CKDA方法在由四个常用可见光-红外行人重识别数据集组成的终身学习基准上均取得了当前最优性能 [3] - 具体而言,CKDA的平均mAP达到36.3%,平均R1达到39.4%,优于所列的所有对比方法 [28] - 可视化结果表明,跨模态通用提示关注两种模态共存的行人整体轮廓和体态信息,而单模态专用提示关注特定模态知识,两者以互补方式提升模型感知能力 [29][30]
Skills vs MCP,谁才是「大模型的 HTTP 时刻」?
机器之心· 2025-12-06 02:30
文章核心观点 - 文章探讨了Anthropic推出的MCP协议在发布一年后的发展现状、社区争议及其与Claude Skills的关系,核心在于分析MCP协议的真实定位、适用边界及其作为基础设施的潜在价值,而非简单地将Skills视为MCP的替代品[1][7][12] builder 比 user 还多,MCP 仅是「旧瓶装新酒」? - 自发布一年以来,MCP的定位、适用场景和未来发展在业内存在持续争议[4] - 从技术栈看,MCP被定义为“client和server之间的通信协议 + 统一工具访问方式”,而非“AI USB”、Function Calling升级版或万能Agent框架[4] - 支持者视MCP为“大模型的HTTP时刻”,是AI下一阶段掌握工具能力的基础[4] - 反对者认为MCP是“旧瓶装新酒”,沿用了传统的服务注册和路由方法,仅将工具调用协议化,更“AI化”的做法应是将工具描述嵌入向量空间进行一步到位的匹配[4] - 另有观点认为Function Calling已规范工具调用,MCP只是将其转为显式协议,在当前生态下更像过渡方案[4] - MCP生态呈现“builder多于user”的现象,有科技博主称“MCP is probably the only piece of tech that has more builders than users”,该言论浏览量超28万[4] - 社区数据显示,已上线超过6000个MCP服务器,活跃开发者2000-3000人,终端用户约50000-75000人,平均25个用户对应1个开发者[5] - 服务器关注度分布不均,排名前10的服务器吸引了近一半用户关注,前10%的服务器获得了88%的星标[5] - 目前除少数面向开发者的IDE支持MCP外,主流网页端AI应用并不直接提供MCP接入,普通用户难以感知和使用[5] - MCP在实际使用中存在调用效率较低、资源消耗高和运行不够稳定等问题,企业发现直接通过系统API访问比通过MCP协议调用更便捷,因此MCP生态更多停留在开发者技术实验和内部验证阶段[5] - 社区认为MCP目前更适用于B端的“Data Open + 工具复用”场景,例如:需要向第三方开放扩展的平台、需跨多端复用同一套工具并进行版本管理、以及内部工具链尚未标准化时使用MCP SDK来统一流程[5][6][7] - 对于小型内部项目或一次性集成需求,使用MCP会增加不必要的复杂度;对于性能敏感的应用,MCP协议层的抽象和基于JSON-RPC的通信格式可能成为效率瓶颈[7] Not Skills vs MCP, but Skills with MCP? - Anthropic推出Claude Skills后,社区引发了关于Skills和MCP定位与分工的讨论[7] - 分析认为Skills更关注“如何做”,即业务流程和策略层面;MCP则回到具体“执行层”,主要负责调用后端工具[8] - Skills相当于“带知识的可移植工具调用+子代理”,封装了领域知识和业务逻辑;MCP则是远程调用运行在服务器上工具的机制[8] - 有用户认为Skills更像是“更省context的MCP,用来获取how-to指令”,许多MCP Server内部也会为工具编写说明性文档,作用类似Skills[9] - 在组织上,一个Skill通常由YAML头部、Skills.md文档和可选的资源文件组成,主要说明和资源文件仅在实际调用时加载,以有效节约token[9] - 举例:可为个人助手创建“会议管理”和“会议准备”等Skills,而访问邮箱、日历、Notion等外部系统的操作仍通过MCP Server完成[9] - 有观点认为Skills发布目的就是替代MCP,因为当两者功能重叠时,开发者更倾向于使用更友好的Skills;而MCP能实现但Skills不能的(如通过API实现动态更新功能)目前作用不大[10] - MCP的创新在于将模型与工具间的M×N次适配问题简化为M+N问题,但主要缺点是开发者需编写大量代码实现每个MCP Server,集成成本高[10] - 相比之下,Skills允许开发者用自然语言在SKILL.md中描述工具、资源和提示词,对开发者更友好[11] - Skills可以在提示中直接为LLM提供业务流程指导和思路,而MCP本身只是被动暴露工具接口,无法主动控制LLM的思维方式[12] - 从实用角度,对普通开发者和用户而言,“拿来即用的Skills市场”比“自己写MCP server”更有吸引力,标准化和共享的Skills可降低使用门槛[13] - MCP工具描述往往非常耗费token,例如官方的GitHub MCP接入需消耗上万token,部分团队通过让LLM直接调用CLI工具等轻量方法来替代部分MCP流程以提高效率[13] - 也有人认为现状是“Not Skills vs MCP, but Skills with MCP”,即Skills负责封装和组织业务流程、调用顺序,MCP则继续发挥接入数据和工具的作用[12] 过去一年,围绕 MCP 的 infra 层格局逐渐清晰? - 有分析指出,MCP的大规模落地可能还需等待下一个类似“微信小程序”的入口出现[3]
AAAI 2026 | 北航、东京大学填补AI「语义鸿沟」,过程感知视频理解如何找到「状态」锚点?
机器之心· 2025-12-06 01:15
文章核心观点 - 北京航空航天大学与东京大学联合团队提出名为TSS的新框架,通过引入“状态”作为视觉锚点,并采用渐进式“层级展开”预训练策略,有效解决了程序性视频理解中抽象文本指令与具象视频内容之间的语义鸿沟问题,该工作已被AAAI 2026接收[2][3][7] 现有方法的问题与挑战 - 现有程序性视频学习方法面临数据困境,依赖昂贵的时间密集型标注或利用WikiHow等外部知识库进行弱监督学习,将视频帧与“任务”或“步骤”文本描述强行对齐[2] - 弱监督方式存在优化空间,抽象语言描述与具体视觉像素之间存在断层,例如文本指令“切橙子”与视频中橙子从完整到果肉外露的连续形态变化不匹配,导致模型难以准确理解[2] - 传统“任务-步骤”二元结构过于抽象,视觉传感器捕捉到的是物体视觉状态的连续改变,与粗糙的步骤描述存在信息错位[5][7] TSS框架的核心创新 - 核心洞见在于重构过程性知识的层级结构,在“任务”和“步骤”之上引入了第三层语义——“状态”[3][7] - “状态”被定义为视觉可感知的物体属性具体变化,例如“切橙子”步骤可分解为“橙子完整”、“刀切入橙皮”、“橙子果肉外露变为切片”等状态快照,能够直接作为锚点将抽象步骤锁定在具体视频帧上[7][13] - 利用大语言模型基于现有WikiHow文本数据自动化生成“状态”描述,极大降低了数据成本,无需人工逐一标注[19] 渐进式“层级展开”训练策略 - 摒弃粗暴的“混合训练”,提出符合认知规律的渐进式训练策略,设计了一条Task → Step → State → Step → Task的U型学习路径[9][10] - 策略分为两个阶段:向下扎根,从高层任务出发学习到底层“状态”,迫使模型关注具体视觉证据;向上反哺,在掌握视觉细节后,带着“状态”知识回归高层,重新审视“步骤”和“任务”[11][14] - 实验证明,构建分析-综合闭环的路径(如Path-5: Task→Step→State→Step)性能最优,让模型学习“状态”可以反哺对“步骤”的理解[18][20] 实验验证与性能表现 - 在COIN和CrossTask数据集上进行了下游任务测试,包括任务识别、步骤识别和步骤预测[16] - 提出的方法在多项指标上全面超越基线模型,例如在COIN数据集上,使用下游MLP时,Path-5在任务识别、步骤识别、步骤预测的准确率分别达到83.78%、44.54%、38.07,显著优于未预训练的2.09%、1.37%、0.84以及基线模型Paprika的81.54%、42.39%、34.10[17][19] - 在CrossTask数据集上,Path-5的任务识别、步骤识别、步骤预测准确率分别为89.44%、57.92%、57.13,相较于Paprika模型,步骤识别和步骤预测分别提升1.71和1.36个百分点[17] - 对比实验表明,该方法提出的渐进式路径(如Path-5)性能优于混合训练,证明了TSS框架中的层级结构存在内在逻辑,通过渐进引导能更好地建立关联[21] 工程实现与技术应用 - 采用轻量化微调策略,训练轻量级Adapter模块作为预训练阶段的高效扩展组件,以提升模型表征能力[19] - 该方法为未来构建既能理解高层规划又能精准执行细节的智能系统提供了新思路,特别是在AI Agent需要执行复杂操作的背景下,通过显式建模物体状态变化来弥合自然语言与物理世界之间的鸿沟[23]
IJCAI 2026每篇投稿收100美元,学术圈却评价颇高
机器之心· 2025-12-06 01:15
机器之心报道 大模型辅助写作,辅助审稿的出现,已经打破了原有学术会议投稿评审体系的良性循环。 简而言之,投稿到顶会的论文数量激增,导致审稿系统不堪重负,于是导致了低质量评审,大模型辅助评审,甚至完全的 AI 评审的大量出现,最离谱的就是被我 们反复鞭尸的 「Who's Adam」 经典笑话。 在这也不得不提最近处于风口浪尖的 ICLR 2026,有第三方机构在对 75800 篇论文的审稿意见统计中竟然有 21% 完全由 AI 生成、4% 重度由 AI 编辑、9% 中度由 AI 编辑、22% 轻度由 AI 编辑, 完全由人类( 审稿人)撰写 的仅占 43% 。 不光审稿如此,投稿论文数量暴增的情况下,很难说有多少论文是 AI 撰写的。 这极大程度影响了学术顶会的信誉,毕竟谁也不想被扣上一顶「水」的帽子。 各大顶会面对大模型带来的冲击,都有一些应对手段,例如: ICLR 2026 出台了大语言模型使用政策 ,是 ICLR 历来最严格的新规定,以明确规范论文作者与审 稿人在研究过程和审稿过程中使用 LLM 的做法。 但这依然很难突破眼下的困境,因为顶会的投稿数实在太多,早已不堪重负。 为了尝试打破学术论文投稿数暴增 ...
全球引才:Faster R-CNN、ResNet作者,中国科大任少卿,招募教授、学者和学生
机器之心· 2025-12-05 10:17
中国科学技术大学通用人工智能研究所(筹)及负责人介绍 - 中国科学技术大学通用人工智能研究所(筹)聚焦人工智能、世界模型、具身智能、AI for Science、自动驾驶等前沿方向,致力于开展引领性、原创性、颠覆性、前瞻性科学研究工作,并构建学科建设、科研突破、人才培养、产业应用、国际合作的一体化创新体系 [7] - 研究所负责人任少卿教授是中国科学技术大学讲席教授、博士生导师,于2025年9月加入该校担任二级教授,其在深度学习、计算机视觉及智能驾驶等领域做出了基础性、开创性贡献,研究成果已成为驱动自动驾驶、工业检测、医疗影像、安防监控、卫星遥感等关键领域的核心引擎 [4][5] 负责人学术成就与行业影响 - 截至2025年11月,任少卿教授的学术论文被引用超过46万次,位列全学科领域国内学者第一,并在AI 2000全球人工智能学者总榜排名第三 [5] - 其研究成果获得了多项国际顶尖荣誉,包括2023未来科学大奖—数学与计算机科学奖、2025 NeurIPS时间检验奖、2025 Helmholtz Prize(ICCV十年影响力奖)、2016 CVPR最佳论文奖,以及ImageNet竞赛与MSCOCO竞赛全球冠军 [5] - 其荣获NeurIPS 2025时间检验奖的论文《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》是计算机视觉领域的里程碑之作,自2015年发表以来已被引用超过98,000次,该研究首次用完全可学习的两阶段pipeline取代了传统方法,实现了高精度与接近实时(5 FPS)检测的统一,奠定了现代目标检测框架的核心范式,并深刻影响了后续十年视觉模型的发展方向 [6] 人才招募计划 - 研究所面向全球进行人才招募,名额充足且长期有效 [8] - 招募岗位涵盖教授、研究员、副教授、博后、工程师、博士生、硕士生、本科实习生等多个层次 [9] - 研究所提供顶配资源与顶格待遇,诚邀海内外优秀本科、硕士、博士研究生及博士后青年人才积极申请,并全力支持优秀青年学者申请海外优青、杰青等国家高层次人才项目 [10] - 工作地点可选上海或合肥 [11]
登顶SuperCLUE DeepSearch,openPangu-R-72B深度搜索能力跃升
机器之心· 2025-12-05 10:17
评测结果与行业动态 - 第三方评测机构SuperCLUE发布的11月DeepSearch评测报告显示,国产大模型openPangu-R-72B在模型榜单中名列第一,体现了国产昇腾算力的大模型研发实力 [1] - 在SuperCLUE-DeepSearch中文深度搜索测评模型总榜中,openPangu-R-72B以73.33的总分位列第一,领先于Google的Gemini-3-Pro-Preview(70.48分)和OpenAI的GPT-5.1(high)(70.48分)[2] - 该模型在人文社科、工程技术和自然科学三个子任务类别中得分分别为75.47、54.55和83.33 [2] 模型架构与技术底座 - openPangu-R-72B是基于昇腾集群训练的MoE(混合专家)模型,采用80选8的专家选择机制,在740亿总参数量的基础上,将激活参数量控制在150亿,以平衡效率与性能 [4] - 模型使用了24万亿tokens的训练数据,并具备128k长序列处理能力,为处理深度搜索任务中的长文本信息奠定了基础 [4] - 在注意力机制层面引入了参数式Sink Token技术,有效缓解极大激活值问题,提升了训练稳定性并对后续量化更亲和 [7] - 采用K-Norm与Depth-Scaled Sandwich-Norm组合的架构,其中K-Norm仅对attention的key施加RMS Norm,在达到与QK-Norm相当稳定性的同时降低了计算开销 [7] - 通过增加Query头数和注意力头维度来捕获细粒度语义关系,并引入Partial RoPE机制,仅对Query和Key中1/3维度应用位置编码 [7] - 通过将KV组数量减半,在Key头维度增加的情况下,实现了37.5%的KV cache缩减,平衡了推理阶段的显存占用、速度与模型效果 [7] - 采用Adaptive Aux Free负载优化技术的升级版本,通过自适应调整各个专家负载bias的更新幅度,有效减少均衡震荡,让专家负载分布更均衡 [8] 深度搜索能力专项优化 - 模型通过后训练阶段的长链难题合成、非索引信息处理、快慢思考融合三大策略,显著提升了DeepSearch能力 [10] - 在长链QA难题合成方面,通过query条件模糊化将问题平均难度提升10%,并引入verification agent以提升用于训练问答对的准确性 [12] - 针对非索引知识问答场景,训练中注入了“Planner聚焦关键URL + URL_crawler爬取网页 + Document_QA识别下一步浏览链接”的循环工作流,通过同一站点内的多跳浏览实现深度信息搜集 [12] - 采用步骤级快慢融合策略,在DeepSearch的ReACT执行过程中,为Document_QA步骤启用慢思考以保障精度,为其他工具调用步骤采用快思考以提升速度,实现精度与效率的平衡 [13] 国产算力与模型生态 - openPangu-R-72B是基于国产昇腾算力平台训练的代表模型,证明了该平台在支撑大参数量、高复杂度模型研发方面的坚实能力 [15] - openPangu系列的兄弟模型openPangu-718B在同期SuperCLUE通用榜单中斩获第二名,展现了该系列在不同任务场景下的全面实力 [15] - 随着大模型在企业服务、学术研究、政务处理等领域的深度落地,深度搜索能力被视为模型实用化的核心竞争力 [15]
基于文本AI的终结?Agent协作可直接「复制思维」,Token效率暴涨
机器之心· 2025-12-05 04:08
文章核心观点 - 普林斯顿大学等机构的研究者提出了一种名为LatentMAS的多智能体推理框架,其核心创新是将AI智能体之间的协作从传统的文本空间转移到了模型的潜在空间[5] - 该框架让智能体直接交换内部的隐藏层表示与KV缓存工作记忆,实现了近乎“心灵感应”式的协作,避免了传统文本交流的冗长、低效和信息丢失问题[5][7] - 实验结果表明,LatentMAS在多个基准任务上实现了更高的准确率、更低的token使用量以及显著提升的推理速度,展示了潜在空间协作的巨大优势[6] 方法介绍 - LatentMAS是一个端到端的潜在协作框架,所有智能体的推理与交流完全在潜在空间中进行,只有最终答案才会被解码为文本输出[14] - 框架建立在三个基本原则之上:推理表达能力(隐藏表示编码更丰富的连续思维)、通信保真度(实现跨智能体的无损信息传递)以及更低的协作复杂度[15][16] - 该方法使LLM智能体能够在潜在空间中生成具有超强表达能力的潜在思维,并以无损方式传递潜在工作记忆,同时保持显著更低的计算复杂度[16] 实验评估 - 在九个基准任务上的全面实验显示,LatentMAS相比单模型基线在顺序式与层级式MAS设置下准确率平均提升14.6%和13.3%[20] - 相比文本式MAS,LatentMAS在顺序式与层级式设置下分别实现4倍与4.3倍的推理加速,并减少70.8%与83.7%的token使用量[21][22] - 在具体任务如GSM8K上,使用Qwen3-14B模型的LatentMAS准确率达到95.2%,相比单模型基线提升11.5%,同时token使用量减少80.6%[23] 高效率潜在协作 - LatentMAS可实现2.6倍至7倍的额外加速,源于潜在推理只需较少的潜在步骤,而文本推理则需要大量逐token解码步骤[25] - 在AIME 24/25等高强度推理任务中,LatentMAS在不到50个潜在步骤的情况下就能达到甚至超过需要超过2万个输出token的文本MAS表现[25] - 相比TextMAS,LatentMAS可减少59.4%至87.9%的token使用量,相比单模型推理也能减少15.0%至60.3%的token使用量[28] 深入分析 - 潜在思维与对应文本响应的嵌入分布区域几乎重叠,表明潜在思维能有效捕捉文本语义,同时具有更高的多样性和表达能力[30][31] - 随着潜在步骤数量的增加,下游性能普遍提升,说明额外的潜在思维提高了AI协作的表达能力[32] - 该方法无需额外训练,可兼容任意HuggingFace模型,并可选择性地支持vLLM后端,通用性强[8]
字节前技术负责人创业,联手清华姚班校友,编程智能体世界登顶
机器之心· 2025-12-05 04:08
文章核心观点 - InfCode编码智能体定义了AI编程的“工程时代”,其多智能体体系标志着AI编程从“单体提效”走向企业“组织进化”的新范式[2][7] - 公司在SWE-Bench Verified和Multi-SWE-bench-CPP两项权威AI Coding基准中双双登顶,展现了面向企业场景设计的突破性技术能力[4][6] AI编程行业趋势与基准 - AI编程正从传统大模型生成代码片段转向强调自主性、全流程覆盖和工程实用性的新一代编码智能体(Coding Agent)[9] - SWE-Bench Verified基准来自真实GitHub项目,要求智能体解决问题且不破坏其他功能,是行业权威评测标准[9] - Multi-SWE-bench数据集覆盖七种编程语言共1632个修复任务,由68名专家从2456个候选样本中精挑细选[9] - C++项目通常需一次修改200多行、涉及7个文件,难度远高于JavaScript等高层语言,领先模型在C++上的解决率往往不足8%[10] InfCode技术突破与性能表现 - 在SWE-Bench Verified上以79.4%的Pass@1得分刷新SOTA,远高于公开排行榜上GPT-5、Claude等顶尖模型70%左右的成绩[6][13] - 在Multi-SWE-bench的C++子集上达到25.58%的解决率,大幅领先Claude 3.7 Sonnet的8.59%和DeepSeek V3的7.75%[6][13] - 针对系统语言(C、C++、Rust)在内存管理、模板机制和复杂编译链方面的难度,实现了语义定位与语法分析相结合的优势[15] 核心技术亮点 - 提出“代码意图分析(Code Intent Analysis)”机制,超越传统RAG的字面匹配,能理解自然语言背后的功能意图并映射到具体实现单元[17][18] - 自研基于抽象语法树(AST)的结构化检索引擎,通过Tree-Sitter构建完整语法树,提供FindClass、FindFunction等语法层API[21][22] - 首创对抗式双智能体架构,代码补丁生成器与测试补丁生成器在闭环中交替迭代,实现“越测越强、越修越稳”的工程级质量[24][25] - 修复流程采用生成与筛选两阶段范式,在真实构建和测试环境中重放每个补丁,最终选出具有更强工程完整性与可维护性的补丁[31][33] 团队背景与竞争优势 - 核心团队由清华姚班校友带队,汇聚来自字节、百度、微软等顶尖企业的精英及世界名校人才,构成“顶尖老将+新生代骨干”组合[35][37] - 团队领军人杨萍在字节跳动期间主导创立公司首个软件工程实验室,其孵化的内部AI Coding产品已全面覆盖公司研发体系[35] - CTO王伟在大模型与智能体领域深耕多年,此前带队在SWE-Bench曾斩获全球第二成绩[36] - 商业化负责人李莹拥有十余年AI产业落地经验,曾主导完成数亿元规模的大模型To B项目落地[37] - 团队对AI Coding赛道有清晰认知,竞争已从“工具效能”提升转向对软件工程全生命周期的重构(AI SWE)[38]
首帧的真正秘密被揭开了:视频生成模型竟然把它当成「记忆体」
机器之心· 2025-12-05 04:08
文章核心观点 - 视频生成模型的首帧并非时间起点,而是作为内部“概念记忆体”,存储后续帧需引用的所有视觉实体[2][3][9] - 模型天生具备多对象融合与内容定制能力,但默认状态下该能力极不稳定且难以触发[14][38][43] - FFGo方法通过极轻量级微调(仅需20–50个样本)即可稳定激活模型的潜在能力,无需修改模型结构或使用百万级数据[18][21][44] 研究方法与发现 - 团队通过对Veo3、Sora2、Wan2.2等主流视频模型的测试,验证了首帧作为内容缓存区的现象[11] - 研究发现,基础模型在极罕见情况下能成功完成多对象融合任务,证明能力已存在但无法稳定调用[35][37][38] - FFGo的作用被证实并非赋予模型新能力,而是通过学习“触发机制”使其固有能力变得可控和可靠[40][44][47] FFGo技术方案优势 - 方法仅需20–50个精心筛选的视频样本和数小时LoRA训练,即可实现最先进(SOTA)的视频内容定制[17][21][52] - 相比VACE、SkyReels-A2等现有方法,FFGo无需修改模型结构,且能处理多达5个参考实体,而现有方法限制在3个以内并易出现物体丢失[19][22][31] - 技术能有效保持物体身份一致性、避免灾难性遗忘,并在用户研究中以81.2%的票数大幅领先[31][52] 应用场景与技术实现 - 技术亮点覆盖自动驾驶模拟、航拍/水下无人机模拟、多产品展示、影视制作及多角色视频生成六大场景[24] - 采用VLM(如Gemini-2.5 Pro)自动构建高质量训练集,利用SAM2提取物体掩膜,大幅降低人工工作量[27] - 推理时仅需舍弃模型生成的前4帧压缩帧,真正的混合内容从第5帧开始[28]