机器之心
搜索文档
刚刚,Yann LeCun官宣离职创业,瞄准高级机器智能AMI
机器之心· 2025-11-20 02:07
公司动态 - 图灵奖得主Yann LeCun宣布从Meta离职并创立新公司,专注于研发高级机器智能[1][7] - 新公司目标是推动AI重大革命,使系统能够理解物理世界、拥有持久记忆、具备推理能力并规划复杂行动序列[1][8] - Meta将成为新公司合作伙伴,Yann LeCun将在Meta待到今年年底[8][9] 技术方向 - 新公司研发核心是高级机器智能,重点推进世界模型研究,使AI能够理解物理世界并预测行为后果[1][24] - Yann LeCun是大型语言模型的批评者,认为世界模型才是实现机器真正理解物理世界的关键[19][27] - 近期与学生共同提出JEPA理论,通过最大化语义相关视图的嵌入一致性来构建高维嵌入空间,作为实现世界模型的潜在方案[25] 行业影响 - Yann LeCun曾创建FAIR实验室并坚持开放研究模式,为Meta带来PyTorch等核心技术[20] - 此次创业标志着Meta AI内部一个时代的终结,但开启了AI领域新的探索周期[27][28] - 高级机器智能技术预计将在辅助技术、混合现实、个性化教育等多个经济领域产生广泛应用[8][24]
通往通用人工智能的关键一步?DeepMind放大招,3D世界最强AI智能体SIMA 2
机器之心· 2025-11-20 02:07
产品发布与定位 - Google DeepMind发布SIMA 2,这是一个能在虚拟3D世界中自主游戏、推理并持续学习的通用AI智能体[2] - 公司创始人将其定义为通往通用人工智能的关键一步[3] - SIMA 2代表了从SIMA 1的重大飞跃,是创建通用和有益AI智能体研究的下一个里程碑[6] 技术架构与核心能力 - SIMA 2集成Gemini模型的先进能力,从被动的指令遵循者进化为交互式游戏伴侣[6] - 新架构将SIMA 1的语言->行动模式升级为语言->意图->计划->行动的多步骤认知链[15] - 智能体不仅能遵循人类指令,还能在未见过的复杂环境中进行自主规划、解释行动步骤、与用户实时对话[6] - 通过试错与Gemini反馈的闭环机制自我迭代,提升技能[6] 性能提升与泛化能力 - SIMA 2能理解更复杂、更细微的指令,执行指令时成功率更高,尤其在未训练过的游戏中表现出色[24] - 具备理解多模态提示的能力,包括不同语言和表情符号[26][29] - 迁移学习能力显著,例如将一种游戏中对"采矿"的理解应用到另一种游戏的"收获"概念中[30] - 在多种任务上的表现已显著接近人类玩家水平[30] 创新测试与自我进化 - 与Genie 3结合测试时,SIMA 2能在全新生成的世界中合理定位、理解指令并采取有意义的行动[32] - 具备自我提升能力,能够通过试错法和基于Gemini的反馈执行日益复杂和新颖的任务[35] - 经过多代训练后,智能体可在完全无需人类反馈或游戏数据的情况下实现自我进化[39] 行业意义与应用前景 - 该技术对机器人技术和人工智能的未来具有重要意义,正在构建未来物理世界智能体所需的核心认知构建模块[7] - 智能体学到的技能(导航、工具使用、协作任务执行)都是未来物理世界AI助手所需的智能物理具身化的基本构建模块[43] - 这项研究为面向行动的AI提供了新路径的基础验证,证实了通才型智能体的可行性[43]
NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测
机器之心· 2025-11-19 04:07
研究背景与行业痛点 - 传统脑编码模型为每位新被试构建模型需采集数千张图像对应的脑活动数据,成本高昂且难以推广[2] - 现有方法即使使用预训练视觉模型,仍严重依赖大量被试内数据,在少样本或零样本条件下难以快速适应新个体,限制了临床等现实场景应用[2] - 人类高级视觉皮层功能组织存在显著个体差异,使得为每个新被试构建高精度编码模型必须依赖大量fMRI扫描,通常需数千图像,成本极高[6] - 当前主流"图像特征 + 线性回归"范式无法跨被试泛化,必须为每位新用户重新训练模型[6] 核心技术创新 - BraInCoRL提出基于元学习的上下文Transformer跨被试脑编码模型,仅凭少量示例图像及对应脑活动数据,即可无需微调地预测新被试对全新图像的脑响应[3][7] - 将每个脑体素视为独立的响应函数,训练目标是从稀疏观测中推断出可计算、可泛化的映射[7] - 核心思想是将每个体素的视觉响应建模为独立函数推断任务,置于元学习与上下文学习的统一框架下[10] - 在测试阶段,仅需提供新被试少量(如100个)图像-脑响应对作为上下文输入,模型通过前向计算动态生成该被试专属的体素编码器[11] 模型架构与训练策略 - 架构包含三部分:冻结的图像特征提取器、高级视觉皮层上下文Transformer、轻量体素编码器[13][18] - 采用三阶段训练策略:预训练阶段使用合成体素权重与噪声构造虚拟体素任务;上下文扩展阶段引入可变长度上下文样本;有监督微调阶段使用真实fMRI数据优化[15][19] - 高级视觉皮层上下文Transformer接收图像嵌入-脑响应对作为上下文,通过自注意力机制融合跨被试知识,直接生成体素编码器权重[18] 实验结果与性能优势 - 在NSD数据集上,BraInCoRL仅使用100张上下文图像,即在多个类别选择性脑区上达到与全量训练模型(9,000张图像)相近的解释方差[20] - 显著优于基于相同样本量的岭回归基线,在上下文数量变化情况下表现出强大稳定性[20] - 在BOLD5000数据集(3T扫描仪,不同刺激协议)上表现出色,验证其跨设备、跨协议的鲁棒性[22] - 在UMAP可视化中,BraInCoRL生成的体素权重呈现清晰语义聚类,人脸、场景、身体、食物等功能区域形成独立簇,在多被试间稳定复现[23] 语义理解与应用潜力 - 通过分析Transformer注意力机制,可了解视觉皮层功能组织,发现与体素选择相关的图像,验证语义合理性[27] - 将CLIP文本提示映射为图像嵌入输入BraInCoRL,即可零样本预测整个皮层的激活图,实现自然语言驱动的大脑探查[29] - 该方法大幅降低个体化脑编码模型构建门槛,为临床神经科学等数据受限场景应用开辟新路径[32]
NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法
机器之心· 2025-11-19 04:07
文章核心观点 - 香港大学团队提出一种名为PH-Reg的新型方法,旨在高效解决Vision Transformers模型密集特征中的伪影问题,该方法无需数据标记且计算资源消耗低 [2] - PH-Reg方法结合测试时增强的去噪策略和自蒸馏框架,能够灵活应用于CLIP、DINOv2等多种模型架构,显著提升下游任务性能 [2][3][6] 技术方法 - 采用免训练去噪算法,利用图像增强处理时伪影不会同步偏移的特性,在无需梯度反向传播的情况下生成无伪影密集特征 [10] - 通过自蒸馏框架,仅针对性更新学生模型中的register tokens、卷积层等少量参数,最大限度保留预训练权重核心信息并节省计算资源 [11] 性能表现 - 在开放词汇语义分割任务中,PH-Reg在八个基准数据集的七个上性能超越MaskCLIP、SCLIP等主流方法,例如在VOC21数据集上mIoU达到63.01,优于对比方法 [13][14] - 在线性探测任务中,PH-Reg为CLIP模型在VOC21数据集上的mIoU带来5.04%提升,在ADE20k数据集上提升3.64% [16][21] - 在深度估计任务中,该方法为预训练ViT骨干模型带来稳定性能提升,且参数量增加可忽略不计 [21] 效率优势 - 与DVT方法相比,PH-Reg训练时间从21908分钟减少至9000分钟,节省幅度超过58.9% [17][22] - 该方法可实时计算蒸馏目标,无需存储1.4 TB的神经场特征数据,显著降低存储需求 [22] 应用前景 - 该研究为未来大规模视觉模型的快速微调与蒸馏机制探索提供了新思路 [20] - 方法具备良好架构适配性,可直接应用于现有预训练模型,实现即插即用的性能提升 [3][19]
如视发布空间大模型Argus1.0,支持全景图等多元输入,行业首创!
机器之心· 2025-11-19 04:07
文章核心观点 - 公司正式发布全球首个支持全景图输入、推测空间深度的空间大模型Argus 1.0,其核心路径是“真实复刻”而非“虚构”世界 [2] - 该模型基于公司构建的“数字空间-算法-行业应用”飞轮驱动,其决定性优势在于海量、高精度、高一致性的真实世界数据 [6][41] - Argus 1.0实现了兼容性、实时性与生成质量三大突破,标志着空间智能领域从底层重建走向顶层AIGC应用的新纪元开始 [16][42] Argus 1.0的技术特性 - **兼容性突破**:是业界首个且唯一支持全景图作为输入的深度推测大模型,并广泛兼容单张/多张普通照片及AI生成图片 [17][19] - **实时性突破**:推理效率达毫秒级,是首个实时的全景图全局重建系统,通过将深度推测和位姿计算融合到一个算法模块,实现全流程无感知响应 [23] - **生成质量突破**:得益于独有的高精度、带尺度、像素级对齐的真实数据库,在处理玻璃、镜面等传统难题时表现稳健,生成质量显著优于其他方案 [11][24][29] 公司的技术积累与战略布局 - **核心数据资产**:拥有全球最大的三维空间数据库,截至2025年9月,累计数字空间数据突破5300万套,覆盖面积超过44亿平方米 [7][8] - **高质量数据特色**:通过自研硬件(如伽罗华系列3D激光扫描仪)确保数据在源头实现像素级精度的对齐,图像与点云平均匹配误差小于2个像素 [10][11] - **持续研发投入**:公司坚持应用导向的底层创新,平均每年研发投入在2亿人民币以上,已积累600余项国内外授权专利 [13] 空间智能版图与未来规划 - **四层理论框架**:公司提出空间智能四层理论,包括物理数据重建、潜藏数据感知推理、融合数据业务及AIGC生成交互,Argus 1.0是第一层的集大成者 [31][34][36] - **未来技术路线**:团队下一个重点难题是攻克第四层AIGC,预计明年初发布的Argus 2.0将用于实时渲染的3DGS模型和精细Mesh模型,赋能高阶应用 [36][38] - **开放行业生态**:为加速空间智能领域研究,公司计划于今年年底开放10000套室内房屋数据集,是目前最大规模的空间三维数据集 [39]
登顶开源SOTA!上交大&小红书LoopTool实现工具调用任务的「数据进化」
机器之心· 2025-11-19 04:07
文章核心观点 - 上海交通大学与小红书团队提出名为LoopTool的创新框架,该框架是一个自动的、模型感知的、迭代式的数据进化系统,旨在解决大语言模型在工具调用任务中面临的数据生成与训练流程静态化问题 [2] - LoopTool首次实现了工具调用任务的数据-模型闭环优化,仅依靠开源模型Qwen3-32B作为数据生成器与判别器,使得一个8B规模的模型在工具调用表现上显著超越其32B数据生成器,并在多个公开榜单上取得同规模模型的最佳成绩 [2] - 该方法的核心思想是让数据生成、标签修正与模型训练形成一个自动化的闭环,并由模型性能反馈驱动下一轮数据优化,整个过程完全依赖开源模型,降低了成本并确保了数据高质量与多样性 [7][35] 背景:工具调用的瓶颈 - 工具增强型LLM已在API调用、知识库查询、搜索引擎交互、代码和多模态任务执行、复杂知识问答与数学问题等多领域证明其巨大价值,但要让模型稳健地使用工具,需持续提供与其当前水平匹配的高质量且多样化训练数据 [5] - 现有主流方法采用“先生成全量数据,再训练模型”的静态流程,缺乏对模型学习状态与短板的实时反馈,且依赖监督式微调,使模型难以泛化到更多工具类别 [5] - 若使用闭源生成/评估模型,API成本高且难以大规模迭代;改用开源模型则易引入标签错误,造成训练信号噪声累积甚至误导模型 [5] 方法:LoopTool的闭环数据进化 - LoopTool框架包含种子数据构建与迭代优化闭环两大阶段,迭代优化闭环又细分为四个核心模块:GRPO强化学习训练、贪婪能力探测、判别引导标签校验和错误驱动数据扩展 [7][11][12][13][15] - 种子数据构建阶段通过收集开源API文献并设计语义树和约束树来合成符合功能意图和结构规范的API定义,再通过多智能体工具调用对话生成流程,并经过规则验证和LLM验证两阶段筛选,确保种子集数据的质量和多样性 [9][10] - 迭代优化阶段通过GRPO强化学习鼓励模型探索,利用贪婪能力探测识别高学习价值样本,通过判别引导标签校验比较模型预测与原标签以修正噪声标签,并借助错误驱动数据扩展针对错误样本进行结构保持与情境多样化生成新样本 [11][12][13][15][17] 实验结果 - 在BFCL-v3评测中,LoopTool-8B总体准确率达到74.93%,在所有8B规模开源模型中排名第一,较原始Qwen3-8B提升+8.59个百分点,且超越了用作数据生成与评判的Qwen3-32B;LoopTool-32B以79.32%的总体准确率位列第一 [20] - 在ACEBench评测中,LoopTool-8B以73.4%总体分数夺得同规模第一,比原始Qwen3-8B高出6.3分;LoopTool-32B达到开源模型榜单中的第一,仅次于GPT-4o模型 [21][22] - 消融实验显示,高困惑度样本筛选、判决引导标签校正和错误驱动数据扩展模块均对性能提升有显著贡献,移除任一模组都会导致准确率下降,验证了闭环设计中各组件的重要性 [24][25][27] - 在不同规模模型上的测试表明,模型规模越大,初始迭代和优化迭代阶段的准确率都更高,且大模型在迭代中获得的绝对性能提升更明显,例如8B模型提升+1.80个百分点,而0.6B模型仅提升+0.70个百分点 [28] - 在通用能力和下游任务测试中,LoopTool-8B在MMLU-redux、IFEval、LiveCodeBench、Math-500、AIME24、AIME25等任务上匹配或超越原模型,尤其在指令跟随和代码生成上提升显著;在下游应用如API-Bank、Spotify和GAIA基准测试中,LoopTool模型也展现出更强的实际问题解决能力 [30][31][32][33]
ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式
机器之心· 2025-11-19 02:09
研究背景与核心痛点 - 无需额外训练即可适配预训练生成模型的编辑方法已成为研究热点,其通过操控Attention机制实现文本引导编辑,但存在两大核心痛点[5] - 痛点一:编辑强度与源图一致性难以兼顾,增强编辑强度易破坏源图特征结构(如改衣服颜色时丢失褶皱细节),且非编辑区域会出现意外变化,此问题在多轮编辑或视频编辑场景中会累积放大[5] - 痛点二:编辑强度缺乏细粒度控制能力,多数方法对编辑强度的控制局限于全局一致性,无法实现“保结构改纹理”或“保纹理改结构”的精准调节[5] - 生成模型架构正从U-Net向Multi-Modal Diffusion Transformer升级,MM-DiT通过统一的Self-Attention同时处理文本与视觉信息,为解决上述困境提供了新可能[7] 核心技术创新与发现 - 针对MM-DiT架构的Attention计算提炼出三个核心发现:仅编辑“视觉Token”是关键,若修改“文本Token”会导致结果失真[9] - 发现MM-DiT所有层的Q/K/V Token都保留完整的结构与纹理信息,意味着编辑可覆盖所有Attention层,而非仅作用于最后几层[11] - 发现Q/K Token主导结构一致性,单独对Q/K的视觉Token进行控制可精准保留源图像结构,而V的视觉Token则主要影响内容纹理,为结构与纹理的解耦控制提供了技术依据[15] ConsistEdit方法设计 - 提出视觉仅注意力控制,仅对所有Attention层的视觉Token进行编辑,文本Token保持不变,以实现强一致性的稳定生成[19] - 采用掩码引导的Attention融合,在Attention计算前通过文字和视觉Token的Attention Map值生成编辑掩码,精确分离编辑区与非编辑区[20] - 实现Q/K/V差异化操控,提出“一致性强度”以控制结构一致性,通过动态调整Q/K融合比例,实现从“完全保结构”到“自由改结构”的平滑过渡[21] 实验验证与应用前景 - 在PIE-Bench数据集上的对比实验显示,该方法在图像和视频编辑任务中均优于UniEdit-Flow、DiTCtrl、FireFlow等5种主流方法[22] - 方法支持真实图片的多轮编辑和多区域精准编辑,得益于精确的Attention控制与强大的预训练模型支撑[26][27] - ConsistEdit具有高度泛化性,不仅支持Stable Diffusion 3,还可无缝适配FLUX.1-dev、CogVideoX-2B等MM-DiT类模型[31][33] - 高一致性和细粒度控制特性使其可广泛应用于从静态图片到动态视频的全场景视觉创作,为交互式创作提供了更多可能性[34]
刚刚,PyTorch之父光速入职TML!离职Meta刚过一天,投身500亿估值独角兽
机器之心· 2025-11-19 02:09
人物动态 - PyTorch之父Soumith Chintala在离开Meta一天后,正式宣布加入估值达500亿美元的创业公司Thinking Machines Lab [1][2][4] - 其个人介绍更新为在TML“创造新东西”,但具体职务和项目内容尚未公开 [2][3] - 多位TML研究人员及业界同行对其加入表示欢迎和祝贺 [6][10] 职业背景与行业影响 - Soumith Chintala是深度学习框架PyTorch的核心创造者,该框架在AI领域的采用率超过90%,是行业主流基础设施 [12] - 其职业生涯经历从早期求职屡次被拒到领导开发出关键行业工具的巨大转变 [12] - 此次从Meta副总裁职位离职加入初创公司TML,被视为其寻求新挑战、避免职业遗憾的主动选择 [10][14] PyTorch项目现状 - Chintala表示PyTorch项目在其离职前已做好周密安排,团队具备韧性,核心成员已进入决策层,项目不再依赖其个人 [16] - 他自信地认为PyTorch项目已能独立发展,并持续驱动着基础模型的研发 [16][17]
何恺明重磅新作:Just image Transformers让去噪模型回归基本功
机器之心· 2025-11-19 02:09
文章核心观点 - 何恺明新论文指出,当前主流的去噪扩散模型并非直接预测干净图像,而是预测噪声或带噪量,这偏离了“去噪”的本意 [2][5] - 基于流形假设,论文主张让扩散模型回归本源,直接预测干净数据(x-prediction),这能使网络在极高维空间中有效运行 [6][7] - 论文提出“Just image Transformers (JiT)”架构,仅使用简单的像素级Transformer即可实现高质量图像生成,无需tokenizer、预训练或额外损失项 [8][11] 模型架构设计 - JiT架构遵循ViT核心理念,将图像划分为非重叠patch,通过线性嵌入和Transformer块处理,输出层将每个token投影回patch维度 [14] - 架构以时间t和类别标签为条件,使用adaLN-Zero进行条件化处理,相当于直接应用于像素patch的Diffusion Transformer [16] - 在256×256分辨率下使用JiT/16(p=16,patch维度768),在512×512分辨率下使用JiT/32(p=32,patch维度3072)[16] 预测目标与损失函数 - 实验比较了x-prediction(预测干净数据)、ϵ-prediction(预测噪声)和v-prediction(预测流速度)三种方式,以及对应的x-loss、ϵ-loss和v-loss [18][20] - 在高维设置(ImageNet 256×256)下,只有x-prediction表现良好,而ϵ-prediction和v-prediction出现灾难性失败 [21] - 在低维设置(ImageNet 64×64)下,所有预测方式都表现相当,说明高维信息传播是关键问题 [22] - 最终算法采用x-prediction和v-loss组合,对应表1(3)(a) [34] 模型性能与实验结果 - JiT-B/16在ImageNet 256×256分辨率下达到4.37 FID(200 epoch)和3.66 FID(600 epoch)[30] - JiT-G/32在ImageNet 512×512分辨率下达到2.11 FID(200 epoch)和1.78 FID(600 epoch)[30] - 模型在不同分辨率下参数量和计算成本相近,256×256的JiT-B/16为131M参数、25 Gflops,512×512的JiT-B/32为133M参数、26 Gflops [29][41] - 引入SwiGLU、RMSNorm、RoPE、qk-norm等Transformer改进技术后,JiT-B/16的FID从7.48提升至5.49 [38] 技术优势与应用潜力 - JiT方法避免了观测维度灾难,即使patch维度高达12288(1024×1024分辨率),模型仍能有效工作 [28][42] - 该方法无需特定领域设计,在蛋白质、分子或天气等自然数据领域具有潜在价值,因为这些领域的tokenizer通常难以设计 [12] - 与潜在扩散方法相比,JiT完全依赖朴素、通用型Transformer,计算友好且避免分辨率加倍时的二次成本增长 [46] - 该方法没有使用额外损失或预训练,这些可能会进一步带来性能提升 [49]
Gemini 3深夜来袭:力压GPT 5.1,大模型谷歌时代来了
机器之心· 2025-11-18 18:19
产品发布与市场热度 - Gemini 3模型正式发布,被谷歌定义为"通往AGI的重要一步"和目前世界上多模态理解能力最强、交互最深度的智能体[8][10][11] - 发布前推特平台因讨论热度高涨出现服务中断,显示市场对该模型的高度期待[1][3][5] - 在X平台发起的"到2026年底哪家公司拥有最好的LLM"投票中,Google Gemini以58.5%的得票率遥遥领先,OpenAI ChatGPT为21.7%,xAI Grok为13.1%,Anthropic Claude为6.7%[50][52] 技术性能突破 - Gemini 3 Pro在LMArena Leaderboard获得1501 Elo突破性高分,在Humanity's Last Exam测试中达到37.5%(无工具)和45.8%(使用搜索和代码执行)[13][14] - 数学能力方面,在MathArena Apex上达到23.4%的SOTA水平,在AIME 2025测试中获得95%(无工具)和100%(代码执行)的成绩[13][14] - 多模态理解表现突出,MMMU-Pro得分81%,Video-MMMU得分87.6%,显示在复杂科学图表解析和动态视频流理解方面的优势[13] - 事实准确性显著提升,SimpleQA Verified测试达到72.1%的成绩[14] 开发者生态与工具 - 推出全新Google Antigravity平台和Deep Think模式,重塑开发者生态与AI辅助体验[12] - 在终端编码测试Terminal-Bench 2.0中获得54.2%的成绩,在SWE-bench Verified测试中达到76.2%[28] - 支持Google AI Studio、Vertex AI、Gemini CLI等开发平台,并兼容Cursor、GitHub、JetBrains等第三方平台[29] - Deep Think模式在GPQA Diamond测试中达到93.8%的更高分数,在ARC-AGI-2测试中获得45.1%的成绩[19][21] 商业应用与规划能力 - 长周期规划能力在Vending-Bench 2测试中得到验证,模拟售货机经营中实现平均净资产$5,478.16,显著高于Claude Sonnet 4.5的$3,838.74和GPT-5.1的$1,473.43[32][33][36] - 定价采用分级机制,200k tokens以下任务输入/输出价格为$2.00/$12.00(每百万token),超过200k tokens分别为$4.00和$18.00[40] - 结合百万级token上下文窗口,支持文本、图像、视频、音频和代码的多模态信息整合学习[23] 市场表现与用户增长 - AI Overviews月活跃用户达20亿,Gemini应用月活突破6.5亿[52] - 超过70%的云客户以及1300万开发者正在使用其生成式模型[52] - 模型采用MoE架构,具有1M输入和64k token输出,训练基于TPU从头开始[38]