机器之心
搜索文档
布局控制+身份一致:浙大提出ContextGen,实现布局锚定多实例生成新SOTA
机器之心· 2025-12-20 04:45
多实例图像生成(MIG)领域的技术瓶颈 - 当前多实例图像生成领域面临核心挑战:难以同时实现对多个对象的**空间布局控制**和**身份特征的良好保持**[2] - 主流方法存在明显缺陷:依赖文本和布局引导的模型难以实现高度实例定制化,且存在实例遗漏、属性泄露问题;而主体驱动方法在主体数量增加时,会出现严重的身份混淆和细节丢失[2] ContextGen框架的核心创新 - 浙江大学ReLER团队发布**ContextGen**,这是一个基于Diffusion Transformer的新型框架,旨在通过上下文学习可靠完成图像引导的多实例生成任务[5] - 该框架提出全新**上下文生成范式**,通过整合布局图像和多张参考图像,将布局控制与身份保持的挑战转化为统一的上下文建模问题[6] - 框架采用**双重核心机制**:上下文布局锚定聚焦全局上下文引导以提供精确布局控制;实例上下文对齐聚焦细粒度身份注入以保障多个实例的身份一致性[7][8][10][12] - 框架采用**层次化的双重注意力策略**,让模型兼具宏观布局控制和精细实例级身份保持,并采用增强的位置索引策略系统区分多图像关系[12] 配套数据集与训练优化 - 团队推出**IMIG-100K数据集**,这是首个为图像引导多实例生成任务设计的大规模、具备不同难度层级、提供详细布局和身份标注的合成数据集[14] - 在训练中引入**基于偏好优化的强化学习阶段**,以解决监督微调导致的模型过度参考布局图像、缺乏多样性和灵活性的问题[17] 性能表现与基准测试 - 在LAMICBench++基准测试中,ContextGen超越所有开源模型,**平均得分提升+1.3%**,在身份一致性上比肩闭源商业巨头[21] - 具体数据:在Fewer Subjects场景下,模型平均得分66.78;在More Subjects场景下,平均得分63.21;总体平均得分64.66,与GPT-4o的63.71和Nano Banana的64.11相当[22] - 在COCO-MIG基准上,ContextGen在**实例级成功率提升+3.3%**,**空间准确性提升+5.9%**[25] - 具体数据:在COCO-MIG上,实例级成功率65.12,空间准确性69.72;在LayoutSAM-Eval中,颜色正确率87.44,材质正确率89.26,形状正确率88.36[26] 应用与未来展望 - 团队提供了简单易用的**前端交互界面**,支持用户上传参考图像、以文本添加素材、通过拖拽设计布局来生成多实例图像[32] - 未来计划进一步优化模型架构以提升生成效率,并探索更多样化的用户交互方式以满足更广泛的应用需求[36]
玩到崩溃,《青椒模拟器》游戏爆火,我在AI世界一路升级做院士
机器之心· 2025-12-20 04:45
游戏概述与市场反响 - 一款名为《青椒模拟器》的小游戏近期突然走红,其玩法高度模拟高校青年教师(“青椒”)的职业生涯,游戏时间以学年为单位推进[2] - 游戏因玩家涌入速度过快,一度导致服务器被挤到无法登录,随后问题解决并重新上线[5] - 该游戏是开发者在业余时间完成的作品,开发团队使用了Gemini 3 Pro模型作为辅助,并得到了Kimi的支持,同时免费使用了Xiaomi MiMo的API[7][8] 游戏玩法与核心机制 - 玩家初始身份为职称未定、资源有限的讲师,需要通过招募团队成员、申请项目、处理学生事务等一系列选择来影响最终评级[2] - 游戏进程中有各种校务通知和日常事务需要玩家处理,每个决定都会影响后续发展[2][33] - 游戏结局多样:有人6年考核期未通过而离开,有人成功晋升为副教授、特聘教授、院士,甚至有人获得诺贝尔奖[3] - 玩家需要管理多项核心指标,包括心态、学术能力、行政能力、学术不端嫌疑、经费和声望等[32] - 项目申请是游戏关键环节,例如申请国社科或企业横向课题,但存在失败可能[31][32] 玩家体验与社区反馈 - 有生物背景的玩家认为游戏高度还原了现实中的科研日常,从选题立项到评职称的每一步都“代入感拉满”[10][11] - 玩家分享了极具戏剧性的成功路径:27岁入职,第一年拿下120万国自然和20万横向经费,最终在51岁时获得诺贝尔奖[15] - 也存在大量挑战性体验,例如有玩家玩了十次仍未成功,即使6年产出30篇论文也因未满足“100声望”等隐藏条件而失败[18] - 玩家社区已总结出“重生院士建议”等经验攻略,例如建议多招学生、适度关怀、抓紧机会用离谱点子发论文等[18] - 有体验者表示多次尝试均被游戏建议提前退休,未能达到院士级别[19][21] 游戏界面与沉浸感设计 - 游戏登录后,玩家会被随机分配一个姓名(如“田颖老师”),并需选择学科和院系[22][23] - 游戏界面直接模拟高校官网的个人主页模式,包含证件照、个人简介、研究方向、招生要求等,营造出强烈的熟悉感与沉浸感[25][26] - 游戏内包含详细的科研管理界面,可实时查看团队状态、论文数量、出师门生以及各项资源指标[32]
从「金砖理论」到「The Messy Inbox」,a16z 合伙人如何看待 AI 时代的护城河?
机器之心· 2025-12-20 02:30
软件属性从“辅助工具”向“数字劳动力”的范式转移 - 本轮技术周期的核心是软件商业属性正经历从“辅助工具”向“执行主体”的范式转移 [4] - 过去软件是依附于人类员工的辅助工具,其价值必须通过人的操作才能释放,人是业务流程的绝对核心 [4] - 在人工智能时代,软件本身性质发生质变,进化为能够独立执行任务的数字劳动力,可以替代人类完成端到端的劳动环节 [3][7] - 例如,软件可以直接与客户进行多语言通话催收,或自动完成法律文书的起草,而不再像传统CRM或Excel那样依赖人工输入 [6] 商业价值对标与市场空间的重构 - 软件作为工具时,企业的采购决策基于有限的IT维护预算,这部分预算占比小且增长乏力 [7] - 当软件被定义为数字劳动力时,其商业对标对象转变为高昂的人力薪酬成本,直接与企业运营支出竞价 [8] - 这种逻辑激活了大量过去因流程刚性、碎片化且依赖人工判断而缺乏软件化价值的边缘领域 [9] - 例如法律索赔处理或牙科诊所前台等场景,在AI时代因人力替代价值而成为利润丰厚的核心市场 [10][11] - 数字劳动力能够以极低的边际成本接管这些劳动密集型的刚性流程任务 [11] 定价模式的根本性变革:寻找“Goldilocks Zone” - 传统的按席位订阅(SaaS)模式对数字劳动力已失效,因为其核心价值在于通过自动化减少对人类员工的需求 [12][13] - 若沿用旧模式,产品越成功,客户所需席位越少,软件公司收入反而会萎缩 [14] - 创业者需采用“Goldilocks Zone”定价策略,在软件成本与人力成本之间寻找最优套利空间 [15] - 定价平衡点必须显著低于雇佣真人的综合成本,以巨大的降本优势驱动购买决策 [16] - 同时,定价又要远高于传统工具软件的订阅费用,以匹配其交付的实际劳动成果 [17] 竞争格局变化与创业公司的突围策略 - AI技术已成为巨头共识,过往依靠在位者认知偏差获取的时间窗口红利期已经过去 [18] - 初创企业需运用“金砖理论”,寻找巨头因机会成本而战略性放弃的“结构性缝隙”以突围 [1][18] - 真正的护城河需建立在对特定行业上下文的深度掌控之上,而非短期的模型差异化红利 [1] - 创业者应将核心壁垒从同质化的底层模型能力,转移至对特定行业“上下文”的深度理解与工作流嵌入 [18]
大模型「越想越错」?人大&腾讯团队用信息论揭示:什么时候该想、什么时候别想
机器之心· 2025-12-19 06:38
研究背景与核心问题 - 当前大模型的“推理能力”成为行业热点,o1、R1、QwQ等强化学习推理模型展现出强大的多步推理能力[2] - 但现有模型存在“过度思考”问题,推理链条冗长,有时甚至“越想越错”,导致效率低下并可能引入噪声[3][4] 研究视角与核心发现 - 研究团队从信息论视角切入,使用“熵”与“互信息”等底层指标重新衡量模型思考的价值[5][6] - 研究发现,过长的推理链在技术层面会像在噪声信道中添加冗余比特,超过模型“推理容量”后会导致错误积累[19] - 在语义层面,随着推理链延长,单步推理带来的信息增益迅速递减,冗余步骤更多是在制造噪声[19] - 在实践层面,更长的推理链并不总带来更好结果,反而导致边际收益下降、token消耗增加、延迟和算力开销增大[19] - 在GSM8K数据集上的实验表明,错误答案往往伴随更长的推理链和更高的信息偏差(InfoBias)[20] 提出的解决方案:Adaptive Think - 研究团队提出了Adaptive Think机制,其核心理念是通过熵来衡量模型推理过程中的不确定性,并在模型达到足够置信度时主动终止推理[7][28] - 该机制无需训练,可直接在现有模型上部署[8] - 其工作方式是让模型进行“自我监控式推理”,每完成一步推理后计算答案分布的平均熵,当熵低于预设阈值α时即停止推理并输出答案[29] - 该策略使模型能根据任务难度灵活调整思考深度,实现“有必要才深思,无必要就直答”[27][34] 实验验证与性能表现 - 在8个大模型(5个非推理模型和3个推理模型)和6个不同推理类型的基准测试上进行了评估[33] - 在数学任务GSM8K与AIME2025上,Adaptive Think在保持准确率的同时,将平均Token消耗减少了一半以上(40.01%-68.25%)[33] - 例如,在QwQ-32B模型上,相比传统的Vanilla Think模式,Adaptive Think在AIME2025上将Token使用量减少了68.25%,而准确率还提高了0.93%[33] - 在知识、逻辑、常识等任务上,Adaptive Think同样表现优异,在MMLU-Pro、CommonsenseQA、ProntoQA、MuSR等多个数据集上,QwQ-32B的平均准确率提升1.23%,平均token减少42.52%[35] - 在依赖常识直觉的CommonsenseQA任务上,DeepSeek-R1-32B模型采用Adaptive Think后,准确率几乎不变,但Token消耗减少了超过80%[36] 对不同任务推理需求的分析 - 分析揭示了不同任务对推理深度的不同需求:数学题(如AIME2025)需要更深的推理链;常识题(如CQA)模型几乎一开始就知道正确答案;多步软推理(如MuSR)的有效推理集中在前半段[42] - 这意味着真正成熟的推理大模型,应能“自动匹配任务难度”,而非输出固定长度的推理[44] 研究意义与行业启示 - 该研究提出了一个重要理念:AI推理的未来不在“更长”,而在“更聪明”[45] - 未来的大模型应该:1)在需要深度逻辑时能推理得足够严谨;2)在只需直觉判断时不浪费token;3)能动态适应任务难度;4)在推理过程中实时自我评估,随时刹车[45] - 如果说强化学习让模型学会了“怎么想”,那么Adaptive Think让模型学会了“想多久”,这是推理大模型走向成熟的关键一步[47] - 这项工作既解释了“为什么模型会过度推理”,也提供了“如何简单有效地解决”的方案[46]
Mamba作者团队提出SonicMoE:一个Token舍入,让MoE训练速度提升近2倍
机器之心· 2025-12-19 06:38
混合专家模型架构发展趋势 - 混合专家模型已成为实现语言模型规模化扩展的事实标准架构,其核心优势在于不显著增加计算成本[1] - 近期MoE模型呈现出高专家粒度和高稀疏性的明显趋势,即采用更小的专家中间层维度和在专家总数增加时保持激活专家数不变,这提升了单位FLOPs的模型质量[1] - 这一趋势在近期开源模型中表现突出,例如DeepSeek V3、Kimi K2以及Qwen3 MoE等,它们通过更细粒度设计和更高稀疏度,在保持激活参数量不变的同时大幅增加了总参数量[1] 代表性MoE模型参数对比 - 模型参数规模与稀疏度持续提升,例如Kimi K2总参数量达1.04万亿,专家激活比例仅为2.08%[2] - 专家粒度指标持续提高,例如Owen3-Next-80B-A3B-Instruct的专家粒度达到4.00[2] - 近期模型如DeepSeek-V3.2-Exp总参数量达6850亿,专家激活比例保持在3.13%[2] 细粒度MoE架构的硬件效率挑战 - 细粒度MoE设计导致严重的硬件效率下降问题,包括内存墙瓶颈、IO瓶颈和计算浪费[3] - 激活内存占用量随激活专家数量线性增长,导致前向和反向传播中内存压力剧增[4] - 由于专家更小更分散,算术强度显著降低,IO访问变得动态频繁,模型训练进入内存受限区间[4] - 高稀疏性场景下,Grouped GEMM内核中的Tile量化效应导致输入数据需填充以对齐硬件Tile大小,直接造成计算资源浪费[4] SonicMoE系统性解决方案 - 普林斯顿大学团队提出名为SonicMoE的系统性解决方案,专为NVIDIA Hopper和Blackwell架构GPU定制[3] - 核心贡献包括内存高效算法、计算与IO重叠技术以及Token舍入路由策略[3] - 在细粒度7B MoE模型测试中,前向传播相比高度优化的DeepGEMM基线速度提升43%[3] - 反向传播相比最先进的ScatterMoE和MoMoE基线,速度分别提升83%和115%[3] - 端到端训练仅依靠内核优化即可将训练吞吐量提升50%,配合Token舍入路由在扩展专家数量时可进一步获得16%的额外吞吐量提升[3] SonicMoE关键技术细节 - 内存高效算法通过重新设计MoE计算图,在计算路由梯度时不缓存激活值,对于细粒度7B MoE模型每层激活内存占用减少45%[4] - 随着专家粒度增加,其内存占用保持恒定,效率比现有基线高出0.20-1.59倍[4] - 利用Hopper架构GPU的WGMMA指令与生产者-消费者异步范式,设计新型GPU内核,将GEMM计算与从HBM加载数据的IO操作并行执行[4] - Token舍入策略将分发给每个专家的Token数量四舍五入为Grouped GEMM Tile大小的倍数,有效减少因填充导致的算力浪费[4] SonicMoE性能表现 - 仅使用64台H100运行SonicMoE,实现了每日2130亿token的训练吞吐量,与使用96台H100运行ScatterMoE的效率相媲美[6] - 在高稀疏性场景下,Tile感知的Token舍入算法在验证不损失下游任务精度的同时,显著提升了内核执行速度[6] - SonicMoE的前向计算吞吐量平均达到理论上限的88%,最高91%,最低86%[7] - 尽管采用高度模块化设计,SonicMoE仍展现出业界领先的训练吞吐量和最低的激活内存使用量[15] SonicMoE系统架构特点 - SonicMoE中的MoE计算启动8个内核,包括前向传播的up-proj、down-proj和专家聚合内核,以及反向传播的激活梯度内核[11] - 系统提供高效的基于Tensor Core的top-K路由,以及与任意路由逻辑兼容的接口[13] - 实现具有高度模块化特性,仅由经过优化的分组GEMM内核和专家聚合内核两部分组成[14][22] - 通过融合减少IO访问,将IO延迟与计算重叠,利用cp.async指令从HBM gather激活值[23] Token舍入路由算法 - 为消除稀疏MoE训练中因填充产生的GEMM tile计算浪费,提出路由方法token rounding[21] - 算法首先计算基础的TC路由结果,对每个expert对应的token按路由分数排序,在第二步排序中选择丢弃或补齐token[24] - 对路由权重矩阵进行处理,使得TC选中的token始终优先于EC token,确保丢弃或填充只影响每个expert的最后一个输入tile[25] - 实验表明该方法在实现更高训练吞吐量的同时,不会影响模型质量[26]
拆解CANN:当华为决定打开算力的「黑盒」
机器之心· 2025-12-19 06:38
文章核心观点 - 华为昇腾将其底层AI基础软件CANN全面开源开放,旨在通过降低AI算力开发门槛、提供灵活的开发工具和构建开放生态,挑战现有计算架构格局,并推动一个独立于CUDA的AI算力生态快速成长 [2][31] CANN开源的核心价值与目标 - CANN作为连接上层AI框架与底层AI芯片的桥梁,其开源使开发者无需关心芯片细节即可调用底层算力,获得了定义算力的权力 [2] - 开源旨在构建“算力多元世界”,不仅仅是替代,更是邀请开发者共同构建新生态 [31] - 一个不同于CUDA路径的AI算力生态正在基于CANN快速成长 [31] 降低开发门槛:实现“AI算子开发自由” - CANN支持与PyTorch、TensorFlow、MindSpore、PaddlePaddle等主流AI框架无缝对接,并开放GE图开发接口,允许自定义图结构 [5] - 大模型支持覆盖广泛,包括Llama、Mistral、Phi等海外模型及Qwen、DeepSeek、GLM等国产模型,总计超过50种,并参与了超过10个大模型开源社区的生态构建 [6] - 为不同背景开发者提供三条算子开发路径 [7] - **路径一(Triton生态)**:实现与Triton深度对接,支持Python语法编写算子,原有Triton代码可低成本迁移至昇腾NPU [9] - **路径二(Ascend C)**:提供采用C/C++语法风格的原生编程语言,开放底层资源管理接口,允许原子级控制以追求极致性能 [10] - **路径三(模板库)**:提供基于Ascend C的CATLASS算子模板库,通过参数配置快速生成矩阵乘等算子,无需重写复杂逻辑 [11][13] - 针对MoE模型推出MLAPO融合算子,将多算子计算融合为单个高效算子,在DeepSeekV3模型量化场景下,能将计算耗时从109us缩减至45us,带来整网性能提升20% [13][15] - 已在AtomGit开放多个核心仓库,并发布官方容器镜像,提供开箱即用的开发环境 [16] - 已预置超过1400个基础算子、100多个融合算子及15个通信算法,提供“开箱即用”能力 [16] 架构创新:分层解耦带来的灵活性 - CANN的核心创新在于宏观架构上的“分层解耦”,将软件栈拆解为多个功能正交、独立演进的组件 [19][22] - 分层解耦贯穿全栈,从底层驱动到上层编译器、加速库,实现物理松耦合,允许按需引入或升级特定组件,降低系统集成和定制门槛 [22][23] - 具体变化体现在: - **加速库组件化**:算子库被精细拆分为ops-math、ops-nn、ops-cv、ops-transformer等独立组件,改变了过去“全量算子一个包”的发布方式 [24] - **通信库与图引擎独立**:HCCL通信库开放通信算子和框架层,支持自定义通信算法;GE图引擎开放图编译和执行接口,支持自定义图融合策略 [26] - **运行时极简化**:Runtime层剥离冗余模块,实现核心功能最小化,并开放aclGraph接口支持图模式下沉,减少Host与Device间交互开销 [27][28] - 架构解耦后,CANN共有20余个安装包,支持各功能独立演进和编译升级,使开发者能在模型、算子、内核、底层资源等多层级分别进行优化 [29] 开源进展与社区现状 - CANN的全面开源开放正在加速推进,其在AtomGit的代码库非常活跃,几乎每天都有新动态 [33] - 截至目前,CANN项目下已有27个子项目,总star数超过3700,总下载量突破35万 [35] - 开源版图持续扩大,例如核心组件GE(图引擎)以及新型编程范式PyPTO框架等正在建设中 [35] - 开源组件覆盖算子库、通信库、图引擎、编程语言和运行时等多个关键领域 [36]
T5Gemma模型再更新,谷歌还在坚持编码器-解码器架构
机器之心· 2025-12-19 03:42
文章核心观点 - 谷歌在密集发布模型后,于年底推出了意料之外的T5Gemma 2模型,这是新一代编码器-解码器架构模型,旨在打破该架构被边缘化的现状,并展示了其在多模态、长上下文等任务上的独特优势 [1][3][30][31] 模型发布与定位 - T5Gemma 2是谷歌新一代编码器-解码器模型,也是首个多模态和长上下文的编码器-解码器模型,建立在Gemma 3的强大功能之上 [9] - 谷歌向社区发布了270M–270M、1B–1B以及4B–4B三种规模的预训练模型,是社区中首个支持超长上下文(最高128K token)的高性能编解码器大语言模型 [9] - 谷歌是为数不多仍在坚持编码器-解码器架构大模型的玩家,此次更新是建立在今年上半年发布的、反响热烈的开放模型Gemma 3系列之上 [7] 技术架构与创新 - T5Gemma 2延续了“适应”训练路线,将一个预训练的纯解码器模型适配为编解码器模型,同时底座采用Gemma 3模型,并将技术扩展到了视觉-语言模型领域 [5][13] - 模型进行了重要的架构创新:1) 在编码器与解码器之间共享词嵌入参数,以降低参数量;2) 在解码器中采用合并注意力机制,将自注意力与交叉注意力融合,以减少参数和复杂度,提升并行化与推理效率 [15][16] 核心能力升级 - **多模态能力**:通过引入高效的视觉编码器,模型能够同时理解和处理图像与文本,完成视觉问答和多模态推理等任务 [11][17] - **超长上下文**:借助Gemma 3的局部—全局交替注意力机制,T5Gemma 2能够支持最长达128K token的上下文输入 [11][18] - **大规模多语言支持**:通过在更大、更多样化的数据集上训练,模型开箱即用即可支持140多种语言 [11][19] - **效率提升**:通过上述架构创新,实现了效率提升 [11] 性能表现 - **强大的多模态性能**:在多个基准测试中超越Gemma 3,成功将原本仅支持文本的Gemma 3基础模型(270M与1B)适配为高效的多模态编解码器模型 [25] - **卓越的长上下文能力**:相较于Gemma 3和T5Gemma,在生成质量上取得显著提升,处理长上下文问题表现更佳 [25] - **全面提升的通用能力**:在代码、推理和多语言等任务上,T5Gemma 2整体上均优于其对应规模的Gemma 3模型 [25] - 实验表明,该适配策略在不同模型架构与模态上具有良好的通用性,验证了编解码器架构在长上下文建模方面的独特优势 [29] - 在预训练阶段的性能可达到或超过其Gemma 3对应模型,而在后训练阶段则取得了显著更优的表现 [29] - 详细性能表格数据显示,T5Gemma 2在不同参数规模(270M-270M, 1B-1B, 4B-4B)下,于多项基准测试(如MMLU、GSM8K、代码任务、多语言、多模态、长上下文任务)中,普遍优于或接近对应的Gemma 3及T5Gemma模型 [27][28]
基于真实数据和物理仿真,国防科大开源具身在线装箱基准RoboBPP
机器之心· 2025-12-19 03:42
行业痛点与现有研究局限 - 三维装箱问题(3D-BPP)的**物理可行性**与**具身可执行性**是决定算法能否真正落地的关键,现有研究缺乏统一的公平、系统化评估基准[2] - 多数现有研究将3D-BPP视为纯数学优化问题,仅关注空间利用率等紧凑度指标,而忽略了重力、摩擦、碰撞等关键物理因素,导致算法在现实部署中可能失效[2] - 许多研究依赖与工业分布不一致的合成数据集,系统性低估了算法在具身执行层面的难度,结论缺乏现实可信度[2] RoboBPP基准系统概述 - 由国防科大、中科院工业人工智能研究所、武汉大学与深圳大学联合推出,是首个结合**真实工业数据、物理仿真与具身执行建模**的机器人在线装箱综合基准系统[3] - 内置基于物理的高逼真仿真器,引入真实尺度的箱体与工业机械臂,完整复现工业装箱流程,以评估算法的物理可行性与具身可执行性[3] - 系统完全开源,配备可视化工具和在线排行榜,为研究与工业应用提供了可复现、可扩展的具身评估基础[31] 基准系统核心构成 - **仿真环境**:一个高度逼真的、基于物理的仿真环境(基于PyBullet),用于评估在线装箱的物理可行性与具身可执行性,已作为Python包`packsim`开源[11][12][13] - **数据集**:包含三个来自真实工业流程的大规模多样化数据集:箱体尺寸高度重复的`Repetitive Dataset`、尺寸多样波动的`Diverse Dataset`以及形状不规则/细长的`Wood Board Dataset`[11][15] - **测试设置**:设计了三种逐级递进的测试设置:纯几何放置的`Math Pack`、引入重力碰撞的`Physics Pack`以及结合机械臂完整操作的`Execution Pack`[11][17][18] - **评估体系**:设计了多维度评估指标及归一化评分体系,可计算加权综合得分,指标包括空间利用率、占用率、决策时间、局部/静态稳定性、轨迹长度、坍塌放置率及危险操作率等[11][21][22] 实验评估与算法表现 - 团队复现了多种代表性算法,在三种测试设置和三个数据集下进行了统一评测,并通过评分系统计算了每个算法的综合得分[24] - 在高度重复的流水线生产环境中,明确建模空间与几何关系的强化学习算法(如**PCT**和**TAP-Net++**)表现突出[25] - 在物品尺寸高度多样化的物流场景中,基于Transformer的强化学习策略(如**PCT**和**AR2L**)更为有效[32] - 在以细长家具件为主的场景中,强化学习算法与几何驱动的启发式方法(如**TAP-Net++**与**DBL**)均展现出良好适用性[32] 算法性能的深入洞察 - 当算法更关注紧凑且高效的空间利用(如**HM**和**PackE**),而非单纯追求放入更多箱体时,往往能获得更高的占用率[28] - 当算法的放置策略优先选择可行、低风险的位置并形成平整堆叠时(如**AR2L**和**PackE**),其机械臂末端执行器的平均轨迹长度通常更短[33] - 当算法在放置策略中显式或隐式地优先考虑稳定性和物理可行性时(如**TAP-Net++**与**DBL**),其坍塌放置率往往更低[33] - 对单指标(如占用率、轨迹长度、坍塌放置率)的分析可以揭示整体评分中无法体现的性能特征,为实际任务中的算法选择提供指导[26]
亚马逊AGI负责人离职,强化学习大佬Pieter Abbeel接任
机器之心· 2025-12-19 00:21
亚马逊AGI团队高层人事变动 - 亚马逊AGI团队高级副总裁兼首席科学家Rohit Prasad已官宣离职,其于2013年加入公司,曾参与打造Alexa并领导Nova基础模型开发[1][3] - 亚马逊CEO Andy Jassy在公告中认可Rohit Prasad的贡献,指出其推动Alexa成长为一项每天触达数亿用户生活的服务,并领导创建了Amazon Nova及AGI组织,打造了12个业界领先的基础模型,已被数以万计的企业采用[4] - 随着Prasad离职,亚马逊宣布将AI研发职权进一步向云计算部门集中,成立由AWS实用计算高级副总裁Peter DeSantis统一领导的新组织,直接向Jassy汇报[5] 新任领导层与组织架构调整 - Peter DeSantis于1998年加入亚马逊,曾负责革命性的EC2服务及AWS基础设施,其领导的新部门职能涵盖AGI与AI模型研究、自研芯片计划及量子计算[5][6][10] - 顶尖学者Pieter Abbeel将接手前沿AI模型研究团队的领导工作,其是加州大学伯克利分校教授,学术引用量高达23.1万次,也是机器人公司Covariant的联合创始人[7][8][12][15] - Pieter Abbeel领导的伯克利人工智能研究实验室诞生了至少12位知名AI初创公司创始人,其培养的学生已成为AI界的重要力量[16] 亚马逊的AI战略与行业竞争 - 亚马逊一直在努力打破其在AI产品研发方面掉队的印象,为在与OpenAI、谷歌和Anthropic的竞争中加速追赶,推出了自有的基础模型系列Nova[5] - 亚马逊同时研发了自家的Trainium定制AI芯片,直接与英伟达展开竞争[5] - Prasad的离职是AWS近期人事震荡的延续,过去一年中,AI副总裁Matt Wood与生成式AI副总裁Vasi Philomin等资深管理层相继离开[6] 人才流动与公司观点 - 为应对人才缺口,亚马逊积极吸纳新鲜血液,包括前微软高管Julia White出任首席营销官,以及David Richardson、Joe Hellerstein和Chet Kapoor等技术专家入职[6] - AWS首席执行官Matt Garman反对用AI替代初级员工,认为这是最愚蠢的想法之一,并指出2025年调查显示超过55%的初级开发者在日常工作中使用AI,比例远超资深同行[19][20] - Garman强调AI最终创造的职位将多于其取代的职位,拥有扎实核心基础知识的新鲜人才对于填补未来高价值角色至关重要[19]
OpenAI最强代码模型GPT-5.2-Codex上线
机器之心· 2025-12-19 00:21
产品发布与核心能力 - OpenAI发布了迄今为止最先进的智能体编码模型GPT-5.2-Codex,专为复杂的实际软件工程而设计 [1] - 新模型是GPT-5.2的升级版本,提高了指令遵循能力和对长远语境的理解能力,并针对智能体编码进行了进一步优化 [3] - 该模型在重构和迁移等大型代码变更中表现更佳,在Windows环境下性能更优,同时网络安全能力显著增强 [3] - 与GPT-5.2相比,GPT-5.2-Codex在编码任务的词元效率方面有显著提升,尤其是在中等和高推理水平下 [3] - 新模型融合了GPT-5.2在专业知识处理方面的优势以及GPT-5.1-Codex-Max在智能体编码和终端使用方面的前沿能力 [7] - 在长上下文理解、可靠的工具调用、事实准确性和原生压缩方面表现更佳,使其成为长时间编码任务更可靠的伙伴 [7] 性能表现与基准测试 - GPT-5.2-Codex在SWE-Bench Pro和Terminal-Bench 2.0基准测试中取得了最先进的性能(SOTA)[8] - SWE-Bench Pro要求AI生成补丁来解决实际的软件工程任务 [10] - Terminal-Bench 2.0用于在真实终端环境中测试AI智能体,任务包括编译代码、训练模型和搭建服务器 [10] - 模型能够更高效地处理大型代码库,即使在长时间会话中也能保持完整的上下文信息 [8] - 能够更可靠地完成复杂的任务,例如大型重构、代码迁移和功能构建,即使计划有变或尝试失败,也能持续迭代而不丢失进度 [8] - 更强大的视觉性能使其能够更准确地解释编码过程中共享的屏幕截图、技术图表、图表和UI界面 [11] - 可以快速将设计稿转化为功能原型,开发者可以配合使用这些原型进行生产 [12] 网络安全能力与应用案例 - GPT-5.2-Codex的网络安全能力比OpenAI迄今为止发布的任何模型都更强大 [6] - 从GPT-5-Codex开始,能力出现显著提升;GPT-5.1-Codex-Max实现大幅提升;而GPT-5.2-Codex则带来了第三次飞跃 [17] - OpenAI正在按照每个新模型都能达到“高”网络安全能力水平的标准进行规划和评估 [18] - 一位安全研究人员使用GPT-5.1-Codex-Max和Codex CLI发现并负责任地披露了React中存在一个可能导致源代码泄露的漏洞 [6] - 在尝试重现另一个React漏洞(React2Shell)时,Codex发现了一些意料之外的行为,并在短短一周内发现了之前未知的漏洞 [22] - 这表明先进的人工智能系统能够显著加快实际软件的防御安全工作 [25] 市场定位与开发者反馈 - 新模型已迅速成为Codex团队成员的日常主力工具 [3] - 在开发者社区,人们认为Codex/GPT5.x在仔细、系统地查找“问题”(无论是代码问题还是数学问题)方面是无可匹敌的 [3] - 已经有很多人开始认同使用Claude Code写代码,同时用Codex来做代码审查,让后者分析流程和发现细微bug的工作方式 [6] - 有开发者表示Codex能帮助克服拖延症,面对艰巨任务时,它几乎总能提供一个不错的起点,让开发者快速迭代改进 [6] - 新模型终于具备了推动优秀设计的空间推理能力 [4] 产品部署与访问计划 - GPT-5.2-Codex已面向付费ChatGPT用户在所有Codex平台上开放 [7] - OpenAI计划在未来几周内向API用户开放GPT-5.2-Codex的访问权限 [7] - 公司正在试点仅限受邀用户访问即将推出的功能 [7] - 为经过审核的专业人士和专注于防御性网络安全工作的组织提供更宽松的访问权限模式 [7]