机器之心
搜索文档
WAIC Future Tech 2026:全球科技曝光+合作,资本的下一个掘金点
机器之心· 2025-12-17 05:28
活动概况 - 活动名称为“Future Tech Demo Day”,由世界人工智能大学与光源产业创新孵化器联合举办 [1][2] - 活动将于2025年12月20日13:00在北京清华科技园阳光厅举行 [5] - 活动议程包括创投生态共建计划发布、神秘嘉宾圆桌讨论以及项目路演环节 [2] 参与项目与团队 - 活动将集中展示14个经过初步筛选的创业项目Demo [3] - 参与团队主要集中于AI应用、基础设施、硬件及前沿科技领域 [4] - 项目融资阶段多为种子轮到A轮 [4] 展示项目详情 - **项目1 (及云智句)**:专注于利用AI助力全球优质矿产资源的加速发现 [7] - **项目2 (嫡海领航)**:聚焦AI在大型企业的价值落地,提供从数据驱动到决策驱动的范式和解决方案 [8] - **项目3 (芯寒智能)**:提供名为“液冷革命”的散热解决方案,以迎接高密度计算时代 [8] - **项目4 (萝博派对)**:致力于让每个开发者都能玩转机器人 [8] - **项目5 (光象科技)**:展示工业具身智能机器人 [8] - **项目6 (LOGOS ROBOTICS)**:研究基于世界模型的具身智能 [8] - **项目7 (光速进化)**:开发AI智能管家 [8] - **项目8 (悟灵科技)**:推出“悟灵影像”产品,旨在让人人都能珍藏时光,卸下专业枷锁 [8] - **项目9 (JINN.AI)**:打造面向GEN Z世代的游戏AI数字空间 [8] - **项目10 (KOSMO)**:开发由东方哲学AI驱动的择吉硬件矩阵 [8] - **项目11 (无限ID)**:旨在打造继电影和游戏之后的新一代文娱产业 [8] - **项目12 (未在文中明确列出项目名称)** [8] - **项目13 (酷奇奇)**:打造“万物皆可CP的AI小剧场” [9] - **项目14 (快约面试)**:通过KYMS AI实现从人找人到智能体交付招聘结果 [9]
经验记忆黑科技:LightSearcher让AI工具调用减39.6%、推理快48.6%
机器之心· 2025-12-17 05:28
深度思考大模型面临的效率困境 - 以DeepSeek-R1为代表的深度思考大模型依赖DeepSearch作为核心搜索器,通过迭代调用外部搜索工具来提升推理深度和事实可靠性[2] - 现有强化学习驱动的系统面临准确率与效率的“跷跷板”困境:频繁调用搜索工具虽能提升准确性,但导致计算开销大、效率低下[2] - 高频调用外部搜索工具使推理延迟大幅升高,等待时间可达几十秒至几分钟,超过50%的移动用户会在信息加载时间超过10秒后放弃访问[2] LightSearcher框架的技术创新 - 北邮百家AI团队提出LightSearcher框架,首创基于经验记忆的高效强化学习优化技术,通过引入文本化经验记忆和自适应奖励塑造机制解决效率痛点[3] - 框架核心思路是将隐性推理轨迹转化为显性指导经验,并结合自适应奖励优化工具调用,包含对比经验推理机制、自适应奖励塑造机制和基于经验的强化学习训练机制三大关键组件[9][14] - 模型最终优化目标为多目标奖励函数的加权和,旨在协同提升工具调用精简度与答案质量[11] LightSearcher的实验性能表现 - 研究团队在四个多跳问答基准数据集上进行了全面评估,实验结果显示该框架在保持与最先进基线ReSearch相当准确率的同时,效率显著提升[3][13] - 具体性能提升包括:搜索工具调用次数减少39.6%,推理时间缩短48.6%,Token消耗降低21.2%[3][18] - 消融实验表明,移除经验记忆组件导致F1分数下降7.2%,证明了该组件的核心作用[16] 框架解决的问题与优势 - 解决了现有方法依赖人工标注成本高、泛化差,以及强化学习方法奖励偏重准确性导致工具过度调用的问题[7] - 克服了工具调用“过度依赖”问题,避免了模型对简单查询也反复检索导致的推理时间延长和Token消耗激增[7] - 成功平衡了准确性与效率,部分模型变体在移除自适应奖励后,工具调用次数从1.62次升至2.06次,显示该机制对控制调用频率的关键作用[17] 技术影响与未来潜力 - LightSearcher通过“对比经验”设计思想,将对比轨迹转化为可解释的推理指导,实现了从隐性到显性的知识转化[19] - 该框架在不同难度的查询上均表现稳定,即使在域外测试集也能超越依赖固定检索的迭代方法,显示出强大的泛化能力[18] - 尽管目前研究限于多跳问答领域,但该框架为构建高效、可靠的深度推理系统提供了新路径,未来可扩展到代码合成、策略规划等领域[17][20]
SIGGRAPH Asia 2025:摩尔线程赢图形顶会3DGS挑战赛大奖,自研LiteGS全面开源
机器之心· 2025-12-17 05:28
文章核心观点 - 摩尔线程在SIGGRAPH Asia 2025的3DGS重建挑战赛中凭借自研的LiteGS技术获得银奖,证明了其在下一代图形渲染技术上的算法实力和软硬件协同能力[1] - 3DGS是一项革命性的3D场景表示与渲染技术,相比传统NeRF,能在保持画质的同时将渲染效率提升数百至上千倍,并被视为具身智能等前沿领域的关键基础技术[4][7] - 摩尔线程通过开源其全栈优化的3DGS基础库LiteGS,旨在推动技术开放协作,其方案在训练效率和模型轻量化上树立了新的性能标杆[18][24][27] 3DGS技术概述与行业意义 - 3DGS以可参数化的3D高斯分布为核心,实现了画质、效率与资源占用的卓越平衡[4] - 该技术为具身智能等需要与真实环境交互的领域提供了高质量、低延迟的三维环境建模支撑,有助于提升路径规划和环境感知能力[7] - 因其对未来图形学技术路线的关键意义,3DGS已成为全球学术界与产业界竞相投入的研究方向[8] SIGGRAPH Asia 2025挑战赛详情 - 竞赛任务极具挑战性,要求参赛者在60秒内,基于存在误差的相机轨迹和终端SLAM点云,完成完整的3DGS高质量重建[10] - 主办方以PSNR(重建质量)与重建速度为综合评价指标进行权威排名[12] - 比赛结果及数据集已向全球公开[13] 摩尔线程参赛表现与技术方案 - 摩尔线程AI团队以“MT-AI”参赛,在重建精度与效率上取得均衡表现,最终获得银奖[16] - 具体比赛数据显示,其方案平均PSNR为27.58,重建耗时34秒,在效率上显著领先多数队伍[17][20] - 公司自主研发的LiteGS基础库实现了从底层GPU系统、中层数据管理到高层算法设计的全链路协同优化[20][21] LiteGS技术的核心优势与性能数据 - 在GPU系统层面,创新提出基于“One Warp Per Tile”原则的“Warp-Based Raster”新范式,大幅降低梯度计算开销[21] - 在数据管理层,引入“聚类-剔除-压缩”流水线,显著提升数据局部性,减少缓存失效[21] - 在算法设计层,采用像素不透明度梯度方差作为致密化判据,精准识别欠拟合区域[21] - 性能表现突出:在达到同等质量时,LiteGS可获得高达10.8倍的训练加速,且参数量减少一半以上[25] - 在相同参数量下,LiteGS的PSNR指标超出主流方案0.2–0.4 dB,训练时间缩短3.8至7倍[29] - 针对轻量化模型,LiteGS仅需原版3DGS约10%的训练时间与20%的参数量,即可实现同等质量[29] 公司的战略布局与后续行动 - 此次获奖是公司准确把握全球技术发展趋势并引领未来图形计算技术方向的战略体现[28] - 公司计划在2025年12月20日至21日的首届MUSA开发者大会上设立技术专题,深入探讨3DGS等图形智能技术如何赋能具身智能等前沿领域[28] - 摩尔线程已将LiteGS在GitHub平台全面开源,以推动三维重建与渲染技术的开放协作与持续演进[27]
VGGT4D:无需训练,挖掘3D基础模型潜力,实现4D动态场景重建
机器之心· 2025-12-17 02:05
研究背景与问题 - 以VGGT、DUSt3R为代表的3D基础模型在静态场景重建中表现出色,但在处理包含移动物体(如行人、车辆)的动态4D场景时,性能显著下降,动态物体的运动会干扰背景几何建模并导致严重的相机位姿漂移 [6] - 现有解决方案面临两类主要挑战:一是依赖繁重的测试时优化或需要在大规模4D数据集上进行微调,计算或训练成本高;二是通常需要引入光流、深度估计或语义分割等额外模块,增加了系统复杂性 [9] 核心洞察与原理 - 研究团队通过可视化分析VGGT的注意力机制,发现其不同网络层对动态区域表现出截然不同的响应模式:浅层网络倾向于捕捉语义上显著的动态物体,而深层网络则逐渐抑制几何不一致的区域 [8][9] - 这一发现表明,VGGT虽然是基于静态假设训练的,但其内部实际上已经隐式编码了丰富的动态线索 [12] - 然而,直接利用标准的注意力图效果不理想,因为它混合了纹理、语义和运动信息,导致信噪比低 [12] 方法论:VGGT4D框架 - VGGT4D是一种无需训练的框架,其核心贡献在于提出了一套无需训练的注意力特征挖掘与掩膜精修机制,深入特征流形内部,利用Gram矩阵和梯度流实现高精度的动静分离 [14] - 为解决标准注意力图中Query和Key向量来自异构投影头导致的特征分布间隙问题,VGGT4D引入了自相似性Gram矩阵来替代,通过在同构潜在分布内计算相似度,使运动引起的方差成为主导信号 [16][17] - 为解决注意力图分辨率不足导致的边界模糊问题,VGGT4D引入了投影梯度感知精修,利用几何投影残差关于3D坐标的梯度所包含的强边界信息,对动态掩膜进行亚像素级锐化 [19] - 在推理阶段,VGGT4D采用了分布内早期掩膜策略,仅在浅层抑制动态Token的Key向量,既切断了动态信息对深层几何推理的影响,又保证了深层Transformer Block在其预训练的特征流形上运行,从而保证了位姿估计的鲁棒性 [21] 实验验证:动态物体分割 - 在动态物体分割任务上,VGGT4D在DAVIS-2016和DAVIS-2017数据集上均达到了最优性能,即使没有经过任何4D特定的训练,仅基于预训练的VGGT模型即可取得优异结果 [24] - 具体数据:在DAVIS-2016数据集上,VGGT4D的JM指标为62.12,JR指标为76.80,FM指标为56.04,FR指标为67.49;在DAVIS-2017数据集上,JM为56.45,JR为65.62,FM为51.09,FR为56.85 [25] - 定性分析显示,VGGT4D生成的掩码比基线方法(如Easi3R、DAS3R、MonST3R)更加准确,边界更加清晰,验证了从VGGT的Gram相似度统计信息中可提取丰富运动线索的假设 [25] 实验验证:相机位姿估计 - 原始VGGT本身已是一个强大的基线,其相机位姿估计性能优于MonST3R、DAS3R等许多专门的4D重建方法,表明其预训练隐式地使其对动态物体具有一定的鲁棒性 [27] - VGGT4D在所有数据集上均持续改进了VGGT基线,例如在VKITTI数据集上,VGGT4D的ATE(绝对轨迹误差)为0.164,而MonST3R高达2.272 [27][28] - 在极具挑战性的长序列Point Odyssey基准测试中,VGGT4D在所有指标上均取得了最佳结果,同时保持了高度效率,而许多其他4D方法由于内存不足无法在500帧序列上运行 [28] - 具体数据:在Point Odyssey上,VGGT4D的ATE为0.019,RTE为0.009,RRE为0.290,均优于VGGT基线的0.022、0.015和0.344 [29] 实验验证:4D点云重建 - 在DyCheck数据集上的评估显示,VGGT4D在所有重建指标(准确度、完整度和距离)上均取得了最佳性能 [30] - 与VGGT基线相比,VGGT4D将中位准确度误差从0.009降低到0.004,平均距离从0.150降低到0.123,证明了该方法能实质性提升几何重建质量 [30][31] - 具体数据:VGGT4D的位姿估计ATE为0.010,准确度均值为0.022、中位数为0.004,完整度均值为0.051、中位数为0.012,距离均值为0.123、中位数为0.050 [31] 研究意义与结论 - VGGT4D提出了一种无需训练的新范式,成功将3D基础模型的能力扩展至4D动态场景 [33] - 该工作证明了通过合理挖掘模型内部的Gram相似度统计特性,可以有效解耦动态与静态信息,这不仅为低成本的4D重建提供了新思路,也展示了基础模型在零样本迁移任务中的潜力 [33]
上海创智学院菁智人才论坛 | 海内外顶尖青年人才召集令暨海优政策宣讲会
机器之心· 2025-12-17 02:05
上海创智学院概况 - 公司创建于2024年7月,是教育部与上海市部市合作探索高水平人才培养的重大创新举措 [10] - 公司是一所由顶尖大学、头部企业和科研机构联袂建设的新型人才培养机构 [10] - 公司坚持“以学生为中心、以前沿为牵引”的培养理念,致力于打造人工智能创新高地 [10] 人才招募目标与要求 - 论坛诚邀全球顶尖青年人才(Super MVP),要求具备高速认知迭代能力、批判性思维、高抱负、强执行力等特质 [3] - 目标人才包括:海内外顶尖高校人工智能相关专业的博士或即将毕业的博士 [6] - 目标人才包括:在顶尖高校获得正式教学或科研职位(含博士后)的优秀人才 [6] - 目标人才包括:在著名科研机构、头部企业研发机构、新创科技企业从事正式研发工作的青年人才 [6] - 研究方向涵盖认知智能、情境智能、具身智能、科学智能等人工智能前沿方向 [7][8] 论坛活动安排 - 举办时间预计为2025年12月26-27日及2026年1月下旬 [5] - 举办地点位于上海创智学院,形式为线上线下相结合 [5] 公司提供的资源与支持 - 提供超常规的计算资源支持、多学科优秀博士生共创、与顶尖高校导师合作及强大工程师团队支撑 [18] - 提供创新生态深度链接,包括产业合作伙伴的场景数据、产业导师以及创投资源的紧密链接 [18] - 提供扁平高效的组织协同,独立PI可与学生、其他导师、产业导师、工程师等共研共创 [18] - 提供超常规成长路径,包括协同开发基础设施、追求实际影响力的人才评价体系、鼓励高风险研究 [18] - 提供超常规人才保障,包括推荐到顶尖高校认定兼职博士生导师 [18] 公司提供的薪酬与福利保障 - 提供百万级起步的薪酬 [20] - 提供超常规的各级人才计划加持、租金优惠的精装居所 [20] - 提供上海顶级基础教育资源、医疗资源以及地处徐家汇的优越地理位置 [20] 公司研究方向与技术布局 - 研究方向包括面向情境智能、构建具身智能产业、语音基模、深度认知引擎、情景智能语音交互模型等 [16] - 关注教育大模型的核心价值、创造力激发、个性化培养、本体可重构具身智能、强化学习开源框架等 [16] - 致力于通过终端本征模型和Agent,打通端到端的智能闭环 [17] - 在化学反应研究领域,致力于打造革命的工具,实现工具的革命,构建分子级化学反应基座模型 [17] 报名与联系方式 - 邀请参会人才,学院保障论坛期间住宿,并在一定金额范围内报销国际、国内往返差旅费 [23] - 官方邮箱为 talenthub@sii.edu.cn,联系地址为上海市徐汇区华发路699弄3号 [23] - 学院官网为 https://www.sii.edu.cn/,领英官方主页为 https://www.linkedin.com/company/sii2024/ [23]
浙大联手字节:开源大规模指令跟随视频编辑数据集OpenVE-3M
机器之心· 2025-12-17 00:00
研究背景与动机 - 现有指令跟随视频编辑数据集存在规模小、编辑类型少、指令短、质量差四大问题,例如InsViE-1M、Senorita-2M、Ditto-1M仅有1-2M样本,且编辑种类有限[7] - 现有数据集的平均编辑指令长度过短,如InsViE-1M和Senorita-2M平均仅约4个单词,无法提供准确的编辑信息[8] - 通过大模型对现有数据集质量评估发现,部分数据集虽存在高质量样本,但低质量(1分)案例占比也高,导致平均质量得分偏低[9] - 目前行业缺乏大规模、高质量、多种类的指令跟随视频编辑数据集[9] OpenVE-3M数据集核心创新 - 提出了一个包含3百万(3M)样本对的大规模、高质量、多类别指令跟随视频编辑数据集OpenVE-3M[5] - 数据集分为空间对齐(6类)和非空间对齐(2类)两大类别,共8小类,覆盖了全局风格、背景更换、局部修改、局部移除、局部添加、字幕编辑、镜头多角度编辑和创意编辑[12] - 该数据集拥有最长的平均指令长度,达到40.6个单词,远高于其他数据集[8] - 数据集的视频编辑质量总平均分达到3.86分,为现有最高[12] - 构建了稳定的高质量、多类别数据构造管线,确保了编辑质量的多样性和高标准[5] OpenVE-3M数据集构建方法 - 构建流程分为三个阶段:视频预处理、基于分类法的视频编辑与指令生成、高质量视频编辑对过滤[18] - 在过滤阶段,设计了精细的数据过滤管道,包含指令遵循、一致性&细节保真度、视觉质量&稳定性三大评测指标,每项1-5分打分[26] - 以指令遵循指标为得分上限,确保编辑行为是首要评判标准[27] - 使用视觉语言模型(VLM)进行自动化打分过滤,最终选用Intern3.5-VL-38B模型,保留得分大于3分的样本[27] OpenVE-Edit模型创新与性能 - 提出了一个高效且有效的指令跟随视频编辑模型OpenVE-Edit,参数量仅为50亿(5B)[5] - 该模型在仅5B参数量下实现了当前最优性能(SoTA),超越了现有开源的140亿(14B)参数模型效果[5] - 模型创新点包括:引入多模态大模型来捕捉指令与视觉特征间的高维语义空间关系;设计了基于多任务感知的MoE-Connector模块以应对图像和视频的不同编辑类型;采用零初始化策略稳定训练[36] - 在OpenVE-Bench评测集上,OpenVE-Edit总体得分达到2.49,在5B参数量下超越了所有开源模型,接近闭源模型Runway Aleph(3.65分)的部分表现[34][37] OpenVE-Bench评测基准 - 提出了一个通用的、多类别且充满挑战的指令跟随视频编辑评测集OpenVE-Bench[5] - 该评测集包含8个类别共431条人工精心挑选的编辑对[31] - 为每个类别设计了指令一致性&细节保真度、视觉质量&稳定性三个关键评测提示,利用VLM进行自动化评分,并与人类评价高度对齐[31] 实验结果对比 - 定量对比了当前主流视频编辑开源模型(VACE、OmniVideo、InsViE、ICVE、Lucy-Edit、DITTO)和闭源模型(Runway Aleph)[33] - 闭源模型Runway Aleph在评测中表现最出色,总体得分3.65[37] - 开源模型中,参数量14B的VACE得分1.57,1.3B的OmniVideo得分1.31,5B的Lucy-Edit得分2.15,13B的ICVE得分2.07,14B的DITTO得分1.98[37] - OpenVE-Edit(5B)以2.49的总分超越了上述所有开源模型[37] - 定性对比显示,OpenVE-Edit在背景更换、局部修改等任务中,能更好地遵循指令并保持前景主体与背景的一致性,错误更少[38]
刚刚,OpenAI推出全新ChatGPT Images,奥特曼亮出腹肌搞宣传
机器之心· 2025-12-17 00:00
产品发布与营销策略 - OpenAI推出全新ChatGPT Images功能,由全新的旗舰图像生成模型驱动,旨在提供更精准的编辑和更快的生成速度[9][10] - 公司高管(包括CEO Sam Altman、首席研究官Mark Chen和总裁Greg Brockman)亲自发布并参与修改自己的照片,以极具话题性的方式为新产品造势,成功吸引了大量关注[3][6][8] - 此次营销策略的信号清晰:公司正极力降低用户使用AI图像生成的心理门槛,试图将其从需要专业提示词调试的技能转变为简单的日常交互[44] 核心产品特性与改进 - 新模型的核心特性是**精准编辑并保留关键细节**,能更可靠地遵循用户意图,仅改变要求的部分,同时保持光影、构图和人物外观等元素的一致性[10] - 图像生成速度相比之前版本**提升了4倍**[10] - 模型具备强大的编辑功能,包括添加、删减、组合、融合和置换[12] - 模型具备创意转换功能,可以改变和添加元素(如文本和布局)来实现想法,同时保留重要细节,用户可通过预设风格尝试而无需手动编写提示词[15] - 与初始版本相比,新模型在**遵循指令**方面更可靠,能处理更复杂的原始构图并保留元素关系[24] - 模型在**文本渲染**方面有进步,能够处理更密集、更小的文本[29] - 模型在其他质量维度有改进,例如能更好地渲染小尺寸的人脸以及提升输出结果的自然程度[31] 用户体验与产品整合 - 在ChatGPT中推出了全新的独立“Images”功能入口,旨在让图像生成体验更令人愉悦、更能激发灵感且毫不费力[34] - 新入口可通过移动应用侧边栏和chatgpt.com访问,包含了**数十种预设滤镜和提示词**以快速激发灵感,并将定期更新以反映新兴趋势[34] 市场定价与可用性 - 全新的Images模型已向所有ChatGPT用户推出,并通过API以**GPT Image 1.5**的形式提供[37] - 与GPT Image 1相比,GPT Image 1.5的**图像输入和输出价格降低了20%**,使用户在相同预算下能生成和迭代更多图像[37] - ChatGPT中全新的Images体验已向大多数用户开放,商业版和企业版的访问权限将在稍后推出[38] 行业竞争与战略意义 - 此次发布标志着AI生图领域的竞争维度正在从单纯的“模型能力”转向综合的“产品体验”,公司此次甚至没有放出任何量化的基准测试结果[43] - 通过推出独立入口、预设滤镜和大幅降价,公司正试图将图像生成转变为一种简单的日常交互[44] - 在一个与谷歌Nano Banana Pro的简单对比测试中,ChatGPT Images的结果被评估为更符合指令要求[39][41][43]
PPO-Clip的「盲点」被补齐了?快手提出熵比裁剪方法,从局部约束到全局稳定的关键一跃
机器之心· 2025-12-16 10:22
研究团队与背景 - 本研究由快手科技语言大模型团队完成,该团队聚焦于基础语言大模型研发、Agent RL等前沿技术创新,并已开源Klear-46B-A2.5B和Klear-Reasoner-8B等模型,其中Klear-Reasoner-8B在数学和代码基准测试上达到同参数级别模型的SOTA效果 [2] - 在大语言模型后训练阶段,强化学习是提升模型能力和对齐质量的核心范式,但广泛采用的off-policy训练范式存在分布漂移问题,会将策略推至信任域之外,导致训练不稳定 [2][4] - 主流方法PPO通过重要性采样裁剪缓解部分问题,但仅能约束已采样动作的概率变化,忽略了未采样动作的全局分布漂移 [2][6] 创新方法:熵比裁剪 - 快手研究团队提出创新的熵比裁剪方法,该方法通过约束策略熵的相对变化来稳定全局分布,为强化学习训练提供更可靠的控制手段 [2] - ERC机制受PPO-clip启发,当新旧策略间的熵变化超出允许范围时,直接对样本梯度进行截断,它并非取代PPO-Clip,而是对其形成补充 [7][8] - ERC引入了熵比指标,定义为新旧策略在同一token上熵的相对变化,该指标可以测量整个动作分布的变化,提供了对策略全局漂移的度量 [9] - 如果某个token的更新导致熵比超出预设范围,ERC会直接截断其对应的梯度,以防止全局分布和策略熵的剧烈波动,这种方法既能防止策略分布的突然崩溃,又保留了足够的探索能力 [12] 实验设计与结果 - 为验证ERC方法的稳定性和有效性,研究在多个数学推理基准上进行了系统实验,包括AIME24、AIME25、HMMT25、MATH500、AMC23和Olympiad,所有实验均基于DeepSeek-R1-Distill-Qwen模型进行 [14] - 在1.5B参数模型上,基础模型平均得分为46.3,使用GRPO后提升至50.3,使用DAPO后提升至53.4,而集成ERC的DAPO将平均得分进一步提升至55.1 [15] - 在7B参数模型上,基础模型平均得分为61.8,使用DAPO后提升至65.3,而集成ERC的DAPO将平均得分进一步提升至66.2 [15] - 集成ERC后,模型几乎在所有基准测试上的性能都得到了一致提升,在AIME25和HMMT25等更具挑战性的基准上性能增益更为显著,该方法在1.5B和7B两种参数规模上均取得了一致的改进 [15] 机制分析与优势 - 与传统裁剪方法相比,ERC引入了全局熵比约束,使得训练过程中的熵值轨迹和梯度范数更加稳定 [17] - ERC的裁剪机制有效地强化了信任域约束,被熵比边界裁剪的token主要位于信任域的边界附近,这表明ERC能够识别并限制可能导致策略偏离的更新,与PPO-Clip以互补的方式协同工作 [18] - ERC优先抑制那些过于确定性、信息增益有限的token的更新,而不会过度约束模型的探索动态,大多数被ERC裁剪的token集中在低熵区域,高熵token在优化过程中通常被保留 [20] - ERC引入的全局分布约束显著提高了裁剪比例,PPO-Clip下的裁剪比例通常保持在0.02%左右,而ERC将此数值提高了近三个数量级,达到约20% [22] - 尽管ERC的裁剪比例显著更高,但其在最终性能和训练稳定性上均持续超越PPO-Clip基线,主要移除了那些会使训练不稳定的噪声更新 [22] 对比与泛化能力 - 与KL正则化对比:ERC在AIME24和AIME25基准上均优于PPO-penalty,KL散度施加的是逐点约束,可能限制有效的策略探索,而ERC实现了分布层面的软约束,在维持稳定性的同时鼓励更高效的探索 [25] - 与熵正则化对比:ERC的表现显著优于在强化学习训练中直接加入熵惩罚项的方法,熵正则化只能缓解单向的不稳定性,而ERC的双向裁剪机制能有效应对策略演化中熵值波动的两个方向 [25] - 与序列级裁剪对比:在DeepSeek-R1-Distill-Qwen-7B上的实验表明,结合了PPO-Clip和ERC的token级裁剪方法相较于序列级裁剪方法仍具有明显优势,且ERC与序列级裁剪是正交的,可以同时使用 [25] - 更广泛的适用性:除了DAPO,将ERC集成到GPPO中同样能带来一致的性能提升,为ERC在不同RL算法中的普遍有效性提供了有力证据 [25]
无问芯穹首曝智能体服务平台,以基础设施加速企业级「智能体自由」
机器之心· 2025-12-16 10:22
核心观点 - 智能体(Agentic AI)是未来组织的核心竞争力,能够将企业从创意到产业的链路飞速压缩,实现规模化创造 [5] - 无问芯穹发布企业级智能体服务平台,旨在通过提供全链路服务,解决智能体生产级落地面临的四大核心困境,助力企业完成从创造力到生产力的进化 [3][7][9] - 该平台通过模板化能力、稳定托管、成本控制和商业化闭环等核心功能,帮助企业将智能体内化为原生动能,已在多个行业验证其价值 [10][11][14][16][19][23] 行业趋势与机遇 - 智能体时代,Agentic AI正在加速企业创造力的规模化(Scaling),使得“从Idea到Industry”的链路被飞速压缩 [5] - 未来每个企业都将走向智能代理化,企业内部将活跃10个、100个乃至1000个智能体,从而无限放大组织的创造能力,即使微小团队也能释放强大影响力 [1] 企业面临的挑战 - 企业在驾驭智能体实现规模化创造时面临高门槛,核心困境包括:生产级效果难实现、稳定可靠运行难保障、建设与业务成本难控制、商业化落地难闭环 [7] 无问芯穹智能体服务平台解决方案 平台定位与目标 - 作为面向智能体时代的战略级AI基础设施产品,致力于为企业提供从智能体定制优化、部署托管到商业化变现的全链路陪伴式落地服务 [3][9] - 目标是打造下一代生产力基座,加速企业完成从创造力到生产力的进化 [3] 核心功能与优势 1. 效果优化与快速启动 - 提供开箱即用的Agent能力模板,内置包括代码、研究和多模态等5种以上的模板,帮助智能体在从0到1阶段就拥有优秀基础效果 [10] - 将服务大型行业客户的经验沉淀为标准模板,赋能中小企业 [10] - 持续以Day0级的前沿模型追踪力,为客户动态适配最佳模型方案 [10] - 通过定制化工具调用、创新提示词优化等技术,进一步提升智能体应用效果 [10] 2. 稳定可靠的托管服务 - 依托遍布全国的算力储备,为每个智能体提供稳定可靠的托管服务 [11] - 系统韧性显著领先行业,千卡集群模型服务稳定性高达99.5% [11] - 将百毫秒级的沙箱调度速度提至十毫秒级,领先行业水平50%以上 [11] - 提供可观测大盘,支持企业对自身智能体全链路数据100%的追踪,保障安全运行与拓展迭代 [11] 3. 成本控制 - 与底层基础设施深度集成,依托完备的模型集成资源、强大的推理优化技术和全栈式软硬协同能力,灵活控制业务成本 [14] - 汇聚并实时更新20+主流、前沿优质大模型,并长期针对顶尖开源模型进行深度推理优化 [14] - 针对千亿、万亿参数规模模型(如DeepSeek、Kimi-K2-Instruct),采用大规模PD分离方案服务线上业务,相比传统模式推理效率提升3~5倍 [14] - 基于原生的全栈式软硬件协同优化能力,支持模型定制与系统级调优,在性能与成本间寻求最优解 [14] 4. 商业化闭环 - 针对智能体落地过程中的工具链、升级链与推广链断裂难题,提供系统性解决方案 [16] - 支持接入丰富的社区或自研工具集,帮助减少70%以上的Agent工具集成与冗余劳动 [16] - 将复杂业务流程封装为独立业务模块以支持版本管理与更新 [16] - 提供微信、小红书等第三方裂变与支付渠道的快捷接入,补足商业化断点 [16] - 以全链路陪伴式服务,帮助企业平滑跨越从产品实现到商业闭环的每一步 [16] 应用案例与价值验证 - 与某运维服务企业共研共建“SysCoding Agent”企业系统开发智能体 [19] - 该智能体首轮生成产出内容的主流程完整性大于95%,规范遵从度超过90%,堵塞性bug发生率低于3%,用户通过首次交互即可获得满足大部分需求的可用版本 [21] - 该智能体已稳定上线,轻松应对高峰期并发请求,实际应用中仅需1人投入1周时间即可完成1个生产级系统的开发与上线,单系统建设成本最低只要5元 [21] - 类似的生产力兑现正在求职、旅游、教育等多个行业同步发生 [23] - 平台正以更高性价比和可规模化的服务模式,为多种行业客户构建智能体服务,帮助企业将行业积淀与技术能力转化为长远业务价值 [23] 公司愿景与未来方向 - 致力于成为企业智能体转型的长期伙伴,以强大的智能体基础设施助力各行业将组织知识转化为可持续的价值产出与原生动力 [25] - 未来将继续坚定以Agentic infra支撑数字与物理世界的智能体应用效能突破与持续进化 [27] - 通过产学研协同,以生态连接构建智能体创新的“产业链+创新链”闭环,让智能体成为各行各业创造力Scaling的最强加速器 [27]
所有大模型,都学物理学:北大物理系一篇研究,震撼了AI圈
机器之心· 2025-12-16 08:55
核心观点 - 北京大学等机构的研究团队提出了一种基于物理学“最小作用量原理”的理论框架,用以理解和统一大型语言模型智能体的宏观生成动力学 [1] - 研究发现LLM智能体的状态转移在统计上表现出“细致平衡”现象,表明其生成过程可能隐式地学习了一类潜在的“势函数”,这超越了不同的模型架构和提示词模板,是首次发现的不依赖特定模型细节的宏观物理定律 [3][4][16] - 这一发现将AI智能体研究从经验性的工程实践提升到了可量化、可预测的物理科学高度,为理解、预测和控制AI行为提供了新的科学测量手段 [4][6] 理论框架与方法 - 研究将LLM智能体的生成过程视为状态空间中的马尔可夫转移过程,其核心是转移概率P(g|f) [9] - 为捕捉智能体倾向于转移到“更好”状态的结构化偏好,研究假设存在一个反映状态“质量”的潜在标量势函数V [13] - 通过定义一个描述状态转移违背势函数排序程度的凸函数K(x),并计算其全局平均违背作为“作用量”S,最合适的势函数是能使作用量S最小化的函数,这满足变分原理δS=0 [13][14][15] - 研究指出,若智能体的状态转移满足细致平衡条件(即π(f)P(g|f)=π(g)P(f|g)),则存在势函数V可明确表示为log[T(g←f)/T(f←g)] = βV(f) - βV(g),并且该势函数满足最小作用量原理 [15] 实验发现与意义 - 通过在多个不同模型和任务上的实验验证,研究发现基于LLM的智能体在其状态空间中的转移在很大程度上满足细致平衡条件,表现出类似平衡系统的特征 [16][18] - 这意味着LLM的生成并非简单地死记硬背规则或随机尝试,而是在最小作用量原理驱动下,自然地向着势能更低(质量更好)的状态流动,如同水往低处流 [4] - 该理论框架使得可以用物理指标为不同大模型“画像”,例如Claude-4像急于交卷的优等生,倾向于快速收敛到某个答案(势井),但也容易固执己见;GPT-5 Nano则像探险家,收敛慢但更愿意探索状态空间 [5] - 这一发现为理解和优化LLM生成过程提供了新思路,例如通过研究偏离平衡的程度来理解模型过拟合水平,或基于势函数优化方法来提高生成任务的质量和多样性 [19]