Workflow
具身智能之心
icon
搜索文档
轻量级VLA模型Evo-1:仅凭0.77b参数取得SOTA,解决低成本训练与实时部署
具身智能之心· 2025-11-12 04:00
文章核心观点 - 上海交大、CMU、剑桥大学团队提出轻量级视觉-语言-动作模型Evo-1,该模型仅含0.77b参数,在无需机器人数据预训练的前提下,实现了低成本训练与高效率部署,并在多项基准测试中取得最先进成果 [3] - Evo-1通过创新的交叉调制扩散变换器与优化集成模块构建高效架构,并采用两阶段训练范式,在保持视觉语言模型强大表征能力的同时,显著提升了在机器人操作任务中的性能与泛化能力 [3][5] - 该模型在模拟与真实世界评估中均展现出卓越性能,其低内存占用和高推理频率使其非常适合在消费级GPU上进行实时部署,为轻量高效视觉学习代理模型的研究提供了新方向 [3][6][22] 行业痛点 - 现有视觉-语言-动作模型通常包含数十亿级参数,导致训练与推理阶段GPU内存消耗巨大且计算成本高昂 [4] - 高计算开销导致模型控制频率低下,严重限制了其在交互式机器人任务中的实时响应能力 [4] - 广泛采用的端到端训练范式会退化视觉-语言骨干模型的表征空间,导致下游任务泛化能力差且易过拟合 [4] - 多数模型依赖大规模机器人数据集的长期预训练,而此类数据集的收集过程耗费人力且成本高昂 [4] Evo-1方法及效果 - Evo-1采用统一的视觉-语言骨干模型,该模型在单阶段多模态范式下预训练而成,通过联合学习感知与语言表征实现了强大的多模态理解能力,显著缩减了整体模型规模 [5] - 模型设计了交叉调制扩散变换器来建模连续动作轨迹,实现高效的时间推理以生成连贯运动,同时大幅提高了推理频率,支持实时交互 [5] - 引入优化集成模块,将融合的视觉-语言表征与机器人的本体感知信息对齐,实现多模态特征在后续控制中的无缝整合 [5] - 提出两阶段训练范式,通过逐步对齐感知与控制模块,显著减轻了视觉语言模型语义空间的畸变,使其在无需机器人数据预训练下即展现强泛化能力 [5] 仿真测试结果 - 在Meta-World基准测试上取得80.6%的平均成功率,超越了先前最佳成绩68.2% [6][18] - 在RoboTwin套件上取得37.8%的平均成功率,超越了先前最佳成绩30.9% [6][18] - 在LIBERO测试上达到94.8%的平均成功率,展现出其在单臂与双臂操作任务中的良好适应性 [3][18] - 与基线模型对比显示,Evo-1在多项任务上的成功率均领先,例如在Meta-World的“Hard”和“Very Hard”任务中分别达到77.2%和79.2%的成功率 [19] 真机部署消耗 - Evo-1在真实世界四个典型机器人任务中的整体成功率达到78%,持续超越其他基线模型 [6][20] - 模型仅占用2.3 GB的GPU内存,并达到16.4 Hz的最高推理频率,在效率与性能之间实现了最佳平衡 [22][23] - 与参数量为3.5B的π0模型相比,Evo-1参数量仅为0.77B(约为其四分之一),但成功率(78%)超越了π0模型(73%)[20][23] 方法详解 视觉-语言骨干 - Evo-1采用InternVL3-1B模型作为其视觉语言融合的骨干架构,该模型通过大规模多模态与文本语料库协同学习语言与视觉理解能力,实现了紧密的跨模态对齐 [10] 交叉调制扩散变换器 - 采用条件去噪模块作为动作专家,从视觉-语言骨干生成的多模态嵌入中预测连续控制动作,该模块以扩散变换器形式实现,仅依赖堆叠的交叉注意力层 [11] 集成模块 - 采用基于交叉注意力的集成模块,在对扩散变换器进行条件处理前,有效融合多模态与本体感觉信息,采用特征拼接而非投影的方式处理信息,为动作生成提供全局性上下文 [12] 两阶段训练流程 - 第一阶段冻结整个视觉-语言骨干,仅训练动作专家与集成模块,使动作专家权重逐步与多模态嵌入空间对齐 [13] - 第二阶段解冻视觉语言模型骨干,并对整个架构进行全局微调,实现预训练骨干与动作专家的协同优化,确保更深度的融合 [14] - 该训练流程有效保留了原始语义空间,注意力可视化显示,经过训练后模型仍能保持清晰的语义关注点,而单阶段训练则会导致语义漂移 [14][25]
VLA方向,招募几个辅导的同学~
具身智能之心· 2025-11-12 04:00
公司活动与研究方向 - 公司近期指导多名学生完成论文并已投稿CVPR等会议[1] - 公司正面向全网招募3名视觉语言动作模型方向学生进行论文辅导[1] - 论文辅导主要研究方向包括VLA模型、轻量化、VLA+触觉、VLA+世界模型、VLA+强化学习[1] 业务拓展与联系方式 - 对论文辅导感兴趣的学生可通过联系指定微信账号进行咨询[2] - 联系时需备注特定信息“具身论文辅导咨询”以明确来意[2]
港中文(深圳)冀晓强教授实验室全奖招收博士/博士后
具身智能之心· 2025-11-12 00:03
研究团队与平台 - 实验室为人工智能控制与决策实验室,是深度融合控制论、人工智能、机器人学、高性能计算、大数据等基础科学的学科交叉平台[11] - 团队导师冀晓强教授为香港中文大学(深圳)理工学院助理教授、博士生导师,并担任广东省具身智能机器人工程技术研究中心副主任等职务[10] - 导师在IEEE Transactions on Automatic Control、Automatica等顶尖国际期刊及会议发表论文五十余篇,是非最小相位系统领域学习控制设计的推动者之一[10] 研究方向与内容 - 核心研究方向包括深度学习以及人工智能理论及算法[2] - 研究需要深度融合控制论、人工智能、机器人学、高性能计算、大数据等基础科学,致力于开展人工智能与智能系统领域的基础理论与原创性研究[11] 任职要求与技能 - 博士后及博士研究生申请人需已获得或即将获得国内外知名高校相关专业的博士学位,并在相关领域国际顶级期刊或会议上发表过研究论文[8] - 硕士研究生申请人需已获得或即将获得相关专业的硕士学位或优秀学士学位,并对控制理论、人工智能、机器人学有浓厚科研兴趣及扎实的数学和编程基础[8] - 通用技能要求熟悉CLIP、BLIP、LLaVA等多模态大模型,以及VAE、Transformer、BERT等经典模型,并具备实现与调试能力[3][4] - 加分项包括了解LLaMA、Qwen等大语言模型架构,具有无监督预训练、SFT、RLHF等实践经验,或在IJRR、ICRA、IROS、RSS、ICML、NeurIPS等顶会发表论文[6][9] 福利待遇 - 博士后可获得省市生活补助每人每年税前21万元(总额不超过42万元),大学提供博士后专项补贴每人每年5万元(总额不超过10万元),合作导师另提供面议薪酬[12] - 符合条件者可申请广东省海外博士后人才支持项目,享受在站补贴税前60万元/2年,出站留粤补贴税前40万元/3年[12] - 博士生可获全奖/半奖(学费全覆盖并额外提供生活津贴),优秀者可申请学校校长奖学金,金额为税后18万/年[13] - 研究型硕士毕业后有转PhD机会,优秀者可额外获得生活津贴[14]
NVIDIA最新|Isaac Gym 继任者来啦!解决传统仿真在效率、保真度上的痛点(GPU 加速)
具身智能之心· 2025-11-12 00:03
文章核心观点 - Isaac Lab是NVIDIA推出的新一代GPU原生机器人仿真平台,旨在解决传统仿真工具在效率、保真度和扩展性上的痛点 [2] - 该平台通过整合USD场景描述、PhysX物理引擎和RTX渲染三大底层技术,构建了覆盖资产建模、感知仿真、控制执行到数据生成的全链路工具链 [4] - 其核心优势在于GPU全流程加速,支持大规模多模态机器人学习,在locomotion、操作、导航等多个领域已验证其通用性与高效性 [2][38] 新一代机器人仿真框架的需求背景 - 传统机器人研发面临真实场景数据获取难、极端情况测试风险高、算法迭代效率低三大核心问题 [3] - 现有仿真工具难以同时满足高保真、大规模、多模态的需求,CPU基仿真器扩展需依赖昂贵的多核CPU集群,入门门槛高 [5] - 早期GPU仿真工具缺乏多模态感知整合和标准化学习流程,游戏引擎适配方案与机器人研发工作流存在隔阂 [5] 核心架构与关键技术 三大底层技术支柱 - 采用OpenUSD作为统一数据层,支持层级场景图组织、跨领域兼容和多团队协作开发,解决传统格式的灵活性与兼容性问题 [9] - 基于NVIDIA PhysX 5引擎,提供刚体、柔性体、流体等多物理类型支持,并通过Direct-GPU API避免CPU-GPU数据传输瓶颈,训练效率提升数倍 [7][9] - 依托Omniverse RTX渲染器,提供照片级视觉感知输出,支持材质与光照保真以及3D高斯渲染集成,实现仿真与真实环境的视觉对齐 [12][14][15] 模块化工具链 - 提供多样化资产支持,涵盖刚体、关节机器人、柔性体等类型,并支持批量生成与属性随机化 [16] - 传感器仿真覆盖物理基、渲染基、几何基三类,包括IMU、相机、LiDAR等,满足多模态感知需求 [18][19][21] - 内置多种控制器与规划工具,支持逆运动学、力控与阻抗控制以及GPU加速的运动规划,适配从低阶动作控制到高阶任务规划 [24][27] 性能表现与核心优势 - 状态基任务吞吐量方面,单GPU可支持数千个并行环境,复杂操作任务训练FPS达160万+ [38] - 感知基任务采用tiled渲染时,单GPU可并行处理数千个相机,视觉-动作训练FPS较传统CPU仿真提升10-100倍 [38] - 支持跨GPU分布式训练,吞吐量近似线性增长,8 GPU集群可支持16384个并行环境 [38] 典型应用场景 - 在locomotion领域,支持四足机器人崎岖地形导航、人形机器人敏捷运动以及多模态移动平台训练 [41] - 在操作领域,应用于工业装配、灵巧操作等接触丰富的任务,如螺栓拧紧、多手指手物体重定向等 [44][46] - 在导航领域,支持基于视觉的长距离导航、动态环境避障以及跨机器人形态的政策迁移 [46] 未来发展方向 - 物理保真度提升方面,计划集成新一代GPU加速物理引擎Newton,支持自动微分和更灵活的求解器扩展 [52] - 功能扩展方向包括深化3D高斯渲染集成、扩展多模态传感器以及新增复杂场景和多智能体协作工具 [52] - 生态完善举措包括推出Isaac Lab-Arena平台,提供统一的政策评估框架与基准任务,促进算法对比与复现 [52]
从零把pi0部署到你的机械臂上吧!
具身智能之心· 2025-11-12 00:03
产品概述 - 公司推出专为具身智能科研领域打造的轻量级高性价比机械臂Imeta-Y1 [2][3] - 产品定位为面向新手和科研初学者,旨在帮助学生、教育工作者及开发者低成本、高效率地完成算法验证与项目开发 [3] - 该机械臂融合高精度运动控制、低功耗设计与开放软硬件架构,支持从仿真到真机的无缝联调 [6] 核心性能参数 - 机械臂本体重量为4.2千克,额定负载为3千克,具备6个自由度 [9][19] - 工作半径为612.5毫米,重复定位精度达到±0.1毫米 [9][19] - 供电电压为24V,控制器为PC,材质采用铝合金 [9][19] - 通讯方式为CAN,控制方式支持轨迹跟踪、示教和API [9][19] - 各关节运动范围及最大速度均有详细参数,例如J1关节运动范围为-165°至165°,最大速度为180°/秒 [9][19] 产品优势与特色功能 - 提供全流程开源工具链和代码示例,涵盖数据采集、模型训练到推理部署,支持视觉、力控等多模态数据融合 [4][17][32] - 兼容TensorFlow、PyTorch等主流框架,并支持Python与C++双语言接口 [4][18][26] - 提供URDF模型,支持Gazebo等主流仿真环境与真机实时联动,可实现算法仿真验证后一键部署至物理设备 [17][22] - 同时支持ROS1和ROS2开发,后期将陆续升级VLA、VA相关源码 [19] 售后服务与支持 - 提供24小时快速售后响应,确保用户学习路上不卡壳 [4] - 产品交付周期为1-2周,非人为损坏质保半年 [44][45] - 支持批量采购,优惠力度更大,同时支持基于本产品的项目开发与教学培训 [19]
美团 “全能突破”:RoboTron-Mani +RoboData实现通用机器人操作
具身智能之心· 2025-11-12 00:03
文章核心观点 - 美团团队提出的RoboTron-Mani模型与RoboData数据集协同设计,通过“3D感知增强+多模态融合架构”与统一数据标准,解决了机器人操作领域长期存在的3D空间感知能力弱与跨平台泛化能力差的双重瓶颈,实现了跨数据集、跨机器人、跨场景的通用型机器人操作,并在多项基准测试中超越了专家模型 [1][3][21] 机器人操作领域的现状与瓶颈 - 现有机器人操作方案存在双重瓶颈:传统多模态模型聚焦2D图像理解,缺乏3D空间感知,导致物理世界交互精度低;单数据集训练模型泛化能力弱,更换机器人或场景需重新训练,数据收集成本高,例如RT-1数据集的13万段数据耗时17个月收集;多数据集融合方案则存在模态缺失和空间坐标与动作表示不统一的问题,导致训练冲突和性能下降 [2] RoboTron-Mani模型的核心设计 - 模型采用四层架构,包括视觉编码器、3D感知适配器、特征融合解码器和多模态解码器,支持文本、图像、相机参数等多源输入,输出动作、图像、占用率等多模态结果 [5][7] - 3D感知适配器采用UVFormer模型,融合图像特征、相机参数与可学习查询,生成统一的3D视图表示,以精准理解物体的三维位置与姿态关系 [8] - 特征融合解码器基于OpenFlamingo的交叉注意力机制,并引入模态隔离掩码,实现了多模态的灵活融合与监督,训练时支持辅助模态监督,推理时可省略不必要模态 [9] - 多模态解码器针对不同输出类型设计专用解码器,包括图像解码器、占用率解码器和动作解码器,确保输出结果的精准性 [10][14] RoboData数据集的核心设计 - 数据集整合了CALVIN、Meta-World、RT-1等9个主流公开数据集,包含7万段任务序列、700万个样本,涵盖多种操作任务 [11] - 针对传统数据集模态缺失问题,通过重新渲染模拟环境、重建原始数据等方式,补充了深度图、相机参数等3D感知关键信息 [11] - 实现了空间与动作对齐:将所有数据集的3D坐标系统一为“X轴向右、Y轴向前、Z轴向上”,工作空间范围统一为[-0.5,-0.5,0]至[0.5,0.5,1];采用复合旋转矩阵法统一了不同数据集的动作表示 [12][15] - 提供了统一的评估体系,支持模型在多个数据集上同时评估,为通用机器人操作模型提供了公平的基准 [16] 实验结果与性能表现 - 在LIBERO数据集上,RoboTron-Mani的成功率达到91.7%,超过了当前最佳专家模型QueST的89.8% [17][18] - 在CALVIN数据集上,成功率达到93.8%,任务平均序列长度从1.7提升至3.5,大幅提升了长序列任务能力 [17][18] - 在RT-1数据集上,平均成功率达到60%,显著优于同参数规模的其他模型 [17][18] - 在跨数据集泛化测试中,相较于通用模型RoboFlamingo,在4个模拟数据集上的成功率平均提升14.8%-19.6% [18] 关键模块的消融实验验证 - 禁用3D感知适配器后,CALVIN数据集首任务成功率从94.2%降至85.0%,证明其对于空间感知精度至关重要 [19] - 无模态隔离掩码时,模型的多模态融合灵活性降低,跨数据集泛化性能下降12%-15% [22] - 无占用率监督时,长序列任务成功率下降明显,后续任务成功率从56.5%降至48.1%,证明3D空间信息对复杂操作的重要性 [19][22] 数据对齐的价值验证 - 使用经过RoboData对齐的数据训练后,模型性能显著提升:在LIBERO数据集上成功率从64.2%提升至90.7%;在CALVIN数据集上从74.7%提升至91.0% [20][23] - 使用未对齐数据训练时,除动作表示简单的Meta-World数据集外,其他数据集成功率平均下降25%-30%,证明数据对齐是跨平台训练的基础 [23] 方案的产业意义与未来方向 - 该方案为追求规模化落地的工业和服务场景提供了兼顾通用性与实用性的参考,有望应用于仓储分拣、家庭保洁等领域 [21] - 未来方向包括:扩展触觉、力反馈等多模态输入;通过模型轻量化、量化优化效率;进一步整合更多真实世界数据集以减少模拟到真实的域迁移差距 [23]
美团 “全能突破”:RoboTron-Mani +RoboData实现通用机器人操作
具身智能之心· 2025-11-11 03:48
文章核心观点 - 美团团队提出的RoboTron-Mani模型与RoboData数据集协同设计,通过“3D感知增强+多模态融合架构”解决了机器人操作领域“通用性”难题 [1] - 该方案突破了传统方案在3D空间感知和数据利用效率上的双重瓶颈,实现了跨数据集、跨机器人、跨场景的通用操作能力 [2][3] - 在多个主流数据集上的实验表明,RoboTron-Mani作为首个通用型策略,其性能超越了一系列专家模型 [17] 机器人操作行业现状与瓶颈 - 现有方案存在核心缺陷:传统多模态模型缺乏3D空间感知能力,物理世界交互精度低且模态融合灵活性差 [2] - 单数据集训练模型泛化能力弱,更换机器人或场景需重新训练,数据收集成本高昂,例如RT-1数据集的13万段数据收集耗时17个月 [2] - 多数据集融合方案存在模态缺失和空间错位问题,导致训练冲突和性能下降 [2] RoboTron-Mani模型架构 - 模型采用四层架构:视觉编码器提取多视角时空特征,为3D感知与模态融合提供基础 [7] - 3D感知适配器采用UVFormer模型,融合图像特征、相机参数与可学习查询,生成统一的3D视图表示以理解物体三维位置与姿态关系 [8] - 特征融合解码器基于OpenFlamingo的交叉注意力机制,引入模态隔离掩码实现多模态的灵活融合与监督 [9] - 多模态解码器针对动作、图像、占用率输出设计专用解码器,确保结果精准性 [10][14] RoboData数据集设计 - 数据集整合了CALVIN、Meta-World、RT-1等9个主流公开数据集,包含7万段任务序列、700万个样本,涵盖多种任务类型 [11] - 通过重新渲染和重建数据,补充了传统数据集缺失的深度图、相机参数等3D相关关键模态 [11] - 实现了3D空间对齐,将所有数据集的坐标系和工作空间范围统一,并采用复合旋转矩阵法统一动作表示 [12][15] - 提供标准化输入输出接口,支持模型在多个数据集上同时评估,为通用模型提供公平的评估基准 [16] 实验性能表现 - 在LIBERO数据集上取得91.7%的成功率,超过当前最佳专家模型QueST的89.8% [17][18] - 在CALVIN数据集上成功率达93.8%,任务平均序列长度从1.7提升至3.5,大幅提升长序列任务能力 [18] - 在RT-1数据集上平均成功率达60%,显著优于同参数规模的其他模型 [18] - 相较于通用模型RoboFlamingo,在4个模拟数据集上的成功率平均提升14.8%-19.6% [18] 关键技术模块价值验证 - 消融实验表明,无3D感知适配器会使CALVIN数据集首任务成功率从94.2%降至85.0% [19] - 无模态隔离掩码会导致跨数据集泛化性能下降12%-15% [22] - 无占用率监督会使长序列任务成功率明显下降,后续任务成功率从56.5%降至48.1% [22] - 使用RoboData对齐数据训练后,LIBERO数据集成功率从64.2%提升至90.7%,CALVIN数据集从74.7%提升至91.0% [20] 方案优势与产业意义 - 该方案兼顾通用性与实用性,为仓储分拣、家庭保洁等追求规模化落地的工业和服务场景提供了重要参考 [21] - 通过全链路设计打破了“机器人操作要么3D感知弱,要么泛化能力差”的僵局 [21] - 未来方向包括加入触觉、力反馈等多模态扩展,优化模型效率以适配边缘计算,以及整合更多真实世界数据集 [23]
招募VLA+RL方向的合伙人!
具身智能之心· 2025-11-11 03:48
招聘背景与目的 - 社区收到大量关于视觉语言动作与强化学习方向的咨询 希望进行更深入讲解[1] - 公司计划招募1名该方向的课程讲师共同开发在线课程[1] - 具身智能之心是国内首个具身全栈技术交流社区 聚集大量视觉语言动作与强化学习方向人才[3] 招聘要求 - 研究方向需为视觉语言动作与强化学习结合领域[2] - 学术界应聘者需博士及以上学历(含在读)且拥有相关顶会成果[2] - 工业界应聘者需具备实战经验与真机调试经验[2] 薪酬与资源 - 公司将提供高于行业平均水平的薪酬待遇[4] - 应聘者可获得丰富的行业资源支持[4] 咨询方式 - 详细招聘内容可通过添加指定微信号进行咨询[5]
具身智能公司无界动力完成3亿元首轮融资,红杉中国、线性资本领投,高瓴创投、地平线等跟投
具身智能之心· 2025-11-11 00:02
公司融资与背景 - 公司完成首轮3亿元天使融资,由红杉中国、线性资本领投,多家机构跟投,天使+轮融资接近完成,累计融资额超5亿元[2] - 公司创立于2025年,聚焦构建机器人"通用大脑"与"操作智能",致力于提供软硬一体的具身智能解决方案[2] 核心团队 - 创始人兼CEO张玉峰拥有Sony、ARM等顶尖科技企业研发管理经验,曾担任地平线副总裁,带领团队实现智能驾驶软件算法产品的规模化交付与市场份额第一[5] - 联合创始人兼CTO许闻达为卡内基梅隆大学机器人学博士,有自动驾驶技术研发与成功创业经历,主导实现全球首个自动驾驶网约车商业化运营[6] - 团队汇聚多模态大模型、强化学习等领域顶尖科学家,并配备千万套量级软硬件系统量产交付经验的工程团队[6] 技术战略与创新 - 公司通过"通用基础模型研发"与"通用专家模型落地"双线驱动,构建闭环进化系统,借助真实数据持续迭代模型[7][8] - 采用源自智能驾驶的影子模式机制,基础模型与专家模型并行运行,精准采集错误案例以推动高效迭代[8] - 重点开展"真机、真人、真环境"的系统化实践,通过真机运行获取精确物理交互数据,结合真人示范提高模型泛化能力[7] 产品与工程化 - 公司将持续进化的具身模型与计算平台、执行机构及实时操作系统深度耦合,构建稳定可靠的一体化机器人平台[9] - 团队借助智能驾驶领域车规级工程化经验,确保机器人在多样化真实场景中保持高可靠性[9] - 首代机器人平台在工业制造与商业服务方向取得突破,将于本月进厂,开始与国际合作伙伴推进场景落地[9] 行业认知与发展路径 - 行业普遍认为实现完全通用泛化仍需十年以上,通过垂类领域"行业级通用"再拓展泛化能力是更可行的发展路径[6] - 具身智能产业面临从实验室演示向真实场景价值产出的关键转折,现有通用模型泛化能力与执行成功率未达商业化合格线[6] 投资者与合作伙伴评价 - 红杉中国认可团队具备底层技术创新能力及工程化落地与商业生态构建经验,有望在场景侧落地领先应用[10] - 线性资本认为团队能将顶尖技术锚定真实场景,把通用梦想转化为确切生产力[10] - 地平线创始人指出团队兼具技术深度与系统级落地经验,其创新理念与地平线软硬协同驱动智能时代的理念高度契合[10]
AAAI 2026结果公布,刷出88887高分!2.3万投稿录用率仅17.6%
具身智能之心· 2025-11-11 00:02
AAAI 2026会议投稿与录用概况 - 会议总投稿量创历史新高,达到23,680篇,较AAAI 2025的12,957篇有大幅增长[3][41] - 录用论文数量为4,167篇,录用率为17.6%,低于AAAI 2025的23.4%录用率[4][45] - 投稿量激增导致竞争异常激烈,录用率为近三年来最低[43][45] 具身智能与多模态模型技术进展 - ReconVLA模型获得88887高分评级,通过引入“视觉token”引导重建“凝视区域”的辅助任务,隐式增强视觉-语言-动作模型的落地能力[24][25] - VLA-Adapter作为轻量级基座模型,参数量仅0.5B,训练显存需求为24.7GB,是基线模型的0.4倍,吞吐量达到219.2Hz,是基线模型的3倍,并在主流基准上达到SOTA性能[26][32] - EmoAgent作为首个多模态推理模型情感对抗框架,揭示“安全-推理悖论”,通过夸张情感提示劫持推理路径以暴露安全错位[22] - PhysPatch是针对自动驾驶的可物理实现对抗贴片框架,通过联合优化贴片参数与语义位置,在多种MLLM上具有高迁移性[22] 模型效率与优化技术 - DegVoC模型借鉴压缩感知思想,将vocoder建模成反退化问题,以3.89M参数量和45.62GMACs/5s的显著更低开销达到SOTA性能[28][29] - SepPrune框架为深度语音分离模型引入“可微分掩码策略”,通过梯度学习自动剔除冗余通道,剪枝后模型收敛速度比从零训练快36倍,仅需1个epoch微调即可恢复预训练模型85%的性能[30][31] - MPAS方法基于图消息传递,打破顺序通信限制,将多智能体系统通信时长从84.6秒降至14.2秒,并增强抗后门鲁棒性[18] 人工智能安全与对齐 - SECURE方法提出微调安全约束,通过惩罚正交更新将模型保持在“狭窄安全盆地”内,减少7.6%有害行为并提升3.4%性能[19] - GeoShield是首个面向VLM地理隐私防护的对抗框架,通过特征解耦、暴露识别和尺度自适应增强,有效阻止模型推测地理位置[20] - CogniTrust框架受人类记忆方式启发,将可验证监督与三元记忆模型相结合,从空间和语义角度验证、校准和综合监督信号[12][13] 基础模型应用与迁移 - FGNet框架将Segment Anything 2在海量自然图像中学到的先验知识高效迁移至EM神经元分割领域,在SAM2权重冻结时性能已媲美SOTA,微调后显著超越所有方案[34][35]