具身智能之心

搜索文档
大模型这个坑,还有哪些可以发论文的点?
具身智能之心· 2025-07-05 02:25
大模型优化课程核心内容 - 课程聚焦大语言模型(LLM)和多模态模型的前沿优化技术,涵盖参数高效计算、知识动态扩展和复杂推理三大方向 [1] - 关键技术包括结构化剪枝、低比特量化、动态检索、角色化智能体、多跳推理等,实验平台采用LLaMA、GPT等主流模型 [1] - 重点解决参数压缩(剪枝稀疏化/量化加速)、知识扩展(RAG/PEFT)和推理优化(CoT/GRPO)等核心挑战 [1] 课程结构与招生信息 - 采用12周在线科研+2周论文指导+10周维护期的教学模式,每期限招6-8人 [3][10] - 目标学员包括大模型方向本硕博学生、科研人员及AI从业者,需具备PyTorch和Python基础 [4][5] - 硬件要求最低配置2张NVIDIA 4090显卡,推荐4张或使用云服务器 [11] 课程产出与学术支持 - 学员将获得定制化研究idea、baseline代码及公开数据集,最终完成论文初稿 [10][13][14] - 论文指导覆盖SCI 1-4区和CCF A/B/C类会议,提供从选题到投稿的全流程方法论 [18] - 必读论文包括GPTQ量化(NeurIPS 2023)、Sheared LLaMA剪枝(ICML 2024)等前沿成果 [15][17] 课程技术模块 - 剪枝量化模块:涵盖结构化剪枝算法、GPTQ量化技术及TVM编译器优化 [15] - 知识扩展模块:通过RAG解决幻觉问题,采用PEFT实现垂类任务高效微调 [16] - 推理增强模块:包含Chain-of-Thought多步推理和GRPO强化学习优化 [16][17] - 多模态扩展:涉及LLaVA视觉语言模型和Flamingo多模态学习框架 [15][17] 教学安排与服务 - 每周1-1.5小时专题授课,包含多智能体协作、动态知识扩展等14个核心模块 [16][18] - 采用腾讯会议直播+小鹅通回放形式,提供6个月答疑周期和学术诚信监督 [18] - 课程产出包括顶会论文模板应用、动机凝练方法和选刊投稿策略 [18]
图像目标导航的核心究竟是什么?
具身智能之心· 2025-07-04 12:07
研究背景与核心问题 - 图像目标导航需要两种关键能力:核心导航技能(如检测自由空间、障碍物)和通过比较视觉观察与目标图像计算方向信息 [2] - 当前主流方法依赖专门的图像匹配或预训练计算机视觉模块进行相对位姿估计 [2] - 研究聚焦于是否可以通过强化学习对完整智能体进行端到端训练来解决该任务 [2] 核心研究内容与方法 - 探讨了多种架构设计对任务性能的影响,核心在于如何支持图像间的隐式对应计算 [3] - 主要架构包括Late Fusion、ChannelCat、SpaceToDepth + ChannelCat、Cross-attention [4] - 实验设计使用Habitat模拟器和Gibson数据集,动作空间包括前进、左右转向和停止 [7] - 评估指标包括成功率(SR)和SPL(成功路径长度与最优路径长度的比值) [7] 主要发现 - 早期patch级融合(如ChannelCat、Cross-attention)比晚期融合(Late Fusion)更关键,能更好支持隐式对应计算 [8] - ChannelCat(ResNet9)在Sliding=True时SR达83.6%,远高于Late Fusion的13.8% [6] - Cross-attention(DEBiT-b)在Sliding=True时SR达90.5% [6] - 低容量架构(如ResNet9)在Sliding=False时SR从83.6%降至31.7%,而DEBiT受影响较小(从90.5%降至81.7%) [8][9] - 能力迁移性:将Sliding=True训练的感知模块权重迁移到Sliding=False并微调后,SR从31.7%提升至38.5% [10][11] 导航与相对位姿估计的关联 - 导航性能与相对位姿估计性能存在相关性,DEBiT在两者上均表现最优 [12] - 导航成功率(SR)与相对位姿估计精度(误差<2m, 20°)呈正相关 [12] 结论 - 支持早期局部融合(如交叉注意力、ChannelCat)的结构对任务成功至关重要 [15] - 模拟器的Sliding设置显著影响性能,但通过迁移感知模块权重可部分迁移至真实环境 [15] - 导航性能与相对位姿估计能力相关,验证了方向信息提取的核心作用 [15] - 简单低容量架构仅通过RL训练难以成功解决图像目标导航,预训练仍不可或缺 [15]
ArtGS:3DGS实现关节目标精准操控,仿真/实物双验证性能SOTA!
具身智能之心· 2025-07-04 09:48
研究背景与出发点 - 关节目标操作是机器人领域的关键挑战,核心难点在于复杂的运动学约束和现有方法有限的物理推理能力 [3] - 传统方法如端到端强化学习或模仿学习需要大量数据但常因缺乏物理知识导致动作违反约束 [3] - 3D视觉方法如GAMMA、RPMArt存在点云稀疏性、无序性和时间一致性不足的问题 [3] - 提出ArtGS框架通过扩展3D高斯溅射整合视觉-物理建模,优化关节骨骼参数保证物理一致性 [3] 核心框架与技术细节 - ArtGS包含三个关键模块:静态高斯重建、VLM基于骨骼推理、动态3D高斯关节建模 [4] 静态3D高斯重建 - 通过3D高斯溅射从多视图RGB-D图像重建高保真3D场景,场景表示为3D高斯球集合 [5] - 利用URDF文件和改进的Denavit-Hartenberg正运动学构建变换矩阵控制高斯点运动 [5] VLM基于骨骼推理 - 借助微调的视觉-语言模型InternVL-2.5-4B初始化关节参数估计 [6] - 通过3DGS新视图合成能力生成目标正视图辅助VLM输出视觉问答结果 [6] - 对旋转关节和移动关节分别采用PCA和边界框叉积方法估计初始关节参数 [8][9] 动态3D高斯关节建模 - 通过阻抗控制实现机械臂与环境的交互,结合微分渲染优化关节参数 [10] - 高斯点的均值和旋转因子通过线性混合蒙皮变换到关节空间 [10] - 通过最小化包含L1损失、结构相似性损失和正则化项的损失函数优化关节参数 [10] 实验验证与结果分析 关节参数估计 - ArtGS在关节轴误差和关节原点误差上显著低于ANCSH、GAMMA、Ditto等方法 [12] - 例如在洗碗机上ArtGS的AE为3.01°、OE为2.17cm,远低于ANCSH的15.32°和9.26cm [13] 关节目标操作 - 模拟环境中ArtGS操作成功率达62.4%-90.3%,显著高于TD3的3.1%-6.6%和Where2Act的8.4%-11.2% [14][15] - 真实世界实验中ArtGS对抽屉操作成功率达10/10,对柜子达9/10 [17] 关键能力验证 - ArtGS能通过3DGS可微分渲染优化参数,即使VLM初始轴估计误差超过20°仍能提升操作成功率 [19] - 具备跨机械臂适应性,能精确重建Franka、xArm7等不同机械臂 [19] 总结与展望 - ArtGS将3D高斯溅射转化为关节目标的视觉-物理模型,提升优化效率并解决遮挡问题 [20] - 未来方向将扩展至更复杂场景,提升对多关节、高动态目标的建模与操作能力 [21]
港大强化学习驱动连续环境具身导航方法:VLN-R1
具身智能之心· 2025-07-04 09:48
研究背景 - 视觉语言导航(VLN)是具身人工智能的核心挑战,要求智能体理解自然语言指令并在三维环境中导航,需要实时决策能力以适应变化的环境 [5] - 现有方法通常依赖离散拓扑图进行路径规划,限制了智能体在未见或连续环境中的泛化能力,且需要额外传感器信息如深度图和导航图 [5] - 部分方法使用大型语言模型(LLM)但仍受限于预定义导航图,无法实现真正的具身导航 [6] VLN-R1框架创新 - 提出VLN-R1框架利用大型视觉语言模型(LVLM)处理第一视角视频流,实现连续环境中的视觉语言导航,相比基于离散导航图的方法更接近真实世界场景 [5] - 构建VLN-Ego数据集基于Habitat模拟器生成,包含第一视角视频流及对应未来动作预测,为LVLM训练提供丰富视觉和语言信息 [5] - 采用两阶段训练方法:先通过监督微调(SFT)使模型动作序列预测与专家演示对齐,再利用强化微调(RFT)进一步优化模型 [5] 数据集构建 - 数据来源于Habitat模拟器中的Matterport3D场景(90个场景分训练/验证/测试集) [6] - 每条样本包含三部分:自然语言导航指令、历史帧(Long-Short Memory采样)+当前帧、未来6步动作序列 [6] - 采用长短期记忆采样策略平衡近期细节与长期上下文,短期部分高密度采样,长期部分低密度采样 [6] 训练方法 - 监督微调将导航任务形式化为序列预测问题,使用交叉熵损失对预测动作编号与描述进行监督训练 [8] - 强化学习微调引入GRPO策略优化通过相对奖励对生成结果排序,提升高质量策略 [9] - 设计TDR机制在奖励函数中优先强化前期正确决策,提升整体导航成功率 [9] 实验结果 - R2R任务中VLN-R1在无深度图、地图等条件下实现SR=30.2(7B模型),显著超过传统模型 [11] - RxR任务中仅使用10K样本RFT即优于完全监督模型,体现强跨域适应能力 [12] - 2B模型经RFT后可达7B模型的SFT性能,说明RFT能有效提升小模型性能 [12] 消融实验 - 预测未来6个动作的设置能取得最佳性能,仅预测单个动作会导致性能显著下降 [14] - 长短期记忆采样策略在帧选择方面表现最佳,能有效平衡当前观察与历史上下文 [16] - RFT阶段8次生成能使模型达到收敛,TDR机制在奖励函数中表现最为有效 [16] 未来方向 - 需验证VLN-R1在现实世界中的泛化能力 [16] - 可探索在更复杂现实环境中评估及扩展动作空间实现更精细导航控制 [16] - 可研究将该方法应用于其他具身AI任务如具身问答(EQA)等 [16]
传统导航和具身目标导航到底有啥区别?
具身智能之心· 2025-07-04 09:48
机器人导航技术演变 - 技术路线从传统建图定位导航向基于大模型方案演变,分为视觉语言导航(VLN)和目标导航两类 [1] - VLN核心是"听懂指令走对路",目标导航核心是"看懂世界自己找路" [1][6] 视觉语言导航(VLN)技术架构 - 任务包含理解语言指令、感知环境、规划运动策略三方面,系统由视觉语言编码器、环境历史表征、动作策略模块构成 [2] - 主流采用预训练视觉语言模型和LLM进行指令拆解,编码器设计需解决多模态表征空间投影问题 [2] - 序列决策通过隐式端到端(隐变量)或显式端到端(拓扑图/BEV语义地图)方法实现环境建模 [2] - 策略学习从标注数据转向LLM知识蒸馏,数据增强是关键 [3] 目标导航技术突破 - 需在陌生环境中仅凭目标描述自主完成探索与路径规划,涉及语义解析、环境建模、动态决策 [4][6] - 需整合计算机视觉、强化学习与3D语义理解技术,实现从被动执行到主动决策的跃迁 [6] 商业应用现状 - 美团无人配送车、Starship Technologies园区机器人实现动态环境配送 [8] - 嘉楠科技、云迹科技、擎朗智能的医疗/酒店机器人完成药品/餐食自主配送 [8] - 人形机器人领域:宇树科技Unitree系列、智元工业机器人、特斯拉Optimus集成目标导航模块 [8][9] - 导航技术岗位需求旺盛,部分公司开出七位数年薪 [9] 技术学习挑战 - 需掌握自然语言处理、计算机视觉、强化学习、图神经网络等多领域知识 [10] - 知识碎片化且论文数量庞大,跨领域学习路径困难 [10] 专业课程内容 - VLN课程覆盖仿真环境、端到端方法、数据增强策略及实战,培养1年从业经验 [13][15][16] - 目标导航课程包含Habitat仿真、LLM/VLM驱动系统、Sim2Real部署等,实现零样本导航能力 [16][17]
最新综述:从物理模拟器和世界模型中学习具身智能
具身智能之心· 2025-07-04 09:48
具身智能与机器人研究前沿 - 具身智能的核心在于物理模拟器与世界模型的整合,物理模拟器提供高保真训练环境,世界模型赋予机器人环境内部表征能力[4] - 智能机器人能力分级模型包含五个渐进级别(IR-L0到IR-L4),涵盖自主性、任务处理能力等关键维度[6][7] - IR-L0为完全非智能程序驱动级别,IR-L1具备有限基于规则的反应能力,IR-L2引入初步环境意识与自主能力[12][13][14] 机器人技术支撑体系 - 机器人运动控制技术包括模型预测控制(MPC)、全身控制(WBC)、强化学习(RL)和模仿学习(IL)等方法[22] - 视觉-语言-动作模型(VLA)通过预训练实现自然语言指令到机器人动作的映射,但存在未见过任务处理挑战[22] - 机器人操作技术从基于夹具操作发展到灵巧手操作,DexGraspVLA实现零样本高成功率抓取[24] 物理模拟器技术 - 主流模拟器包括Webots、Gazebo、MuJoCo、PyBullet、Isaac系列等,各具特点如MuJoCo专为关节系统设计,Isaac系列支持GPU加速[29] - 模拟器物理特性对比涵盖物理引擎、特殊物理效果支持和可微物理能力等维度[30] - 高端模拟器如Isaac Sim在多物理场支持上更全面,传统模拟器在复杂物理交互上存在局限[33] 世界模型技术 - 世界模型从早期基于循环网络的潜态建模发展到结合Transformer和扩散模型的高保真生成式模拟[40] - 代表性架构包括循环状态空间模型(RSSM)、联合嵌入预测架构(JEPA)、Transformer-based模型等[41][42][44] - 扩散生成模型如Sora可预测物体物理交互,被称为"世界模拟器"[46] 行业应用与挑战 - 自动驾驶领域应用世界模型三大技术范式:神经模拟器、动态模型和奖励模型[56][57][58] - 铰接式机器人领域世界模型通过模拟物体动态与环境反馈提升操作泛化能力[60][61] - 核心挑战包括高维感知、因果推理缺失和实时性问题,未来方向聚焦3D结构化建模和多模态融合[64][65][66]
小米社招&校招 | 自动驾驶与机器人具身智能算法研究员 (VLA方向)
具身智能之心· 2025-07-03 13:36
职位概述 - 公司正在招聘研究员/科学家加入前沿探索团队 专注于构建下一代自动驾驶与机器人的"大脑" 研究方向为具身基座模型(Embodied Foundation Model) 深度融合视觉-语言-行动(VLA)能力并具备卓越空间感知与推理能力 [1] 核心职责 - 前沿算法研究:设计实现领先的具身多模态大模型 突破现有VLA框架 构建能理解复杂三维世界并进行长时序多步骤任务规划的世界模型(World Model) [2] - 核心模型能力攻关:主导多模态场景理解(融合视觉/语言/雷达信息) 复杂语义推理与决策(解析抽象指令生成可解释行动序列) 学习与适应机制(强化学习/模仿学习/自监督学习) [3] - 技术路线规划:构建可泛化高效率的具身智能基座模型 支撑未来1-3年技术演进 探索自动驾驶与通用机器人领域的统一应用潜力 [3] - 学术影响力建设:与全球顶尖高校合作研究表征学习/因果推理/世界模型等长期议题 在CVPR/NeurIPS/ICLR等顶级会议发表论文 [3] 任职要求 - 教育背景:需计算机科学/人工智能/机器人学/自动驾驶领域博士学位或同等深度研究经验 [4] - 研究经验:需满足以下至少一个方向——多模态大模型(VLM/VLA构建经验) 自动驾驶具身智能(熟悉Emma/Gemini Robotics等基座模型) 强化学习(精通PPO/SAC算法及RLHF应用) [5] - 三维视觉能力:需掌握3D计算机视觉/几何学/空间推理 熟悉NeRF/3D Gaussian Splatting等场景表示技术 [6] - 学术能力:需在NeurIPS/CVPR/ICCV等顶会以主要作者发表论文 或相关竞赛获奖 具备跨学科整合能力 [7] 加分项 - 技术基础:精通Python/PyTorch框架 具备大规模数据处理与高效模型训练能力 [10] - 专项经验:有World Model理论研究 亿级参数大模型预训练(含分布式训练) 真实机器人平台(Isaac Sim/MuJoCo/CARLA)算法部署经验 [11] - 社区贡献:在相关开源项目有广受认可的贡献 [11] 工作安排 - 工作地点以北京为主 少量上海职位 [9]
卡耐基梅隆大学!Human2LocoMan:通过人类预训练学习多功能四足机器人操控
具身智能之心· 2025-07-03 13:36
四足机器人操作技术突破 - 提出跨实体模仿学习系统Human2LocoMan,通过统一人类与机器人动作空间实现多功能操作,实验显示整体任务成功率平均提升41.9%,分布外场景提升79.7% [4] - 开发模块化跨实体Transformer架构(MXT),支持人类数据预训练与机器人数据微调,预训练后成功率提升38.6%,分布外场景提升82.7%,且仅需50%机器人数据即可超越基线性能 [8][16] - 构建首个涵盖单手/双手模式的LocoMan操作数据集,包含6类家庭任务如玩具收集、鞋架整理等,30分钟内可收集超50条机器人轨迹和200条人类轨迹 [22][26] 技术创新与系统设计 - 采用XR头显实现人类动作捕捉与机器人视图传输,通过头部动作映射躯干运动扩展工作空间,腕部动作映射末端执行器 [9][12] - 建立统一参考框架对齐人类与机器人动作空间,采用SE(3)6D姿态转换和全身控制器实现协调运动 [12] - MXT架构包含实体特定标记器/去标记器和共享Transformer主干,支持多模态数据联合训练,验证损失比基线低15%-20% [16][34] 性能验证与行业应用 - 在铲取猫砂、倾倒乒乓球等工具使用任务中,预训练MXT成功率达87.5%-95.8%,OOD场景提升25-66.7个百分点 [27][29] - 对比实验显示MXT在数据效率上显著优于HIT和HPT基线,小数据集下成功率仍超70%,长时序任务完成度提升50% [28][32] - 系统已实现抓取/非抓取、可变形物体操作等多样化任务,但需优化头部控制直观性并扩展至机械臂/人形机器人平台 [37][38]
具身智能,到了交卷的时刻了。。。
具身智能之心· 2025-07-03 08:22
具身智能技术发展 - 具身智能技术从沉寂到疯狂再到冷静,行业进入量产交卷阶段,未来将更注重可靠性而非演示效果[2] - 感知能力升级与多模态融合是技术发展关键,触觉感知成为重点发力领域,力控技术提升操作精细度[2] - 大模型驱动算法提升机器人认知能力,推动自主学习与决策规划,轻量化模型设计成为行业落地迫切需求[2] - 仿真环境与数据生态建设加速技术发展,sim2real技术推动仿真与现实世界对齐[2] 行业生态与社区资源 - 具身智能之心知识星球汇聚近200家具身公司及研究机构成员,覆盖国内外知名高校实验室和头部企业[8] - 社区提供40+开源项目、60+数据集、主流仿真平台及20+技术学习路线,涵盖感知、交互、强化学习等领域[8][33][37] - 汇总国内外具身智能公司,涉及教育、医疗、工业等多方向,并整理行业研报、零部件品牌及开源项目[15][17][21][23] 技术研究方向与资源 - 多模态大模型技术覆盖理解与生成两大方向,包括图像、视频、音频等多模态数据处理[41][43] - 机器人导航、机械臂抓取、双足/四足机器人等细分领域均有完整技术路线与开源资源支持[51][55][57] - 触觉感知领域整合最新综述、传感器应用及多模态算法,强化学习路线涵盖LLM应用与可解释性研究[39][31] 社区服务与活动 - 提供求职岗位分享、产业体系方案及直播交流活动,成员可自由提问工作与研究方向选择问题[7][61][63] - 社区定期更新学术进展与工业落地应用,成员可获取专属学习视频及企业对接机会[13][64]
全球首个自动驾驶VLA综述重磅发布:VLA自驾模型全面拆解~
具身智能之心· 2025-07-03 08:22
自动驾驶范式演进 - 端到端自动驾驶模式将传感器输入直接映射到驾驶动作,架构为环境信息输入→端到端网络→驾驶动作,但存在可解释性差和难以处理长尾场景的问题 [3] - 用于自动驾驶的视觉语言模型引入语言理解和推理能力,架构为环境信息输入→VLM→推理链/多任务→非直接控制输出,提升了系统可解释性和泛化能力,但存在语言输出与实际控制脱节的行动鸿沟 [3] - 视觉-语言-行动模型是当前最前沿范式,在统一策略中融合视觉感知、语言理解和动作执行,架构为环境信息输入→多模态编码器→LLM/VLM→动作解码器→驾驶动作,能理解高级指令、推理复杂场景并自主决策 [3] VLA4AD架构范式 - 多模态输入包括视觉数据(从单前视摄像头发展到多摄像头环视系统)、其他传感器数据(激光雷达、雷达、IMU、GPS及本体感知数据)和语言输入(从直接导航指令演进到对话式推理和语音指令) [9] - 核心架构模块包含视觉编码器(使用DINOv2或CLIP等大型自监督模型)、语言处理器(使用LLaMA2或GPT系列模型并通过指令微调适应领域)和动作解码器(通过自回归令牌器、扩散模型头或分层控制器生成控制输出) [7][9] - 驾驶输出形式从低阶控制(如方向盘转角、油门刹车信号)演进为高阶规划(如轨迹或路径点),后者具有更好可解释性、拓展能力和长时程推理能力 [10][18] VLA模型发展阶段 - 阶段一(语言模型作为解释器)采用冻结视觉模型和LLM解码器生成场景描述,代表工作DriveGPT-4可生成高阶操纵标签或场景描述,但存在延迟问题和效率低下局限 [16][22] - 阶段二(模块化VLA模型)将语言作为主动规划组件,代表工作包括OpenDriveVLA生成可读中间路径点、CoVLA-Agent将动作Token映射到轨迹、DriveMoE动态选择子规划器、SafeAuto引入符号化交通规则验证计划 [19][22] - 阶段三(统一端到端VLA模型)构建单一网络直接映射传感器输入到控制信号,代表工作包括EMMA联合执行检测和规划、SimLingo/CarLLaVA通过行动构想技术耦合语言与轨迹、ADriver-I利用扩散技术预测未来画面 [20][22] - 阶段四(推理增强VLA模型)将LLM置于控制环路核心进行长时程推理,代表工作ORION结合记忆模块输出轨迹和解释、Impromptu VLA通过思维链对齐行动、AutoVLA融合CoT推理和轨迹规划 [21][22] 数据集与基准 - BDD100K/BDD-X提供10万个真实驾驶视频和7千个带文本解释片段,被CoVLA-Agent和SafeAuto等模型采用 [25][27] - nuScenes包含1000个场景的多传感器数据,是VLA4AD模型综合评估的重要平台 [25][33] - Bench2Drive是基于CARLA的闭环驾驶基准,包含44种场景和220条路线,DriveMoE通过混合专家架构在该基准领先 [25][33] - Reason2Drive提供60万个带思维链风格问答的视频-文本对,并引入一致性评估指标 [25][33] - Impromptu VLA专注边缘场景,包含8万个驾驶片段并配有专家轨迹和问答对,能显著提升闭环安全性 [25][33] - DriveAction包含2600个场景和1.62万个带动作标签的问答对,提供基于人类偏好决策的评估协议 [25][33] 挑战与未来方向 - 六大挑战包括鲁棒性与可靠性(语言模型幻觉和环境噪声问题)、实时性能(30Hz计算瓶颈和模型优化需求)、数据与标注瓶颈(三模态数据稀缺和合成数据局限)、多模态对齐(以摄像头为中心和融合技术不成熟)、多智能体社会复杂性(协作难题和交通语言缺失)以及领域自适应与评估(泛化能力不足和标准缺失) [30][31][32][34][35] - 五大未来方向包括构建基础驾驶大模型(GPT风格骨干网络)、开发神经-符号安全内核(结合神经网络灵活性和符号逻辑可验证性)、实现车队级持续学习(通过语言片段描述新情况)、建立标准化交通语言(定义规范意图集)以及提升跨模态社交智能(理解手势和声音等非语言线索) [36][38]