具身智能之心

搜索文档
港科大 | LiDAR端到端四足机器人全向避障系统 (宇树G1/Go2+PPO)
具身智能之心· 2025-06-29 09:51
核心观点 - 香港科技大学团队提出Omni-Perception框架,通过直接处理原始LiDAR点云数据,实现四足机器人全向避障能力,解决了传统方法在复杂三维环境中的局限性 [2][4] - 该框架结合PD-RiskNet感知网络、高保真LiDAR仿真工具和风险感知强化学习策略,形成端到端的闭环控制系统 [4][5] - 在动态障碍、空中障碍等复杂场景中表现优于传统方法,成功率显著提升 [24][27] 技术架构 Omni-Perception框架组成 - **PD-RiskNet感知网络**:分层处理近场和远场点云,近场采用最远点采样(FPS)和GRU提取局部动态特征,远场通过平均下采样和GRU捕捉全局路径特征 [8][18] - **高保真LiDAR仿真工具**:支持4096个并行环境,渲染速度比Isaac Sim提升300%,并模拟噪声和自遮挡效应 [19][21] - **风险感知强化学习策略**:将避障任务建模为马尔可夫决策过程,直接输出关节控制信号,跳过运动学逆解 [9][11] 强化学习设计 - **状态空间**:包含本体状态(关节位置、速度)、外感知状态(10帧LiDAR历史点云)和任务指令(目标速度) [10] - **奖励函数**:结合避障速度追踪奖励(36个扇区障碍检测)和距离最大化奖励(LiDAR射线优化),辅以稳定性惩罚项 [12][13][14] - **训练参数**:PPO算法,4096个并行环境,学习率1e-3,折扣因子γ=0.99 [19] 性能优势 计算效率 - 相比传统SLAM+规划流水线,减少中间处理环节,计算开销更低 [7] - LiDAR仿真工具在4096环境、32k射线场景下无内存溢出,速度达Isaac Sim的5-10倍 [21][22] 场景适应性 - **动态障碍**:成功率76.7%,碰撞率56.7%,显著优于FPS+MLP(33.3%)和FPS+GRU(30.0%) [23][24] - **空中障碍**:成功率70%(传统方法0%),静态障碍成功率100% [27] - **极端场景**:密集植被中成功率60%,细长障碍(直径<1cm)需进一步优化 [28] 实现细节 PD-RiskNet网络 - **近场路径**:输入垂直角度θ>阈值的点云,输出187维特征向量,监督信号为特权高度信息 [18] - **远场路径**:输入θ<阈值的点云,输出64维特征向量,关注全局路径规划 [18] - **动作网络**:4层全连接(1024→512→256→128),输出12维关节目标位置 [19] 域随机化策略 - **物理参数**:附加质量-1.0kg至5.0kg,质心位置偏移±0.2m,电机强度缩放0.8-1.2倍 [20] - **环境参数**:地面摩擦系数0.4-1.0,重力偏移±1.0m/s²,LiDAR噪声率10% [20] 验证结果 - **真实数据对比**:仿真复现了LiDAR非重复扫描模式和自遮挡效应,几何结构匹配度高 [21] - **多场景测试**:在动态障碍场景中,传统高程图方法成功率0%,而Omni-Perception有效应对 [24][27]
下半年CCF-A/B类会议窗口期收窄,发一篇具身论文还来得及吗?
具身智能之心· 2025-06-29 09:51
下半年CCF会议投稿机会 - 错过上半年顶级会议投稿窗口可能导致研究成果发布延迟和错失学术交流机会 下半年CCF会议提供了关键替代渠道[1] - 高效利用投稿机会面临核心挑战 包括时间压力下确保论文质量 选题新颖性 实验严谨性 写作规范性和投稿策略匹配度[1] - 提供1v1指导课程帮助解决上述挑战 通过资深导师介入论文撰写与修改过程 提供个性化解决方案以提升论文竞争力[1] 论文辅导面向的痛点人群 - 计算机专业本硕博学生面临导师放养 缺乏科研指导[4] - 有科研需求需积累经验提升职称或学术成就的人群[4] - 人工智能领域从业者希望通过科研提升职场竞争力[4] - 考研申博留学需提升简历含金量的群体[4] 论文辅导解决的问题 - 解决导师放养导致的科研指导缺失问题[3] - 帮助建立科研思维和系统知识体系[3] - 掌握经典与前沿算法 形成清晰知识框架[3] - 实现模型理论与代码实践结合 提升实践能力[3] - 将baseline深化拓展形成个人论文成果[3] 论文辅导阶段与交付成果 - 选题阶段:导师引导构思或直接提供论文idea[5] - 实验阶段:全程指导实验设计 模型搭建 调参和idea验证[7] - 写作阶段:指导完成高质量论文写作 符合审稿人要求[9] - 投稿阶段:推荐合适期刊 提供精准投稿建议[14] - 录用阶段:确保论文在周期内完成录用[15] 辅导过程具体内容 - 选题阶段:梳理研究成果 提供文献 指导创新点构思[11] - 实验阶段:完成实验设计 数据处理 代码实现和结果分析[12] - 写作阶段:剖析优秀案例 搭建论文框架 润色论文内容[13] - 投稿阶段:筛选期刊会议 指导回复审稿意见[17] 课程服务与支持 - 腾讯会议在线1v1上课 微信群日常答疑[18] - 班主任全程督学跟进学习进度[16] - 私人群提供与主讲导师直接沟通渠道[24] - 线上语音会议结合文字/语音答疑[24] 课程交付成果 - 产出一篇目标区位的高质量论文[19] - 掌握完整科研流程和论文写作技巧[19] - 提升科研能力和专业素养[19] - 获得投稿选刊技巧和前沿技术认知[23] 课程指导周期 - 总周期=核心指导期+维护期 根据论文区位3-18个月不等[22] - CCF A/SCI 1区:核心36次课+9个月维护[22] - CCF B/SCI 2区:核心28次课+6个月维护[22] - CCF C/SCI 3区:核心28次课+6个月维护[22] - EI期刊/会议:核心24次课无维护期[22] - 硕士论文周期以学员需求为准[26] 课程特色亮点 - 主讲导师为顶会审稿人 提供全方位指导[24] - 每周1次45分钟1v1会议指导课[25] - 维护期通过微信群进行审稿意见答疑[25] - 提供基础课程供学员自主学习[28] - 专属沟通群配备导师和班主任答疑[28]
中科院自动化所最新综述!VLA模型后训练与类人运动学习的共性
具身智能之心· 2025-06-29 09:51
核心观点 - 文章从人类运动技能学习角度系统总结了VLA模型的后训练策略,提出环境、具身、任务三维分类框架,并探讨神经科学对机器人学习的启发[4][5][6] - VLA模型需通过后训练从通用预训练转向特定任务适配,类似人类从遗传能力到专项技能的转化过程[8][9] - 类脑视角下,后训练技术可划分为环境感知增强、具身认知优化、任务理解深化及多组件集成四大方向[10][12] VLA模型与后训练重要性 - VLA模型整合视觉、语言与动作生成模块,实现"看-听-动"闭环,但预训练模型在真实场景中需后训练提升精度与鲁棒性[8] - 后训练利用少量目标场景数据微调模型,使其适应机器人物理特性与任务需求,解决"开箱即用"性能不足的问题[9] 三维后训练策略 环境维度 - 引入可供性线索强化模型对环境交互可能性的理解,如物体功能暗示(门把手提示抓握)[12] - 优化视觉编码器与多模态感知融合,提升环境细节记忆与抗遗忘能力[12][13] 具身维度 - 建立机器人正向/逆向运动学模型,模拟人类前馈-反馈控制机制实现精准动作规划[14] - 借鉴小脑多内部模型协同机制,设计分层动作控制模块[14] 任务维度 - 通过人类示范数据注入专家知识,加速任务理解[14] - 采用层次化策略分解长程任务为可管理子步骤,对应人类分而治之的神经处理模式[14][17] 技术挑战与趋势 - 数据效率:需开发课程学习、主动采样等类人策略降低训练数据需求[22] - 多模态扩展:触觉/深度传感等新模态输入可提升环境交互真实性,但面临传感器融合难题[22] - 持续学习:当前离线微调易导致遗忘,需借鉴人类记忆机制开发终身学习框架[22] - 开放泛化:从实验室性能优化转向未知环境适应能力建设[22]
具身智能之心sim2real交流群来啦!
具身智能之心· 2025-06-28 07:58
行业交流群 - 交流群专注于sim2real及sim2real2sim技术在机械臂、双臂、四足、人形等领域的应用讨论 [1] - 群内严格禁止广告宣传,违规者将被拉黑清除 [1] - 群满后可添加指定微信并备注"sim2real加群"以获取邀请 [1]
清华90后博士厨房机器人融资数千万,获北京首张具身智能餐饮许可证
具身智能之心· 2025-06-28 07:48
公司融资与背景 - 享刻智能完成数千万元Pre-A轮系列融资,投资方包括世纪长河科技集团、启迪之星、网龙天映创投、广华创投等[2] - 公司累计已完成亿元级规模融资,天使轮投资方包括真格基金、中关村智友科学家基金、九阳股份、振邦智能等[16] - 创始人陈震为连续创业者,拥有北航计算机学士、清华计算机硕士学位,目前是清华大学未来实验室博士生[3] - 陈震此前创办的速感科技被九阳母公司JS环球生活全资收购[4] 产品与技术 - LAVA机器人已获得北京市首张具身智能机器人食品经营许可证,成为全国首个"持证上岗"的AI厨师[6] - 机器人能2分钟炸好一盘薯条、做汉堡,未来还将学会做冰淇淋和调饮品[7] - 通过视觉识别食材并自主判断烹饪时间,能学习掌握新菜品制作方法[8] - 已实现连续190天无间断运行,单日处理订单峰值达1,732单,累计完成超10万次无故障炸制任务[8] - 平均40秒/单的制作效率,能耗较传统设备降低62%,管理效率提升40%以上[8] 商业化进展 - 已与海外知名连锁品牌签订千台级量产订单,将于下半年启动海外部署交付[10] - 专注西式快餐领域,因其标准化程度高更易实现自动化[12] - 采用"三机一体"架构升级:强化机器感官、机器认知和机器关节[12] 产业合作 - 与清华珠三角研究院签署合作协议,共建机器人核心技术联合研发平台[15] - 九阳股份在并购陈震的速感科技后,又作为天使投资方参与新项目[17] - 核心团队来自原速感科技、Shark Ninja及九阳团队,拥有10年以上研发管理经验[18] 创始人理念 - 强调"在真实场景中创造价值"的理念,深入理解厨房、餐饮等商业化服务场景[20] - 提出"在无数次试错中进化"的创业方法论[20] - 团队从2013年研究vSLAM技术到2018年实现百万台级量产销售,积累了12年技术产业化经验[19]
北航×新国立×上交发布RoboCerebra:长时序机器人操作推理的全新评测基准
具身智能之心· 2025-06-28 07:48
核心观点 - 视觉-语言模型(VLM)为机器人带来"看图执行指令"的新范式,但现有系统仅依赖"小脑"模型难以胜任家庭级复合操作,需要"大脑"VLM进行长期规划、记忆管理与自我反思 [7] - 现有基准平均任务长度不足500步,缺乏对大小脑协作闭环能力的考察,模型难以应对遮挡、跌落或目标迁移等场景 [8] - 提出RoboCerebra基准,面向长时序、多扰动、强记忆约束的任务,配套发布Hierarchical Planning & Execution (HPE)框架 [8][10] RoboCerebra数据集 - 包含1,000条人工标注轨迹,覆盖100个任务变体,平均每条轨迹由9.1个原子动作构成,总步数达2,972步 [17][18] - 任务平均长度2,972.4步,是现有长时序数据集的6倍,最长超3,500步 [13][18] - 涵盖饮品准备、物品归置、餐具整理等家庭场景,定义12种离散动作类别,10%任务包含五类以上动作 [17][18] - 引入六类子任务:Ideal、Memory Exploration、Memory Execution、Random Disturbance、Observation Mismatching、Mix [16] 数据生成流程 - 采用GPT自动生成高层任务并递归拆分子目标,经符号与视觉双重闭环验证 [13][17] - 符号推理器检查前置与后置条件,GPT-4o检查场景合理性,失败则重新生成 [17] - 人类专家录制400小时标准操作轨迹,独立标注团队进行200小时人工质检 [17] 评测协议 - 设计四维核心指标:任务成功率、计划匹配精度、计划效率、动作完成一致性 [21] - 预设"锚点"同步机制确保不同方法在子计划执行时序对齐 [21][26] - 成功率基于自动化谓词检测,计划匹配精度评估高层符号计划一致性 [21] Hierarchical Planning & Execution框架 - 高层VLM-Planner低频率处理环境观测生成子目标序列,低层VLA-Controller高频率执行动作指令 [22][26] - 通过Memory Bank共享任务状态与中间子目标,实现自适应replanning [22][26] - 在Memory Execution场景中任务成功率提升幅度超过70% [27] 实验结果 - GPT-4o在规划准确率、任务成功率和计划效率上全面领先,平均成功率16.04% [28][29][30] - 在Memory Exploration阶段,GPT-4o探索成功率80%,探索效率0.32,显著优于Qwen2.5-VL [31] - 在Memory Execution阶段,GPT-4o决策准确率30%,优于Qwen2.5-VL的10% [31]
数据、算法和本体,小白入门很难绕开任何一个部分......
具身智能之心· 2025-06-28 07:48
具身智能技术要素 - 入门具身智能需要三大要素:数据采集+算法+硬件本体,其中数据采集依赖高成本遥操方案(机械臂适用VR+动捕手套方案),算法涉及VLN/VLA/Diffusion Policy/强化学习等技术栈,硬件预算从20-30万专业设备到3D打印自制方案不等 [1] - 数据采集方案中遥操质量最高但成本高,VR遥操+动捕手套适用于人形机器人,需进行前处理和后处理 [1] - 算法技术更新快需持续跟踪paper reading,硬件选择受预算限制明显,仿真环境是低成本替代方案 [1] 社区资源与生态建设 - 社区目标3年内聚集万人规模,已整合40+开源项目、60+数据集及主流仿真平台,覆盖感知/交互/导航等15+技术路线 [9][15][17] - 搭建学术-产业桥梁,成员来自斯坦福/清华等顶尖高校及优必选/小米等头部企业,提供课程/硬件/问答闭环体系 [6][2] - 汇总国内外30+具身公司及零部件品牌,涵盖芯片/传感器/机械臂等供应链资源,配套行业研报与岗位对接 [15][21][17][5] 技术学习体系 - 建立16类专项学习路线,包括强化学习/多模态大模型/机械臂抓取等,配套PDF书籍与开源项目代码 [9][19][23] - 数据集覆盖触觉感知/导航/机械臂控制等8大领域,仿真平台包含通用与真实场景两类解决方案 [27][29] - 直播分享与实时答疑机制支持技术交流,重点探讨sim2real/VLM应用/分层决策等行业难题 [60][12][63] 行业应用方向 - 技术落地聚焦人形机器人模仿学习、视觉-语言-动作模型部署、四足/轮式+机械臂系统开发等前沿场景 [47][56][58] - 研究热点包括Diffusion Policy生成控制、大模型轻量化推理、触觉感知多模态集成等创新方向 [49][52][39] - 产业应用覆盖教育/医疗/物流等7大领域,配套企业招聘与项目对接服务实现生态闭环 [15][5][13]
具身的秋招马上要开始了,去哪里抱团呀?
具身智能之心· 2025-06-28 07:48
行业发展趋势 - 自动驾驶和具身智能成为AI技术发展的主线 支撑了近一半的技术路线和融资金额 [1] - L2~L4自动驾驶功能逐步实现量产 人形机器人和四足机械狗等具身智能产品完成复杂动作演示 [1] - 行业对技术和人才需求旺盛 尤其在自动驾驶、具身智能、3D视觉和机器人领域 [1] 求职社区概况 - AutoRobo知识星球专注于自动驾驶、具身智能和机器人方向的求职交流 成员近1000名 [2] - 成员包括地平线、理想汽车、华为、小米汽车等公司的社招人员以及2024-2025届秋招学生 [2] - 社区提供面试题目、面经、行业研报、谈薪技巧、内推资源和简历优化等服务 [2] 招聘信息 - 日常分享算法、开发、产品等岗位信息 涵盖校招、社招和实习机会 [3] - 寒武纪持续招聘2026届实习生 包括C++开发、PyTorch框架研发和软件测试开发等岗位 [4] 面试资源 - 汇总自动驾驶和具身智能方向的"一百问"系列 涵盖毫米波视觉融合、BEV感知、多传感器标定等核心技术 [6][7] - 具身智能领域包含Occupancy感知、相机标定、端到端自动驾驶等专项问题 [8][12] - 整理社招/校招全流程面经 包括代码题、项目细节和面试复盘 [15][19] 行业研究 - 提供领域研报帮助理解行业发展状态、前景和产业链 如世界机器人报告、中国具身智能创投报告等 [13][14] - 深度分析具身智能技术路线、市场机遇和人形机器人量产硬件等专题 [14] 职业发展支持 - 汇总机器人、自动驾驶和AI类专业书籍 构建知识体系 [18] - 分享谈薪技巧、HR面常见问题和岗位薪资谈判策略 [17][20] - 提供转行经验、面试官建议和岗位技能树等职业指导 [20]
第一篇具身领域论文应该怎么展开?
具身智能之心· 2025-06-27 09:41
论文辅导服务 - 提供前沿论文辅导服务 覆盖多模态大模型 视觉语言动作 视觉语言导航 机器人抓取与导航 具身智能体泛化 3D高斯泼溅 端到端具身智能体 具身合成数据生成等领域 [2][3] - 服务范围包括CCF-A到CCF-C SCI一区到四区 EI 中文核心 毕业论文 申博等 [2] - 提供1V1定制化辅导 从选题创新点挖掘 实验设计 代码调试 论文写作到投稿策略全流程闭环辅导 [4] 导师团队 - 导师团队来自CMU Stanford MIT等名校的PhD及大厂研究员 具有ICRA NeurIPS CVPR等顶级会议审稿经验 [4] - 提供工业界和学术界双视角辅导 不仅关注论文发表 更关注落地价值 如机器人抓取鲁棒性 导航实时性优化等 [4] 优惠活动 - 前50名咨询的同学可免费匹配专属导师 进行深度Meeting 根据研究方向 学术基础 提供会议 期刊选投建议 [5]
ICCV 2025不完全汇总(具身/自驾/3D视觉/LLM/CV等)
具身智能之心· 2025-06-27 09:41
具身智能相关 - GaussianProperty通过LMMs将物理属性整合到3D高斯模型中 [4] - Aether提出几何感知的统一世界建模方法 [4] - A0模型构建了分层架构实现通用机器人操作 [4] - PASG框架实现机器人操作中的几何基元自动提取与语义锚定 [4] - MoMa-Kitchen提供超过10万样本的移动操作导航基准数据集 [4] - OVA-Fields开发弱监督开放词汇affordance场用于机器人部件检测 [4] 自动驾驶相关 - ETA采用双模型架构提升自动驾驶系统效率 [4] - DriveArena构建可控生成式自动驾驶仿真平台 [4] - Epona开发自回归扩散世界模型用于自动驾驶 [4] - SynthDrive建立高保真传感器仿真与驾驶数据合成管线 [4] - StableDepth实现场景一致的单目深度估计 [4] - CoopTrack探索协同序列感知的端到端学习 [4] - U-ViLAR通过可微分关联实现不确定性感知的视觉定位 [4] 3D视觉与点云 - StruMamba3D探索结构Mamba模型用于点云自监督学习 [6] - DiST-4D开发解耦时空扩散模型用于4D驾驶场景生成 [6] - InvRGB+L实现复杂场景的统一颜色与LiDAR反射率建模 [6] - GS-Occ3D利用高斯泼溅扩展纯视觉占据重建规模 [6] - Detect Anything 3D实现野外环境3D物体检测 [6] - PanSt3R保证多视角全景分割一致性 [6] 大模型与生成技术 - 图知识检索与推理方法增强MLLMs处理未知领域能力 [8] - TaxaDiffusion开发渐进式训练扩散模型实现细粒度物种生成 [10] - G2D通过梯度引导蒸馏提升多模态学习效果 [13] - CL-Splats实现高斯泼溅的持续本地优化学习 [13]