Workflow
具身智能之心
icon
搜索文档
具身智能之心多模态大模型交流群成立啦!
具身智能之心· 2025-07-12 13:59
具身智能技术交流群 - 该群专注于多模态大模型技术交流 包括视觉+语言(V+L) 视觉+语言+触觉(V+L+触觉)等方向 [1] - 目标人群为从事具身智能模型微调 部署 量化 轻量化等工作的研究人员 [1] - 提供微信交流群加入渠道 并设有严格的广告管理规则 [1] - 群满后可联系助理CLmovingup 需备注"具身大模型+入群"申请加入 [1] 技术研究方向 - 重点关注具身智能相关模型的优化与应用 包括模型微调 部署实施 量化处理 轻量化设计等 [1] - 交流内容涵盖多模态大模型的前沿技术 特别是视觉与语言 触觉等多感官融合领域 [1]
倒计时2天,即将开课啦!从0基础到强化学习,再到sim2real
具身智能之心· 2025-07-12 13:59
具身智能技术发展 - 具身智能技术正在快速成为现实 全球顶尖科技公司如Tesla、Boston Dynamics、OpenAI、Google等都在布局这一领域 该技术将彻底改变制造业、服务业、医疗健康、太空探索等行业 [1] - 具身智能的核心在于让AI系统不仅拥有"大脑" 还要拥有能够感知和改变物理世界的"身体" 使其能够理解物理定律、掌握运动技能、适应复杂环境 [1] - 该技术的应用场景包括工厂精密装配、医院手术协助、家庭贴心服务、危险环境救援等 潜在影响力是革命性的 [1] MuJoCo技术优势 - MuJoCo是连接虚拟世界与现实世界的重要桥梁 为机器人学习提供高保真、高效率的训练环境 [3] - 相比传统方法 MuJoCo可使仿真速度比现实时间快数百倍 支持高度并行化计算 可同时运行成千上万个仿真实例 [5] - MuJoCo采用先进接触动力学算法 精确模拟机器人与环境的复杂交互 提供视觉、触觉、力觉等多种感知模态 具有出色稳定性和数值精度 [5] 行业应用与认可 - MuJoCo已成为学术界和工业界标准工具 大量前沿研究基于MuJoCo进行 Google、OpenAI、DeepMind等科技巨头都在使用该技术 [7] - 掌握MuJoCo意味着站在具身智能技术最前沿 拥有参与技术革命的入场券 [7] 课程内容设计 - 课程采用项目驱动学习方式 包含六个递进式实战项目 从机械臂控制到人形机器人行走、灵巧手抓取、多智能体协作等前沿应用 [9][15] - 项目一:智能机械臂控制系统 涉及MuJoCo建模、物理仿真、基础控制等技术 构建六自由度机械臂模型 [17][18] - 项目二:视觉引导的抓取系统 添加视觉感知能力 实现物体检测和抓取 理解感知与控制的关系 [19] - 项目三:强化学习驱动的运动技能 训练智能体学会复杂运动技能 如机械臂抛接球、四足机器人奔跑等 [20] - 项目四:自适应控制与轨迹优化 实现模型预测控制算法 进行实时轨迹优化 [21] - 项目五:多机器人协作系统 设计多机器人协调配合 共同完成复杂任务 [22] - 项目六:Sim-to-Real迁移验证 通过域随机化技术提高鲁棒性 在真实机器人上进行验证 [23] 技术能力培养 - 课程将培养学员掌握MuJoCo各项功能 构建复杂机器人仿真环境 实现高保真物理交互 [25] - 深入理解强化学习核心算法 掌握机器人控制理论基础和实践技巧 实现精确运动控制和轨迹跟踪 [25] - 掌握Sim-to-Real迁移技术 将仿真成果成功应用到真实世界 [25] - 培养完整项目开发经验 熟悉现代AI开发工具链 包括Python生态、深度学习框架等 [25] - 通过六个递进式项目实践 培养独立解决复杂问题的能力 成为具身智能领域复合型人才 [26] 课程安排 - 课程采用六周渐进式学习设计 每周有明确学习目标和实践项目 [14] - 每周内容:MuJoCo基础入门、高级建模与传感器集成、强化学习与智能决策、机器人控制理论、多智能体系统、Sim-to-Real迁移 [17] - 开课时间为2025年7月15日 采用离线视频教学 vip群内答疑方式 [27] 目标人群 - 机器人/强化学习方向研究生、本科生 期望快速补齐实战能力 [29] - 具身与机器人从业者 已有编程或算法基础 想进军该领域 [29] - 从传统CV、自动驾驶、机械臂转向具身机器人研究或工程的转行者 [29] - 对前沿技术感兴趣的爱好者 [29]
武汉大学&北理工等SOTA方案!DEGround:增强具身三维环境中的语境理解
具身智能之心· 2025-07-12 13:59
3D Grounding模型性能问题 - 当前主流的两阶段3D Grounding模型在实证中表现不佳,未达到预期效果,反而未接受语言监督、仅依赖目标类别筛选的检测模型在Grounding任务中表现更优[2] - 实验结果显示,仅通过关键词匹配的简单策略在性能上超越了经过完整语义解析训练的Grounding模型,暴露出当前模型在物体类别识别层面的短板[2] DEGround设计理念与方法架构 - DEGround通过共享查询机制实现检测能力向Grounding任务的自然迁移,采用RAG模块增强语言语义与空间区域的对齐能力,并引入QIM模块提升查询对指令的适应性[4][6] - RAG模块通过跨模态语义对齐与空间显著性建模锁定目标区域,QIM模块利用语言引导的特征变换动态调整查询表示空间[12] DEGround性能表现 - 在EmbodiedScan视觉定位基准上,DEGround以71.42%的Easy@0.25分数和60.99%的Hard@0.25分数排名第一,显著超越第二名BIP3D的71.22%和62.91%[5] - 在3D检测任务中,DEGround实现24.68%的整体性能,相比BIP3D的20.91%提升3.77个百分点,在Head类别上达到34.45%的检测率[10][11] - 在EmbodiedScan测试集中,DEGround以62.18%的Overall分数超越使用更强视觉主干网络(Swin-T)的BIP3D(54.66%)[9] 可视化与语义理解优势 - 可视化结果显示DEGround能精准识别复杂指令中的目标物体,如"find the ball that is near the paper",而基准模型EmbodiedScan出现误选[13] - 在涉及空间关系的指令处理中,DEGround能准确区分干扰物并锁定目标,展示出更强的语义理解与空间推理能力[13] - RAG模块生成的区域相似度图证实其能有效激活与语言描述高度相关的空间区域[15] 技术突破与行业影响 - DEGround的统一架构实现多模态多视角输入的融合,构建同时包含空间结构与语义信息的三维特征表达[12] - 该方法在CVPR 2024 Autonomous Grand Challenge的Multi-view 3D Visual Grounding赛道全面超越DenseGrounding等现有方案[9] - 框架在ScanNet(65.03%)和3RScan(65.98%)数据集上表现尤为突出,显示对复杂室内场景的强适应能力[9][10]
从本体到数据,从VLA到VLN!一个近2000人的具身社区,大家在这里抱团取暖
具身智能之心· 2025-07-11 09:47
具身智能社区发展 - 社区成立三周年,当前重点推进具身智能方向,目标将社区规模扩展至2000人[1] - 已见证ACT、RDT-1/RDT-2、CogACT、OpenVLA、π0、π0.5等系列技术成果推出,显示领域发展迅速[1] - 社区成员包括学术研究者和求职者,提供30+技术路线梳理,覆盖benchmark检索、综述学习等需求[1] 社区资源与支持 - 邀请数十位产业界与学术界嘉宾参与,涵盖顶会专家和行业领袖,提供实时答疑[1] - 建立与近200家具身公司的内推合作机制,直接对接求职需求[2][5] - 汇总40+开源项目、60+数据集及主流仿真平台,技术路线包括强化学习、多模态大模型等12个细分领域[11] - 提供国内外高校实验室及头部公司名录,涉及斯坦福、清华、智元机器人等200+机构[11][14][17] 技术内容体系 - 按应用场景分类技术路线,包括机械臂抓取、机器人导航、Diffusion Policy等25个方向[11][35][37][51] - 整理行业研报、零部件品牌(芯片/激光雷达等)、机器人书籍及仿真平台资源[19][22][24][31] - 数据集覆盖触觉感知、视觉语言导航等8类任务,支持算法训练与验证[29] 会员服务与活动 - 定期举办圆桌论坛与直播,主题涵盖本体设计、算法优化等全产业链议题[1][64] - 提供专属学习视频、岗位推荐及项目对接服务,日均成本低于0.5元[16][71] - 社区互动案例:协助学生规划仿真环境项目,优化实习申请策略[68][69]
从近30篇具身综述中!看领域发展兴衰(VLA/VLN/强化学习/Diffusion Policy等方向)
具身智能之心· 2025-07-11 00:57
具身智能研究综述 - 文章整理了数十篇具身智能领域的综述论文,涵盖数据集、评测、视觉-语言-动作模型(VLA)、视觉语言导航(VLN)、强化学习、基础模型和扩散策略(DP)等方向 [1] 视觉-语言-动作模型(VLA) - 从动作标记化视角综述VLA模型的发展 [2] - 自动驾驶领域的VLA模型应用现状 [2] - VLA模型后训练与人类运动学习的类比研究 [2] - 探讨VLA模型的概念、进展、应用与挑战 [5] - 机器人视觉中的多模态融合与VLM应用 [6] 机器人基础模型 - 机器人领域基础模型的应用现状与未来挑战 [3] - 深度强化学习在机器人领域的实际应用案例 [3] - 扩散策略在机器人操作中的分类与发展方向 [3] - 面向具身AI的机器人基础模型研究进展 [9] 工业机器人技术 - 具身智能工业机器人的概念与技术框架 [4] - 受神经科学启发的具身智能体框架Neural Brain [4] 机器人导航与操作 - 物理模拟器在具身AI时代的机器人导航与操作应用 [5] - 目标导向导航的多模态感知技术 [5] - 扩散模型在机器人操作中的应用现状 [5] - 基于模仿学习的灵巧操作技术综述 [5] - SE(3)等变机器人学习与控制方法 [6] 多模态大模型 - 具身多模态大模型的发展与数据集建设 [8] - 大模型在具身AI中的研究挑战 [8] - 网络视频数据在通用机器人学习中的应用 [9] 数据集与评测 - 通用型具身智能体数据集标准建设 [9] - 人形机器人远程操作技术研究 [9]
DreamVLA:全球首个“世界知识预测”VLA模型,操作成功率近八成
具身智能之心· 2025-07-10 13:16
研究背景与动机 - 视觉-语言-动作(VLA)模型在机器人操作领域展现出潜力,但现有方法存在信息冗余、缺乏动态和空间知识等问题,难以形成闭环的感知-预测-动作循环 [3] - 人类行动前会形成多模态推理链,而现有VLA模型直接从观测映射到动作,缺乏前瞻推理能力 [3] - 部分方法尝试生成未来帧或关键点辅助动作预测,但仍存在像素冗余、3D空间信息缺失和高层语义不足等局限 [3] 模型设计核心思路 - DreamVLA通过预测动态区域、深度和语义三类核心世界知识,构建更有效的感知-预测-动作循环 [4][5] - 动态区域预测利用光流模型识别任务关键运动区域,避免冗余帧重建,优化目标为最大化对数似然的证据下界 [4] - 深度感知预测采用深度估计算法生成深度图,提供3D空间上下文,通过尺度归一化均方误差训练 [5] - 高层基础特征整合DINOv2和SAM等视觉基础模型的语义特征,通过InfoNCE损失进行对比语义预测 [5] 结构注意力与动作生成 - 块结构注意力机制将查询分解为动态、深度、语义三个子查询,屏蔽子查询间相互注意力,避免跨类型知识泄露 [6] - 采用扩散Transformer解码器从共享潜在特征中分离动作表示,通过迭代自注意力和去噪过程生成动作序列 [8] 实验结果与分析 - 在CALVIN模拟基准上,DreamVLA平均任务长度达4.44,超过RoboVLM(4.25)和Seer(4.28)等方法 [9][10] - 真实世界实验中,DreamVLA在Franka Panda机械臂任务中平均成功率达76.7%,显著高于Diffusion Policy(50.8%)和Octo-Base(45.0%) [10] - 消融实验显示动态区域预测单独使用时增益最大,深度和语义线索增益较小但接近 [11] - 预测未来知识的性能(平均长度4.44)显著优于仅重建当前信息(4.14) [12] - 块结构注意力使平均任务长度从3.75提升至4.44,证明其在抑制跨信号干扰中的有效性 [13] 核心贡献与局限 - 将VLA模型重构为感知-预测-动作模型,通过预测动态、空间和高层语义信息提供前瞻线索 [16] - 提出块结构注意力机制结合扩散Transformer解码器,实现连贯的多步动作推理 [16] - 当前主要适用于平行夹爪操作,依赖RGB数据,场景几何和材料多样性有限 [15]
CEED-VLA:实现VLA模型4倍推理加速,革命性一致性蒸馏与早退解码技术!
具身智能之心· 2025-07-10 13:16
视觉语言动作模型(VLA)加速技术 - 提出CEED-VLA框架,通过Jacobi Decoding和Early-exit Decoding策略实现推理速度提升,最高达4.1倍加速比和执行频率4.3倍提升 [2][6][15] - 引入一致性蒸馏机制与混合标签监督方法,确保学生模型从中间状态准确预测动作,保留操作技能 [9][11][13] - 识别Jacobi解码迭代效率瓶颈,通过提前退出策略优化高频任务执行,保持成功率的同时减少冗余计算 [15][20] 模型架构与训练方法 - 框架基于预训练VLA模型(如LLaVA-VLA)生成训练数据,结合一致性损失(KL散度)和自回归损失进行联合优化 [6][12][14] - 混合标签监督动态调整样本标签,对偏差较大样本采用真实标签,提升模型鲁棒性 [13][19] - 消融实验显示混合标签方案速度提升2倍,平均预测长度3.67,优于纯教师模型或真实标签方案 [19][21] 性能评估结果 - 在CALVIN基准测试中,CEED-VLA固定token数达13.5,速度提升2倍,显著优于PD-VLA(8.75 token,1.33倍)和基线模型 [20] - 真实世界任务(如叠毛巾)成功率超70%,机械臂动作连续性优于LLaVA-VLA,后者因低频控制常出现抓取失败 [30][31] - LIBERO LONG基准测试显示,模型在长序列任务中保持高效执行,任务完成率与推理速度同步优化 [22][23] 技术对比与创新 - Jacobi解码并行输出token但收敛条件严格,Early-exit策略通过预设步数提前输出,利用后期token变化微小特性提升效率 [15] - 一致性训练使中间点收敛至固定点,KL散度约束分布差异,自回归损失继承教师模型能力 [9][12][14] - 开源代码与Arxiv论文提供完整实现细节,包括轨迹收集、蒸馏流程和解码优化 [4][6]
双非同学竟然是这样发第一篇CVPR的!
具身智能之心· 2025-07-10 13:16
论文辅导服务案例 - 双非硕士生在无导师指导情况下通过10个月辅导成功发表CVPR25论文 成为学院首位CVPR发表者 [1] - 成功关键因素包括学生主动寻求外部辅导 以及自身勤奋刻苦的研究态度 经常工作至凌晨 [1] - 案例证明无人指导时主动行动的重要性 被动等待可能导致错过发表机会 [1] 服务内容与方向 - 提供从研究构思到实验设计、论文写作到投稿的全流程一站式服务 [1] - 覆盖多个前沿技术领域包括大模型、视觉语言导航、强化学习、机器人控制等16个具体研究方向 [1] - 支持带课题咨询 满足各类论文发表需求 [1] 服务分级与定价 - 按论文级别提供差异化定价服务 [2] - 涵盖计算机领域CCF-A/B/C类会议期刊 [2] - 服务范围包括SCI各分区期刊 中科院分区期刊 EI检索及中文核心期刊 [2] - 同时支持毕业论文、申博论文及竞赛论文等需求 [2]
MuJoCo实战教程即将开课啦!从0基础到强化学习,再到sim2real
具身智能之心· 2025-07-10 08:05
具身智能技术发展现状 - 全球顶尖科技公司如Tesla、Boston Dynamics、OpenAI、Google等正在竞相布局具身智能领域,代表性产品包括Optimus人形机器人、Atlas、机械手和RT-X项目 [1] - 具身智能的核心在于让AI系统不仅拥有"大脑",还具备感知和改变物理世界的"身体",能够理解物理定律、掌握运动技能并适应复杂环境 [1] - 该技术将革命性改变制造业、服务业、医疗健康、太空探索等多个行业,应用场景包括精密装配、手术协助、家庭服务和危险环境救援 [1] MuJoCo技术的关键作用 - MuJoCo(Multi-Joint dynamics with Contact)是连接虚拟与现实世界的重要桥梁,为机器人学习提供高保真、高效率的训练环境 [3] - 解决了传统机器人学习方法的痛点:避免昂贵硬件损坏、加速学习过程(仿真速度比现实快数百倍)、支持极端情况测试 [5] - 技术优势包括:先进的接触动力学算法、高度并行化计算、丰富的传感器模型(视觉/触觉/力觉)、出色的稳定性和数值精度 [5] - 已成为学术界和工业界标准工具,被Google、OpenAI、DeepMind等科技巨头广泛使用 [7] 具身智能实战课程体系 - 课程采用六周模块化设计,包含MuJoCo基础、高级建模、强化学习、机器人控制、多智能体系统和Sim-to-Real迁移等完整知识体系 [13][17] - 设计了六个递进式实战项目:智能机械臂控制(六自由度模型/PID控制器)、视觉引导抓取系统、强化学习运动技能、自适应控制(MPC算法)、多机器人协作、Sim-to-Real迁移验证 [16][18][19][20][21][22] - 教学特色:项目驱动学习、中英双语资料、真实产业应用场景、多难度级别设计、完整工具链实践(PyTorch/Stable Baselines3) [9][10][22] 技术能力培养目标 - 技术能力:掌握MuJoCo高级功能、强化学习核心算法、机器人控制理论和Sim-to-Real迁移技术 [24] - 工程能力:具备完整项目开发经验,熟悉AI工具链(Python生态/深度学习框架),培养代码规范、文档编写等专业素养 [24] - 创新能力:通过六个项目培养需求分析、方案设计、实施验证、迭代优化的完整研发流程,成为复合型人才 [25] 目标受众与课程安排 - 主要面向四类人群:机器人从业者、相关领域学生、行业转行者和技术爱好者 [28] - 课程将于2025年7月15日开课,采用6周离线视频教学+vip群答疑模式 [26]
找了具身算法岗位!怎么过HR面试这关?如何谈薪和battle?
具身智能之心· 2025-07-10 03:36
HR面试要点 HR考察核心 - HR最看重候选人的稳定性、忠诚度、合作能力、沟通能力、良好态度和责任感 [1] - 具体评估维度包括:工作稳定性(避免频繁跳槽)、逻辑思维与临场反应、乐观团队意识、抗压能力、沟通协作能力 [5] 常见问题分类 沟通与综合能力 - 自我介绍需逻辑清晰、突出优势,采用总分结构 [2] - 优缺点回答需真诚谦虚,技术类缺点可提及"爱钻牛角尖"等中性表述 [2] 稳定性评估 - 离职原因需客观被动(如公司业务调整),避免负面评价前公司 [3] - 求职动机需结合应聘公司特点,强调成长机会与公司发展契合度 [3][6] 冲突处理与态度 - 与主管分歧时需从自身找原因,强调全局观和公司利益优先 [4][6] 薪资谈判技巧 - 期望薪资可参考岗位范围并上浮2k-3k,需提前了解薪资架构(绩效、五险一金基数等) [7] - 持有多个offer可增加谈判筹码 [7] 具身智能行业资源 技术社区概况 - 具身智能之心知识星球覆盖国内外近200家高校与企业,包括斯坦福、清华、优必选、小米等头部机构 [14] - 提供40+开源项目、60+数据集及20+技术路线,涵盖感知、交互、强化学习、大模型部署等领域 [14][15] 核心资源分类 学习体系 - 技术路线包含机械臂策略学习、触觉感知、Diffusion Policy等16个专项方向 [14][39][40] - 提供机器人导航、动力学等专业书籍PDF及仿真平台资源 [26][27][37] 产业应用 - 汇总30家头部公司研报及零部件供应商(芯片、激光雷达等) [21][23][29] - 开源项目覆盖抓取、控制、VLA模型等应用场景 [31][54][65] 数据与工具 - 多模态数据集涵盖触觉感知、机械臂抓取等垂直领域 [35] - 仿真平台支持Sim2Real迁移学习与真实场景模拟 [37][62] 社区附加价值 - 提供行业直播、求职对接及项目方案指导 [71][73] - 成员可获取企业岗位内推及研究方向选择建议 [19][74]