Workflow
具身智能之心
icon
搜索文档
我们正在找具身领域的合伙人......
具身智能之心· 2025-10-08 02:49
文章核心观点 - 公司面向全球具身智能领域从业者发出合作邀请,旨在通过多方协作推动行业进步 [1] - 合作旨在响应市场对公司在方案、数据采集、技术升级及企业培训等方面赋能的诉求 [1] 合作方向 - 技术方向涵盖VLA、VLN、Diffusion Policy、强化学习、VLA+RL、遥操作、动捕、sim2real、多模态大模型、仿真、运动控制、端到端、3D感知等前沿领域 [3] - 合作岗位涉及具身课程开发、方案研发、硬件研发以及面向B端(企业、高校、研究院所)和C端(学生、求职人群)的培训合作 [4] 合作模式与资源 - 公司将提供高额酬金与丰富的行业资源作为合作回报 [2] - 具体合作领域包括技术服务、培训、课程开发与科研辅导等 [1]
盘点下国内外那些做具身感知的公司们!
具身智能之心· 2025-10-08 02:49
文章核心观点 - 具身智能已成为全球新焦点 打造通用本体和大脑是创业公司、资本和产业界高度关注的突破方向[2] - 文章旨在全面梳理具身大脑领域国内外知名公司 分析其技术特点、产品布局和应用场景 为行业提供全景图[2] - 重点关注开发机器人"大脑"系统的企业 包括具身大模型、多模态感知决策系统等[3] 国内公司分析 自变量机器人 - 公司成立于2023年 聚焦"通用具身大模型"研发 以真实世界数据为主要来源构建具备精细操作能力的通用机器人[6] - 技术路线偏向"大脑" 坚持走端到端的具身通用大模型路线 成立不到两年已完成8轮融资[6] - 代表成果包括2024年10月推出的WALL-A模型 为全球目前最大参数规模的具身智能通用操作大模型Great Wall系列成员 能整合视觉、语言与运动控制信号实现感知到执行完整闭环[6] - 另一成果为开源具身智能基础模型Wall-OSS 具备强大泛化性和推理能力[6] 星海图 - 公司于2023年9月成立 专注于提供智能导航等大脑相关技术方案 坚持"一脑多形"理念[6] - 通过构建环境地图、路径规划等功能 为机器人在复杂环境中自主行动提供支持[6] - 代表成果为具身基础模型EFM-1 采用"快-慢双系统"模型架构 实现从感知理解到控制的闭环决策[6] 优必选 - 公司成立于2012年 是全球人形机器人商业化领导者 拥有全栈自研能力包括运动控制、关节模组、AI-Embodied系统等[10] - 作为国内人形机器人领域标杆企业 已在全球市场建立广泛品牌影响力和市场份额[10] - 代表成果为2025年自主研发的百亿参数基座多模态大模型Thinker 在机器人感知与规划领域三大国际权威基准测试中斩获四项全球第一[10] - 技术成果包括3D扩散策略DP3 仅需10次人类演示即可让机器人学会复杂操作任务 真实场景成功率高达85%[10] - 空间智能引擎RSR为全球首个real2sim2real引擎 实现低成本三维环境重建与仿真训练[10] 智元机器人 - 公司成立于2023年2月 聚焦AI与机器人深度融合 致力于打造世界级领先的通用具身智能机器人产品及应用生态[10] - 代表成果为2025年3月发布的智元启元大模型 基于Vision-Language-Latent-Action架构 融合多模态大模型与混合专家技术[10] - 该模型具有小样本快速泛化能力 任务成功率较市面模型提升32% 支持"一脑多形"的跨本体应用[10] - "具身智脑"分层系统包括云端超脑、大脑、小脑、脑干等部分 形成完整控制体系[10] 银河通用 - 公司成立于2023年5月 为核心技术与产品构建了三大技术壁垒 在合成数据驱动的多模态大模型方面自主研发全球首个"通用具身大模型"[10] - 采用"大脑+小脑"协同框架[10] - 代表成果包括全球首个端到端具身抓取基础大模型GraspVLA 展示无需大规模真实数据、仅通过合成数据达到基础模型预训练的能力[14] - GroceryVLA模型为首款面向零售商业化的端到端大模型 支持复杂零售场景下的精准商品识别与取送[14] - TrackVLA为产品级纯视觉端到端导航大模型 支持自然语言指令驱动 具备零样本泛化能力[14] 千寻智能 - 公司成立于2024年 为国内领先的AI+机器人全栈生产力级技术能力的具身智能公司 团队成员来自顶尖高校和知名企业[14] - 代表成果为Spirit V1 VLA模型 是国内首个攻克柔性物体长程操作难题的AI模型 通过视觉-语言-动作融合实现自然语言指令驱动的复杂任务[14] 星动纪元 - 公司由清华大学交叉信息研究院孵化 研发具身智能以及通用人形机器人技术和产品 聚焦通用人工智能前沿应用[14] - 代表成果为端到端原生机器人大模型ERA-42 是国内首个端到端原生具身大模型 支持机器人完成超过100种动态任务[14] - 该模型通过视频训练快速学习技能 降低数据采集成本 实现跨任务、跨本体迁移[14] 逐际动力 - 公司聚焦具身智能机器人研发与制造 围绕本体硬件设计制造、基于强化学习的全身运动控制、具身大脑训练范式三大核心技术构建具身Agent开发工具链[14] - 代表成果包括LimX VGM具身智能操作算法 利用视频生成技术推动具身大脑突破[14] - LimX DreamActor为全新具身智能训练范式 首次实现Real2Sim2Real、模仿学习和真机强化学习的深度结合[15] 穹彻智能 - 公司聚焦"以力为中心"的具身智能大模型和相关基础设施研发 为不同行业提供通用机器人智能解决方案[18] - 穹彻具身大脑结合先进算法和数据支持 具备指令推理、任务规划、物体分类、环境感知、自主导航等全闭环能力[18] - 代表成果穹彻具身大脑由实体世界大模型和机器人行为大模型组成 Noematrix Brain 2.0新增实体概念学习能力 支持3D模仿学习框架和视-触觉融合网络[18] 智源研究院 - 成立于2018年11月 核心目标是聚焦人工智能原始创新和核心技术 推动人工智能理论、方法、工具、系统和应用取得变革性、颠覆性突破[18] - 代表成果RoboBrain 2.0是新一代具身视觉-语言基础模型 以70亿和320亿参数的两种规格实现感知、推理与规划能力统一[18] 国外公司分析 Figure AI - 公司成立于2022年 总部位于美国硅谷 致力于开发具备人工智能能力的人形机器人以解决劳动力短缺、危险工作环境和老龄化社会等问题[21] - 代表成果Helix为通用视觉-语言-动作模型 采用独特"双系统"AI架构模仿人类"直觉"和"思考"的认知模式[21] Physical Intelligence - 公司成立于2023年1月 为美国具身大脑初创公司 专注于开发能为各类机器人和机器添加高级智能的软件[24] - 目标创建通用机器人系统的人工智能 将用于构建语言模型的技术与控制和指导机器的技术相结合[24] - 代表成果包括2024年10月31日发布的首个机器人通用基础模型π0 以及近期新开源的π0.5模型 后者采用"知识隔离"训练方法提升开放世界场景泛化能力[24] 谷歌DeepMind - 由DeepMind和Google Brain于2023年合并而成 聚焦通用人工智能研究 致力于开发能理解和适应物理世界的智能系统[24] - 代表成果Gemini Robotics基于Gemini 2.0的视觉-语言-动作模型 可直接控制机器人执行复杂任务 具备通用性、交互性和灵巧性[24] - Gemini Robotics-ER专注于具身推理 Project Astra为概念AI助理 集成Gemini技术通过摄像头和传感器理解物理环境[24] 英伟达 - 全球领先图形处理器设计公司 已发展为涵盖芯片设计、系统平台、软件生态、云计算服务、人工智能解决方案的全栈计算公司[24] - 代表成果Eureka系统基于GPT-4打造 可自动训练实体机器人动作指令 支持30余种复杂动作 具备零样本生成、编写代码和语境改进等能力[24] - GR00T N1开源模型采用双系统架构 包括快速反应的"系统1"和认知决策的"系统2" 实现接近人类运动控制能力[25] Skild AI - 美国领先机器人"大脑"研发企业 目标研发通用机器人操作系统 帮助机器人理解不同应用场景并驱动机器人自主实现智能精细化操作[28] - 代表成果Skild Brain通过摄像头图像和关节反馈直接控制机器人动作 采用分层架构适用于各种四足机器人、人形机器人、桌面机械臂、移动机械手等[28] Covariant - 专注于为机器人构建基础AI模型的公司 技术依赖于机器人与现实世界的交互产生的体验和反馈[28] - 代表成果RFM-1为世界上首个基于真实任务数据训练的机器人大模型 是参数80亿的transformer模型 支持任何模态输入、预测任何模态输出[28] 知名团队研究 - Meta和CMU联合打造RoboAgent 核心在于多任务动作分块Transformer架构 通过在现有机器人经验基础上创建多样化语义增强集合来倍增离线数据集[30] - Stanford李飞飞团队VoxPoser核心思想是利用VLM和LLM常识知识 借助模型生成代码将常识知识映射到三维空间供运动规划器使用 实现零样本合成日常操纵任务轨迹[30]
VLA的基础模型与大规模训练任务汇总
具身智能之心· 2025-10-08 02:49
视觉-语言-动作模型优化 - 机器人思维链推理通过预测中间表征提升策略性能与泛化能力,但存在依赖专用数据和推理速度慢的局限性 [3] - 研究提出推理提升性能的三种机制:更优表征学习、更完善学习课程化、更强表达能力,并设计简化变体验证每种机制作用 [3] - 基于机制理解提出两种轻量级机器人推理替代方案,在LIBERO-90基准实现最先进结果,推理速度较标准方法提升3倍 [3] - 利用视觉语言模型生成反事实标签扩充机器人数据集,解决现有数据语义多样性和语言接地性不足问题 [5] - 反事实重标记方法在无需额外采集数据下,使VLA模型导航任务成功率提升27%,指令跟随能力媲美最先进方法 [5] 机器人脑与操作能力构建 - 多模态大语言模型在机器人长周期操作任务中缺乏规划能力、可供性感知和轨迹预测三大关键能力 [7] - 引入ShareRobot高质量异构数据集,标注任务规划、对象可供性和末端执行器轨迹等多维度信息,基于此开发RoboBrain模型 [7] - RoboBrain结合机器人与通用多模态数据,采用多阶段训练策略,融入长视频和高分辨率图像,在各种机器人任务中实现最先进性能 [7] - 提出DROID大规模机器人操作数据集,包含7.6万条演示轨迹(350小时交互数据),由50名采集者在564个场景中完成86项任务 [9] - 利用DROID训练的策略在性能和泛化能力上均有提升,数据集及学习代码已开源 [9] 视觉表征与技能学习迁移 - 针对具身智能预训练视觉表征的最大规模实证研究构建CORTEXBENCH基准,包含17项任务,发现无单一表征在所有任务中占优 [13] - 整合超过4000小时第一视角视频(含超430万张图像)与ImageNet训练视觉Transformer,发现扩大数据规模多样性不普遍提升所有任务性能但平均有提升 [13] - 规模最大模型VC-1平均性能优于所有现有预训练视觉表征,任务或领域特异性适配可带来显著提升,适配后VC-1在所有基准任务上达到或优于最佳结果 [13] - 提出语义动作流作为中间表示捕捉操作者-物体交互,ViSA-Flow框架从无标签大规模视频数据中自监督学习该表示 [11] - ViSA-Flow在CALVIN基准和真实任务实现最先进性能,低数据情况下通过将知识从人类视频迁移到机器人执行超越现有方法 [11] 通用策略微调与模仿学习 - 通用机器人操作策略微调性能因策略设计选择而有显著差异,包括动作空间、策略头、监督信号及可调参数选择 [15] - 深入实证研究评估每个单一配置2500次rollout,低数据情况下精心选择的微调策略使GMPs显著优于最先进模仿学习算法 [15] - CACTI框架通过数据收集、增强、视觉表征学习和模仿策略训练四阶段实现机器人学习可扩展性,专注于多任务多场景操作 [17] - CACTI在真实机器人设置中训练单一策略完成10项厨房操作任务,在仿真环境中完成18项语义任务(每项100种布局变化) [17] - R3M视觉表示在Ego4D人类视频数据集上预训练,下游机器人操作任务中比从头训练成功率提高超过20%,比CLIP和MoCo提高超过10% [19] - R3M使机械臂在仅20次演示下于真实杂乱公寓环境中学习操作任务,作为冻结感知模块实现数据高效学习 [19]
面试的时候,问到了具身的大小脑算法是什么......
具身智能之心· 2025-10-08 02:49
文章核心观点 - 具身智能技术正经历从低层感知到高层任务理解与泛化的快速演进,其核心架构围绕“大脑”(负责语义理解和任务规划)和“小脑”(负责高精度运动执行)展开[3] - 技术发展已进入第四阶段,业界正探索将视觉-语言-动作模型与强化学习、世界模型、触觉感知等模块融合,以弥补现有模型在反馈、预测和多模态感知方面的局限[9][10] - 随着技术从研究走向产业落地,在工业、家居、餐饮、医疗康复等领域的应用产品及融资活动活跃,导致相关岗位呈现爆发式增长,对工程与系统能力的需求激增[10][14] 具身智能技术细分领域 - 主要细分领域包括仿真、视觉-语言-动作、扩散策略、视觉语言导航、世界模型和强化学习等多个子模块[5] - 视觉-语言-动作和世界模型目前在自动驾驶和具身领域同时发力,代表两个不同的技术路线[5] - 视觉-语言-动作当前研究热点为端到端和分层两种方案,分别基于大模型和扩散技术拓展,视觉-语言-动作+强化学习方案正成为学者探索方向[5] - 扩散策略作为动作模块负责学习具体动作和执行,主要有状态扩散、动作空间扩散、三维空间扩散等多个方向[6] - 仿真技术现聚焦于sim2real和real2sim2real,多家公司认可此方案以解决真机泛化差的问题,而非一味采集真机数据[6] - 视觉语言导航更关注目标导航,与移动操作相关联,map-free方案利于任务泛化[6] 技术演进阶段 - 第一阶段技术研究聚焦抓取位姿检测,通过点云或图像预测末端执行器姿态实现静态物体抓取,但策略多为单步决策,缺乏对任务上下文和动作序列建模[7] - 第二阶段进入行为克隆阶段,机器人借助专家演示数据学习从感知到控制的端到端映射,具备模仿人类完成复杂任务能力,但暴露出泛化能力弱、误差累积等问题[7] - 第三阶段(2023年起)扩散策略方法引入序列建模范式创新,通过扩散模型生成整个动作轨迹,更好捕捉任务执行时序结构与多样性,大幅提升策略稳定性与泛化能力[8] - 第三阶段延续(2024年)随大模型技术发展进入视觉-语言-动作模型阶段,强调多模态协同与任务泛化能力提升,代表性工作如OpenVLA、RT-2、PI0等,支持零样本或小样本快速泛化[8] - 第四阶段(2025年以来)业界与学界探索视觉-语言-动作模型与强化学习、世界模型、触觉感知等模块融合,以弥补当前模型局限[9] 技术融合与能力提升 - 视觉-语言-动作+强化学习结合提升机器人在长时任务中的试错能力与自我改进能力[10] - 视觉-语言-动作+世界模型引入环境动态预测,使机器人具备“想象未来”能力,有助于更高效进行规划与决策[10] - 视觉-语言-动作+触觉信息加入拓展从“看”到“看+触多模态融合”的具身感知边界,推动在复杂、非结构化环境下实现更精细、更安全的操作[10] 产业落地与能力需求 - 技术发展推动人形机器人、机械臂、四足机器人等产品在工业、家居、餐饮、医疗康复等领域落地,相关产品和融资络绎不绝,岗位呈现爆发式增长[10] - 产业界重视促使技术从“论文”走向“部署”,对工程能力提出更高要求,需掌握在Mujoco/IsaacGym/Pybullet等平台完成策略训练与仿真测试[14] - 工程能力需求包括训练并部署扩散策略/视觉-语言-动作/力触融合的视觉-语言-动作模型,实现强化学习在视觉-语言-动作后训练上的应用,以及从世界建模预测到策略学习再到物理执行的一体化架构[14]
普林斯顿大学最新!VLM2VLA:将 VLM 微调为 VLA,并避免灾难性遗忘
具身智能之心· 2025-10-07 10:00
文章核心观点 - 提出一种名为VLM2VLA的创新方法,通过将机器人动作数据转化为自然语言描述,解决了视觉语言模型在微调为视觉语言动作模型时出现的灾难性遗忘问题 [2][3] - 该方法的核心是将低维动作向量转化为与VLM预训练数据分布一致的自然语言,从而仅需使用低秩适应技术进行高效微调,最大程度保留VLM原有的多模态理解和推理能力 [3][4] - 通过超过800次真实机器人实验验证,该方法在保留VLM核心能力的同时,实现了在新任务中的零样本泛化,尤其在多语言指令遵循和开放世界语义推理方面表现显著优于基线模型 [4][17][22] 技术方法 - 采用三级推理过程将动作预测层级化,全部使用自然语言描述:高层子任务预测、中层运动规划和低层动作生成,完全复用VLM的现有词汇表 [6] - 通过Gemini 2.5自动将原始机器人轨迹数据集重构为语言标注数据集,使数据格式与VLM预训练数据保持一致,解决了分布不匹配问题 [9] - 仅使用LoRA对Gemma-3-12B-IT模型的线性层进行微调,关键超参数包括LoRA秩为16、LoRA alpha为32、学习率为5e-5,不修改VLM基础架构且无需联合训练 [12][13] 实验验证与性能 - 在12个VQA基准测试中验证了模型对预训练多模态理解能力的保留程度,证明其有效避免了灾难性遗忘 [15] - 在分布内任务上性能接近基于更大数据集训练的OpenVLA,在复杂多步骤任务中因层级推理优势表现更佳 [17] - 在分布外任务中优势显著,多语言任务成功率依赖保留的语言能力,语义任务依赖预训练的常识推理,如在识别"Ash Ketchum"任务中成功率达60%,而基线模型完全失败 [17][22] 局限性与未来方向 - 自回归生成动作导致推理延迟较高,中位延迟为6.1秒,需优化解码策略 [19] - 当前仅支持平移自由度控制,无法处理旋转等灵巧动作,且模型针对特定机械臂训练,需探索更通用的"动作语言"表示 [22] - 依赖Gemini作为外部验证器判断子任务完成度,未来需将验证能力融入VLM本身,并扩展更大规模的机器人语言标注数据集以提升泛化能力 [19][22]
准备回去卷了......
具身智能之心· 2025-10-07 10:00
行业现状与竞争格局 - 国内从事具身智能本体及相关研究的机器人公司、互联网公司及二级研究院已接近200家,行业参与者众多 [1] - 行业内业务相似度、产品相似度及叙事逻辑均过高,表明行业内部竞争加剧,内卷即将到来 [1] - 部分公司致力于将机器人本体与应用场景结合以验证商业化能力,而另一部分公司则专注于强化本体研发,将场景验证交由开发者,以期在充分验证后集成算法并落地,被视为一种更聪明的长期策略 [1] - 从自动驾驶和大模型的发展周期来看,最终能留存并成为主力的公司是那些能够实现技术落地且技术栈丰富的实体,抱着短期“捞一波”心态的参与者难以持久,行业洗牌是必然趋势 [1] 社区定位与核心价值 - “具身智能之心知识星球”定位为国内首个具身全栈社区,旨在打造一个超大的具身与机器人技术交流平台 [2][11] - 社区致力于满足从初学者到进阶者的需求,解决学习、求职、升学中的实际问题,提供职位内推、辅导及信息建议 [2] - 社区已形成涵盖产业、学术、求职、问答交流等多个领域的闭环生态 [4] - 社区汇聚了来自斯坦福大学、加州大学、清华大学、上海交大、ETH等国内外知名高校实验室,以及智元机器人、有鹿机器人、优必选、小米、逐际动力等头部具身机器人公司的成员 [12] - 社区与近200家具身公司与机构建立联系,拥有近2000名成员,共同交流产业、学术与工程落地 [76] 社区内容与资源体系 - 社区内部梳理了超过30条技术路线,涵盖从Benchmark、综述到学习入门路线,旨在缩短成员检索时间 [4] - 汇总了超过40个开源项目、近60个具身智能相关数据集以及行业主流仿真平台 [12] - 汇总了机器人导航、概率机器人、动力学与运动学等方向的PDF书籍供基础学习 [25] - 汇总了机器人行业知名的零部件制造厂商信息,涉及芯片、激光雷达、相机、IMU、底盘等 [27] - 汇总了国内外具身智能相关的高校实验室与机器人公司,覆盖教育、宠物、工业、救援、物流、交互、医疗等多个方向 [16][17][20] - 汇总了大模型、人形机器人等行业的研报,以便及时了解行业发展与工业落地情况 [22] - 针对机器人仿真、抓取、控制、感知等多个领域汇总了开源项目,助力快速上手 [29] - 汇总了国内外知名ToF厂家、相关产品与技术资料 [31] - 针对数据采集,汇总了遥操作、动作捕捉、AR等方案以及多领域的开源数据集 [32][33][35] - 汇总了通用及真实场景的机器人仿真平台 [37] 技术专题覆盖范围 - **数据采集与生成**:涵盖遥操作算法与硬件、数据生成器与评测基准集 [5] - **灵巧手**:涵盖从硬件结构设计、触觉传感器、自由度到视觉语言动作模型构建等多个维度 [5] - **视觉语言动作模型**:涵盖VLA模型框架、泛化能力提升、安全建模、性能优化及分层模型等前沿进展 [5] - **视觉语言导航**:涵盖新的记忆表征方法及高效的3D视觉定位技术 [5] - **多传感器融合感知**:涵盖视-触/力觉融合的模仿学习框架 [5] - **分层感知与操作**:涵盖基于VLM分层架构的通用灵巧操作方案 [5] - **机器人操作系统与本体**:涵盖大小脑协同、异构多机器人操作系统、错误检测新范式等 [5] - **协同感知**:涵盖协同具身智能基准数据集 [5] - **机器人模型**:涵盖人形机器人运动智能、面向具身的强化微调框架及全球最大的双臂机器人扩散大模型 [5] - **Sim2Real与泛化**:涵盖具身视频基座模型、空间泛化规律及“真实-仿真-真实”统一框架 [5] - **具身世界模型与空间智能**:涵盖跨实体世界模型、4D世界模型、可规模化空间智能及世界增强规划方法 [5] - **触觉感知**:涵盖视触觉仿真平台及视触语言动作大模型初探 [5] - **大模型与规划推理**:涵盖基于任务学习、选择和规划行为的框架 [5] - **大模型推理加速与微调**:涵盖VLA模型的推测解码框架及从动作分布重塑的微调框架 [5] - **强化学习与VLA+RL**:汇总了基于LLM的强化学习、可解释强化学习、深度强化学习主流方案及VLA+RL的最新工作 [39][41][59] - **Diffusion Policy**:汇总了扩散模型设计、任务应用及生成相关内容 [61] - **机器人导航与规划**:关注自动驾驶与机器人应用 [48][63] - **大模型部署**:汇总了部署框架与轻量化方法 [65] - **机械臂抓取**:汇总了相关技术内容 [67] - **足式与移动机器人**:汇总了双足、四足机器人以及四足/轮式+机械臂系统的开源项目、仿真、源码与硬件方案 [69][71] 具体学习路线规划 - 社区提供了包括但不限于以下方向的详细学习路线:具身智能感知、具身智能交互、强化学习全栈、VLN、VA/VLA、多模态大模型理解与生成、Diffusion Policy、多传感器融合标定、机械臂抓取位姿估计与策略学习、大模型与机器人、双足与四足机器人、具身智能与大模型部署、触觉感知、机器人导航、sim2real、具身世界模型、机器人规划控制、数据采集、VLA+RL、real2sim2real等 [12][13][42][44][45][47][50][51][53][55][56][57][66]
最新SOTA!JanusVLN:双重隐式记忆解耦语义与空间,显著降低了计算与推理开销
具身智能之心· 2025-10-07 03:03
文章核心观点 - JanusVLN是一个创新的视觉-语言导航框架,其核心是双重隐式记忆范式,通过解耦语义与空间几何信息来解决现有方法的瓶颈[2] - 该框架仅需单目RGB视频流输入,无需昂贵传感器,即可实现强大的三维空间推理能力,并在权威基准测试中取得领先的性能[2][8] - 该方法标志着视觉-语言导航研究从“2D语义主导”迈向“3D空间与语义协同”的新阶段,为下一代具身智能体的开发指明了方向[19] 当前视觉-语言导航领域的技术瓶颈 - 现有方法依赖的显式记忆机制导致空间信息失真与丢失,难以精确编码连续的空间关系[3][5] - 存储历史图像帧的方法造成计算与推理效率低下,计算量随导航步数线性增长[5] - 无论是文本还是图像形式的显式记忆,其规模都会随导航轨迹延长而持续增长,引发“记忆爆炸”问题[5] JanusVLN的核心技术创新 - 提出双重隐式记忆,将记忆系统解耦为负责理解“是什么”的语义记忆和感知“在哪里”的空间几何记忆,均以神经网络键值缓存作为紧凑载体[7][8] - 集成预训练的3D视觉几何基础模型作为空间几何编码器,仅凭普通RGB视频流即可推断场景三维结构[8] - 采用混合增量更新策略,通过维护初始窗口和滑动窗口实现恒定大小的记忆,避免重复计算,大幅提升推理效率[8][11] 框架构成与工作原理 - 采用双编码器架构,2D视觉语义编码器提取高级语义特征,3D空间几何编码器提取蕴含三维结构的几何特征[11] - 将语义和空间几何编码器的注意力键值对缓存作为隐式记忆的载体,形成紧凑高效的双重记忆[11] - 缓存更新策略结合滑动窗口与初始窗口,滑动窗口确保对近期环境的敏锐感知,初始窗口作为“注意力接收器”提供全局上下文[11] 实验性能与结果 - 在VLN-CE R2R Val-Unseen数据集上,JanusVLN取得了导航误差4.78,成功率65.2,成功路径加权指标56.8的优异性能[13] - 在RxR Val-Unseen数据集上,JanusVLN的成功率达到56.2,成功路径加权指标47.5,标准化动态时间规整指标62.1[14] - 与依赖全景视图、深度图等多种昂贵输入的先进方法相比,JanusVLN仅凭单目RGB输入就在成功率指标上实现10.5-35.5个点的巨大提升[21] - 相较于同样使用RGB输入但采用显式记忆的先进方法,JanusVLN在成功率指标上取得3.6-10.8个点的提升,且使用更少的辅助训练数据[21]
具身研究的第一套机械臂,老师给我推荐了这款,好用性价比高!
具身智能之心· 2025-10-07 03:03
产品定位与核心价值 - 产品是面向具身智能科研领域打造的轻量级高性价比机械臂,旨在解决该领域硬件价格过高或性能不足的痛点 [1][2] - 产品定位为低成本解决方案,可完成具身领域论文验证和科研场景开发,满足大多数从业人员和科研工作者的需求 [2] - 专为教育、科研与轻工业场景设计,融合高精度运动控制、低功耗设计与开放软硬件架构 [4] 核心性能参数 - 机械臂本体重量为4.2千克,额定负载为3千克,具备6个自由度,工作半径为612.5毫米 [7][17] - 重复定位精度达到±0.1毫米,供电电压为24V,控制器为PC,材质为铝合金 [7][17] - 关节运动范围覆盖J1关节-165°至165°,J2关节-180°至0°,J3关节-0°至180°,J4关节-95°至86°,J5关节-90°至90°,J6关节-150°至150° [17] - 关节运动最大速度分别为J1 180°/秒,J2 180°/秒,J3 180°/秒,J4 220°/秒,J5 220°/秒,J6 220°/秒 [17] 技术优势与开发生态 - 提供从数据采集、模型训练到推理部署的全流程工具链和代码,目前开放ACT算法示例,支持视觉、力控等多模态数据融合 [15][30] - 兼容TensorFlow、PyTorch等主流框架,提供URDF模型,支持Gazebo和主流仿真环境与真机实时联动,实现仿真到真机的无缝联调 [15] - 提供C++、Python开发接口,同时支持ROS1和ROS2开发,后期将陆续升级更新VLA、VA相关源码 [16][17] - 提供完整的开源软件开发工具包,包含驱动程序、API接口、示例代码与文档 [24] 产品配套与服务支持 - 产品交付周期为1-2周,售后响应及时,非人为损坏质保半年,质保期后按市场价支付售后费用 [42][43] - 提供快速响应的售后和生态服务,承诺24小时内响应,支持批量采购并享有更多优惠力度 [17] - 公司支持基于本产品的项目开发、教学培训等服务 [17]
“盲眼”机器人在完全看不见的情况下30秒跑酷首秀惊艳!
具身智能之心· 2025-10-07 03:03
文章核心观点 - 亚马逊机器人团队FAR发布首个名为OmniRetarget的人形机器人研究成果,该技术能在完全无视觉感知的情况下完成复杂任务[2][9] - OmniRetarget是一个开源数据生成引擎,通过交互网格方法将人类演示转化为高质量机器人运动参考,实现从仿真到硬件的零样本迁移[12][13] - 该技术在运动学质量和下游策略性能上全面领先现有基线方法,成功率领先10%以上[16][42] 技术原理与方法 - 核心技术是基于交互网格的动作重定向方法,通过建模机器人、物体和地形之间的空间和接触关系来保留必要交互[15] - 交互网格被定义为一个体积结构,通过德劳内四面体化构建,并最小化拉普拉斯形变能量来保持空间关系[19][21][22] - 采用顺序二次规划风格的迭代方法求解约束非凸优化问题,保证时间连续性和平滑性[23][24] - 通过参数化改变物体配置、形状或地形特征,将单个人类演示转化为丰富多样的数据集[28][32] 性能表现与实验结果 - 在机器人-物体交互任务中,OmniRetarget的下游强化学习策略成功率达到82.20% ± 9.74%,显著高于基线方法[41] - 在机器人-地形交互任务中,成功率进一步提升至94.73% ± 22.33%[41] - 在完整增强数据集上训练的成功率为79.1%,与仅使用标称动作的82.2%相近,表明增强方法能扩大动作覆盖范围而不显著降低性能[39] - 在运动学质量指标上,OmniRetarget在穿透、脚部打滑和接触保留方面整体优于所有基线方法[41] 团队背景与发展前景 - 研发团队Amazon FAR成立仅七个多月,由华人学者领衔,负责人Rocky Duan来自著名机器人技术公司Covariant[43][48] - 团队核心成员包括UC Berkeley的Pieter Abbeel等机器人领域知名学者[44][45] - 这是亚马逊在人形机器人(足式)领域的首次尝试,展示了公司在机器人技术方面的强大研发能力[49][50]
具身智能之心招募合作伙伴了!课程开发/培训/论文辅导等
具身智能之心· 2025-10-06 02:35
文章核心观点 - 公司致力于构建一个为具身智能行业创造持续价值的平台 并寻求在课程研发 论文辅导 咨询服务 企业培训 学科共建 硬件研发等多个方向展开合作 以推动行业发展 [1] - 公司邀请具备领域工程经验或博士及以上学历的专业人士加入合作 提供行业有竞争力的报酬和行业资源 [7][8] 合作内容 - 课程开发与论文辅导 旨在搭建使初学者受益的课程 覆盖C端用户 企业培训和高校学科建设 [2][3] - 硬件研发 目标是构建好用且性价比高的具身智能科研平台 使其对开发者和初学者都易于使用 [4][5] - 咨询和培训服务 包括承接B端和C端在具身数据 本体 算法和部署等方面的咨询 以助力产业升级和人才发展 [6][7]