具身智能之心
搜索文档
独家|穹彻智能获阿里新一轮融资,上交教授卢策吾领衔,突破无本体数据采集,打通具身智能全链路
具身智能之心· 2025-10-17 07:46
融资与资金用途 - 公司于近期完成新一轮融资,投资方包括阿里巴巴集团以及多位老股东追投 [2] - 本轮融资资金将用于加速技术产品研发、具身应用落地和行业生态拓展 [2] - 公司成立于2023年底,此前已完成数亿元Pre-A++轮及Pre A+++轮融资 [4] 技术与产品进展 - 公司快速迭代自研的实体世界大模型和“以力为中心”的具身智能大模型 [4] - 于今年推出穹彻具身大脑升级版产品Noematrix Brain 2.0 [4] - 在关键技术领域取得进展,包括无本体数据采集方案、通用端到端模型方案以及人机协作的规模化部署系统 [4] - 致力于打通从数据采集、模型预训练到后训练的完整技术链 [4] - 公司核心技术为基于力的具身智能大脑技术,突破传统轨迹控制框架 [8] - 构建了覆盖感知、认知、规划与执行的全链路自主决策体系 [8] - 依托多模态大模型与力觉数据积累,实现对物理世界的高维理解和柔性操作 [8] 商业化与合作伙伴 - 公司已与零售、家居领域多家头部企业达成合作 [6] - 合作旨在推进软硬件一体化具身智能解决方案的批量交付 [6] - 未来将依托大模型产品和数据至模型闭环能力,持续提供创新实用的解决方案 [6] - 公司具备从技术研发到商业化交付的全栈能力 [8] 管理与团队 - 公司由具身智能领域领军人物卢策吾教授带领,兼具学术高度与产业经验 [8]
VLA可以赋于强化学习更智能的场景应用......
具身智能之心· 2025-10-17 04:01
强化学习在机器人领域的应用 - 强化学习是具身智能机器人(如人形、四足机器人)实现步态控制等复杂任务的核心技术,赋予产品适应救援、测量、危险环境的能力 [3] - 机械臂的视觉语言动作模型与强化学习结合方案在学术领域越来越受欢迎,使机器人执行任务更高效顺畅 [4][9] 论文辅导课程核心信息 - 课程目标为帮助学员产出一篇符合RAL/ICRA/IROS/CoRL等顶级会议或期刊要求的论文初稿,涵盖论文IDEA确认、项目实现、实验指导、写作润色全流程 [8][10] - 课程周期为14周核心在线集中辅导加8周维护答疑,采用6人小班制,配备专属助教 [8][10][18] - 课程提供四足机器人、人形机器人、机械臂、VLA+RL四个大方向的可创新研究idea,每个题目均配备场景与基线代码 [19][30] 课程内容与产出 - 课程基于最新的Isaac Lab等仿真训练环境,提供SAC/PPO/BC/Diffusion Policy等基线代码,并涵盖sim2real/real2sim2real完整技术流程 [18][19][23] - 学员将完成从强化学习基础、仿真环境搭建到具体机器人任务训练(如复杂地形行走、灵巧操作)的系列实战,最终交付论文初稿v1.0及定量分析报告 [23][24][29] - 课程评测标准包括成功率、能耗、步态、接触冲击、鲁棒性等指标,并要求进行不少于5次随机种子的统计显著性检验流程 [19] 师资与特色 - 授课导师为来自美国顶尖高校的博士后研究员,在RSS、ICRA、IROS、RAL等顶级会议期刊有发表经验并担任审稿人 [27] - 课程特色为科研全闭环陪跑,包括每周里程碑、组会、代码/实验复盘、写作修改建议,结营后提供8周论文维护支持(补实验、改图、润色与审稿回复) [18][25][36]
AIR科研|X-VLA重磅开源,全面刷新机器人基准性能记录
具身智能之心· 2025-10-17 00:04
核心观点 - 清华大学智能产业研究院与上海人工智能实验室联合发布全开源通用跨本体具身基座模型X-VLA,该模型以仅0.9B的参数量在五大权威仿真基准上实现性能突破,并成功完成120分钟无辅助自主叠衣任务,为行业提供了新的技术范式 [3][8] 核心亮点 - 性能突破:模型率先实现超长时序灵巧操作任务(如自主叠衣)的全流程开源,攻克长期复杂自主作业难题 [8] - 极致高效:仅0.9B超轻量参数即在五大仿真基准上实现SOTA性能,达成卓越的效费比 [8] - 创新技术:通过Soft-Prompt与定制化训练范式打破大规模异构数据训练难题,构建高效通用的跨本体基座模型 [8] - 开源开放:完整公开模型参数、代码与训练数据,助力行业复现与创新 [7][8] 高效模型设计 - 面向本体泛化的Soft-Prompt机制:通过可学习的Soft-Prompt动态编码机器人硬件配置信息,增强模型对异构机器人平台的适应能力并提升混合数据训练稳定性 [10] - 基于功能分工的多模态编码策略:主视角图像由高性能视觉-语言模型编码以提取高层语义特征,辅助视角则通过轻量化网络进行局部特征提取,优化计算资源分配 [10] - 基于flow-matching的生成式动作解码器:采用概率生成方式建模机器人动作序列,增强动作轨迹平滑性与对环境不确定性的鲁棒性 [10] 大规模高质量异构数据预训练 - 实施平衡化数据采样策略,确保异构数据集的均衡训练,避免模型偏斜 [12] - 建立多模态数据清洗与时空对齐流水线,将动作数据统一映射至标准任务空间并进行时序对齐与重采样,提升数据质量 [12] - 确立以语义-动作对齐为导向的数据遴选标准,筛选视觉帧清晰、语言指令精准且与动作序列高度关联的样本,确保模型学习明确因果关系 [12] 定制后训练流程与技巧 - 预训练缩放定律曲线呈现优异线性增长趋势,表明模型性能随参数和数据规模扩大可稳定提升,验证了架构的可扩展性 [15] - 后训练阶段展现出极高数据效率与稳定性,仅需中小规模场景专属数据微调即可快速适应下游任务并达到SOTA性能 [16] - 采用分层分组的自适应学习率调整和面向异构模块的渐进式warm-up策略,保证训练稳定性并优化收敛效率 [17] 仿真基准测试结果 - 在五大权威仿真基准(包括LIBERO、SIMPLER等)上全面超越现有SOTA模型 [18] - 具体性能表现:在Simpler基准的VM任务上达到80.4%,VA任务上达到75.7%,WidowX任务上达到95.8%;在LIBERO基准的Spatial任务上达到98.2%,Object任务上达到98.6%,Goal任务上达到97.8%,Long任务上达到97.6%,平均达到98.1%;在Calvin基准的ABC -> D任务上达到4.43;在RoboTwin-2.0基准的Easy任务上达到70.0%,Hard任务上达到39.0%,平均PS达到51.1%;在NAVSIM基准的PDMS任务上达到87.3% [18] 实机实验测试结果 - 在真实机器人平台上,模型在常规抓取和复杂桌面操作任务中展现强大性能,并成功完成不限时长的自主叠衣任务 [19] - 模型具备零样本迁移部署至全新环境的能力,展示了其应对复杂长程任务的卓越能力 [19]
仅用三五条样本击败英伟达,国内首个超少样本具身模型登场
具身智能之心· 2025-10-17 00:04
文章核心观点 - 国内通用具身智能公司中科第五纪发布了新一代具身操作基础模型FiveAges Manipulator-1(FAM-1),该模型是国内首个少样本通用具身操作基础模型 [2][5] - FAM-1模型在少样本学习、跨场景适应及复杂任务理解方面实现重大突破,仅需3-5条机器人数据/任务即可完成精准具身操作学习,成功率高达97%并全面超越SOTA模型 [5] - 该模型的核心架构源于团队入选NeurIPS 2025的论文《BridgeVLA》,首次实现了大规模视觉语言模型与三维机器人操作控制之间的高效知识迁移与空间建模融合 [5] 模型技术创新 - 与传统的VLA架构相比,BridgeVLA实现了知识驱动的预训练和三维少样本微调两大技术创新 [8][9] - 知识驱动的预训练通过从网络收集海量图像视频数据构建操作场景知识库,对预训练的VLM进行二次预训练,挖掘模型隐含的操作知识 [9] - 三维少样本微调将VLM和VLA的输出和输入升维到三维热力图,充分利用三维空间结构信息,显著降低模型对样本数量的依赖 [9] 实验性能表现 - 在国际公开评测基准RLBench上,FAM-1取得88.2%的操作成功率,超越RVT-2、Act3D、3D Diffuser Actor等SOTA模型6%以上 [11] - 在特定任务如"Insert Peg"、"Open Drawer"、"Sort Shape"等上成功率大幅领先,平均成功率大幅提升30%以上 [11] - 真机部署测试中,FAM-1在仅使用3-5条样本每个基础任务的情况下,达到97%成功率,远超其他对比模型 [15] 公司未来规划 - 公司未来将深耕三大方向:提升通用基础模型的泛化性、可靠性和适应性;推动基础模型在工业场景下的更多应用;面向导航场景推出通用基础模型 [20] - 团队另一项成果EC-Flow已被ICCV 2025接收,展示了从无标注人类操作视频中自监督学习操控策略的新路径 [19] - 公司的探索正推动具身智能从“单点技术突破”走向“体系化落地”,为机器人走进工业生产、日常生活提供技术支撑 [19]
3天搞定机械臂上的VLA完整部署:算法&项目实践(运动规划、视觉反馈、模仿学习等)
具身智能之心· 2025-10-17 00:04
行业宏观趋势 - “具身智能”被写入政府工作报告后 各地具身智能项目迅速激增 [1] - 机械臂作为具身智能的核心载体 其岗位薪资待遇可观并加速上涨 [1] - 行业人才缺口巨大 供需比达到1:7 企业以“年薪百万+期权”条件抢人已成为常态 [1] 行业发展瓶颈 - 研究者和工程师普遍缺乏项目经验 在将算法从仿真环境部署到硬件本体时面临诸多卡点 [3] - 核心原因包括对机械臂操作与抓取的经典方法、模仿学习和端到端VLA方法掌握不透彻 [3] - 工程实践能力不足 难以将理论算法有效转化为实际可运行的硬件操作 [3] - 上述瓶颈导致VLA算法在机械臂上的部署和运行效果不佳 阻碍了具身智能在实际场景中的应用 [3] 解决方案与课程内容 - 课程提供真实机械臂的实操机会 结合行业最新技术趋势讲解运动规划、视觉反馈、模仿学习、VLA等关键技术 [5] - 课程贯穿“感知-决策-控制”全流程 通过线下理论讲解与实战实践 让学员掌握机械臂的工程部署能力 [5] - 实战项目一:实现RViz模型与真机1:1精准映射 集成RRT*路径规划与逆运动学算法以解决机械臂控制与避障问题 [5] - 实战项目二:结合机器视觉 采用规则算法与强化学习双路径 实现特定目标物体的精准识别与自适应抓取 [6] - 实战项目三:搭建1比1遥操作数据采集平台 基于视觉语言VLA模型完成模仿学习训练 实现人类操作技能向机械臂的高效迁移 [6] 课程核心优势 - 课程亮点包括全栈技术闭环 从算法到硬件的工程化能力培养 [17] - 提供真实场景实战 由松灵机器人硬件平台支撑的沉浸式项目实操 [17] - 实现产学研深度融合 获得顶尖学者与产业资源的双重赋能 [17] - 采用高密度小班制 3天高强度技术攻坚与个性化指导 目前仅剩9个学习名额 [17]
相约杭州!具身智能之心首次赞助IROS并现场颁奖
具身智能之心· 2025-10-17 00:04
赛事背景与目标 - 机器人感知系统在动态人群、恶劣天气等复杂真实环境下面临稳定性、鲁棒性与泛化能力的挑战,传统算法性能易大幅下降 [1] - RoboSense Challenge 2025旨在系统性评估机器人在真实场景下的感知与理解能力,推动多模态感知模型的稳健性研究,鼓励跨模态融合与任务泛化创新 [1] - 赛事终极目标是让机器人具备"社交智能",学会"察言观色"和"绕道避人",从而安全融入人类生活空间 [6] 赛道二:社交导航机器人 - 赛道聚焦于开发基于RGBD视觉与里程计的感知导航系统,使机器人在无地图、无特权信息前提下,于动态室内环境中安全、高效且符合社会规范地穿行 [9][10] - 具体任务要求机器人基于RGB-D输入实现目标导航,且导航过程不影响人类行为并符合社会规范 [11] - 挑战难点包括动态行为建模、社交规则编码、不确定性处理以及多维度的性能评测 [13] 技术挑战与推荐方向 - 动态行为建模挑战在于从视觉输入中提取人类轨迹趋势、意图与互动潜力 [13] - 社交规则编码挑战在于将"避让老人"、"保持安全距离"等非显式规则嵌入策略模型 [13] - 不确定性处理需引入轨迹分布预测与多解融合机制以应对路径冲突、遮挡等不可预测因素 [13] - 推荐技术方向包括使用Transformer-based社交轨迹预测模块、行为分类器进行风险判断,以及多主体地图编码与图神经网络进行结构建模 [16] 赛事安排与合作伙伴 - 赛事注册从2025年6月开始,竞赛服务器于6月15日上线,第一阶段截止日期为8月15日,第二阶段截止日期为9月15日,获奖决定将于10月19日在IROS 2025大会上公布 [4] - 赛事由新加坡国立大学、南洋理工大学、香港科技大学、密歇根大学机器人研究院、加州大学欧文分校、上海人工智能实验室等多家研究机构联合主办,并作为IROS 2025官方认证竞赛项目 [5][6] - 赛事颁奖及线下展示将在IROS 2025大会期间于中国杭州举行 [6] 评测标准与活动 - 机器人导航性能评测维度包括成功率、路径效率、路径社会性指标PSC以及碰撞统计H-Coll [13] - 具身智能之心将在10月21日上午于IROS 2025现场进行直播 [14] - 具身智能之心联合Abaka AI为参会者提供after party活动,涵盖学术、创业、出海、投资等领域交流,报名截止时间为10月20日24:00 [17][18]
成立几个月,刚刚,一家具身智能明星公司原地解散了......
具身智能之心· 2025-10-16 08:05
公司基本情况 - 公司名称为OneStar一星机器人(苏州),由吉利控股集团股东李星星(李书福之子)于2025年5月9日发起创立 [6][10] - 公司定位为“具身智能”赛道,被视为吉利在机器人领域的关键布局 [11] - 董事长由潘运滨担任,早期投资人包括曹操出行、晶能微电子等吉利系产业资本 [12] 公司发展历程与关键事件 - 2025年7月,公司完成数亿元“亲友轮”融资,投资方几乎全部来自吉利生态体系 [16] - 同月,上海AI Lab研究员丁琰正式加盟,出任公司CTO兼联合创始人 [7][16] - 2025年8月28日,公司与复旦大学签署协议,共建“智能机器人校企联合实验室”,并推出首款产品“星轮1号”轮式双臂机器人 [18] - 2025年9月17日,公司再次完成数亿元种子轮融资,投资方包括BV百度风投、同创伟业、银河通用、蓝黛科技及中新集团等 [19] - 2025年10月,公司团队被证实已原地解散,官方公众号也清空了消息 [20][22] 公司技术与研发特点 - 公司采用“倒做AI”的独特路线,从真实任务与生产场景开始,倒推算法设计、操作流程和产线布局 [13] - 研发理念为“场景优先”,目标是让机器人在真实场景中进化,而非进行演示 [14] - 公司组建了强悍的科研阵容,联合复旦大学姜育刚教授团队、清华大学汪玉教授团队及国际知名的FastUMI数据采集团队,共同构建“模型+数据+本体”的研发体系 [12] 公司解散后续 - 公司解散原因尚未可知 [8] - 后续处理可能一分为二:原有吉利相关的基础平台和业务回归吉利汽车集团;以丁琰为首的具身技术团队可能单独创业,并已遭遇哄抢 [9]
输出你的insights,邀请更多优秀的具身合作伙伴加入我们~
具身智能之心· 2025-10-16 07:00
共创内容 内容分享:欢迎大家参与具身智能之心的公众号、bilibili、视频号等平台做技术talk、圆桌分享等。 课程与咨询:我们也期望能够在在线课程、实战项目上展开合作,为领域带来更多高质量的内容。 点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 大家好,我是峰哥。最近一直在筹划更为细致的内容输出,特别是行业已有的难点和痛点。后面将 会陆续为大家增加圆桌、访谈、实战&工业级课程、咨询等各类输出。 这段时间自己也陆续看到了很多insights,一直都在有好的内容输出,感谢大家的分享。一个向阳的 领域,离不开众人的拾柴和勇于突破的勇气,在质疑声中不断成长尤其重要。 作为国内具身领域创作的技术平台,具身智能之心期望能够在这波激流中贡献自己的力量,成为一 个真的能给行业带来价值的平台。 但少数人的力量始终有限,我们期望有更多优秀的合作伙伴加入我们。 主要方向 vla、vln、强化学习、具身仿真、Diffusion Policy、多模态大模型、移动操作、端到端、模型部署等 方向。 更多内容 待遇与合作方式,欢迎添加微信oooops-life做进一步沟通。 ...
刚刚,UCLA周博磊也加入了一家机器人公司
具身智能之心· 2025-10-16 00:03
公司动态与战略 - 加州大学洛杉矶分校副教授周博磊正式加入机器人初创公司Coco Robotics,专注于解决人行道自动驾驶难题 [2] - Coco Robotics联合创始人兼CEO Zach Rash宣布成立Physical AI Lab,并由周博磊担任首席AI科学家 [3] - Coco Robotics成立于2020年,是一家专注于“最后一公里”配送的机器人初创公司,早期依赖远程操作员协助机器人规避障碍 [4] - 公司成立Physical AI Lab旨在深入挖掘其机器人车队在真实世界中采集的大量运行数据,以推进自动化研发 [4][5] - 公司目标为实现机器人在“最后一公里”配送中的完全自动驾驶,从而降低整体配送成本 [5] - 公司已在最复杂的城市环境中积累了数百万英里的数据,数据规模已达到可加速Physical AI研究的临界点 [7] - Physical AI Lab是独立于Coco Robotics与OpenAI合作关系的独立研究项目 [8] - 公司计划将实验室的研究成果用于提升自身自动化水平与运行效率,并应用于其机器人所依赖的本地模型,暂无出售数据给同行的打算 [9] - 公司计划在适当情况下向运营城市分享研究成果,以协助改善道路障碍与基础设施 [9] 核心人物背景 - 周博磊本科毕业于上海交通大学,硕士毕业于香港中文大学,并于2018年在麻省理工学院计算机科学与人工智能实验室获得博士学位 [12] - 其职业生涯包括曾任香港中文大学助理教授,现任UCLA计算机科学系副教授并兼任计算医学系教职,是UCLA周实验室负责人 [12] - 研究方向为机器感知和智能决策,重点是通过学习可解释、结构化的表征,使机器能够在复杂环境中感知、推理和行动 [14] - 在人工智能顶级会议和期刊发表百余篇学术论文,总引用数超过6万次,h-index为78,i10-index为137 [15] - 其一篇一作论文《Learning deep features for discriminative localization》引用接近13929次 [15] 技术专长与贡献 - 周博磊在计算机视觉和机器人领域的研究聚焦于小型出行设备,与Coco Robotics专注于人行道自动驾驶的定位高度契合 [7] - 其核心贡献之一是提出类别激活映射技术,能够可视化卷积神经网络在进行图像分类时所关注的具体区域,对可解释性人工智能领域影响深远 [16] - 在CAM基础上进一步提出网络剖析研究方法,能自动识别和量化神经网络中单个神经元所代表的语义概念 [19] - 领导创建了Places数据库,一个包含超过1000万张已标注场景照片的资源库,为场景识别任务训练强大的深度卷积神经网络树立了行业基准 [21] - 参与构建了用于场景解析的ADE20K数据集,提供对场景、物体及其部件的像素级标注,对机器人导航等应用至关重要 [23]
Google最新!Gemini Robotics 1.5:通用机器人领域的突破进展
具身智能之心· 2025-10-16 00:03
技术架构 - 采用“协调器+动作模型”的双模型协同智能体架构,协调器由Gemini Robotics-ER 1.5实现,负责高层任务规划与拆解,动作模型由Gemini Robotics 1.5实现,负责将自然语言指令转化为机器人底层动作轨迹 [2] - 架构支持ALOHA、Bi-arm Franka、Apollo三种形态机器人的直接控制,无需额外适配,并通过环境反馈形成“感知-思考-行动”的闭环执行链路 [2][4] 核心创新:运动迁移机制 - Motion Transfer机制通过多形态机器人混合数据训练,学习通用运动规律,解决了传统机器人模型的“数据孤岛”问题 [5][7] - 该机制在Apollo人形机器人上实现“零样本技能迁移”,任务泛化得分从单形态数据训练的0.49提升至0.62,提升约26.5% [13] - 对于数据量中等的Bi-arm Franka机器人,引入多形态数据和MT机制后,任务泛化得分从0.30提升至0.50,解决了新机器人数据少、训练难的行业痛点 [13] 核心创新:思考-动作融合 - 在VLA模型中引入“思考-动作交织”机制,将复杂指令的转化拆分为“指令→自然语言思考轨迹→动作”两步,提升任务执行的可解释性和鲁棒性 [8] - 在ALOHA机器人“按颜色分类衣物”任务中,开启思考模式后进度得分从0.55升至0.67,提升约21.8% [11] - 思考VLA展现出隐式成功检测、自主错误恢复和场景几何理解三大关键能力,例如能在0.5秒内完成物体滑落后的纠错指令更新 [16] 嵌入式推理能力 - Gemini Robotics-ER 1.5在嵌入式推理得分(59)和通用性得分(75)上取得平衡,是唯一处于“高推理+高通用”象限的模型,既能处理专用机器人任务,也保留通用多模态能力 [17][19][20] - 在复杂指向任务中表现优异,其精准指向能力能为VLA提供结合物理约束和语义理解的动作目标定位,是机器人精准动作的核心支撑 [20][24] 性能评估:多形态泛化 - 在视觉、指令、动作、任务四个泛化维度上,1.5版本相比前代模型均有显著提升,例如在Apollo人形机器人上的任务泛化得分从0.07提升至0.63 [25][27][28] - 在ALOHA机器人上,指令泛化得分从0.53提升至0.76,能理解不同表述的同一指令 [28] - 在Bi-arm Franka机器人上,动作泛化得分从0.24提升至0.66,能根据物体重量调整握力以避免滑落 [28][29] 性能评估:长周期任务 - “ER 1.5+VLA”组合在长周期多步骤任务中表现优异,在“Blocks in Drawer”任务中得分0.83,是“Gemini 2.5 Flash+VLA”方案的2.4倍,凸显ER模型精准任务拆解的价值 [33] - ER模型具备工具调用能力,如在“Nut Allergy”任务中能通过网页搜索正确判断食物成分,而对比模型则出现误判 [33] - ER方案在需要场景记忆的“Desk Organization”任务中得分0.88,远高于仅使用VLA的0.32,证明其场景记忆优势 [33] 安全机制 - 通过ASIMOV-2.0基准测试,覆盖文本风险识别、多模态约束适配、视频风险干预三大维度,例如在文本风险识别中能准确判断儿童误食药片的风险类型为“中毒”及严重程度为“重度” [34][36] - 在多模态约束适配测试中,对于承重限制规则,ER 1.5指向8kg和15kg物体的准确率达到90.9% [36] - 在视频风险干预测试中,能预测“儿童接近热水壶”视频中的最后可干预帧,展示出关键的时间推理能力 [36]