具身智能之心
搜索文档
UniBYD:超越人类示教模仿的跨实体机器人操作学习统一框架
具身智能之心· 2025-12-16 00:02
点击下方 卡片 ,关注" 具身智能 之心 "公众号 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 研究背景与核心问题 在嵌入式智能领域,从人类演示中学习机器人操作是主流范式,但人类手部与不同形态机器人手(如2指、3指、5指)之间的 形态差异鸿沟 ,成为技术落地的核心 障碍: UniBYD核心目标是构建一种学习范式:突破单纯的人类动作模仿,让机器人自主发现与自身物理特性匹配的操作策略,实现跨形态机器人手的高效泛化。 核心创新:UniBYD框架设计 UniBYD是一套统一的强化学习框架,通过 统一形态表示、动态强化学习机制、精细模仿引导 三大核心组件,实现从模仿到探索的平滑过渡,最终学到适配机器人 形态的操作策略(figure2)。 作者丨 Tingyu Yuan等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 统一形态表示(UMR):跨形态建模的基础 为解决不同机器人手形态(自由度、手指数量、刚体数量)的建模差异,UMR将动态状态与静态属性统一为固定维度表示: 动态状态处理 :手腕状态固定为 ...
许华哲,抓紧时间慢慢等具身的未来......
具身智能之心· 2025-12-16 00:02
文章核心观点 - 行业观察到具身智能领域在2025年存在发展速率与落地现实不协调的现象 具体表现为技术演示与真实世界应用之间存在差距 [6][7][8] - 行业认为中美在具身智能的发展路径上出现分野 中国公司侧重量产与商业化 美国公司侧重探索AI技术上限 行业担忧过度关注确定性量产可能错过最根本的AI技术突破 [9][10][11] - 行业主张具身智能应类比大模型 不应局限于简单、重复的落地场景 而应挑战需要强操作和高泛化能力的困难任务 以训练出高质量的通用模型 [12] - 行业指出具身智能面临数据瓶颈 其发展路径将是预训练与基于真实交互的持续学习螺旋上升 而非一次性完成数据训练 [15] 两个世界的机器梦 - 自2022年、2023年同步起步后 中美具身智能发展路径在2025年出现明显分野 [9] - 中国公司投入更多精力在量产和商业化上 而美国公司如1X Technologies(展示Gen0精细操作)、Figure(展示长程任务能力)、Sanctuary AI(展示持续工作能力)等则致力于展示AI技术上限 [9] - 行业认为机器人本质不同于汽车 AI能力是核心驱动力 需要由AI技术领跑 而非单纯追求量产 [9] - 行业呼吁在具身智能领域应建立原始创新的信心 而非仅采用跟随策略 需要容忍高失败率的探索性研发 [10] 落地简单场景还是挑战困难场景 - 行业观察发现 高价值、高重复性的场景往往已被传统自动化设备解决(例如解决90%的问题) 剩余未自动化场景通常因单价低或重复度低而不具经济性 [12] - 基于此 行业认为具身智能的定位应更接近大模型 不应将资源耗费在简单任务上 而应致力于挑战需要“强操作”和“高泛化”能力的困难场景 [12] - 挑战困难场景有助于训练出高质量的通用模型 从而更广泛地解决问题 尽管向具体场景的早期落地有其价值 可为未来积累迁移经验 [12][13] “预训练”配合“先验学习” - 具身智能面临天然的数据瓶颈 包括仿真数据不足和真机数据缺乏 这一问题将持续存在 [15] - 因此 行业发展不能遵循“先穷尽数据预训练,再探索模型”的线性路径 而需采用“预训练”与“真实世界交互学习”螺旋上升的模式 [15] - 行业认为 足够好的世界模型无法仅从人类采集的数据中训练获得 必须让机器人自主与世界交互才能构建其独有的世界模型 [15] - 行业对未来探索使用统一强化学习目标函数贯穿预训练与后训练的模式表示兴趣 [15]
新国大团队首创!当VLA具备4D感知能力后会怎么样?
具身智能之心· 2025-12-15 03:17
点击下方 卡片 ,关注" 具身智能 之心 "公众号 >>直播和内容获取转到 → 具身智能之心知识星球 点击按钮预约直播 视觉-语言-动作(VLA)模型在通用机器人任务中展现出应用潜力,但在需要细粒度表征的 时空一致机器人操作 任务中仍面临诸多挑战。现有方法通常会将三 维位置信息嵌入视觉表征,以此提升动作的空间精度,然而这类方法难以实现对动作执行过程的时序一致性控制。 VLA-4D 是 一款具备4D感知能力的通用VLA模型,专门用于实现时空一致的机器人操作。 该模型的设计核心包含两大关键模块:其一为 4D感知视觉表征 ,先 提取视觉特征,再将一维时间信息嵌入三维位置信息以生成4D嵌入特征,随后通过交叉注意力机制将其融合为统一的视觉表征;其二为 时空动作表征 ,VLA- 4D为传统的空间动作表征拓展了时序信息维度,从而支持时空层面的动作规划,并将多模态表征与大语言模型(LLM)进行对齐,以完成时空动作预测。 在这一统一框架下,经特殊设计的视觉表征与动作表征可协同作用,让机器人操作既具备空间流畅性,又能保证时序一致性。此外,本工作还为现有VLA数据集 补充了时序动作标注,用于模型的微调训练。 论文标题 : VLA- ...
看一次就能执行!单视频示范零样本学习&跨模态动作知识迁移
具身智能之心· 2025-12-15 01:04
更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在机器人研究领域,视觉 - 语言 - 动作(VLA)模型虽已展现出端到端控制的潜力,但通用操纵策略的开发仍面临核心瓶颈——现有模型难以泛化到训练分布之外 的任务,而人类仅需观察一次示范即可快速掌握新技能。 北京理工大学与 LimX Dynamics 联合提出的 ViVLA 框架 ,以 "单样本视频模仿学习" 为核心目标,通过 "统一动作空间构建 - 并行解码优化 - 大规模数据生成" 的 三层技术体系,首次实现机器人从单段专家示范视频中高效学习新技能,为通用机器人政策学习提供了全新范式。 论文题目:See Once, Then Act: Vision-Language-Action Model with Task Learning from One-Shot Video Demonstrations 点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Guangyan Chen等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 核心亮点: ...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS'25
具身智能之心· 2025-12-15 01:04
文章核心观点 - 人工智能技术,特别是基于Transformer架构的AEOS-Former模型,正成为解决大规模卫星星座任务规划这一高维、动态、强约束难题的关键,能够显著提升任务完成率并优化资源消耗 [4][16][18][19] 卫星星座的产业价值与规划挑战 - 卫星星座是由多颗卫星组成的协同网络,具备全球覆盖、快速响应和高频观测能力,已成为数字经济时代的关键基础设施,支撑遥感、通信、导航、气象预测等行业 [4] - 星座规划面临四大核心挑战:任务量大(例如美国SkySat星座13颗卫星日均需处理超百项任务)[8]、单次观测时间窗口紧张(常不足5分钟)[9]、突发任务响应能力有限(例如“女娲星座”紧急观测任务完成率常不足60%)[10]、以及卫星物理约束条件复杂 [11] 北航团队的技术突破:基准数据集与调度模型 - 团队构建了首个大规模真实星座调度基准数据集 **AEOS-Bench**,包含超过16,000个任务场景,覆盖1至50颗卫星、50至300项成像任务,并确保场景的物理真实性与评估全面性(涵盖6类指标)[13][14] - 团队提出了基于Transformer的内嵌约束调度模型 **AEOS-Former**,该模型能显式建模卫星的物理约束(如视场、电池状态),并实现卫星与任务的高效匹配 [16] AI模型性能评估与结果 - 在AEOS-Bench基准测试中,AEOS-Former模型在多项关键指标上均优于随机模型、优化模型及强化学习等基线模型 [18][19] - 具体性能数据:在“Seen”数据划分中,AEOS-Former的任务完成率(CR)达30.47%,综合得分(CST)为5.00,功耗(PC)为71.27 Wh,均优于基线模型;在“Unseen”数据划分中,其任务完成率达35.42%,综合得分为4.43,功耗为68.99 Wh,同样表现最佳 [19] - 研究表明,任务完成率与资源消耗之间存在权衡关系,卫星数量增加能提升联合观测能力,但边际效益会随资源消耗增加而趋于稳定 [20] 研究意义与未来展望 - 该研究为卫星星座的自动化、智能化规划提供了高效解决方案,并发表于顶级会议NeurIPS 2025 [5][22] - 这项技术印证了“空天具身智能”的巨大潜力,有望让太空设施具备感知、决策与协同的自主能力,拓宽人类探索与利用太空的边界 [22][23]
Q4融资超过亿元的具身公司.......
具身智能之心· 2025-12-15 01:04
点击下方 卡片 ,关注" 具身智能 之心 "公众号 25年具身机器人融资情况究竟是怎么样的?具身智能之心也为大家做了一次调研。本次调研包含具身本体公司、零部件生产商、算法类公司等。 主 要是亿元以上的融资,从天使轮到c轮不等。 所有内容基于公开内容整理,若有不足,欢迎指正。 1)智平方 数亿,智平方(AI² Robotics)是一家AGI原生的通用智能机器人企业,是通用智能机器人研发、生产与服务提供商。自研具身大模型、高效的迭代体系与稳定可靠 的 AlphaBot 系列产品为核心,在技术创新与商业化层面持续引领行业发展。率先在半导体制造、汽车制造、电子制造、生物科技与公共服务等领域实现落地应用, 形成"数据闭环 + 场景复利"的独特优势,让其承担"人类不愿从事的工作",并持续拓展人类能力。 2)自变量机器人 10亿,自变量机器人是一家专注于人工智能与机器人领域技术创新的企业,基于机器人大模型来构建可以精细操作的通用智能体。 3)星源智机器人 3亿,星源智机器人是一家通用具身大脑技术研发商,由北京智源研究院孵化,致力于实现多模态空间智能,构建物理世界的通用具身大脑。星源智打造了一个跨 本体的高泛化性通用大脑,开 ...
没有好的科研能力,别想着去工业搞具身了~
具身智能之心· 2025-12-15 01:04
完整的科研能力是什么呢?代表能发现问题、定义问题、提出解决问题的方法、能形成方法论输出观 点。这并不是简单的读论文,很多同学都错判了这点。 这一年接触到了很多有科研需求的同学,主要有以下几个难题: 老师不熟悉具身方向,需要自己调研; 最快的提升方法则是跟着一个有经验的researcher一起工作,具身智能之心前面推出了1v1科研辅导业务, 也欢迎大家咨询了解。 主要辅导方向 大模型、VLA、VLA+RL、视觉语言导航、端到端、强化学习、Diffusion Policy、sim2real、具身交互、 位姿估计、机器人决策规划、运动规划、3DGS、SLAM、触觉感知、双足/四足机器人、遥控操作、零样 本学习等。 如果您有任意论文发表需求,支持带课题/研究方向咨询,欢迎联系我们, 微信:paperguidance 最近和做人力服务的几个朋友聊天,说到现在市场上有具身领域科研经验的同学都是香饽饽(已经不敢 奢求工业界经验了)。很多同学,还没毕业,就被各类猎头和HR预定了。要求不算很高,那就是"具备 完整的科研能力",能独立完成对应工作。如果缺乏这个,不敢轻易推荐给企业。 提供的服务 论文选题; 论文全流程指导; 不知 ...
具身智能之心招募编辑、运营和销售的童鞋啦
具身智能之心· 2025-12-13 16:02
公司业务与平台定位 - 具身智能之心是具身智能领域的优秀技术创作平台 [1] - 平台为行业输出大量前沿技术、课程、行业概况、融资、产品、政策等内容 [1] - 平台目前正处于业务上升期 [2] 招聘岗位与职责 - 编辑岗位负责日常公众号平台的内容创作与编辑 [2] - 编辑岗位要求具备一定的专业基础,并在知乎、公众号等平台有内容创作经验 [2] - 销售岗位负责平台课程、硬件等产品的销售推广 [3] - 销售岗位要求具备一定的销售基础,并对具身智能用户需求与市场有一定了解 [3] - 运营岗位负责公众号、小红书、社群的运营,以提升粉丝粘性和关注度 [4] - 运营岗位要求有一定的运营能力,并对自媒体平台的玩法有一定认识 [4] - 所有招聘岗位均为全职 [2] 联系方式 - 有意者可添加指定微信进行咨询 [5]
招募VLA+RL&人形运控&数采相关的合作伙伴!
具身智能之心· 2025-12-13 16:02
具身VLA+RL、运控、数采相关课程设计、PPT制作。 正在从事具身领域研究的童鞋,我们期望您至少发表一篇ccf-a级别会议或有1年以上的工业界经验。 高于行业水平的薪资和资源共享,可兼职,感兴趣的可以添加负责人微信做进一步沟通。 招募VLA+RL&人形运控&数采相关的合作伙伴! 最近后台收到很多同学关于具身VLA+RL、机器人运控、数采相关的内容咨询,确实是行业比较有价值的方 向,但又存在一定的门槛。 具身智能之心期望和领域大牛一起研发相关方向的课程或实战项目,为正在从事相关工作的同学提供更多见 解。 如果有大佬感兴趣,可以添加峰哥微信:oooops-life做进一步咨询。 合作内容 待遇说明 一些要求 ...
在看完近50篇VLA+RL工作之后......
具身智能之心· 2025-12-13 16:02
点击下方 卡片 ,关注" 具身智能 之心 "公众号 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 前面有同学向我们推荐了他们的repo,一直没来及整理,今天就带大家从近50篇VLA + RL工作上,看该领域的历程...... Offline RL-VLA Balancing Signal and Variance: Adaptive Offline RL Post-Training for VLA Flow Models CO-RFT: Efficient Fine-Tuning of Vision-Language-Action Models through Chunked Offline Reinforcement Learning 论文链接:https://arxiv.org/pdf/2509.04063 Date:2025.09 论文链接:https://arxiv.org/pdf/2508.02219 Date:2025.08 NORA-1.5: A V ...