Workflow
具身智能之心
icon
搜索文档
和我们一起创造价值!具身智能之心招募编辑、运营和销售的同学啦(实习 or 全职)
具身智能之心· 2025-12-21 10:05
负责公众号、小红书、社群的运营,提升粉丝粘性和关注度。我们希望您有一定的运营能力,对自媒体平台的 玩法有一定认识。 编辑岗位 咨询我们 负责日常公众号平台的内容创作、编辑,我们希望您具备一定的专业基础,在知乎、公众号等平台上具有内容 创作经验。 点击下方 卡片 ,关注" 具身智能 之心 "公众号 销售岗位 具身智能之心是具身领域的优秀技术创作平台,为行业输出了大量的前沿技术、课程、行业概况、融资、产 品、政策等内容。 负责平台课程、硬件等产品的销售推广。我们希望您具备一定的销售基础,对具身用户需求与市场有一定的了 解。 现平台正处于上升期,因业务需求,面向全体粉丝招募编辑、运营、销售岗位,和我们一起继续为领域创造价 值,全职+实习哦(实习除编辑岗位均需线下哦~) 运营岗位 如果您有兴趣和我们一起成长,欢迎添加峰哥微信oooops-life ...
首个文本到3D生成RL范式诞生,攻克几何与物理合理性
具身智能之心· 2025-12-20 16:03
论文链接: https://arxiv.org/pdf/2512.10949 代码链接: https://github.com/Ivan-Tang-3D/3DGen-R1 强化学习是否能够用于Text-to-3D生成,以加强3D自回归模型的逐步推理与生成过程? 点击下方 卡片 ,关注" 具身智能之心 "公众号 编辑丨 量子位 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在大语言模型和文生图领域,强化学习 (RL) 已成为提升模型思维链与生成质量的关键方法。 但当我们将目光转向更为复杂的文本到3D生成时,这套方法还会还管用吗? 近期,一项由 西北工业大学、北京大学、香港中文大学、上海人工智能实验室、香港科技大学合作 开展 的研究系统性探索了这一重要问 题。 在LLM推理和2D文生图中,RL已经证明可以显著提升CoT推理能力和生成质量。但 3D物体更长、更稠密、更具几何约束 。 因此相关方向研究常面临这几个问题: 1. 奖励如何同时刻画语义对齐、几何一致性和视觉质量? 2. 现有RL算法是否适合自回归式 ...
机器人学习现状!Physical Intelligence内部员工分享(从数采到VLA再到RL)
具身智能之心· 2025-12-20 16:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨 具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多VLA与RL实战项目,欢迎加入国内首个工业级VLA实战课程 : 具身VLA实战与求职教程来啦~ 。 原文链接:https://vedder.io/misc/state_of_robot_learning_dec_2025.html 这次来学习一下 PI 内部人员写的 blog,介绍了很多 robot learning 的现状,而且都是一线的真正经验,很多在一线的同学应该深有感触,说了很多实话,质量很 高,值的精读和学习。不管是对 IL DAgger RL 的看法都是很一手的经验。 接下来请享受这份知识 基本上,目前(2025 年 12 月)所有机器人学习系统都是纯粹的行为克隆(BC,也称模仿学习)系统。人类提供(接近)最优的任务演示,机器学习模型则尝试模 仿这些动作。形式上,策略训练采用监督式方法——给定机器人的状态 (例如摄像头图像、机器人关节角度以及可能的任务描述文本),policy 预测已演示的动作 a 通常是一个动作片段(action chun ...
VLA工作正在呈现爆发式增长.......
具身智能之心· 2025-12-20 16:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 不少同学说,相当多的时间"浪费"在踩坑上了。 确实,真实数据采集上,需要借助硬件完成,比如遥操、VR、全身动补等方式。仿真和互联网数 据,在泛化性能上依然得不到保证,很多具身公司坚持"真机数据"路线。但真机数据采的数据并不好 用,该怎么办?一轮下来又需要好久。 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 昨天看到了复旦&港大团队关于移动操作上的工作wholebodyvla。结合近期分享的很多方法,vla算法 貌似正在爆发式增长,许多框架和工具(比如RL)也帮助VLA模型实现更加泛化的性能。 数据和采集设备逐渐多元化,百万级的开源数据陆续开放,评测标准逐渐统一。这一切,表示着产业 化可能很快到来。 作为核心模块,vla与将会覆盖更多场景上的应用,下游合作伙伴会越来越多,更多优秀的人才将陆 续加入进来。 但VLA貌似"很伤",不好调,数据采集也麻烦,很多同学频频吐槽。特别是对正在从事、入门vl ...
破解具身仿真瓶颈!地瓜机器人一键生成高保真3D桌面场景!
具身智能之心· 2025-12-20 16:03
编辑丨 RoboX 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 近年来,具身智能提出了新的仿真数据需求——既要求3D场景不仅要具有照片级的真实感,还要求场景中的每个实例都能在物理层面上进行交 互,以支持在仿真环境中训练机器人策略。 在这其中,核心的桌面场景(Tabletops)是此类环境的「最后一步」,也是大多数精细交互和复杂机器人操作任务的基础舞台。 因此,自动化、大规模地生成高保真、可交互的桌面场景,对于推进具身操作策略学习至关重要。 在此背景下,地瓜机器人联合中国科学院大学、地平线、 中科院自动化所等发布了今年的关键研发成果—— TabletopGen :一个统一的、无 需训练的桌面场景生成框架。 3D仿仍存严重不足 据介绍,现有的仿真方法仍存在严重不足: 1、文本驱动方法的局限性 : 例如Holodeck[1],它利用大语言模型(LLM)直接生成 3D 布局,或者通过生成场景图或空间约束,再进行 布局可行性的优化。 然而,这两类路径通常都只是从固 ...
首创ACE具身研发范式,大晓机器人构建具身智能开放新生态
具身智能之心· 2025-12-20 01:02
公司发布与核心观点 - 大晓机器人于12月18日正式发布行业首创的ACE具身研发范式、首个开源且商业应用的开悟世界模型3.0(Kairos 3.0)、以及具身超级大脑模组A1 [1] - 公司旨在通过突破性技术创新,推动机器人自主理解和探索物理世界,加速具身智能的商业化场景落地 [33] - 公司定位为生态共建者,通过与产业链伙伴合作,共同构建全链自主可控、开放共赢的产业级生态体系 [1][34] 公司核心团队 - 董事长由商汤科技联合创始人、执行董事王晓刚出任 [3][33] - 首席科学家由澳大利亚科学院院士、IEEE计算机学会技术成就奖获得者陶大程担任,其曾任京东探索研究院创始院长、优必选人工智能首席科学家 [5][33] - 公司汇集了来自南洋理工大学、香港大学和香港中文大学等全球稀缺的AI领域前沿科学家,他们是环境智能、世界模型、具身模型领域的开拓者 [6] 行业挑战与研发范式革新 - 当前具身智能领域面临数据量级的断崖式缺口,真机数据量级仅为10万小时,而智能驾驶领域特斯拉FSD V14每日训练量相当于人类驾驶员400万小时(约500年驾驶经验)[7] - 传统“以机器为中心”的研发范式依赖真机遥操,数据采集成本高昂、效率低下,且技能模型严重绑定特定硬件,无法通用 [8] - 纯视觉学习方案(如特斯拉、Figure AI探索的路径)缺乏对三维物理世界力学规律的理解,存在“现实鸿沟” [8] - 大晓机器人提出“以人为中心”的ACE具身研发范式,将人类与物理世界的互动规律作为核心起点,通过环境式数据采集一年可实现千万小时的数据收集 [12] ACE范式核心技术:环境式数据采集 - 该技术通过跨视角多模态设备,融合视觉、触觉、语音、力学规律等多维度数据,为模型训练提供“人—物—场”全要素精准数据支撑 [14] - 实现四大核心数据价值:1) 数据维度更全面,完成超10个视角、8种模态、4大类物品属性的多模态数据升级;2) 任务覆盖更长程,支撑分钟级、数百种原子动作的复杂任务;3) 交互精度达亚像素级;4) 采集效率可实现从十万小时到千万小时的海量数据积累 [16] - 在即时零售仓储场景中,已实现多视角数据采集,覆盖数万种SKU,完成涵盖五大阶段13个原子动作的全流程 [16] 核心产品:开悟世界模型3.0 - 这是首个开源且商业化应用的“多模态理解—生成—预测”世界模型,于12月18日面向全行业开源 [16][23] - 模型通过视觉、3D轨迹、触觉、摩擦力等多维度信息输入,深度理解真实世界的物理规律与人类行为逻辑 [18] - 模型可生成长时动态交互场景视频,并具备跨本体一键生成、多本体泛化、预测演化路径等特性,提供高保真、可泛化的虚拟训练环境 [20] - 基于模型打造的开悟具身智能世界模型产品平台,内置支持11大类、54细类,累计328个标签,覆盖115个垂类具身场景,大幅降低开发门槛 [22] - 开悟世界模型3.0已与沐曦股份、壁仞科技、中科曙光等多款国产芯片完成适配,极大提升了芯片性能 [23] 核心产品:具身超级大脑模组A1 - 该模组基于领先的纯视觉无图端到端VLA模型,使机器狗无需预采高精地图即可适应复杂、动态、陌生环境,实现自主路径规划 [25] - 具备云端交互能力,能实时解析自然语言指令与图像语义的意图关系,生成可执行的中间指令,使机器狗能根据自然语言指令精准完成任务 [27] - 结合Insta360全景感知与商汤方舟通用视觉平台,构建的环境感知体系可覆盖超10个行业,实现超150个智能化应用场景适配 [27] - 在安防、能源、交通、文旅等高可靠性要求场景中,可实现长期稳定工作,具备产业一线实用价值 [29] 生态合作与产业布局 - 在具身本体领域,公司与智元机器人、银河通用、钛虎机器人、国地中心等多家头部企业达成合作,打通新技术范式、世界模型与机器人硬件的适配链路 [30] - 在芯片领域,与沐曦、壁仞科技、中科曙光、辉曦智能、影微创新等多款国产厂商芯片完成适配 [32] - 在硬件领域,与Insta360、卧龙电驱、帕西尼等伙伴深度绑定,强化信息采集能力 [32] - 在云服务与数据层面,联合商汤大装置、腾讯云、火山引擎、算丰信息等平台构建全流程支持体系,并依托库帕思、中建西南院的数据资源优化模型泛化能力 [32]
这个具身社区最近又更新了很多内容......
具身智能之心· 2025-12-20 01:02
最近在具身社区内分享了很多行业的内容,包括一些企业投融资、量产、产品设计、模型泛化、部署等。 ★ 融资上:下半年,除了一些明星公司外,本体零部件公司融资金额增大、公司数量增多; ★ 模型泛化上:基于RL的优化思路,使得模型逐渐泛化能力增强。相关的工具箱也逐渐完善,真机部署逐 渐便利。 ★ 部署上,地瓜机器人推出S600,助力边缘侧部署。thor开始应用在人形机器人、移动操作上。2000T以上 算力逐渐成参考配置...... ★ 量产上:多家公司的试点开始慢慢推,很多创业公司带着订单来融资,头部人形机器人开始探索工业级产 品的部署; ★ 产品设计上:本体上机械臂产品逐渐收敛,移动操作和人形还在结构和尺寸上创新,各家也都在压低成 本,供应链管理的能力很大程度上决定了后期的竞争力。头部具身公司,在积极参与投资零部件供应商。 一些多形态机器人,正在慢慢出现在各类场景中...... 最近社区内也在积极筹划研报,我们也很欢迎需要入门/进阶具身领域的同学加入我们的社区。近一年的搭 建,社区内已经完成了技术路线分享、直播、问答、求职、赛事等多个版块的分享。这里实现了产业、学术、 求职、问答交流等多个领域的闭环。我们致力于为行 ...
基于真实数据和物理仿真,国防科大开源具身在线装箱基准RoboBPP
具身智能之心· 2025-12-20 01:02
编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 在现代工业物流与机器人自动化中,三维装箱问题(3D-BPP)的 物理可行性 与 具身可执行性 是决定算法能否真正落地的关键因素。随着工业自动化水 平不断提高,「在线装箱」问题正受到越来越多关注。然而现有研究在问题设定、测试数据、评估指标等方面差异巨大,且不少先进算法尚未开源,导致研 究社区缺乏一个能够公平、系统评估算法性能与真实可用性的统一基准体系。 在真实硬件上直接评估成本高、周期长,因此仿真环境成为验证算法物理可行性的必然选择。但多数现有研究仍将 3D-BPP 理解为数学优化问题,仅强调 如「空间利用率」等紧凑度指标,而忽略重力、摩擦、碰撞等关键物理因素,使得算法一旦部署到现实场景便可能失效。 而具身可执行性最终要落脚到机器人与每一个箱体的交互,需要考虑机器人末端执行器是否可达目标位姿、是否存在机器人抓取箱体摆放过程的无碰撞运动 路径、是否满足机器人末端执行器抓取的约束等问题。 此外,许多 ...
别让vision拖累VLA中的action!
具身智能之心· 2025-12-20 01:02
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 YiYang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 别让vision拖累action:Mantis VLA的解耦视觉预测 核心亮点 研究背景 近年来,视觉-语言-动作(VLA)模型被广泛应用于机器人任务中。尽管进展显著,但VLA模型仍面临着一个问题:它们依靠低维稀疏的动作信号,去监督高维密 集的视觉输入,以此训练十亿参数级的主干网络(图1),这种不匹配使得模型的大部分表征能力未能被充分利用,制约了整体性能。 论文 :https://arxiv.org/pdf/2511.16175 代码 & Demo :https://github.com/zhijie-group/Mantis 模型&数据集 :https://huggingface.co/collections/Yysrc/mantis 1. 解耦视觉预测(DVF) 减轻主干网络负担,自动捕捉隐式动作,增强显式动作生成。 2 ...
30亿美元,超越宇树和智元!这家具身公司刷新了人形机器人的最大估值.......
具身智能之心· 2025-12-19 03:00
点击下方 卡片 ,关注" 具身智能 之心 "公众号 重仓基座大模型,已在国内率先实现人形机器人在真实应用场景长期、全自主、规模化落地。宁德时代、丰 田、现代、上汽等与银河达成深度战略合作,落地场景多样化,极大可能率先入场。 估值30亿美元,这家具身公司刷新了人形机器人的最高估值....... 近日,银河通用机器人完成新一轮3亿美元融资(中东土豪也入局了),刷新了具身领域单轮融资新纪录,至 此银河已经完成约8亿美元融资。 知情人士透露,银河通用最新估值已达30亿美元。 几次融资,资本都抢着入局,但入场券不好拿: 2023年5月成立,王鹤迅速完成了种子轮融资。 2024年6月,银河通用完成了7亿元天使轮融资。 2024年11月,银河完成5亿元战略轮融资。 2025年6月,新一轮融资超11亿元(这一次宁德时代等入场)。 本轮的3亿美元融资,来自新加坡、中东的国际投资机构也加注! 为什么资本青睐? 智慧城市服务上,银河太空舱已在北京颐和园、王府井、成都春熙路等多个地点试运营。 仓储领域也在发力,现已部署到数十个零售仓内。除此之外,还有医疗等领域。 了解更多 产业咨询 更多产业信息交流,欢迎添加峰哥微信。 ★ 具身求职 ...