具身智能之心
搜索文档
调研一下!你们最想关注具身的哪个方向?
具身智能之心· 2025-11-19 04:01
研报筹备与调研 - 公司正在为具身行业起草一份综合性研报 预计明年第一季度公布[1] - 研报内容覆盖多个模块 包括具身公司融资、产业、政策、算法、落地、出口等方向[1] - 为确定研报侧重点 公司发起一项涵盖多个板块的快速调研 填写仅需10秒[2] 研报关注领域 - 国内具身产业与政策发展情况[4] - 国外具身产业发展现状[4] - 具身公司融资进展与业务状况[4] - 具身数据采集相关领域[4] - 具身算法优化与部署技术[4] - 机器人边缘芯片领域[4] - 具身智能下游产业发展[4] - 具身产业人才结构与需求分析[4] - 具身公司上市辅导等相关服务[4]
全球首个量产绳驱AI机器人公司完成数亿元A++轮融资!
具身智能之心· 2025-11-19 00:34
融资与资金用途 - 公司于2025年11月18日完成数亿元A++轮融资,由国科投资和蚂蚁集团联合领投,多家财务机构及产业资本跟投,老股东锦秋基金继续追投 [2] - 2025年4月,公司曾连续完成数亿元A轮及A+轮融资,蚂蚁集团连续多轮领投,华兴资本担任A++轮独家财务顾问 [2] - 本轮融资将重点用于研发人才梯队建设、绳驱本体的规模化制造准备、多场景解决方案深化与产业化能力提升 [2] 技术平台与产品优势 - 公司是全球首个实现绳驱AI机器人量产的企业,产品采用独特的绳驱传动设计,模拟人类肌腱的丝滑运动与精密力控特性 [4] - 绳驱技术具备高拟人表现力、高动态响应与高交互安全等先天操作优势,特别适合复杂灵巧操作和人机交互协作场景 [4] - 公司提出Design for AI的软硬件底层架构,绳驱技术能提供低摩擦、高跟随、连续力域,避免传统刚性传动的力控信息丢失 [6] - 公司已构建“顶尖本体-领先遥操-高效模型”具身智能全栈平台,并在IROS顶会上展示了升级平台,包括半身商用机器人Astribot S1-U、超远程数字分身遥操作系统及更新版DuoCore全身VLA模型 [6] - 公司于2025年6月攻克绳驱量产难关,实现多个月批量稳定交付,比OpenAI投资的绳驱机器人公司1X至少领先一个周期 [6] 商业化进展与合作伙伴 - 公司已获得数千台订单,在科研、文旅文娱、商业服务、工业物流等高价值场景实现部署 [9] - 2025年11月15日,公司与金马游乐达成战略合作,推出新一代文旅文娱机器人系列产品,是国内人形机器人在该领域最早一批规模化订单 [9] - 全球首个由绳驱AI机器人全自主运营的零售服务店“机器人MART”在中山落地,AI主理人可全自主完成语音接待、下单支付、小食制作等复杂操作 [9] - 2025年9月2日,公司与全球最大控制器系统厂商仙工智能签约,获得国内最早一批工业领域规模化订单 [9] - 公司与字节跳动、腾讯、百度、央视、京东等多行业头部客户合作,推动产品在多场景加速落地 [10] - 公司积极构建开放科研生态,与Physical Intelligence、MIT、清华大学、香港大学、字节跳动AI Lab等国内外顶尖团队合作 [10] 管理层与投资方观点 - 公司创始人兼CEO来杰强调具身智能发展需要AI+机器人、软件+硬件协同发展,公司坚持全栈自研,围绕“本体—遥操—模型”长期积累 [14] - 国科投资董事总经理周晓峰认为公司是市场稀缺的具备量产绳驱本体能力的具身智能企业,全球领先,国内唯一,其VLA模型及机器人的动态性、柔顺度和同步性独树一帜 [14] - 锦秋基金合伙人臧天宇看好公司基于高拟人度、高柔性绳驱机器人平台,推进L2和L4两套方案场景落地,加速建立真实场景的数据闭环 [14] - Bloom Advance Capital管理合伙人杜鹤群博士指出公司以类肌腱创新绳驱技术“材料+算法”为核心,通过独创“本体-数据-模型”全栈架构,在工业、文娱、医疗等多场景推动具身智能与物理世界深度融合 [14]
具身机器人的大脑和小脑分别负责哪个任务?
具身智能之心· 2025-11-19 00:34
具身智能行业概述 - 具身智能是通用人工智能(AGI)的关键方向,强调智能体与物理环境的交互与适应,使其具备感知环境、理解任务、执行动作并反馈学习的能力 [1] - 具身智能的核心模块包括大脑(负责思考感知和任务规划)和小脑(负责高精度运动执行) [1] 国内外产业布局 - 近2年,星海图、银河通用、逐际动力等明星团队从实验室走向商业和工业界,推动具身本体和大小脑技术进步 [3] - 华为于2024年底启动"全球具身智能产业创新中心",与乐聚机器人、大族机器人等企业合作建设具身智能大脑、小脑等关键技术 [5] - 京东自2025年5月以来连续投资智元机器人、千寻智能、逐际动力等公司,以强化物流科技与家庭服务场景的效率与服务能力 [5] - 腾讯、蚂蚁集团、小米等科技巨头也积极通过战略投资与合作布局,加快构建具身智能产业生态 [5] - 国外方面,Tesla/Figure AI在工业与物流机器人应用上持续推进,美国投资机构积极支持Wayve、Apptronik等公司落地自动驾驶与仓储机器人 [5] - 国内企业以产业链投资与综合平台驱动具身智能落地,国外科技巨头侧重基础模型、模拟环境与类人机器人原型研发,双方加速进入关键竞赛阶段 [5] 技术演进路径 - 第一阶段技术研究聚焦抓取位姿检测,通过点云或图像预测末端执行器姿态实现静态物体抓取,但缺乏对任务上下文和动作序列的建模 [6] - 第二阶段进入行为克隆阶段,机器人借助专家演示数据学习从感知到控制的端到端映射,具备模仿人类完成复杂任务的能力,但泛化能力弱、误差累积 [6] - 第三阶段兴起Diffusion Policy方法,通过扩散模型生成整个动作轨迹,提升策略稳定性与泛化能力 [6] - 2024年进入Vision-Language-Action模型阶段,融合视觉感知、语言理解与动作生成模块,支持零样本或小样本快速泛化,体现从"感知+控制"向"感知+推理+行动"的范式跃迁 [7] - 2025年业界探索VLA模型与强化学习、世界模型、触觉感知等模块融合,提升长时任务试错能力、环境动态预测能力和多模态融合感知能力 [9][11][12] - 技术演进从低层感知到高层理解,逐步迈向通用任务和开放环境的智能体时代,推动人形机器人、机械臂、四足机器人等产品在工业、家居、餐饮、医疗康复等领域落地 [14] 工程与系统能力需求 - 随着产业界重视,具身智能从"论文"走向"部署",对工程能力提出更高要求 [19] - 工程能力需求包括在Mujoco/IsaacGym/Pybullet等平台完成策略训练与仿真测试,训练并部署Diffusion Policy/VLA/力触融合的VLA模型,实现强化学习在VLA后训练上的应用,以及实现从世界建模预测到策略学习再到物理执行的一体化具身智能架构 [19]
1299元起!戴盟发布视触觉新品+端侧AI平台,为具身精细化操作提供更优解!
具身智能之心· 2025-11-19 00:34
公司概况与行业定位 - 公司为具身智能头部企业,孵化于香港科技大学,由国际机器人权威专家联合创立[4] - 公司自2023年正式运营至今已完成累计数亿元的多轮融资,创下全球视触觉领域融资新高[4] - 公司拥有原创的单色光视触觉传感技术路线,区别于美国麻省理工学院主导的传统三色光方案,构建了技术护城河[4] 技术优势与产品演进 - 公司技术解决了传感器算力要求高、发热量大、耐用性差的行业痛点[4] - 2025年4月公司发布全球首款多维高分辨率高频率视触觉传感器系列,产品发布两个月内即完成全球千片级量产并销往欧美地区[4] - 2025年11月公司推出全新一代视触觉系列产品,在丰富度、稳定性、精细度、智能水平四个维度有显著进步[1][4] 新一代产品核心特点 - 产品线更丰富:推出DM-Tac W2视触觉传感器,大号感知面积提升55%,中号厚度减少20%,并推出锋刃传感器和指尖产品以适应多元场景[6] - 产品稳定性更高:成为全球首款防尘防水视触觉传感器,超越IP65国际标准,抗电磁干扰能力持续提升[8] - 感知更精细:具有三维超高分辨率,可输出精准六维力信息,新增微米级纹理识别功能[10] - 智能化提升:端侧AI计算平台DM-Flux可同时接入五路触觉传感器,算力模块即插即用[12] 市场策略与未来展望 - 新一代视触觉系列产品以1299元起的定价亮相,定位"不止触觉",致力于打造极致用户体验[2] - 公司致力于研发含视觉、触觉和语言的操作模型,为具身智能、智能制造等领域提供创新性解决方案[14] - 公司计划于年内发布新一代"以人为中心"的穿戴式遥操作数据采集设备[14]
Physical Intelligence团队正式发布π*0.6!VLA+强化学习训练
具身智能之心· 2025-11-19 00:34
文章核心观点 - Physical Intelligence团队提出了一种名为RECAP的通用强化学习方法,旨在使视觉语言动作模型能够通过在实际部署中收集的经验数据进行自我改进 [4] - RECAP方法通过整合演示数据、自主执行数据以及专家远程干预数据,采用优势条件机制对VLA模型进行训练,从而显著提升模型在复杂任务上的性能和鲁棒性 [4][7] - 实验结果表明,采用RECAP方法训练的模型在衣物折叠、纸箱组装和咖啡制作等高难度任务中,任务吞吐量提升超过两倍,同时任务失败率降低约50% [4][10][28][30] RECAP方法概述 - RECAP是一种基于经验与校正的优势条件策略强化学习方法,其核心流程包括数据采集、价值函数训练和优势条件训练三个步骤 [11] - 该方法首先通过离线强化学习在多样化多任务数据集上预训练通用VLA模型,随后利用机器人现场收集的数据进行下游任务的性能优化 [4][7] - 在部署阶段,机器人根据任务执行结果获得稀疏奖励反馈,并可接受专家干预以修正错误,所有这些数据都被整合到后续的训练迭代中 [7][12][22] 模型架构与技术细节 - RECAP基于VLA模型进行实例化,该模型源自模型,并增加了基于二值化优势值的条件调控能力,使其适用于强化学习训练 [14][16] - 模型采用知识隔离训练流程,能够通过流匹配灵活表示分块动作分布,并生成用于高级策略推理的中间文本 [15] - 价值函数采用670M参数的视觉语言模型作为骨干网络,其训练目标是根据片段级成功标签预测成功完成所需的步数,奖励函数设计确保失败片段具有低价值 [17][19] 实验任务与性能评估 - 评估任务涵盖三大类:衣物折叠、咖啡制作和纸箱组装,每项任务均涉及复杂的多步骤操作,持续时间在5到15分钟之间 [23][24][25] - 在衣物折叠任务中,模型需要处理多种物品,评估最具挑战性的纽扣衬衫折叠,成功标准为500秒内正确折叠并堆叠 [24] - 咖啡制作任务要求使用商用意式咖啡机完成双份浓缩咖啡的全套流程,成功标准为200秒内完成且无严重错误 [25] - 定量结果显示,RECAP方法在所有任务上均实现吞吐量和成功率的大幅提升,其中多样化衣物整理和咖啡制作任务的吞吐量增加超过两倍 [28][30] 迭代优化与对比分析 - 通过多轮RECAP迭代,模型性能持续改善,衣物整理任务迅速达到高成功率,而纸箱组装任务的成功率则保持稳定增长 [32] - 与AWR和PPO等其他策略提取方法相比,采用RECAP的模型在衣物整理任务上展现出显著的吞吐量优势 [35] - 在针对特定故障模式消除的实验中,RECAP方法仅需相对较少数据即可有效调整策略行为,消除在严格标准下的失败模式 [35] 应用部署与未来方向 - 经过RECAP训练的模型已实现实际部署,包括连续制作浓缩咖啡达13小时,在新环境中折叠陌生衣物持续运转超过两小时,以及在工厂场景中组装实际包装纸箱 [10] - 未来改进方向包括实现奖励反馈和任务重置的自动化、开发更复杂的探索机制,以及将当前的迭代式离线更新模式扩展为完全并行的在线强化学习框架 [36]
61岁贝佐斯创业物理AI!亲任CEO,首轮获投62亿美元融资
具身智能之心· 2025-11-19 00:34
贝佐斯创立新公司Project Prometheus - 前世界首富贝佐斯创立新公司Project Prometheus并亲自担任联席CEO [2][6] - 公司已获得62亿美元(约合人民币440亿元)的雄厚资金支持 [3][8] - 员工规模达上百人,包括从OpenAI、DeepMind等顶级人工智能公司招募的研究人员 [9] 公司业务与技术方向 - 研究项目包括将人工智能应用于机器人、药物设计和科学发现等物理任务 [9] - 明确将重点放在计算机、汽车、航空航天等高科技领域 [9] - 技术目标是开发比现有聊天机器人(如ChatGPT)学习方式更复杂、能够从物理世界中学习的AI模型 [11] - 技术焦点与贝佐斯将人类送入外太空的兴趣相吻合,其曾深度参与蓝色起源公司 [10] 联合创始人背景 - 另一名联席CEO是物理学家兼化学家Vik Bajaj,为斯坦福医学院兼职教授 [12] - Bajaj拥有宾夕法尼亚大学生物化学学士和硕士学位,MIT物理化学博士学位,并在UC伯克利从事博士后研究 [14] - 曾与谷歌联合创始人谢尔盖·布林在谷歌X研究机构紧密合作,并参与创立Alphabet旗下的生命科学研究实验室Verily [14][15] - 2018年创立人工智能和数据科学孵化公司Foresite Labs并担任CEO,近期已离开以全身心投入新公司 [16][17] 物理AI行业竞争格局 - 物理AI领域已有OpenAI、谷歌和Meta等行业巨头在研究相关技术 [18] - 来自Meta、OpenAI和谷歌DeepMind的离职研究人员共同创立了Periodic Labs公司,获得3亿美元支持,目标是构建“AI科学家”和自主实验室 [19] - 资本和顶尖人才正加速汇流,大型科技公司及其离职人员创立的初创企业在该领域展开激烈角逐 [21]
从投稿来看,具身方向的论文已经出现了堆积.......
具身智能之心· 2025-11-18 10:00
研究领域与方向选择 - 具身智能研究活跃方向包括视觉语言导航、视觉语言行动、强化学习以及真实到仿真再到真实的循环方法 [1] - 人形机器人研究热点集中在强化学习与真实仿真循环方法 若实验室具备相关机器人本体可优先考虑这些方向 [1] - 机械臂本体适合开展视觉语言行动、视觉语言行动结合强化学习以及扩散策略的研究 其中视觉语言行动方向普遍对计算资源要求较高 [1] - 四足机器人平台非常适合强化学习研究 但该领域创新点已相对有限 因已有较多研究工作完成 [2] - 移动操作是结合视觉语言导航与视觉语言行动的潜在优秀研究方向 [3] 研究挑战与资源考量 - 新入行研究者面临方向选择困惑 例如在强化学习与视觉语言行动之间 或传统SLAM与视觉语言导航之间难以抉择 [1] - 研究方向选择需考虑计算资源需求差异 某些方向需要较大算力而有些则不需要 充足算力是快速产出实验结果的必备条件 [1] - 研究者需根据预算选择适合的机器人本体 预算不足时可考虑采用仿真方案替代 [1] - 优秀研究想法的产生对新研究者而言充满挑战 往往需要经历多次试错 [3] 专业服务与支持 - 提供从CCF-A到CCF-C级别会议 以及SCI一区到四区期刊的论文辅导服务 覆盖毕业论文和博士申请支持 [3] - 辅导团队由来自国内外名校博士及头部企业研究员组成 具备ICML、ICLR、CoRL、ICRA、NeurIPS、CVPR等顶级会议投稿与审稿经验 [3] - 服务提供全流程闭环辅导 涵盖选题创新点挖掘、实验设计、代码调试、论文写作到投稿策略 [4] - 辅导结合工业界与学术界双重视角 不仅关注论文发表 更注重研究成果的落地应用价值 [5]
Physical Intelligence团队正式发布π*0.6!VLA+强化学习训练达到实际可用的鲁棒性水平
具身智能之心· 2025-11-18 03:38
RECAP方法概述 - Physical Intelligence团队提出RECAP方法,使视觉语言动作模型能够通过强化学习在现实部署中实现自我改进[4] - RECAP方法通过优势条件机制实现VLA模型的强化学习训练,整合异构数据到自我改进过程,包括演示数据、在线收集数据以及专家远程干预数据[4][7] - 该方法首先通过离线强化学习预训练通用型VLA模型,随后通过机器人现场数据收集实现下游任务的专业化性能提升[4] 技术实现细节 - RECAP方法包含三个核心步骤:数据采集、价值函数训练和优势条件训练,通过重复执行这些步骤优化基础VLA模型[11] - 在数据采集阶段,系统运行VLA执行任务并为每个任务周期标注结果标签,可选择引入人工干预来为早期迭代中的错误提供修正范例[12] - 价值函数训练利用收集的全部数据训练大型多任务价值函数,该函数能检测故障并预估任务完成所需时间[13] - 优势条件训练在VLA前缀中加入基于价值函数推导优势值的最优性指标,提供从次优数据中基于价值函数提取更优策略的有效方法[13] 模型架构改进 - 基于VLA模型实例化RECAP,该模型是在基础上的升级版本,采用了更大型的主干网络和更多样化的条件机制[8] - 模型新增了基于二值化优势值的条件调控能力,使其能够通过价值函数来优化策略[8][14] - 基础视觉语言模型采用Gemma 3 4B模型,动作专家的规模增加到860M参数[19] - 价值函数采用670M参数视觉语言模型backbone,从Gemma 3初始化,并在少量多模态网络数据的混合集上联合训练以防止过拟合[20] 实验性能表现 - 在衣物折叠、咖啡制作和纸箱组装任务中,采用完整RECAP方法训练的模型实现任务吞吐量提升超过两倍[4][29] - 在高难度任务中,RECAP将任务失败率降低约50%,相当于故障率降低超过两倍[4][31] - 模型达到实际可用的鲁棒性水平:成功部署连续制作浓缩咖啡达13小时,在新环境中折叠陌生衣物持续运转超过两小时无中断[10] - 在工厂场景中组装实际包装所用纸箱的任务也展示了稳定的成功率表现[10][31] 训练流程优化 - 预训练阶段在多样化多任务多机器人数据集上进行离线强化学习,该数据集包含来自大量任务和不同机器人的数万小时示范数据[8][13] - 部署阶段采用迭代式离线更新模式,收集数据批次后重新训练模型并循环进行,而非实时更新策略与价值函数[23][37] - 价值函数和策略均从预训练检查点微调,而非上一轮迭代的模型,这有助于避免多轮迭代中的漂移[23] - 即使一轮迭代也能带来显著的结果改进,但随着RECAP方法迭代次数的增加,任务吞吐量实现持续提升[23][31]
开箱子,叠毛巾!从零把pi0部署到你的机械臂上吧!
具身智能之心· 2025-11-18 03:38
产品定位与目标市场 - 面向具身智能科研领域的轻量级高性价比机械臂 旨在解决硬件选择中价格过高或低价产品难用难上手的问题[2][3] - 专为新手和科研初学者设计 目标用户包括学生 教育工作者和刚踏入机器人领域的开发者[3] - 产品核心价值在于帮助用户低成本 高效率地完成算法验证与项目开发[3] 核心产品优势 - 提供全流程开源工具链和代码示例 覆盖从数据采集到模型部署的完整环节 显著降低上手门槛[4][18] - 支持Python和C++双语言接口 兼容ROS1和ROS2 并提供URDF模型 实现仿真与真机无缝切换[4][19][20] - 采用高精度运动控制与低功耗设计 具备开放软硬件架构 支持从仿真到真机的无缝联调[6][18] - 提供24小时快速售后响应 确保学习与开发过程顺畅[4][20] - 紧凑型结构与模块化接口使其特别适用于嵌入式AI与机器人学习平台的开发[7] 关键性能参数 **机械臂本体性能** - 本体重量为4.2KG 额定负载为3KG 具备6个自由度[9][20] - 工作半径为612.5mm 重复定位精度达到±0.1mm[9][20] - 供电电压为24V 控制器为PC 材质采用铝合金[9][20] - 通讯方式为CAN 控制方式支持轨迹跟踪 示教和API[9][20] **末端执行器参数** - 提供多种末端执行器选项 重量分别为631g 671g和704g 行程均为0-80mm 定位精度为±0.5mm[11][12][14] - 其中一款末端执行器尺寸为100 x 60 x 100mm 行程为0-90mm[22][23] 技术生态与开发支持 - 提供完整的开源软件开发工具包 包含驱动程序 API接口 示例代码与文档[27] - 支持视觉 力控等多模态数据融合 兼容TensorFlow PyTorch等主流框架 实现端到端的智能算法落地[18][33] - 目前已开源适配ACT算法示例 并将逐步适配并开源lerobot robotwin pi0等模型[47] - 机械臂已适配realsensor D435系列和奥比中光DCW2相机[47] 测试与部署能力 - 通过严格的硬件测试流程 包括精度校准 耐久性 负载性能与稳定性验证[36][40][41][43] - 模型推理时间约30-37毫秒 在NVIDIA 4060显卡上即可完成训练和推理[35][47] - 提供URDF模型 支持Gazebo等主流仿真环境与真机实时联动 用户可在仿真中验证算法后一键部署至物理设备[18][23] 交付与售后政策 - 产品交付周期为1-2周 提供快速响应的售后支持[45] - 质保政策为非人为损坏质保半年 质保期后按市场价支付售后费用[46] - 产品为单臂销售 不支持无理由退货测试[47]
大多数开始具身研究的同学卡在了这些地方.......
具身智能之心· 2025-11-18 03:38
社区技术进展与成员表现 - 部分成员采用低成本硬件方案取得良好效果,已成功部署act和pi0模型 [1] - 部分成员在算力、数据采集、模型优化和项目实战方面遇到障碍 [1] - 针对算力不足问题,社区分享轻量化方法可实现SOTA性能 [1] - 数据采集建议从遥操作入手,重点关注数据质量,噪声数据影响模型效果 [1] - 数据量不足时可尝试real2sim2real方法,机械臂用户可采用RL+VLA方案 [1] - 人形和高自由度本体不建议轻易尝试RL+VLA方案,效果难以实现 [1] 社区资源与服务体系 - 社区已建立技术路线分享、直播、问答、求职、赛事等多版块,形成产业、学术、求职闭环 [2] - 提供持续直播分享,涵盖本体、数据、算法等领域,探讨行业问题与发展方向 [4][5] - 汇总近40+开源项目、60+数据集、主流仿真平台及各类技术学习路线 [12] - 建立与多家具身公司的岗位内推机制,帮助成员对接心仪公司 [11] - 社区成员近3000名,来自斯坦福大学、清华大学等200家高校及机器人公司 [11][12][81] 技术专题研究内容 - 数据采集专题包括遥操作算法与硬件、RoboTwin 2.0数据生成器等研究方向 [6] - 灵巧手专题涵盖视觉语言动作模型、硬件设计、触觉传感器等5个子领域 [6] - VLA模型专题包含交错图文指令框架、泛化差解决方法、安全建模等5项内容 [6] - 具身世界模型专题涉及4D世界模型EnerVerse、空间泛化智能等4个前沿方向 [6] - 大模型技术专题覆盖推理加速、微调、部署框架等6个关键技术点 [6][52][62] 行业知识库建设 - 汇总国内外具身智能高校实验室信息,助力成员学术深造 [14] - 整理国内外机器人公司资料,覆盖教育、工业、医疗等应用方向 [17] - 汇集机器人导航、动力学、路径规划等基础理论书籍PDF资源 [23] - 整合机器人零部件品牌,包括芯片、激光雷达、相机等供应链信息 [25] - 建立仿真平台、ToF相机、数据采集方案等工程实践数据库 [27][29][31][35]