Workflow
具身智能之心
icon
搜索文档
人形机器人赛道,早已挤满车企
具身智能之心· 2025-11-18 00:46
车企入局人形机器人赛道概况 - 一场由车企深度参与的机器人竞赛已拉开帷幕,已有广汽、上汽、比亚迪、长安、奇瑞等十余家车企涌入人形机器人赛道 [2][3] - 海外市场特斯拉、宝马等也提出了自己的人形机器人思路 [2] - 车企集体杀入机器人赛道是产业升级与技术演进的必然结果,也是新能源资本故事退潮后市场亟需的新估值锚点 [2][15] 主要车企的战略布局与进展 - 特斯拉CEO马斯克称人形机器人Optimus预计市场规模达数十亿台 [4] - 小鹏汽车计划在2026年底实现人形机器人IRON的规模化量产 [5] - 广汽计划在2025年实现自研机器人零部件的批量生产,2026年实现整机小批量生产 [6] - 奇瑞将机器人业务视为公司的第二增长曲线 [6] - 多家车企已将机器人应用于总装车间、质检区等复杂场景,实现大负载搬运、精密装配等多任务协同作业 [6] 车企布局机器人的战略分类 - 布局机器人赛道的汽车公司可分为四大类:自主研发派、投资与收购派、场景驱动派、投资+自研派 [7] - 特斯拉、小鹏、广汽为自主研发派,强调底层技术复用与协同 [7] - 现代、宝马、上汽为投资与收购派,通过投资收购快速补齐技术短板 [7] - 比亚迪为投资+自研派,兼具自研与投资特点 [7] - 北汽、奇瑞为场景驱动派,与合作方研发定制化机器人 [8] 汽车零部件产业链上游的跟进 - 2025年以来,A股近30家汽车零部件公司设立机器人子公司,瞄准核心零部件、灵巧手、传感器等关键环节 [9][10] - 例如金固股份注册全资子公司作为拓展具身智能业务的核心平台 [11] - 拓普集团投资50亿元建设机器人电驱系统生产线,年产能为30万套电驱执行器 [13] - 电驱执行器是机器人核心零部件,单机价值约数万元人民币 [13] - 雷迪克通过收购傲意科技20.41%股权,补齐灵巧手的关键生产能力 [14] 车企入局机器人的驱动力与挑战 - 车企布局机器人的核心初衷是应用于自身生产线以实现提效降本,并灵活应对市场产能波动 [6] - 汽车零部件和机器人零部件的技术同源性是车企入局的底气所在 [14] - 汽车行业竞争加剧导致零部件企业主业毛利率下降,布局机器人是为寻找增量 [14] - 车企对非结构化人机交互场景理解有限,在动态平衡、精细操作等关键环节尚处追赶阶段 [15] - 工业机器人核心零部件加速国产化,为跨界企业带来更激烈的市场竞争 [15] 资本市场视角与竞争关键 - 人形机器人仍处于技术验证与商业模式探索阶段,技术路线未收敛 [16] - 对于多数年营收达数十亿的上市企业,布局机器人更多承载着市值管理的战略意图 [16] - 胜负的关键已不在于某一单项技术的突破,而是跨系统整合能力与资本耐力的综合较量 [2][16]
CMU团队等!机器人记忆新架构:物体中心状态建模,实现长时序操作!
具身智能之心· 2025-11-18 00:46
研究背景与核心挑战 - 现实机器人操作任务的成功依赖于对象交互历史而非仅当前观测[5] - 现有视觉-语言-动作模型多遵循马尔可夫假设缺乏对象级记忆机制在重复操作视觉相似物体遮挡等场景中易失效[5] - 核心挑战集中在部分可观测性对象身份模糊和长时程时间依赖三方面[5] LIBERO-Mem基准套件 - 基准专为评估非马尔可夫场景下的对象级记忆能力设计涵盖短长时程任务与多维度记忆挑战[5] - 包含10类任务覆盖对象运动对象序列多对象关系多对象遮挡四种记忆维度[7][9] - 每个任务包含200-700帧120条轨迹支持子目标分解的细粒度性能评估[9] - 通过视觉相似物体引入身份模糊填补现有基准在非马尔可夫场景评估的空白[8] Embodied-SlotSSM模型架构 - 模型以对象槽为核心整合状态空间建模与关系推理实现高效时间序列记忆与动作预测[11] - 采用槽状态空间建模通过状态空间模型近似历史信息实现历史状态映射[13] - 核心机制包括瞬时记忆保障时间定位与一致性以及动作解码实现关系推理与上下文融合[14] - 通过槽注意力将视觉嵌入分解为离散对象槽并结合时序初始化保障对象身份跨时间传播[16] 实验结果与性能表现 - 在通用任务LIBERO-Goal中模型平均成功率达80.1%显著优于SlotVLA等基准模型[15][17] - 在非马尔可夫任务LIBERO-Mem中平均子目标完成率达14.8%远超传统模型的5.0%[23] - 在重复操作任务如3次放置碗中实现33.3%的完成率证明模型在长时程任务中的有效性[23] - 优势集中在多对象交互遮挡任务证明结构化记忆对复杂场景的适配性[19] 核心价值与行业意义 - 填补非马尔可夫机器人操作基准空白为记忆增强型模型提供标准化评估工具[24] - 验证对象中心记忆在复杂场景中的必要性为机器人从反应式操作向推理式操作转型提供新思路[24] - 时间窗口预测与关系推理机制提升动作预测稳健性为非马尔可夫场景提供可行解决方案[24]
离了大谱,21%的ICLR 2026审稿意见竟是AI生成的?官方回应来了
具身智能之心· 2025-11-18 00:46
ICLR 2026审稿中AI使用情况统计分析 - 对ICLR 2026的75,800篇论文审稿意见的系统性统计显示,AI参与程度极高,完全由AI生成的审稿意见占21%,重度AI编辑占4%,中度AI编辑占9%,轻度AI编辑占22%,完全由人类撰写的仅占43% [2] - AI生成的审稿意见呈现出明显特征,其篇幅比完全由人类撰写的评审长了26%,并且更可能给出高分,平均得分高出0.3分 [3][11] - 用于检测的EditLens模型在验证准确性时假阳性率极低,轻度AI编辑假阳性率为千分之一,中度AI编辑为五千分之一,重度AI编辑为万分之一,完全由AI生成的未出现假阳性 [21] 投稿论文中AI使用与评分相关性 - 对投稿论文的分析发现,39%的论文以某种方式使用了AI作为写作助手 [8] - 论文中的AI使用程度与较低的评分呈负相关,AI内容占比90-100%的199篇投稿平均得分仅为2.9分,而AI内容占比0-10%的11,864篇投稿平均得分高达4.36分 [8] - 随着论文中AI内容占比的增加,平均评分呈现下降趋势,从0-10%的4.36分逐步降至90-100%的2.90分 [8] SafeFlowMatcher机器人路径规划框架 - 该框架创新性地结合了流匹配和控制屏障函数,通过预测-校正两阶段积分器实现实时高效且具备安全认证的路径规划 [12] - 核心优势在于将初始路径生成与安全约束执行解耦,有效避免了分布漂移和局部陷阱问题,在迷宫导航和高维运动任务中表现优于基于扩散和EM的基线方法 [12][13] - 框架具备严格的数学证明,确保了鲁棒安全集的前向不变性及有限时间收敛性,其效率高,仅需少量函数评估即可实现高性能 [14][15] 行业及社区动态 - ICLR 2026程序委员会已发布官方回应,承认存在低质量和LLM生成的评审,并建议作者将此类问题反馈给领域主席 [24][25] - 社区内出现了针对AI审稿人的处理建议,例如移除不良评审并自动认定相关审稿人未履行职责,进而自动拒绝其提交的论文 [26] - 存在专注于具身智能领域的开发者社区和知识星球,提供学习路线、开源项目、数据集等资源,并建有近60个技术交流群 [29][31][34]
3DV 2026最新 | GaussianArt:清华智源通过高斯模型解决机器人操作仿真中关键问题
具身智能之心· 2025-11-17 10:01
研究背景与核心创新 - 提出GaussianArt单阶段训练框架,通过关节式3D高斯模型统一运动与外观建模,简化了传统两阶段流程[2][4] - 该方法支持最多20个部件的复杂物体,并集成鲁棒部件分割模块以精确分解关节级运动[2][5] - 相较于仅在19个物体上评估的先前研究,该研究通过90个铰接物体进行了大规模扩展评估[2][4] 技术方法与实现 - 采用基于3DGS的显式场景表示法,将关节物体重构为基于规范高斯表示的运动场[10] - 通过基础模型SAM2进行部件分割并微调为专用模型Art-SAM,用于初始化规范高斯分布[11] - 在训练过程中增加权重分布、空间稀疏性和刚性估计等约束,以精确表示关节物体[10][13] 数据集构建 - 构建了包含90个关节物体的综合基准测试集MPArt-90,其中79%为合成物体,36%为真实世界物体[12][16] - 数据集涵盖20个类别,主要基于Partnet-Mobility数据集构建,并包含从Multiscan数据集中选取的三个真实物体[16][17] 性能评估与结果 - 在运动参数估计方面,GaussianArt在轴向角度误差上为12.17度,优于对比方法ArtGS的24.34度[20] - 在几何重建方面,GaussianArt的静态部件倒角距离为2.68,显著优于ArtGS的11.57[20] - 对于动态部件,GaussianArt的倒角距离为5.42,远低于ArtGS的380.29[20] 应用前景 - 生成的铰链物体高斯模型可用于生成4D资产,实现数字人与动态物体的交互[25] - 该方法为机械臂操控铰接物体提供了支持,可集成至Isaac等仿真系统[7][26]
具身智能之心招募VLA+RL方向的合作伙伴~
具身智能之心· 2025-11-17 10:01
招募背景与目的 - 公司收到大量关于视觉语言动作与强化学习方向的咨询,希望进行更深入的讲解 [1] - 公司计划开发视觉语言动作与强化学习方向的在线课程 [1] - 公司向全平台粉丝招募1名该方向的课程讲师共同开发课程 [1] 讲师要求 - 研究方向需为视觉语言动作与强化学习 [2] - 学术界讲师要求博士及以上学历,并拥有相关方向的顶级会议成果 [2] - 工业界讲师要求具备实战经验和真机调试经验 [2] 公司平台优势 - 公司是国内首个具身全栈技术交流社区 [3] - 公司平台聚集了大量视觉语言动作与强化学习方向的学习者 [3] 薪酬与资源 - 公司将提供高于行业平均水平的薪酬 [4] - 公司将提供丰富的行业资源 [4] 联系方式 - 详细内容可通过添加指定微信账号进行咨询 [5]
具身界影响力最大的两位博士创业了!
具身智能之心· 2025-11-17 04:00
创业团队核心成员 - 公司CEO为Tony Z Zhao,其为斯坦福大学计算机科学专业三年级博士生(已辍学)[2][5] - 公司CTO为Cheng Chi,其为哥伦比亚大学博士及斯坦福大学新教师奖学金获得者[2][10] - 两位创始人在具身智能界具有重要影响力[2] 创始人的技术背景与成就 - Tony Z Zhao在斯坦福期间主导参与了ALOHA、ALOHA2、Mobile ALOHA等具有行业影响力的机器人项目[4][5] - Cheng Chi是通用操作接口UMI的主要提出者,该成果获RSS 2024最佳系统论文决赛奖,同时是Diffusion Policy方案的作者[4][10] - 这些技术成果为公司在机器人操作与策略学习领域奠定了坚实基础[4][5][10]
登上Science Robotic!一天学习1000个任务,内燃机的风还是吹到了机器人
具身智能之心· 2025-11-17 00:47
文章核心观点 - 帝国理工学院提出的Multi-Task Trajectory Transfer(MT3)技术通过“轨迹分解为对齐-交互两阶段 + 检索式泛化”的创新思路,解决了机器人模仿学习数据效率低下的核心难题 [1] - MT3仅需单条演示即可教会机器人完成单个任务,在不到24小时的人类演示时间内成功掌握1000种不同的日常操作任务,并能泛化到全新物体实例 [1] - 该方法打破了“越多数据越有效”的传统认知,为机器人从实验室走向实际应用提供了全新范式 [23] 当前机器人模仿学习的范式困境 - 当前主流方案陷入“数据效率困境”,单阶段行为克隆平均需175-250次演示/任务,复杂任务甚至需8000次,且泛化能力差 [3] - 传统分解式方法聚焦单任务学习,未系统探索多任务场景下的策略搭配,缺乏灵活的经验复用机制 [3] - 早期检索式方法检索仅用于训练阶段,无法在测试时适配新场景,且依赖单一模态匹配,检索精度有限 [3] MT3的核心设计原理 - 核心设计是将操作轨迹拆分为对齐与交互两阶段,通过语言-几何双模态检索复用历史演示 [4] - 对齐阶段解决“去哪里操作”的定位问题,通过姿态估计和运动规划实现,无需学习复杂路径生成逻辑 [6] - 交互阶段解决“怎么操作”的执行问题,通过直接重放检索到的历史演示轨迹完成精准物体操作 [7] - 采用双模态检索机制:语言过滤从任务描述中提取微技能筛选同类任务,几何匹配利用PointNet++编码器提取物体几何特征计算余弦相似度 [9] - 检索仅在任务开始前执行一次,找到的历史演示同时为对齐阶段提供定位参考、为交互阶段提供轨迹模板,实现跨阶段复用 [10] MT3的技术亮点与性能优势 - 数据效率取得突破,每个任务仅需1条演示即可完成学习 [11] - 泛化能力强劲,对于未见过的物体,通过几何匹配找到同类物体演示,在100个unseen任务上保持68%的成功率 [12] - 扩展效率极高,研究中仅用17小时采集演示就让机器人掌握了1000种任务,涵盖31类宏技能、402种不同物体 [13] - 在低数据场景下性能碾压传统方法,仅用3次演示/任务在seen任务上的成功率就超过其他方法用50次演示的表现 [16] - 整体性能表现优异,seen任务成功率78.25%,unseen任务成功率68%,在包含干扰物体、光照变化、物体随机摆放的复杂环境中仍保持稳定性能 [18] MT3的局限性 - 高精度对齐任务如硬币投入存钱罐插槽,对齐阶段的姿态估计误差无法通过开环交互弥补,成功率仅30%左右 [20] - 变形物体操作如将书插入背包,不同变形物体的动态特性无法通过视觉几何推断,轨迹重放易失败 [20] - 检索匹配失败场景如刷卡支付,物体关键特征过小时全局几何匹配无法识别,导致检索到不匹配的演示 [20] 关键结论与行业意义 - 轨迹分解是低数据学习的关键,将操作任务拆分为对齐-交互两阶段比单阶段学习数据效率提升一个数量级 [22] - 检索泛化比模型泛化更高效,在少量演示场景下直接复用历史经验比学习通用模型更可靠 [22] - 千任务学习无需复杂模型,为机器人规模化应用提供了低成本方案,对家庭服务、仓储物流等需要快速适配多种任务的场景极具落地价值 [22][23]
3D视觉被过度设计?字节Depth Anything 3来了,谢赛宁点赞
具身智能之心· 2025-11-17 00:47
技术突破与核心观点 - 字节跳动团队推出Depth Anything 3(DA3),将单目深度估计扩展至任意视角场景,使计算机空间感知能力媲美人类[5] - 研究证明当前多数3D视觉研究存在过度设计问题,仅需一个简单的、用深度光线表示训练的Transformer即可实现强大性能[2][9] - DA3采用最小化建模理念,仅使用标准Transformer架构(如DINOv2编码器)和单一深度光线预测目标,无需复杂多任务学习或专门架构设计[7][12] 方法创新与架构设计 - DA3将几何重建目标建模为密集预测任务,训练模型根据N张输入图像输出N个对应的深度图和光线图[13] - 引入输入自适应的跨视图自注意力机制,在前向传播中动态重新排列token以实现跨视图高效信息交换[13] - 采用双DPT头联合输出深度值和光线值,并通过相机编码器选择性整合已知相机姿态增强灵活性[13] - 训练采用师生范式统一不同训练数据,使用伪标注策略为真实世界数据生成高质量伪深度图[14] 性能表现与基准测试 - 在姿态估计方面比当前最先进方法(SOTA)提升44%,在几何估计方面提升25%[7] - 建立新视觉几何基准,在10项任务中均取得SOTA成绩,相机姿态精度比SOTA VGGT平均提高35.7%,几何精度提高23.6%[15] - 单目深度估计性能优于Depth Anything V2,同时在细节和鲁棒性方面表现相当[15] - 所有模型完全基于公开学术数据集训练[16] 应用潜力与功能展示 - 具备视频重建能力,能从任意数量视图(单视图到多视图)恢复视觉空间[18] - 提升SLAM性能,在大规模环境下仅替换VGGT-Long中的VGGT(DA3-Long)即可显著降低漂移,效果优于需48小时以上的COLMAP[20] - 通过冻结主干网络并训练DPT头部预测3D高斯参数,实现强大泛化能力的新颖视图合成[22] - 适用于自动驾驶多摄像头空间感知,从车辆不同视角估计稳定可融合的深度图[24]
性能超越GPT和Google,北京人形机器人创新中心开源全球最强具身VLM
具身智能之心· 2025-11-17 00:47
产品发布与核心定位 - 北京具身智能机器人创新中心于2025年11月14日正式发布全球最大规模开源的具身视觉语言模型 Pelican-VL 1.0,宣称其性能超越GPT-5同类模型和Google Gemini系列 [1] - Pelican-VL 1.0作为机器人的“视觉语言大脑”,负责将图像信息转化为可理解的语言指令并规划具体行动步骤,是实现具身智能(让机器人像人类一样感知、决策、执行)的核心技术 [1] 研发机构背景 - 北京人形机器人创新中心(国家地方共建具身智能机器人创新中心)于2023年11月成立,是中国首家省级人形机器人创新中心,由小米机器人、优必选科技、京城机电、中国科学院自动化所等企业共同组建,并于2024年10月10日挂牌为“国家地方共建具身智能机器人创新中心” [5] - 该中心已推出通用机器人母平台“天工”系列,这是全球首个全尺寸纯电驱拟人奔跑的人形机器人,实测奔跑速度达12公里/小时,其结构设计文档、软件开发接口等关键资料已全面开放,已有上百家机构基于此进行二次开发 [5] 核心技术:DPPO训练范式 - Pelican-VL性能突破的核心在于全球首创的DPPO刻意训练范式,该范式通过“观察-练习-纠错-提升”的闭环,让模型能够针对薄弱环节进行高效学习,仅用20万条数据就实现了性能超越,数据用量仅为同类模型(通常需100万至500万条数据)的1/10甚至1/50 [8][9] - 对比实验显示,采用DPPO训练的72B参数模型,在视觉理解准确率上提升20.3%,在动作规划合理性上提升25.1%,同时训练时间缩短40% [14] - DPPO范式的四大本质区别包括:具备元认知能力、错误驱动优化、高效数据利用以及部署后的自进化能力 [10][17] 技术资源与规模 - Pelican-VL的训练基于一个由1000多块A800 GPU组成的专用计算集群,单次完整的模型检查点训练耗费超过50000 A800 GPU-小时的计算资源,相当于单块GPU需连续工作近6年 [15] - 模型提供7B和72B两种参数版本,覆盖终端实时响应与云端复杂任务处理的不同需求,其72B参数版本在规模上优于GPT-5(约50B)和Google Gemini(34B/68B)的同类模型 [23] - 训练数据经过严格筛选和蒸馏,从12个领域提炼出包含数亿token的元数据集,数据更聚焦于具身任务,与任务匹配度高 [24] 性能表现与应用 - 在全球公认的具身智能评估基准测试中,Pelican-VL的综合性能超越GPT-5同类模型15.79%,比Google Gemini系列模型提升19.25% [25] - 在具体任务中表现出色,例如在“无序物体抓取”任务中展现精准的空间推理能力,在“复杂场景交互”任务中能完成包含视觉识别、自然语言沟通和连续动作规划的复合指令 [27] - 模型泛化能力突出,在训练数据未涉及的“沙地行走取物”和“斜坡环境操作”等陌生场景中,任务成功率仍保持在80%以上 [28] 产业生态影响 - Pelican-VL以开源方式发布,意味着全球开发者可免费获取模型代码、训练数据和使用手册进行二次开发,此举有望降低中小企业应用具身智能技术的门槛,加速技术迭代和创新应用落地 [33][34] - 模型与“天工”机器人平台结合,已能控制机器人在跑步机上平稳奔跑、上下楼梯,并通过语音交互完成如“递送红色文件”等复杂任务,展现了其作为VLA系统“大脑”连接视觉、语言与动作的强大能力 [29][32]
4个旷视天才具身创业获投近10亿,阿里独家很瞩目
具身智能之心· 2025-11-17 00:47
融资情况 - 具身智能公司Dexmal原力灵机完成共计近10亿元融资 [2][6] - 最新一轮为A+轮融资,金额达数亿元,阿里巴巴作为独家投资方参与 [3][4][5] - 9月初完成A轮融资,由蔚来资本领投,洪泰基金、联想创投等跟投,老股东超额追投 [5] - 公司成立于2025年3月,成立仅20天便完成2亿元天使轮融资 [8] - 不到一年时间完成三轮融资,筹集资金将主要用于机器人软硬件技术研发与场景落地 [7][9] 公司背景与团队 - 公司专注于具身智能软硬件技术研发与落地,核心团队几乎全部出身于旷视科技,拥有顶尖AI学术背景和十多年规模化落地经验 [12][13][14] - 联合创始人兼CEO唐文斌为旷视科技联合创始人,姚班首届Yao Award金牌得主,曾带领团队在LFW评测中以0.02%优势击败Facebook夺冠 [36][37][39][43] - 联合创始人范浩强为IOI金牌得主、清华姚班高材生,曾为旷视第一个算法研究员,谷歌学术被引数超过1万 [46][47][54] - 创始团队成员周而进为NOI、IOI金牌选手,原旷视12号员工,带队研发人脸识别技术并落地于小米、OPPO等手机解锁场景 [60][61][70][71] - 创始团队成员汪天才为原旷视高级研究员,累计发表顶会顶刊论文30余篇,谷歌学术引用量超6000,曾带领团队夺得多项全球顶赛冠军 [74][75][77] 技术研发与产品 - 公司已发表十余篇AI与具身智能方向顶会论文,推出Real-time VLA与MemoryVLA两个低延迟、长时程机器人操作任务框架 [16][17] - 开源基于PyTorch的VLA工具箱Dexbotic,提供一站式科研工作台,解决模型架构、数据格式不统一等问题 [19][20][22] - 同步开源硬件产品DOS-W1,为模块化、可扩展的数据采集双臂机器人,降低研究门槛并提高数据采集效率 [23][25][27][28] - 联合Hugging Face发布全球首个具身智能大规模真机评测平台RoboChallenge,建立行业评价标准 [30][32] 行业认可与成就 - 公司在ICRA 2025全球机器人视触融合挑战赛中夺得“纯触觉操控”和“触觉传感器设计”两个赛道金牌 [33] - 在CVPR 2025协作智能Workshop的RoboTwin赛事第一轮仿真平台赛中获并列第一成绩 [34] - 团队技术实力通过多项国际顶级赛事奖项得到验证,为产品提供质量背书 [35]