具身智能之心
搜索文档
字节前技术负责人联手清华姚班校友创业!
具身智能之心· 2025-12-05 16:02
文章核心观点 - 由清华姚班校友领军的中国初创公司“词元无限”开发的编码智能体InfCode,在SWE-Bench Verified和Multi-SWE-bench-CPP两项权威基准测试中均取得第一名的成绩,标志着AI编程从注重快速原型的“感性时代”(Vibe Coding)进入了面向企业级复杂工程的“工程时代” [6][9] - InfCode的技术突破主要体现在其多智能体体系,能够解决传统AI编程在大型代码库、跨文件修改和C++等系统级语言中面临的挑战,为企业引入AI编码提供了从“单体提效”走向“组织进化”的新范式 [8][12][17] AI编程范式演进与行业基准 - AI编程正从传统大模型生成代码片段,演进为强调自主性、全流程覆盖和工程实用性的“编码智能体”(Coding Agent)时代 [10][11] - **SWE-Bench Verified**:由普林斯顿大学等提出、OpenAI升级的权威基准,包含来自真实GitHub项目的Python问题,要求智能体解决问题且不破坏其他功能 [11] - **Multi-SWE-bench**:由字节跳动等机构于2025年推出,覆盖Java、TypeScript、JavaScript、Go、Rust、C与C++七种语言,包含1632个人工验证的修复任务 [11] - 系统级语言(如C++)的修复任务远难于高级语言,通常需要一次修改200多行、涉及7个文件,导致大语言模型表现显著降低,领先模型的解决率往往不足8% [12][16] 公司产品InfCode的性能表现 - 在**SWE-Bench Verified**基准上,InfCode以Pass@1得分**79.4%** 刷新世界最佳记录(SOTA),远高于公开排行榜上GPT-5、Claude等顶尖模型约70%的成绩 [7][14] - 在**Multi-SWE-bench的C++子集**上,InfCode达到**25.58%** 的解决率,大幅领先于Claude 3.7 Sonnet的**8.59%**、DeepSeek V3的**7.75%** 以及Qwen2.5-72B-Instruct几乎为零的解决率 [7][15][16] - 该成绩体现了产品在复杂语法和大型项目中生成正确补丁的能力,对工业界具有重要价值 [17] InfCode的核心技术亮点 - **基于功能意图的复杂上下文定位**:提出“代码意图分析”机制,超越传统基于向量相似度的RAG,通过理解自然语言背后的功能意图并将其映射到具体实现单元,精准定位问题代码,尤其在无堆栈信息的条件下表现突出 [20][21] - **基于AST的结构化检索**:自研基于抽象语法树的结构化检索引擎,通过Tree-Sitter构建完整语法树,提供如FindClass、FindFunction等语法层API,实现语法感知搜索,在C++等复杂语言中能高精度定位bug,避免传统文本搜索工具(如grep)的噪声问题 [22][23][25][26][28] - **对抗式双智能体生成架构**:首创由代码补丁生成器与测试补丁生成器构成的对抗式双智能体架构,二者在闭环中交替迭代,使补丁在鲁棒性与完备性上持续演化,达到工程级质量,契合了下一代编码智能体迭代-验证-优化的核心范式 [29][30][31][32][33] 产品的工程化流程 - 修复流程分为**生成**与**筛选**两阶段 [35] - **生成阶段**:系统并行启动多个独立容器运行修复链路,允许模型查看代码库、运行测试、分析错误,并最多进行五轮迭代以产生多样化候选补丁 [40] - **筛选阶段**:在真实构建和测试环境中重放每个补丁,除验证测试通过外,还考虑行为一致性、稳定性和副作用,最终选出具有更强工程完整性与可维护性的补丁 [40] 公司团队背景与战略 - 核心团队由**清华姚班校友**带队,拥有顶尖技术实力,并融合了技术前瞻、产品化能力与商业化思维 [6][42] - 团队领军人物**杨萍**曾在字节跳动主导创立公司首个软件工程实验室,其孵化的内部AI Coding产品已全面覆盖公司研发体系,对在超大规模组织中应用AI有深刻理解 [42] - **CTO 王伟**来自清华姚班,曾带队在SWE-Bench获得全球第二的成绩,具备扎实的大模型与智能体算法工程经验 [42] - **商业化负责人 李莹**拥有十余年AI产业落地经验,曾主导完成大模型To B领域数亿元规模的项目落地,具备将技术价值转化为商业回报的能力 [43] - 团队汇聚了来自字节、百度、微软等顶尖企业及清华、北大、哥大、MIT等世界名校的人才,构成“顶尖老将 + 新生代骨干”组合,多个重要岗位由00后领衔 [43] - 公司对AI Coding赛道的认知已从“工具效能”提升转向对软件工程全生命周期的重构(AI SWE),致力于打造提供端到端价值闭环的“数字员工”平台,并通过“Coding + 细分行业”的深度融合构建商业生态闭环 [44]
对话多个行业大佬!VLA与RL方案在真机上的部署怎么样啦?
具身智能之心· 2025-12-05 16:02
直播活动概览 - 具身智能之心公众号将举办一场主题为“VLA与RL的真机部署 如何更好落地”的线上直播 [13] - 直播时间为12月6日19:30,可通过扫描二维码免费观看 [25] - 直播将围绕VLA算法与RL落地问题展开,探讨多个具体技术话题 [3][16] 分享嘉宾背景 - **隋伟 (地瓜机器人副总裁)**:曾任职地平线,负责机器人与自动驾驶的2.5D及3D视觉算法研发,带领30人团队开发了高阶自动驾驶BEV感知方案并搭建了先进的4D标注系统,其成果已在数百万片旭日系列芯片和多个量产车型上应用,发表论文20余篇,拥有专利40多项 [4][5] - **张强 (北京人形机器人首席研究员和学术委主任)**:研究方向包括人形机器人运动控制、多模态感知及具身智能体,曾在Fourier GR-1、PNDbotics Adam及天工机器人平台担任强化学习算法核心研发,发表数十篇顶会顶刊论文 [6][7][8] - **汪天才 (原力灵机合伙人)**:原旷视科技高级研究员,是端到端自动驾驶算法PETR及多目标追踪算法MOTR的核心作者,发表顶会顶刊论文30余篇,谷歌学术引用量超6000次,PETR论文入选2022年最具影响力百篇AI论文 [9][10] - **于超 (清华深圳研究院助理教授)**:研究方向为强化学习驱动的决策智能,以第一/通讯作者发表顶级会议期刊论文50余篇,谷歌学术总引用4600余次,其NeurIPS 2022论文MAPPO引用超2000次 [11][12] 核心讨论议题 - VLA的架构和模型目前存在哪些痛点 [7][16] - 让机器人“舞得更好”的全身运动控制方案还有哪些进化空间 [7][16] - VLA与强化学习如何更好地在真机上部署,包括如何挑选硬件“板子”以及轻量化实现方法 [7][16] 后续深度内容 - 直播完整版深度内容、技术细节、QA及未公开彩蛋已独家上线知识星球「具身智能之心」 [28] - 知识星球涵盖多个深度技术解析主题,包括灵巧手设计与难题、Agent概念探讨、VLA推理加速框架Spec-VLA以及CMU的跨实体世界模型等 [28]
最新分层VLA模型:使用失败的演示数据,也能优化VLA模型!
具身智能之心· 2025-12-05 16:02
文章核心观点 - 提出了一种名为VINE的新型分层视觉-语言-动作模型 该模型创新性地将机器人操作数据中的失败经验转化为结构化学习信号 通过失败感知的树搜索规划机制 显著提升了模型在复杂和未见场景中的任务成功率和鲁棒性 [2][3][4] 现有VLA模型的局限与研究目标 - 传统视觉-语言-动作模型依赖人类遥控收集的成功演示数据训练 而数据采集过程中产生的大量失败尝试常被当作噪声丢弃 [2] - 这些失败数据蕴含着政策脆弱点的关键信息 单纯依赖成功数据的模型难以应对复杂环境中的不确定性 在未见场景中鲁棒性大幅下降 [2] - 研究目标是构建分层VLA模型 将失败经验转化为结构化学习信号 在不改变机器人核心技能的前提下 提升复杂操作任务的成功率和鲁棒性 [3] 模型架构与核心设计理念 - VINE模型基于分层强化学习构建 借鉴认知双系统理论 将高层推理与低层控制分离 形成System 2和System 1两大核心模块 [4] - 核心设计理念包括分层解耦 高层专注可行性规划 低层专注动作执行 失败信号仅注入高层规划 [7] - 采用失败感知机制 通过失败数据训练价值函数 让规划过程能预判高风险路径并提前剪枝 [7] - 支持离线训练 完全基于离线遥控数据进行训练 降低了落地成本 [7] 关键技术细节 - 问题形式化基于半马尔可夫决策过程 高层抽象为节点和边构成的SMDP 低层为标准马尔可夫决策过程 [7] - System 2作为元控制器 通过树搜索实现可行性导向规划 其核心包括世界模型与候选生成 失败感知价值函数以及树搜索算法 [6][8] - 失败感知价值函数估算从节点出发先到达目标集再到达失败集的概率 通过成功和失败数据联合训练 确保对失败路径的敏感 [6] - 树搜索采用批量蒙特卡洛树搜索 通过失败数据训练的价值函数剪枝脆弱分支 优先选择高可行性路径 [8][9] - System 1负责将高层规划的子目标序列转化为连续控制动作 仅基于成功数据训练 采用流匹配模型生成高频率动作块以适应20Hz控制需求 [10] 实验设置与核心结果 - 实验环境包括仿真环境和真实环境 均设置了见过和未见过场景以测试泛化能力 [12] - 仿真任务包括插头插入和抽屉打包 使用了人类遥控轨迹数据集 其中插头插入450条 抽屉打包240条 [17] - 在插头插入任务中 VINE在未见过场景中的成功率达到0.422 比最佳基线提升了26.7% 平均成功率达0.611 领先所有基线 [18] - 在抽屉打包任务中 VINE在未见过场景的成功率达0.675 比基线提升17.4% 平均成功率达0.752 相对提升10.1% [19] - 变体分析表明 树搜索和失败数据均为关键 无树搜索的变体在未见过场景成功率仅0.244 无失败数据的变体为0.525 而完整VINE达到0.675 [19] - 在真实世界实验中 VINE在见过场景的海绵收纳成功率达0.75 毛巾收纳达0.55 均优于基线 在未见过场景中 VINE的海绵收纳成功率达0.65 毛巾收纳达0.55 大幅领先基线 [21][23] 消融实验与模型分析 - 树搜索算法中 蒙特卡洛树搜索比深度优先搜索在未见过场景成功率高3.1% 且延迟减少9.7秒 [25] - 在多模态骨干网络融合中 当插值权重λₘ=0.6时性能最优 见过场景成功率0.800 未见过0.422 证明了动作先验与语言推理平衡的重要性 [27][29] - 添加不确定性触发的重规划模块后 抽屉打包未见过场景成功率从0.675提升至0.740 缓解了执行过程中的状态漂移问题 [30] 核心优势与贡献 - 有效利用了失败数据 将失败从噪声转化为可行性约束 通过价值函数直接指导规划 大幅提升了泛化能力 [33] - 分层架构具有灵活性 高层规划可通过调整搜索宽度适应任务复杂度 低层执行保持稳定 无需全模型重训 [33] - 支持离线训练 完全基于现有遥控数据 无需在线交互 降低了机器人部署的安全风险和成本 [33] - 研究提出了融合失败经验的分层VLA框架 首次将失败数据作为结构化规划信号 [33] - 设计了基于2D场景图和树搜索的失败感知规划器 通过价值函数量化路径可行性 实现前瞻性风险规避 [33] - 通过仿真与真实环境的全面验证 证明了失败数据和分层推理对提升鲁棒性的关键作用 [33]
SpatialActor:解耦语义与几何,为具身智能注入强鲁棒空间基因
具身智能之心· 2025-12-05 16:02
文章核心观点 - 文章介绍了一种名为SpatialActor的新型机器人操作模型,其核心创新在于将语义信息与空间几何信息进行解耦,通过双流架构分别处理,以克服现有模型依赖2D图像导致的深度信息丢失和对噪声敏感的问题,从而在仿真和真实世界任务中实现了更高的成功率和鲁棒性 [1][3] 方法与架构 - **核心设计理念**:机器人操作需要语义理解与几何把控的协同,SpatialActor采用“双流解耦-融合”架构,而非训练全能端到端网络 [6] - **语义引导几何模块**:该模块通过多尺度门控机制,自适应地融合来自预训练深度专家的鲁棒几何先验与来自原始深度的细粒度但含噪的几何特征,生成优化后的高层几何表征 [10] - **空间Transformer模块**:该模块旨在建立精确的2D至3D映射并融合多模态特征,通过将空间特征与机器人本体感知信息融合,并利用相机参数转换为3D坐标,再通过视图级和场景级注意力机制优化特征,最终解码生成精确的6-DoF动作 [12] 仿真基准测试结果 - **整体性能**:在包含18个任务、249种变体的RLBench仿真基准测试中,SpatialActor的平均成功率达到了**87.4%**,超越了此前的最先进模型RVT-2(81.4%)**6.0个百分点** [13] - **高精度任务表现**:在需要高空间精度的任务上优势显著,例如在“Insert Peg”任务中成功率高达**93.3%**,优于RVT-2的40.0%,领先**53.3个百分点**;在“Sort Shape”任务中成功率为**73.3%**,优于RVT-2的35.0%,领先**38.3个百分点** [13] 噪声鲁棒性测试 - **抗噪性能**:在模拟不同强度高斯噪声的实验中,SpatialActor始终优于RVT-2。在轻度、中度和重度噪声下,平均成功率分别比RVT-2高出**13.9%、16.9%和19.4个百分点** [14] - **关键任务抗噪性**:在“Insert Peg”任务中,抗噪优势尤为突出,在三档噪声下的成功率分别比RVT-2高出**88.0、78.6和61.3个百分点** [14] 真机实验结果 - **整体有效性**:在8个不同任务、15种变体的真实机器人实验中,SpatialActor的整体平均成功率为**63%**,显著优于RVT-2的**43%**,平均提升约**20个百分点** [18][19] - **任务具体表现**:在多个任务上表现更优,例如“Pick Glue to Box”任务成功率为**85%**(RVT-2为50%),“Push Button”任务成功率为**90%**(RVT-2为67%) [18] - **泛化与鲁棒性**:在被操作物体、接收物体、光照和背景发生变化等极具挑战性的条件下,SpatialActor仍能保持高水平表现,证明了其在复杂真实场景中的强大鲁棒性与泛化能力 [19] 结论与意义 - **技术总结**:SpatialActor通过解耦语义与几何信息,并分别构建鲁棒的高层几何表征和捕捉低层空间线索,有效解决了机器人操作中精确空间理解、传感器噪声和有效交互的挑战 [21] - **实验验证**:在超过50个仿真和真实世界任务上的广泛实验表明,该框架在多样化条件下均能实现更高的成功率和强大的鲁棒性 [21] - **未来方向**:文章指出机器人操作还需解决时序理解与长程决策问题,并提及团队另一项工作MemoryVLA,该工作引入记忆机制以实现时序感知的决策 [24]
人大等团队提出Mixture of Horizons策略,解决VLA的“长短视”问题
具身智能之心· 2025-12-05 04:00
文章核心观点 - 研究团队提出了一种名为“视野混合”(Mixture of Horizons, MoH)的创新策略,旨在解决视觉语言动作(VLA)模型中广泛采用的动作分块(Action Chunking)策略所固有的权衡问题[1][12] - 该策略通过并行混合不同长度的动作预测视野,使模型能够同时兼顾长期轨迹规划和短期精细动作控制,从而提升整体性能[12][13] - 基于此,研究进一步提出了“基于跨视野一致性的动态推理”机制,通过评估不同视野预测结果的一致性来动态决定可执行动作序列的长度,显著提高了模型的推理效率[16] - 该方法在LIBERO基准测试中取得了99%的平均准确率,刷新了该榜单的最高纪录(SOTA),并且其设计简洁,可作为即插即用模块应用于多种VLA模型架构[1][15][24] 研究背景与问题 - 动作分块策略是VLA领域广泛使用的技术,指模型根据当前观测和指令预测未来多步动作[2] - 现有研究发现,模型性能对动作分块的长度(即视野,Horizon)非常敏感,通常需要通过网格搜索来确定最优值(如5、10、30)[3][4] - 单一固定的动作块长度在长期轨迹规划与短期动作精度之间存在明显的权衡(Trade-off)问题,成为了限制VLA模型泛化能力的瓶颈[7][13] 视野混合(Mixture of Horizons)策略 - **核心思想**:通过混合不同长度的视野,使VLA模型能够同时具备长程规划能力和短程精细控制能力[12] - **实现方法**: - 将初始动作块输入重排为多组长度递增的序列,并行输入共享的Action Transformer进行处理[15] - 引入一个参数量极小的线性门控层(仅2k参数),为每一步、每一个视野生成融合权重[15] - 采用平衡损失(balance loss)防止门控层坍塌至少数偏好视野,确保所有视野均被有效利用[15] - 对不同视野的预测结果进行加权求和,得到最终动作预测[15] - **优势**:设计简洁,几乎不增加计算负担,可即插即用地应用于基于回归、分类、流匹配或扩散的各类VLA模型[15][41] 动态推理(Dynamic Inference)策略 - **原理**:利用视野混合策略中不同长度视野在每一步动作预测上的一致性,来衡量该动作的可靠程度[16] - **机制**:在测试时,通过评估跨视野共识,动态决定可执行动作序列的长度,将更多可靠动作加入执行队列,从而加速推理过程[16][36] - **效果**:在LIBERO-Long任务上验证,即使在2.5倍吞吐率下,性能仍稳定超过基线模型,且比固定长度前缀的执行方式更稳定可靠[32][33][34] 实验设置与结果 - **仿真环境**:实验在LIBERO和RoboTwin2.0基准上进行[17] - **训练配置**:实验规模轻量,在4块A100 80G GPU上,LIBERO训练30k步,RoboTwin2.0训练约3k到10k步,均可在8小时内完成训练[18][19][20] - **LIBERO结果**: - 在基于回归的Treg模型(3B参数)上应用MoH后,平均准确率从95.2%提升至96.4%[23] - 在基于流匹配的TO.5模型(3B参数)上应用MoH后,平均准确率从97.7%提升至99.0%,其中Object任务达到100%准确率,刷新SOTA[23][24] - **RoboTwin2.0结果**:视野混合策略增强了模型在分布内任务上的收敛性,并提升了在更具挑战性任务设置上的泛化性和稳定性[29] 方法特性与开销 - **普适性**:方法适用于多种VLA模型架构,具有广泛的适用性[15] - **低开销**:由于Action Transformer参数量相对较小(约300M),且采用并行计算,MoH策略带来的额外训练和推理资源负担极小[41] - **无损推理**:在推理速度上几乎无损,完全不影响VLA模型的可用性[42]
RoCo Challenge @ AAAI 2026 面向机器人组装的具身智能国际竞赛
具身智能之心· 2025-12-05 04:00
赛事概述 - 赛事名称为RoCo Challenge 2026 (Robotic Collaboration Challenge),由南洋理工大学感知与具身智能实验室、A*STAR、卡耐基梅隆大学等机构联合主办,旨在推动机器人在复杂生产与操作环境中的自主决策、协同规划与安全交互能力的研究与落地 [1] - 赛事核心主题为“人机协作装配”,围绕齿轮箱装配场景,考察机器人在预测与协助、人机交互、错误检测与恢复、自主延续等关键环节的智能协作能力 [5] - 赛事总奖金为2000美元,优胜队伍将获得在AAAI 2026主会场特设环节进行成果演示的机会,其作品还将被推荐至顶级学术期刊与开源社区展示 [2] 赛道设置与任务 - 赛事包含仿真和现场两大赛道,覆盖从虚拟仿真环境中的人机协作任务规划到真实机器人平台的多模态操作执行等环节 [1][5] - 仿真赛道任务分为三大场景:从零装配(机器人需自主完成整个装配流程)、部分续作(机器人需感知当前状态并正确衔接后续步骤)、错误检测与恢复(机器人需识别并纠正系统注入的错误) [7][10] - 现场赛道将在新加坡ARTC (Advanced Remanufacturing and Technology Centre) 举办,机器人需与人类操作者通过手势等交互指令协同装配标准化齿轮箱套件 [12] 赛事日程与安排 - 赛事分为三个阶段:Phase A 公布与注册(2025年11月10日开始)、Phase B 线上赛(2025年11月至2026年1月10日)、Phase C 现场总决赛(2026年1月24–26日于新加坡ARTC举行) [13][14][15] - 最终成绩将在AAAI 2026特设环节公布,入围决赛的团队将受邀前往新加坡ARTC参加现场总决赛,并在AAAI 2026 Human-Centric Manufacturing Workshop进行成果演示 [12][13] 行业背景与目标 - 随着具身智能与大模型技术的快速发展,机器人正从执行工具迈向具备理解与协作能力的智能体,实现高效、安全的人机协作成为智能系统在工业制造、服务机器人等领域落地的关键挑战 [5] - 赛事旨在构建统一的评测平台,推动机器人在复杂环境下的感知、规划与协作研究,聚焦多模态理解、任务共建与人机互动等前沿议题,以助力智能制造与具身智能的发展 [5]
复刻pi0.6很难?SRPO:无需微调 Value Model,VLA-RL 也能刷新 SOTA
具身智能之心· 2025-12-05 00:02
文章核心观点 - 强化学习是提升视觉-语言-动作模型性能的关键路径,但传统方法构建高质量奖励模型成本高昂 [2] - SRPO框架提出了一种无需任务特定奖励微调的“自我参考”与“通用世界表征”结合的奖励构建机制 [4] - 该方法在多个基准测试中刷新了SOTA,并显著提升了开源模型的真机表现 [4] 算法原理与核心思想 - 核心思想是“我最好的表现,就是我的老师”,利用批次内成功轨迹作为动态参考系 [13] - 通过预训练的世界模型提取潜空间世界表征,以衡量失败轨迹与成功轨迹在行为层面的相似度 [16] - 算法流程包括世界模型编码、成功轨迹聚类、潜空间距离计算、奖励构造和策略更新五个步骤 [17][18][19][20][21] - 策略更新采用组内归一化优势估计和PPO风格的Clipped Surrogate Objective,并加入KL散度正则化以防止灾难性遗忘 [22][23][24] 性能表现与实验结果 - 在LIBERO基准测试中达到99.2%的成功率,刷新SOTA [26] - 在LIBERO-Plus的泛化任务上,性能较one-shot SFT基线提升高达167% [28] - 相较于使用0/1奖励的GRPO方法,SRPO仅需219步就能将模型成功率从17.3%提升至98.6%,效率优势显著 [34] - 在真机测试中,对开源模型Pi0和Pi0-fast的成功率相对SFT分别提升66.8%和86.7% [36] 奖励信号质量与优势 - 利用大规模视频预训练的世界模型表征,其奖励信号更平滑、合理,能更好地区分成功与失败轨迹 [16][31] - 在五项定量评估指标上均优于像素级方法和通用视觉编码器基线 [33] - 奖励构建方法对包含重复操作或多步骤的长程任务表现出更强的稳定性和合理性 [37] 技术特点与创新 - 无需针对每个任务收集数据并微调价值模型,解决了多任务、少样本场景下的挑战 [8] - 无需额外专家数据或人工设计稠密奖励,实现了“任务无关”的通用渐进式奖励构建 [9][10] - 方法可作为通用插件,显著增强现有VLA模型的真机操作能力 [36]
面向真机,搞了一套VLA算法部署+量化+世界模型实战教程
具身智能之心· 2025-12-05 00:02
具身智能与视觉语言动作模型技术现状 - 视觉语言动作模型在真实硬件上运行效果不佳,许多模型难以达到预期效果 [1] - 具身智能领域高度依赖硬件本体,算法与硬件结合紧密,仿真和互联网数据在泛化性能上无法保证 [2] - 行业内的许多公司坚持采用“真机数据”路线来确保模型性能 [2] 技术发展与开源生态 - 近两年来,视觉语言动作模型算法发展迅速,从ACT、OpenVLA到π0、π0.5、π0.6等新方法不断涌现,性能持续提升 [4] - 基于强化学习的优化方案使得视觉语言动作模型运行更加流畅 [4] - 开源技术框架(如LeRobot)和多样化的开源硬件本体(如SO-100机械臂、openarm双臂、XLeRobot移动操作平台)为研究提供了支持 [4] 技术落地面临的挑战 - 打通从数据采集、模型训练优化到部署的全流程任务对初学者极为困难,许多人长期无法有效入门或取得好效果 [6] - 特定模型如π0、π0.5、GR00T在数据采集和模型训练中存在大量未公开的技巧 [6] - 模型训练前的仿真调试至关重要,在真机数据不足时,Mujoco、Isaac Gym等仿真框架及sim2real技术尤为重要 [10] - 模型训练技巧是关键,许多模型存在机械臂运动不准、夹爪操作失败或运动误差大的问题 [10] - ACT等算法相对简单易出效果,而π0、π0.5等模型训练难度大,对细节和经验要求高,强化学习优化同样充满挑战 [11] 视觉语言动作模型落地的核心模块 - **数据采集**:主要方法包括基于模仿学习的遥操作、VR、全身动作捕捉,以及强化学习,如何采集高质量数据及实现real2sim2real是重点 [7][8] - **模型训练**:涉及仿真调试与训练技巧,特别是在真机数据不足时如何微调模型,以及如何用小数据量获得好结果 [9][10] - **模型部署**:训练后的模型需进行“瘦身”处理,因参数量大(即使是2B规模),在边缘芯片部署挑战大,需采用量化、蒸馏等轻量化技术 [12][13] 行业培训与解决方案 - 针对视觉语言动作模型技术更新快、学习难度大的痛点,出现了面向实战与求职的系统性小班课程 [14] - 课程内容全面,涵盖机械臂硬件、数据采集、算法、评测、仿真、主流模型部署、视觉语言动作模型与世界模型结合、真机实验及产业讲解 [16] - 课程提供SO-100机械臂硬件(含示教臂和执行臂)以供实践 [20] - 课程讲师为机器人公司高级研究员,拥有5年以上行业实战与产学研落地经验,精通全栈技术并在顶级期刊发表论文10余篇 [23] - 目标学员包括求职者、入门进阶者、高校学生、转行人员及爱好者,要求具备Python和PyTorch基础,并建议使用3060及以上显卡进行推理,2张以上3090ti进行训练 [24] - 课程目标为使学员掌握真机调试与数据采集、各类视觉语言动作模型算法部署、模型量化技术,并对产业有清晰认识,积累相当于1-2年经验的算法工程项目 [27] - 课程计划于2025年12月30日开课,共分九章,持续至2026年2月25日 [28]
人形机器人新突破!敏捷稳定两不误
具身智能之心· 2025-12-05 00:02
文章核心观点 - 由香港大学、NVIDIA和清华大学联合提出的AMS统一人形机器人全身控制框架,首次在单一策略中同时实现了动态运动跟踪和极限平衡控制能力,解决了该领域的“两难困境” [3][5] AMS框架解决的核心挑战 - 人形机器人需要同时具备敏捷的动态运动和精确的平衡控制,但现有方法难以在统一框架中实现两者 [5][7] - 现有研究主要分两个方向:动态运动跟踪(如跳舞、跑步)和平衡控制(如单腿平衡),两者难以统一 [8][10] - 难以统一的原因主要有两方面:一是依赖人类动作捕捉数据存在“长尾分布”问题,极端平衡场景数据不足;二是动态运动与平衡控制的优化目标存在冲突 [12][13] AMS框架的三个关键创新 异构数据源 - 核心思路是从机器人动作空间直接采样生成可扩展的平衡数据,突破人类数据限制 [2] - 该方法避免了手动收集人类动作数据的限制,通过采样生成合成平衡动作数据 [16] - 优势包括:保证物理可行性、可扩展性强、能生成人类难以完成的极限平衡动作,充分挖掘机器人独特的机械能力 [16] - 整合人类动捕数据与合成平衡动作,有效缓解数据长尾分布问题,使策略能零样本跟踪如“叶问蹲”等未见过的极端平衡动作 [19][20] 混合奖励机制 - 选择性应用平衡先验奖励,精准提供平衡指导而不牺牲敏捷性 [2] - 设计包含通用奖励(应用于所有数据,鼓励鲁棒运动跟踪)和平衡先验奖励(仅应用于合成平衡数据,提供物理先验引导) [21] - 该设计使策略既能从人类动作中学习敏捷行为,又能在挑战性姿态中保持稳定,化解了优化目标冲突 [21] 自适应学习策略 - 动态调整采样概率,同时对每个动作“因材施教”,实现高效的自适应学习 [2] - 包含两个关键组件:自适应采样(根据跟踪性能动态调整运动序列采样概率,实现困难样本挖掘)和自适应奖励调整(为每个运动维护特定的误差容忍度参数) [23] 实验结果与能力展示 - 在Unitree G1人形机器人上的真机实验表明,AMS统一策略能够实现多种能力 [24] - **动态运动跟踪**:能够流畅执行折返跑、篮球运球、武术等多种高动态动作 [24][26] - **极限平衡控制**:得益于可扩展的合成平衡动作数据,展现了精确的平衡控制能力,能完成随机采样生成的单腿平衡动作 [26][28] - **实时遥操作**:支持基于惯性动捕和基于RGB相机的多种实时遥操作模式,展示了其作为基础控制模型的实用价值 [29][31][33]
有的同学已经开始叠毛巾,有的还在调硬件......
具身智能之心· 2025-12-04 09:53
产品发布与定位 - 公司正式发布并支持pi0和pi0.5任务的部署,相关代码将开源 [1][2] - 公司发布了一款名为Imeta-Y1的轻量级高性价比机械臂,专为具身智能科研领域打造,旨在帮助新手和科研初学者低成本、高效率地完成算法验证与项目开发 [4][5][6] 产品核心功能与性能 - 机械臂本体重量为4.2KG,额定负载为3KG,拥有6个自由度,工作半径为612.5mm,重复定位精度为±0.1mm [13][24] - 机械臂关节运动范围广泛,例如J1关节为-165°至165°,关节运动最大速度可达180°/s至220°/s [13] - 提供从数据采集、模型训练到推理部署的全流程开源工具链和代码示例,支持视觉、力控等多模态数据融合,并兼容TensorFlow、PyTorch等主流框架 [7][22][41] - 支持Python和C++双语言开发接口,并兼容ROS1和ROS2,提供URDF模型,可实现仿真与真机的无缝切换 [7][8][22][23] - 提供完整的开源软件开发工具包(SDK),包含驱动程序、API接口、示例代码与文档 [34][35] 产品优势与特点 - 产品设计对新手友好,提供全流程工具链和代码,旨在降低上手难度 [6][7][22] - 支持Gazebo等主流仿真环境与真机实时联动,用户可在仿真中验证算法后一键部署至物理设备,以降低开发风险与调试成本 [22][27] - 公司提供快速响应的售后服务,承诺24小时内响应 [8][24] - 机械臂采用高精度运动控制、低功耗设计与开放软硬件架构,其紧凑型结构与模块化接口适用于嵌入式AI与机器人学习平台的开发 [10][11] 应用演示与算法适配 - 公司通过让机械臂执行“叠毛巾”这一生活化任务,展示了其从单次折叠到连续流畅叠放多条毛巾的算法迭代与执行稳定性进化过程 [3] - 机械臂已适配的算法包括ACT,并计划后期陆续升级更新VLA、VA相关的源码,新老客户均可享受升级 [24] - 在硬件适配方面,机械臂目前已适配Realsense D435系列和奥比中光DCW2相机 [55] - 对于模型训练所需的硬件配置,公司示例称其适配的算法在NVIDIA GeForce RTX 4060显卡上即可进行训练和推理 [55]