具身智能之心
搜索文档
VLA-Pilot:无需微调即可部署的VLA策略引导框架
具身智能之心· 2025-12-09 00:05
文章核心观点 - 视觉-语言-动作模型在真实世界机器人操作中潜力显著,但预训练策略在下游部署时存在性能下降问题,传统微调方法因成本高昂而难以实际应用 [2] - 提出一种名为VLA-Pilot的即插即用推理时策略引导方法,该方法无需额外微调或数据收集,即可实现预训练VLA模型的零样本部署 [2] - 实验表明,VLA-Pilot能显著提升现有预训练VLA策略的成功率,并具备跨任务、跨机器人实体的鲁棒零样本泛化能力 [2][6] 技术方案与框架 - VLA-Pilot是一个即插即用、无需微调的数据高效推理引导框架,旨在实现预训练VLA策略的零样本部署 [6] - 该框架的核心是推理时策略引导,分享嘉宾来自香港中文大学 [7] - 分享内容将涵盖VLA模型介绍以及VLA-Pilot框架的具体实现细节 [7] 实验验证与效果 - VLA-Pilot在两种不同机器人实体上,覆盖了分布内与分布外场景的六项真实世界下游操作任务中进行了评估 [2] - 实验结果显示,该框架显著提升了现有VLA策略的成功率 [2][6] 相关资源与扩展 - 相关研究论文标题为《Towards Deploying VLA without Fine-Tuning: Plug-and-Play Inference-Time VLA Policy Steering via Embodied Evolutionary Diffusion》,已发布在arXiv上 [3] - 项目设有主页,提供了更多详细信息 [3] - 关于该主题更深入的技术细节、问答及未公开内容,可在知识星球「具身智能之心」获取 [9]
自变量机器人岗位招募来啦!强化学习/世界模型/VLN/物理仿真等方向
具身智能之心· 2025-12-08 10:00
公司概况 - 公司成立于2023年12月,致力于通过研发具身智能通用大模型实现通用机器人 [1] - 创始人兼CEO王潜毕业于清华大学,是全球最早在神经网络中引入注意力机制的学者之一,博士期间在美国顶级机器人实验室参与多项机器人学习研究 [1] - 联合创始人兼CTO王昊是北大计算物理博士,曾在IDEA研究院担任封神榜大模型团队算法负责人,发布了国内首个多模态开源大模型“太乙”、首批百亿级大语言模型“燃灯”及千亿级大语言模型“姜子牙” [3] 技术路径与成果 - 公司自成立起确立了以端到端统一大模型实现通用具身智能的技术路径,坚持软硬一体同步发展 [5] - 自研的「WALL-A」模型是世界上最大规模的端到端统一具身智能基座大模型,在多个维度上超过了现有已知模型 [8] - 公司拥有大规模的数据采集团队,并坚持使用真实数据训练算法 [8] - 公司重视研发,研发占比高,博士占比高,架构扁平,以做事为主 [8] 商业化与资本认可 - 公司的技术理念和成果已获得国家级投资平台、国内外顶级投资机构与产业资本的认可 [5] - 已规划的商业化场景包括酒店、养老、物流、工业、医院等 [5] 人才招聘重点 - 公司正在招募算法、开发、部署、仿真等多个方向的优秀人才 [5] - 算法类岗位(如强化学习运控算法工程师、世界模型算法工程师)要求硕士及以上学历,具备扎实的深度学习、强化学习基础,熟悉机器人仿真平台及端到端操作模型,有顶级会议论文或竞赛获奖经历者优先 [12][13][16][17] - 仿真类岗位(如物理仿真算法工程师)要求硕士或博士学位,精通C++和Python,深入理解刚体动力学,拥有主流物理引擎使用或开发经验,具备优秀的数学功底 [20][22][23] - 部署类岗位(如大模型算法部署交付工程师)要求本科及以上学历,熟悉大模型部署流程及优化技术,具备大模型或机器人开发经验 [24][25][28] - 其他开放岗位包括产品经理、研发管理类、SLAM算法、标定等 [26]
具身智能之心课程开发&辅导类合伙人招募啦!
具身智能之心· 2025-12-08 10:00
文章核心观点 - 具身智能之心是一个具身与机器人领域的原创技术平台和社区,旨在通过汇聚行业力量,在课程研发、硬件开发、咨询服务等多个方向合作,以推动行业发展、降低开发门槛并培养人才 [1] 合作方向与内容 - **课程开发与论文辅导**:合作搭建面向初学者、企业培训和高校学科建设的课程体系,以推动行业向前发展 [2][3] - **硬件研发**:合作开发好用且性价比高的具身智能科研平台,旨在降低开发者和初学者的使用门槛 [4][5] - **咨询和培训服务**:合作承接企业端和消费者端在具身数据、本体、算法和部署等方面的咨询,以助力产业升级和人才发展,并承诺充分保护个人隐私 [6][7] 合作者要求与待遇 - **岗位要求**:期望合作者具备一定的领域工程经验,或拥有博士及以上学位并手握顶级会议论文 [8] - **工作形式**:全职和兼职均可 [8] - **待遇说明**:提供行业有竞争力的报酬,并共享行业资源 [9] 联系方式 - 感兴趣者可通过添加指定微信进行进一步咨询 [10]
这家最早做VLA的公司,首创了6臂的移动机器人~
具身智能之心· 2025-12-08 03:00
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 美的作为国内率先从事VLA相关技术研究的企业,近期正式推出了六臂轮足式人形机器人,形态让人一眼想起了美杜莎hhh。 12月5日,在"2025粤港澳大湾区新经济发展论坛暨21世纪科技年会"上,美的集团副总裁兼首席技术官(CTO)卫昶在主题演讲中首次正式披露超人形机器人MIRO U。 MIRO U作为行业首创的六臂轮足式人形机器人,核心技术体系自主研发构建,可实现稳定升降与360度原地转体,以及机械臂高精度灵活控制,同时执行器支持末 端多类模组的快速切换,形成多维度协同作业系统。 为什么是这种构型?作为一直关注工业制造领域的企业,美的一直想要重点突破工业场景下的作业效率,这也被认为是人形机器人落地的关键。 全平台服务米啦! 保姆级 具身智能方向论文辅导来啦! 我们提供的辅导服务 顶会 / 顶刊 / SCI / EI / 中文核心 毕业论文 / 申博辅导 ...
刚刚,英伟达CUDA迎来史上最大更新!
具身智能之心· 2025-12-08 01:11
作者丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 几个小时前, NVIDIA CUDA Toolkit 13.1 正式发布, 英伟达官方表示: 「这是 20 年来最大的一次更新。」 这个自 2006 年 CUDA 平台诞生以来规模最大、最全面的更新包括: 下面我们就来具体看看。 CUDA Tile CUDA Tile 是 NVIDIA CUDA Toolkit 13.1 最核心的更新。 它是一种基于 tile 的编程模型,能够以更高的层次编写算法,并抽象化专用硬件(例如张量核心)的细 节。 NVIDIA CUDA Tile 的发布, 这是英伟达基于 tile 的编程模型,可用于抽象化专用硬件,包括张量核心。 Runtime API exposure of green contexts (是指把所谓的 Green Context「指轻量级的、可并发调度的上下文或执行环境」暴露给外部调用者使用。) NVIDIA cuBLAS 中的双精度和单精度仿 ...
远超基线模型!X-Humanoid:推动机器人从 “真实数据” 向 “虚拟合成 + 互联网数据” 转型
具身智能之心· 2025-12-08 01:11
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Pei Yang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在 embodied AI 领域,视觉 - 语言 - 动作(VLA)模型与世界模型的发展虽展现出通用自主能力的巨大潜力,却始终受限于核心瓶颈——大规模、多样化机器人训 练数据的稀缺。现有解决方案要么依赖成本高昂的真实机器人数据采集,要么通过简单叠加机器人部件编辑第一视角人类视频,均无法应对第三人称视频中的全身 复杂动作、动态背景与严重遮挡问题。 新加坡国立大学 Show Lab 提出的 X-Humanoid 框架 ,以 "数据合成 - 模型适配 - 大规模生成" 为核心逻辑,首次实现第三人称人类视频到类人机器人视频的高质量 转化,为机器人训练提供了全新的数据生成范式。 论文题目:X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale 项 ...
8个实战,彻底讲清VLA的各类方案
具身智能之心· 2025-12-08 01:11
具身智能与视觉语言动作模型技术现状 - 行业普遍面临视觉语言动作模型在实际硬件上难以跑出效果的挑战 [1] - 具身智能领域高度依赖硬件本体,算法与硬件紧密耦合,仿真和互联网数据在泛化性能上无法保证,许多公司坚持采用“真机数据”路线 [2] - 近2年来,算法技术快速发展,从ACT、OpenVLA到π0、π0.5、π0.6等新方法层出不穷,性能持续提升,基于强化学习的优化方案使模型运行更流畅 [4] - 开源硬件本体多样化,例如SO-100机械臂、openarm双臂操作系统、XLeRobot移动操作平台,支持各类研究需求 [4] VLA模型落地实施的核心模块与挑战 - 数据采集是首要模块,主要方法包括基于模仿学习的遥操作、VR、全身动捕捉,以及强化学习方法,在机械臂结合VLA领域更多采用遥操作和VR [7][8] - 数据采集的质量保障及real2sim2real流程是关键问题 [8] - 模型训练前通常需进行仿真调试,在真机数据不足时,Mujoco、Isaac Gym等仿真框架及sim2real技术尤为重要 [10] - 模型训练技巧至关重要,包括如何微调模型、如何在小数据量下取得良好效果,许多模型存在机械臂运动准但夹爪操作不佳或运动误差大的问题 [10] - ACT算法相对简单易出效果,而π0、π0.5、GR00T等模型训练难度高,对细节和技巧要求严格,强化学习优化模型的经验门槛高 [6][10] - 模型部署前需进行“瘦身”操作,即使参数量为2B的模型,在边缘芯片部署挑战仍大,需通过量化、蒸馏等轻量化技术最小化参数量并保证性能 [12] VLA技术学习与人才培养 - VLA技术更新快,学习曲线陡峭,许多学习者即使拥有真机硬件也不知如何入手 [13] - 行业推出了首个面向实战与求职的VLA小班课,内容涵盖机械臂硬件、数据采集、VLA算法与评测、仿真、主流VLA模型部署、VLA结合世界模型、真机实验及具身产业讲解 [14][16] - 课程为学员提供SO-100机械臂一套,包含示教臂和执行臂 [21] - 课程讲师为某机器人公司VLA高级研究员,拥有5年以上机器人行业实战经验,精通具身智能全栈技术,并在顶级期刊发表学术论文10篇以上 [25] - 课程目标人群包括:具身领域求职者、VLA入门进阶者、相关领域学生、从传统CV/机器人/自动驾驶转行者以及对具身智能感兴趣的人员 [27] - 课程对硬件有明确建议:推理建议使用RTX 3060及以上显卡,训练建议使用2张以上RTX 3090 Ti显卡,也可自租云服务器,并要求学员具备一定的Python和PyTorch基础 [27] - 完成课程后,学员将掌握真机调试与数据采集、各类VLA算法真机部署、模型量化技术,并对具身产业有清晰认识,简历项目经验可达到1-2年以上算法工程师水平 [30] - 课程计划于2025年12月30日开课,共分九章,持续至2026年2月25日 [28][31]
SpaceX估值8000亿美元超OpenAI,IPO就在明年
具身智能之心· 2025-12-08 01:11
SpaceX估值与融资动态 - 据华尔街日报报道,SpaceX正与投资者就新一轮内部股份出售进行谈判,若交易达成,公司估值将飙升至8000亿美元(约合人民币5.66万亿元)[1] - 此次估值为二次股票出售(即现有股东向新投资者出售股份),若完成,将使SpaceX超越OpenAI(估值5000亿美元),成为全球估值最高的私营企业之一[2][10][12] - 公司估值在不到半年内翻番,今年7月进行上一轮二次股票出售时估值仅为4000亿美元(约合人民币2.83万亿元)[3][10] - 另有媒体报道(如彭博社)指出,交易可能以每股约300美元进行,届时估值可能为5600亿美元,最终数字在交易敲定前仍可能变化[11] 公司业务与运营状况 - SpaceX成立于2002年,是一家私营航空航天和太空运输公司,核心业务为火箭发射和卫星[5][17] - 公司在火箭发射市场已占据主导地位,为商业卫星公司和NASA等机构提供服务[18] - 卫星业务(特别是Starlink部门)被认为是推动其高估值的主要理由,该部门目前拥有约9000颗卫星,是重要收入来源[19][23] - 公司正在开发下一代完全可重复使用的运载火箭“星舰”(Starship),迄今为止已完成11次试飞实验[20][21] - 据马斯克今年6月透露,SpaceX 2024年全年预计营收将达155亿美元,略高于OpenAI同期的130亿美元预计营收[25][26] 上市计划与行业对比 - SpaceX被曝最早将于2025年下半年进行首次公开募股(IPO)[16] - 公司高管目前更倾向于将火箭发射和Starlink卫星业务打包上市,而非拆分Starlink独立上市[24] - 在上市时间点上,SpaceX(可能2025年下半年)可能比OpenAI(传闻最早2026年下半年提交申请,2027年上市)更快一步[26] - OpenAI上市时估值有望高达1万亿美元,SpaceX的估值正快速追赶[26][27]
今年大家最关注的具身方向原来是这些?
具身智能之心· 2025-12-07 03:03
最近正在准备为具身行业起草一份非常丰富的研报,预计明年的第一季度公布。因为涉及的内容和方向 非常多,包括具身公司的融资、产业、政策、算法、落地、出口等多个模块,所以也非常想了解下大家 都在关注哪些内容,侧重点应该在哪里。 国内具身产业与政策 国外具身产业情况 具身公司融资、业务情况 具身数采相关 具身算法优化部署相关 机器人边缘芯片相关 具身下游产业发展 具身产业人才结构与需求 具身公司上市辅导等 其它 微信扫码填写,只需10s 为了更好服务大家,我们也简单做个调研,涉及以下板块,支持多选哦~ ...
看到字节最新的GR-RL丝滑系鞋带,真的怕了......
具身智能之心· 2025-12-07 03:03
文章核心观点 - 字节跳动提出的GR-RL框架成功解决了机器人长时程精细操作的核心瓶颈,成为首个能自主完成多鞋孔系鞋带任务的学习型模型 [1] - GR-RL框架通过“数据提纯-能力增强-行为对齐”的三层逻辑闭环设计,将通用视觉-语言-动作模型转化为长时程精细操作专家 [9] - 该方案在系鞋带任务中实现了83.3%的成功率,显著优于基线模型,为通用模型向真实世界专精模型转化提供了可复用的范式 [18][22][28] 问题根源:长时程精细操作的三大核心矛盾 - **演示数据质量与任务精度的矛盾**:人类演示数据中存在“犹豫停顿”、“错误尝试”等次优行为,直接模仿这些含噪声的数据会导致模型学到低效或错误的动作模式 [4] - **训练与部署的行为mismatch矛盾**:部署时对模型输出动作进行“轨迹平滑”等优化,与训练阶段学习的原始动作存在差异,这种差异在精细操作中会被放大,导致性能下降 [5] - **泛化能力与任务特异性的矛盾**:通用模型缺乏对特定任务的针对性优化,无法利用机器人形态对称性提升鲁棒性,且难以应对长时程操作中的突发场景和误差累积 [6] 方案设计:GR-RL的三层逻辑闭环 - **第一层:数据提纯**:采用基于分布式评论家网络的任务进度评估器,通过TD3+BC离线强化学习算法,以任务成功/失败为稀疏奖励,并利用“重试关键帧标注”技术,其预测的Q值作为任务进度指标,用于筛选和剔除进度值下降超过阈值的次优演示数据 [10] - **第二层:能力增强**:利用双臂机器人的形态对称性设计数据增强策略,包括视觉层面水平翻转和交换摄像头画面、动作与状态层面的镜像对称转换、以及语言层面同步修改文本指令,无需额外采集数据即可提升模型“左右手通用”和“多视角适配”的操作能力 [10] - **第三层:行为对齐**:提出基于潜在空间探索的在线强化学习方案,在动作扩散模型的噪声输入空间引入轻量级噪声预测器进行引导,并施加分布约束,同时采用双缓冲池采样策略平衡稳定学习与环境适配,以弥合训练与部署的差异 [11][14] 落地支撑:硬件与模型架构的协同优化 - **ByteMini-v2机器人硬件优化**:肘部执行器峰值扭矩从17 Nm增至35 Nm,臂部最大负载从1.4 kg提升至3.15 kg;底盘投影面积缩小至450 mm×650 mm,优化空间机动性;并进行了人机交互与可靠性升级 [12][15] - **混合Transformer模型架构**:采用总参数量达50亿的混合Transformer架构,高效处理多模态信息;其中VLA策略网络以Qwen2.5-VL-3B-Instruct为骨干,通过动作扩散Transformer生成动作;分布式评论家网络采用因果Transformer结构,预测动作块的Q值分布以避免价值高估 [12][21] 验证逻辑:从整体性能到组件有效性的层层拆解 - **整体性能突破**:在系鞋带任务中,基础通用模型GR-3成功率仅45.7%,仅加入数据筛选后提升至61.6%,叠加形态对称增强后达72.7%,最终通过在线RL,成功率稳定在83.3%,在线训练后期一度超过90% [18][22] - **关键阶段性能提升**:数据筛选主要提升“穿入鞋孔”阶段的成功率,从46.4%升至63.8%;形态对称增强对所有阶段均有提升,如“拾取鞋带”阶段从58.7%升至76.5%;在线RL进一步降低“交接”、“拉紧”阶段的失败率,如“交接”阶段从45.7%升至83.3% [20][26] - **核心组件有效性验证**:通过消融实验对比,GR-RL采用的分布式评论家网络相比非分布式评论家,能避免在稀疏奖励场景下的价值高估问题,预测更稳健;相比回归型预测器,对“毫米级偏差”等细微失败更敏感,且能捕捉对任务有长期正向作用的操作 [24][27][30][31] 局限与未来方向 - **行为漂移问题**:在线RL阶段,稀疏噪声奖励可能导致模型行为不稳定,未来可通过动态调整噪声约束阈值或引入分层强化学习优化信用分配 [27] - **基础模型融合不足**:当前未将专精能力蒸馏回基础模型,导致模型难以兼顾“长时程精细操作”与“多任务泛化”,未来需探索专精知识蒸馏技术 [27] - **任务扩展性有限**:实验仅验证系鞋带任务,未来需在“精密零件装配”、“手术辅助”等更多长时程精细操作任务中测试,以进一步验证框架通用性 [27]