零样本学习
搜索文档
看一次就能执行!VLA的零样本学习是伪命题吗?
具身智能之心· 2025-12-13 01:02
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Guangyan Chen等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在机器人研究领域,视觉 - 语言 - 动作(VLA)模型虽已展现出端到端控制的潜力,但通用操纵策略的开发仍面临核心瓶颈——现有模型难以泛化到训练分布之外 的任务,而人类仅需观察一次示范即可快速掌握新技能。 北京理工大学与 LimX Dynamics 联合提出的 ViVLA 框架 ,以 "单样本视频模仿学习" 为核心目标,通过 "统一动作空间构建 - 并行解码优化 - 大规模数据生成" 的 三层技术体系,首次实现机器人从单段专家示范视频中高效学习新技能,为通用机器人政策学习提供了全新范式。 论文题目:See Once, Then Act: Vision-Language-Action Model with Task Learning from One-Shot Video Demonstrations 核心亮点: ...
为啥机器人集体放弃“跑酷” 全去“叠衣服”了?
机器人大讲堂· 2025-11-24 15:00
行业风向转变 - 机器人行业从展示跑酷、跳舞等极限动作转向专注于叠衣服等家务任务[1][3] - 企业减少概念炒作,开始关注市场需求,技术演示更务实[7] 技术演示案例 - Figure 03使用五指手叠毛巾,但边角容易卷起[5] - Weave Robotics的半自动叠衣视频采用2倍快进,实际速度偏慢[5][20] - 谷歌ALOHA挂衣演示未剪帧,动作缓慢且对齐衣架有困难,但因真实感获得认可[8] - Dyna Robotics让机器人连续18小时叠餐巾,展示单一任务的执着[8] 技术突破驱动 - 十年前PR2机器人需固定绿色背景才能叠简单衬衫,动作缓慢且环境适应性差[9] - 扩散模型和零样本学习成熟后,机器人无需逐步骤编程,仅凭几千条人类演示数据即可学会叠衣[13] - 谷歌ALOHA仅用6000条系鞋带演示数据就让机械臂学会精细操作,叠衣服容错率更高且数据收集更简单[13] - HuggingFace、LeRobot等生态系统降低技术门槛,初创团队可借助预训练模型快速开发演示[13] 市场需求匹配 - 叠衣服是刚性需求,许多用户愿意为此付费,家庭场景价值感知度高[15] - 相比工业场景,家用叠衣落地路径更清晰,容错率高,试错成本低[15] - 任务失败仅需重新摆放衣物,不易损坏设备,适合资金有限的初创团队打磨技术[15] 当前技术局限 - Figure 03叠衣时放得太快,边角卷翘,机器人无法感知衣物材质和受力情况[18] - 1X Technologies的Neo机器人动作僵硬,缺乏人类灵活调整的能力[20] - 演示多在实验室固定环境中进行,桌面纯色平整,衣物单一,背景无干扰[22] - 真实家庭环境复杂,衣物可能混搭,桌面杂乱,光线变化,机器人对齐衣架困难[22] - 企业关注“能否做到”,用户更关心“能否做好”,如是否损坏真丝衬衫、5分钟内叠完一篮衣物等[24] - 当前演示仅完成“折叠”动作,未涉及取衣、整理、收纳等关键步骤[24] 行业发展逻辑 - 早期跑酷、跳舞演示旨在秀肌肉,吸引资本和行业热度[27] - 叠衣赛道爆发标志行业从“我能做什么”转向“用户需要什么”[27] - 工业机器人巨头如发那科、安川的成功在于围绕真实需求研发,如焊接精度和搬运效率[27] - 人形机器人需先解决用户刚需痛点,再拓展复杂功能,遵循市场需求导向的发展逻辑[27] 未来技术方向 - 需优化算法和升级硬件,解决感知精度不足、操作不灵活等问题[29] - 《Science Robotics》论文提出机械臂24小时学会1000项任务的方向,通过高效算法减少数据依赖,提升环境适应性[29] - 技术成熟后,机器人可能从叠衣服拓展到洗碗、擦窗、整理衣柜等更多场景,但需始终围绕用户需求[29] 行业价值回归 - 技术价值在于解决日常真实问题,而非突破极限[30] - 企业应聚焦用户诉求,提升折叠速度、操作精度和场景适配性,实现从取衣到收纳的全流程自动化[30] - 当家务机器人成为日常,人形机器人才能真正实现商业价值[30]
双非同学竟然是这样发第一篇CVPR的!
具身智能之心· 2025-07-10 13:16
论文辅导服务案例 - 双非硕士生在无导师指导情况下通过10个月辅导成功发表CVPR25论文 成为学院首位CVPR发表者 [1] - 成功关键因素包括学生主动寻求外部辅导 以及自身勤奋刻苦的研究态度 经常工作至凌晨 [1] - 案例证明无人指导时主动行动的重要性 被动等待可能导致错过发表机会 [1] 服务内容与方向 - 提供从研究构思到实验设计、论文写作到投稿的全流程一站式服务 [1] - 覆盖多个前沿技术领域包括大模型、视觉语言导航、强化学习、机器人控制等16个具体研究方向 [1] - 支持带课题咨询 满足各类论文发表需求 [1] 服务分级与定价 - 按论文级别提供差异化定价服务 [2] - 涵盖计算机领域CCF-A/B/C类会议期刊 [2] - 服务范围包括SCI各分区期刊 中科院分区期刊 EI检索及中文核心期刊 [2] - 同时支持毕业论文、申博论文及竞赛论文等需求 [2]