机器人学习

搜索文档
机器人感知大升级,轻量化注入几何先验,成功率提升31%
36氪· 2025-09-28 12:09
技术突破 - 提出Evo-0轻量化方法 通过隐式注入3D几何先验增强视觉语言动作模型的空间理解能力 无需显式深度输入或额外传感器 [2] - 利用视觉几何基础模型VGGT从多视角RGB图像提取3D结构信息 包含深度上下文和跨视图空间对应关系等几何信息 [2][3] - 引入cross-attention融合模块 将ViT提取的2D视觉token作为query VGGT输出的3D token作为key/value 实现2D-3D表征融合 [3] 性能表现 - 在rlbench仿真实验中 Evo-0在5个需要精细操作的任务上平均成功率超过基线pi0 15% 超过openvla-oft 31% [2] - 真机实验中在5个空间感知要求高的任务上平均成功率提升28.88% 其中插孔任务达到66.67% 透明物抓取任务达到65.00% [8][10][11] - 仅用15k步训练的Evo-0已超过20k步训练的π0 显示更高训练效率 [6] 鲁棒性优势 - 在5类干扰条件下均表现相对鲁棒 包括未见干扰物体 背景颜色变化 目标位置位移 目标高度变化和相机角度变化 [12] - 在存在未见干扰物体时 拾取正确率100% 整体正确率70% 显著高于基线的60%和20% [12][15] - 相机视角向上偏移10度时正确率60% 向下偏移10度时40% 均优于基线的40%和30% [15] 应用价值 - 方法以插件形式增强VLA模型空间建模能力 训练高效且部署灵活 为通用机器人策略提供新路径 [16] - 绕过深度估计误差与传感器需求 降低部署难度和精度噪声问题 [1][16] - 在密集抓取 置物架放置及透明物体操作等对空间精度容忍度极低的任务中展现精准操控能力 [8][10]
宁波东方理工大学联培直博生招生!机器人操作/具身智能/机器人学习等方向
自动驾驶之心· 2025-08-21 09:04
招生项目与导师背景 - 宁波东方理工大学联合上海交通大学和中国科学技术大学招收机器人方向联培直博生 学生学籍注册于上海交大或中科大 第一年课程学习与科研工作在上海交大或中科大进行 之后科研工作在东方理工开展 双导师指导 毕业后获得上海交大或中科大的博士学位和毕业证书 [1] - 导师李晓聪为宁波东方理工大学助理教授 副研究员和博士生导师 兼任新加坡国立大学客座助理教授及哈佛大学工程与应用科学学院客座研究员 2013年和2017年分别获得新加坡国立大学学士和博士学位 曾任哈佛大学博士后以及新加坡科研局制造技术研究院科学家 研究方向为控制 学习与机器人交叉领域 累计获得千万级别科研资助 担任IEEE Transactions on Automation Science and Engineering和IEEE Robotics & Automation Magazine副主编 [1] - 实验室提供充足助研津贴和实验设备支持 关注学生身心健康和长期职业发展 学生主导科研工作 导师不抢占一作 课题组无横向项目 学生可专心基础研究 有专职行政助理处理行政事务 鼓励体育锻炼 为继续深造学生推荐国外博后机会包括新国立 南洋理工和哈佛等 [2] - 研究方向包括接触丰富机器人操作 具身智能 敏捷机器人控制和机器人学习等 [2] 具身智能之心知识星球社区 - 社区为国内首个具身智能全栈技术社区 集视频 图文 学习路线 问答和求职交流为一体 近2000人规模 目标未来2年内达到近万人规模 [3] - 社区提供技术问题解答包括设备使用 数据采集和VA VLA模型部署等 解决数据采集背景复杂或数据dirty问题 [3] - 社区完成产业 学术 求职和问答交流等多个领域闭环 分享前沿研究解决方案和求职岗位对接 [5] - 社区梳理近30+技术路线 包括benchmark 综述和学习入门路线 缩短检索时间 邀请数十个一线产业界和学术界大佬嘉宾答疑解惑 [5] - 社区与多家具身公司建立岗位内推机制 第一时间将简历送至心仪公司 [11] - 社区成员来自斯坦福大学 加州大学 清华大学 西湖大学 上海交大 上海人工智能实验室 港科大 港大 南洋理工 新加坡国立 ETH 南京大学等高校 以及智元机器人 有鹿机器人 云深处 优必选 傅里叶机器人 开普勒机器人 小米 星海图 银河通用 星尘智能 逐际动力等公司 [17] - 社区汇总近40+开源项目 近60+具身智能相关数据集 行业主流具身仿真平台以及各类技术学习路线 [17] - 社区福利包括第一时间掌握学术进展和工业落地应用 与行业大佬交流工作与求职问题 结识同行业伙伴 专属学习视频 工作岗位推荐和行业机会挖掘 [18] - 社区汇总国内外具身智能高校和公司 涉及教育 宠物 工业 救援 物流 交互和医疗等方向 [19][21][22] - 社区汇总大模型和人形机器人等行业研报 机器人相关书籍PDF 机器人零部件制造厂商 开源项目 ToF与3D相机 数据采集与开源数据 具身智能仿真平台 强化学习 VLA+RL 具身智能感知学习路线 具身智能交互 视觉语言导航 触觉感知 多模态大模型理解与生成 大模型微调与量化推理 VLA/VA相关 Diffusion Policy 机器人导航与规划 大模型部署 sim2real 机械臂抓取 双足与四足机器人以及四足/轮式+机械臂等内容 [24][27][29][31][33][35][37][39][41][43][45][47][49][51][53][55][57][59][61][62][64][66][68][71][73][75][76] - 社区不定期邀请行业大佬直播分享 直播内容可反复观看 [78] - 社区成员可自由提问工作选择或研究方向问题并得到解答 [80] 行业技术趋势与职业发展 - 自动驾驶领域人员逐渐转向具身智能相关 技术栈基本通用 视觉语言导航和大模型方向可作为转型选择 需具备深度学习和Transformer基础 或关注基于深度学习的SLAM方向如替代ORB算子的方法 端到端导航利用大模型思路也可切入 目前仍采用传统方法兜底 [82] - 具身智能行业处于探索期 对标自动驾驶17/18年阶段 窗口期尚未饱和 技术重点在大模型和端到端 非SLAM SLAM在消费级机器人中主要满足基本定位建图需求 精度打磨收益受边界递减效应影响 [84][85] - 具身智能平均薪资较高 初创公司一两年工作经验总包可达70-80 但稳定性较差 第一份工作需权衡技术积累与薪资导向 [84] - 转型建议选择具身头部大厂以获取更多技术和行业资源 [84]
CMU最新!跨实体世界模型助力小样本机器人学习
具身智能之心· 2025-08-12 00:03
研究方法 - 通过模仿学习训练视觉运动策略的有效性已被证实 但性能依赖大量现实世界数据收集[2] - 研究目标是利用现成或低成本数据(如公开机器人数据集和人类摆弄物体数据集)减少数据收集工作量[2] - 采用光流作为具身无关的动作表示 在跨多个具身数据集上预训练世界模型 再用少量目标具身数据进行微调[3] - 提出潜在策略引导(LPS)方法 通过在世界模型潜在空间中搜索更优动作序列改进策略输出[3] 实验成果 - 结合预训练世界模型后 仅用30次示范数据可使策略性能相对提升超过50%[3][9] - 使用50次示范数据时策略性能相对提升超过20%[3][9] - 预训练数据源包括Open X-embodiment数据集(两千个片段)和低成本人类玩耍数据集[3] 技术优势 - 光流能够打破不同机器人实体间的差异[12] - 世界模型比策略模型更适合进行跨实体预训练和新实体微调[12] - 潜在策略引导方法有效利用世界模型提升策略模型性能[12] 行业痛点 - 机器人学习成本高昂 单个任务常需数小时数据采集[11] - 不同机器人实体差异给模型预训练带来挑战[11] - 现有方法可有效利用已有数据减少新数据采集需求[11]
影响市场重大事件:时隔10年,A股两融余额重回2万亿;全国一体化算力网算力池化、算网安全相关技术文件公开征求意见
每日经济新闻· 2025-08-07 00:05
全国一体化算力网建设 - 全国数据标准化技术委员会公开征求《全国一体化算力网 智算中心算力池化技术要求》及《安全保护要求》技术文件意见 标志着9项技术文件全部发布 标准体系建设基本完善 全国一体化算力网建设从谋划布局进入落地应用阶段 [1] - 国家数据局将指导技术文件意见收集及修改完善工作 加快落地实施 着力打造全国统一大市场建设的数字基座 [1] 数字与人工智能国际合作 - 工业和信息化部代表在APEC数字和人工智能会议上提出与各成员经济体合力推动数字和人工智能创新应用 加强政策协调与产业合作 支持创新成果国际共享 [2] - 携手加速产业数字化智能化转型 协作加强数字技能与人工智能能力建设 共同营造良好数字和人工智能产业发展生态 [2] A股市场流动性表现 - A股两融余额达2万亿元 为2015年7月1日以来首次突破该关口 其中沪市10192.27亿元 深市9748.10亿元 北交所62.22亿元 [2] - 单日融资买入额达1635.6亿元 连续14个交易日突破1500亿元 制造业、金融业、信息传输业资金买入额位列前三 [2] 农村公路建设与融资创新 - 交通运输部、财政部、自然资源部印发《新一轮农村公路提升行动方案》 提出创新投融资模式 鼓励金融机构和社会力量参与 探索中长期信贷支持 [3][9] - 目标到2027年完成新改建农村公路30万公里 修复性养护30万公里 安全生命防护工程15万公里 改造危旧桥梁9000座 建制村通公交率达55%以上 [9] 技能人才培养支持政策 - 国家发改委印发专项管理办法 支持企业实训基地建设 重点面向技能人才缺口大的新兴领域及吸纳就业能力强的传统行业 [3] - 中央预算内投资采取投资补助或贴息方式 补助比例为项目核定总投资的20% 单个项目支持上限1亿元 [3] 机器人学习技术突破 - 智元机器人联合研究团队发布机器人操作学习数据多样性研究成果 系统性探索任务多样性、机器人本体多样性和专家多样性三个关键维度 [4][5] - 研究颠覆"数据越多样越好"传统认知 为构建可扩展机器人操作系统提供新理论指导和实践路径 [4][5] 光伏行业政策参与 - 中国光伏行业协会征集对《价格法修正草案(征求意见稿)》意见 重点从价格行为规范、调控机制、监督检查及法律责任方面提出建议 [6] 高端智能农机装备产业支持 - 黑龙江省出台20条政策措施 支持研发制造推广应用一体化发展 促进企业扩能升级 加快构建质量标准体系 [7] - 引导用好国家大型大马力高端智能农机装备研发制造推广应用先导区平台 探索产品创新和推广应用新模式 [7] 商业健康保险发展促进 - 上海多部门联合印发措施 深化创新药械支付机制创新 支持医疗机构合理使用创新药械 相关病例可不纳入按病种付费范围 [8] - 鼓励通过税收扣减、优化筹资等方式支持商业健康保险发展 加强保险宣传引导形成政策合力 [8]
10%训练数据超越100%表现,机器人学习领域迎来重要突破
机器之心· 2025-06-11 03:54
研究团队与背景 - 第一作者陈昌和是美国密歇根大学研究生,研究方向为基础模型、机器人学习与具身人工智能,专注于机器人操控、物理交互与控制优化[1] - 第二作者徐晓豪是密歇根大学机器人学院博士生,研究涵盖3D感知、视觉语言模型驱动的多模态异常检测及鲁棒三维重建[2] - 共同第一作者Quantao Yang是瑞典皇家理工学院博士后,研究聚焦于利用视觉语言模型与大型语言模型提升自主系统在动态环境中的感知与导航能力[3] ViSA-Flow框架创新 - 提出革命性的机器人技能学习方法ViSA-Flow,能够从大规模人类视频中提取语义动作流,显著提升数据稀缺情况下的学习效率[4] - 在CALVIN基准测试中表现卓越,仅使用10%训练数据就超越使用100%数据的现有最佳方法[4] - 引入语义动作流作为中间表示,捕捉操作器-物体交互的本质时空特征,不受表面视觉差异影响[10] - 包含三个关键组件:语义实体定位、手-物体交互跟踪、流条件特征编码[11][12][13] 技术实现与评估 - 采用两阶段学习框架:预训练阶段学习ViSA-Flow动态先验,微调阶段进行策略适应[16] - 在CALVIN基准测试中,ViSA-Flow仅使用10%数据(1,768个)就超越所有基线方法,包括使用100%数据的方法[18][19] - 在5个连续任务完成方面达到31.4%成功率,是使用10%数据的次佳方法GR-MG(16.2%)的近两倍,甚至超过使用100%数据训练的SuSIE(26.0%)[19] - 平均序列长度达到2.96,证明其在处理长时程操作任务方面的有效性[20] 技术优势与局限性 - 技术优势包括数据效率高、跨域泛化能力强、长时程稳定性好、语义一致性佳[40] - 当前局限性包括缺乏显式3D几何和接触动力学建模、依赖预训练VLM组件、在精细物理交互任务中可能存在限制[40] - 未来发展方向包括增强物理建模、减少对预训练组件的依赖、与强化学习算法结合、扩展到网络规模视频语料库进行预训练[40] 研究意义与展望 - 为机器人学习领域带来重要突破,证明从大规模人类视频中提取语义表示进行机器人技能学习的可行性[36] - 成功桥接人类演示视频观察与机器人执行之间的差距,为构建更智能、高效的机器人学习系统开辟新方向[37] - 有望在工业自动化、家庭服务机器人、医疗辅助等多个领域发挥重要作用,推动机器人技术向更加智能化和普适化方向发展[38]
马斯克:Optimus人形机器人2027年将在火星表面行走;阿里云发布通义灵码AI IDE,可调用3000多款工具丨AIGC日报
创业邦· 2025-05-31 00:57
人形机器人 - 马斯克表示SpaceX将于2024年底发射携带特斯拉Optimus人形机器人的星舰前往火星,预计2027年抵达并在火星表面行走,后续可能尝试送人类前往火星 [1] - Figure公司进行史上最大规模重组,将三个独立团队并入AI团队"Helix",以加速机器人学习和市场扩展,公司定位为AI公司 [3] AI开发工具 - 阿里云发布首个AI原生开发环境工具通义灵码AI IDE,支持千问3开源模型,代码能力达业界领先水平,支持MCP协议涵盖3000多个服务 [2] - 通义灵码AI IDE提供长期记忆、行间建议预测、行间会话等能力,插件下载量已超1500万,一汽集团、蔚来汽车等上万家企业已接入 [2] 超级计算机 - 美国能源部与戴尔签订合同,由英伟达芯片驱动开发下一代旗舰超级计算机,命名为"道德纳",预计2026年投入使用 [4] - 新超算将安置在劳伦斯伯克利国家实验室,用于国家能源研究科学计算中心 [4]