具身智能之心
搜索文档
大模型方向适合去工作还是读博?
具身智能之心· 2025-10-16 00:03
文章核心观点 - 文章探讨了大模型领域从业者面临的职业发展选择问题 即继续深造读博还是参与AI Agent创业潮 [1] - 决策需基于个人是否具备扎实的大模型基础以及是否适合扮演“开拓者”的研究角色 [1][2] - 大模型之心Tech知识星球被定位为一个综合性的学习与交流平台 旨在为不同阶段的从业者提供系统化支持 [2][4] 大模型行业现状与人才需求 - 大模型技术范围广泛 涉及生成、多模态、微调、强化学习、基准测试及多个下游应用领域 [1] - 通用大模型研发存在高壁垒 主要由顶级公司主导 [1] - 行业存在导师半路出家、学生基础不扎实的现象 凸显了系统性学习的重要性 [1][2] 大模型之心Tech知识星球资源 - 社区形式为视频、图文、学习路线、问答与求职交流的综合体 [2] - 已邀请40余位来自国内外顶尖高校(如清华、北大、上交、港科大等)和头部公司(如阿里、百度、字节、月之暗面等)的嘉宾 [4][66] - 提供大模型全栈学习路线图 覆盖RAG、AI Agent、多模态大模型等核心方向 [4] 技术路线覆盖详情 - RAG技术路线细分为Graph RAG、Knowledge RAG、多模态RAG、Reasoning RAG等8个子领域 [9][10][16][18][20][22][24][25] - AI Agent技术路线包括前沿综述、评测、强化学习、多模态Agent、通讯协议等7个细分方向 [26][27][29][31][33][35][36][38][40][42] - 多模态大模型训练涵盖MLLM、VLM、微调、RLHF、MoE等9个技术模块 [44][47][49][51][53][54][55][56][58] - 大模型量化、部署及推理被列为独立的技术板块 [60][61][62][63] 社区附加价值 - 提供大模型学术进展与工业应用的最新信息 [7] - 具备工作岗位推荐功能 可第一时间对接企业需求 [7][68] - 计划通过行业大佬直播分享和独家岗位招聘信息进一步赋能社区成员 [64][65][67][68]
3个月,完成具身的大脑算法+小脑算法学习!
具身智能之心· 2025-10-16 00:03
文章核心观点 - 具身智能技术正经历从低层感知到高层理解与泛化的快速演进,其核心架构围绕“大脑”(感知与规划)和“小脑”(运动执行)展开,目标是实现机器人在真实世界中的自主智能行为[3] - 技术发展已进入第四阶段,当前的研究热点是融合Vision-Language-Action模型与强化学习、世界模型、触觉感知等模块,以克服现有模型的局限性,推动向通用任务和开放环境智能体时代迈进[9][10] - 技术的成熟正驱动产品在工业、家居、餐饮、医疗康复等多领域落地,并带动了相关岗位的爆发式增长和融资活跃,吸引了大量研究者和从业者转入该领域[10] 技术架构与核心模块 - 具身智能领域主要围绕“大脑”和“小脑”两大模块展开,大脑负责思考感知与任务规划,小脑负责高精度运动执行[3] - 细分技术领域包括仿真、VLA、Diffusion Policy、VLN、世界模型、强化学习等多个子模块[5] - Vision-Language-Action和世界模型是当前在自动驾驶和具身智能领域同时发力的两大技术路线[5] 关键技术演进阶段 - **第一阶段**:聚焦于抓取位姿检测,通过点云或图像预测末端执行器姿态,实现静态物体抓取,但策略多为单步决策,缺乏对任务上下文和动作序列的建模[7] - **第二阶段**:进入行为克隆阶段,机器人通过专家演示数据学习端到端映射,具备模仿复杂任务的能力,但存在泛化能力弱、误差累积等问题[7] - **第三阶段**:2023年兴起的Diffusion Policy通过扩散模型生成整个动作轨迹,提升了策略的稳定性与泛化能力;2024年进入VLA模型阶段,模型融合视觉、语言与动作生成,支持零样本或小样本快速泛化,实现了从“感知+控制”向“感知+推理+行动”的范式跃迁[8] - **第四阶段**:2025年以来,业界开始探索VLA模型与强化学习、世界模型、触觉感知等模块的融合,以弥补VLA模型在反馈、未来预测和多模态感知方面的局限[9] 当前研究热点与融合方向 - VLA模型目前主要研究端到端和分层两种方案,并分别基于大模型和扩散技术进行拓展,VLA与强化学习结合的方案正成为探索方向[5] - Diffusion Policy作为动作模块,负责学习具体动作与执行,主要研究方向包括状态扩散、动作空间扩散、三维空间扩散等[6] - VLA与强化学习结合旨在提升机器人在长时任务中的试错与自我改进能力[10] - VLA与世界模型结合引入环境动态预测,使机器人具备“想象未来”的能力,有助于高效规划与决策[10] - VLA与触觉信息融合,推动机器人实现从“看”到“看+触多模态融合”的感知边界拓展,以在复杂非结构化环境下进行更精细安全的操作[10] 其他关键技术领域现状 - **仿真技术**:当前较好的方向是sim2real和real2sim2real,许多公司正致力于解决真机泛化差的问题,并已获得行业认可[6] - **视觉语言导航**:当下更关注于目标导航,并与移动操作相关联,无地图方案有利于任务泛化[6] 产业发展与人才需求 - 技术发展推动了人形机器人、机械臂、四足机器人等产品在工业、家居、餐饮、医疗康复等多个领域的落地,相关产品和融资络绎不绝[10] - 行业岗位呈现爆发式增长,吸引了大量同学和专业人士从传统计算机视觉或自动驾驶等领域转入具身智能领域[10] - 随着产业界重视,具身智能正从“论文”走向“部署”,对工程与系统能力的需求激增[14]
具身走向现实世界!RoboChallenge:从仿真到实体,全球首个大规模多任务真机任务基准
具身智能之心· 2025-10-15 11:03
行业痛点与市场空白 - 具身智能领域缺乏真实、开放的评测基准,真机测试的缺失与现有评测体系的局限已成为限制该领域发展的关键卡点[3] - 当前主流的具身仿真评测benchmark主要依赖仿真环境,面临sim2real问题,模拟器中表现优异的算法在真机上常出现"落地即失效"的问题[4] - 现有在线评测系统存在明显短板,仅部署1-2台机器人、支持少数任务,无法满足"大规模多模型+多任务"的评测需求,且同一模型的成功率在0%到100%间波动,严重影响结果可重复性[4] RoboChallenge平台核心特点 - 平台由Dexmal原力灵机和Hugging Face共同发起,是全球首个大规模、多任务的在真实物理环境中由真实机器人执行操作任务的基准测试[5] - 首次实现"10台真机集群+30个多样化任务"的大规模评测能力,部署4种主流机器人,包括UR5、Franka Panda、Cobot Magic Aloha和ARX-5[10] - 创新采用"远程机器人范式",用户无需拥有任何机器人硬件,仅需通过在线API即可完成模型与真机的交互,实现"零硬件门槛"[15][19] - 平台坚持全面开放原则,向全球研究者免费提供评测服务,并公开所有任务演示数据及测试中间结果[34] 技术方案与评估体系 - 为解决真机测试中"结果波动大、公平性不足"的核心痛点,创新性地提出"视觉输入匹配"方法,通过将演示数据中的参考图像叠加于测试画面,确保每次测试初始状态一致[23] - 设计了多层级的严谨评估机制,控制测试者差异,并从四个关键维度构建评估体系:VLA解决方案难点、机器人类型、任务场景环境和目标物体属性[23] - 针对"同一模型多次测试波动"问题,设计"基准协议"与"比较协议",确保评测结果的可重复性与可比性[25] - 评估采用端到端任务成功率与过程评分相结合的机制,测试集所有任务均提供约1000条演示数据[16] 任务设计与模型表现 - 平台提供首套桌面操作基准测试集Table30,包含30个精心设计的日常情境任务,覆盖家庭、餐厅、工作等场景[12][26] - 30个任务围绕VLA模型的7大核心能力展开,包括精确3D定位、遮挡与多视角融合、时间依赖性、双臂协同、柔性物体处理、物体识别与分类以及Long horizon和多阶段操作[27][28] - 官方测试了四种主流开源VLA算法,性能更强的模型表现显著更优,SOTA模型π₀.₅的成功率尚不足50%,其得分为61.84,成功率为42.67%[29][30] - 即使仅使用少量样本(约50个任务片段)且混合多任务数据进行训练,π₀.₅仍展现出不错性能,预示着真正的"通用模型"有望在未来出现[31] 平台价值与行业影响 - 平台填补了评测空白,为VLA模型提供真实性能的"试金石",避免"纸上谈兵"式研究[38] - 显著降低参与门槛,吸引更多研究者参与,尤其降低中小企业、高校团队的评测成本[38] - 严谨的评估体系与多样化任务能暴露模型短板,明确模型改进方向,推动VLA模型在核心难点上的突破[38] - 通过结果透明、视频公开、鼓励代码开源,构建开放生态,促进跨团队协作,加速具身智能技术的整体迭代[38]
ROSCon China 2025 揭秘,具身智能的前沿技术,等你来看!
具身智能之心· 2025-10-15 11:03
大会核心观点 - ROSCon China 2025将于2025年10月31日至11月1日在上海举办,标志着ROS生态从“技术融合”迈向“价值爆发”的关键节点[6] - 大会是推动社区协作、织密行业联结的核心纽带,为研究者、开发者和学生提供观点交流与经验分享的平台[6][7] 参会企业与高校 - 参会企业涵盖科技巨头、汽车制造商、机器人公司及半导体企业,包括英特尔、蔚来汽车、智元机器人、华为技术有限公司、安霸半导体、优必选、海康威视、上汽大众等[14][15] - 参会高校及研究院所汇聚国内外顶尖学术机构,包括清华大学、北京大学、中国科学技术大学、上海交通大学、哈尔滨工业大学、浙江大学、墨尔本大学、香港大学、中国科学院空天信息创新研究院、上海人工智能实验室等[15][16] 会议议程与演讲主题 - 具身智能前沿模型与技术实践专题涵盖大模型控制机器人、VLA技术应用、数据闭环构建及技术生态探索等主题,演讲方包括华南理工大学、地瓜机器人、刻行时空、智元机器人、英特尔、阿加犀智能科技[18] - 具身机器人核心技术与开发平台专题涉及数据生成、策略训练、任务基准测试、边缘AI、模块化解决方案及开源工具链,演讲方包括英伟达、Arm、英飞凌、矽递科技、光轮智能、索尼、华为技术有限公司、集智联[19][20] 合作媒体 - 大会获得众多国内外主流财经、科技及行业媒体支持,包括新华社、人民网、第一财经、中国证券报、财联社、澎湃新闻、新浪网、腾讯网、搜狐网、投资界、机器人之家等[20][21]
腾讯&上海交大等高校联合发布视觉空间推理综述.
具身智能之心· 2025-10-15 11:03
文章核心观点 - 视觉语言模型在视觉空间推理能力方面存在显著不足,尤其在基础感知、量化推理和动态信息处理方面,这对其在自动驾驶和具身智能等领域的应用构成关键挑战 [2][3][27] - 文章通过提出一个名为SIBench的综合测评基准,系统性地梳理了该领域的方法、任务设定,并对主流模型进行了评估,旨在推动视觉空间智能的发展 [4][12][22][23] 方法介绍 - 改进视觉空间推理能力的方法主要围绕四个方向:输入模态、模型结构、训练策略和推理方式 [6] - 在输入模态上,通过引入深度图等辅助信息来帮助模型从2D输入理解3D空间 [8] - 在模型结构上,通过增加专门的空间编码器来从RGB图像中提取更丰富的3D表征 [9] - 在训练策略上,采用针对视觉空间推理任务专门设计的强化学习奖励机制被证明有效 [10] - 在推理方式上,采用了不同于通用思维链的策略,如构建认知图、调用API或采用RAG等方法 [11] 任务设定与分类 - 文章将视觉空间推理任务按层次分为三类:基础感知、空间理解和任务规划 [12] - 基础感知涉及单个目标的静态属性(如颜色、形状)或动态状态(如方向) [15][16] - 空间理解涉及多个目标或目标与环境之间的静态或动态关系(如位置判断、距离估计) [15][18] - 任务规划要求模型理解空间约束和任务需求,以生成解决方案 [15][21] SIBench基准与模型评估 - SIBench整合了18个开源基准,涵盖3个推理层次、23种任务设定,并支持单图、多视角和视频三种输入形式 [22] - 基于SIBench的评估显示,GPT-5以63.41%的综合得分领先,其次是豆包种子模型(60.12%)和Gemini 2.5 Pro(58.83%) [25] - 在规划任务上,Gemini 2.5 Pro表现突出,得分达到80.17% [25] 主要发现与能力短板 - 主流视觉语言模型的基础感知能力有限,其误差会在后续推理链中积累,影响最终结果 [27] - 模型在定量推理任务(如计数、距离估计)上的表现远差于定性推理任务(如相对位置判断) [27] - 模型处理动态信息(如多视角图像或视频)的能力严重不足,在涉及速度或相机位姿估计的任务中性能显著下降 [27]
Instant4D:分钟级单目视频的4D高斯泼溅重建(NeurIPS 2025)
具身智能之心· 2025-10-15 11:03
核心技术:Instant4D 方法概述 - 提出Instant4D现代化全自动流程,可在数分钟内重建任意单目视频,实现30倍加速[5][6] - 引入网格剪枝策略,将高斯函数数量减少92%,同时保留遮挡结构,使其可扩展至长视频序列[6] - 提出简化、各向同性、运动感知的单目设置4DGS实现,在Dycheck数据集上性能比当前最先进方法提高29%[6] 技术流程与优化 - 采用可微SLAM方法MegaSAM获取相机位姿,并通过视频一致优化深度得到密集点云,对4秒512×512视频序列反投影可得约30百万个原始3D点[8] - 通过体素滤波将密集点云稀疏化,仅保留每个已占用体素内点的质心,以减少冗余和解决遮挡问题[8] - 基于四维高斯初始化,可在2分钟内完成场景重建,并利用动静蒙版对静态和动态区域设置不同时间缩放以优化渲染[7][13] 性能表现与效率 - 在Nvidia数据集上实现0.02分钟优化时间、822 FPS(480×270分辨率)和676 FPS(860×480分辨率)的实时渲染速度,以及23.99 PSNR的渲染质量,相比InstantSplat和Casual-FVS实现8倍加速和10倍实时渲染速度提升[17] - 在Dycheck数据集上,Lite版本实现0.03小时优化时间、1.1GB内存占用和23.02平均PSNR,Full版本实现0.12小时优化时间、8GB内存占用和24.52平均PSNR,相比基线实现30倍加速[20] - 各向同性高斯设计固定旋转R=I,使用空间/时间各一标量缩放,提升单目优化稳定性,并根据实验将渲染质量PSNR提升1.25 dB[12]
NeurIPS 2025|清华团队分析RL将如何提升VLA泛化性
具身智能之心· 2025-10-15 04:00
研究背景与核心观点 - 视觉-语言-动作大模型在具身智能领域潜力巨大,但当前主流的有监督微调方法在面对新环境或任务时泛化能力有限 [1] - 清华大学研究团队首次系统性揭示了强化学习在提升VLA模型泛化能力上的独特优势,并提出了全面的评测基准和高效训练方法 [1][3] - 强化学习微调VLA模型能显著提升语义理解和任务执行的鲁棒性,在视觉变化场景下保持与有监督微调相当的表现 [3] 研究方法与模型基础 - 研究采用目前最先进的开源OpenVLA模型为基础,该模型从Llama2-7b微调而来,接收RGB图像和指令,输出离散动作token控制机械臂 [4][6] - 团队构建了涵盖视觉、语义和执行挑战的全新评测基准,系统对比强化学习和有监督微调在泛化性上的表现 [3][19] 强化学习方法比较 - 测试了三种在大语言模型领域广受认可的强化学习算法:PPO、DPO和GRPO [8] - 在机器人控制这一多步决策任务中,经典的PPO算法展现出显著优势,而专为语言模型设计的DPO和GRPO难以高效学习 [15] - PPO的优势源于机器人任务的部分可观测马尔可夫决策过程特性,每个动作都会改变环境状态的非平稳性可能破坏了GRPO的优势估计稳定性 [15] - DPO面临的挑战在于稀疏奖励结构难以区分轨迹质量,以及离线数据与在线执行之间存在显著的分布偏移 [15] 高效PPO训练方案 - 提出共享Actor-Critic架构设计,让Actor和Critic共享同一个主干网络,仅添加轻量级MLP作为价值头,使显存占用减少45%,训练速度提升35% [12] - 使用140条高质量轨迹对模型进行预热,让后续的强化学习收敛速度提升50%,大幅减少所需的环境交互次数 [14] - 将PPO训练轮次设为1就已足够,更多更新轮次无法提升性能反而增加训练时间,整个训练过程在单张A100 GPU上仅需42小时即可收敛 [14] 有监督微调与强化学习性能对比 - 有监督微调在演示轨迹数量达到16,000条时性能趋于饱和 [17] - 强化学习在训练分布内任务性能与有监督微调相当,但在分布外任务上取得了42.6%的性能提升,展现出更强的泛化性 [18] - 强化学习在语义理解任务上表现出明显优势,特别是在处理未见物体的抓取任务时 [21] - 在执行鲁棒性方面强化学习大幅领先,无论是物体位置变化、机器人初始姿态偏移,还是任务执行中途的物体移位,都展现出显著更强的适应能力 [21] - 在视觉泛化上,两种方法表现相当 [21] 案例分析与深层差异 - 在强噪声干扰下,有监督微调策略会在抓取物体后反复掉落,而强化学习策略能够稳定完成任务 [23] - 面对未见物体时,有监督微调容易陷入重复尝试抓取已持有物体的死循环,强化学习则能正确判断并完成放置 [23] - 强化学习探索了更广阔的工作空间和更丰富的末端执行器姿态,而有监督微调的轨迹紧密聚集在演示数据的运动规划路径周围,这种更广泛的覆盖解释了强化学习在执行任务上的优越泛化能力 [23]
近70亿!9月具身机器人领域最新融资情况
具身智能之心· 2025-10-15 01:26
文章核心观点 - 2025年9月机器人与具身智能领域融资活动活跃,多家公司获得大额投资,显示资本市场对该行业的高度关注 [1][2][3][4][5][6] 9月份具身智能与机器人领域融资概况 - 星迈创新完成A+轮融资,专注于高端智能泳池清洁机器人研发,投资方包括美团龙珠、高瓴创投、顺为资本等 [1] - 自变量机器人完成近10亿元A+轮融资,由阿里云和国科投资领投 [2] - 一星机器人完成数亿元种子轮融资,定位为高精数据驱动的智能进化机器人研发商,投资方包括BV百度风投、同创伟业等 [3] 详细融资企业列表分析 - 融资轮次覆盖广泛,从天使轮到B+轮及战略投资均有涉及,表明行业处于从早期到成长期的不同发展阶段 [4][5][6] - 融资金额规模较大,多笔融资达到亿元级别,例如乐学科技天使++轮2亿元、LINKHOU A轮超亿元、Motorevo A轮过亿元等 [4][5] - 部分企业获得大额融资,如Beatbot A+轮融资10亿元,自变量机器人A+轮融资近10亿元,显示出资本对特定赛道的高度押注 [2][5][6] - 融资企业业务多元化,涵盖泳池清洁机器人、人形机器人、工业机器人、核心部件(如关节模组、传感器)、低空经济飞行器等多个细分领域 [4][5][6]
各大顶会对RL和这些工作的结合很青睐~
具身智能之心· 2025-10-14 10:00
强化学习行业重要性 - 强化学习是具身智能机器人领域的核心技术,在人形机器人、四足机器人和机械臂的步态控制、高难度动作学习中发挥关键作用[2] - 强化学习与视觉语言动作模型结合在机械臂控制等学术领域越来越受欢迎,能提升机器人执行任务的效率和流畅度[3][8] - 强化学习技术被广泛应用于产品优化,例如自动驾驶等领域,显示出其跨行业的重要性[1] 行业技术应用现状 - 行业内领先公司如宇树、智元的人形机器人主要通过强化学习完成爬楼梯、爬山、跑步、跳舞、翻跟头等高难度动作训练[2] - 强化学习技术赋予机器人产品适应救援、测量、危险环境等复杂场景的能力,是迈向通用具身智能必须攻克的关键技术[2] - 基于IsaacLab等最新仿真训练环境的强化学习方案成为学术和工业界的前沿趋势[17][18] 行业人才发展挑战 - 强化学习体系庞大且内容繁杂,对研究经验要求高,初学者入门难度极大[5][9] - 缺乏完整学习体系导致研究人员容易处处踩坑,久久不能入门,最终错失发展机会[6][9] - 产出符合顶级会议期刊标准的论文需要在方法论证、实验结果、写作方式等多个模块达到高标准要求[5] 专业培训解决方案 - 针对行业痛点推出14周核心训练加8周论文维护的强化学习论文辅导课程,采用1v6小班教学模式[7][17] - 课程面向硕博生群体,提供每周直播授课、课程录播和专属助教答疑服务[7][17] - 课程设置四足、人形、机械臂三轨并行的研究方向,学员可根据需求选择特定主题[17][18] - 课程目标产出包括论文IDEA确认、项目实现、实验指导、写作润色和初稿形成,瞄准RAL/ICRA/IROS/CoRL等顶级会议期刊[7][11] 课程核心技术内容 - 基于IsaacLab/MuJoCo等最新仿真训练框架,提供SAC/PPO/BC/Diffusion Policy等基线代码[18][22] - 涵盖sim2real/real2sim2real完整技术流程,包括复杂地形鲁棒行走、外推冲击恢复、速度曲线跟踪等关键技术模块[10][22] - 包含视觉语言动作模型与强化学习结合的创新方向,支持多模态感知信息的仿人灵巧操作研究[10][25] - 提供完整的论文写作指导体系,包括结构化论文模板、统一图表体例、补充材料清单和投稿审稿回复辅导[18][24] 课程特色与优势 - 采用科研闭环模式,实现方法-工程-评测-写作-投稿-维护全流程陪跑,每周设置明确任务指标[17][31] - 即使学员没有成熟idea,也能在提供的idea与baseline上迭代出可投论文初稿[16] - 师资来自美国顶尖高校的博士后研究员,具备RSS、ICRA、IROS、RAL等顶级会议期刊的发表和审稿经验[23] - 课程配备真机部署参考代码,支持Unitree/Franka/xArm/云深处/松灵机器人等设备实机环节[26][28]
史上最全robot manioulation综述,多达1200篇!西交,港科,北大等八家机构联合发布
具身智能之心· 2025-10-14 03:50
文章核心观点 - 具身智能是人工智能迈向通用智能的关键前沿,其核心在于机器人操作技术,该技术正经历从基于规则到融合大语言模型和多模态模型的范式转变 [3][4] - 一篇由多机构学者联合撰写的综述论文系统性地梳理了机器人操作领域,提出了统一的理解框架,涵盖硬件基础、任务数据、控制框架及泛化研究,旨在推动机器人从“执行任务”到“理解与学习任务”的演进 [4][6][7] 机器人操作领域综述概览 - 该综述使用17张图、15张表格和超1000篇参考文献,构建了机器人操作的全景图谱,内容覆盖硬件与控制基础、任务与数据体系、高低层控制框架及跨本体与跨模态的泛化研究 [4][6] - 论文扩展了传统的“高层规划—低层控制”框架,高层规划纳入语言、代码、运动、可供性与三维表示,低层学习控制则提出基于训练范式的新分类法,包含输入建模、潜表征学习和策略学习三个核心部分 [6][9][13] 机器人硬件与控制范式演进 - 机器人硬件从机械手、机械臂发展到移动机器人平台,控制范式从基于经典算法(如RRT、MPC)演进到基于学习的方法(如强化学习/模仿学习) [14] - 机器人模型的分类方式及其验证流程构成了评估体系,反映了领域技术栈的成熟度 [14] 仿真器、基准与数据集 - 综述整理了多个主流仿真器与基准,例如MetaWorld(80物体、50任务)、CALVIN(40M演示数据)、Maniskill2(2144物体、20任务)等,覆盖从基础操作到灵巧操作、移动操作等多种任务类型 [15][18] - 数据集类型包括抓取数据集、单/跨具身仿真器基准、轨迹数据集及具身问答数据集,支持多样化的机器人操作研究与验证 [17] 高层规划与低层控制框架 - 高层规划被扩展至语言、代码、运动、可供性和3D表示,凸显其在语义决策中的作用,例如通过大语言模型生成任务计划或代码 [21][24] - 低层学习控制提出三层结构分类法:输入建模(处理输入数据)、潜表征学习(构建可迁移表示)、策略学习(生成精准动作),为控制策略研究提供系统化视角 [22][23] 机器人操作核心瓶颈 - 领域面临两大瓶颈:数据采集与利用(涉及人类示教、合成数据生成、众包收集等途径)以及系统泛化能力(包括环境、任务和跨具身泛化) [27][28] - 数据利用方法涵盖数据扩展、选择重加权、检索与增强技术,而泛化挑战的解决方案旨在提升机器人对未知场景的适应能力 [27][28] 未来研究方向 - 未来重点方向包括构建通用“机器人脑”实现认知与控制、突破数据瓶颈以 scalable 生成利用数据、强化多模态感知提升复杂物体交互、确保人机共存安全推动真实世界应用 [32][34]