Workflow
RoboBrain
icon
搜索文档
2025,中国大模型不信“大力出奇迹”?
36氪· 2025-12-19 11:06
2025年12月,在腾讯科技HiTechDay上,以《模型再进化:2025,智能重新定义世界》为主题的圆桌论坛,正是围绕大模型进化的深度、维度、效率三条 线索展开。 华中师范大学人工智能教育学部助理教授熊宇轩为嘉宾主持,三位嘉宾北京智源人工智能研究院院长王仲远、面壁智能联合创始人、首席科学家刘知远、 峰瑞资本投资合伙人陈石分别从各自的领域,解读2025对于大模型进化的深入观察。 王仲远指出,大模型的进化正在经历"从Learning from Text到Learning from Video"的质变。视频数据中蕴含了丰富的时空信息与动态交互线索,为模型学 习物理世界动态演变规律提供了关键的数据来源,同时也是当前最容易规模化获取的一类多模态数据,是AI"从数字世界迈向物理世界"的关键桥梁,也为 具身智能(Embodied AI)的爆发提供了构建"世界模型"的底座。 刘知远提出的"密度法则"(Densing Law)认为,如同芯片摩尔定律,AI的未来在于不断提升单位参数内的"智能密度"。他大胆预言,未来的算力格局将 是"云端负责规划,端侧负责做事(执行)",到2030年,我们甚至有望在端侧设备上承载GPT-5级别的 ...
具身智能商业化大单“含金量”几何?从业者也看不明白
南方都市报· 2025-11-23 05:50
行业商业化进展与潜在风险 - 今年下半年以来,行业连续宣布亿元级商业化大单,营造出乐观的落地前景 [1] - 有从业者对部分订单背后的虚实表示质疑,提出其是否解决实际问题、形成商业闭环、创造真实场景价值的疑问 [1] - 机器人厂商的量产可能并非由真实需求驱动,而是由伪需求或示范性验证的小需求形成,存在热度退去后场景方停止续购的风险 [1] - 众多公司集中涌入工业和物流领域的搬运、分拣、安防,以及商用领域的导览、导购和文娱表演等应用方向 [3] 行业面临的核心挑战 - 硬件存在关节发热、关节扭矩密度低、电池能量密度低、端侧算力有限等问题,尚未达到真正量产可用阶段 [4] - 智源研究院采购的10台某品牌人形机器人,在一两个月内损坏了五台,硬件稳定性阻碍其进入真实工业及家庭场景 [4] - 硬件难题被视为“线性瓶颈”,可持续投入以取得进步,但零部件迭代可能触及物理极限 [4] - 软件瓶颈属于“非线性”,具身智能模型的“ChatGPT时刻”难以预测,可能短则两三年,长则十年之久 [4] 技术发展路径与数据之争 - 业内爆发并持续着真机数据与仿真数据的路线之争 [4] - 有观点认为数据质量优先于数据总量,应坚持以物理世界真实数据为主 [5] - 另一观点则认为仿真能提供丰富的物理交互基础,是合成数据的使命,可用于习得复杂身体控制并为真实世界部署提供基础控制器 [5] - 具身智能模型训练成本高企,现阶段订单量不足以支撑创业公司进行高风险的模型训练尝试 [5] 可行的发展策略与建议 - 短期内不应对人形机器人的通用能力和泛化能力抱有过高期待 [6] - 更现实的路径是先用小的专用具身智能模型进行场景化落地,在特定场景和任务上做到99%以上的准确率,并保证硬件长时间稳定运行 [6] - 建议机器人公司先活下来,熬过可能出现的寒冬 [6] - 建议政府层面更多从政策上给予支持与引导,而非直接提需求,因为真实需求始终来自企业和用户侧 [1]
100亿都不够烧!机器人公司CEO们给出新判断:具身智能不能再照搬LLM
搜狐财经· 2025-11-22 02:41
智源研究院技术进展 - 发布原生多模态世界模型Emu3 5,训练数据从15年视频扩展至790年,参数规模从8B提升至34B,并引入自研DiDA技术使视频、图像生成速度提升至与Diffusion、DiT类模型相当 [5] - 构建跨异构本体具身智能体系,包括RoboBrain(具身大脑)、RoboOS(跨本体操作系统)与基于VLA的RoboBrain-0,已在多款不同形态机器人本体上部署,能完成导览、导购到复杂交互任务 [5] - 展示全身控制能力,宇树G1机器人在其控制框架BAAI Thor加持下完成拖动1 4吨汽车的实验 [5] 行业核心议题讨论:模型与架构 - 世界模型需从海量视频中学习,面向具身智能所需的“下一时空状态预测”,而非语言主导的“下一个Token预测”,且必须建立在大量属于机器人的数据之上 [5][7] - 具身智能未来可能需要一套“先行动、再视觉、最后语言”的具身原生结构,以行动与感知为核心,而非沿用当下“大模型的语言中心范式” [10] - 具身智能的最终“大模型”并非单体模型,而是VLA+世界模型+RL的闭环系统 [12] 行业核心议题讨论:数据来源与使用 - 机器人必须在真实场景中学习真实性、多样性和规模化,但仿真是当前更现实的突破口,许多底层控制能力如行走、跳跃等全身控制及灵巧手操作需在模拟器中完成,真实世界仅做微调 [15] - 视频数据被视为最容易大规模获取且最接近真实世界的关键数据形式,训练逻辑可类比人类从视频理解世界再到真实交互校正的过程 [15] - 真实与仿真数据会形成螺旋上升关系,先落地采集真实数据,回仿真扩大覆盖,再回真实验证,不同阶段根据任务需求使用不同类型数据 [15] 行业核心议题讨论:资源投入与硬件形态 - 若有100亿元资金推进具身智能,投入优先级集中在顶尖人才吸纳、算力与数据引擎等基础设施,以及打造属于具身智能的模型体系 [17][19][21] - 人形机器人并非具身智能的唯一最终形态,硬件瓶颈问题的核心是场景需求,模型不定义硬件,硬件也不定义模型,场景定义硬件 [22][23] - 具身智能体系应分层,上层大模型可跨本体复用,但贴近执行的小脑层模型需随硬件结构细调,同一模型部署到不同本体上未必最优 [23]
VLA的基础模型与大规模训练任务汇总
具身智能之心· 2025-10-08 02:49
视觉-语言-动作模型优化 - 机器人思维链推理通过预测中间表征提升策略性能与泛化能力,但存在依赖专用数据和推理速度慢的局限性 [3] - 研究提出推理提升性能的三种机制:更优表征学习、更完善学习课程化、更强表达能力,并设计简化变体验证每种机制作用 [3] - 基于机制理解提出两种轻量级机器人推理替代方案,在LIBERO-90基准实现最先进结果,推理速度较标准方法提升3倍 [3] - 利用视觉语言模型生成反事实标签扩充机器人数据集,解决现有数据语义多样性和语言接地性不足问题 [5] - 反事实重标记方法在无需额外采集数据下,使VLA模型导航任务成功率提升27%,指令跟随能力媲美最先进方法 [5] 机器人脑与操作能力构建 - 多模态大语言模型在机器人长周期操作任务中缺乏规划能力、可供性感知和轨迹预测三大关键能力 [7] - 引入ShareRobot高质量异构数据集,标注任务规划、对象可供性和末端执行器轨迹等多维度信息,基于此开发RoboBrain模型 [7] - RoboBrain结合机器人与通用多模态数据,采用多阶段训练策略,融入长视频和高分辨率图像,在各种机器人任务中实现最先进性能 [7] - 提出DROID大规模机器人操作数据集,包含7.6万条演示轨迹(350小时交互数据),由50名采集者在564个场景中完成86项任务 [9] - 利用DROID训练的策略在性能和泛化能力上均有提升,数据集及学习代码已开源 [9] 视觉表征与技能学习迁移 - 针对具身智能预训练视觉表征的最大规模实证研究构建CORTEXBENCH基准,包含17项任务,发现无单一表征在所有任务中占优 [13] - 整合超过4000小时第一视角视频(含超430万张图像)与ImageNet训练视觉Transformer,发现扩大数据规模多样性不普遍提升所有任务性能但平均有提升 [13] - 规模最大模型VC-1平均性能优于所有现有预训练视觉表征,任务或领域特异性适配可带来显著提升,适配后VC-1在所有基准任务上达到或优于最佳结果 [13] - 提出语义动作流作为中间表示捕捉操作者-物体交互,ViSA-Flow框架从无标签大规模视频数据中自监督学习该表示 [11] - ViSA-Flow在CALVIN基准和真实任务实现最先进性能,低数据情况下通过将知识从人类视频迁移到机器人执行超越现有方法 [11] 通用策略微调与模仿学习 - 通用机器人操作策略微调性能因策略设计选择而有显著差异,包括动作空间、策略头、监督信号及可调参数选择 [15] - 深入实证研究评估每个单一配置2500次rollout,低数据情况下精心选择的微调策略使GMPs显著优于最先进模仿学习算法 [15] - CACTI框架通过数据收集、增强、视觉表征学习和模仿策略训练四阶段实现机器人学习可扩展性,专注于多任务多场景操作 [17] - CACTI在真实机器人设置中训练单一策略完成10项厨房操作任务,在仿真环境中完成18项语义任务(每项100种布局变化) [17] - R3M视觉表示在Ego4D人类视频数据集上预训练,下游机器人操作任务中比从头训练成功率提高超过20%,比CLIP和MoCo提高超过10% [19] - R3M使机械臂在仅20次演示下于真实杂乱公寓环境中学习操作任务,作为冻结感知模块实现数据高效学习 [19]
对话智源王仲远:具身智能“小组赛”才刚刚开打,机器人需要“安卓”而非 iOS
AI科技大本营· 2025-06-07 09:42
大模型发展瓶颈与突破方向 - 大语言模型性能提升速度明显放缓 主要受限于互联网数据使用瓶颈 [2] - 行业共识认为AI需要从"读万卷书"转向"行万里路" 即从虚拟数据走向物理世界交互 [2] - 英伟达CEO黄仁勋提出AI下半场方向是打造"AI工厂" 迎接"物理AI"时代 [2] - 智源研究院推出"悟界"系列 旨在突破虚拟与现实边界 相比早期"悟道"系列更注重物理世界交互 [2] 多模态与具身智能技术路线 - 大模型正从语言模型转向原生多模态世界模型 目标是实现AI对物理世界的感知与交互 [4] - 具身智能面临"循环悖论":硬件不成熟→数据稀缺→模型能力弱→商业化困难→无法反哺硬件 [6] - 破解方案包括利用互联网视频数据预训练 再通过有限真实机器人数据微调 类似人类学习模式 [9][11] - 关键能力突破在于时空智能 使AI不仅能识别物体还能预测物理交互后果 [11] 智源研究院的技术布局 - 推出四大核心技术:Emu3多模态模型 RoboOS/RoboBrain协作框架 Brainμ脑科学模型 OpenComplex2原子生命模型 [7] - 采用"安卓"式开放策略 打造通用具身智能平台而非专用系统 适配各类机器人硬件 [12][13] - 明确区分"大脑"(任务规划)与"小脑"(运动控制) 采用端云协同方案而非强行融合 [14] - 定位为做"高校做不了 企业不愿意做"的通用平台研发 填补产业空白 [12] 行业发展阶段与商业化前景 - 当前阶段类比大模型爆发前的探索期 技术路线尚未收敛 产业格局未定 [15] - 预测未来3年将率先在工厂等封闭场景落地 解决重复性危险劳动 [15] - 行业处于"小组赛"阶段 各类参与者带来不同视角 远未到淘汰赛时期 [15] - 长期来看需要5-10年才可能实现真正的大小脑融合模型 [14] 典型案例与学习范式 - 通过小女孩观察学习案例 验证视频数据+强化学习的技术路径可行性 [9] - 人类通过跨本体知识传递(如语言文字) 启发AI应具备类似通用能力 [12] - 当前AI缺乏时空感知能力 例如仅能描述杯子而无法预判跌落风险 [11]