Workflow
莫拉维克悖论
icon
搜索文档
大模型之后看机器人?Sergey Levine谈通用机器人规模化落地的真实瓶颈与破局方案
锦秋集· 2025-09-15 12:37
核心观点 - 机器人技术将在2030年实现家庭全自主管理 核心驱动力是"机器人数据飞轮"机制 即通过真实任务反馈实现持续迭代和自我强化 [1] - 机器人落地速度可能超越自动驾驶和大型语言模型 因物理世界反馈明确、容错率高且数据获取更容易 [2] - 技术路径基于"视觉-语言-动作"一体化基础模型 依托现有AI底座(如Gemma语言模型)快速开发应用 [3][15] - 硬件成本从数十万美元降至数千美元 降低创业门槛并加速市场验证 [7][33] - 通用机器人实现需突破"三难困境":毫秒级反应速度、长上下文记忆和大模型规模 解决方案依赖云端与本地智能结合 [6][27][28][29] 技术架构与能力 - Physical Intelligence的π0模型采用端到端Transformer架构 整合视觉编码器、语言推理和动作专家 实现感知-思考-行动闭环 [16][17] - 动作控制采用流匹配和扩散技术 生成连续高频指令驱动关节运动 精度远超离散文本符号 [17] - 模型展现"组合泛化"能力:例如自主清理障碍物、扶正容器、翻正衣物等未训练过的行为 [23][24] - 预训练语言模型提供先验知识(如物体识别、空间关系) 加速物理技能学习过程 [17][18] 发展路径与时间线 - 优先小范围真实场景应用 而非大规模模拟 通过精准数据反馈提高资源效率 [4] - 垂直领域机器人服务预计1-2年内落地 通用家庭管家级机器人需约5年 [10][11] - 模拟环境需结合真实世界数据基础 仅作为"排练厅"用于技能排演和反事实思考 [30][31][32] - 数据飞轮启动后 机器人能力将呈指数级提升 从单一任务跃迁至通用家务处理 [1][5][10] 行业比较优势 - 对比语言模型:机器人错误结果明确(如叠坏衣服) 易获得有效负反馈 而语言模型错误难以察觉 [12] - 对比自动驾驶:机器人容错空间大(如打碎盘子可接受) 且受益于现代感知系统和常识推理能力 [13][14] - 具身智能赋予目标导向的视觉过滤能力 从海量视频数据中高效提取关键特征 避免信息过载 [19][20][21] 硬件与经济影响 - 硬件成本十年内从40万美元(PR2机器人)降至3000美元 AI闭环控制降低对机械精度的依赖 [33] - 机器人将放大体力劳动者生产力 类似编程助手对软件工程师的增效作用 [11][34] - 地缘政治挑战在于关键硬件供应链集中 但机器人产业具备"自举"特性:用机器人制造机器人可形成正反馈循环 [35] 生态与竞争维度 - 竞争焦点从纯技术转向产业链、生态链和人才链综合布局 [7] - 教育体系需培养持续学习能力 以适应自动化转型带来的社会变革 [34]
具身智能机器人,如何才能活出个“人样”?
36氪· 2025-08-04 08:21
具身智能发展背景与理论基础 - 图灵在1950年论文中首次提出具身智能概念 奠定理论基础并预见两条发展路径:专注抽象计算的"做题家"路线(如ChatGPT、AlphaGo)和通过感知互动学习的"实干派"路线(即具身智能)[1] - 当前存在莫拉维克悖论:实现逻辑推理等高级智慧所需计算资源较少 而实现感知运动等低等级智慧需要巨大计算资源[1] - 真实世界无标准答案 环境变量(地板滑度、光线变化、物体位置变动)导致机器人执行困难[1] 发展挑战与核心瓶颈 - 需适应非结构化真实环境 传统AI依赖固定场景而具身智能需应对无剧本现场(如宠物突然跑动、货架位移、天气变化)[5] - 需发展多感官联动认知策略 模仿人类多模态融合能力(视觉/听觉/触觉协同)实现三维空间物体识别与环境动态捕捉[5] - 缺乏元认知能力 无法主动反思任务执行过程(如将粉色杯子误判为红色)且缺乏终身学习能力 场景切换导致技能失效[6] - 实验室与现实场景表现差异显著 非训练场景任务完成率仅65% 模型泛化能力不足[17] - 续航能力不足(主流人形机器人续航普遍低于2小时)且成本高昂(单台超50万元)制约大规模应用[18][19] 技术架构突破 感知层 - 多模态传感器融合技术实现"五感全开":视觉传感器(双目摄像头、3D激光雷达)、触觉传感器(柔性电子皮肤)、力觉传感器(关节受力测量)[9][10] - 动态环境建模依赖SLAM技术 实时构建三维地图并预测障碍物动向 使物流机器人路径规划成功率从75%提升至92%[10] - 特斯拉Optimus搭载28个关节传感器 结合视觉神经网络实现毫米级物体定位精度[10] 认知层 - 分层决策架构将复杂任务拆解(如Figure 01的策略控制、环境交互、行为控制系统)[12][13] - 世界模型通过交互积累经验 建立"物体属性-空间关系-因果逻辑"知识库 实现触类旁通(如识别高温物体需戴隔热手套)[14][15] 行动层 - 仿生驱动技术实现灵活运动(波士顿动力Atlas完成2.5米高跳 越疆Dobot灵巧手操作误差小于0.1毫米)[15] - 人机共融安全设计:力控传感器实时监测接触力度(超5N即紧急停机) 柔性外壳防撞保护[16] 未来发展方向 - 多模态大模型融合(如Google RT-2)通过海量数据预训练 实现自然语言指令理解与动作执行 显著提升泛化能力[23] - 轻量化硬件创新:仿生肌肉驱动降低能耗 神经形态芯片提升计算效率 预计2028年续航突破6小时且成本降至20万元以下[23] - 虚实协同进化通过数字孪生技术 虚拟训练效率提升10倍以上(如工业机器人先虚拟装配再实际操作)[24] - 推动核心部件国产化替代与供应链优化 解决成本问题[21] 行业应用与定位演进 - 从工具转变为协作伙伴 在医疗、交通、工业制造等领域实现人机协同[22][24] - 需完善技术标准与法规体系 明确人机权责关系(如医疗误操作责任划分)与伦理决策机制(如自动驾驶道德困境)[22]
AI,人类豢养的老虎,还是智慧之子?
虎嗅· 2025-07-27 07:55
人工智能发展理念对比 - 辛顿将AI比作可能反噬人类的"小老虎",强调其潜在威胁性;莫拉维克则视AI为人类文明的继承者,认为会通过"和平演变"实现智能交接 [1][3] - 两者均认同AI将超越人脑成为超级智能,但辛顿侧重神经网络架构设计与算法训练,莫拉维克强调进化时间带来的感知/动作优化 [3][7] - 莫拉维克在1980年代末预测通用机器人将在2030-2040年间实现类人推理能力,并认为这是人类演化的自然结果 [4][5][6] 莫拉维克悖论核心 - 人类感知/运动能力需消耗巨大计算资源(十亿年进化成果),而高阶推理仅需极少资源(十万年进化产物) [8][9] - 视觉、听觉等"低阶技能"由高度优化的生物算法栈支撑,抽象思维因进化时间短更易被AI逆向工程 [11][12] - 明斯基补充:无意识的人类技能最难被AI模仿,这是机器人研发的根本挑战 [10] 具身智能发展现状 - 当前人形机器人(如宇树R1)多通过预设轨迹完成动作,缺乏真实环境感知能力,实际表现与宣传视频存在显著差距 [13][14] - 英伟达科学家Jim Fan指出:训练"盲体操选手"可通过模拟器实现零样本部署,但具备感知/操作能力的机器人需突破物理模拟技术瓶颈 [15][17] - 宇树认为基础动作训练是机器人进化的必经阶段,但行业共识认为现有技术尚未解决莫拉维克悖论指出的感知-运动鸿沟 [16] 行业领军者技术路线 - 英伟达主张物理AI是AGI关键,认为缺乏具身性则无法实现真正通用智能,其机器人研究聚焦原子世界的复杂交互 [17] - 黄仁勋对AI威胁论持谨慎乐观态度,将人类毁灭概率估值从50%降至10%-20%,与辛顿的警惕立场形成对比 [18] - OpenAI等公司定义的AGI侧重数字空间智能,与莫拉维克1987年提出的物理世界通用机器人理念存在路径差异 [16][19]
感觉捕手
36氪· 2025-07-08 09:04
人工智能与感知智能 - 当前AI系统擅长语言处理但缺乏对物理世界的理解 语言大模型通过词序列共现概率捕捉语义 但无法理解三维空间[21][22] - 世界模型是AI突破方向 通过多视角感知重建三维场景 预测遮挡与运动轨迹 实现物理推理和交互[23][24][27] - 语言大模型与世界模型互补 前者解析意图 后者执行物理操作 二者结合实现"说得明白+做得到"的完整智能[32][34] 智能的本质与进化 - 生物智能通过演化形成高效解决方案 如狗本能选择最优路径 棒球手使用凝视启发法接球 体现"具身认知"原理[41][44][45] - 预测性大脑理论认为智能是大脑-身体-环境统一体 通过最小化预测误差实现优化 不依赖显式计算[47][48][49] - 感知智能具有整体性、预测性、具身性和进化性特征 是超越符号操作的高级认知形式[52][53] 教育理念与认知发展 - 具身学习强调通过身体活动与环境互动培养理解力 挑战传统抽象知识灌输模式[78][79][80] - Taste是高维认知能力 表现为对事物本质的直觉判断 如杨振宁对物理学的鉴赏力 乔布斯的跨领域洞察[54][56][62] - 人类智能的独特性可能被AI超越 但具身体验形成的Taste仍是当前核心优势[71][74][81] 技术前沿与行业趋势 - 神经辐射场(NeRF)等3D视觉技术使AI具备场景重建能力 推动世界模型发展[27] - 多模态Transformer整合文本与3D潜变量 实现语义与空间控制的统一[32] - 莫拉维克悖论揭示感知运动智能的复杂性 是世界模型需攻克的核心难关[75][76]
最先进的AI大模型,为什么都在挑战《宝可梦》?
虎嗅· 2025-05-12 06:57
AI在游戏领域的应用进展 - 游戏作为AI的天然试验场,从AlphaGo到Gemini 2.5 Pro,科技公司持续通过AI通关游戏展示技术突破[2][3][4] - 2023年英伟达开发出能玩《我的世界》的VOYAGER,2025年谷歌Gemini因独立通关初代《宝可梦》引发关注[2][4] - 莫拉维克悖论指出:对人类简单的任务(如游戏通关)对AI反而更困难,这凸显了AI在感知和行动力上的挑战[6][7] 技术实现差异 - 早期AI(如AlphaGo)采用强化学习,依赖预设规则和奖励函数[15] - 大语言模型(如Claude、Gemini)直接操作游戏,需从画面中自主理解规则,类似人类新手学习过程[16][17] - Claude 3.7通关失败(仅获3枚徽章),耗时1年迭代,早期版本甚至无法走出初始城镇[11][12] AI决策能力展示 - Claude能理解属性克制系统并调整策略,如电系技能对岩石系"效果一般"的快速应用[19] - AI决策过程透明化:Claude同步显示思考步骤(如选择技能"翅膀攻击"的分析)[22][23] - 拟人化行为:迷路时主动选择战败回城,或误认NPC后修正[26][28][29] 行业技术演进方向 - Gemini操作步数(10.6万次)比Claude(21.5万次)少50%,但测试条件不同,差异源于代理执行框架优化[30][33][35] - 目标从单一游戏专精(围棋)转向通用能力:感知环境、模糊目标理解和长线规划[37][38] - 《宝可梦》等游戏被选为训练载体,因其模拟现实世界的规则学习和复杂问题解决潜力[39]
追光|机器人跑完马拉松,DeepSeek被记者采“破防”了(有彩蛋)
环球网资讯· 2025-04-20 01:57
全球首次人机共跑半程马拉松赛事 - 2025北京亦庄半程马拉松暨人形机器人半程马拉松于4月19日举行,这是全球首次人机同场竞技的半程马拉松赛事[1] - 赛事允许操作员通过遥控器控制机器人,也有队伍选择赋予机器人更多自主性,通过信号发射器引导机器人自主奔跑[8] - 比赛要求参赛机器人必须具有人形外观,能够实现双足行走或奔跑动作,禁止轮式结构[10][11] 人形机器人技术发展现状 - 天工队机器人采用"大小脑协同"决策系统,感知元件捕捉环境信息后由"大脑"决策,"小脑"控制执行动作[18] - 比赛中机器人表现差异明显,既有稳定发挥的天工机器人,也有频繁出现故障的"显眼包"机器人[18][20] - 机器人运动能力受限于莫拉维克悖论,对人类简单的运动协调对机器人而言需要依赖传感器融合和动态平衡算法等复杂技术[21] 具身智能技术应用前景 - 具身智能指AI拥有"身体"并能与环境交互,是当前技术发展的前沿方向[17] - 人形机器人可以更好地适应人类生活环境,成为高危生产、救援场景的人类助手[16][17] - 马拉松赛事为机器人技术提供了复杂户外环境的测试机会,收集的数据将支持企业技术升级[23] 人机交互的社会意义 - 赛事展现了人类对人形机器人的独特执着,反映了让机器人融入人类社会的愿景[14] - 观众对参赛机器人的鼓励反映了人类对技术进步的包容态度[25] - 赛事促进了人类对自身与机器共性的认知,展现了技术发展的人文价值[25]
黄仁勋「组局」,具身智能的核心玩家们聊了聊人形机器人的落地与未来
Founder Park· 2025-04-16 12:56
核心观点 - 英伟达发布通用机器人模型GR00T N1 重点布局Physical AI领域 并召集行业核心玩家探讨人形机器人技术路径与数据问题 [2] - 机器人领域加速发展得益于三大因素:模型突破(多模态/推理能力)、数据获取方式革新(仿真技术)、硬件成本下降(价格从150万美元降至4万美元) [8][9] - 具身智能未来将走向通用模型 但需要解决数据多样性问题 真实环境数据收集至关重要 [14][16][17] - 行业对"一脑多体"技术路径存在分歧 硬件与软件协同进化是关键挑战 [20][21] - 预计3-5年内机器人将实现社会普及 专用机器人将早于通用机器人落地 [24][25] 技术突破 - 模型层面:大型基础模型(如LLM)的出现使三维视觉理解和开放词汇能力大幅提升 端到端模型简化了控制架构 [9][14] - 数据层面:GPU加速仿真技术可在3小时内生成相当于10年训练数据量 突破数据瓶颈 [9][18] - 硬件层面:执行器/传感器等核心部件商品化 硬件价格从2001年150万美元降至当前4万美元水平 [9][13] 行业趋势 - 数据获取:必须通过真实环境部署获取多样化数据 家庭/工厂等场景将成关键数据源 [12][17] - 技术路径:从"基于编程的经验"转向"通过经验学习" 形成数据飞轮效应 [10][12] - 产品演进:专用机器人先行商用(如Agility的Digit) 逐步向多任务/通用型发展 [25][26] 关键挑战 - 跨实体泛化:需建立"实体宇宙"概念 通过多样化硬件平台积累数据 目前零样本泛化仍不现实 [20][21] - 安全机制:必须内置安全性设计 传统控制方法与AI新技术的"工具箱"需协同使用 [15][22] - 幻觉消除:物理交互能力是纠正认知偏差的核心 需构建闭环反馈系统 [22][23] 商业化展望 - 短期(1-2年):专用机器人在物流/制造等垂直领域实现商业价值 [25] - 中期(3-5年):机器人社会渗透率显著提升 进入消费级市场 [24] - 长期(10年):可能引发类似电力普及的社会变革 形成数字物理劳动力网络 [24][26]
美国机器人“四小龙”:通用机器人仍需十年,专用机器人即将出现,机器人的扩展法则会在五年内被探索出来 | GTC 2025
AI科技大本营· 2025-03-26 10:20
人形机器人行业现状 - 全球人形机器人领域已形成以美国公司为主导的竞争格局,主要参与者包括特斯拉、Google、NVIDIA等科技巨头以及Figure、Agility Robotics等新兴企业 [5] - 行业融资规模差异显著:Figure以26亿美元融资领跑,Physical Intelligence和Skild AI分别获得24亿和15亿美元,Agility Robotics和波士顿动力融资规模在10-12亿美元区间 [5] - 日本企业Telexistence和加拿大公司Sanctuary AI分别获得5.3亿和4亿美元融资,显示全球资本在该领域的广泛布局 [5] - 挪威公司1X Technologies和美国企业Mentee Robotics融资规模相对较小,分别为3.75亿和1.2亿美元 [5] 技术突破驱动力 - 模型层面突破:大型基础模型如ChatGPT的出现使系统具备推理能力,多模态模型显著提升对3D视觉世界的理解能力 [17] - 数据获取革新:GPU加速模拟技术可在3小时内生成相当于过去十年的训练数据,突破数据匮乏瓶颈 [17] - 硬件成本下降:人形机器人硬件价格从2001年150万美元降至当前4万美元水平,接近汽车价格区间 [17] - 模拟技术突破:物理环境模拟速度已超越真实世界时间流逝,大幅加速算法开发效率 [18] - 零部件商品化:消费电子产业推动电池、摄像头等技术发展,使机器人组件可模块化整合 [18] 技术范式转变 - 从控制理论主导转向经验学习:行业思维模式从"编程经验"转变为"通过经验学习",更贴近生物学习方式 [19] - 硬件稳健性提升:新一代机器人硬件可靠性显著增强,能够承受真实环境中的持续互动而不易损坏 [21] - 跨具身性研究:探索通用大脑控制不同硬件平台的可行性,英伟达GR00T项目致力于构建适配多型号机器人的统一模型 [22] - 数据策略创新:采用金字塔结构整合真实机器人数据、模拟数据和神经模拟数据,通过潜在动作提取算法提升训练效率 [22] 企业技术路径 - 英伟达GR00T项目采用端到端模型设计,追求"从光子到动作"的直接映射,模型参数仅20亿但性能出色 [21][22] - Skild AI专注于构建机器人通用大脑,主张通过单一共享模型解决数据稀缺问题 [8] - Agility Robotics强调真实场景部署,其Digit机器人已应用于制造业和物流领域 [10] - 波士顿动力保持技术延续性,在采用AI新技术同时保留传统控制理论工具 [18] - 1X Technologies探索远程操作界面抽象化,通过高级指令引导机器人自主完成精细操作 [27] 行业未来展望 - 硬件多样化趋势:当前人形机器人硬件同质化严重,未来将出现更多突破传统人体结构的设计创新 [30] - 专业型机器人先行:特定场景的"任务专家型"机器人将率先普及,解决劳动力短缺问题 [36] - 技术融合加速:机器人AI与数字AI界限逐渐模糊,真实世界互动数据将提升AI系统的验证能力 [33] - 社会接受度关键:机器人技术普及速度取决于社会接受程度和生产规模扩张能力 [36] - 长期颠覆性影响:十年内机器人技术可能像电力普及一样深刻改变社会生产和生活方式 [36]