莫拉维克悖论
搜索文档
Alex Wang“没资格接替我”,Yann LeCun揭露Meta AI“内斗”真相,直言AGI是“彻头彻尾的胡扯”
36氪· 2025-12-17 02:45
"通往超级智能的那条路——无非是不断训练大语言模型、喂更多合成数据、雇上几千人做后训练、再在强化学习上搞点新花样——在我看来完全是胡 扯,这条路根本行不通。" 近日,在一档名为《The Information Bottleneck》的访谈栏目中,主持人 Ravid Shwartz-Ziv 和 Allen Roush 与图灵奖得主、前 Meta 首席 AI 科学家 Yann LeCun 展开了一场近两小时的高质量对话,在访谈中,LeCun 解释了为什么会在 65 岁这个别人已经退休的年纪他还在创业,此外,他也对当前硅谷主流 的人工智能发展路径给出了罕见而尖锐的评价。 结束在 Meta 长达 12 年的职业生涯后,LeCun 正将个人学术声誉与职业"遗产"押注在一套截然不同的 AI 愿景之上。他直言,业界对大语言模型规模化的 执念,正在把人工智能引向一条看似高速、实则封闭的死胡同。 在 LeCun 看来,真正制约 AI 进步的关键,并不是如何更快地逼近"人类级智能",而是如何跨越一个常被低估却极其困难的门槛——让机器具备"狗的智 能水平"。这一判断挑战了当前以语言能力和知识覆盖面为中心的评估体系。在他看来,现实世 ...
记者观察丨机器人“应摔尽摔” 让中国具身智能产业走得更稳
证券时报· 2025-12-15 09:54
周末的上海张江科学会堂成了"遛娃圣地":2025国际具身智能技能大赛在此举办,"硅基生命"被推到公 众眼前,完成爬坡、搬运、叠衣、陪护等任务。家长带娃前来想领略"黑科技",却见证了颇多笑料:有 的机器人在执行任务时突然"一脸懵"愣在原地,有的在绕过障碍时把自己扳倒;有一台机器人刚出场就 重重摔伤,脑壳碎了一地……人们纷纷揶揄道,原来热度颇高的具身智能赛道,也不过如此。 在围观者的戏谑和唱衰中,有人发出"灵魂质疑":以比赛的形式将行业的痛点和局限暴露出来,真的有 必要吗?笔者认为,现在"应摔尽摔",未来才能大步向前。这些让人捧腹的机器人"翻车"瞬间,恰恰是 大赛设计理念的核心所在——将机器人从理想的实验室环境推向不可预测的真实世界,从而暴露其技术 瓶颈,为未来的发展指明方向。 近年来人工智能发展呈现出极具反差感的两面:网页端的大模型已能通过律师考试,而现实中的机器人 却只能像学龄前孩童一样蹒跚学步——这就是著名的"莫拉维克悖论"。人们一边感叹通用人工智能已经 来了,一边又诧异于机器人叠个衬衫"难于登天"。 如何才能让机器人具备真正的干活能力?首先要撕掉实验室"滤镜",让机器人在真实碰撞中暴露弱点。 本次大赛上, ...
记者观察丨机器人“应摔尽摔” 让中国具身智能产业走得更稳
证券时报· 2025-12-15 09:18
周末的上海张江科学会堂成了"遛娃圣地":2025国际具身智能技能大赛在此举办,"硅基生命"被推到公众眼 前,完成爬坡、搬运、叠衣、陪护等任务。家长带娃前来想领略"黑科技",却见证了颇多笑料:有的机器人在 执行任务时突然"一脸懵"愣在原地,有的在绕过障碍时把自己扳倒;有一台机器人刚出场就重重摔伤,脑壳碎 了一地……人们纷纷揶揄道,原来热度颇高的具身智能赛道,也不过如此。 在围观者的戏谑和唱衰中,有人发出"灵魂质疑":以比赛的形式将行业的痛点和局限暴露出来,真的有必要 吗?笔者认为,现在"应摔尽摔",未来才能大步向前。这些让人捧腹的机器人"翻车"瞬间,恰恰是大赛设计理 念的核心所在——将机器人从理想的实验室环境推向不可预测的真实世界,从而暴露其技术瓶颈,为未来的发 展指明方向。 近年来人工智能发展呈现出极具反差感的两面:网页端的大模型已能通过律师考试,而现实中的机器人却只能 像学龄前孩童一样蹒跚学步——这就是著名的"莫拉维克悖论"。人们一边感叹通用人工智能已经来了,一边又 诧异于机器人叠个衬衫"难于登天"。 证券时报各平台所有原创内容,未经书面授权,任何单位及个人不得转载。我社保留追 究相关 行 为主体 法律责任 ...
65岁LeCun被卷回巴黎老家,与小扎一刀两断,曝光神秘AI初创
36氪· 2025-12-05 11:45
核心观点 - Meta首席AI科学家Yann LeCun离职创业 其新公司专注于开发基于“世界模型”的高级机器智能 旨在让AI理解并预测物理世界 这与当前行业过度投资大语言模型的技术路线形成鲜明对立 [1][3][11] - Yann LeCun公开批评大语言模型存在根本性局限 认为其已触及天花板 并将行业资源视为“黑洞” 阻碍了其他AI路径的发展 [6][8] - Meta公司尽管口头支持LeCun的创业 但并未进行财务投资 显示出双方在技术路线和商业兴趣上存在分歧 [1][36][38] 关键人物动态 - Yann LeCun在Meta工作12年后将于年底离职并创业 其新公司专注于开发“世界模型”以实现高级机器智能 [1][3] - LeCun表示Meta是其新公司的合作伙伴但并非投资者 暗示项目范围可能超出Meta的兴趣 [1][36][38] - 媒体报道LeCun计划离职后 Meta股价下跌了2% 据此估计LeCun对Meta的价值约为300亿美元 [38] 技术路线分歧 - Yann LeCun认为大语言模型仅是“token生成器” 缺乏对物理世界的理解、记忆和多步推理能力 几乎过时 [6] - LeCun指出大语言模型是自回归的 属于System 1 没有真正推理 不具备达到人类或狗类智能水平所需的四项能力 [6] - 他认为大语言模型像“黑洞”一样吸干了所有资源和关注 导致其他AI研究领域寸草不生 [8] - 与此相对 Meta公司正投入数十亿美元重金招揽大语言模型专家 甚至由CEO亲自参与挖角 这被视作对LeCun技术路线的一种否定 [8][11] “世界模型”技术理念 - LeCun倡导的“世界模型”是一种基于视觉等感官信息训练的非生成式AI 旨在预测物理世界 其理念可追溯至1943年的心理学概念 [3][12][14] - 他认为真正的智能需要构建“心理模型”或内部表征 以进行规划、推理和与复杂环境交互 而这大部分是通过观察和交互后天学来的 [21][22] - 过去10年 LeCun致力于此方向 前5年探索 后5年基于非生成式架构取得实质进展 并发展出联合嵌入预测架构 [16][20][21] - 世界模型不仅预测下一帧视频 更关键的是预测在不同动作下所有可能结果的分布 因此需要大量交互数据而不仅是视频数据 [25][26] - LeCun用比喻说明差异:大语言模型像盲目滚下山的雪球 而真正的智能应像能感知环境并规划路径的雪人 [27][29][30] 对当前AI发展的批判 - LeCun指出“莫拉维克悖论”依然存在:AI能在律师考试等抽象任务中表现出色 但无法让机器人具备五岁孩子的行动能力 [20][21] - 他认为理解物理世界比理解语言更难 文本只是对人类丰富感知的高度压缩和抽象描述 无法涵盖大部分关于物理世界的直觉和心理模型 [20][32][35] - 人类思考依赖心理意象而非token 因此仅通过缩放语言模型无法产生真正的智能 [20][35] - 他批评硅谷完全被生成式模型迷住 暗示其创业需在硅谷之外的非主流环境如巴黎进行 [38] 行业影响与现状 - 全球科技巨头正将数十亿美元投入大语言模型领域 并相信缩放定律能支持其通向通用人工智能 [4] - 行业围绕大语言模型迅速形成“共识” 但AI领域最顶尖的科学家对其作为智能路径的根本问题仍存在深刻分歧 [40] - 对智能本质的探索尚无定论 技术路径的竞争仍在继续 [40]
Generalist发现具身智能的Scaling Law,还让模型能同时思考与行动
36氪· 2025-11-21 01:52
公司概况 - 公司由Google DeepMind高级研究科学家Pete Florence联合创立,其Google学术引用数超过19000次,曾带队研发PaLM-E、RT-2等模型[4] - 联合创始人包括Andrew Barry(CTO,前波士顿动力员工)和Andy Zeng(首席科学家,曾参与PaLM-E研发)[4] - 核心团队拥有来自OpenAI、Waymo等顶尖公司的资深研究人员[4] - 早期投资者包括Spark Capital、NVIDIA、Boldstart Ventures、Bezos Expeditions、NFDG等机构,但投资金额未披露[3] 核心产品与技术 - 发布新型具身基础模型GEN-0,基于高保真度原始物理交互数据的多模态训练,设计目标为捕捉人类水平的反应反射与物理常识[1][5] - 模型核心特征为"和谐推理",实现感知流(持续接收传感器数据)与行动流(持续输出控制指令)在连续时间域中异步交织,无需显式同步点[6][7] - 模型架构借鉴视觉和语言模型优势并实现超越,适用于6自由度、7自由度及超过16自由度的半人形机器人[5][18] 模型性能与扩展规律 - 模型参数规模达到1B(10亿)时难以吸收复杂感知运动数据,6B(60亿)参数开始展现多任务能力,7B(70亿)以上参数可快速迁移至下游任务[10][11][12] - 扩展至10B(100亿)以上参数后,模型能以更少后训练数据快速适应新任务,在零样本下游任务中性能提升(下一动作验证预测误差降低)[14] - 首次在具身智能领域观察到模型固化现象,且相变发生在远大于语言模型的参数规模上,印证莫拉维克悖论[14] 数据与训练 - 训练数据集包含27万小时真实世界操控轨迹,从全球数千个家庭、仓库和工作场所收集,数据量比某些最大规模机器人数据集高出几个数量级[16][18] - 数据质量和多样性比纯粹数据量更重要,精心构建的数据混合可产生不同特性的预训练模型[18] - 模型展现出明显Scaling Law,预训练数据规模与下游性能存在幂律关系,适用于服装、制造、物流、汽车、电子等多行业任务[15] 行业竞争与前景 - 竞争对手包括Physical Intelligence(模型迭代至π 0.6,可完成连续长序列任务)、Skild AI(支持多形态机器人泛化)、Figure(采用快慢思考双系统架构)[19] - 行业技术思路尚未收敛,数据丰富度不足,商业化落地案例仍较少[19] - 具身智能Scaling Law已被初步验证,多形态泛化、动作延时、连续长序列任务等难题正被攻克,商业化前景逐步改善[20][21]
大模型之后看机器人?Sergey Levine谈通用机器人规模化落地的真实瓶颈与破局方案
锦秋集· 2025-09-15 12:37
核心观点 - 机器人技术将在2030年实现家庭全自主管理 核心驱动力是"机器人数据飞轮"机制 即通过真实任务反馈实现持续迭代和自我强化 [1] - 机器人落地速度可能超越自动驾驶和大型语言模型 因物理世界反馈明确、容错率高且数据获取更容易 [2] - 技术路径基于"视觉-语言-动作"一体化基础模型 依托现有AI底座(如Gemma语言模型)快速开发应用 [3][15] - 硬件成本从数十万美元降至数千美元 降低创业门槛并加速市场验证 [7][33] - 通用机器人实现需突破"三难困境":毫秒级反应速度、长上下文记忆和大模型规模 解决方案依赖云端与本地智能结合 [6][27][28][29] 技术架构与能力 - Physical Intelligence的π0模型采用端到端Transformer架构 整合视觉编码器、语言推理和动作专家 实现感知-思考-行动闭环 [16][17] - 动作控制采用流匹配和扩散技术 生成连续高频指令驱动关节运动 精度远超离散文本符号 [17] - 模型展现"组合泛化"能力:例如自主清理障碍物、扶正容器、翻正衣物等未训练过的行为 [23][24] - 预训练语言模型提供先验知识(如物体识别、空间关系) 加速物理技能学习过程 [17][18] 发展路径与时间线 - 优先小范围真实场景应用 而非大规模模拟 通过精准数据反馈提高资源效率 [4] - 垂直领域机器人服务预计1-2年内落地 通用家庭管家级机器人需约5年 [10][11] - 模拟环境需结合真实世界数据基础 仅作为"排练厅"用于技能排演和反事实思考 [30][31][32] - 数据飞轮启动后 机器人能力将呈指数级提升 从单一任务跃迁至通用家务处理 [1][5][10] 行业比较优势 - 对比语言模型:机器人错误结果明确(如叠坏衣服) 易获得有效负反馈 而语言模型错误难以察觉 [12] - 对比自动驾驶:机器人容错空间大(如打碎盘子可接受) 且受益于现代感知系统和常识推理能力 [13][14] - 具身智能赋予目标导向的视觉过滤能力 从海量视频数据中高效提取关键特征 避免信息过载 [19][20][21] 硬件与经济影响 - 硬件成本十年内从40万美元(PR2机器人)降至3000美元 AI闭环控制降低对机械精度的依赖 [33] - 机器人将放大体力劳动者生产力 类似编程助手对软件工程师的增效作用 [11][34] - 地缘政治挑战在于关键硬件供应链集中 但机器人产业具备"自举"特性:用机器人制造机器人可形成正反馈循环 [35] 生态与竞争维度 - 竞争焦点从纯技术转向产业链、生态链和人才链综合布局 [7] - 教育体系需培养持续学习能力 以适应自动化转型带来的社会变革 [34]
具身智能机器人,如何才能活出个“人样”?
36氪· 2025-08-04 08:21
具身智能发展背景与理论基础 - 图灵在1950年论文中首次提出具身智能概念 奠定理论基础并预见两条发展路径:专注抽象计算的"做题家"路线(如ChatGPT、AlphaGo)和通过感知互动学习的"实干派"路线(即具身智能)[1] - 当前存在莫拉维克悖论:实现逻辑推理等高级智慧所需计算资源较少 而实现感知运动等低等级智慧需要巨大计算资源[1] - 真实世界无标准答案 环境变量(地板滑度、光线变化、物体位置变动)导致机器人执行困难[1] 发展挑战与核心瓶颈 - 需适应非结构化真实环境 传统AI依赖固定场景而具身智能需应对无剧本现场(如宠物突然跑动、货架位移、天气变化)[5] - 需发展多感官联动认知策略 模仿人类多模态融合能力(视觉/听觉/触觉协同)实现三维空间物体识别与环境动态捕捉[5] - 缺乏元认知能力 无法主动反思任务执行过程(如将粉色杯子误判为红色)且缺乏终身学习能力 场景切换导致技能失效[6] - 实验室与现实场景表现差异显著 非训练场景任务完成率仅65% 模型泛化能力不足[17] - 续航能力不足(主流人形机器人续航普遍低于2小时)且成本高昂(单台超50万元)制约大规模应用[18][19] 技术架构突破 感知层 - 多模态传感器融合技术实现"五感全开":视觉传感器(双目摄像头、3D激光雷达)、触觉传感器(柔性电子皮肤)、力觉传感器(关节受力测量)[9][10] - 动态环境建模依赖SLAM技术 实时构建三维地图并预测障碍物动向 使物流机器人路径规划成功率从75%提升至92%[10] - 特斯拉Optimus搭载28个关节传感器 结合视觉神经网络实现毫米级物体定位精度[10] 认知层 - 分层决策架构将复杂任务拆解(如Figure 01的策略控制、环境交互、行为控制系统)[12][13] - 世界模型通过交互积累经验 建立"物体属性-空间关系-因果逻辑"知识库 实现触类旁通(如识别高温物体需戴隔热手套)[14][15] 行动层 - 仿生驱动技术实现灵活运动(波士顿动力Atlas完成2.5米高跳 越疆Dobot灵巧手操作误差小于0.1毫米)[15] - 人机共融安全设计:力控传感器实时监测接触力度(超5N即紧急停机) 柔性外壳防撞保护[16] 未来发展方向 - 多模态大模型融合(如Google RT-2)通过海量数据预训练 实现自然语言指令理解与动作执行 显著提升泛化能力[23] - 轻量化硬件创新:仿生肌肉驱动降低能耗 神经形态芯片提升计算效率 预计2028年续航突破6小时且成本降至20万元以下[23] - 虚实协同进化通过数字孪生技术 虚拟训练效率提升10倍以上(如工业机器人先虚拟装配再实际操作)[24] - 推动核心部件国产化替代与供应链优化 解决成本问题[21] 行业应用与定位演进 - 从工具转变为协作伙伴 在医疗、交通、工业制造等领域实现人机协同[22][24] - 需完善技术标准与法规体系 明确人机权责关系(如医疗误操作责任划分)与伦理决策机制(如自动驾驶道德困境)[22]
AI,人类豢养的老虎,还是智慧之子?
虎嗅· 2025-07-27 07:55
人工智能发展理念对比 - 辛顿将AI比作可能反噬人类的"小老虎",强调其潜在威胁性;莫拉维克则视AI为人类文明的继承者,认为会通过"和平演变"实现智能交接 [1][3] - 两者均认同AI将超越人脑成为超级智能,但辛顿侧重神经网络架构设计与算法训练,莫拉维克强调进化时间带来的感知/动作优化 [3][7] - 莫拉维克在1980年代末预测通用机器人将在2030-2040年间实现类人推理能力,并认为这是人类演化的自然结果 [4][5][6] 莫拉维克悖论核心 - 人类感知/运动能力需消耗巨大计算资源(十亿年进化成果),而高阶推理仅需极少资源(十万年进化产物) [8][9] - 视觉、听觉等"低阶技能"由高度优化的生物算法栈支撑,抽象思维因进化时间短更易被AI逆向工程 [11][12] - 明斯基补充:无意识的人类技能最难被AI模仿,这是机器人研发的根本挑战 [10] 具身智能发展现状 - 当前人形机器人(如宇树R1)多通过预设轨迹完成动作,缺乏真实环境感知能力,实际表现与宣传视频存在显著差距 [13][14] - 英伟达科学家Jim Fan指出:训练"盲体操选手"可通过模拟器实现零样本部署,但具备感知/操作能力的机器人需突破物理模拟技术瓶颈 [15][17] - 宇树认为基础动作训练是机器人进化的必经阶段,但行业共识认为现有技术尚未解决莫拉维克悖论指出的感知-运动鸿沟 [16] 行业领军者技术路线 - 英伟达主张物理AI是AGI关键,认为缺乏具身性则无法实现真正通用智能,其机器人研究聚焦原子世界的复杂交互 [17] - 黄仁勋对AI威胁论持谨慎乐观态度,将人类毁灭概率估值从50%降至10%-20%,与辛顿的警惕立场形成对比 [18] - OpenAI等公司定义的AGI侧重数字空间智能,与莫拉维克1987年提出的物理世界通用机器人理念存在路径差异 [16][19]
感觉捕手
36氪· 2025-07-08 09:04
人工智能与感知智能 - 当前AI系统擅长语言处理但缺乏对物理世界的理解 语言大模型通过词序列共现概率捕捉语义 但无法理解三维空间[21][22] - 世界模型是AI突破方向 通过多视角感知重建三维场景 预测遮挡与运动轨迹 实现物理推理和交互[23][24][27] - 语言大模型与世界模型互补 前者解析意图 后者执行物理操作 二者结合实现"说得明白+做得到"的完整智能[32][34] 智能的本质与进化 - 生物智能通过演化形成高效解决方案 如狗本能选择最优路径 棒球手使用凝视启发法接球 体现"具身认知"原理[41][44][45] - 预测性大脑理论认为智能是大脑-身体-环境统一体 通过最小化预测误差实现优化 不依赖显式计算[47][48][49] - 感知智能具有整体性、预测性、具身性和进化性特征 是超越符号操作的高级认知形式[52][53] 教育理念与认知发展 - 具身学习强调通过身体活动与环境互动培养理解力 挑战传统抽象知识灌输模式[78][79][80] - Taste是高维认知能力 表现为对事物本质的直觉判断 如杨振宁对物理学的鉴赏力 乔布斯的跨领域洞察[54][56][62] - 人类智能的独特性可能被AI超越 但具身体验形成的Taste仍是当前核心优势[71][74][81] 技术前沿与行业趋势 - 神经辐射场(NeRF)等3D视觉技术使AI具备场景重建能力 推动世界模型发展[27] - 多模态Transformer整合文本与3D潜变量 实现语义与空间控制的统一[32] - 莫拉维克悖论揭示感知运动智能的复杂性 是世界模型需攻克的核心难关[75][76]
最先进的AI大模型,为什么都在挑战《宝可梦》?
虎嗅· 2025-05-12 06:57
AI在游戏领域的应用进展 - 游戏作为AI的天然试验场,从AlphaGo到Gemini 2.5 Pro,科技公司持续通过AI通关游戏展示技术突破[2][3][4] - 2023年英伟达开发出能玩《我的世界》的VOYAGER,2025年谷歌Gemini因独立通关初代《宝可梦》引发关注[2][4] - 莫拉维克悖论指出:对人类简单的任务(如游戏通关)对AI反而更困难,这凸显了AI在感知和行动力上的挑战[6][7] 技术实现差异 - 早期AI(如AlphaGo)采用强化学习,依赖预设规则和奖励函数[15] - 大语言模型(如Claude、Gemini)直接操作游戏,需从画面中自主理解规则,类似人类新手学习过程[16][17] - Claude 3.7通关失败(仅获3枚徽章),耗时1年迭代,早期版本甚至无法走出初始城镇[11][12] AI决策能力展示 - Claude能理解属性克制系统并调整策略,如电系技能对岩石系"效果一般"的快速应用[19] - AI决策过程透明化:Claude同步显示思考步骤(如选择技能"翅膀攻击"的分析)[22][23] - 拟人化行为:迷路时主动选择战败回城,或误认NPC后修正[26][28][29] 行业技术演进方向 - Gemini操作步数(10.6万次)比Claude(21.5万次)少50%,但测试条件不同,差异源于代理执行框架优化[30][33][35] - 目标从单一游戏专精(围棋)转向通用能力:感知环境、模糊目标理解和长线规划[37][38] - 《宝可梦》等游戏被选为训练载体,因其模拟现实世界的规则学习和复杂问题解决潜力[39]