机器之心
搜索文档
小米开源首个跨域具身基座模型MiMo-Embodied,29个榜单SOTA
机器之心· 2025-11-26 09:19
文章核心观点 - 小米具身智能团队发布了首个开源的、成功融合自动驾驶与具身智能的跨域基座模型 MiMo-Embodied,旨在打破两大领域长期割裂的局面,构建能够统一理解物理世界并进行复杂推理的通用智能体 [5] - 该模型采用创新的四阶段渐进式训练策略,在17个具身智能基准和12个自动驾驶基准上均刷新了记录(SOTA),性能超越了包括GPT-4o、Gemini-Pro在内的闭源模型,证明了跨域知识融合的巨大潜力 [5][18] - 模型实现了正向迁移,即两个领域的知识融合产生了协同效应,而非简单叠加,为构建通用的视觉-语言-行动(VLA)模型奠定了基础 [18][46] 模型架构与核心能力 - MiMo-Embodied 基于小米自研的 MiMo-VL 架构,将物理世界的交互能力解构为六大核心维度,旨在构建统一的感知与推理模型架构 [9][11] - 在自动驾驶侧,模型需具备环境感知、状态预测与驾驶规划能力,以应对高速动态场景 [11] - 在具身智能侧,模型重点攻克可供性预测与空间理解能力,以处理室内精细操作任务 [11] 四阶段渐进式训练策略 - 阶段一为具身与通用知识奠基,利用海量通用图文数据和具身智能数据进行监督微调,建立模型对静态物理世界的基础认知 [14] - 阶段二为自动驾驶知识注入与混合监督,引入大规模自动驾驶数据,并通过混合监督确保模型在学习驾驶知识时不遗忘具身能力 [14] - 阶段三为思维链推理的逻辑升华,利用包含显式推理步骤的数据集进行微调,提升模型在复杂场景下的逻辑推理能力与可解释性 [15] - 阶段四为强化学习的终极打磨,利用GRPO算法针对多模态模型的“幻觉”问题进行优化,将模型的执行精度推向极致 [16] 具身智能基准测试表现 - 在可供性预测能力上,模型在RoboRefIt、Where2Place、VABench-Point、Part-Afford和RoboAfford-Eval五个专业基准上均达到最优性能,尤其在VABench-Point、Part-Afford和RoboAfford-Eval上大幅领先 [19][22] - 在任务规划能力上,模型在RoboVQA基准上表现最优,在长时规划基准EgoPlan2上也取得极具竞争力的成绩 [23] - 在空间理解能力上,模型在综合空间智能任务CV-Bench上取得88.82分的最优结果,在RoboSpatial、RefSpatial-Bench和CRPE关系子集上均领先 [25][26] 自动驾驶基准测试表现 - 在环境感知能力上,模型在全景语义理解和具有挑战性的局部感知场景中均展现出最优表现和卓越鲁棒性 [27][28] - 在状态预测能力上,模型在单图像基准MME-RealWorld和多视图图像基准DriveLM上均取得强劲表现,准确捕捉行为意图并建模多智能体交互 [27][29] - 在驾驶规划能力上,模型在所有面向规划的基准测试中均表现突出,能生成准确、符合情境且可解释的驾驶决策 [27][30] 真实世界场景验证 - 在具身导航与操作任务中,模型在家庭导航场景(如定位卧室的床、餐厅的吸尘器)和功能导向操作任务(如识别勺子把手、定位放置位置)中均表现出色 [33][34] - 在自动驾驶轨迹规划中,模型在NAVSIM基准上显著超越竞争模型,并能处理路口转弯、弯道掉头、跟车和变道超车等多样化复杂场景 [38] - 在大规模专有数据集评估中,模型在所有评估类别均显著超越基线,尤其在复杂的交互任务(如转弯、绕障和变道)中性能提升最为显著 [39] 消融实验与策略有效性 - 系统性消融实验证明,仅使用自动驾驶数据训练的模型在具身任务上性能显著下降,而直接混合训练两个领域的数据会导致自动驾驶性能略有下降 [41][43] - 采用多阶段训练策略的MiMo-Embodied在具身任务上平均达到62.4%(相比混合训练提升4%),在自动驾驶任务上达到最优的63.3%(相比混合训练提升8.1%) [43][44] - 实验结果充分证明多阶段训练策略能够在不牺牲单一任务性能的前提下,实现具身智能和自动驾驶能力的协同提升 [44]
谢赛宁与Jaakkola团队重磅研究:无数据Flow Map蒸馏
机器之心· 2025-11-26 09:19
AI研究新范式:摆脱数据和语言依赖 - 近期多项研究展示AI研究新趋势:摆脱对显性数据(如文本、图像)和语言的依赖,转而挖掘和利用模型内部表征或先验分布 [4][5] - 清华大学等机构的「Cache-to-Cache」模型通信新范式实现了「去语言化」的高效交流,相关推文获得85万浏览量 [1] - NeurIPS 2025论文提出「思维沟通」概念,让智能体在内部层面传递潜在思维,实现类似心灵感应的合作 [3] - 麻省理工学院和纽约大学的联合研究提出无需数据、仅从先验分布采样即可实现flow map蒸馏的方法,标志着AI从「向外挖掘数据」跨入「向内挖掘潜能」的新纪元 [4][5][30] FreeFlow无数据蒸馏技术 - 该技术旨在解决扩散模型和流模型因对常微分方程进行数值积分而导致的严重计算瓶颈问题 [8][9] - 传统flow map蒸馏方法依赖外部数据集训练学生模型,存在「教师-数据不匹配」的根本性风险,即静态数据集可能无法完整表征教师模型真实的生成能力 [11][12] - FreeFlow通过仅从先验分布进行采样,构建了一种稳健的、无需数据的替代方案,在设计上彻底规避了「教师-数据不匹配」的风险 [21][23] FreeFlow技术框架与性能 - 技术采用「预测-校正」框架:预测阶段使学生模型成为自主的ODE求解器;校正阶段通过分布匹配机制确保生成的边缘分布忠实于教师模型 [22][26] - 在ImageNet上刷新生成质量纪录:在1-NFE条件下,256x256分辨率下FID达到1.45,512x512分辨率下FID达到1.49,大幅超越所有基于数据的基准模型 [27][28] - 该方法可作为快速且一致的代理模型,实现高效的「推理时扩展」,使得在单步操作中搜索最优噪声样本成为可能 [30]
云帆Meetup报名|i人也可,在NeurIPS圣地亚哥遇见同频智友
机器之心· 2025-11-26 07:07
AI行业发展趋势 - AI技术正在快速发展 涵盖文本生成 视频创作 智能体和多模态推理等领域 重塑人机交互 [2] - 技术迭代速度极快 研究提出 测试和迭代过程加速 论文发表和架构突破不断重塑研究方向 [2] - 学术会议如NeurIPS在推动AI发展中作用重要 NeurIPS 2025收到21575份有效投稿 接收5290篇 录用率为24.52% 会议将于2025年12月2日至7日在美国圣地亚哥举办 [2] 行业交流活动 - 机器之心与上海人工智能实验室等合作伙伴共同发起云帆・NeurIPS 2025 AI Talent Meetup暨北极星X星启交流会 旨在促进研究者 工程师和创业者间的面对面交流 [3][4] - 活动定于2025年12月3日17:30-20:30在美国圣地亚哥会议中心附近举行 规模为80人 采用报名审核制 [4][6] - 活动日程包括签到 上海AI实验室介绍 北极星&星启计划介绍 云帆·AI Talent Show以及晚宴&互动环节 [6] 公司活动与影响力 - 机器之心已成功举办多场学术顶会活动 包括机器之心・IROS 2025 TalentAI50 Meetup 云帆・ICLR 2025 AI Talent Meetup等 助力合作伙伴吸纳人才和提升品牌影响力 [9] - 公司邀请企业参与2025及2026年学术顶会活动合作 具体合作方式可通过提供的联系方式咨询 [10]
预测下一个像素还需要几年?谷歌:五年够了
机器之心· 2025-11-26 07:07
文章核心观点 - 研究重新审视了基于下一像素预测的生成式图像预训练范式,探讨其大规模扩展的可行性与规律 [2][4][6] - 研究发现,下一像素预测的扩展趋势与文本类似但效率低得多,需要比语言模型多10–20倍的token-per-parameter比例才能达到有效学习 [6][15][16] - 不同下游任务(如图像分类与生成)的最优扩展策略存在显著差异,且策略随图像分辨率提升而改变 [7][18][22][23] - 尽管当前计算成本高昂,但研究预测基于原始像素的建模在未来五年内将变得可行,主要瓶颈是计算量而非训练数据 [8][26] 研究方法与实验设置 - 研究从32×32分辨率的图像出发,在多种等算力配置下训练了一系列Transformer模型,最大计算量达到7e19 FLOPs [10] - 采用四种规模的Transformer架构,参数从2800万到4.49亿不等 [11] - 在包含3亿张图像的JFT-300M数据集上进行预训练,在32×32分辨率下完整遍历一遍相当于处理超过3000亿个像素 [12] - 通过下一像素预测目标、ImageNet分类准确率以及Fréchet Distance衡量生成质量这三个指标评估模型性能 [10][13] 关键研究发现 - 像素的语义信息极低,单个像素几乎不包含语义,其颜色值可能对应多种物体的一部分 [10][19] - 像素之间的空间关系非常复杂,不易用序列方式表示,且随着图像分辨率升高,下一像素预测的计算量会急剧增加 [10] - 在32×32分辨率下,图像生成任务需要比分类任务更大的token-parameter比例,其数据规模增长速度是分类任务的三到五倍 [7][18] - 随着图像分辨率从16×16提升至64×64,最优扩展策略明显偏向更大的模型而非更多的数据 [23][24] 未来展望与可行性分析 - 训练算力正以每年四到五倍的速度增长,为逐像素建模的未来可行性提供了基础 [8] - 研究预计在未来五年内,基于原始像素的学习将成为一条可行的发展方向,并能达到具有竞争力的性能 [26] - 像素级模型的主要瓶颈是计算量,而非训练数据的可获得性 [18][26]
突破视觉-语言-动作模型的瓶颈:QDepth-VLA让机器人拥有更精准的3D空间感知
机器之心· 2025-11-26 07:07
文章核心观点 - 视觉-语言-动作模型在机器人操控领域潜力巨大,但在处理长时序或精细操作任务时,因缺乏三维空间几何感知能力而性能下降 [2] - 公司与中国科学院自动化研究所提出QDepth-VLA模型,通过量化深度预测作为辅助监督,增强模型的三维空间感知与推理能力,提升复杂操作场景下的操控精度 [2][8] - 该方法在仿真与真实环境测试中均显示出显著性能提升,为机器人从“可演示”迈向“可长期实际工作”提供了关键基础 [18][34][35] 技术挑战与现有方法 - 当前VLA模型面临的关键挑战是缺乏真实三维空间理解能力,尤其在精细化或长时程多步骤操作任务中难以建立稳定的三维几何关联 [5] - 行业主流探索方向包括直接注入3D特征、3D特征投影方法以及辅助3D视觉预测任务,但前两者存在模型复杂度高或信息损失的问题 [5] - 辅助3D视觉预测任务更具潜力,但直接使用像素级深度图作为监督可能引入噪声,削弱策略学习稳定性 [6] 方法设计 - QDepth-VLA的核心设计包括采用Video-Depth-Anything进行高精度深度图标注,从源头减少噪声和漂移 [11] - 通过VQ-VAE对深度图进行离散化编码,转化为结构化的深度token,以避免像素级深度回归的噪声干扰 [12] - 设计了独立的Depth Expert模块,基于Transformer架构预测深度token,在不干扰视觉-语言主干的前提下提供几何感知信号 [13] - 采用混合注意力机制在不同模态间调控信息流,防止深度噪声干扰动作生成,同时保持跨模态对齐能力 [14] - 整体训练目标整合了动作与深度两类监督信号,实现协同学习 [15] 实验验证 - 在Simpler仿真环境中,模型在WidowX250与Google Robot任务上,相比基础模型Open π0,平均成功率分别提升8.5%与3.7% [20] - 在LIBERO仿真任务中,相较于基于深度图输入的3D-CAVLA,QDepth-VLA平均提升约2.8% [26] - 真实环境实验使用单个Piper机械臂,QDepth-VLA在抓取香蕉等基础任务上成功率相比ACT基线提升约20%,在更具挑战的任务中也实现约10%的性能提升 [28][30] - 消融实验表明,移除深度监督导致平均成功率由68.5%降至65.6%,在需要精准三维对齐的任务中跌幅显著,验证了深度分支对立体空间感知的关键作用 [31][32] 总结与行业应用展望 - 实验结果表明,引入量化深度监督能在长程与精细操作任务中带来显著的成功率提升,三维几何先验对机器人稳定操控具有重要价值 [34] - 公司计划将QDepth-VLA的核心能力模块融入多产品序列,包括支持桌面级任务的CASBOT 02、工业与商服场景的CASBOT W1以及高精度操作的Handle-L1灵巧手 [35] - 行业未来研究方向将围绕面向未来的深度预测和更高效的深度表征学习展开,以支持更长时程的策略规划并提升推理稳定性 [35] - 该方法推动具身智能走向可规模化、可复制、可持续的真实应用阶段,构建从模型到部署的长期闭环能力 [36]
36年卷积猜想被解决,华人唯一作者,AI或受益
机器之心· 2025-11-26 05:12
研究核心成果 - 华人学者Yuansi Chen解决了已有36年历史的Talagrand卷积猜想,该成果在理论计算机科学和机器学习等领域具有深远的基础意义[3] - 论文证明了在布尔超立方体上,热半群对任何非负函数都能产生比马尔可夫不等式更好的统一尾部界限,尾部概率以$c_{\tau}\frac{\log\log\eta}{\eta{\sqrt{\log\eta}}}$的速率衰减,基本解决了猜想的主要问题,仅额外损失一个log log η因子[6][7][11] - 该研究成果在无维度依赖的情形下取得了突破,意味着正则化效应与问题复杂性无关,对高维离散空间分析具有重大价值[10][13][21] 研究方法创新 - 技术核心在于通过“扰动逆热过程”构建了两个马尔可夫跳跃过程之间的复杂耦合,这是离散随机分析中的重大方法论进步[15] - 创新性地开发了跳跃速率扰动方法,以替代在离散结构中不可行的直接漂移扰动,确保了过程保留在布尔超立方体上[15][20] - 证明结合了跳过程的鞅不等式、类Duhamel展式、p-偏置的Fourier/Parseval分析等多种工具,实现了无维度控制[16][20] 行业影响与应用前景 - 为布尔函数反集中分析提供了新工具箱,在离散采样、组合结构上的score-based生成模型等领域具有潜在外溢效应[20][22] - 证明核心与当前AI热点扩散模型在数学本质上相通,其反向热流概念为离散生成模型的理论基础提供了信息[24] - 量化了“平滑/加噪”操作带来的分布正则化性质,解释了为何此类操作总能产生良好的分布特性[25]
谷歌TPU逆袭英伟达,创始人一夜之间跃升全球第二、第三富豪
机器之心· 2025-11-26 05:12
股价表现与市值 - 谷歌母公司Alphabet股价在11月25日美股盘前飙升2.4%至326美元,刷新历史新高[2] - 过去五个交易日累计涨幅超11.5%,近一个月涨幅高达22%[2] - 年初至今涨幅达87.79%,在科技七巨头中表现最佳,远超英伟达的35.94%、微软的12.46%、苹果的10.18%[2] - 截至24日收盘,公司市值约为3.84万亿美元,位列全球第三,距4万亿美元市值大关仅差不到5%的涨幅[2] AI模型突破 - 新一代人工智能模型Gemini 3凭借卓越速度、性能和功能获得业界广泛赞誉,在多项测试中表现优于OpenAI的ChatGPT-5[9] - 在Humanity's Last Exam基准测试中,Gemini 3 Pro得分37.5%,高于GPT-5.1的26.5%[10] - 在AIME 2025数学测试中,Gemini 3 Pro得分95.0%,使用代码执行后达100%[10] - 在LiveCodeBench Pro编程测试中,Gemini 3 Pro的Elo评级达2,439,高于GPT-5.1的2,243[10] - 模型发布后直接推动股价走高,自11月18日发布以来股价累计上涨超12%[20] AI芯片业务进展 - Meta Platforms正考虑于2027年在其数据中心使用谷歌AI芯片,潜在交易价值数十亿美元[10] - 谷歌第七代TPU"Ironwood"是目前性能最强大、能效最高的定制芯片[10] - 该交易可能让谷歌抢占英伟达约10%的年收入份额,带来数十亿美元新增收入[11] - 谷歌云AI基础设施负责人透露,为满足AI服务需求,公司必须每6个月将计算能力翻倍,预计未来4-5年内需实现1000倍算力增长[12] 市场竞争态势 - 英伟达回应称其技术依然"领先全行业整整一代",并强调平台兼容所有AI模型[14] - 英伟达占据AI芯片市场90%以上份额,但谷歌自研芯片近期受到更多关注[15] - 谷歌不对外出售TPU芯片,而是通过Google Cloud租用算力,同时支持TPU和英伟达GPU两种硬件[16] - 英伟达CEO透露,谷歌DeepMind CEO确认AI"缩放定律"依然有效,将进一步推高市场对芯片需求[17] 公司战略转变 - 谷歌将Gemini 3快速集成到搜索服务的决策,激发了市场对AI商业化前景的强烈信心[9] - 公司深耕自研芯片已逾十年,TPU芯片被用于训练Gemini模型,成为最好的"活广告"[21] - 第三季度搜索收入跃升15%,表明AI并未动摇搜索业务根基,反而促使用户进行更多搜索[25] - 生成式AI正推动公司测试"AI模式"下的广告投放,逐渐接近未来搜索形态的构想[25] 外部环境利好 - 联邦法官就反垄断诉讼的处罚裁决相对温和,允许谷歌继续向合作伙伴支付费用保持默认搜索地位[23] - 沃伦·巴菲特旗下伯克希尔·哈撒韦公司上季度建仓Alphabet,持仓价值约43亿美元[24] - 包括Salesforce CEO在内的行业领袖纷纷转向谷歌产品,标志着公司成功重塑市场信心[19]
中兴发了一篇论文,洞察AI更前沿的探索方向
机器之心· 2025-11-26 01:36
文章核心观点 - 当前基于Transformer架构的大模型面临算力消耗大、效率低、与物理世界脱节等核心瓶颈,通用人工智能的实现路径亟待突破 [2] - 行业正从“规模竞赛”转向“效率革命”,探索超越自回归Transformer的新计算范式,特别是物理第一性原理模型与新型硬件的融合 [2][38] - 中兴通讯的论文为下一代AI大模型计算范式提供了重要参考,其自身在微架构创新和新型算法硬件探索方面的实践抢占了技术高地 [2][36][38] LLM现状及瓶颈 - 大模型性能遵循规模扩展定律,依赖计算量、参数量和训练数据量的堆叠,但训练沉没成本极高,例如Grok4模型在20万卡集群耗时半年才完成预训练 [4][5] - Transformer架构计算效率低,算术强度仅为2,远低于卷积神经网络的数百,导致模型算力利用率低,并高度依赖先进工艺和高带宽存储器 [6] - 随着模型参数和上下文长度增加,Transformer架构瓶颈与摩尔定律放缓的矛盾将更突出,面临“功耗墙”和“内存墙”挑战 [7] - 现有LLM存在幻觉、可解释性差等问题,其“Next Token Prediction”核心被部分学者认为难以真正理解物理世界,智能进步严重依赖“暴力缩放” [9] LLM自回归模式的工程改进和优化 - 算法层面通过优化注意力机制(如GQA、MLA、Flash-Attention)和采用低精度量化(如4-bit)来提升效率,但量化会引入误差 [13][14] - 循环递归参数复用架构(如Universal Transformer)通过参数共享提升算术强度,但其大规模扩展后的能力尚不明确 [15] - 集群系统采用张量、数据、流水线和专家并行等范式,混合专家模型可将计算量缩减为原来的1/32,预填充和解码阶段分离部署可提升硬件利用率 [16] - 端云AI协同搭建“快慢思考”系统,端侧处理实时推理,云端处理复杂任务 [17] 硬件工程创新 - 微架构领域专用化,引入异步数据搬移和混合精度训练;通过Scale Up和Scale Out域划分进行互联优化,Scale Up域采用Nvlink提供200纳秒超低延迟 [18] - 光电混合集群和“存算一体”等新型计算范式是构建万卡以上集群、突破“内存墙”的关键技术 [18][19] - 基于光IO技术重构计算体系结构和基于3D DRAM构建新型内存体系是两大前瞻性硬件工程技术 [21] - 万卡以上集群部署需通过算网存仿真平台进行优化 [20] 下一代AI大模型计算范式演进和展望 - AGI的实现需根本性变革,产业界正探索不以Next-Token Prediction为核心的新范式,基于能量、动力学等第一性原理的模型成为重要方向 [23][24] - 新模型发展分为两类:一是改进的Transformer架构,如Diffusion LLM可将推理吞吐量提升10倍以上,能耗减少至1/10;二是基于物理第一性原理的架构,如液态神经模型和基于能量的模型 [26][27][28] - 未来AI计算更受能耗限制,催生三大新型计算范式:物理原理启发(光计算、量子计算、电磁计算)、基于材料特性(概率计算、吸引子网络、热力学计算)和生物启发(类脑计算、DNA计算)的架构 [29][30][31][32][33][34] 中兴通讯的探索与实践 - 公司在微架构层面进行创新,如利用8T SRAM数字存内计算技术实现高能效AI加速器,其XPU-PIM异构架构在能效和吞吐量上相比常规GPU有数量级提升 [36] - 公司探索从物理第一性原理出发的新路线,如循环式Transformer架构可在减少超50%参数量的同时保持模型表达能力,基于FPGA的稀疏玻尔兹曼机将训练时间从超过10小时缩短至5分钟,加速超2个数量级 [36][37] - 公司在光连接、新型内存等支撑性工程技术以及大规模仿真平台等架构技术方面展开前瞻性研究 [37]
NeurIPS 2025 Spotlight | 中国联通以全局优化重塑扩散模型加速
机器之心· 2025-11-26 01:36
文章核心观点 - 提出一种名为LeMiCa的全新缓存加速框架,旨在解决扩散模型在视频生成中推理时间长、算力成本高的瓶颈问题 [2] - 该方法的核心思想是将缓存加速问题重新定义为全局路径优化问题,而非局部决策问题,从而在保持画质与一致性的同时实现高效推理加速 [2][7] - 研究成果已成功入选NeurIPS 2025 Spotlight,并获得阿里通义千问和智谱AI等业界顶级团队的认可 [3][25] 技术原理与方法 - 将扩散模型的生成过程抽象为带权有向无环图(DAG),其中节点代表时间步,边代表缓存复用行为,边权重对应缓存导致的全局误差 [8] - 提出一种全新的误差度量方法,通过离线构建静态DAG来量化缓存对最终生成视频结果的影响,并使用L1损失量化全局误差 [11] - 采用字典序极小化路径优化准则进行路径搜索,不追求误差总和最小,而是确保最大误差被最小化且误差分布更均衡,避免单段灾难性退化 [12][13] 性能表现与实验结果 - 在Open-Sora 1.2模型测试中,LeMiCa-fast方案实现2.44倍加速,延迟从26.54秒降低至10.86秒,PSNR从基准的11.91提升至21.76 [15] - 在Latte模型测试中,LeMiCa-fast方案实现2.93倍加速,延迟从11.18秒降低至3.81秒,PSNR从基准的8.65提升至19.43 [15] - 在CogVideoX模型测试中,LeMiCa-fast方案实现2.61倍加速,延迟从43.08秒降低至16.48秒,PSNR从基准的29.85提升至25.59 [15] - 视觉质量指标显著提升,例如在Open-Sora 1.2上,LeMiCa-slow的LPIPS低至0.050,SSIM高达0.923,远超其他对比方法 [15] 技术优势与特点 - 具备极佳的生成效果,在结构、纹理和内容一致性方面实现全面提升 [19] - 提供优秀的加速性能,实现2.4倍以上的高倍加速推理 [19] - 仅需极少样本即可建立高质量DAG,单样本已具备强性能,20个样本即达到性能饱和,体现了高鲁棒性和场景扩展能力 [18] - 路径鲁棒性强,即使改变采样调度中的轨迹缩放参数,LeMiCa仍能保持较好效果 [20] - 作为通用框架,不仅适用于视频生成模型,也兼容文生图模型,如在QWen-Image模型上同样表现出色 [21]
Scaling时代终结了,Ilya Sutskever刚刚宣布
机器之心· 2025-11-26 01:36
AI行业技术发展现状 - 当前AI模型存在"参差不齐"现象,在复杂评测中表现出色却在简单任务上反复犯错,如修复Bug时引入新Bug[20] - 这种现象源于"奖励黑客行为",研究人员过度针对评测集进行强化学习训练,导致模型缺乏真正理解和泛化能力[11][23] - 模型表现类似于"刷题家",通过大量针对性训练获得表面能力,但缺乏真正的智能天赋[24][25] AI学习机制与人类对比 - 人类学习效率远高于AI,样本效率更高,这得益于进化留下的先验知识和内在学习机制[43][44] - 情绪在人类决策中扮演类似价值函数的角色,帮助在获得最终结果前判断决策好坏[29][32] - 人类拥有基于价值函数的内在学习机制,能够进行持续学习和自我纠正[11][35] AI发展阶段转变 - 扩展时代(2020-2025)以堆算力和数据为主旋律,通过预训练获得性能提升[38][39] - 当前预训练数据即将耗尽,单纯扩大规模的边际回报递减,行业进入"研究时代"[39][40] - 新阶段需要寻找新的"配方",更聪明地使用算力,特别是在强化学习和推理过程中[40][41] Safe Superintelligence Inc战略 - 公司采用"直通超级智能"策略,专注于研发直到解决安全超级智能问题后再发布[9][59] - 目前专注于研究,不急于通过产品获利,避免商业竞争的"老鼠赛跑"[9][58] - 公司筹集30亿美元资金,专注于技术研究而非推理产品开发[56][57] 对齐与未来展望 - 核心对齐目标是"关爱感知生命",这比单纯"听从人类指令"更稳健[9][76] - 未来可能出现多个大陆级规模的AI集群,只要前几个最强大的AI是对齐的,世界可能进入良性发展轨道[9][78] - 长期均衡状态可能是人类通过脑机接口与AI融合,成为"半AI"[9][82] 技术发展方向 - 价值函数将在未来AI发展中发挥重要作用,提高强化学习效率[34][41] - 根本性挑战是提高模型泛化能力,这比人类差得多[41][47] - 需要重新思考训练方式,实现类似人类的持续学习能力[48][49] 行业竞争格局 - 当前AI公司比想法多,扩展战略导致同质化竞争[53][99] - 随着AI能力增强,公司将更注重安全合作,行为模式将发生变化[74][75] - 未来可能出现专业化竞争,不同公司在不同经济领域占据优势[94] 研究哲学与方法 - 优秀研究依靠"自上而下"的信念,追求美、简单性和对生物学的正确借鉴[22] - 当实验数据与直觉相悖时,基于美的信念能支撑研究者继续寻找问题根源[22] - 真正的突破性研究不一定需要最大算力,Transformer等关键突破都是在相对有限算力下实现的[54][55]