Workflow
通用人工智能
icon
搜索文档
比较研究系列:AI智驾2.0,迈向智能涌现
平安证券· 2025-11-24 12:22
行业投资评级 - 强于大市(维持)[1] 核心观点 - 智能驾驶演进已从2024年的端到端范式确立,迈入智驾到AI 2.0的规模化能力兑现期 [1] - 基于模型能力提升及多样化的训练数据,智驾系统可能涌现出自主应对极端边缘场景的能力,从而推动智驾系统进一步打通商业闭环 [1] - 2026年AI智驾持续进阶的三条主旋律是:新一代城区领航算法迭代、软硬一体优化、基于量产车的Robotaxi业务推进 [81] - AI智驾是迈向物理世界通用人工智能的必经之路,拥有多样化的真实路采数据及雄厚研发资源的玩家胜算更大 [81] 技术迭代 特斯拉智驾软硬件新迭代 - 特斯拉FSD V12转向端到端架构,带来智能驾驶的重大飞跃,FSD(监督版)累积行驶里程超过60亿英里 [7] - FSD V14采用新软件架构,参数规模实现大幅提升,整合了Robotaxi项目中的技术成果 [7] - 下一代芯片AI5性能指标远超AI4,据称有望成为“针对参数规模约2500亿以下模型的最佳推理芯片” [7] - Robotaxi业务进展:现有Robotaxi车队在无安全员状态下已累计行驶超25万英里,预计到2025年底奥斯汀地区实现无安全员运营,专为无人驾驶设计的Cybercab目标年产能从50万辆上升至200万辆甚至500万辆 [7] - 人形机器人Optimus V3将于2026年一季度发布,目标搭建年化产能100万台的生产线,单台生产成本预计约2万-2.5万美元 [9] 中国高阶智驾发展阶段 - 高阶辅助驾驶系统发展历经三阶段:规则系统阶段、混合系统阶段、完全数据驱动的系统构建阶段 [12] - 中国高阶智能辅助驾驶已迈入第三阶段(数据驱动的全新发展阶段),从硬件堆料阶段(2021年),迈过人海战术的规则阶段(2023年),进入到数据驱动阶段(2024年开始) [15] - 基于真实数据的规模效应催生端到端2.0阶段到来,主流玩家技术架构趋势是训练端更强调强化学习,车端强调更高程度的模型化 [18] 主流玩家技术架构方向 VLA(视觉-语言-动作)方向 - 理想汽车和元戎启行采用VLA路线,理想汽车在2025年9月10日已开启VLA司机大模型的全量推送,元戎启行在2025年8月发布VLA模型并宣布已获5款车定点 [24] - VLA融合视觉、语言和动作三大模态,通过统一的多模态学习框架,将感知、推理与控制一体化,具备强大的思维链能力,能摆脱传统端到端模型的黑盒难题 [27][28] - VLA训练过程包括基座模型预训练、动作微调、强化学习优化三个阶段 [34] - VLA带来五大体验升级:空间语义理解、异形障碍物识别、文字引导牌理解、语音交互控车、防御性驾驶能力 [42][46] - VLA当前瓶颈在于车端算力及存储带宽不足制约模型潜力释放,以及对海量高质量数据的需求 [45][52] 华为ADS 4.0 - 华为ADS 4.0采用WEWA架构,标志着实现了从“数据驱动”向“场景驱动”,核心迭代在于实现了“AI训练AI”的闭环 [49] - WEWA架构由云端World Engine(世界引擎)和车端World Action Model(世界行为模型)组成,通过云端与车端协同进化以系统性解决长尾难题 [53] - 华为凭借45 EFLOPS云端算力、超100万台车的搭载量、超50亿公里的累计智驾里程保持领先优势 [49] 地平线机器人 & Momenta - 地平线最新版HSD基于一段式端到端架构和强化学习能力,推动辅助驾驶迎来拟人化体验拐点,旨在实现系统低延时、全方位防御性驾驶、横纵向合一的车控 [59][60] - Momenta最新版算法为基于强化学习的一段式端到端飞轮大模型,坚持“两条腿”战略(量产辅助驾驶与自动驾驶Robotaxi),累计合作量产车型已超160款 [61][62] - Momenta的“数据飞轮”依赖数据驱动、海量数据和闭环自动化工具链三个关键因素 [62] 商业模式 Robotaxi业务提速 - 主流高阶智驾玩家基于消费级量产车业务进军Robotaxi业务的节奏加快,主要原因包括:Robotaxi可提供关键的长尾场景数据作为模型训练“燃料”;家用量产车与Robotaxi技术可复用,商业模式协同效应凸显;Robotaxi是“出行即服务”的关键战略卡位 [66] - 无人驾驶商业化运营形成两种技术路线:以Waymo为代表的“跨越式路线”(系统规范与安全冗余强,但成本高、扩展慢)和以特斯拉为代表的“渐进式路线”(依托数据规模和迭代效率,更具商业化弹性) [67] - 华为规划2026年实现高速L3规模商用,2027年全面开启载人与载物的无人化新时代 [73][74] - 地平线认为以特斯拉为代表的渐进式路线是实现L4的更优路径,扎实的L2基础能力是实现L4的必经之路 [75] - 元戎启行宣布将于2025年底落地Robotaxi业务,其Robotaxi与量产车共用一套技术框架,实现数据驱动的商业闭环 [76] 投资建议 - 推荐赛力斯、地平线机器人、长城汽车、理想汽车、小鹏汽车 [81]
【招银研究】海外降息预期反复,全球风险偏好收缩——宏观与策略周度前瞻(2025.11.24-11.28)
招商银行研究· 2025-11-24 09:31
海外宏观策略:降息预期与市场影响 - 美联储降息预期反复,12月降息概率回升至70%,中央票委与地方票委立场存在差异[2] - 美国9月失业率升至4.4%,创本轮周期新高,但新增就业反弹至11.9万人,首次申领失业金人数为22.0万,符合季节性水平[2] - 降息预期收敛导致美股标普500指数下跌2.9%,美元反弹站上100关口,美债利率小幅回落[2] 美股市场分析 - 美股调整原因包括降息预期收敛、AI投资泡沫担忧及过高估值,英伟达营收增速超60%亦未能扭转市场避险情绪[3] - 当前核心矛盾在于高估值与AI前景不确定性,建议将年化收益预期调整至个位数水平,美股已回调5%但估值仍未合理[3] - 配置建议适度分散化,关注工业、公用事业、能源和医疗板块,等待估值回落至合理区间[3] 美债与美元策略 - 10Y美债利率预计维持在4.1%附近波动,中长期利率中枢下移,建议配置2-5年期中短久期美债,长债待收益率升至4.2%以上逢低买入[4] - 美元短期维持小幅反弹,中长期在宽松交易下有下行压力,但因美国经济不弱及非美货币疲软,整体呈震荡行情[5] - 人民币趋势小幅升值,因中美利差倒挂收敛、中间价稳中有升及结汇意愿升温,但受关税等因素制约升幅有限[5] 黄金市场展望 - 黄金短期调整但趋势看多,因美联储降息周期延续及央行购金未逆转,但估值处于历史最高,2026年上涨节奏将放缓[5] 中国宏观内需与外需 - 内需偏冷,11月前三周30大中城市新房成交下降32.7%,样本12城二手房成交下降14.7%,百城土地成交面积同比下降23.6%[7] - 外需边际走弱,上周货物吞吐量26,564万吨,集装箱吞吐量644万箱环比回落,但11月整体集装箱吞吐量同比增速达9.4%[7] - 乘用车日均零售5.7万辆,同比下降15.2%,中国出口集装箱运价指数环比上涨2.6%,欧洲航线需求稳健[7] 中国财政与货币政策 - 10月财政支出同比增速降至-9.8%,为年内最低,主因高基数及政府债券融资减少约1.6万亿,基建类支出降幅达两位数[8] - LPR保持不变,1Y和5Y以上LPR分别维持在3.0%和3.5%,年内进一步降准降息概率不高[9] - 债市情绪走弱,10年国债利率小幅上行至1.82%,年末多空因素交织,预计利率中枢约1.8%,波动区间1.7%~1.9%[9][10] A股与港股市场 - 上周上证指数下跌3.9%,创业板指数下跌6.1%,受美股情绪外溢、降息预期转变及经济数据逆风拖累[10] - 高估值科技股短期震荡但流动性修复后具上行空间,红利板块相对占优,消费板块可左侧布局[11] - 恒生指数下跌约5%,恒生科技下跌约7%,累计跌幅达20%,若调整到位可关注,明年仍受益于流动性宽松及业绩改善[11]
美国AI算力新基建是“泡沫”吗?
36氪· 2025-11-24 09:19
美国AI算力投资规模与规划 - 美国当前规划建设的大型数据中心项目总装机容量已突破45吉瓦,预计将吸引超2.5万亿美元投资[2][4] - OpenAI在不到一个月内披露三项超大规模算力合作:与Oracle、软银合作部署至少10吉瓦算力的星际之门计划,与博通共同研发10吉瓦定制AI加速器,与AMD合作部署不少于6吉瓦的AMD GPU卡[4] - Meta正在推进多个"泰坦集群"项目,包括俄亥俄州1吉瓦的普罗米修斯项目,以及计划扩容至5吉瓦的路易斯安那州海伯利安项目,亚马逊预计在2026-2027年新增约13吉瓦容量[4] 领军企业业绩与增长预期 - 预计OpenAI今年底年化收入将超过200亿美元,比之前预测的130亿美元大幅增长,相比去年的40亿美元增长5倍,并计划到2030年增长至数千亿美元[3][8] - Anthropic有望在今年底实现90亿美元年度经常性收入,为2026年设定了200亿至260亿美元的指标,相比去年10亿美元收入增长9倍,预计到2028年实现700亿美元收入和170亿美元现金流[10] - 今年三季度,亚马逊、微软和谷歌的云计算收入受AI拉动,分别达330亿美元、309亿美元和152亿美元,同比增长分别达20%、28%和34%[4][11] 用户需求与算力消耗 - GPT的周活用户达到8亿仅用了2年多时间,而互联网达到这一数字用了13年,全球GPT加上Gemini、Claude等大模型的个人用户去重后约10亿,而全球互联网用户数量已达55亿,渗透率68%[7] - 仅Google一家,10月公布的月均Token使用量就达到1300万亿,相较7月公布的980万亿再创新高,过去17个月内全球Token处理量增加150倍[11] - Sam Altman表示,过去一年OpenAI的算力已经扩展了10倍,但如果再拥有10倍的算力,收入几乎能增10倍[8] 芯片需求与供应商表现 - 英伟达过去4个季度已售出600万块Blackwell GPU,预计Blackwell和Rubin系列芯片明年的销售额将达到5000亿美元,相比分析师预测的今年2070亿美元的营收,2026年增速将实现2倍以上增长[12] - 英伟达市值一度达到破纪录的5万亿美元,成为有史以来市值最高的公司,甚至有分析师预测其市值将达到8.5万亿美元[12] 投资资金来源与结构 - 英伟达、微软、谷歌、亚马逊、博通、Meta、特斯拉、Oracle的合计现金及等价物超过2000亿美元,现金流相对充足[19] - 今年以来美国AI公司的发债规模已经超过2000亿美元,AI相关债务正以每季度约1000亿美元的速度累积,部分债务被置于表外[20] - 摩根士丹利预测到2028年全球在AI数据中心和芯片上的总支出将高达2.9万亿美元,科技巨头将提供1.4万亿美元,余下1.2万亿美元缺口预计通过债务融资填补,私募信贷基金将成为主力,预计提供其中的8000亿美元[20] 潜在风险因素 - 芯片的折旧周期往往只有短短5年左右,一旦出现过剩,其价值容易短短几年内损耗殆尽,与互联网泡沫时光纤25年使用寿命形成对比[26] - 到2030年数据中心可能会占美国能源消耗的10%,而2022年这一比例仅为2.5%,卡内基梅隆大学预测到2030年数据中心扩张将使全美平均电费再上涨8%,部分数据中心密集区涨幅可能高达25%[26] 历史对比与长期前景 - 对比2000年互联网泡沫时大型企业的估值,当前整体上虽然有一定程度的上升,但仍然处于相对合理区间,有较强的业绩支撑保障[5][23] - 高盛预期AI的广泛普及有望为美国经济增加约20万亿美元,其中约8万亿美元将以资本收入的形式流入企业[15]
摩尔线程智能科技(北京)股份有限公司创始人、董事长、总经理张建中先生致辞
上海证券报· 2025-11-23 18:02
尊敬的各位嘉宾、各位网友: 大家好! 欢迎大家参加摩尔线程智能科技(北京)股份有限公司首次公开发行股票并在科创板上市的网上路演活 动。在此,我谨代表摩尔线程,向长期关心、支持公司发展的广大投资者表示热烈欢迎!向一直以来关 注我国GPU技术突破、智算产业发展的社会各界朋友表示衷心的感谢!很高兴能借助今天上证路演中 心、上海证券报及中国证券网的互动交流平台,与大家真诚沟通、共同探讨摩尔线程的发展与未来。 当前,全球科技竞争格局正在深刻变革,GPU作为支撑通用人工智能、数字孪生、具身智能等前沿产业 的核心算力引擎,其战略地位已升至前所未有的高度。公司自2020年成立以来,始终专注于全功能GPU 的自主研发与设计,是国内高端AI芯片领域极具代表性的企业。公司的目标是成为具备国际竞争力的 GPU领军企业,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。 公司的发展路径与国家推动高水平科技自立自强的战略方向同频共振。基于自主研发的MUSA统一系统 架构,摩尔线程实现了单芯片同时支持AI计算加速、图形渲染、物理仿真和科学计算、超高清视频编 解码的技术突破,为构建自主可控的高性能算力底座奠定了关键的技术基础。 目前 ...
每经记者专访智谱董事长刘德兵:AI“独角兽”公司IPO热是行业发展里程碑
新浪财经· 2025-11-21 13:25
行业拐点与市场叙事转变 - 大模型行业正站在商业化拐点,市场叙事从模型能力的“军备竞赛”转向落地应用审视 [1] - 随着智谱等头部公司启动IPO流程,资本市场开始用更严苛的尺度检验企业的可持续商业模式和长期价值 [1] - 行业路线之争在开源与闭源上尤为激烈 [1] 开源战略与商业逻辑 - 公司判断开源与商业化长远来看并不冲突,核心逻辑在于开源有助于培养行业生态,吸引更多贡献者参与研发和应用 [4] - 开源实践并未导致商业收入减少,反而在快速增加,并显著降低了前期与大企业客户沟通的成本 [5] - 开源被视为将产业生态做大的关键,其中少部分能转化为商业收益,对商业增长有利 [4] 技术路径与模型发展 - 公司坚持将大参数模型作为技术“锚点”,以明确模型的最高技术水平,从而指导小模型的优化方向 [6] - 行业出现性价比竞争两极分化,部分企业因参数提升增益放缓而停止,公司则认为大参数模型的锚点作用至关重要 [5] - 技术“摸高”不能做“空的、虚的”东西,必须能部分转化为应用落地并产生竞争优势 [12] 应用落地与产业结合 - 当前语言类、图像处理和内容生成等应用已很成熟,但市场对AI在能源、制造等产业产生深度影响的期待更高 [7] - 突破应用瓶颈需模型企业与产业企业深度结合,并以成熟场景为切入口逐步实现AI应用的加深 [8][9] - 模型基础能力提升后,与产业的深度结合是代表未来的关键方向,尽管前期进展较慢 [11] 技术突破与AGI演进 - 从L3(自我学习)向L4(自我认知)跨越的核心标志是模型能够调整自身参数的数值,而非参数数量 [13] - 实现参数数值调整是技术上的最难点,存在导致模型崩溃的风险,但一旦突破将极大加速应用爆发 [13][14] - 智能体(Agent)的应用在2026年有望在精准性或效率上实现突破 [19] 行业格局与未来展望 - AI行业格局变化是发展过程中的正常分化,做基础模型的公司将因投入巨大而越来越少 [16][17] - 一批AI“独角兽”寻求IPO是行业进入规模化商业应用期的里程碑,而非单纯技术成熟的信号 [17] - 对2026年产业格局的判断是技术将有较大突破,AI应用将更实、更广,参与者将取得更高收益 [18]
【招银研究|资本市场快评】美股建议等待,A股调整后有望继续上行——11月21日美股和A股大幅波动点评
招商银行研究· 2025-11-21 10:36
美股调整原因 - 美联储降息预期明显收敛,12月暂停降息概率陡升,部分官员释放鹰派信号强调通胀粘性,且10月非农数据因政府停摆未公布,11月数据将在12月议息会议后披露,导致降息概率大幅下降[1] - 市场对AI投资泡沫担忧加剧,资本开支指数级增长与应用层收入线性增长错配,科技巨头云服务增长部分源于其投资的初创公司回流算力支出,而非真实终端市场需求[2] - 美股估值处于历史高位,席勒市盈率超过2021年和1929年水平,仅次于2000年互联网泡沫顶峰,高估值隐含大语言模型短期内演化为通用人工智能的假设,技术迭代若出现边际效应递减或杀手级应用缺位,估值体系将面临重估[2] 美股展望 - 降息预期影响偏短期,尽管12月降息存疑,但至2026年底美联储或降息至3%附近,对应3-4次25bp降息[3] - 核心矛盾在于高估值与AI前景之间的矛盾,高估值依赖"AI将带来第四次工业革命"叙事,但从叙事到生产力提升需时间验证,AI退守至"高阶软件服务"或"新一代提效工具"商业逻辑依然成立[3] - 建议将年化收益预期调整至与盈利增长率相匹配的个位数水平,美股已回调5%但估值仍未回落到合理区间,建议继续等待,配置上适度分散化,关注工业、公用事业、能源和医疗板块[4] A股和港股展望 - 11月21日A股与港股同步调整,受隔夜美股下跌带动亚太股市下跌,美联储12月降息预期转为按兵不动冲击高估值科技板块,前期经济金融数据逆风加剧M1增速快速回落累积调整压力[5] - 影响A股走势核心因素仍是自身基本面和流动性,美联储明年大概率延续降息路径,国内低利率环境下居民大类资产配置向权益市场倾斜,内外流动性宽松格局未变,业绩在通胀修复下有进一步修复空间[5] - 高估值科技股对流动性敏感近期或有震荡调整压力,流动性预期改善后还有向上空间,红利股与科技板块呈跷跷板效应近期有优势,消费股受流动性扰动较小呈现红利股特征可左侧配置,恒生科技调整幅度达20%若调整到位可加大关注[6]
中兴通讯屠嘉顺:从酷技术到好应用,Agent堵点在哪里
和讯· 2025-11-21 10:15
AI产业发展现状与挑战 - 生成式AI技术高速发展但商业落地缓慢 美国公司采用付费AI产品的比例出现停滞迹象 麻省理工学院报告指出95%的生成式AI应用项目效果不佳或中途夭折[2] - 约90%的垂直企业并未真正理解AI技术 存在生搬硬套问题 需要定制开发专业大模型和Agent数字人才能融入企业业务流程[3] 大模型技术演进路径 - 行业共识认为AGI未来将是融合多模态输入的世界模型 针对特定场景可通过裁剪提升效率降低成本[6] - 主流大模型持续进化 百度文心5.0多模态理解能力突出 MiniMax M2专为Agent和代码设计 成本仅为Claude 3.5 Sonnet的8% Kimi k2 Thinking在token效率等工程化方向迭代[6] - 发展路径包括科技巨头研发终极通用模型后通过蒸馏剪枝技术适配不同场景 以及先发展行业专有模型实现商业闭环再向通用大模型迈进 例如特斯拉从自动驾驶FSD模型逐步升级至机器人应用[7] Agent技术落地进展 - 2025年Agent技术成为产业热点 开始落地到医疗教育5G网络运维等领域 中兴通讯与上海第十医院合作的医疗总检系统已投入应用[8] - 2026年Agent将大规模出现在各行业 但当前规模化落地仍受限于大模型多模态能力不足 多模态训练对算力需求呈指数级增长[8][9] - 算力紧缺是国产AI产业瓶颈 国产GPU企业如摩尔线程和沐曦股份加速上市进程 推动国产替代 DeepSeek OCR等多模态模型进化将促进Agent进步[9] 端侧AI发展趋势 - 2026年端侧AI产业链将加速成熟 手机端侧大模型可能率先突破 Super CLUE实验室测试显示手机小模型在自动点单等场景准确率超90% 中兴星云小模型在13款应用中获银牌[10][11] - AR眼镜等设备受硬件限制难快速突破 电池小导致续航差 摄像头过热问题未解决 普及仍需时间[11] 具身智能发展现状 - 人形机器人仍处于前期探索阶段 演示多依赖人工遥控 工业场景中存在机械自主动作控制等技术难点 C端缺乏可靠技术支撑[12] - 人形机器人需要兼容人类社会环境 制造方案中具身大脑的自主控制能力最为稀缺 是商业落地瓶颈[12][13] - 发展路径将先从B端工业场景开始 环境相对简单任务流程固定 可实现7×24小时作业 3C电子和汽车制造领域已实现突破[13][14] - 走进C端家庭预计还需5-10年 因生活场景对灵活性安全性要求极高 当前价格昂贵 但资本投入有助于加速产业链迭代[14][15]
汽车有“魂”,AI如何重塑用车体验?
21世纪经济报道· 2025-11-21 00:30
行业核心观点 - AI正超越工具属性,为汽车注入可进化、可感知的“灵魂”,重塑人类用车体验[2] - 自动驾驶领域技术路线纷繁复杂,业界对“最优解”尚无共识[2] - 讨论不仅关乎技术未来,更关乎即将迎接的人车共生全新生活方式[8] AI驾驶的本质与阶段 - 智驾已从技术概念成为一种真实的生活方式,超越了“元年”的讨论[9] - 智能辅助驾驶是通向AGI(通用人工智能)的最佳实践之一[10] - AI汽车是具身智能的最佳实践,其本质是成为一种新的生活方式[10] 技术路径与核心突破 - 各种技术路线本质差异不大,核心都基于端到端,关键在于相信AI的力量能将分散模型整合进一个大模型[10] - 过去十年智能驾驶最大的突破是确立了数据驱动的范式,新能源汽车的高算力平台和传感器为收集海量数据提供了前提[11] - 行业突破在于确立了数据驱动的范式,物理AI的未来在于不同智能体共享通用的底层知识[8] 关键实施策略 - 打好端到端的直觉基座是第一步,没有扎实的底座,再炫酷的技术名词也只是噱头[6][10] - 坚持软硬结合,能以“周”为单位实现芯片从回片到上车,远超行业“年”级的周期,帮助中国车企快速补齐智能化差距[10] - 采用通用AI路径:以预训练+后训练结合的方式,用类机器人的方法解决智驾问题,预训练模型是以视觉为底子的多模态模型[12] - 模型应能直接输出控制车辆的轨迹,同时生成中间信号与场景解释,替代过去手写的规则,让决策过程更智能、可理解[13] 对特定技术路线的看法 - 语言在训练中更像一个辅助项,而非决定项,对于提升模型的推理能力有帮助,但前提是直觉反应的基座必须足够扎实[13] - 技术演进中,前50%的收益容易获取,但后50%的收益能否拿到,以及新维度引入的新问题能否解决,才是真正的挑战[13] 物理AI的未来前景 - 未来汽车是“移动智能空间”,思考物理AI需要场景驱动的思维,中国复杂的路况是AI算法优化的“场景富矿”[14] - 物理AI的未来是达成一种“新的和谐”,实现人机共生[14] - 物理AI尚未到大爆发之时,但正处于重要节点,当行业聚焦于所有智能体内部那套深入一致的通用知识时,才是其真正爆发的时刻[14][15] - AI可能是人类主导的最后一次科技革命,实现通用人工智能还需计算平台和算法的数代升级,一旦辅助驾驶迈向真正的无人驾驶,物理世界的AI能力就会迅速构建[15]
通往通用人工智能的关键一步?DeepMind放大招,3D世界最强AI智能体SIMA 2
36氪· 2025-11-20 02:26
产品发布与定位 - Google DeepMind发布SIMA 2,这是一个能在虚拟3D世界中自主游戏、推理并持续学习的通用AI智能体,被定义为通往通用人工智能的关键一步[1] - SIMA 2是SIMA研究的重大飞跃,代表创建通用和有益AI智能体研究的下一个里程碑,通过集成Gemini模型的先进能力,从一个被动的指令遵循者进化为交互式的游戏伴侣[4] 核心能力与技术架构 - SIMA 2能遵循人类指令,并在未见过的复杂环境中进行自主规划、解释行动步骤、与用户实时对话,通过试错与Gemini反馈的闭环机制自我迭代[4] - 新架构集成了Gemini强大的推理能力,将SIMA 1的语言->行动模式升级为语言->意图->计划->行动的多步骤认知链[11] - 公司使用混合数据训练SIMA 2,包括带语言标签的人类演示视频以及Gemini生成的标签,使其能向用户描述其意图和行动步骤[11] - 智能体展现出前所未有的适应能力,能在由Genie 3从单张图像或文本提示生成的全新3D模拟世界中确定方位、理解指令并采取有意义的行动[23] 性能提升与泛化能力 - 第一版SIMA学会了在各种商业视频游戏中执行超过600种语言遵循技能,但缺乏深度规划和意图理解[7] - SIMA 2能理解更复杂、更细微的指令,执行成功率更高,尤其在从未训练过的游戏如ASKA或MineDojo中表现出色[16] - 智能体能够理解多模态提示,包括不同的语言甚至表情符号,并具备迁移学习能力,例如将对“采矿”的理解应用到另一种游戏中的“收获”[18][20][22] - 在多种任务上的表现已显著接近人类玩家的水平,展现了广泛的泛化能力[22] 自我提升与未来应用 - SIMA 2具备自我提升能力,能通过试错法和基于Gemini的反馈自举,执行日益复杂和新颖的任务[25] - 智能体可以从人类演示学习过渡到完全通过自我导向的游戏在新游戏中学习,其自身经验数据可用于训练能力更强的下一代版本[26] - 这项研究为面向行动的AI提供了新路径的基础验证,证实一个利用多样化多世界数据和Gemini强大推理能力的AI,可以将许多专用系统的能力统一到一个通才型智能体中[29] - 技术为机器人技术的应用提供了坚实路径,其学到的技能是未来物理世界AI助手所需的智能物理具身化的基本构建模块[30]
通往通用人工智能的关键一步?DeepMind放大招,3D世界最强AI智能体SIMA 2
机器之心· 2025-11-20 02:07
产品发布与定位 - Google DeepMind发布SIMA 2,这是一个能在虚拟3D世界中自主游戏、推理并持续学习的通用AI智能体[2] - 公司创始人将其定义为通往通用人工智能的关键一步[3] - SIMA 2代表了从SIMA 1的重大飞跃,是创建通用和有益AI智能体研究的下一个里程碑[6] 技术架构与核心能力 - SIMA 2集成Gemini模型的先进能力,从被动的指令遵循者进化为交互式游戏伴侣[6] - 新架构将SIMA 1的语言->行动模式升级为语言->意图->计划->行动的多步骤认知链[15] - 智能体不仅能遵循人类指令,还能在未见过的复杂环境中进行自主规划、解释行动步骤、与用户实时对话[6] - 通过试错与Gemini反馈的闭环机制自我迭代,提升技能[6] 性能提升与泛化能力 - SIMA 2能理解更复杂、更细微的指令,执行指令时成功率更高,尤其在未训练过的游戏中表现出色[24] - 具备理解多模态提示的能力,包括不同语言和表情符号[26][29] - 迁移学习能力显著,例如将一种游戏中对"采矿"的理解应用到另一种游戏的"收获"概念中[30] - 在多种任务上的表现已显著接近人类玩家水平[30] 创新测试与自我进化 - 与Genie 3结合测试时,SIMA 2能在全新生成的世界中合理定位、理解指令并采取有意义的行动[32] - 具备自我提升能力,能够通过试错法和基于Gemini的反馈执行日益复杂和新颖的任务[35] - 经过多代训练后,智能体可在完全无需人类反馈或游戏数据的情况下实现自我进化[39] 行业意义与应用前景 - 该技术对机器人技术和人工智能的未来具有重要意义,正在构建未来物理世界智能体所需的核心认知构建模块[7] - 智能体学到的技能(导航、工具使用、协作任务执行)都是未来物理世界AI助手所需的智能物理具身化的基本构建模块[43] - 这项研究为面向行动的AI提供了新路径的基础验证,证实了通才型智能体的可行性[43]