通用人工智能(AGI)
搜索文档
中美大模型分歧下,企业们也站在选择路口
财富FORTUNE· 2025-11-22 13:09
AI开源与闭源路线对比分析 - 开源路线以更低成本激发市场创造力并动摇技术垄断,但需在技术性能与安全性间平衡且缺乏配套客户支持[2] - 闭源路线可快速获取投资回报率,但随时间推移费用逐渐增加,可能导致企业为降低成本转向开源[2] - 开发AI应用的初创公司更适合开源模型,因可完全掌控技术栈且成本可控,避免依赖巨头模型涨价或变更风险[3] 行业应用与监管考量 - 金融科技等受严格监管领域需解释决策过程,开源模型在透明度方面具有优势[4] - 涉及公司竞争优势和机密的场景下,开源模式可通过亲自部署实现更严格保密[4] - 企业需建立自身数据模型和评估框架,以应对不同模型间提示词不一致或模型升级导致的失效问题[4] 技术发展趋势与竞争要素 - 大模型最终会趋于相似,因基于几乎相同数据集训练,垂直应用差异取决于专有数据[5] - 企业应构建“数据飞轮”形成数据闭环,工程能力、数据与独有知识结合将形成竞争优势[5] - 技术迭代加速后企业自训模型成本可能低于百万美元,基础模型价格下降,应用和数据成为获胜关键[8] 中美AI发展路径差异 - 美国走“赢家通吃”路径,用豪赌式投入押注通用人工智能[6] - 中国开源模式走“协同进化”之路,强调平台共建并在理性投入中寻求可持续增长[6] - 中国模型成本更低且更轻量化,易于进入大众市场,而美国更追求技术“完美”[7]
DeepMind招募波士顿动力前CTO,哈萨比斯点赞宇树
机器之心· 2025-11-22 07:03
核心观点 - 谷歌DeepMind聘请波士顿动力前CTO Aaron Saunders,标志着公司在具身智能领域的战略深化,旨在解决AGI在物理世界落地的硬件问题 [2][3][8] - 此次人才流动反映了机器人行业从追求高机动性向发展通用操作能力的范式转移,谷歌正通过整合顶尖硬件人才与Gemini AI系统,试图打造类似安卓的机器人操作系统 [9][11][13] - 行业竞争格局发生变化,中国公司如宇树科技在四足机器人供应链成本优势显著,但谷歌DeepMind仍将战略重心放在AI"大脑"的研发上 [14][15] 人才战略与行业意义 - Aaron Saunders于本月初正式加入DeepMind担任硬件工程副总裁,其核心任务是"负责任地解决具身智能问题" [8][9] - 此次招聘是DeepMind CEO Demis Hassabis宏大愿景的关键部分,旨在将Gemini打造为可跨身体构型工作的机器人操作系统 [11][13] - 谷歌与波士顿动力存在历史渊源:Alphabet于2017年将波士顿动力出售给软银,后者又转售给现代汽车,时隔8年后谷歌重新引入其核心技术高管 [5][6] 技术范式与行业趋势 - 机器人领域正从"去任何地方"(高机动性)向"做任何事情"(通用操作能力)转型 [9] - 制造足式机器人的组件和专业知识日益普及,美国公司如Agility Robotics、Figure AI、1X及特斯拉均在研发人形机器人 [14] - 中国公司宇树科技在面向制造业和建筑业的四足机器人供应方面已超越波士顿动力,成为全球最大供应商 [14] 公司战略定位 - DeepMind强调其战略重心在于AI"大脑"而非硬件,Hassabis对宇树科技表示印象深刻但更关注Gemini的多模态能力 [15] - 公司采用类似安卓的开放策略,目标是构建可适配不同身体构型(包括人形与非人形)的通用AI系统 [11][13] - Hassabis预测AI驱动的机器人技术将在未来几年迎来"突破性时刻",此次高管招聘被视为实现该目标的关键拼图 [15]
高盛拉响警报:1997崩盘正在重演
搜狐财经· 2025-11-21 21:58
AI行业与历史泡沫的相似性 - 当前AI行业的估值逻辑、债务规模和生态循环模式与1997年亚洲金融风暴后的互联网泡沫初期高度相似 [2] - 私募市场AI企业估值逻辑与公募市场分裂:私募看重收入增长,公募看重自由现金流,导致估值差距拉大,类似1997年东南亚金融危机前的汇率市场分裂 [3] - AI行业融资结构转变为“80%债务+20%股权”模式,例如Oracle为AI业务发行180亿美元债券,债务风险令人联想到1997年债务率超过300%的韩国财阀 [3] 技术预期与商业现实的差距 - 到2030年全球AI相关累计资本支出预计达3-4万亿美元,但投资回本可能需等待AGI实现,而当前生成式AI被评价为“强化版自动补全”,离AGI尚有巨大差距 [4] - AI行业正处于技术热度过高而商业落地跟不上的关键节点,类似1995-2000年互联网泡沫的发展轨迹,1997年经历第一次小崩盘,2000年发生大泡沫破裂 [6] - AI投资占美国GDP比例不足1%,低于1920年代电气化(1.5%)和1990年代IT繁荣期(2%)的峰值,表明投资尚未到顶,泡沫仍在膨胀阶段 [8] 企业案例与财务风险 - OpenAI在2024年营收约12亿美元,亏损却超过50亿美元,其状况与1999年亏损但股价上涨的亚马逊相似,但泡沫破裂时亚马逊股价从107美元跌至6美元 [8] - AI应用层企业收入普遍低于1-2年前的预期,消费者应用赚钱难,企业应用推广慢,形成不烧钱没用户、烧钱难赚钱的死循环 [13] - Nvidia投资OpenAI,OpenAI向Oracle采购算力,Oracle再买Nvidia芯片,形成“生态循环性”闭环,此模式掩盖真实市场需求,风险类似1990年代电信行业泡沫 [8] 市场数据与估值比较 - 私募市场AI企业中无盈利企业占比达72%,平均市销率达35倍,高于互联网泡沫期纳斯达克科技股68%的无盈利企业占比和28倍的市销率 [10] - AI应用企业平均债务率达240%,高于互联网泡沫期行业平均的210%;AI行业资本支出年增速达62%,远超互联网泡沫期的45% [10] - 当前私募AI企业35倍的市销率意味着即使年收入增长100%也需35年回本,此估值水平已超过1999年被称为“疯狂”的Webvan(市销率24倍) [10] 投资策略与行业前景 - 科技板块投资需分散化,关注有现金流支撑的标的,如微软(2025年自由现金流预计超1000亿美元)和Nvidia(2024年营收预计超200亿美元,增速60%,估值26倍) [9][12] - 生成式AI长期可能产生20万亿美元经济价值,提升美国劳动生产率15%,但2030年前大部分AI应用企业可能破产,仅能解决企业痛点的公司可存活 [12] - AI主题基金持仓含大量高估值私募转公募企业,这些企业上市后估值逻辑将向公募市场回归(从看收入转向看现金流),存在大幅下跌风险 [14]
AGI奇点临近 蚂蚁“灵光”能否乍现?
每日经济新闻· 2025-11-21 16:13
蚂蚁集团AI助手“灵光”App上线表现 - 蚂蚁集团AI助手“灵光”App于11月18日上线 上线首日下载量突破20万次 上线两天下载量突破50万次 上线第三天稳居App Store免费工具榜第一和总榜第六位 因访问量激增导致“闪应用”功能一度出现短暂服务中断 [1][2] - 用户评价积极 包括“审美太好了 每个截图都像杂志一样”和“查信息太方便 内容被高度总结且展现精美” [3] - 该App通过自然语言30秒生成轻量型可交互应用 即“闪应用” 例如健身计划工具、旅行规划器和健康食谱生成器 实现一句话生成、参数自定义和即用即分享 [9] “灵光”App的核心功能与技术特点 - “灵光”App具备三大功能:“灵光对话”、“灵光开眼”和“闪应用” 其中“闪应用”基于全代码生成技术 不是简单模板填充 而是从用户自然语言中提取关键词并自动编写代码 [9] - 应用生成案例包括:用户输入“我想在一个月内背会初中一年级单词”后 约一分钟生成“30天背完初一单词作战地图”和“单词记忆规划师”AI应用 用户输入“想玩五子棋”后 生成“五子棋对战”AI应用 并可增加人机对战模式 [4][6][15] - 技术层面 应用实现基于全代码生成的多模态输出能力 构建多智能体协作的Agentic架构 动态调度图像、3D、动画等专用Agent与工具 突破现有AI助手“文字+单张图”的天花板 [14] AI应用市场竞争格局与蚂蚁集团战略 - AI应用市场竞争激烈 DeepSeek和字节跳动“豆包”月活均破亿 微信生态“元宝”颇具存在感 阿里系凭借“千问”和“灵光”强势入局 [10] - 专家观点认为 蚂蚁集团更注重实际应用场景落地 通过灵光等产品实现从金融科技向通用AI的扩展 强调多模态和全代码生成能力 [10] AI入口之争进入“超级App+生态”阶段 灵光与支付宝小程序、支付、信用体系无缝衔接 可一键将生成应用转化为商业小程序 [11] - 行业展望 预计2026年出现“生成式小程序”爆发潮 其他大厂将把“生成能力”快速嫁接到支付、社交、地图、电商等场景 [12] AI应用创新将走向“平民化” 催生个人开发者生态 降低开发门槛至自然语言层级 [12] 蚂蚁集团的AGI战略与投入 - 蚂蚁集团2022年至2024年科研投入分别为2046亿元、2119亿元和2345亿元 总投入超650亿元 连续三年占总营收比例超过10% [13] - 2025年以来 蚂蚁集团加速AGI布局:年初成立AGI部门 由CTO何征宇直接负责 4月25日推出“Plan A”AI人才专项计划 6月26日发布AI健康应用“AQ” [16] - 蚂蚁集团CTO何征宇表示 目标是要做一款国民级应用 AGI时代排兵逻辑好比在沙漠找水 不会把所有人都派到一个方向上 百灵大模型、灵光及具身智能企业“灵波科技”是AGI战略的另一条隐线 [16][17]
南财快评|如何看待美股AI估值争议?
21世纪经济报道· 2025-11-21 11:28
英伟达财报表现 - 第三财季营收为570.1亿美元,超出市场预期的549.2亿美元,同比增长62% [2] - 第三财季净利润为319.1亿美元,同比大涨65% [2] - 财报超出预期,有望缓解美股市场对AI估值的近期忧虑 [2] AI行业现状与资本开支 - 当前美国AI热潮主要由供给侧推动,科技巨头如微软、谷歌、Meta等斥巨资购买英伟达GPU建设算力中心 [2] - 竞争性资本开支导致AI基础设施建设可能远超当前实际需求 [3] - 数据中心建设速度惊人,但杀手级应用的出现相对滞后 [3] 历史对比与泡沫争议 - 市场将当下美股类比为2000年互联网泡沫破裂前夕,类似当时光纤网络的过度铺设 [3] - 回顾历史,每一轮科技革命中,资本先于技术成熟的非理性繁荣(泡沫)是常见阶段,为技术迭代提供了资金支持 [3] - 2000年互联网泡沫催生了廉价光纤基础设施,为移动互联网爆发奠定基础;同理,当前全球算力堆积可能是通向通用人工智能(AGI)的必经之路 [3] 行业发展阶段与挑战 - 行业正从概念验证的“上半场”步入预期、资本与技术现实交织的艰难“中场时刻” [4] - 单纯算力堆叠的边际效应开始递减,技术神话需面对财务报表的冷酷审视 [4] - 投资者开始索要营收数据和利润率,商业化落地需追上预期上升速度 [4] - 技术需继续加速以验证缩放定律,同时商业化需证明AI是利润引擎而非昂贵玩具 [4] 未来方向与价值筛选 - Agent(智能体)、具身智能及垂直领域模型正在尝试突破,是伪需求被淘汰、真价值被筛选的分水岭 [4] - 市场关注点将从“买铲子”(购买算力)转向“谁用铲子挖到了金子”(应用盈利) [4] - 英伟达的长期命运取决于其客户能否利用昂贵芯片赚到钱 [4] 估值消化路径 - 对AI估值争议的最好回应是“时间换空间”,通过技术应用的逐步渗透让高估值慢慢变得合理 [5] - 这需要市场投资者的耐心、对短期波动的容忍以及对技术长周期的坚定信心 [5]
如何看待美股AI估值争议?
21世纪经济报道· 2025-11-21 11:24
英伟达财报表现 - 第三财季营收为570.1亿美元,超出市场预期的549.2亿美元,同比增长62% [1] - 第三财季净利润为319.1亿美元,同比大涨65% [1] - 亮眼财报有望缓解过去几周美股市场对AI估值的忧虑 [1] AI行业现状与资本开支 - 美国AI热潮主要由供给侧推动,科技巨头如微软、谷歌、Meta等斥巨资购买英伟达GPU建设算力中心 [1] - 竞争性资本开支导致AI基础设施建设远超当前实际需求,数据中心建设速度惊人 [2] - 当前阶段类似于2000年互联网泡沫破裂前夕的光纤网络过度铺设 [2] 技术演进与历史对比 - 每一轮科技革命,资本泡沫是必经阶段,为技术迭代提供资金支持,例如铁路狂热、电力普及和互联网兴起 [2] - 2000年互联网泡沫催生了廉价光纤基础设施,为移动互联网爆发奠定基础 [2] - 当前全球算力堆积可能是通向通用人工智能(AGI)的必经之路 [2] 行业发展阶段与挑战 - 行业正从概念验证的“上半场”步入由预期、资本与技术现实交织的艰难“中场时刻” [3] - 算力堆叠的边际效应开始递减,技术神话需要面对财务报表的冷酷审视 [3] - 未来关键在于技术商业化落地速度能否追上预期上升速度 [3] 未来展望与关键因素 - 市场关注点将从“买铲子”(购买算力)转向“谁用铲子挖到了金子”(实现商业化盈利) [3] - Agent、具身智能及垂直领域模型正在尝试突破,是筛选真价值的分水岭 [3] - 英伟达的长期命运取决于其客户能否利用昂贵芯片赚到钱 [3] - 解决AI估值争议可能需要“时间换空间”的过程,通过技术应用渗透使高估值合理化 [4]
Nano Banana Pro深夜炸场,但最大的亮点不是AI生图
36氪· 2025-11-21 10:17
产品发布与核心功能 - Google发布了其AI图像生成模型Nano Banana Pro (Gemini 3 Pro Image),该模型在图像生成能力上实现显著进化,对设计行业构成冲击 [6][7] - 核心功能包括:支持最高4K分辨率图像输出、支持对话式多轮次图像编辑、最多可将14张输入图像组合为1张输出图像、集成Google搜索能力以提供更精确和最新的知识支持 [9] - 模型具备强大的跨模态理解能力,可生成多种语言的文字,并实现一键本地化、翻译及图文重排,例如为漫画上色并将英文翻译成中文 [12][13] - 在生成图像前,模型会进行物理模拟和逻辑推演,而非仅依赖视觉模式,例如能生成四宫格图片,并确保人物外貌、口型与发音文字准确对应 [14] - 模型支持极长的文本提示词,输入Token上限达到64k,能够理解详细的分镜脚本和复杂的多语言排版需求 [23] - 支持最多14张输入图像的组合编辑,并能保持最多5个角色的外貌一致性 [28] - 具备专业级创意控制能力,允许用户选择、微调或变换图像中的任何部分,包括调整镜头角度、改变风格、应用高级调色及改变场景光照 [31][32] 技术架构与核心优势 - Nano Banana Pro的核心进化在于完整接入了Gemini 3的深度思考能力,实现了“先理解再表达” [11][50] - 模型最具颠覆性的能力在于其原生多模态架构,将搜索(Gemini 3的“左脑”)与图像生成(“右脑”)深度融合,引入了搜索增强功能 [33][34] - 搜索增强功能使创造过程具备事实基础、实时性和可验证性,例如可根据提示词生成包含最新天气数据的可视化信息图,或生成详细的旅游行程可视化图片 [36][38][40] - Google在产品定位上采用双模型策略:旧版Nano Banana用于快速日常编辑,而Nano Banana Pro专注于复杂构图与顶级画质的专业需求 [39] - 在AI透明度方面,所有AI生成的内容都会嵌入不可见的SynthID数字水印,用户可上传图像询问是否由Google AI生成,该能力将扩展至音频与视频 [43] 市场策略与产品定位 - 对于消费者与学生,Nano Banana Pro已在Gemini应用中全球开放,免费用户可获得有限额度,超出后自动切回原版Nano Banana [39] - Google AI Plus、Pro和Ultra订阅用户拥有更高使用额度,在美国地区,Pro与Ultra用户已在Google搜索的AI模式中可体验Nano Banana Pro,NotebookLM中的该模型也面向全球订阅用户开放 [42] - 官方提供了专业的使用指南,建议用户采用包含主体、构图、动作、场景、风格、编辑指令六要素的“摄影指导式”提示词写法,以实现更精细的控制 [46][47] 行业影响与未来展望 - Google通过Gemini 3 Pro和Nano Banana Pro等产品,试图证明通往通用人工智能的道路必须是多模态原生的,即模型需具备看、听、理解结构和处理逻辑的能力,才能对世界进行完整“思考” [48][49] - 从技术层面看,该系列模型让图像生成进入了“先理解再表达”的阶段,当AI能理解路径、结构、文字含义及交互逻辑时,它便成为一个具备视觉思维能力的智能体,而不仅是画图工具 [50][52] - 从商业层面看,极低的推理成本和生成式UI的出现,将彻底改变内容生产和信息分发的逻辑,未来的互联网可能是随需求即时生长的界面,而非固定网页 [52] - 设计将不再只是人的手艺,界面也不再仅由团队打磨,越来越多的视觉内容会先由AI生成,再由人进行补充或微调 [53] - Google通过连环发布产品,展示了其对未来新世界的预见,并正在将入口推向所有人面前 [54][55]
还是谷歌懂程序员?Demis 采访首提“氛围编程”,Gemini 3 彻底戒掉“爹味”说教
AI科技大本营· 2025-11-21 10:03
文章核心观点 - 谷歌通过Gemini 3展示了其在AI模型性能与成本效率上的重大突破,标志着公司从防御姿态转向积极进攻[12] - 模型的核心优势体现在极致的推理成本控制、工具化定位以及推理能力等关键技术的显著进步[4][15] - 公司对AGI的实现路径保持清晰认知,认为仍需5-10年并依赖推理、记忆等领域的根本性突破[11][17][22] 模型性能与效率突破 - 通过极致的“蒸馏技术”将顶尖模型的运行成本大幅降低,使其能处理数十亿次日均搜索请求而不破产[4] - 公司在成本与性能的帕累托前沿保持领先,实现了“比我聪明的没我便宜,比我便宜的没我聪明”的竞争优势[5][6] - 模型效率的提升使得其能应用于“AI概览”等极端场景,服务数十亿用户,并为云客户和企业客户带来成本效益[22] 模型能力与交互体验 - 模型在推理能力上表现出色,能够同时思考多个步骤,避免了以往模型思绪断片或跑偏的问题[15] - 提供了全新的生成式界面,能真正给用户提供定制化的设计和答案,是创建新型交互界面方面最强的模型[15] - 模型风格更简洁、切中要点、更具表现力,采用“去人格化”设计,专注于成为高效的信息处理器和逻辑推理机[7][9][10][16] 技术发展方向与AGI路径 - 实现AGI预计仍需5到10年,并且可能需要一两个本质上的研究突破,而非仅靠堆算力和数据[11][17] - 下一阶段AI战争的主战场将围绕推理、记忆以及世界模型这三个关键领域展开[11] - 公司认为当前处于规模化基础模型持续进步的阶段,但要通往AGI仍需研究突破[22] 产品整合与市场战略 - 公司正将AI能力深度整合到现有产品矩阵中,包括地图、YouTube、安卓、搜索等,并以AI为先的视角重新构想这些产品[19] - 新产品如Gemini App、NotebookLM等AI原生产品,旨在让AI成为用户工具箱里的超能力工具,专注于任务完成[18] - 公司关注用户满意度等产品体验指标,并将基准测试的进步转化为有意义的产品体验[23] 行业竞争与市场定位 - AI领域处于极其惨烈的竞争环境,公司关注自身进步速度,并对其进展感到满意[19] - 公司不仅是AI研究的先驱,更致力于将研究成果转化到下游所有产品中,并认为在这场进化中才走到一半[19] - 行业部分领域存在泡沫迹象,但公司同时在投资未来蓝海领域如机器人、游戏、药物研发,并看好其长期潜力[25][26]
重磅!PI 获42亿融资!估值飙升至392亿
机器人大讲堂· 2025-11-21 04:00
融资与估值 - 公司完成新一轮6亿美元融资,估值飙升至56亿美元 [1] - 本轮融资由Alphabet旗下CapitalG领投,现有投资者Lux Capital、Thrive Capital及杰夫·贝索斯持续加码,新晋投资方Index Ventures与T Rowe Price也参与此轮融资 [1] - 公司自2024年3月成立以来融资进程加速,种子轮融资7000万美元估值4亿美元,A轮融资4亿美元估值跃升至24亿美元,三轮融资累计吸金超10亿美元 [9] 团队构成 - 公司团队堪称全明星阵容,首席执行官兼联合创始人Karol Hausman曾是Google DeepMind资深研究科学家,联合创始人Sergey Levine是强化学习领域领军人物,另一位联合创始人Groom是投资人兼支付巨头Stripe前高管 [1] - 团队还包括来自特斯拉、谷歌DeepMind、X等顶尖科技公司的专家,以及斯坦福大学教授等 [3] 技术方向与模型进展 - 公司聚焦通用家用机器人领域,致力于研发可作为各类机器人大脑的人工智能算法,长期愿景是构建一套通用智能系统以赋能多样化机器人应用场景 [3] - 公司提出以研发通用人工智能模型为解决方案,采用覆盖广、数据小的数据集构建策略,首款模型π-0于2024年10月发布,可实现叠衣服、组装纸盒、操作微波炉等多种复杂任务 [5] - 2025年4月发布π-0.5模型,增强了对全新环境的适应能力,通过异构数据协同训练能理解技能语义上下文并实现跨机器人物理行为迁移 [7] - 2025年11月发布最新机器人基础模型π*0.6,引入RECAP通用训练方法,在制作意式浓缩咖啡、折叠衣物、组装工厂包装纸箱等任务中成功率均超过90% [7] 行业背景与挑战 - 家用机器人面临复杂多变的空间环境,多样化任务对精细化动作控制要求高,现有专用机器人往往难以胜任 [3] - 实现不同功能通常需基于新模型与数据重新训练,增加了开发成本,且训练数据需严格适配机器人物理形态与应用场景,加大了数据准备难度 [3]
36个月大逆转,他带着谷歌AI杀回来了,下一步世界模型
36氪· 2025-11-20 23:53
模型性能与市场竞争 - Gemini 3 Pro在发布后于多个模型排行榜上表现优于GPT-5及其他模型,尤其在模拟推理和长时间规划方面表现更佳[12] - 谷歌Gemini应用的月活用户已超过6.5亿,而ChatGPT的周活用户在7-8亿(换算月活可能超10亿)[12] - 每月有超过20亿人通过Google搜索中的AI Overviews功能使用Gemini,约1300万开发者在产品中集成Gemini[12] 产品整合与商业化 - Gemini 3从发布之日起即全面增强谷歌现有产品,包括其利润可观的搜索业务,AI Overviews功能推动搜索查询量提升了10%[7][8] - 谷歌视觉搜索功能因依赖Gemini的照片分析能力而出现70%的激增[8] - 谷歌优势在于其深厚的产品“家底”,包括搜索、地图、Gmail、云服务等广泛基础产品线,并已实现所有产品完全运行在Gemini技术栈上[8] 技术路线与未来规划 - 谷歌在上下文窗口方面做了大量实验,并将其提升到100万个token,该记录尚未被真正打破[7] - 公司一开始就将机器人和眼镜视为重要应用场景,因此决定走多模态路线,Gemini已在多模态理解上显现出明显优势[8] - 公司追求打造“各方面都最强”的通用模型,将其视为通向AGI的关键,并预测实现完全AGI还需五到十年时间[13][14] 公司战略与行业定位 - 谷歌在AI领域长期投入巨大资源,曾在2017年发现Transformer模型架构但选择公开,未将其商业化[9][10] - 公司认为其在与OpenAI、xAI等AI厂商的竞争中处于“进可攻,退可守”的有利位置,既有扎实营收,又承担着公司“AI动力舱”的重任[8][15][17] - 公司正考虑通过Gemini重启谷歌眼镜项目,因通用助手可能成为其“杀手级用例”[8]