Workflow
谷歌(GOOGL)
icon
搜索文档
谷歌的人工智能短板缘何成了优势
新浪财经· 2025-12-19 10:13
核心观点 - 谷歌同时运营搜索引擎和AI聊天机器人曾被视作短板,但现在被视为一项优势,因为两者服务于不同的用户场景,聊天机器人无法取代搜索引擎提供简洁快速答案的功能 [2][6] - OpenAI等公司面临挑战,其投入资源开发的复杂推理AI模型,在应对用户简单查询时未能显著提升体验,凸显了技术优化与实际产品价值脱节的风险 [2][4][6][8] - 行业领先公司如谷歌、亚马逊均选择将搜索引擎与AI聊天机器人作为独立产品运营,因其使用场景存在本质区别 [3][7] 行业观察 - 用户对搜索引擎和AI聊天机器人的使用是交替进行的,取决于查询需求,前者更适合需要快速、简洁答案的场景 [2][6] - 许多用户使用ChatGPT等AI聊天机器人只是为了询问基础问题,而非解决复杂任务 [2][6] - 亚马逊为其购物网站配备了独立的搜索引擎,并与AI聊天机器人Rufus区分开,因为对于特定商品搜索,使用搜索引擎比询问聊天机器人更便捷高效 [3][7] 公司战略 - 谷歌首席执行官桑达尔・皮查伊在2024年4月的分析师电话会议中明确表示,搜索业务与Gemini聊天机器人存在部分重叠,但使用场景截然不同 [3][7] - 谷歌并未如外界猜测那样将Gemini与搜索合并,而是保持了产品的区分 [3][7] 内部管理与研发挑战 - OpenAI内部已意识到,底层AI模型的优化未必能给用户带来显著价值提升 [2][4][6][8] - OpenAI内部出现了研究部门与产品部门之间的分歧,Meta公司据称也存在类似情况 [4][8] - 在人工智能领域,研发与产品团队之间的传统分歧因决策成本高昂和影响深远而被放大 [4][8]
Menlo Venture AI 调研:一年增长 3.2 倍,370 亿美元的企业级 AI 支出流向了哪?
海外独角兽· 2025-12-19 10:06
企业级AI市场增长与采用现状 - AI是企业软件史上扩散速度最快的技术浪潮,企业级AI市场规模在两年内从17亿美元跃升至370亿美元,较去年的115亿美元增长约3.2倍,增长速度超过历史上任何一个软件品类 [2][11] - 2025年企业在生成式AI上的总支出达到370亿美元,其中190亿美元流向AI应用层,180亿美元流向AI基础设施层 [2][12][55] - 企业AI解决方案从评估到进入生产环境的转化率高达47%,远高于传统SaaS的25% [2][20] - 2025年,企业在生产环境中使用的AI解决方案有76%为外部采购的成熟方案,而非内部构建 [18] - 产品驱动增长模式在AI领域表现突出,当前所有AI应用支出中有27%来自PLG模式,约为传统软件比例的4倍,若计入“影子AI采用”,该比例可能接近40% [2][25] - 目前至少有10款AI产品的年度经常性收入超过10亿美元,另有约50款产品的ARR超过1亿美元 [12] AI应用层竞争格局 - 在AI应用层,初创公司已占据63%的市场份额,而去年这一比例仅为36%,初创公司营收约为传统巨头的两倍 [2][29][37] - 部门级AI在2025年支出达73亿美元,同比增长4.1倍,其中编程是最大细分市场,支出达40亿美元,占该类别55%的份额 [38][41] - 编程已成为生成式AI的第一个“杀手级用例”,50%的开发者每天使用AI编程工具,在顶尖机构中这一比例高达65% [41] - 垂直领域AI在2025年支出达35亿美元,几乎是去年12亿美元的3倍,其中医疗行业占据几乎一半的支出,约15亿美元,较上年的4.5亿美元增长超过三倍 [2][46] - 通用领域AI支出规模为84亿美元,同比增长5.3倍,其中Copilots以86%的份额占据绝对主导,支出达72亿美元 [2][53] - 在特定职能部门,AI-native初创公司市场份额优势明显,例如在产品与工程领域占71%,在销售领域占78%,在财务与运营领域占91% [29][30][31] AI基础设施层竞争格局 - 在AI基础设施层,传统巨头仍占据56%的市场份额,因为许多AI应用构建者仍在使用他们信任多年的数据平台 [2][35] - AI基础设施层在2025年获得180亿美元支出,可分为基础模型APIs、模型训练基础设施和AI基础设施三类,支出分别为125亿美元、40亿美元和15亿美元 [55] - 现代AI技术栈仍处于早期阶段,仅16%的企业部署和27%的初创公司部署的智能体符合真正由LLM规划并执行行动的定义 [56] - 在推理和算力层面,AI-native厂商正与超大规模云厂商竞争,一些推理平台通过优化可实现2倍以上的性能提升 [60] 大型语言模型竞争格局 - 基础模型格局发生决定性变化,Anthropic取代OpenAI成为企业级市场领先者,占据约40%的企业级LLM支出,而OpenAI份额从2023年的50%下降至2025年的27%,Google份额从7%提升至21% [63] - Anthropic、OpenAI和Google三家公司合计占据88%的企业级LLM API使用量 [63] - Anthropic的崛起很大程度上归功于其在编程市场的统治力,目前估计占据该市场54%的份额,而OpenAI为21% [66] - 开源LLM在企业级市场的整体份额从去年的19%下降到11%,中国开源模型仅占LLM API总使用量的1%,约占企业级开源支出的10%,但在初创公司和独立开发者中影响力增强 [70][73] 2026年AI发展趋势预测 - AI将在日常实际编程任务中超越人类表现,最先进的模型在可验证领域如数学和编程中将持续进步 [77] - 杰文斯悖论仍然成立,尽管推理成本下降,但由于使用量呈数量级增长,生成式AI的净支出仍在上升 [77] - 可解释性与治理将成为主流,随着智能体自主性提升,解释和管理其决策的能力将变得更加重要 [78] - 模型最终将向边缘端迁移,出于低延迟、隐私安全等因素考虑,越来越多的非前沿模型成本将趋近于0 [79]
年终大冲刺,中美科技大厂都杀疯了
商业洞察· 2025-12-19 09:58
文章核心观点 - 全球科技大厂在年末集中发布重磅AI产品,竞争进入白热化阶段,标志着AI竞争焦点正从模型能力竞赛转向构建可调度、可执行、可协作的智能体(Agent)以及完整的平台化生态体系 [2][14][26][45][46] 国内大厂年末AI产品发布与竞争态势 - **阿里巴巴与蚂蚁集团**:阿里上线基于通义千问大模型的“千问”APP,定位C端生活服务入口,上线三天即推出覆盖119种语言的实时翻译功能,支持全球98%以上人口的常用语种 [4];蚂蚁发布“灵光”APP,主打移动端“自然语言30秒生成小应用”的高效创作工具 [4];两款产品构成阿里系从生活到工作的完整C端AI产品矩阵 [5] - **市场表现**:千问APP上线两天即冲入APP Store总榜前三;灵光APP上线6天下载量突破两百万,进入总榜前6 [7] - **字节跳动(豆包)**:推出全新的AI手机助手,将大模型能力直接嵌入硬件终端,具备跨应用执行复杂操作(如外卖比价、网购下单)的能力,实现了AI从被动问答向主动调度与执行的跨越 [8][11] - **生态合作**:字节正与多家手机厂商推进合作,计划以生态合作方式将豆包AI助手嵌入不同品牌机型,例如中兴旗下努比亚已发布搭载该助手的工程样机 [42] - **DeepSeek**:同期发布DeepSeek-V3.2和DeepSeek-V3.2-Speciale两个正式版模型,前者平衡推理与输出长度,后者强化长思考与复杂任务能力,目标同样是朝着“通用AI助手”迈进 [12][13] - **竞争状态**:在阿里、蚂蚁、字节和DeepSeek集中发力下,国内AI市场竞争在年底被推至新的高点,进入“白热化”阶段 [14] 硅谷技术风向对国内市场的推动 - **OpenAI**:发布GPT-5.1系列,并同步上线ChatGPT群聊功能,允许多个不同角色的AI在同一对话中协作,被视为从“单一助手”迈向“多智能体平台”的关键一步 [16][18][19] - **谷歌**:发布Gemini 3.0模型,被评价为“迄今最完整的一次大模型体系级升级”,重点提升推理、多模态理解能力,并首次将优化重点明确放在手机端推理效率与开发者平台建设上,释放出AI竞争从“模型能力竞赛”推向“全场景平台化”布局的信号 [20][21] - **市场反响**:Gemini 3.0获得OpenAI CEO萨姆·奥特曼和xAI创始人埃隆·马斯克的公开认可,其风头盖过GPT-5.1,并推动谷歌股价迎来爆发式上涨 [21][23] - **其他硅谷大厂**:xAI发布Grok 4.1,核心叙事指向“能够执行任务的Agent”;亚马逊发布第二代Nova大模型及Nova Forge平台,押注企业级定制化AI的规模化落地 [25] - **行业共识**:硅谷的系列发布显示,AI的主战场正从“更聪明的助手”转向“更可调度、可协作、可执行的智能体”,这一全球技术主线也推动了国内大厂的集中动作 [26][27] 科技巨头选择年末发布重磅AI产品的原因 - **传播效果最大化**:年末(西方圣诞新年、中国春节)社会重大新闻较少,是传统媒体的相对平静期,此时发布产品能以较低成本获得远超日常的媒体曝光与用户关注 [31][32] - **历史成功范式**:ChatGPT于2022年11月30日发布,恰逢西方假期窗口,迅速填补舆论真空,实现指数级用户增长,此范式后被各大厂商效仿,演变为“年关决战” [33][34] - **业务与战略节奏**:大厂一年内的数据积累、算力调度和优化实验在接近年末时达到可发布状态;在岁末推出“下一代模型”有助于率先定义来年的能力标准、产品预期与竞争门槛 [39] - **资本市场叙事**:年末是科技公司向董事会和投资人交卷的关键窗口,发布重量级模型能放大技术突破的震撼效应与市场声量,直接服务于估值管理与资本叙事 [39] - 例如,谷歌在年末发布Gemini 3.0,旨在向资本市场进行战略性回应,强化华尔街信心,并为年报提供增长叙事 [40][41][42] - DeepSeek若在年底推出领先模型,能强化其技术护城河认知,为下一年竞争争取更多资源与战略主动权 [39] - **商业落地占位**:年末是企业制定下一年度IT预算和技术采购计划的关键节点,此时发布商业化路径清晰的AI模型,更容易被纳入企业采购清单,为下一年度的大规模部署和营收转化提前占位 [42] AI竞争趋势的演变 - **竞争维度升级**:AI竞争正从“谁更早推出模型”加速转向“谁能更快构建完整体系”,模型能力、产品形态、生态协同与商业落地被同时考核,单点优势难以构成长期壁垒 [45][46] - **生态博弈触发**:当AI开始介入真实操作与用户行为(如豆包手机助手),平台之间的生态博弈已被提前触发,尽管引发了包括微信、支付宝、淘宝等主流应用的抵制 [44][45] - **未来启示**:大厂的“年关决战”是全球AI新赛跑的发令枪,预示着AI的下一个重点在于构建可调度、可协作、可执行的智能体及完整的平台化生态 [47]
大模型真的要开始“抢饭碗”了
36氪· 2025-12-19 09:36
行业竞争态势 - AI大模型领域竞争加剧,头部公司产品迭代节奏已压缩至“以周计算”,新旧模型更新接踵而至,正面碰撞不断 [1] - Google在一个月内对其大模型产品线进行了四次实质性更新,最新发布的Gemini 3 Flash被解读为对OpenAI的“精准打击” [2] Google的竞争举措 - Google发布了Gemini 3系列中速度最快、性价比最高的模型Gemini 3 Flash [2] - 根据官方信息,Gemini 3 Flash在性能和效率上同时突破“帕累托极限”,其综合性能超过上一代旗舰模型Gemini 2.5 Pro,推理速度提升约3倍,而价格显著降低 [17] - 根据Imarena.ai数据,Gemini 3 Flash在文本、图像和编程领域排名前5,数学和创意写作类别排名第2,是性价比最高的前沿模型,输入定价为0.5美元/百万Tokens,输出为3美元/百万Tokens [18] - 作为对比,Claude Sonnet 4.5的输出定价为15美元/百万Tokens,GPT-5.2的输出定价为14美元/百万Tokens,是Gemini 3 Flash的近5倍 [18] - Google将Gemini 3 Flash定位为“老黄牛”式模型,保持了接近Gemini 3 Pro的推理能力,运行速度是Gemini 2.5 Pro的三倍,成本仅为Gemini 3 Pro的四分之一 [18] - Google正将AI能力深度整合至系统与生态,Gemini 3已全面取代传统Google Assistant成为Android生态中枢,并在Workspace中整合Drive、Docs、Gmail,依托1M至2M tokens的超长上下文窗口创建统一知识空间 [19][20] - 企业市场反馈积极,Salesforce创始人公开表示其AI首选已从ChatGPT转向Gemini,并宣布将Gemini纳入其Agentforce 360平台 [20] OpenAI的竞争举措与产品表现 - 在11月,OpenAI与Google几乎同时发布了旗舰模型GPT-5.1与Gemini 3,随后Gemini 3 Pro在多项基准测试中大幅超越GPT-5.1等模型 [4] - 面对竞争压力,OpenAI内部进入“红色代码”紧急状态,资源重新聚焦于核心产品ChatGPT,这直接加速了GPT-5.2的发布 [4] - OpenAI在十周年之际火速上线GPT-5.2,并一次性推出Instant、Thinking、Pro三个版本 [4] - 根据官方基准测试,GPT-5.2 Thinking在多项对比中面对GPT-5.1、Gemini 3 Pro等模型几乎实现了“全线第一”,打破了后者建立不到一个月的领先优势 [6] - 在具体测试数据中,GPT-5.2 Thinking在SWE-Bench Pro(软件工程)得分为55.6%,高于GPT-5.1的50.8%和Gemini 3 Pro的43.3% [7] - 在GPOA Diamond(科学问题)得分为92.4%,高于GPT-5.1的88.1%和Gemini 3 Pro的91.9% [7] - 在CharXiv Reasoning(科学图表问题)得分为82.1%,高于GPT-5.1的67.0%和Gemini 3 Pro的81.4% [7] - 在AIME 2025(竞赛数学)得分为100.0%,高于GPT-5.1的94.0%和Gemini 3 Pro的95.0% [7] - 在GDPval(知识工作任务)评测中,GPT-5.2 Thinking综合得分为70.9%,相较GPT-5.1 Thinking的38.8%有显著提升 [7][13] - 在“初级投行分析师”电子表格建模测试中,GPT-5.2 Thinking综合得分达到68.4%,高于GPT-5.1 Thinking的59.1% [13] - 根据人类专家盲评,在高难度知识型工作任务中,GPT-5.2 Thinking有70.7%的任务表现优于或持平行业顶尖专家 [12] - 在效率层面,GPT-5.2 Thinking完成同类任务的速度约为人类专家的3倍,而综合成本仅为人类的约1% [13] - OpenAI进行了清晰的产品分层:Thinking版本面向重度专业工作,Instant版本面向日常效率,Pro版本面向科研与复杂系统设计 [13] - OpenAI选择与科技巨头结盟扩张,预计iOS 26将深度整合GPT-5.1,涉及系统级视觉智能 [21] - 在企业市场,Microsoft通过Windows 11与Microsoft 365中的Copilot,持续将GPT-5.1推向企业核心流程 [21] 市场反馈与产品争议 - 两家公司密集的发布节奏引发了部分用户差评,有评测显示GPT-5.2在SimpleBench上的得分(45.8%)低于约一年前发布的Claude Sonnet 3.7(46.4%),GPT-5.2 Pro得分(57.4%)也仅勉强超过GPT-5(56.7%) [15][16] - 前AWS与Google高管指出,GPT-5.2在LiveBench上得分低于Opus 4.5和Gemini 3.0,且其在token成本和消耗数量上比5.1多得多,目前可能不值得从5.1切换升级 [17] 行业演进趋势 - 大模型竞争的下一个趋势愈发清晰地指向“智能体”,竞争已从“云端模型能力”全面下沉至“终端与系统层” [19] - 行业竞争核心已从对话自然度与知识广度,转向复杂问题解决、跨工具协作与自主任务执行能力 [21] - 未来的分水岭在于模型能否“把事干完、干好,并且持续稳定地干下去” [22]
太猛了!谷歌悄悄在 Gemini 里塞了个 N8N 进去
歸藏的AI工具箱· 2025-12-19 09:28
谷歌Gemini平台Gem功能重大更新 - 谷歌Gemini平台中的Gem功能(类似GPTs)近期完成重要更新,其能力从仅能保存提示词的水平,升级为可直接生成带有界面的网页应用,功能显著增强[1][2] - 新版Gem功能支持用户上传任何图片或文档作为输入,并能创建网页输出结果,同时可以调用谷歌全部模型,功能相当强大[2] - 此次更新实质上是将谷歌近期发布的Agent构建工具Opal内置到了Gemini平台中,使其更加易用[6] 新版Gem功能的核心特性与创建流程 - 用户可通过Gemini侧边栏的“探索Gem”选项进入,界面新增“New Gem”实验入口,点击即可进入创建页面[7][9] - 创建过程极为简化,用户仅需在输入框中描述想要构建的应用,系统便会自动开始构建,右侧会显示进度并允许实时测试[12][14] - 新Gem支持极其丰富的输入格式,包括常见文件、YouTube视频、网页操作录制视频以及涂鸦[15] 应用案例展示:数据分析与个性化生成 - 以力量训练数据分析为例,用户上传CSV文件后,Gem能生成详细报告,包含数据看板、各类表格及个性化训练建议[13][17] - 生成内容支持通过修改提示词进行实时调整,例如将报告语言从英文改为中文[17][19] - 生成的训练分析报告内容全面,例如:覆盖106天内的24个训练日,平均每4.6天训练一次;按身体部位分析总训练容量,其中上半身约29775.25 kg*reps*sets,腿部约24157.50 kg*reps*sets[19] - 报告能自动识别进步与退步的练习,例如:高位下拉容量从1000.0增加到1500.0,而坐姿划船容量从1440.0减少到810.0[19] - 另一案例是屏幕使用时间分析工具,上传截图后可生成包含可视化海报、文本分析及基于分析建议的音频博客的完整网页应用[4][33] 高级编辑功能与Opal工作流 - 用户可点击“Open Advanced Editor”进入Opal界面进行高级编辑,该界面直观展示了数据处理、模型调用、输入输出的完整工作流卡片[21][23] - 编辑界面主要分为四个部分:添加卡片的区域、应用/卡片预览区域、用于修改应用的提示词输入区、以及代表每个处理步骤并可进行链接的卡片编辑区[23][24] - 用户可通过提示词让系统自动修改工作流,也可点击具体卡片进行精细化调整,例如选择不同模型或修改提示词[25][26][29] 强大的多模态模型集成 - 在Opal编辑器中,用户可为不同任务卡片选择专门的谷歌模型,覆盖文本、音频、视频、图像等多种模态[26] - 可用模型包括:用于文本/音频/视频/表格/图片处理的Gemini 2.5 Flash或Gemini 3 Pro;用于文生图的Imagen 4;用于图生图的Nano Banana Pro;用于视频生成的Veo模型;用于文本转语音的AudioLM模型;以及音乐生成模型Lyria 2[26][27] 应用分享与平台整合战略 - 创建完成的应用可通过“Share App”按钮生成分享链接,其他用户登录谷歌后即可使用,系统会根据用户的Gemini会员等级扣除相应的模型使用额度[36] - 此次更新体现了谷歌强大的产品整合能力,将AI实验室孵化的多个产品(如Opal、NoteBookLM)整合进Gemini平台,形成了功能全面、额度高、模型强大的生态系统[38]
Global Diversification: Why Indian investors are looking beyond home markets to the US
The Economic Times· 2025-12-19 07:42
全球资产配置趋势 - 印度投资者对海外(尤其是美国)股票的投资兴趣显著上升,月度投资额从8月的1.52亿美元大幅反弹至9月的2.79亿美元 [2] - 从更长周期看,印度投资者海外投资呈现结构性增长,FY25年度投资额达17亿美元,高于FY24的15.1亿美元和FY23的12.6亿美元 [4] - 市场周期在不同地域并不同步,全球配置(特别是对美国市场)有助于印度投资者平衡风险、降低组合波动性,并投资于本国市场代表性不足或缺失的行业 [1][18] 美国市场吸引力与驱动因素 - 美国股市在2025年表现强劲,年内上涨近15%,跑赢同期上涨约10%的印度Nifty 50指数 [18] - 科技与人工智能是年度定义性趋势,英伟达和Alphabet等公司对指数上涨贡献巨大,这些全球龙头处于人工智能、云计算、生物技术和可再生能源等未来经济核心领域的创新中心 [6][18] - 投资美国市场使印度投资者能够参与全球创新周期,接触到在电动汽车、人工智能和可持续能源等领域塑造未来的全球品牌 [13][15] 印度投资者参与美国市场的途径 - 印度投资者可通过两种主要途径投资美国股票:直接购买美国上市公司股票,或通过共同基金和ETF等印度基金结构进行间接投资 [7][19] - 在印度储备银行的自由化汇款计划框架下,居民每个财政年度可向包括美国股票在内的外国资产投资最多25万美元 [8][19] - 借助如Appreciate等投资平台,印度投资者可以简化流程,只需几个步骤即可开始全球投资之旅 [9][12][19] 投资美国股市的战略价值 - 美国市场庞大且深度多元化,其与印度市场对宏观和政治事件的反应往往不同,跨地域配置有助于平滑投资组合波动 [9] - 美国拥有全球最具影响力的公司,如苹果、微软、亚马逊、特斯拉和强生,提供了投资于成熟、能产生现金流的全球性企业的机会 [10] - 以美元计价的美国股票为印度投资者提供了货币多元化收益,历史上仅美元升值每年就可带来3-4%的收益,而2025年迄今这一收益已升至约6% [11] - 标普500和纳斯达克等指数过去十年以美元计价的长期表现持续优于许多全球同行 [14]
赛微:谷歌TPU业务营收占比提升,董秘回应经营规划
新浪财经· 2025-12-19 07:40
公司业务与财务表现 - 公司是一家业界领先、自主可控、采用"Pure-Foundry"模式、国际化运营的MEMS芯片专业制造厂商 [1] - 公司致力于为通信计算、生物医疗、工业汽车、消费电子等各领域客户提供一流的MEMS工艺开发及晶圆制造服务 [1] - 2025年前三季度,公司来自谷歌TPU相关业务的营收占比已从2023年的15%提升至32% [1] - 谷歌TPU相关业务的毛利率因规模效应较传统MEMS代工高10个百分点 [1] 市场前景与客户动态 - 谷歌2026年TPU出货量指引预计同比增长80% [1] - 公司客户包括知名巨头厂商及新兴中小厂商 [1] 公司经营策略 - 公司将积极制定经营计划,持续提升产能利用率及良率等 [1] - 公司目标维持在MEMS纯代工领域的竞争实力 [1]
DeepMind掌门人万字详解通往AGI之路
量子位· 2025-12-19 07:20
通往AGI的路径 - 实现AGI需要技术创新与规模扩展各占约50%的努力,二者结合是关键路径 [1][2][55] - 当前模型扩展并未遇到不可逾越的“墙”,进步依然显著且投资回报可观,未见明显放缓迹象 [45][46][50] - 数据耗尽等挑战可通过合成数据生成等技术解决,尤其是在编程和数学等答案可验证的领域 [51] 当前AI的局限与待解决问题 - AI存在“锯齿状智能”现象,能在国际数学奥林匹克竞赛中获奖,却可能在简单逻辑问题上犯错,反映出系统在一致性与可靠推理方面的不足 [5][19][21] - 幻觉问题仍待解决,模型常在不确定时强行作答,未来需发展类似AlphaFold的概率评估机制,使模型能判断自身不确定性并合理拒绝回答 [5][56][57] - 当前大模型本质上是人类知识(如互联网内容)的压缩与泛化,类似于AlphaGo,缺乏在线学习与持续更新的能力 [5][27][33][34] 下一代AI的发展方向 - 未来目标是实现类似AlphaZero的自我知识生成与持续在线学习能力 [5][32] - 世界模型通过模拟物理规律(如重力、流体)来增强对现实的理解,弥补语言模型在描述空间动态与感官体验方面的局限,对机器人、通用助手及科学模拟至关重要 [5][64][65][69] - 通过仿真环境(如Genie、SIMA项目)将智能体投入AI生成的动态世界,可实现无限任务生成与复杂行为训练,并有望用于探索生命与意识的起源 [5][76][80][90] AI在基础科学领域的应用(根节点问题) - AlphaFold的成功验证了AI解决基础科学难题的潜力 [8] - 当前研究正拓展至材料科学(如室温超导体、更优电池)、核聚变及量子计算等领域 [5][9] - 与Commonwealth Fusion等公司的深入合作,旨在利用AI加速核聚变(如约束等离子体、材料设计)进程,核聚变被视为能改变一切的“圣杯”级清洁能源 [10][11][13][16] 商业化、竞争与社会影响 - AI领域存在短期过度炒作与长期被系统性低估的现象,某些初创公司估值可能存在泡沫,但大型科技公司有真实业务和长期投入支撑 [94][95][96] - 需警惕AI商业化重蹈社交媒体覆辙,避免过度追求用户参与度导致“单人回音室”,应构建具有科学精神、适度反馈且支持个性化调节的AI人格 [5][101][104][105] - AI引发的社会变革可能比工业革命规模大10倍、速度快10倍,需提前规划劳动力转型、经济模式调整(如UBI)与社会治理创新 [14][118] 对AGI及超级智能的终极思考 - 目前宇宙中未发现非可计算现象,若意识不依赖量子效应,则理论上图灵机可模拟一切心智过程,信息可能是宇宙最基础的单元 [14][134][136][144] - 公司的工作核心是不断向前推进经典计算的能力边界,探索其终极极限 [139][140] - 基于智能体(Agentic AI)的下一阶段系统将更加自主,其带来的风险(如网络安全)显著上升,需提前准备 [14][164][165]
谷歌版两门「小钢炮」开源,2.7亿参数干翻SOTA
36氪· 2025-12-19 06:17
谷歌发布Gemma 3家族新模型 - 公司在“大模型”领域发布Gemini 3 Pro和Flash后,继续在端侧“小模型”发力,于近期发布了两项与端侧相关的新技术 [1] - 新发布的两个模型均属于Gemma 3家族,分别是T5Gemma 2和FunctionGemma,两者均为“小模型”但专攻方向不同 [3] T5Gemma 2:架构创新与性能 - T5Gemma 2是一个底层架构创新,是首个开源的多模态长上下文编码器-解码器模型,其最小规模为270M–270M参数 [1] - 公司开源了T5Gemma 2的三种预训练模型规模:270M–270M、1B–1B以及4B–4B [5] - 该模型采用编码器-解码器架构,与当前主流的仅解码器架构不同,代表了AI技术领域的“另一条路” [4][14] - 在多个基准测试中,T5Gemma 2展现出强大的多模态性能,超越了公司自己的Gemma 3模型 [8] - 在代码、推理和多语言等任务的通用能力上,T5Gemma 2整体上优于对应规模的Gemma 3模型 [9] - 相较于Gemma 3和第一代T5Gemma,T5Gemma 2在生成长上下文内容的质量上有显著提升 [9] - 在预训练阶段的性能可能超过对应体量的Gemma 3模型,而在后训练阶段则取得了显著更优的表现 [11] 编码器-解码器架构的回归与优势 - 在GPT、Llama、Gemini、DeepSeek等仅解码器架构主导的时代,T5Gemma 2是对经典Transformer中编码器-解码器路线的回归与现代化改造 [14][15][16][17][18][19][20] - 编码器-解码器架构采用“先读懂再动笔”的机制,能强迫模型先消化输入再生成输出,这种机制天生更严谨,有助于减少“幻觉”问题 [32] - 该架构在多模态处理方面具有天然优势,编码器可以作为处理图像信号的“眼睛”,比强行塞给仅解码器模型处理更顺畅 [33][34] - 在手机等端侧算力有限的环境中,编码器-解码器架构往往能用更少的参数达到与大型仅解码器模型相当的效果,效率更高 [35] - 公司并未从零训练T5Gemma 2,而是采用“模型适配”技术,利用已训练的Gemma 2或Gemma 3解码器模型作为种子,将其权重映射到新结构中,大幅降低了计算成本 [36] FunctionGemma:功能与场景创新 - FunctionGemma是一个专为函数调用优化的模型,参数规模为2.7亿,可在手机、浏览器及其他设备上运行 [1] - 该模型是对模型“技能”的专项训练,类似于剥离大模型的知识类能力,只保留针对性的函数调用功能 [7] - FunctionGemma旨在解决大模型落地痛点,让模型“不仅要能聊,还要能干活”,能够输出结构化数据去调用外部API或工具 [37][40] - 该模型为AI智能体设计,擅长多步骤推理和执行任务,且极致轻量化,可直接运行在手机等低功耗边缘设备上,作为系统的“控制中枢” [40] - 它是一个专门设计的“神经路由器”,旨在解决云端大模型在延迟、隐私和成本上的固有缺陷 [42] - 模型专注于函数调用这一特定任务的极致优化,通过小型化和专业化,将智能下沉至网络边缘 [44] - 其270M参数规模在当今时代显得微不足道,但证明了在特定领域,小模型通过高质量数据微调可达到甚至超越大模型的表现 [44] - 模型剔除了大量通用世界知识,专注于解析JSON、匹配函数签名和处理参数类型等技能 [45] 端侧部署与移动端战略 - FunctionGemma专为在移动设备上运行而设计,其270M参数在FP16精度下的权重大小约为540MB,仅占现代Android旗舰机总内存的5%-7%,可在后台常驻 [46][48] - 通过Int8量化,模型大小可降至约270MB;通过Int4量化,可降至约135MB,使其能在入门级甚至嵌入式设备上流畅运行 [49][50][51] - 公司发布该“小”模型背后,隐藏着对未来AI计算架构的深刻思考及在移动操作系统控制权争夺中的防御性布局 [52] - 在移动互联网向意图驱动发展的下一阶段,FunctionGemma试图让AI成为通用的用户界面,用户可直接表达意图而非点击图标打开应用 [53][54][55] - 通过让模型直接学习应用的API定义,开发者只需暴露工具,FunctionGemma就能理解并操作这些工具 [56] - 公司通过开源FunctionGemma,意在制定一套AI与应用交互的标准协议,如果所有Android开发者都按其格式定义工具,Android系统将成为强大的智能体平台,加深公司护城河 [57][58] 应用验证与行业影响 - 公司提供了两个参考实现来验证FunctionGemma的能力,展示了其在游戏和系统控制领域的潜力 [59] - 在系统控制场景中,经微调的FunctionGemma在将自然语言指令转换为Android系统意图的任务上,准确率达到85%,远超未微调基座模型的58% [60][61] - 在名为“Tiny Garden”的游戏Demo中,FunctionGemma展示了任务分解能力,可将一句语音指令拆解为一系列函数调用,且整个过程完全离线,无需联网 [62] - 对于开发者,FunctionGemma提供了低成本、高隐私的方案,将智能体能力集成到普通应用中,无需昂贵服务器开销 [64] - 对于手机厂商,270M的参数量是完美的“甜点”,既能利用现有NPU硬件,又不会过度挤占系统资源,为打造“AI原生操作系统”提供了理想基础 [64] - 对于公司自身,这是在AI时代捍卫Android生态控制权的关键一步 [64]
Google Enlists Meta To Cut Nvidia Reliance
Yahoo Finance· 2025-12-19 04:31
谷歌与Meta合作以重塑AI芯片市场格局 - 谷歌正加紧行动 旨在重塑大规模AI计算需求激增背景下的AI芯片市场竞争格局[1] - 谷歌与Meta Platforms Inc 建立更紧密的合作关系 以减少对英伟达人工智能算力的依赖[1] - 谷歌正进行软件修改 使其自研芯片能更便捷地与AI开发者广泛使用的工具PyTorch兼容[1] Meta在合作中的核心角色与谷歌的战略部署 - Meta在此次合作中扮演核心角色 作为AI开发工具的主要支持者 其正与谷歌协作并获取更多谷歌芯片基础设施的访问权限[2] - 谷歌计划将此合作模式用于其自身的AI服务以及云客户[2] 对英伟达的竞争压力与市场动态 - 此举在AI硬件竞争加剧的背景下 给英伟达带来了压力[3] - 英伟达近期表示 其被广泛讨论的与OpenAI的1000亿美元潜在交易仍不具有约束力 并强调其销售展望不依赖于该协议[3] - 英伟达继续强调其完整的AI技术栈实力是其核心优势[3] - 英伟达在2025年10月成为首家市值突破4.5万亿美元的公司 超越了苹果、谷歌和微软等企业[4] 博通潜在的受益机会 - Jim Cramer指出 博通公司可能从谷歌与Meta的任何潜在合作中获益最大 并强调其CEO Hock Tan的影响力是关键优势[4] - Cramer同时强调了Tan在推动博通日益挑战英伟达AI硬件地位中的作用[5] - 在Tan的领导下 博通已扩大了其在定制AI芯片和高端网络领域的业务版图[5]