Workflow
统一模型架构
icon
搜索文档
谷歌CTO兼首席AI架构师揭秘:谷歌如何用两年半完成AI逆袭
36氪· 2025-11-28 10:48
公司战略与组织变革 - 公司从坦诚技术落后转变为实现市场逆袭,两年半前AI Studio仅有3万用户且零收入,团队承受巨大压力[1] - 公司战略发生三个关键转变:从实验室思维转向战场思维,建立每六个月重大迭代的更新节奏;放弃大而全,聚焦三大杀手锏;激活谷歌的终极武器,调动六大洲2500名专家,实现从芯片层到亿级产品的端到端协同[5][20] - 组织层面形成独特能力,从早期25人合作论文到Gemini 3涉及2500名贡献者,实现研究思维与工程思维的深度融合,并具备从芯片设计到算法研发的全栈专家深度整合能力[20][21] 技术进展与模型能力 - Gemini 3模型在基准测试和预发布验证中达到预期,实际应用场景获得用户认可,在精准意图理解、全球化服务能力及工具化与创造能力方面有核心提升[4][7] - 在号称“人类最后考试”的HLE基准测试中,早期模型仅达1%或2%水平,如今先进模型如DeepThink已突破40%水平,而GPQA Diamond等挑战性基准性能仍在逐步提升中[4] - 模型聚焦三大核心维度:精准的意图理解,建立真正的任务理解与执行能力;全球化服务能力,在多个非优势语言场景表现突破;工具化与创造能力,具备函数调用、工具运用等核心能力,其中工具调用能力具有独特的指数效应[7] - 代码能力被视为数字世界的构建基石,通过自然语言编程(氛围编程)新范式,将技术门槛降至前所未有的程度,让创新成为每个人可触及的能力[7][8] 产品开发与市场应用 - 产品平台如AI Studio、Anti-Gravity构成技术演进的重要基础设施,通过真实用户反馈提供最直接的技术优化方向,建立产品与研究的闭环以重塑研发范式[8] - 技术价值最终通过产品体验实现,公司致力于构建完整的技术赋能体系,将尖端模型能力转化为产品价值,同时通过真实用户场景获取改进方向,形成双向循环[9] - 产品驱动的技术演进建立持续改进的飞轮,产品团队不仅是技术使用者,更是共同定义技术方向的战略伙伴,使公司能够快速将实验室创新转化为用户价值[11] 多模态技术与未来方向 - 多模态融合成为技术发展必然趋势,文本与视觉模型正共享底层架构,这种技术汇流创造更符合人类直觉的交互体验,Nano Banana模型展现出同时处理视觉和语言信号的能力[14][15] - 基于Gemini 3 Pro架构升级的新一代模型在理解复杂文档并生成信息图方面展现惊人能力,实现从文本到图像的流畅转换,标志着多模态交互迈向成熟[16] - 实现统一模型架构的核心挑战在于解决文本的结构化信号与图像生成所需的像素级精确、概念级连贯之间的双重标准,这需要找到关键创新点让模型融会贯通不同模态能力[18] 研发理念与行业展望 - 衡量技术进步的根本标准在于实际应用而非基准测试分数,当工具真正融入人类知识工作的各个环节时才实现真正进步,基准测试仅为进步提供可量化的参照维度[6] - 构建AGI不是封闭的实验室研究,而是必须通过与真实世界的持续交互来共同构建的工程实践,产品平台提供宝贵的连接通道以收集亿万用户的反馈信号[9][10] - 公司持续平衡基础科学研究与模型规模化扩展,认为创新源泉的枯竭是最大风险,因此坚持广泛布局探索,不局限于某一种架构或方法[22] - 公司保持“逆袭”心态,强调诚实面对差距,借鉴他人所长并坚持自主创新,通过不断学习与创新达到领先位置,目标始终是构建真正的智能[25][26]