Workflow
Generative UI
icon
搜索文档
深度讨论 Gemini 3 :Google 王者回归,LLM 新一轮排位赛猜想|Best Ideas
海外独角兽· 2025-11-26 10:41
文章核心观点 - Google发布的Gemini 3标志着公司在pre-training算力投入上首次追平OpenAI,并在数据体系、多模态能力、系统架构和产品体验上实现协同突破,意味着大模型竞争格局加速演变为Google、Anthropic与OpenAI三家交替领先的动态结构[4][5][14] Gemini 3的核心优势 - 模型训练FLOPs达到6 × 10^25级别,首次在pre-training算力上追平OpenAI,证明scaling law依然有效[5] - 充分利用自身TPU集群效能,实现算力规模指数级跨越,解决算力利用率瓶颈[6] - 训练数据量相比Gemini 2.5可能增加一倍,凭借二十多年积累的用户搜索历史、视频观看记录等构成不可迁移的数据护城河[7] - 采用稀疏化混合专家架构,稀疏度可能超过50%,以更少计算资源调用更广阔知识储备,依托自研TPU和OCS互联技术实现软硬高度耦合的系统级优势[8][10][11] - 展现独特的产品经理式编程思维,先深度分析问题并输出任务需求书,再设计测试方案,最后执行代码编写,有效避免错误代码回滚成本[12] - 内部组织与研发模式成功转型,克服DeepMind与Google Brain整合的阻力,探索出适合大公司的模型研发机制[13] 大模型竞争新格局 - 行业形成Google强于pre-training和Infra、OpenAI优势在post training的共识,但随着Gemini 3在pre-training阶段追平甚至反超,OpenAI的护城河不再稳固[18] - OpenAI在agentic任务和工具调用上仍是绝对王者,GPT-5.1在复杂指令执行与工具使用能力基准测试中分数高于Gemini 3,并拥有2000万付费用户构成的优质反馈数据源[18][20] - Anthropic采取聚焦差异化策略,Claude系列在Coding和Agent稳定性上表现良好,更适合处理编程自动化及企业内部工作流[24] - 红杉中国XBench测评显示Gemini 3 Pro在500道博士级题目上准确率比GPT-5.1高约10%,处理速度是后者的3倍,成本仅为十分之一[22] 多模态能力突破 - Gemini 3在多模态理解上断档领先,能精准识别非正常图片手指数量、复杂图片特定按键,视觉编码器与语言模型实现高精度对齐[25] - 在还原撕碎购物小票案例中,Gemini 3完美还原所有菜名、单价及总金额,展现惊人逻辑闭环能力,而GPT-5.1存在明显误差和遗漏[27][31] - Google Veo 3.1追求极致物理一致性,能在1分钟以上生成过程中保持人物特征、场景布局高度一致,画面质感接近实拍素材,可能服务于电影工业专业工具[40][41] - OpenAI Sora 2聚焦创意优先,引入语音与视觉同时生成能力,降低内容创作门槛,更符合社交平台审美需求[43] TPU系统成本与架构优势 - 使用自研TPU进行训练和推理的成本约为Nvidia GPU方案的一半,通过掌控光模块、交换机等系统生态绕过组件层层加价[46][49] - TPU为Transformer架构量身定制,软硬高度协同形成长期能效优势,同时通过模型粘性反哺GCP市场份额[50] - 架构设计上押注scale-out横向扩展,依靠OCS技术构建超大规模Superpod,优于Nvidia的scale-up纵向扩展思路,光通信架构具长期演进优势[51][52][54] - Anthropic宣布使用Google TPU多达100万个芯片,标志着算力供应多平台策略,有助于Google生态扩张并获得顶级模型团队反馈[56] Gemini商业化路径 - 公司将Gemini提升至最高战略优先级,通过推广Antigravity IDE、Chrome浏览器插件功能及学生优惠等措施构建生态[62][64][65] - 移动端策略侧重将智能蒸馏至10B-20B参数量级小模型,支撑AI Overview达到10亿级DAU,通过升级Google Assistant快速触达海量用户[66] - 商业化变现持审慎态度,首要考核指标为用户满意度而非短期变现率,已构建大规模模型评测模型飞轮进行自动化评估[67] - 在广告归因、PMax及广告主生态上拥有深厚护城河,Meta和腾讯引入大模型技术后广告收入增长约20%,而字节跳动增长维持在个位数[69][70] AI Native产品形态演进 - Gemini 3引入Generative UI功能,根据用户意图实时生成可交互定制化界面,重塑Web交互形态,应用场景包括物理仿真、金融决策等[71][72][74] - 功能演进可能经历单次查询展示、静态内容结构化生成、具备深度交互能力的即时软件三个阶段,本质是让AI拥有生成HTML/JS并即时渲染的能力[74] - OpenAI在DevDay展示类似能力,选择由合作伙伴构建UI嵌入ChatGPT对话,两种模式未来演化值得关注[75]
Gemini 3 Pro刷新ScienceQA SOTA|xbench快报
红杉汇· 2025-11-20 03:38
文章核心观点 - Google正式发布新一代基础模型Gemini 3,在深度推理与思考、多模态理解、Agent编程能力上有极大提升[1] - Gemini 3 Pro在xbench-ScienceQA榜单中以71.6的平均分超越Grok-4成为新SOTA,并且响应时间快,价格低[1] - 模型实现了从“反应式”推理向“审慎式”推理的转变,解决了大模型常见的“幻觉”问题,标志着AI从“知识检索”向“逻辑推理”的跨越[8] 模型性能表现 - Gemini 3 Pro在ScienceQA榜单中平均分为71.6,BoN(N=5)达到85分,超越第二名Grok-4的分数6分[3][5] - 平均响应时间仅48.62秒,远快于Grok-4的227.24秒和GPT-5-high的149.91秒[3] - 官网API价格为输入每百万token 2美元,输出每百万token 12美元,低于Grok-4的3美元/15美元和GPT-5-high的1.25美元/10美元[3] - 与Gemini 2.5 Pro相比,平均分从59.4提升到71.6[5] - 运行ScienceQA成本估算显示,GPT-5.1花费32美元,Gemini 3 Pro仅花费3美元,成本约为前者的1/10[6] 技术架构创新 - 引入“深度思考”模式,在处理高复杂度任务时在内部构建多条推理链路进行自我博弈与验证[8] - 采用稀疏MoE架构,拥有海量参数专家但每次仅激活一小部分,显著降低计算开销[8] - 彻底摒弃外挂式编码器,采用极致的原生多模态架构,使文本、代码、图像、视频和音频在模型底层共享同一套“世界模型”[11] - 上下文长度显著扩充至百万级,可直接处理整本书、完整代码库或长时间音视频逐字稿[12] Agent与开发能力 - 带来“氛围编程”概念,模型能捕捉代码库中隐含的工程风格、架构规范及开发者直觉[9] - 作为自主Agent在IDE中运行,具备操作终端、浏览器和文件系统权限,拥有长程规划能力[9] - 在Google Antigravity平台中与Gemini 2.5 Computer Use模型、视觉模型Nano Banana等深度集成,实现“计划-执行-反馈”的自主多步骤工作流[10] 交互与生成能力 - 引入Generative UI,模型能根据用户意图实时编写前端代码并渲染出动态可交互界面[12] - 具备惊人感知能力,能转录3小时会议视频,精准识别说话人语气,从模糊低质量文档照片中无损提取结构化数据[11] 硬件支持体系 - 在Google自研的TPU上训练,TPU是为大型模型特别设计的高带宽、高并行计算芯片[13] - 借助TPU集群的强大算力和高效并行,在相对可控时间内完成训练,实现能耗与成本平衡[13]