Workflow
Tree of Thoughts
icon
搜索文档
拆解Gemini 3:Scaling Law的极致执行与“全模态”的威力
36氪· 2025-11-24 03:55
Gemini 3性能表现 - Gemini 3在多项基准测试中霸榜,在整体、硬提示、编码、数学等类别均排名第一 [5] - 在ARC-AGI-2基准测试中,Gemini 3的性能达到百分之三十几,相比此前个位数或百分之十几的模型实现了质的飞跃 [10] - 模型在多模态推理上表现突出,得益于其原生多模态架构,将视觉、代码、语言数据混合预训练,实现跨模态的化学反应 [11] - 在实际应用测试中,其Agentic开发环境AntiGravity提供经理视角和编辑视角,可管理多个Agent协同工作,并结合浏览器功能实现自动化测试与开发一体化 [6] - 在创意写作方面,模型不仅能细致描写,还能设计情节反转,显示出对作者深层动机的理解 [9] - 但在真实世界视觉理解任务中,如分析安防摄像头、门铃场景的用户行为和风险事件时,性能可能不如上一代 [13] - 在处理需要多跳搜索、整合二十年财报等极度复杂任务时,其稳定性可能不如竞争对手的某些模型 [14] 谷歌技术优势与路线 - 谷歌的成功被归因于对Scaling Law的极致执行,通过改进预训练和后训练等系统工程细节实现模型能力提升 [17] - 模型内部可能采用了树状搜索(Tree of Thoughts)配合自我奖励机制,在推理时并行多条思路并自行评估选择,这是工程封装与模型科学的深度结合 [19] - 技术路线强调语境工程(Context Engineering),模型在生成答案前可能自动抓取相关背景信息构建丰富的思维链环境 [20] - 公司拥有显著的硬件优势,使用自研TPU避免了使用NVIDIA显卡的高昂成本,使其单位经济模型极其优秀,在同等预算下可训练更大模型、跑更多数据 [21] - 这种软硬件整合的护城河对竞争对手形成巨大挤压 [21] 对开发者生态与竞争格局的影响 - Gemini 3配合AntiGravity及Chrome等生态系统,在多模态原生编码体验上形成降维打击,对独立开发工具创业公司构成挑战 [23] - 新的机会可能在于创造站在巨人肩膀上的新商业模式和产品形态,例如前置部署工程师,打通从商业化到开发的全链路 [23] - 然而,该工具在处理后端部署、复杂系统架构时仍易卡顿,且在企业数据隐私方面存在顾虑,为独立厂商留下生存空间 [25] - 对于专业程序员而言,模型在指令遵循和处理边缘情况方面仍是辅助工具而非替代者,例如生成代码可能存在方向键反了等小错误 [26] AI未来发展趋势 - 单纯依赖Scaling Law可能面临资源瓶颈,行业开始探索可解释性、顿悟机制等基于第一性原理的新算法 [29] - 未来AI发展可能转向数据效率更高的架构,模仿人类大脑以极少数据实现高效学习,而非单纯扩大数据量 [30] - 世界模型是下一个重点战场,旨在理解物理规律,路线包括基于视频、基于网格/物理、基于点云等 [31] - 开源和端侧小模型受到关注,目标是让高性能AI能在个人设备上本地运行,打破对云端数据中心的依赖,实现真正的普惠AI [31] - 一批新兴AI实验室获得高额融资,关注领域包括以人为本的AI、自动化AI研究、加速科学发现、企业专用模型、安全超级智能等 [28]