Claude Sonnet 4.5
搜索文档
国家下场
小熊跑的快· 2025-12-23 00:57
美国AI国家战略启动 - 美国能源部联合OpenAI、谷歌等24家科技巨头,启动国家AI“创世纪计划”,参与方包括微软、谷歌、英伟达、OpenAI、DeepMind、Anthropic等 [1] - 该计划标志着美国科技战略从各自为战转向系统性集体攻关,AI模型和计算平台将首次全面应用于可控核聚变、能源材料发现、气候模拟、量子计算算法等重大科学研究 [1] - 美国能源部是AMD、英伟达等公司的重要客户 [2] 行业与公司动态 - 英伟达相关产业链出现反弹 [3] - 特斯拉Robotaxi的盈利逻辑正被海外投行所认知 [3] 主要AI模型参数规模 - 主要AI模型参数总规模达到5.16万亿(5.16T) [5] - 其中,Grok Code Fast 1模型参数为4630亿(463B),Gemini 2.5 Flash为3950亿(395B),Claude Sonnet 4.5为3780亿(378B) [5] - GPT-OSS-120B模型参数为2060亿(206B),Claude Opus 4.5为1790亿(179B),DeepSeek V3.2为1750亿(175B) [5] - 行业模型参数规模以每周8190亿(+819B)的速度增长 [5]
Claude 4.5 杀疯了,能一口气写出一万多行代码… | 极客时间
AI前线· 2025-12-22 05:01
Anthropic发布Claude Sonnet 4.5模型 - Anthropic正式发布Claude Sonnet 4.5,将其定位为“世界上最好的编码模型”和“构建复杂智能体的最强模型”[2] - 在客户测试中,Claude 4.5能连续专注工作超过30小时,而上一代模型的数据是7小时[2] - 其编程能力显著提升,以前是代替1个程序员,现在可以代替4个程序员[2] Claude Sonnet 4.5的性能表现 - 该模型能连续敲出约11,000行代码,快速开发出一款聊天应用[3] - 在Agentic coding SWE-bench Verified基准测试中,Claude Sonnet 4.5得分为77.2%,高于Claude Opus 4.1的74.5%、Claude Sonnet 4的72.7%以及GPT-5的72.8%[3] - 在Agentic terminal coding Terminal-Bench测试中,Claude Sonnet 4.5得分为50.0%,高于Claude Opus 4.1的46.5%、Claude Sonnet 4的36.4%、GPT-5的43.8%以及Gemini 2.5 Pro的25.3%[3] - 在Agentic tool use t2-bench测试中,针对零售、航空和电信场景,Claude Sonnet 4.5得分分别为86.2%、70.0%和98.0%[3] - 在Computer use OSWorld测试中,Claude Sonnet 4.5得分为61.4%[3] - 在High school math competition AIME 2025测试中,Claude Sonnet 4.5得分为87.0%[3] - 在Graduate-level reasoning GPQA Diamond测试中,Claude Sonnet 4.5得分为83.4%[3] - 在Multilingual Q&A MMMLU测试中,Claude Sonnet 4.5得分为89.1%[3] - 在Visual reasoning MMMU (validation)测试中,Claude Sonnet 4.5得分为77.8%[3] - 在Financial analysis Finance Agent测试中,Claude Sonnet 4.5得分为55.3%[3] AI编程工具的发展与影响 - 在编程速度和开发能力上,人类与AI的差距会越来越大[3] - 行业对AI的态度应从竞争对抗转向合作共赢[3] - 除了Claude,市面上好用的AI编程工具还有Cursor,但两者使用门槛都很高[4] - 有硅谷工程师在日常工作中,70%以上的代码直接由AI完成[15] - 该工程师认为AI编程体验类似于L2阶段的自动驾驶:用户给出方向,系统自动执行,仅在复杂或偏离时需人工接管,工作重点从关注每一行代码转向关注结构、目标和约束[15] AI编程学习资源与案例 - 有学习资料提供了具体的项目代码示例,例如一个名为“excaliapp”的项目,其包含React前端和Rust后端的完整目录结构[10] - 部分视频教程选择了有代表性的实操案例,内容涵盖从功能实现到技术选型与AI协作的思维模式升级[11]
谷歌甩出“价格屠夫”,Gemini 3 Flash超Pro,成本仅1/4,速度如“闪电”
36氪· 2025-12-18 03:09
产品发布与核心定位 - 谷歌发布Gemini 3 Flash模型,旨在以更低成本提供前沿智能水平 [1] - 该模型专为迭代式开发打造,能够以低延迟提供接近Gemini 3 Pro级别的编程性能 [6] - 模型将Gemini 3 Pro级别的推理能力与Flash级别的延迟、效率和成本相结合 [5] 成本与定价优势 - 输出每百万token的价格仅为Claude Sonnet 4.5的20%、GPT-5.2的21% [1] - 与Gemini 3 Pro相比,Flash的价格仅为Pro的25% [1] - 具体定价为:输入每百万token 0.50美元,输出每百万token 3.00美元 [9] - 根据典型流量测量,其平均比Gemini 2.5 Pro少使用30%的tokens [11] 性能表现与基准测试 - 在MMMU-Pro基准测试中达到81.2%的分数,与Gemini 3 Pro相当 [8] - 在SWE-bench Verified基准测试中取得78%的成绩,超越了Gemini 2.5系列和Gemini 3 Pro [8] - 在GPQA Diamond基准测试中达到90.4%,在Humanity's Last Exam(无工具)中达到33.7% [8] - 在AIME 2025数学基准测试(无工具)中达到95.2% [9] - 在几乎所有基准测试上都超过了Claude Sonnet 4.5、Gemini 2.5 Pro等模型 [8] 功能与应用场景 - 能够实现多模态推理,近乎实时地提供AI辅助,例如在手部追踪的“弹球解谜游戏”中 [6] - 可近乎实时地构建和A/B测试新的加载动画设计,简化从设计到代码的流程 [6] - 使用多模态推理快速分析带有上下文UI覆盖层的图像并生成字幕,将静态图像转化为交互式体验 [6] - 适合进行复杂视频分析、数据提取和视觉问答的开发者 [6] - 可分析短视频内容并提供可操作计划,例如改进高尔夫挥杆 [6] - 支持“用嘴编程”,仅用语音输入即可在几分钟内将非结构化想法转化为功能正常的应用程序 [7] - 可识别用户知识盲点,创建自定义测验并对答案给出详细解释 [7] 技术特点与效率 - 针对速度进行优化,可以在用户绘图时就“看到”并猜出所画内容 [7] - 能够自动调节思考量,对于更复杂的用例可能会思考更长时间 [11] - 推动了模型质量与成本、速度之间的帕累托边界 [9] 市场影响与战略意义 - Gemini 3 Flash补全了Gemini 3家族在轻量化、高性价比方面的布局 [12] - 其更高性价比有望帮助人工智能更广泛地嵌入日常应用和商业系统 [12] - 模型目前已全面开放,开发者可通过Google AI Studio、Gemini API等平台使用,普通用户可通过Gemini应用程序和谷歌搜索中的AI模式使用 [5]
狙击Open AI!谷歌一个月内连发「数弹」
新浪科技· 2025-12-18 01:39
产品发布与核心定位 - 谷歌于12月18日发布Gemini 3 Flash,定位为Gemini 3系列中速度最快、性价比最高的模型 [1] - 该模型突破了轻量化模型性能打折的传统印象,在保持高速和低成本的同时,部分性能甚至优于旗舰模型 [1][5] - 谷歌CEO表示,该模型在性能和效率上均突破了帕累托极限,性能超越上一代旗舰模型Gemini 2.5 Pro,同时速度提升3倍,价格更低 [3] 性能表现与基准测试 - 在编程能力基准测试SWE-bench Verified中,Gemini 3 Flash得分高达78%,超越了自家旗舰Gemini 3 Pro(76.2%)和竞争对手Claude Sonnet 4.5(77.2%)[4] - 在多模态理解基准MMMU-Pro上,Gemini 3 Flash得分81.2%,超过GPT-5.2(79.5%),并大幅领先Claude Sonnet 4.5(68.0%)[4] - 在数学基准AIME 2025(无工具)测试中,得分为95.2%,与Gemini 3 Pro(95.0%)相当 [5] - 根据大模型竞技场Imarena.ai数据,该模型在文本、图像和编程领域排名前5,在数学和创意写作类别排名第2 [6] 定价策略与成本优势 - Gemini 3 Flash的输入定价为0.5美元/百万Tokens,输出定价为3美元/百万Tokens [5][6] - 其输出价格显著低于主要竞争对手,Claude Sonnet 4.5输出为15美元/百万Tokens,GPT-5.2输出为14美元/百万Tokens,约为Gemini 3 Flash定价的5倍 [6] - 开发者预计,若从GPT-4o或Gemini 3 Pro切换至Gemini 3 Flash,应用运行成本可降低50%-70% [8] 效率与技术进步 - 在典型流量测试中,Gemini 3 Flash平均使用的令牌数量比上一代Gemini 2.5 Pro少30% [7] - 该模型保留了Gemini 3系列在复杂推理、多模态、智能体和编程任务方面的突破性性能,同时具备Flash级别的低延迟和高效率 [7] - 在开发者进行的Python对比测试中,Gemini 3 Flash完成任务仅需9秒,速度快于GPT-5 Mini(35秒)和DeepSeek-V3.2(41秒),且效果更优 [7] 市场策略与影响 - 这是谷歌一个月内在大模型领域的第四次重大更新 [2] - Gemini 3 Flash将面向所有用户推出,包括免费用户,并在Gemini App中替代Gemini 2.5 Flash成为新的默认模型 [8] - 谷歌表示,Flash系列一直是内部最受欢迎的版本,此前的Flash 2和2.5处理了数百万开发者构建的数十万个应用程序中的数万亿个tokens [9] - 自Gemini 3系列发布以来,谷歌内部API每天处理超过1万亿个tokens,用户广泛用于代码模拟、学习复杂主题和构建交互式游戏等 [8] - 凭借此次发布,谷歌旨在巩固其在大模型领域的领先地位,并给竞争对手OpenAI带来压力 [9]
狙击Open AI!谷歌一个月内连发“数弹”
第一财经· 2025-12-18 00:58
文章核心观点 - 谷歌发布新一代大模型Gemini 3 Flash,该模型在速度、成本与性能上实现显著突破,部分性能超越自家旗舰模型及主要竞争对手,旨在为开发者提供无需在速度与智能间妥协的高性价比选择 [3][6][11] 产品发布与定位 - 谷歌于12月18日官宣发布Gemini 3 Flash,这是Gemini 3系列中速度最快、性价比最高的模型 [3] - 该模型定位为“为速度而生的前沿智能”,旨在证明速度与规模无需以牺牲智能为代价 [3][6] - 这是谷歌一个月内在大模型领域的第四次动作更新 [4] - 该模型将面向所有用户推出,免费用户也可使用,并在Gemini App中替代2.5 Flash成为新的默认模型 [10] 性能表现与基准测试 - 在编程能力基准测试SWE-bench Verified中,Gemini 3 Flash得分高达78%,超越了自家旗舰模型Gemini 3 Pro(76.2%)和Anthropic的Claude Sonnet 4.5(77.2%)[6][7] - 在多模态理解基准MMMU-Pro上,Gemini 3 Flash得分81.2%,超过OpenAI的GPT-5.2(79.5%)并大幅领先Claude Sonnet 4.5(68.0%)[6][7] - 在数学基准AIME 2025(无工具)测试中,Gemini 3 Flash得分95.2%,略高于Gemini 3 Pro的95.0% [7] - 在长上下文性能测试MRCR v2(8-needle)的128k平均测试中,得分为67.2% [7] - 在智能体工作流程相关测试中表现突出,例如在Toolathlon测试中得分49.4%,高于Gemini 3 Pro的36.4% [7] - 根据大模型竞技场Imarena.ai数据,Gemini 3 Flash在文本、图像和编程领域排名前5,在数学和创意写作类别排名第2 [8] 速度与成本优势 - 官方称Gemini 3 Flash的速度比上一代旗舰模型2.5 Pro提升了3倍 [6] - 定价极具竞争力:输入价格为0.5美元/百万Tokens,输出价格为3美元/百万Tokens [7][8] - 作为对比,Claude Sonnet 4.5的输出价格为15美元/百万Tokens,GPT-5.2的输出价格为14美元/百万Tokens,均是Gemini 3 Flash的近5倍 [9] - 开发者测试显示,在完成相同Python任务时,Gemini 3 Flash仅需9秒,而GPT-5 Mini和DeepSeek-V3.2分别用了35秒和41秒 [10] - 谷歌表示,根据典型流量测试,Gemini 3 Flash平均使用的令牌数量比上一代2.5 Pro少30% [9] - 开发者估计,若从GPT-4o或Gemini 3 Pro切换到Gemini 3 Flash,成本预计能直接降低50%-70% [10] 市场影响与公司战略 - 谷歌表示,自发布Gemini 3 Pro和Deep Think以来,其内部API每天处理超过1万亿个tokens [11] - 凭借性价比和性能,Gemini 3 Flash预计将受到更广泛欢迎,谷歌称Flash系列一直是内部最受欢迎的版本,此前的Flash 2和2.5处理着数百万开发者构建的数十万个应用程序中数万亿个tokens [11] - 此次发布被视作谷歌又一张王牌,可能进一步巩固其市场领先地位 [11]
Gemini 3 Flash 倒反天罡了:关键性能居然超过了 Pro
36氪· 2025-12-18 00:54
产品发布与核心定位 - Google于12月17日正式发布Gemini 3 Flash模型,其定价仅为Claude Sonnet 4.5的1/5和GPT-5.2的1/4,但性能在多项基准测试中达到或超越旗舰模型,重新定义了“轻量模型”的定位 [1][7][16] - 该模型打破了以往轻量模型“快、便宜、但能力打折”的惯例,以轻量模型的价格提供了旗舰级的能力,实现了性能、成本与速度的最优权衡 [7][12][16] - 此次发布标志着Gemini 3产品家族阵容正式成型,形成了Gemini 3 Pro、Gemini 3 Deep Think和Gemini 3 Flash三个版本,覆盖从轻度用户到硬核开发者的完整需求谱系 [20] 性能与基准测试表现 - 在编码能力方面,Gemini 3 Flash在SWE-bench Verified基准上得分为78%,超过了Claude Sonnet 4.5的77.2%,并且是Flash系列首次超越同代Pro模型(76.2%)[4][9] - 在博士级科学推理基准GPQA Diamond上,Gemini 3 Flash得分为90.4%,大幅领先Claude Sonnet 4.5的83.4%,并接近GPT-5.2的92.4% [8][9] - 在多模态理解基准MMMU-Pro上,Gemini 3 Flash得分为81.2%,超过了GPT-5.2的79.5%,并大幅领先Claude Sonnet 4.5的68.0% [2][8][9] - 在Humanity‘s Last Exam基准(无工具)上,Gemini 3 Flash得分为33.7%,远超Claude Sonnet 4.5的13.7%,差距接近20个百分点 [8][9] 定价与成本优势 - Gemini 3 Flash的输入价格为每百万tokens 0.5美元,输出价格为每百万tokens 3.0美元,仅为自家Gemini 3 Pro价格的四分之一 [9][11] - 其价格约为竞品Claude Sonnet 4.5的1/5,GPT-5.2的1/4,但在多项关键指标上实现打平或领先,性价比显著 [1][10] - 公司为高频调用场景提供了配套成本优化方案,包括Context Caching功能(重复token使用达阈值可降90%成本)和Batch API(异步批量处理可再降50%成本)[19] 效率与速度 - 根据Artificial Analysis测试,Gemini 3 Flash的处理速度比Gemini 2.5 Pro快3倍,在处理日常任务时平均可节省30%的token消耗 [11] - 在多模态分析速度测试中,Resemble AI发现Gemini 3 Flash比Gemini 2.5 Pro快了4倍,能够在不拖慢工作流的情况下处理原始技术输出数据 [6] - 公司官方表示“速度和规模,不必以牺牲智能为代价”,此次发布的数据支撑了这一说法 [12] 市场影响与用户覆盖 - Gemini 3 Flash将直接集成到Gemini App中,替代原来的2.5 Flash成为新的默认模型,这意味着全球所有Gemini免费用户将自动升级至Gemini 3级别的体验 [13][18] - 在Google Search中,AI Mode的默认模型也将在全球范围内升级至Gemini 3 Flash,其强大的推理和多模态能力将提升处理复杂问题的精准度 [15] - Gemini App的月活跃用户已突破6.5亿,较上季度的4.5亿大幅增长,开发者数量达到1300万,API调用量同比增长3倍 [21] - 发布以来,Gemini API的日均处理量已突破1万亿tokens [6] 开发者与生态建设 - Gemini 3 Flash为开发者提供了一个在成本可控前提下,兼具高性能与高速度的新选项,特别适合需要多轮调用和高频迭代的Agent场景 [19] - 模型已在Google AI Studio、Gemini API、Gemini CLI、Android Studio、Vertex AI以及新的Agentic开发平台Google Antigravity等平台上线(预览版)[19][22] - 该模型使开发者能够以远低于竞品旗舰模型的成本,部署有能力处理复杂编码任务(如SWE-bench 78%得分)且对延迟敏感的实时应用 [19] 产品分工与适用场景 - Google为Gemini 3家族明确了新的分工:Gemini 3 Pro凭借Deep Think模式,在极限推理场景(如GPQA Diamond 91.9%得分)中保持优势,适合高难度数学和代码问题 [10][17] - Gemini 3 Flash则凭借其高性价比和速度,适合高频Agent任务和大多数日常场景,为普通用户和开发者提供了“又快又好还便宜”的选择 [10][17][20] - 在Gemini App中,用户可选择三种模式:Fast(由3 Flash驱动,秒回日常问题)、Thinking(由3 Flash驱动,激活深度思考处理复杂逻辑)、Pro(保留3 Pro处理高难度问题)[17]
狙击Open AI!谷歌一个月内连发“数弹”
第一财经· 2025-12-18 00:29
产品发布与核心定位 - 谷歌于12月18日发布Gemini 3 Flash,是其Gemini 3系列中速度最快、性价比最高的模型,标志着公司一个月内在大模型领域的第四次更新 [1] - 该模型突破了轻量化模型性能打折的传统印象,在保持高速和低成本的同时,部分性能甚至优于旗舰模型 [1][4] - 谷歌CEO表示,该模型在性能和效率上突破了帕累托极限,性能超越上一代旗舰模型Gemini 2.5 Pro,同时速度提升了3倍,价格更低 [3] 性能表现与基准测试 - 在编程能力基准测试SWE-bench Verified中,Gemini 3 Flash得分高达78%,超越了自家旗舰Gemini 3 Pro(76.2%)和竞争对手Claude Sonnet 4.5(77.2%)[3] - 在多模态理解基准MMMU-Pro上,Gemini 3 Flash得分81.2%,超过GPT-5.2(79.5%)和Claude Sonnet 4.5(68.0%)[3] - 在数学基准AIME 2025(无工具)测试中得分为95.2%,略高于Gemini 3 Pro的95.0% [4] - 在科学知识基准GPQA Diamond(无工具)测试中得分为90.4%,略低于Gemini 3 Pro的91.9% [4] - 在长上下文性能基准MRCR v2(128k平均)测试中得分为67.2%,低于Gemini 3 Pro的77.0% [4] 定价策略与成本优势 - Gemini 3 Flash的输入定价为0.5美元/百万Tokens,输出定价为3美元/百万Tokens [4][5] - 其输出价格显著低于主要竞争对手:Claude Sonnet 4.5为15美元/百万Tokens,GPT-5.2为14美元/百万Tokens,分别是其定价的近5倍 [6] - 与自家前代产品相比,其输入价格(0.5美元)高于Gemini 2.5 Flash(0.3美元),但远低于Gemini 2.5 Pro(1.25美元)和Gemini 3 Pro(2.00美元)[4] - 开发者测试显示,若用户从GPT-4o或Gemini 3 Pro切换至Gemini 3 Flash,预计成本可降低50%-70% [8] 效率与速度 - 根据典型流量测试,Gemini 3 Flash平均使用的令牌数量比上一代Gemini 2.5 Pro少30% [6] - 在开发者进行的Python对比测试中,Gemini 3 Flash完成任务仅需9秒,而竞争对手GPT-5 Mini和DeepSeek-V3.2分别需要35秒和41秒 [7] - 模型能够灵活调整思考时间以应对复杂场景,同时保留了低延迟特性 [6] 市场定位与采用情况 - 根据大模型竞技场Imarena.ai数据,Gemini 3 Flash在文本、图像和编程领域排名前5,在数学和创意写作类别排名第2,被认为是性价比最高的前沿模型 [5] - 该模型将面向所有用户推出,免费用户也可使用,并在Gemini App中替代Gemini 2.5 Flash成为新的默认模型 [8] - 谷歌表示,Flash系列一直是内部最受欢迎的版本,此前的Flash 2和Flash 2.5处理着数百万开发者构建的数十万个应用程序中的数万亿个tokens [9] - 自Gemini 3系列发布以来,其内部API每天处理超过1万亿个tokens [8] - 公司认为此模型是迄今为止在智能体工作流程方面最出色的模型,旨在让开发者无需在速度与智能之间妥协 [6][9]
罗福莉执掌小米大模型首秀!定调下一代模型,全新MiMo-V2开源还横扫Agent第一梯队
AI前线· 2025-12-17 08:00
小米大模型战略与MiMo-V2-Flash发布 - 小米在2025年合作伙伴大会上,由新任命的大模型负责人罗福莉首次公开亮相,并发布了新一代开源大模型MiMo-V2-Flash [2][3][4] - 该模型采用MoE(混合专家)架构,总参数规模达3090亿,但每次推理仅激活约150亿参数,旨在实现高速、高频、低成本的推理 [8] - 模型设计目标明确为“要跑得快、跑得久、被高频调用也跑得起”,核心是为Agent(智能体)和真实世界应用场景服务 [8][16] 技术负责人背景 - 大模型负责人罗福莉是行业知名AI技术专家,硕士毕业于北大,曾任职于阿里巴巴达摩院和DeepSeek母公司幻方量化,参与研发DeepSeek-V2等模型 [11][12] - 她于2024年11月加入小米,此次演讲是其入职后的首次公开亮相 [13] 模型设计理念与工程逻辑 - 公司认为当前大语言模型本质上是解码了人类思维在文本空间中的投影,而非真正理解物理世界,因此语言是工具而非终点 [19][20][35] - MiMo-V2-Flash的设计目标不是追求“更聪明”,而是“更好用、更可部署”,其技术选择是被Agent场景需求“倒逼”出来的工程取舍 [21][22] - 模型研发主要围绕三大现实挑战展开:智能体需要高效的代码与工具调用沟通语言、智能体间交互带宽低要求极高推理效率、大模型范式正从预训练转向后训练和强化学习 [25][41] 核心技术特点与性能 - 模型采用Hybrid Attention混合注意力结构(Sliding Window Attention与Full Attention比例约5:1),以兼顾长短文本推理并适配现有推理基础设施 [45] - 深入挖掘多词元预测技术潜力,在预训练和微调阶段引入MTP层以提升模型潜能,在推理阶段使用三层MTP并行,实现约2到2.6倍的推理加速 [24][46][47] - 在单机环境下,模型输出吞吐可达5000到15000 token/s,单请求输出速度达150 token/s,相比不使用MTP速度提升约2-3倍 [24][47] - 在后训练阶段,公司提出了Multi-Teacher On-Policy Distillation范式,以高效、稳定地将多个专家模型能力蒸馏到学生模型中 [47][50] 模型性能对比与评测结果 - 在7项主流评测中,MiMo-V2-Flash在Agent、代码、工具调用和复杂任务执行方面已进入全球开源模型第一梯队,整体表现与DeepSeek-V3.2、Kimi-K2-Thinking基本相当 [27][40] - 在SWE-Bench基准测试中,MiMo-V2-Flash在多语言模式下以71.7%的准确率获得一项第一 [28] - 在推理效率对比上,MiMo-V2-Flash的推理成本略低于DeepSeek-V3.2,但推理速度约为后者的三倍;与综合能力相近的Gemini 2.5 Pro相比,推理速度接近,但成本低约20倍 [40][48] 对AGI发展的观点与未来方向 - 公司认为当前大模型虽能完成复杂任务,但缺乏对物理一致性、时空连续性及因果关系的理解,这是“具身幻觉”的根源 [30][52] - 真正的下一代智能体需从“回答问题”转向“完成任务”,并具备与世界交互的能力,其核心是构建一个统一、动态的世界模型,而非仅增加多模态输入 [31][32][52][53] - 智能不是从文本中“读出来”,而是要在与真实环境的持续交互中“活出来”,AI进化的下一个关键点是发展能够持续交互的物理模型 [33][52] - 公司对开源持积极态度,视其为一种分布式的技术加速机制,是缩短开源与闭源差距、推动AGI普惠化的现实路径 [33] 模型发布与生态 - MiMo-V2-Flash已正式发布并开源,同步开放了模型权重、技术报告和API,方便开发者接入Web Coding、IDE等场景,体验网页也已上线 [50]
GPT-5.2“发布在即”,微软CEO宣布:周五将揭晓“下一代”Agentic AI模型
华尔街见闻· 2025-12-11 06:07
微软独立发布AI模型 - 微软CEO Satya Nadella宣布将于周五发布一款新的AI模型,该模型将把AI代理提升到新的水平 [1] - 此举可能反映出公司在AI领域寻求更大自主权的战略意图,而不仅仅依赖合作伙伴OpenAI的技术进度 [2] OpenAI GPT-5.2发布计划 - OpenAI原计划最早于12月9日发布GPT-5.2模型,较原定的12月下旬计划明显提前,以应对谷歌Gemini和Anthropic Claude的激烈竞争 [2] - 由于开发问题、服务器容量限制以及竞争对手的动作,GPT-5.2的实际推出时间可能会晚于12月9日,截至发稿仍未发布 [3] AI行业竞争格局 - 行业竞争白热化,主要参与者包括OpenAI、谷歌(Gemini)、Anthropic(Claude)以及微软 [2] - 社交媒体流传的对比图显示,GPT-5.2在参数上几乎全面“碾压”Gemini 3和Claude 4.5,OpenAI CEO Sam Altman在内部评估中宣称新模型在推理能力上将领先于谷歌竞品 [2] GPT-5.2性能基准测试数据 - **学术推理**:在Humanity's Last Exam基准测试中得分为67.4%,显著高于Gemini 3 Pro的37.5%和Claude Sonnet 4.5的13.7% [3] - **视觉推理**:在ARC-AGI-2基准测试中得分为62.2%,高于Gemini 3 Pro的31.1%和Claude Sonnet 4.5的13.6% [3] - **科学知识**:在GPQA Diamond基准测试中得分为95.8%,略高于Gemini 3 Pro的91.9%和Claude Sonnet 4.5的83.4% [3] - **数学能力**:在AIME 2025(无工具)基准测试中得分为100%,高于Gemini 3 Pro的95.0%和Claude Sonnet 4.5的87.0% [3] - **多模态理解**:在MMMU-Pro基准测试中得分为89.1%,高于Gemini 3 Pro的81.0%和Claude Sonnet 4.5的68.0% [3] - **屏幕理解**:在ScreenSpot-Pro基准测试中得分为80.0%,高于Gemini 3 Pro的72.7%和Claude Sonnet 4.5的36.2% [3] - **图表信息合成**:在CharXiv Reasoning基准测试中得分为89.5%,高于Gemini 3 Pro的81.4%和Claude Sonnet 4.5的68.5% [3] - **视频知识获取**:在Video-MMMU基准测试中得分为96.4%,高于Gemini 3 Pro的87.6%和Claude Sonnet 4.5的77.8% [3] - **竞争性编程**:在LiveCodeBench Pro基准测试中得分为2,683分,高于Gemini 3 Pro的2,439分和Claude Sonnet 4.5的1,418分 [3] - **代理式终端编码**:在Terminal-Bench 2.0基准测试中得分为59.6%,高于Gemini 3 Pro的54.2%和Claude Sonnet 4.5的42.8% [3] - **代理式编码**:在SWE-Bench Verified基准测试中得分为83.8%,高于Gemini 3 Pro的76.2%和Claude Sonnet 4.5的77.2% [3] - **代理式工具使用**:在t2-bench基准测试中得分为93.9%,高于Gemini 3 Pro的85.4%和Claude Sonnet 4.5的84.7% [3] - **长程代理任务**:在Vending-Bench 2基准测试中得分为$6,025.98,高于Gemini 3 Pro的$5,478.16和Claude Sonnet 4.5的$3,838.74 [3] - **参数知识**:在SimpleQA Verified基准测试中得分为79.3%,高于Gemini 3 Pro的72.1%和Claude Sonnet 4.5的29.3% [3] - **多语言问答**:在MMLU基准测试中得分为100%,高于Gemini 3 Pro的91.8%和Claude Sonnet 4.5的89.1% [3] - **长上下文性能**:在MRCR v2 (128k)基准测试中得分为84.7%,高于Gemini 3 Pro的77.0%和Claude Sonnet 4.5的47.1% [3] 微软在印度的投资 - 公司本周早些时候宣布了在印度投资175亿美元建设AI云基础设施的计划 [1] - 公司还宣布了为印度人口提供AI时代培训的项目 [1]
让 AI 三巨头给锦秋设计 IP 形象,结果是翻车还是惊喜? | 锦秋AI实验室
锦秋集· 2025-12-08 06:28
文章核心观点 - 文章记录了锦秋AI实验室利用多轮AI模型协作,从品牌理解到视觉生成,为自身设计品牌IP形象的实验过程,旨在探索AI在品牌设计领域的应用潜力与通用方法 [4][5][6] - 实验表明,当前AI在IP形象生成上并非简单的“输入-输出”,其效果高度依赖于提供的“语境”而非“控制”,通过提供明确的风格引导比提供具体形象参考更能激发AI的原创性,但最终的选择和意义赋予仍需依赖人类 [4][35][36][48][50][51] 实验设计与方法 - 实验采用“策略组”与“执行组”分工协作的流程模拟人类设计工作室,策略组负责分析品牌并撰写视觉指令,执行组负责图像渲染,这是目前尝试下来生成最稳定的方法 [6][8] - 策略组使用了Google Gemini 3 Pro、Claude Sonnet 4.5和GPT-5.1三个大语言模型,视觉执行组使用了Nano Banana和即梦4.0两个文生图工具 [8] - 实验向AI投喂了包括品牌Logo、官方介绍、过往发布的343条深度内容以及内部价值观等全方位内容语料,旨在让AI深度理解品牌内涵 [7] 三轮测试过程与发现 第一轮:自由发挥测试 - 测试方法:不给任何视觉参考,完全依赖AI对文本的理解进行自由生成 [9] - 核心发现:生成的9个方案均陷入“蓝色发光体”的刻板印象,AI潜意识里将机器人、科技感、蓝色光效等同于AI行业IP公式,导致方案千篇一律,缺乏品牌独特辨识度 [16][22][23] - 技术局限:存在语言与视觉的断裂,文字描述的丰富细节在转化为图像时大量损失,可能因基础版工具对复杂概念理解不够精准 [23] 第二轮:引入参照物测试 - 测试方法:为打破刻板印象,向AI投喂了具体的IP角色偏好参考,包括Labubu(凶萌态度)、华为AI陪伴IP憨憨(情感守护)、AI山海经(想象力),并升级使用Nano Banana Pro和即梦4.0工具 [24][26] - 核心发现:虽然视觉精度提升,但AI陷入了“过度拟合”陷阱,倾向于模仿甚至复制参考对象(如Labubu),而非进行创造性融合,同时生成的形象偏向冰冷、有距离感的机械神兽审美,偏离了品牌“陪伴”的初衷 [30][31][33] - 工具差异:不同工具特性导致风格割裂,Nano Banana Pro更易模仿参考图风格,即梦生成的图像质感细腻但易流于通用盲盒公仔风 [34] 第三轮:风格引导测试 - 测试方法:核心策略从提供具体“角色参考”转向提供“风格引导”,从外部平台选取四种截然不同的视觉风格模板,要求AI先学习风格再与品牌内核融合 [36][37] - 核心发现:此轮进步显著,AI生成了具有清晰面部特征和辨识度的形象,并开始理解视觉元素的隐喻(如卫衣代表硅谷极客文化,外骨骼象征硬核技术) [46][48] - 成功关键:通过界定具体的风格范式,AI实现了从照搬参考图到提取风格特征进行原创性跨越,证明了提供“Vibe”(氛围/语境)比提供具体形象更有效 [35][48] - 工具应用场景:Nano Banana Pro在艺术风格化上表现突出,适合主视觉探索;即梦生成的图像接近成熟商业3D渲染,适合作为实体周边开发蓝本 [48] AI对品牌的人格化解读 - **Gemini 3 Pro**:将品牌比作动物“边境牧羊犬”(智商第一、敏锐、忠诚陪伴)和电影角色“托尼·斯塔克/钢铁侠”(硬核技术控、钞能力与资源、生活家与组局者、未来主义) [10][11] - **Claude Sonnet 4.5**:将品牌比作动物“蜂鸟”(体型小但能量密度极高,翅膀每秒振动80次,代表高频高效、敏锐反应)和电影角色《超能陆战队》中的“Baymax(大白)迷你工程师版”(技术陪伴与成长照护者) [10][12][13] - **GPT-5.1**:将品牌比作动物“章鱼/墨鱼”(多条触手并行多赛道、高智商灵活适应)和“猫头鹰”(站在高处看全局、安静洞察),以及电影角色组合《头号玩家》系统向导 + TARS机器人 + 《超能陆战队》工程团队(游戏规则解读者、硬核工程能力、温柔陪伴) [11][14][15][16]