从模型能力到生态布局，多款重磅产品发布，近期AI新鲜事还有这些……

Google Gemini 3模型发布 - 官方称其为"智能的新纪元"并定位为通往AGI的重要一步在发布当天直接集成到Google搜索中[5] - 在各种基准测试上超越竞争对手并登上LMArena榜首在红杉中国xbench-ScienceQA榜单中以71.6的平均分超越Grok-4成为新SOTA[5] - 具备原生多模态、强大推理和Agent能力在推理和多模态理解能力上带来质的飞跃在复杂决策任务中相对同类顶尖模型具有压倒性优势且价格更便宜[5] - 在Humanity's Last Exam测试中优势明显领先GPT-5.1一档几乎是Claude 4.5的三倍在GPQA Diamond数据集上达到90%分以上[7] - 在常规数学测试集AIME上是当今数学推理最强的通用模型使用代码执行可达100% 在MathArena Apex上领先竞争对手几十倍[7] - 视频理解能力达87.6%领先其他大模型屏幕理解能力达72.7%而GPT-5.1仅3.5% 呈现碾压级优势[7] - AI编程能力全面领先编程竞赛得分2439分比GPT-5.1高出200多分[8] Google Antigravity IDE产品 - 颠覆性AI原生IDE产品将AI代理、代码编辑器和浏览器三个核心开发工具集成在一起[8] - 构建由AI驱动的完整闭环涵盖从编码、研究、测试到验证的全流程打通自家生态[8] - 让开发者聚焦高层次工作可管理跨工作区的智能体智能体能在编辑器、终端和浏览器间无缝切换并自主执行复杂端到端任务[8] - AI会在工作关键节点主动汇报计划、进展与结果刷新IDE使用体验[8] GPT-5.1版本升级 - 对GPT-5进行功能升级强调更智能并突出个性化和对话舒适度[10] - 推出6种预设对话模式并支持用户精细调节参数在聊天过程中会主动询问用户对语气的偏好[11] - 被描述为向"打造贴合用户需求的ChatGPT"迈出的重要一步[11] - GPT-5.1 Instant模型语气更亲切、更智能且善于遵循指令引入自适应推理能力日常对话很会接梗[13] - GPT-5.1 Thinking模型主打专业推理简单任务响应速度更快复杂问题通过深思考输出更优质答案[13] Manus Browser Operator浏览器扩展 - 用户无需下载新应用或改变上网习惯即可让任意浏览器升级为"AI浏览器"[14] - 支持跨账号会话感知、自动化任务执行打破传统浏览器标签页壁垒实现跨标签页协同与智能编排[14] - 解决AI访问受保护资源时触发验证码、速率限制或会话过期的问题 AI操作员使用用户已有的浏览器会话和IP地址[15] - 无需额外API密钥或复杂云端设置能以极低成本提供自动化能力可完成复杂的多步骤操作如交叉引用市场数据、生成报告等[15] 麦肯锡2025 AI报告洞察 - AI已成为近九成受访企业中的标配项但仅约三分之一企业实现了AI的规模化应用[17] - 超六成受访者认可AI在创新方面的价值但仅有39%的企业表示获得了可量化的财务回报[17] - 顶尖企业更注重利用AI重构工作流、升级客户体验以实现底层业务革新 AI Agent成新热潮且有62%的企业已入局[17] Kimi K2 Thinking模型表现 - 在Artificial Analysis评测中以67分的智能指数得分摘下开源模型桂冠[19] - 在智能体应用场景测评中获全球第二成绩紧追GPT-5 代码能力综合指数超越之前的开源领先者DeepSeek V3.2[19] - 具备万亿参数、性能赶超GPT-5且成本更低正重新定义开源AI行业标杆[19] Grok 4 Fast模型升级 - 将上下文窗口扩展至200万token 相当于约150万英文单词是GPT-5的5倍、Gemini 2.5 Pro的2倍[21] - 用户可一次性输入整本书或整个代码库而不必切碎文档重新定义"实时AI推理"的样貌[21] - 推理质量显著提升推理模式准确率从77.5%提升至94.1% 非推理模式从77.9%提升至97.9%[21] - Grok Imagine视觉创作能力同步升级输出效果逼真从x.ai的API调用量来看正成为开发者新宠[21]