Google Gemini 3模型发布 - 官方称其为"智能的新纪元"并定位为通往AGI的重要一步 在发布当天直接集成到Google搜索中[5] - 在各种基准测试上超越竞争对手并登上LMArena榜首 在红杉中国xbench-ScienceQA榜单中以71.6的平均分超越Grok-4成为新SOTA[5] - 具备原生多模态、强大推理和Agent能力 在推理和多模态理解能力上带来质的飞跃 在复杂决策任务中相对同类顶尖模型具有压倒性优势且价格更便宜[5] - 在Humanity's Last Exam测试中优势明显 领先GPT-5.1一档 几乎是Claude 4.5的三倍 在GPQA Diamond数据集上达到90%分以上[7] - 在常规数学测试集AIME上是当今数学推理最强的通用模型 使用代码执行可达100% 在MathArena Apex上领先竞争对手几十倍[7] - 视频理解能力达87.6%领先其他大模型 屏幕理解能力达72.7%而GPT-5.1仅3.5% 呈现碾压级优势[7] - AI编程能力全面领先 编程竞赛得分2439分 比GPT-5.1高出200多分[8] Google Antigravity IDE产品 - 颠覆性AI原生IDE产品 将AI代理、代码编辑器和浏览器三个核心开发工具集成在一起[8] - 构建由AI驱动的完整闭环 涵盖从编码、研究、测试到验证的全流程 打通自家生态[8] - 让开发者聚焦高层次工作 可管理跨工作区的智能体 智能体能在编辑器、终端和浏览器间无缝切换并自主执行复杂端到端任务[8] - AI会在工作关键节点主动汇报计划、进展与结果 刷新IDE使用体验[8] GPT-5.1版本升级 - 对GPT-5进行功能升级 强调更智能并突出个性化和对话舒适度[10] - 推出6种预设对话模式并支持用户精细调节参数 在聊天过程中会主动询问用户对语气的偏好[11] - 被描述为向"打造贴合用户需求的ChatGPT"迈出的重要一步[11] - GPT-5.1 Instant模型语气更亲切、更智能且善于遵循指令 引入自适应推理能力 日常对话很会接梗[13] - GPT-5.1 Thinking模型主打专业推理 简单任务响应速度更快 复杂问题通过深思考输出更优质答案[13] Manus Browser Operator浏览器扩展 - 用户无需下载新应用或改变上网习惯即可让任意浏览器升级为"AI浏览器"[14] - 支持跨账号会话感知、自动化任务执行 打破传统浏览器标签页壁垒 实现跨标签页协同与智能编排[14] - 解决AI访问受保护资源时触发验证码、速率限制或会话过期的问题 AI操作员使用用户已有的浏览器会话和IP地址[15] - 无需额外API密钥或复杂云端设置 能以极低成本提供自动化能力 可完成复杂的多步骤操作如交叉引用市场数据、生成报告等[15] 麦肯锡2025 AI报告洞察 - AI已成为近九成受访企业中的标配项 但仅约三分之一企业实现了AI的规模化应用[17] - 超六成受访者认可AI在创新方面的价值 但仅有39%的企业表示获得了可量化的财务回报[17] - 顶尖企业更注重利用AI重构工作流、升级客户体验以实现底层业务革新 AI Agent成新热潮且有62%的企业已入局[17] Kimi K2 Thinking模型表现 - 在Artificial Analysis评测中以67分的智能指数得分摘下开源模型桂冠[19] - 在智能体应用场景测评中获全球第二成绩紧追GPT-5 代码能力综合指数超越之前的开源领先者DeepSeek V3.2[19] - 具备万亿参数、性能赶超GPT-5且成本更低 正重新定义开源AI行业标杆[19] Grok 4 Fast模型升级 - 将上下文窗口扩展至200万token 相当于约150万英文单词 是GPT-5的5倍、Gemini 2.5 Pro的2倍[21] - 用户可一次性输入整本书或整个代码库而不必切碎文档 重新定义"实时AI推理"的样貌[21] - 推理质量显著提升 推理模式准确率从77.5%提升至94.1% 非推理模式从77.9%提升至97.9%[21] - Grok Imagine视觉创作能力同步升级 输出效果逼真 从x.ai的API调用量来看正成为开发者新宠[21]
从模型能力到生态布局,多款重磅产品发布,近期AI新鲜事还有这些……