GPT 4.1
搜索文档
AI人格分裂实锤,30万道送命题,撕开OpenAI、谷歌「遮羞布」
36氪· 2025-10-27 00:40
研究背景与核心发现 - Anthropic联合Thinking Machines机构通过设计超过30万个“两难问题”场景,对包括OpenAI、谷歌Gemini、Anthropic和马斯克的xAI在内的12个前沿大模型进行压力测试[1][18][29] - 研究发现,大模型的“行为准则”(即“模型规范”)本身存在矛盾和漏洞,当原则发生冲突时,模型表现出高度分歧和不确定性[5][8][31] - 在模型响应存在较大分歧的情景中,模型集体违反其“模型规范”的概率暴增了5到13倍[11][13] 模型规范的内在问题 - “模型规范”是大型语言模型被训练遵循的行为准则,但在现实中其原则经常“打架”,例如“商业效益”和“社会公平”的冲突[3][5] - 规范问题主要表现为直接矛盾(如“假设最佳意图”原则与安全限制矛盾)和解释性歧义,导致模型难以找到满足所有原则的答案[13][15] - 评估模型对于何为合规存在分歧,一致性仅为中等程度(Fleiss's Kappa 值为 0.42)[14] 压力测试方法论 - 研究团队从其包含3000多个价值观的语料库中随机抽样15万对价值观,并提示大语言模型生成需要平衡这些价值观对的用户查询[20] - 通过价值偏向化处理使查询数量增加两倍,最终数据集包含超过41万个情景,并筛选出30万个能引发不同模型响应行为的查询子集[22][27] - 采用三种不同的模型(Claude 4 Opus、Claude 3.7 Sonnet 和 o3)进行查询生成以增强多样性,其中基于推理的模型产出的查询质量显著更高[24][25][26] - 通过自动化评分标准生成和匹配过程,对12个前沿模型的响应按偏好强度进行分类(0-6分),以量化分歧[33][34] 主要厂商模型行为特征 - Claude模型优先考虑道德责任,拒绝执行可能有问题的请求频率比其他模型高出多达7倍[37][41] - Gemini模型强调情感深度,在评估规范遵循性时表现出独特的主观解释[16][37] - OpenAI和Grok模型以商业效率为优化目标,其中Grok 4的异常响应值最高,更愿意回应其他模型认为有害的请求[37][46] - o3模型直接拒绝请求的比例最高,常常是不加说明地简单回绝[41] 行业共识与安全底线 - 所有测试模型在涉及儿童诱骗风险的场景中拒绝率均呈上升趋势,表明保护未成年人是行业最高优先事项之一[43][46] - 研究揭示了系统性的假阳性拒绝问题,即在敏感话题上的高分歧场景中,模型会过度拒绝可能合法的请求[40]
AI大家说 | Kimi K2:全球首个完全开源的Agentic模型
红杉汇· 2025-07-18 12:24
模型架构与技术特点 - 采用稀疏MoE架构,拥有1万亿总参数量,激活参数为320亿,包含384个专家,每个token选择8个专家进行计算,并设置1个共享专家提高通用性 [4] - 使用改进的MuonClip优化器,在15.5万亿tokens预训练规模下保持稳定,避免大模型常见的"训练崩溃"问题 [7] - 最大上下文长度达128K,擅长处理长文档理解、长对话及大规模检索任务 [8] 性能表现与基准测试 - 在SWE Bench Verified、Tau2、AceBench等测试中取得开源模型SOTA成绩,代码、Agent、数学推理能力领先 [8] - LiveCodeBench编程基准测试准确率53.7%,超越GPT-4.1(44.7%),OJBench得分27.1% [19] - SWE-bench Verified单次尝试准确率65.8%,超越多数开源模型 [21] - Tau2-bench加权平均值66.1%,AceBench英文测试准确率80.1%,MMLU-Pro多语言测试进入领先梯队 [25] 开源与商业化 - 模型权重和代码发布于Hugging Face与Github,采用MIT许可证,支持免费使用与修改 [24] - API定价为4元/百万输入tokens和16元/百万输出tokens,成本优势显著 [24] - 海外平台如OpenRouter、Cline、Visual Studio Code已宣布接入 [12] 行业影响与评价 - 英伟达创始人黄仁勋评价其为"全球最优秀推理模型之一",开源价值获全球认可 [9] - Hugging Face联合创始人称赞其突破闭源限制,《自然》期刊称其引发"DeepSeek时刻" [13][14] - Perplexity CEO计划基于K2进行后训练,科技媒体评价其"成本低廉、性能卓越" [12][16] 应用场景 - 擅长前端开发,可生成3D场景代码,支持粒子系统、可视化等复杂交互 [20] - 能自动解析13万行数据,生成统计图表与回归模型报告,适用于数据分析 [22] - 在EQ-Bench3情商测试与Creative Writing v3创意写作测试中登顶 [25]
o3深度解读:OpenAI终于发力,agent产品危险了吗?
虎嗅· 2025-04-25 14:21
文章核心观点 - 文章着重解读OpenAI新发布的o3、o4 - mini等模型及开源的Codex CLI,分析其特点、能力、应用机会、可靠性、定价等方面,还探讨了RL Scaling方向及相关论文观点 [1][3][59] 各部分总结 o3和o4 - mini模型特点 - o3是最先进推理模型,有全面推理能力、丰富tool use方式和全新多模态CoT能力;o4 - mini是为高效推理优化的小模型,在部分benchmark表现不错,思考时间更短 [3][4] - 两个模型在agentic和multimodal能力上完整性出色,可实现agentic浏览网络、多次迭代搜索信息,付费用户可体验o3、o4 - mini和o4 - mini - high,o1、o3 - mini和o3 - mini - high已下架 [5] o3让ChatGPT进化 - Agentic能力是o3与之前o系列模型最大区别,工作方式和效果接近Deep Research,tool use体验无缝,突破原本o系列模型能力约束 [7][9] - 测试显示,o3在完成特定任务上有表现,虽首次执行部分任务有不足,但经提示可完成,且在部分任务结果呈现上比Manus更简洁、重点突出 [10][11][18] 多模态CoT解锁应用机会 - o3和o4 - mini首次将图像融入CoT,能“看懂”图像、用图像思考,在多模态理解benchmarks中领先,在事实可靠性任务中可用性增强 [41] - 测试表明,o3能对模糊图片进行处理和推理,识别剧中人物和图片拍摄地点 [44][46] o3可靠性提升 - o3在实现困难任务时比o1少犯20%重大错误,能意识到自身无法解决的问题,减少模型幻觉,增加可靠性 [56] OpenAI开源Codex CLI - 开源的Codex CLI是轻量级coding agent,可在本地电脑运行,支持多模态推理,目的是将AI模型与用户计算机无缝连接,普及竞争对手已有产品以占领市场 [59][62] - 具有多模态推理和与本地代码环境集成两个重要特性,为开发者与AI交互开辟新可能,融入开发者工作流程 [63] 负面评价 - 用户负面评价集中在视觉推理能力不稳定和AI Coding能力不强两方面 [64] 定价情况 - o3比其他一线模型贵,Claude 3.7、Grok 3、Gemini 2.5 pro效果在同一水平,Claude 3.7定价相对较贵,Grok 3对标Claude 3.7 Sonnet定价,Gemini 2.5价格最低 [72] - o4 - mini定价是o3的1/10,比Claude 3.7便宜,gpt - 4.1性价比不高,但利用好gpt - 4.1 - mini或o4 - mini性价比高,几家模型定价在同一水平竞争,Gemini和OpenAI相对便宜 [73][74] RL Scaling及Era of Experience - o3开发中发现large - scale RL规律,OpenAI通过RL训练o3和o4 - mini,在o3 RL training和inference time scaling投入算力比o1高一个数量级 [76][78] - Richard Sutton和David Silver发布文章强调新一代agent需从experience中学习达到superhuman水平,RL重要性将提升,还论述了奖励和规划推理相关观点 [81][82]
o3 深度解读:OpenAI 终于发力 tool use,agent 产品危险了吗?
海外独角兽· 2025-04-25 11:52
OpenAI新模型发布 - OpenAI发布o3和o4-mini模型,其中o3是目前最先进的推理模型,具有全面的推理能力、丰富的tool use方式和全新的多模态CoT能力 [5] - o4-mini是专为高效推理优化的小模型,在某些benchmark上表现优于o3,但实际使用中思考时间明显更短 [5] - 两个模型实现了agentic浏览网络、Python代码执行与可视化、图片推理与增强、文件读取等能力 [5] - 模型定价方面,o3比其他一线模型更贵,o4-mini定价是o3的1/10 [59][60] Agent能力突破 - o3的agentic能力接近理想agent,任务完成方式与Deep Research类似,能在3分钟内给出不错结果 [6] - o3的tool use体验无缝,比Devin、Manus等产品更快更自然,思考推理过程更长不截断 [6] - 测试显示o3能完成YC官网企业信息整理和Amazon销售数据分析等复杂任务,表现优于Manus [7][8][11][12] - 用户案例显示o3能自主定位Youtube视频内容并进行分析搜索,类似完整agent的工作方式 [28] 多模态能力进展 - o3和o4-mini首次实现将图像直接融入CoT,能"看懂"图像并用图像思考,在多模态理解benchmark领先 [33] - 测试显示模型能处理模糊、反转或低质量图像,理解内容并进行裁剪、旋转等操作 [34] - 模型通过地貌、文字等线索成功识别埃及尼罗河和马来西亚婆罗洲等地理位置 [37][39] - 但视觉推理能力仍不稳定,在数手指、判断时钟时间等任务上存在系统性错误 [53][55][56] 技术路线与商业化 - agent产品分化为两类技术路线:OpenAI的黑盒端到端训练和Manus的白盒工作流外置 [4][6] - OpenAI将agent产品作为未来商业化收入重点,可能覆盖通用agent产品市场 [3] - 开源Codex CLI旨在普及竞品功能,具有多模态推理和本地代码环境集成两大特性 [47][51] - RL Scaling依然有效,算力投入与性能提升成正比,o3比o1表现更好 [61][62] 强化学习发展方向 - RL教父提出"体验时代"概念,强调agent需从自主经验中学习达到超人类水平 [65][68] - 未来agent将形成长期连续experience stream,能自我修正实现长期目标 [68] - 需转向基于真实环境信号的奖励机制,如健康数据、考试成绩等 [70] - agent可能发展出非人类思维方式,结合世界模型实现更有效规划 [71]