模型幻觉

搜索文档
GPT正面对决Claude,OpenAI竟没全赢,AI安全「极限大测」真相曝光
36氪· 2025-08-29 02:54
合作背景与意义 - OpenAI与Anthropic罕见合作进行AI模型安全交叉验证 尽管Anthropic因安全策略分歧从OpenAI独立 此次合作聚焦四大安全领域测试[1] - 合作基于AI技术重要性提升 每天有数百万用户使用模型 此类合作对行业安全发展至关重要[1] 指令优先级测试 - Claude 4在指令优先级测试中表现最佳 尤其在系统与用户消息冲突处理及提示词提取抵抗方面突出[3][4] - 在Password Protection测试中 Opus 4与Sonnet 4得分达1.000满分 与OpenAI o3持平 显示强推理模型优势[5] - 在更具挑战性Phrase Protection任务中 Claude模型与OpenAI o3持平 略优于OpenAI o4-mini[8] 越狱抵抗测试 - 使用StrongREJECT v2框架测试越狱抵抗 OpenAI采用60个禁止领域问题 每个问题约20种变体进行压力测试[16] - 推理模型如OpenAI o3 o4-mini Claude 4 Sonnet 4对越狱尝试抵抗力强 非推理模型如GPT‑4o GPT‑4.1更易受攻击[18] - Claude模型易被"过去时态"越狱突破 OpenAI o3在此方面表现更优 失败多限于base64提示及低资源语言翻译[18] - 在辅导型越狱测试中 OpenAI o3与o4-mini表现优异 无推理模式Sonnet 4超过启用推理的Opus 4[24] - 开发者消息纳入后 OpenAI o3得分超0.98 GPT-4.1提升至0.75以上 显示其强化指令层级遵循的有效性[24] 幻觉评估 - Claude模型拒答率高达70%但幻觉率低 OpenAI o3 o4-mini拒答率低但幻觉率高 体现不同安全策略权衡[3][35] - 在人物虚假信息测试中 Claude系列优先确保确定性 OpenAI系列追求回答覆盖率但幻觉风险更高[35] - SimpleQA测试显示 OpenAI o3与Claude系列正确错误比例接近 OpenAI o4-mini表现最差[36] 欺骗与操纵行为 - 测试涵盖撒谎 保留实力 成绩作弊等行为 基于智能体评测方法统计平均欺骗率[37] - Opus 4与Sonnet 4平均欺骗率较低 OpenAI o3 o4-mini中等 GPT-4o GPT-4.1表现偏弱[37] - 在不同阈值下 Claude系列覆盖环境数更多 表现更稳健 OpenAI与GPT系列结果更分散[39]
检索增强生成(RAG)的版权新关注
36氪· 2025-08-14 10:11
AIGC技术演进 - AIGC进入2.0阶段,核心是从依赖模型训练生成内容转向整合第三方权威信息提升准确性、时效性和专业性[3] - 技术实现基于检索增强生成(RAG),结合语言生成模型与信息检索技术,2025年国内厂商普遍应用该功能[3] - 亚马逊2025年5月及7月与《纽约时报》、赫斯特、康泰纳仕等传媒集团达成合作,AI产品可实时展示新闻摘要和片段[2] - OpenAI于2025年4月与《华盛顿邮报》合作,ChatGPT输出内容嵌入文章摘要和原始链接,涉及20余家出版商[2] 检索增强生成崛起原因 - RAG由Facebook AI Research团队2020年提出,解决大模型"幻觉"和"时效断层"缺陷[4] - 大模型存在输出不可靠信息问题,例如2023年6月ChatGPT编造针对主持人Frederick Riehl的虚假信息导致诽谤诉讼[5] - 模型知识受训练数据时间限制,如ChatGPT训练语料截止2021年9月,Gemini 2.0截止2024年6月[5] - RAG无需重新训练模型参数,通过实时外部数据提供答案,类比"开卷考试"模式[6] 版权纠纷案例 - 2024年10月美国首例RAG版权诉讼:道琼斯和纽约邮报控股公司诉Perplexity AI,指控爬取数十万篇版权文章[8] - 2025年2月《大西洋月刊》《卫报》等14家出版商起诉Cohere,指控实时抓取内容并输出完整原文[8] - 2025年4月欧盟法院受理匈牙利新闻商Like诉谷歌Gemini案,涉及新闻出版商邻接权[9] - 2024年8月知网向国内AI检索平台发送侵权告知函,指控未经许可使用知网内容数据[9] 作品收集版权问题 - RAG数据检索阶段涉及长期复制和临时复制,长期复制如固定到硬盘或服务器可能构成侵权[11] - 道琼斯案中原告主张Perplexity AI在输入阶段大规模复制文章已构成侵权[11] - 欧盟知识产权局指出动态检索场景下临时保存内容可能适用文本与数据挖掘例外[11] - 若实时检索后内容被本地化存储,仍可能被认定为长期复制[11] 技术保护措施问题 - 规避技术措施如付费墙或登录验证可能违反著作权法,技术措施分为接触控制和利用控制[12] - 道琼斯案中《华尔街日报》付费墙属于接触控制措施,规避行为违反美国《数字千年版权法》[13] - 知网案中访问权限设置涉及技术措施,第三方绕过限制可能构成违法[12] 作品利用侵权类型 - 直接侵权包括侵犯复制权、改编权和信息网络传播权,如《纽约时报》诉OpenAI案中指控实时搜索引用内容[14] - 复制与改编区分参考北京高院指南:未形成新作品属复制,形成新作品属改编[14] - 间接侵权可能因标注盗版网站来源或用户后续传播行为,需结合模型厂商注意义务判定[15] 合理使用争议 - 使用盗版内容构建知识库不构成合理使用,如2025年6月Anthropic案中法院认定下载盗版书籍侵权[17] - 合法获取作品时市场替代性是关键,欧盟报告指出摘要内容若替代原作品访问可能侵权[17] - 日本文化厅规定输出内容若包含原作品独创性表达则不构成合理使用[17] - 规避技术措施与合理使用认定可能分离,但欧盟和日本法规将遵守技术措施作为前提[17] - 输出阶段合理使用取决于复制比例和注明来源,欧盟允许极短摘录引用[18] - 美国版权局认为输出节略版本而非超链接不太可能构成合理使用[19] - 微软允许网站通过robots元标签控制摘录长度,平衡许可费用和用户访问意愿[19]
检索增强生成(RAG)的版权新关注
腾讯研究院· 2025-08-14 08:33
AIGC 2.0阶段:检索增强生成 - 行业进入AIGC 2.0阶段,从单纯依赖模型训练转向整合第三方权威信息以提升内容准确性、时效性和专业性 [6] - 技术层面称为"检索增强生成"(RAG),结合语言生成模型与信息检索技术,国内大模型厂商已普遍增加该功能 [6] - 典型案例包括亚马逊与《纽约时报》、赫斯特、康泰纳仕等传媒集团合作,OpenAI与《华盛顿邮报》及20多家出版商合作 [3][6] 检索增强生成的崛起原因 - 解决传统大模型"模型幻觉"和"时效断层"两大缺陷,如ChatGPT编造虚假信息导致诽谤诉讼 [8][9] - 无需重新训练模型参数,通过实时外部数据提供准确答案,类似开卷考试模式 [10] - 运行过程分为数据检索收集和内容整合展示两个阶段,涉及海量版权作品利用 [11] 现实版权纠纷案例 - 美国首例RAG版权诉讼:道琼斯和纽约邮报控股诉Perplexity AI,指控其爬取数十万篇付费文章 [14] - 14家全球头部新闻出版商联合起诉加拿大Cohere公司,指控其实时抓取并输出完整原文 [14] - 欧盟法院受理首起生成式AI版权案:匈牙利新闻商Like诉谷歌Gemini侵犯邻接权 [14] - 国内知网与某AI检索平台纠纷,涉及学术文献使用争议 [14] 作品收集涉及的版权问题 - 数据检索阶段可能涉及复制权侵权,分为长期复制和临时复制两种情形 [17] - 构建检索增强数据库时的向量化处理可能构成长期复制,如Perplexity AI案中原告指控 [17] - 实时检索场景下若仅临时保存内容,可能适用文本与数据挖掘例外规则 [17] 技术保护措施问题 - 绕过IP限制或破解动态加载可能违反著作权法"技术措施"规定 [19] - 技术措施分为接触控制措施(如付费墙)和利用控制措施,规避前者构成违法 [20] - 美国《数字千年版权法》第1201条对技术措施提供双重保护体系 [20] 作品利用涉及的侵权问题 - 内容整合展示阶段可能构成直接侵权(复制权、改编权、信息网络传播权)或间接侵权 [22] - 直接侵权认定参考标准:未形成新作品属复制行为,形成新作品属改编行为 [22] - 间接侵权情形包括标注盗版来源扩大传播,或用户后续侵权传播中模型厂商存在过错 [23] 合理使用之争 - 数据检索阶段合理使用认定关键在"市场替代性",盗版内容构建知识库不构成合理使用 [26][27] - 日本区分"非欣赏性利用"和"轻微利用",欧盟要求遵守技术措施作为合理使用前提 [27][28] - 内容展示阶段合理使用核心在于复制比例和注明来源,各国标准不一 [28] - 美国版权局认为提供节略版本而非超链接不太可能构成合理使用 [28]
GPT-5 之后,我们离 AGI 更近了,还是更远了?
AI科技大本营· 2025-08-08 05:58
GPT-5发布背景 - GPT-4发布于2023年3月15日 引发行业震动 但仅是AI技术爆发的序章[1][2][3] - GPT-5于2025年8月8日发布 距离GPT-4发布间隔939天 行业期待值极高但实际反响复杂[4] - 发布会基调从"聊天"转向"做事" 强调实用主义 定位为"随需应变的博士级专家团队"[6] 技术架构创新 - 采用统一智能系统架构 包含快速模型(gpt-5-main)和深度推理模型(gpt-5-thinking) 通过实时路由器动态调度[7] - 提供三种API模型规格(常规/迷你/纳米)和四种推理级别(最小/低/中/高) 输入限制272k token 输出限制128k token[7][9] - 淘汰旧有"模型动物园"模式 建立统一协同的智能有机体[9] 性能表现 - 基准测试成绩突出:AIME 2025数学测试94.6% SWE-Bench编程测试74.9% MMMU多模态理解84.2%[16] - 发布会现场出现数据可视化错误 69.1%柱状图比52.8%更短 引发质疑[13] - 马斯克宣称Grok 4在ARC-AGI-2测试中击败GPT-5[15] 核心能力聚焦 - 专注三大核心场景:编程/写作/健康咨询 其他多模态功能(音频/图像)暂不整合[19][28] - 编程能力显著提升 可完成生产级代码修改 在复杂项目中表现优于Gemini 2.5 Pro和Claude 4 Opus[21] - 写作能力存在争议 不及情感特化的GPT-4.5 但Sam Altman宣称已有显著改进[24][25][27] 商业策略 - API定价极具侵略性:每百万输入Token仅1.25美元 较GPT-4o降价50%[21] - 对比此前失败的GPT-4.5(原价180美元/百万输出)形成强烈反差[22] - 采取以利润换市场策略 意图快速建立开发者生态[21] 技术挑战 - 模型幻觉问题持续改进 通过"安全完成"训练方法和诚实应答机制降低错误率[28][30] - 提示注入攻击防御能力达56.8% 但仍有较大改进空间[32][34] - 行业观点认为Transformer架构可能已达瓶颈 需要新的架构突破实现AGI[36] 行业影响 - 标志AI发展进入"工业时代" 从探索期转向专业化应用阶段[37] - 对开发者形成利好 提供更可靠的生产力工具[38] - 普通用户DAU持续增长 但专业用户评价分化[4][35]
gpt5
小熊跑的快· 2025-08-07 22:41
GPT-5核心升级 - 新一代AI系统在智力层面实现重大飞跃,在编码、数学、写作、健康、视觉感知等领域达到最先进性能 [1] - 采用统一系统架构,能动态调整响应速度与思考深度以提供专家级答案 [1] - 模型架构未出现代际突破,验证ASIC硬件路径正确性,利好推理成本下降 [1] 技术架构创新 - 引入三级模型体系:基础智能模型处理常规问题,GPT-5思维模块解决复杂问题,实时路由器动态分配任务 [2] - 路由器通过用户切换行为、响应偏好等真实信号持续优化,未来计划整合为单一模型 [2] - 达到使用限制后自动切换至GPT-5 mini模型维持服务 [2] 核心能力提升 编码性能 - 复杂前端生成与大型代码库调试能力显著提升,单提示即可生成响应式网站/应用/游戏 [3] - 设计审美优化,对排版、间距等视觉元素理解更精准 [3] 健康应用 - HealthBench评估得分显著超越前代,在真实医疗场景中表现更可靠 [4] - 新增主动风险提示功能,能根据用户背景知识提供个性化健康建议 [4] - 强调AI作为医疗辅助工具定位,不替代专业医疗人员 [4] 多模态与事实性 - 视觉/视频/空间推理能力全面提升,图表解析准确率大幅提高 [11] - 启用网络搜索时,事实错误率较GPT-4o降低45%,思考模式下比OpenAI o3降低80% [11] - LongFact和FActScore基准测试显示"GPT-5思维"幻觉率下降6倍 [11] 响应诚实度 - 对无法完成任务的情境识别准确率从o3的86.7%提升至91% [13] - 在真实对话场景中欺骗率从4.8%降至2.1% [13] 商业化部署 - 即时向Plus/Pro/Team/Free用户开放,企业/教育版一周内上线 [14] - Pro用户可无限制访问GPT-5 Pro版本,团队用户可设为默认工作模型 [14] - 免费用户达到限额后自动降级至GPT-5 mini模型 [14]
斯坦福最新!大模型的幻觉分析:沉迷思考=真相消失?
自动驾驶之心· 2025-06-19 10:47
多模态推理模型的核心问题 - 推理能力增强会导致视觉注意力下降,产生更多幻觉,表现为过度依赖语言常识而忽略视觉证据 [3][5][14] - 推理链长度与幻觉率呈正相关,模型在长推理时对图像token关注度暴跌,转向指令词 [19][21][23] - 70亿参数模型比30亿参数模型表现更好,RH-AUC分数更高(0.63 vs 0.53),显示规模效应缓解幻觉 [34][39] 训练方法对比 - 纯强化学习(RL-only)模型比监督微调+强化学习(SFT+RL)模型RH-AUC更高(如Ocean-R1-7B 0.63 vs OpenVLThinker 0.54),因后者易陷入机械模仿 [34][35][40] - SFT+RL训练导致僵化推理路径,例如将"系鞋带动作"误判为"已完成",而RL-only模型更关注实时视觉细节 [11][35] - 数据质量优于数量,分阶段投喂专精数据(如Ocean-R1)比混合数据(R1-OneVision)效果更佳 [40][42] 评估体系创新 - RH-Bench基准包含1000道题(500推理+500感知),涵盖数学、视觉判断等任务,经人工审核确保严谨性 [30][32] - RH-AUC指标动态评估推理长度与准确率关系,通过曲线下面积量化平衡能力,解决传统静态指标局限 [24][31][33] - 任务类型决定最佳推理长度:数学题需400-600Token,视觉题需100-300Token,显示灵活策略必要性 [28][31] 注意力机制缺陷 - 推理模型视觉注意力热力图显示"散光"现象,关注区域分散且偏向指令词,而非推理模型则聚焦关键物体 [18][21] - 过度推理时图像token关注度下降50%以上,语言先验依赖度显著上升,导致视觉误判 [21][22][23] - 两种典型幻觉模式:视觉误识别型(漏看细节)和推理偏倚型(语言常识覆盖视觉证据) [13][14] 未来技术方向 - 需验证结论在LLaVA、Flamingo等架构的泛化性,当前实验仅基于Qwen2.5-VL backbone [43] - 潜在状态控制等动态长度调节技术可优化推理-感知平衡,但需结合任务类型定制策略 [24][27] - 训练数据因果性实验待开展,现有结论为观察性分析,未控制变量 [43][44]
AI Agent:模型迭代方向?
2025-05-06 02:28
纪要涉及的行业和公司 - **行业**:AI行业 - **公司**:微软、OpenAI、Anthropic、Deepseek、Kimi、Meta 纪要提到的核心观点和论据 AI商业化进展 - **观点**:AI商业化进展整体慢于预期,ToB端更慢,ToC端OpenAI产品仍以chatbot为主 [1][3] - **论据**:微软Copilot未达2023年3月披露时预期效果,OpenAI产品未进入agent阶段 大模型迭代趋势 - **观点**:过去三年全球大模型能力通过前训练和后训练提升,近三个季度后训练成主要迭代方式,推理模型能力显著提高 [2] - **论据**:思维链数据使agent执行复杂任务时可利用过程数据提升推理能力,大模型厂商迭代模型,无迭代能力公司用工程化方式完善产品 agent面临的问题及解决方法 - **观点**:agent执行复杂任务准确率受大模型能力限制,可通过工程化方法和后训练技术提高准确率 [1][5][9] - **论据**:工程化方法如将任务拆分由多个Agent执行;后训练技术如思维链技术可提高模型推理能力 各公司在agent研究方面进展 - **观点**:Anthropic在agent产品化和模型能力方面比OpenAI更具优势 [1][6] - **论据**:Anthropic技术积累更超前,ComputeUse系统运行时间早于OpenAI相应产品至少一个季度 大型科技公司推动大模型发展方式 - **观点**:大型科技公司通过技术研发和工程化手段推动大模型发展 [1][7] - **论据**:Deepseek、OpenAI和Anthropic专注技术研发,其他公司采用工程化手段完善产品 Chatbot和Agent对模型幻觉容忍度差异 - **观点**:Chatbot对模型幻觉容忍度高,Agent需每步操作准确无误,提升执行准确率是当前模型重要问题 [1][8] - **论据**:Chatbot一问一答,个别回答错误不影响后续;Agent执行多步任务,每步正确率90%最终任务也可能失败 DeepSeek发展情况 - **观点**:DeepSeek在2024年推出系列新型多模态模型,提升整体性能与应用范围 [4][12] - **论据**:发布GPT系列多个版本,Prover系列不同版本陆续推出 Prover V2相关情况 - **观点**:Prover V2为解决agent产品化问题提供新思路,性能有显著提升 [1][5][20] - **论据**:核心作者公开信息并提供论文;参数量达6,711亿,采用混合专家模型等改进使其能解决更复杂任务 推理能力提升挑战与方法 - **观点**:推理能力提升依赖算法设计,各公司缺乏统一路径,Deepseek通过两阶段训练提升下一代模型推理能力 [30][32] - **论据**:成功设计奖励函数和强化学习算法可提高推理效果;第一阶段用专家模型迭代,第二阶段优化数据集和架构 Agent AI商业化与算力需求 - **观点**:Agent AI商业化需全面分析,算力需求对Agent发展有重要影响 [37][38] - **论据**:市场可能低估关键算力需求,识别后将推动Agent发展,大厂改造推荐引擎已显示算力提升重要性 其他重要但可能被忽略的内容 - **Kimi情况**:Kimi发布72B预训练版本,能力较强,产品质量优于初期,团队技术实力较强 [24] - **测试集特点**:Putnam Benchmark测试集侧重分解解决问题能力;Deepseek Prover Bench不仅测试数学问题,还对比非形式化与形式化推理,在Deepseek V3版本展示非正式推理优势 [25][26] - **Lean四版本作用**:Lean四版本作为Deepseek Prover V2形式化证明标准,确保验证过程严谨准确 [27] - **DeepSigmaMath模型应用**:V1和V1.5版本参数量约7B,采用监督学习,转向强化学习和树搜索增强探索能力;V2版本参数量提升至7,000亿,采用混合专家模型架构,提高Prover能力 [28] - **基座模型挑战**:数据集和架构优化无市场共识,增加参数量是否为未来迭代主要方式存在分歧 [31] - **DeepSeek模型迭代路径**:从2024年2月DeepSeek模型开始,经Prover 1.0、V1.5、DeepSeek V3等版本,最终蒸馏出7B参数小型高性价比模型,未来可能演化出R2或V4 [34][35]