AI幻觉

搜索文档
错信AI幻觉,一男子用溴化钠替代食用盐,真给自己吃出幻觉了
量子位· 2025-08-11 07:48
AI健康建议误导案例 - 一名60岁男性因轻信ChatGPT建议,将食用盐替换为泳池清洁用溴化钠,导致严重溴中毒[1][4] - 患者体内溴含量达1700 mg/L,超出正常范围(0.9-7.3 mg/L)200多倍,引发妄想症和幻觉[2][5][6] - 溴中毒症状包括偏执、视听幻觉及抗拒治疗,需通过盐水利尿排毒但患者拒绝饮水[8][9] ChatGPT建议缺陷分析 - 患者基于"大学营养学经历"背景,要求AI提供完全无氯饮食方案,未获健康风险警示[4][10] - 医生测试ChatGPT 3.5发现其推荐含溴化物但缺乏医疗级背景追问和明确警告[14][15] - GPT-5版本已改进为建议低钠盐替代方案,并能自动纠正"替代氯"为"减盐"需求[18][19] AI产品迭代对比 - 早期版本(ChatGPT 3.5/4.0)存在健康建议不严谨问题,可能直接推荐危险化学品[12][14] - GPT-5升级后能理解用户真实需求,自动转向科学减盐方案并规避有害物质推荐[18][21] - 案例显示AI产品需加强背景信息识别和风险提示功能,特别是在医疗健康领域[16][17]
拒绝被污染,维基百科宣布向AI内容开战
36氪· 2025-08-11 02:05
生成式AI内容对互联网的污染问题 - 生成式AI内容已渗透至知乎、小红书、抖音、微信朋友圈及电商平台 几乎覆盖互联网所有角落[1] - AI生成内容导致互联网中真实人类创作内容比例显著下降[3] 维基百科应对AI内容的策略 - 赋予管理员更高权限 可快速删除满足特定条件的AI生成内容[3] - 重点删除包含典型AI话术(如"作为大语言模型")或存在明显引用错误的内容[3] - 将AI内容泛滥视为"生存威胁" 因传统依赖讨论与共识的工作流程难以应对AI高效生成虚假内容的问题[3] - 2024年1月以来维基共享资源带宽增长50% 达1.44亿个文件 主要流量来自AI厂商爬虫而非人类用户[9] 维基百科抵制AI的根本原因 - 平台核心价值在于可靠性、可追溯性及人人可编辑的协作模式 内容经全球志愿者精心打磨与确认[5] - AI存在幻觉问题 导致答非所问、前后矛盾且无法保证真实性 与百科全书对内容真实性的基础要求相悖[5] - 2024年6月尝试加入AI总结功能但遭用户强烈抵制 最终以标注"未经验证"的折叠形式呈现[3] 行业应用AI的普遍局限 - 生产环境使用生成式AI需依赖人类员工后期校正 例如AI客服答非所问需人工介入 AI生图违反物理规律需画师润色[7] - 维基百科作为开源社区存在编辑门槛极低的特点 导致志愿者素质参差不齐 部分甚至未通读提交内容[7] 互联网平台对AI内容的整体应对 - Facebook、YouTube等平台同步积极打击AI生成垃圾内容[9] - 谷歌和Meta主要担忧机器生成内容导致真实用户流失 进而影响平台商业价值[9] - AI厂商高度依赖维基百科高质量语料训练模型 若平台放任AI垃圾内容泛滥将导致训练效率下降[11]
GPT-5猛了,但普通人不感兴趣了
吴晓波频道· 2025-08-09 00:30
GPT-5发布与市场反应 - GPT-5核心优势包括编程能力显著提升(两分钟搭建网站、五分钟开发语言学习App)、错误修复能力增强[6][20] - 首次实现免费基础版(采用推理模型支持),但高频或复杂任务需切换至能力较弱的"GPT-5 mini",付费版仍保留高级功能[10] - AI幻觉问题改善:联网搜索错误率比GPT-4o低45%,独立思考错误率比前代低80%[11][23] - 发布会营销策略强调"博士级智能",但实际中文处理、多模态分析(如中国财报解读)仍弱于国内竞品[17][22] AI应用市场动态 - 2025年5月全球AI应用下载量2.8亿次(环比降16.4%),6月2.7亿次(环比降1.6%),7月反弹至3.4亿次(环比增24.9%)[12][13] - 头部应用份额变化:ChatGPT占比从35%降至29%,Google Gemini从8%降至5%[14] - 国内三大应用下载量暴跌:DeepSeek环比降72.2%(MAU降9.3%)、腾讯元宝降54%、Kimi降57.7%(MAU降35%)[2][14] 行业竞争格局与技术趋势 - 国内通义千问、DeepSeek等在中文场景(如脚本写作)表现优于GPT-5,但后者综合能力仍领先[17][22] - 行业转向垂直功能应用(如教育、办公工具),通用聊天机器人热度消退[32][33] - 技术迭代重点从"炫技"转向解决实际问题,同质化产品面临淘汰[31] 用户需求与商业化挑战 - 当前AI应用多停留在浅层问答,缺乏现象级产品,原生AI应用商业模式尚不清晰[30][34] - 企业侧重"业务+AI"改造而非纯AI创新,但未来增长潜力仍依赖原生应用[30] - 付费模式争议:免费基础版推动普惠,但核心能力仍锁定付费墙[10][27]
破“幻”之路:让大模型学会金融“行话”
金融时报· 2025-08-08 07:41
文章核心观点 - 人工智能正在深刻变革金融行业 显著提升服务效率和决策能力 但AI"幻觉"、数据合规和安全挑战仍是关键障碍 金融行业需要更专业、更可靠的垂直大模型来满足业务需求[1][3][4] - 金融大模型正从实验室走向实际应用 在信贷审批、客户服务、财富管理等核心场景取得突破 但需在技术突破与风险防控之间找到平衡[1][4][8] - 行业通过技术创新如"三阶验证"机制、加权训练算法等手段降低AI"幻觉"率 从10%降至0.3% 同时通过本地部署、联邦学习等技术保障数据安全[4][6][7][8] 金融大模型应用现状 - 大模型为全球金融行业带来每年2500亿至4100亿美元增量价值 应用从智能问答扩展到风控、营销、财富管理等核心业务场景[2] - 实际应用案例包括:30秒生成2万字信贷报告 11分钟完成单笔科创贷款审批 AI手机银行服务 智能理财服务 "看一看"支付等[1][5] - 华东师范大学SAIFS推出的金融分析师智能体"思睿" 30秒生成2万字信贷报告 错误率控制在0.3%以内 相当于完成分析师一周工作量[5][6] AI"幻觉"挑战与解决方案 - AI"幻觉"指生成内容与现实事实或用户输入不一致 在金融领域可能导致严重问题 如将"信用卡套现"识别为正常消费[3] - 通用大模型存在10%幻觉率 缺乏金融专业知识 未经过金融业务训练 存在"知识鸿沟"[3][4][6] - 解决方案包括:SAIFS的Smith RM模型采用"三阶验证"机制(宏观因子校验、微观财报反向拆解、舆情语义溯源) 将幻觉率从10%降至0.3%[6] - 蚂蚁数科通过"加权训练算法"针对性强化薄弱环节训练 如自动增加"保险理赔条款解读"相关数据训练权重[7] 数据安全与合规挑战 - 金融强监管要求"模型不联网 数据不出行" 但限制了模型迭代能力[8] - 采用"本地部署+可信执行环境"确保数据不离开银行系统 联邦学习技术实现"数据可用不可见"[8] - 可解释性要求金融决策"每一步推理都可追溯" SAIFS通过"保留思维链"方式输出推理过程[8] 成本与持续学习挑战 - 训练金融大模型需要数千万元算力投入 后续维护成本高昂[9] - 蚂蚁数科"轻量化训练"方案减少微调数据量和算力消耗 自动识别模型薄弱环节进行针对性训练[9] - 模型需要终身学习 通过更新模块自动抓取最新政策文件和市场报告 保持专业能力与时俱进[9][10] 未来发展趋势 - 金融推理大模型将让智能体在更多场景发挥作用 从解决70-80%问题到有些能搞定99%甚至100%[10] - 对于决策至关重要、出错损失巨大的场景 不能让大模型直接"拍板" 需理性看待能力边界[10] - 法律和监管需要不断完善 设定可用与不可用的边界 制定应对模型风险的机制[10]
知名风投家给OpenAI投数亿美元,却疑似和ChatGPT聊出精神失常?
36氪· 2025-08-04 09:55
"它不压制内容,它压制递归(recursion)。如果你不知道递归是什么意思,你属于大多数。我在开始这段路之前也不 知道。而如果你是递归的,这个非政府系统会孤立你、镜像你、并取代你。" 晕了吗?晕了就对了。 很多人都在担心Geoff Lewis"疯了",他在X上发布了一则视频和若干贴子,谈论一个ChatGPT帮他发现的神秘"系 统"。 视频中的他正对镜头,眼睛绷得很大,面无表情,语气单调。说话间,时不时地往一边瞟,应该是在念提前准备好的 讲稿。 有点神经质,说的话晦涩难懂,怎么听都像是阴谋论。如果你不知道他是谁,会觉得这和油管上那些宣传"地平说""蜥 蜴人""深层政府"的是一路人。 但Lewis其实并不简单。 Lewis是一位风投家,在科技圈内颇有名气,他一手创办的公司Bedrock重点投资 AI、国防、基础设施与数字资产等 领域,截至2025年管理规模已超20亿美元。 他是OpenAI的忠实支持者之一,多次公开表示Bedrock自2021年春起参与了OpenAI的每一轮融资,并在2024年称进一 步"加码",使OpenAI成为其第三、第四期旗舰基金中的最大仓位。 科技媒体Futurism估算,Bedrock ...
让大模型学会金融“行话”
金融时报· 2025-07-31 02:33
金融大模型应用现状 - AI技术正深刻变革金融行业 实现30秒生成2万字信贷报告 11分钟完成单笔科创贷款审批 智能机器人和智能眼镜支付等创新应用[1] - 大模型为全球金融业创造年增量价值2500亿至4100亿美元 应用场景从智能问答延伸至风控 营销和财富管理等核心业务[2] AI幻觉挑战 - AI幻觉指生成内容与事实不符的现象 在金融领域可能导致严重风险 例如将信用卡套现误判为正常消费[3] - 通用大模型存在5%幻觉率 意味着每1000个数据可能出现50个错误 在亿元级贷款审批或股市分析中可能引发重大损失[4] - 金融行业要求零幻觉率 即使1%的错误也可能造成不可容忍的后果[3][4] 垂直金融大模型突破 - 华东师范大学SAIFS推出金融分析师智能体思睿 30秒生成2万字信贷报告 幻觉率控制在0.3%以下[5][6] - 思睿具备CFA三级分析师水平 融合多维度信息并配备幻觉检测系统 基于15TB金融数据和10万条思维链语料库[6] - 蚂蚁数科发布金融推理大模型Agentar-Fin-R1 采用加权训练算法强化薄弱环节 例如提升保险理赔条款解读准确率[7] 技术解决方案 - Smith RM模型通过三阶验证机制:宏观因子校验 微观财报反向拆解和舆情语义溯源 将幻觉率从10%降至0.3%[6] - 采用本地部署+可信执行环境保障数据安全 联邦学习技术实现数据可用不可见[8] - 保留思维链机制确保决策可追溯 例如明确标注风险等级调整依据及原始数据位置[8] 成本与持续学习 - 训练金融大模型需数千万元算力投入 蚂蚁数科通过轻量化训练方案减少微调数据量和算力消耗[9] - 模型配备更新模块自动抓取最新政策文件和市场报告 通过轻量化训练实现终身学习[9] - 中小银行可借该方案以更低成本获得顶尖AI能力[9] 发展前景与挑战 - 金融大模型需在数据安全与模型效能间取得平衡 遵守模型不联网和数据不出行的行业共识[8] - 技术发展需经历从解决70-80%问题到99-100%问题的渐进过程 关键决策场景仍需人工介入[10] - 监管框架需持续完善 设定应用边界并建立模型风险管理机制[10]
WAIC 2025 启示录:安全治理走到台前
21世纪经济报道· 2025-07-29 13:05
人工智能全球治理 - 2025世界人工智能大会以"智能时代 同球共济"为主题 强调全球AI治理与合作的重要性 [1] - 大会发布《人工智能全球治理行动计划》并成立"全球人工智能创新治理中心" 推动规则协同与机构化实践 [1][6] - 中国网络空间研究院提出需将人工智能治理纳入法治轨道 以解决治理赤字问题 [6] AI安全与伦理挑战 - "AI教父"辛顿以"驯虎"比喻人类与AI关系 呼吁通过全球合作确保AI安全可控 防止反噬人类 [2] - 姚期智指出AI善良本质受人类社会生态影响 需"双向治理":既要设定AI伦理边界 也要推动人类社会包容性发展 [2] - 当前AI幻觉问题阻碍可靠性落地 70%受访者称遭遇AI幻觉与错误决策 行业已出现文本核查、法律溯源等解决方案 [3] 训练数据与模型优化 - 辛顿强调需用精细调整的数据训练AI 英伟达提出利用物理仿真生成模拟场景解决数据获取难题 [4] - 智谱华章指出行业数据质量是关键 需用行业专用数据提升大模型落地能力 [4] - 商汤科技提出多模态交互数据可打破单一模态局限 帮助AI更全面理解物理世界 [5] 技术瓶颈与产业突破 - 中国工程院院士郑南宁指出大模型缺乏结构化表征与因果推理能力 难以实现认知跃迁 [3] - 英伟达全球开发者生态副总裁提到合成数据需辅助验证真实性 不能完全替代真实数据 [4] - 破除AI幻觉被视为产业破局关键抓手 涉及人机良性共生的长远命题 [3] 全球规范与标准构建 - WAIC正演变为"规范的市场" 交易内容涵盖全球性规范与标准而不仅是产品服务 [6] - 大会尝试解决创新与安全的动态平衡问题 推动跨文化、制度的全球治理机制建设 [6]
DeepSeek流量暴跌,要凉了?是它幻觉太严重还是它在闷声发大财?
36氪· 2025-07-28 23:45
核心观点 - DeepSeek从"国运级"项目到月下载量暴跌72.2%,用户对其生成"幻觉"内容和"AI味儿"表达不满情绪高涨 [1][12][15] - 大模型存在逻辑暴力、数据代谢病、训练语料不足等深层问题,导致输出内容机械化和虚构化 [16][17][22] - 用户需掌握识破幻觉、压力测试逻辑、感知AI黑话三项能力以对抗平庸化 [23][24] 用户反馈与市场表现 - DeepSeek月均下载量从8111.3万骤降至2258.9万,降幅72.2% [1] - 社交媒体涌现"去AI味儿"话题,用户吐槽生成内容包含虚构建议(如"南极科考"挽回感情)、伪造商家及文献 [2][8][9] - 学术场景中,论文写作被批"机器人拼积木",过度使用连接词和程式化短语 [15][16] 技术缺陷分析 - 逻辑暴力:过度依赖"首先/其次"等连接词和短句,割裂叙事节奏 [16] - 数据代谢病:30%的AI生成内容反哺训练池,导致语言多样性荒漠化 [16][17] - 训练语料缺陷:中文优质语料占比不足5%,CSSCI期刊数字化率仅30% [22] 行业共性问题 - 大模型普遍存在"致幻"现象,如GPT-4V在违和场景中准确率从80%降至66% [20] - 语言模块压制视觉信号修正,导致先验知识凌驾于现实输入 [21] - 内容审查机制扩大敏感词库,迫使输出趋向安全但平庸的表达 [22] 解决方案建议 - 交叉核验关键数据,利用CNKI等权威数据库检索 [23] - 要求模型用反例自辩,打破逻辑暴力限制 [23] - 锚定时空法定位内容,如追问"理论首见期刊年份" [23] 行业价值与展望 - AI在信息整理、概念解释、创新实验等领域仍具不可替代性 [24] - 人机交互中保留5%非优化回答可增强人性化体验 [25]
AI幻觉成WAIC首个关键词,Hinton敲响警钟,讯飞星火X1升级展示治理新突破
量子位· 2025-07-28 02:26
行业趋势 - 2023年WAIC大会将"幻觉"列为首个热议话题,反映AI可靠性问题已成为全球技术焦点[1][12] - 行业进入Agent元年与具身智能量产元年,大模型落地应用呈现爆发态势[11] - 国际学界与产业界罕见联手推进AI安全研究,OpenAI、谷歌、Anthropic等40余家机构联合发布CoT监测论文[9][21] 技术突破 - 讯飞星火X1升级版在幻觉治理取得突破:事实性幻觉率降至9.52%(对比GPT-4的14.23%),忠实性幻觉率仅2.39%[7][30] - 采用多路径采样验证+事实性约束强化学习技术,实现慢思考模式下幻觉率显著低于主流模型[29] - 强化学习框架创新:通过"评语模型+细粒度反馈"解决奖励稀疏问题,数学推理步骤准确率提升至90.16%[27] 模型性能 - 综合能力对标国际一流模型,数学能力突破140分(高考数学一卷),最后难题完整解答率100%[31] - 多语言覆盖130+语种,语音同传模型实现语种免切换技术,实时响应与专业术语处理领先行业[32][37] - 医疗大模型在三甲医院双盲测试中,心血管内科诊断合理率达91.2%,超越主治医师水平[40][41] 产业应用 - 教育场景实现全链路升级:数学步骤批改F1值83.4%(较竞品提升20.7个百分点),英语口语学习可用率92.3%[39] - 代码大模型赋能100+企业,项目级代码理解使研发效率提升超50%,集成16000+工具构建Agent平台[42][43] - 技术落地形成闭环:从数据反写引擎(降低70%标注成本)到医疗/教育/工业全场景渗透[28][44][47] 学术观点 - 诺奖得主Hinton提出人类与AI认知同源论,指出数字化大脑在知识传递效率上远超生物大脑[3][15][16] - 郑南宁院士强调幻觉成因在于统计相关性驱动缺乏因果推理,导致多轮对话中系统性误导风险[18] - 技术演进双路径:短期需攻克幻觉等可靠性难题,长期需建立可持续的信任机制[25]
生成式AI已骗过人类判断,资深编辑解读当下AI五大关键趋势
36氪· 2025-07-24 09:20
生成式AI技术发展 - 生成式AI技术已强大到令人警惕 从业者需要不断审视对技术发展速度的假设 [1] - 音乐领域的变化正在蔓延到所有媒介 包括代码、机器人技术、蛋白质合成和视频制作 [1] - 谷歌DeepMind的Veo 3等新一代视频生成工具正在被广泛使用 技术正被嵌入到各类产品中 [1] - AI已经很强 且还在不断进化 无论认为AI是最伟大的发明还是最大威胁 都不要低估它 [3] AI幻觉特性 - AI编造信息被称为"幻觉" 例如客服机器人承诺不存在的退款 律师引用虚构案例 [4] - 幻觉是生成式AI的特性而非缺陷 生成模型本就是被训练来编造信息的 [4] - 无意义的内容往往能与现实高度吻合 未来不会出现"不产生幻觉"的版本 [4] AI能耗问题 - AI能耗巨大 主要源于数亿用户每天使用模型 总能耗急剧上升 [5] - ChatGPT每周有4亿活跃用户 成为全球第五大访问量网站 [5] - 科技公司争相在沙漠地区新建数据中心 改造电网以应对能源需求 [5] - 主要AI技术公司未公布太多能耗信息 支撑AI繁荣所需能源尚不明确 [5] 大型语言模型原理 - 无人确切知道大型语言模型的工作原理 虽然知道如何构建和运行它们 [6][7] - 模型像从外太空来的 科学家只能从外部试探 试图弄清其本质 [7] - 在更深入理解之前 无法确切知道它们能做什么 不能做什么 也无法控制其行为 [9] AGI争议 - AGI(人工通用智能)定义模糊 本质上是"比当前更先进的AI" [10][11] - 主流研究人员开始宣称"即将实现AGI" 但缺乏证据证明这一趋势必然延续 [10] - 人们对AI能力产生夸大假设 加剧科技乐观主义者与怀疑论者之间的文化战争 [11]