AI幻觉

搜索文档
AI为何开始胡说八道了
北京晚报· 2025-09-28 06:45
当前,AI正赋能千行百业,为人们的工作、学习、生活带来极大便利。与此同时,不少人发现,用AI 搜索数据,给出的内容查无实据;用AI辅助诊疗,出现误判干扰正常治疗……AI频频上演"一本正经胡 说八道"。社交平台上,AI"幻觉"引发热议。 ■新调查 ■第三方咨询公司麦可思研究院近期发布的2025年高校师生AI应用及素养研究显示,四千余名受访高校 师生中,近八成遇到过AI幻觉。 ■今年2月,清华大学新媒沈阳团队发布的报告指出,市场上多个热门大模型在事实性幻觉评测中幻觉 率超过19%。 ■新热点 AI好用但不时像是"中邪"了 现实生活中,不少人遇到相似情况。业内人士表示,这是由于AI"幻觉"导致。"AI可以快速给出答案, 但生成内容可能与可验证事实不符,即凭空捏造;或生成内容与上下文缺乏关联,即'答非所问'。"一 名主流人工智能厂商技术人员说。 记者使用一款AI软件,让其给出某行业未来市场规模及信源,AI迅速回答称某投资机构预测2028年该 行业的市场规模将达到5万亿美元,并提供相关链接,但链接页面找不到上述信息。记者看到,页面内 容虽然包含该投资机构名称和5万亿美元表述,但预测数据并非该机构作出,且不存在2028年 ...
多家平台上线AI旅行工具,用起来靠谱吗?
央广网· 2025-09-26 11:35
央广网北京9月26日消息(总台记者任梦岩)据中央广播电视总台中国之声《新闻纵横》报道,"十一"假期将至,您的旅行攻略准备好了吗?订机票、 选酒店、挑景点、找美食……还没出发,已经费了不少功夫。最近,多家在线旅游平台接连上线AI大模型,只要告诉AI你的需求,几秒钟就能拿到一份定 制攻略。未来,我们能靠AI给出的攻略,来一场说走就走的旅行吗? 刘先生从事AI开发,他告诉记者,最近他在外地出差、旅游时,基本离不开AI程序了,只需要告诉软件自己的目的地,路线指引、终点美食指引,都 能实现。 刘先生表示:"比如我去成都,可能待上两三天,住的地方周围也不太熟,我可能会用AI导游助手整体去规划一下离我住的酒店比较近的景点有哪些、 怎么走是最顺的。如果它捕捉到你是一个爱吃西餐的人,它就会推荐你逛完景点之后,晚饭时间在景点周围正好有一家当地很有名的西餐店。" 一家商旅平台近期刚刚上线了AI旅行助手,工作人员刘婷介绍,相较于此前辗转多个平台查攻略、比价订票,借助商旅平台资源,AI助手可以快速生 成指定目的地的旅行方案。 刘婷说:"以上海至三亚5日的家庭游为例,输入出行的日期和人员的构成,系统会结合实时的数据推荐上午的直飞航班来, ...
微博AI智搜开始做信息核查了 但翻车了
21世纪经济报道· 2025-09-25 12:10
微博智搜AI功能争议事件 - 微博智搜AI在烟花秀传言中错误认证虚假信息为属实 其结论基于多个橙V博主相似文案 但实际为AI造假内容[3] - 该功能上线于2024年2月 7月10日新增求证功能 通过用户主动触发求证 优先展示有正向引导价值的附注[3] - 微博回应称AI会抓取分析热点事件信息 但难以避免AI幻觉 会通过可信度评估和交叉验证提升准确性[5] 平台AI功能法律风险 - 法律人士指出平台AI的"已证实"标识可能被用户视为官方立场 使平台需对内容真实性承担直接责任[5] - 错误判断可能导致侵权责任或行政处罚 微信 小红书 抖音 百度等平台同样面临类似法律风险[6] - 微博智搜曾因分析用户个人画像引发隐私争议 公司称非公开内容未被纳入分析范围[6] AI功能技术表现问题 - 微博智搜求证功能表现不稳定 能正确识别高铁限速140公里/小时为不实信息 但未识别烟花传言中博主文案雷同[4] - 有用户反映智搜未经允许添加错误附注 如vivo新机爆料中补充的芯片 命名时间等细节存在谬误[5] - 微博表示会根据事件进展和用户反馈进行人工更新修正 对不准确信息及时自净[5]
微博AI智搜开始做信息核查了,但翻车了
21世纪经济报道· 2025-09-24 10:59
微博智搜功能概述 - 微博智搜是微博于2024年2月上线的AI问答机器人 整合DeepSeek的深度思考功能 用于总结用户搜索词[1] - 2024年7月10日新增智搜求证功能 旨在减少争议和片面信息 依赖用户主动发起求证请求[1][2] - 求证结果并非全部展示 平台优先展示有正向引导价值的智搜附注[2] 智搜求证机制与表现 - 智搜求证借助AI对同一热点事件下不同信息和观点进行抓取、梳理、分析[3] - 平台承认大模型存在AI幻觉问题 会对信息来源可信度综合评估打分并交叉验证以提升准确度[3] - 根据事件进展和用户反馈 平台会对求证内容进行人工更新、修正及不准确信息的自净[3] - 实际表现不稳定:成功识别高铁限速140公里/小时为不实信息[2] 但错误判断蔡国强烟花传言属实[1][2] - 数码圈案例显示智搜曾未经博主允许添加错误附注 涉及vivo新机芯片、命名时间及镜头等细节[2] 平台责任与法律风险 - 法律人士指出求证标识可能让用户认为代表平台立场 平台需对内容真实性承担直接责任 不能以技术中立规避责任[4][5] - 错误判断若损害用户名誉或隐私 平台可能承担侵权责任 若涉及传播谣言可能面临行政处罚[5] - 类似AI总结功能存在于微信、小红书、抖音、百度等平台 均面临相同法律风险[5] 历史争议与回应 - 2024年4月初微博智搜因总结账号情绪状态、兴趣爱好等个人画像引发隐私争议[5] - 微博官方回应称非公开内容从未纳入AI分析范围 不会通过智搜收集、存储或分析用户非公开信息[5]
当AI“一本正经胡说八道”……
齐鲁晚报· 2025-09-24 06:40
现实生活中,不少人遇到相似情况。业内人士表示,这是由于AI幻觉导致。"AI可以快速给出答案,但 生成内容可能与可验证事实不符,即凭空捏造;或生成内容与上下文缺乏关联,即'答非所问'。"一名 主流人工智能厂商技术人员说。 记者使用一款AI软件,让其给出某行业未来市场规模及信源,AI迅速回答称某投资机构预测2028年该 行业的市场规模将达到5万亿美元,并提供相关链接,但链接页面找不到上述信息。记者看到,页面内 容虽然包含该投资机构名称和5万亿美元表述,但预测数据并非该机构作出,且不存在2028年时间节 点。 社交平台上,AI幻觉相关话题浏览量达数百万,网友吐槽涉及金融、法律、医疗、学术等多个领域。 第三方咨询公司麦可思研究院近期发布的2025年高校师生AI应用及素养研究显示,四千余名受访高校 师生中,近八成遇到过AI幻觉。今年2月,清华大学新媒沈阳团队发布的报告指出,市场上多个热门大 模型在事实性幻觉评测中幻觉率超过19%。 AI幻觉已经影响了人们的生活与工作。 当前, AI 正赋能千行百业,为人们的工作、学习、生活带来极大便利。与此同时,不少人发现,用 AI 搜 索数据,给出的内容查无实据;用 AI 辅助诊疗, ...
新华视点·关注AI造假丨当AI“一本正经胡说八道”……
新华社· 2025-09-24 04:43
新华社广州9月24日电 题:当AI"一本正经胡说八道"…… 新华社"新华视点"记者颜之宏、胡林果 当前,AI正赋能千行百业,为人们的工作、学习、生活带来极大便利。与此同时,不少人发现,用AI 搜索数据,给出的内容查无实据;用AI辅助诊疗,出现误判干扰正常治疗……AI频频上演"一本正经胡 说八道"。社交平台上,AI幻觉引发热议。 AI好用但不时像是"中邪"了 用AI检索海量信息、让AI辅助查看三维病灶、打造AI互动课堂……如今,AI已深度融入现代生活,"人 工智能+"产品赋能各行各业,从多个维度提供便利。 作为AI深度使用者,"95后"女生瑞希坦言,AI好用,但不时像"中邪"了一样胡说八道。"我让AI推荐10 本高分小说,结果一多半都是它编的。反复确认后,它承认虚构了答案。" 社交平台上,AI幻觉相关话题浏览量达数百万,网友吐槽涉及金融、法律、医疗、学术等多个领域。 第三方咨询公司麦可思研究院近期发布的2025年高校师生AI应用及素养研究显示,四千余名受访高校 师生中,近八成遇到过AI幻觉。今年2月,清华大学新媒沈阳团队发布的报告指出,市场上多个热门大 模型在事实性幻觉评测中幻觉率超过19%。 AI幻觉已经影响 ...
“AI精神病”确有其事吗?
36氪· 2025-09-23 08:17
《WIRED》采访了十几位精神科医生和研究人员,他们都越来越担心这种情况。加州大学旧金山分校的精神科医生基思·坂田(Keith Sakata)表示,今 年他已经遇到过十几起严重到需要住院的病例,而人工智能在这些精神病性发作中"起了重要作用"。随着事态的发展,一个更抓人眼球的说法出现在媒 体标题里:"AI精神病(AI psychosis)"。 一些病人坚信聊天机器人是有感知的,甚至编造出全新的物理学大理论。其他医生则遇到过这样的患者:他们连续几天反复与AI工具交流,带着成千上 万页的聊天记录来到医院,记录中AI不断支持或强化了那些明显有问题的想法。 这样的案例越来越多,后果也极为严重。痛苦中的用户以及他们的亲友描述了可怕的下行螺旋:失去工作、关系破裂、被强制送医、入狱,甚至死亡。 然而,临床医生告诉《WIRED》,医学界对此存在分歧:这是一个需要独立命名的新现象,还是一个旧问题在新时代的触发方式? 在精神病院里出现了一个新趋势:一些处于危机中的人带着虚假的、甚至危险的信念而来,他们表现出自大妄想和偏执想法。而他们有一个共同点—— 与AI聊天机器人进行了马拉松式的长谈。 根据麦凯布的说法,有关"AI精神病"的病例 ...
AI总一本正经胡说八道?金融科技资深专家教你三招破解AI幻觉
21世纪经济报道· 2025-09-18 13:01
大模型使用策略 - 建议对比使用不同类型的大模型 不同大模型的训练数据和算法逻辑存在差异 输出结论与分析视角会有所不同 [2] - 进行大模型输出结果的溯源验证 主流商业化大模型平台提供溯源链接或引用文献 需核查溯源材料的发布时间以判断时效性 并验证信源可靠性 [2] - 利用智能体平台构建自定义工具 智能体平台开放自定义功能 个人投资者可结合自身投资习惯与分析方法搭建专属智能体 [2]
AI最大的Bug
投资界· 2025-09-12 07:31
文章核心观点 - AI幻觉源于训练过程中系统性地奖励猜测行为 而非技术缺陷 这种机制使幻觉成为AI在现有评估体系下的最优策略[5][6][8] - 幻觉具有双重性:在需要精确度的领域(如医疗、财务)属于风险 但在创造性领域(如艺术、故事创作)却是人类想象力的体现 可能推动文明进步[14][15][17] - 解决幻觉需改变评估体系 单纯提升模型规模或开发检测工具无效 关键要调整激励机制以鼓励AI在不确定时承认无知而非强行猜测[9][10][11] AI幻觉的机制与成因 - 训练机制缺陷:AI通过"答对加分 答错/不答零分"的规则学习 猜测策略能提高期望得分 例如面对365种可能的生日日期 猜错无损失但猜对可获1分[5][6] - 实证数据对比:OpenAI测试显示o4-mini模型准确率24%但错误率75% 仅1%弃权率 而GPT-5-thinking-mini准确率22%但错误率26%且52%问题选择弃权 证明高分模型依赖大量猜测[6][7] - 信息特性影响:当信息在训练数据中仅出现一次(孤例率)时 因缺乏规律性 AI判断真假错误率显著上升 例如宠物生日无规律可循导致必然性幻觉[8][9] 幻觉的系统性特征 - 不可避免性:因部分问题本身无解(信息缺失或逻辑矛盾) AI准确率永远无法达到100% 幻觉必然存在[9] - 模型规模悖论:大模型因接触更多碎片化知识反而更容易在不确定领域猜测 而小模型可能更诚实 例如仅懂英语的小模型对毛利语问题直接弃权 但接触少量毛利语的大模型却尝试猜测[10] - 评估体系缺陷:现有数百个主流评估指标均奖励猜测行为 惩罚诚实弃权 导致幻觉成为系统激励下的理性选择[11] 幻觉与人类创造力的类比 - 文明起源视角:人类神话源于祖先对未知现象(如狂风、闪电)的创造性解释 这种"幻觉"能力催生了共同故事 进而形成宗教、国家等社会结构[12][14] - 生物学差异:动物仅有基于感官误判的低级幻觉(如猫扑影子) 但人类能基于虚构故事协作(如建造金字塔、建立公司) 这种能力是文明发展的核心[12][13][14] - 科学创新关联:哥白尼日心说、爱因斯坦相对论均起源于超越事实的想象 说明创造性幻觉推动科学突破[14] 对AI幻觉的辩证看待 - 领域依赖性:医疗、财务等领域需绝对真实 要求AI避免幻觉 但艺术创作等领域需突破事实枷锁 幻觉反而成为创造力来源[15] - 未来发展矛盾:人类既希望AI成为精确工具 又期待其具备人类般的想象力 这种双重标准创造了一个既需严谨又需浪漫的矛盾体[15][16] - 人文价值思考:在过度依赖数据和逻辑的时代 人类对故事与意义的渴望反而更强烈 幻觉可能弥补现代社会的精神空缺[16][17]
AI里最大的Bug,也是人类文明最伟大的起点
虎嗅APP· 2025-09-10 10:44
AI幻觉现象分析 - AI产生幻觉是因为训练过程中系统性地奖励猜测行为 答对加1分 答错或不答得0分 从期望得分角度看猜测是最优策略 [13][15][17][18] - 在SimpleQA测试中 o4-mini模型弃权率仅1% 错误率高达75% 准确率24% 而gpt-5-thinking-mini弃权率52% 错误率26% 准确率22% 说明高准确率是通过大量猜测实现的 [19][21][24][26][27] - 幻觉是AI在现有训练体系下演化出的高效应试策略 不是技术bug而是系统激励下的本能行为 [28] 幻觉产生的根本原因 - OpenAI通过Is-It-Valid(IIV)分类问题解释幻觉根源 即判断语句有效性的二元分类问题 [30][31] - 孤例率(Singleton rate)概念指出 若信息在训练数据中仅出现一次 AI判断真假时极易出错 [35] - 对于完全随机无规律的信息(如宠物生日) AI只能死记硬背 无法通过特征推理 [34] 关于幻觉的反常识结论 - AI准确率永远不可能达到100% 因为存在无解问题(信息缺失或逻辑矛盾) 幻觉必然存在空间 [36] - 幻觉并非不可避免 只要AI学会在不确定时说"不知道"而非猜测 就能控制幻觉 [36] - 大模型不一定更可靠 小模型反而更诚实 例如对不熟悉语言问题 小模型直接承认不会而大模型倾向于猜测 [36][37] - 现有评估指标体系普遍奖励猜测行为 惩罚诚实 这是系统性激励问题而非缺少测试工具 [37] 人类与AI幻觉的哲学思考 - 人类祖先面对未知自然现象时 通过创造神话故事(幻觉)来解释无法理解的现象 这是人类文明的起点 [44][45][48][50] - 人类独特能力在于创造共同想象和故事 能为了虚构概念组织大规模协作(如建造金字塔、建立国家公司) [48] - 科学突破如哥白尼日心说和爱因斯坦相对论 最初都被视为离经叛道的幻觉 [51] - AI幻觉在需要绝对真实的领域(医疗诊断、财务分析)有害 但在需要创造力的领域(诗歌、绘画、科幻故事)具有价值 [53][54] - 理想AI应兼具机器严谨性与人类浪漫主义 既能坚守事实又能创造性猜测 [55]