Workflow
大模型幻觉
icon
搜索文档
潘云鹤,最新发声!
证券时报· 2025-09-27 08:56
"这类似于,人总是先变成专才,然后变成通才。"潘云鹤说。 最新发声。 2025网易未来大会9月27日在第四届全球数字贸易博览会上举行。中国工程院原常务副院长、中国工程院院士,国家新一代人工智能战略咨询委员会主任 潘云鹤表示,AI+将会掀起平台经济的新高潮,引领平台经济走向2.0时代。平台企业会聚集大数据来应用AI,形成用算法和模型从事经济活动的组织形 式。AI形成各种技术服务平台(如产业链合作平台、创新设计平台、内容创作平台等)崛起,推动平台经济从消费服务型扩展至技术服务型。 据潘云鹤介绍,2017年以来,中国AI规划五个方向,分别为大数据智能、跨媒体智能、群体智能、人机混合增强智能和自主智能系统。其中,思维模拟 和行动模拟各占一半,分别对应大模型和具身智能两大AI前进轨迹。 对于大模型的发展趋势,潘云鹤着重强调了大模型幻觉问题。 "大模型幻觉是指模型生成与事实不符、逻辑不符或上下文不符的内容,其本质源于统计概率驱动的'合理猜测'。"潘云鹤说,大模型幻觉一旦出现于工 程、科学、技术等应用领域,可能会导致较为严重的问题。 潘云鹤研判,专用(Domain)大模型越发重要,已成为一大趋势,要解决幻觉问题。解决方案之 ...
潘云鹤,最新发声!
证券时报· 2025-09-27 08:53
最新发声。 2025网易未来大会9月27日在第四届全球数字贸易博览会上举行。中国工程院原常务副院长、中国工程院院士,国家新一代人工智能战略咨询委员会主任潘 云鹤表示,AI+将会掀起平台经济的新高潮,引领平台经济走向2.0时代。平台企业会聚集大数据来应用AI,形成用算法和模型从事经济活动的组织形式。AI形 成各种技术服务平台(如产业链合作平台、创新设计平台、内容创作平台等)崛起,推动平台经济从消费服务型扩展至技术服务型。 据潘云鹤介绍,2017年以来,中国AI规划五个方向,分别为大数据智能、跨媒体智能、群体智能、人机混合增强智能和自主智能系统。其中,思维模拟和行 动模拟各占一半,分别对应大模型和具身智能两大AI前进轨迹。 对于大模型的发展趋势,潘云鹤着重强调了大模型幻觉问题。 "大模型幻觉是指模型生成与事实不符、逻辑不符或上下文不符的内容,其本质源于统计概率驱动的'合理猜测'。"潘云鹤说,大模型幻觉一旦出现于工程、科 学、技术等应用领域,可能会导致较为严重的问题。 潘云鹤研判,专用(Domain)大模型越发重要,已成为一大趋势,要解决幻觉问题。解决方案之一是:使用专业大数据、教学书级数据训练专业大模型。 另一个 ...
面对已读乱回的AI,到底要如何分辨真假?哈工大&华为大模型幻觉综述!
自动驾驶之心· 2025-09-16 23:33
大模型幻觉定义与分类 - 大模型幻觉指大语言模型在回复中出现的常见错误,包括事实矛盾、事实编造、指令不一致、内容不一致和逻辑不一致 [2][8][9][10][11] - 事实型幻觉分为事实矛盾(实体错误和关系错误)和事实编造(不可验证和夸大幻觉) [8] - 忠实型幻觉分为指令不一致、内容不一致和逻辑不一致 [9][10][11] 大模型训练与幻觉原因 - 大模型训练包括预训练、监督微调(SFT)和从人类反馈中强化学习(RLHF)三个阶段 [7] - 数据部分导致幻觉的原因包括错误数据、社会偏见、知识边界和低质量未校准数据 [17][18][19][21][23] - 训练部分导致幻觉的原因包括预训练阶段模型结构限制、微调阶段过拟合和RLHF阶段谄媚现象 [26][30][32] 幻觉检测方法 - 事实检测分为事实提取和事实验证(外部检索和内部检查) [42] - 不确定性估计方法包括LLM内部状态(标记概率、熵、自我评估)和LLM行为(直接查询、间接查询、多agent视角) [42][43][44] - 忠实性幻觉检测指标包括基于事实、分类、问答、不确定性和LLM评判的方法 [47][48][49][50][51] 幻觉基准 - 幻觉评估基准量化LLM产生幻觉的倾向,重点关注长尾知识和易引起捏造虚假的问题 [53] - 幻觉检测基准评估现有幻觉检测方法性能,针对特定任务如数据生成文本和机器翻译 [54] - 现有基准包括TruthfulQA(817条数据)、REALTIMEOA(动态数据)、HaluEval(30,000条通用数据)等 [55] 幻觉缓解策略 - 通过数据减少幻觉的方法包括数据过滤、模型编辑(定位-编辑和元学习)和检索增强生成(RAG) [57][58][61] - 减少训练产生幻觉的方法包括优化模型结构、训练方式以及避免SFT和RLHF阶段数据冲突 [62] - 减少推理产生幻觉的方法包括事实增强解码和忠诚增强解码(上下文一致性和逻辑一致性) [64][65] 检索增强生成中的幻觉 - 检索失败原因包括用户查询制定(盲目检索、模糊查询、复杂查询)、检索数据源可靠性和检索器性能 [68][69][71][72] - 生成瓶颈涉及上下文感知(嘈杂检索、上下文冲突、未充分利用上下文)和上下文对齐(来源归属和忠实解码) [74][75]
蚂蚁数科鲁玮:用AI守护数字世界的真相
南方都市报· 2025-09-13 13:55
9月12日下午,以"规范AI内容 共筑清朗生态"为主题的2025外滩大会见解论坛上,蚂蚁数科AI科技产品 总监鲁玮发表主题演讲,从身份伪造、凭证造假等AI滥用风险问题切入,系统介绍蚂蚁在应对生成式 内容风险、黑灰产攻击以及大模型"幻觉"方面的技术实践与治理思考。 展望未来,鲁玮认为,随着具身智能、AI for Science与智能体(Agent)加速落地,AI能力跃升将伴随 更复杂的安全议题,包括人机互动的责任边界、价值对齐与伦理问题等。他呼吁产业、学界与媒体加强 协同,共建规范、透明、可信的AI治理体系。 本次论坛由南方都市报社、南都大数据研究院、中国互联网协会人工智能工作委员会、复旦大学传播与 国家治理研究中心联合主办。 目前,黑产借助AI的凭证造假愈发低成本、规模化。在凭证防伪方面,鲁玮介绍,蚂蚁数科推出"光鉴 智能验真",通过防伪、质检、识别,最后通过高阶的各种决策,大小模型结合,实现在语义、视觉、 文本、图片多重信息的抽检,最后给出关键的决策,"核心逻辑是保证现在的物理世界里的票据、身 份、凭证是防伪的。" 幻觉同样是大模型应用面临的重要挑战之一。鲁玮认为,AI生成内容幻觉的危害在于滥用人类的信 任 ...
OpenAI的新论文,为什么被业内嘲讽是营销?
虎嗅· 2025-09-12 09:16
近期,OpenAI 发布了一篇新论文《 Why Language Models Hallucinate 》,指出当前大模型幻觉的主要 来源,引发了广泛关注。 OpenAI 拿自家模型举了一个例子,在 SimpleQA 基准中,旧模型 o4-mini 相比新模型 GPT-5-thinking- mini 准确率略高( 22% vs. 24% ),但也有高得多的错误率( 75% vs. 26% ),因为它更少 " 弃答 "。 OpenAI据此主张:在往后的评估基准中,应对高自信的错误施以惩罚,并为恰当的不确定表达给出适 当分数,使激励从 " 大胆猜 " 转向 " 知之为知之 ",改变主流排行榜长期以 " 准确率 " 一项称王的局 面。 可以说,这篇研究是在把 " 幻觉 " 从工程缺陷转化为技术社区的 " 激励设计 " 问题。 如果真的往这个方向发展,以后真正值得关注的,将不再是谁的准确率小幅上涨,而是谁愿意重写评测 与产品规则,让模型在不确定时自然地说:" 我不知道 "。 他们给出了一个简洁却颠覆性的解释:大模型之所以出现幻觉,并非由于模型架构的失灵,而是当前技 术社区的训练与评测机制倾向于奖励猜测,并且惩罚承认 ...
爆火AI神器“智算一体机”,如何迎接Agent元年?
21世纪经济报道· 2025-08-11 10:05
智算一体机市场发展 - 伴随DeepSeek推动AI大模型低成本化,智算一体机作为新兴形态迅速走红,市场已涌现百款接入DeepSeek的产品 [1] - 行业面临应用落地挑战,需解决"最后一公里"问题,确保企业配置后"上手即好用" [1] - AI大模型持续进化,需减少模型幻觉并应对技术演化趋势,供应商已开始思考解决方案 [1] 智算一体机技术特点 - 智算一体机是预集成硬件、软件平台、模型、应用的一体化解决方案,降低AI普及门槛并推动基础设施向边缘端演进 [2] - 需通过性能优化、定制化能力和业务创新打造差异化竞争力,避免同质化价格战 [2] - 核心关注算力、模型、应用三方面:提供异构加速算力满足多元化需求,模型需开源开放,应用需软硬件协同优化实现成本最优 [2] 行业应用现状与挑战 - 中兴AiCube一体机已在知识问答、客服助手、代码助手等场景商用,但行业数据质量不均、高价值场景挖掘困难、缺乏专业AI人才等问题限制应用深度 [3] - 企业需根据业务需求灵活调整算力,同时引入更高能力模型并持续优化应用落地效果 [3] - 中兴引入AIS一站式智能平台和Co-Sight智能体工厂,提供低代码开发工具协助企业打通端到端流程 [4] 模型幻觉与解决方案 - 大模型幻觉是技术自带属性,与训练数据质量、人类观念分歧相关,生成式模型的概率特性决定幻觉必然存在 [4][5] - 短期可通过RAG、安全护栏、有监督微调等技术提升准确性,长期需联合产学研力量探索机理并改进评测标准 [5] Agent与一体机结合 - Agent降低开发门槛并具备复杂任务处理能力,与一体机形成"身体+灵魂"关系,结合后实现1+1>2效果 [5] - 一体机提供强大计算能力,Agent增强任务处理适应性,但传统一体机在固定功能场景仍具价值 [6] - 中兴一体机将在代码编程、客户服务等领域持续拓展,并向工业设计、电力能源等更多行业渗透 [6]
欢迎OpenAI重返开源大模型赛道,谈一谈我关注的一些要点
36氪· 2025-08-06 07:55
美国西海岸时间2025年8月5日,OpenAI发布了两款开源大模型——GPT-OSS 120B以及GPT-OSS-20B, 目前这两款模型均可以从Hugging Face平台下载,用户可以对其进行修改定制和商业应用。包括亚马逊 AWS、微软Azure在内的主流云平台也已经开始提供基于这两款模型的服务。这是自从2019年11月以 来,OpenAI第一次发布开源大模型。 历史真是讽刺。OpenAI的名称来源,就是"开放""开源",这曾被Sam Altman自诩为AI时代的核心精神 和生存之道。可是从2019年初开始,OpenAI就处心积虑地偏离了开源轨道:那年2月,它以"安全问 题"为借口,拒绝公布GPT-2的全部参数权重,只公布了一个7.74亿参数的"部分模型";直到当年11月, 在GPT-2乏人问津的情况下,它才羞羞答答地公布了全部15亿参数。至于后来大放异彩的GPT-3、GPT- 3.5以及GPT-4系列大模型,则既没有公布过参数权重,也没有公布过技术路线白皮书。 截止昨天,OpenAI成为了当今全球AI大模型基础研发第一集团当中,寥寥几家"没有任何新版开源大模 型"的开发者之一。还有一家是Anthropi ...
紫东太初开源视觉神经增强方法,即插即用终结多模态幻觉 | ACL 2025
量子位· 2025-06-27 10:57
核心观点 - 中科院自动化所联合新加坡国立大学、东南大学等团队提出大模型幻觉的高效解决方案VHR,通过"视觉神经增强"机制直接放大模型中的视觉关键注意力头输出,显著降低模型的幻觉现象 [1][2] - 此前主流方法如对齐训练或输出层分布修正仅作用于模型最终输出阶段,未能深入干预其内部表征和生成机制,难以实现高效精准的幻觉抑制 [3] - 大型视觉语言模型(LVLMs)常因过度依赖语言先验知识而非图像真实内容导致事实性错误,这种幻觉是受内部语言建模偏好的系统性影响 [4][5] - 研究发现注意力机制内部的不平衡性是幻觉根本原因,少数注意力头对视觉信息敏感,大多数头更依赖语言规律 [7][8] - 提出视觉感知头散度(VHD)指标量化注意力头对视觉输入的响应强度,并开发视觉感知头增强(VHR)技术强化视觉敏感注意力头输出 [8][9] - VHR在多个基准测试中优于现有方法,几乎不增加额外时间开销 [8][16] 技术方法 VHD指标 - 提出VHD指标量化每个注意力头对视觉信息的敏感度,通过对比有无图像输入时注意力头输出的差异计算 [9] - 仅有少数注意力头表现出高VHD值,表明模型内部存在视觉感知与语言偏好头的显著分化 [9] - 进一步提出Token-VHD(T-VHD)指标评估生成每个词时模型对视觉信息的依赖程度,统计表明幻觉词通常对应较低的T-VHD值 [10][11] VHR技术 - VHR通过三个步骤动态强化视觉敏感的注意力头:异常VHD过滤、注意力头选择与强化、分层渐进式增强 [14][15] - 每层选择VHD得分前50%的注意力头,将其输出缩放α倍以增强视觉上下文的贡献 [15] - 采用逐层强化策略避免层间干扰,并在首步生成时确定每层的关键注意力头 [16] SSL方法 - SSL方法从语义引导角度出发,通过分析模型内部表征空间缓解LVLMs幻觉问题 [19] - 利用稀疏自编码器(SAE)识别"幻觉"和"真实"两种语义方向,在特定层进行针对性干预 [19] - 在视觉信息融合阶段注入真实语义方向增强视觉表示忠实性,在语言生成阶段抑制幻觉语义方向投影 [19] - SAE识别的语义方向在不同架构LVLMs中展现出良好跨模型迁移能力 [22] 实验结果 - 在MSCOCO数据集CHAIR评估中,VHR在InstructBLIP、LLaVA-1.5和LLaVA-NeXT模型上分别达到85.52、85.47和88.87分,优于其他基线方法 [17] - SSL方法在POPE数据集上取得显著F1分数提升,同时保持推理效率 [20] - VHR和SSL方法均保持高效性,几乎不增加额外时间开销 [16][20]
海致科技港股IPO:自称技术实力全球领先 研发费用及费用率连续下降且低于同行
新浪证券· 2025-06-20 07:39
公司概况 - 海致科技于2025年6月17日向港交所递交招股说明书,联席保荐人为招银国际、中银国际和申万宏源香港 [1] - 公司自称是中国首家通过知识图谱有效减少大模型幻觉的AI企业,但AI智能体业务收入占比仅为17.2%(2024年)[1] - 2024年公司主营业务国内市占率仅1.11%,AI智能体业务市占率为2.8% [1] 财务表现 - 2022-2024年营业收入分别为3.13亿元、3.76亿元、5.03亿元,年复合增长率26.7% [4] - 同期净亏损分别为1.76亿元、2.66亿元、0.94亿元,呈现亏损收窄趋势 [4] - Atlas图谱解决方案收入占比从100%(2022年)降至82.8%(2024年),AI智能体收入占比从0升至17.2% [3][4] 市场地位 - 2024年中国产业级AI服务市场规模453亿元,公司对应市盈率1.11% [4] - 在以图为核心的AI解决方案细分市场(规模100亿元)中占据5%份额 [4] - 在集成知识图谱的产业级AI智能体市场(规模31亿元)排名第五,份额2.8% [5] - 跨行业产业级AI智能体解决方案供应商中按收入排名第一(收入0.87亿元)[5] 研发投入 - 研发费用连续两年下降:2022年8694万元→2023年7271万元→2024年6068万元 [6][8] - 研发费用率从27.8%(2022年)降至12.1%(2024年),显著低于同行明略科技(25.56%)和星环科技(61.19%)[6][9] - 员工福利费用从6629.5万元(2022年)降至5225.2万元(2024年)[7][8] 技术优势 - 采用图模融合技术减少大模型幻觉,该技术将知识图谱与大语言模型协同 [10] - 中国集成知识图谱的产业级AI智能体市场规模预计从2亿元(2024年)增至132亿元(2029年),CAGR达140% [10] - 2025年最后一轮融资后估值达33亿元,估值逻辑基于减少大模型幻觉的技术叙事 [10] 行业竞争 - 互联网巨头正布局类似技术,可能引发价格战 [11] - 大模型自身推理能力突破可能弱化知识图谱的"补丁"价值 [11]
DeepSeek R1幻觉率降低,用户喊话:想要R2
第一财经· 2025-05-29 15:13
DeepSeek-R1模型更新 - 公司发布R1模型更新,重点提升深度思考能力、减少幻觉并优化创意写作[2] - 新版模型在数学、编程与通用逻辑基准测评中表现国内领先,接近国际顶尖模型如o3与Gemini-2.5-Pro[9] - 幻觉率降低45%-50%,旧版模型幻觉率为21%,在SuperCLUE中文大模型测评中排名第五[9][10] 性能提升与优化 - 在AIME 2025数学测试中准确率从70%提升至87.5%[12] - 优化议论文、小说等文体输出,生成更长且结构更完整的内容[12] - 代码能力显著提升,在Live CodeBench中性能接近OpenAI的o3-high模型[12] 技术参数与开源 - 模型参数为685B,开源版本上下文长度128K,网页端/API支持64K[13] - 仍基于2024年12月发布的DeepSeek V3 Base模型,通过增加算力提升推理能力[12][13] - 开源权重采用MIT License,允许用户自由使用与二次训练[13] 行业动态与用户反馈 - 用户对下一代R2模型期待强烈,猜测公司可能因基准测试未超越o3而暂缓发布[13] - 行业关注基座模型竞争,公司未回应外界猜测,可能优先更新V4模型[13] - SuperCLUE测评显示推理模型平均幻觉率22.95%,非推理模型为13.52%[11]