检索增强生成(RAG)

搜索文档
李彦宏说 DeepSeek 幻觉高,是真的吗?
36氪· 2025-05-02 04:29
大模型幻觉问题现状 - DeepSeek-R1在苹果美区App免费下载排行榜上力压ChatGPT,成为国产开源大模型的代表,但其"胡说八道"的批评频发,用户反馈其生成内容真伪难辨[2] - 李彦宏在2025百度AI开发者大会上直接批评DeepSeek-R1存在"单一模态支持、高幻觉率、速度慢且成本高"三大痛点[2] - Vectara的HHEM评估显示DeepSeek-R1幻觉率高达14.3%,较前代V3的3.9%提升近4倍,阿里通义QwQ-32B-Preview幻觉率更高达16.1%[6] - OpenAI内部测试发现o3模型在PersonQA基准测试中幻觉率达33%,轻量版o4-mini更达48%,均显著高于前代o1的16%[8] - 谷歌Gemini 2.0的Flash-Thinking版本比标准版幻觉更突出,显示推理能力增强可能加剧幻觉问题[10] 行业技术挑战 - 推理模型采用多轮思考策略易产生偏差累积,导致多米诺骨牌式幻觉放大,例如DeepSeek-R1的长链式思考会逐步放大微小错误[16] - 当前主流解决方案RAG(检索增强生成)通过先检索权威资料再生成回答,百度2024年发布的iRAG技术已应用于文生图领域[20][22] - 腾讯混元模型T1采用"双重把关"策略,训练Critic批判模型筛选长思维链中的逻辑错误,但数据治理仍面临互联网语料复杂性挑战[23] - OpenAI承认模型规模扩大与推理能力增强后幻觉增多的机制尚未明确,需进一步研究[23] 幻觉的双面性 - 大模型幻觉分为事实性幻觉和忠实性幻觉,后者可能产生"外箱式创意",例如DeepSeek续写刘慈欣小说章节被评价优于原作[23][26] - 刘慈欣认为AI可能突破人类认知极限,OpenAI CEO奥特曼也指出幻觉在创作领域具有积极意义[26] - 行业需根据应用场景差异化接受幻觉程度,高风险领域需严格限制,创意领域则可利用其创新潜力[27] 厂商竞争格局 - 百度等大厂既依赖DeepSeek流量导入,又因自研深度推理模型难以突破用户心智而陷入竞争困境[2] - 阿里通义Qwen系列与DeepSeek-R1同属国产模型第一梯队,但QwQ-32B-Preview幻觉率更高达16.1%[6] - 谷歌Gemini、IBM Granite、Anthropic Claude等国际主流模型幻觉率普遍在14%-17%区间,显示该问题具行业普遍性[7]
喜报!南方财经金融理财智能大模型算法通过国家网信办备案
21世纪经济报道· 2025-03-14 14:24
文章核心观点 2025年3月12日南方财经全媒体集团自主研发的南方财经金融理财智能大模型算法成功通过国家互联网信息办公室备案,该算法集成多种前沿技术,南财理财GPT——南小财能为用户提供智能便捷理财服务,拥有五大功能 [2][3] 分组1:算法备案情况 - 2025年3月12日国家互联网信息办公室发布第十批境内深度合成服务算法备案信息,南方财经全媒体集团自主研发的南方财经金融理财智能大模型算法成功通过备案 [2] - 国家网信办备案审核严苛全面,备案通过意味着企业技术能力、数据安全、模型合规性达一定标准,是AI大模型商业化落地“通行证” [2] 分组2:算法及模型介绍 - 南方财经金融理财智能大模型算法集成大模型技术、自然语言处理、检索增强生成、强化学习训练等多种前沿技术,为用户提供智能便捷理财服务体验 [3] - 南财理财GPT——南小财是专注财富管理领域的智能AI金融模型,在南财理财通自主构建的银行理财数据库基础上,融合先进大模型训练技术打造而成,用户与智能助手实时对话可获取理财投资信息、市场行情分析和产品信息 [3][4] 分组3:南小财功能 - 提供智能实时对话交流,凭借前沿自然语言处理技术精准捕捉领会用户疑问需求并给出智能准确回答 [5] - 提供理财投资参考信息,从海量金融数据和市场资讯中评估潜在投资风险,依据用户风险承受能力和投资偏好提供个性化理财投资策略建议 [5] - 实时分析市场行情,凭借实时数据接入与深度多维分析能力捕捉市场态势,前瞻性洞察市场风险 [5] - 提供理财排行榜单,通过接入南财理财通银行理财数据库,综合多维度分析与评价对理财产品分类排名 [5] - 实时提供政策资讯,凭借政策敏感性和广泛数据采集网络追踪汇聚财经政策动向与行业资讯,对政策信息深度剖析与速递解读 [6]