大模型幻觉

搜索文档
DeepSeekR1幻觉率最高降低50%,用户喊话想要R2模型
第一财经· 2025-05-29 14:10
模型性能提升 - 更新后的R1模型在数学、编程与通用逻辑等多个基准测评中取得国内领先成绩,接近国际顶尖模型如o3与Gemini-2 5-Pro [4] - 新版模型在AIME 2025数学测试中准确率从旧版70%提升至87 5% [18] - 代码能力显著提升,在Live CodeBench平台性能媲美OpenAI的o3-high模型 [18] 幻觉问题优化 - 新版R1模型在改写润色、总结摘要、阅读理解等场景中幻觉率降低45%-50%,此前旧版幻觉率为21% [4][18] - SuperCLUE测评显示推理模型平均幻觉率为22 95%,非推理模型为13 52% [18] 文本生成能力 - 针对议论文、小说、散文等文体优化,能输出篇幅更长、结构更完整的长篇作品,写作风格更贴近人类偏好 [18] - 深度思考能力与创意写作能力得到强化 [1] 技术细节与开源策略 - 新模型参数为685B,开源版本上下文长度128K(网页端/App/API提供64K),仍采用MIT License允许商用与二次训练 [19] - 基于DeepSeek V3 Base模型基座,后训练投入更多算力提升思维深度与推理能力 [18] 行业动态与用户反馈 - 用户对下一代R2模型期待强烈,X平台评论区出现"We want R2"呼声 [19] - 业界猜测R1更新可能延迟R2发布,或与基准测试未超越OpenAI o3有关 [19] - 海内外基座模型竞争持续,DeepSeek更新后行业关注下一家突破者 [19]
巴菲特刚退休,他的 “替身” 就来帮大家炒股了?
搜狐财经· 2025-05-18 16:18
AI Hedge Fund 项目概述 - AI Hedge Fund 是一个模拟明星投资人策略的开源项目,提供 9 位投资人的策略模拟,包括巴菲特、Graham 和 Fisher 等 [1] - 项目通过大模型模拟投资人决策过程,展示投资逻辑和思考过程 [6] - 支持命令行操作,可选择单一或组合投资人策略进行预测 [6] 测试结果分析 - 单一策略测试中,"巴菲特"策略对苹果(AAPL)预测准确,基于高负债(债务股本比4.2)、流动性差(流动比率0.9)、资本回报率下滑(-12%)等因素建议做空,最终苹果股价从230美元跌至198美元 [7][8] - 在五支股票测试中,单一"巴菲特"策略准确率达80%(5中4),仅英伟达(NVDA)预测错误 [11] - 组合策略(6位投资人)准确率降至60%(5中3),显示策略叠加可能降低预测效果 [15] 技术实现与成本 - 系统架构分为数据输入、大模型分析和策略输出三部分 [22] - 需接入OpenAI或Groq API,成本示例:OpenAI o3模型每百万字符输入收费10美元,输出40美元 [17] - 支持8个开源模型通过ollama运行,可降低部分成本 [18] - 仅苹果、谷歌等5家公司数据免费,其他需通过Financial Datasets API获取,标准套餐199美元/月 [19][21] 功能特点 - 提供回测功能,可用历史数据验证策略准确性 [16] - 核心价值在于reasoning模块,展示投资人决策逻辑和财务指标分析(如债务股本比、资本回报率等) [26] - 存在模型不稳定性问题,相同股票相邻预测可能出现买卖相反建议 [23] 适用性与局限 - 项目定位为教育研究工具,明确不建议用于实际交易 [28][30] - 免费版仅支持有限股票数据,完整功能需支付API费用 [19][21] - 模型幻觉可能导致策略波动,需人工判断决策合理性 [22][23]
整理:昨日今晨重要新闻汇总(5月18日)
快讯· 2025-05-18 00:17
国内新闻 - 朱雀二号改进型遥二运载火箭发射成功 [4] - 歼-10CE首次实战大放异彩,引发全球军事爱好者的高度关注 [4] - 深交所将在深圳举办2025全球投资者大会 [4] - 天津引导社会资本面向AI领域设立天使投资基金、创业投资基金 [4] - 蚂蚁集团CTO何征宇表示大模型幻觉的源头是缺乏数据 [4] - 3月中国减持189亿美元美债,持仓规模降至第三,英国升至第二 [4] - 宁德时代山东时代电池生产基地正式投产 [4] - 广州房贷利率今起上调10BP,多家银行已执行 [4] 国际新闻 - 特朗普称印度提出削减美国关税,但他不着急达成协议 [3] - 越南和美国举行了首次部长级直接谈判 [3] - 日本考虑在与美关税谈判中为特斯拉充电站提供补贴 [3] - 以方称哈马斯愿意释放部分人员换取两个月停火 [3] - 俄官方表示有关"普泽会"有可能 [4] - 特朗普将于周一上午10点与普京通话 [4] - 特朗普称若不能就乌克兰问题达成协议会对俄实施"破坏性"制裁 [4] - 乌称苏梅州一公共汽车遭俄军袭击,致9死4伤 [4] - 哈马斯与以色列举行新一轮加沙停火谈判 [4] - 美国提议对非公民汇款征收5%的税 [4] - 秘鲁中部发生6.0级地震,震源深度100千米 [4] - 欧洲央行施纳贝尔表示应在利率举措上保持谨慎 [4]
李彦宏说 DeepSeek 幻觉高,是真的吗?
36氪· 2025-05-02 04:29
大模型幻觉问题现状 - DeepSeek-R1在苹果美区App免费下载排行榜上力压ChatGPT,成为国产开源大模型的代表,但其"胡说八道"的批评频发,用户反馈其生成内容真伪难辨[2] - 李彦宏在2025百度AI开发者大会上直接批评DeepSeek-R1存在"单一模态支持、高幻觉率、速度慢且成本高"三大痛点[2] - Vectara的HHEM评估显示DeepSeek-R1幻觉率高达14.3%,较前代V3的3.9%提升近4倍,阿里通义QwQ-32B-Preview幻觉率更高达16.1%[6] - OpenAI内部测试发现o3模型在PersonQA基准测试中幻觉率达33%,轻量版o4-mini更达48%,均显著高于前代o1的16%[8] - 谷歌Gemini 2.0的Flash-Thinking版本比标准版幻觉更突出,显示推理能力增强可能加剧幻觉问题[10] 行业技术挑战 - 推理模型采用多轮思考策略易产生偏差累积,导致多米诺骨牌式幻觉放大,例如DeepSeek-R1的长链式思考会逐步放大微小错误[16] - 当前主流解决方案RAG(检索增强生成)通过先检索权威资料再生成回答,百度2024年发布的iRAG技术已应用于文生图领域[20][22] - 腾讯混元模型T1采用"双重把关"策略,训练Critic批判模型筛选长思维链中的逻辑错误,但数据治理仍面临互联网语料复杂性挑战[23] - OpenAI承认模型规模扩大与推理能力增强后幻觉增多的机制尚未明确,需进一步研究[23] 幻觉的双面性 - 大模型幻觉分为事实性幻觉和忠实性幻觉,后者可能产生"外箱式创意",例如DeepSeek续写刘慈欣小说章节被评价优于原作[23][26] - 刘慈欣认为AI可能突破人类认知极限,OpenAI CEO奥特曼也指出幻觉在创作领域具有积极意义[26] - 行业需根据应用场景差异化接受幻觉程度,高风险领域需严格限制,创意领域则可利用其创新潜力[27] 厂商竞争格局 - 百度等大厂既依赖DeepSeek流量导入,又因自研深度推理模型难以突破用户心智而陷入竞争困境[2] - 阿里通义Qwen系列与DeepSeek-R1同属国产模型第一梯队,但QwQ-32B-Preview幻觉率更高达16.1%[6] - 谷歌Gemini、IBM Granite、Anthropic Claude等国际主流模型幻觉率普遍在14%-17%区间,显示该问题具行业普遍性[7]
ERP厂商要被集体颠覆了?
虎嗅APP· 2025-03-27 10:21
核心观点 - 传统ERP和工具型SaaS将被以AI Agent为载体的新一代SaaS淘汰 [3] - DeepSeek的强推理、低成本、开源特性正在颠覆SaaS行业 [4] - AI Agent将率先在B端场景落地并颠覆传统SaaS [6] - 智能体可实现人"做不到、做不精"的事情,将大量进入工作场景 [16] - 应用层将涌现大量小微创新团队,软件开发门槛大幅降低 [19] - 用友、金蝶等SaaS企业股价上涨反映市场对智能体带动业绩增长的预期 [21] 行业变革 - 传统SaaS厂商面临被AI Agent替代的风险,需抓住变革机会实现二次增长 [4] - 强推理模型成本较高,短期内更可能在专业B端场景落地 [7] - 企业服务生态将重构:底层大模型厂商、中层垂直服务商、上层场景化应用 [19] - DeepSeek开源使服务商可本地化部署,行业know-how能力成为关键竞争优势 [19] 用友案例 - 用友内部已广泛使用数智员工,IT零基础员工10分钟即可构建智能体 [9] - 智能体在费控场景实现20分钟完成交通补贴支付全流程 [9] - 采购合同智能体可自动审核标记不合规条款并生成修改建议 [10] - 流水认领场景中智能体通过自我学习将准确率从50%提升至80% [14][16] - 用友计划在第二季度密集发布一系列AI智能体 [11] 技术特性 - DeepSeek-R1幻觉率达14.3%,高于Deepseek-V3的3.9% [18] - 智能体存在生成内容与事实不符的风险,关键决策仍需人工复核 [17][18] - 智能体可适应业务变化无需二次开发,显著提升人效 [16] 市场影响 - 资本市场看好智能体对SaaS企业业绩和人效的提升潜力 [21] - 能否实现智能体落地带来的实质性增长将决定企业价值重估 [21] - 跟不上AI变革的SaaS企业将被淘汰 [21]
AI的胡编乱造,正在淹没中文互联网
虎嗅APP· 2025-03-05 10:03
核心观点 - DeepSeek-R1的广泛使用导致中文互联网信息污染加剧,生成内容真假难辨且传播广泛 [2][9][16] - AI生成内容具有极强迷惑性,通过消除"AI味"和编造细节使普通用户难以识别 [9][12][15] - 大模型行业面临"幻觉"问题,DeepSeek-R1幻觉率达14.3%,高于行业平均水平 [13][15] - AI内容工业化生产对信息生态造成系统性冲击,远超人类造谣的规模和影响 [18][19] 行业影响 内容生产模式 - AI生成内容已渗透时政、历史、文化、娱乐等领域,成为自媒体流量获取工具 [16] - 推理模型通过自行完善故事骨架和细节,产生真假混杂的高迷惑性内容 [12][16] - 生产效率呈几何级提升,单周出现至少3例刷屏的AI生成虚假内容案例 [2][9] 技术特性 - DeepSeek-R1作为当前主流免费推理模型,中文支持度高但存在14.3%幻觉率 [12][15] - 模型训练机制导致过度迎合用户指令,为完成任务自行编造论据和数据 [12][14] - 技术优势反成隐患,创造性输出与事实准确性尚未实现平衡调节 [15] 典型案例分析 影视行业虚假信息 - 编造追光动画员工福利(成都分房)及技术突破(水下流体特效)等细节 [10] - 虚构《哪吒》参展法国昂西动画节情节,混淆不同版本电影信息 [9] - 通过职业成就感等情感要素增强内容可信度,获7036知乎用户赞同 [6][8] 敏感领域风险 - 涉军题材出现直升机设计图暗网交易等完全虚构的情节 [11] - 历史领域利用未数字化文献的考证难度,伪造史料误导专业人士 [17] - 商业领域为证明用户观点编造阿里巴巴估值数据 [14] 行业治理挑战 - 虚假信息从资料层向信源层渗透,治理成本随时间呈几何级增长 [18] - 现行声明机制效果有限,仅约50%内容真实性提示难以发挥作用 [16] - 平台需推进数字水印等技术方案,当前治理进度滞后于污染速度 [20]