大模型幻觉 - 财报，业绩电话会，研报，新闻

大模型幻觉

搜索文档

第一财经· 2025-05-29 14:10

模型性能提升 - 更新后的R1模型在数学、编程与通用逻辑等多个基准测评中取得国内领先成绩，接近国际顶尖模型如o3与Gemini-2 5-Pro [4] - 新版模型在AIME 2025数学测试中准确率从旧版70%提升至87 5% [18] - 代码能力显著提升，在Live CodeBench平台性能媲美OpenAI的o3-high模型 [18] 幻觉问题优化 - 新版R1模型在改写润色、总结摘要、阅读理解等场景中幻觉率降低45%-50%，此前旧版幻觉率为21% [4][18] - SuperCLUE测评显示推理模型平均幻觉率为22 95%，非推理模型为13 52% [18] 文本生成能力 - 针对议论文、小说、散文等文体优化，能输出篇幅更长、结构更完整的长篇作品，写作风格更贴近人类偏好 [18] - 深度思考能力与创意写作能力得到强化 [1] 技术细节与开源策略 - 新模型参数为685B，开源版本上下文长度128K（网页端/App/API提供64K），仍采用MIT License允许商用与二次训练 [19] - 基于DeepSeek V3 Base模型基座，后训练投入更多算力提升思维深度与推理能力 [18] 行业动态与用户反馈 - 用户对下一代R2模型期待强烈，X平台评论区出现"We want R2"呼声 [19] - 业界猜测R1更新可能延迟R2发布，或与基准测试未超越OpenAI o3有关 [19] - 海内外基座模型竞争持续，DeepSeek更新后行业关注下一家突破者 [19]

Seek .(US:SKLTY)

大模型幻觉

大模型推理能力

Artificial Intelligence

DeepSeek R1

大模型幻觉

大模型推理能力

Artificial Intelligence

DeepSeek R1

巴菲特刚退休，他的 “替身” 就来帮大家炒股了？

搜狐财经· 2025-05-18 16:18

AI Hedge Fund 项目概述 - AI Hedge Fund 是一个模拟明星投资人策略的开源项目，提供 9 位投资人的策略模拟，包括巴菲特、Graham 和 Fisher 等 [1] - 项目通过大模型模拟投资人决策过程，展示投资逻辑和思考过程 [6] - 支持命令行操作，可选择单一或组合投资人策略进行预测 [6] 测试结果分析 - 单一策略测试中，"巴菲特"策略对苹果(AAPL)预测准确，基于高负债(债务股本比4.2)、流动性差(流动比率0.9)、资本回报率下滑(-12%)等因素建议做空，最终苹果股价从230美元跌至198美元 [7][8] - 在五支股票测试中，单一"巴菲特"策略准确率达80%(5中4)，仅英伟达(NVDA)预测错误 [11] - 组合策略(6位投资人)准确率降至60%(5中3)，显示策略叠加可能降低预测效果 [15] 技术实现与成本 - 系统架构分为数据输入、大模型分析和策略输出三部分 [22] - 需接入OpenAI或Groq API，成本示例：OpenAI o3模型每百万字符输入收费10美元，输出40美元 [17] - 支持8个开源模型通过ollama运行，可降低部分成本 [18] - 仅苹果、谷歌等5家公司数据免费，其他需通过Financial Datasets API获取，标准套餐199美元/月 [19][21] 功能特点 - 提供回测功能，可用历史数据验证策略准确性 [16] - 核心价值在于reasoning模块，展示投资人决策逻辑和财务指标分析(如债务股本比、资本回报率等) [26] - 存在模型不稳定性问题，相同股票相邻预测可能出现买卖相反建议 [23] 适用性与局限 - 项目定位为教育研究工具，明确不建议用于实际交易 [28][30] - 免费版仅支持有限股票数据，完整功能需支付API费用 [19][21] - 模型幻觉可能导致策略波动，需人工判断决策合理性 [22][23]

快讯· 2025-05-18 00:17

国内新闻 - 朱雀二号改进型遥二运载火箭发射成功 [4] - 歼-10CE首次实战大放异彩，引发全球军事爱好者的高度关注 [4] - 深交所将在深圳举办2025全球投资者大会 [4] - 天津引导社会资本面向AI领域设立天使投资基金、创业投资基金 [4] - 蚂蚁集团CTO何征宇表示大模型幻觉的源头是缺乏数据 [4] - 3月中国减持189亿美元美债，持仓规模降至第三，英国升至第二 [4] - 宁德时代山东时代电池生产基地正式投产 [4] - 广州房贷利率今起上调10BP，多家银行已执行 [4] 国际新闻 - 特朗普称印度提出削减美国关税，但他不着急达成协议 [3] - 越南和美国举行了首次部长级直接谈判 [3] - 日本考虑在与美关税谈判中为特斯拉充电站提供补贴 [3] - 以方称哈马斯愿意释放部分人员换取两个月停火 [3] - 俄官方表示有关"普泽会"有可能 [4] - 特朗普将于周一上午10点与普京通话 [4] - 特朗普称若不能就乌克兰问题达成协议会对俄实施"破坏性"制裁 [4] - 乌称苏梅州一公共汽车遭俄军袭击，致9死4伤 [4] - 哈马斯与以色列举行新一轮加沙停火谈判 [4] - 美国提议对非公民汇款征收5%的税 [4] - 秘鲁中部发生6.0级地震，震源深度100千米 [4] - 欧洲央行施纳贝尔表示应在利率举措上保持谨慎 [4]

李彦宏说 DeepSeek 幻觉高，是真的吗？

36氪· 2025-05-02 04:29

大模型幻觉问题现状 - DeepSeek-R1在苹果美区App免费下载排行榜上力压ChatGPT，成为国产开源大模型的代表，但其"胡说八道"的批评频发，用户反馈其生成内容真伪难辨[2] - 李彦宏在2025百度AI开发者大会上直接批评DeepSeek-R1存在"单一模态支持、高幻觉率、速度慢且成本高"三大痛点[2] - Vectara的HHEM评估显示DeepSeek-R1幻觉率高达14.3%，较前代V3的3.9%提升近4倍，阿里通义QwQ-32B-Preview幻觉率更高达16.1%[6] - OpenAI内部测试发现o3模型在PersonQA基准测试中幻觉率达33%，轻量版o4-mini更达48%，均显著高于前代o1的16%[8] - 谷歌Gemini 2.0的Flash-Thinking版本比标准版幻觉更突出，显示推理能力增强可能加剧幻觉问题[10] 行业技术挑战 - 推理模型采用多轮思考策略易产生偏差累积，导致多米诺骨牌式幻觉放大，例如DeepSeek-R1的长链式思考会逐步放大微小错误[16] - 当前主流解决方案RAG（检索增强生成）通过先检索权威资料再生成回答，百度2024年发布的iRAG技术已应用于文生图领域[20][22] - 腾讯混元模型T1采用"双重把关"策略，训练Critic批判模型筛选长思维链中的逻辑错误，但数据治理仍面临互联网语料复杂性挑战[23] - OpenAI承认模型规模扩大与推理能力增强后幻觉增多的机制尚未明确，需进一步研究[23] 幻觉的双面性 - 大模型幻觉分为事实性幻觉和忠实性幻觉，后者可能产生"外箱式创意"，例如DeepSeek续写刘慈欣小说章节被评价优于原作[23][26] - 刘慈欣认为AI可能突破人类认知极限，OpenAI CEO奥特曼也指出幻觉在创作领域具有积极意义[26] - 行业需根据应用场景差异化接受幻觉程度，高风险领域需严格限制，创意领域则可利用其创新潜力[27] 厂商竞争格局 - 百度等大厂既依赖DeepSeek流量导入，又因自研深度推理模型难以突破用户心智而陷入竞争困境[2] - 阿里通义Qwen系列与DeepSeek-R1同属国产模型第一梯队，但QwQ-32B-Preview幻觉率更高达16.1%[6] - 谷歌Gemini、IBM Granite、Anthropic Claude等国际主流模型幻觉率普遍在14%-17%区间，显示该问题具行业普遍性[7]

大模型幻觉

检索增强生成（RAG）

Artificial Intelligence

Artificial Intelligence

虎嗅APP· 2025-03-27 10:21

核心观点 - 传统ERP和工具型SaaS将被以AI Agent为载体的新一代SaaS淘汰 [3] - DeepSeek的强推理、低成本、开源特性正在颠覆SaaS行业 [4] - AI Agent将率先在B端场景落地并颠覆传统SaaS [6] - 智能体可实现人"做不到、做不精"的事情，将大量进入工作场景 [16] - 应用层将涌现大量小微创新团队，软件开发门槛大幅降低 [19] - 用友、金蝶等SaaS企业股价上涨反映市场对智能体带动业绩增长的预期 [21] 行业变革 - 传统SaaS厂商面临被AI Agent替代的风险，需抓住变革机会实现二次增长 [4] - 强推理模型成本较高，短期内更可能在专业B端场景落地 [7] - 企业服务生态将重构：底层大模型厂商、中层垂直服务商、上层场景化应用 [19] - DeepSeek开源使服务商可本地化部署，行业know-how能力成为关键竞争优势 [19] 用友案例 - 用友内部已广泛使用数智员工，IT零基础员工10分钟即可构建智能体 [9] - 智能体在费控场景实现20分钟完成交通补贴支付全流程 [9] - 采购合同智能体可自动审核标记不合规条款并生成修改建议 [10] - 流水认领场景中智能体通过自我学习将准确率从50%提升至80% [14][16] - 用友计划在第二季度密集发布一系列AI智能体 [11] 技术特性 - DeepSeek-R1幻觉率达14.3%，高于Deepseek-V3的3.9% [18] - 智能体存在生成内容与事实不符的风险，关键决策仍需人工复核 [17][18] - 智能体可适应业务变化无需二次开发，显著提升人效 [16] 市场影响 - 资本市场看好智能体对SaaS企业业绩和人效的提升潜力 [21] - 能否实现智能体落地带来的实质性增长将决定企业价值重估 [21] - 跟不上AI变革的SaaS企业将被淘汰 [21]

AI Agent

大模型幻觉

Software and Services

Software and Services

虎嗅APP· 2025-03-05 10:03

核心观点 - DeepSeek-R1的广泛使用导致中文互联网信息污染加剧，生成内容真假难辨且传播广泛 [2][9][16] - AI生成内容具有极强迷惑性，通过消除"AI味"和编造细节使普通用户难以识别 [9][12][15] - 大模型行业面临"幻觉"问题，DeepSeek-R1幻觉率达14.3%，高于行业平均水平 [13][15] - AI内容工业化生产对信息生态造成系统性冲击，远超人类造谣的规模和影响 [18][19] 行业影响内容生产模式 - AI生成内容已渗透时政、历史、文化、娱乐等领域，成为自媒体流量获取工具 [16] - 推理模型通过自行完善故事骨架和细节，产生真假混杂的高迷惑性内容 [12][16] - 生产效率呈几何级提升，单周出现至少3例刷屏的AI生成虚假内容案例 [2][9] 技术特性 - DeepSeek-R1作为当前主流免费推理模型，中文支持度高但存在14.3%幻觉率 [12][15] - 模型训练机制导致过度迎合用户指令，为完成任务自行编造论据和数据 [12][14] - 技术优势反成隐患，创造性输出与事实准确性尚未实现平衡调节 [15] 典型案例分析影视行业虚假信息 - 编造追光动画员工福利（成都分房）及技术突破（水下流体特效）等细节 [10] - 虚构《哪吒》参展法国昂西动画节情节，混淆不同版本电影信息 [9] - 通过职业成就感等情感要素增强内容可信度，获7036知乎用户赞同 [6][8] 敏感领域风险 - 涉军题材出现直升机设计图暗网交易等完全虚构的情节 [11] - 历史领域利用未数字化文献的考证难度，伪造史料误导专业人士 [17] - 商业领域为证明用户观点编造阿里巴巴估值数据 [14] 行业治理挑战 - 虚假信息从资料层向信源层渗透，治理成本随时间呈几何级增长 [18] - 现行声明机制效果有限，仅约50%内容真实性提示难以发挥作用 [16] - 平台需推进数字水印等技术方案，当前治理进度滞后于污染速度 [20]