大语言模型(LLMs)

搜索文档
《科学智能白皮书2025》发布,中国引领AI应用型创新领域
第一财经· 2025-05-26 13:27
全球AI科研发展趋势 - 中国AI论文引用量占全球40.2%,快速追赶美国(42.9%)[1][8] - 全球AI期刊论文数量十年激增近三倍,从30.89万篇增至95.45万篇,年均增长率14%[7] - 科学智能(AI4S)占比提升6个百分点,2020年后年均增长率从10%跃升至19%[7] 科学智能(AI4S)领域进展 - 报告覆盖7大科研领域、28个方向、近90个科学智能前沿问题及突破路径[1] - 大语言模型(LLMs)成为物质科学、生命科学等领域的通用科研工具[4] - 强化学习在工程控制、数学证明及物理模拟等复杂场景占主导地位[4] - 计算机视觉技术在生命科学和地球环境领域渗透显著[4] 国别科研表现对比 - 中国AI出版物总量从2015年6.01万篇增至2024年30.04万篇,占全球29%[7] - 印度AI出版物从2015年1.82万篇增至2024年8.51万篇,几乎与美国(8.57万篇)齐平[7] - 中国在专利、政策及临床试验中AI引用量占比达41.6%,全球领先[8] 细分领域竞争格局 - 中国在地球环境科学和工程交叉领域具有先发优势[9] - 欧盟与美国在AI与生命科学交叉领域保持优势,中国位居第三[9] - 印度在地球环境、工程和人文社科领域居全球第三[9] - 中美合作AI出版物2024年达1.22万篇,为2015年两倍[9] 科研影响力动态 - 美国高质量AI论文引用量2020年达30.22万次,保持领先[8] - 中国高质量AI论文引用量从2015年1.03万次跃升至2020年14.48万次[8] - 中国在AI应用型创新领域从"跟随者"转变为"引领者"[8]
谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙
机器之心· 2025-05-05 03:40
核心观点 - 研究系统分析了LLM在决策场景中的三种常见失败模式:贪婪性、频率偏差和知-行差距 [2][4] - 提出通过强化学习微调(RLFT)自动生成的思维链(CoT)推理过程,实验证明该方法能有效提升LLM决策能力 [2][8] - RLFT通过环境交互奖励优化CoT推理,使模型倾向于选择高奖励动作,显著改善探索行为和知-行差距 [8][22] 失败模式分析 - **贪婪性**:LLM过早锁定局部最优动作,在10臂老虎机实验中27B模型仅覆盖45%动作空间 [15][17] - **频率偏差**:2B模型机械复制高频动作(熵值降低50%),27B模型虽减弱此现象但仍保持贪婪 [5][18] - **知-行差距**:87%推理正确但58%情况仍选择贪婪动作,与最优动作选择率(21%)形成显著落差 [20] 模型规模差异 - 小模型(2B)受频率偏差影响严重,重复动作选择率随上下文出现次数线性增长 [5][18] - 大模型(27B)能减弱频率偏差但维持贪婪策略,在20臂老虎机中动作覆盖率停滞在55% [6][15] RLFT方法细节 - 采用裁剪目标函数和KL约束进行微调,数学表达式见公式(2) [11] - 输入包含指令文本和最近C步的状态-动作-奖励轨迹 [10] - 测试环境包括多臂老虎机(MAB)和井字棋游戏 [13] 实验结果 - RLFT使2B/9B模型遗憾值降低30%,优于随机基线 [22] - 微调后模型探索率提升,10步后动作覆盖率突破60% [17][22] - 知-行差距缩小,正确推理对应最优动作执行率从21%提升至40% [20][22]
基于奖励驱动和自组织演化机制,全新框架ReSo重塑复杂推理任务中的智能协作
机器之心· 2025-04-27 10:40
研究背景 - 增加推理时间被认为是提升大语言模型推理能力的重要途径,包括引入强化学习与奖励模型优化单一模型的推理路径,以及构建多智能体系统协同解决复杂任务 [5] - 多智能体方法理论上更具灵活性与可扩展性,但面临自动扩展能力不足、智能体能力评估困难、奖励信号设计粗糙、缺乏动态演化机制等挑战 [7][8] ReSo框架核心创新 - 提出奖励驱动的自组织多智能体系统ReSo,能够自主适应复杂任务和灵活数量的智能体候选,无需手动设计合作解决方案 [12] - 引入协作奖励模型(CRM),提供细粒度奖励信号实现数据驱动的多智能体系统性能优化 [12] - 采用任务图生成与智能体图构建的两阶段方法,将复杂问题分解为有向无环任务图(DAG),再为每个子任务匹配最佳agent [11][15] 技术实现细节 - 任务图生成:使用大语言模型将复杂问题转化为分步骤的有向无环任务图,测试了闭源模型(gpt4o)和开源LLM(Qwen-7b) [16] - 两阶段智能体选择:粗粒度搜索采用UCB算法筛选候选智能体,细粒度筛选通过CRM评估候选智能体实际表现 [20][23] - 动态智能体数据库(DADB)存储智能体基本信息、历史性能及计算成本,用于生成初步质量评分 [19] 实验结果 - ReSo在Math-MAS-Hard和SciBench-MAS-Hard上的准确率分别达到33.7%和32.3%,显著优于其他方法 [36] - 在复杂推理任务中表现全面优于现有MAS方法,如MetaGPT、DyLAN、GPTSwarm等 [37] - 与单模型相比,ReSo在保持较高准确率的同时,展现出更强的适应性和可扩展性 [37] 数据集贡献 - 提出自动化方法生成多智能体任务数据,包括随机生成任务图、填充子任务及构建自然语言依赖关系 [32] - 开源MATH-MAS和Scibench-MAS数据集,单个样本包含多学科任务,复杂度分为3、5、7三个级别 [32]
中科院领衔万字长文,全面系统梳理多模态LLM对齐算法
量子位· 2025-03-23 11:12
多模态大语言模型对齐算法应用场景 - 减少幻觉现象是MLLM对齐算法的核心应用场景 例如Fact-RLHF使用10K个人工标注样本训练奖励模型并引入token级KL惩罚和事实校准机制[14] DPO优化方法如DDPO通过提高更正数据权重来增强效果[15] HA-DPO利用GPT-4验证幻觉并加入辅助因果语言建模损失[16] mDPO引入视觉损失函数解决视觉信息忽视问题[17] - 提升模型综合能力包括对话、推理和安全性 Silkie通过GPT-4V评估响应生成偏好数据[18] CLIP-DPO利用CLIP分数标注数据同时提升幻觉减缓和零样本分类[18] SIMA通过自我评估响应构建偏好对提升多图像任务表现[19] MM-RLHF通过多样性数据进一步提升对齐效果[20] - 扩展应用覆盖医学、数学和安全领域 3D-CT-GPT++优化医学影像分析达到临床级准确性[31] MAVIS改进视觉数学问题解决框架[31] AdPO和VLGuard通过优化训练数据提高模型对抗攻击鲁棒性[31] INTERACTIVECOT和EMMOE通过动态推理优化嵌入式智能表现[31] 多模态对齐数据集构建 - 引入外部知识的数据集依赖人工注释和闭源模型 LLaVA-RLHF通过人工选择正负响应收集10k样本[40] RLHF-V通过人工修正幻觉响应收集1.4k样本[40] LRV-Instruction通过GPT-4生成400k视觉指令覆盖16个任务[40] - 自我标注数据集包括文本和图像模态 SQuBa通过微调模型生成负样本进行DPO对比[42] Image DPO通过对图像高斯模糊或像素化构建偏好对[43] AdPO通过原始/对抗图像差异构建混合模态偏好数据[44] - 数据质量与规模存在平衡挑战 自我标注方法受限于MLLM性能导致质量较低和分布偏移[45] 自动化数据增强技术有望提升未来数据多样性和可信度[45] 对齐算法评估基准 - 通用知识评估依赖高质量人工数据集 MME-RealWorld包含13K图像和29K问答对[49] MMMU包含11.5K学术来源问题[49] MMStar通过减少数据泄漏增强可靠性[49] MMBench采用双语评估与CircularEval框架[49] - 幻觉评估系统化分类对象和关联偏差 Object HalBench识别对象幻觉[51] VideoHallucer区分内在和外在幻觉[51] VALOR-Eval分析关联偏差[51] POPE采用基于投票查询[51] HaELM使用LLM驱动评分[51] - 安全性评估涵盖对抗攻击和红队测试 AdvDiffVLM采用扩散对抗攻击[54] RTVLM红队框架提升抗干扰能力[54] MultiTrust通过多维度统一可信度评估[55] VLLM-safety-bench测试OOD泛化[55] 未来发展方向与挑战 - 数据挑战包括质量有限和覆盖不足 多模态数据注释复杂度高于文本[68] 现有数据集缺乏光学字符识别和数学任务覆盖[68] 目前无完全人工注释多模态数据集样本量超过200,000个[69] - 视觉信息利用存在效率与成本权衡 破损图像作为负样本可提高鲁棒性但缺乏质量度量[73] 基于破损图像生成新问答增加计算开销[75] CLIP相似度度量受模型偏见影响[76] - MLLM推理增强借鉴LLM经验 数据规模从OpenMathInstruct小模型重采样发展到Qwen-2.5-MATH百万样本规模[87] 优化框架采用在线强化学习缓解分布偏移[88] 多阶段协作优化成为主流如Llama 3六轮DPO迭代[88] - 智能体发展需解决多模态协作与安全 多智能体协作缺乏成熟解决方案[95] 开放环境鲁棒性需对抗性测试验证[95] 复杂组件增加安全风险需保护机制[95]