大语言模型（LLM） - 财报，业绩电话会，研报，新闻 - Reportify

大语言模型（LLM）

搜索文档

跨层压缩隐藏状态同时加速TTFT和压缩KV cache!

机器之心· 2025-11-13 04:12

核心观点 - 论文UNCOMP提出了一种新的理论视角和高效推理框架，用于理解大语言模型内部的结构化稀疏性机制[2] - 通过引入截断矩阵熵，公司发现信息熵随网络层数加深而递减，这完美解释了深层网络的稀疏化现象[7] - 基于该理论设计的UNCOMP框架实现了计算与内存的联合优化，在极端压缩率下仍能保证模型性能[17][19][20] 理论突破 - 传统矩阵熵分析存在悖论，显示信息熵逐层增加，与观察到的“模型越深越稀疏”现象矛盾[7] - 关键突破在于引入截断矩阵熵，通过分析Token矩阵协方差奇异值分布的拐点，只关注最重要主成分[7] - 截断矩阵熵随层数加深呈现逐层递减趋势，表明信息变得更加集中和稀疏，为压缩创造空间[7] - 该理论工具能识别中间层信息熵的异常波动点，精准对应负责信息聚合的检索层和负责长程记忆的检索头[13] 技术应用与框架设计 - UNCOMP框架首次通过直接压缩Prefill阶段的隐藏状态来间接优化KV Cache[17] - 采用层级压缩策略，在Prefill阶段压缩隐藏状态以加速计算[17] - 采用头级压缩策略，在Decoding阶段压缩流式头的KV Cache，同时保留检索头以节省内存[17] - 最佳压缩性能来自于对信息流模式的模仿，当压缩后KV Cache的逐层熵变趋势与原始趋势高度相似时性能最好[12] 性能表现 - 在Prefill阶段实现60%的加速，吞吐量提升6.4倍[19] - KV Cache压缩至4.74%，在极端压缩率下依旧保证模型性能[19][20] - 在Llama2-4k任务上，Ours-group方法达到98.42%的性能，接近FullKV的98.70%[20] - 通过合并检索层和最后层，在特定任务上实现性能几乎无损，甚至超越全尺寸基线[21]

大语言模型（LLM）

截断矩阵熵

Llama2-7B-chat-hf

Llama-2-13B-chat-hf

大语言模型（LLM）

截断矩阵熵

Llama2-7B-chat-hf

Llama-2-13B-chat-hf

构建LLM：每个AI项目都需要的知识图谱基础

36氪· 2025-11-13 00:49

文章核心观点 - 文章通过律师史蒂文·施瓦茨因使用ChatGPT进行法律研究而提交伪造案例的真实事件，揭示了通用大语言模型在专业领域应用中的根本性缺陷，并提出了将大语言模型与知识图谱相结合的混合架构作为构建可信赖人工智能系统的解决方案 [1][3][4][9][15][18][21] 大语言模型的局限性 - 律师施瓦茨提交了六个伪造的司法判决案例，这些案例包含伪造的引述和内部引用，实际上根本不存在 [3][4] - 施瓦茨承认他此前从未用过ChatGPT进行法律研究，因此并不知道其内容可能不实，误以为ChatGPT是一个超级搜索引擎 [4] - 大语言模型在处理需要权威来源的特定领域查询时可能惨败，例如法律判例、医疗规范、金融法规等，因为精确性至关重要，每一条引文都必须可验证 [5] - 大语言模型存在知识不透明、无法轻易更新、缺乏领域基础、不提供审计追踪等架构挑战 [7][8] - 据Gartner预测，到2027年，超过40%的智能体人工智能项目将因领域知识与投资回报率不匹配而被取消 [8] 知识图谱的优势 - 知识图谱是一种不断演进的图数据结构，由类型化的实体、属性和有意义的命名关系组成，针对特定领域构建 [10] - 知识体系建立在四大支柱之上：演进、语义、集成、学习 [10] - 知识图谱知识是可审计和可解释的，用户可以准确地追踪信息的来源，并对照权威来源进行验证 [12] 智能系统的部署方式 - 智能自主系统能够独立运行，在极少人为干预的情况下代表用户做出决策并执行操作 [13] - 智能顾问系统旨在辅助而非取代人类判断，提供决策支持、情境感知和用户交互，对于法律研究、医疗诊断、财务分析等关键应用至关重要 [13][14] 混合方法：LLM + 知识图谱 - 混合系统结合了知识图谱的结构化、可验证知识和LLM的自然语言处理能力，整体大于部分之和 [15] - 知识图谱提供基础：结构化的经过验证的知识、显式领域规则、审计追踪、动态更新无需模型重新训练 [15] - LLM提供接口：自然语言查询处理、从非结构化数据中自动提取实体、翻译复杂图查询、汇总结果 [15] - 混合系统可以处理自然语言查询，向知识库查询已验证信息，呈现结果并附上背景信息和指向实际来源的验证链接，标记不确定性 [18] - 行业研究表明，混合系统能够通过将LLM反应建立在可验证的事实之上来减轻幻觉，通过动态更新保持知识最新，通过透明信息路径实现可解释性，并通过编码专家知识提高特定领域准确性 [19][20] 构建可信赖人工智能系统的原则 - 部署人工智能的专业人士都肩负着把关责任，系统架构必须支持而非削弱这一责任 [21] - 人工智能在关键应用领域的未来取决于构建智能顾问系统，该系统需将知识图谱的结构化知识和可解释性与语言学习模型的自然语言理解和模式识别能力相结合 [21]

大语言模型（LLM）

知识图谱（KG）

检索增强生成（RAG）

基于人类反馈的强化学习（RLHF）

大语言模型（LLM）

知识图谱（KG）

检索增强生成（RAG）

基于人类反馈的强化学习（RLHF）

清华团队：1.5B 模型新基线！用「最笨」的 RL 配方达到顶尖性能

机器之心· 2025-11-12 23:51

研究背景与行业现状 - 2025年初DeepSeek-R1开源后，如何用强化学习训练1.5B级别的小型数学推理模型成为热门研究方向，该领域经历了快速的技术演进[6] - 行业技术发展路径从早期的超参数调优和长度控制，演进到多阶段渐进训练、课程学习以及将rollout数量提升到512次的暴力探索方法[6] - 近期工作普遍采用动态采样、KL重置、自适应惩罚、长度控制等复杂稳定技术和优化技巧，导致整个训练流程变得越来越复杂[7] 清华团队JustRL方法创新 - 采用极简训练配方：使用标准GRPO算法、单阶段训练、固定超参数、常规数学问题集，避免数据筛选和动态采样等复杂技术[11] - 同一套超参数在两个不同起点模型上均有效：弱基座DeepSeek-R1-Distill-Qwen-1.5B和强基座OpenMath-Nemotron-1.5B[11] - 在9个数学推理基准上的全面评测显示，JustRL达到了1.5B模型的最高水平[11] 性能与效率表现 - JustRL-DeepSeek-1.5B在9项基准上平均准确率达到54.87%，超越采用9阶段训练的ProRL-V2的53.08%[13][14] - 计算效率显著提升：总token预算约为1.4E+11，仅为ProRL-V2的一半，为BroRL的五分之一[14] - JustRL-Nemotron-1.5B平均准确率达到64.32%，略微超过使用课程学习的QuestA的63.81%，且不需要额外的数据工程[14] 训练稳定性发现 - 4000步RL训练过程异常平稳：策略熵在1.2-1.4范围内健康震荡，平均奖励从-0.6单调上升到+0.4，响应长度自然压缩到4000-5000 tokens[17] - 训练在32张A800-80GB GPU上进行约15天，工程复杂度和计算开销显著低于多阶段训练方法[15] - 与现有工作报告的训练困难形成鲜明对比，表明在足够简单的配置和充分训练规模下，稳定性问题可能不易发生[19] 技术优化实验启示 - 加入显式长度惩罚反而使性能从55%下降到50%，导致熵值从1.2-1.4降到0.4-0.6，探索空间被过早压缩[21] - 换用更宽松的验证器使性能继续下滑到45%，可能降低了学习信号的细粒度或消除了模型发展鲁棒推理的压力[21] - 消融实验显示技术差异在接近2000步尺度才开始显现，意味着小规模实验结论可能不适用于大规模扩展场景[24] 行业方法论启示 - 技术的价值高度依赖于baseline特性，在稳定baseline上某些"优化"可能适得其反[27] - 建立清晰的简单baseline能更准确地评估复杂技术的价值，应先验证简单方法的极限再决定是否需要复杂度[27] - 行业可能低估了简单方法在充分扩展下的潜力，奥卡姆剃刀原则"如无必要，勿增实体"具有重要参考价值[26][31]

强化学习（RL）

大语言模型（LLM）

奥卡姆剃刀

强化学习（RL）

大语言模型（LLM）

奥卡姆剃刀

LLM只是“黑暗中的文字匠”？李飞飞：AI的下一个战场是“空间智能”

36氪· 2025-11-11 10:22

文章核心观点 - AI发展的下一个关键前沿是“空间智能”，旨在解决当前AI（尤其是大语言模型）缺乏对物理世界常识和空间规律理解的根本缺陷 [1][4][12] - 空间智能被定义为连接感知、想象和行动的终极能力，是推动AI实现下一次巨大飞跃并迈向通用人工智能（AGI）的关键 [3][4][14] - 实现空间智能需要构建超越现有范式的“世界模型”，该模型需具备生成性、多模态和交互性三大核心能力 [14][15][16][17] 当前AI的局限性 - 当前AI被比喻为“黑暗中的文字匠”，虽掌握海量抽象知识，但对物体形状、力学作用、空间导航等物理世界常识几乎一无所知 [1][12] - 顶尖多模态模型在估算距离、方向、尺寸或进行物体“心理旋转”时表现接近随机猜测，无法预测基础物理现象，导致生成视频在数秒后失去连贯性 [12] - 这种缺陷严重限制了自主机器人、沉浸式元宇宙体验等应用的发展，使其仍处于早期概念或雏形阶段 [1][8] 空间智能的定义与重要性 - 空间智能是人类认知的基石，支撑着从日常动作（如停车、接钥匙）到专业活动（如消防员救援、科学家发现DNA结构）的一切空间互动 [9][10][11] - 它是想象与创造的根基，从史前岩画到现代工业设计、数字孪生和机器人训练，都依赖于基于空间的想象力 [10] - 对AI而言，空间智能意味着超越语言界限，通过想象、推理、创造与互动来理解世界，而不仅仅是描述世界 [13] 实现空间智能的技术路径 - 核心是构建“世界模型”，这类新型生成模型需能理解、推理、生成及与语义-物理-几何-动态复合的虚实世界互动 [14] - 模型需具备三大能力：1）生成性：创造符合几何与物理规律的虚拟空间 [15]；2）多模态：处理图像、视频、文本、手势等多样输入 [16]；3）交互性：基于行动推演世界状态，并能推导达成目标的行动序列 [17] - 面临的关键技术挑战包括：定义新型通用训练目标函数、获取并处理大规模多模态训练数据、开发能处理三维/四维信息的新型模型架构 [18][19] 空间智能的应用前景 - 在创意产业，如World Labs的Marble平台，可使电影制作人、游戏设计师快速创建可探索的3D世界，降低传统3D设计成本，开启新维度的叙事与沉浸式体验 [20][22][23] - 在机器人技术领域，世界模型能通过模拟数据缩小模拟与现实差距，训练机器人具备感知、推理、规划和行动能力，应用于实验室辅助、家庭护理等场景 [24][25] - 长远来看，空间智能将深刻影响科学（模拟实验、加速材料研究）、医疗保健（药物发现、医学影像诊断）和教育（沉浸式学习、技能培训）等领域 [26][27] 行业影响与未来展望 - 空间智能被视为AI未来十年的决定性课题，其发展需要整个AI生态系统（研究人员、创新者、企业、政策制定者）的共同参与 [21] - 该技术旨在增强人类能力而非取代人类，目标是提升创造力、加速发现并放大人类关怀，同时尊重人类的判断力、创造力和同理心 [21][27] - 公司如World Labs已展示初步成果（如Marble模型），但完全释放空间智能潜力仍面临严峻挑战，是未来十年的核心研发方向 [20][28]

大语言模型（LLM）

大语言模型（LLM）

李飞飞最新长文：AI的下一个十年——构建真正具备空间智能的机器

机器之心· 2025-11-10 23:47

文章核心观点 - 空间智能是人工智能的下一个前沿，它将彻底改变人类创造和交互现实与虚拟世界的方式，重塑叙事、创意、机器人学、科学发现等领域 [5][17] - 当前以大语言模型为代表的AI在空间智能方面与人类存在巨大差距，缺乏对物理世界的整体性理解和交互能力 [14][15] - 实现空间智能需要构建全新的“世界模型”，该模型需具备生成性、多模态性和交互性三大核心能力 [17][18][19][20] - 空间智能的应用潜力巨大，将赋能创造力、机器人技术、科学、医疗和教育等多个领域，其目标是增强而非取代人类能力 [30][38][40] 空间智能的定义与重要性 - 空间智能是人类认知的脚手架，定义了人类如何与物理世界互动，是想象力与创造力的基础 [10][13] - 人类依赖空间智能完成日常行为，如停车、接钥匙、在人群中穿行等，这种流畅性是机器尚未具备的 [10] - 在人类文明发展的关键时刻，空间智能屡次扮演核心角色，例如埃拉托色尼计算地球周长、发明珍妮纺纱机、发现DNA双螺旋结构等 [11][12] - 当前最先进的多模态AI模型在估算距离、方向、大小等任务上表现仅略高于随机水平，无法预测基本物理规律，生成的视频缺乏连贯性 [14] 构建空间智能世界模型的框架 - 世界模型是一种新型生成式模型，需在语义、物理、几何与动态等多重复杂世界中进行理解、推理、生成与交互 [17] - 核心能力一：生成性——能生成在感知、几何与物理层面保持一致的世界，对世界的理解必须与过去状态保持连贯 [18] - 核心能力二：多模态性——能处理多种形式的输入（如图像、视频、文本指令、手势等），并预测或生成完整的世界状态 [19] - 核心能力三：交互性——能根据输入的动作生成下一个世界状态，输出需与物理规律及动态行为相一致 [20] - 构建世界模型面临三大挑战：定义通用训练任务函数、获取和处理大规模多模态训练数据、开发新型模型架构与表征学习算法 [23][24][25] 空间智能的应用前景 - 在创造力领域，空间智能将改变故事创造与体验方式，例如World Labs的Marble平台使创作者能快速创建并迭代可自由探索的三维世界 [32][33] - 在机器人领域，世界模型将扩展机器人的学习能力，通过仿真训练帮助机器人理解、导航并与物理世界互动，成为人类的伙伴与协作者 [34][35][36] - 在科学、医疗与教育等长远领域，空间智能能模拟实验、加速药物发现、实现沉浸式学习，从而增强人类的专业能力与加速发现 [38][39][40] - 空间智能的应用涵盖不同时间维度，从面向创作者的工具到中期的机器人学雄心，再到长期的变革性科学应用 [30]

人工智能（AI）

大语言模型（LLM）

多模态大语言模型（MLLM）

人工智能（AI）

大语言模型（LLM）

多模态大语言模型（MLLM）

自动驾驶是否一定需要语言模型？

自动驾驶之心· 2025-11-05 00:04

自动驾驶技术路线分野 - 2025年成为自动驾驶技术架构的关键分水岭，形成WEWA与VLA两大对立技术路线 [2] - WEWA架构以华为乾崑智驾ADS 4为代表，追求“去语言化”实现高效落地 [2][4] - VLA架构以理想、小鹏等企业为代表，以语言模型为核心追求认知智能 [2][4] WEWA与VLA架构的本质区别 - WEWA核心逻辑为视觉直接映射动作，跳过语言转化环节，关键组件是云端世界引擎和车端世界动作模型 [5] - VLA核心逻辑为视觉-语言-动作三级传导，语言为核心中介，关键组件是视觉编码器加大语言模型加策略控制模块 [5] - WEWA技术核心是虚拟沙盘训练的端到端动作映射，代表指标为端到端时延降低50%，重刹率降低30% [5] - VLA技术核心是多模态对齐的语言化推理能力，优势在于复杂场景决策准确率提升和支持自然语言交互 [5] - WEWA通过云端虚拟沙盘预训练，将场景-动作映射固化到车端模型，实现“感知即决策”的高效闭环 [5] - VLA遵循“具身智能”认知逻辑，将视觉特征转化为语言Token进行语义推理，例如Wayve的LINGO-1模型能通过语言解释车辆决策 [6] VLA架构的算力挑战 - VLA训练阶段算力需求高，小鹏启动的720亿参数自动驾驶基座模型需千卡级GPU集群支持 [7] - VLA推理阶段即使使用7B-13B参数的轻量化语言模型，也需车规级高算力芯片（如Orin-X 200TOPS以上）保证实时响应 [7] - 语言模型的语义处理引入额外时延，使VLA端到端时延比WEWA高出近一倍，在毫秒级决策场景存在安全风险 [8] - VLA架构中语言模型持续运行会占用可观车端算力，可能导致感知模块帧率下降和传感器数据处理延迟 [9] VLA架构的语言模型优势 - 语言具有高度抽象能力，可将成千上万的类似场景压缩成一句话，实现巨量场景的压缩处理 [10] - 大语言模型具备跨场景知识迁移能力，能为自动驾驶注入“类人推理”能力，处理3000万个样本都无法覆盖的罕见场景 [12] - 语言作为通用语义载体，能将视觉信号、导航指令、人类语音等异构信息纳入同一推理框架，实现多模态信息统一表征 [13] - 语言模型能将抽象决策过程转化为自然语言输出，提升决策的可解释性与安全性，有助于L3及以上高阶自动驾驶商业化 [14] 技术路线的核心权衡与发展趋势 - 短期在L2-L3级辅助驾驶量产场景中，WEWA架构的低时延、低成本优势更具现实价值，通行效率可提升20% [15] - 长期在L4-L5级完全自动驾驶非结构化道路场景中，VLA的认知优势将不可替代，成为核心竞争力 [16] - 行业出现混合架构趋势，华为在WEWA中预留“语义接口”，小鹏通过“模型蒸馏”压缩大模型，取二者之长 [17] - 自动驾驶是否加入语言模块取决于语言模型的性价比，即抽象优势与算力开销的比值是否划算 [17] - 大语言模型是“高阶智能的催化剂”，在量产落地中WEWA更具效率优势，在完全自动驾驶目标中VLA的抽象能力是不可逾越阶段 [18]

大语言模型（LLM）

华为乾崑智驾ADS 4

LINGO - 1模型

大语言模型（LLM）

华为乾崑智驾ADS 4

LINGO - 1模型

HBM 之父大胆猜测：NVIDIA 可能买存储公司

半导体芯闻· 2025-11-04 09:48

行业趋势与战略合作 - NVIDIA执行长黄仁勋访韩，与三星电子和现代汽车集团会面，旨在加深在记忆体和AI超级工厂领域的合作 [2] - 行业专家指出，AI时代的主导权正从GPU转向记忆体，记忆体对于AI领域的重要性日益提升 [2] - 为解决AI推理阶段的记忆体瓶颈，国际大厂正寻求解决方案，记忆体在GPU封装内的价值贡献和技术难度越来越高 [3] 潜在并购与市场动态 - 为确保AI领域领导地位，NVIDIA可能并购记忆体公司，潜在目标包括美光或SanDisk，而非规模较大的三星或SK海力士 [2] - SanDisk股价在五天内上涨4.3%，达到199.33美元，部分原因是数据中心对NAND Flash需求增加 [2] AI推理与记忆体技术 - AI推理面临三大问题：输入内容过长导致“推不动”、回应速度“推得慢”、运算成本“推得贵” [4] - AI推理阶段采用类似人脑的“注意力机制”，并利用“KV快取”作为AI模型的短期记忆，以提升处理速度并避免重复计算 [5] - 记忆体需求分为三个层次：HBM用于储存实时记忆数据，容量为10GB至百GB级；DRAM作为短期记忆，容量为百GB至TB级；SSD用于长期记忆，容量为TB级到PB级 [4]

英伟达(US:NVDA)

大语言模型（LLM）

注意力机制

HBM（高频宽记忆体）

大语言模型（LLM）

注意力机制

HBM（高频宽记忆体）

AI赋能资产配置（十八）：LLM助力资产配置与投资融合

国信证券· 2025-10-29 14:43

核心观点 - 大语言模型通过强大的文本理解与逻辑推理能力，将舆情、政策、财报等非结构化信息转化为结构化因子，重塑资产配置的信息基础，显著提升投研响应速度与前瞻性 [1] - 真正的落地不依赖单一模型性能，而是依赖“LLM+实时数据+优化器”的协作机制，通过模型分工形成可执行、可解释的投资Agent [1] - 当前LLM在舆情信号提取、财报解析、投资推理和Agent构建等多个环节已具备可操作路径，具备增强传统资产配置体系的现实基础 [1] - 未来LLM将从“辅助工具”走向“核心推理与交互中枢”，资产配置将从静态决策向智能化、动态演进转变，重塑买方投研与策略执行逻辑 [1] 信息优势重构 - LLM使得舆情、财报、政策文本等软信息可以被高效提取、量化并嵌入配置模型，FinBERT、FinGPT、BloombergGPT、PloutosGPT等模型在情绪识别、文本解析与投资推理上展现出明确优势 [2][11] - 非结构化信息的系统化利用增强了市场预期感知能力，使策略具备更高的灵敏度与前瞻性 [2][11] - 传统金融建模长期依赖结构化数值数据，难以捕捉文本信息中的市场预期、情绪变化与定性洞察，LLM为处理海量非结构化文本提供了全新解法 [11] - 在实际投资工作中，从信息收集、信号提取到收益预测、组合配置和风险管理，几乎每一个环节都可以嵌入LLM模块，显著强化信息敏感性、决策解释性以及配置灵活性 [12] 技术落地路径 - 通过模块化设计，LLM与API、RAG、数值优化器形成分工协作：LLM负责文本理解与逻辑推理；外接API与RAG提供实时行情、财报与宏观变量；优化器完成资产配权与约束求解 [2][13][16] - 这种结构既提升了策略的稳定性与可解释性，也具备较强的可扩展性，适用于多资产配置 [2][16] - LLM存在知识时间滞后、难以处理高频金融数据及输出幻觉风险等结构性局限，需通过提示工程、外接API与RAG以及专业数值优化器来形成优势互补 [13][15][16] - 最终可形成具有实际操作性的“投资Agent”：LLM负责理解投资者目标并生成任务；外部数据层提供实时信息；数值优化器完成配权计算；LLM输出投资说明与风险提示 [17] 具体应用案例：舆情信号增强 - 策略核心是通过LLM从财经新闻、社交媒体及公司公告中提取情绪信号，并转化为结构化的“情绪因子”，嵌入Black-Litterman或均值-方差优化等资产配置框架 [21][22] - 具体流程包括：使用FinBERT、FinGPT、FLANG等模型对文本进行情绪打分并聚合为“行业情绪指数”，再通过阈值识别极端情绪状态 [22] - 在配置模型中，当某行业情绪显著上行时，可上调该行业预期超额收益0.5%~1.0%，再由优化器更新组合权重；市场整体情绪转负时则自动降低权益敞口 [23][24] - 此方法能提前捕捉市场预期变化，响应灵敏，但需注意舆情信号存在噪声和潜在偏差，需配合风险约束与置信度控制机制 [24] 具体应用案例：财报信号驱动 - 利用LLM在财报发布后快速提取关键财务与非财务信号，并将其嵌入收益预测与资产配置模型，形成高效的财报驱动动态配置框架 [25][26] - 解析主力模型包括BloombergGPT、GPT-4与PloutosGPT，用于财报摘要、要点提取和多模态信息融合；FinGPT与Mengzi-BERTbase-fin适用于中文财报解析 [25][26] - 解析结果被量化为财报因子，与时间序列模型结合对未来1-3个月的行业或资产收益率进行短期预测，研究显示PloutosGPT在市场波动期的预测准确率显著优于单纯统计方法 [26] - 预测结果作为输入被纳入资产配置框架，财报发布时间同步触发组合再平衡，增强了对盈利周期变化的响应速度 [27][29] 具体应用案例：投资Agent全流程 - 案例构建了一个整合LLM、实时数据接口与数值优化器的Agent系统，实现从信息→信号→优化→执行的全链条投资应用 [20][31] - 核心思路是模块化分工：LLM负责认知与逻辑推理；API与RAG提供实时信息支撑；数值优化器完成配权计算；最终由LLM输出可解释的投资建议 [31][34] - 具体实施包括：通过提示工程和多轮采样构建稳定的“备选资产池”；使用CVXPY建模和CPLEX求解器计算最优投资组合；利用LangGraph协调模块化工作流 [33][34] - 该Agent系统体现了LLM的真正价值在于强化传统量化框架的认知与推理能力，形成清晰的责任边界和可复用的策略流程，是目前机构投资者实现智能化投研落地的现实路径 [35] 未来展望 - LLM与强化学习、Auto-Agent、多智能体系统及个性化投研平台的深度结合，将推动资产配置从工具化向系统化、从线性流程向智能演进过渡 [3][39] - 投研人员与模型将通过高频对话、情景推演与策略反馈形成闭环，资产配置将从静态决策走向动态演进，迈入下一代智能化资产管理的新阶段 [3][39] - LLM在资产配置中的角色正从“辅助工具”逐步演变为“核心推理与交互中枢”，为机构构建信息优势与策略护城河的核心技术路径 [3][37]

大语言模型（LLM）

大语言模型（LLM）

Thinking Machine新研究刷屏！结合RL+微调优势，小模型训练更具性价比了

量子位· 2025-10-28 01:18

文章核心观点 - Thinking Machine提出一种名为“在线策略蒸馏”的新型大语言模型后训练方法，该方法通过结合在线策略的自主探索与离线策略的密集监督，显著提升了小模型在专业领域的学习效率和性能 [1][8] - 该方法在数学能力迁移和企业AI助理应用两个实验中展现出巨大优势，训练效率提升高达50-100倍，并能有效解决模型“灾难性遗忘”问题 [4][18][26] 方法原理与创新 - 在线策略蒸馏的核心创新在于融合了实战演戏（在线策略）和请家教（离线策略）两种传统训练模式的优点，如同一位“天才教练”在AI自主解题时提供即时指导 [3][4] - 该方法使用KL散度作为评估学生模型与教师模型分歧的指标，学生模型通过最小化逆向KL散度来模仿教师模型，该指标具备防作弊和使学习过程更稳定的优秀特性 [12][15][17] 实验验证与效果 - 在数学能力迁移实验中，使用在线策略蒸馏方法，仅需约150个训练步骤就将8B学生模型在AIME'24基准上的性能从60%提升至70%，计算成本相比传统监督微调方法降低了9-30倍 [19][21][22] - 在企业AI助理应用中，该方法成功解决了灾难性遗忘问题，使模型在内部知识评估得分从36%提升至41%的同时，通用聊天能力也从79%恢复至83% [23][25][26] 行业影响与团队背景 - 该方法的高效性（效率提升50-100倍）使得资源受限的个人或小公司也能训练出在特定领域具备竞争力的专业小模型，降低了AI应用门槛 [4][5] - 该研究由前OpenAI员工Kevin Lu领导，其曾在OpenAI负责4o-mini发布并参与o1-mini、o3发布，研究背景与强化学习、小模型和合成数据密切相关 [27][28][29]

在线策略蒸馏

大语言模型（LLM）

Artificial Intelligence

在线策略蒸馏

大语言模型（LLM）

Artificial Intelligence

最新一篇长达76页的Agentic AI综述

自动驾驶之心· 2025-10-28 00:03

文章核心观点 - Agentic AI正经历从“外部流水线”到“模型原生”的范式迁移，其核心能力（规划、工具使用、记忆）正被内化到模型参数中 [1] - 驱动此范式转变的核心是“LLM + RL + Task”统一框架，通过强化学习将预训练、后训练与推理循环结合，使模型从被动组件转变为可从环境互动中学习的目标驱动体 [1][3] - 未来趋势不仅是更高的自治度，更是模型与环境的深度耦合与共生，标志着从“构建会用智力的系统”走向“通过经验自进化的智能” [1][44] 问题背景 - 当前生成式AI多为“反应式输出”，缺乏面向目标的长期推理与环境交互能力 [3] - 早期智能体系统采用流水线范式，将规划、工具使用、记忆三大核心能力放在外部编排中，导致系统脆弱且难以应对非预期情境 [3] - 新范式强调通过端到端训练将核心能力内化进模型参数，使LLM成为主动决策者，其核心驱动力是大规模强化学习在LLM训练中的应用 [3] 面向LLM的RL - 必须使用结果驱动的RL将规划等能力从提示诱导转为参数内化，以解决程序化数据稀缺和分布外脆弱性问题 [6] - 相比监督微调，RL具备动态探索式采样与相对价值学习两大优势，将模型从“被动模仿者”变为“主动探索者” [7][8] - 预训练LLM自带的世界知识与结构先验可实现先验引导的探索，提高样本效率，而语言接口将状态、动作、奖励统一到文本空间，使RL成为跨任务泛化的通用机制 [9][11] - 算法从早期RLHF演进至GRPO、DAPO等结果驱动RL，以提升长程训练稳定性与效率，形成基础模型提供先验、学习算法通过交互精炼能力的统一范式 [12] 核心能力：规划 - 流水线范式将规划视为自动化推理与行动序列搜索，存在传统符号规划可解释但重建模、提示工程对设计敏感且计算成本高等局限 [14][17] - 模型原生范式通过监督学习与强化学习将规划能力直接内化到参数中，摆脱外部搜索器/评估器，提升开放环境下的灵活性与稳健性 [15] - 实现了两次关键迁移：训练方式从SFT转向RL以缓解高质量过程数据稀缺问题；RL内部从“过程奖励”转向“结果奖励”并结合规则型奖励以稳定优化 [18] 核心能力：工具使用 - 早期系统将模型嵌入固定工作流节点，提示法则将决策逻辑写入提示，但存在计算开销大、依赖评估质量等问题 [21] - 模型原生迁移把工具使用的决策内化到参数中，形成模块化训练（只优化规划器）和端到端训练（统一学习计划与执行）两类路线 [21] - 当前挑战包括长动作序列中的信用分配问题，以及工具超时、返回不一致等环境噪声导致的训练不稳定，趋势是细化奖励（轨迹级转向步级）并在动态真实环境中训练以缩小仿真到现实差距 [22] 核心能力：记忆 - 记忆被视为“面向行动的证据治理”，流程包括写入/存储、管理/压缩、检索、利用四职能 [27] - 短期记忆方面，流水线范式通过滑动窗口、压缩摘要和RAG等技术处理，模型原生范式则通过位置编码外推、长序列合成和注意力优化将长上下文能力端到端化 [27][30] - 长期记忆载体分为外部库（混合索引、重排、去重）和模型参数（持续预训练/蒸馏、定点编辑与轻量注入），趋势是推动短期-长期记忆统一及检索与生成的联合训练 [30] 智能体应用发展路线 - Deep Research智能体充当“大脑”，擅长复杂推理和分析；GUI智能体充当“眼睛和手”，模拟人类与图形环境的交互 [3] - 多智能体协作研究涵盖从基于规则的系统到数据驱动的模型原生方法，代表性算法包括MAGRPO、RLCCF、MATPO等 [40] 未来方向 - 当前研究焦点集中于奖励建模、规划、工具使用、自动化验证/红队测试等领域 [41] - 最终发展轨迹是模型与环境更深入的综合，标志着从构建使用智能的系统到增长智能的系统的转变 [44]

强化学习（RL）

大语言模型（LLM）

模型原生范式

流水线范式

强化学习（RL）

大语言模型（LLM）

模型原生范式

流水线范式