强化学习
搜索文档
CoreWeave:一场价值数万亿美元的盛宴
36氪· 2025-10-15 00:29
行业趋势:AI向自主智能体演进 - 大语言模型与强化学习的融合正加速催生能自主决策和执行任务的自主智能体系统[1] - AI范式正从静态模型转向智能体模型,智能体决策对算力与基础设施复杂度的要求远超传统静态推理[9] - 智能体AI经济消耗的算力将是传统静态推理的数个数量级,一次决策可能调用数百次模型前向计算[6] - 全球数据中心的算力支出规模有望从当前的数百亿级跃升至万亿级,突破速度将远超多数人预期[7] 公司战略定位:从算力供应商到智能体运行平台 - 公司定位为真正能满足强化学习主导型未来需求的核心云服务商,布局AI基础设施的智能体阶段[1] - 通过收购OpenPipe获得强化学习工具包,向价值链上游突破,掌握智能体训练核心技术并打通全流程[2] - 从硬件层加API接口质变为智能体全周期支持平台,整合任务推进引擎、记忆模块、奖励评估系统等形成一站式解决方案[3] - 核心目标是将智能体专属需求深度嵌入自身基础设施,满足高吞吐量系统互联、高速内存、回滚架构等全新要求[5] 财务与运营表现 - 季度销售额同比激增200%,达到约12.1亿美元[8] - 已签约的履约义务订单储备接近300亿美元,且无论同比还是环比都保持高速增长[8] - 季度营业利润为正但规模有限,净利润仍为亏损,主要因业务扩张投入,是高速扩张期企业的典型表现[8] - 公司已与主要客户扩大合作协议,并新增了数据中心设施,可见的需求增长与设施扩张为其切入智能体基础设施赛道提供支撑[8] 竞争优势与增长驱动 - 在电力供应、散热效率与GPU资源获取上,相比超大规模云厂商具备持久竞争优势[1][7] - 自研强化学习工具与运行时服务将显著扩大利润率,智能体调度服务的利润率将远超单纯的硬件租赁[4][10] - 智能体运行调度服务让公司能从整个决策循环中捕获更多价值,技术整合度与低延迟保障构成先发优势[9] - 客户的切换成本持续上升,当客户将核心系统部署在平台后,迁移成本极高且伴随巨大风险,增强了竞争壁垒[10] 市场潜力与估值前景 - 到2030年,若有1亿专业人士与企业依赖智能体AI系统,平均每天执行5000次推理计算,年化算力支出将达1.8万亿美元[9] - 公司合理估值区间为800-1000亿美元,若强化学习训练需求加速增长,企业价值可能接近1200亿美元[13] - 估值重估的核心驱动因素是强化学习平台的变现速度,平台收入增长越快,估值溢价空间越大[13] - 随着营收结构向强化学习工具链倾斜,合理估值区间有望逐步扩大,智能体技术的普及速度超预期将释放更大估值弹性[13]
CoreWeave:一场价值数万亿美元的盛宴
美股研究社· 2025-10-14 12:30
核心观点 - 大语言模型与强化学习的融合正加速催生自主智能体发展,公司定位为满足强化学习主导型未来需求的核心云服务商,是布局AI基础设施智能体阶段的高确定性标的 [1] 战略转型:从算力供应商到智能体运行平台 - 收购OpenPipe是公司向价值链上游突破的关键动作,获得强化学习工具包技术及开发者群体认可,打通智能体训练全流程 [4] - 转型是从硬件层加API接口到智能体全周期支持平台的质变,形成一站式解决方案 [5] - 智能体工作负载呈指数级增长,自研强化学习工具与运行时服务将显著扩大利润率 [6] - 公司将任务推进引擎、记忆模块、奖励评估系统等功能整合进技术栈,构筑竞争对手难以跨越的准入壁垒 [7] 技术优势:适配智能体的基础设施需求 - 智能体决策需要成百上千次前向计算,对高吞吐量系统互联、高速内存、回滚架构等提出全新要求 [9] - 传统云厂商无法满足智能体进化属性所需的日志记录、反馈循环、安全防护等专属需求,公司目标是将这些需求深度嵌入基础设施 [9] - 智能体AI经济消耗算力将是传统静态推理的数个数量级,一次决策可能调用数百次模型前向计算 [11] - 公司作为AI原生新云厂商领军者,占据强化学习训练先发优势,符合低成本电力、高密度散热方案、高性能GPU集群等赢家特质 [12] 财务表现与增长潜力 - 季度销售额同比激增200%,达到约12.1亿美元,已签约履约义务订单储备接近300亿美元,提供未来数年业绩可见性 [14] - 营收高增长但利润率承压是高速扩张期典型表现,向软件层平台层升级将长期改善利润率结构 [14] - 若核心平台通过GPU租赁及智能体调度相关软件服务盈利,长期利润率将迎来质的提升 [14] 市场机遇与估值逻辑 - AI范式从静态模型转向智能体模型是公司冲击万亿估值的核心前提,智能体决策循环对算力需求呈爆发式增长 [16] - 到2030年,若1亿专业人士与企业依赖智能体AI系统,平均每天执行5000次推理计算,每次计算收费0.00001美元,年化算力支出将达1.8万亿美元 [17] - 掌控从GPU硬件到强化学习工具包的垂直技术栈价值远高于按小时算力收费,智能体运行调度服务能从整个决策循环中捕获更多价值 [17] - 客户切换成本持续上升,依赖关系增强竞争壁垒并带来更高利润率 [17] - 采用混合估值模型,基础设施业务按6倍EV/Sales、智能体平台业务按14倍EV/Sales,企业价值合理区间为800-1000亿美元 [20] - 若强化学习训练需求加速增长,平台业务收入占比提升至30%,前瞻市销率可进一步升至7-9倍,企业价值或接近1200亿美元 [20]
各大顶会对RL和这些工作的结合很青睐~
具身智能之心· 2025-10-14 10:00
强化学习行业重要性 - 强化学习是具身智能机器人领域的核心技术,在人形机器人、四足机器人和机械臂的步态控制、高难度动作学习中发挥关键作用[2] - 强化学习与视觉语言动作模型结合在机械臂控制等学术领域越来越受欢迎,能提升机器人执行任务的效率和流畅度[3][8] - 强化学习技术被广泛应用于产品优化,例如自动驾驶等领域,显示出其跨行业的重要性[1] 行业技术应用现状 - 行业内领先公司如宇树、智元的人形机器人主要通过强化学习完成爬楼梯、爬山、跑步、跳舞、翻跟头等高难度动作训练[2] - 强化学习技术赋予机器人产品适应救援、测量、危险环境等复杂场景的能力,是迈向通用具身智能必须攻克的关键技术[2] - 基于IsaacLab等最新仿真训练环境的强化学习方案成为学术和工业界的前沿趋势[17][18] 行业人才发展挑战 - 强化学习体系庞大且内容繁杂,对研究经验要求高,初学者入门难度极大[5][9] - 缺乏完整学习体系导致研究人员容易处处踩坑,久久不能入门,最终错失发展机会[6][9] - 产出符合顶级会议期刊标准的论文需要在方法论证、实验结果、写作方式等多个模块达到高标准要求[5] 专业培训解决方案 - 针对行业痛点推出14周核心训练加8周论文维护的强化学习论文辅导课程,采用1v6小班教学模式[7][17] - 课程面向硕博生群体,提供每周直播授课、课程录播和专属助教答疑服务[7][17] - 课程设置四足、人形、机械臂三轨并行的研究方向,学员可根据需求选择特定主题[17][18] - 课程目标产出包括论文IDEA确认、项目实现、实验指导、写作润色和初稿形成,瞄准RAL/ICRA/IROS/CoRL等顶级会议期刊[7][11] 课程核心技术内容 - 基于IsaacLab/MuJoCo等最新仿真训练框架,提供SAC/PPO/BC/Diffusion Policy等基线代码[18][22] - 涵盖sim2real/real2sim2real完整技术流程,包括复杂地形鲁棒行走、外推冲击恢复、速度曲线跟踪等关键技术模块[10][22] - 包含视觉语言动作模型与强化学习结合的创新方向,支持多模态感知信息的仿人灵巧操作研究[10][25] - 提供完整的论文写作指导体系,包括结构化论文模板、统一图表体例、补充材料清单和投稿审稿回复辅导[18][24] 课程特色与优势 - 采用科研闭环模式,实现方法-工程-评测-写作-投稿-维护全流程陪跑,每周设置明确任务指标[17][31] - 即使学员没有成熟idea,也能在提供的idea与baseline上迭代出可投论文初稿[16] - 师资来自美国顶尖高校的博士后研究员,具备RSS、ICRA、IROS、RAL等顶级会议期刊的发表和审稿经验[23] - 课程配备真机部署参考代码,支持Unitree/Franka/xArm/云深处/松灵机器人等设备实机环节[26][28]
0人工参与实现梯度更新,,MIT新框架让AI自动生成微调数据,权重自主升级
36氪· 2025-10-14 07:16
技术框架概述 - 提出一种名为SEAL(Self-Adapting LLMs)的新型强化学习框架,使大模型能够生成微调数据和自我更新指令,实现模型权重的自主更新 [1][3] - 该框架采用内外两层嵌套的学习机制,根据更新后模型在任务上的表现计算奖励,以优化自我更新指令的生成策略 [3] - SEAL首次在权重层面赋予大模型自我驱动的更新能力,摆脱了完全依赖外部监督数据的局限,实现无需人工参与的自主梯度更新和知识获取 [1][3] 知识注入任务表现 - 在单段落知识注入实验中,使用Qwen2.5-7B模型,SEAL方法微调后准确率达47.0%,优于原始模型的32.7%、使用原文微调的33.5%以及GPT-4.1合成数据辅助训练的46.3% [6][10] - 在200段落设置下,SEAL准确率达到58.2%,显著高于未优化版本,表明该框架可泛化至更大规模数据整理任务 [8][10] - 实验对比方法包括仅用原始段落微调、使用GPT-4.1生成的句子辅助训练以及SEAL自身生成数据微调 [9] 小样本学习任务表现 - 在小样本学习实验中,使用LLaMA-3.2-1B-Instruct模型和ARC-AGI数据集子集,SEAL训练出的策略使任务成功率高达72.5% [15][16] - 该成功率远高于仅使用固定few-shot提示的0%以及随机采样策略的20%,虽不及人工设定最优策略的100%,但显示出强大的自主任务适应能力 [15][16] - 模型接收到任务示例后,生成训练配置并执行LoRA微调,随后在测试输入上进行预测 [13] 技术实现机制 - SEAL采用双循环系统,外部循环由强化学习驱动,模型首先生成描述如何更新自己的自然语言“微调指令”,内部循环则执行该指令进行参数更新 [17][18] - 使用名为ReSTEM的非传统强化学习方法,其关键思路是行为克隆加过滤采样,通过生成多个self-edit候选并仅保留带来性能提升的指令来优化策略 [18][20] - 整个工作流程为模型读取新信息,用自己的语言重写并进行梯度更新,实现“学会如何让自己学得更好”的自我编辑与持续进化能力 [17][20]
蚂蚁Ring-1T正式登场,万亿参数思考模型,数学能力对标IMO银牌
机器之心· 2025-10-14 06:33
模型发布与市场反响 - 蚂蚁集团在短短十余天内连续开源三款大模型,最新发布的是全球首个开源万亿参数思考模型Ring-1T [3][6] - Ring-1T上线HuggingFace仅四天下载量便突破千次,显示出较高的市场关注度 [3] - 此次正式发布的Ring-1T完成了完整的训练流程,包括通过大规模可验证奖励强化学习和人类反馈强化学习进一步增强能力 [7] 技术性能表现 - 在IMO 2025测试中,Ring-1T首次尝试便解出4题全对,达到IMO银牌水平,成为首个在国际奥数赛题上取得获奖级成绩的开源系统 [7] - 在八个重要基准测试中,Ring-1T性能几乎全面超越其Preview版本,在ARC-AGI-v1、Arena-Hard-v2.0等高难度测试中表现尤为突出 [12][14] - 在逻辑推理任务ARC-AGI-v1上,Ring-1T刷新开源SOTA,显著领先Gemini-2.5-Pro,非常接近GPT-5-Thinking (High) [16] - 在ICPC World Finals 2025中,Ring-1T成功解出5题,表现超越Gemini-2.5-Pro (3题),逼近GPT-5-Thinking (6题) [19] 实际应用演示 - 在代码生成方面,Ring-1T能够快速生成功能完整的游戏代码,如Flappy Bird和贪吃蛇小游戏,实现交互功能与平滑动画 [20][23] - 模型在逻辑推理测试中表现出色,能够准确分析复杂情境并给出合理解答,如三只兔子赛跑问题和俱乐部成员身份推理题 [29][33] - 在创意写作领域,Ring-1T能够生成符合播客口语化风格的历史文案,语言生动且具吸引力 [40] 技术创新与工程突破 - 团队开发了强化学习算法IcePop,通过"双向截断+Masked Clipping"机制解决MoE模型训推不一致问题,显著提升训练稳定性 [45][46] - IcePop让模型在AIME25等复杂推理任务上成绩更优,输出更稳、更具多样性 [48] - 蚂蚁自研了强化学习基础框架ASystem,采用SingleController + SPMD架构,解决万亿规模训练的硬件资源调度与效率瓶颈 [50] - ASystem通过显存透明卸载与跨节点显存池化技术降低OOM风险,并实现权重秒级交换 [51] - 系统集成大规模Serverless Sandbox,支持毫秒级冷启动和10K/s吞吐量的奖励评估 [51] 开源战略与行业影响 - 蚂蚁集团在9-10月密集上线多款新品,平均每4天发布一个新模型,展现出快速迭代能力 [52] - 公司开源的不只是模型,还包括底层能力如强化学习框架AReaL,让社区能复用其在RL工程上的积累 [52] - 蚂蚁将开源视为AI普惠落地的现实路径,旨在让AI能力像电力与支付那样无处不在 [52]
0人工参与实现梯度更新!MIT新框架让AI自动生成微调数据,权重自主升级
量子位· 2025-10-14 04:08
文章核心观点 - MIT提出名为SEAL的新型强化学习框架,使大模型能够自主生成微调数据和自我更新指令,实现在权重层面的自我更新[1][4][6] - 该框架采用内外两层嵌套学习机制,无需人工参与即可自动进行梯度更新,使模型具备自主学习新知识和适应新任务的能力[2][5][25] - SEAL首次在权重层面赋予大模型自我驱动的更新能力,突破了完全依赖外部监督数据的局限[6] 技术框架与工作机制 - SEAL框架由强化学习驱动的外部循环和执行参数更新的内部循环构成[26] - 外部循环中,模型针对新输入上下文生成自然语言组成的"self-edit"指令,自主设计训练流程包括提取信息、生成训练样本和设定训练参数[28][29] - 内部循环中,模型按照指令执行微调,构造合成训练数据并进行权重更新,随后立即评估新模型在任务上的表现[30][31][32] - 采用ReSTEM强化学习方法,通过行为克隆+过滤采样优化self-edit生成策略,训练更稳定且适用于大模型生成行为学习[33][35][37] 知识注入实验成果 - 使用Qwen2 5-7B模型和SQuAD数据集进行知识注入测试,SEAL微调后准确率达47 0%,优于原始模型32 7%和使用GPT-4 1合成数据46 3%的表现[14][15] - 在200段落设置下准确率达到58 2%,证明框架可泛化至更大规模数据整理任务[16] - 实验对比方案包括仅用原始段落微调33 5%准确率,凸显SEAL较强知识整合能力[13][14][15] 小样本学习实验成果 - 使用LLaMA-3 2-1B-Instruct模型和ARC-AGI数据集子集进行小样本学习测试[17][18] - SEAL训练出的策略使任务成功率达到72 5%,远高于固定few-shot提示0%和随机采样策略20%的表现[22] - 虽然不及人工设定最优策略100%的成功率,但作为模型自主摸索的学习路径已体现较强任务适应能力[22] 技术优势与应用前景 - SEAL框架实现"学会如何让自己学得更好",使模型能主动设计训练方式、构造训练数据并优化自学习策略[38] - 最终表现为具备自我编辑与持续进化能力的语言模型结构,为模型自主学习提供新范式[38]
卡帕西8000行代码手搓ChatGPT,成本仅100美元,训练12小时CORE表现超越GPT-2,手把手教程来了
36氪· 2025-10-14 03:40
项目概述 - 项目nanochat是一个极简、从零开始构建的全栈训练/推理pipeline,用最少量依赖的单一代码库实现了简易版ChatGPT [1] - 项目整体约8000行代码,基于Rust语言实现,可实现训练分词器、预训练大语言模型、指令微调、强化学习及高效推理等功能 [2] - 在8×H100 GPU上训练约4小时,整体成本仅需约100美元,即可训练出一个可进行基础对话、创作故事诗歌、回答简单问题的模型 [1][2] 技术架构与流程 - 训练流程始于在FineWeb-EDU数据集上预训练Transformer架构模型,该数据集被重新打包为简单、完全打乱的分片,总计约24GB [15][16] - 项目训练了自定义分词器,词汇表大小为65,536个tokens,在训练集包含2B字符上训练约1分钟,实现了约4.8的压缩比 [16][18] - 预训练后进行了中期训练,在SmolTalk对话数据集和多项选择题数据集上微调,使模型适应对话格式并理解多选题机制,此过程约8分钟 [35][36][37] - 随后进行监督微调(SFT)以提升对话质量,并可选地进行强化学习(RL)训练,针对GSM8K数学数据集使用简化的GRPO算法优化模型答案正确率 [41][46][48] 性能表现 - 模型在预训练后CORE指标达到0.2219,略高于GPT-2 large(0.21)但略低于GPT-2 xl(0.26) [3][32] - 经过中期训练和监督微调后,模型在多项基准测试上表现提升:ARC-Easy从0.3561提升至0.3876,GSM8K从0.0250提升至0.0455,HumanEval从0.0671提升至0.0854 [3][52] - 进行强化学习训练后,模型在GSM8K数据集上的表现进一步提升至0.0758 [3][52] - 训练深度为30的模型24小时后(算力消耗为GPT-3的千分之一),在MMLU数据集上可达40多分,在ARC-Easy上达70多分,在GSM8K上达20多分 [6] 项目特点与影响 - 项目代码完全手写,作者尝试使用AI编程助手但效果不佳,最终产出约8000行代码,旨在提供统一、极简、易读、可修改的技术栈 [9][7] - 项目作为LLM101n课程的压轴项目,有潜力发展为研究工具框架或基准测试工具,类似之前的nanoGPT项目 [7] - 项目发布后迅速获得社区关注,GitHub Star数飙升至4.8k,被评论为具有高教育价值和可理解智慧 [8] 成本与效率 - 使用云服务(如Lambda GPU Cloud)启动一台8卡H100服务器,每小时成本约24美元,总训练时间约4小时,成本约100美元 [10][53] - 若将成本提升至约1000美元(训练约41.6小时),模型表现显著提升,能解决简单的数学/代码问题及多项选择题 [4] - 到监督微调阶段为止的总用时为3小时51分钟,总成本约为92.4美元 [53]
卡帕西8000行代码手搓ChatGPT,成本仅100美元,训练12小时CORE表现超越GPT-2,手把手教程来了
量子位· 2025-10-14 02:19
项目概述 - Andrej Karpathy发布名为nanochat的极简全栈项目,旨在从零开始构建简易版ChatGPT [1] - 项目核心目标是以约100美元成本在8×H100 GPU上训练4小时,复刻基础对话功能的模型 [4] - 整个代码库约8000行,基于Rust语言实现,包含训练分词器、预训练、中期训练、指令微调等完整流程 [4][5] 技术架构与流程 - 采用Transformer架构,在FineWeb-EDU数据集上预训练,使用自定义分词器(词汇量65,536)实现约4.8的文本压缩比 [5][25][26] - 训练流程分为预训练(BASE)、中期训练(MID)、监督微调(SFT)和强化学习(RL)四个阶段 [5][45][48][51] - 推理引擎支持KV缓存、预填充/解码流程及工具使用(如Python解释器),提供CLI和类ChatGPT的WebUI交互界面 [5][43] 性能表现 - 预训练模型CORE指标达0.2219,超越GPT-2 large(0.21)但略低于GPT-2 xl(0.26) [7][41] - 经过中期训练和监督微调后,模型在多项基准测试中提升:ARC-Easy从0.3561升至0.3876,GSM8K从0.0250升至0.0455 [7][56] - 强化学习阶段针对GSM8K数学题优化,性能进一步提升至0.0758,总训练耗时3小时51分钟,成本约92.4美元 [7][53][56][57] 可扩展性与社区影响 - 项目设计为可调优框架,用户可通过修改深度参数(如depth=30)探索更大模型,预期在MMLU和ARC-Easy分别达40多分和70多分 [10][61] - 代码库强调易读性和可修改性,已获GitHub 4.8k星关注,被社区评价为“可被理解的智慧” [11][13][14] - nanochat将作为Karpathy教育项目LLM101n课程的压轴内容,推动AI教育普及 [12][75]
《大模型的第一性思考》李建忠对话GPT5与Transformer发明者Lukasz Kaiser实录
36氪· 2025-10-13 10:46
对话一:语言对于智能到底意味着什么? - 语言模型在智能构建中扮演核心角色,其成功源于对语言在智能中核心作用的认知,ChatGPT和Transformer的成功均得益于此[6][9] - 语言具备时间维度,总是在生成下一个词,而序列模型(如Transformer)可处理包括语言、蛋白质、音频在内的各种序列,时间序列是表达智能的重要组成部分[7] - 语言训练具有实践优势,互联网上海量的语言数据使得训练非常方便且成本远低于视频训练[9] - 语言模型确实会形成独立于语言的抽象概念,例如在解决数学问题时,尽管用不同语言生成答案,但解题方式和错误类型相同,表明模型在抽象空间进行思考[10] - 然而,未经过大量多模态数据训练的模型,其概念(如"痛苦"或"爱")可能与人类植根于物理世界的真实感受有所不同[11] 对话二:多模态与世界模型的挑战 - 现代大语言模型(如GPT-4)已是多模态模型,能接收和生成图像、音频,并已取得巨大进展,例如ChatGPT的语音模式可以对话、唱歌[12] - 当前多模态处理方式(如通过VQ-VAE将图像/音频编码为特殊代码)有效但不令人满意,未来需要更深入地将多模态融合到模型中,使编码更具可训练性并与语言有更多交互[13] - 语言对于为视觉对象赋予语义含义至关重要,否定语言价值的视觉派研究可能重蹈ChatGPT发布前的错误路线[14] - 现代大语言模型在某种程度上已是世界模型,在文本和数学方面表现卓越,但作为物理模型的表现不如语言模型,部分原因是视频训练数据不足、质量不佳及当前架构限制[14] - 通过改进架构、损失函数并增加更好更多的数据,结合像Sora、Genie和Veo这类从视频学习的模型,正在弥合"世界模型"与"语言模型"之间的差距[15] 对话三:AI编程:自然语言是终极目标,还是新的"巴别塔"? - Transformer架构的创造者在早期就已预见其在自动化编程方面的应用潜力[17] - 未来语言模型将能覆盖大量编程工作,但数学符号和编程语言作为沟通工具,在解释复杂概念时比纯自然语言更高效,因此专业程序员仍需掌握这些概念以实现与模型的快速、高效沟通[18] - 编程的重点在于沟通和抽象,而非特定语言,AI有望帮助更好地使用现有编程语言来改进系统,而非必然需要创造新的为AI设计的编程语言[19] - 新的编程语言需求将来自新的计算硬件架构,而非AI编程本身[20] 对话四:Agent的泛化困境:是方法问题,还是根本限制? - 所谓的"智能体模型"通常指在其推理过程中能调用外部工具(如代码解释器、网络搜索)的推理模型,这些模型使用强化学习训练且效果良好[21] - Agent泛化问题的主要挑战在于缺乏学习信号,当模型使用未经训练的工具时,没有像强化学习训练那样的反馈机制来检查答案正确性[22] - 要实现出色的多智能体系统,需要能够模拟整个环境进行训练,而这在当前难以实现,但即使没有大量训练,聪明的模型也能零样本完成许多任务[23] 对话五:算力与算法:Scaling Law是信仰还是路径依赖? - 预训练的Scaling Law已带来巨大进展,但存在经济上的实践极限,因为用户不愿为每个token支付过高费用,且大模型可被蒸馏成更小模型[25] - 预训练的Scaling Law在解决某些问题(如GSM-8K数学数据集)时速度不可行,而强化学习推理能用小模型解决相同问题,显示出更高的数据效率[26] - 推理模型的Scaling Law(通过强化学习让模型运行更长时间以提升性能)受限于Transformer的上下文长度设计以及强化学习在长序列推理中的信用分配问题[27] - 推理的Scaling Law与预训练的Scaling Law有不同限制,这呼唤新的研究和可能的架构或强化学习算法改进[28] 对话六:具身智能的挑战:是数据问题?还是比特和原子的根本性差异? - 具身智能可能更接近于当前的大语言模型,数据效率正在提高,例如推理模型能用极少样本学会困难任务[29] - 实现具身智能需要一个在大量视频上预训练好的多模态模型作为基础,再结合强化学习进行推理训练,但需要调整架构以适应现实世界行动的速度要求[30] - 第一个版本的具身智能模型可能基于现有成果调整,但未来会出现数据和计算更高效的新一代模型[31] 对话七:强化学习:是超级优化器,还是科学发现的引擎? - 由强化学习驱动的推理模型可被视为一种数据效率更高的新架构或范式,能够从有限数据(如1000道数学题)中学习[32][33] - 强化学习只依赖一个奖励信号,若优化得当,模型有望从研究论文中学习并提出连专业人员都觉得新颖的想法,推动科学发现[33] - 该范式仍处于早期阶段(社区广泛关注约一年),需要更多尝试、发现和改进以提升效率和应用范围[34] 对话八:AI的组织跃迁:如何实现大规模Agent协作? - 实现大规模Agent组织(如成千上万个Agent协作)的最大挑战在于开发下一代推理模型,需要类似Transformer之于RNN的架构创新[35] - 当前推理模型顺序生成token的方式缺乏并行性,未来需要为并行过程提供更多信号,并结合新的架构来融入并行处理[36] 对话九:AI记忆的瓶颈:模型离真正的"原生记忆"还有多远? - 通过将记忆作为工具(如访问互联网或记忆库)并结合强化学习训练,模型可以有效地解决记忆问题,当前方案已相当可行[37][38] - 未来可能出现更优雅的记忆机制,如将记忆转化为连续的向量或通过类似LoRA的适配器微调模型权重,但这仍是待研究的问题[40] 对话十:大模型如何摆脱瞬时学习,而像人类一样持续学习? - 利用上下文学习作为持续学习的记忆是当前已实现的进展,模型将对话信息放入上下文进行处理,但效率并非最高[39] - 通过记忆工具和像LoRA这样的适配器微调技术,实质性修改权重已变得更加可行,为持续学习提供了基础,但如何优化算法仍是研究重点[40] - 下一代推理架构有望实现更并行的处理,推动模型在科学发现等领域的应用,未来并不遥远[41]
真正的AI竞争力,藏在大模型“后训练”这一步
量子位· 2025-10-13 08:47
后训练技术演进与产业共识 - 后训练被视为AI落地产业的必经之路,旨在将通用基座模型转化为深度理解企业业务、具备领域知识并能执行复杂策略的专属智能引擎[1] - 技术路径从监督微调(SFT)进化至以目标为导向的强化学习(RL)范式,并从依赖人力的RLHF发展到追求自动化的RLVR和前沿的自然语言奖励[2][3][4] - 后训练的核心价值在于通过对模型的特定能力增强,解决商业世界的复杂任务,构建通用模型无法达到的竞争壁垒[4] 企业后训练四步落地路径 - 企业后训练落地遵循一条清晰链路:准备高质量数据(Data)、选择合适的基座模型(Model)、设计有效的奖励机制(Reward)、构建可量化的模型评测(Evaluation)并与业务指标挂钩[8] 第一步:准备高质量数据 - 数据质量是后训练效果的上限,企业超过一半甚至60%-70%的时间都花费在数据准备上[10] - 知乎通过大模型预打标和主动学习提升数据质量,汽车之家利用20年积累的结构化私域数据进行增量预训练,百融云创则建立工业化数据生产线,通过模型自动过滤、校正文本并合成数据来提纯话术[10][11][13] 第二步:选择合适的基座模型 - 选对基座模型是后训练成功的一半,多家企业选择通义千问系列模型,因其模型效果领先、尺寸覆盖广泛且开源生态对后训练深度支持[15] - 通义千问衍生模型数量已突破17万,全球下载量超过6亿,在HuggingFace社区2024年全球模型下载量中占比超30%[16] - 为平衡效果与成本,微博和网易伏羲采用模型蒸馏方案,将大模型能力迁移至更轻量的模型上,微博蒸馏至7B模型,实现了接近大模型的效果但成本更低[19][21] 第三步:设计奖励机制 - 奖励机制的核心是将复杂的商业目标和人类偏好转化为模型可学习的数值信号,技术从RLHF经RLVR演进至利用大模型本身作为评判者的自然语言奖励[24][25] - 盈米基金与阿里云合作,将人类投顾专家的解题框架和风控逻辑内置到模型中探索奖励函数,汽车之家则通过A/B测试关注用户最终转化率等核心业务指标[26] 第四步:构建评估体系 - 模型评估需用客观、可量化的结果证明技术投入的商业价值,盈米基金构建了覆盖600个典型场景的基金投顾领域评测基准[27][28] - 通过精心设计的奖励机制,盈米基金的4B参数垂直模型在准确性指标上超过通用32B参数模型,百融云创使模型回答质量分提升10%,业务违规率从1%降至千分之三[28] 企业后训练实践与商业价值 - 夸克通过后训练复刻专家思维,2025年为高考志愿填报场景生成超1200万份报告,服务4000万用户,实现专家级服务的规模化普惠[30] - 在游戏智能NPC领域,后训练使NPC具备多维度决策能力,如《新倩女幽魂》中的家臣系统能基于薪资、关系亲疏等动态调整行为[32] - 后训练创造的商业价值在金融、内容社区、汽车、AI搜索等领域集中爆发,成为企业真正的护城河[32]