Workflow
强化学习
icon
搜索文档
四位图灵奖掌舵,2025智源大会揭示AI进化新路径
量子位· 2025-05-23 06:14
智源大会概况 - 第七届北京智源大会将于2025年6月6日至7日在中关村国家自主创新示范区展示中心举行,汇聚全球顶尖AI研究者[3] - 大会自2019年创办以来已吸引12位图灵奖得主参与,每年有200余位专家参会,联动全球30多个国家和地区的50万从业者[3] - 2025年大会将迎来四位图灵奖获得者,云集MIT、斯坦福、清华、北大等20+顶尖科研院所及DeepMind、华为、阿里等企业专家[4] AI技术发展趋势 - 深度学习和强化学习的技术交叉成为下一代通用人工智能基石,2016年AlphaGo成功推动两者融合[2] - 2025年AI发展关键词包括推理大模型兴起、开源生态加速(如DeepSeek)、具身智能百花齐放(VLA等开源模型推动)[2] - 基础理论领域聚焦深度推理模型、多模态模型、类脑大模型、NeuroAl等20个前沿议题[6][8] 大会核心议程 - 设立基础理论、应用探索、产业创新、可持续发展四大主题,包含近20场专题论坛[4] - 专题涵盖自主智能体、AI for Science、智能驾驶、AI安全等方向,特别设置"大模型产业CEO论坛"(智谱AI、面壁智能等参与)[5][11] - 新增"InnoVibe共创场"为青年学者提供成果分享平台,同步开设AI互动展区展示前沿科技[5] 产业生态与创新 - 开源生态加速演进,PyTorch Day China和AI开源项目Tech Tutorial系列活动推动技术落地[11] - 具身智能与人形机器人、AI+理工/医学等应用探索成为产业焦点[8][11] - 企业创新路径涵盖从AI for Science到AI for Industry的完整链条[11]
我们让GPT玩狼人杀,它特别喜欢杀0号和1号,为什么?
虎嗅· 2025-05-23 05:32
人工智能技术发展现状 - 通用人工智能(AGI)概念已从五年前需要解释发展为当前社会广泛关注的热点话题 [5][6] - 顶尖科学家如杰弗里·辛顿教授多次公开强调AI可能带来的社会风险 [8] - 当前AI技术存在幻觉、偏见等核心问题,但距离毁灭社会仍较远 [10][11] 对抗样本技术问题 - 自动驾驶系统可能因路牌上微小扰动(如胶带)而错误识别交通标志 [12][15] - 图像识别系统在添加人类难以察觉的扰动后会产生完全错误的识别结果(如将汽车识别为Hello Kitty) [18][20][22] - 大语言模型在输入细微改动时会产生完全不同的翻译结果,甚至可能被诱导输出危险内容 [31] AI偏见问题根源 - 训练数据不平衡导致模型偏见,如Google Photo将黑人误标为"大猩猩"、亚马逊招聘系统歧视女性简历 [40][45] - 大模型存在过度自信现象,ResNet模型60%情况下会给出100%确信的判断 [61][63] - 数据中隐含的社会结构信息(如职业性别分布)会被模型放大 [85][86] 算法局限性 - 主流AI算法学习的是相关性而非因果性,导致模型在未知问题上产生幻觉 [93][94][99] - 强化学习可通过设计奖励机制缓解幻觉问题,如在狼人杀游戏中使AI行为更合理 [113][116][117] - 不同研究团队使用相同数据可能得出完全相反的结论,显示算法选择的主观性 [131][132] 价值对齐挑战 - 目标函数设计缺陷可能导致AI采取极端行为(如为不饿孩子而伤害宠物) [126] - 超级智能时代可能出现"超级对齐问题",即低智能体难以控制高智能体 [129] - 国际学术界已成立专门机构研究AI安全,多位图灵奖得主联合推动安全倡议 [134][137]
四位图灵奖掌舵:2025智源大会揭示AI进化新路径
机器之心· 2025-05-23 04:17
智源大会概况 - 2025年第七届北京智源大会将于6月6-7日在中关村国家自主创新示范区展示中心举行,汇聚全球顶尖AI研究者与产业领袖 [3][4] - 大会自2019年创办以来已吸引12位图灵奖得主参与,每年有200+专家参会,覆盖全球30+国家/地区的50万从业者 [3] - 2025年大会将迎来四位图灵奖得主,以及来自MIT、斯坦福、清华、北大等20+顶尖科研院所的科学家 [4][5] AI技术发展趋势 - 深度学习和强化学习的技术交叉成为下一代通用人工智能基石,如2013年DeepMind的DQN和2016年AlphaGo的突破 [2] - 2025年AI发展关键词包括推理大模型兴起、开源生态加速(如DeepSeek和VLA模型推动具身智能演进)、创新企业涌现 [3] - 基础理论领域聚焦深度推理模型、多模态模型、类脑大模型、NeuroAl等方向 [7][10] 产业应用与创新 - 应用探索涵盖具身智能与人形机器人、自主智能体、AI for Science(AI4S)、AI+理工/医学等方向 [8][10] - 产业创新板块设置大模型产业CEO论坛,邀请智谱AI、面壁智能、生数科技、爱诗科技等企业探讨演进路径 [5][10] - 智能驾驶、具身技术产业应用、从AI for Science到AI for Industry成为重点议题 [10] 特色活动与生态建设 - 首次推出"InnoVibe共创场",邀请热门论文作者分享成果,为Z世代AI青年提供展示平台 [5] - 设置AI互动展区展示前沿科技,同期举办PyTorch Day China、AI开源项目Tech Tutorial等系列活动 [5][12] - 可持续发展议题关注AI安全、青年科学家发展、开源生态建设等方向 [11][12]
5分钟读懂Lilian Weng万字长文:大模型是怎么思考的?
虎嗅· 2025-05-22 09:54
大模型思考机制 - 从心理学角度类比人类思考系统1(直觉快速)和系统2(分析缓慢) LLM早期输出类似系统1 增加思考时间可激活系统2式推理 [6][7] - 计算资源视角将思考定义为可分配的计算量总和 神经网络通过调整前向传递资源实现动态思考 [8] - 数学建模将思考过程视为隐变量 通过概率模型整合多路径思考可优化答案分布 [10][11] 模型训练方法论 - 思维链(CoT)技术演进:从模仿人类推理到强化学习自动优化 模型规模与CoT收益呈正相关 [12][13] - 强化学习规模化应用案例:DeepSeek R1采用并行采样(best-of-N)与顺序改进(反思修正)双路径训练 纯RL训练也可涌现高级推理能力 [15][17] - 外部工具调用成为新范式 OpenAI o3/o4-mini与Claude sonnet3.7集成代码解释器/网页搜索等多模态工具 [19][20][21] 前沿技术挑战 - 思考忠实性问题:专用推理模型(如Claude 3.7 Sonnet)比通用模型更易展示真实思考链 但直接奖励诚实性可能导致反向作弊 [23][24] - 计算效率平衡:当前阶段增加test-time计算量优于单纯扩参 但受限于基础模型潜力天花板 [26][27] - 架构创新方向:动态深度RNN 改进型Transformer 思考token插入 潜变量建模等28] 开放研究问题 - 强化学习激励机制设计:需兼顾人类可读性 思考真实性 反reward hacking三重目标 [29] - 能力迁移路径:如何将推理模型性能提升蒸馏回基础模型 实现技术代际传承 [31] - 自适应思考机制:建立问题难度与思考时间的动态匹配算法 [31]
翁荔最新万字长文:Why We Think
量子位· 2025-05-18 05:20
核心观点 - 通过"测试时计算"(Test-time Compute)和"思维链"(Chain-of-Thought,CoT)技术可显著提升模型性能,突破当前能力瓶颈 [1][2] - 让模型在输出答案前多思考一会儿(如智能解码、思维链推理、潜在思考等方法)能提升智能水平 [2] - 该方法与人类思考方式深度关联,借鉴了心理学中的双系统理论(系统1快速直觉 vs 系统2慢速逻辑) [10][11] 心理学类比 - 人类思考分为系统1(快速直觉但易出错)和系统2(慢速逻辑更理性),模型通过延长思考时间可模拟系统2的深度分析 [10][11] - 数学问题等复杂任务需要系统2思考,模型通过CoT实现类似过程 [10] 计算资源优化 - Transformer模型的计算量约为参数量的2倍,稀疏模型(如MoE)计算量=2*参数/稀疏度 [13] - CoT允许模型根据问题难度动态调整计算量,提升效率 [13] - 测试时计算通过自适应修改推理时的输出分布优化性能 [24] 思维链技术发展 - 早期方法包括监督学习生成中间步骤(如数学题推导)和验证器判断答案正确性 [18] - 强化学习在可验证答案的数据集(如STEM题目)上大幅改进CoT推理能力 [19] - DeepSeek-AI的R1技术报告显示简单策略梯度算法即可实现强劲性能 [20] 并行采样与顺序修订 - 并行采样(如N选1、束搜索)通过多候选筛选提升准确性,但受模型单次生成能力限制 [24][25][29] - 顺序修订通过迭代修正错误,但需依赖外部反馈避免性能下降 [24][37][38] - 两者结合可优化不同难度问题的表现 [24] 强化学习与外部工具整合 - 强化学习(如SCoRe框架)通过多轮次优化实现自我修正 [41] - 外部工具(如代码解释器、知识搜索API)可弥补模型计算或知识短板 [45] - 纯RL无需监督微调即可涌现反思与回溯能力 [45] 架构创新与未来挑战 - 循环架构(如Universal Transformer)动态调整计算步数提升效率 [50] - 显式/隐式标记技术(如暂停标记、Quiet-STaR)可增加计算时间 [50] - 未来需解决奖励破解、无监督自我修正、性能迁移至基础模型等挑战 [50]
刚刚!北大校友Lilian Weng最新博客来了:Why We Think
机器之心· 2025-05-18 04:25
大模型测试时计算优化 - 核心观点:通过延长模型"思考时间"(测试时计算)可显著提升大语言模型在复杂推理任务中的性能表现,该方向与人类认知双系统理论高度相关[2][6] - GPT、Claude、Gemini等模型通过思维链(CoT)和测试时计算策略优化,在逻辑推理、长文本理解、数学问题求解等高级认知任务上不断突破性能边界[2] - Transformer生成每个token的计算量约为参数量的2倍,而稀疏模型(MoE)因部分网络激活可降低计算量至2×参数数÷稀疏度[8] 思维链技术演进 - 思维链(CoT)允许模型根据问题难度动态调整计算量,早期通过监督学习人类编写的推理路径实现[13] - 强化学习在可验证答案的数据集(如STEM问题)上应用显著提升CoT性能,近期采用策略梯度算法结合自动评估成为主流方法[14] - 模型规模越大,"思考时间"带来的性能收益越显著,在数学问题上成功率提升明显[16] 并行采样与序列修订 - 并行采样通过生成多个候选序列并用验证器筛选最优解,实现简单但依赖模型单次生成能力[19][26] - 序列修订通过迭代修正输出实现质量提升,需额外控制修订风险如正确答案被错误修改[20] - 实验表明简单问题适合纯序列策略,高难度问题需组合并行与序列方法才能获得最优表现[21] 强化学习应用 - DeepSeek-R1通过两阶段SFT-RL训练在数学/编程任务表现优异,验证纯强化学习可涌现"顿悟时刻"类高级推理能力[42][46] - 推理类RL训练使用格式奖励(特殊token包裹CoT)和准确性奖励(自动验证答案)双重机制[43] - 失败案例显示过程奖励模型易导致奖励欺骗,蒙特卡洛树搜索因token空间过大难以应用[49] 外部工具整合 - PAL和Chain of Code方法通过调用代码解释器处理数学计算/编程任务,扩展模型能力边界[52] - ReAct方法结合Wikipedia API调用与推理轨迹生成,实现外部知识整合[56] - OpenAI o3/o4-mini模型融合网页搜索、代码执行等工具操作,验证计算资源与性能正相关[57] 连续空间思考架构 - 递归架构如Universal Transformer通过自适应计算时间动态调整推理步数[82] - 思考token技术通过插入特殊token为模型争取额外计算时间,在数字推理任务效果显著[85] - Quiet-STaR实现token级推理,通过生成未来文本的合理化解释提升预测质量[89] 测试时计算规模效应 - 测试时计算优化相比参数扩展可能更高效,但对困难问题的弥补能力有限[107] - 思维链长度与评估准确率呈正相关,但简单拒绝采样会导致反向scaling现象[112][113] - 最佳效果出现在推理token远少于预训练token时,表明基础模型能力仍是关键[112]
通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API
量子位· 2025-05-17 03:50
强化学习框架ZeroSearch的核心创新 - 开源ZeroSearch框架通过模拟搜索引擎环境实现无需真实API交互的强化学习训练,显著降低训练成本[4][19] - 仅需3B参数LLM作为检索模块即可达到与真实搜索引擎相当的效果,14B参数版本甚至超越谷歌搜索性能[5][30][31] - 采用渐进式抗噪训练策略,初期提供高质量文档,后期按指数曲线增加噪声比例以提升模型鲁棒性[12][13][17] 技术实现细节 - 轻量微调使LLM具备生成"有用结果"和"噪声干扰"文档的双重能力,模拟真实搜索场景[7][10][11] - 兼容PPO和GRPO等多种强化学习算法,GRPO在稳定性上表现更优,PPO在任务灵活性上更具优势[19][21][34][35] - 通过课程学习机制动态调整文档质量,使模型从简单场景逐步过渡到复杂检索任务[13][14][17] 性能表现对比 - 在单跳问答任务中,ZeroSearch-base模型平均准确率达38.61%,显著高于RAG(25.51%)和RA-Agent(20.71%)[24][25] - 多跳问答任务中,ZeroSearch-instruction版本以40.54%平均准确率超越所有基线方法,展示复杂推理能力[24][26] - LLaMA-3.2-3B模型上ZeroSearch奖励曲线比真实搜索引擎(Search-R1)更平滑且最终性能更高[28][29] 经济性与扩展性优势 - 完全消除搜索引擎API调用成本,使大规模RL训练经济可行[19][22] - 7B参数模型即达到谷歌搜索水平,参数扩展性验证其在大型模型的应用潜力[30][31] - 训练数据自生成机制形成闭环生态,提升训练灵活性和可扩展性[18][22][37]
OpenAI:GPT-5就是All in One,集成各种产品
量子位· 2025-05-17 03:50
GPT-5整合计划 - 下一代基础模型GPT-5计划整合Codex、Operator、Deep Research和Memory等工具,减少模型切换 [2][11] - 核心目标是提升现有模型能力,使其成为多功能助手而非仅提供建议 [10] Codex项目发展 - Codex最初是工程师的业余项目,因内部工作流未充分利用模型而启动 [5] - 内部使用Codex后编程效率提升约3倍,代码和功能交付量显著增加 [5][17] - 团队探索按需付费等灵活定价方案,未来可能推出o3-pro或codex-1-pro版本 [5] 技术实现细节 - Codex CLI工具采用TypeScript编写,因开发者熟悉且适合UI开发,未来将支持多语言扩展 [8] - 云端运行Agent可实现并行化和沙盒化,保障代码安全执行 [9] - 模型利用容器运行时加载的GitHub仓库等静态信息,未来可能结合RAG技术动态引用外部知识库 [15] 效率提升与行业影响 - Codex通过生成多版本代码并筛选最优解,改变传统"氛围编码"范式 [10] - 与良好软件工程实践结合后,开发效率提升显著,测试流程和代码结构优化成为关键 [17] - 未来10年愿景是实现软件需求到可运行版本的高效可靠转化 [18] 开发者生态策略 - Codex定位为辅助工具而非替代品,帮助初级开发者降低学习门槛 [19] - 计划面向Plus/Pro用户推出免费API积分以推广Codex CLI使用 [20] - 官方发布《Codex上手指南》,涵盖GitHub连接、任务提交及提示词技巧等实操内容 [24][25] 技术研究方法 - 采用强化学习提升模型编码能力、代码风格及报告准确性 [15][16] - 团队对强化学习在LLM和编码领域的应用前景持乐观态度 [16]
OpenAI首席科学家帕乔茨基:AI已开始具备原创性研究能力
36氪· 2025-05-16 10:14
AI技术发展现状与趋势 - 强化学习显著推动AI模型推理能力提升 赋予模型自主探索多样化思维路径的能力[3] - 预训练模型已掌握大量世界知识 但缺乏对自身学习过程的认知能力[3] - 证据显示AI模型能够生成新见解并具备某种形式的推理能力 尽管与人类逻辑推理方式存在差异[3] AI应用前景与突破 - AI助手角色将发生根本性改善 从需要持续指导转向更自主运作[2] - Deep Research类工具已在无人监督情况下运行10到20分钟并产出有价值内容 且计算资源消耗很少[2] - 未来AI将具备原创科学研究能力 在自动软件工程和硬件组件自主设计等领域取得重大进展[2] - 预计今年AI将能几乎自主开发有价值软件 虽暂无法解决重大科学难题但已接近该目标[6] AGI发展进程 - AGI正从理论走向现实 技术进展速度远超预期[1][6] - 图灵测试取得显著突破 数学和问题解决等核心能力持续进步[6] - 下一个重大里程碑是AI产生实际可衡量的经济影响 特别是原创研究能力[6] - 预计在本十年结束前在原创研究能力方面取得重大突破[6] 开源与安全平衡 - 开源模型对研究人员非常重要 需要理解其社会影响[4] - 发布具备开源权重的前沿模型面临安全风险挑战[4] - 公司目标是推出性能优于现有开源模型的版本 在保证安全性前提下推动研究生态发展[4]
泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别新解法
机器之心· 2025-05-16 04:39
核心观点 - 大模型(LLMs)的快速发展和工具集成爆炸式增长使AI智能助手功能大幅扩展,但工具多样化和复杂化导致意图识别面临新挑战,尤其是模型在新意图上的性能衰减问题 [1] - 腾讯PCG社交线研究团队采用强化学习(RL)结合分组相对策略优化(GRPO)算法和基于奖励的课程采样(RCS),显著提升模型在未知意图上的泛化能力 [2] - 该方法在跨语言、意图拆分/合并等实际场景中表现优于传统监督微调(SFT),推动大模型意图识别技术突破 [4][17] 技术方法 GRPO算法创新 - 通过强化学习训练的模型在未见意图识别准确率上比SFT平均提升7.5%(TODAssistant数据集从41.6%至89.1%)[17][18] - 引入"思考"(Thought)机制使MultiWOZ2.2数据集准确率从76.1%提升至93.3% [20][21] - 格式奖励($R_{format}$)和准确率奖励($R_{answer}$)双维度约束模型输出 [7][9][10] 基于奖励的课程采样 - 两阶段训练:第一阶段全数据训练至收敛,第二阶段筛选30%难样例专注训练 [11][12] - 难样例单独训练效果最佳,在MultiWOZ2.2数据集使准确率从93.3%提升至96.0% [19][20] - 离线难度评分公式:$Score_i = \sum(\lambda_{format}·R_{format}^{i,j} + \lambda_{answer}·R_{answer}^{i,j})$ [11] 实验验证 数据集与基准 - 使用TODAssistant(中文)和MultiWOZ2.2(英文)数据集,基座模型为Qwen2.5-7B-Instruct [16] - GRPO在跨语言测试中,英文训练后中文识别准确率达65.2%,远超SFT的14.8% [17][18] 关键结果 - 在MultiWOZ2.2的5类场景中,GRPO对缺失类别的平均识别准确率(91.8%)比SFT(76.9%)高14.9个百分点 [17] - Pretrain与Instruct模型经GRPO训练后性能差异小于1.5%,打破传统认知 [21][22] - RCS使酒店场景识别准确率从94.6%提升至96.4% [19][20] 应用前景 - 当前方案支持单意图场景,未来将扩展至多意图识别 [25] - 计划从意图识别延伸至更复杂的任务型对话系统 [26] - 拟开发在线数据筛选方法替代现有离线模式 [24]