强化学习

搜索文档
VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika
机器之心· 2025-05-06 04:11
视频细粒度文本描述技术 - 复旦大学等机构提出的Cockatiel方法在VDC榜单上获得第一名,超越通义千问2-VL、VILA1.5、LLaVA-OneVision、Gemini-1.5等主流视频理解多模态大模型 [3] - Cockatiel采用三阶段微调训练流程:构造人类偏好数据、基于打分器的多模型集成训练、蒸馏轻量化模型,最终训练出13B多模态大语言模型并蒸馏为8B模型 [8] - 实验显示Cockatiel-13B能准确复现基线模型细节,捕捉遗漏信息,且大幅减少幻觉性内容,展现更高可靠性和准确性 [7] 强化学习优化视频生成技术 - 研究团队提出迭代式强化学习偏好优化方法IPOC,在VBench榜单以86.57%总分登顶,领先通义万相、Sora、HunyuanVideo等知名视频生成模型 [14] - IPOC采用三阶段优化:人工偏好数据标注、奖励模型训练、迭代强化学习优化,仅需少量训练数据和算力即可实现效果优化 [19][20] - 优化后视频生成模型在时序一致性、结构合理性、动态程度和美学度均有显著提升,如狮子行走动作更自然连贯,人物与猛犸象结构更合理 [21][23][25] 技术方案细节 - Cockatiel基于人类偏好对齐的高质量合成数据,集成多个模型优势,以单机训练成本实现细粒度表达和人类偏好一致性 [5] - IPOC框架兼容主流偏好优化算法,包括Diffusion-DPO和Diffusion-KTO方法,用户可灵活选择训练目标 [21] - 两项技术均提供完整开源资源,包括论文、项目主页和GitHub代码库 [5][20]
OpenAI放弃营利性转型!奥特曼:非营利组织继续掌控;关税重压下Temu停运中国直邮美国商品;英伟达再推中国特供版AI芯片
雷峰网· 2025-05-06 00:29
跨境电商与关税政策 - Temu因美国130%-150%进口关税压力,宣布停止向美国出口中国产品,全托管链接大规模下架,转为本地卖家供货模式[5] - 美国海关T86政策取消小额包裹关税豁免,2025年5月起中国输美货物需全额报关缴税[5] - Temu美国站全托管卖家4月26日起遭遇商品下架,部分店铺下架比例超50%,截至4月30日全托管业务近乎停摆[6] 新能源汽车行业动态 - 哪吒汽车App及官网因流量欠费导致五一期间瘫痪,2023年销量下滑后暴露经营困境,2024年10月被曝裁员、拖欠货款[8][9] - 小米、华为、理想等车企集体将"智驾"宣传改为"辅助驾驶",门店话术显著调整[10][11] - 蔚来调整天津和大连区域总经理,乐道渠道架构加速融合,人事变动频率加快[11][12] 人工智能与大模型进展 - DeepSeek推出6710亿参数数学定理证明模型Prover-V2,月之暗面同期发布Kimina-Prover,两者均采用强化学习技术[12][13] - OpenAI放弃营利性转型计划,维持非营利架构,强调AGI造福全人类使命不变[18][20] - 英伟达开发中国特供版AI芯片以应对出口限制,样品预计6月交付测试,H20芯片遭禁售或致55亿美元损失[20][21] 互联网与科技企业动向 - 小红书内测"种草直达"功能,计划开放广告跳转至天猫的外域合作[14] - 蚂蚁集团考虑分拆蚂蚁国际在香港上市,该板块收入占集团20%[14] - 小米高管许斐新任国际市场部总经理,雷军职务调整为董事,经营范围新增智能家居销售[15][16] 国际科技产业动态 - 特斯拉内部曾建议马斯克采用SpaceX模式挂名CEO,但遭其拒绝[22] - AMD放弃三星4纳米工艺合作,三星代工因3纳米良率问题丢失高通、英伟达订单[22][23] - Instagram创始人批评AI公司过度追求用户互动指标,忽视答案质量[23][24] 零售与消费电子 - 淘宝闪购提前4天全国上线,整合饿了么资源后订单激增,奈雪首日订单增长200%[9] - 苹果库克回应Siri个性化功能延迟,强调需打磨品质,计划一年内推出[25] - 沃尔沃旗下NOVO Energy因合作伙伴破产裁员50%,调整运营规模[25]
梁文锋和杨植麟再“撞车”
华尔街见闻· 2025-05-05 12:26
大模型技术进展 - DeepSeek推出数学定理证明专用模型DeepSeek-Prover-V2,参数规模达6710亿,较前代V1.5的70亿规模增长近百倍,在miniF2F测试通过率达88.9%,解决普特南测试49道题 [3] - 月之暗面同期推出形式化定理证明模型Kimina-Prover,开源1.5B和7B参数版本,miniF2F测试通过率80.7%,普特南测试解决10道题 [3] - 两家公司技术报告均采用强化学习方法,DeepSeek通过子目标分解推进数学推理,月之暗面基于强化学习技术构建形式推理模型 [4] - DeepSeek模型矩阵同步进化,Prover系列从2024年3月发布后历经三次升级,代码系列Coder从2024年4月起完成五次迭代至V3-0324版本 [10] 行业竞争格局 - DeepSeek面临阿里巴巴开源模型追赶,通义千问Qwen3参数量仅为R1的1/3但性能全面超越,阿里已开源200余个模型全球下载超3亿次 [19] - 百度发布文心4.5 Turbo和X1 Turbo,性能更强成本更低,计划6月开源文心大模型4.5系列 [19][21] - 月之暗面Kimi用户增长受挑战,腾讯元宝通过微信引流和14亿元投流费用超越Kimi成为月活第三的AI产品,Kimi月活2000万不及豆包5600万 [16] - 华为昇腾芯片被传用于DeepSeek R2模型研发,但行业人士指出其训练效果一般且生态系统不完善,更适合推理部署 [14] 技术发展路径 - DeepSeek押注数学/代码、多模态和自然语言三大AGI实现路径,认为数学和代码是封闭可验证系统,可能通过自我学习实现高智能 [9] - 推理大模型R1价格低廉且性能强劲,Prover-V2以DeepSeek-V3为基础模型进行微调,利用子目标分解和思维过程链强化推理能力 [12] - 算法专家指出R2可能侧重强化学习能力提升,研发周期较短,而V4将涉及预训练工程和方法变革,研发周期更长 [13] 市场动态 - 中国AI原生APP月活排名变化:DeepSeek以1.94亿居首,豆包1.16亿次之,腾讯元宝0.42亿超越Kimi成为第三 [16] - 行业观点认为中国需要2-3个世界领先大模型而非单一明星企业,应鼓励领域内竞争和创业 [19] - 百度指出DeepSeek存在处理单一文本、幻觉率高、响应速度慢和API价格高等局限性 [19][20]
边学边练,推理觉醒:LUFFY让强化学习即学即用!
机器之心· 2025-05-05 03:40
核心观点 - 上海AI实验室联合西湖大学、南京大学和香港中文大学的研究团队提出了一种全新的强化学习范式LUFFY,旨在解决AI模型训练中“只学不练”和“只练不学”的两难困境 [1][2] - LUFFY通过混合使用在线推理和离线示范轨迹,实现“边学边练”的目标,在多个数学推理任务中平均提升7.0分,并在分布外任务上展现出显著泛化能力 [2][4][24] - 该方法在Hugging Face社区和alphaXiv学术论坛引起广泛关注 [5] 模仿学习与强化学习的两难困境 - 模仿学习(SFT)通过参考专家解题轨迹快速学习已知方法,但遇到新题时缺乏自主能力 [8] - 强化学习(Zero-RL)通过试错获得奖励反馈并优化策略,具备泛化能力但容易陷入局部最优 [10] - 两种方法分别存在“泛化差”和“效率低”的问题 [1] LUFFY的直觉与机制 - 关键思想是在强化学习过程中引入“离策略指导”,混合使用模型自身生成的在线推理过程和来自更强模型的离线示范轨迹 [14] - 通过“策略塑形”机制,在模型自身推理失败时从专家示范中学习关键步骤,表现优异时保持独立探索 [16] - 该机制引导模型聚焦低概率但关键的行动,实现推理能力的持续进化与泛化 [16] 技术亮点 - 混合策略训练:同时利用在线轨迹和离线示范,引导模型向高奖励动作靠拢并保留有效尝试 [18] - 策略塑形函数:通过非线性加权机制强化对关键步骤的学习,防止过早收敛并保持持续探索 [18][20] - 基于GRPO算法框架实现,提升对罕见但重要行为的梯度响应 [18][21] 实验结果 - 在AIME 2024、AIME 2025、AMC、MATH-500、Minerva Math和OlympiadBench六个基准测试中平均准确率达49.6%,较Zero-RL方法提升+7.0分 [4][24] - 在Qwen2.5-Math-1.5B小模型上表现显著优于基线,平均得分从34.8提升至42.1 [27] - 推理路径长度优于SFT,能用更短过程达成正确答案,且在增加探索强度时性能保持稳定 [28][31] 应用前景 - 可扩展至代码生成、科学问答、自动规划等需要复杂推理的AI任务 [33] - 项目已在GitHub开源,具备复现和拓展潜力 [34]
梁文锋和杨植麟再“撞车”
虎嗅APP· 2025-05-04 08:29
大模型技术进展 - DeepSeek推出数学定理证明专用模型DeepSeek-Prover-V2,参数规模达6710亿,较前代V1.5的70亿增长近百倍,miniF2F测试通过率88.9%,解决普特南测试49道题 [2] - 月之暗面同期发布形式化定理证明模型Kimina-Prover,开源1.5B和7B参数版本,miniF2F通过率80.7%,普特南测试成绩10道题,性能逊于DeepSeek-Prover-V2 [2] - 两家公司技术均采用强化学习方法,DeepSeek侧重子目标分解,月之暗面聚焦形式推理 [3] 公司竞争动态 - DeepSeek面临阿里巴巴开源模型追赶,市场期待其发布R2或V4模型巩固优势 [4] - 月之暗面Kimi受字节跳动豆包和腾讯元宝挑战,豆包月活5600万领先Kimi的2000万(2024年11月数据),2025年2月DeepSeek以1.94亿月活反超豆包1.16亿 [12] - 腾讯元宝通过微信引流和14亿元投流费用(一季度数据),月活达4200万超越Kimi [13] 技术路径与产品矩阵 - DeepSeek押注数学/代码、多模态、自然语言三大AGI路径,数学与代码被视为封闭可验证的智能试验场 [7] - DeepSeek模型矩阵同步进化:Prover系列2024年3月首发,2025年4月升级至V2;代码模型Coder迭代至V3-0324;通用推理模型R1性能比肩OpenAI o1 [8] - Prover-V2基于DeepSeek-V3微调,采用子目标分解与思维链合成技术 [9] 行业格局与挑战 - 阿里巴巴发布通义千问Qwen3,参数量为DeepSeek-R1的1/3但性能全面超越,开源模型全球下载量超3亿次 [14] - 百度推出文心4.5 Turbo和X1 Turbo,批评DeepSeek存在多模态缺失、幻觉率高、响应慢及成本高问题,但计划6月跟进开源策略 [15][16] - 行业观点认为中国需多个领先大模型而非单一明星公司,鼓励竞争推动技术发展 [14]
机器人领域新突破!顶刊《IJRR》近期重磅论文概述
机器人大讲堂· 2025-05-03 08:04
机器人学术研究前沿 - 新型低型软体旋转气动执行器采用纤维增强弹性体结构和精确分析模型,解决了传统设计体型庞大和建模不准确的问题,实验误差控制在20%以内[1][2][4] - THÖR-MAGNI数据集包含5类场景和40名参与者的多模态数据,支持长期行为预测和复杂避障交互研究,数据量达3.5小时[6][7][11][14][15][17] - FMB基准测试平台提供66种3D打印物体和22,500条人类演示轨迹,验证了多模态数据对任务成功率的提升效果[18][19][20][22][24][26] 机器人操作与控制技术 - 双臂机器人操作可变形线性物体的框架结合全局规划和局部控制,在仿真和真实实验中实现100%成功率,执行时间<60秒[27][28][30][31][34][37] - 大规模异构多机器人系统实时规划方法采用规划决策树结构,任务分配复杂度仅为O(n),在200个任务状态下规划时间仅16.4秒[38][39][40][42][43][45][47] - 强化学习双足机器人控制框架实现多技能统一控制,在Cassie机器人上完成400米冲刺和0.47米高跳等复杂动作[58][60][61][62][64] 人机交互与学习 - 学习与通信闭环框架通过多模态接口提升人机协作效能,AR+触觉方式使任务正确预测率达100%[48][50][51][53][54][55][57] - 机器人操作研究面临物理复杂性和泛化能力不足的挑战,需要兼顾复杂任务和广泛适应性的解决方案[19][28][39]
OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到
量子位· 2025-05-03 04:05
一水 发自 凹非寺 量子位 | 公众号 QbitAI GPT-4o更新后"变谄媚"?后续技术报告来了。 OpenAI一篇新鲜出炉的认错小作文,直接引来上百万网友围观。 CEO奥特曼也做足姿态,第一时间转发小作文并表示: (新报告) 揭示了GPT-4o更新失败是因为什么,从中OpenAI学到了什么,以及我们将会采取的应对措施是什么。 概括而言,最新报告提到,大约一周前的bug原来出在了"强化学习"身上—— 上次更新 引入了一个基于用户反馈的额外奖励信号 ,即对ChatGPT的点赞或点踩。 虽然这个信号通常很有用,但可能使模型逐渐倾向于做出更令人愉快的回应。 此外,尽管还没有明确证据,但 用户记忆在某些情况下也可能加剧奉承行为的影响。 一言以蔽之,OpenAI认为一些单独看可能对改进模型有益的举措,结合起来后却共同导致了模型变得"谄媚"。 而在看到这篇报告后,目前大多数网友的反应be like: (你小汁) 认错态度不错~ 甚至有人表示,这算得上OpenAI过去几年里最详细的报告了。 具体咋回事儿?接下来一起吃瓜。 完整事件回顾 4月25日,OpenAI对GPT-4o进行了一次更新。 在官网的更新日志中,当时提到 ...
浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误
机器之心· 2025-05-02 04:39
当前,多模态大模型驱动的图形用户界面(GUI)智能体在自动化手机、电脑操作方面展现出巨大潜力。然而,一些现有智能体更类似于「反应式行动者」 (Reactive Actors),主要依赖隐式推理,面对需要复杂规划和错误恢复的任务时常常力不从心。 我们认为,要真正提升 GUI 智能体的能力,关键在于从「反应式」迈向「深思熟虑的推理者」(Deliberative Reasoners)。为此,浙江大学联合香港理 工大学等机构的研究者们提出了 InfiGUI-R1 ,一个基于其创新的 Actor2Reasoner 框架训练的 GUI 智能体,旨在让 AI 像人一样在行动前思考,行动后 反思。 论文标题:InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners 从「反应行动」到「深思熟虑」:GUI 智能体面临的挑战 想象一下,你让 AI Agent 帮你完成一个多步骤的手机操作,比如「预订明天下午去北京的高铁票」。一个简单的「反应行动」式 Agent 可能会按顺序点 击它认为相关的按钮,但一旦遇到预 ...
DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能
量子位· 2025-05-01 03:53
模型性能突破 - DeepSeek-Prover-V2在普特南测试中刷新记录至49道题解答,远超当前第一名Kimi-Prover的10道题表现[2][3] - 在miniF2F测试中,671B参数的Prover-V2通过率达到88.9%,7B参数版本在非CoT模式下解决13个671B模型未能处理的问题[36][9] - 7B小模型展现出独特推理能力,在处理有限基数问题时使用Cardinal.toNat等671B模型未掌握的技巧[9][10] 技术架构创新 - 采用"形式化和非形式化数学证明统一模型"设计,整合DeepSeek-V3的高上下文窗口和自然语言推理能力[15] - 引入"子目标分解的强化学习"方法,通过递归证明搜索合成冷启动数据,使用70亿参数模型处理子目标证明[19][21] - 建立两阶段训练体系:第一阶段生成非CoT数据,第二阶段采用高精度CoT模式强化复杂问题推理能力[28][29] 训练方法论 - 采用GRPO算法进行强化学习,通过二元奖励机制(正确证明得1分)优化策略,避免使用单独裁判模型[32][33] - 监督微调数据包含两个来源:专家迭代收集的非CoT形式化验证数据,以及冷启动CoT结构化证明路径数据[31] - 对7B模型执行与671B相同的强化学习阶段,使其上下文窗口扩展至32768个token并融入非CoT证明数据[35] 行业影响与生态建设 - 推出ProverBench基准数据集,包含325个形式化数学问题(15道AIME竞赛题+310道教科书问题)[38][39] - GitHub仓库12小时内获350+星标,引发X/Twitter和Hugging Face社区热烈讨论,包括Kimina-Prover团队祝贺[51][52][59] - 普林斯顿教授评价miniF2F测试最后10%-20%问题的攻克标志着"能力重大飞跃",显示行业竞争白热化[57] 团队与研发背景 - 18人团队包含DeepSeek-V3/R1/Prover系列前作核心成员,新增清华背景研究员Shirong Ma等资深成员[42][44][45] - 采用Fire-Flyer AI-HPC架构降低训练成本,但未披露具体基础设施优化细节[48][49] - 研究延续DeepSeek-Prover系列技术路线,从V1的合成数据微调演进至V2的子目标分解强化学习[12][13][14]
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
机器之心· 2025-05-01 02:11
大型语言模型后训练技术综述 核心观点 - 微调和强化学习等后训练技术是提升LLM能力的关键手段,可解决幻觉、逻辑一致性不足等问题[1][5] - 强化学习通过动态反馈优化序列决策,结合LoRA、RAG等技术可提升计算效率和事实准确性[9][14] - 后训练需平衡专业化与泛化能力,面临过拟合、计算成本高、道德对齐等挑战[7][10][15] 技术方法分类 微调技术 - 监督式微调基于精选数据集更新参数,增强情绪分析、医疗诊断等特定任务能力[10] - LoRA和适配器等参数高效技术可减少90%以上计算开销,缓解过拟合问题[10][20] - 领域专业化与多功能性存在权衡,需动态调整模型深度和宽度[14][20] 强化学习优化 - 采用PPO、DPO、GRPO等算法,通过奖励模型对齐人类偏好[24][25] - 语言模型强化学习需处理高维token输出、延迟反馈和多目标平衡[11][13] - RLAIF实现部分监督自动化,但面临奖励hacking和偏差校准问题[52] 规模扩展策略 - 思维链(CoT)和思维树(ToT)框架将复杂问题分解为多步骤推理[14][44] - 检索增强生成(RAG)动态整合外部知识,提升事实准确性达30%[20] - 分布式训练框架支持千亿参数模型部署,如DeepSeek-V2(236B参数)[19][32] 主流模型对比 | 技术特征 | 代表模型 | 参数规模 | 核心创新 | |----------------|-----------------------------------|----------------|------------------------------| | MoE架构 | GPT-4/4.5、DeepSeek-V2 | 236B-1.2T | GRPO算法、动态专家网络[19] | | 单模型 | Claude 3、Gemini | 70B-340B | RLAIF对齐框架[19][25] | | 高效微调 | Llama3、Qwen2 | 8B-405B | DPO直接偏好优化[19][31] | 评估基准体系 - **推理能力**:GSM8K(8.5K数学题)、MATH(7.5K分步解)[49] - **对齐评估**:HelpSteer(37K+多属性评分)、UltraFeedback(64K指令遵循)[49] - **多语言**:CulturaX(6.3T去重数据)、PangeaIns(6M指令)[49] 未来发展方向 - 交互式强化学习需求年增长200%,需解决奖励稀疏性问题[52] - 测试时扩展技术使推理时间增加50%,需优化计算分配策略[53] - 隐私保护联邦学习成为企业数据微调新标准[53]