Workflow
强化学习
icon
搜索文档
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
量子位· 2025-07-11 04:00
强化学习与奖励模型 - 强化学习已成为AI迈向AGI进程中的关键技术节点,改变了大语言模型的后训练范式 [1] - 奖励模型的设计与训练是制约后训练效果和模型能力提升的瓶颈,缺乏系统性的预训练和扩展方法 [2] - 传统奖励模型基于绝对偏好,难以灵活应对不同定制化场景 [7] POLAR新范式 - POLAR是一种与绝对偏好解耦的奖励建模新范式,具备可扩展性和强泛化能力 [3] - POLAR根据参考答案为模型输出打分,可灵活适配不同风格的定制化需求 [5][7] - POLAR能处理开放问题和闭式问题,提供细粒度的偏好区分 [11] - POLAR完美契合强化微调框架(RFT),使通用场景应用成为可能 [14] POLAR训练方法 - POLAR通过对比学习衡量训练策略与目标策略之间的距离作为奖励信号 [21] - 预训练阶段使用自动化合成数据构建,从131个Base LLM和53个Chat LLM中采样 [22] - POLAR-1.8B使用0.94T Token预训练数据,POLAR-7B使用3.6T Token [23] - 预训练后使用少量偏好数据对齐人类偏好 [23][24] POLAR性能表现 - POLAR展现出Scaling效应,验证集损失随模型参数和计算量增加呈幂律关系下降 [28][29] - POLAR-1.8B在STEM任务中超越最佳基线24.9个百分点,POLAR-7B超越26.2个百分点 [32] - POLAR-1.8B仅1.8B参数即可与27B和72B参数的奖励模型相当 [32] - POLAR-7B微调的Llama-3.1-8B在所有基准测试中平均提升9.0% [34]
从Grok-4看AI产业发展
2025-07-11 01:05
纪要涉及的行业和公司 - **行业**:AI 行业 - **公司**:OpenAI、谷歌、Meta、英伟达、Deep Sea 公司、DPC 纪要提到的核心观点和论据 GROX4 相关 - **亮点进展**:推理能力大幅提升,HLE 测试中 heavy 版本得 50 分超 OpenAI 的 23 分,美国奥数竞赛表现优异;通过稀疏激活策略优化参数,参数量减少 40%,用 1.7 万亿 TOKEN 性能超 GROX3 的 2.7 万亿 TOKEN;引入多模态融合,含音频、图像、实时搜索和工具调用,支持实时上网;API 定价提高,输入每百万 TOKEN 收费 3 美元,输出每百万 TOKEN 收费 15 美元是 O3 一倍;训练加入多智能体协同机制,提高模型后续调用能力[1][3][6] - **对 AI 产业影响**:为未来 AI 产业发展提供新方向,可能重构商业价值分配,提高模型智能化水平和应用场景广泛性,对算力需求提出更高要求[1][7] - **编程能力表现**:Benchmark 测试高分有局限性,因训练数据可能受污染,在非标准 Benchmark 问题上表现大幅下降,在指令遵循、基本对话能力及幻觉率方面比大厂稍差[14] - **定价分析**:定价 300 美金每月昂贵,反映自信及成本因素,对普通用户实际体验未显著优于其他大厂产品,高定价或基于成本非市场需求[15] GPT5 相关 - **发布预期**:原定于 7 月发布,因模型能力和测试结果不满意可能推迟 1 - 2 个月,最晚 9 月发布[5] - **技术进步方向和亮点**:集中在多模态深度整合,包括文生图、文生视频、音频交互能力;增强 agent 功能提升产品体验;继续进行 Pre - train 阶段 scale up,但面临 ROI 较低瓶颈[5] Grok 创新模式相关 - **对 AI 大模型发展影响**:从量变引发质变,提高模型智能化和应用场景广泛性,可能重构商业价值分配,对算力需求提出更高要求[7] - **技术实现方式**:将 agent 调用放入预训练,多个 agent 协作完成任务,agent 在预训练阶段有调用能力[7] - **对行业分工模式影响**:可能改变 AI 行业分工模式,大厂或主导 agent 开发,挤压初创企业空间,但行业数据敏感企业有独特价值,初创企业在某些功能超越大厂可找到生存空间[11] AI 大模型发展趋势相关 - **发展阶段**:仍处高速上升阶段,强化学习技术不断 scale up,但预训练阶段未来可能进入 log 函数式缓慢增长阶段[8] - **算力需求**:持续增长,英伟达市值突破是信号,训练和推理阶段算力需求呈指数级增长,训练端目标两至三年 H100 和 B100 卡片从超 20 万张到 100 万张,推理端因多 agent 调用算力需求达 8 倍增长[2][8][19] 其他模型技术对比相关 - **GPT O1 和 Grok 区别**:GPT O1 2024 年 9 月推出,后训练引入强化学习,通过思维链提高答案质量;Grok 是第二代强化学习后训练,延续思维链机制,加入工具调用和网络搜索功能,派出多个 agent 平行搜索、整合自评,提高结果质量增加算力需求[9][10] 市场定价策略相关 - **AI 产品定价**:部分 AI 产品定价较高但未达难以接受程度,如 Grok 300 美元/月、OpenAI 的 O3 200 美元/月,Grok 具备强大 agent 功能,个人用户付费订阅占比 10% - 20%,高端用户可获高级体验,部分用户能回本[16] 各公司动态相关 - **海外一线梯队厂商**:迭代方向集中在多模态原生整合和智能代理整合,谷歌、Meta 探索多种模态融合,谷歌 JM2.5 支持视频输入,发力智能眼镜领域[21] - **广告植入计划**:谷歌和 Meta 计划将广告植入大语言模型,已处实验阶段,落地面临确保广告商公平性挑战,预计 2025 年底前有 Beta 版本[22] - **国内 Deep Sea 公司**:R2 模型进展缓慢,受算力瓶颈限制,未获取大量海外 H100 卡片,达到预训练推理端算力需 20 万张卡是巨大挑战[23][24] - **DPC**:目前无海外市场动作,算力或限制实验和能力提升,可能不采用 Grox 铺张训练方式,强化学习非增长受益者,但有算法创新值得期待[25] - **模型发布时间**:GPT - 5 预计 7 月底 - 9 月发布,各公司根据自身训练进度决定发布时间,下半年重磅新模型可能是 JNI3,各公司不会刻意同步发布时间[26] 其他重要但可能被忽略的内容 - Grok 即将发布专属编码模型,基础模型有强大编码能力,agent 能实现整合现有代码库功能,但系统协调能力未在 Benchmark 展示,考虑功能和潜力定价不算过于不合理[17][18] - AI 行业每半年出现新范式带动增长,现阶段 GPU 需求持续快速增长推动市场发展[20]
从近30篇具身综述中!看领域发展兴衰(VLA/VLN/强化学习/Diffusion Policy等方向)
具身智能之心· 2025-07-11 00:57
具身智能研究综述 - 文章整理了数十篇具身智能领域的综述论文,涵盖数据集、评测、视觉-语言-动作模型(VLA)、视觉语言导航(VLN)、强化学习、基础模型和扩散策略(DP)等方向 [1] 视觉-语言-动作模型(VLA) - 从动作标记化视角综述VLA模型的发展 [2] - 自动驾驶领域的VLA模型应用现状 [2] - VLA模型后训练与人类运动学习的类比研究 [2] - 探讨VLA模型的概念、进展、应用与挑战 [5] - 机器人视觉中的多模态融合与VLM应用 [6] 机器人基础模型 - 机器人领域基础模型的应用现状与未来挑战 [3] - 深度强化学习在机器人领域的实际应用案例 [3] - 扩散策略在机器人操作中的分类与发展方向 [3] - 面向具身AI的机器人基础模型研究进展 [9] 工业机器人技术 - 具身智能工业机器人的概念与技术框架 [4] - 受神经科学启发的具身智能体框架Neural Brain [4] 机器人导航与操作 - 物理模拟器在具身AI时代的机器人导航与操作应用 [5] - 目标导向导航的多模态感知技术 [5] - 扩散模型在机器人操作中的应用现状 [5] - 基于模仿学习的灵巧操作技术综述 [5] - SE(3)等变机器人学习与控制方法 [6] 多模态大模型 - 具身多模态大模型的发展与数据集建设 [8] - 大模型在具身AI中的研究挑战 [8] - 网络视频数据在通用机器人学习中的应用 [9] 数据集与评测 - 通用型具身智能体数据集标准建设 [9] - 人形机器人远程操作技术研究 [9]
2025上半年,AI Agent领域有什么变化和机会?
虎嗅· 2025-07-11 00:11
核心观点 - 2025年上半年AI Agent迅猛发展,行业进入"万物皆可Agent"的热潮,模型侧与应用侧均迎来关键变化 [1][2][7] - AI Agent是继提示词、工作流之后AI应用的第三阶段,核心价值在于感知环境、自主决策及工具使用能力 [2][19] - 强化学习驱动的持续迭代被视为Agent发展的关键路径,编程领域率先验证PMF [20][23][25] - 垂直领域Agent因具备行业先验知识更受关注,ToC长链条任务规划和工具类内容生成存在机会 [43][44][45] 技术突破与行业动态 - 模型侧:DeepSeek打破OpenAI垄断,推动推理模型赛道"军备竞赛",OpenAI、Anthropic、Google相继发布o3 Pro、Claude 4系列、Gemini 2.5 Pro等重磅模型 [5][6] - 应用侧:OpenAI发布Operator与Deep Research两款Agent产品,2025年被业界视为"AI Agent元年" [7][14] - 中国团队表现活跃:Manus、Genspark等产品引发关注,Minimax、月之暗面等大模型厂商加入战局 [8] - AI编程赛道验证PMF:Cursor、Windsurf被OpenAI收购,Lovable、Replit、Bolt快速发展 [9] AI Agent的演进与特征 - 三阶段演进:从Prompt(对话交互)到Workflow(预设流程)再到Agent(自主决策) [17][18][19] - 核心能力:感知环境(理解用户需求与上下文)、自主决策(突破Workflow固定流程限制)、工具使用(浏览器/计算机操作) [19][20] - 技术驱动:Tool Use能力突破(MCP通用接口普及)与强化学习提升推理能力是关键 [20][23][24] 落地挑战与创新机会 - 技术瓶颈:上下文长度管理、记忆机制、物理环境交互能力不足 [39] - 商业模式:订阅制、按token付费、按结果付费等模式尚待验证 [40] - 投资方向:垂直领域Agent(行业knowhow优势)、ToC长链条任务(如Deep Research类产品) [43][44] - 竞争格局:模型厂商与创业公司边界模糊,端到端Agent与模块化Agent路径分化 [27][28] 行业共识与争议 - 强化学习vsWorkflow:前者性能上限高但可控性差,后者更适合短期商业化 [30][31] - 《苦涩的教训》启示:Agent应减少人类先验干预,依赖算力与数据自主迭代 [30][31] - 环境构建争议:需平衡先验能力与反馈闭环,多模态交互或成关键 [33][34][35]
双非同学竟然是这样发第一篇CVPR的!
具身智能之心· 2025-07-10 13:16
论文辅导服务案例 - 双非硕士生在无导师指导情况下通过10个月辅导成功发表CVPR25论文 成为学院首位CVPR发表者 [1] - 成功关键因素包括学生主动寻求外部辅导 以及自身勤奋刻苦的研究态度 经常工作至凌晨 [1] - 案例证明无人指导时主动行动的重要性 被动等待可能导致错过发表机会 [1] 服务内容与方向 - 提供从研究构思到实验设计、论文写作到投稿的全流程一站式服务 [1] - 覆盖多个前沿技术领域包括大模型、视觉语言导航、强化学习、机器人控制等16个具体研究方向 [1] - 支持带课题咨询 满足各类论文发表需求 [1] 服务分级与定价 - 按论文级别提供差异化定价服务 [2] - 涵盖计算机领域CCF-A/B/C类会议期刊 [2] - 服务范围包括SCI各分区期刊 中科院分区期刊 EI检索及中文核心期刊 [2] - 同时支持毕业论文、申博论文及竞赛论文等需求 [2]
端到端VLA这薪资,让我心动了。。。
自动驾驶之心· 2025-07-10 12:40
端到端自动驾驶技术发展 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向 自UniAD获得CVPR Best Paper后 国内智驾军备竞赛加速 理想汽车2024年宣布E2E+VLM双系统架构量产 [2] - 端到端技术通过传感器数据直接输出规划或控制信息 避免了模块化方法的误差累积 BEV感知和UniAD统一了感知与规划任务 推动技术跃迁 [2] - 当前技术栈涉及多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等 学习路径复杂且知识碎片化 [3] 技术课程核心内容 - 课程直击学习痛点 采用Just-in-Time Learning理念 通过案例快速掌握核心技术栈 [4] - 构建端到端自动驾驶研究框架 帮助学员分类论文 提取创新点 形成研究体系 [5] - 理论结合实践 涵盖PLUTO(二段式) UniAD(一段式感知) OccWorld(世界模型) DiffusionDrive(扩散模型) VLA(大模型)等主流技术 [6] 课程大纲与关键技术 - 第一章概述端到端发展历史 模块化到端到端的演变 一段式 二段式 VLA范式优缺点及工业界应用 [8] - 第二章重点讲解背景知识 包括VLA涉及的大语言模型 扩散模型 强化学习 以及BEV感知 为未来两年高频面试技术 [8][9] - 第三章聚焦二段式端到端 分析PLUTO CarPlanner Plan-R1等工作的优缺点 [9] - 第四章深入一段式端到端与VLA 涵盖UniAD PARA-Drive(感知) Drive-OccWorld OccLLaMA(世界模型) DiffusionDrive DiffE2E(扩散模型) ORION OpenDriveVLA ReCogDrive(VLA)等前沿工作 [10] - 第五章大作业为RLHF微调实战 涉及预训练和强化学习模块搭建 可迁移至VLA算法 [12] 行业趋势与人才需求 - VLM/VLA成为招聘刚需 3-5年经验可冲击百万年薪 技术上限高且工业界需求旺盛 [2][10] - 扩散模型与VLA结合成为热点 多模轨迹预测适应自动驾驶不确定性环境 多家公司尝试落地 [10] - 主机厂加速布局端到端算法预研和量产 如小米ORION等开源项目推动技术发展 [10][13]
有几个Top具身公司的大模型、强化学习、VLA和具身导航岗位!
具身智能之心· 2025-07-10 03:36
多模态大模型职位 - 工作地点为北京和深圳,月薪范围为40k-80k [2] - 研究方向包括移动操作、导航和VLA(视觉语言行动) [2] - 职责涵盖具身智能大模型框架设计、模型优化及下游任务训练部署 [2] - 要求计算机/人工智能/机器人相关专业硕士学历,具备机器人感知/导航/操作或AI大模型经验 [3] - 优先考虑有NaVid/MobilityVLA等机器人导航领域算法落地经验者 [3] - 加分项包括顶级会议论文发表、熟悉Transformer/RLHF算法、多模态数据处理经验 [4] 强化学习职位 - 工作地点为北京,月薪范围为40k-80k [5] - 研究方向包括强化学习和VLA [5] 具身导航算法职位 - 工作地点为深圳,月薪范围为30k-60k [6] - 研究方向包括多模态和VLN(视觉语言导航) [6] - 职责涉及多模态数据到规划的端到端映射及世界模型应用 [6][7] - 要求计算机/自动化/电子相关专业,具备机器学习/深度学习/强化学习基础 [7] - 优先考虑有ICLR/NeurIPS等论文发表或ACM/ICPC竞赛获奖者 [7] 岗位咨询方式 - 可通过添加微信Remix-clover咨询多模态导航移动基础模型相关岗位 [9] - 咨询需备注"具身之心+具体岗位" [9]
晚点独家丨Agent 初创公司 Pokee.ai 种子轮融资 1200 万美元,Point 72 创投,英特尔陈立武等投资
晚点LatePost· 2025-07-09 11:38
公司融资与资金用途 - Pokee.ai完成1200万美元种子轮融资 投资人包括Point72 Ventures Qualcomm Ventures及多位科技公司高管[5] - 资金将用于扩张Agent产品Pokee的可选工具集 加速对大公司客户销售 不计划大规模扩招 研发团队保持在10人以内[5][3] - 部分资金用于迭代算法 接入10个新平台API 新增记忆功能以理解客户需求[9] 技术架构与竞争优势 - Pokee采用强化学习模型而非LLM作为任务规划核心 LLM仅作为交互层 当前版本已掌握15000个工具[7] - 强化学习模型决策不依赖token生成 参数量更少 单任务成本仅为同类产品的1/10 演示任务完成时间仅几分钟[8] - 重点优化跨平台API调用能力 目标客户为大公司和专业消费者 支持Amazon Google Instagram等多平台工作流[9] 行业融资趋势 - AI行业种子轮融资规模突破传统惯例 2024年生成式AI公司种子轮融资中位数达300万美元 较2020年170万美元增长76%[10] - 明星AI产品公司如Udio Daydream种子轮融资额超千万美元 硅谷成为主要聚集地[10] - 2024年A轮融资耗时中位数达25个月 创近十年新高 反映投资人更谨慎 要求扎实的PMF验证[17][19] 市场环境与挑战 - AI产品单任务成本高企 例如Manus单任务成本2美元 相当于B站用户全年带宽成本[13] - 行业同质化严重 产品易被复刻 需通过烧钱争夺市场份额 部分公司定价低于成本价[14] - 全球风投募资额连续三年下滑 2024年仅为2021年峰值的40% 2025年或创十年新低[14]
如何教AI学会反思?
虎嗅· 2025-07-09 07:57
论文背景 - 论文标题为《反思,重试,奖励:通过强化学习实现自我改进的大语言模型》,由人工智能创业公司Writer的研究团队撰写,联合作者共8人[5][3] - 论文内容简洁明了,仅16页,不同于传统学术论文的复杂风格[4] - 该论文在Hugging Face平台的"每日论文"栏目中排名6月第三位[1][3] 核心研究方法 - 提出三步骤方法让AI从错误中学习:反思、重试、奖励[5][11][12][13] - 与传统方法不同,不依赖更多数据或重新训练,而是教会AI自我改进的能力[8][9][10] - 奖励机制针对AI的反思过程而非最终答案,强化有效的反思方式[13][14] - 该方法使AI获得通用的自我纠错和提升能力,而非死记硬背[15] 实验验证 - 在函数调用任务中,15亿参数模型准确率从32.6%提升至52.9%[20][21] - 在数学方程求解任务中,同一模型准确率从6%提升至45%[23][24][25] - 经过训练的小模型表现超过未训练的大模型:70亿参数模型优于720亿参数模型[27][26] - 证明优化训练方式可使小模型具备强大能力,节省成本[29] 实际应用 - 用户可通过引导AI反思来提升回答质量,如指出错误并要求分析原因[31][32] - 在商业分析等场景中,可提供明确反思方向如"忽略市场风险因素"[33] - 多模型比较方法:让一个AI评估其他AI的回答,再改进自身回答[35][36][37][38] - 通过持续追问和挑战可激发AI产生新思路和更优解决方案[38][39]
DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌
量子位· 2025-07-09 04:57
核心观点 - 上海交大联合深势科技团队在"人类最后的考试"(HLE)上取得32.1分,创下新纪录[2] - 该团队推出工具增强推理智能体X-Master和多智能体工作流系统X-Masters[3] - 研究成果已开源[4] - 使用DeepSeek-R1-0528作为驱动智能体的推理模型[6] - 这是首个在HLE上得分超过30%的系统[26] 技术方案 - X-Master是一个由开源模型驱动的工具增强型推理智能体,模拟人类研究者的动态问题解决过程[9] - 将代码概念化为一种交互语言,在遇到无法解决的问题时编写代码块执行[11] - 引入初始推理引导机制,通过精心设计的自我陈述引导模型[17] - X-Masters采用分散-堆叠式智能体工作流,通过多智能体协作增强推理[20] - 分散阶段:多个求解器智能体并行工作,批评者智能体修正方案[22] - 堆叠阶段:重写器智能体综合方案,选择器智能体裁定最佳答案[22] 性能表现 - 在HLE测试中取得32.1%的最高分[26] - 消融研究显示:工具增强推理提高3.4%,迭代优化增加9.5%,最终选择实现32.1%[29] - 在生物学/医学类别中表现优于现有系统,达到27.6%正确率[31] - 在TRQA-lit生物学测试中取得67.4%的SOTA成绩[32] HLE测试背景 - 由AI安全中心和Scale AI发起,被称为史上最难大模型测试集[34] - 题目来自500多家机构的1000多名学者,需通过大模型和人工双重审查[38] - 最终入围3000多道题目,涵盖数理化、生物医药等八大类[39] - 数学占比42%,物理和生物医药各占11%[39]