强化学习

搜索文档
最近被公司通知不续签了。。。
自动驾驶之心· 2025-08-17 03:23
智能驾驶行业现状 - 行业已进入拼技术和成本的关键期 2024年多家智驾公司未能存活 当前行业壁垒持续提高[2] - 价格战被国家叫停 但行业竞争依然激烈[6] - 小鹏汽车等头部企业形势好转 找到明确发展路径[6] 技术发展趋势 - 传统规划控制技术趋于成熟 面临端到端量产技术冲击[6][7] - BEV感知、端到端控制、扩散模型、模仿学习和强化学习成为新兴技术方向[8] - 具身智能和机器人规控领域出现新机会 技术栈与自动驾驶相通[8] - 视觉语言模型(VLM)和自动驾驶大模型成为2025年重点发展方向[49][83] 人才需求变化 - 社招要求扎实的工程能力、领域深度和量产落地经验[8] - 传统规控工程师需要更新技术栈 学习模型算法[7] - 去年至今已有十几位规控工程师成功转型端到端和大模型方向[8] - 六年工作经验仍处于职业转型窗口期[8] 知识体系架构 - 社区整理40+技术路线 涵盖感知、仿真、规划控制等方向[10][19] - 包含近60+自动驾驶数据集和行业主流仿真平台[19] - 提供BEV感知、扩散模型、世界模型等前沿技术学习路径[19][22] - 汇总100问系列包括TensorRT部署、毫米波雷达融合、规划控制等实战问题[12] 行业资源整合 - 汇集国内外知名高校自动驾驶团队和头部企业资源[19][31][33] - 整理自动驾驶多模态大模型预训练和微调数据集[39] - 汇总3D目标检测、Occupancy Network、在线高精地图等关键技术方案[37][54][60] - 提供模型压缩、部署优化等工程化实践内容[12] 学术产业联动 - 举办超过100场专业技术直播 邀请产业界和学术界专家分享[86] - 涵盖V2X、3D检测、扩散模型规划器等前沿主题[86] - 提供学术界和工业界研究成果交流平台[10][19] - 实时更新顶会最新研究和工业落地应用[27]
理想VLA司机大模型新的36个QA
自动驾驶之心· 2025-08-16 16:04
VLA技术架构与部署 - VLA模型通过"3D局部空间+2D全局理解"实现多模态对齐 解决自动驾驶特有的3D空间理解难题 [3] - 公司自研底层算子与引擎 在Orin芯片上实现2.2B参数模型部署 为业界首个双系统VLM部署方案 [3] - 采用FP8/FP4量化技术优化计算精度 通过分层精细调优实现模型压缩与算力优化 [45][46] 模型设计方法论 - 从并联VLM架构升级为串联VLA架构 实现每一步计算的自主思考能力 [5] - 引入Diffusion模型生成轨迹 基于机器人领域技术验证及年初预研结果确认其可行性 [6][11] - 通过语言思考模块提升决策一致性 解决上一代模型在高速场景中的决策摇摆问题 [20] 感知能力升级 - 整合3D空间编码与全局语义理解 使模型具备距离判断能力(传统VLM仅支持2D输入) [7] - 采用前融合方案结合视觉与激光雷达数据 提升对小物体(如锥桶)的识别置信度 [27][57] - 90%训练数据来自真实场景 10%合成数据用于特殊场景(雪天/事故车)补充 [53] 渐进式技术路线 - 采用L2到L4渐进路径 通过无图方案实现全场景覆盖 与Robotaxi玩家依赖高精地图的方案形成差异 [9][10] - 已储备语音控车、地库漫游等能力 但需配合法规逐步释放 [25][33][38] - 通过世界模型仿真平台测试4000多万公里 使用动态场景库(数十万clips)避免过拟合 [53][54] 算力与模型优化 - 大模型在垂域场景可通过语言压缩技术减少算力需求 同等智力水平下推理性能年提升10倍 [16] - 采用8×0.4 MoE特殊架构优化芯片部署效率 相比开源模型(如千问)具备硬件适配优势 [30] - 通过模型蒸馏与数据配比优化 在参数量不变(如7B)情况下持续提升模型智力 [16] 数据与训练体系 - VLA标注体系与端到端方案完全不同 需对原有数据全部重刷标注 [32] - 强化学习需要推理卡与训练卡交替使用 公司今年显著增加推理卡投入 [13] - 基座模型团队负责通识知识训练(交规/驾驶基础)并提供多尺寸模型蒸馏 [30] 行业技术对比 - 特斯拉FSD V13未使用Language模型 其漫游能力依赖端到端架构而非VLA的寻路能力 [41][42] - 互联网公司开源模型(如千问)缺乏3D数据资产 难以具备物理空间理解能力 [31] - Waymo等Robotaxi玩家受限于高精地图 扩城速度远低于无图方案(如特斯拉奥斯汀覆盖超Waymo) [9] 功能实现与用户交互 - 语音控车简单指令可通过规则实现 但连续组合指令必须依赖语言模型保障扩展性 [55] - EID界面细化需消耗座舱芯片算力 当前仅渲染车辆/车道线等基础元素 [40] - 用户记忆功能实现千人千面需求 解决不同驾驶风格(如超车决策)的个性化适配 [25]
OpenAI掌门人曝GPT-6瓶颈,回答黄仁勋提问,几乎为算力“抵押未来”
36氪· 2025-08-16 04:04
AI技术发展瓶颈 - 随着算力和数据规模快速扩展,算法重要性再次凸显,成为未来AI技术发展的关键瓶颈 [1] - 强化学习成为算法研究新方向之一,但仍存在许多明显能力缺口 [1] - 基础研究正在回归,算法取代数据和算力成为关键制约因素 [21][22] 工程与科研的协同关系 - 工程与科研是驱动AI发展的两大引擎,工程师贡献与研究人员相仿甚至更大 [3][4] - OpenAI坚持工程与研究同等重要,两者需紧密合作解决复杂问题 [5][6] - 工程背景与科研背景人员对系统约束的理解存在根本性差异,需技术谦逊来调和 [6][7] 资源调配与产品化挑战 - 为支撑ChatGPT和ImageGen的海量需求,公司不得不抽调科研算力"抵押未来" [8][9] - 产品上线导致系统崩溃风险增加,需在资源协调中做出取舍 [8][9] - 公司理念是优先满足用户体验,推动技术快速落地 [10] AI编程范式演进 - "氛围编程"正从趣味应用向严肃软件工程转型,可改造遗留代码库 [11][12] - 未来代码库需模块化设计,通过高质量测试让模型填充细节 [13] - 软件工程需回归可维护性实践,最大化模型价值 [13] 训练系统与基础设施 - 长时间训练任务需优化检查点设计,强化学习系统状态保存更复杂 [14][15] - AGI开发需同步建设超级计算机,涉及大规模基础设施投资 [18][19] - 未来AI基础设施需兼顾计算密集型与低延迟两类需求 [16][17] 行业发展趋势 - 多样化模型库正在成形,经济系统将逐步由AI驱动 [24][25] - 特定领域Agent开发需大量定制工作,创造新商业机会 [24][27] - 医疗、教育等垂直领域需专业知识和责任框架 [26]
视觉强化学习最新综述:全领域梳理(新加坡国立&浙大&港中文)
自动驾驶之心· 2025-08-16 00:03
研究背景与综述定位 - 视觉强化学习(Visual RL)的爆发源于强化学习在大语言模型(LLM)中的成功迁移,特别是RLHF(人类反馈强化学习)显著提升了LLM的人类偏好对齐与复杂推理能力[7] - 当前领域面临三大核心挑战:复杂奖励信号下的策略优化稳定性、高维视觉输入的高效处理、长周期决策场景的可扩展奖励函数设计[7] - 综述核心目标包括形式化视觉RL问题、分类200+研究为四大支柱(多模态LLM/视觉生成/统一模型/VLA模型)、分析算法设计与评估体系[8] 视觉强化学习的理论基础 - 问题建模采用马尔可夫决策过程(MDP),将文本/图像/视频生成统一为episodic MDP框架,状态包含用户prompt和已生成动作序列[15] - 三大对齐范式:RLHF(三阶段流程:SFT→奖励模型→PPO优化)、DPO(直接优化偏好数据)、RLVR(可验证奖励替代主观偏好)[18][19][20] - 策略优化算法PPO(带价值网络与KL惩罚)和GRPO(组相对优势+移除价值网络)分别适用于通用场景和内存密集型任务[26][27] 四大核心应用领域 多模态大语言模型(MLLM) - 常规RL驱动型MLLM使用可验证奖励(如精确匹配/IoU)优化VLM骨干,代表模型包括RePIC、GoalLadder、GRPO-CARE[32] - 空间感知方向分为2D(Omni-R1双系统GRPO优化情感识别)和3D(MetaSpatial用渲染深度奖励优化AR场景生成)[34] - 图像推理分为"基于图像思考"(SVQA-R1用视图一致性奖励)和"用图像思考"(GRIT优化答案正确性+框精度)[35] 视觉生成 - 图像生成三大奖励范式:人类中心偏好优化(ImageReward)、多模态推理对齐(UnifiedReward)、Metric驱动优化(DDPO最小化FID)[37][40] - 视频生成通过偏好模型优化(InstructVideo)、组相对优化(DanceGRPO)、领域特定奖励(Phys-AR惩罚物理定律违反)提升时序一致性[41] - 3D生成采用RL优化文本-网格生成(DreamCS融合轮廓IoU与CLIP对齐)、交互式编辑(Nabla-R2D3用实时渲染验证奖励)[41] 视觉-语言-动作模型(VLA) - GUI自动化分桌面(GUI-R1映射点击成功为稠密奖励)和移动场景(AgentCPM-GUI压缩动作空间适配设备)[42] - 视觉导航采用端到端RL(VLN-R1时间衰减奖励处理轨迹)和仿真微调(Flare实现家居场景泛化)[45] - 机器人操纵通过任务接地奖励(TGRPO)、课程式RL(RLVLA提升重排成功率)优化长周期规划[45] 评估指标与未来方向 - 分层评估框架包含集合级(FID/FVD)、样本级(人类偏好分数)、状态级(KL散度监控策略漂移)[46][48][49] - 开放挑战包括有效推理平衡(自适应周期策略)、VLA长周期RL(分层子目标发现)、视觉思考RL(混合动作空间设计)[50][51][52] - 奖励模型设计需融合低阶信号(几何一致性)与高阶偏好,并实现跨模态泛化与动态更新[53][56]
Agent引爆产品新思维、奇点智能研究院正式成立!2025 全球产品经理大会首日精彩速览
AI科技大本营· 2025-08-15 13:56
产品经理角色演变 - PC时代产品经理角色更偏向"需求分析师",移动互联网时代转向"用户体验设计者"[1] - 大模型和Agent技术正在重塑产品经理工作方式,打破角色边界并升级思维模式[1] - 2025全球产品经理大会汇聚40余位专家及1000多位与会者,探讨AI产业趋势[1] 奇点智能研究院成立 - 由CSDN与Boolan联合发起,定位为人工智能前沿技术和产业落地的创新研究机构[3] - 聚焦计算范式、开发范式和交互范式转换,设立六大研究领域[5][7] - 与华东师范大学合作成立"开源创新与变革联合实验室",计划发布全球开源发展报告等研究成果[5] 大模型驱动的AI产业生态 - 基础大模型经历从"训练"到"推理"范式转换,强化学习推动"经验数据时代"[10] - SOTA模型内置Agent和Tool Use能力,大模型从Chatbot进化到Agentic模型[11] - Vibe Coding(氛围编程)创造增量市场,有望实现"可塑软件"和低成本编程[12] - 自然语言对话界面重构智能应用形态,带来应用服务化等新趋势[13] - 未来智能体生态可能由多元设备(眼镜、手机、汽车等)作为交互入口[14] 生成式AI与生产力革命 - 昆仑万维发布全球首款AI Agent架构Office智能体Skywork Super Agents,将8小时工作量缩短至8分钟[18] - 昆仑万维开源多款多模态模型,覆盖音频驱动数字人、交互式世界模型等领域[19] - 海外AI API调用统计显示编程类占比87%,角色扮演类占5.4%[20][22] - 行业化大模型是必然趋势,通用Agent难以覆盖所有行业[23] - ToB场景核心是"增效",ToC场景核心是"降本"[23] GenAI应用交互设计 - 当前GenAI产品多以"助手"形态存在,受现有环境约束明显[25] - 交互设计核心任务:高效获取任务与上下文、便捷审核与应用结果[26][29] - 鼠标双击唤起助手可能成为GenAI时代的新型交互方式[28] AI时代的产品人味 - 当前AI工具存在交付模式单一、环境感知不足、交互设计不直观等问题[34] - 产品设计需平衡"天道(环境)、人道(人类需求)、AI道(技术)"[34] - YouMind通过多模态优化和内容可编辑性提升"人味",实现AI与用户双向协作[36][37] AI时代的产品经理机遇 - AI时代产品方法论面临跳跃式颠覆,产品经理既是受益者也是被颠覆者[40] - 技能边界被打破,"一人公司"模式可能普及[41] - 开源模型推动全产业链协作式创新,对产品经理具有战略意义[44][45] Chat BI与数据挑战 - Chat BI最大挑战是企业数据基础薄弱,原始数据质量影响分析结果[46][47] AI产品用户体验 - AI产品需明确功能优化与数据能力的边界,避免过早依赖语言模型升级[48] - 创业公司应集中资源在关键节点形成差异化优势[49] 行业应用与合作伙伴 - 大会设置12大专题,覆盖生成式AI、Agent设计、企业级应用等领域[51] - 鸿蒙生态、万兴科技等合作伙伴展示创新成果[51]
模仿人类推理修正过程,阶跃星辰提出形式化证明新范式 | 开源
量子位· 2025-08-15 10:05
形式化定理证明新范式发布 - 阶跃星辰正式发布并开源形式化定理证明大模型StepFun-Prover-Preview-7B和StepFun-Prover-Preview-32B [1] - 模型采用基于环境反馈的强化学习训练流程,模拟人类推理过程中的实时交互与修正 [2] - 模型在基准测试集miniF2F-test上表现优异,32B版本pass@1通过率达70%,领先已知模型4%以上 [9][10] 技术架构与训练方法 两阶段监督微调 - 分阶段微调策略使模型获得工具使用基础能力 [4] - 第一阶段利用开源Lean 4数据建立代码补全能力 [5] - 第二阶段通过高质量冷启动数据训练模型理解数学题求解与Lean验证的交互 [5] 工具集成强化学习 - 采用GRPO算法进行强化学习训练,赋予模型自然语言解题能力 [5] - 模型可主动插入<sketch>标签生成Lean 4代码并执行,通过<REPL>反馈实现调试式修正 [5][6] - 奖励函数设计为REPL验证通过得1分,失败得0分 [7] 迭代优化机制 - 采用"RL-SFT-RL"循环优化方法,逐步提升模型推理能力 [8] - 筛选强化学习中成功的高难度样本重新用于监督微调,增强推理鲁棒性 [12] 性能表现与案例 - StepFun-Prover-Preview-7B以66% pass@1准确率超越DeepSeek-Prover-V2-671B(61.9%)和Kimina-Prover-72B(63.9%) [10] - 案例显示模型能主动去除冗余证明步骤、根据超时反馈调整结构、基于环境反馈有效改错 [10][13][15] 资源与后续计划 - 模型已开源在GitHub和Huggingface平台,技术报告发布于arXiv [17] - 团队将持续探索形式化推理模型方向 [16]
跟随音乐舞动节拍!这款机器人集体舞蹈引关注
新浪科技· 2025-08-15 03:26
行业活动与技术创新 - 全球首个以人形机器人为参赛主体的综合性竞技赛事——2025世界人形机器人运动会于8月15日在北京国家速滑馆开幕 涵盖26个赛项、487场比赛 吸引16个国家280支队伍、500余台机器人参赛 [1] - 桥介数物人形机器人在表演赛中通过Deepmimic算法实现协同舞蹈动作 该技术采用"模仿学习+强化学习"双阶模式 支持舞蹈、武术等复杂动作及定制动作 [1] - 技术实现路径包括通过动作捕捉获取人类运动片段 利用模仿学习复刻基础动作框架 再通过强化学习优化物理可行性以确保动作稳定性和流畅度 [1]
告别无效科研!具身智能方向1v1辅导开放,3位导师带你冲刺顶会!
具身智能之心· 2025-08-15 00:05
具身智能论文辅导服务 - 提供1v1论文辅导服务 目前开放3个名额 方向包括vla 强化学习 sim2real [2] - 目标会议覆盖CVPR ICCV ECCV ICLR CoRL ICML ICRA等顶级学术会议 [2] - 辅导老师具备具身智能领域活跃研究经验 能够提供创新性研究思路 [2] - 咨询方式包括微信添加和扫码 需备注"具身论文辅导咨询" [3]
VLA/强化学习/VLN方向的论文辅导招募!
具身智能之心· 2025-08-14 12:00
具身智能论文辅导服务 - 提供具身智能领域的1v1论文辅导服务 目前开放3个名额 方向包括vla 强化学习和sim2real 主要面向A会和B会投稿需求[1] - 辅导覆盖多个顶级学术会议 包括CVPR ICCV ECCV ICLR CoRL ICML ICRA等[2] - 辅导老师均来自具身学术研究领域 具备活跃的学术研究能力和创新idea[2] - 咨询方式包括添加微信oooops-life或扫码联系 需备注"具身论文辅导咨询"[3]
冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世
机器之心· 2025-08-14 04:57
核心观点 - 微软研究员提出了一种名为 Group Filtered Policy Optimization (GFPO) 的新型强化学习算法,旨在解决推理模型中因强化学习导致的冗长响应问题,同时保持准确度 [2][3] - GFPO 通过采样更大的候选响应组并显式过滤所需属性(如简洁性),可在推理阶段将多余 token 长度削减多达 80% [3][11] - 该算法无需复杂奖励工程即可同时优化多个响应属性(如长度和准确度),且与现有 GRPO 变体兼容 [11][14] 技术背景 - GFPO 基于 DeepSeek 提出的组相对策略优化(GRPO),后者简化了近端策略优化(PPO)算法,但依赖单一标量奖励信号导致响应长度膨胀 [7][8] - GRPO 的局限性在于难以联合优化多个响应属性,例如准确度提升伴随长度增加 [8] GFPO 实现机制 - 核心方法:为每个问题采样更大响应组(G),按指标(如长度)过滤出前 k 个响应子集(S),仅用 S 计算策略梯度 [12] - 优势归一化:使用子集 S 的奖励均值(μ_S)和标准差(σ_S)归一化优势,优先奖励过滤后高奖励响应 [13] - 训练成本:采样更多响应增加训练开销,但推理阶段更短响应可抵消成本 [15] 自适应难度 GFPO - 动态调整留存响应数量(k):根据问题难度(奖励均值)分配 k 值(简单 4/中等 6/困难 8),聚焦计算资源于难题 [21] - 效果:减少简单问题冗长,同时通过保留更多推理链维持难题准确度 [21] 实验发现 长度缩减效果 - token 效率优化实现最大幅度缩减:在 AIME 24、GPQA、OmniMATH 等数据集上分别减少 84.6%、79.7%、82.6% 多余长度 [31] - 极端冗长响应(≥20k token)比例从 32% 降至 22% [39] 准确度表现 - 自适应难度 GFPO 在中等和极难问题上准确度超越 GRPO,同时缩短 47%-60% 长度 [40] - 更大分组规模(如 8/24)通过更多采样维持难题准确度 [40] 关键参数影响 - 留存响应比例(k/G)25-33% 为最佳平衡点,保留比例越小长度增益递减 [28] - 分组规模(G)扩大可提升难题准确度,如 Shortest 8/24 与 GRPO 准确度相当 [40] 应用场景扩展 - GFPO 可集成事实性、多样性等指标优化其他属性,适用于推理解答验证(AIME 25 解答步骤冗长减少 94.4%)[16][44]