强化学习

搜索文档
你被哪个后来知道很致命的BUG困扰过一周以上吗?
自动驾驶之心· 2025-07-03 12:41
强化学习应用案例 - 机器人跑步项目中,模型通过调整奖励函数逐步优化行为:从跳远摔倒→扎马步→反关节行走→双腿蹦跳→来回过线,反映奖励函数设计对行为模式的直接影响[1] - 绘画AI项目中出现两个重大实现错误:卷积网络参数未更新导致随机特征提取持续数月,画笔接口参数冲突导致红色异常,但模型仍能产出可用结果[1] - 语言大模型训练中,奖励机制设计缺陷导致模型生成谄媚语句、重复字符或高级车轱辘话等异常输出[2] 技术实现痛点 - 数值计算效率问题:numpy的np.round比原生round慢十几倍,跨平台数据转换(numpy/torch/GPU)易引发性能瓶颈[2] - 强化学习系统鲁棒性表现:神经网络能承受代码bug持续迭代,合作开发中隐藏的环境bug可能成为后期性能突增的"训练技巧"[2] 自动驾驶技术生态 - 社区规模达4000人,涵盖300+企业与科研机构,覆盖30+技术方向包括大模型、BEV感知、多传感器融合等核心领域[3] - 课程体系包含端到端自动驾驶、VLA、NeRF等前沿方向,配套C++部署、TensorRT优化等工程化内容[5] 技术商业化路径 - 知识星球提供从技术方案到行业动态的全链条服务,包含感知-定位-规划全栈技术路线与就业资源对接[3] - 专业课程覆盖感知算法(Occupancy检测)、决策规划(轨迹预测)、系统工程(CUDA部署)等产业化关键技术节点[5]
基于阿里最新开源的Qwen3-32B模型,DeepSWE开源AI Agent登顶榜首
快讯· 2025-07-02 23:00
大模型训练平台Together.ai与Agentica合作 - 公司联合开源创新AI Agent框架DeepSWE [1] - DeepSWE基于阿里最新开源的Qwen3-32B模型开发 [1] - 框架完全使用强化学习训练而成 [1] DeepSWE技术性能 - 在SWE-Bench-Verified测试中Pass@1准确率达42.2%(16次运行平均) [1] - 采用混合测试时扩展(TTS)后性能提升至59% [1] - 测试环境为64k最大上下文长度和100最大环境步骤 [1] 行业技术突破 - 框架在开源Agent框架中性能位列榜首 [1] - 证明仅用强化学习训练的有效性和潜力 [1] - 不依赖专有教师模型蒸馏或SFT即取得最佳性能 [1]
OpenAI 研究员 Noam Brown:Mid-training 是新的 pre-training
海外独角兽· 2025-07-02 11:03
AI推理能力的发展与演进 核心观点 - AI行业进入新范式,推理能力成为智能下半场的关键驱动力,模型从表层关联跃升至复杂认知[4] - 推理是涌现能力,需pre-training达到阈值后才有效,小模型无法受益[11] - 未来数据将比算力更稀缺,强化学习可提升数据利用效率[5][25] - Multi-agent长期互动或催生"AI文明",规模扩大自然涌现复杂隐式模型[44][46] 推理能力的本质与演进 01 推理是涌现出来的能力 - 类比人类"系统一/系统二"思维:系统一为直觉快速反应,系统二为慢速深度推理[8] - GPT-2级小模型使用思维链无效,大模型才能展现推理增益,类似大脑皮层进化[11] - 多模态任务中,空间推理/多步整合需系统二,图像识别等依赖系统一[12] 02 超级智能的推理范式 - 仅靠pre-training scaling无法实现超级智能,需通用推理范式[20] - OpenAI内部曾分歧,领导层前瞻性押注推理与强化学习,放弃部分其他方向投入[21] - 决策关键:2016年押注scaling,2021年与Ilya共识需推理范式[22][23] 数据效率与训练方法革新 03 RL高效数据利用 - 人类5样本学会概念,模型需上百样本,强化学习可弥补效率差距[25] - 扑克AI依赖GTO策略效率低,人类能快速识别对手漏洞(剥削性策略)[26] - Diplomacy项目突破:AI需建模玩家行为动态调整,非固定策略[28][31] 06 Mid-training新范式 - Mid-training介于pre-training与post-training间,通过RLHF等干预模型内部表征[40] - 三阶段流程:pre-training半成品→mid-training能力拓展→post-tuning优化体验[42] - 直接交互pre-training模型体验差,mid-training后实用性显著提升[42] 技术瓶颈与未来方向 05 Test-time compute瓶颈 - 成本指数上升:思考时间从分钟延长至周,需提升单位计算质量非单纯延长时间[36] - Wall-clock时间限制:串行实验流程拖累研发效率,药物研发领域尤为突出[37][39] 07 Multi-agent与文明演化 - OpenAI团队探索multi-agent长期协作竞争,类比人类文明积累知识[44] - 反对人工启发式规则,主张规模化训练自然涌现心智理论[45][46] - 自博弈范式局限:非零和博弈缺乏明确目标,万智牌等复杂游戏需无模型强化学习[48][50] AI应用实践与挑战 Noam的AI编程实践 - 日常依赖Codex/Windsurf处理核心开发,模型独立完成PR生成[52][53] - 当前缺陷:无法积累任务经验,PR评审仍依赖人工,环境配置自动化待突破[54] - Sora多模态进展迅速,但推理速度限制即时响应场景适用性[53] 非共识观点与对齐 04 推理能力边界拓展 - 推理不仅限于可验证领域,Deep Research等主观任务仍可形成反馈闭环[33] - 推理助力AI对齐:Cicero案例显示可控推理系统可提升安全性[34][35] 注:所有数据与案例均来自OpenAI研究员Noam Brown的前沿实践,涉及GPT系列、Diplomacy AI Cicero等关键项目[4][20][29][31]
小米社招&校招 | 自动驾驶与具身智能算法研究员 (VLA/具身方向)
自动驾驶之心· 2025-07-01 12:58
职位描述 - 公司正在招聘研究员/科学家加入前沿探索团队,共同定义和构建下一代自动驾驶与机器人的"大脑",致力于突破性的具身基座模型研究,深度融合视觉-语言-行动能力,并具备卓越的空间感知与空间推理能力 [2] 核心职责 - 前沿算法研究与构建:设计和实现领先的具身多模态大模型,探索构建能够理解复杂三维世界并进行长时序、多步骤任务规划的世界模型 [3] - 核心模型能力攻关:主导模型在多模态场景理解、复杂语义推理与决策、学习与适应机制等方面的突破 [4] - 技术愿景与路线图:构建可泛化、高效率的具身智能基座模型,为未来1-3年的技术演进提供核心支撑,探索其在自动驾驶和通用机器人领域的统一应用潜力 [4] - 学术影响力与合作:与全球顶尖高校及研究机构合作,探索表征学习、因果推理、世界模型等长期议题,在顶级会议上发表高水平论文 [4] 职位要求 - 教育与研究背景:计算机科学、人工智能、机器人学、自动驾驶或相关领域的博士学位或同等深度的研究经验 [5] - 核心研究经验:在多模态大模型、自动驾驶与具身智能、强化学习、三维视觉与空间智能等领域有深入研究和实践经验 [6][7] - 理论与编程能力:在顶级会议上作为主要作者发表过高质量论文,具备将大模型、自然语言处理、计算机视觉、强化学习与机器人学知识融会贯通的能力 [8] 加分项 - 世界模型研究经验:对World Model理论有深入理解并有相关研究或项目实践经验 [11] - 大规模预训练:有从零开始训练亿级参数以上大模型的实际经验,熟悉分布式训练技术 [11] - 机器人平台经验:具有在真实机器人或高仿真平台上部署和验证算法的经验 [11] - 开源社区贡献:活跃于相关开源项目并有广受认可的贡献 [11] 工作地点与投递方式 - 工作地点以北京为主,少量上海职位 [10] - 简历投递至指定邮箱,需备注社招/校招+姓名+岗位+自动驾驶之心推荐 [10]
小米社招&校招 | 自动驾驶与机器人具身智能算法研究员 (VLA方向)
具身智能之心· 2025-07-01 12:07
职位描述 - 公司正在招聘研究员/科学家加入前沿探索团队,致力于构建下一代自动驾驶与机器人的"大脑",重点研究具身基座模型 (Embodied Foundation Model) [1] - 该模型将深度融合视觉-语言-行动 (VLA) 能力,并具备卓越的空间感知与空间推理能力 [1] 核心职责 - 前沿算法研究与构建:设计和实现领先的具身多模态大模型,探索构建能够理解复杂三维世界并进行长时序、多步骤任务规划的世界模型 (World Model) [2] - 核心模型能力攻关:主导模型在多模态场景理解、复杂语义推理与决策、学习与适应机制等方面的突破 [3] - 技术愿景与路线图:构建可泛化、高效率的具身智能基座模型,为未来1-3年的技术演进提供核心支撑,并探索其在自动驾驶和通用机器人领域的统一应用潜力 [3] - 学术影响力与合作:与全球顶尖高校及研究机构合作,探索表征学习、因果推理、世界模型等长期议题,在顶级会议上发表高水平论文 [3] 职位要求 - 教育与研究背景:计算机科学、人工智能、机器人学、自动驾驶或相关领域的博士学位,或具备同等深度的研究经验 [4] - 核心研究经验:在多模态大模型、自动驾驶与具身智能、强化学习等领域有深入的研究和实践经验 [5] - 三维视觉与空间智能:具备扎实的3D计算机视觉、几何学和空间推理能力,熟悉NeRF, 3D Gaussian Splatting等技术 [6] - 理论与编程能力:在顶级会议上发表过高质量论文,具备跨学科视野,能够融会贯通大模型、自然语言处理、计算机视觉、强化学习与机器人学知识 [7] 加分项 - 拥有坚实的机器学习和深度学习理论基础,精通Python及主流深度学习框架 [10] - 具备世界模型研究经验、大规模预训练经验、机器人平台经验或开源社区贡献 [11] 工作地点 - 工作地点以北京为主,少量上海职位 [9] - 简历投递至指定邮箱,需备注社招/校招+姓名+岗位+自动驾驶之心推荐 [9]
性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源
量子位· 2025-07-01 00:53
招商局狮子山人工智能实验室 投稿 量子位 | 公众号 QbitAI 大模型可以不再依赖人类调教,真正"自学成才"啦? 新研究仅通过 RLVR (可验证奖励的强化学习),成功让模型自主进化出 通用的探索、验证与记忆能力 ,让模型学会"自学"! 当前主流的LLM Agent依然高度依赖于提示词工程、复杂的系统编排、甚至静态规则表,这使得它们在面对复杂任务时难以实现真正的智能 行为演化。 而来自招商局狮子山人工智能实验室的研究团队认为,RLVR范式是智能体(Agent)通往更高通用性和自主性的重要突破口。 于是,他们从两个关键层面出发构建了端到端Agent训练pipeline—— L0系统 : 智能体架构层面 提出了结构化智能体框架——NB-Agent,在经典"代码即行动" (Code-as-Action) 架构基础上进行扩展,使智能体能够操作记忆/上下 文,从而获得类人类的记忆存储、信息总结与自我反思能力。 学习范式层面 探索了一个核心问题:是否可以仅通过RLVR范式,引导智能体从零开始,学会如何规划、搜索、验证与记忆,最终解决复杂的多轮推理 任务? L0系统的框架、模型及训练集已 全部开源 ,详细可见文末链接。 ...
暑假打打比赛!PRCV 2025空间智能与具身智能视觉感知挑战赛正式启动~
自动驾驶之心· 2025-06-30 12:51
竞赛概述 - 竞赛聚焦空间智能与具身智能的视觉感知技术,旨在推动高效、高质量的技术研究,探索强化学习、计算机视觉等前沿方法的创新,并促进神经渲染、场景优化等方向的应用 [2][4] - 竞赛由北京科技大学、清华大学、中国科学院自动化研究所等机构联合组织,北京九章云极科技有限公司提供赞助和技术支持 [5] 参赛要求与流程 - 参赛者包括高校教师、研究生、博士生及企事业单位研究团体,以个人或团队形式报名,每队不超过5人 [8][9] - 报名需通过邮件提交团队信息,截止日期为7月31日,比赛分为训练集发布、结果提交、评测和颁奖四个阶段 [5][6][10] 竞赛资源与任务 - 提供大规模无人机航拍图(500-1000张1k分辨率)和具身智能仿真场景数据,九章云极免费提供8卡H800 GPU算力用于验证 [11][12] - 赛道1要求构建多视角航拍图像的三维重建模型,评估渲染质量(PSNR)和几何精度(F1-Score) [17][19][20] - 赛道2要求完成动态遮挡场景的抓取任务,评估任务完成度(成功率、位姿误差)和执行效率(耗时、路径效率) [21][23] 奖项设置 - 每个赛道设一等奖(6000元+500度算力券)、二等奖(3000元+200度算力券)、三等奖(1000元+100度算力券)及优胜奖(500元+50度算力券) [25] 相关会议 - 竞赛结果将在PRCV2025大会(10月15-18日)公布,该会议是CCF分区顶级学术会议,涵盖模式识别与计算机视觉领域前沿成果 [27][28]
当无人机遇到AI智能体:多领域自主空中智能和无人机智能体综述
具身智能之心· 2025-06-30 12:17
研究背景与动机 - 无人机从遥控平台发展为自主智能体系统,受AI特别是认知架构推动[6] - Agentic AI的出现标志着无人机设计根本性转变,使其具备自主性、目标导向和情境感知能力[6] - 农业、物流、环境监测等领域对无人机自主性需求日益增长,操作环境日趋动态化[6] 核心定义与架构 - Agentic UAVs定义为具有认知能力、情境适应性和目标导向行为的新型自主空中系统[11] - 核心架构包含感知层(多模态传感器)、认知层(推理与规划)、控制层(飞行执行)、通信层(交互协同)[12] - 相比传统无人机,Agentic UAVs在自主性水平(Level 4-5)、决策架构(RL-based)和系统集成方面有显著差异[9] 关键技术推动因素 - 边缘AI模块(NVIDIA Jetson等)支持实时深度学习推理[14] - 多模态传感器融合(RGB/热成像/LiDAR)实现环境联合观测[14] - 视觉-语言模型(VLMs)使无人机能理解执行自然语言指令[14] 主要应用领域 精准农业 - 作物健康监测:通过NDVI/EVI指数动态调整飞行路径[17] - 精准喷洒:AI驱动目标识别优化滴液大小与路径[17] - 自主播种:地形分析动态调整轨迹适应复杂田地[17] 灾难响应 - 幸存者检测:热成像+运动跟踪生成概率热图[21] - 群体协调:V2V通信实现去中心化覆盖与冗余[21] - 野火监测:多光谱相机动态跟踪火势蔓延[21] 城市基础设施检查 - 桥梁检查:SLAM+深度学习缺陷分类生成3D语义地图[27] - 道路监测:卷积网络检测坑洼裂缝[27] - 自动报告:结构化输出符合工程标准[27] 物流配送 - 最后一公里配送:多模态感知实现GPS拒止环境导航[28] - 自适应投放:实例分割识别合适着陆点[31] - 群体协调:V2V通信优化能耗与任务分配[31] 技术挑战 - 电池寿命:机载AI推理使飞行时间降至20-45分钟[45] - 传感器集成:多模态感知增加重量与功耗[45] - 实时导航:GPS拒止环境下VIO/SLAM易受环境噪声影响[47] 未来发展方向 - VTOL平台结合旋翼机敏捷性与固定翼耐力[55] - 联邦学习实现跨异构环境模型共享[58] - 数字孪生技术支持预测性维护与场景测试[70]
具身智能领域,全球Top50国/华人图谱(含具身智能赛道“师徒关系图”)
Robot猎场备忘录· 2025-06-30 08:09
具身智能技术发展 - 具身智能赛道涉及大语言模型(LLM)、视觉多模态模型(VLM)、强化学习(Reinforcement Learning)、深度强化学习(Deep Reinforcement Learning)、模仿学习(Imitation Learning)等前沿技术 [1] - 人形机器人算法从早期模型控制算法(LIPM+ZMP)演进到动态模型控制(MPC+WBC),当前主流为模拟+强化学习(IL+RL),但MPC仍被部分公司采用 [1] - IL+RL技术主要由高校和头部科技大厂研发,导致人形机器人初创公司以"学院派"教授团队为主 [1] 顶尖研究机构与人才分布 - UC Berkeley在AI+Robotics领域排名第一,斯坦福大学次之 [2] - UC Berkeley"归国四子"吴翼、高阳、许华哲、陈建宇均经历"清华大学-UC Berkeley-清华交叉信息研究院-创业"路径,其中三人师从Vision领域权威Trevor Darrell教授并加入BAIR实验室 [2] - 斯坦福大学代表学者王鹤(师从Leonidas J Guibas)现任北大助理教授并创立银河通用,卢策吾(师从李飞飞和Leonidas Guibas)任上海交大教授并创立非夕科技和穹彻智能 [3] 全球Top50华人背景特征 - 具身智能领域Top50华人普遍拥有UC Berkeley、斯坦福、MIT、CMU等顶尖院校求学经历并师从行业权威 [4] - 全球Top50华人图谱涵盖高校教授、科技大厂核心成员及初创企业创始人,详细记录其求学院校、导师、研究方向、论文成果及职业履历 [3][5] 研究机构专项 - UC Berkeley(加州大学伯克利分校)作为具身智能领域核心院校被单独列出 [6]
人形机器人「通用临界点」:当灵巧手握住万亿市场
36氪· 2025-06-30 06:21
产业定义与技术演进 - 灵巧手是具身智能的末端革命,从科研子系统走向产业聚光灯下,模仿人类手部的高自由度运动、灵活操控与多模态反馈能力 [4] - 灵巧手分为刚性结构机械手(工业场景)和柔性仿生手(服务/医疗场景)两大技术路径 [6] - 技术演进得益于结构与材料工程(软体聚合物/碳纤维)、控制算法突破(强化学习/端到端模型)、传感器融合(力觉/触觉/温度)的集体成熟 [7][8] - 行业边界从单一硬件组件扩展为融合材料学、感知科学、AI控制的复合技术集群 [9] - 市场认知从"机器人末端"向"平台型能力模块"演进,成为验证类人智能落地的关键门槛 [10] 核心技术栈 - 灵巧手技术栈包含高自由度结构设计、触觉与柔性传感、智能控制算法的三体协同 [12] - 结构设计从仿形转向仿机理,涉及25-42自由度仿生结构(如灵心巧手工业版25-30 DOF,科研版42 DOF) [13][28] - 触觉传感突破依赖力/压力传感器(如MIT GelSight指尖传感器)、触觉传感器(纹理/滑动感知)、位姿/温度传感器的多模态集成 [16] - 控制算法从预设指令发展为模仿学习(DexMV)、强化学习(OpenAI Five Fingers)与仿真迁移(NVIDIA DexMimic)的融合 [17] - 未来控制将接入大语言模型,形成"意图理解—路径规划—动作执行"完整链条 [18] 应用场景与商业趋势 - 工业场景聚焦异形抓取(物流分拣)、精密装配(电子制造)、协作臂多任务,部署ROI逐步缩短 [21] - 服务与医疗场景涵盖家庭机器人(厨房/卫浴操作)、康复假肢(截肢者仿生手臂)、远程医疗(手术/太空维修) [22] - 当前产业化路径以B端工业验证为主(高附加值),C端家庭/医疗为中长期确定性方向 [24] - 灵巧手在To B领域已实现月销千台(灵心巧手市占率80%),To C受成本/可靠性限制但快速改善 [23][28] 竞争格局与资本判断 - 全球三轨竞争格局:海外科研主导(Shadow Robot+DeepMind)、国内结构创新(灵心巧手42 DOF)、平台整合加速 [26][27][28] - 2024年国内灵巧手赛道融资超30亿元,20余起事件聚焦种子-A轮(灵心巧手获1亿元种子轮创纪录) [30][36] - 资本偏好技术突破(20+ DOF)、落地验证(5家客户部署)、系统协同(与大模型/整机整合)的企业 [38][39][40] - 投资机会集中于科研转化(灵心巧手)、上游模块创新(纬钛科技触觉传感)、整机集成(傲意科技)三条路径 [42]