Workflow
强化学习
icon
搜索文档
具身智能之心B端和C端培训老师招募来啦~
具身智能之心· 2025-08-28 01:20
业务模式 - 公司开展B端和C端培训业务 B端主要面向企业和高校及研究院所 C端面向学生和求职人群[1][3] - 业务内容包括制定课程大纲和制作课程材料[3] 技术方向 - 培训内容涵盖VLA VLN 遥操作 Diffusion Policy 强化学习 VLA+RL sim2real 多模态大模型 仿真 运动控制 目标导航等前沿技术领域[2] 人才要求 - 要求博士及以上学历(包含在读)[3] - 需具备2篇A会或一区以上期刊/会议发表或2年及以上工业界经验[3] 合作方式 - 通过微信平台进行业务咨询(微信号:oooops-life)[4] - 提供高于行业水平的酬金待遇[1]
斯坦福大学提出RTR框架,让机械臂助力人形机器人真机训练
具身智能之心· 2025-08-28 01:20
编辑丨机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 人形机器人的运动控制,正成为强化学习(RL)算法应用的下一个热点研究领域。当前,主流方案大多遵循 "仿真到现实"(Sim-to-Real)的范式。研究者们通过 域随机化(Domain Randomization)技术,在成千上万个具有不同物理参数的仿真环境中训练通用控制模型,期望它能凭借强大的泛化能力,直接适应动力学特性 未知的真实世界。尽管这类 "零样本迁移"(Zero-Shot Transfer)方案在多种运动任务上取得了卓越表现,但其本质目标是训练一种在任何环境下都 "能用" 的保守 策略。这种策略牺牲了机器人在特定真实环境中的性能上限,因为对于最终落地而言,真实世界的表现才是唯一重要的标准。 为了突破这一瓶颈,近期一些工作开始探索在仿真预训练后,利用少量真实数据对模型进行微调。例如,来自英伟达和 CMU 等机构的研究者提出的 ASAP [1], 通过训练一个残差网络来快速补偿仿真与 ...
打破瓶颈,让RAG学会思考:中科大、智源等发布推理检索框架BGE-Reasoner
机器之心· 2025-08-27 08:36
核心观点 - BGE-Reasoner在推理密集型信息检索领域取得突破性进展 以45.2分刷新BRIGHT基准纪录 领先第二名3.6分[2][12][14] - 该技术通过三阶段模块化框架解决复杂查询问题 显著提升RAG和AI Agent在深度研究场景的推理能力[3][8][19] - 创新性采用大模型合成数据与强化学习技术 突破训练数据稀缺和困难样本泛化的行业瓶颈[4][5][22] 技术架构 - 提出可复制的三模块框架:Rewriter实现查询理解与改写 Embedder负责向量检索 Reranker进行精排[3][19][24] - 基于Qwen系列模型微调:Rewriter采用Qwen2.5-7B-Instruct Embedder基于Qwen3-8B Reranker基于Qwen3[21][22] - 端到端工作流程:原始查询经改写后 由Embedder与BM25并行检索 最终通过Reranker输出排序[19][24] 性能表现 - 在BRIGHT基准取得45.2分 超越蚂蚁集团DIVER(41.6分)和百度ReasonRank(40.8分)等竞争对手[12][14] - 向量模型BGE-Reasoner-Embed获得32.5分 显著优于Seed1.5-Embedding(27.2分)和Qwen3-Embedding等基线[12][15] - 测试时扩展技术增强排序稳健性 强化学习提升困难样本推理能力[5][22] 数据创新 - 利用大模型合成多领域训练数据 覆盖数学与代码等推理密集型场景[4][21] - 通过教师模型生成推理路径 采用拒绝采样策略构建高质量训练样本[21] - 合成数据有效解决行业数据稀缺瓶颈 验证于BRIGHT基准的显著性能提升[4][22] 行业影响 - 推动RAG技术在复杂推理任务发展 解决AI Agent智能化的核心难题[2][8] - 模型权重与训练代码即将开源 促进检索与人工智能领域研究应用[6][25] - 由中科大 智源研究院 北邮与港理工联合研发 体现中国在AI前沿领域的创新能力[2][25]
Meta万引强化学习大佬跑路,用小扎原话作为离别寄语,扎心了
36氪· 2025-08-27 06:48
核心事件 - Meta强化学习研究员Rishabh Agarwal宣布离职 决定不加入公司新组建的超级智能实验室 选择尝试全新职业道路 [1] - 另一位在Meta工作12年的资深员工同期离职 加入竞争对手Anthropic的推理团队 [15] 人才背景 - Rishabh Agarwal为AI领域顶尖研究人员 拥有谷歌学术论文引用量10,392次 h-index指数达34 [5][6] - 曾获NeurIPS 2021杰出论文奖 论文主题为深度强化学习统计不稳定性分析 [3][11] - 职业生涯覆盖谷歌Brain、DeepMind及Meta 累计7.5年从业经验 [1][7][11] - 参与谷歌Gemini 1.5(引用2,508次)、Gemma 2(引用1,224次)等核心项目开发 [3][6][11] 技术贡献 - 在Meta期间主导推理模型后训练工作 包括使用强化学习规模化训练8B参数稠密模型 达到接近DeepSeek-R1性能水平 [13][16] - 开发训练中途引入合成数据技术 为强化学习提供热启动机制 [16] - 提出高效on-policy蒸馏方法 提升模型训练效率 [16] 行业影响 - Meta近期出现资深研究人员流失趋势 与公司招聘新人才导致的内部薪酬待遇差异有关 [17] - 人工智能领域高端人才竞争加剧 头部企业间人才流动频繁 [15][17]
打磨7年,李航新书《机器学习方法(第2版)》发布,有了强化学习,赠书20本
机器之心· 2025-08-27 03:18
机器之心报道 机器之心编辑部 每个领域的发展,都离不开几本奠定基础的经典书籍,人工智能亦是如此。 此前,李航老师的《统计学习方法》《统计学习方法(第 2 版)》可以说是机器学习宝典,很多学生、老师都将此书奉为必读书籍。 然而,随着 AI 技术的快速发展,特别是深度学习的飞跃式进展,一本仅覆盖传统机器学习的教材,已无法全面反映当前机器学习技术的全貌。 因此,李航老师在前两版的基础上,又推出了《机器学习方法》,新增深度学习内容。 而近期,AI 圈对于强化学习的关注也在迅速升温。从大模型与智能体的融合尝试,到强化学习在游戏、机器人控制、决策优化中的广泛应用,这一方向再次成为 焦点。然而,此前许多教材对此涉及较少,甚至完全缺席,导致很多人无法系统学习。 现在这个问题也解决了。 李航老师全新上线新书《机器学习方法(第 2 版)》 ,将强化学习独立成篇,系统介绍了强化学习的基本框架与代表算法,包括马尔可 夫决策过程、多臂老虎机问题、深度 Q 网络等。 全书共分为 4 篇( 或 4 册) ,对应 监督学习、无监督学习、深度学习和强化学习 4 个主要分支。 至此,《机器学习方法(第 2 版)》构建起了一个覆盖监督学习、无监督 ...
手把手教机器人:斯坦福大学提出RTR框架,让机械臂助力人形机器人真机训练
机器之心· 2025-08-27 00:46
核心观点 - 人形机器人运动控制领域正成为强化学习算法应用的热点 采用仿真到现实范式训练通用控制模型 但该方案牺牲了特定真实环境中的性能上限[2] - 提出创新的RTR系统 使用教师机械臂在现实世界指导学生人形机器人进行在线强化学习 突破真机训练障碍[4][6] - RTR系统通过硬件协同和算法创新实现三阶段高效微调 在行走和荡秋千任务中展现卓越性能 仅需20分钟真实训练即可将仿真预训练速度提升一倍[6][15][19] 技术方案 - 硬件系统由教师UR5六轴机械臂与学生ToddlerBot人形机器人组成 通过四根弹性缆绳柔性连接 配备力传感器和可编程跑步机[8] - 教师机械臂扮演多重角色:安全保护装置 自动重置帮手 训练数据信号源 以及通过课程学习设置进度和施加扰动的智慧教练[5] - 算法采用三阶段Sim-to-Real流程:先在仿真环境训练适应不同物理参数的策略 再优化通用初始隐变量 最后在真实世界仅在线优化低维隐变量z[9][10][11] 性能表现 - 在行走任务中 主动顺应机器人运动的柔性机械臂比固定吊架显著提升学习效果 课程学习策略优于固定辅助策略[15] - 微调隐变量方法在数据效率和最终性能上均优于微调整个策略网络或残差网络基线 真机微调效果强于RMA等在线参数识别基准[6][18] - 在纯真实环境荡秋千任务中 有教师主动参与的课程学习效率高于固定吊架方案 20分钟内学会幅度明显的周期性摆荡动作[19] 应用前景 - RTR框架为解决当前人形机器人真机部署与训练瓶颈提供可行方案 引入主动力辅助新范式[17] - 该框架具有高度扩展性 可通过更强工业机械臂或力传感龙门吊系统推广至全尺寸人形机器人及其他复杂机器人系统[17] - 项目代码已全部开放 被CoRL 2025会议接收 由清华大学和斯坦福大学研究人员共同完成[22]
一天之内,Meta痛失两员大将,小扎钞能力失效?
机器之心· 2025-08-26 08:53
Meta AI人才流失现象 - Meta内部出现资深AI研究员离职潮 包括强化学习专家Rishabh Agarwal(去向未定)和12年元老级员工Bert Maher(加入Anthropic)[1][3][24] - 扎克伯格以上亿美元薪资组建超级智能团队的同时 遭遇核心人才持续流失 被嘲讽"钱买不到顶级研究员"[1][4] 人才流失原因分析 - 内部待遇差距引发争议 非超级智能研究者被指遭受"次等待遇" 如同"巨型社会实验"[6][7] - 员工保留率仅64%远低于Anthropic的80% 反映深层管理文化问题[30] - 存在强制5%末位淘汰制 导致工作动机异化为"避免被解雇" 引发内斗行为[34] - CTO与首席产品官各自为政 FAIR实验室因长期导向被边缘化且GPU资源匮乏[34] - 新老派系冲突加剧 天价挖人导致资源倾斜 老员工士气崩塌[34] 典型案例分析 - Rishabh Agarwal被引量破万 h指数34 曾领导Llama团队强化学习研究[13][17][18] - 其贡献包括将8B参数模型性能提升至接近Deepseek-R1水平 开发强化学习热启动技术[19] - Bert Maher参与HHVM虚拟机、ReDex安卓优化工具、PyTorch框架等核心项目开发[25][27] 公司结构性风险 - 管理模式被类比"90年代微软" 权力集中创始人主导吞噬公司资源的宏大项目[10] - 缺乏强力CTO分担制衡 管理失衡可能导致明星CEO被压垮[11] - VR大神John Carmack曾指控公司资源利用率极低 整体效率仅预期50%[33] 人才拒绝加入原因 - 顶尖研究者拒绝Meta因愿景分歧 公司注重盈利与竞赛 研究者强调安全与长期主义[38][39] - 价值观冲突使金钱无法弥补妥协 如Sutskever等追求更道德AI方法的人士[39] - 使命感缺失成为关键因素 特斯拉工程师明确表示"金钱买不到使命感"[40] - AI人才含金量普遍提升 在其他公司长期未必获得更低报酬[41] 具体拒绝案例 - Ilya Sutskever拒绝出售Safe Superintelligence给Meta[44] - Mira团队全员拒绝被Meta招募和收购[44] - Perplexity AI收购谈判破裂 CEO招募被拒[44] - OpenAI的Noam Brown和Markchen均拒绝邀约[44] - Google AI架构师Koray Kavukcuoglu拒绝加入[44]
Meta万引强化学习大佬跑路!用小扎原话作为离别寄语,扎心了
量子位· 2025-08-26 04:36
核心人才流失 - Meta强化学习专家Rishabh Agarwal离职 其曾参与Gemini 1[4]5和Gemma 2等核心项目开发 论文总引用量达10[6]392次 h-index为34[6] 2021年获得NeurIPS杰出论文奖[4][14] - 另一名任职12年的Meta资深员工同期离职并加入竞争对手Anthropic推理团队[18][19] - 离职潮可能与新老员工薪酬待遇悬殊引发的内部矛盾相关 部分研究人员曾威胁辞职[23][24] 技术贡献与行业影响 - Rishabh Agarwal在Meta期间主导推理模型后训练工作 具体包括采用RL规模化训练将8B稠密模型性能提升至接近DeepSeek-R1水平 在训练中引入合成数据实现RL热启动 提出高效on-policy蒸馏方法[16][20] - 其2021年发表的深度强化学习统计不稳定性论文成为评估RL算法的里程碑工作[14] - 曾作为核心贡献者参与谷歌Gemini 1[4]5(上下文突破100万token)和Gemma 2(轻量级开源模型)开发[4][13] 人才流动趋势 - Meta近期组建超级智能实验室并大量引进人才 但同期出现资深技术骨干流失现象[1][22] - 高端AI人才更倾向选择创业或探索非传统技术路径 Rishabh Agarwal明确表示拒绝加入Meta新实验室并寻求"完全不同道路"[1][17] - 行业顶尖人才普遍具备跨机构任职背景 Rishabh Agarwal曾同时任职谷歌Brain[6]DeepMind[6]Meta[1]并兼任麦吉尔大学教授[13]
最新智能体自动操作手机电脑,10个榜单开源SOTA全拿下|通义实验室
量子位· 2025-08-25 23:05
核心观点 - 通义实验室推出Mobile-Agent-v3智能体框架 在手机端和电脑端多个核心榜单取得开源最佳性能 实现自动化操作手机和电脑的突破性进展 [1][2] - 该框架通过图形交互基础模型(GUI-Owl)实现界面元素精准定位、复杂任务规划和多智能体协同 在10个主流GUI榜单中均取得开源SOTA水平 [9][17] - 采用自我进化轨迹生产基建和强化学习算法 构建自动化数据生产闭环 在OSWorld动态环境中成功率提升近8个百分点 [11][31][36] 技术架构 - 基于阿里云跨平台云环境基础设施 构建覆盖Android/Ubuntu/macOS/Windows的云端沙箱执行环境 [11] - 通过Self-Evolving GUI Trajectory Production系统实现数据采集与模型优化自动化闭环 包括高质量任务生成、轨迹正确性判断和任务指南生成模块 [13][14] - 采用轨迹感知相对策略优化(TRPO)算法 解决稀疏奖励和信用分配难题 在OSWorld-Verified基准测试中成功率从27.1%提升至34.9% [31] 核心能力 - 精准界面元素定位:整合开源数据集和无障碍树数据合成 采用SAM模型进行PC端密集定位 过滤IoU低于0.5的噪声框 [19] - 细粒度文字定位:支持单词和单字符级精确定位 可响应"点击第三段第二行的'提交'二字"类指令 [20] - 复杂任务规划:从历史轨迹提炼执行手册 通过Qwen3-235B等大语言模型生成详细执行计划 [22][23] - 动作语义理解:构建操作前后截图对 建立视觉差异到用户行为的因果映射能力 [24][25] 多智能体协同 - Mobile-Agent-v3框架包含Manager、Worker、Reflector和Notetaker四个智能体角色 均由同一GUI-Owl模型扮演 [33] - 形成拆解→执行→检查→记录→调整→再执行的闭环自动化流水线 在真实环境评测中带来7-8个百分点性能提升 [34][40] - 支持知识检索(RAG)、任务规划、子任务执行与反思推理等完整功能链 [33] 性能表现 - GUI-Owl-32B在Easy/Medium/Hard三个难度级别的综合得分分别为92.75%/91.74%/94.19% 全面超越GPT-4o(60.16%/57.24%/53.49%)和Claude-3.5(41.54%/41.26%/37.55%) [37] - 在跨平台评测中 GUI-Owl-32B在Windows/MacOS/Linux/iOS/Android/Web平台综合得分82.97% 显著领先InternVL3-72B(72.20%)和Qwen2.5-VL-72B(41.83%) [38] - 在细粒度操作任务中 GUI-Owl-32B在文本匹配(67.0%)、元素识别(64.5%)、布局理解(67.2%)等维度表现优异 [39] - Mobile-Agent-v3在OSWorld-Verified和AndroidWorld基准测试中分别达到37.7%和73.3%的得分 超越同类开源模型 [41]
VLA/强化学习/VLN方向1v1论文辅导~
具身智能之心· 2025-08-25 06:00
主要会议:CVPR、ICCV、ECCV、ICLR、CoRL、ICML、ICRA等; 辅导老师:积极活跃在具身学术领域,有idea。 感兴趣的同学可以添加微信oooops-life咨询,或者直接扫码,备注具身论文辅导咨询。 具身智能之心1v1论文辅导来啦!现在有3个vla、强化学习、sim2real方向的名额,主要面向A会和B会。 ...