强化学习

搜索文档
四足机械狗+单臂,低成本开启你的具身学习之旅
具身智能之心· 2025-08-29 04:00
产品定位与核心功能 - Xdog是一款低成本多功能四足机械狗与机械臂集成开发平台 专为具身智能开发者设计 涵盖机器狗二次开发、仿真强化学习及sim2real迁移部署等技术栈 [1] - 平台已实现语音控制、目标识别与跟踪、机械臂自主抓取、强化学习步态控制等核心功能 覆盖具身智能下肢控制大部分技术模块 [2] - 系统基于ROS1开发 支持TCP语音控制、键盘控制、视觉控制及强化自主运动等多种交互方式 [2][15] 硬件配置参数 - 机械狗主体尺寸25cm×20cm×30cm 重7kg 采用Allwinner H616主控芯片(4核1.6GHz) 配备4G内存与32G存储 [3][4][11] - 单腿3自由度 采用连杆传动 支持WIFI/蓝牙通信 配备千兆以太网/USB2.0/Micro-USB等开发接口 [5] - 电池能量93.24Wh 综合续航120分钟 最大前进速度7.2公里/小时 最大旋转速度450度/秒 [5][11] - 机械臂采用20KG总线舵机 配备9-12.6V驱动板及12V/7A电源适配器 抓取范围0.4m(基座周围) 正上方极限抓取高度0.85m [6][7][12] 感知与视觉系统 - 深度相机采用主动双目红外+结构光技术 深度输出分辨率1280×800@30fps 工作距离0.2-10m(最佳精度0.2-4m) [14] - 深度精度达0.5mm(@0.5m)/1.0mm(@1.0m)/5.0mm(@2.0m) RGB摄像头支持1080p@30fps全局快门 [14] - 支持USB 3.0 Type-C接口 兼容Windows/Linux/Android系统 提供Orbbec SDK/OpenNI 2/ROS驱动包 [14] 软件与开发支持 - 开发语言以Python为主 推荐使用2080ti及以上GPU及i7以上CPU进行推理和二次开发 [16][24] - 集成主流大模型实现低延迟高准确性语音交互 支持sim2real与real2sim双向迁移 具备MuJoCo仿真环境映射能力 [17][18] - 提供目标识别算法实现机械臂与机械狗协同跟随 支持ACT模仿学习框架及强化学习步态控制 [19][20][21] 课程体系与技术支持 - 课程包含即插即用系统配置、ROS基础、MuJoCo仿真、IsaacGym环境部署、强化学习算法(PPO/DreamWaQ)、YOLO目标识别等26个模块 [22][23] - 教学团队由5名专家组成 涵盖硬件设计、视觉算法、强化学习等专业领域 包括港大博士生提供技术支持 [22] - 交付周期为付款后3周内 提供1年售后服务期 视频与源码在硬件确认收货后立即提供 [25][26]
基于深度强化学习的轨迹规划
自动驾驶之心· 2025-08-28 23:32
强化学习技术范式演进 - 业界从端到端自动驾驶转向VLA和强化学习等新技术范式 [4] - 强化学习在2018年AlphaZero和2023年ChatGPT RLHF推动下获得更广泛应用潜力 [4] - 2025年初DeepSeek-R1在线推理进一步拓展强化学习使用场景 [4] 学习范式对比 - 监督式学习通过海量数据拟合输入到输出的映射函数 优化目标为平均均方误差值 [5] - 模仿学习以专家动作为监督信号进行行为克隆 在自动驾驶中扩展为短时序轨迹学习 [6] - 强化学习通过环境交互和任务结果反馈优化模型 采用延迟满足的时序决策机制 [7] - 逆强化学习通过用户反馈学习reward-model 解决奖励函数难以定义的问题 [8] 基础理论框架 - 马尔可夫决策过程将时序任务分解为状态概率转移任务 适用于自动驾驶目标生命周期管理 [10] - 动态规划通过分解最优子问题解决离散空间时序任务 [12] - 蒙特卡洛方法利用大数原理统计系统宏观特性 [13] 核心概念体系 - 策略分为确定性和随机性两种 自动驾驶通常采用确定性策略 [14] - 奖励函数提供环境反馈 价值回报定义为衰减因子加权和的时序期望值 [15] - 状态价值函数表示状态期望回报 动作价值函数评估状态动作组合的期望回报 [16][17] - 优势函数衡量动作价值与状态价值的差异 [19] - 贝尔曼方程通过动态规划分解价值函数 [20] 算法分类体系 - 值优化方法直接最大化Q或V函数 包括动态规划/蒙特卡洛/时序差分算法 [25][26] - 策略优化分为on-policy和off-policy两种 后者训练稳定性更好但存在分布偏差 [27][28] - 动态规划采用策略迭代和价值迭代算法求解离散任务 [30] - 蒙特卡洛方法通过统计平均估计价值函数 [32] - 时序差分算法引入常数alpha简化更新过程 衍生出SARSA和Q-learning等算法 [34][39] 深度强化学习算法 - DQN算法通过经验回放和目标网络解决连续状态表达问题 [41] - Dueling DQN将价值网络分解为Q和A的和并增加正则项 [42] - GAE算法结合蒙特卡洛和时序差分进行优势估计 [42] - 策略梯度算法使用梯度下降方式更新策略参数 [46] - Actor-Critic算法同时学习策略和价值函数 [49] - TRPO算法通过置信区间约束保证训练稳定性 [53] - PPO算法简化TRPO约束条件为clip函数 [55] - GRPO算法采用在线group样本统计平均替换value-model [57] 自动驾驶应用实践 - 预训练通过模仿学习任务初始化策略和价值网络 [58] - 策略梯度采用概率建模方法处理action输出 [59] - reward设计涵盖安全性/安心感/效率等指标 高级功能通过逆强化学习实现 [60] - 闭环训练需要多智能体博弈建模环境动态响应 [60] - 端到端强化学习需实时生成更新后的sensor内容 [61]
理想汽车高管解读Q2财报:将通过辅助驾驶的深度焕新强化产品竞争力
新浪科技· 2025-08-28 14:46
销量目标达成策略 - 通过智能辅助驾驶深度焕新强化增程车型竞争力 巩固基本盘[1] - 纯电产品线形成梯次发力格局 理想MEGA月销稳定在3000台以上 理想i8九月底目标累计交付8000至10000台 九月将发布面向年轻用户的走量主力车型i6[3] - 采用区域化营销策略 北方区域聚焦增程车型推广冬季续航优势 南方区域侧重纯电车型节能空间智能卖点[3] - 优化一二三线城市门店组合与选址 平衡商场店高获客和中心店高转化能力 形成闭环提升线下运营效率[4] - 通过繁星店轻量化模式快速覆盖四五线城市 增加门店密度挖掘下沉市场潜力[4][5] - 搭建精细化数字化营销平台 优化客群定位线索获取商机转化全链条 精准判断线上营销投入有效性[3] 自研芯片与智能驾驶进展 - 九月增程全系AD Max车型升级VLA智能辅助驾驶 参数规模达40亿 较前代端到端模型提升超10倍[2] - VLA实现行车端平顺性舒适性显著优化 泊车端远程召唤与自动泊车功能获用户高度认可[2] - 已搭建支撑强化学习的仿真环境 依托世界模型实现场景数据重建生成 推动VLA模型快速迭代保持行业领先[2] - VLA架构契合人类智能进化逻辑 获更多同行认可加入研发阵营[2] 产品与技术布局 - 增程技术作为行业引领者 以智能辅助驾驶巩固基本盘[1] - 纯电车型形成梯次发力格局 理想i8试驾反馈良好正推进产能爬坡[3] - 理想i6设计兼顾舒适运动与空间体验 精准匹配年轻用户需求[3]
具身智能之心技术交流群成立了!
具身智能之心· 2025-08-28 08:36
具身智能技术社群成立 - 行业成立具身智能之心技术交流群 重点关注视觉语言导航 视觉语言动作 遥操作 扩散策略 强化学习 仿真到现实迁移 多模态大模型 运动控制 目标导航 建图定位等技术方向[1] - 行业社群面向机构及学校研究人员开放 需通过指定联系方式备注机构名称 个人姓名及研究方向完成入群申请[2][3]
波士顿动力机器狗侧空翻炸场!穿轮滑鞋照样能翻
量子位· 2025-08-28 06:46
波士顿动力Spot机器狗技术突破 - 完成高难度动作包括侧空翻和连续三个后空翻 动作涵盖蓄力、弹跳、旋转、落地、缓冲及调整全流程 [1][3][5] - 空翻动作并非初始设计目标 工程师表示未预先设定该能力 [7] - 硬件规格:身高84cm、长110cm、宽50cm、净重32.5kg 配备12个自由度(每条腿3个)及5对立体摄像机 [22] 功能性应用场景 - 具备负重爬楼、勘测扫描及开门等实用操作能力 [10][12][14] - 核心价值体现在工业场景的实际任务执行而非娱乐表演 [16][17] - 空翻动作本质是极端测试手段 用于验证系统硬件强度、算法稳定性及子系统协同效能 [20] 技术开发方法论 - 采用仿真环境强化学习与真机测试迭代结合的训练模式 [22] - 通过高难度动作测试提升机器狗自主恢复能力 确保在滑倒或障碍环境中能独立起身 [18][19][21] - 相关技术细节参考论文《High-Performance Reinforcement Learning on Spot》 [22] 品牌历史与商业背景 - 2016年推出Spot机器狗 2018年已具备舞蹈表演能力(如《Uptown Funk》编舞) [27][28] - 2020年参与多机器人协同舞蹈表演 [31] - 2020年12月韩国现代集团收购波士顿动力80%股份 2021年6月实现全资控股 [31] 娱乐化应用与公众展示 - 空翻动作为参加《美国达人秀》表演做准备 [25] - 历史娱乐案例包括2018年"七狗观音"群组表演(配合防弹少年团音乐) [30] - 舞蹈表演长期作为技术测试的衍生应用场景 [33]
具身智能之心B端和C端培训老师招募来啦~
具身智能之心· 2025-08-28 01:20
业务模式 - 公司开展B端和C端培训业务 B端主要面向企业和高校及研究院所 C端面向学生和求职人群[1][3] - 业务内容包括制定课程大纲和制作课程材料[3] 技术方向 - 培训内容涵盖VLA VLN 遥操作 Diffusion Policy 强化学习 VLA+RL sim2real 多模态大模型 仿真 运动控制 目标导航等前沿技术领域[2] 人才要求 - 要求博士及以上学历(包含在读)[3] - 需具备2篇A会或一区以上期刊/会议发表或2年及以上工业界经验[3] 合作方式 - 通过微信平台进行业务咨询(微信号:oooops-life)[4] - 提供高于行业水平的酬金待遇[1]
斯坦福大学提出RTR框架,让机械臂助力人形机器人真机训练
具身智能之心· 2025-08-28 01:20
编辑丨机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 人形机器人的运动控制,正成为强化学习(RL)算法应用的下一个热点研究领域。当前,主流方案大多遵循 "仿真到现实"(Sim-to-Real)的范式。研究者们通过 域随机化(Domain Randomization)技术,在成千上万个具有不同物理参数的仿真环境中训练通用控制模型,期望它能凭借强大的泛化能力,直接适应动力学特性 未知的真实世界。尽管这类 "零样本迁移"(Zero-Shot Transfer)方案在多种运动任务上取得了卓越表现,但其本质目标是训练一种在任何环境下都 "能用" 的保守 策略。这种策略牺牲了机器人在特定真实环境中的性能上限,因为对于最终落地而言,真实世界的表现才是唯一重要的标准。 为了突破这一瓶颈,近期一些工作开始探索在仿真预训练后,利用少量真实数据对模型进行微调。例如,来自英伟达和 CMU 等机构的研究者提出的 ASAP [1], 通过训练一个残差网络来快速补偿仿真与 ...
打破瓶颈,让RAG学会思考:中科大、智源等发布推理检索框架BGE-Reasoner
机器之心· 2025-08-27 08:36
核心观点 - BGE-Reasoner在推理密集型信息检索领域取得突破性进展 以45.2分刷新BRIGHT基准纪录 领先第二名3.6分[2][12][14] - 该技术通过三阶段模块化框架解决复杂查询问题 显著提升RAG和AI Agent在深度研究场景的推理能力[3][8][19] - 创新性采用大模型合成数据与强化学习技术 突破训练数据稀缺和困难样本泛化的行业瓶颈[4][5][22] 技术架构 - 提出可复制的三模块框架:Rewriter实现查询理解与改写 Embedder负责向量检索 Reranker进行精排[3][19][24] - 基于Qwen系列模型微调:Rewriter采用Qwen2.5-7B-Instruct Embedder基于Qwen3-8B Reranker基于Qwen3[21][22] - 端到端工作流程:原始查询经改写后 由Embedder与BM25并行检索 最终通过Reranker输出排序[19][24] 性能表现 - 在BRIGHT基准取得45.2分 超越蚂蚁集团DIVER(41.6分)和百度ReasonRank(40.8分)等竞争对手[12][14] - 向量模型BGE-Reasoner-Embed获得32.5分 显著优于Seed1.5-Embedding(27.2分)和Qwen3-Embedding等基线[12][15] - 测试时扩展技术增强排序稳健性 强化学习提升困难样本推理能力[5][22] 数据创新 - 利用大模型合成多领域训练数据 覆盖数学与代码等推理密集型场景[4][21] - 通过教师模型生成推理路径 采用拒绝采样策略构建高质量训练样本[21] - 合成数据有效解决行业数据稀缺瓶颈 验证于BRIGHT基准的显著性能提升[4][22] 行业影响 - 推动RAG技术在复杂推理任务发展 解决AI Agent智能化的核心难题[2][8] - 模型权重与训练代码即将开源 促进检索与人工智能领域研究应用[6][25] - 由中科大 智源研究院 北邮与港理工联合研发 体现中国在AI前沿领域的创新能力[2][25]
Meta万引强化学习大佬跑路,用小扎原话作为离别寄语,扎心了
36氪· 2025-08-27 06:48
核心事件 - Meta强化学习研究员Rishabh Agarwal宣布离职 决定不加入公司新组建的超级智能实验室 选择尝试全新职业道路 [1] - 另一位在Meta工作12年的资深员工同期离职 加入竞争对手Anthropic的推理团队 [15] 人才背景 - Rishabh Agarwal为AI领域顶尖研究人员 拥有谷歌学术论文引用量10,392次 h-index指数达34 [5][6] - 曾获NeurIPS 2021杰出论文奖 论文主题为深度强化学习统计不稳定性分析 [3][11] - 职业生涯覆盖谷歌Brain、DeepMind及Meta 累计7.5年从业经验 [1][7][11] - 参与谷歌Gemini 1.5(引用2,508次)、Gemma 2(引用1,224次)等核心项目开发 [3][6][11] 技术贡献 - 在Meta期间主导推理模型后训练工作 包括使用强化学习规模化训练8B参数稠密模型 达到接近DeepSeek-R1性能水平 [13][16] - 开发训练中途引入合成数据技术 为强化学习提供热启动机制 [16] - 提出高效on-policy蒸馏方法 提升模型训练效率 [16] 行业影响 - Meta近期出现资深研究人员流失趋势 与公司招聘新人才导致的内部薪酬待遇差异有关 [17] - 人工智能领域高端人才竞争加剧 头部企业间人才流动频繁 [15][17]
打磨7年,李航新书《机器学习方法(第2版)》发布,有了强化学习,赠书20本
机器之心· 2025-08-27 03:18
机器之心报道 机器之心编辑部 每个领域的发展,都离不开几本奠定基础的经典书籍,人工智能亦是如此。 此前,李航老师的《统计学习方法》《统计学习方法(第 2 版)》可以说是机器学习宝典,很多学生、老师都将此书奉为必读书籍。 然而,随着 AI 技术的快速发展,特别是深度学习的飞跃式进展,一本仅覆盖传统机器学习的教材,已无法全面反映当前机器学习技术的全貌。 因此,李航老师在前两版的基础上,又推出了《机器学习方法》,新增深度学习内容。 而近期,AI 圈对于强化学习的关注也在迅速升温。从大模型与智能体的融合尝试,到强化学习在游戏、机器人控制、决策优化中的广泛应用,这一方向再次成为 焦点。然而,此前许多教材对此涉及较少,甚至完全缺席,导致很多人无法系统学习。 现在这个问题也解决了。 李航老师全新上线新书《机器学习方法(第 2 版)》 ,将强化学习独立成篇,系统介绍了强化学习的基本框架与代表算法,包括马尔可 夫决策过程、多臂老虎机问题、深度 Q 网络等。 全书共分为 4 篇( 或 4 册) ,对应 监督学习、无监督学习、深度学习和强化学习 4 个主要分支。 至此,《机器学习方法(第 2 版)》构建起了一个覆盖监督学习、无监督 ...