马尔可夫决策过程 - 财报，业绩电话会，研报，新闻

马尔可夫决策过程

搜索文档

自动驾驶之心· 2025-08-28 23:32

强化学习技术范式演进 - 业界从端到端自动驾驶转向VLA和强化学习等新技术范式 [4] - 强化学习在2018年AlphaZero和2023年ChatGPT RLHF推动下获得更广泛应用潜力 [4] - 2025年初DeepSeek-R1在线推理进一步拓展强化学习使用场景 [4] 学习范式对比 - 监督式学习通过海量数据拟合输入到输出的映射函数优化目标为平均均方误差值 [5] - 模仿学习以专家动作为监督信号进行行为克隆在自动驾驶中扩展为短时序轨迹学习 [6] - 强化学习通过环境交互和任务结果反馈优化模型采用延迟满足的时序决策机制 [7] - 逆强化学习通过用户反馈学习reward-model 解决奖励函数难以定义的问题 [8] 基础理论框架 - 马尔可夫决策过程将时序任务分解为状态概率转移任务适用于自动驾驶目标生命周期管理 [10] - 动态规划通过分解最优子问题解决离散空间时序任务 [12] - 蒙特卡洛方法利用大数原理统计系统宏观特性 [13] 核心概念体系 - 策略分为确定性和随机性两种自动驾驶通常采用确定性策略 [14] - 奖励函数提供环境反馈价值回报定义为衰减因子加权和的时序期望值 [15] - 状态价值函数表示状态期望回报动作价值函数评估状态动作组合的期望回报 [16][17] - 优势函数衡量动作价值与状态价值的差异 [19] - 贝尔曼方程通过动态规划分解价值函数 [20] 算法分类体系 - 值优化方法直接最大化Q或V函数包括动态规划/蒙特卡洛/时序差分算法 [25][26] - 策略优化分为on-policy和off-policy两种后者训练稳定性更好但存在分布偏差 [27][28] - 动态规划采用策略迭代和价值迭代算法求解离散任务 [30] - 蒙特卡洛方法通过统计平均估计价值函数 [32] - 时序差分算法引入常数alpha简化更新过程衍生出SARSA和Q-learning等算法 [34][39] 深度强化学习算法 - DQN算法通过经验回放和目标网络解决连续状态表达问题 [41] - Dueling DQN将价值网络分解为Q和A的和并增加正则项 [42] - GAE算法结合蒙特卡洛和时序差分进行优势估计 [42] - 策略梯度算法使用梯度下降方式更新策略参数 [46] - Actor-Critic算法同时学习策略和价值函数 [49] - TRPO算法通过置信区间约束保证训练稳定性 [53] - PPO算法简化TRPO约束条件为clip函数 [55] - GRPO算法采用在线group样本统计平均替换value-model [57] 自动驾驶应用实践 - 预训练通过模仿学习任务初始化策略和价值网络 [58] - 策略梯度采用概率建模方法处理action输出 [59] - reward设计涵盖安全性/安心感/效率等指标高级功能通过逆强化学习实现 [60] - 闭环训练需要多智能体博弈建模环境动态响应 [60] - 端到端强化学习需实时生成更新后的sensor内容 [61]

自动驾驶之心· 2025-08-08 16:04

自动驾驶规划技术演进 - 模块化系统中机器学习主要影响感知部分，下游规划组件变革较慢[3] - 传统系统易于解释和快速调整，但机器学习可扩展性更强[4] - 学术界和工业界推动下游模块数据驱动化，通过可微接口实现联合训练[4] - 生成式AI和多模态大模型在处理复杂机器人任务方面展现潜力[4] 规划系统核心概念 - 规划系统需生成安全、舒适、高效的行驶轨迹[11] - 输入包括静态道路结构、动态参与者、占用空间等感知数据[11] - 输出为路径点序列，典型为8秒视野内每0.4秒一个点共20个点[11] - 分为全局路径规划、行为规划和轨迹规划三个层级[12] 规划技术方法 - 搜索、采样和优化是规划三大核心工具[24] - 混合A*算法通过考虑车辆运动学改进A*算法[28] - 采样方法通过参数空间采样解决优化问题[37] - 优化分为凸优化和非凸优化，后者依赖初始解[41] 工业实践 - 路径-速度解耦方法解决约95%问题，耦合方案性能更高但实现复杂[52] - 百度Apollo EM规划器采用迭代期望最大化步骤降低计算复杂度[56] - 时空联合规划处理剩余5%复杂动态交互场景[59] - 特斯拉采用数据驱动与物理检查结合的混合系统[117] 决策系统 - 决策本质是注重交互的行为规划，处理不确定性和交互问题[68] - MDP和POMDP框架将重点从几何转向概率[69] - MPDM通过有限离散语义级策略集合简化POMDP问题[102] - 应急规划生成多条潜在轨迹应对不同未来情景[112] 神经网络应用 - 神经网络可增强规划器实时性能，实现数量级加速[130] - 端到端神经网络规划器将预测、决策和规划结合成单一网络[133] - 世界模型最终形式可能是由MCTS增强的原生多模态大模型[138] - 神经网络从树结构中提取知识，形成正反馈循环[142] 发展趋势 - 规划架构趋向"端到端"，更多模块被整合到单一系统[151] - 机器学习组件在规划中应用比例持续增加[151] - 算法从理论完美向工程实用演进，如Value Iteration到MCTS[153] - 确定性场景规划成熟，随机性场景决策仍是挑战[153]

任务级奖励提升App Agent思考力，淘天提出Mobile-R1，3B模型可超32B

量子位· 2025-07-20 02:49

移动代理技术研究 - 现有Mobile/APP Agent主要依赖动作级奖励（SFT或RL），难以适应动态移动环境[1][2] - 示例任务中Qwen2 5-VL-3B-Instruct在第二步失败，显示传统方法的局限性[3] - 淘天集团团队提出Mobile-R1框架，整合任务级奖励和交互式强化学习[4][5] 训练方法与数据集 - 采用三阶段训练流程：格式微调（SFT）、动作级训练（GRPO）、任务级训练[6][13] - 构建包含4 635条人工标注轨迹的数据集，覆盖28个中国移动应用[9][10][12] - 轨迹数据标注包含逻辑思考修正、清晰动作描述、准确调用修正三个维度[14] 奖励机制设计 - 动作级奖励包含坐标动作验证（边界框匹配）和非坐标动作完全匹配[23] - 任务级奖励引入GPT-4o评估轨迹一致性，格式奖励强化输出结构[-1 1]范围惩罚[24] - 阶段3通过马尔可夫决策过程实现多回合互动，增强探索能力[19][20] 实验结果 - Mobile-R1任务成功率49 4%，较最佳基线（AgentCPM-8B的30%）提升19 4个百分点[25][26] - 三阶段训练使Qwen2 5-VL-3B性能超越原版，动作级训练后准确率达82 84%[25][27] - 阶段3训练曲线显示策略优化效果，最终实现53 6%的尾部任务成功率[25][29] 技术突破与影响 - 首次在移动代理领域实现任务级奖励与在线纠错结合[30][31] - 开源训练框架ROLL和高质量中文轨迹数据集促进行业研究[21][33] - 方法显著提升VLM模型在动态环境中的鲁棒性，泛化能力优于基准模型[29][32]

港科大 | LiDAR端到端四足机器人全向避障系统 (宇树G1/Go2+PPO)

具身智能之心· 2025-06-29 09:51

核心观点 - 香港科技大学团队提出Omni-Perception框架，通过直接处理原始LiDAR点云数据，实现四足机器人全向避障能力，解决了传统方法在复杂三维环境中的局限性 [2][4] - 该框架结合PD-RiskNet感知网络、高保真LiDAR仿真工具和风险感知强化学习策略，形成端到端的闭环控制系统 [4][5] - 在动态障碍、空中障碍等复杂场景中表现优于传统方法，成功率显著提升 [24][27] 技术架构 Omni-Perception框架组成 - **PD-RiskNet感知网络**：分层处理近场和远场点云，近场采用最远点采样（FPS）和GRU提取局部动态特征，远场通过平均下采样和GRU捕捉全局路径特征 [8][18] - **高保真LiDAR仿真工具**：支持4096个并行环境，渲染速度比Isaac Sim提升300%，并模拟噪声和自遮挡效应 [19][21] - **风险感知强化学习策略**：将避障任务建模为马尔可夫决策过程，直接输出关节控制信号，跳过运动学逆解 [9][11] 强化学习设计 - **状态空间**：包含本体状态（关节位置、速度）、外感知状态（10帧LiDAR历史点云）和任务指令（目标速度） [10] - **奖励函数**：结合避障速度追踪奖励（36个扇区障碍检测）和距离最大化奖励（LiDAR射线优化），辅以稳定性惩罚项 [12][13][14] - **训练参数**：PPO算法，4096个并行环境，学习率1e-3，折扣因子γ=0.99 [19] 性能优势计算效率 - 相比传统SLAM+规划流水线，减少中间处理环节，计算开销更低 [7] - LiDAR仿真工具在4096环境、32k射线场景下无内存溢出，速度达Isaac Sim的5-10倍 [21][22] 场景适应性 - **动态障碍**：成功率76.7%，碰撞率56.7%，显著优于FPS+MLP（33.3%）和FPS+GRU（30.0%） [23][24] - **空中障碍**：成功率70%（传统方法0%），静态障碍成功率100% [27] - **极端场景**：密集植被中成功率60%，细长障碍（直径<1cm）需进一步优化 [28] 实现细节 PD-RiskNet网络 - **近场路径**：输入垂直角度θ>阈值的点云，输出187维特征向量，监督信号为特权高度信息 [18] - **远场路径**：输入θ<阈值的点云，输出64维特征向量，关注全局路径规划 [18] - **动作网络**：4层全连接（1024→512→256→128），输出12维关节目标位置 [19] 域随机化策略 - **物理参数**：附加质量-1.0kg至5.0kg，质心位置偏移±0.2m，电机强度缩放0.8-1.2倍 [20] - **环境参数**：地面摩擦系数0.4-1.0，重力偏移±1.0m/s²，LiDAR噪声率10% [20] 验证结果 - **真实数据对比**：仿真复现了LiDAR非重复扫描模式和自遮挡效应，几何结构匹配度高 [21] - **多场景测试**：在动态障碍场景中，传统高程图方法成功率0%，而Omni-Perception有效应对 [24][27]