常微分方程神经网络

搜索文档
ICLR 2025 | SmODE:用于生成平滑控制动作的常微分方程神经网络
自动驾驶之心· 2025-09-01 23:32
研究背景与核心问题 - 深度强化学习已成为解决物理世界最优控制问题的有效方法,在无人机控制和自动驾驶控制等任务中取得显著成果[5] - 控制动作平滑性是深度强化学习技术面临的重要挑战,主要源于输入状态中的高频噪声干扰和神经网络Lipschitz常数缺乏约束[5] - 课题组此前在ICML2023提出的LipsNet从约束神经网络Lipschitz常数角度实现控制平滑,而本研究同时解决导致动作不平滑的两个根本原因[5] 技术创新与解决方案 - 提出使用常微分方程(ODE)的平滑神经元结构替代传统线性激活神经元,构建平滑神经网络(SmODE)作为强化学习策略网络[4][7] - 设计具有低通特性的常微分神经元,通过可学习的状态依赖系统时间常数实现高频噪声动态滤除[7][8] - 构建状态依赖映射函数g,从理论上证明该函数能有效控制常微分神经元的Lipschitz常数[9][10] - 采用仿生建模方式给出平滑常微分神经元具体表达式:$$\frac{\mathrm{d}x_{i}}{\mathrm{d}t}=\sum_{j}\left[-{\frac{w_{i j}}{C_{\mathrm{m}_{i}}}}\sigma_{i}\left(x_{j}\right)x_{i}+{\frac{w_{i j}}{C_{\mathrm{m}_{i}}}}\sigma_{i}\left(x_{j}\right)\cdot\operatorname{tanh}(h\left(x_{j},\theta\right))\right]+x_{\mathrm{leak}_{i}}$$[11] 网络架构设计 - SmODE网络结构包含输入模块(多层感知器MLP)、平滑常微分模块和输出模块(线性变换层+谱归一化)[14] - 平滑ODE模块由三层组成,每层神经元数量可根据任务复杂度灵活选择[14] - 作为通用策略网络可与各类经典深度强化学习算法结合,本工作与DSAC算法相结合[16] - 策略损失函数在基本策略损失基础上添加限制时间常数和Lipschitz常数的损失项:$$\operatorname*{min}{\mathcal{L}}_{\pi}^{\prime}(\theta)={\mathcal{L}}_{\pi}(\theta)+\lambda_{1}\mathbb{E}_{s\sim{\mathcal{R}}}\left[\sum_{i=0}^{N}f(\cdot)\right]+\lambda_{2}\mathbb{E}_{s\sim{\mathcal{R}}}\left[\sum_{i=0}^{N}h^{2}(\cdot)\right]$$[16][17] 实验验证结果 - 在高斯噪声方差0.05条件下,SmODE在正弦曲线和双车道变换曲线跟踪任务中比MLP表现出更低动作波动率和更小横向速度变化[19] - 在MuJoCo基准测试中采用DSAC算法,策略网络配置为MLP、LipsNet、LTC和SmODE进行对比[21] - 在八项MuJoCo任务中设置两种高斯噪声水平(level 1:0.005-0.150,level 2:0.015-0.250)[21] - SmODE在大多数任务中表现最佳:InvertedDoublePendulum-v3获得9357±2分(动作波动0.15),Reacher-v2获得-5.67±1分(波动0.22)[22] - Humanoid-v3任务中SmODE获得10819±81分(波动0.45),显著优于LTC的10626±128分(波动0.60)和MLP的10892±342分(波动0.62)[22] - Walker2d-v3任务中SmODE获得6039±112分(波动0.73),而LTC为5861±482分(波动1.10),MLP为5663±508分(波动1.21)[22] 技术优势与应用前景 - SmODE网络将常微分方程作为神经元核心组件,实现自适应低通滤波和Lipschitz常数有效控制[23] - 该方法在训练过程中无需引入动作变化惩罚项,推理过程中无需附加滤波处理[7] - 能够有效抑制动作输出震荡问题,显著提升各种强化学习任务中的平均回报[23] - 为现实世界中的强化学习应用提供新思路,特别是在自动驾驶和工业机器人等具身智能模型领域具有应用潜力[1][4]