常微分方程神经网络 - 财报，业绩电话会，研报，新闻

常微分方程神经网络

搜索文档

ICLR 2025 | SmODE：用于生成平滑控制动作的常微分方程神经网络

自动驾驶之心· 2025-09-01 23:32

研究背景与核心问题 - 深度强化学习已成为解决物理世界最优控制问题的有效方法，在无人机控制和自动驾驶控制等任务中取得显著成果[5] - 控制动作平滑性是深度强化学习技术面临的重要挑战，主要源于输入状态中的高频噪声干扰和神经网络Lipschitz常数缺乏约束[5] - 课题组此前在ICML2023提出的LipsNet从约束神经网络Lipschitz常数角度实现控制平滑，而本研究同时解决导致动作不平滑的两个根本原因[5] 技术创新与解决方案 - 提出使用常微分方程（ODE）的平滑神经元结构替代传统线性激活神经元，构建平滑神经网络（SmODE）作为强化学习策略网络[4][7] - 设计具有低通特性的常微分神经元，通过可学习的状态依赖系统时间常数实现高频噪声动态滤除[7][8] - 构建状态依赖映射函数g，从理论上证明该函数能有效控制常微分神经元的Lipschitz常数[9][10] - 采用仿生建模方式给出平滑常微分神经元具体表达式：$$\frac{\mathrm{d}x_{i}}{\mathrm{d}t}=\sum_{j}\left[-{\frac{w_{i j}}{C_{\mathrm{m}_{i}}}}\sigma_{i}\left(x_{j}\right)x_{i}+{\frac{w_{i j}}{C_{\mathrm{m}_{i}}}}\sigma_{i}\left(x_{j}\right)\cdot\operatorname{tanh}(h\left(x_{j},\theta\right))\right]+x_{\mathrm{leak}_{i}}$$[11] 网络架构设计 - SmODE网络结构包含输入模块（多层感知器MLP）、平滑常微分模块和输出模块（线性变换层+谱归一化）[14] - 平滑ODE模块由三层组成，每层神经元数量可根据任务复杂度灵活选择[14] - 作为通用策略网络可与各类经典深度强化学习算法结合，本工作与DSAC算法相结合[16] - 策略损失函数在基本策略损失基础上添加限制时间常数和Lipschitz常数的损失项：$$\operatorname*{min}{\mathcal{L}}_{\pi}^{\prime}(\theta)={\mathcal{L}}_{\pi}(\theta)+\lambda_{1}\mathbb{E}_{s\sim{\mathcal{R}}}\left[\sum_{i=0}^{N}f(\cdot)\right]+\lambda_{2}\mathbb{E}_{s\sim{\mathcal{R}}}\left[\sum_{i=0}^{N}h^{2}(\cdot)\right]$$[16][17] 实验验证结果 - 在高斯噪声方差0.05条件下，SmODE在正弦曲线和双车道变换曲线跟踪任务中比MLP表现出更低动作波动率和更小横向速度变化[19] - 在MuJoCo基准测试中采用DSAC算法，策略网络配置为MLP、LipsNet、LTC和SmODE进行对比[21] - 在八项MuJoCo任务中设置两种高斯噪声水平（level 1：0.005-0.150，level 2：0.015-0.250）[21] - SmODE在大多数任务中表现最佳：InvertedDoublePendulum-v3获得9357±2分（动作波动0.15），Reacher-v2获得-5.67±1分（波动0.22）[22] - Humanoid-v3任务中SmODE获得10819±81分（波动0.45），显著优于LTC的10626±128分（波动0.60）和MLP的10892±342分（波动0.62）[22] - Walker2d-v3任务中SmODE获得6039±112分（波动0.73），而LTC为5861±482分（波动1.10），MLP为5663±508分（波动1.21）[22] 技术优势与应用前景 - SmODE网络将常微分方程作为神经元核心组件，实现自适应低通滤波和Lipschitz常数有效控制[23] - 该方法在训练过程中无需引入动作变化惩罚项，推理过程中无需附加滤波处理[7] - 能够有效抑制动作输出震荡问题，显著提升各种强化学习任务中的平均回报[23] - 为现实世界中的强化学习应用提供新思路，特别是在自动驾驶和工业机器人等具身智能模型领域具有应用潜力[1][4]

深度强化学习

常微分方程神经网络

人工智能

SmODE（Smooth Ordinary Differential Equations）

深度强化学习

常微分方程神经网络

人工智能

SmODE（Smooth Ordinary Differential Equations）