【论文荐读】基于强化学习和随机制动的无人艇编队及路径跟随控制

标题：USV Formation and Path-Following Control via Deep Reinforcement Learning With Random Braking

期刊：IEEE Transactions on Neural Networks and Learning Systems, vol. 32, no. 12, pp. 5468-5478, 2021.

作者：Yujiao Zhao, Yong Ma, and Songlin Hu

单位：Wuhan University of Technology

1、主要解决问题：

水面无人艇(USV)需要执行搜索救援、军事侦察和数据收集等艰巨任务，这就要求多个欠驱动USV具备协同工作的能力，对此，轨迹跟踪是亟待解决的首要难题。USV编队轨迹跟踪的目标是既要保持特定的队形，又要USV在预设路径上航行。论文设计了一种针对欠驱动USV编队的轨迹跟踪方法，采用深度强化学习与随机制动机制（DRLRB）解决欠驱动USV编队的轨迹跟踪的问题。

2、研究方法：

论文将欠驱动USV编队问题划分成了两个子问题，第一个子问题是USV如何实现编队和保持队形的问题，第二个子问题是USV编队如何实现轨迹跟踪的问题。

针对第一个子问题，论文提出了虚拟领导者机制（Virtual Leader），如图1所示，虚拟领导者位于USV编队的几何中心，通过虚拟领导者可以计算出各个USV的期望位置，让USV的实际位置与期望位置的距离（ef）趋近于零即可实现USV的编队和队形保持。

图1 USV合作示意图

论文在编队的基础上通过虚拟领导者实现轨迹跟踪，如图2所示，Pc是虚拟领导者的实际位置，Pp是虚拟领导者在预设轨迹上的投影，ed是虚拟领导者的航向误差，Pv是虚拟领导者的更新位置。让ed趋近于零即可实现USV编队的轨迹跟踪。

图2 USV编队的轨迹跟踪策略

各个USV的期望位置可以通过下式计算出：

ef和ed的计算公式如下：

论文的优化目标是：

为了实现上述目标，论文采取的模型如图3所示，多USV按照编队进行训练。在训练决策网络时，环境由USV共同探索，由于USV的初始状态不同，USV的运动状态能够更快被探索到，训练池中训练样本的重复率也会降低。各USV使用同一个决策网络，保证了USV在编队中的行为一致性。

图3 环境探索和训练数据系统

状态空间：如前文提到的，USV编队轨迹跟踪问题分为两个阶段，编队阶段和轨迹跟踪阶段，在编队阶段，需要考虑各个USV的实际位置(xcn,ycn)和艏摇角、期望的位置(xvn,yvn)，运动状态(un,vn,rn),虚拟领导者的位置(xv,yv)和ef。在轨迹跟踪阶段，需要考虑虚拟领导者的航向误差ed。故状态空间如下：

动作空间：

其中，Tui表示推力，Tri表示舵角。

奖励函数：USV编队的目的是为了让USV尽快到达相应的坐标点，因此，在奖励函数的设计中应该考虑这个这一点。当USV朝着航向点航行时，USV朝向速度应该尽量大，侧向偏差速度应该尽量小，故速度奖励函数设计如下：

为了避免USV无限度地加速，导致距离期望点越来越远的问题，必须考虑距离问题，故距离奖励函数设置如下：

整体奖励函数设置如下：

为了让USV具备制动能力，论文将随机制动机制引入DDPG算法。如图4所示，为了保持算法的探索性，引入了OU噪声，再结合随即制动机制输出最后的行为。

图4 基于随机制动机制的DRLRB模型动作选择过程

在实验验证部分，采用了对比实验的方法，分别对引入制动机制的USV编队和没有引入制动机制的USV编队进行轨迹跟踪实验。实验结果如图5、图6所示。

图5 三个带制动机制的USV的编队路径

(a)编队跟踪轨迹；(b)编队中心的轨迹；(c)编队速度变化；(d)编队航向角变化

图6 三个不带制动机制的USV的编队路径

(a)编队跟踪轨迹；(b)编队中心的轨迹；(c)编队速度变化；(d)编队航向角变化

从上面两图可以看出，在添加制动机制之前，速度在0–100s和300–500s之间存在频繁波动。USV没有制动能力，导致USV只能以约1.6 m/s的低速行驶。添加制动机制后，速度曲线平滑规则，USV可以以约4 m/s的速度高速航行。可以看出，制动机制不仅可以保证USV具备制动能力，还能使USV编队保持高速稳定的航行状态。

3、结论：

论文为解决USV编队路径跟踪问题，提出了DRLRB算法。通过虚拟领导者来实现USV的编队，通过DRLRB算法来实现编队后的轨迹跟踪。将随机制动机制融入DDPG算法，让USV具备制动能力，能够更好实现编队和轨迹跟踪。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。