标题:USV Formation and Path-Following Control
via Deep Reinforcement Learning With Random Braking
期刊:IEEE Transactions on Neural Networks and
Learning Systems, vol. 32, no. 12, pp. 5468-5478, 2021.
作者:Yujiao Zhao, Yong Ma, and Songlin Hu
单位:Wuhan University of Technology
论文将欠驱动USV编队问题划分成了两个子问题,第一个子问题是USV如何实现编队和保持队形的问题,第二个子问题是USV编队如何实现轨迹跟踪的问题。
针对第一个子问题,论文提出了虚拟领导者机制(Virtual Leader),如图1所示,虚拟领导者位于USV编队的几何中心,通过虚拟领导者可以计算出各个USV的期望位置,让USV的实际位置与期望位置的距离(ef)趋近于零即可实现USV的编队和队形保持。
各个USV的期望位置可以通过下式计算出:
ef和ed的计算公式如下:
论文的优化目标是:
为了实现上述目标,论文采取的模型如图3所示,多USV按照编队进行训练。在训练决策网络时,环境由USV共同探索,由于USV的初始状态不同,USV的运动状态能够更快被探索到,训练池中训练样本的重复率也会降低。各USV使用同一个决策网络,保证了USV在编队中的行为一致性。
动作空间:
其中,Tui表示推力,Tri表示舵角。
奖励函数:USV编队的目的是为了让USV尽快到达相应的坐标点,因此,在奖励函数的设计中应该考虑这个这一点。当USV朝着航向点航行时,USV朝向速度应该尽量大,侧向偏差速度应该尽量小,故速度奖励函数设计如下:
整体奖励函数设置如下:
为了让USV具备制动能力,论文将随机制动机制引入DDPG算法。如图4所示,为了保持算法的探索性,引入了OU噪声,再结合随即制动机制输出最后的行为。
(a)编队跟踪轨迹;(b)编队中心的轨迹;(c)编队速度变化;(d)编队航向角变化
从上面两图可以看出,在添加制动机制之前,速度在0–100s和300–500s之间存在频繁波动。USV没有制动能力,导致USV只能以约1.6 m/s的低速行驶。添加制动机制后,速度曲线平滑规则,USV可以以约4 m/s的速度高速航行。可以看出,制动机制不仅可以保证USV具备制动能力,还能使USV编队保持高速稳定的航行状态。
3、结论:
论文为解决USV编队路径跟踪问题,提出了DRLRB算法。通过虚拟领导者来实现USV的编队,通过DRLRB算法来实现编队后的轨迹跟踪。将随机制动机制融入DDPG算法,让USV具备制动能力,能够更好实现编队和轨迹跟踪。
联系客服