打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
【论文荐读】基于强化学习和随机制动的无人艇编队及路径跟随控制
userphoto

2023.08.30 辽宁

关注

标题:USV Formation and Path-Following Control via Deep Reinforcement Learning With Random Braking

期刊:IEEE Transactions on Neural Networks and Learning Systems, vol. 32, no. 12, pp. 5468-5478, 2021.

作者:Yujiao Zhao, Yong Ma, and Songlin Hu

单位:Wuhan University of Technology

1、主要解决问题:
水面无人艇(USV)需要执行搜索救援、军事侦察和数据收集等艰巨任务,这就要求多个欠驱动USV具备协同工作的能力,对此,轨迹跟踪是亟待解决的首要难题。USV编队轨迹跟踪的目标是既要保持特定的队形,又要USV在预设路径上航行。论文设计了一种针对欠驱动USV编队的轨迹跟踪方法,采用深度强化学习与随机制动机制(DRLRB)解决欠驱动USV编队的轨迹跟踪的问题。
2、研究方法:

论文将欠驱动USV编队问题划分成了两个子问题,第一个子问题是USV如何实现编队和保持队形的问题,第二个子问题是USV编队如何实现轨迹跟踪的问题

针对第一个子问题,论文提出了虚拟领导者机制(Virtual Leader),如图1所示,虚拟领导者位于USV编队的几何中心,通过虚拟领导者可以计算出各个USV的期望位置,让USV的实际位置与期望位置的距离(ef)趋近于零即可实现USV的编队和队形保持。

图1 USV合作示意图
论文在编队的基础上通过虚拟领导者实现轨迹跟踪,如图2所示,Pc是虚拟领导者的实际位置,Pp是虚拟领导者在预设轨迹上的投影,ed是虚拟领导者的航向误差,Pv是虚拟领导者的更新位置。让ed趋近于零即可实现USV编队的轨迹跟踪。
图2 USV编队的轨迹跟踪策略

各个USV的期望位置可以通过下式计算出:

ef和ed的计算公式如下:

论文的优化目标是:

为了实现上述目标,论文采取的模型如图3所示,多USV按照编队进行训练。在训练决策网络时,环境由USV共同探索,由于USV的初始状态不同,USV的运动状态能够更快被探索到,训练池中训练样本的重复率也会降低。各USV使用同一个决策网络,保证了USV在编队中的行为一致性。

图3 环境探索和训练数据系统
状态空间:如前文提到的,USV编队轨迹跟踪问题分为两个阶段,编队阶段和轨迹跟踪阶段,在编队阶段,需要考虑各个USV的实际位置(xcn,ycn)和艏摇角、期望的位置(xvn,yvn),运动状态(un,vn,rn),虚拟领导者的位置(xv,yv)和ef。在轨迹跟踪阶段,需要考虑虚拟领导者的航向误差ed。故状态空间如下:

动作空间:

其中,Tui表示推力,Tri表示舵角。

奖励函数:USV编队的目的是为了让USV尽快到达相应的坐标点,因此,在奖励函数的设计中应该考虑这个这一点。当USV朝着航向点航行时,USV朝向速度应该尽量大,侧向偏差速度应该尽量小,故速度奖励函数设计如下:

为了避免USV无限度地加速,导致距离期望点越来越远的问题,必须考虑距离问题,故距离奖励函数设置如下:

整体奖励函数设置如下:

为了让USV具备制动能力,论文将随机制动机制引入DDPG算法。如图4所示,为了保持算法的探索性,引入了OU噪声,再结合随即制动机制输出最后的行为。

图4 基于随机制动机制的DRLRB模型动作选择过程
在实验验证部分,采用了对比实验的方法,分别对引入制动机制的USV编队和没有引入制动机制的USV编队进行轨迹跟踪实验。实验结果如图5、图6所示。
图5 三个带制动机制的USV的编队路径

(a)编队跟踪轨迹;(b)编队中心的轨迹;(c)编队速度变化;(d)编队航向角变化

图6 三个不带制动机制的USV的编队路径
(a)编队跟踪轨迹;(b)编队中心的轨迹;(c)编队速度变化;(d)编队航向角变化

从上面两图可以看出,在添加制动机制之前,速度在0–100s和300–500s之间存在频繁波动。USV没有制动能力,导致USV只能以约1.6 m/s的低速行驶。添加制动机制后,速度曲线平滑规则,USV可以以约4 m/s的速度高速航行。可以看出,制动机制不仅可以保证USV具备制动能力,还能使USV编队保持高速稳定的航行状态。

3、结论:

论文为解决USV编队路径跟踪问题,提出了DRLRB算法。通过虚拟领导者来实现USV的编队,通过DRLRB算法来实现编队后的轨迹跟踪。将随机制动机制融入DDPG算法,让USV具备制动能力,能够更好实现编队和轨迹跟踪。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
多无人艇集群协同控制研究进展与未来趋势
【研究】无人车的避障系统介绍:障碍物的检测、轨迹预测和避障路径生成
功能讲堂 | 精确焊接的保障——电弧跟踪功能
论贝叶斯力学:关于信念的物理学
【AI-无人机】三维环境下无人机的路径生成与路径跟踪
浅析“模型跟踪控制”-两个PID控制器组成的控制算法
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服