编者按：由于行人运动的固有的不确定性以及行人之间复杂的交互关系，使得行人的轨迹非常具有挑战性。本文利用运动相干性聚类运动趋势相似的轨迹，对行人进行分组。然后，采用改进的Social-LSTM进行未来路径预测。在UCY数据集和ETH数据集上证明所提出方法的有效性和适用性。

摘要：在未来，随着高度自动化车辆的出现，驾驶员辅助系统的使用将变得更加普遍。最初，驾驶辅助系统仅仅辅助驾驶员进行驾驶，但必定会逐渐接管整个车辆的控制。在这一过程中，车辆必须自己规划行驶轨迹并安全的地跟踪该轨迹，同时保证乘客的舒适。为了开发出合适的轨迹追踪控制器，必须首先在模拟环境中进行仿真，然后进行实车的测试。在之前的一篇论文中，作者使用了不同的路径跟踪控制器，并先后进行了仿真与实车测试。在仿真环境中，使用了描述车辆横向动力学特性的单轨模型。仿真和实车测试的结果显示出了一定的差异。本文旨在找出在转向系统的动态特性中出现差异的原因，包括轮胎的影响。在此基础上，我们调整了车型，并进行了测量以识别转向系统和轮胎的动力学。在分析测量结果后，建立了描述转向系统的动力学模型，在此基础上扩展了车辆模型。最后，使用改进后的车辆模型进行了仿真，并与实车试验结果进行了对比，结果表明模型改进后更加贴近实车试验的结果。

ー 1 ー

介绍

人群分析是计算机视觉领域的一个研究热点，在视觉监控领域有着广泛的应用。人群分析面临的主要挑战包括:人群动力学建模[43,5];人群分割[4];人群活动分类[33];异常行为检测[16,25];密度估计[30];和群体行为预期[2]。

其中，群体行为预测是一个新兴的课题，由于机器学习的迅速发展，特别是将深度学习技术应用于时间序列分析(如RNN [34],GRU[9], LSTM [18], and VAE [22]).)，引起了人们的广泛关注。

与人群行为识别不同，预测任务有其独特的特点，一般是通过观察目标在场景中移动的运动历史来实现的。在某些特定的应用中(例如:提前预警，异常事件检测，避碰避免)，预测比活动识别意义更大，因为危险行为需要提前预警。传统方法只能进行一步预测(如卡尔曼滤波、粒子滤波、马尔科夫链);得益于深度学习，长期预测正逐渐变得适用。

一开始，研究人员只是专注于预测单个目标未来的轨迹。相应的模型高度依赖于行人的精确运动历史，因此在非常密集的环境中通常是难以处理的，因为在频繁的相互遮挡情况下，目标跟踪算法不稳定。

然而，连续和精确的基于框架的跟踪可能不是必需的。事实上，在大多数情况下，人们更关注整个场景的动态。人们聚集在一起，共同行动，就会产生和表现出宏观的显著特征，而这些特征是值得观察的。这种粗糙层次的信息通常映射人口密集和稀少的地区，包括方向和流动特征，以及最终目的地。因此，在这种情况下，关注团体活动比关注个人活动更有意义。众所周知，在人群中移动的人通常倾向于遵循一系列隐含的社会规则[28]。例如，当一辆车或另一群人靠近时，为了避免碰撞，个人倾向于加快或放慢步伐;人们喜欢保留个人空间，因此与邻居保持一定的距离;行人往往会跟随前面的人，尤其是在拥挤的情况下，以防止碰撞。

关注群体的运动，朋友/夫妻/家人倾向于按照连贯的动作模式移动是很常见的。基于这一假设，我们提出了一种新的方法来预测群体层次上的未来轨迹，以便从整体的角度进一步分析拥挤场景。首先，利用运动相干性，对具有相似运动趋势的轨迹进行聚类;这样，同一组内的行人可以被分类。最后，提出了一种改进的Social- lstm算法来预测未来的路径。

这份工作主要的贡献总结如下：

我们提出了一种新的群体行为预测框架;

我们利用一种改进的相干滤波来提高轨迹聚类性能;

我们提出了一种基于群体动态的行人长期预测策略。

论文的其余部分组织如下:第2节简要回顾了人群分析领域的相关工作。第3节描述了所提出的简化分组LSTM框架，包括轨迹聚类和分组路径预测的步骤。实验结果见第4节。第5节为结论和今后的工作。

ー 2 ー

相关研究

在最近的一些研究中可以找到关于人群分析的详细文献[24][13][20]，特别是关于人群动态建模、社会活动预测和群体分割等主题。在下一段中，我们将集中讨论两个具体的次主题，即群体分析和预测。

2.1 人群中的群体分析

在早期的方法中，轨迹被用来代表人群的低水平运动特征。通过将具有相似运动趋势的轨迹聚类，可以将行人聚成不同的群体。在[42]中，利用传统的k-means算法学习场景中不同的运动模式。在[21]中，利用支持向量聚类对行人进行分组。在[44]中，提出相干滤波来检测在拥挤的[40]环境中的相干运动模式。

就集体活动的表现而言，Ge等人[12]致力于对一起运动的小团体的自动检测。Ryoo等人[31]引入了群体活动的概率表示，以识别不同类型的高级群体行为。Yi等人[41]研究了静止人群组与行人之间的相互作用，分析了行人的行为，包括行走路径预测、目的地预测、个性分类、异常事件检测等。Shao等人[32]提出了一系列与场景无关的描述符来定量描述群体属性，如集体性、稳定性、一致性和冲突。Bagautdinov[7]等人提出了一个统一的端到端框架，用于使用深度递归网络进行多人动作定位和集体活动识别。

2.2 社会活动预测

预测社会活动最近得到了相当多的关注，特别是在人群分析方面。该研究领域较为丰富，涉及轨迹预测、交互建模和情境建模。在社会活动分析的前沿研究中，Helbing等人[17]引入了著名的社会力模型(socialForce Model, SFM)，该模型能够描述人类之间的社会互动[23,27]。其他模型，如连续人群模型[36]和交互避碰[37]，能够利用先验再现人类交互。在[3]中，社会亲和力地图(SAM)特征和起点终点先验被提出，利用多视点监控摄像头预测行人目的地。Robicquet等人[29]引入了一个大型数据集，该数据集使用航拍相机包含各种类型的目标(行人、骑自行车的人、滑板者、汽车、公共汽车和高尔夫球车)，以评估真实户外环境中的轨迹预测性能。[1][26]中还考虑了上下文信息，对场景的静态环境和动态演化进行建模。

最近，神经网络被用于预测拥挤视频中的事件。特别是随着深度生成模型(如RNN、LSTM、VAE)的出现，可以很好地解决序列-序列生成问题，使直接处理长期预测任务成为可能。Alahi等人[2]提出了所谓的Social- lstm，通过增加新的社交池层来模拟邻里间的互动;Lee等人在[22]中提出了一种深度随机IOC RNN编解码器框架，用于预测动态场景中多个交互agent未来的路径。Ballan等人[8]考虑了移动目标的动力学和场景语义来预测场景特定的运动模式。

社会活动往往不仅受运动动力学的支配，还受人的因素的驱动。Jain等人的[19]采用了一种结合时空图和递归神经网络的结构RNN来模拟场景中的运动和交互。Fernando等人[38]将软注意和硬注意同时应用于社会LSTM，显著提高了轨迹预测性能。Varshneya等人提出了一种软注意机制来预测个体的路径，该机制利用了空间感知的深度注意力模型。Vemula等人提出了一种新的社会注意力模型，该模型可以捕捉到每个人在场景中运动时的相对重要性。

ー 3 ー

Group LSTM

拥挤场景中行人的运动受到周围人的行为及其相互关系的影响。静止的人群，一起行走的人群，来自相反方向的人，会对一个行人的行为产生不同的影响。因此，在预测一个人在人群中的行为时，有必要考虑周围的人。

为了实现这一目标，我们提出了一个框架，该框架能够考虑所关注的对象是否与周围的行人连贯地行走。利用相干滤波方法[44]，首先检测人群中运动的相干性，然后利用社会LSTM预测未来的运动轨迹。通过这种方式，我们能够提高预测性能，在场景中考虑社会相关和不相关行人之间的交互作用。

3.1 行人轨迹聚类

相干运动描述了行人在群体中的集体运动。相干滤波研究的是相干运动的行人的局部时空关系。该算法基于两个步骤。首先，它检测场景中行人的连贯运动。然后，连贯移动的点与相同的集群相关联。点集群将继续进化，随着时间的推移，新的集群将出现。最后，每个行人i被分配到一个集群si。相干滤波的输出是由以相干方式运动的人的集合si(i = 1,2，···，n)组成。如果行人不移动或不属于任何相干群，则视为属于自己的集合。

相干滤波最初依赖于KLT tracker[35]，目标是检测候选点进行跟踪并生成轨迹，然后作为算法的输入。KLT跟踪器可能会检测到每个行人的许多关键点，因此关键点的数量和行人的数量之间没有明显的对应关系。我们的目标是将行人分组，每组中的每个个体用一个点表示，如图1所示。为此，在不失一般性的前提下，我们将相干滤波算法直接应用于行人轨迹的地面真值。

图1 每个行人由一个关键点表示。同一方向的行人聚集成一组si。在本例中，识别了两组方向相反的行人。

3.2 群体轨迹预测

我们扩展了Alahi等人的工作，他们通过引入一个所谓的社会汇聚层来模拟附近行人的关系。在社交LSTM模型中，行人使用LSTM网络建模，如图2所示。此外，每个行人都通过一个社交汇聚层与周围的其他人联系在一起。社交汇聚层允许行人分享他们的隐藏状态，从而使每个网络根据个人的隐藏状态和邻居的隐藏状态来预测个人未来的位置。

图2 LSTM网络在t和t 1两个连续时间步长的结构。在每个时间步长，LSTM单元的输入是前一个位置(xi t1,yi t1)和社交张量Hi t。LSTM单元的输出是当前位置(xi t, yi t)。

在LSTM网络中，场景中时刻t的第i个行人用隐藏状态hi t表示。我们分别将隐藏状态维数设为D和邻域大小设为N0。第i个行人的邻域用一个张量Hi t来描述，就像在公式1中一样，维数为N0X N0 X D。

其中1mn[x,y]是一个选择附近行人的指标函数，具体定义如公式2。

如果两个行人i和j属于相同的相干运动集si，那么在为每个行人计算社会池层时就不会考虑它们。

这样，每个行人的社交汇聚层只包含关于行人的信息，这些信息与行人的移动不一致。一旦计算出来，社会隐藏状态张量被嵌入到一个向量ai t中。输出坐标被嵌入到向量ei t中。根据[2]中定义的递归式，我们可以逐步地预测我们的轨迹。

ー 4 ー

结果

4.1 实施细节

首先，我们需要配置相干滤波来聚集行人。为达此目的，根据原来的实现我们使用K = 10 , d = 1 并且λ= 0.2。

对于我们的LSTM网络，我们采用以下配置。空间坐标的嵌入维数设置为64。空间池大小设置为32，对应面积为4×4 m2。池操作是使用大小为8×8且没有重叠的池窗口来执行的。隐藏层的维度设置为128。学习速率被设置为0.003，使用了RMS-prop优化器。模型基于pytorch实现，用单个GPU进行训练。

图3 社会隐藏状态张量

4.2 定量结果

我们的实验是在两个公开可用的数据集上进行的，这两个数据集通常用作拥挤人群场景的标准基准，即UCY数据集[23]和ETH数据集[27]。

这两个数据集呈现了一个相当大的现实世界的轨迹集，涵盖了各种复杂的人群行为，这对我们的研究来说是特别有趣的。

与其他研究工作一样[27,2]，我们使用以下两个指标来评估我们的结果:

平均位移误差(ADE)，即预测路径各点相对于地面真值路径的平均位移误差(以米为单位)。

最终位移误差(FDE)，即预测轨迹末点到地面真实轨迹末点的距离(以米为单位)。

在我们的实验中，我们采用了与[2]相同的评估程序。该模型经过了训练和验证。我们对4个视频进行训练，对剩下的视频进行测试，得到预测结果。对于训练和验证，我们使用0.4秒的时间间隔观察和预测轨迹。我们观察8个时间步的轨迹并预测接下来的12个时间步，这意味着我们观察tobs = 3.2秒的轨迹并预测下一个tpred = 4.8秒。在训练阶段，只考虑在场景中出现至少8秒的轨迹。

我们将我们的方法与社会LSTM模型[2]及其最新的变体[14]进行了比较。我们还将我们的模型与[2]在线性加速度的假设下使用卡尔曼滤波进行预测的线性模型进行了比较。结果如表1所示。

我们的方法的平均性能优于或等于其他方法，特别是在UCY数据集上。这是由于场景中人群流动的特点，通常是由朝相反方向行走的容易识别的群体组成。然而，对于ETH数据集，运动模式更加多样和混乱。

结果表明，在考虑行人运动不连贯的情况下，预测性能可以得到提高。我们认为运动的变化和轨迹的演变主要受相对于被预测行人向不同的方向运动的行人的影响。相反，人们走在一起时，彼此之间的影响较弱，因为他们在一个群体中。

表1 分别在UCY和ETH数据集上使用我们的Group- lstm和上述基线方法的定量结果。

4.3 定性结果

在第4.2节中，我们已经证明只考虑行人不连贯的移动可以提高预测精度。在本节中，我们将进一步评估预测轨迹的一致性。

通常，基于lstm的轨迹预测方法遵循数据驱动方法。此外，人群中行人的未来轨迹很大程度上受到他们的目标、环境和过去的运动历史的影响。将正确的数据汇聚到社会层可以显著提高预测性能。

为了保证可靠的预测，我们不仅需要考虑时空关系，还需要保持行为的社会性。根据人际距离的研究[15,10]，社会相关的人倾向于在他们的个人空间里靠得更近，在拥挤的环境中一起行走，而不是和陌生的人一起行走。

只汇集不相关的行人将更关注宏观的组间交互，而不是组内动态，从而允许LSTM网络提高轨迹预测性能。如果两个行人像一群人一样走在一起，那么避免碰撞也会以类似的方式影响行人未来的运动。

在表2,表3和图4中,我们展示了一些突出我们的Group-LSTM如何能够更精确地预测行人轨迹的演示，来表明当我们把每个行人的社会张量集中在一起时，只有不属于他的群体的行人，预测是如何改进的。

在表2中，我们展示了两个行人在人群中一起行走时，当他们没有被汇集到彼此的汇集层中时，他们的预测是如何改进的。当两个行人汇集在一起时，网络对他们施加典型的斥力，以避免相互碰撞。因为他们在同一组，他们彼此允许在空间上靠得更近。

在图4中，我们显示了两组相对走向的序列。在表3显示了两组的预测相对于社会LSTM。虽然这两种预测都不是很准确，但我们的Group-LSTM表现得更好，因为它能够预测属于同一组的行人在环境中如何保持在一起。

表2 ETH数据集:当集合每个行人的社会张量时，只有不属于他的群体的行人的预测得到了改进。绿色的点代表实际的轨迹;蓝色的十字代表预测的轨迹。

图4 序列取自UCY数据集。它显示了两个组之间的交互示例，将在表3中进一步分析。

表3 我们展示了在相反方向行走的两组人的预测是如何改进的。绿色的点代表地面真实轨迹，而蓝色的叉代表预测的路径。

ー 5 ー

结论

在这项工作中，我们解决了拥挤场景中行人轨迹预测的问题。提出了一种将相干滤波算法与LSTM网络相结合的新方法。相干滤波用于识别人群中一起行走的行人，而LSTM网络用于利用组内动态来预测未来的轨迹。实验结果表明，在两个公开的基准(UCY和ETH数据集)上，我们提出的Croup-LSTM性能优于Social-LSTM。在未来的工作中，我们计划进一步研究社会关系，以及固定的障碍物会如何影响其他行人的行为。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。