【学界】OpenPV：中科院研究人员建立开源的平行视觉研究平台

作者：田永林、王雨桐

审校：王坤峰

【导读】本文介绍了来自中国科学院自动化研究所复杂系统管理与控制国家重点实验室、青岛智能产业技术研究院平行视觉技术创新中心的研究成果。王飞跃研究员、王坤峰副研究员带领的平行视觉团队，从复杂系统的角度研究计算机视觉。近期，他们建立了开源的平行视觉研究平台OpenPV (Open Source Parallel Vision Platform)，用于推动平行视觉研究，构建更健壮的智能视觉系统。在OpenPV平台上，发布了一批ParallelEye虚拟图像集，包括原始图像及标注信息，可以供平行视觉和计算机视觉研究者免费使用。

OpenPV平台的网址是：http://openpv.cn

平行视觉和平行图像

针对视觉计算研究中存在的实际数据获取和标注成本高、难以覆盖复杂环境、极端场景样本稀少、训练的模型适应性差等问题，中科院自动化所王坤峰、苟超和王飞跃将视觉计算系统看作复杂系统，采用虚实平行思想，把视觉计算研究从单一的物理世界扩展到虚实结合的平行世界（物理世界+虚拟世界），提出了一种虚实互动的智能视觉计算方法，即平行视觉（Parallel Vision）[1][2]。平行视觉由人工场景（Artificial Scenes）、计算实验（Computational Experiments）和平行执行（Parallel Execution）三步曲组成。其核心是利用可控、可观、可重复的人工场景来模拟和表示复杂挑战的实际场景，使采集和标注大规模多样性的虚拟图像数据成为可能，然后通过计算实验进行视觉模型的训练与评估，最后借助虚实互动的平行执行来在线优化视觉系统，实现对复杂环境的智能感知与理解。图1显示了平行视觉的基本框架和体系结构。

图1. 平行视觉的基本框架和体系结构

考虑到虚拟图像在视觉计算研究中的重要性，王坤峰、王飞跃等在平行视觉的基础上，又提出了一种新的图像生成理论框架——平行图像（Parallel Imaging）[3]。平行图像是平行视觉的一个分支，提供平行视觉研究需要的图像大数据。平行图像的核心单元是软件定义的人工图像系统。从实际场景中获取特定的图像“小数据”，输入人工图像系统，解析和吸纳实际图像的特点，同时加入外部知识，自动生成大量新的人工图像数据。这些人工图像数据和特定的实际图像数据一起构成解决复杂视觉问题所需要的平行图像“大数据”集合，用于视觉模型的学习与评估研究。总之，平行图像遵循实际图像“小数据”→平行图像“大数据”→特定“精准知识”的技术流程，如图2所示。

图2. 平行图像的技术流程

目前，该团队已经利用OpenStreetMap、CityEngine、Unity3D、3ds Max等图形学仿真工具构建了大规模的人工城市场景，生成了面向交通视觉研究的虚拟图像集ParallelEye。基于平行视觉理论，田永林等利用ParallelEye数据集进行了目标检测器的训练和测试研究，通过虚实结合的方式提高了Faster R-CNN和DPM目标检测器的性能，并且通过定制虚拟图像中的目标尺寸、遮挡程度等属性，测试其对目标检测器的影响[4][5]。更多信息请阅读文章：【学界】ParallelEye：面向交通视觉研究构建的大规模虚拟图像集。

张文文等采用增强现实技术，将虚拟行人叠加到特定场景的背景图像，构建人工场景，生成带有标注信息的虚拟图像集，从而训练特定场景的行人检测器，取得了良好的实验效果[6]。图3显示了特定场景的虚拟图像及其标注的生成过程。更多信息请阅读文章：【学界】基于平行视觉的特定场景下行人检测。

图3.特定场景的虚拟图像及其标注的生成过程

苟超等通过生成对抗网络将带有真实纹理信息的图像和带标注信息仿真图像融合，进一步训练人眼瞳孔检测模型，在BioID、GI4E等公开数据集上取得很好的瞳孔检测效果。关于该项工作的技术细节，会在后续进行详细报道。

发布的ParallelEye数据集

图4.OpenPV平台发布的ParallelEye数据集页面

目前，OpenPV平台发布的ParallelEye数据集（见图4）由7个子数据集组成，包含了40251幅虚拟图像以及六种标注信息。其中子数据集1–3提供了三类交通目标（car、bus、truck）的包围框信息，可以用于目标检测研究。子数据集4–7包含更多的目标类型，并给出了更丰富的标注信息，包括感兴趣目标的包围框、像素级语义/实例、深度等，能够支持目标检测与跟踪、语义/实例分割、深度估计等多种视觉计算任务。每个子数据集对应一个人工场景，同一个子数据集中又包含多段视频，对应着该人工场景在不同光照和天气条件下收集的图像数据。图5显示了ParallelEye虚拟图像集的标注信息示例。

图5.ParallelEye虚拟图像集的标注信息示例。第一行左：深度标注；第一行右：光流标注；第二行左：目标跟踪标注；第二行右：目标检测标注；第三行左：实例分割标注；第三行右：语义分割标注。

在构建ParallelEye的过程中，他们力求模拟复杂的交通场景，从多方面提高数据集的多样性。第一，摄像机拍摄角度的多样性。在收集图像的过程中，控制场景中的虚拟摄像机进行升降旋转，来获得人工场景在不同观察视角下的成像效果。第二，目标外观和姿态的多样性。通过目标摆放位置的不同来创造不同的遮挡情况，同时利用脚本改变目标模型的部分参数，使其颜色和姿态在每一帧都发生变化。第三，光照和天气条件的多样性。借助天气系统插件来模拟早、中、晚不同时刻的光照条件以及晴、阴、雾、雨等多种天气状况，渲染得到不同的视觉效果，如图6所示。

图6. 人工场景中光照和天气条件的多样性

OpenPV与学术服务

据悉，该团队计划为OpenPV平台赋予更多功能。首先，他们将扩展人工场景的时空规模，引入更多更丰富的3D模型，增加人工场景中的极端情况和挑战性案例，来更加全面地模拟物理世界。此外，除了当前的城市环境，他们还计划在郊区和乡村环境下进行人工场景构建和虚拟数据收集，进一步提高数据集对复杂交通场景的覆盖范围。目前已发布的ParallelEye数据集支持单向下载，可以用于视觉模型的学习与训练。这当然不是平行视觉的全部内涵。未来OpenPV将同时支持下载和上传服务，支持对用户视觉模型的线上测试与评估，甚至提供解释和优化视觉模型的建议，逐渐过渡到知识自动化。

一直以来，王飞跃、王坤峰带领的平行视觉团队致力于学术服务。他们运营了微信公众号“GAN生成式对抗网络”，每天发布一篇文章，及时跟踪GAN、深度学习与计算机视觉的研究前沿。他们正在Neurocomputing牵头组织Special Issue on Virtual Images for Visual Artificial Intelligence（见文章：【CFP】Virtual Images for Visual Artificial Intelligence），正在IEEE IV2018牵头组织Workshop on Parallel Vision in Intelligent Vehicles（见文章：【征稿通知】IEEE IV 2018“智能车辆中的平行视觉”研讨会），以提升计算机视觉研究者对虚拟图像和平行视觉的重视。

他们建立OpenPV开源平台，希望为更多的研究人员服务，构建更健壮的智能视觉系统。欢迎读者访问http://openpv.cn，获取更多信息，也欢迎各种形式的技术交流。

参考文献

[1] Kunfeng Wang, Chao Gou, and Fei-Yue Wang. Parallel vision: an ACP-based approach to intelligent vision computing. Acta Automatica Sinica, 2016, 42(10): 1490−1500.

[2] Kunfeng Wang, Chao Gou, Nanning Zheng, James M.Rehg, and Fei-Yue Wang. Parallel vision for perception and understanding of complex scenes: methods, framework, and perspectives. Artificial Intelligence Review, 2017, 48(3): 299−329.

[3] Kunfeng Wang, Yue Lu, Yutong Wang, Ziwei Xiong, and Fei-Yue Wang. Parallel Imaging: A New Theoretical Framework for Image Generation. Pattern Recognition and Artificial Intelligence, 2017, 30(7): 577−587.

[4] Yonglin Tian, Xuan Li, Kunfeng Wang and Fei-Yue Wang. Training and Testing Object Detectors with Virtual Images. IEEE/CAA Journal of Automatica Sinica, 2018, 5(2): 539−546.

[5] Xuan Li, Kunfeng Wang, Yonglin Tian, Lan Yan, and Fei-Yue Wang. The ParallelEye Dataset: Constructing Large-Scale Artificial Scenes for Traffic Vision Research. arXiv:1712.08394. 2017.

[6] Wenwen Zhang, Kunfeng Wang, Hua Qu, Jihong Zhao, and Fei-Yue Wang. Scene-Specific Pedestrian Detection Based on Parallel Vision. arXiv:1712.08745.

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。