打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
联合全域指挥控制的人工智能生态系统 | 新品推荐


联合全域指挥控制的人工智能生态系统

本文摘自《面向现代战争的全域联合指挥与控制——识别和开发人工智能应用的分析框架》 | 远望译品

JADC2的一个基本驱动因素是加快每个域中的进程,这样就可以用几分钟而不是几天来度量观察、定向、判定和动作(OODA)循环。目前,空中、太空和网络领域以不同的作战节奏(小时、周、月)运作。这三个域之间的协调是通过电话、电子邮件和会议来执行的,而不是通过机器对机器的通信,这进一步降低了同步性。机器对机器的通信和AI辅助决策是实现战斗节奏以分钟为单位的目标所必需的。AI对大量数据上起作用:只要不引入损坏数据,AI能够访问的数据越多,其实现就越可能成功。

AI空军的基石是数据的可访问性。空军每天都会产生大量的数据,但由于缺乏统一的数据管理政策以及数据管理力度不足,大部分数据都是孤岛式的。为了培育AI,空军将需要采用一个以数据为中心的生态系统,并对IT、个人和政策做出相关改变,正如我们在本章所描述的那样。

这个生态系统首先要重新思考、存储、共享和计算海量数据。具体地说,这样的生态系统需要处理数据摄取、提供高级存储和计算资源,并托管支持决策者的应用程序和工具。

2017年的一项研究显示,在人工智能领域处于领先地位的公司往往是数字化程度最高的(相对于各自行业而言),并已投资于云和大数据基础设施。这种形式的数据驱动生态系统推动了AI的发展,并支持AI和JADC2所需的机器对机器通信。

为了开始讨论空军如何解决这些问题,我们研究了商业部门——包括在那里严格执行的工作以及该部门为国防部所做的工作——以确定如何解决这些问题。我们就空军如何根据自身需求调整这些商业最佳实践提供建议然后研究国防部自己的内部计划。


1商业最佳实践


    

   


1.1数据收集

商业应用程序通常通过特洛伊木马方法收集用户数据。这些用户应用程序一般几乎不需要任何成本就能满足用户需求(购物、搜索互联网、查看电子邮件、照片共享)。作为回报,公司通过跟踪用户与应用程序的交互方式以及用户查看、创建和共享的内容来收集用户的数据。从移动应用到网页再到操作系统,用户跟踪无处不在。例如,许多网站使用Google Analytics,它是嵌入在网站中的一小段JavaScript代码。这段代码能够跟踪用户来自何方(在访问网站之前)、用户在网站上花费的秒数,以及用户之后的去向。公司可以利用这些数据来不断改进产品和营销(例如,确定哪些广告吸引了最多的访问者)以及网站布局(例如,确定大多数用户通过低效途径到达结账页面)。

KR可以在其网络应用程序中采用这种方法。KR公司的第一个应用程序“Chainsaw”协助AOC的飞行员在空中规划加油机。虽然Chainsaw是目前使用最多的KR应用,但通过它的用户数据目前并没有保存。为了从一个改进的用户体验转移到一个可以利用AI/ML的环境,数据应该被捕获、存储和访问以供将来的算法使用。KR特洛伊木马就是这样的一种方式。Chainsaw为AOC中的数据收集系统提供了一个很好的原型测试平台。保存的用户数据可用于开发一个近乎自主的加油机规划工具,为飞行员提供建议。

商业部门似乎也在向数据“收集一切”的理念靠拢。前提是某些数据流可能包含未发现的相关性,并且很难预期未来的数据需求。随着JADC2 COOPS的积极开发和测试,JADC2的数据需求是千变万化的。为了能够满足未来所有的数据需求,空军需要采取“保存一切”的方法。对于AOC来说,保存所有AOC产品,包括草稿和中间产品以及聊天室日志,就是这样一种方法。


1.2数据存储

“保存一切”的方法是一种成本相对较低的策略,因为数据存储的成本在过去几十年中显著下降,每千兆字节的成本从数百万美元缩减到美分。商业部门正在向数据池结构迁移,从而将存储从昂贵的服务器机架存储解决方案中转移出来。数据湖是相互连接的计算机网络,提供存储和计算资源,以形成用于数据收集和处理的中央存储库。数据湖提供随时可用的存储,并且设计用于处理大量数据,如任何ATO产生的任何一次或AOC所作的每一次主空中攻击计划(MAAP)简报。数据湖附带的分布式计算和存储提供了可伸缩性和灵活性,以适应不断增长的数据需求。跨多台计算机分布存储还可以更快地访问数据。当大型文件在不同计算机上分布成块时,并行化可以提高性能。

我们观察到大多数AOC使用Microsoft SharePoint共享数据。空军目前在一种数据库存储模式下运作,在这种模式下数据存储在本地计算机上。孤立的数据最终会通过网络上传,甚至在某些情况下通过手动输入的方式进入SharePoint。这种存储格式易于使用和实现,但它以可扩展性和灵活性为代价的,这是数据驱动的AI生态系统所必需的。

图 数据管道解决当前瓶颈问题

注:JWICS=联合全球情报通信系统,TET=目标效应小组。

数据湖将解决AOC中的许多数据可访问性问题,因为所有数据都以原始格式存储在中央位置。一旦数据被正确地标记和注释,就可以通过搜索功能或数据目录轻松地搜索特定的信息片段。至此,数据湖可以消除手动输入的需要。在COD层,我们观察到许多飞行员必须手动将信息输入到他们的计算机中,因为这些信息是以数字方式存储在联合全球情报通信系统的一份更高级别文件中的。例如,在目标效应团队过程中,机密级别的一组坐标与绝密信息聚合。聚合发生后,COD层无法访问原始坐标,这需要从终端手动复制(如图4.1所示)。因此,信息流在AOC中连续移动,采用最高的分类以聚合信息流。在数据湖中,数据以原始形式保存,并且在COD的机密级网络中可以直接访问原始坐标。数据分类标签确保数据在适当的分类级别上保持可访问性。


1.3数据处理

一旦收集到数据,就必须对其进行清理:数据科学家在分析之前花费大量时间清理数据,这一过程有三个常见的混淆问题。首先,数据集的问题乍一看可能并不明显。当数据科学家在分析过程中遇到额外的错误时,他们必须重新整理数据。这些反馈循环使人们很难知道要清理什么,除非有一些处理数据的经验。许多公司聘请数据专家是因为他们具有特定数据集方面的专业知识。第二,数据清理往往需要数百个小修补程序,例如删除重复的条目和打字错误、识别不可靠条目、删除空白或多余的零、插补缺失条目、转换时间和进行单位转换。最后,数据清理通常针对于特定任务,没有一刀切的解决方案。根据具体的应用程序,需要连接不同类型的数据(也有不同类型的数据连接算法)。这三个因素导致数据科学家花在数据清理上的时间不成比例。

在数据清理方面目前形式的AI不太可能取代人类。自动化在这个领域非常有帮助,数据清理工具可以通过自动化大部分流程来加快进程。但是,这些工具不是自主的,需要数据科学家逐列指导。

在数据清理过程中,由于未知的未知因素而产生的更复杂的问题对于每个数据集而言往往是特有的,因此不太适合于这样的工具。因此,在特定数据集方面具有经验的数据科学家在这一领域仍然是非常宝贵的。

我们确定的另一个商业最佳实践是使用数据摄取管道来使数据清理过程自动化。虽然没有一键式AI解决方案来执行数据清理,但商业部门已经大大改进了该过程。这种软件化过程被称为数据摄取管道,它提供了一种通过硬编码数据清理工作流程来编码数据科学家对数据集方面的知识和方法。这些管道代表了一种新的数据清理框架,也是对使用Microsoft Excel的旧方法的一种转变。虽然Microsoft Excel仍然是一种流行的数据清理工具,但它在数据清理过程中既不提供透明性,也不提供可重复性。此外,除非用户勤于使用,否则原始数据文件可能会被干净的版本覆盖。如果另一个应用程序需要对原始数据进行不同的处理,这可能会带来问题。数据管道提供了一个框架,通过记录每个数据的清理步骤来解决这些问题。有无数免费和商业数据清理软件程序允许用户使用代码、点击界面,或两者兼而有之。该框架允许数据科学家通过将所有步骤编码到一个方案中来解决前面描述的三个问题,既保留了原始数据,又支持数据清理过程的透明性和同行评审。这在人员更替期间尤其具有价值。例如,数据科学家可以与主题专家一起创建一个方案,用于识别和删除飞机维护数据的重复条目。这个方案可以用来自动处理下个月的数据。数据摄取管道提供了自动摄取相同格式的更新数据的能力(几乎不需要人工输入)。

数据摄取管道为重复性任务提供了一种一次性方法。我们观察到,在太平洋哨兵19-2演习期间,MAAP小分队在每个指挥官的简报前花了两个小时准备报告。一些商业工具可以使用数据管道方法从数据流自动生成演示文稿。联合综合优先目标清单和MAAP简报目前使用PowerPoint幻灯片以标准化格式显示内容。数据管道办法可以自动为这些简报生成幻灯片,更新的数据流将在简报时自动反映出来。

在数据湖中,数据摄取管道需要管理。管道管理涉及调度重复作业以处理数据——识别传入数据的问题——并适应不断变化的需求。管道需要按照作战节奏安排在特定时间执行,以便在截止日期或简报时间之前生成适当的数据产品。这些工作提供固有的数据质量检查,因为如果数据出现意外问题,管道作业通常会失败。

如果数据发生意外问题。数据科学家将需要持续地监视数据流,因为它们会随着时间的推移而改变(例如,更换供应商、改变数据收集策略、添加新的数据列)。

快速识别数据问题的能力有助于改进数据收集实践,并成为提高整个空军数据质量的推动力。维护一个有组织的数据目录及其相关的数据管道为决策者提供了数据不受损坏的保证。决策者对他们所使用的数据有不同的需求和偏好。复制和修改现有管道,为特定指挥官量身定制简报,比重新开始更快,更不易出错。


1.4计算

处理数据管道作业所需的计算资源的可伸缩性和性能类似于数据存储。幸运的是,分布式计算也解决了这个问题,因为并行化提高了存储访问时间和处理速度。额外的计算机可以添加到数据湖网络以提供额外的计算资源。如前所述,为了冗余和性能优势,数据湖中的多台计算机将数据分割成块。数据湖利用其计算机网络将工作负载分成更小的部分以实现并行化。

一个设计用于在分布式计算环境中处理大数据的计算框架已经存在。该框架通过对相似的计算进行分组,将计算划分为更小的子任务。这些较小的计算任务分布在网络上进行处理。这种方法的优点是占用更小的内存、更容易计算和崩溃容忍。计算结果也被存储在跨计算机的块中,从而避免了将整个大数据集加载到单个计算机的内存中的需要。相比之下,在大多数AOC计算机上加载和处理大型Excel电子表格的速度会非常缓慢。该框架基于存储便宜,计算周期昂贵的哲学。作为在reduce阶段相对容易的计算任务的交换,在map阶段(当过滤和排序时)产生了大量的中间数据。归根结底,分布式计算和存储是齐头并进的,向数据湖过渡是获得这些好处的切入点。

AI算法利用深度(非常大)神经网络的发展,可能需要超出大数据处理要求的专业计算资源。在这些情况下,数据湖用于将数据处理成存储在单独数据库中的可用格式。该数据库通常驻留在一个可以访问专用硬件的平台上,该平台通常包括多个个图形处理单元(graphics processing unit,GPU)。由于它们的设计,GPU在用于开发AI算法时的速度快几个数量级。

简单地说,GPU在通过截断数字计算矩阵运算时,为了速度牺牲了精度。除了小问题之外,在大多数情况下,使用GPU来开发神经网络AI算法是必要的。


1.5数据环境和平台

尽管数据湖本质上是一个抽象框架,但大多数实现都涉及Apache Hadoop软件和系统套件。Hadoop是开源的,允许任何人在内部创建数据湖。或者,可以通过云平台访问数据湖。该领域的大多数商业工具提供硬件服务,并安装了Hadoop和专有管理软件以简化数据、数据湖和数据管道的管理。这些服务称为平台即服务(PaaS)。所有硬件由商业供应商拥有、维护和升级。用户购买对该硬件上预先配置了数据湖的云访问。

为了实现数据湖,空军可以选择内部开发或购买云访问。内部方法将使空军完全控制其数据和数据政策。此外,空军可以利用全球荣誉存储的优势,在每个AOC配备现场硬件。然而,这一选择将要求空军投入高昂的资金成本来购买服务器机架,并建立所有硬件以及相关的电气和网络基础设施。另一个需要考虑的问题是,数据湖的互联性质造成了潜在的网络漏洞。此外,在需求激增期间,内部方法通常不太可靠:存储或计算资源不能按需增加,因为这将需要订购、配置和安装额外的实体服务器。相比之下,基于云的方法是有益的,因为它会降低前期的资金成本,并允许空军立即扩大服务器规模以满足需求。这种方法还减轻了IT人员的压力,因为所有硬件、安全性和网络问题都由供应商管理。数据湖完全驻留在云上,但一旦数据被处理和清理,它们就被发送到每个AOC中的相关本地数据库。

一旦数据湖及其相关基础设施建立起来,空军将处于在其数据中利用AI的最佳位置。内部解决方案是招聘AI人才来开发人工智能模型,或者选择一家公司或组织作为独立于商业供应商的“可信代理”。流行的开源AI软件包--被称为深度学习框架--包括TensorFlow、PyTorch、Caffe和TheAno。所有这些框架允许用户开发、部署和维护AI应用程序。前沿的人工智能研究和进步通常都是在这些框架上进行的,而且开源的资源也很容易获得。这些框架功能强大、允许细粒度控制,但这种控制是以陡峭的学习曲线为代价的。

如果空军选择购买商业数据存储,它有两种选择。AI软件在许多云平台上使用,而且通常是可访问的,这意味着AI软件只需经过最少的训练就可以使用。由于GPU对神经网络的训练要求很高,供应商通常会提供硬件,并允许用户访问其AI软件。这些服务通常被打包为软件即服务(SaaS)。这款软件提供了易于使用的点击式界面来开发AI模型,其代价是功能不如深度学习框架丰富。另一种商业解决方案是聘请一家专门从事AI开发的咨询公司:许多这样的公司都有AI子专业,从图像分析到文本分析再到预测建模。


2 发展中的美国国防部AI生态系统


    

   


将数据聚合到一个公共云中,使得作战人员能够处理信息、做出预测,并以比其他情况下更快的速度做出反应。美国国防部最近发布了一份名为“JEDI”的征求建议书,寻求一家供应商在十年内提供国防部范围内的云服务,作为基础设施即服务(IaaS)和PaaS。通过这份合同,国防部副部长将对统一的云基础设施进行投资,以提供数据存储和计算解决方案。2020年3月,法院指出了该合同授予过程中的一个缺陷,国防部要求在120天的时间内来“授予”的某些方面。目前国防部的JEDI是美国空军在寻求MDO的使能器时的一个重要考虑因素。

空军很可能会采用JEDI获胜者提供的云计算能力。未来几年获得的任何本地化或云计算解决方案在上线时都可能被JEDI取代。JEDI指出,管理多个云之间的通信比维护单个云带来更高的安全风险。因此,国防部副部长正在为整个国防部寻求一个单一的云解决方案。在国防部的所有组织中,目前有500个个人努力以获得云能力。这些不同的努力削弱了云计算环境的关键好处。具体地说,拥有独立的云会导致兼容性和数据可访问性问题,这会削弱AI/ML和自动化解决方案的有效性。

拥有云计算功能只是JADC2迈向AI的一步。如前所述,JEDI将是一个IaaS和PaaS。IaaS意味着供应商将构建和维护服务器、数据存储和网络。虚拟化软件使计算和数据资源能够被分解和拆分成更小的虚拟服务器,以满足任何需求。PaaS在IaaS之上提供了一个附加层:操作系统和软件在该层进行管理,以便于数据管理、数据安全和应用程序开发。

空军负责开发和维护软件层。而且,在未来,空军将需要注意早期决策的意外后果,并根据需要进行航向修正。例如,KR是空军的AOC现代化解决方案,展示了敏捷开发和微服务架构的价值,将想法从白板快速转化为AOC中的工作应用程序。支持这些应用程序的平台,Pivotal technology stack目前已经通过认证,可以在具有连续操作权限(C-ATO)的机密级计算环境中运行。这代表了软件开发的一个重大转变,因为这些ATO传统上只授予单个软件。Pivotal technology stack(关键技术栈)是为开发、托管和维护软件而创建的软件工厂。C-ATO有助于敏捷开发,因为所有关键软件和更新都是自动授权的。然而,KR成功的一个意想不到的结果是,他们的C-ATO是目前在AOC内部署任何应用程序的最简单的途径。获得软件操作权限的过程通常既耗时又困难的:许多利益相关者需要参与其中,而且激励机制并不一致,无法鼓励这一过程。这意味着非KR-C2应用现在依赖于Pivotal平台。例如,DARPA RSPACE计划为AOC研究和创建的C2工具目前处于不确定状态,因为除非KR使用Pivotal的平台重写它们,否则它们将无法部署。

这个例子说明应用程序开发基础不应该仅仅局限于KR:一个更方便的C-ATO过程可能会有所帮助。除了RSPACE之外,我们还发现了其他方面,比如AFWERX和第609届AOC中的一个小团队,他们也在试验现代C2应用程序。例如,第609 AOC小组建立了一个名为Kibana的数据管理平台,该平台可以自动接收、处理(在定义数据一次之后),并传播美国空军中央司令部的数据。这个团队协助其他飞行员处理数据问题,然后自动处理未来传入的数据。用户能够在可定制的仪表板中处理、可视化和显示数据,这可以取代对传统Excel或PowerPoint产品的需要。AFWERX正在开发概念验证技术,以证明空军可以从孤立的SharePoint模型过渡到具有多级分类的基于云的数据湖模型。


2.1多级安全(以及更广泛的安全问题)

如前所述,由于数据在本地或共享驱动器上的SharePoint文件夹中的历史存储,军事C2企业内部的数据访问很困难。依赖不同分类网络以及在不同分类级别上掌握这些网络的数据带来了额外的挑战。安全政策侧重于保护信息,往往以牺牲集成为代价。在不同分类之间传输数据需要经过批准的跨域解决方案。

空军已经开始解决对数据保护和完整性的双重安全问题,以及以各种方式共享信息的需要。例如,CMCC使用应用程序编程接口(APIs)将数据转换成通用的C2接口标准,以便在不同的任务级系统之间共享数据。事实上,2018年10月,由Lt Gen Robert McMurry中将(空军装备司令部司令)和Will Roper(空军采购、技术和后勤助理部长)共同签署的备忘录要求整个空军使用模块化开放系统方法,最大限度地实施开放任务系统和通用C2接口。内利斯空军基地影子作战中心开发了OneChat,这是一个聊天应用程序,支持一个界面的聊天,但由MLS数据库支持,该数据库提供跨多个分类的存储。拥有一个MLS IaaS主干(比如JEDI设想的主干网,就有机会持续监控所有进入云端的数据和所有静止数据,以遵守安全分类指南。)


2.2建模仿真生成数据

虽然AOC数据是收集和存储的,但数据量可能不足以训练AI算法。练习中缺乏数据一致性也限制了训练数据来源。建模和仿真可以提供额外的数据来源。同级敌手冲突的情景案例将增加当前平叛和平时期行动以外的数据。实时的、虚拟的和建设性的练习可以提供额外的数据来训练算法。建立一套足够的训练集可能会采取以下所有三种方法来收集合适的数据集:

为了保持现实的乐观态度,请参阅第3章了解这些数据集的局限性。


3 人事考虑


    

   


虽然人事方面的考虑不是本报告的重点,但在实地考察和采访其他JADC2利益攸关方的访谈中都讨论了这个话题。为未来的联合全领域人工智能环境建立信任,对指挥与控制人员的配备和培训制定周密的计划也是国防部人工智能生态系统开发的一部分。随着空军IT基础设施和数据政策的成熟,其角色和人员配置水平将从现有的AOC模型发生变化。JADC2将需要新的13O空军职业领域为C2做好准备,为所有领域的空军任务能力做好准备,这意味着对这些领域的能力需要一些工作层面的知识。此外,这些操作员很可能需要额外的技术技能,以适应高度人机协作的环境。机器对机器通信的增加将使许多当前角色的耗时过程自动化,需要操作员花更多的时间来评估和计划。这些C2职员的位置可能会变为更分散的C2构造。

人工智能生态系统的有效管理和导航还将涉及新的角色和新的教育需求。很可能会强调数据管理员和数据科学家的职位,以保持数据的平稳流动。虽然空军将需要由空军和承包商团队来开发AI算法,但日常操作依赖于了解如何使用算法并在数据可视化和度量方面经验丰富的操作员,而向JADC2的过渡将需要跨军种的高级领导人了解可用的MD资源。

另一个重大挑战是人工智能系统缺乏人类的信任。如果决策者不能信任机器生成的风险评估、建议或估计,他们就不太可能做出最优的MDO决策。人工智能涉及最大问题之一是其分类或决策过程缺乏可见性和不透明性。传统的回归算法,如广义线性模型或决策树,由于其可解释性而在当今许多领域中收到青睐。神经网络的日益普及,使得可解释AI成为该领域的一个活跃而热门的话题。这是一个复杂的领域,因为神经网络可以有数百万个参数。如此庞大的算法无法解释它的输出,很难相信它的判断。

关于可解释AI的工作目前具有高度的应用特性。例如,由于图像识别系统的视觉特性,在解释这些系统方面取得了重大进展。生成式对抗性神经网络(Generative adversarial neural networks,GANs)是一类基于训练数据生成新图像的AI算法。将图像识别系统与GAN相结合,可能会产生一种能够识别图像中内容的新系统。这个新系统可以通过生成它认为也属于同一类别的图像来帮助解释分类结果。虽然GAN大量用于视觉应用,但对于非视觉AI应用可能作用不大。该领域的其他工作集中在可视化神经网络层。这个特性可以让我们看到算法正在“关注”图像的哪些区域,并能让我们更好地了解驱动决策的因素。

图像应用程序之外的可解释AI目前是一个正在进行的领域。文本生成是一个很有前途的研究领域,AI已将其应用于撰写科学论文、为媒体生成字幕和实时翻译。微软正在研究如何应用这项技术为推荐系统生成句子级的解释。人工智能目前可以降级到决策者在循环中的推荐引擎。随着可解释性AI工作的不断改进,算法可以慢慢地控制更多的任务和决策。


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
指挥与控制现代化
一条曲线看懂 5G、自动驾驶、AI 都到了什么阶段 | 极客公园
让AI燃料加速“燃烧”,IBM新一代软件定义存储来了
美国空军和太空部队致力于在2025年做好AI应用准备
一文带你了解大数据管道
人工智能时代的双刃剑
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服