美国海军利用机器学习提高反舰巡航导弹防御教学演训水平
   ( 2019-08-16 )    来源:原创: 张旭 蓝海星智库

 摘  要

     2019年4月,美国麻省理工学院(MIT)林肯实验室利用“打击群守卫”(SGD)训练系统演示验证舰艇自防御智能决策算法。研究人员利用SGD软件收集到的

 

  专家决策数据训练智能决策模型,使其可根据来袭反舰巡航导弹(ASCM)目标自主选择对抗措施,平均得分为87540±16842,这个分数高于专家平均得分,即74728±26824。


一、SGD软件研发背景

  美军认为,ASCM的发展对其水面舰艇构成严重威胁。美国海军正在研发、部署多型反ASCM系统,使舰艇具备强大的分层防御能力,如图1所示。这些对抗措施可全面应对各种ASCM威胁,但其复杂的使用规则也十分考验作战人员,因为反舰导弹和对抗措施的数量和类型很多,并且还需要考虑复杂的时空条件。通常,舰员要在很短的时间内以及信息不完整的条件下,从众多对抗措施中果断选择对抗效果最好的。因此,清晰、准确、详细的训练对于日后舰艇官兵应对复杂ASCM场景的十分关键。为此,MIT林肯实验室防空反导技术分部在美国海军研究署(ONR)一体化防空反导(IAMD)未来海军能力(FNC)项目资助下,联合系统设计公司共同开发SGD软件。围绕第三舰队提出的实际训练需求,结合先进机器学习与人工智能技术为部队提供个性化的高效训练工具。

 

图1  多种反ASCM系统

 
二、软件设计思路

  系统以第三人称视角,在三维竞技场上展开,守方舰艇(蓝色)在中心,ASCM威胁(红色)从地平线远端袭来。如图2所示,辅助视角和窗口位于大型中央显示界面周围,用户能轻松访问全部相关信息,其中蓝色水面舰艇和红色导弹威胁在中间,左下是俯视图,右下是消息提示面板,右侧是对抗措施库存,顶部是菜单和得分。防守完全由操作者控制,包括决策部署、选用对抗措施,甚至还可改变舰艇航速和航向。这种设计主要是为了培养舰员自防御的意识和素养,而不仅仅是模拟某种显示方式、相关硬件或某种战术战法。


图2  SGD显示界面

  与显示界面的设计类似,SGD中ASCM和对抗措施用抽象感念表达,而不是复现真实系统,如图3所示。红方ASCM的类型主要由寻的装置决定,例如,某型导弹使用红外导引头探测舰艇发出的热量。蓝方系统的对抗措施抽象成几类,例如,硬杀伤系统代表舰上全部硬杀伤选项。考虑到某些教学演训需要更接近真实环境,系统还有一个机密版,可通过更改定义系统的输入文件直接转换为更真实的版本。

 

图3  SGD提取出多种威胁导弹类型(左)和对抗措施(右)

  SGD包含一系列内置场景,从单舰防御单威胁教程到整个打击群防御20枚或更多导弹。同时,SGD还有一个内置的战役编辑器,可供教员和学员自行构建作战场景,如图4所示。舰艇、对抗措施载荷(对抗措施的携带量)、ASCM类型、方位和时机均可调整,可帮助操作者从攻防两个角度探讨演练战术战法。此外,ASCM出现的时机和方位不仅可以自行设置,还可设置为随机,增大防御难度,防止学员靠死记硬背获得高分。

 


图4  操作者可在编辑器面板构建作战场景,选择ASCM的类型、数量、袭击舰艇的时机和方位

  场景是实时变化的,通常要持续几分钟,并有多种系统模式可满足不同用户体验需求:
  (一)教程模式
  场景简单,只有一型ASCM,虚拟教官会提示学员在何时何地选用何种对抗措施。
  (二)单人防守模式
  学员可控制一艘或一组舰船,抵御不同难度(来袭导弹数量和对抗措施的数量)的ASCM攻击。
  (三)多人防守模式
  多个学员利用网络语音工具或系统内的文本信息对话工具,共同抵御ASCM攻击,保护水面舰艇。
  (四)多人对战模式
  一人控制ASCM(攻方),其他人共同防守。这种设置可以考查学员能否及时洞察敌方战术战法,并开展有效防御。
  如图5所示,除核心功能之外,SGD还具备社交功能,可增加学员之间的交流、竞技,共同提高学习效果。每个场景都设有排行榜,最高分会随时更新,供所有学员参考。占据排行榜的首位是激励学员进步的强大动力。同时,创建并分享新的场景挑战其他学员获得的成就感也能激发创新,改进提高学员能力。最后,留言板可促进学员之间的交流,在这里学员可以向其他学员或教官提问,并分享见解。


图5  为便于操作者进入场景、排行榜和社交媒体,界面采用直观化设计

  尽管SGD功能非常全面,但系统设计从一开始就要求系统负载要最小化。系统必须能在带宽极低的网页浏览器条件下运行,比如教室的台式机、家里的笔记本、舰艇上的安全网络。SGD于2014年在林肯实验室召开的防空反导技术研讨会上被推广。在这三天的研讨会期间,共有67人参与完成332场系统模拟。部队给出的反馈十分积极,坚定了SGD的发展方向,并激发了海军对研究团队进一步增强系统的愿望。

三、提高教学效果

  学员利用SGD学习,系统也可学习他们。系统收集的海量数据有望提高教学指导的有效性,但要从这些数据中提取有意义、有效的信息十分困难。林肯实验室利用机器学习技术挖掘隐藏在数据背后的关联,为学员和教官提供相应的指导。

  (一)学员类型识别
  学员类型识别是因材施教的第一步。林肯实验室利用无监督学习(即聚类)技术将SGD中包含各项特征的大量数据点和高维函数简化为一组可管理的类别,可在得分或等级之外区分学员。
  以汽车为例。与SGD的操作者类似,汽车的生产厂家、型号、出厂年份等不尽相同。同样,定义汽车特征的参数也很多,如成本、性能、油耗、可靠性、安全性、内部空间等。聚类可将其归纳为一组更高级的汽车类别(如家庭型、商务型、运动型、豪华型等),再定义每个类别的特征,将数据的复杂性降低到更便于管理和使用的级别。
  对于SGD数据集,以下特征与学员类型最为相关:
  (1)逃跑率,在场景结束之前退出系统的次数占比;
  (2)特殊教程,尝试完成特殊教程的次数;
  (3)教程率,尝试完成教程的次数;
  (4)测试率,尝试完成测试水平的次数;
  (5)教测比,尝试教程水平与测试水平的次数比例;
  (6)重复率,重玩同一水平的次数;
  (7)暂停时间,暂停系统的平均时长;
  (8)教程重复率,尝试教程水平的平均次数。
  林肯实验室利用k均值聚类算法识别出四类学员,如图6所示。第一类学员的得分较高,逃跑率也较高。从表面上看,这种行为是一种不好的表现,但比较重复率可以发现当这类学员对自己的表现不满意时会退出并重新开始,立即纠正错误。其他三类学员的得分相似,但打法不同。第二和第四类学员都均完成了很多教程,但第二类学员的逃跑率较高,而第四类学员大多会使用暂停功能。第三类学员几乎跳过了所有教程,直接进入演训练习。


图6  根据8项特征的聚类得到四类学员

  学员类型识别为掌握学员如何对待系统、哪些策略能够产生更理想的结果提供了窗口。例如,如果第一类学员的表现更为优秀,则可参照其特征制定相应的课程计划来培养所有学员。同时,使用这种方法可在系统中快速将学员分开,通过早期干预来鼓励他们当前的做法或纠正不需要的特征。快速分开学员可改善SGD用户的表现,提高训练效果。对于教育背景不尽相同的教官,学员类型相近可帮助他们制定使用系统的课程计划。
  (二)战术战法识别
  聚类可将学员分为若干个方便管理的类型,也可将学员在特定场景中使用的战术战法分为几类,帮助教官了解学员是否掌握了这些知识。此外,系统还能从学员那里学习有趣的非标准战术战法。
  林肯实验室利用k中心点聚类算法,从每日绩效评估数据中提取出四类战术战法(不一定对应学员类型),如图7所示。舰艇周围的圆环代表场景中的时间,最内侧表示开始时刻,最外侧表示结束时刻,不同颜色代表对抗措施类型以及部署方位。虽然得分相近,但战术战法自左向右的越来越好。最正确的战术战法被称为“铁三角”,先将工作时间较长的对抗措施(如浮标诱饵等)朝三个方向均匀部署在舰艇周围,使指战人员集中精力部署消耗型对抗措施,应对其他威胁。中间两种战术战法与其由相似之处,第二种战法使用了更多的对抗措施,第三种战法的形状有些不同。与其他三种相对有序的战法相比,第一种战法稍显杂乱,使用的对抗措施种类和数量较多,效率较低。


图7  k中心点算法得到的四类战术战法由四组同心圆表示

 
  战术战法识别帮助引导指令鼓励那些已经在使用战法4的学员,提示使用战法2和战法3的学员及时做出调整,教使用战法1的学员彻底改变战法。对于更复杂的场景,有可能事先没有最佳战法,这项功能可帮助系统从操作者那里学到最佳战法。

  (三)自适应课程规划
  SGD不断收集数据,使指导水平能够满足每个学员不断变化的需要。事实上,系统可通过学习操作者如何学习并使用这些信息来提高其教学演训水平。通过比较低分学员和高分学员的学习方法,确定最佳学习方法,创建一个随需应变的个性化虚拟教官,可观察学员的思路是否正确,并在学员误入歧途时给出强化或纠正提示。

  林肯实验室利用隐马尔科夫模型创建系统顺序列表。分别利用高分学员训练模型创建一个积极的课程计划,利用低分学员训练模型产生糟糕的课程计划,均可根据学员刚刚通过的等级推荐下一个等级。那些与积极的课程计划契合的学员会得到鼓励,而那些不太契合的学员则会被重新引导。表1给出了模型生成的两个课程规划。

 
表1  两组SGD学员的课程规划

得分后50%学员的课程规划 得分前50%学员的课程规划
基础教程 基础教程
1型导弹教程 挑战任务
基础教程 测试
1型导弹教程 挑战任务
1型导弹教程 挑战任务


  左侧给低分学员的课程计划,在较低级别的教程之间来回尝试,右侧的课程计划则很快进入困难模式。利用这些知识,系统便能建议学员下一步尝试哪些等级,并评估其能力水平的提高,引导其朝更积极的方向发展。未来可能会在马尔科夫模型中引入递归,考虑学员在系统中所有经历的影响,通过收集更多的数据并测量学员表现的变化来量化这种方法的影响。

四、未来发展及影响意义

 
  机器学习技术需要使用大量数据,在SGD进行的研究也不例外。使用这个系统的学员越来越多,可用于分析的数据集会随之增大,基于它的模型也会变得更好。目前,用于探索机器学习概念的数据主要基于SGD对抗赛数据集。尽管已取得较大进展,但这些数据来自林肯实验室的员工,而不是专业的海军官兵。美国海军研究生院正在推广这一成果,使SGD为部队服务。
最近,SGD后端进行了一系列改进,专门设计了一个应用程序接口(API)来满足外部模型、仿真和决策需要。通过这个API可向学员发送个性化引导提示,控制SGD仿真时间步长。目前,研究人员正在努力缩短仿真运行时间,因为智能决策辅助软件需要运行许多SGD仿真案例做出决策。除后端开发外,前端系统的开发也取得了较大进展,如图8所示。首版SGD聚焦战术战法演练,新版SGD要求操作者在此环节之前制定行动方案。所有任务都在世界地图上完成。ISR资源被添加到最新版本中,新的场景要求学员优先避免ASCM威胁。但当有导弹来袭时,场景便会切换到战术战法演练环节。

图8  SGD的最新版本将增加一个战略层,操作者可在地图上进行机动,避免反舰巡航导弹威胁


  同时,林肯实验室还在开发一个机密版系统。这个版本更贴近真实场景,设置全新的场景和任务环境,添加最新的武器和传感器模型。在未来版SGD中,学员可配置舰艇的装载量或“购买”新武器或智能辅助决策能力,这些记录可用于训练算法,帮助舰艇获得最佳装备量和配置方法。将这些功能整合后,SGD将从单纯聚焦ASCM防御蜕变为更广泛的学习和技术开发生态系统,为海军探索各种问题。
  现在关于将机器学习应用于SGD平台的研究为未来的培训开辟了新途径。例如,操作者类型识别将帮助海军挑选优秀学员,并为那些表现不佳的学员指出水平提高的方法。同样,战术战法识别将帮助确定哪些反应是有效的,也可激发并利用学员的创造力。自适应课程规划为每个学员提供个性化学习体验,使教学更高效、聚焦。这些概念及其他相关机器学习方法,将提高个性化训练水平。(蓝海星:张旭)



想了解更多国外国防战略、军事工业、装备发展、前沿技术相关研究,请关注蓝海星智库微信公众号:SICC_LHX

欢迎转载,转载请注明出处。

 
 
E-mail: sicc@sicc.org.cn        © 2001-2019 中国船舶信息中心 版权所有