面向數字孿生戰場的智能體建模框架構建

機械發明愛好者

2023年4月27日 20:35

瀏覽：3244 評論：1

本文來源：防務快訊

作者：吳云超等

摘要：

針對現有軍事對抗推演平臺缺乏智能算法訓練支撐能力的問題，分析了智能博弈技術的需求以及游戲對抗領域對智能決策問題的實現方法，研究了面向數字孿生戰場的仿真數據模糊化以及任務分解等技術，構建了面向強對抗孿生戰場的決策智能體建模框架，設計了數字孿生戰場決策模型輸入和輸出層模型結構，為數字孿生戰場中智能決策模型訓練研發提供參考。

0 引言

隨著“云物大智”等新技術的飛速發展與應用，數字孿生（digital twin）概念在制造業中應運而生，為制造業向更高的信息化階段發展描繪了遠景藍圖。數字孿生指利用物理模型、傳感器更新和運行歷史等數據，集成多學科、多物理量、多尺度和多概率的仿真過程，在虛擬空間中完成映射，從而反映相應的實體裝備的全生命周期過程。

數字孿生的核心理念和模式引入軍事領域尤其是戰場建設領域，催生了數字孿生戰場的概念。數字孿生戰場的核心是對真實作戰環境的逼真模擬，進而基于孿生戰場中的超實時推演，預測真實戰場未來可能的變化，從而為作戰決策提供依據。為實現上述目標，需構建作戰實體的行為決策模型。與對抗性弱和邊界明確的工業應用環境不同，軍事作戰場景具有強對抗性與高度不確定性，邊界條件不清晰，采用傳統的規則式建模方法無法覆蓋所有可能情況，因此需采用智能化方法構建具備自主決策能力的行為模型，從而在規則無法覆蓋時，通過基于態勢的自主研判與自主決策，逼真模擬實戰中的作戰決策。

智能博弈技術以強化學習為主要技術途徑，通過構建虛擬對抗環境以及博弈智能體模型，進而在對抗環境中通過智能體產生的反饋信息來進行模型的自主決策能力的學習優化。近年來，智能博弈技術發展迅猛，在星級爭霸2和Dota 2等實時策略對抗游戲中戰勝人類職業選手，并且在軍事領域的單機空戰虛擬對抗中戰勝了人類飛行員。因此，利用智能博弈技術解決軍事自主決策問題是可行的。

智能博弈技術以強化學習為主要技術途徑，先構建虛擬對抗環境，再對博弈智能體模型進行構建，進而在對抗環境中通過智能體產生的環境反饋信息來進行模型的學習優化。

本文聚焦數字孿生戰場中的實體行為智能決策模型構建問題，提出了面向強化學習的智能體建模框架。首先，介紹了數字孿生戰場的概念及其發展現狀；然后，分析了基于智能博弈的行為決策技術的發展及其在數字孿生戰場中應用面臨的問題；接著，提出了智能體建模框架；最后，對智能博弈技術在數字孿生戰場中的應用前景進行了展望。

1 數字孿生戰場

數字孿生戰場（digital twin battlefield）是數字化戰場的高級階段，是融合了感知控制技術、人工智能（AI）技術、建模仿真技術和數據融合技術于一體的智能化戰場目標愿景，其本質是一個戰場建設數據閉環賦能體系。

數字孿生戰場是在數字孿生、平行仿真和AI等新技術推動下產生的新事物，是一個與真實戰場指揮信息系統平行運行的逼真的虛擬環境或仿真鏡像系統。數字孿生戰場通過與戰場指揮信息系統的互連和信息交互，持續獲取最新的戰場情報信息，建立戰場實體仿真模型，并基于持續更新的戰場情報信息，不斷演化修正戰場實體模型以及不斷優化數字孿生戰場的逼真性；通過數字孿生戰場中戰場實體模型的超實時仿真運行，不斷對敵方目標可能的作戰意圖和行為做出判斷，生成下一時刻的戰場態勢演化走向并反饋給真實戰場指揮信息系統，循環往復，輔助指揮員通過透視未來、料敵先機及防患未然來提前做好應變準備，為態勢預測和決策方案評估等指揮信息系統作戰應用提供支撐。

隨著高超武器、太空武器和無人集群等新質作戰力量的不斷發展，無人戰、精確戰和網絡戰等作戰樣式不斷涌現，使得戰場變化越來越快、作戰行動越來越精準以及時空切換越來越頻繁。上述發展趨勢下，數字孿生戰場的意義主要包括以下3點：

1）更逼真的實戰模擬，以準取勝。實時引接真實戰場數據，建立隨態勢數據逐步逼真的全維立體的虛擬戰場。通過對戰場環境模型與實體模型的精細化建模與動態演化，逼真模擬實戰中戰場態勢由模糊到精確的動態演變過程；數字孿生戰場中的實體行為模型具有智能決策能力，可根據不同環境自主選擇最優決策行為，逼真模擬實戰中敵方的智能決策能力。通過對環境、裝備和作戰行為的逼真模擬，支撐對態勢和作戰計劃的精準判斷。

2）更全面預知優選，以奇取勝。通過超實時推演，預測戰場未來情形，更全面支撐戰場走向分析和作戰方案評估。基于超實時多分支仿真推演，對各類可能情形進行超實時并行推演，提前預測方案執行效果以及敵方所有可能采取的行為，既可支撐指揮員對最壞戰場走向的預知并及時扭轉戰局，又可在指揮員選定作戰方案時對所有敵方應對進行推演，分析挖掘可帶來優勢的奇招。

3）更高效推演預測，以快取勝。充分發揮機器的計算優勢，為作戰指揮控制能力帶來顛覆性的速度提升。基于高性能的計算資源，對全要素的戰場進行高倍速的博弈對抗推演和超實時的態勢演化預測，在極短時間內完成對海量預測分支的推演與數據分析，支撐實時態勢研判與指揮決策，在未來以決策為中心的作戰場景中獲取速度優勢。

2 基于智能博弈的行為建模

2.1智能博弈技術需求分析

數字孿生戰場構建的核心問題之一是數字實體模擬的逼真度問題。對數字孿生戰場實體模擬主要分為2個部分：

1）實體的物理特性和邏輯關系等客觀因素；

2）實體的行為策略。本文重點討論實體的行為策略問題。

在數字孿生戰場實體行為模擬方面，國內目前采用規則建模+實時數據動態驅動的方式，根據實時輸入的真實對抗態勢，動態修正虛擬對抗環境中的實體狀態與行為。但目前藍方模型大多基于規則驅動，缺乏自主決策能力，導致在紅藍對抗過程中，必須預先設置固定的劇本來驅動藍方模型決策，才能完成整個對抗過程。這種劇本預設的對抗方式只能覆蓋有限的對抗情形，無法逼真模擬復雜強對抗戰場環境中的各種敵方應對行為及突發情況。

例如，對于紅方進攻計劃，藍方模型僅能各自劃定防御區域進行防守；對于紅方防守計劃，藍方模型僅能基于計劃預設的來襲位置、來襲航路和攻擊方式等進行攻擊。上述數字孿生實體行為模擬方法無法準確模擬復雜對抗條件下的對手決策與行動，由于存在時間上滯后性問題，只能對真實作戰過程進行回放，故無法支撐指揮員快速、準確和全面預估方案效果。

隨著第3次人工智能技術革命浪潮的到來，以機器學習為助推器的AI技術呈現出向人的思維和學習模式接近的趨勢，新興智能化技術在解決數字孿生戰場實體行為問題上初現端倪。隨著智能決策模型先后在星際爭霸2和空戰格斗等戰術級對抗中戰勝人類選手，宣告計算機解決實時策略博弈，特別是強對抗博弈決策的問題取得突破性進展。目前，智能博弈技術已進入一個高速增長期，成為一項公認的最優可能改變未來時間的技術，為數字孿生戰場實體智能建模問題的突破帶來曙光。

2.2典型實時決策

智 能體建模技術分析

實時策略類游戲（RTS）作為一種典型的電子游戲，本質上是對軍事對抗的簡化模擬，具有以下與軍事對抗相似的特征：對抗中存在戰爭迷霧，僅能獲取不完全信息；多兵種的大規模協同對抗而非單兵種對抗；長時對抗，需通過長期規劃不斷積累優勢。因此，RTS通常作為作戰對抗算法的試驗臺。

目前，RTS主要包括星際爭霸2、Dota2、英雄聯盟和王者榮耀等游戲。2019年1月25日，AlphaStar首次公開亮相，5∶0的戰績擊敗了職業星際爭霸2選手。AlphaStar采用深度強化學習技術，通過游戲自博弈訓練，突破了實時決策和戰爭迷霧等AI即時決策難題。2019年4月，OpenAI公司的AI程序在Dota2游戲中擊敗人類頂級玩家，成為第1個在多人對抗電子競技游戲中擊敗世界冠軍的AI系統；與英雄配置固定的OpenAI相比，王者榮耀中的絕悟AI則更近一步，成為第1個不限制英雄配置的AI系統，并于2019年8月首次擊敗人類職業選手。典型RTS博弈問題解決方案框架如圖1所示。

圖1 典型RTS博弈問題的解決方案框架

1）星際爭霸2：AlphaStar

AlphaStar將星際分解為頂層策略推理、中層戰術管理和底層動作控制3級決策任務。其中，頂層策略推理采用長短期記憶（LSTM）網絡模擬人類記憶過去局勢變化進而預測戰場的能力，決定建造/升級哪些建筑、出動哪些兵種以及何時做哪些事情；中層戰術管理決定戰斗單位如何編組以及如何部署等問題；底層動作控制用于處理戰斗相關的微觀操作。AlphaStar使用注意力（information）機制，基于當前觀測狀態和對手策略，推測迷霧下對手的可能狀態，從而構建較完整的敵我態勢信息，并在此條件下開展決策，從而使得智能體具備利用有限信息做出戰略決策的能力，實時有效地應對不可預見情況，成為一個解決非完美信息下的博弈對抗游戲虛擬指揮官。AlphaStar決策思路如圖2所示。

圖2 AlphaStar決策思路

2）王者榮耀：絕悟AI

絕悟AI基本結構包含模型輸入、模型和模型輸出3個部分，其輸入和輸出均采用分層決策架構。模型輸入考慮空間、單元體狀態、游戲內統計數據以及未知敵人信息4類要素，這4類要素分別輸入4個小網絡中進行單獨處理并輸出。模型輸出采用層次化動作標簽進行動作執行，分為以下2類動作標簽：第1層意圖標簽包括移動、攻擊和技能等行動意圖；第2層動作標簽則將第1層意圖細化為行動位置與行動目標來進行動作執行。絕悟AI神經網絡架構如圖3所示。

圖3 絕悟AI神經網絡架構

分析可知，當前游戲領域實時決策智能體采用的共性技術包括以下2類：1）采用分層決策方法，先將決策問題分為不同層級，再針對不同層級的問題進行針對性建模，從而降低整體決策復雜度；2）采用模型輸入、模型處理和模型輸出3級網絡架構進行模型構建，并針對不同的輸出及其輸出信息特征，選擇合適的網絡模型，從而提高決策質量。

2.3應用難點分析

與邊界條件清晰和目標明確的策略對抗游戲相比，軍事對抗場景的不確定性更強，因此智能博弈技術解決軍事決策問題時主要面臨以下挑戰：

1）戰役級對抗具有的龐大決策空間導致算法求解困難。星際爭霸2的兵力上限僅為200 vs 200的規模，雖然算法復雜度達1016，但也遠小于戰役級對抗的復雜度。在對抗時間長達數十小時的戰役級博弈決策場景中，指揮員需面對未知的敵方策略，對數百個實體進行指揮控制。該場景中，直接構建單個指揮員級的神經網絡進行指揮控制是不可能完成的任務。因此，需采用分段優化和分層決策架構等技術，實現具備長程決策與臨機應變能力戰役級博弈決策智能體。其中，分段優化技術對戰役級場景進行階段性劃分，分段定義優化目標，指導智能體進行多階段優化計算；分層決策架構技術對智能體的決策鏈路進行層次化分解，從而降低每層決策空間的復雜度。

2）缺乏適應智能博弈算法訓練需求的邊界條件可模糊的虛擬對抗環境。現有虛擬對抗環境大多是針對特定領域的推演評估和模擬訓練等任務，無法動態調整場景邊界和仿真模型粒度，而階梯式逐層構建由簡到繁的仿真環境，可滿足智能體能力從零開始、由簡到繁的課程學習式訓練模式。

此外，智能博弈技術在數字孿生戰場應用中還面臨對抗樣本缺乏、決策反饋函數難以界定以及決策合理性難以解釋等挑戰。

3 智能體模型框架設計

面向數字孿生戰場的智能體模型框架如圖4所示。數字孿生戰場構建包含實體特性建模與行為模型建模，本文重點討論行為模型建模中的智能體模型構建與訓練。

圖4 面向數字孿生戰場的智能體模型框架

3.1任務級博弈智能體指令分解架構

指揮員在數字孿生戰場中對抗推演的動作空間較大，AI每次決策有成百上千種可能的操作，若將動作空間展平成一個單一的維度，將有數百萬甚至數十億個可能的動作，但由于作戰指揮中的動作是高度相關的，其中大多數的可能動作均是無效的。因此，采用扁平的離散動作空間表示是不合適的。可參照AlphaStar，創建豐富的操作函數，基于C樣式的函數調用，接受特定類型的一些參數來提供動作空間的可組合性。在框架接口中定義完整的操作函數集和參數有效類型，在每次觀測中指定某類可用函數在當前操作中有效。

與戰役戰術層的作戰決策相比，AlphaStar是面向交戰的或簡單的戰術行動，單個智能體控制的單位數量不超過200個，其應用場景與作戰最大的區別是決策復雜度量級不同。考慮到作戰決策可根據不同指揮關系分為不同層級的決策模型，因此在每個層級采用與AlphaStar相似的決策序列預建模方法來降低智能體的決策復雜度的方法是可行的。作戰決策模型層級劃分如圖5所示。

圖5 作戰決策模型層級劃分

戰役戰術級博弈對抗AI算法在較高層次以任務級指令對戰場作戰實體進行指揮控制，因此要求仿真引擎能夠將AI任務指令分解為作戰實體仿真模型能夠執行的指令，并分發給相應的仿真模型進行計算。對于戰役決策與計劃，一般采用基于案例的規劃、分層規劃（行為樹）、目標自主驅動、狀態空間規劃、進化算法、演繹推理和概率推理等方法；對于戰術決策，可采用恢復性學習、貝葉斯模型、基于案例的推理和神經網絡等方法。以基于行為樹的建模方式實現為例，AI控制任務指令用行為樹的根節點表示，仿真模型控制指令用行為樹的子節點表示。行為樹模型表示的AI控制任務指令分解示意圖如圖6所示。

圖6 行為樹模型表示的AI控制任務指令分解示意圖

圖6中，行為樹模型的運行從根節點開始，對海偵察探測、鎖定目標和對艦打擊為順序節點，表明執行完成后會沿箭頭方向繼續執行序列中的其他子節點；武器選擇為選擇節點，表明從該節點的子節點選擇一個執行，而子節點執行成功則表明選擇節點執行成功；“直到：目標被摧毀”為修飾節點，用于增加子節點的復雜性和能力，表明執行對艦打擊指令直到目標被摧毀。此外，行為樹還包括用于表明所有子節點同時運行的并行節點、無下級子節以及表示完成具體操作的行為節點等。

行為樹可提供大量的流程控制方法，使得AI控制任務指令分解更直觀。與有限狀態機方法相比，樹形結構設計易于指令分解的查看與編輯，因此更適合于描述AI控制任務指令到仿真模型控制指令的分解過程。AI控制任務指令分解執行流程如圖7所示。

圖7 AI控制任務指令分解執行流程

3.2智能決策模型建模框架

面向數字孿生戰場的智能決策模型主要包含聯合任務級、對抗行動級以及單體武器平臺行動級3級智能決策模型。其中，聯合任務級包括聯合對抗中的偵察預警和火力支援等智能決策；對抗行動級涉及實體編隊的編隊偵察、編隊突擊和編隊防空等智能決策行為；武器平臺級對飛機、艦艇和裝甲車輛等武器裝備進行航路規劃和目標選擇等決策。

智能決策模型建模框架可為數字孿生戰場智能決策模型研發人員提供標準化的智能體開發與設計接口，基于智能體建模框架，研發人員可使用標準的算法接口自定義強化學習算法組件，根據標準的接口設計戰場態勢表征、決策動作空間、模型網絡結構和反饋評估函數等關鍵組件，并對各組件進行裝配，從而完成智能博弈模型的構建。本文對面向數字孿生戰場的決策模型輸入層與輸出層進行了構建。

1）面向數字孿生戰場的決策模型輸入層

針對數字孿生戰場面臨的態勢情況，擬構建由單位特征、空間特征和通用特征組成的神經網絡輸入層。其中，單位特征通過深度自注意力網絡（Transformer）提取單位與單位之間的關系；空間特征通過殘差網絡（ResNet）提取空間關系；通用特征采用神經網絡進行標量特征（Scalar）提取。將上述3類特征合并后通過LSTM網絡對歷史信息進行提取，從而構建面向數字孿生戰場的決策模型輸入層。面向數字孿生戰場的決策模型輸入層結構如圖8所示。

圖8 面向數字孿生戰場的決策模型輸入層結構

（1）數字孿生戰場態勢單位特征：包含紅藍雙方坐標、軍別、作戰實體類型（殲擊機、轟炸機和預警機等）、速度、航向、損毀情況、剩余彈藥、是否被鎖定以及當前執行任務等要素。

（2）數字孿生戰場態勢空間特征：基于當前作戰場景的單位信息特點，提取和抽象相關信息，構建敵方對空威脅矩陣、敵方對海威脅矩陣、敵方對地威脅矩陣、敵方單位位置矩陣和我方單位位置矩陣等，從而對信息推斷進行再處理。

（3）數字孿生戰場態勢通用特征：包含對仿真推演時間以及各兵種剩余數量等要素。

2）面向數字孿生戰場的決策模型輸出層

數字孿生戰場決策場景具有力量多樣的特點，想定場景非常復雜，敵我雙方各需調度數十個單位，其中每個單位有不同任務指令。若將神經網絡的決策輸出精確到每個單位的任務指令，則決策空間會變得非常大，從而導致數字孿生戰場決策模型訓練速度越來越緩慢。為支持不同單位執行各種類型任務，考慮到數字孿生戰場決策任務的核心不是對單個作戰實體的操作，而是指揮員對作戰兵力調度的考驗，擬將數字孿生戰場決策智能體輸出構造為指揮員可理解的三元組<謂語，主語，賓語>結構。其中，謂語為各種專家戰術策略任務；主語為包括殲擊機、轟炸機、預警機和干擾機在內的不同類型單位；賓語為任務的主要參數。面向數字孿生戰場的決策模型輸出層中，采用注意力機制進行謂語和賓語選擇，采用指針網絡進行主語選擇。表1給出了智能體決策模型網絡輸出示例。

表1 智能體決策模型網絡輸出示例

面向數字孿生戰場的智能體建模框架構建的圖9

3.3仿真數據模糊化

由于虛擬仿真環境和真實作戰環境不完全一致（包括真實數據少、數據特征缺失以及仿真參數不完備等情況），在仿真環境中構建和優化的數字孿生戰場決策模型在實際戰場中存在模型表現降級的問題。因此，需研究一種具備由仿真環境向實際環境遷移能力的決策模型構建與優化技術，縮小虛實兩域的系統性動態差距，實現數字孿生戰場決策模型在虛實兩域的策略泛化。

針對如何設置模糊邊界條件，形成滿足配智能體訓練需求的不同粒度環境的問題，本文研究了仿真數據模糊化處理方法。首先，建立一套支持隨機化仿真的模型，采用對仿真環境數據域隨機化方法，擴大仿真環境數據分布，使擴大后的仿真環境數據分布盡可能覆蓋真實對抗環境數據分布，并模擬實戰環境中的邊界條件模糊的情況；然后，利用由仿真數據模糊化模型生成的大數據對數字孿生戰場決策模型進行預訓練；最后，通過真實作戰環境中少量數據對決策模型進行針對性提高，從而實現決策模型虛實遷移能力。仿真數據模糊化數據概率分布空間如圖9所示。

圖9 仿真數據模糊化數據概率分布空間

由于孿生戰場環境與真實對抗環境存在差異化特性，本文從以下4個域進行隨機化處理：

1）態勢特征隨機化：指在態勢特征的各個維度加入隨機擾動，增加仿真環境中可觀測態勢特征的多樣性，從而降低仿真環境生成的數據和真實作戰數據的差異度。

2）識別效能隨機化：指對可觀測的態勢信息進行模糊化處理，對不穩定態勢信息（如雙方電子對抗產生的信息）進行模擬，從而提高決策模型在識別性能不穩定情況下決策的魯棒性。

3）模型參數隨機化：指對決策模型的神經網絡參數中加入隨機化參數。例如，在高并發的仿真數據采樣過程中，在決策模型的參數中加入擾動，以提高決策模型在對抗推演中數據的多樣性。

4）指令生成隨機化：指在決策模型的決策指令采樣階段調整決策指令的采樣分布，以實現對決策模型探索率的調整。通過提升探索率，在訓練過程中嘗試一些次優的決策指令，從而探索多樣性決策序列下非常規的對抗推演結果。

將上述4種類域隨機化進行組合，可在一定程度上模擬真實環境的邊界不確定性，從而提高智能決策模型對動態變化的邊界約束的適應性。基于仿真數據模糊化的智能體訓練學習過程中，若域隨機化數據分布變化過大，則會導致智能體收斂優化困難；若域隨機化數據分布變化過小，則不利于智能體對環境變化的適應性的維持。因此，需采用自主域隨機化方法，即在產生域隨機化數據過程中，基于策略模型在真實作戰環境數據上表現性能的好壞，對域隨機化數據的分布進行自動調整，并基于該分布采樣數據對處置策略模型參數進行更新。

基于仿真數據模糊化的智能體訓練學習中，通過自主域隨機化對策略進行更新訓練，可使遷移得到的策略具有更好的泛化性能。

將4種不同形式的域隨機化，會導致智能體更新學習效率降低。因此，需采用基于課程學習的方法，實施由1種域隨機化到多種域隨機化的漸進式學習方案。為提升虛擬孿生戰場環境訓練的智能體對多邊實戰環境的適應能力，本文提出了基于課程學習的自主域隨機化學習方法，其示意圖如圖10所示。該方法具體內容為：在域隨機化更新策略的初始階段，只對態勢數據進行域隨機化處理，在態勢域隨機化情形中待處置策略更新收斂后再對態勢數據和識別效能進行域隨機化，以此類推，直至智能體可在同時采用4種域隨機化的環境中更新收斂。

圖10 基于課程學習的自主域隨機化學習方法示意圖

4 結束語

當前馬賽克戰、有人/無人協同作戰和蜂群作戰等新型作戰概念與作戰樣式不斷涌現，無人和秒殺等智能化戰爭的作戰特征正加速形成，對抗態勢充滿迷霧、作戰進程顯著加快且作戰力量多元一體，急需構建數字孿生戰場，以智能化的技術和手段輔助作戰人員透析未來戰場各種可能，在有限的時間窗口內精準研判與謀劃。本文分析了數字孿生戰場對智能博弈技術的需求，設計了智能體建模框架，分析了智能博弈技術軍事場景應用面臨的問題及其技術方法。目前，智能博弈技術仍處于初級智能的發展階段，尚不具備邏輯推理能力，無法對輸出行為決策做出合理解釋，后續需對智能博弈技術的實戰化應用進行深入研究。

本文發表于《指揮信息系統與技術》

登錄后免費查看全文

立即登錄