無人集群系統(tǒng)自主協(xié)同技術綜述

無人機10086

2021年7月29日 10:38

瀏覽：3721 評論：1 收藏：2

無人集群系統(tǒng)自主協(xié)同技術綜述

張婷婷123 藍羽石2 宋愛國3

本文發(fā)表于《指揮與控制學報》第7卷第2期

1.陸軍工程大學指揮控制工程學院江蘇南京 210017

2. 中國電子科技集團公司第二十八研究所江蘇南京 210017

3. 東南大學儀器科學與工程學院江蘇南京 210096.

摘要 無人集群系統(tǒng)是近年來國內(nèi)外軍事領域的研究重點，正在推動無人作戰(zhàn)樣式由“單平臺遙控作戰(zhàn)”向海陸空協(xié)作的“智能群體作戰(zhàn)”轉(zhuǎn)變。綜述了近年來國內(nèi)外在無人集群系統(tǒng)方面的最新研究進展，包括軍事、國防和學術領域在無人系統(tǒng)自主協(xié)同技術方面的探索和實踐，闡述了無人集群系統(tǒng)相關的關鍵技術，包括多Agent系統(tǒng)自主協(xié)同、多Agent系統(tǒng)態(tài)勢共識、未知系統(tǒng)動力學、群體智能理論與技術、機器學習方法、行為決策方法以及實驗場景模擬等，分析了不同關鍵技術的技術特征、面臨挑戰(zhàn)和發(fā)展趨勢。

關鍵詞 無人系統(tǒng)，自主協(xié)同，群體智能，多智能體系統(tǒng)

2018年美國國防部頒布《國防部人工智能戰(zhàn)略摘要》，強調(diào)人工智能技術在軍事領域的應用，并于同年發(fā)布了無人集群系統(tǒng)并行作戰(zhàn)場景[1]。2017年至今美國戰(zhàn)略和預算評估中心連續(xù)發(fā)布針對中俄兩國的馬賽克式集群作戰(zhàn)等顛覆性作戰(zhàn)模式，打造全球范圍內(nèi)的武器系統(tǒng)協(xié)同作戰(zhàn)[2]。

我國國務院在2017年提出《新一代人工智能發(fā)展規(guī)劃》，倡導人工智能領域的軍民融合，以加快國防技術的成果轉(zhuǎn)化，并為指揮決策、軍事論證和國防科研提供有力支撐[3]。其中，以群體智能為核心技術的無人集群系統(tǒng)自主協(xié)同作戰(zhàn)是未來戰(zhàn)爭重要樣式，美軍已經(jīng)啟動高度自主智能化集群武器裝備的研究。我軍也在積極探索利用人工智能算法提高無人系統(tǒng)的智能化水平，以取得戰(zhàn)爭主動權。

進一步看，現(xiàn)代戰(zhàn)爭中戰(zhàn)場環(huán)境瞬息萬變，僅僅通過單系統(tǒng)的協(xié)作不可能完全掌握戰(zhàn)場環(huán)境和態(tài)勢，海、陸、空多類智能系統(tǒng)的協(xié)同感知、聯(lián)合攻擊必將成為未來戰(zhàn)爭的作戰(zhàn)模式。2020年1月，中國科學院發(fā)布的《2019年人工智能發(fā)展白皮書》中，將 “群體智能技術” 列為了8大人工智能關鍵技術之一[4]。同時，無人裝備具有低成本、小型化、功能單一、組網(wǎng)靈活等特性，使得無人裝備集群作戰(zhàn)通過數(shù)量優(yōu)勢來打擊敵人。在網(wǎng)絡環(huán)境下，這類由異質(zhì)、異智系統(tǒng)（智能體）通過彼此之間的信息交互構成的多維異構無人集群系統(tǒng)，看作是異構智能群體系統(tǒng)，即多智能體（Agent）系統(tǒng)。其中，Agent是對外界的刺激作出適當反應的實體，不是被動的接受消息和控制。

展望未來，誰懂得如何最好地使用無人集群智能系統(tǒng)，誰就有望在戰(zhàn)爭中取得巨大優(yōu)勢。

未來研究方向

無人集群系統(tǒng)自主協(xié)同技術綜述的圖1

雖然目前國內(nèi)外針對多Agent系統(tǒng)協(xié)同問題有部分成果可供借鑒，針對未來面向OODA（Observation觀察、Orientation判斷、Decision決策、Action行動）框架下無人系統(tǒng)群體自主協(xié)同作戰(zhàn)這一新問題，需要建立多Agent協(xié)同的領域問題和計算框架，并能夠在多兵種、多武器平臺等應用層面形成戰(zhàn)術級解決方案，目前的研究成果還無法支撐。需要識別智能群體聚集特征，建立協(xié)同認知觀察、自主任務規(guī)劃、復雜戰(zhàn)術協(xié)同、群體學習的多智能體系統(tǒng)協(xié)同作戰(zhàn)基本理論和方法體系。對應于需求，針對大規(guī)模集群協(xié)同行動主要的研究方向和挑戰(zhàn)有：

（1）支持無人集群自主協(xié)同的系統(tǒng)架構設計。為支撐面向高動態(tài)場景的自組織無人集群系統(tǒng)的自主協(xié)同，需要改變固定契約體系架構模式，構建支持在線學習、邊緣決策的動態(tài)契約的無人集群系統(tǒng)分布式體系結構。

（2）無人集群系統(tǒng)自主協(xié)同感知和信息共享。作戰(zhàn)協(xié)同需要識別實例信息，包括作戰(zhàn)條例、規(guī)劃描述、殺傷鏈路等。態(tài)勢感知和共享技術需要達到軍事決策和協(xié)同需要的粒度，實現(xiàn)復雜作戰(zhàn)場景的態(tài)勢抽取、表示和融合。

（3）無人集群系統(tǒng)自主任務分配與規(guī)劃技術。針對自組織和他組織有機結合的無人集群特點，關注任務分配的準確性與時效性，增強作戰(zhàn)規(guī)劃的輔助決策能力和任務規(guī)劃系統(tǒng)的智能性，實現(xiàn)執(zhí)行過程中在智能體之間動態(tài)任務分配。

（4）無人集群系統(tǒng)智能協(xié)同決策技術。在網(wǎng)絡分割、信息不完備等帶來的系統(tǒng)和環(huán)境不確定性情況下，保持智能群體系統(tǒng)協(xié)同有效的戰(zhàn)術攻擊能力，實現(xiàn)群體智能系統(tǒng)全局狀態(tài)空間和操作空間的時變靈活性。

（5）無人集群系統(tǒng)戰(zhàn)術協(xié)同算法高效學習、群體自學習能力。協(xié)同作戰(zhàn)需要智能群體在空間和時序上形成有效戰(zhàn)術配合，具有動態(tài)任務、情景自適應的群體自學習和自演化能力。隨著無人系統(tǒng)數(shù)量和打擊目標數(shù)量增加，群體的行動策略維度、狀態(tài)組合呈指數(shù)上升，高維度策略高效學習是集群協(xié)同的難題。

無人集群系統(tǒng)

無人集群系統(tǒng)自主協(xié)同技術綜述的圖2

隨著人工智能技術的興起，越來越多的領域嘗試用人工智能技術解決無人系統(tǒng)領域的工作，使其具有智能性以期實現(xiàn)自主協(xié)同能力。

目前美軍武器裝備逐步由大型集成裝備轉(zhuǎn)變?yōu)榈统杀拘⌒蜔o人裝備。在阿富汗和伊拉克戰(zhàn)役中運用了無人駕駛飛行器（UAV），是武器無人化的一個開端。尤其是2018年委內(nèi)瑞拉恐怖分子用無人機在閱兵儀式上暗殺總統(tǒng)馬杜羅，這是世界上第一例無人機刺殺總統(tǒng)案件，預示著自主武器會是將來應用的熱點。美軍Alpha項目發(fā)布了2025年裝備研發(fā)計劃[5]，軍隊內(nèi)將配備一定比例的無人裝備，包括納米機器人、微型機器人、大型UAV以及其它無人裝備和自動化系統(tǒng)。這些無人裝備在任務范圍內(nèi)具有自治可調(diào)的自主權、或受監(jiān)督的自主權、或者完全的自主權。

進一步，2018年美軍提出分布式集群作戰(zhàn)樣式[6]，無人系統(tǒng)由“單平臺遙控作戰(zhàn)”向“智能集群作戰(zhàn)”發(fā)展。DARPA在2003年就曾嘗試組建一個由120個軍事機器人組成的部隊，裝上蜂群智能軟件，模仿昆蟲的組織和行為，機器人形成蜂群結構使整個系統(tǒng)具有較高的智能[7-8]。2020年9月，阿塞拜疆運用6架無人機集群，在24小時內(nèi)摧毀亞美尼亞一個坦克步兵團。無人集群作戰(zhàn)已經(jīng)到來，訓練有素的無人集群具有極大殺傷力。

美國陸軍正在加大力度研究蜂群式UAV系統(tǒng)，該蜂群系統(tǒng)具備快速、準確執(zhí)行偵察和戰(zhàn)斗任務的能力，借鑒蜜蜂采蜜的仿生學機理來模擬蜂群式無人系統(tǒng)的自主決策，此技術目前國際上處于探索階段。

美軍海軍研究部提出自主式智能網(wǎng)絡系統(tǒng)計劃，構建自組織性無人集群系統(tǒng)。該系統(tǒng)是自主控制大量無人系統(tǒng)組成的部隊，實現(xiàn)水中、地上、空中作戰(zhàn)，形成跨域協(xié)作的牢不可破的互聯(lián)網(wǎng)作戰(zhàn)體系[9]。

從軍用領域來說，我國無人機技術已進入世界領先，形成了一套無人機戰(zhàn)斗系統(tǒng)，已在部分部隊列裝。2019年中國電子科技集團公司實現(xiàn)了200架無人機編隊飛行，并于2020年10月進行了無人機蜂群作戰(zhàn)系統(tǒng)試飛。2020年9月國內(nèi)一家民營企業(yè)，成功地組織了3051架無人機同時集群飛行，創(chuàng)下了集群控制新的世界記錄。但總體來說，我軍無人武器系統(tǒng)作戰(zhàn)運用研究還處于自動控制階段，無人武器基本上是依靠有人裝備一對一遙控指揮，即各型無人系統(tǒng)通過地面站進行指揮與控制，無人平臺之間協(xié)同能力不高或無法協(xié)同。

考慮到無人武器系統(tǒng)智能化協(xié)同管控能力有限，無法適應瞬息萬變的戰(zhàn)場局勢，未來戰(zhàn)場對無人武器系統(tǒng)智能化控制和協(xié)同作戰(zhàn)運用的需求日趨強烈，提升無人武器系統(tǒng)控制和作戰(zhàn)管理水平，已成為未來體系作戰(zhàn)亟待突破的瓶頸和未來無人武器系統(tǒng)體系作戰(zhàn)能力形成必須解決的關鍵問題。

民用領域研究多智能體協(xié)作同樣具有廣泛的應用場景。例如，無人自主系統(tǒng)可用于環(huán)境監(jiān)測，突破了地理空間的限制，對沼澤、湖泊、濕地等各種人員不便抵達或者抵達成本過高的復雜地理環(huán)境進行取樣作業(yè)。股票市場上的交易機器人博弈[10]，廣告投標智能體通過在線廣告交易平臺互相競爭[11]，電子商務協(xié)同過濾算法預測用戶興趣[12]，交通多路口智能協(xié)調(diào)優(yōu)化[13]等等。

當前無人集群系統(tǒng)最大的挑戰(zhàn)之一是如何讓無人系統(tǒng)內(nèi)的多個自主系統(tǒng)學會一起完成任務，學會彼此合作和相互競爭，提高群體智能。迄今為止戶外自主空中集群系統(tǒng)可以支持30架無人機自主協(xié)同編隊和避免[14]。采用Agent作為智能研究對象，未來的無人系統(tǒng)也會是“芯片+算法”的一個即插即用型智能系統(tǒng)。涉及的關鍵技術領域有：多Agent系統(tǒng)自主協(xié)同、多Agent系統(tǒng)態(tài)勢共識、未知系統(tǒng)動力學、群體智能理論與技術、機器學習方法、行為決策方法。在學術研究領域，國內(nèi)外的大學和研究機構在無人集群協(xié)同技術方面開展了前沿性研究，該領域的多個關鍵技術取得了許多理論成果。

自主協(xié)同關鍵技術

無人集群系統(tǒng)自主協(xié)同技術綜述的圖3

2.1 自主協(xié)同多Agent系統(tǒng)

無人集群系統(tǒng)自主協(xié)同首要解決時空的一致統(tǒng)一、信息的一致表達和態(tài)勢的一致理解等問題，從而實現(xiàn)任務的協(xié)同，支撐跨無人平臺異構傳感器要素級協(xié)同。因此，無人集群系統(tǒng)的難點和關鍵技術是多無人系統(tǒng)協(xié)同控制問題。

文獻[15]歸納了有人/無人自主協(xié)同研究挑戰(zhàn)，包括高動態(tài)和自組織之間的矛盾、局部感知和全局最優(yōu)決策之間矛盾、智能融合與穩(wěn)定之間的矛盾、靈活性與安全性之間的矛盾。并提出協(xié)同在4個層面的科學問題，包括系統(tǒng)層面組織架構和協(xié)同模式、決策層面任務分配與行為規(guī)劃、控制層面合作行為控制、安全層面自主協(xié)同安全指揮控制。無人集群系統(tǒng)上也面臨這些關于協(xié)同的共性問題，值得深入研究。

文獻[16]研究了多Agent共享目標系統(tǒng)，解決系統(tǒng)內(nèi)Agent協(xié)同問題，提出了一種TM_Q-Learning的多Agent強化學習方法，結合基于觀察的隊友建模技術（Observation-based Teammate Modeling Technique）以及傳統(tǒng)的Q-Learning方法，通過新的協(xié)作動作選擇策略，改進多Agent協(xié)同，使其效率得到了有效提高。文獻[17]研究了不穩(wěn)定服務質(zhì)量（Quality of Service）環(huán)境下，針對多Agent協(xié)同系統(tǒng)因Agent獎勵分配不均而產(chǎn)生局部最優(yōu)策略的問題，每個Agent在其每輪迭代中均隨機改變與其交互（協(xié)同）的Agent，通過與其它具有不同獎勵值的Agent反復交互學習，得到最優(yōu)策略，同時探討了不穩(wěn)定通信服務對Agent獎勵值產(chǎn)生誤差的問題。文獻[18-19]認為在異構環(huán)境下的多Agent系統(tǒng)中，同一決策協(xié)議不能適用于所有Agent，結合Agent協(xié)同信念的概率分布，提出了一種異構環(huán)境下多Agent協(xié)同系統(tǒng)的行為學習策略，以解決一些實際社會困境（Social Dilemma），如囚徒困境等，并通過蒙特卡洛模擬實驗表明，該方法可有效提高Agent的協(xié)同效果。

文獻[20]研究了Agent控制方向未知情況下，高階多Agent系統(tǒng)的協(xié)同控制問題。利用自適應反演技術（Adaptive Back-stepping Technology）來解決在每一階Agent行為中控制方向未知的問題，同時還在每一階中使用與Nussbaum方程多個項相關的條件不等式，來解決無向和有向拓撲中的共識問題。通過實驗多Agent能較好達成共識并漸近收斂到穩(wěn)定狀態(tài)。文獻[21-22]分別通過線性和離散描述多Agent系統(tǒng)，對協(xié)同追蹤技術進行了研究。文獻[23]認為深度強化學習（Deep Reinforcement Learning，DRL）可以解決多Agent協(xié)同對抗任務中的高維問題，但在復雜環(huán)境下多Agent因局部最優(yōu)選擇，會導致無法得到全局最優(yōu)解。通過引入MPCS（Multi-Policy Control System）來實時自主地控制Agent的行為，并用一個對抗游戲測試MPCS，結果表明在復雜環(huán)境下MPCS能使多Agent對抗行為更為有效。文獻[24]研究了基于多Agent系統(tǒng)的無人機集群對抗系統(tǒng)，探討了分布式的集群對抗決策控制，其控制框架分上下兩層，上層為Multi-agent層，由相互聯(lián)系的多個Agent構成，下層為個體Agent決策層，通過采集上層環(huán)境信息和態(tài)勢信息形成決策。文獻[25]研究了動態(tài)拓撲結構下多Agent協(xié)同控制問題，設計HJB（Hamilton-Jacobi-Bellman Equations）方程計算最優(yōu)解，以達到納什均衡（Nash Equilibrium）。

2.2 多Agent系統(tǒng)態(tài)勢共識

態(tài)勢共識是智能集群控制與決策的依據(jù)。基于智能個體所載傳感器，實現(xiàn)集群的態(tài)勢感知，獲得更廣的觀測范圍、更高的定位精度以及更高的魯棒性。

文獻[26]通過基于位置的共識主動性（Position-based Stigmergy）和神經(jīng)模糊學習（Neuro-fuzzy Learning），來增強多Agent系統(tǒng)的協(xié)同態(tài)勢感知能力。即利用用戶移動設備產(chǎn)生地理位置信息，來偵測用戶社交事件態(tài)勢的發(fā)生，其中共識主動性用來短期記憶局部環(huán)境下多個用戶Agent協(xié)同的位置標記，神經(jīng)模型學習用來解決態(tài)勢（即社交事件）發(fā)生的不確定性。文獻[27]利用模糊共識模型（Fuzzy Consensus Model）來解決多Agent系統(tǒng)中存在的某些Agent分析結果不一致進而影響態(tài)勢判斷的問題。認為一個能自動標識當前態(tài)勢的系統(tǒng)，為了確保其可靠性，往往會部署多個冗余的智能軟件Agent來分析傳感器數(shù)據(jù)。然而對于同一環(huán)境下的同一現(xiàn)象，不同的Agent可能產(chǎn)生不一致的結果，從而影響系統(tǒng)對當前態(tài)勢的判定。該文獻通過將基于模糊學習的共識模型整合到系統(tǒng)的態(tài)勢感知框架中，能讓不一致Agent達成共識，較好地解決了這個問題。文獻[28]研究了基于Agent分布式計算的戰(zhàn)場態(tài)勢感知網(wǎng)絡，利用無人機和無人戰(zhàn)車等技術，基于分布式計算和多Agent系統(tǒng)，構建戰(zhàn)場自組織智能感知網(wǎng)絡，通過結合A*和蟻群算法來實現(xiàn)實時路徑規(guī)劃，解決了傳統(tǒng)自組織網(wǎng)絡較慢或難以收斂的問題，并且其不依賴于固定的基礎網(wǎng)絡，可有效提高戰(zhàn)場感知能力。文獻[29]提出了基于事件驅(qū)動的節(jié)點聚集方案以解決多組共識問題，該方案能確保在Agent系統(tǒng)抽象出的無向連接圖中，每個潛在的子組都有相對強的連接度，同時為減少不必要的通訊開銷，通過耦合子組內(nèi)部和外部信息，設計了一種分布式的事件驅(qū)動控制器。文獻[30]同樣研究多Agent系統(tǒng)網(wǎng)絡中多組共識問題，但采用的方法是基于交換Impulsive策略，提出了一種使用在變換時間取樣的瞬時位置數(shù)據(jù)和速度數(shù)據(jù)的分布式交換的Impulsive協(xié)議。

在對抗系統(tǒng)中，Agent達成共識的性能（速度）對于決策制定和行為選擇至關重要，而這些因素又會進一步影響態(tài)勢變化。因此一些文獻對于Agent的共識性能（Consensus Performance）開展了研究：如文獻[31]使用LQR最優(yōu)控制（Linear Quadratic Regulator）實現(xiàn)了線性速度最優(yōu)的態(tài)勢共識；文獻[32]引入了一個多跳傳播（Multi-hop relay）的共識協(xié)議來加快均衡共識；文獻[33]基于事件觸發(fā)控制，研究了多Agent系統(tǒng)下基于事件的有限代價的共識（Guaranteed cost consensus）問題。此外，對于分布式系統(tǒng)下的共識控制，如第二階共識(Second-order consensus)的控制問題。文獻[34]研究了如何改進自治Agent的感知能力，包括主動感查（Active Perception）、態(tài)勢感知（Situation Awareness）和上下文感知（Context Awareness），并針對態(tài)勢感知提出了一個去中心化的多Agent系統(tǒng)環(huán)境。該方法通過分解事件態(tài)勢的上下文，解決多Agent系統(tǒng)態(tài)勢共識問題。

2.3 未知系統(tǒng)動力學

系統(tǒng)動力學以控制論、控制工程、系統(tǒng)工程、信息處理和計算機仿真技術為基礎，研究復雜系統(tǒng)隨時間推移而產(chǎn)生的行為模式。集群動力學系統(tǒng)演化分析與協(xié)同控制是美國《科學》雜志2014年世界十大科技前沿研究之一，在無人機編隊、敏捷制造、深空深海探測、智能電網(wǎng)等領域具有廣闊的應用前景。在多Agent系統(tǒng)中，若Agent的動力學特性未知，那么多個Agent就難以達成一致，無法實現(xiàn)跟隨、集群和追蹤等行為。目前，該領域多從理論角度研究在未知動力學下的多Agent協(xié)同問題，且現(xiàn)有的分布式算法僅能處理目標函數(shù)已知的協(xié)同問題，如協(xié)同對抗問題中對手策略不確定，使得環(huán)境處于未知狀態(tài)，需要解決未知環(huán)境下多Agent系統(tǒng)動力學行為特征。

文獻[35]采用以數(shù)據(jù)為驅(qū)動的增強學習方法，研究離散時間動力學未知的多Agent系統(tǒng)一致控制問題（Consensus Control Problem）。通過自適應規(guī)劃法和增強神經(jīng)網(wǎng)絡，在無系統(tǒng)模型情況下僅靠系統(tǒng)數(shù)據(jù)實現(xiàn)Agent跟隨。文獻[36]研究了未知系統(tǒng)動力學下多Agent雙角色零和博弈中的群集策略，采用的方法是近似動態(tài)規(guī)劃（Approximate Dynamic Programming）和神經(jīng)網(wǎng)絡。文獻[37]采用系統(tǒng)的本地相對狀態(tài)來代替全局狀態(tài)，以解決二階非線性多Agent系統(tǒng)中Leader-Follower同步問題。文獻[38]采用神經(jīng)網(wǎng)絡獲得近似的控制系數(shù)矩陣，提出一種“演員Agent-評論家Agent”模式，以一種“前饋時間”的方式解決有限空間的分布式跟蹤控制問題。文獻[39]采用一種鄰居間分布式模糊適應控制協(xié)議，解決動力學未知的協(xié)作跟蹤控制問題，實驗證明同步誤差滿足一致最終有界的李雅普諾夫穩(wěn)定性（Lyapunov Stability），同類文獻還有[40-43]等。文獻[44-45]認為傳統(tǒng)的增強學習方法不能完全解決未知環(huán)境的路徑規(guī)劃問題，提出Agent無需區(qū)分位置的“已訪問”和“未訪問”狀態(tài)，結合有監(jiān)督學習（Neural Networks）和無監(jiān)督學習（Kernel Smoothing）方法，研究了增強學習框架下解決未知環(huán)境的路徑規(guī)劃問題。文獻[46]認為未知環(huán)境中自主協(xié)作規(guī)劃存在任務死鎖及協(xié)作效率不高的問題，提出一種基于傳統(tǒng)啟發(fā)式學習方法（蟻群算法）的多Agent協(xié)作策略。環(huán)境是開放的，文中采用隨機游走的方法對環(huán)境進行搜索，采用黑板模型以保證通訊，引入距離因子和控制因子的改進蟻群算法以避免死鎖，并提供協(xié)同搬運的仿真應用。文獻[47]認為概率分析法可以很好地應對在不確定環(huán)境中多Agent的路徑規(guī)劃問題，但實際環(huán)境中會耗費大量資源（如時間和能量）。文獻[48]解決未知道路狀態(tài)的城區(qū)多車輛協(xié)同問題，提出一種多Agent的D-star算法和動態(tài)路由問題的求解方法。

2.4 群體智能理論與技術

群體智能（Swarm Intelligence，SI）一直被認為是無人化作戰(zhàn)的突破口，作為一種Game-Changing的顛覆性技術，已在學術界和國防領域受到廣泛關注。群體智能源于對以螞蟻、蜜蜂等的群體行為的研究，群體沒有中心控制節(jié)點，具有自組織性，采用分布式控制，利用集體學習機制，使單體低級智能聚合成高智能的群體智能。因此，仿生學原理越來越多的應用于群體智能的研究。多機器人系統(tǒng)利用仿真生學機理構建群體仿生系統(tǒng)，提高系統(tǒng)整體工作效率，減少局部故障對整體的影響。倫敦大學學院計算機科學系教授汪軍教授及其團隊一直從事多智能體協(xié)作的研究。汪軍認為，目前通用人工智能研究有兩個大方向，一是大家熟知的AlphaGo，這是單智體，其背后的經(jīng)典算法是深度強化學習；另一個就是多智體（Multi-agent），也可以理解為群體智能，這是人工智能的下一個大方向。

文獻[49]認為在很多生物系統(tǒng)中，大規(guī)模的復雜行為可以通過眾多簡單個體的隨機移動和協(xié)調(diào)來實現(xiàn)，開發(fā)了單自由度（展開和收縮）的機器“粒子”，聚集形成一個“粒子機器人”系統(tǒng)，使其實現(xiàn)了自組織、自適應、高魯棒性的集群行為。文獻[50-51]通過對多機器人行為聚集研究，分析多機器人系統(tǒng)分布式合作及智能形成機理。文獻[52]認為模擬狼群在合作狩獵中的行為機制，有助于無人機集群對抗決策體系的優(yōu)化設計，并提出了狼群智能與無人機集群協(xié)同決策相融合的若干思路和建議。文獻[53-54]把動物預測機制引入到了無人艇群集動力學中，提出基于生物集群動力學相變調(diào)控的自主無人艇集群協(xié)同關鍵技術，以提升群集陣列的效率和魯棒性。

目前群體智能協(xié)同優(yōu)化算法包括蟻群優(yōu)化、粒子群優(yōu)化、蜜蜂啟發(fā)算法、細菌覓食優(yōu)化，螢火蟲算法、魚群優(yōu)化等，已被證明是解決靜止環(huán)境下協(xié)同優(yōu)化問題的有效方法。但是，無人集群系統(tǒng)往往面臨動態(tài)環(huán)境，對于這樣的動態(tài)優(yōu)化問題（Dynamic Optimization Problem，DOP），傳統(tǒng)的SI算法難以找到動態(tài)環(huán)境下的最優(yōu)解。

文獻 [55]給出了在算法中集成的增強策略，以解決群體智能動態(tài)優(yōu)化（Swarm Intellgence Dynamic Optimization，SIDO）中使用的動態(tài)變化、性能測量和基準生成器。文獻[56]利用平均場論解決多智能體交互問題，極大地簡化了交互模式，使計算量大幅降低，能夠解決成百上千甚至更多數(shù)量的智能體的交互問題。

上述研究包括單體智能與群體智能之間的博弈、群體智能的涌現(xiàn)機制，這些方法都為無人集群系統(tǒng)自主協(xié)同的研究提供了方法參考。

2.5 機器學習方法

人工智能和機器學習技術的不斷發(fā)展，以及其在多個領域的成功應用，使得其成為發(fā)展集群系統(tǒng)協(xié)作的關鍵技術。與傳統(tǒng)的基于知識和規(guī)則的控制技術相比，機器學習技術對于環(huán)境的動態(tài)變化、智能體間的交互協(xié)作具有擁有更強大的感知和協(xié)調(diào)控制能力，形成啟發(fā)式控制方式[57]。

目前多智能體深度強化學習用于無人集群系統(tǒng)協(xié)同行為策略學習是一個主流的方法。無人系統(tǒng)通過試探和獎勵反饋形成協(xié)同行為。針對多Agent系統(tǒng)，每個Agent的行為策略不只取決于自身的策略和環(huán)境的反饋，同時還受到其他智能體行為和合作關系的影響。文獻[58]將其他Agent當作環(huán)境的一部分，Agent在學習過程中，其他Agent的策略同時發(fā)生變化，使得環(huán)境變成動態(tài)，該方法在小規(guī)模離散“狀態(tài)-動作”空間下策略學習具有一定的效果，但對復雜問題無法獲得理想解。文獻[59-60]將所有Agent的狀態(tài)和動作集中在一起，構成一個擴張的狀態(tài)和動作空間，采用集中式強化學習算法訓練所有的Agent。但隨著Agent數(shù)量的增加，會導致狀態(tài)和動作空間過大，以至于無法進行有效的搜索。2017年，文獻[61]提出了一種多智能體深度確定性策略梯度算法（Multi-Agent Deep Deterministic Policy Gradient，MADDPG），該算法考慮到智能體之間的協(xié)同與對抗關系，實現(xiàn)了多智能體在協(xié)同與對抗場景中，連續(xù)動作空間下自主行為決策學習。MADDPG算法首次采用“中心化訓練-去中心化執(zhí)行”（Centralized Training Decentralized Execution，CTDE）的學習結構，成為目前最常用的一種多智能體強化學習算法結構[62-67]，該結構是對所有智能體策略進行估計，訓練時充分利用全局信息，執(zhí)行時策略只用局部信息，以緩解多智能體協(xié)同造成的環(huán)境不穩(wěn)定問題，從而實現(xiàn)多智能體協(xié)同行為策略。2017年和2018年DeepMind公司又推出CTDE學習結構下的VDN[68]和QMIX[69]算法，解決離散動作空間下行為策略學習。后繼的Weighted QMIX[70]、QPLEX[71]、RODE[72]、ROMA[73]等都是基于CTDE學習結構下的多智能體協(xié)同行為策略算法。到目前為至，清華大學提出的RODE算法在星際爭霸平臺上效果最好。文獻[74]又在此基礎上考慮多智能體之間的通信動態(tài)特性。這些算法本質(zhì)上遵循多智能體強化學習的馬爾可夫決策過程（Markov Decision Process，MDP）[75]，其策略求解方法包括兩個重要的分支：第一類為基于價值函數(shù)的求解方法，其本質(zhì)是用一個深度卷積網(wǎng)絡來表示狀態(tài)行為值函數(shù)，代表算法有DQN（Deep Q Network）、雙DQN[76]等；第二類為基于策略梯度的求解方法，能夠直接在策略梯度的方向上更新網(wǎng)絡參數(shù)，代表算法包括策略梯度（Policy Gradient，PG）[77]、深度策略梯度（Deep Policy Gradient，DPG） [78]等。近幾年，以行為者-評論家（Actor-Critic，AC）[79]為架構的深度強化學習算法在理論與實踐方面有著長足的發(fā)展，正逐步成為解決智能體行為決策問題的主流[80-81]。文獻[82-84]將這種AC框架與多智能體強化學習相結合，應用于大規(guī)模、高維度的多智能體策略學習。該方法中每個智能體通過自身的觀測值確定合適的動作，統(tǒng)一一個評論家，該評論家能夠接受所有行為者的狀態(tài)信息，用于優(yōu)化行為者的聯(lián)合策略，這種方式基本解決了策略方差過大的問題，是多智能體強化學習領域策略學習的一個重要研究方向。

2.6 自主行為決策方法

自主行為決策是智能群體實現(xiàn)智能化的核心內(nèi)容，受限于人工智能的發(fā)展水平，具備自主決策行為能力的智能體還處于初級的研究階段，無法有效的應用于真實的作戰(zhàn)場景中。為此，眾多的研究者們提出了多種關于行為決策的方法，以期實現(xiàn)智能群體行為上的智能。

微分對策（Differential Game）理論提供了一種從微分方程角度求解最優(yōu)目標問題的方法，可以將智能群體的行為決策問題演化為數(shù)值優(yōu)化問題。文獻[85]采用了開環(huán)微分對策的Nash均衡點的設計算法，針對若干智能群體通過估計它們的終端狀態(tài)，實現(xiàn)編隊控制的行為策略。文獻[86]基于微分對策法用牛頓-歐拉方程建立了含擾動變量的n個智能體數(shù)學模型，模型通過降維求解Riccati方程組給出數(shù)值算例，實現(xiàn)多智能體的飛行策略。文獻[87]提出了基于不確定信息的多智能體微分對策模型，并在智能群體博弈模型中引入了態(tài)勢矩陣，為不確定性信息下的博弈過程提供最優(yōu)的行動策略。然而，基于微分對策的算法需要精確的數(shù)學模型，受限于復雜多變的戰(zhàn)場環(huán)境，其在智能群體實際行為決策中應用較為困難。

進化算法（Swarm Intelligence）是以集群動物的自組織行為為模型，在解空間中不斷迭代尋優(yōu)，搜尋近似最優(yōu)解的算法。以粒子群算法、遺傳算法為代表的進化算法常用于解決智能群體的協(xié)同任務規(guī)劃問題，具有自適應強、易實現(xiàn)、計算復雜度低的優(yōu)點。文獻[88]提出了一種近似算法ARES，用于生成動作序列的最優(yōu)方案。ARES使用粒子群優(yōu)化，對漸近線與粒子種群進行自適應調(diào)整，產(chǎn)生一組用于生成V型編隊的動作序列。文獻[89]以遺傳算法為基礎，通過設計一個混合適應度函數(shù)，并利用約束滿足問題檢驗解的有效性，求解出了由一組智能群體和作戰(zhàn)系統(tǒng)組成的復雜任務規(guī)劃問題。但由于進化算法初始值設置的隨機性，在搜尋過程中容易陷入局部最優(yōu)，通常只能求解近似全局最優(yōu)值。

另外，文獻[90]基于影響圖法（Influence Diagram Method），提出了一種關于目標圖規(guī)劃的算法，通過構建2V1的作戰(zhàn)場景任務，幫助智能體做出合理的機動決策。文獻[91]根據(jù)A*算法的一種啟發(fā)式搜索方式，將由Dubins路徑構造的加權圖應用于智能體搜索策略問題中，生成安全可行的路徑。文獻[92]為了提高動態(tài)不確定環(huán)境下智能體的自主決策能力，建立了一種基于模糊推理Petri網(wǎng)的智能行為決策方法，實現(xiàn)智能體攻擊與防御的自主行為。然而，雖然智能體的行為決策問題得到了許多學者的關注，且進行了大量的理論研究和實驗分析，取得了不少進展，但在實際應用中仍面臨很多問題。

在決策層面，無人集群系統(tǒng)協(xié)同任務規(guī)劃方面也取得了大量的研究成果[93-95]。在任務執(zhí)行低代價需求下考慮協(xié)同約束，多Agent系統(tǒng)協(xié)同任務分配看作是復雜約束條件下的最優(yōu)化NP問題[96]。解決此類問題常用的方法有：混合整數(shù)線性規(guī)劃(Mixed Integer Linear Programming, MILP)法、基于協(xié)商的合同網(wǎng)法和粒子群算法、遺傳算法等智能算法。文獻[97]采用混合整數(shù)線性規(guī)劃方法來對目標分配問題進行了求解，獲得了較好的分配效果，其后又將該問題描述成動態(tài)規(guī)劃問題進行了求解[98]。除此以外，文獻[99]提出了基于多方協(xié)議（Multi Party Computation，MPC）的多無人機機協(xié)同任務分配方法，通過合同網(wǎng)拍賣機制將任務委派給無人機進行投標競爭，以最低代價執(zhí)行的此任務無人機將獲得這個任務的執(zhí)行權。

航跡規(guī)劃是多無人機任務規(guī)劃中的另一主要問題[100-102]。在規(guī)劃中要考慮無人機的性能、有效載荷、燃料消耗、飛行時間以及地形跟隨、禁飛區(qū)和威脅區(qū)域等復雜約束，還有目標執(zhí)行的角度和時間等[103]。目前常用的研究方法有：A*算法、Voronoi圖規(guī)劃法、人工勢場法、蟻群算法等，路徑優(yōu)化使用Dubins曲線法，B樣條曲線法的方法。

總的來說，目前針對復雜環(huán)境或復雜任務的多無人機協(xié)同自主規(guī)劃仍停留在理論研究層面，還需要進行更多的實驗測試以應用到實際環(huán)境中，集群化無人機自主協(xié)同任務規(guī)劃方法和理論也需要繼續(xù)探索研究。

2.7 仿真實驗環(huán)境

近年來關于智能體仿真實驗環(huán)境也在不斷涌現(xiàn)，如OpenAI Gym[104]、MuJoCo[105]、rllab[116]、DeepMind Lab[107]、TORCS[108]等。繼單智能體行為決策的AlphaGo[109]之后，業(yè)界開始關注多智能體協(xié)同對抗策略游戲，最為知名的是DeepMind和Blizzard合作開發(fā)的星際爭霸II（StarCraft II）游戲平臺，稱為PySC2[110]。還有一些結合領域的群體智能仿真實驗平臺，如賓夕法尼亞大學2018年9月公布的OpenUAV無人機集群仿真測試與實驗平臺，是全球第一個用于教學和測試的無人集群系統(tǒng)仿真實驗平臺。蘇黎世大學機器人和識別研究組發(fā)布了一款模塊化的虛擬現(xiàn)實無人機仿真環(huán)境Flightmare，其中包含大型的多模塊仿真?zhèn)鞲衅魈籽b，用以仿真實際的物理效果[111]。總得來說，多智能體系統(tǒng)實驗目前幾乎都是在游戲平臺驗證其協(xié)同算法的有效性，極少有針對特定領域的仿真實驗。為此，陸軍工程大學控制技術與智能系統(tǒng)實驗室于2019年開發(fā)完成智能無人集群系統(tǒng)協(xié)同對抗仿真實驗平臺（SwarmFlow），如圖1所示，是一款結合智能陸戰(zhàn)場景應用的群體智能模擬器，利用場景和算法分離機制，可支持各類群體智能算法和集群通信測試，實現(xiàn)模擬仿真和無人裝備實體孿生控制。

無人集群系統(tǒng)自主協(xié)同技術綜述的圖4

圖1 SwarmFlow仿真實驗平臺

Fig.1 SwarmFlow Virtual Platform

面臨的挑戰(zhàn)

無人集群系統(tǒng)自主協(xié)同技術綜述的圖5

目前無人集群系統(tǒng)自主協(xié)同技術的發(fā)展還存在以下的局限性：

1) 多智能體系統(tǒng)在未知環(huán)境下智能協(xié)同問題難度較大，相關研究較少。多Agent系統(tǒng)是一個非常熱門的研究領域，在人工智能、控制理論、機器人等領域已有廣泛應用。但現(xiàn)階段，對于多Agent在未知環(huán)境下工作協(xié)同的研究成果較少，無法滿足智能協(xié)同的迫切需求，需要系統(tǒng)深入的研究。

2) 將無人集群系統(tǒng)研究落實到應用層面的成功案例較少。大部分研究都是以數(shù)學模型和定理為背景，涉及到具體應用和平臺產(chǎn)品的還很少，需要在理論研究和應用背景下，完成典型任務的多Agent分布式協(xié)同推理系統(tǒng)原理論證，實現(xiàn)對相關技術性能指標的驗證。

3) 對Agent相關的要素進行抽象化。現(xiàn)有研究認為未知屬性有環(huán)境信息、Agent自身狀態(tài)、通訊信息和相關通訊數(shù)據(jù)。后續(xù)研究可以綜合考慮上述環(huán)境屬性，將Agent可以獲得的環(huán)境要素分為時鐘、位置、溫度、速度、網(wǎng)絡環(huán)境、Agent個數(shù)、Agent角色等，同時可以將未知的環(huán)境要素抽象為應用相關要素和應用無關要素，可使研究對象更為泛化。

4) Agent動力學特征方面，現(xiàn)有研究要么考慮未知的具體應用環(huán)境而假設Agent的感知和通訊是穩(wěn)定的；要么考慮復雜行為Agent的系統(tǒng)動力學未知，而假設通訊是穩(wěn)定的；要么僅考慮未知通訊。后續(xù)研究需重點關注抽象的應用環(huán)境，設計Agent 的動力學特征，包括通訊和網(wǎng)絡拓撲等與應用相關的要素。

總結

無人集群系統(tǒng)自主協(xié)同技術綜述的圖6

從多Agent系統(tǒng)自主協(xié)同、多Agent系統(tǒng)態(tài)勢共識、未知系統(tǒng)動力學、群體智能理論與技術、機器學習方法和行為決策方法等方面分析了自主協(xié)同技術研究現(xiàn)狀，闡述了單體無人系統(tǒng)技術和群體無人系統(tǒng)技術的未來發(fā)展方向，給出了無人集群系統(tǒng)的發(fā)展趨勢和技術限制。

無人集群系統(tǒng)是近年來國內(nèi)外軍事領域研究重點，正在推動無人作戰(zhàn)樣式由 “單平臺遙控作戰(zhàn)” 向海陸空協(xié)作的“智能群體作戰(zhàn)” 發(fā)展。面對瞬息萬變的戰(zhàn)場局勢，未來戰(zhàn)場對無人武器系統(tǒng)智能化控制和協(xié)同作戰(zhàn)運用的需求日趨強烈，提升對其控制和作戰(zhàn)管理水平已成為未來體系作戰(zhàn)亟待突破的瓶頸。涉及的關鍵技術包括環(huán)境的感知和集群的控制，集群控制面臨的挑戰(zhàn)是不同個體在動態(tài)對抗中的有效協(xié)同方法，以及協(xié)同策略，尤其是集群達到自主控制水平，目前這方面的研究還任重道遠。