李高云,曠生玉,江 果,何 歡
(中國(guó)電子科技集團(tuán)公司第二十九研究所,四川 成都 610036)
電磁空間作戰(zhàn)是體系與體系之間的對(duì)抗。通常復(fù)雜體系網(wǎng)絡(luò)具有涌現(xiàn)性,即便精準(zhǔn)地實(shí)現(xiàn)了對(duì)單個(gè)目標(biāo)對(duì)象的掌握,也難以保證準(zhǔn)確表征組合后體系目標(biāo)的能力情況,因此,需要將電磁目標(biāo)體系作為一個(gè)整體對(duì)象展開研究。而網(wǎng)絡(luò)是表征復(fù)雜體系的有效手段之一,以圖論相關(guān)理論為基礎(chǔ)建立起來的復(fù)雜網(wǎng)絡(luò)科學(xué)成為研究電磁目標(biāo)體系網(wǎng)絡(luò)的有效工具。
電磁空間域的博弈,普遍具有攻防快速轉(zhuǎn)換、對(duì)抗激烈和真假迷惑等特點(diǎn),撥開戰(zhàn)場(chǎng)電磁迷霧,達(dá)成對(duì)敵電磁目標(biāo)體系的深入洞悉是一件異常棘手和重要的任務(wù)。在現(xiàn)實(shí)中由于偵察探測(cè)的局限性,存在部分關(guān)系鏈接錯(cuò)誤或者冗余,以及部分實(shí)際存在的潛在鏈接關(guān)系沒能探測(cè)到的情況。因而對(duì)電磁目標(biāo)體系網(wǎng)絡(luò)潛在關(guān)系預(yù)測(cè),進(jìn)而指導(dǎo)電子對(duì)抗專項(xiàng)偵察行動(dòng),就顯得異常的迫切。
體系網(wǎng)絡(luò)潛在關(guān)系分析是鏈路預(yù)測(cè)的重要研究方向,即通過已知的網(wǎng)絡(luò)節(jié)點(diǎn)以及網(wǎng)絡(luò)結(jié)構(gòu)等信息,預(yù)測(cè)網(wǎng)絡(luò)中尚未產(chǎn)生連邊的2 個(gè)節(jié)點(diǎn)之間產(chǎn)生鏈接的可能性,近年來該方向異?;钴S。魯磊等采用疾病-基因關(guān)聯(lián)二分網(wǎng)絡(luò)的網(wǎng)絡(luò)拓?fù)湎嗨菩詠戆l(fā)現(xiàn)更多潛在致病基因;張新猛等基于鏈路預(yù)測(cè)方法解決因微博用戶弱關(guān)系結(jié)構(gòu)導(dǎo)致的難以發(fā)現(xiàn)潛在朋友的問題;劉竟等采用Katz 指標(biāo)和Cosine 距離計(jì)算網(wǎng)絡(luò)中的路徑相似性和學(xué)者科研興趣相似性,預(yù)測(cè)了潛在科研合作關(guān)系;袁國(guó)廷等基于網(wǎng)絡(luò)局部信息的相似性指標(biāo)實(shí)現(xiàn)對(duì)聯(lián)盟院校潛在關(guān)系的預(yù)測(cè)與識(shí)別。前述典型研究成果及思路為電磁目標(biāo)體系網(wǎng)絡(luò)潛在關(guān)系預(yù)測(cè)研究提供了很好的借鑒。
本文擬以資料情報(bào)和海量偵察數(shù)據(jù)為基礎(chǔ),通過軍事事件和對(duì)應(yīng)涉及的目標(biāo)個(gè)體建立起二分網(wǎng)絡(luò)模型,進(jìn)而分解為目標(biāo)對(duì)象間的單模網(wǎng)絡(luò),采取鏈路預(yù)測(cè)算法,對(duì)電磁目標(biāo)體系網(wǎng)絡(luò)未知潛在關(guān)系進(jìn)行分析。旨在為體系網(wǎng)絡(luò)分析,提供技術(shù)參考和運(yùn)用模式借鑒。
軍事活動(dòng)往往是由一系列的軍事事件所組成,戰(zhàn)場(chǎng)數(shù)據(jù)是以事件的形式傳遞。軍事演習(xí)演練、任務(wù)行動(dòng),某種意義上是對(duì)戰(zhàn)術(shù)、戰(zhàn)法或新型作戰(zhàn)概念的實(shí)兵驗(yàn)證和體現(xiàn)。因此,分析外軍的演習(xí)演練和軍事行動(dòng)中的復(fù)雜體系運(yùn)用,具備發(fā)現(xiàn)深層次體系運(yùn)用模式和預(yù)測(cè)體系節(jié)點(diǎn)間新關(guān)系的可能,也即對(duì)事件-目標(biāo)網(wǎng)絡(luò)關(guān)系分析,具有實(shí)際可行性和軍事應(yīng)用研究?jī)r(jià)值。
軍事事件與目標(biāo)之間的關(guān)系,如同文獻(xiàn)與作者之間的關(guān)系,所組成的網(wǎng)絡(luò)包含了事件和目標(biāo)2 類頂點(diǎn)集合,屬于二分網(wǎng)絡(luò)。事件-目標(biāo)關(guān)系二分網(wǎng)絡(luò)構(gòu)建,是開展后續(xù)電磁目標(biāo)體系網(wǎng)絡(luò)挖掘分析的基礎(chǔ)。目前,其構(gòu)建方法大致可以分為文本資料情報(bào)提取和偵察大數(shù)據(jù)挖掘2 大類。
事件抽取是從描述事件信息的非結(jié)構(gòu)化自由文本中抽取出用戶感興趣的信息,并以結(jié)構(gòu)化的形式存儲(chǔ)或呈現(xiàn)給用戶。
圍繞規(guī)范化事件提取和事件-目標(biāo)關(guān)系二分網(wǎng)絡(luò)構(gòu)建需求,事件描述的結(jié)構(gòu)化模型可抽象為一個(gè)四元組結(jié)構(gòu)模型,數(shù)學(xué)描述為:
式中,e為事件名稱;T為事件涉及的目標(biāo)名稱集,R為事件-目標(biāo)的關(guān)系集,M為目標(biāo)-目標(biāo)之間的相互關(guān)系集(如指揮協(xié)同關(guān)系、通信聯(lián)通關(guān)系、信息流轉(zhuǎn)關(guān)系等),L為本事件關(guān)聯(lián)的其他事件集合。對(duì)于一個(gè)抽取成功的事件至少e≠?且T≠?。
基于觸發(fā)詞集(如演習(xí)演練、南海闖島、自由航行、穿越臺(tái)海等),通過手動(dòng)建立一系列事件知識(shí)模板,采取各類模式匹配算法,將待抽取的資料文本(如戰(zhàn)場(chǎng)要報(bào)、專題資料、公開報(bào)道等)與知識(shí)模板進(jìn)行事件要素模式匹配,抽取生成事件e?;谀J狡ヅ涞氖录崛×鞒蹋鐖D1 所示。
圖1 基于模式匹配的事件提取流程
在資料文本預(yù)處理環(huán)節(jié),采用觸發(fā)詞集作為敏感詞進(jìn)行文本實(shí)體提取,進(jìn)而針對(duì)性提取前件、后件概念本體,完成候選模式的生成,支撐后續(xù)模式匹配運(yùn)算,將事件要素識(shí)別轉(zhuǎn)化為分類問題,最終完成事件集的生成。
長(zhǎng)期積累的海量原始電子對(duì)抗偵察結(jié)論數(shù)據(jù),最為客觀地記錄和反映了電磁目標(biāo)體系內(nèi),各個(gè)目標(biāo)的時(shí)、空、頻活動(dòng)行為和相互關(guān)系證據(jù)。采取電磁大數(shù)據(jù)挖掘分析技術(shù),可針對(duì)已知事件場(chǎng)景(滿足事件約束條件),從海量數(shù)據(jù)中挖掘存在目標(biāo)間相互配合關(guān)系的證據(jù),輔助構(gòu)建事件-目標(biāo)、目標(biāo)-目標(biāo)關(guān)系網(wǎng)絡(luò)。
針對(duì)未知事件-目標(biāo)關(guān)系情況,也即“事件-目標(biāo)”的潛在關(guān)系提取,站在數(shù)據(jù)視角可轉(zhuǎn)換為從海量數(shù)據(jù)中篩選一定范圍內(nèi)(事件發(fā)生的特定時(shí)間、特定區(qū)域、特定目標(biāo)集等)數(shù)據(jù),展開多目標(biāo)數(shù)據(jù)潛在關(guān)系挖掘問題。
基于Hadoop+Spark 平臺(tái),采用時(shí)、空聯(lián)合頻繁項(xiàng)挖掘算法,航跡重合度計(jì)算算法,定期對(duì)增量數(shù)據(jù)開展時(shí)-空伴隨關(guān)聯(lián)等例行化多目標(biāo)關(guān)系挖掘分析,對(duì)存在疑似強(qiáng)關(guān)聯(lián)關(guān)系的目標(biāo)組,進(jìn)行時(shí)、空、頻結(jié)論存儲(chǔ),并對(duì)多目標(biāo)關(guān)系可視化展示,供情報(bào)專家研判和確認(rèn)。多目標(biāo)時(shí)空頻疑似配合關(guān)系結(jié)論可視化,如圖2所示。
圖2 多目標(biāo)時(shí)空頻疑似配合關(guān)系結(jié)論可視化
根據(jù)前述基于知識(shí)模板或者大數(shù)據(jù)挖掘技術(shù)提取的事件-目標(biāo)關(guān)系結(jié)論,即事件-目標(biāo)RDF 關(guān)系元組,生成事件-目標(biāo)關(guān)系非完全二分網(wǎng)絡(luò),如圖3 所示。盡可能構(gòu)建反映真實(shí)鏈接情況的網(wǎng)絡(luò),對(duì)保證后續(xù)預(yù)測(cè)分析的精準(zhǔn)性至關(guān)重要。
圖3 事件-目標(biāo)關(guān)系非完全二分網(wǎng)絡(luò)
具體方法是梳理軍事事件,作為事件集的元素,并將事件元素相應(yīng)涉及的目標(biāo)納入目標(biāo)集,構(gòu)建該事件元素及其涉及的目標(biāo)的關(guān)聯(lián)關(guān)系。最終形成事件集與目標(biāo)集之間的二分關(guān)系網(wǎng)絡(luò)。
構(gòu)建二分網(wǎng)絡(luò)時(shí)需要注意約束條件的選擇,如是否同屬于相同國(guó)別、剔除民用屬性非軍事目標(biāo)等,以及可根據(jù)研究側(cè)重點(diǎn),改變或增加相應(yīng)約束條件。
通常在分析具有二分圖結(jié)構(gòu)的網(wǎng)絡(luò)時(shí),一般采取先將二分圖投影為單模網(wǎng)絡(luò),再做網(wǎng)絡(luò)分析處理的方式。事件-目標(biāo)二分網(wǎng)絡(luò),按照參與了共同軍事事件的目標(biāo),判定具有配合聯(lián)系的原則,投影生成電磁目標(biāo)體系的單模網(wǎng)絡(luò)。即將事件-目標(biāo)二分圖先投影到目標(biāo)或者事件集合中的頂點(diǎn)構(gòu)成的單模圖(UG)。
投影規(guī)則為:如果原來二分圖中,目標(biāo)集合中2 個(gè)或多個(gè)頂點(diǎn)都與事件集合中某個(gè)頂點(diǎn)相連,那么在目標(biāo)單分圖中這2 個(gè)或多個(gè)頂點(diǎn)之間建立連邊;同樣事件單分圖的投影規(guī)則亦是如此。事件-目標(biāo)二分圖投影分解如圖4 所示。
圖4 事件-目標(biāo)二分圖投影分解
基于上述單模網(wǎng)絡(luò)的投影生成方法,可以得到所關(guān)注體系目標(biāo)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的無權(quán)無向無環(huán)圖。
雷達(dá)、通信、導(dǎo)航、敵我識(shí)別等電磁目標(biāo)作用距離遠(yuǎn),電磁傳播速度快,天然具備廣域范圍內(nèi)組網(wǎng)體系化運(yùn)用特征,尤其是網(wǎng)絡(luò)中心戰(zhàn)概念運(yùn)用,電磁高維空間的目標(biāo)運(yùn)用關(guān)系(指揮控制關(guān)系、通信聯(lián)通關(guān)系、信息流轉(zhuǎn)關(guān)系等)疊加于戰(zhàn)場(chǎng)三維物理空間,融合成為一張復(fù)雜的電磁目標(biāo)體系網(wǎng)絡(luò)。
鑒于戰(zhàn)場(chǎng)情報(bào)對(duì)節(jié)點(diǎn)屬性信息獲取的困難性(敵我博弈、真假迷惑,往往導(dǎo)致節(jié)點(diǎn)的屬性信息并不容易獲?。O(shè)計(jì)基于電磁目標(biāo)體系網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的相似性預(yù)測(cè)算法(共同鄰居相似預(yù)測(cè)算法、共同鄰居占比量相似預(yù)測(cè)算法)和資源分配評(píng)分預(yù)測(cè)算法,開展電磁目標(biāo)體系網(wǎng)絡(luò)潛在鏈路關(guān)系預(yù)測(cè)。
不妨假設(shè)目標(biāo)-目標(biāo)單模網(wǎng)絡(luò)中的節(jié)點(diǎn)為,定義節(jié)點(diǎn)的鄰居為(),則()=|()|為節(jié)點(diǎn)的度。
1)共同鄰居相似預(yù)測(cè)算法
古語云“物以類聚、人以群分”,共同鄰居(CN)相似預(yù)測(cè)算法認(rèn)為節(jié)點(diǎn)之間的結(jié)構(gòu)屬性越相似就越有可能產(chǎn)生聯(lián)系。其中基于局部信息的相似性指標(biāo)(CN)也就是2 個(gè)節(jié)點(diǎn)如果有更多的共同鄰居,則它們更趨向于產(chǎn)生聯(lián)系。
CN 相似性預(yù)測(cè)指標(biāo),如式(2)所示:
2)雅卡爾相似預(yù)測(cè)算法
雅卡爾(Jaccard)相似預(yù)測(cè)算法,主要考慮2 個(gè)節(jié)點(diǎn)的共同鄰居數(shù)與2 個(gè)節(jié)點(diǎn)所擁有的鄰居數(shù)總和的占比值,該值也將會(huì)影響節(jié)點(diǎn)之間的相似程度。因此,在共同鄰居(CN)算法的基礎(chǔ)上,考慮兩端節(jié)點(diǎn)自身的鄰居數(shù)(節(jié)點(diǎn)度)的影響,形成了Jaccard 相似預(yù)測(cè)指標(biāo)。
Jaccard 相似性預(yù)測(cè)指標(biāo),如式(3)所示:
3)資源分配評(píng)分預(yù)測(cè)算法
資源分配(RA)評(píng)分預(yù)測(cè)算法,考慮2 個(gè)節(jié)點(diǎn)產(chǎn)生連邊,即交互聯(lián)系意味著需要耗費(fèi)能量。鄰居越多自然平均分配到單個(gè)鄰居上的耗費(fèi)資源就會(huì)越少,基于該假設(shè)構(gòu)建(RA)評(píng)分預(yù)測(cè)算法,根據(jù)共同鄰居節(jié)點(diǎn)的度為每個(gè)節(jié)點(diǎn)賦予一個(gè)權(quán)重值,且該權(quán)重值為該節(jié)點(diǎn)度的倒數(shù)。
RA 評(píng)分預(yù)測(cè)指標(biāo),如式(4)所示:
預(yù)測(cè)精度評(píng)價(jià)指標(biāo)(AUC)從全局衡量鏈路預(yù)測(cè)算法的精確度。即測(cè)試集中的存在邊的預(yù)測(cè)分?jǐn)?shù)值比隨機(jī)選擇的一條不存在邊的分?jǐn)?shù)值高的概率。每次從測(cè)試集中選擇一條存在邊與隨機(jī)選擇的不存在邊進(jìn)行比較,如果測(cè)試集中存在邊的預(yù)測(cè)分?jǐn)?shù)值大于不存在邊的分?jǐn)?shù)值,就加1 分;如果相等就加0.5 分,否則不加分。獨(dú)立地比較次,則AUC 為:
式中,為測(cè)試集中的存在邊分?jǐn)?shù)值大于不存在邊的分?jǐn)?shù)值的次數(shù),為兩者分?jǐn)?shù)值相等的次數(shù)。
可見,如果所有的分?jǐn)?shù)值都是隨機(jī)產(chǎn)生的(好比拋硬幣正反決定是否產(chǎn)生鏈路連接),那AUC=0.5;因此只要AUC >0.5 就說明算法比隨機(jī)方法好,而AUC 值的大小程度衡量了預(yù)測(cè)算法在多大程度上比隨機(jī)選擇的方法精確。
假設(shè)一個(gè)包含5 個(gè)頂點(diǎn)和7 條連邊的網(wǎng)絡(luò),稱該7 條邊為已存在邊,而(1,2)、(1,4)和(3,4)就稱為 3 條不存在邊。
不妨把已存在邊中的(1,3)和(4,5)這2 條邊作為測(cè)試集,而把其他5 條已存在邊作為訓(xùn)練集。假設(shè)一個(gè)鏈路預(yù)測(cè)算法為訓(xùn)練集之外的其他所有可能的5 條連邊的打分如下:=0.4,=0.5,=0.6,=0.5,=0.6。網(wǎng)絡(luò)訓(xùn)練和測(cè)試集設(shè)置示意圖如圖5所示。
圖5 網(wǎng)絡(luò)訓(xùn)練和測(cè)試集設(shè)置示意圖
為了計(jì)算AUC,先比較2 條測(cè)試邊的分?jǐn)?shù)與3 條不存在邊的分?jǐn)?shù)。6 種比較情況如下:
從而求得:
采用大量的文本資料情報(bào)素材和大量原始電子對(duì)抗偵察結(jié)論數(shù)據(jù),提取各次事件涉及的目標(biāo),挖掘數(shù)據(jù)中隱含的多目標(biāo)關(guān)系,構(gòu)建事件-目標(biāo)二分網(wǎng)絡(luò),經(jīng)投影生成目標(biāo)單模關(guān)系網(wǎng)絡(luò)。提取生成某電磁目標(biāo)體系的關(guān)系網(wǎng)絡(luò),具體涉及了89 個(gè)節(jié)點(diǎn)127 條邊,若該體系為全連接網(wǎng)絡(luò)則關(guān)系邊總和應(yīng)為3 916條邊。
為可視化展示該電磁目標(biāo)體系網(wǎng)絡(luò)的特點(diǎn),采用Pajek 分析工具可視化功能,直觀描繪網(wǎng)絡(luò)拓?fù)潢P(guān)系,如圖6 所示。
圖6 某電磁目標(biāo)體系網(wǎng)絡(luò)拓?fù)潢P(guān)系圖
采取本文前述的3 種鏈路預(yù)測(cè)方法,將一部分真實(shí)鏈接(存在邊)作為訓(xùn)練集,其他隱掉的真實(shí)鏈接和不存在邊合在一起作為測(cè)試樣本集。
為了仿真驗(yàn)證預(yù)測(cè)算法的性能,以及具備預(yù)測(cè)能力的條件邊界。分別對(duì)不同場(chǎng)景(不同比例占比數(shù)量的存在邊作為訓(xùn)練集),基于Matlab2012 采用蒙特卡洛模擬仿真方法,仿真10 000 次,并統(tǒng)計(jì)預(yù)測(cè)結(jié)果,分析不同方法的預(yù)測(cè)精度。
分別取90%、80%、70%的真實(shí)鏈接作為訓(xùn)練集進(jìn)行測(cè)試,采取蒙特卡洛模擬仿真各10 000 次,其中受限于篇幅,各場(chǎng)景仿真結(jié)果前10 次的記錄原始數(shù)據(jù),如表1 所示。
表1 預(yù)測(cè)結(jié)果原始數(shù)據(jù)記錄表(各場(chǎng)景前10 次記錄)
3 種不同方法預(yù)測(cè)10 000 次原始數(shù)據(jù)的統(tǒng)計(jì)數(shù)據(jù)情況,包括預(yù)測(cè)結(jié)果數(shù)據(jù)的平均值、最大值、最小值和均方值等參數(shù),如表2 所示。
表2 預(yù)測(cè)結(jié)果統(tǒng)計(jì)結(jié)論表
從上述統(tǒng)計(jì)信息可見,3 種場(chǎng)景下,CN 和 RA 預(yù)測(cè)算法,預(yù)測(cè)精度平均值均大于80%,最小值也超過58%(大于隨機(jī)概率50%),具有預(yù)測(cè)效果和應(yīng)用價(jià)值,而Jaccard 預(yù)測(cè)算法,預(yù)測(cè)精度低于隨機(jī)概率,預(yù)測(cè)效果完全無效。
鏈路預(yù)測(cè)準(zhǔn)確率,與訓(xùn)練集(存在邊)的占比大小基本呈現(xiàn)出正相關(guān)關(guān)系。也即訓(xùn)練數(shù)據(jù)越多(對(duì)網(wǎng)絡(luò)的真實(shí)鏈接掌握越多),預(yù)測(cè)準(zhǔn)確率越高。
此外,訓(xùn)練集進(jìn)一步降低測(cè)試具備預(yù)測(cè)能力的條件邊界,當(dāng)測(cè)試集占比降為58% 時(shí),前述3 類算法預(yù)測(cè)精度瞬間降為不足10%,也即預(yù)測(cè)能力幾乎消失。當(dāng)訓(xùn)練集超過65%,CN 和RA 算法預(yù)測(cè)精度的最低值均超出隨機(jī)選擇概率(50%準(zhǔn)確率),也即具備了鏈路預(yù)測(cè)能力,這也證實(shí)了復(fù)雜網(wǎng)絡(luò)的涌現(xiàn)性。
基于目標(biāo)共同鄰居數(shù)量的相似預(yù)測(cè)和基于資源分配評(píng)分指標(biāo)預(yù)測(cè)精度較高,最大值曾達(dá)到了95%,而Jaccard 預(yù)測(cè)算法幾乎無效。反向可以揭示和說明,該類型電磁目標(biāo)體系網(wǎng)絡(luò)明顯存在“大度優(yōu)先”“馬太效應(yīng)”“HUB 超級(jí)節(jié)點(diǎn)”的網(wǎng)絡(luò)結(jié)構(gòu)生長(zhǎng)與演化特征,在作戰(zhàn)中對(duì)大度節(jié)點(diǎn)(如圖6 中的節(jié)點(diǎn)38、40、51等)攻擊或摧毀,將達(dá)到體系破擊的效果。
復(fù)雜網(wǎng)絡(luò)分析作為一門新興學(xué)科,是對(duì)復(fù)雜系統(tǒng)的抽象和描述。鏈路預(yù)測(cè)的準(zhǔn)確性,本質(zhì)是反映了我們對(duì)該復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)生長(zhǎng)和演化機(jī)理的洞察程度。換言之若能夠高精度地預(yù)測(cè)某復(fù)雜網(wǎng)絡(luò)體系的鏈路生長(zhǎng)或消失,則意味著已深入洞悉了該網(wǎng)絡(luò)的內(nèi)在機(jī)理,基于此,所開展的系列電磁目標(biāo)體系網(wǎng)絡(luò)潛在關(guān)系預(yù)測(cè),也將更具置信度。本文只是拋磚引玉,鏈路預(yù)測(cè)不光需要IT 算法工程師,更需要具有資深業(yè)務(wù)專家的介入,只有深入地洞悉了網(wǎng)絡(luò)內(nèi)在本質(zhì),才可能撥開戰(zhàn)場(chǎng)迷霧,預(yù)測(cè)未來。后續(xù)該方法還可應(yīng)用于知識(shí)圖譜構(gòu)建,可根據(jù)圖譜中已存在的實(shí)體間的網(wǎng)絡(luò)拓?fù)潢P(guān)系,去預(yù)測(cè)缺失的實(shí)事關(guān)系,輔助解決知識(shí)圖譜不完整性的問題。