羅 兵 劉海潮 封皓君
(海軍工程大學(xué)電子工程學(xué)院 武漢 430033)
隨著信息技術(shù)的發(fā)展以及現(xiàn)代部隊(duì)作戰(zhàn)指揮模擬化、信息化水平的提升,各類衛(wèi)星、雷達(dá)、電抗、技偵、作戰(zhàn)基礎(chǔ)數(shù)據(jù),以及來自互聯(lián)網(wǎng)、社交媒體的開源情報(bào)不斷累積,軍事信息也已初具規(guī)模,如何有效地處理和利用這些軍事信息是一個(gè)值得研究的問題[1~3]。經(jīng)典萬維網(wǎng)上的數(shù)據(jù)可供更便捷的訪問途徑,然而目前的自然語言處理水平還難以理解人類語言,導(dǎo)致這些信息集成和關(guān)聯(lián)途徑受限。在聯(lián)合作戰(zhàn)背景下,軍事信息來源廣泛,單純靠人工去識別有用的信息工作量巨大。
目前,軍事領(lǐng)域的相關(guān)關(guān)聯(lián)信息仍然以專家規(guī)則庫為主,對多源異構(gòu)信息的關(guān)聯(lián)能力明顯不足,無法做到從更廣泛的語義角度自主發(fā)現(xiàn)信息間的關(guān)聯(lián),極大制約了戰(zhàn)場信息服務(wù)作戰(zhàn)部隊(duì),從而掌握信息優(yōu)勢的效能。為此,在聯(lián)合作戰(zhàn)環(huán)境下,需要更迫切地針對接入的各類異構(gòu)信息,進(jìn)行內(nèi)容自主理解識別,并建立信源之間的關(guān)聯(lián),以支撐指揮員形成更為完整的戰(zhàn)場理解,為指揮員等戰(zhàn)場角色提供更精準(zhǔn)高效的戰(zhàn)場信息服務(wù)。
現(xiàn)有工作主要考慮將大數(shù)據(jù)挖掘技術(shù)和推薦技術(shù)應(yīng)用到軍事信息的處理上。王壽鵬等深入挖掘軍事領(lǐng)域的海量數(shù)據(jù)并分析大數(shù)據(jù)挖掘技術(shù)在軍事領(lǐng)域的應(yīng)用[4]。程遠(yuǎn)國等提出一種發(fā)現(xiàn)雷達(dá)探測、電子對抗偵察等不同專業(yè)偵察數(shù)據(jù)集中的目標(biāo)同現(xiàn)模式挖掘算法[5]。呂曹芳等建立了軍事情報(bào)中非結(jié)構(gòu)化文本情報(bào)數(shù)據(jù)處理方法,結(jié)合軍事情報(bào)的特點(diǎn),提出了軍事情報(bào)中數(shù)據(jù)挖掘的框架模型,探討中文文本下的軍事情報(bào)挖掘方法[6]。李永波在軍事情報(bào)分析中引入文本挖掘技術(shù),采用關(guān)聯(lián)分析分類方法,對大量的文本情報(bào)進(jìn)行分類,明顯提高了情報(bào)分析效益[7]。黃志良等介紹了推薦技術(shù)在軍事情報(bào)領(lǐng)域的方法和應(yīng)用,成為情報(bào)服務(wù)領(lǐng)域的研究重點(diǎn)之一[8]。
目前,軍事情報(bào)挖掘主要基于關(guān)聯(lián)規(guī)則建立海量信息間的內(nèi)部聯(lián)系,從而快速提取出其中的關(guān)鍵信息。Agrwal等提出經(jīng)典的 Apriori[9]算法可用于關(guān)聯(lián)規(guī)則挖掘,該算法使用逐層搜索的策略,由頻繁k項(xiàng)集不斷探索k+1項(xiàng)集。Han等提出FP-growth[10]算法,旨在從事務(wù)集中挖掘頻繁項(xiàng)集,其核心思想是將數(shù)據(jù)庫轉(zhuǎn)換成一棵存放壓縮的頻繁模式信息的FP-tree,然后在此之中挖掘頻繁項(xiàng)集。然而其樹形結(jié)構(gòu)需要大量的內(nèi)存,當(dāng)數(shù)據(jù)量達(dá)到一定規(guī)模時(shí)很難實(shí)際應(yīng)用。Luo等提出一種稀疏布爾矩陣分布式頻繁挖掘算法FISM[11],該算法將項(xiàng)集作為矩陣的行,將事務(wù)作為矩陣的列。從矩陣中很容易得到項(xiàng)集的支持度,之后只需對所有項(xiàng)集進(jìn)行“與”運(yùn)算即可,雖然該算法降低了輸入和輸出的消耗,只需完成一次掃描,但當(dāng)項(xiàng)集的數(shù)量巨大時(shí),項(xiàng)集之間的“與”運(yùn)算量也變得十分巨大。除此之外,牛海玲等人提出的AMRDD算法[12]同樣引入矩陣計(jì)算,從而減少掃描事務(wù)數(shù)據(jù)庫的次數(shù),同時(shí)該算法還應(yīng)用局部剪枝和全局剪枝方法縮減生成候選頻繁項(xiàng)集的數(shù)量來提升算法效率。Lu等提出的基于Spark的改進(jìn)Apriori算法[13]也是基于類似原理,對數(shù)據(jù)的存儲結(jié)構(gòu)進(jìn)行優(yōu)化來進(jìn)一步提升算法的效率。曹冠平等構(gòu)建分布式作戰(zhàn)實(shí)驗(yàn)數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘框架[14],將分布式并行處理技術(shù)運(yùn)用到作戰(zhàn)實(shí)驗(yàn)數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘中,構(gòu)建分布式作戰(zhàn)實(shí)驗(yàn)數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘框架,從而提升挖掘效率。通過分布式并行處理技術(shù)更好地處理海量數(shù)據(jù),并且通過挖掘得到的關(guān)聯(lián)規(guī)則能夠很好地反映作戰(zhàn)要素間的相互聯(lián)系。
文章提出一種面向指揮員關(guān)注的基于強(qiáng)化學(xué)習(xí)的聚類推薦模型,通過強(qiáng)化學(xué)習(xí)從指揮員歷史已讀內(nèi)容的語義信息中解析出指揮員的關(guān)注方向,并使用聚類模型為其進(jìn)行信息推薦。這一模型在利用歷史信息的基礎(chǔ)上,根據(jù)指揮員反饋調(diào)整優(yōu)化學(xué)習(xí)模型,進(jìn)行面向指揮員的個(gè)性化推薦,通過將指揮員的個(gè)性化關(guān)注融入學(xué)習(xí)模型,實(shí)現(xiàn)了從無差別信息共享到考慮角色關(guān)注的個(gè)性化關(guān)聯(lián)目標(biāo)。
強(qiáng)化學(xué)習(xí)主要由智能體(Agent)、環(huán)境(Envi?ronment)、狀態(tài)(State)、動(dòng)作(Action)、獎(jiǎng)勵(lì)(Re?ward)組成。
環(huán)境的轉(zhuǎn)變會隨著智能體執(zhí)行不同動(dòng)作而轉(zhuǎn)變,這一些列要素會構(gòu)成一種全新的狀態(tài)。在這種狀態(tài)下,環(huán)境會隨之產(chǎn)生一種正獎(jiǎng)勵(lì)或負(fù)獎(jiǎng)勵(lì)。依據(jù)不同獎(jiǎng)勵(lì),智能體會隨之選擇不同策略執(zhí)行下一動(dòng)作,并執(zhí)行下一輪循環(huán)過程。
通過這種強(qiáng)化學(xué)習(xí)方式,智能體可以被訓(xùn)練出一定的學(xué)習(xí)能力,了解在什么狀態(tài)下應(yīng)執(zhí)行什么樣的動(dòng)作使得自身獲得最大獎(jiǎng)勵(lì)。作為一套通用的學(xué)習(xí)框架,強(qiáng)化學(xué)習(xí)理論可用來解決通用人工智能的問題,因此強(qiáng)化學(xué)習(xí)也被稱為通用人工智能的機(jī)器學(xué)習(xí)方法。強(qiáng)化學(xué)習(xí)的基本流程如圖1所示。
圖1 強(qiáng)化學(xué)習(xí)基本流程
如圖所示,將當(dāng)前處于時(shí)刻t的狀態(tài)記為St,智能體Agent將執(zhí)行某動(dòng)作記為At,這時(shí)候該動(dòng)作At改變了當(dāng)前狀態(tài)并使得智能體在下一時(shí)刻t+1到達(dá)新的狀態(tài)St+1,此時(shí)環(huán)境產(chǎn)生了反饋獎(jiǎng)勵(lì)記為Rt+1將返回給智能體。此時(shí)再基于St+1和Rt+1執(zhí)行新的動(dòng)作At+1,如此反復(fù)迭代地執(zhí)行交互過程。上述過程的最終目的是讓智能體最大化累積獎(jiǎng)勵(lì)(Cumula?tive Reward),公式為累積獎(jiǎng)勵(lì)G:
強(qiáng)化學(xué)習(xí)的最終目標(biāo)是尋找一種最優(yōu)策略,從而最大化長期累積獎(jiǎng)勵(lì)。作為一套通用的學(xué)習(xí)框架,強(qiáng)化學(xué)習(xí)可以看作通用人工智能的未來。
Q-Learning[15]是早期最為經(jīng)典的強(qiáng)化學(xué)習(xí)方式。但是Q-Learning用二維數(shù)組來存儲(動(dòng)作空間×狀態(tài)空間)中更新的數(shù)字,對于狀態(tài)空間為連續(xù)的情景下只能將其建模為離散空間然后進(jìn)行最優(yōu)值的尋找,需要大量的存儲空間,并且缺乏通用性,無法處理沒有見到過的情況。DQN[16]則是采用神經(jīng)網(wǎng)絡(luò)來擺脫二維數(shù)組的存儲、處理方式,從而克服了Q-Learning中的缺點(diǎn)。
然而,強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)結(jié)合仍會帶來部分問題,主要包括以下四點(diǎn):1)深度學(xué)習(xí)需要大量的帶標(biāo)簽的樣本進(jìn)行監(jiān)督學(xué)習(xí),強(qiáng)化學(xué)習(xí)只有回報(bào)(Reward)返回值,并且?guī)в性肼暋⒀舆t、稀疏等問題;2)深度學(xué)習(xí)的樣本獨(dú)立、強(qiáng)化學(xué)習(xí)前后狀態(tài)相關(guān);3)深度學(xué)習(xí)目標(biāo)分布固定,強(qiáng)化學(xué)習(xí)的狀態(tài)分布持續(xù)變化;4)使用非線性網(wǎng)絡(luò)表示值函數(shù)時(shí)出現(xiàn)不穩(wěn)定現(xiàn)象。針對以上問題,分別考慮采用構(gòu)造標(biāo)簽、經(jīng)驗(yàn)池、雙網(wǎng)絡(luò)等方式進(jìn)行改進(jìn)。
面向指揮員關(guān)注的強(qiáng)化學(xué)習(xí)聚類推薦模型旨在通過指揮員近期關(guān)注的內(nèi)容,學(xué)習(xí)指揮員的行為模式,進(jìn)而從指揮員還未查看的文檔中,根據(jù)指揮員的行為模式來篩選出指揮員關(guān)注的相關(guān)信息并且推送給指揮員。因此,本文將根據(jù)指揮員行為特征來進(jìn)行建模,模型主要學(xué)習(xí)過程是指揮員的行為模式,最終聚類結(jié)果則表示為指揮員在當(dāng)前行為模式下可能會關(guān)注的結(jié)果,系統(tǒng)工作流程如圖2所示。
圖2 系統(tǒng)工作流程
若是多個(gè)指揮員關(guān)注領(lǐng)域有著明顯的不同,或者是多個(gè)指揮員關(guān)注的信息之間耦合性較少,則可以同時(shí)學(xué)習(xí)多個(gè)指揮員的行為習(xí)慣。同樣地,考慮到每篇新文檔最終都會被分到一個(gè)聚類結(jié)果中,并且只能分類到一個(gè)聚類結(jié)果中,若是多個(gè)指揮員之間關(guān)注的信息之間有較高的耦合,有可能會出現(xiàn)兩個(gè)指揮員都應(yīng)該關(guān)注同一信息,但是最終只推送給一個(gè)指揮員的情況,因此可以考慮獨(dú)立地對一個(gè)指揮員的行為模式進(jìn)行學(xué)習(xí),從而保證所有相關(guān)信息都能被推送給該指揮員。
學(xué)習(xí)指揮員的近期行為模式,主要是學(xué)習(xí)指揮員最近的關(guān)注方向,因此需要理解指揮員閱讀內(nèi)容中的語義信息,再通過強(qiáng)化學(xué)習(xí),從已讀內(nèi)容的語義信息中解析出關(guān)注方向,從而學(xué)習(xí)到指揮員的行為模式。因此,首先需要對信息進(jìn)行一定的預(yù)處理。
本文將每篇文檔內(nèi)容去停用詞,去除掉語氣詞、助詞等無關(guān)詞的影響,然后采用表示學(xué)習(xí)的方法,訓(xùn)練Doc2Vec模型將去停用詞之后的文檔Em?bedding表示為400維的向量。同時(shí)如果有指揮員的相關(guān)信息(如部門)等有助于學(xué)習(xí)指揮員習(xí)慣的信息,同樣可以采用one-hot的方法進(jìn)行Embedding表示,與每篇文檔的Embedding向量進(jìn)行拼接,最終形成指揮員獨(dú)有的向量表示。用戶特征的Em?bedding維數(shù)應(yīng)當(dāng)與文檔維度相適應(yīng),若用戶特征維度過低則很難捕捉到特征信息,若用戶特征維度過高則會影響文檔特征的捕捉。我們試圖從文檔語義內(nèi)容中捕捉到指揮員的行為模式,該特征只是用來輔助以及完善行為模式的補(bǔ)充信息。因此我們在原始模型中將每個(gè)用戶唯一的Embedding表示為40維的向量,拼接在文檔特征之前,從而組成一個(gè)440維的向量。我們將所有拼接向量組成一個(gè)長度為文檔個(gè)數(shù)的長度,作為強(qiáng)化學(xué)習(xí)的初始環(huán)境(Environment)。
在內(nèi)容預(yù)處理階段我們發(fā)現(xiàn)有許多內(nèi)容幾乎完全相同的文檔內(nèi)容,因?yàn)槠鋪碓聪嗤?,只是?jīng)過不同人進(jìn)行二次轉(zhuǎn)發(fā),其內(nèi)容完全重合,因此為了更好地訓(xùn)練模型,我們不對重復(fù)的文檔進(jìn)行多次訓(xùn)練。
本文采用強(qiáng)化學(xué)習(xí)方法對指揮員行為模式進(jìn)行學(xué)習(xí),主要依賴對指揮員已讀內(nèi)容進(jìn)行聚類,因此需要將強(qiáng)化學(xué)習(xí)中的狀態(tài)(State)建模為當(dāng)前聚類結(jié)果,即在采取一系列動(dòng)作(Action)后將哪些文檔聚在了同一個(gè)類中。而環(huán)境(Environment)則是我們在第一步內(nèi)容預(yù)處理中得到的包含指揮員信息的Embedding結(jié)果,動(dòng)作(Action)即為當(dāng)前環(huán)境下將哪些文檔放在同一個(gè)類中,回報(bào)(Reward)為當(dāng)前把這些文檔聚在一起所帶來的收益。每一輪最終的聚類結(jié)果是聚類成指定個(gè)數(shù)的類別(如果有n位指揮員則聚類為n+1類)。
最初,Embedding的文檔個(gè)數(shù)為n,則狀態(tài)為有n個(gè)類,輔以DQN網(wǎng)絡(luò)并采取相關(guān)動(dòng)作決定將哪兩個(gè)類(c1,c2)進(jìn)行合并。此時(shí)新的狀態(tài)為有n-1個(gè)類,且(c1,c2)在同一類中。定義回報(bào)函數(shù):(R=當(dāng)前正確的屬于同一類的文檔個(gè)數(shù)-之前正確屬于同一類的文檔個(gè)數(shù)-類長度懲罰),基于此獲得當(dāng)前的回報(bào)。此處類長度懲罰是為了避免出現(xiàn)所有文檔都聚在一個(gè)類中的情況,若不加類長度懲罰,所有文檔聚在同一個(gè)類中仍然可以得到較高的回報(bào)。類長度懲罰定義為:P×(同一類中用戶數(shù)-1),其中P為用戶指定的懲罰常量。并且為了優(yōu)化DQN的部分問題,文章引入經(jīng)驗(yàn)池,即每次都從經(jīng)驗(yàn)池中選取一定量的樣本進(jìn)行訓(xùn)練,因此我們還需每步都將(當(dāng)前狀態(tài),動(dòng)作,回報(bào),下一狀態(tài))存入經(jīng)驗(yàn)池。通過不斷訓(xùn)練使網(wǎng)絡(luò)學(xué)習(xí)如何取得最高的回報(bào),從而使得網(wǎng)絡(luò)能夠?qū)W習(xí)到指揮員的行為模式。
我們在預(yù)處理中得到了初始的環(huán)境,將此環(huán)境輸入到網(wǎng)絡(luò)中。其中有兩個(gè)構(gòu)成完全一樣的網(wǎng)絡(luò),都是輸入層維度為440維,輸出為100維度,三層全連接層,輸出維度為2,每層輸出都采用RELU進(jìn)行處理。最初的學(xué)習(xí)率和貪婪度可以根據(jù)需要設(shè)置較高,然后根據(jù)訓(xùn)練過程逐步進(jìn)行縮小。記兩個(gè)網(wǎng)絡(luò)分別為目標(biāo)網(wǎng)絡(luò)、評估網(wǎng)絡(luò)。將狀態(tài)輸入到評估網(wǎng)絡(luò),由評估網(wǎng)絡(luò)的輸出決定合并哪兩個(gè)類,評估網(wǎng)絡(luò)輸出合并兩個(gè)類所能得到的Q值,選擇Q值最大的進(jìn)行合并。評估網(wǎng)絡(luò)得到的Q值估計(jì)與目標(biāo)網(wǎng)絡(luò)的Q值估計(jì)進(jìn)行比較,然后根據(jù)誤差的方向傳播來更新評估網(wǎng)絡(luò),并在一定的步數(shù)之后用評估網(wǎng)絡(luò)的參數(shù)更新目標(biāo)網(wǎng)絡(luò)。在使用DQN時(shí)損失函數(shù)為
此時(shí),s、s′、a、a′分別為當(dāng)前狀態(tài)、下一狀態(tài)、當(dāng)前動(dòng)作、下一動(dòng)作。Q(s ,a)為采取當(dāng)前動(dòng)作的Q值,Q*(s ,a)為更新后的Q值。
顯然損失函數(shù)是基于Q-Learning的第二項(xiàng)確定的,兩個(gè)公式意義相同,因此可以使用當(dāng)前的Q值來逼近Target Q值,并通過RMSporp(也可以采用SGD、Adam等)方法來進(jìn)行誤差的反向傳遞,訓(xùn)練網(wǎng)絡(luò)。
數(shù)據(jù)集:為了驗(yàn)證本文提出的方法,作者從網(wǎng)上爬取了3500條新聞,并人工模擬了10個(gè)不同的指揮員,分別為每個(gè)新聞標(biāo)注為是否是關(guān)注的新聞?lì)愋?。每個(gè)指揮員的關(guān)注點(diǎn)互不相同,例如節(jié)日新聞、軍事沖突新聞等,但這些關(guān)注點(diǎn)可能在部分新聞上有重疊,即存在某些新聞被多個(gè)不同的指揮員關(guān)注。最終,我們從中按指揮員關(guān)注類別均勻隨機(jī)地劃分出2500條新聞作為我們模型的訓(xùn)練集,剩下1000條未用于訓(xùn)練的新聞?dòng)糜跍y試。
實(shí)驗(yàn)方法:訓(xùn)練集包含2500條新聞和10個(gè)指揮員的關(guān)注信息,我們用其訓(xùn)練得到最終的模型。對于測試集中的1000條新聞,我們分別決定是否將其推薦給指揮員以及具體推薦給某一個(gè)指揮員??紤]到存在某些新聞被多個(gè)不同的指揮員關(guān)注,只要這些新聞被推薦給了任意一個(gè)正確的指揮員,我們就認(rèn)為其推薦結(jié)果準(zhǔn)確。
因?yàn)榇嬖?0個(gè)關(guān)注點(diǎn)互不相同的指揮員,模型最終的聚類結(jié)果有11個(gè)類,多出來的一類用來存放不在任意一個(gè)指揮員關(guān)注列表內(nèi)的新聞,最終,各指揮員被推送信息的準(zhǔn)確率如圖3所示。
圖3 模型驗(yàn)證結(jié)果
由結(jié)果可知,推薦正確率從0.79~0.88不等。從平均實(shí)驗(yàn)結(jié)果來看,測試集中共有850條新聞被準(zhǔn)確推薦到了特定的指揮員,平均準(zhǔn)確率高達(dá)0.85,表明了模型針對具體指揮員進(jìn)行推薦的有效性。
為了更直觀地體現(xiàn)模型對具體指揮員進(jìn)行個(gè)性化推薦的性能,我們給出數(shù)據(jù)集中的幾個(gè)案例進(jìn)行具體的說明和分析。
模型的部分訓(xùn)練數(shù)據(jù)如表1所示,表示不同指揮員關(guān)注的不同新聞,可以視為指揮員各自的行為模式。鑒于新聞文本的長度,在此我們僅列出了每條新聞的標(biāo)題,而事實(shí)上整條新聞的內(nèi)容都是參與模型訓(xùn)練的??梢钥吹剑笓]員A主要關(guān)注關(guān)稅、貿(mào)易戰(zhàn)等內(nèi)容,而指揮員B則對各國政府大選更為關(guān)注,不同指揮員各司其職,在各自擅長的領(lǐng)域處理事務(wù)。面對互聯(lián)網(wǎng)上海量的未讀新聞或情報(bào),顯然不能讓指揮員人工地查看哪些是自己所關(guān)注的。
表1 部分訓(xùn)練數(shù)據(jù)
用劃分出來的訓(xùn)練集對模型進(jìn)行充分的訓(xùn)練之后,我們在測試集上對模型進(jìn)行了個(gè)性化推薦的測試,表2中是幾條用作測試的新聞以及我們模型為其進(jìn)行的推薦結(jié)果。第一條是關(guān)稅相關(guān)的新聞,我們將其準(zhǔn)確地推薦給了主要關(guān)注這一方面的指揮員A。同理,第二條新聞?dòng)嘘P(guān)大選結(jié)果,是指揮員B重點(diǎn)關(guān)注的內(nèi)容。而第三個(gè)案例是軍事行動(dòng)類別的新聞,是其他指揮員關(guān)注的內(nèi)容,不應(yīng)該推送給指揮員A或者指揮員B。而現(xiàn)有的基于關(guān)聯(lián)規(guī)則的方法,很容易將美國和指揮員A相關(guān)聯(lián),從而將第三條新聞推送給指揮員A,因?yàn)橹笓]員A關(guān)注關(guān)稅和貿(mào)易戰(zhàn),而近期的相關(guān)新聞大多與美國相關(guān)。
表2 部分測試結(jié)果
本文提出了一種面向指揮員關(guān)注的基于強(qiáng)化學(xué)習(xí)的聚類推薦模型,通過強(qiáng)化學(xué)習(xí)從指揮員歷史已讀內(nèi)容中學(xué)習(xí)行為模式,并使用聚類模型為其進(jìn)行個(gè)性化的信息推薦。對真實(shí)世界新聞內(nèi)容的實(shí)驗(yàn)結(jié)果表明,該模型針對具體指揮員進(jìn)行推薦不失為一種有效方案。