中國運(yùn)載火箭技術(shù)研究院研究發(fā)展部 趙大海 郭 晶
“知己知彼,百戰(zhàn)不殆”,情報(bào)信息對(duì)戰(zhàn)爭結(jié)果的影響巨大,對(duì)于軍事情報(bào)而言,需要的是高密度、高價(jià)值、高可信度的信息。但隨著信息技術(shù)的飛速發(fā)展,各種類型的信息和數(shù)據(jù)正在呈指數(shù)級(jí)增長,隱藏在海量數(shù)據(jù)中有用的信息并沒有按相對(duì)應(yīng)的比例增長,導(dǎo)致信息密度不斷降低,這使得難以快速、高效、準(zhǔn)確地從眾多數(shù)據(jù)中獲取需要的軍事情報(bào)[1]。如何利用現(xiàn)有的人工智能技術(shù)解決這一難題,成為了目前的研究熱點(diǎn)。
情報(bào)信息獲取可以分為情報(bào)信息的搜集、處理、形成3個(gè)部分。在第二次世界大戰(zhàn)之前,情報(bào)信息的搜集主要依靠情報(bào)人員的現(xiàn)場搜集和對(duì)敵人電臺(tái)的接聽獲取。隨著互聯(lián)網(wǎng)等信息技術(shù)的飛速發(fā)展,作戰(zhàn)指揮通信及信息的傳播方式更加多樣。目前,在情報(bào)搜集過程中,面臨的困難主要是搜集渠道多維化、信息冗余、獲取效率低;情報(bào)處理面臨的困難主要是技術(shù)瓶頸和多種技術(shù)集成難的問題。信息處理后會(huì)形成初步的情報(bào)信息,但是信息的可信度、準(zhǔn)確度往往無法保證,且在真實(shí)作戰(zhàn)過程中,還散布著一些虛假信息。這時(shí),就需要依靠經(jīng)驗(yàn)知識(shí)和專業(yè)知識(shí),進(jìn)行情報(bào)信息的篩選、提煉和深化總結(jié)。此外,在情報(bào)獲取的過程中,需要對(duì)信息和數(shù)據(jù)進(jìn)行操作,因此信息存儲(chǔ)技術(shù)至關(guān)重要,但情報(bào)信息數(shù)據(jù)量大和格式復(fù)雜的特點(diǎn),又給信息的存儲(chǔ)造成了較大的困難。綜上,只有針對(duì)性地解決上述問題和困難,才能在未來信息化作戰(zhàn)中高效、智能地獲取高質(zhì)量、高可靠性的軍事情報(bào)。情報(bào)信息獲取框架圖如圖1所示。
圖1 情報(bào)信息獲取框架圖
為解決軍事情報(bào)難以獲取的問題,本研究構(gòu)建了TPI&I模型。TPI&I模型借鑒IEI@I方法論和系統(tǒng)工程方法論,主要基于“文本挖掘(Text Mining)+人(People)+智能技術(shù)(Intelligence)& 集成技術(shù)(Integration)”構(gòu)建而成[2],其中,“&”強(qiáng)調(diào)是一種非疊加性的集成。本研究采用“先分解后集成的思想”,首先將軍事情報(bào)獲取渠道分為網(wǎng)絡(luò)和現(xiàn)實(shí)2個(gè)部分,借助文本挖掘技術(shù)快速獲取互聯(lián)網(wǎng)等虛擬空間中的有用信息,通過情報(bào)人員獲取現(xiàn)實(shí)生活中的有用信息;其次,通過數(shù)據(jù)挖掘技術(shù),分析獲取信息之間的關(guān)聯(lián)關(guān)系及更深層次有價(jià)值的信息;再次,通過其他人工智能技術(shù)解決情報(bào)獲取過程中遇到的問題,例如,利用密碼學(xué)進(jìn)行密碼破譯、區(qū)塊鏈技術(shù)解決加密信息處理等問題。此外,還通過專家系統(tǒng),對(duì)處理后的情報(bào)信息進(jìn)行推理。最后,利用集成技術(shù)將上述分解的各個(gè)分系統(tǒng)結(jié)果綜合集成起來,情報(bào)專家結(jié)合專家系統(tǒng)推理輸出的結(jié)果和各階段所獲得的情報(bào)信息總結(jié)得到高質(zhì)量的情報(bào)信息,并進(jìn)行軍事行動(dòng)預(yù)測等后續(xù)操作。TPI&I模型的理論框架如圖2所示。
如圖2所示,TPI&I模型主要分為8個(gè)模塊,即:數(shù)據(jù)管理模塊、Hadoop(一種分布式系統(tǒng)架構(gòu))集群模塊、文本挖掘模塊、數(shù)據(jù)挖掘模塊、其他AI技術(shù)模塊、其他信息模塊、輸出模塊、人機(jī)交互模塊。
數(shù)據(jù)管理模塊是TDP&I模型的重要組成部分,模型中的每個(gè)模塊都與其有著交互關(guān)系。數(shù)據(jù)管理模塊包括傳統(tǒng)數(shù)據(jù)庫、Hive(一種基于Hadoop的數(shù)據(jù)倉庫工具)、HBase(一種開源的分布式數(shù)據(jù)庫)所構(gòu)成的模型庫、圖片庫、視頻庫等與情報(bào)搜集處理相關(guān)的數(shù)據(jù)庫。
圖2 TPI&I模型的理論框架
傳統(tǒng)數(shù)據(jù)庫與具體的應(yīng)用服務(wù)連接,可以用來存儲(chǔ)情報(bào)人員搜集到的情報(bào)信息,并為其他應(yīng)用提供數(shù)據(jù)的支撐服務(wù);Hive和HBase存儲(chǔ)容量大,查詢和處理速度比傳統(tǒng)數(shù)據(jù)庫快,用來存儲(chǔ)各類模型及文本挖掘、數(shù)據(jù)挖掘、附加信息處理得到的結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),以及各種人工智能模型、算法數(shù)據(jù)集。調(diào)整引擎可以輔助Hive、HBase與傳統(tǒng)數(shù)據(jù)庫進(jìn)行數(shù)據(jù)交換處理,并對(duì)各類模型、算法、數(shù)據(jù)集進(jìn)行更新操作。
Hadoop集群模塊主要由Hadoop分布式文件系統(tǒng)(HDFS)分布式文件系統(tǒng)、MapReduce(一種編程模型)分布式計(jì)算引擎、Zookeeper(一種開放源碼的分布式應(yīng)用程序協(xié)調(diào)服務(wù))組成,但可根據(jù)實(shí)際需要添加Hadoop生態(tài)系統(tǒng)中的其他技術(shù)[3]。HDFS能夠較好地保證數(shù)據(jù)的可用性、完整性、一致性,并具備高吞吐量、高可靠性和高容錯(cuò)性的優(yōu)點(diǎn)。允許用戶將數(shù)據(jù)存儲(chǔ)在群集中的多個(gè)節(jié)點(diǎn)或機(jī)器上,并允許多個(gè)用戶訪問數(shù)據(jù)。MapReduce分布式計(jì)算引擎采用主/從(Master/Slave)結(jié)構(gòu),可以有效處理大規(guī)模數(shù)據(jù)集的并行計(jì)算。Zookeeper是針對(duì)大型分布式系統(tǒng)的高可靠的協(xié)調(diào)系統(tǒng),能夠輔助HBase集群的運(yùn)行,可以為用戶提供配置、命名、分組、管理等服務(wù)。
文本挖掘模塊主要是針對(duì)難以量化表示的文本信息進(jìn)行挖掘,以及除數(shù)據(jù)庫外的Web文本信息的挖掘。文本挖掘模塊利用智能算法進(jìn)行可能性推理,并結(jié)合文字處理、語義識(shí)別等技術(shù),分析海量的網(wǎng)絡(luò)非結(jié)構(gòu)化文本,根據(jù)情報(bào)人員提供的關(guān)鍵字等信息,標(biāo)記各文本間的關(guān)系,并按照文本內(nèi)容分類獲取有用的知識(shí)和信 息[4]。文本挖掘模塊的具體實(shí)施流程如圖3所示。
圖3 文本挖掘流程示意圖
1. 文本預(yù)處理
原始文本及網(wǎng)絡(luò)文本格式多樣、信息量巨大,且格式不規(guī)范、內(nèi)容不完整、重復(fù)無效的信息會(huì)降低文本挖掘的效率并影響文本挖掘結(jié)果的準(zhǔn)確度。為了降低這些因素的不良影響,在進(jìn)行正式文本挖掘前對(duì)目標(biāo)文本進(jìn)行降噪處理具有重要 意義[5]。文本預(yù)處理主要包括去標(biāo)記、分詞、去停用詞、關(guān)鍵詞提取等4個(gè)主要步驟。
文本分詞之后,因?yàn)椴皇撬械脑~都有意義,且基于向量空間模型的文本表示會(huì)造成數(shù)據(jù)密度較小,因此需要進(jìn)行去停用詞和關(guān)鍵詞提取操作。關(guān)鍵詞提取時(shí),需要根據(jù)不同關(guān)鍵詞在對(duì)應(yīng)文章中所占比重進(jìn)行比較,設(shè)關(guān)鍵詞ti相對(duì)于文章dj權(quán)重值為wij,計(jì)算公式如下:
式中,fij為詞頻,表示詞條ti在其所在文章dj中出現(xiàn)的次數(shù),為逆向文本頻率,表示詞的區(qū)分度;n表示文本集合D中包含的文檔數(shù);ni表示包含詞條ti的文件數(shù)。
由于詞頻fij與文章篇幅長度呈正相關(guān),因此,文本越長計(jì)算所得權(quán)重值越大,為了避免該原因造成誤差,需針對(duì)文本長度進(jìn)行規(guī)范化處理,見下式:
2. 文本表示
計(jì)算機(jī)無法處理普通的文本數(shù)據(jù),因此需要借助文本表示將其轉(zhuǎn)換為計(jì)算機(jī)能夠讀取處理的語言以獲得初始的文本特征集。目前,常用的文本表示模型有2種,分別為布爾模型和向量空間模型。布爾模型以布爾代數(shù)和集合論為基礎(chǔ),形式簡單、可讀性強(qiáng),其缺點(diǎn)是模型表達(dá)準(zhǔn)確度和完整性較差。向量空間模型通過特征向量進(jìn)行文本表示,特征向量由文本中不同詞條所表示的特征項(xiàng)組成,而文本空間則可以看作是向量空間,每個(gè)文檔都可以映射為向量空間中的一個(gè)點(diǎn)。
3. 特征篩選
特征篩選由特征降維和特征加權(quán)兩部分組成。特征降維的目的是為了將數(shù)據(jù)多、分布密度小的高維文本特征集映射到低維空間,以方便后續(xù)文本挖掘的應(yīng)用,采用的方法一般為歸納合并或?qū)W習(xí)算法。特征加權(quán)則是以某種既定的標(biāo)準(zhǔn)為所有特征項(xiàng)賦權(quán)值,從而最大化文檔特性。
4. 文本建模
文本建模是文本挖掘的重要環(huán)節(jié),其可以有效促進(jìn)后續(xù)知識(shí)發(fā)現(xiàn)、趨勢判斷、可視化表示。此外,如果想將獲得的情報(bào)信息如人員、地名、時(shí)間等關(guān)聯(lián)到具體的軍事行動(dòng)等事件上還需要運(yùn)用網(wǎng)絡(luò)爬 蟲技術(shù)[6]。網(wǎng)絡(luò)爬蟲工作原理如圖4所示。
圖4 網(wǎng)絡(luò)爬蟲工作原理圖
從圖4可以看出,傳統(tǒng)網(wǎng)絡(luò)爬蟲的流程為從初始URL隊(duì)列中標(biāo)注的地址鏈接開始,按照預(yù)先設(shè)定的規(guī)則對(duì)新的頁面中包含的URL進(jìn)行提取,并在本地形成鏡像備份存入爬蟲數(shù)據(jù)庫,并通過新的URL訪問新的頁面進(jìn)行對(duì)應(yīng)的操作。TPI&I模型借助主題爬蟲,在傳統(tǒng)爬蟲的基礎(chǔ)上根據(jù)主題策略,進(jìn)行頁面主題相關(guān)度的識(shí)別,并對(duì)相關(guān)頁面進(jìn)行綜合評(píng)估排序,得到最終頁面信息。主題爬蟲極大地提高了數(shù)據(jù)采集效率,降低了系統(tǒng)資源的浪費(fèi)。
數(shù)據(jù)挖掘模塊包括數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、結(jié)果輸出等4個(gè)步驟。數(shù)據(jù)準(zhǔn)備階段需要根據(jù)實(shí)際需要選擇數(shù)據(jù)庫來確定數(shù)據(jù)來源,并在執(zhí)行過程中完成數(shù)據(jù)抽取工作[7]。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)集成。具體的執(zhí)行過程則需要根據(jù)用戶定義的規(guī)則來實(shí)現(xiàn)。在數(shù)據(jù)挖掘過程中,需要根據(jù)實(shí)際需要,運(yùn)用各種類型的數(shù)據(jù)挖掘算法對(duì)經(jīng)過預(yù)處理的數(shù)據(jù)執(zhí)行挖掘算法,經(jīng)常使用的數(shù)據(jù)挖掘算法有神經(jīng)網(wǎng)絡(luò)、回歸分析、支持向量機(jī)、聚類分析等。最后,該系統(tǒng)將數(shù)據(jù)挖掘結(jié)果輸出給專家系統(tǒng)和情報(bào)人員,以供進(jìn)一步的分析處理。
其他AI技術(shù)模塊包括密碼學(xué)技術(shù)、信息安全技術(shù)、區(qū)塊鏈技術(shù)等,主要用于解決阻礙情報(bào)獲取和研究的相關(guān)問題。例如,密碼學(xué)技術(shù)用于敵方密碼的破譯,以支撐情報(bào)信息的獲取和分析;信息安全技術(shù)用于對(duì)敵方信息系統(tǒng)進(jìn)行攻擊以獲取信息;區(qū)塊鏈技術(shù)用于己方情報(bào)信息的保密傳輸,以及對(duì)敵方涉及區(qū)塊鏈傳輸信息的破解。
現(xiàn)實(shí)信息模塊指的是現(xiàn)實(shí)世界情報(bào)信息的獲取,主要通過情報(bào)人員的現(xiàn)場采集,以及偵察機(jī)、衛(wèi)星等偵查工具的信息采集得以實(shí)現(xiàn)。獲取到的信息包括文字、圖片、視頻、音頻等多種格式信息,都通過人機(jī)交互模塊存儲(chǔ)在相對(duì)應(yīng)的數(shù)據(jù)庫中,等待信息的處理。
輸出模塊包含專家系統(tǒng)和情報(bào)專家兩部分。專家系統(tǒng)是一種智能計(jì)算機(jī)程序系統(tǒng),其內(nèi)部含有豐富的特定領(lǐng)域?qū)<宜降闹R(shí)與經(jīng)驗(yàn),構(gòu)成了經(jīng)驗(yàn)庫,使得人們能夠利用專家的知識(shí)和解決問題的方法處理各個(gè)領(lǐng)域的問題,以彌補(bǔ)純機(jī)器系統(tǒng)的不足[8],其結(jié)構(gòu)如圖5所示。專家系統(tǒng)以條件判斷語句“If-Then”的形式將情報(bào)專家的經(jīng)驗(yàn)知識(shí)集成起來,對(duì)其他各系統(tǒng)的輸出結(jié)果進(jìn)行分析,并將分析結(jié)果輸出傳遞給情報(bào)專家。情報(bào)專家結(jié)合其他各模塊輸出的信息進(jìn)行綜合分析決策,并形成高質(zhì)量的情報(bào)信息,同時(shí)根據(jù)情報(bào)信息,形成對(duì)應(yīng)的預(yù)測結(jié)果,為上層決策者提供智庫支撐。
圖5 專家系統(tǒng)結(jié)構(gòu)圖
人機(jī)交互模塊是用戶與TPI&I模型構(gòu)成的系統(tǒng)進(jìn)行信息交互的窗口,負(fù)責(zé)各個(gè)模塊與用戶的信息輸入/輸出,方便用戶的操作。
隨著世界各軍事強(qiáng)國科技水平的不斷提高,未來作戰(zhàn)取勝的關(guān)鍵不單單取決于武器裝備的先進(jìn)程度和部隊(duì)的作戰(zhàn)能力,還有情報(bào)信息的獲取和利用能力。隨著我軍信息化建設(shè)的推進(jìn),建設(shè)智能高效的情報(bào)獲取系統(tǒng)的必要性越發(fā)突顯。本研究根據(jù)情報(bào)獲取的步驟進(jìn)行問題分解,運(yùn)用多種技術(shù)進(jìn)行解決,最后綜合集成提出了TPI&I模型。該模型能夠提高復(fù)雜多維軍事情報(bào)的信息提取效率,提升軍事情報(bào)信息的獲取和利用能力,在戰(zhàn)場態(tài)勢感知、作戰(zhàn)決策指揮等方面具有良好的應(yīng)用前景,有利于信息化、體系化作戰(zhàn)場景下作戰(zhàn)效能的提升。