智能情報(bào)獲取系統(tǒng)框架研究

2020-09-07 13:37中國運(yùn)載火箭技術(shù)研究院研究發(fā)展部趙大海

軍民兩用技術(shù)與產(chǎn)品 2020年8期

中國運(yùn)載火箭技術(shù)研究院研究發(fā)展部趙大海郭晶

一、引言

“知己知彼，百戰(zhàn)不殆”，情報(bào)信息對(duì)戰(zhàn)爭結(jié)果的影響巨大，對(duì)于軍事情報(bào)而言，需要的是高密度、高價(jià)值、高可信度的信息。但隨著信息技術(shù)的飛速發(fā)展，各種類型的信息和數(shù)據(jù)正在呈指數(shù)級(jí)增長，隱藏在海量數(shù)據(jù)中有用的信息并沒有按相對(duì)應(yīng)的比例增長，導(dǎo)致信息密度不斷降低，這使得難以快速、高效、準(zhǔn)確地從眾多數(shù)據(jù)中獲取需要的軍事情報(bào)[1]。如何利用現(xiàn)有的人工智能技術(shù)解決這一難題，成為了目前的研究熱點(diǎn)。

二、問題分析

情報(bào)信息獲取可以分為情報(bào)信息的搜集、處理、形成3個(gè)部分。在第二次世界大戰(zhàn)之前，情報(bào)信息的搜集主要依靠情報(bào)人員的現(xiàn)場搜集和對(duì)敵人電臺(tái)的接聽獲取。隨著互聯(lián)網(wǎng)等信息技術(shù)的飛速發(fā)展，作戰(zhàn)指揮通信及信息的傳播方式更加多樣。目前，在情報(bào)搜集過程中，面臨的困難主要是搜集渠道多維化、信息冗余、獲取效率低；情報(bào)處理面臨的困難主要是技術(shù)瓶頸和多種技術(shù)集成難的問題。信息處理后會(huì)形成初步的情報(bào)信息，但是信息的可信度、準(zhǔn)確度往往無法保證，且在真實(shí)作戰(zhàn)過程中，還散布著一些虛假信息。這時(shí)，就需要依靠經(jīng)驗(yàn)知識(shí)和專業(yè)知識(shí)，進(jìn)行情報(bào)信息的篩選、提煉和深化總結(jié)。此外，在情報(bào)獲取的過程中，需要對(duì)信息和數(shù)據(jù)進(jìn)行操作，因此信息存儲(chǔ)技術(shù)至關(guān)重要，但情報(bào)信息數(shù)據(jù)量大和格式復(fù)雜的特點(diǎn)，又給信息的存儲(chǔ)造成了較大的困難。綜上，只有針對(duì)性地解決上述問題和困難，才能在未來信息化作戰(zhàn)中高效、智能地獲取高質(zhì)量、高可靠性的軍事情報(bào)。情報(bào)信息獲取框架圖如圖1所示。

圖1 情報(bào)信息獲取框架圖

三、模型框架

為解決軍事情報(bào)難以獲取的問題，本研究構(gòu)建了TPI&I模型。TPI&I模型借鑒IEI@I方法論和系統(tǒng)工程方法論，主要基于“文本挖掘（Text Mining）+人（People）+智能技術(shù)（Intelligence）& 集成技術(shù)（Integration）”構(gòu)建而成[2]，其中，“&”強(qiáng)調(diào)是一種非疊加性的集成。本研究采用“先分解后集成的思想”，首先將軍事情報(bào)獲取渠道分為網(wǎng)絡(luò)和現(xiàn)實(shí)2個(gè)部分，借助文本挖掘技術(shù)快速獲取互聯(lián)網(wǎng)等虛擬空間中的有用信息，通過情報(bào)人員獲取現(xiàn)實(shí)生活中的有用信息；其次，通過數(shù)據(jù)挖掘技術(shù)，分析獲取信息之間的關(guān)聯(lián)關(guān)系及更深層次有價(jià)值的信息；再次，通過其他人工智能技術(shù)解決情報(bào)獲取過程中遇到的問題，例如，利用密碼學(xué)進(jìn)行密碼破譯、區(qū)塊鏈技術(shù)解決加密信息處理等問題。此外，還通過專家系統(tǒng)，對(duì)處理后的情報(bào)信息進(jìn)行推理。最后，利用集成技術(shù)將上述分解的各個(gè)分系統(tǒng)結(jié)果綜合集成起來，情報(bào)專家結(jié)合專家系統(tǒng)推理輸出的結(jié)果和各階段所獲得的情報(bào)信息總結(jié)得到高質(zhì)量的情報(bào)信息，并進(jìn)行軍事行動(dòng)預(yù)測等后續(xù)操作。TPI&I模型的理論框架如圖2所示。

四、TPI&I模型的建立

如圖2所示，TPI&I模型主要分為8個(gè)模塊，即：數(shù)據(jù)管理模塊、Hadoop（一種分布式系統(tǒng)架構(gòu)）集群模塊、文本挖掘模塊、數(shù)據(jù)挖掘模塊、其他AI技術(shù)模塊、其他信息模塊、輸出模塊、人機(jī)交互模塊。

（一）數(shù)據(jù)管理模塊

數(shù)據(jù)管理模塊是TDP&I模型的重要組成部分，模型中的每個(gè)模塊都與其有著交互關(guān)系。數(shù)據(jù)管理模塊包括傳統(tǒng)數(shù)據(jù)庫、Hive（一種基于Hadoop的數(shù)據(jù)倉庫工具）、HBase（一種開源的分布式數(shù)據(jù)庫）所構(gòu)成的模型庫、圖片庫、視頻庫等與情報(bào)搜集處理相關(guān)的數(shù)據(jù)庫。

圖2 TPI&I模型的理論框架

傳統(tǒng)數(shù)據(jù)庫與具體的應(yīng)用服務(wù)連接，可以用來存儲(chǔ)情報(bào)人員搜集到的情報(bào)信息，并為其他應(yīng)用提供數(shù)據(jù)的支撐服務(wù)；Hive和HBase存儲(chǔ)容量大，查詢和處理速度比傳統(tǒng)數(shù)據(jù)庫快，用來存儲(chǔ)各類模型及文本挖掘、數(shù)據(jù)挖掘、附加信息處理得到的結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)，以及各種人工智能模型、算法數(shù)據(jù)集。調(diào)整引擎可以輔助Hive、HBase與傳統(tǒng)數(shù)據(jù)庫進(jìn)行數(shù)據(jù)交換處理，并對(duì)各類模型、算法、數(shù)據(jù)集進(jìn)行更新操作。

（二）Hadoop集群模塊

Hadoop集群模塊主要由Hadoop分布式文件系統(tǒng)（HDFS）分布式文件系統(tǒng)、MapReduce（一種編程模型）分布式計(jì)算引擎、Zookeeper（一種開放源碼的分布式應(yīng)用程序協(xié)調(diào)服務(wù)）組成，但可根據(jù)實(shí)際需要添加Hadoop生態(tài)系統(tǒng)中的其他技術(shù)[3]。HDFS能夠較好地保證數(shù)據(jù)的可用性、完整性、一致性，并具備高吞吐量、高可靠性和高容錯(cuò)性的優(yōu)點(diǎn)。允許用戶將數(shù)據(jù)存儲(chǔ)在群集中的多個(gè)節(jié)點(diǎn)或機(jī)器上，并允許多個(gè)用戶訪問數(shù)據(jù)。MapReduce分布式計(jì)算引擎采用主/從（Master/Slave）結(jié)構(gòu)，可以有效處理大規(guī)模數(shù)據(jù)集的并行計(jì)算。Zookeeper是針對(duì)大型分布式系統(tǒng)的高可靠的協(xié)調(diào)系統(tǒng)，能夠輔助HBase集群的運(yùn)行，可以為用戶提供配置、命名、分組、管理等服務(wù)。

（三）文本挖掘模塊

文本挖掘模塊主要是針對(duì)難以量化表示的文本信息進(jìn)行挖掘，以及除數(shù)據(jù)庫外的Web文本信息的挖掘。文本挖掘模塊利用智能算法進(jìn)行可能性推理，并結(jié)合文字處理、語義識(shí)別等技術(shù)，分析海量的網(wǎng)絡(luò)非結(jié)構(gòu)化文本，根據(jù)情報(bào)人員提供的關(guān)鍵字等信息，標(biāo)記各文本間的關(guān)系，并按照文本內(nèi)容分類獲取有用的知識(shí)和信息[4]。文本挖掘模塊的具體實(shí)施流程如圖3所示。

圖3 文本挖掘流程示意圖

1. 文本預(yù)處理

原始文本及網(wǎng)絡(luò)文本格式多樣、信息量巨大，且格式不規(guī)范、內(nèi)容不完整、重復(fù)無效的信息會(huì)降低文本挖掘的效率并影響文本挖掘結(jié)果的準(zhǔn)確度。為了降低這些因素的不良影響，在進(jìn)行正式文本挖掘前對(duì)目標(biāo)文本進(jìn)行降噪處理具有重要意義[5]。文本預(yù)處理主要包括去標(biāo)記、分詞、去停用詞、關(guān)鍵詞提取等4個(gè)主要步驟。

文本分詞之后，因?yàn)椴皇撬械脑~都有意義，且基于向量空間模型的文本表示會(huì)造成數(shù)據(jù)密度較小，因此需要進(jìn)行去停用詞和關(guān)鍵詞提取操作。關(guān)鍵詞提取時(shí)，需要根據(jù)不同關(guān)鍵詞在對(duì)應(yīng)文章中所占比重進(jìn)行比較，設(shè)關(guān)鍵詞ti相對(duì)于文章dj權(quán)重值為wij，計(jì)算公式如下：

式中，fij為詞頻，表示詞條ti在其所在文章dj中出現(xiàn)的次數(shù)，為逆向文本頻率，表示詞的區(qū)分度；n表示文本集合D中包含的文檔數(shù)；ni表示包含詞條ti的文件數(shù)。

由于詞頻fij與文章篇幅長度呈正相關(guān)，因此，文本越長計(jì)算所得權(quán)重值越大，為了避免該原因造成誤差，需針對(duì)文本長度進(jìn)行規(guī)范化處理，見下式：

2. 文本表示

計(jì)算機(jī)無法處理普通的文本數(shù)據(jù)，因此需要借助文本表示將其轉(zhuǎn)換為計(jì)算機(jī)能夠讀取處理的語言以獲得初始的文本特征集。目前，常用的文本表示模型有2種，分別為布爾模型和向量空間模型。布爾模型以布爾代數(shù)和集合論為基礎(chǔ)，形式簡單、可讀性強(qiáng)，其缺點(diǎn)是模型表達(dá)準(zhǔn)確度和完整性較差。向量空間模型通過特征向量進(jìn)行文本表示，特征向量由文本中不同詞條所表示的特征項(xiàng)組成，而文本空間則可以看作是向量空間，每個(gè)文檔都可以映射為向量空間中的一個(gè)點(diǎn)。

3. 特征篩選

特征篩選由特征降維和特征加權(quán)兩部分組成。特征降維的目的是為了將數(shù)據(jù)多、分布密度小的高維文本特征集映射到低維空間，以方便后續(xù)文本挖掘的應(yīng)用，采用的方法一般為歸納合并或?qū)W習(xí)算法。特征加權(quán)則是以某種既定的標(biāo)準(zhǔn)為所有特征項(xiàng)賦權(quán)值，從而最大化文檔特性。

4. 文本建模

文本建模是文本挖掘的重要環(huán)節(jié)，其可以有效促進(jìn)后續(xù)知識(shí)發(fā)現(xiàn)、趨勢判斷、可視化表示。此外，如果想將獲得的情報(bào)信息如人員、地名、時(shí)間等關(guān)聯(lián)到具體的軍事行動(dòng)等事件上還需要運(yùn)用網(wǎng)絡(luò)爬蟲技術(shù)[6]。網(wǎng)絡(luò)爬蟲工作原理如圖4所示。

圖4 網(wǎng)絡(luò)爬蟲工作原理圖

從圖4可以看出，傳統(tǒng)網(wǎng)絡(luò)爬蟲的流程為從初始URL隊(duì)列中標(biāo)注的地址鏈接開始，按照預(yù)先設(shè)定的規(guī)則對(duì)新的頁面中包含的URL進(jìn)行提取，并在本地形成鏡像備份存入爬蟲數(shù)據(jù)庫，并通過新的URL訪問新的頁面進(jìn)行對(duì)應(yīng)的操作。TPI&I模型借助主題爬蟲，在傳統(tǒng)爬蟲的基礎(chǔ)上根據(jù)主題策略，進(jìn)行頁面主題相關(guān)度的識(shí)別，并對(duì)相關(guān)頁面進(jìn)行綜合評(píng)估排序，得到最終頁面信息。主題爬蟲極大地提高了數(shù)據(jù)采集效率，降低了系統(tǒng)資源的浪費(fèi)。

（四）數(shù)據(jù)挖掘模塊

數(shù)據(jù)挖掘模塊包括數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、結(jié)果輸出等4個(gè)步驟。數(shù)據(jù)準(zhǔn)備階段需要根據(jù)實(shí)際需要選擇數(shù)據(jù)庫來確定數(shù)據(jù)來源，并在執(zhí)行過程中完成數(shù)據(jù)抽取工作[7]。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)集成。具體的執(zhí)行過程則需要根據(jù)用戶定義的規(guī)則來實(shí)現(xiàn)。在數(shù)據(jù)挖掘過程中，需要根據(jù)實(shí)際需要，運(yùn)用各種類型的數(shù)據(jù)挖掘算法對(duì)經(jīng)過預(yù)處理的數(shù)據(jù)執(zhí)行挖掘算法，經(jīng)常使用的數(shù)據(jù)挖掘算法有神經(jīng)網(wǎng)絡(luò)、回歸分析、支持向量機(jī)、聚類分析等。最后，該系統(tǒng)將數(shù)據(jù)挖掘結(jié)果輸出給專家系統(tǒng)和情報(bào)人員，以供進(jìn)一步的分析處理。

（五）其他AI技術(shù)模塊

其他AI技術(shù)模塊包括密碼學(xué)技術(shù)、信息安全技術(shù)、區(qū)塊鏈技術(shù)等，主要用于解決阻礙情報(bào)獲取和研究的相關(guān)問題。例如，密碼學(xué)技術(shù)用于敵方密碼的破譯，以支撐情報(bào)信息的獲取和分析；信息安全技術(shù)用于對(duì)敵方信息系統(tǒng)進(jìn)行攻擊以獲取信息；區(qū)塊鏈技術(shù)用于己方情報(bào)信息的保密傳輸，以及對(duì)敵方涉及區(qū)塊鏈傳輸信息的破解。

（六）現(xiàn)實(shí)信息模塊

現(xiàn)實(shí)信息模塊指的是現(xiàn)實(shí)世界情報(bào)信息的獲取，主要通過情報(bào)人員的現(xiàn)場采集，以及偵察機(jī)、衛(wèi)星等偵查工具的信息采集得以實(shí)現(xiàn)。獲取到的信息包括文字、圖片、視頻、音頻等多種格式信息，都通過人機(jī)交互模塊存儲(chǔ)在相對(duì)應(yīng)的數(shù)據(jù)庫中，等待信息的處理。

（七）輸出模塊

輸出模塊包含專家系統(tǒng)和情報(bào)專家兩部分。專家系統(tǒng)是一種智能計(jì)算機(jī)程序系統(tǒng)，其內(nèi)部含有豐富的特定領(lǐng)域?qū)＜宜降闹R(shí)與經(jīng)驗(yàn)，構(gòu)成了經(jīng)驗(yàn)庫，使得人們能夠利用專家的知識(shí)和解決問題的方法處理各個(gè)領(lǐng)域的問題，以彌補(bǔ)純機(jī)器系統(tǒng)的不足[8]，其結(jié)構(gòu)如圖5所示。專家系統(tǒng)以條件判斷語句“If-Then”的形式將情報(bào)專家的經(jīng)驗(yàn)知識(shí)集成起來，對(duì)其他各系統(tǒng)的輸出結(jié)果進(jìn)行分析，并將分析結(jié)果輸出傳遞給情報(bào)專家。情報(bào)專家結(jié)合其他各模塊輸出的信息進(jìn)行綜合分析決策，并形成高質(zhì)量的情報(bào)信息，同時(shí)根據(jù)情報(bào)信息，形成對(duì)應(yīng)的預(yù)測結(jié)果，為上層決策者提供智庫支撐。

圖5 專家系統(tǒng)結(jié)構(gòu)圖

（八）人機(jī)交互模塊

人機(jī)交互模塊是用戶與TPI&I模型構(gòu)成的系統(tǒng)進(jìn)行信息交互的窗口，負(fù)責(zé)各個(gè)模塊與用戶的信息輸入/輸出，方便用戶的操作。

五、總結(jié)

隨著世界各軍事強(qiáng)國科技水平的不斷提高，未來作戰(zhàn)取勝的關(guān)鍵不單單取決于武器裝備的先進(jìn)程度和部隊(duì)的作戰(zhàn)能力，還有情報(bào)信息的獲取和利用能力。隨著我軍信息化建設(shè)的推進(jìn)，建設(shè)智能高效的情報(bào)獲取系統(tǒng)的必要性越發(fā)突顯。本研究根據(jù)情報(bào)獲取的步驟進(jìn)行問題分解，運(yùn)用多種技術(shù)進(jìn)行解決，最后綜合集成提出了TPI&I模型。該模型能夠提高復(fù)雜多維軍事情報(bào)的信息提取效率，提升軍事情報(bào)信息的獲取和利用能力，在戰(zhàn)場態(tài)勢感知、作戰(zhàn)決策指揮等方面具有良好的應(yīng)用前景，有利于信息化、體系化作戰(zhàn)場景下作戰(zhàn)效能的提升。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡