楊小牛,楊志邦,賴蘭劍
(1.通信信息控制和安全技術(shù)重點實驗室,浙江嘉興 314033;2.中國電子科技集團公司第36 研究所,浙江嘉興 314033)
宇宙大爆炸創(chuàng)造了我們所居住的這個世界,而數(shù)據(jù)大爆炸正在創(chuàng)造一個全新的數(shù)字宇宙。我們目前處于數(shù)據(jù)大爆炸的起始階段:在2006 年,個人用戶才剛剛邁進TB 時代,全球新產(chǎn)生了約180 EB(1 EB =10 億GB)的數(shù)據(jù);而在2011 年,這個數(shù)字達到了1800 EB(1 ZB=1000 EB)。根據(jù)知名市場研究機構(gòu)IDC 的預測,到2020 年這個數(shù)字將增至35.2 ZB[1]。從B(Byte)、KB、MB、GB、TB,到PB、EB、ZB、YB……數(shù)據(jù)的邊界不斷擴大,“大數(shù)據(jù)”時代,正在到來。
隨著美國聯(lián)邦政府公布開發(fā)“大數(shù)據(jù)”研發(fā)項目,以最大限度地科學有效利用規(guī)模飛速增長的數(shù)字化數(shù)據(jù)[2],以及2012 美國總統(tǒng)選舉中奧巴馬團隊對于大數(shù)據(jù)的成功應用,大數(shù)據(jù)更是引起各國政府、工商界和學術(shù)界的廣泛關(guān)注。
對于大數(shù)據(jù),現(xiàn)在比較流行的是用四個“V”來概括其不同層面的含義:
· Volume,容量巨大,數(shù)據(jù)已從TB 級別躍升至PB 等更高級別,所需收集、存儲、分發(fā)的數(shù)據(jù)規(guī)模遠超傳統(tǒng)數(shù)據(jù)管理技術(shù)的能力;
· Variety,數(shù)據(jù)類型紛繁,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),無規(guī)律可循;
· Value,價值密度低,但隱含的價值巨大,在海量數(shù)據(jù)中,你所關(guān)心的有用數(shù)據(jù)很少,需要從海量數(shù)據(jù)中提取出解決特定問題或滿足特定任務目標的信息;
· Velocity,處理速度快,在很多場合需要實時分析和處理。
爆炸性增長的數(shù)據(jù)為企業(yè)帶來了新的機遇和挑戰(zhàn):一方面,數(shù)據(jù)的不斷更新擴張給數(shù)據(jù)存儲、管理和分析利用帶來了挑戰(zhàn),同時,也對傳統(tǒng)領(lǐng)域的創(chuàng)新發(fā)展帶來了新的機遇。“大數(shù)據(jù)”已經(jīng)深入到信息、安全、醫(yī)療、服務等眾多行業(yè),并產(chǎn)生了重大效益[3]。
大數(shù)據(jù)在近年來已取得了大量技術(shù)成果,把相關(guān)技術(shù)成果創(chuàng)新應用在情報偵察領(lǐng)域[4,5],并由此形成新的信號情報偵察體系架構(gòu),解決情報偵察在“大數(shù)據(jù)”時代面臨的諸多問題,是值得深入研究的前沿課題。
隨著電子技術(shù)的進步和偵察要求的提高,現(xiàn)代信號情報偵察也呈現(xiàn)出類似于“大數(shù)據(jù)”的4 個“V”。
(1)隨著全譜信息感知需求的不斷增長,信息感知的頻段不斷加寬,從長波(幾十赫茲)到短波,從超短波到微波,一直到毫米波、太赫茲(T 赫茲);同時,各種寬帶雷達、寬帶通信體制的出現(xiàn),對瞬時處理帶寬的要求也不斷提高,導致AD 速率不斷增長,由此信號情報偵察所獲取的數(shù)據(jù)量正在迅速增長。保守估計,在單通道1 GHz 帶寬下,采樣率取保守值2.5 GHz,以雙字節(jié)保存一個樣點,則每秒的數(shù)據(jù)量為5 GB 以上,1 小時產(chǎn)生的數(shù)據(jù)量為18 TB,一天的數(shù)據(jù)量即為432 TB/天。如果要實現(xiàn)全譜感知,那樣采集的數(shù)據(jù)量將成倍地增加,構(gòu)成海量的信號情報偵察數(shù)據(jù)(Volume)。
(2)偵察信號越來越復雜,調(diào)制方式種類繁多。按發(fā)射信號的用途可分為通信信號、雷達信號、無線電引信信號、制導信號、導航信號等;按信號的頻段可分為長波信號、中波信號、短波信號、超短波信號、微波信號、紅外信號、激光信號等;按照電磁波傳播方式可分為表面波信號、地波信號、天波信號、對流層散射信號等;眾多復雜的信號加大了情報偵察和分析的難度(Variety)。
(3)在采集的海量數(shù)據(jù)當中,包含大量的噪聲或干擾,以及己方、友方的各種信號,需要在密集的信號中找出很少的有用信息(Value)。
(4)信號情報偵察實時性高,許多場合需要實時解析情報內(nèi)容,從而要求很高的處理速度(Velocity)。
從以上分析可以看出,現(xiàn)代信號情報偵察已經(jīng)邁入了大數(shù)據(jù)時代。然后,目前的信號情報偵察采用的是傳統(tǒng)體系架構(gòu),每個站點的功能相對固化,站點之間的相互關(guān)系也較為固定。這種體系架構(gòu)已經(jīng)難以應對信號情報偵察系統(tǒng)所呈現(xiàn)出的4 個“V”特征,面臨著許多問題:
(1)每個站點的功能相對固定,站點之間信息難以實現(xiàn)共享,而單個站點的功能存在局限性,從而無法實現(xiàn)全概率截獲;
(2)不能多系統(tǒng)層面對數(shù)據(jù)進行采集和存儲,數(shù)據(jù)之間的關(guān)聯(lián)性不強,無法分析通信過程,也不能對信號進行對比分析和關(guān)聯(lián)性分析;
(3)由于傳統(tǒng)結(jié)構(gòu)缺乏對大數(shù)據(jù)的分析和存儲方法,難以從海量數(shù)據(jù)中準確抽取所需信號,會造成小信號遺漏等問題;
傳統(tǒng)信號情報偵察體系架構(gòu)在實用性、靈活性、可擴展性方面都面臨著考驗,已無法適應現(xiàn)代信號情報偵察的需求。對于已經(jīng)邁入了大數(shù)據(jù)時代的信號情報偵察,需要設計新的體系架構(gòu),對資源進行有效整合,實現(xiàn)資源的靈活管理和調(diào)度,以滿足現(xiàn)代信號情報偵察的要求。
目前,大數(shù)據(jù)的研究已經(jīng)全球范圍內(nèi)全面開展,并取得了重大效益。在情報技術(shù)快速發(fā)展的今天,應用大數(shù)據(jù)的概念來構(gòu)建下一代信號情報偵察體系架構(gòu),借鑒大數(shù)據(jù)的技術(shù)來解決信號情報偵察目前所面臨的問題,將是信號情報偵察新的發(fā)展方向。
在大數(shù)據(jù)的背景下,信號情報偵察體系架構(gòu)將發(fā)生變化。以下主要從單站結(jié)構(gòu)和系統(tǒng)框架兩個方面,提出大數(shù)據(jù)背景下的新型信號情報偵察體系架構(gòu)。
在傳統(tǒng)的情報偵察體系架構(gòu)中,每個單站相對獨立,被認為是一個傳感資源,對外主要輸出采集到的信號,不提供其他服務。在大數(shù)據(jù)時代下的信號情報偵察將更強調(diào)系統(tǒng)級的合作,各個單站將作為一個分布式節(jié)點,需要在系統(tǒng)的統(tǒng)一調(diào)度下進行相應采集、處理和存儲等操作。這時,單站對外不僅表現(xiàn)為傳感資源,它還表現(xiàn)為系統(tǒng)中的一個計算資源和數(shù)據(jù)資源,表現(xiàn)出新的資源結(jié)構(gòu)如圖1 所示。
圖1 新的單站資源結(jié)構(gòu)
由圖1 可知,新的單站對外提供三種資源,分別是傳感資源、計算資源和數(shù)據(jù)資源。這時單站作為系統(tǒng)中的一個資源節(jié)點,在系統(tǒng)的統(tǒng)一管理下工作。
需要指出的是,在傳統(tǒng)的單站中也具有計算和存儲的功能,只是這些功能只局限在單站內(nèi)部,不能對外提供。其實這也有利于新的單站的建立,只需在傳統(tǒng)的單站上對軟件進行修改就可以向新的架構(gòu)轉(zhuǎn)變,從而在很大程度上降低了硬件的升級工作。
在單站資源結(jié)構(gòu)變化的同時,其功能也將發(fā)生變化。在傳統(tǒng)的信號情報偵察功能基礎上,增加了適應大數(shù)據(jù)的處理功能。新的單站結(jié)構(gòu)如圖2 所示。
由圖2 可知,新的單站通過搜索服務與上層管理中心進行交互,并實現(xiàn)對單站內(nèi)資源的調(diào)度。搜索服務可以根據(jù)上層發(fā)送過來的搜索指令,通過搜索響應和配制模塊,調(diào)用不同的控制程序來執(zhí)行相應的功能。具體的控制程序包括傳統(tǒng)的偵察操作和控制,用于執(zhí)行現(xiàn)有單站的信號情報偵察功能;有新型偵察控制,如爬蟲軟件、索引構(gòu)建軟件等,用于信息的分析和整理,將搜索的信息按照規(guī)范的格式進行存儲及索引;有可重構(gòu)控制,對采集前端及處理后端進行功能重構(gòu),以實現(xiàn)在線切換單站的情報采集、搜索功能。
圖2 新的單站結(jié)構(gòu)
單站還具有知識庫,包括先驗知識和系統(tǒng)訓練所得知識,這些知識包含不同信號之間的關(guān)系、信號的重要級別等,用以指導建立情報的索引及更好地進行搜索服務。
通過信息的搜索響應和資源配置,單站通過搜索服務以情報索引方式進行結(jié)果返回,完成單站對搜索指令的響應。
在新的單站結(jié)構(gòu)基礎上,大數(shù)據(jù)時代下的信號情報偵察系統(tǒng)框架,如圖3 所示。
圖3 新的偵察系統(tǒng)框架
新的情報偵察系統(tǒng)框架通過智能偵察搜索引擎對外進行交互,智能偵察搜索引擎是整個架構(gòu)的核心,負責資源的統(tǒng)一管理和智能調(diào)度。
在智能搜索引擎之下,包含資源發(fā)現(xiàn)、分析與挖掘、大數(shù)據(jù)存儲等大數(shù)據(jù)所需要的基本功能。與其他應用領(lǐng)域不同的是,信號情報偵察領(lǐng)域的搜索不僅能夠完成傳統(tǒng)的被動搜索,還能夠通過資源重組和流程重組進行單站功能的可重構(gòu),從而能夠根據(jù)特定需要進行系統(tǒng)級的主動搜索。
為了便于資源管理,在系統(tǒng)資源與搜索報務之間用一個資源抽象層實現(xiàn)對各種資源的管理,系統(tǒng)通過資源抽象層實現(xiàn)資源的統(tǒng)一調(diào)度和分配,屏蔽各個單站資源的具體操作。上層只需關(guān)心系統(tǒng)需要何種資源,而不需要感知該資源具體分配在哪個單站上,以及資源以何種方式傳送給上層。
在資源抽象層下面就是對資源進行具體偵察的各個單站。其對于資源抽象層所表現(xiàn)出來的是各種資源,包括偵察資源、數(shù)據(jù)資源和計算資源,由上層負責對其進行統(tǒng)一調(diào)度和管理。
在整個系統(tǒng)框架中,智能偵察搜索引擎完成用戶請求及任務分配。通過單站上的“信息爬蟲”,獲取資源列表;通過分布式數(shù)據(jù)的分析和挖掘,實現(xiàn)對搜索請求的響應。同時,智能偵察搜索引擎還可以根據(jù)搜索請求,進行偵察系統(tǒng)的在線重構(gòu),通過資源重組和流程重組,實現(xiàn)對情報有針對性地智能、主動搜索。
在新的偵察體系架構(gòu)下,系統(tǒng)的保障能力更強,能夠響應各種實時和非實時、常規(guī)和非常規(guī)的偵察需求;系統(tǒng)的“魯棒性”更好,對系統(tǒng)的硬件、軟件錯誤有很強的容忍度;同時資源利用率更高,可以有效整合各部分的資源進行高效偵察。
大數(shù)據(jù)時代下的信號情報偵察系統(tǒng)面向特定目標、特定目的,能夠充分利用各部分資源,實現(xiàn)情報信息的大偵察。與傳統(tǒng)的信號情報偵察系統(tǒng)相比,具有以下特點。
(1)智能搜索引擎:該搜索引擎將下層的偵察實現(xiàn)進行封裝,上層的用戶輸入無需關(guān)注底層的具體實現(xiàn),由智能搜索引擎根據(jù)用戶的輸入,去搜索或調(diào)度適當?shù)馁Y源,并將搜索結(jié)果快速返回,這種搜索模式在強化系統(tǒng)偵察功能的前提下簡單了用戶的操作;
(2)大偵察功能:根據(jù)用戶的輸入和訓練出的專家知識庫,從系統(tǒng)層面對不同來源的數(shù)據(jù)進行廣泛搜索,視野開闊,可以分析整個通信的過程,并進行對比分析和關(guān)聯(lián)性分析,發(fā)現(xiàn)新的目標組網(wǎng)和目標關(guān)聯(lián);
(3)實時重構(gòu):系統(tǒng)能夠針對目標進行偵察系統(tǒng)和流程重構(gòu),形成一個虛擬的“偵察系統(tǒng)”,通過對不同資源的充分調(diào)度,完成實時、針對性地搜索;
(4)事后追溯功能:在某些事件發(fā)生之后,可以利用相關(guān)情報信息,將事件相關(guān)的數(shù)據(jù)記錄進行針對性分析和搜索,實現(xiàn)對事件的追溯;
(5)高效搜索能力:基于新的體系架構(gòu)設計的信號情報偵察系統(tǒng),具有海量數(shù)據(jù)存儲和處理能力,從而可以實現(xiàn)全概率截獲,并且對于小信號的偵察能力更強,防止小信號的遺漏;
(6)系統(tǒng)自學習能力:通過先驗知識或用戶的多次搜索結(jié)果的分析,調(diào)整不同信號之間的關(guān)聯(lián)度,實現(xiàn)搜索的自學習,從而快速從海量數(shù)據(jù)中尋找信號及與其關(guān)聯(lián)的通信網(wǎng)。
要構(gòu)建新型偵察系統(tǒng),需要解決一系列的關(guān)鍵問題,其中包括:與現(xiàn)有偵察體系的衍接,偵察信號的表示、處理和傳輸,偵察體系的系統(tǒng)級可重構(gòu)設計技術(shù)等方面,以下對其分別進行分析和探討。
下一代偵察系統(tǒng)只有處理好與現(xiàn)有偵察系統(tǒng)的無縫連接,才能保證系統(tǒng)的快速構(gòu)建,提高現(xiàn)有設備的利用效率。
通過分析新的單站結(jié)構(gòu)可以發(fā)現(xiàn),新的單站是基于現(xiàn)有的裝備技術(shù)和能力,結(jié)合大數(shù)據(jù)、云計算等新的計算模式,增加適當?shù)拇鎯陀嬎阍O備構(gòu)建而成。在現(xiàn)有偵察系統(tǒng)轉(zhuǎn)變到下一代系統(tǒng),可以從以下兩方面著手。
(1)在單站上需要安裝新型偵察控制軟件,按照搜索服務的要求搜集相關(guān)信息,對信息進行索引,并傳給上層數(shù)據(jù)處理中心。
單站在原有任務的基礎上,需要完成數(shù)據(jù)的采集、整理和重組織,并對樣本進行分類,形成不同階段的樣本(原始樣本、初步處理后的樣本、初步處理結(jié)果)及不同特征的樣本,并建立它們之間的關(guān)系。
(2)單站需要按照上級中心的要求對特定樣本進行針對性搜索或功能重構(gòu),并將搜索的信號遷移到目標位置。
在單站的基礎上,要構(gòu)建上層數(shù)據(jù)處理中心,它可能需要專用服務器,在存儲能力、計算能力和服務能力方面有較高的要求,能夠滿足一定強度的搜索請求和信息收集能力,根據(jù)需要可能還需建立更大的上層中心,實現(xiàn)大中心、分中心、偵察裝備的分級結(jié)構(gòu),數(shù)據(jù)采用分布式的存儲方式[6]。
在這種中心架構(gòu)基礎上,各個單站采集的數(shù)據(jù)可以實現(xiàn)共享和存儲,以實現(xiàn)隨時、隨地利用全系統(tǒng)資源的效果,并且可以充分挖掘數(shù)據(jù)中蘊含的新價值。
在信號情報偵察中使用大數(shù)據(jù)架構(gòu),則首先需要具備大數(shù)據(jù)處理的基本條件,包括偵察信號的表示、處理及傳輸技術(shù)。
(1)信號的表示。為保證從海量數(shù)據(jù)中能夠快速提取有用信號,信號的表示方法則顯得尤為重要。由于信號包括多種屬性,從波形結(jié)構(gòu)來看有幅度、頻率、帶寬、調(diào)制等信息;信號與信號之間有相應的時序結(jié)構(gòu),包括通信雙方的應答、通連關(guān)系等;信號之間還存在組織關(guān)系,包括組網(wǎng)結(jié)構(gòu)、通信協(xié)議關(guān)系等。如何將信號的不同屬性進行規(guī)范化的表示,建立相應的索引,對數(shù)據(jù)進行有效存儲,滿足不同搜索需求,是需要解決的首要問題。
(2)信號的處理也是需要解決的一個重要課題。在下一代偵察體系架構(gòu)下,面對海量的信號,如何設計有效的信息挖掘和處理算法,實現(xiàn)對信號的精確分析和提取,對于偵察性能的提升十分重要。同時,對于處理好的信號,需要進行格式化的存儲和管理,能夠?qū)Ω鞣N信號查詢做出快速反應,保證對數(shù)據(jù)的高效訪問和獲取,這是大數(shù)據(jù)時代下的信號情報偵察需要解決的基本問題[7]。
(3)下一代信號情報偵察更注重系統(tǒng)級的協(xié)作,這就需要在不同的站點之間進行信息的快速交互,給信號的傳輸帶寬帶來的新的挑戰(zhàn),是下一代體系結(jié)構(gòu)面臨的重要問題。
只有解決了以上問題,情報偵察架構(gòu)才具備構(gòu)建的基石。在此基礎上,新的信號情報偵察和處理的重心將向“計算”傾斜,將偵察的問題轉(zhuǎn)變?yōu)橛嬎銌栴},可以借鑒大數(shù)據(jù)的研究成果,應用于下一代信號情報偵察領(lǐng)域。
現(xiàn)有的較好的偵察系統(tǒng),尤其是采用軟件無線電的無線偵察系統(tǒng),在裝備的設計和使用方面,都比較強調(diào)單裝、單系統(tǒng)的功能發(fā)揮,其設計結(jié)構(gòu)基本上是以“算法”為核心的。偵察的流程也局限在功能搜索,圍繞某個特定的目的在單系統(tǒng)中進行搜索。在該系統(tǒng)框架下,可重構(gòu)技術(shù)也只停留在“功能層面”,缺乏系統(tǒng)級的統(tǒng)籌規(guī)劃。
在大數(shù)據(jù)時代下的新的信號情報偵察體系結(jié)構(gòu)中,信號情報偵察的核心由“算法”向“系統(tǒng)”轉(zhuǎn)變。這里的“系統(tǒng)”不再是算法所瞄準的單一的功能,而是為了某個目的、某個特定目標重構(gòu)出來的一個“虛擬系統(tǒng)”,系統(tǒng)的組成、節(jié)點類型、數(shù)量、地理位置分布和工作流程,是通過“重構(gòu)”,以“按需服務”的模式臨時組合地一起。在新的體系架構(gòu)中,偵察系統(tǒng)的可重構(gòu)設計技術(shù)是其中的關(guān)鍵。
新的信號情報偵察體系結(jié)構(gòu)中的可重構(gòu)技術(shù)是一種全局的可重構(gòu)功能,它是在當前搜索資源不足或偵察針對性不強的情況下進行在線重構(gòu)。要實現(xiàn)系統(tǒng)級可重構(gòu),則首先需要獲取當前系統(tǒng)的資源信息,包括位置和功能等信息,然后進行資源的合理配置和調(diào)度,以完成對搜索的請求。這中間存在資源發(fā)現(xiàn)和管理、資源調(diào)度、資源響應時間等系列問題,是下一代信號情報偵察體系架構(gòu)下需要解決的關(guān)鍵技術(shù)。
采用這種以系統(tǒng)為核心的可重構(gòu)技術(shù),可以實現(xiàn)對信號情報偵察系統(tǒng)中的“傳感資源”、“計算資源”和“數(shù)據(jù)資源”的最佳利用。
構(gòu)建大數(shù)據(jù)時代下的信號情報偵察系統(tǒng),需要解決一系列的關(guān)鍵問題。其中有些問題,可以從現(xiàn)在大數(shù)據(jù)的成熟應用中借鑒。以下列舉一些可以借鑒的技術(shù)。
Google 云計算平臺主要由文件存儲、并行數(shù)據(jù)處理、分布式鎖和結(jié)構(gòu)化數(shù)據(jù)表四部分組成,其構(gòu)成如圖4 所示。
圖4 Google 云計算平臺
由圖4 可知,Google 云計算平臺的文件存儲采用GFS(Google Distributed File System)[8],并行數(shù)據(jù)處理技術(shù)采用MapReduce[9],分布式鎖采用Chubby[10],結(jié)構(gòu)化數(shù)據(jù)表采用的是BigTable[11],這些共同構(gòu)成計算平臺,為上層的云計算應用服務。分別對其進行簡單介紹。
GFS 的文件系統(tǒng)由一個的主服務器和多個塊服務器組成,并可以多個客戶端的訪問,數(shù)據(jù)存儲在塊服務器,并且在主服務器上保存其索引??蛻舳送ㄟ^查詢主服務器,獲取所需文件的索引,然后從塊服務器上獲取所需要的文件。GFS 的結(jié)構(gòu)及查詢過程如圖5 所示。
圖5 GFS 文件系統(tǒng)
MapReduce 是Jeffery Dean 設計的一個新的并行處理模型,將并行化、容錯、數(shù)據(jù)分布、負載均衡的等繁瑣的實現(xiàn)細節(jié)進行封裝,用戶只需編寫簡單的計算代碼,而并不必關(guān)心算法的并行處理過程[12]。
Chubby 是Google 為解決分布式一致性問題而設計的提供粗粒度鎖服務的文件系統(tǒng),其他分布式系統(tǒng)可以使用它對共享資源的訪問進行同步。
BigTable 基于GFS 和Chubby 的分布式存儲系統(tǒng),對數(shù)據(jù)進行結(jié)構(gòu)化存儲和管理,從而快速地從海量信息中尋找需要的數(shù)據(jù)。
Google 現(xiàn)有的平臺技術(shù)是大數(shù)據(jù)的成功應用經(jīng)驗,可以作為系統(tǒng)構(gòu)建時的借鑒和參考。
大數(shù)據(jù)分析(BDA,big data analytics)是將先進的分析技術(shù)用于大數(shù)據(jù)集。從功能角度來講,BDA實現(xiàn)了從大數(shù)據(jù)到情報的轉(zhuǎn)換,而這種轉(zhuǎn)換本身與大數(shù)據(jù)的“4V”特性分不開。轉(zhuǎn)換過程必須采用各種BDA 平臺、工具,如,阿帕奇Hadoop。Hadoop 技術(shù)與平臺使得大數(shù)據(jù)分析人員可以對原始數(shù)據(jù)進行分析,并得到支持決策所需的情報[13]。
BDA 主要關(guān)注兩方面內(nèi)容:大數(shù)據(jù)本身及分析技術(shù)本身;如何將二者有機融合,以實現(xiàn)從大數(shù)據(jù)中提取有價值的情報并用以輔助決策之目的。可用于BDA 的分析技術(shù)包括了預測分析、數(shù)據(jù)挖掘、統(tǒng)計分析、復雜結(jié)構(gòu)化查詢語言(SQL)等,以及那些可以支持大數(shù)據(jù)分析的數(shù)據(jù)可視化、人工智能、事實聚類、文本法分析、自然語言處理、數(shù)據(jù)庫等相關(guān)技術(shù)。可以看出,大多數(shù)BDA 技術(shù)其實均可歸入“發(fā)現(xiàn)分析”或“發(fā)掘分析”技術(shù)的范疇,而發(fā)現(xiàn)、發(fā)掘情報也是BDA 的主要目標之一[14]。
2011 年,相關(guān)機構(gòu)進行了“大數(shù)據(jù)分析工具、技術(shù)與趨勢”調(diào)查。該調(diào)查列出了幾乎所有與大數(shù)據(jù)分析相關(guān)的工具與技術(shù),其中包括如下幾類:新興的,如云計算、MapReduce、復雜事件處理(CEP);不是新興但適用于大數(shù)據(jù)分析的,如數(shù)據(jù)可視化、預測分析;已有且比較成熟的,如統(tǒng)計分析、手工編碼的SQL。BDA 技術(shù)與工具在情報領(lǐng)域內(nèi)的應用將會非常廣泛,可用于情報獲取、融合、分發(fā)與共享(即,構(gòu)建情報網(wǎng)絡)等諸多情報處理環(huán)節(jié)[15]。
著名的非SQL(noSQL)數(shù)據(jù)庫開發(fā)公司Objectivity 所開發(fā)的Objectivity/DB、InfiniteGraph(IG)等大數(shù)據(jù)分析工具是典型的可用于情報領(lǐng)域的工具[16]。Objectivity/DB 大數(shù)據(jù)分析工具在美空軍網(wǎng)絡中心協(xié)同目標瞄準(NCCT)項目中得到應用,通過對海量、多源、多類型數(shù)據(jù)(如,文本、圖片、視頻、話音等)進行相關(guān),將其轉(zhuǎn)換為用戶所需的各類專用情報[如,通信情報(COMINT)、信號情報(ELINT)、雷達情報(RADINT)、遙測情報(TELINT)等]。
隨著網(wǎng)絡中心戰(zhàn)(NCW)不斷深入人心,各類電子信息系統(tǒng)之間幾乎都已經(jīng)或正在朝著網(wǎng)絡化運作方向發(fā)展,例如,網(wǎng)絡化通信系統(tǒng)、組網(wǎng)雷達系統(tǒng)、一體化組網(wǎng)探測系統(tǒng)等均屬此類。因此,在進行情報分析的過程中僅僅分析來自單個節(jié)點(即:點)的情報以不足以支撐決策,而還必須對各單元之間的關(guān)系(即:線和面)進行分析。
關(guān)系分析也是BDA 在情報領(lǐng)域中的主要應用之一。同樣,Objectivity 公司在該領(lǐng)域也頗有建樹,其InfiniteGraph(IG)分布式圖數(shù)據(jù)庫的主要功能之一就是進行關(guān)系分析,并最終生成支持決策所需的綜合情報[17]。
IG 主要通過結(jié)合一系列數(shù)據(jù)庫技術(shù)和圖論技術(shù)來實現(xiàn)對相關(guān)情報的關(guān)系分析。它利用圖的頂點和邊來分別表示要素(包括事件/地點、人員/組織、行為)和要素之間的關(guān)系,并實現(xiàn)“連點為線”(基于某種規(guī)則實現(xiàn)點到線的映射),最終通過對點、線的分析來產(chǎn)生預期分析成果。這種處理方法與傳統(tǒng)數(shù)據(jù)庫有著很大不同:傳統(tǒng)數(shù)據(jù)庫按照要素而非按照節(jié)點(頂點)、關(guān)系(邊)來存儲、處理數(shù)據(jù)。
BDA 相關(guān)理論、技術(shù)、工具已經(jīng)有了初步發(fā)展,可借鑒其相關(guān)技術(shù)以促進新一代信號情報偵察技術(shù)的發(fā)展[18]。
信號情報的發(fā)展給傳統(tǒng)偵察體系帶來了挑戰(zhàn),應用大數(shù)據(jù)的概念構(gòu)建下一代信號情報偵察系統(tǒng)成為了一種新的解決思路。本文對大數(shù)據(jù)時代下的信號情報偵察系統(tǒng)進行了初步設想,并給出了關(guān)鍵問題和相關(guān)參考技術(shù)。在大數(shù)據(jù)日益深入的今天,借鑒大數(shù)據(jù)的方法將能夠更好地解決信號情報偵察所面臨的4 個“V”,并促進信號情報偵察的發(fā)展。
[1]Big data in 2020[EB/OL].[2012-12-24]. www. emc.com,2012.
[2] Big data research and development initiative[EB/OL].[2012-10-02]. www.whitehouse.gov,2012.
[3]PHILIP RUSSOM.Big Data Analytics[Z].Tdwi.org.2011.
[4]TERRY COSTLOW.Big Data Pose Big Challenge for Military Intelligence[Z]. Defensesystems.com,2012.
[5] 王珊,王會舉,覃雄派,等. 架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望.計算機學報[J].2011,34(10):1741-1752.
[6]王意潔,孫偉東,周松,等. 云計算環(huán)境下的分布存儲關(guān)鍵技術(shù)[J].軟件學報,2012,23(4):962-986.
[7]吳廣君,王樹鵬,陳明,等. 海量結(jié)構(gòu)化數(shù)據(jù)存儲檢索系統(tǒng)[J].計算機研究與發(fā)展,2012,49(z1):1-5
[8]JEFFREY DEAN.Designs,Lessons and Advice from Building Large Distributed System[EB/OL].[2012-12-05].http://www.cs.cornell.edu/projects/ladis2009/talks/deankeynote-ladis2009.pdf.
[9] JEFFREY DEAN,SANJAY GHEMAWAT. Paper about MapReduce[EB/OL].[2012-12-16].http://labs.google.com/paper/mapreduce.html
[10]MIKE BURROWS. The Chubby Lock Service for Looselycoupled Distributed Systems[EB/OL].[2012-11-23].http://labs.google.com/paper/chubby.html.
[11]FAY CHANGE,JEFFREY DEAN,SANJAY GHEMAWAT,et al. Bigtable:A Distribute Storage System for Structured Data[EB/OL].[2012-12-21].http://labs.google.com/paper/bigtable.html.
[12]覃雄派,王會舉,杜小勇,等. 大數(shù)據(jù)分析——RDBMS與MapReduce 的競爭與共生[J]. 軟件學報,2012,23(1):32-45.
[13]RICH GUTH.Deriving Intelligence from Big Data in Hadoop:A Big Data Analytics Primer[Z].Karmasphere.com.2012.
[14]JOHN WALTERS.Big Data Technology in Defense Applications-Leveraging Graph Analytics[Z]. 2012.
[15]OBJECTIVITY WHITE PAPER Achieving Real-Time Multi-INT Data Fusion:Using Objectivity/DB to Correlate Multiple Data Sources[R].http://www.objectivity.com. 2006.
[16]OBJECTIVITY WHITE PAPER.Using An Object Database In Intelligent Network Applications[R]. http://www. objectivity.com. 2006.
[17]OBJECTIVITY WHITE PAPER. InfiniteGraph:The Distributed Graph Database.[R/OL].http://www.objectivity.com. 2012.
[18]Grow with Tomorrow's Intelligence…Today[Z]. scalablesystems.com. 2012.