韓培培
中國電子科技集團公司第五十四研究所,河北石家莊,050000
對具有價值的數(shù)據(jù)信息的分析與識別,都是通過對大量、動態(tài)且能夠持續(xù)的數(shù)據(jù)運用新的系統(tǒng)、工具和模型進行充分的挖掘和分析得到的。隨著大數(shù)據(jù)的快速發(fā)展,各行業(yè)各已經(jīng)開始逐漸使用新技術來進行實時數(shù)據(jù)分析[1]。但如何在海量結構化和非機構化的數(shù)據(jù)中,對信息進行時空動態(tài)分析與利用,仍然是無法避免的問題?;诖?,本文結合數(shù)據(jù)信息的時空特征,利用ABI情報分析方法,對目標的活動規(guī)律展開探討。
大數(shù)據(jù)作為一種從網(wǎng)絡多層次視角,對海量數(shù)據(jù)信息的收集與整合技術,自身具備了實時性特征。如果從技術角度來看,大數(shù)據(jù)技術和云計算技術兩者之間具有一定的聯(lián)系,且云存儲和數(shù)據(jù)庫、處理技術等都是實施數(shù)據(jù)信息收集的重要支撐。而數(shù)據(jù)挖掘作為在知識發(fā)現(xiàn)中的關鍵部分,是通過大量數(shù)據(jù)和算法的搜索,找尋其中存在的規(guī)則、規(guī)律等的一個過程。一般可以用于異常檢測、關聯(lián)規(guī)則學習、聚類分析以及回歸分析和分類、數(shù)據(jù)可視化等。經(jīng)過長時間的發(fā)展,在融合人工智能、機器學習、數(shù)據(jù)庫以及模式識別、神經(jīng)網(wǎng)絡和高性能計算、數(shù)據(jù)可視化等多種理論與技術后的數(shù)據(jù)挖掘,已經(jīng)變成了一門交叉學科[2]。
情報也被稱為信息或資訊,簡單來說就是代表被傳遞的信息或者知識,通過一定載體,在某個特定的時間、狀態(tài)下傳遞給某個特定的人物。現(xiàn)階段在信息技術不斷且快速的發(fā)展下,信息載體的數(shù)據(jù)呈現(xiàn)出幾何級數(shù)的規(guī)律提升,使得其存在模式也發(fā)生了根本性的變化。導致原有的情報分析、情報收集以及處理模式已經(jīng)無法適應于當前的大數(shù)據(jù)環(huán)境,必須要對其進行改造升級。
情報分析的方法是利用統(tǒng)計學當中的隨機抽樣理論,來強調事物之間存在的因果關系,并在部分信息的推斷下對全局事物的發(fā)展進行判斷,以此追求其準確性。因此,在情報工作當中,情報分析占據(jù)了重要地位。而隨著大數(shù)據(jù)的發(fā)展,大數(shù)據(jù)分析通過利用盡可能多的數(shù)據(jù)支持,實現(xiàn)對事物之間的關系判斷,只求相關性,并不強調準確性。所以,大數(shù)據(jù)分析從其本質上來看,就是針對大量結構化、半結構化以及非結構化的數(shù)據(jù)進行處理,以此實現(xiàn)得到應用的目的。而大數(shù)據(jù)分析和情報分析這兩者即使導向不同,仍然擁有密切的聯(lián)系[3]。
該方法是情報分析方法中的一種,通過從地理敘事的方向為切入點,在空間以及時間上實現(xiàn)活動連接。使得無序或雜亂的情報活動,變得有規(guī)律、有序可循,以此為目標活動分析提供新的方向,并且ABI情報分析方法也是多源情報的聚集和關聯(lián)。在時空數(shù)據(jù)的基礎上,通過對目標活動的發(fā)展規(guī)律進行分析,從而預測目標活動。與傳統(tǒng)的目標分析方法相比較來說,該目標方法通過構建目標的行為譜,為目標的所有特征和規(guī)律研究提供了數(shù)據(jù)上的支持。
而情報分析從本質方面來說,就是利用一系列處理規(guī)則,獲取對方的計劃或者意圖。不過,在實際數(shù)據(jù)集生成當中比較稀疏,只能夠代表小部分的數(shù)據(jù)。而ABI方法易于對未知事物的發(fā)現(xiàn),并且可以通過活動或實際的層段來對相關的實體進行搜索,也能夠識別可能不為網(wǎng)絡所知的成員,ABI方法的分析框架如圖1所示。
圖1 ABI方法分析框架
時間和空間為ABI情報分析方法提供了時間相關性和空間相關性兩個數(shù)據(jù)過濾器,從上述框架中就能夠看出時空關系貫穿了整個數(shù)據(jù)情報的分析過程,從數(shù)據(jù)收集一直到知識管理等各個環(huán)節(jié)均和時空關系不斷迭代。
在情報分析領域當中可以將實體目標識別劃分為多個步驟,具體情報分析流程如圖2所示。
圖2 情報分析流程
(1)數(shù)據(jù)采集。該方面主要來源于相關情報報文,如時間或者情報的內容等。
(2)數(shù)據(jù)管理。該部分是情報挖掘分析的基礎,通過對目標的活動規(guī)律、活動軌跡、目標特征以及平臺信息等方面的數(shù)據(jù)為基礎進行挖掘,并對其結果進行保存。數(shù)據(jù)管理也是對各種不同類型數(shù)據(jù)的提取、查詢以及存儲和整理調用。
(3)數(shù)據(jù)預處理。預處理是對模型進行訓練之前的重要部分,該部分主要包含了數(shù)據(jù)的清洗、數(shù)據(jù)分詞處理以及數(shù)據(jù)核驗等。數(shù)據(jù)清洗進一步解決了數(shù)據(jù)中存在的質量問題,而數(shù)據(jù)分詞處理的質量直接對模型質量有著相應的影響[5]。
(4)任務數(shù)據(jù)挖掘。基于大數(shù)據(jù)的數(shù)據(jù)挖掘和傳統(tǒng)數(shù)據(jù)挖掘兩者進行相比較發(fā)現(xiàn),從其概念內涵以及實現(xiàn)目標等方面上來看,兩者之間沒有存在本質上的差別。二者均是為了獲取數(shù)據(jù)當中所蘊藏的規(guī)律性知識,以此實現(xiàn)提前對事物的變化發(fā)展趨勢進行預知。不過,二者之間不相同的地方則是在對數(shù)據(jù)挖掘的環(huán)境方面出現(xiàn)了變化,其數(shù)據(jù)量和數(shù)據(jù)類型方面有了一定程度的提升。但通過對任務的分解,二者均可以滿足用戶在負載下的要求。由此可見,傳統(tǒng)數(shù)據(jù)挖掘方法同樣能夠適用于大數(shù)據(jù)。
例如,以對目標運動發(fā)展趨勢為例,給出大數(shù)據(jù)下情報信息分析挖掘的一種合理模型。具體的建模步驟如下:首先,需要對任務數(shù)據(jù)進行合理的分析,并對完整任務數(shù)據(jù)進行預處理;其次,在考慮到分解之后的單體數(shù)據(jù)集的體量依然具備一定規(guī)模,這時可以利用RBF神經(jīng)網(wǎng)絡模型或者ABI分析方法,將單體數(shù)據(jù)集中在每一個數(shù)據(jù)點上(這里選用了RBF神經(jīng)網(wǎng)絡模型),因此可以將單體數(shù)據(jù)集中在神經(jīng)網(wǎng)絡模型中,并且和神經(jīng)元組成龐大的訓練集體,最后形成映射;接著利用SVM(支持向量機)輔助方法,對神經(jīng)網(wǎng)絡模型的優(yōu)化實現(xiàn)求解,同時還需要針對神經(jīng)網(wǎng)絡中的隱形層進行改善,使得其能夠在大數(shù)據(jù)的幫助下促使數(shù)據(jù)處理的穩(wěn)定性得到提高[6]。
(5)數(shù)據(jù)挖掘算法實現(xiàn)。①特征分類。想要進一步實現(xiàn)數(shù)據(jù)挖掘算法,可以結合特定的領域進行模型建設分類。接著,利用數(shù)據(jù)挖掘工具和相關算法對數(shù)據(jù)源中存在的數(shù)據(jù)進行掃描分析與分類。其目的主要是利用分類模型,讓數(shù)據(jù)庫當中的數(shù)據(jù)項直接映射到某一個特定的類別當中。通過訓練和運行這些獨立的模塊,完成模型訓練。②關聯(lián)分析。該方面主要是連接特定的領域,在知識庫中建立相對應的關聯(lián)機制,并對數(shù)據(jù)園中的數(shù)據(jù)實施關聯(lián)分析。③聚合分析。結合研究所需,搭配知識、聚合相應的信息源,以此可以實現(xiàn)高效檢索、導航以及關聯(lián)等部分功能。同時,可以對數(shù)據(jù)的聚合進行展示,從而為更深層次的數(shù)據(jù)挖掘分析提供有力的支撐。④趨勢演變。該部分結合對特定領域的分析,利用預測模型建設的形式,在數(shù)據(jù)挖掘工具的作用下針對存在時空跨度的數(shù)據(jù)進行分析,并且對其趨勢演變實施預測,以此輔助用戶的研究分析。
在針對情報分析時,還需要注重單臺設備性能不足的問題。而Spark分布式并行運算框架的出現(xiàn),能夠有效解決單臺設備在進行大數(shù)據(jù)的海量計算工作時性能不足的問題。Spark框架是當前最為流行的一種大數(shù)據(jù)處理框架,常常用于離線的大數(shù)據(jù)處理??梢酝ㄟ^對大數(shù)據(jù)處理部分的改進,將計算的結果和所使用的數(shù)據(jù)存儲到相應的內存當中。這樣既可以降低對磁盤反復讀寫的消耗,還可以提高設備的運算性能,比較適合應用于迭代任務運算當中,以此促使數(shù)據(jù)挖掘算法的效率得到提升[6]。該框架的整體可以劃分為以下4層。
(1)工具層。該層次,Spark為數(shù)據(jù)挖掘提供了多種工具,如應用于查詢的Spark SQL和應用于流式計算的Spark Streaming以及最后應用于機器學習的MILib和圖處理的GraphX。
(2)計算層。將用戶的應用程序,分解成了內部執(zhí)行任務,同時還為其提供了執(zhí)行容器。
(3)存儲層。該層可以實現(xiàn)對分布式文件系統(tǒng)的讀取,還可以通過Hadoop集群中所存儲的組件數(shù)據(jù)訪問本地數(shù)據(jù)。
(4)資源調度層。在資源調度層,可以將集群管理器看作YARN,并且可以在自帶的集群管理器下實現(xiàn)獨立運行。
由此可見,在數(shù)據(jù)挖掘方面,基于分布式并行運算的挖掘分析方法對目標活動的規(guī)律分析具有一定程度的借鑒作用。并且,相對應的算法同樣能夠適用于對目標活動規(guī)律的大數(shù)據(jù)挖掘。而針對目標活動規(guī)律的挖掘分析是情報分析中的重點內容,因此,經(jīng)過長期積累的數(shù)據(jù)表明,對目標活動軌跡的分析,在相應的活動時,均會存在固定頻繁的活動區(qū)域或者軌跡,而這正是對目標進行身份識別或者多目標意圖識別的重要依據(jù)之一。所以在目標活動的過程當中針對目標活動軌跡的提取,雖然會存在大量的目標痕跡,但是痕跡越多則是越能夠充分、真實地反映出目標的活動軌跡。但目標活動軌跡數(shù)據(jù)量過多時,會對數(shù)據(jù)挖掘和情報分析以及數(shù)據(jù)存儲方面造成巨大的壓力。這時,就需要對其誤差范圍進行縮小,還要利用少量的數(shù)據(jù)表征目標運動軌跡。最后,將結果利用顯示功能進行顯示。例如以電子地圖為背景,將大數(shù)據(jù)挖掘的結果和目標的活動軌跡在地圖上進行顯示。在日益增長的數(shù)據(jù)量下,大數(shù)據(jù)的挖掘技術發(fā)揮其優(yōu)勢,已經(jīng)成了當前情報分析發(fā)展的一大趨勢[7]。
大數(shù)據(jù)由于自身數(shù)據(jù)的復雜性、多樣性和廣泛性,在數(shù)據(jù)挖掘技術和相對應的挖掘工具方面具有豐富的經(jīng)驗。由此來看,可以將大數(shù)據(jù)的挖掘技術劃分為經(jīng)典數(shù)據(jù)挖掘方法以及智能挖掘方法兩種。
該算法是聚類算法,通過將n個對象結合其自身的屬性劃分為K個分割,也就是K<n。該算法與處理混合正態(tài)分布的算法有很大的相似之處。假設目標對象屬性源自于空間向量,且每個目標能夠使各個群組之間的平均誤差總和達到最小,則在大數(shù)據(jù)挖掘技術應用中,K-均值算法可以用于目標空間位置的聚類,也可以對輻射源參數(shù)等類型比較復雜的數(shù)據(jù)進行改進,然后再對其參數(shù)進行聚類。
簡單來說,該方法就是支持度大于等于最小字支持度的結合,該挖掘方法是數(shù)據(jù)挖掘任務的關聯(lián)規(guī)則、相關性分析、因果關系以及序列項集或者周期性挖掘等基礎,擁有廣泛的應用前景,并且還可以用來發(fā)現(xiàn)目標的空間活動規(guī)律。
在人工智能的不斷發(fā)展下,情報分析的自動化已經(jīng)成為必然趨勢。基于大數(shù)據(jù)的支撐使得情報分析取得了一定程度的突破,對于傳統(tǒng)情報分析的技術預測方面產(chǎn)生了重要的影響。因此,對智能情報分析的提升,不僅要提出技術方面的解決方案,還要結合實際需求建立起各種類型的情報研究任務的信息模型、分析模型以及問題模型等[8]。
綜上所述,基于大數(shù)據(jù)的情報分析和數(shù)據(jù)挖掘在不同的領域中應用,由于數(shù)據(jù)類型、數(shù)據(jù)特征以及需求等方面的不同所產(chǎn)生的差異,可以結合實際情況有針對性地開發(fā)可視化數(shù)據(jù)挖掘系統(tǒng)。而傳統(tǒng)的數(shù)據(jù)挖掘與數(shù)據(jù)分析方法在對情報分析上,已經(jīng)無法充分滿足當前的需求。因此,本文針對該問題,研究了基于大數(shù)據(jù)的情報分析和挖掘技術分析方法,為更加準確地對目標進行身份識別、目標活動規(guī)律的把握以及對目標的關聯(lián)因素進行挖掘奠定了基礎。