姚鵬飛
(92493部隊 葫蘆島 125000)
在武器裝備試驗領(lǐng)域,隨著試驗任務(wù)項目的急劇增長和裝備信息化水平的不斷提升,試驗過程中產(chǎn)生的各類試驗信息在數(shù)據(jù)量上和類型上不斷增加,伴隨而來的是數(shù)據(jù)處理時效不高、數(shù)據(jù)資源利用率偏低的問題,這已成為制約裝備試驗的一個重要瓶頸。當前,大數(shù)據(jù)相關(guān)技術(shù)已成為處理海量數(shù)據(jù)、挖掘有用信息、輔助指揮決策的有效方式[11~12]。因此,面對日益增長的試驗數(shù)據(jù)量及處理任務(wù),急需加強對基于大數(shù)據(jù)技術(shù)的裝備試驗數(shù)據(jù)應(yīng)用管理平臺的研究,以其實現(xiàn)對各類數(shù)據(jù)資源的高效管理和應(yīng)用,從而為改進試驗方式、提高試驗效率提供快速、精準決策。
大數(shù)據(jù)是指無法在一定的時間內(nèi)用通常的軟件工具進行收集、分析、管理的大量數(shù)據(jù)的集合[1]。目前,通常用4V特征對大數(shù)據(jù)基本特點進行描述。1)Volume:數(shù)據(jù)量巨大。由傳統(tǒng)TB級數(shù)據(jù)量向PB級數(shù)據(jù)量發(fā)展再到向ZB級數(shù)據(jù)量發(fā)展已成為大數(shù)據(jù)發(fā)展的基本趨勢。2)Variety:數(shù)據(jù)類型多樣。大數(shù)據(jù)不僅包括結(jié)構(gòu)化數(shù)據(jù),還包括各種非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)類型,而且非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)類型比重遠遠大于結(jié)構(gòu)化數(shù)據(jù),增加了數(shù)據(jù)處理的難度。3)Value:價值密度很低。大數(shù)據(jù)中的數(shù)據(jù)價值密度與數(shù)據(jù)量成反比。4)Velocity:處理速度快。大數(shù)據(jù)時代,數(shù)據(jù)的處理、分析、存儲和管理通常要達到秒級的響應(yīng)水平,以用來支持和輔助用戶決策。
隨著大數(shù)據(jù)技術(shù)的發(fā)展,大數(shù)據(jù)產(chǎn)生的效益日益明顯,目前通運輸、醫(yī)療、金融、電商等領(lǐng)域得到廣泛應(yīng)用[2~3]。在軍事領(lǐng)域,美國國防部及國防高級研究計劃局已將“數(shù)據(jù)到?jīng)Q策”、“網(wǎng)絡(luò)內(nèi)部威脅”、“影像檢索與分析”等10個項目列入研究計劃,著力提高美軍在大數(shù)據(jù)獲取、管理和分析等方面的能力,已經(jīng)成為美軍建設(shè)的戰(zhàn)略重點[4]。大數(shù)據(jù)技術(shù)應(yīng)用已成為戰(zhàn)斗力生成的一個重要標志,美軍在2013年試飛的X-47B無人機[5],基于大數(shù)據(jù)分析技術(shù),成功實現(xiàn)了無人條件下的自主決策和自主行動[10]。近年來,我軍在指揮信息系統(tǒng)大數(shù)據(jù)建設(shè)、裝備保障大數(shù)據(jù)建設(shè)做了一些有益探索,但在大數(shù)據(jù)實際應(yīng)用方面還處于初步階段[6~8]。
1)數(shù)據(jù)量大。當前,武器裝備信息化程度越來越高,裝備試驗無論是試驗?zāi)K還是整個測試過程中,測量設(shè)備多、測量參數(shù)多,所產(chǎn)生的數(shù)據(jù)量很大[9]。通常來講,裝備試驗數(shù)據(jù)通常包括試驗文書和試驗資料等試驗檔案數(shù)據(jù),也包括測試數(shù)據(jù)、觀測數(shù)據(jù)、目標特性數(shù)據(jù)、環(huán)境物理場數(shù)據(jù)、模型與仿真數(shù)據(jù)和計量校標數(shù)據(jù)等。另外,數(shù)字化高清視頻圖像監(jiān)測設(shè)備在裝備試驗中的應(yīng)用越來越普遍,所產(chǎn)生的視頻圖像數(shù)據(jù)與日俱增。
2)數(shù)據(jù)類型多樣。試驗對象測試數(shù)據(jù)的多樣、測試項目的增加、測試手段的改變造成非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)的大量出現(xiàn)。非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)主要包括試驗過程中產(chǎn)生的圖像、數(shù)字、文字、視頻、音頻等類型數(shù)據(jù),其規(guī)模和復(fù)雜度都超越現(xiàn)有常規(guī)技術(shù)能夠處理分析的范圍。
3)數(shù)據(jù)應(yīng)用價值高。武器裝備試驗數(shù)據(jù)對于裝備全壽命周期的有效期很長,往往可以長達十幾年至幾十年,早期試驗數(shù)據(jù)也可能有很高的利用和使用價值。通過分析歷史試驗數(shù)據(jù),可以發(fā)現(xiàn)以往試驗過程中存在的問題及需要改進的環(huán)節(jié),從而提高武器裝備試驗效率,保證武器裝備質(zhì)量。
4)數(shù)據(jù)處理速度快。由于武器裝備試驗存在型號、批次上的不同,試驗項目中往往會用到不同的采集分析軟件,造成試驗數(shù)據(jù)在處理上相對分散,數(shù)據(jù)的處理時效和數(shù)據(jù)的完整性得不到根本保障。因此,迫切需要采用大數(shù)據(jù)技術(shù),實現(xiàn)對數(shù)據(jù)的高效快速分析、存儲及管理,從而達到改進試驗手段、輔助首長決策的目的。
裝備試驗數(shù)據(jù)信息資源主要用于對裝備是否滿足戰(zhàn)術(shù)技術(shù)要求、研制方案是否正確做出客觀評價;提出裝備存在的主要問題和改進建議;估計裝備作戰(zhàn)的適用性和效能,為裝備能否定型或裝備部隊提供依據(jù)。當前,受整體技術(shù)水平、管理手段和科研基礎(chǔ)條件建設(shè)等因素的制約,裝備試驗數(shù)據(jù)的管理與應(yīng)用存在著如下問題:
1)歷史試驗數(shù)據(jù)數(shù)字化程度較低。長期以來,由于基礎(chǔ)條件建設(shè)和技術(shù)手段等方面原因,很多歷史試驗信息記錄采用紙制、膠片等非數(shù)字化方式進行存儲,未進行數(shù)字化處理工作,裝備試驗數(shù)據(jù)安全性、完整性得不到保障。
2)試驗數(shù)據(jù)融合度較低。裝備試驗數(shù)據(jù)數(shù)量多、規(guī)模大、種類全。但是對試驗信息資源的體系性建設(shè)和集約化應(yīng)用研究投入太少,裝備試驗數(shù)據(jù)信息“孤島”太多,各種試驗信息相對分散、無序、雜亂,缺乏對試驗數(shù)據(jù)的有效管理、應(yīng)用研究、綜合集成和融合再生。
3)試驗數(shù)據(jù)的利用和挖掘程度較低。長期以來,試驗信息主要用于試驗結(jié)果報告編寫和簡單的存儲歸檔,缺乏試驗信息二次及多次開發(fā)的必要手段,試驗數(shù)據(jù)利用率低,多層次、多視角的數(shù)據(jù)挖掘工作開展不夠深入,試驗數(shù)據(jù)綜合價值和效益發(fā)揮不充分。
綜上所述,裝備試驗數(shù)據(jù)已經(jīng)滿足大數(shù)據(jù)的基本特征且存在很大的潛在價值,開展裝備試驗大數(shù)據(jù)應(yīng)用研究對于數(shù)據(jù)的管理、分析和深度挖掘具有重要的軍事應(yīng)用價值。
由于試驗數(shù)據(jù)資源來源廣泛、數(shù)據(jù)量大、格式不統(tǒng)一,且大多數(shù)為視頻、圖片等非結(jié)構(gòu)化數(shù)據(jù),傳統(tǒng)的Oracle、DB2等關(guān)系型數(shù)據(jù)庫已經(jīng)遠遠不能滿足試驗數(shù)據(jù)的存儲需求。在這種情況和背景下,NoSQL數(shù)據(jù)庫以其自身靈活的可擴展性、靈活的數(shù)據(jù)模型、與云計算緊密融合的特點成為試驗大數(shù)據(jù)存儲的必然選擇。它可以支持海量數(shù)據(jù)的存儲管理,彌補了關(guān)系型數(shù)據(jù)庫在存儲非結(jié)構(gòu)化數(shù)據(jù)方面的不足和缺陷。在裝備試驗大數(shù)據(jù)應(yīng)用平臺架構(gòu)中,對于已經(jīng)存儲在關(guān)系數(shù)據(jù)中的裝備試驗基本信息仍然采用關(guān)系型數(shù)據(jù)庫進行存儲,對于試驗過程中產(chǎn)生的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)采用基于NoSQl的云數(shù)據(jù)庫,一方面,可以充分利用平臺自身的基礎(chǔ)設(shè)施服務(wù),提高資源利用效率,另一方面,可以實現(xiàn)對數(shù)據(jù)的高效管理,從而解決試驗任務(wù)劇增后海量試驗數(shù)據(jù)量的存儲和高并發(fā)、低延遲的讀寫效率。
在大數(shù)據(jù)領(lǐng)域中,要想從海量數(shù)據(jù)中獲取到相對有價值的數(shù)據(jù)信息就需要從多個維度進行分析和挖掘。對裝備試驗數(shù)據(jù)而言,試驗數(shù)據(jù)通常都是在試驗過程中采集,試驗數(shù)據(jù)的處理對于響應(yīng)時間沒有特別高的要求,因此可以通過數(shù)據(jù)采集工具將大數(shù)據(jù)導(dǎo)入專用的數(shù)據(jù)處理平臺進行分析,通常采用基于Hadoop的離線分析架構(gòu),從而減小數(shù)據(jù)格式轉(zhuǎn)換的代價。對于試驗數(shù)據(jù)的挖掘,主要是使用R預(yù)言等大數(shù)據(jù)分析挖掘工具,通過常用的大數(shù)據(jù)挖掘算法,實現(xiàn)對數(shù)據(jù)的關(guān)聯(lián)規(guī)則和分類、聚類的分析,從多個維度深度挖掘數(shù)據(jù)之間存在的相互關(guān)系,提取有價值信息。
圖1展示了基于Hadoop處理架構(gòu)的數(shù)據(jù)處理過程。首先將數(shù)據(jù)拆分成多個Map任務(wù)在多臺機器上進行并行處理,每個Map任務(wù)通常運行在數(shù)據(jù)存儲的節(jié)點上,將計算和數(shù)據(jù)放在一塊執(zhí)行,減小額外的數(shù)據(jù)傳輸時間。Map任務(wù)產(chǎn)生的中間結(jié)果會被分發(fā)到多個Reduce任務(wù)并在多臺機器上進行并行執(zhí)行,Reduce任務(wù)結(jié)束后會對中間結(jié)果進行匯總,產(chǎn)生最終輸出結(jié)果。
圖1 基于Hadoop處理架構(gòu)的數(shù)據(jù)處理過程
依托現(xiàn)有大數(shù)據(jù)分析挖掘工具和常用算法,根據(jù)用戶的需求,以儀表盤、駕駛艙等多種方式實現(xiàn)對分析挖掘結(jié)果的展現(xiàn),為試驗方案改進提供技術(shù)集成和決策支持。
裝備試驗大數(shù)據(jù)應(yīng)用架構(gòu)根據(jù)試驗過程中采集的數(shù)據(jù)類型的不同,使用不同的數(shù)據(jù)存儲模式和處理方式,對于環(huán)境物理場數(shù)據(jù)、測試數(shù)據(jù)等實時性要求較高的數(shù)據(jù),采用基于Spark框架的內(nèi)存計算模式,提高處理時效,對于試驗資料檔案數(shù)據(jù)等實時性要求不高的數(shù)據(jù),采用基于Hadoop框架的離線批處理架構(gòu)。在數(shù)據(jù)存儲方面,基于HDFS文件存儲系統(tǒng),綜合關(guān)系型數(shù)據(jù)庫和NoSQL數(shù)據(jù)庫優(yōu)缺點,對數(shù)據(jù)進行分類存儲。大數(shù)據(jù)處理框架中包含了多種框架融合計算調(diào)度方式,包含離線批處理計算、在線實時分析計算、流式計算等多種計算方式。
大數(shù)據(jù)應(yīng)用總體架構(gòu)為4層結(jié)構(gòu),主要包括大數(shù)據(jù)資源層、大數(shù)據(jù)存儲處理層、大數(shù)據(jù)分析層、大數(shù)據(jù)應(yīng)用管理支撐層、大數(shù)據(jù)應(yīng)用服務(wù)層,如圖2所示。
裝備試驗大數(shù)據(jù)由于試驗項目的復(fù)雜性、測量測試裝備的多樣性,所產(chǎn)生的數(shù)據(jù)資源種類繁多、結(jié)構(gòu)復(fù)雜、數(shù)量大,數(shù)據(jù)資源層主要需要實現(xiàn)對多類異構(gòu)數(shù)據(jù)源的采集,構(gòu)建覆蓋試驗資料檔案數(shù)據(jù)、環(huán)境物理場數(shù)據(jù)、模型與仿真數(shù)據(jù)、觀測數(shù)據(jù)、測試數(shù)據(jù)、計量校標數(shù)據(jù)、目標特性數(shù)據(jù)、試驗音視頻數(shù)據(jù)的試驗大數(shù)據(jù)資源層,內(nèi)容涉及到裝備的組成結(jié)構(gòu)、工作原理、操作使用、維護保養(yǎng)、故障維修、技術(shù)性能和試驗環(huán)境、試驗實時態(tài)勢、試驗勤務(wù)保障、試驗裝備保障等各個方面。
裝備試驗大數(shù)據(jù)處理層采用分布式計算框架,可以實現(xiàn)對不同計算框架的統(tǒng)一資源調(diào)度和管理。根據(jù)試驗中數(shù)據(jù)源、數(shù)據(jù)類型和數(shù)據(jù)關(guān)系的不同采用不同的數(shù)據(jù)存儲服務(wù)和存儲系統(tǒng),滿足不同數(shù)據(jù)類型的處理效率,為裝備試驗數(shù)據(jù)的高效存儲管理提供保證。多框架融合計算調(diào)度實現(xiàn)對底層集群硬件資源的統(tǒng)一調(diào)度和管理,將CPU、內(nèi)存通過虛擬化手段形成資源池,實現(xiàn)負載均衡和效率的提升。
試驗大數(shù)據(jù)分析層主要是構(gòu)建裝備試驗大數(shù)據(jù)應(yīng)用服務(wù)的挖掘分析工具及知識庫。面向裝備試驗大數(shù)據(jù)應(yīng)用服務(wù)領(lǐng)域,對通用數(shù)據(jù)挖掘工具進行優(yōu)化改造及并行化實現(xiàn),為裝備試驗大數(shù)據(jù)應(yīng)用服務(wù)提供專用的分析模型庫。在裝備試驗大數(shù)據(jù)挖掘利用的基礎(chǔ)上,輔以裝備試驗領(lǐng)域知識構(gòu)建技術(shù),建立知識庫模型。
應(yīng)用管理支撐層將實現(xiàn)平臺對外的標準化服務(wù)注冊、封裝、調(diào)用、開發(fā)提供大數(shù)據(jù)應(yīng)用支撐平臺,為相互邏輯隔離、獨立運行的數(shù)據(jù)提供方和數(shù)據(jù)使用方創(chuàng)建交互環(huán)境。主要包含四個部分:數(shù)據(jù)安全服務(wù)、運營安全服務(wù)、數(shù)據(jù)管理服務(wù)、數(shù)據(jù)服務(wù)總線。
應(yīng)用層主要是基于統(tǒng)一的門戶,為用戶提供報表、即席查詢、分發(fā)、下載等數(shù)據(jù)資源服務(wù)以及試驗數(shù)據(jù)分析處理等數(shù)據(jù)挖掘分析服務(wù)。另外,應(yīng)用層還提供數(shù)據(jù)分析接口和系統(tǒng)功能接口等基礎(chǔ)平臺服務(wù),便于平臺功能擴展及對其他應(yīng)用功能的綜合集成。
圖2 裝備試驗大數(shù)據(jù)應(yīng)用總體架構(gòu)
大數(shù)據(jù)、云計算等技術(shù)作為信息領(lǐng)域的重要技術(shù)手段,給裝備試驗大數(shù)據(jù)建設(shè)發(fā)展帶來了新的發(fā)展機遇。本文就裝備試驗數(shù)據(jù)的特點及應(yīng)用現(xiàn)狀,結(jié)合大數(shù)據(jù)相關(guān)技術(shù),提出裝備試驗大數(shù)據(jù)應(yīng)用架構(gòu),可為裝備試驗數(shù)據(jù)的應(yīng)用提供一條有效路徑,為其在裝備試驗領(lǐng)域應(yīng)用提供參考。