郭宇棟,李生林
(后勤工程學院,重慶 401331)
大數(shù)據(jù)關鍵技術在基建營房綜合管理系統(tǒng)中的應用
郭宇棟,李生林
(后勤工程學院,重慶 401331)
重點研究了大數(shù)據(jù)處理及分析挖掘等關鍵技術,結合基建營房綜合管理系統(tǒng)的應用環(huán)境,論述大數(shù)據(jù)技術在基建營房綜合管理系統(tǒng)架構、數(shù)據(jù)標準、數(shù)據(jù)處理、分析挖掘等方面的應用情況。
大數(shù)據(jù)挖掘;基建營房;信息管理系統(tǒng)
隨著信息系統(tǒng)的廣泛應用和信息技術的高速發(fā)展,特別是地理信息系統(tǒng)、數(shù)據(jù)存儲技術和物聯(lián)網(wǎng)等技術的發(fā)展,使得“數(shù)據(jù)”規(guī)模呈現(xiàn)指數(shù)級別增長。在工業(yè)、交通運輸、醫(yī)療衛(wèi)生、電子商務、社交網(wǎng)絡等領域,都積累了TB級、PB級乃至EB級的大數(shù)據(jù)。這些大數(shù)據(jù)正在影響著人類認識、理解社會的方式,推動社會發(fā)展和管理模式變革,成為信息社會的重要財富[1]。
2011年5月,在麥肯錫全球研究院發(fā)布的《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個新領域》的研究報告中指出,大量數(shù)據(jù)作為重要的信息要素,已經(jīng)滲透到各行各業(yè)和業(yè)務職能領域,大數(shù)據(jù)的實際應用將引領一波新的生產(chǎn)率增長和商業(yè)利潤浪潮的到來。2012年3月29日,美國政府在白宮網(wǎng)站發(fā)布了《大數(shù)據(jù)研究和發(fā)展倡議》,提出通過收集大量復雜的數(shù)據(jù)資料提升獲取知識的能力,并且將投資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃”。
人類進入信息化時代以后,短短的數(shù)年時間,積累了大量的數(shù)據(jù),步入了“大數(shù)據(jù)時代”,使人類以前所未有的速度、厚度、細度和準確度對信息的掌握成為可能。面對大量的數(shù)據(jù),基于充足的數(shù)據(jù)基礎,對數(shù)據(jù)進行挖掘與分析,并將其運用于企業(yè)、軍隊等領域的精細管理,也就不僅成為可能而且勢在必行[2]。
隨著國家、軍隊建設發(fā)展和改革深入,基建營房建設管理面臨著前所未有的挑戰(zhàn)和困難,工程建設“三超”(超規(guī)模、超投資、超面積)現(xiàn)象屢禁不止,房地產(chǎn)“管不住”問題無法根治,國防工程維護管理消耗“不明確”問題長期存在,住房制度改革舉步維艱等,這些困難和挑戰(zhàn)靠現(xiàn)有的信息能力已無法支撐,靠傳統(tǒng)的管理模式難以解決。大數(shù)據(jù)關鍵技術及在基建營房綜合管理系統(tǒng)中的應用研究,是將大數(shù)據(jù)應用到基建營房綜合管理系統(tǒng)中,運用大數(shù)據(jù)的理論、機制、模型和方法等解決基建營房建設、管理、維護中的決策問題,通過問題分析原因、通過現(xiàn)象預測結果,并提供大數(shù)據(jù)關鍵技術在基建營房綜合管理系統(tǒng)中的應用方案,實現(xiàn)基建營房信息主導、精確管控、工程透明、科學決策的目標,為提升信息保障能力、創(chuàng)新管理保障模式提供新的方法和手段[3]。
圖1 分布式文件存儲架構
一般意義上,大數(shù)據(jù)是指無法在可容忍的時間內用傳統(tǒng)IT技術和軟硬件工具對其進行感知、獲取、管理、處理和服務的數(shù)據(jù)集合。大數(shù)據(jù)的特點可以總結為4個V,即Volume(體量巨大)、Variety(類型繁多)、Velocity(生成快速)和Value(價值巨大但密度很低)。大數(shù)據(jù)處理的關鍵技術主要是指能夠在容忍時間內處理大量不同類型的數(shù)據(jù),而大數(shù)據(jù)分析挖掘的關鍵技術主要體現(xiàn)在運用各種機器學習算法分析和挖掘數(shù)據(jù)中的價值。本文將分別介紹大數(shù)據(jù)處理和分析數(shù)據(jù)挖掘的關鍵技術[4]。
2.1 大數(shù)據(jù)處理關鍵技術
2.1.1 分布式計算架構。大數(shù)據(jù)環(huán)境下的分布式計算架構與傳統(tǒng)的分布式處理系統(tǒng)有所區(qū)別。傳統(tǒng)的分布式計算架構通常采用縱向拓展的方式,其計算性能增長速度無法跟上數(shù)據(jù)增長速度,性能提升存在上限。大數(shù)據(jù)環(huán)境下的數(shù)據(jù)呈現(xiàn)指數(shù)級增長,傳統(tǒng)的數(shù)據(jù)處理架構顯然已無法適應,所以采用橫向拓展方式的分布式計算架構將成為大數(shù)據(jù)處理架構的主流。
2006年Google首次提出大數(shù)據(jù)的分布式處理模式,包括分布式文件存儲系統(tǒng)、分布式計算編程模式等技術體系,同時還提出了一系列學術論文作為理論依據(jù)供研究學者進行討論。在這種分布式計算思想的指導下,Hadoop等優(yōu)秀的分布式處理軟件框架應運而生,架構如圖1所示。
分布式文件存儲架構是通過大量普通PC機或廉價服務器集群而構建的松耦合存儲系統(tǒng),能夠以分塊、分片等方式高效地存儲海量數(shù)據(jù)。其中,MapReduce是利用了分布式文件存儲架構而設計的大數(shù)據(jù)存儲與計算編程模型,主要思想是搭建廉價的中低端服務器集群,對每個服務器節(jié)點性能要求不高,提供整體的松耦合性、擴展性和容錯性等。當發(fā)生服務器宕機或者節(jié)點從集群中移除時,整個集群依然能夠保持良好的運行狀態(tài)和計算性能,幾乎不受單個節(jié)點的影響。在電子商務、社交網(wǎng)絡等領域,分布式存儲和計算架構已經(jīng)成功得到了實際驗證,其開源模式更為程序開發(fā)人員提供了二次開發(fā)的可能,以鍵值對<key,value>形式存儲數(shù)據(jù)格式不受限定;在MapReduce編程模式中,Map和Reduce函數(shù)為用戶提供了計算編程接口,可以自定義實現(xiàn)較復雜的數(shù)據(jù)處理邏輯,為海量半結構化、非結構化數(shù)據(jù)處理提供了高效的處理方式,也為大規(guī)模數(shù)據(jù)集機器學習與挖掘等技術的實現(xiàn)提供了基礎架構[5]。
2.1.2 并行數(shù)據(jù)庫技術。分布式計算架構為大規(guī)模數(shù)據(jù)集的處理提供了技術基礎,但是由于所有的數(shù)據(jù)處理邏輯必須由用戶自定義開發(fā),原本應該由數(shù)據(jù)庫完成的任務移交給了程序開發(fā)人員,導致應用程序的使用成本增長。所以,并行數(shù)據(jù)庫技術的出現(xiàn)則針對這方面的缺陷提供了一個優(yōu)勢的解決方案。
并行數(shù)據(jù)庫技術經(jīng)過幾十年的研究發(fā)展,技術水平有了長足的進步。早在20世紀70年代,并行數(shù)據(jù)庫技術在數(shù)據(jù)庫機的研究領域中逐漸走進人們的視野,主要研究內容是關系數(shù)據(jù)庫的并行操作與專用硬件設備的開發(fā),旨在通過硬件設備實現(xiàn)分布式操作關系型數(shù)據(jù)庫。上世紀80年代,并行數(shù)據(jù)庫技術摒棄了原來的硬件設備的研發(fā),轉移到從組織調度策略層面構建并行數(shù)據(jù)庫機。90年代后,隨著多核處理器、大容量存儲、高速計算能力等信息技術的發(fā)展,并行數(shù)據(jù)庫技術的研究得到了質的飛躍,其研究的重心變?yōu)闀r間、空間數(shù)據(jù)的并行化方面,如圖2所示。
圖2 并行數(shù)據(jù)庫架構圖
在處理大規(guī)模數(shù)據(jù)集的過程中采用并行數(shù)據(jù)庫技術,目的是利用系統(tǒng)集群的高效運算性能,實施時將關系數(shù)據(jù)庫的數(shù)據(jù)表中的數(shù)據(jù)分塊或分片,根據(jù)分配策略分發(fā)給各個節(jié)點進行處理并執(zhí)行數(shù)據(jù)庫事務操作,最后將處理結果反饋給用戶,實現(xiàn)節(jié)點間的完全無共享,同時將各節(jié)點數(shù)據(jù)進行鏡像備份,強化冗余并提升數(shù)據(jù)庫性能。此外,并行數(shù)據(jù)庫能夠建立在廉價的服務器集群上,節(jié)點間可保持很好的拓展性和容錯性。
2.1.3 大數(shù)據(jù)處理模式。目前,為了滿足大數(shù)據(jù)在極短的時間內處理海量數(shù)據(jù),獲取有價值信息的需求,在數(shù)據(jù)處理過程中主要采用流處理和批處理兩種方式。流處理是在不存儲數(shù)據(jù)情況下對實時數(shù)據(jù)進行處理,批處理則是先將數(shù)據(jù)存儲至本地后再處理。
(1)流處理。流處理是指數(shù)據(jù)的來源是實時的,數(shù)據(jù)價值的時效性非常高,而隨著時間的增加價值不斷地減少,因此必須用最短的時間處理數(shù)據(jù)給出最優(yōu)結果。在大數(shù)據(jù)處理過程中需采用流數(shù)據(jù)處理模式的領域主要有數(shù)字化傳感器實時監(jiān)控、網(wǎng)站點擊量的實時統(tǒng)計、電子商務及社交網(wǎng)絡中的高頻通信等。在流處理的處理過程中,在一段時間內的數(shù)據(jù)將被視為流,每次數(shù)據(jù)流到來時立即進行處理并返回運算結果。流處理模式中的數(shù)據(jù)流模型,如圖3所示。
圖3 基本數(shù)據(jù)流模型
在數(shù)據(jù)流處理的實際過程中,由于數(shù)據(jù)來源是源源不斷的且數(shù)據(jù)量巨大,對時效性要求極高,所以只對數(shù)據(jù)本身進行處理運算,而不會對數(shù)據(jù)進行持久化儲存,所有的計算都在內存中完成,所以系統(tǒng)這種處理方式具有較高的運算效率。但是,流處理方式更多地依賴內存設備的性能,內存容量成為限制流處理的一個瓶頸。目前,多核處理器與相變存儲器等設備的出現(xiàn),為流處理模式的發(fā)展提供了更好的平臺。
經(jīng)過幾十年的研究發(fā)展,數(shù)據(jù)流處理模式不僅在理論層面有較為深入的研究,在各個領域也得到了廣泛的應用,一些代表性的開源流處理框架如Twitter的Storm、Yahoo的S4以及Linkedin的Kafka等。
(2)批處理。2004年Google公司首先提出分布式計算思想和并行批處理編程模型MapReduce,處理過程如圖4所示。
MapReduce模型利用了分布式計算的思想,處理過程是首先將數(shù)據(jù)源進行分塊、分片處理,然后分別傳遞至Map任務區(qū)進行任務分配。Map過程能夠從各自的輸入數(shù)據(jù)中解析獲取鍵值對<key,value>集合,然后調用用戶自定義的Map函數(shù)執(zhí)行,將計算結果持久化存儲至本地硬盤文件系統(tǒng)或數(shù)據(jù)庫系統(tǒng)中。在執(zhí)行Reduce任務過程時,從本地硬盤讀取數(shù)據(jù),根據(jù)Key值索引排序,執(zhí)行用戶自定義的Reduce函數(shù),將Key對應的Value值合并返回結果。
圖4 MapReduce處理過程圖
從上述處理過程可以看出,以MapReduce為代表的批處理模式主要設計思想是:(1)將復雜計算分散化,再將計算結果合并返回;(2)以數(shù)據(jù)為驅動旨在解決任務分配,而不是以運算為中心,這樣可以有效地減少數(shù)據(jù)通信過程中的開銷。批處理模式架構部署方便快捷,在很多領域都得到了廣泛應用,如輿情分析、文本挖掘、數(shù)據(jù)預測等。
流處理和批處理作為大數(shù)據(jù)處理的兩種主流方法,各有利弊。在實際數(shù)據(jù)處理過程中應該按照用戶的需求選擇使用其中一種,亦或二者結合。海量數(shù)據(jù)的一個重要的來源是互聯(lián)網(wǎng)(包括網(wǎng)站流量、電子商務和社交網(wǎng)絡等),很多互聯(lián)網(wǎng)大數(shù)據(jù)解決方案都是根據(jù)具體業(yè)務處理的時效性需求定制擬采用的處理模式。如著名的職場社交平臺Linkedin將自身的業(yè)務劃分為在線處理、近線處理和離線處理三種方式,每一種處理方式所需的時間消耗是不同的。其中,在線處理時間范圍是秒級甚至是毫秒級,所以采用上述的流處理方式;近線處理的時間范圍在分鐘級或者小時級,用戶可自定義采用任何一種處理模式,實際應用較多采用批處理或者傳統(tǒng)的OLAP等;離線處理的時間范圍是24小時,即1天之內的數(shù)據(jù),可以采用批處理方式有效地節(jié)約內存消耗,提升磁盤利用率[6]。
2.2 大數(shù)據(jù)分析挖掘關鍵技術
2.2.1 大數(shù)據(jù)機器學習方法。傳統(tǒng)的數(shù)據(jù)分析方法有很多,包括數(shù)據(jù)倉庫、多維在線分析(OLAP)和經(jīng)典的數(shù)據(jù)挖掘算法等。隨著信息產(chǎn)業(yè)的發(fā)展,數(shù)據(jù)量的劇增,傳統(tǒng)數(shù)據(jù)分析方法已經(jīng)無法滿足大數(shù)據(jù)環(huán)境下的數(shù)據(jù)分析需求。相比之下,大數(shù)據(jù)分析的核心需求就是從數(shù)據(jù)量巨大、結構種類繁多、高速變化的數(shù)據(jù)中挖掘出隱藏的規(guī)律,進而使數(shù)據(jù)發(fā)揮出最大化的價值,這些需求使得傳統(tǒng)的數(shù)據(jù)分析方法不再適用,大數(shù)據(jù)機器學習方法的優(yōu)勢逐漸展現(xiàn)出來。
大數(shù)據(jù)時代根據(jù)用戶數(shù)據(jù)量、時效性和價值等的需求選擇機器學習算法,并對其加以改造,例如數(shù)據(jù)分類與預測(決策樹、神經(jīng)網(wǎng)絡算法等)、聚類分析(KMeans、SOM、FCM算法等)、關聯(lián)規(guī)則(Apriori、FPGrowth算法等)、時序分析(平穩(wěn)時序分析、非平穩(wěn)時序分析算法等)。機器學習的監(jiān)督、半監(jiān)督式學習方法是獲取大量數(shù)據(jù)中隱藏價值的核心,這些數(shù)據(jù)既包括結構化的文本數(shù)據(jù)、關系型數(shù)據(jù)庫,又包括圖片、視頻等非結構化的數(shù)據(jù)。對于大數(shù)據(jù)處理架構編程中還需考慮采用時空亞線性算法、外存索引算法、并行算法和眾包算法等來提高分析處理的時空效能、存儲能力、運算能力和信息協(xié)調能力。
2.2.2 大數(shù)據(jù)可視化方法。傳統(tǒng)的數(shù)據(jù)可視化是通過圖表、報表、儀表盤等方式進行展現(xiàn),這種圖文集合的方式能夠直觀體現(xiàn)數(shù)據(jù)價值。但是這些數(shù)據(jù)價值往往是一次性的,而不是實時的分析結果,更無法與用戶做出實時交互式查詢,對于一些復雜的數(shù)據(jù)分析需求可能還需更改程序。傳統(tǒng)的可視化方法在大數(shù)據(jù)環(huán)境下難以適用,因此需借助SPSS、SAS、Weka、Gephi、R等專業(yè)數(shù)據(jù)分析與可視化工具來進行數(shù)據(jù)展現(xiàn)。
R作為大數(shù)據(jù)分析可視化的一款常用工具,本身屬于GNU系統(tǒng)的一個開源軟件,不僅用于統(tǒng)計計算和數(shù)據(jù)繪圖,更包含了大量數(shù)據(jù)挖掘算法,如線性和非線性回歸、統(tǒng)計檢驗、時空序列分析、分類與聚類分析等。開源的R語言插件能夠部署運行在Hadoop集群中,實現(xiàn)跨平臺部署,能夠對HDFS分布式文件系統(tǒng)中的非結構化數(shù)據(jù)進行分析和對HBase中的非關系型數(shù)據(jù)進行分析,以滿足大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘與可視化需求[7]。
圖5 大數(shù)據(jù)環(huán)境下基建營房綜合管理系統(tǒng)架構圖
3.1 基建營房綜合管理系統(tǒng)概述
為了切實貫徹總后首長“要建立基礎數(shù)據(jù)庫,實行信息化聯(lián)網(wǎng)管理”,“通過信息手段,實現(xiàn)房地產(chǎn)保障資源可視掌控、基本建設投向投量精確合理”的指示要求,積極推進軍隊基建營房向信息化轉型發(fā)展,基建營房綜合管理系統(tǒng)擬綜合運用信息化手段構建涵蓋基建營房各業(yè)務領域、滿足各使用對象需求,能為實現(xiàn)工程透明、資產(chǎn)可視、營區(qū)感知、全域管控提供支撐,能形成基于信息系統(tǒng)體系作戰(zhàn)基建營房保障能力,提高基建營房保障效能提供技術手段的基建營房大系統(tǒng)。
在基建營房綜合管理系統(tǒng)中引入大數(shù)據(jù)關鍵技術,重點解決基建營房各業(yè)務領域信息系統(tǒng)數(shù)據(jù)標準不一致、業(yè)務覆蓋不全面、流程管控不透明、輔助決策水平低等問題,實現(xiàn)基建營房信息主導、精確管控、工程透明、科學決策的目標,形成基于計算機網(wǎng)絡環(huán)境下通過信息系統(tǒng)開展營房保障和管理的工作模式。
3.2 系統(tǒng)架構設計
大數(shù)據(jù)環(huán)境下的基建營房綜合管理系統(tǒng)架構如圖5所示,主要采用分布式計算架構,結合并行數(shù)據(jù)庫技術,有效地搭載基建營房各類數(shù)據(jù)(包括業(yè)務數(shù)據(jù)、控制數(shù)據(jù)等),支持大數(shù)據(jù)的流處理模式和批處理模式,能夠實現(xiàn)基建營房海量數(shù)據(jù)存儲與維護和跨層級分布式業(yè)務處理,為系統(tǒng)功能的柔性重組提供一個松耦合的集成框架[8]。
3.3 數(shù)據(jù)標準編制
(1)基建營房大數(shù)據(jù)的來源。基建營房大數(shù)據(jù)來源,一方面是全軍展開的“兩項普查”數(shù)據(jù)作為大數(shù)據(jù)分析決策的基礎,優(yōu)選出基建營房相關的基礎數(shù)據(jù)項和數(shù)據(jù)庫表,建立了從計劃、建設、竣工、移交、住用、日常管理到輔助決策的數(shù)據(jù)關聯(lián),另一方面是基于軍隊基建營房綜合管理系統(tǒng)實時動態(tài)數(shù)據(jù)采集,包括對業(yè)務人員、指揮人員、系統(tǒng)訪問人員的行為數(shù)據(jù)和數(shù)字化、智能化設施設備實時生成的數(shù)據(jù),這些數(shù)據(jù)是具有大數(shù)據(jù)4V特征的動態(tài)數(shù)據(jù),是基建營房大數(shù)據(jù)時效性和精準性的保證。因此,解決基建營房大數(shù)據(jù)的來源問題是保證數(shù)據(jù)集成真實有效、數(shù)據(jù)分析實時精準、數(shù)據(jù)挖掘科學合理的前提條件。
(2)基建營房大數(shù)據(jù)的標準?;I房數(shù)據(jù)標準的統(tǒng)一,是實現(xiàn)數(shù)據(jù)集中管理、融合共享的前提,是建立唯一的基建營房中心數(shù)據(jù)庫與統(tǒng)一挖掘模型的基礎。首先,利用大數(shù)據(jù)并行數(shù)據(jù)庫技術建立分布式業(yè)務數(shù)據(jù)庫,為基建營房各個業(yè)務子系統(tǒng)提供高自由度的數(shù)據(jù)環(huán)境;然后,分別建立業(yè)務數(shù)據(jù)模型與標準模型的映射管理,這里包括結構化數(shù)據(jù)的字段映射、半結構化和非結構化數(shù)據(jù)的語義映射等大數(shù)據(jù)映射標準;最后,分別將各業(yè)務子系統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)按照時間節(jié)點橫向劃分,通過多個節(jié)點并行數(shù)據(jù)處理任務,為實現(xiàn)基建營房綜合管理系統(tǒng)大數(shù)據(jù)分析挖掘提供數(shù)據(jù)準備。
3.4 數(shù)據(jù)處理應用
基建營房業(yè)務領域涵蓋面廣、部門交叉性強、處理過程中存在大量的大數(shù)據(jù)存儲與交換,例如包括營房土地、國防工程、住房實力、環(huán)保綠化核防、空余房地產(chǎn)、物資裝備等房地產(chǎn)資源數(shù)據(jù)和包括建設項目、住用單位、營區(qū)坐落、設施設備、室外管線、綠化資源、儲備營區(qū)應急保障能力以及五圖一影等的日常維護保障數(shù)據(jù)。這些數(shù)據(jù)規(guī)模遠遠超過GB級,達到TB級。另外,這些數(shù)據(jù)結構復雜,包括結構化、半結構化和非結構化數(shù)據(jù)(如地理信息、衛(wèi)星影像、三維模型等數(shù)據(jù)),遠遠超出普通管理信息系統(tǒng)數(shù)據(jù)處理能力的范圍,必須借助大數(shù)據(jù)技術才能對其進行有效的存儲和分析。因此,解決基建營房大數(shù)據(jù)的處理問題是保證數(shù)據(jù)存儲與交換的可靠性、數(shù)據(jù)分析與預測的科學性和先進性的核心因素。
在基建營房綜合管理系統(tǒng)中,所有的業(yè)務處理都是通過數(shù)據(jù)的流動來實現(xiàn)的,包括子系統(tǒng)內部數(shù)據(jù)流動和跨系統(tǒng)分布式的數(shù)據(jù)流動?;I房綜合管理系統(tǒng)的業(yè)務數(shù)據(jù)中除了結構化的業(yè)務數(shù)據(jù)表單外,還有很多文檔、方案等半結構化數(shù)據(jù)和地理信息、圖片、視頻等非結構化數(shù)據(jù)。而且各類的數(shù)據(jù)又存儲在不同系統(tǒng)、不同數(shù)據(jù)庫、不同服務器、不同的數(shù)字化裝備設備中。所以,在建立集成中心數(shù)據(jù)庫時采用服務器的分布式存儲與控制,這種方式會大大提高系統(tǒng)穩(wěn)定性且減少系統(tǒng)響應時間,實現(xiàn)更穩(wěn)定的信息化保障方式和更好的用戶體驗。同時,還應當考慮服務器集群的分級、分類構建,半結構化與非結構化數(shù)據(jù)在不同類型服務器中的分片存儲與處理,異地數(shù)據(jù)加密與備份等。
由于基建營房業(yè)務需求廣泛和數(shù)據(jù)多樣化的特點,需要對基建營房大數(shù)據(jù)處理策略進行研究,目標是構建一個滿足能存儲海量數(shù)據(jù)、自主定時定量、高度適應、容錯一致性可調的大數(shù)據(jù)集成環(huán)境,明確數(shù)據(jù)動態(tài)監(jiān)管過程中的數(shù)據(jù)粒度與數(shù)據(jù)實時性,不同的數(shù)據(jù)類型指定動態(tài)監(jiān)管方式也不同。例如國防工程日常維護設施設備監(jiān)控數(shù)據(jù)項,這種數(shù)據(jù)粒度細、實時性極強。全軍各種設施設備每個參數(shù)每秒鐘的動態(tài)變化是不可能記錄到系統(tǒng)數(shù)據(jù)庫中的,只能存在于智能設備的內部存儲中??偛考壖汝P注戰(zhàn)時保障數(shù)據(jù)的精確定位與實時反饋,又關注各戰(zhàn)區(qū)的年度、季度、任務消耗統(tǒng)計值的橫向比較與決策分析,所以如何利用智能設備接口調用實時數(shù)據(jù)是實現(xiàn)動態(tài)數(shù)據(jù)監(jiān)管的基礎,而且集成中心數(shù)據(jù)庫的動態(tài)數(shù)據(jù)抽取、轉換、加載過程(ETL)的時間范圍須謹慎設計并加以控制。
3.5 數(shù)據(jù)分析與挖掘
解決大數(shù)據(jù)的挖掘問題是解決數(shù)據(jù)之間聯(lián)系的問題,通過問題分析原因,通過現(xiàn)象預測結果,打破業(yè)務數(shù)據(jù)之間的屏障,使之統(tǒng)一化、透明化?;I房各領域內業(yè)務處理過程中,會出現(xiàn)許多決策問題,例如通過對基建營房工程項目三年滾動計劃(建設、預備、儲備)數(shù)據(jù)的挖掘分析,預測工程建設中的違規(guī)違紀,實現(xiàn)工程項目定量、定向管控安排,防止工程建設項目中的腐敗問題;通過對住房管理數(shù)據(jù)挖掘分析,提供年度、季度住房人員、房屋面積、房源租賃信息等計量值,提供住房管理的實時“陽光維護”,有效解決并預防住房“三超”(超規(guī)模、超投資、超面積)問題;通過對國防工程戰(zhàn)場設施實時動態(tài)監(jiān)控數(shù)據(jù)分析,預測不同環(huán)境下的各級工程維護管理費年度消耗標準,解決國防工程維護管理消耗“不明確”的問題;通過對軍隊基建營房綜合管理系統(tǒng)中業(yè)務人員、指揮人員、系統(tǒng)訪問人員的行為(包括瀏覽、留言等操作)數(shù)據(jù)挖掘分析,提供可靠的各類人群數(shù)據(jù)模型,分析不同人群對房地產(chǎn)資源政策制度的觀點和對未來住房政策的期望,科學有效地推進軍隊住房制度改革等。這些問題類型復雜,專業(yè)性強,計算量大,傳統(tǒng)的解決方式是依靠經(jīng)驗判斷和人工完成,然而這種方式過多依賴于業(yè)務人員和決策人員的能力素質,缺乏客觀的數(shù)據(jù)定量分析作為支持,局限于主觀性、盲目性和偶然性。因此,解決基建營房大數(shù)據(jù)的挖掘問題是解決基建營房業(yè)務領域現(xiàn)實問題的決定因素。
在確定基建營房綜合管理系統(tǒng)的系統(tǒng)架構、數(shù)據(jù)標準和數(shù)據(jù)處理的基礎上,完成對數(shù)據(jù)的智能化處理,即建立分級索引庫和挖掘模型庫,實現(xiàn)對海量數(shù)據(jù)抽取、轉換、加載、搜索、挖掘、分析和預測。
著眼新時期軍隊基建營房發(fā)展,按照全面建設現(xiàn)代后勤總體部署,本文以大數(shù)據(jù)為技術基礎,通過對大數(shù)據(jù)關鍵技術在基建營房綜合管理系統(tǒng)中應用研究,介紹分布式計算架構、并行數(shù)據(jù)庫技術、大數(shù)據(jù)處理模式等大數(shù)據(jù)處理關鍵技術和大規(guī)模機器學習、統(tǒng)計分析可視化等大數(shù)據(jù)分析挖掘關鍵技術,提出大數(shù)據(jù)環(huán)境下基建營房綜合管理系統(tǒng)架構、數(shù)據(jù)標準、數(shù)據(jù)處理、分析挖掘等應用,實現(xiàn)充分有效地利用基建營房數(shù)據(jù)資源并提供資源動態(tài)分析預測,為優(yōu)化基建營房資源配置、強化營房業(yè)務科學管理、加快推進建設現(xiàn)代營房、切實轉變基建營房保障模式提供理論基礎,進一步增強核心保障能力和提升質量效益。
[1]李國杰,程學旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領域—大數(shù)據(jù)的研究現(xiàn)狀與科學思考[J].中國科學院院刊,2013,27(6):647-657.
[2]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146-169.
[3]馬建光,姜巍.大數(shù)據(jù)的概念、特征及其應用[J].國防科技,2013,34(2):10-77.
[4]Frankel F,Reid R.Big Data:Distilling meaning from data[J]. Nature,2008,455(7 209):1-136.
[5]Silva Y N,Reed J M.Exploiting MapReduce-based similarity joins[A].Proc of SIGMOD 2012[C].New York,2012.
[6]Yang Lai,Shi Zhongzhi.An efficient data mining framework on Hadoop using Java persistence API[A].Proc of CIT 2010[C]. Piscataway,NJ,2010.
[7]Apache.Apache Mahout:Scalable machine learning and data mining[EB/OL].http://mahout.apache org.
[8]賈俊芳,張日權.基于分布式的大數(shù)據(jù)集聚類分析[J].計算機工程與應用,2008,44(28):133-135.
Study on Application of Key Big Data Technologies in Capital Construction and Barrack Comprehensive Management System
GuoYudong,LiShenglin
(LogisticalEngineeringUniversity,Chongqing 401331,China)
In this paper,we mainly studied the key big data processing and mining technologies,then in connection with the application environment of the capital construction and barrack comprehensive management system,elaborated on the application of the big data technologiesinthearchitecture,datastandard,dataprocessing,anddatamining,etc.,ofthesystem.
bigdatamining;capitalconstructionandbarrack;informationmanagementsystem
E235
A
1005-152X(2016)05-0169-07
10.3969/j.issn.1005-152X.2016.05.037
2016-04-14
郭宇棟(1987-),男,遼寧遼陽人,后勤工程學院研究生五隊博士研究生,研究方向:后勤信息化。