孫亮,賀瑩
[摘? ? 要]通過分析數(shù)據(jù)融合處理平臺(tái)和網(wǎng)絡(luò)架構(gòu),分析了多元線性回歸數(shù)據(jù)融合的事件統(tǒng)計(jì)方法,在保證數(shù)據(jù)的一致性、完成性和準(zhǔn)確性的前提下,構(gòu)建從數(shù)據(jù)模型設(shè)計(jì)、數(shù)據(jù)開發(fā)、運(yùn)維全生命周期的數(shù)據(jù)管控平臺(tái),并以業(yè)務(wù)數(shù)據(jù)為核心構(gòu)建數(shù)據(jù)資源共享中心的數(shù)據(jù)體系,建立數(shù)據(jù)融合處理分析仿真平臺(tái),對(duì)相關(guān)數(shù)據(jù)進(jìn)行融合分析,可為其他業(yè)務(wù)數(shù)據(jù)的融合處理和統(tǒng)一管理提供技術(shù)思路。
[關(guān)鍵詞]數(shù)據(jù)融合;多元線性回歸;網(wǎng)絡(luò)事件
[中圖分類號(hào)]TP393 [文獻(xiàn)標(biāo)志碼]A [文章編號(hào)]2095–6487(2022)02–0–03
Research on a big Data Fusion Processing Method
Sun Liang,He Ying
[Abstract]By analyzing the data fusion processing platform and network architecture, the event statistics method of multiple linear regression data fusion is analyzed. On the premise of ensuring the consistency, completeness and accuracy of the data, the construction from data model design, data development, operation Maintain a data management and control platform for the entire life cycle, and build a data system of data resource sharing center with business data as the core, and establish a data fusion processing analysis simulation platform to perform fusion analysis on related data, which can be used for fusion processing and unification of other business data. Management provides technical ideas.
[Keywords]data fusion; multiple linear regression; network event
多源異構(gòu)網(wǎng)絡(luò)信息數(shù)據(jù)融合主要是基于多種(同類或異類)信息源和數(shù)據(jù)源,根據(jù)某種特定標(biāo)準(zhǔn)在空間和時(shí)間上進(jìn)行數(shù)據(jù)或信息的整合處理分析,獲取多源數(shù)據(jù)信息的內(nèi)容精準(zhǔn)描述和深度分析,同時(shí)要保證本系統(tǒng)的安全穩(wěn)定運(yùn)行。從多源數(shù)據(jù)融合的層次來說,多源數(shù)據(jù)融合處理的訓(xùn)練模型通常從數(shù)據(jù)、特征、決策三個(gè)層次上進(jìn)行數(shù)據(jù)的融合處理分析。
多源數(shù)據(jù)信息的融合處理系統(tǒng)一般都可以分為集中式數(shù)據(jù)融合、分布式數(shù)據(jù)融合和集中式/分布式混合融合。在實(shí)際工程項(xiàng)目中,面對(duì)不同的實(shí)際問題,可根據(jù)信息源數(shù)據(jù)特征的差異和關(guān)系,可單獨(dú)采用多層次多層級(jí)的數(shù)據(jù)融合方法,也可采用組合式數(shù)據(jù)融合處理方法,以保證數(shù)據(jù)融合處理的高效和能力最優(yōu)。當(dāng)前,基于多源異構(gòu)網(wǎng)絡(luò)數(shù)據(jù)相融合的數(shù)據(jù)種類多、數(shù)量大,需要將各類數(shù)據(jù)進(jìn)行統(tǒng)一存儲(chǔ),按照分布式的數(shù)據(jù)采集,集中式的數(shù)據(jù)管理原則進(jìn)行高價(jià)值情報(bào)信息的分析、挖掘和利用。
本文將通過建立數(shù)據(jù)標(biāo)準(zhǔn)體系和數(shù)據(jù)質(zhì)量體系,保證數(shù)據(jù)的一致性、完成性和準(zhǔn)確性,并建立數(shù)據(jù)開發(fā)平臺(tái),提供高效的數(shù)據(jù)分析、抽取能力,構(gòu)建從數(shù)據(jù)模型設(shè)計(jì)、數(shù)據(jù)開發(fā)、運(yùn)維、使用一體化全生命周期的數(shù)據(jù)管控平臺(tái),并以業(yè)務(wù)數(shù)據(jù)為核心構(gòu)建數(shù)據(jù)資源共享中心的數(shù)據(jù)體系,從而對(duì)數(shù)據(jù)進(jìn)行各種維度的有效組織和管理,形成全局的數(shù)據(jù)架構(gòu)。
1 系統(tǒng)概述
采用分布式架構(gòu)建立數(shù)據(jù)資源共享管理系統(tǒng),來完成數(shù)據(jù)交互功能的同時(shí),能有效地實(shí)現(xiàn)數(shù)據(jù)服務(wù)高可用和高性能,分布式節(jié)點(diǎn)之間對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行讀寫的并行處理。對(duì)各類數(shù)據(jù)進(jìn)行存儲(chǔ)管理,以保證系統(tǒng)對(duì)各類相關(guān)業(yè)務(wù)數(shù)據(jù)的服務(wù),可實(shí)現(xiàn)對(duì)億級(jí)在庫數(shù)據(jù)的秒級(jí)全文檢索及相關(guān)系統(tǒng)的互聯(lián)互通[1-3]。
數(shù)據(jù)是信息系統(tǒng)的核心,集中、高效、高可擴(kuò)展的存儲(chǔ)環(huán)境是實(shí)現(xiàn)數(shù)據(jù)資源保存、共享、開發(fā)利用的基礎(chǔ)設(shè)施。存儲(chǔ)備份系統(tǒng)不僅要滿足大容量數(shù)據(jù)存儲(chǔ)和快速響應(yīng)的需要,還要保障數(shù)據(jù)的安全性和一致性,因此需要通過建立集中、高效的存儲(chǔ)備份系統(tǒng),實(shí)現(xiàn)系統(tǒng)在不間斷運(yùn)行情況下的數(shù)據(jù)保存和意外情況下的數(shù)據(jù)恢復(fù)。
按照存儲(chǔ)數(shù)據(jù)的類型劃分,每個(gè)存儲(chǔ)節(jié)點(diǎn)主要包含結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)兩類數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)主要包括業(yè)務(wù)數(shù)據(jù)、公共信息庫中的拷貝數(shù)據(jù)、組織機(jī)構(gòu)及人員信息、權(quán)限信息等公共配置信息等;非結(jié)構(gòu)化數(shù)據(jù)主要包括工作文書、文書審批表、各種圖片、掃描件等附件等。本文綜合考慮數(shù)據(jù)類型、業(yè)務(wù)應(yīng)用模式和數(shù)據(jù)規(guī)模等多方面的因素,以及數(shù)據(jù)備份恢復(fù)和導(dǎo)入導(dǎo)出等系統(tǒng)維護(hù)性需求,結(jié)構(gòu)化數(shù)據(jù)通過數(shù)據(jù)庫進(jìn)行存儲(chǔ),非結(jié)構(gòu)化數(shù)據(jù)通過文件系統(tǒng)進(jìn)行存儲(chǔ),結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的關(guān)聯(lián)通過在數(shù)據(jù)庫中保存文件地址的映射來實(shí)現(xiàn)。
2 系統(tǒng)架構(gòu)
數(shù)據(jù)資源共享管理系統(tǒng)基于Hadoop的數(shù)據(jù)基礎(chǔ)軟件,Hadoop是一個(gè)由Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下開發(fā)分布式程序,充分利用集群的威力進(jìn)行高速運(yùn)算和存儲(chǔ),具有可靠、高效、可伸縮的特點(diǎn)。
Hadoop的核心是YARN,HDFS和MapReduce。HDFS是分布式文件存儲(chǔ)系統(tǒng),用于存儲(chǔ)海量數(shù)據(jù);MapReduce是并行處理框架,實(shí)現(xiàn)任務(wù)分解和調(diào)度。Hadoop可以用來搭建大型數(shù)據(jù)倉庫,對(duì)海量數(shù)據(jù)進(jìn)行存儲(chǔ)、分析、處理和統(tǒng)計(jì)等業(yè)務(wù),功能十分強(qiáng)大。
基于Hadoop的數(shù)據(jù)融處理系統(tǒng)架構(gòu)的設(shè)計(jì)原則就是要滿足大數(shù)據(jù)輸入、存儲(chǔ)、處理和分析等需求,該系統(tǒng)主要分為基礎(chǔ)支撐層、數(shù)據(jù)處理與分析層和應(yīng)用系統(tǒng)層。其中,基礎(chǔ)支撐層主要由Hadoop系統(tǒng)組件和其他數(shù)據(jù)預(yù)處理工具組成,在完成數(shù)據(jù)存儲(chǔ)、計(jì)算和網(wǎng)絡(luò)傳輸?shù)热蝿?wù)以外,還提供基于分布式架構(gòu)的流計(jì)算、在線/離線批處理以及圖形計(jì)算等服務(wù);數(shù)據(jù)處理與分析層由多個(gè)數(shù)據(jù)處理和分析功能模塊組成,在完成基本數(shù)據(jù)抽取與統(tǒng)計(jì)分析任務(wù)的基礎(chǔ)上,還具備結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化以及組合化數(shù)據(jù)轉(zhuǎn)換處理分析、信息內(nèi)容深度理解與挖掘等能力,該層核心功能主要包括自然語言處理、圖像視頻內(nèi)容深度理解、數(shù)字文本深度挖掘關(guān)聯(lián)與分析等,數(shù)據(jù)處理與分析層對(duì)于數(shù)據(jù)處理的能力大小將很大程度影響應(yīng)用系統(tǒng)層數(shù)據(jù)統(tǒng)計(jì)分析與綜合結(jié)果展示的準(zhǔn)確性和全面性;應(yīng)用系統(tǒng)層由SSH框架和綜合結(jié)果可視化展示工具組成,該層的任務(wù)主要是對(duì)數(shù)據(jù)處理與分析層輸出的處理分析結(jié)果的進(jìn)一步分析。整個(gè)系統(tǒng)框架的構(gòu)建主要是基于各類開源的組件和插件,Hadoop分布式文件系統(tǒng)為本系統(tǒng)提供存儲(chǔ)能力,本系統(tǒng)支持Oracle、MySQL等結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ),核心計(jì)算功能模塊主要包括MapReduce、Storm、Spark以及定制化分布式視頻處理引擎,基于SSH框架構(gòu)建可視化功能模塊,并支持按照需求靈活配置。
3 數(shù)據(jù)融合處理分析
數(shù)據(jù)融合處理涉及到系統(tǒng)端到端的各個(gè)環(huán)節(jié),包括數(shù)據(jù)接入、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理、數(shù)據(jù)可視化等。其中,數(shù)據(jù)接入是基于規(guī)范化的傳輸協(xié)議和數(shù)據(jù)格式,從不同應(yīng)用和數(shù)據(jù)源(如互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等)進(jìn)行離線或?qū)崟r(shí)的數(shù)據(jù)采集、傳輸、分發(fā);數(shù)據(jù)預(yù)處理是對(duì)數(shù)據(jù)進(jìn)行整理、清洗、轉(zhuǎn)換等,以便支撐后續(xù)數(shù)據(jù)處理、查詢、分析等進(jìn)一步應(yīng)用;數(shù)據(jù)存儲(chǔ)基于HDFS 分布式文件系統(tǒng)對(duì)海量半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ),支撐內(nèi)容檢索、深度挖掘、綜合分析等大數(shù)據(jù)分析應(yīng)用;數(shù)據(jù)處理是根據(jù)業(yè)務(wù)實(shí)際情況進(jìn)行數(shù)據(jù)離線處理、實(shí)時(shí)處理,并利用機(jī)器學(xué)習(xí)算法對(duì)大規(guī)模數(shù)據(jù)進(jìn)行深度挖掘分析;數(shù)據(jù)可視化借助圖表、2D/3D 視圖等多種方式,直觀反映出數(shù)據(jù)各維度指標(biāo)的變化趨勢(shì),用以支撐用戶分析、監(jiān)控和數(shù)據(jù)價(jià)值挖掘。
數(shù)據(jù)采集主要實(shí)現(xiàn)多源、多方式、多類別的大數(shù)據(jù)采集、匯聚、去重等功能;數(shù)據(jù)存儲(chǔ)主要實(shí)現(xiàn)關(guān)系型和非關(guān)系型數(shù)據(jù)的統(tǒng)一管理,包括壓縮、分布式存儲(chǔ)、加密等;數(shù)據(jù)分析服務(wù)主要實(shí)現(xiàn)大數(shù)據(jù)環(huán)境下統(tǒng)一數(shù)據(jù)訪問接口設(shè)置,通過Java、Ruby、Python、PHP、Node.js、Perl等開發(fā)語言與框架以及平臺(tái)提供的API訪問數(shù)據(jù)資源。
多源異構(gòu)數(shù)據(jù)采集是系統(tǒng)核心模塊,包括數(shù)據(jù)采集、抽取、清洗、轉(zhuǎn)換、加載、資源管理、更新管理、審核、融合和數(shù)據(jù)目錄服務(wù)等功能;通過XML服務(wù)接口、分布式文件讀取、關(guān)系數(shù)據(jù)庫同步抽取等多種方式,將元數(shù)據(jù)抽取到大數(shù)據(jù)分析平臺(tái),并經(jīng)過數(shù)據(jù)預(yù)處理操作,完成數(shù)據(jù)ETL(清洗、轉(zhuǎn)換、加載)等流程,將采集到的數(shù)據(jù)進(jìn)行數(shù)據(jù)規(guī)范化,形成清潔大數(shù)據(jù)池供各個(gè)終端用戶通過API等形式調(diào)用。
數(shù)據(jù)處理平臺(tái)包括外網(wǎng)區(qū)、用戶訪問區(qū)、輔助安全區(qū)、信息系統(tǒng)區(qū)、大數(shù)據(jù)集群、云計(jì)算集群、運(yùn)維管理區(qū)等:外網(wǎng)區(qū)由多臺(tái)高性能路由器/核心交換機(jī)連接外網(wǎng)運(yùn)營商,并且構(gòu)成骨干網(wǎng);內(nèi)網(wǎng)的數(shù)據(jù)中心網(wǎng)絡(luò)采用最新的數(shù)據(jù)中心以太網(wǎng)技術(shù),支持10G的網(wǎng)內(nèi)服務(wù)器之間的高速數(shù)據(jù)傳輸;用戶訪問區(qū)是所有人員公用的網(wǎng)絡(luò)區(qū)域,可以通過上網(wǎng)賬號(hào)和密碼使用無線網(wǎng)絡(luò)或者企業(yè)網(wǎng)接入訪問數(shù)據(jù)處理平臺(tái);輔助安全區(qū)包括流量控制、防拒絕服務(wù)攻擊(DDOS)、入侵檢測(cè)(IDS)、入侵防護(hù)系統(tǒng)(IPS)、 虛擬專用網(wǎng)(SSL VPN)、漏洞掃描、數(shù)據(jù)庫安全審計(jì)系統(tǒng)等。
通過整合多源異構(gòu)數(shù)據(jù)庫,構(gòu)建海量數(shù)據(jù)優(yōu)化存儲(chǔ)系統(tǒng);支持ORACLE、SQL Server、MySQL等大型的主流數(shù)據(jù)庫;支持Windows、Linux等操作系統(tǒng);采用Web Service技術(shù)、利用XML作為系統(tǒng)接口的數(shù)據(jù)交換標(biāo)準(zhǔn),進(jìn)行信息資源整合;利用SSL安全協(xié)議保護(hù)登陸過程的賬號(hào)、密碼等信息。
此外,數(shù)據(jù)安全防護(hù)是整個(gè)系統(tǒng)非常重要的功能模塊,決定了整個(gè)系統(tǒng)數(shù)據(jù)的安全運(yùn)維和穩(wěn)定分析。數(shù)據(jù)庫系統(tǒng)及其數(shù)據(jù)是系統(tǒng)中的核心資產(chǎn),面對(duì)目前數(shù)據(jù)庫和應(yīng)用系統(tǒng)在邏輯和技術(shù)上層出不窮的安全漏洞,以及管理層制定的監(jiān)督管理制度缺乏有效執(zhí)行保障的現(xiàn)狀,本系統(tǒng)通過建立高可靠性的安全時(shí)空數(shù)據(jù)庫架構(gòu),從根本上杜絕任何技術(shù)手段或違規(guī)操作對(duì)數(shù)據(jù)的非法獲取和篡改。系統(tǒng)具有海量時(shí)空多媒體信息的集群管理、分布式查詢與處理功能的跨平臺(tái),分布式、高安全的數(shù)據(jù)庫管理系統(tǒng)平臺(tái)軟件,主要功能包括:關(guān)系型數(shù)據(jù)庫功能;空間數(shù)據(jù)管理功能;多媒體數(shù)據(jù)管理功能;數(shù)據(jù)集群管理功能;高安全數(shù)據(jù)管理功能(支持?jǐn)?shù)據(jù)庫管理員、安全管理員和審計(jì)管理員的分立管理,多策略訪問控制,細(xì)粒度的審計(jì)功能,強(qiáng)用戶身份安全驗(yàn)證機(jī)制,隱蔽信道通信監(jiān)測(cè)和加密通信等)。
4 基于多元線性回歸數(shù)據(jù)融合的事件統(tǒng)計(jì)分析
在數(shù)據(jù)融合處理計(jì)算平臺(tái)和網(wǎng)絡(luò)平臺(tái)搭建的基礎(chǔ)上,基于多元線性回歸模型對(duì)大規(guī)模業(yè)務(wù)數(shù)據(jù)進(jìn)行融合處理,并在此基礎(chǔ)上對(duì)某事件進(jìn)行統(tǒng)計(jì)分析。
多元線性回歸模型是反映自變量與因變量之間“緊密性”的關(guān)系。因此,在分析數(shù)據(jù)的基礎(chǔ)上,采用多元線性回歸的方法來衡量數(shù)據(jù)變化的趨勢(shì)走向。假設(shè)影響因變量y的自變量個(gè)數(shù)為N,自變量記為x1,x2,…,xn,則自變量與因變量是線性關(guān)系:
Y=β0+β1x1+β2x2+…+βnxn+ε
其中,β1,β2,…,βn是回歸系數(shù);ε是與x1,x2,…,xn無關(guān)的未知參數(shù),取值范圍為(0,σ2)。同時(shí),在事件B出現(xiàn)的前提下,事件A出現(xiàn)的概率等于A和B都出現(xiàn)的概率除以B出現(xiàn)的概率,具體如下:
其中,P(A|B)是后驗(yàn)概率;P(A)是先驗(yàn)概率;P(B|A)/P(B)是一個(gè)調(diào)整因子,是在已知某些觀測(cè)所得到的結(jié)果。在預(yù)估先驗(yàn)概率的前提下,再加入觀測(cè)結(jié)果,通過觀測(cè)結(jié)果來增強(qiáng)或者削弱先驗(yàn)概率,由此得到更接近事實(shí)的后驗(yàn)概率。
多源異構(gòu)網(wǎng)絡(luò)安全狀態(tài)數(shù)據(jù)差異性很大,可能是實(shí)時(shí)數(shù)據(jù),也可能是非實(shí)時(shí)數(shù)據(jù);可能是連續(xù)數(shù)據(jù),也可能是離散數(shù)據(jù);可能是互相支持的數(shù)據(jù),也可能是互相矛盾的數(shù)據(jù)。在多元線性回歸模型構(gòu)建基礎(chǔ)上進(jìn)行數(shù)據(jù)融合,充分利用多源異構(gòu)網(wǎng)絡(luò)安全狀態(tài)數(shù)據(jù),將其冗余或互補(bǔ)的數(shù)據(jù)依據(jù)某種準(zhǔn)則進(jìn)行融合,以獲得對(duì)待識(shí)別安全事件的一致性描述或解釋,使得數(shù)據(jù)融合系統(tǒng)得到的實(shí)際輸出比依靠任何單一數(shù)據(jù)源構(gòu)成的系統(tǒng)獲得更優(yōu)越的性能。
5 仿真結(jié)果
通過計(jì)算機(jī)模擬數(shù)據(jù)融合處理計(jì)算平臺(tái)和網(wǎng)絡(luò)平臺(tái),并結(jié)合基于多元線性回歸數(shù)據(jù)融合的事件統(tǒng)計(jì)分析方法,對(duì)某互聯(lián)網(wǎng)事件進(jìn)行分析和結(jié)果呈現(xiàn)。在該數(shù)據(jù)呈現(xiàn)中,擬定呈現(xiàn)一種數(shù)據(jù),即以分區(qū)某專業(yè)內(nèi)數(shù)據(jù)產(chǎn)生時(shí)間為導(dǎo)向的數(shù)據(jù)量展示。擬用以時(shí)間為導(dǎo)向的柱狀圖來展示該專業(yè)內(nèi)的數(shù)據(jù)變化情況。最終呈現(xiàn)效果如圖1所示。
從上面數(shù)據(jù)變化展示圖中可以直觀地看到某網(wǎng)絡(luò)事件隨時(shí)間的變化規(guī)律,以及在什么時(shí)間段事件的發(fā)酵率最大,可為下一步針對(duì)該事件進(jìn)行溯源分析和未來事件發(fā)展趨勢(shì)預(yù)測(cè)提供支撐。
6 結(jié)論
通過分析數(shù)據(jù)融合處理平臺(tái)和網(wǎng)絡(luò)架構(gòu),分析了多元線性回歸數(shù)據(jù)融合的事件統(tǒng)計(jì)方法,在保證數(shù)據(jù)的一致性、完成性和準(zhǔn)確性的前提下,構(gòu)建從數(shù)據(jù)模型設(shè)計(jì)、數(shù)據(jù)開發(fā)、運(yùn)維、使用一體化全生命周期的數(shù)據(jù)管控平臺(tái),并以業(yè)務(wù)數(shù)據(jù)為核心構(gòu)建數(shù)據(jù)資源共享中心的數(shù)據(jù)體系,并建立數(shù)據(jù)融合處理分析仿真平臺(tái)。針對(duì)某網(wǎng)絡(luò)事件,對(duì)事件相關(guān)數(shù)據(jù)進(jìn)行融合分析,可為其他業(yè)務(wù)數(shù)據(jù)的融合處理和統(tǒng)一管理提供技術(shù)思路。
參考文獻(xiàn)
[1] 肖璐雯.大數(shù)據(jù)形勢(shì)下的廣播電視安全播出技術(shù)[J].科技資訊,2020,18(11):2.
[2] 陳青嬌.大數(shù)據(jù)時(shí)代高校檔案管理工作創(chuàng)新[J].中國管理信息化,2020,23(12):2.
[3] 李明.多源信息融合技術(shù)發(fā)展簡述[J].艦船電子工程,2017,37(6):5-9.