黃富平,梁卓浪,邢英俊,楊春麗
(廣州珠江職業(yè)技術(shù)學(xué)院 信息技術(shù)學(xué)院,廣州 511300)
云計(jì)算Hadoop平臺的異常數(shù)據(jù)檢測算法研究
黃富平,梁卓浪,邢英俊,楊春麗
(廣州珠江職業(yè)技術(shù)學(xué)院 信息技術(shù)學(xué)院,廣州 511300)
近年來,隨著我國互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展與大規(guī)模網(wǎng)絡(luò)運(yùn)算平臺研究的深入,云平臺下的數(shù)據(jù)處理已成為大規(guī)模數(shù)據(jù)的主要處理方式;但是,現(xiàn)有的云計(jì)算Hadoop平臺在海量數(shù)據(jù)異常涌入狀態(tài)下,常常出現(xiàn)數(shù)據(jù)邏輯錯誤、數(shù)據(jù)鏈完整性缺失、數(shù)據(jù)失效的問題,造成無法對上述異常數(shù)據(jù)進(jìn)行有效檢測處理,嚴(yán)重影響云計(jì)算Hadoop平臺的數(shù)據(jù)運(yùn)算準(zhǔn)確性;針對上述問題,提出云計(jì)算Hadoop平臺的異常數(shù)據(jù)檢測算法研究方法;采用JNS數(shù)據(jù)采集篩查模組、算法邏輯補(bǔ)償模組與動態(tài)反饋模組對現(xiàn)有的云端計(jì)算平臺存在的問題進(jìn)行針對性解決;通過仿真模擬實(shí)驗(yàn)證明,提出的云計(jì)算Hadoop平臺的異常數(shù)據(jù)檢測算法研究方法,具有異常數(shù)據(jù)識別率高,準(zhǔn)確性高,速度快、可實(shí)施性強(qiáng)、穩(wěn)定性好的特點(diǎn)。
云計(jì)算;大數(shù)據(jù);異常數(shù)據(jù);Hadoop平臺
近年來 ,隨著我國互聯(lián)網(wǎng)技術(shù)與建設(shè)的飛速發(fā)展,網(wǎng)絡(luò)已成為經(jīng)濟(jì)建設(shè)過程中必不可少的組成部分。實(shí)物數(shù)據(jù)化運(yùn)算技術(shù)的誕生,標(biāo)志著大數(shù)據(jù)時(shí)代的到來。在大數(shù)據(jù)時(shí)代下,多種數(shù)據(jù)的海量處理分析運(yùn)算,將依托強(qiáng)大的網(wǎng)絡(luò)傳輸能力與多架構(gòu)的云計(jì)算Hadoop平臺來完成。眾多數(shù)據(jù)在云計(jì)算過程中,經(jīng)常出現(xiàn)數(shù)據(jù)異常的狀況[1-2]。因此,快速有效的檢測出這些異常數(shù)據(jù),成為提升云計(jì)算Hadoop平臺運(yùn)算力的重中之重。
現(xiàn)有的云平臺異常數(shù)據(jù)檢測機(jī)制所采用的邏輯算法,在海量數(shù)據(jù)流共涌狀態(tài)[3]下,數(shù)據(jù)鏈會發(fā)生邏輯性斷裂[4],導(dǎo)致數(shù)據(jù)攜帶信息源改變[5],整體數(shù)據(jù)組完整性遭到破壞,致使云計(jì)算邏輯出現(xiàn)異常、運(yùn)算力降低、空間數(shù)據(jù)滯留[6],前端服務(wù)器數(shù)據(jù)溢出的嚴(yán)重后果。針對上述問題,對現(xiàn)有的異常數(shù)據(jù)檢測邏輯進(jìn)行改進(jìn),提出云計(jì)算Hadoop平臺的異常數(shù)據(jù)檢測算法研究方法。利用Hadoop平臺作為異常數(shù)據(jù)檢測組的運(yùn)行平臺,采用JNS數(shù)據(jù)采集篩查模組對前端服務(wù)器交互過程中的數(shù)據(jù)進(jìn)行數(shù)據(jù)異常預(yù)檢處理,自動屏蔽外圍異常數(shù)據(jù),提升數(shù)據(jù)有效性;通過算法邏補(bǔ)償模組對云端計(jì)算引擎進(jìn)行動態(tài)監(jiān)測算法植入處理,達(dá)到實(shí)時(shí)屏蔽異常數(shù)據(jù)與數(shù)據(jù)補(bǔ)償?shù)男Ч?;最后,利用動態(tài)反饋模組對運(yùn)算后輸出結(jié)果數(shù)據(jù)進(jìn)行數(shù)據(jù)異常檢測,對隱性異常數(shù)據(jù)進(jìn)行深度檢測,快速反饋結(jié)果并對其進(jìn)行輸出攔截,保證運(yùn)算輸出結(jié)果的準(zhǔn)確性。
通過仿真實(shí)驗(yàn)證明,提出的云計(jì)算Hadoop平臺的異常數(shù)據(jù)檢測算法研究方法,具有異常數(shù)據(jù)識別率高,準(zhǔn)確性高,速度快、可實(shí)施性強(qiáng)、穩(wěn)定性好的特點(diǎn)。滿足設(shè)計(jì)研究改進(jìn)要求。
1.1 JNS數(shù)據(jù)采集篩查模組構(gòu)建
大數(shù)據(jù)運(yùn)算空間內(nèi),云端計(jì)算平臺負(fù)責(zé)海量數(shù)據(jù)的綜合性運(yùn)算分析處理,云端計(jì)算平臺的架構(gòu)性質(zhì)決定其運(yùn)算能力的大小與適應(yīng)性的強(qiáng)弱。近年來,Hadoop平臺成為云計(jì)算Hadoop平臺中的主流運(yùn)算架構(gòu),其具有分布式運(yùn)算方式,大大降低的平臺對硬件的要求,同時(shí)可以快速對運(yùn)算數(shù)據(jù)進(jìn)行外圍數(shù)據(jù)的特征分析處理,大大提升力云端計(jì)算平臺的處理能力[7]。
但是,分布式運(yùn)算方式存在的數(shù)據(jù)檢測性低的問題,導(dǎo)致海量數(shù)據(jù)沖擊前端服務(wù)器狀態(tài)下,架構(gòu)穩(wěn)定性降低,云端運(yùn)算力受到影響。針對Hadoop平臺的分布式運(yùn)算特點(diǎn),提出的云計(jì)算Hadoop平臺的異常數(shù)據(jù)檢測算法研究方法中對前端數(shù)據(jù)采集服務(wù)器進(jìn)行針對性改進(jìn)設(shè)計(jì),采用構(gòu)建JNS數(shù)據(jù)采集篩查模組,針對性解決前端數(shù)據(jù)采集服務(wù)器在數(shù)據(jù)共涌沖擊下出現(xiàn)的架構(gòu)穩(wěn)定降低所帶來的一系列問題。
JNS數(shù)據(jù)采集篩查模組在設(shè)計(jì)上,針對云計(jì)算Hadoop平臺的分布式特點(diǎn),采用分段邏輯式形式編寫,利用分段式運(yùn)算邏輯式對前端服務(wù)器的數(shù)據(jù)交互采集訪問端口、訪問協(xié)議、數(shù)據(jù)流進(jìn)行針對性改進(jìn),通過JVSP端口控制算法對訪問端口進(jìn)行全天候?qū)崟r(shí)掃描,到達(dá)異常數(shù)據(jù)快速反饋的目的,通過分段式中的邏輯組式,動態(tài)激活NDWF訪問協(xié)議控制式,對訪問協(xié)議進(jìn)行動態(tài)檢測捕捉,捕捉到異常數(shù)據(jù)反饋鏈后,自行對協(xié)議進(jìn)行相應(yīng)異常數(shù)值參數(shù)調(diào)整,同時(shí)激活SBDN數(shù)據(jù)流平檢算法,對服務(wù)器內(nèi)的數(shù)據(jù)流進(jìn)行外核數(shù)據(jù)特征化異常檢測,利用Hadoop平臺的分布式特點(diǎn),達(dá)到瞬態(tài)完成檢測的目的。快速、準(zhǔn)確的屏蔽前端服務(wù)器內(nèi)的特征異常數(shù)據(jù)。
JNS數(shù)據(jù)采集篩查模組中的JVSP端口控制算法、NDWF訪問協(xié)議控制式、SBDN數(shù)據(jù)流平檢算法與邏輯組式的具體分段式如下所示。
JVSP端口控制算法關(guān)系式:
(1)
JVSP端口控制算法關(guān)系式中,a為訪問節(jié)點(diǎn)集合公用端口系數(shù);b為訪問節(jié)點(diǎn)專用端口系數(shù);n為公用端口地址集;i為專用端口地址集;s為共用端口映射數(shù)量;?為有效端口數(shù);x抑制端口數(shù);x′為可控的抑制端口數(shù),其滿足x′∈x,x≠0。
NDWF訪問協(xié)議控制式關(guān)系式:
(2)
NDWF訪問協(xié)議控制式關(guān)系式中,v為訪問協(xié)議邏輯暢通等級系數(shù);y為訪問協(xié)議中起始地址數(shù);z為訪問協(xié)議中終止地址數(shù),其滿足z-y≠0,z>y,z≠y。關(guān)系式中,協(xié)議段范圍由前端采集服務(wù)器子掩碼范圍決定,子掩碼范圍由z-y≠0,z>y,z≠y限制得出。
SBDN數(shù)據(jù)流平檢算法關(guān)系式:
(3)
SBDN數(shù)據(jù)流平檢算法關(guān)系式中,a、b、c、n為數(shù)據(jù)流內(nèi)部數(shù)據(jù)的不同數(shù)據(jù)核;i為數(shù)據(jù)流特征化數(shù)據(jù)源集合,其滿足i∈a∈b∈c∈n,a≠b≠c≠n≠0。
邏輯組式關(guān)系式:
(4)
邏輯組式關(guān)系式中,各算法之間在滿足自身限制條件的前提下,還應(yīng)滿足s|m|?s|L|?m|t|,在不影像子掩碼范圍區(qū)域的前提下,滿足s|m|≠s|L|≠m|t|。
通過上述算法的建立,完成云計(jì)算Hadoop平臺下的JNS數(shù)據(jù)采集篩查模組構(gòu)建,初步解決由異常數(shù)據(jù)沖擊前端服務(wù)器導(dǎo)致的架構(gòu)穩(wěn)定性降低,云端運(yùn)算力滯后的問題。
為了驗(yàn)證JNS數(shù)據(jù)采集篩查模組在現(xiàn)實(shí)環(huán)境下的運(yùn)行效果,采用仿真模擬實(shí)驗(yàn)對JNS數(shù)據(jù)采集篩查模組進(jìn)行測試,才是采用數(shù)據(jù)對比方式,對傳統(tǒng)算法與JNS數(shù)據(jù)采集篩查模組進(jìn)行不間斷24小時(shí)測試,隨機(jī)抽取1小時(shí)、4小時(shí)、6小時(shí)、10小時(shí)、16小時(shí)、18小時(shí)、23小時(shí)的各項(xiàng)測試數(shù)據(jù)進(jìn)行對比,并做出結(jié)論,具體測試數(shù)據(jù)如下表所示。
表1 JNS數(shù)據(jù)采集篩查模組前端服務(wù)器異常數(shù)據(jù)檢測性能測試表
表2 傳統(tǒng)算法前端服務(wù)器異常數(shù)據(jù)檢測性能測試
通過上述表1與表2的測試數(shù)據(jù)對比,可以清晰地看出,提出的云計(jì)算Hadoop平臺的異常數(shù)據(jù)檢測算法研究方法中的JNS數(shù)據(jù)采集篩查模組具各項(xiàng)性能指標(biāo)遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)算法,充分證明JNS數(shù)據(jù)采集篩查模組具有良好的前端服務(wù)器異常數(shù)據(jù)預(yù)檢能力,為后續(xù)的算法邏補(bǔ)償模組的進(jìn)一步處理奠定了基礎(chǔ)。
1.2 算法邏輯補(bǔ)償模組構(gòu)建
云計(jì)算Hadoop平臺中核心云算部分在于網(wǎng)絡(luò)云端架構(gòu)內(nèi)部的運(yùn)算邏輯,內(nèi)部邏輯組的架構(gòu)組數(shù)輻射范圍的大小,決定了云計(jì)算能力與適應(yīng)力的大小?,F(xiàn)有的云端計(jì)算邏輯架構(gòu)由于與內(nèi)部邏輯鏈架構(gòu)嚴(yán)謹(jǐn)性欠佳,多次序數(shù)據(jù)核沖突狀態(tài)下極易造成邏輯次序混亂,運(yùn)算力降低甚至出現(xiàn)計(jì)算錯誤的嚴(yán)重問題。通過對現(xiàn)有架構(gòu)內(nèi)部的分布式計(jì)算邏輯的分析發(fā)現(xiàn),雙次序化整編邏輯序列能夠有效解決現(xiàn)有的云端計(jì)算架構(gòu)邏輯存在的問題。為此,提出的云計(jì)算Hadoop平臺的異常數(shù)據(jù)檢測算法研究方法中采用算法邏輯補(bǔ)償模組對云端計(jì)算架構(gòu)內(nèi)部的邏輯錯誤進(jìn)行修正。
算法邏輯補(bǔ)償模組通過分布式計(jì)算方式,利用邏輯序列替換方式,通過內(nèi)部的NDS數(shù)據(jù)序列異常檢測算法、NWI邏輯特征定位算法與BUD邏輯補(bǔ)償算法對云端計(jì)算架構(gòu)內(nèi)部邏輯架構(gòu)進(jìn)行異常數(shù)據(jù)檢測。同時(shí),通過邏輯補(bǔ)償達(dá)到保證云端計(jì)算力與計(jì)算準(zhǔn)確性的的目的。
1.2.1 NDS數(shù)據(jù)序列異常檢測算法
NDS數(shù)據(jù)序列異常檢測算法是算法邏輯補(bǔ)償模組中的初級檢測性算法,基于JNS數(shù)據(jù)采集篩查模組運(yùn)算處理架構(gòu)設(shè)計(jì)。用于云端計(jì)算架構(gòu)內(nèi)部邏輯架構(gòu)中的錯誤查源處理,由JNS數(shù)據(jù)采集篩查模組反饋數(shù)據(jù)表觸發(fā)激活,對云端架構(gòu)中的邏輯架構(gòu)序列正確性進(jìn)行次序集運(yùn)算,當(dāng)邏輯架構(gòu)中某一次序陣攜帶的數(shù)據(jù)源為異常數(shù)據(jù)時(shí),邏輯架構(gòu)的排列次序會受到影響而改變原始邏輯排列次序,致使邏輯序陣錯位,NDS數(shù)據(jù)序列異常檢測算法能夠快速識別錯誤序陣,精準(zhǔn)回查定位異常數(shù)據(jù)進(jìn)行鎖定,完成異常查源處理。
NDS數(shù)據(jù)序列異常檢測算法關(guān)系表達(dá)式采用Hadoop平臺內(nèi)核架構(gòu)進(jìn)行編寫,保證算法對平臺的兼容性,同時(shí),便于算法運(yùn)行過程中獲得所需運(yùn)行權(quán)限,算法關(guān)系式如下所示。
(5)
NDS數(shù)據(jù)序列異常檢測算法關(guān)系表達(dá)中,a,b,c,d為云端架構(gòu)中的邏輯架構(gòu)內(nèi)部次序陣,其排列順序由邏輯架構(gòu)決定,受對應(yīng)數(shù)據(jù)性質(zhì)影響,且滿足a≠b≠c≠d;當(dāng)a,b,c,d中任意一值為0時(shí),則代表邏輯架構(gòu)出現(xiàn)斷裂,云計(jì)算準(zhǔn)確性失常;n為回查定位的異常數(shù)據(jù)代碼值,n為任意數(shù)值,當(dāng)n=0時(shí),代表邏輯架構(gòu)次序無異常。
對NDS數(shù)據(jù)序列異常檢測算法可行性進(jìn)行仿真測試,采用連續(xù)性異常檢測驗(yàn)證方式,對傳統(tǒng)算法與NDS數(shù)據(jù)序列異常檢測算法的異常數(shù)據(jù)定位性能進(jìn)行對比,為了直觀展現(xiàn)測試結(jié)構(gòu),測試將結(jié)果轉(zhuǎn)換為曲線圖進(jìn)行對比,具體數(shù)據(jù)如圖1所示。
圖1 傳統(tǒng)算法與NDS數(shù)據(jù)序列異常檢測算法的異常數(shù)據(jù)定位性能進(jìn)行對比
通過上述測試結(jié)果曲線對比可以充分證明,NDS數(shù)據(jù)序列異常檢測算法具有良好異常序列識別能力,同時(shí),能夠快速準(zhǔn)確的追蹤定位異常數(shù)據(jù)源,并對其定位,滿足設(shè)計(jì)改進(jìn)要求,具有可行性、可操作性。
1.2.2 NWI邏輯特征定位算法
NWI邏輯特征定位算法為NDS數(shù)據(jù)序列異常檢測算法的定位輔助算法,用于對異常序列進(jìn)行特征化分析運(yùn)算,輔助定位異常數(shù)據(jù)源路徑。通過算法對等性原則,利用分布式運(yùn)算框架設(shè)計(jì)編寫,列于NDS數(shù)據(jù)序列異常檢測算法內(nèi)核的二級菜單,通過算法邏輯自行觸發(fā)調(diào)用。NWI邏輯特征定位算法不具備獨(dú)立運(yùn)行能力,通過對其進(jìn)行二級權(quán)限設(shè)定,使其安全性大大提升,避免運(yùn)行過程中受到?jīng)_擊數(shù)據(jù)與錯誤邏輯影響,導(dǎo)致的異常數(shù)據(jù)定位執(zhí)行異常的問題。NWI邏輯特征定位算法的執(zhí)行權(quán)限可直接通過NDS數(shù)據(jù)序列異常檢測算法獲取權(quán)限下放方式獲得,提升權(quán)限獲取的穩(wěn)定性。
NWI邏輯特征定位算法根據(jù)算法對等性原則,采用觸發(fā)式形式,達(dá)到與NDS數(shù)據(jù)序列異常檢測算法內(nèi)核執(zhí)行性的統(tǒng)一,具體關(guān)系式如下所示。
(6)
NWI邏輯特征定位算法關(guān)系式中,x為異常邏輯架構(gòu)內(nèi)部的錯誤序列集合;a,b,c,d為云端架構(gòu)中的邏輯架構(gòu)內(nèi)部次序陣,其排列順序由邏輯架構(gòu)決定,受對應(yīng)數(shù)據(jù)性質(zhì)影響,且滿足a≠b≠c≠d,a?b?c?d∈x;當(dāng)a,b,c,d中任意一值為0時(shí),則代表邏輯架構(gòu)出現(xiàn)斷裂,云計(jì)算準(zhǔn)確性失常;n為回查定位的異常數(shù)據(jù)代碼值,n為任意數(shù)值,且滿足x?n,當(dāng)n=0時(shí),代表邏輯架構(gòu)次序無異常。
對NWI邏輯特征定位算法進(jìn)行異常數(shù)據(jù)回查定位準(zhǔn)確性仿真測試,測試采用15組異常邏輯架構(gòu)進(jìn)行測試,每組異常邏輯對應(yīng)異常數(shù)據(jù)數(shù)量為1 000 000 kb,對比傳統(tǒng)算法與NWI邏輯特征定位算法15組測試數(shù)據(jù)的準(zhǔn)確率,具體測試參數(shù)如下表所示。
表3 傳統(tǒng)算法與NWI邏輯特征定位算法異常數(shù)據(jù)回查定位準(zhǔn)確性測試
通過上述表3數(shù)據(jù)可以證明NWI邏輯特征定位算法具有良好的異常數(shù)據(jù)定位能力,異常數(shù)據(jù)運(yùn)算分析處理準(zhǔn)確性高、穩(wěn)定性好,整體性能明顯優(yōu)于傳統(tǒng)算法,滿足設(shè)計(jì)要求。
1.2.3 BUD邏輯補(bǔ)償算法
算法邏輯補(bǔ)償模組中針對云計(jì)算架構(gòu)內(nèi)部邏輯架構(gòu)在異常數(shù)據(jù)沖擊下產(chǎn)生的邏輯架構(gòu)斷裂,致使云計(jì)算架構(gòu)運(yùn)算力降低以及癱瘓的問題,采用BUD邏輯補(bǔ)償算法進(jìn)行針對性解決。BUD邏輯補(bǔ)償算法可對遭到破壞的邏輯架構(gòu)進(jìn)行斷裂邏輯鏈補(bǔ)償處理,通過對邏輯架構(gòu)內(nèi)的次序陣的特征進(jìn)行運(yùn)算處理,還原斷裂邏輯鏈位置的次序陣,達(dá)到抑制異常數(shù)據(jù)沖擊造成的運(yùn)算邏輯混亂問題。
為了達(dá)到實(shí)時(shí)瞬態(tài)補(bǔ)償效果,BUD邏輯補(bǔ)償算法采用觸發(fā)式關(guān)聯(lián)補(bǔ)償式的雙重關(guān)系式的方式進(jìn)行編寫。觸發(fā)式作為引導(dǎo)主體與NWI邏輯特征定位算法進(jìn)行內(nèi)部進(jìn)程注入綁定,到達(dá)異常數(shù)據(jù)定位的同時(shí),完成邏輯斷裂位置的補(bǔ)償引導(dǎo)運(yùn)算處理,第一時(shí)間抵消數(shù)據(jù)滯留帶來的問題。BUD邏輯補(bǔ)償算法觸發(fā)式關(guān)系式如下所示。
(7)
BUD邏輯補(bǔ)償算法觸發(fā)式關(guān)系式中,a′,b′,c′,d′為云計(jì)算架構(gòu)內(nèi)部邏輯架構(gòu)斷裂位置的次序陣,其滿足以下條件,a′≠b′≠c′≠d′,a′?b′?c′?d′,當(dāng)a′,b′,c′,d′中任意一值為0時(shí),則代表邏輯架構(gòu)完整,無異常數(shù)據(jù)出現(xiàn);關(guān)系式中n為引導(dǎo)次序陣特征補(bǔ)償集合;T為觸發(fā)激活系數(shù)值。
BUD邏輯補(bǔ)償算法補(bǔ)償式關(guān)系式如下所示。
(8)
BUD邏輯補(bǔ)償算法補(bǔ)償式關(guān)系式中,a,b,c,d為云端架構(gòu)中的邏輯架構(gòu)內(nèi)部所需補(bǔ)償次序陣,其補(bǔ)償順序由異常數(shù)據(jù)對應(yīng)邏輯順序決定,受對應(yīng)數(shù)據(jù)性質(zhì)影響,且滿足a≠b≠c≠d。
對BUD邏輯補(bǔ)償算法進(jìn)行仿真實(shí)驗(yàn)測試,測試采用對比方式,通過對傳統(tǒng)算法與BUD邏輯補(bǔ)償算法在異常數(shù)據(jù)檢測過程中的邏輯補(bǔ)償效果進(jìn)行對比,具體仿真實(shí)驗(yàn)測試參數(shù)如表4所示。
表4 傳統(tǒng)算法與BUD邏輯補(bǔ)償算法異常數(shù)據(jù)檢測過程中邏輯補(bǔ)償效果測試參數(shù)
通過上述表4結(jié)果對比可以證明,BUD邏輯補(bǔ)償算法在異常數(shù)據(jù)檢測過程中,針對云計(jì)算架構(gòu)內(nèi)部邏輯架構(gòu)斷裂的補(bǔ)償處理,具有響應(yīng)時(shí)間快、處理迅速、補(bǔ)償準(zhǔn)確性高、穩(wěn)定性好的特點(diǎn),滿足設(shè)計(jì)要求。至此,算法邏輯補(bǔ)償模組構(gòu)建完畢。
1.3 動態(tài)反饋模組構(gòu)建
針對傳統(tǒng)云計(jì)算Hadoop平臺存在的異常數(shù)據(jù)檢測完成度與準(zhǔn)確度不高的問題,通過對傳統(tǒng)云計(jì)算Hadoop平臺內(nèi)部架構(gòu)邏輯機(jī)制分析發(fā)現(xiàn),傳統(tǒng)云計(jì)算Hadoop平臺對異常數(shù)據(jù)檢測機(jī)制缺少計(jì)算異常核準(zhǔn)模組,致使處于隱性異常數(shù)據(jù)逃避檢測,導(dǎo)致最終計(jì)算數(shù)據(jù)處理誤差,云計(jì)算Hadoop平臺的整體計(jì)算準(zhǔn)確率驟降。
針對上述問題,提出的云計(jì)算Hadoop平臺的異常數(shù)據(jù)檢測算法研究方法中采用動態(tài)反饋模組進(jìn)行針對性解決。動態(tài)反饋模組由DGX動態(tài)檢測算法與GRS數(shù)據(jù)反饋算法構(gòu)成,分別負(fù)責(zé)云計(jì)算Hadoop平臺計(jì)算數(shù)據(jù)結(jié)果數(shù)據(jù)狀態(tài)與異常結(jié)果數(shù)據(jù)的反饋處理。
DGX動態(tài)檢測算法與云計(jì)算Hadoop平臺計(jì)算輸出進(jìn)程進(jìn)行綁定,與云計(jì)算Hadoop平臺共享運(yùn)行權(quán)限的同時(shí)有效節(jié)省平臺運(yùn)行的資源開銷。DGX動態(tài)檢測算法關(guān)系式如下所示。
(9)
式中,x,y,z為云計(jì)算結(jié)果數(shù)據(jù)序列結(jié)合組數(shù);n,i分別為異常數(shù)據(jù)數(shù)量與異常數(shù)據(jù)特征數(shù);其中,x,y,z與n,i滿足x≠y≠z,i∈n,n≠i。
GRS數(shù)據(jù)反饋算法關(guān)系式如下所示。
(10)
至此動態(tài)反饋模組構(gòu)建完畢,為了保證動態(tài)反饋模組具有可行性,對其進(jìn)行仿真模擬測試。測試采用全天候24小時(shí)連續(xù)性測試方案,提取每小時(shí)的測試數(shù)據(jù),觀察數(shù)據(jù)變化趨勢,以此得出動態(tài)反饋模組運(yùn)行穩(wěn)定性與可行性,具體測試參數(shù)如下所示。
表5 動態(tài)反饋模組性能測試
通過上述表5可以看出,動態(tài)反饋模組在連續(xù)性測試中數(shù)據(jù)變化浮動小,充分證明提出的云計(jì)算Hadoop平臺的異常數(shù)據(jù)檢測算法研究方法中,采用的動態(tài)反饋模組具有良好的異常數(shù)據(jù)檢測能力,同時(shí)運(yùn)行資源開銷小,穩(wěn)定性好,滿足設(shè)計(jì)要求。
對提出的云計(jì)算Hadoop平臺的異常數(shù)據(jù)檢測算法研究方法進(jìn)行仿真實(shí)驗(yàn)測試,通過與傳統(tǒng)云計(jì)算平臺異常數(shù)據(jù)檢測算法進(jìn)行整體性能對比,得出測試結(jié)論,測試平臺配置為Windows 10 硬件配置為CPU i7 內(nèi)存8 G 硬盤6 TB,具體測試參數(shù)如下所示。
表6 云計(jì)算Hadoop平臺的異常數(shù)據(jù)檢測算法與傳統(tǒng)異常數(shù)據(jù)檢測算法對比測試
分析該實(shí)驗(yàn)結(jié)果,即通過上述表6可以充分證明,提出的云計(jì)算Hadoop平臺的異常數(shù)據(jù)檢測算法研究方法,具有異常數(shù)據(jù)檢測識別度高、檢測響應(yīng)時(shí)間短、檢測準(zhǔn)確率高、穩(wěn)定性好、資源開銷小的特點(diǎn)。從問題產(chǎn)生根源徹底解決傳統(tǒng)云計(jì)算平臺存在的數(shù)據(jù)邏輯錯誤、數(shù)據(jù)鏈完整性缺失、數(shù)據(jù)失效導(dǎo)致的云計(jì)算Hadoop平臺數(shù)據(jù)運(yùn)算準(zhǔn)確性與運(yùn)算力降低的問題。
針對傳統(tǒng)云計(jì)算平臺異常數(shù)據(jù)檢測算法在海量數(shù)據(jù)異常涌入狀態(tài)下,出現(xiàn)數(shù)據(jù)邏輯錯誤、數(shù)據(jù)鏈完整性缺失、數(shù)據(jù)失效的問題,提出云計(jì)算Hadoop平臺的異常數(shù)據(jù)檢測算法研究方法。通過采用JNS數(shù)據(jù)采集篩查模組、算法邏輯補(bǔ)償模組與動態(tài)反饋模組對現(xiàn)有的云端計(jì)算平臺存在的問題進(jìn)行針對性解決。通過仿真模擬實(shí)驗(yàn)證明,提出的云計(jì)算Hadoop平臺的異常數(shù)據(jù)檢測算法研究方法,具有異常數(shù)據(jù)識別率高,準(zhǔn)確性高,速度快、可實(shí)施性強(qiáng)、穩(wěn)定性好的特點(diǎn),滿足日常工作處理要求。
[1]李進(jìn)文.基于云計(jì)算的網(wǎng)絡(luò)異常檢測算法研究[D].鄭州:鄭州大學(xué),2015.
[2]司福明,卜天然,SIFuming,等.一種基于Hadoop云計(jì)算平臺大數(shù)據(jù)聚類算法設(shè)計(jì)[J].楚雄師范學(xué)院學(xué)報(bào),2016,31(3):9-12.
[3]肖體偉.基于Hadoop的云端異常流量檢測與分析平臺[J].電子技術(shù)應(yīng)用,2015,41(5):116-118.
[4]楊 靜.大型云計(jì)算信息系統(tǒng)的異常數(shù)據(jù)檢測模型仿真[J].計(jì)算機(jī)仿真,2015,32(11):378-381.
[5]于紅巖,岑凱倫,楊騰霄.云計(jì)算平臺異常行為檢測系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用,2015,35(5):1284-1289.
[6]馬 超,程 力,孔玲玲.云環(huán)境下SDN的流量異常檢測性能分析[J].計(jì)算機(jī)與現(xiàn)代化,2015,10(10):92-97.
[7]何高攀,楊 桄,孟強(qiáng)強(qiáng),等.基于圖像融合的高光譜異常檢測[J].電子設(shè)計(jì)工程,2016,24(2):165-168.
Cloud Computing Hadoop Platform of Abnormal Data Detection Algorithm Research
Huang Fuping,Liang Zhuolang,Xing Yingjun,Yang Chunli
(Guangzhou Pearl River Vocational College of Technology, Information Technology Academy, Guangzhou 511300,China)
In recent years, with the rapid development of Internet technology in our country development of further research and large-scale network computing platform, YunPing audience data processing, has become the main way of massive data. However, the existing cloud computing platform in abnormal huge amounts of data into state, often appear logical error, loss of data link integrity, data, solve the problem of a can to effectively detect the abnormal data processing, seriously affect the accuracy of cloud computing platform data operation. According to the above problem, a Hadoop cloud computing platform of abnormal data detection algorithm research methods. By screening JNS data collection module, the algorithm logic compensation module and dynamic feedback module to the existing problems of cloud computing platform, targeted to solve. Through the simulation experiment proves that the Hadoop cloud computing platform of abnormal data detection algorithm research method, has high recognition rate anomaly data, high accuracy, fast speed, strong practical, good stability characteristics.
cloud computing; big data; abnormal data; hadoop platform
2017-03-28;
2017-05-05。
2014年度廣東省廣東教育教學(xué)成果獎(高等教育)培育項(xiàng)目。
黃富平(1982-),男,廣西貴港人,講師,主要從事云計(jì)算與大數(shù)據(jù)算法方向的研究。
1671-4598(2017)07-0260-04
10.16526/j.cnki.11-4762/tp.2017.07.065
TP301
A