陳韓霏 張艷紅 張睿喆 江瓊宜 胡雅月
關(guān)鍵詞:數(shù)據(jù)治理;回歸分析;電網(wǎng);認(rèn)責(zé)體系
1引言
數(shù)據(jù)認(rèn)責(zé)是數(shù)據(jù)治理的重要指標(biāo),能夠明確數(shù)據(jù)清洗、重復(fù)數(shù)據(jù)剔除等標(biāo)準(zhǔn)化處理中的責(zé)任認(rèn)定問題[1],提高數(shù)據(jù)治理的可信度、安全性,便于后期的數(shù)據(jù)尋蹤、追責(zé)。但是,數(shù)據(jù)傳輸協(xié)議混亂[2]、端口兼容性差等問題,嚴(yán)重影響數(shù)據(jù)認(rèn)責(zé)問題的研究。目前,數(shù)據(jù)認(rèn)責(zé)主要采用人工數(shù)據(jù)認(rèn)責(zé)方法[3],借助數(shù)據(jù)管理系統(tǒng)進(jìn)行認(rèn)責(zé)分析。該方式存在認(rèn)責(zé)片面、數(shù)據(jù)標(biāo)注不明等弊端,消耗大量的人力和物力,而且最終的認(rèn)責(zé)效果不佳?;诖?,本文利用回歸分析方法對電網(wǎng)中的數(shù)據(jù)認(rèn)責(zé)問題進(jìn)行分析,旨在實(shí)現(xiàn)電網(wǎng)數(shù)據(jù)的認(rèn)責(zé)體系優(yōu)化。
2回歸分析方法
回歸分析方法是基于統(tǒng)計(jì)學(xué)的智能分析方法,該方法通過尋找部分關(guān)鍵點(diǎn),實(shí)現(xiàn)對數(shù)據(jù)認(rèn)責(zé)體系的分析,并依據(jù)回歸結(jié)果得到認(rèn)責(zé)的問題[4]。一旦回歸結(jié)果中出現(xiàn)異常系數(shù),則要對該數(shù)據(jù)認(rèn)責(zé)方案進(jìn)行數(shù)據(jù)挖掘,找到出現(xiàn)數(shù)據(jù)認(rèn)責(zé)問題的原因,并給予優(yōu)化,具體分析如下。
認(rèn)責(zé)方案的數(shù)學(xué)描述:隨機(jī)選擇數(shù)據(jù)認(rèn)責(zé)方案[5],并將其設(shè)置為ai,數(shù)據(jù)治理結(jié)果為xi,標(biāo)準(zhǔn)化程度為,數(shù)據(jù)認(rèn)責(zé)的權(quán)重為wi,標(biāo)準(zhǔn)化處理后的方案集合為set{o},治理數(shù)據(jù)結(jié)構(gòu)為ci。那么,set{o}的計(jì)算過程為:
在數(shù)據(jù)認(rèn)責(zé)過程中,要依據(jù)主觀評定系數(shù)調(diào)整權(quán)重、閾值。依據(jù)回歸分析方法,要對不同階段的數(shù)據(jù)認(rèn)責(zé)結(jié)果進(jìn)行分析,并形成連續(xù)的認(rèn)責(zé)體現(xiàn)[7],有效地記錄數(shù)據(jù)認(rèn)責(zé)的處理情況。
3回歸分析法在數(shù)據(jù)認(rèn)責(zé)中的實(shí)施步驟
數(shù)據(jù)認(rèn)責(zé)的關(guān)鍵是完整性、準(zhǔn)確性和可追溯性,需要對數(shù)據(jù)治理方案進(jìn)行抽樣調(diào)查,包括數(shù)據(jù)標(biāo)準(zhǔn)化處理程度、數(shù)據(jù)治理時(shí)間[8],數(shù)據(jù)治理安全性、數(shù)據(jù)完整性,以及數(shù)據(jù)兼容性。另外,依據(jù)回歸分析方法對數(shù)據(jù)認(rèn)責(zé)中的異常值進(jìn)行識別,并對不同時(shí)刻的異常值進(jìn)行深入挖掘,找出數(shù)據(jù)認(rèn)責(zé)問題的原因。同時(shí),對不同數(shù)據(jù)標(biāo)準(zhǔn)化處理方案的重復(fù)性,數(shù)據(jù)清洗的干凈程度,重復(fù)數(shù)據(jù)剔除量進(jìn)行回歸判斷,具體步驟如下。
步驟1收集電網(wǎng)后臺服務(wù)器中潮流、電壓、電能、功率的數(shù)據(jù),確定數(shù)據(jù)治理的標(biāo)準(zhǔn)、指標(biāo)和權(quán)重,并對標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行回歸分析,找出影響數(shù)據(jù)認(rèn)責(zé)的問題。
步驟2依據(jù)數(shù)據(jù)認(rèn)責(zé)的問題進(jìn)行剖析,并對不同的問題進(jìn)行深入挖掘,最終確定異常值的原因。
步驟3將主觀認(rèn)責(zé)結(jié)果與理論認(rèn)責(zé)結(jié)果進(jìn)行對比,驗(yàn)證結(jié)果的準(zhǔn)確性,并記錄理論認(rèn)責(zé)的時(shí)間[9]。
步驟4對所有標(biāo)準(zhǔn)化處理后的數(shù)據(jù)進(jìn)行分析,并確定數(shù)據(jù)認(rèn)責(zé)情況,若標(biāo)準(zhǔn)化數(shù)據(jù)全部處理完成,則停止認(rèn)責(zé)分析,否則持續(xù)進(jìn)行數(shù)據(jù)認(rèn)責(zé),并輸出最終的認(rèn)責(zé)結(jié)果[10]。
4數(shù)據(jù)標(biāo)準(zhǔn)化建設(shè)中數(shù)據(jù)認(rèn)責(zé)的實(shí)際案例
為了驗(yàn)證回歸分析方法對數(shù)據(jù)認(rèn)責(zé)的優(yōu)化效果,以電網(wǎng)服務(wù)器中的1GB數(shù)據(jù)進(jìn)行數(shù)據(jù)認(rèn)責(zé)分析,調(diào)取數(shù)據(jù)的參數(shù)如表1所列。
依據(jù)表1中的數(shù)據(jù)類型、涉及內(nèi)容、治理時(shí)間、標(biāo)準(zhǔn)化深度等參數(shù)之間無顯著差異,不具有相關(guān)性,可以作為回歸分析方法的基礎(chǔ)數(shù)據(jù),能進(jìn)行數(shù)據(jù)認(rèn)責(zé)分析。其中,權(quán)重為0.25~0.34,閾值為各部門內(nèi)部規(guī)定。
4.1數(shù)據(jù)認(rèn)責(zé)的準(zhǔn)確性
在數(shù)據(jù)認(rèn)責(zé)中治理中,要對不同數(shù)據(jù)標(biāo)準(zhǔn)化的數(shù)據(jù)進(jìn)行分析,驗(yàn)證完整度、安全性和可信度的準(zhǔn)確性,具體結(jié)果如表2所列。
由表2可知,回歸分析方法對數(shù)據(jù)認(rèn)責(zé)的分析穩(wěn)定性、準(zhǔn)確性均大于80%,不同階段的同指標(biāo)比較無顯著差異,不具有統(tǒng)計(jì)學(xué)意義。同時(shí),完整度、安全性、可信度之間出現(xiàn)大幅變化,但不同階段的同指標(biāo)變化幅度小,主要是不同指標(biāo)的標(biāo)準(zhǔn)化處理?xiàng)l件不同,數(shù)據(jù)治理復(fù)雜度不同所致。為了進(jìn)一步分析原因,將回歸分析法與人工數(shù)據(jù)認(rèn)責(zé)法進(jìn)行比較,結(jié)果如圖1所示。
由圖1可知,在參考線的輔助下可以發(fā)現(xiàn),回歸分析方法的88%~90%的數(shù)據(jù)點(diǎn)多于人工認(rèn)責(zé)法,而85%~88%之間的數(shù)據(jù)點(diǎn)少于人工認(rèn)責(zé)法。整體來說,回歸分析法優(yōu)于人工認(rèn)責(zé)法,究其原因,回歸分析方法對重復(fù)數(shù)據(jù)進(jìn)行刪除,注重安全性、完整性等指標(biāo)的綜合分析,而且加入了權(quán)重、閾值,標(biāo)準(zhǔn)化后的數(shù)據(jù)復(fù)雜度小于人工數(shù)據(jù)認(rèn)責(zé)法。
4.2數(shù)據(jù)認(rèn)責(zé)的處理時(shí)間
處理日寸間是數(shù)據(jù)認(rèn)責(zé)的輔助指標(biāo),是系統(tǒng)資源占用、數(shù)據(jù)處理能力的間接體現(xiàn),更是回歸算法有效性的評價(jià)內(nèi)容。將回歸分析算法與人工數(shù)據(jù)認(rèn)責(zé)法進(jìn)行分析,對比不同方法的計(jì)算時(shí)間,具體結(jié)果如表3所列。
由表3可知,在標(biāo)準(zhǔn)化處理中,回歸分析方法同指標(biāo)的不同次數(shù)比較無顯著差異,說明該方法的處理時(shí)間比較穩(wěn)定,而人工認(rèn)責(zé)法存在顯著差異。在數(shù)據(jù)比例方面,回歸分析方法同指標(biāo)的不同次數(shù)比較存在差異,但是成倍數(shù)變化,而人工認(rèn)責(zé)法呈現(xiàn)指數(shù)化變化。在不同方法方面,回歸分析法的標(biāo)準(zhǔn)化處理、數(shù)據(jù)比例均優(yōu)于人工認(rèn)責(zé)法,存在顯著差異。究其原因,回歸分析方法以少量特征認(rèn)責(zé)數(shù)據(jù)為基礎(chǔ),對標(biāo)準(zhǔn)化后的數(shù)據(jù)復(fù)雜度進(jìn)行簡化,剔除重復(fù)數(shù)據(jù)量。同時(shí),通過調(diào)整相應(yīng)的閾值和權(quán)重,以優(yōu)化數(shù)據(jù)認(rèn)責(zé)過程,實(shí)現(xiàn)安全性、可信度的高效處理。相對來說,人工評估方法的處理過程簡單,人工認(rèn)責(zé)無法降低復(fù)雜度,而且剔除重復(fù)數(shù)據(jù)量的時(shí)間更長。
5結(jié)束語
針對數(shù)據(jù)標(biāo)準(zhǔn)化處理過程中數(shù)據(jù)認(rèn)責(zé)不清、時(shí)間過長的問題,本文提出一種回歸分析方法,對標(biāo)準(zhǔn)化處理后的數(shù)據(jù)進(jìn)行剔除、簡化。研究結(jié)果顯示,回歸分析方法的可信度、安全性和完整性的準(zhǔn)確性大于80%,1~2次標(biāo)準(zhǔn)化處理的數(shù)據(jù)間無差異,50%~100%的數(shù)據(jù)量之間存在倍數(shù)增加,各項(xiàng)指標(biāo)均優(yōu)于人工數(shù)據(jù)認(rèn)責(zé)法。而且,回歸分析方法的計(jì)算時(shí)間更短,計(jì)算效果更佳,可以滿足數(shù)據(jù)治理中的標(biāo)準(zhǔn)化分析要求。