廖嘉煒,吳永歡,杜舒明,鄒時(shí)容,徐炫東
(廣州供電局有限公司,廣東 廣州 510620)
數(shù)據(jù)資產(chǎn)管理的數(shù)據(jù)對(duì)象存在規(guī)模大、來(lái)源多樣、格式繁雜、采集實(shí)時(shí)等特征,尤其是數(shù)據(jù)的大量遞增,以及格式的多樣化,給數(shù)據(jù)資產(chǎn)管理帶來(lái)了嚴(yán)峻的挑戰(zhàn)。對(duì)數(shù)據(jù)資產(chǎn)進(jìn)行管理能夠?yàn)槠髽I(yè)的發(fā)展管理、控制與科學(xué)決策提供有力的數(shù)據(jù)支撐[1-4]。但不是所有的數(shù)據(jù)都可以稱之為數(shù)據(jù)資產(chǎn),只有達(dá)到一定可信度的數(shù)據(jù)才能成為數(shù)據(jù)資產(chǎn)。由此可見,數(shù)據(jù)可信度是判斷數(shù)據(jù)是否為數(shù)據(jù)資產(chǎn)的重要依據(jù)之一[5-7]。因此,對(duì)數(shù)據(jù)可信度進(jìn)行評(píng)估是數(shù)據(jù)資產(chǎn)管理的重要組成部分。在此基礎(chǔ)上,設(shè)計(jì)數(shù)據(jù)可信度評(píng)估模型,通過(guò)模型計(jì)算來(lái)量化評(píng)估數(shù)據(jù)可信度,能夠有助于數(shù)據(jù)資產(chǎn)的管理。
目前,在數(shù)據(jù)可信度評(píng)估領(lǐng)域,已有一些相對(duì)成熟的方法,如文獻(xiàn)[8]提出了基于D-S理論的多源數(shù)據(jù)可信度評(píng)估模型,文獻(xiàn)[9]提出了基于聚類云模型的小樣本數(shù)據(jù)可信度評(píng)估模型。然而,由于傳統(tǒng)的評(píng)估模型過(guò)程較為復(fù)雜,導(dǎo)致分類適應(yīng)性較差,且數(shù)據(jù)的查全性較差,難以適應(yīng)目前數(shù)據(jù)資產(chǎn)管理中對(duì)無(wú)形數(shù)據(jù)的可信度評(píng)估,評(píng)估局限性較大。
指數(shù)分層結(jié)構(gòu)算法是基于拓?fù)浣Y(jié)構(gòu),對(duì)亞超度量空間和指數(shù)分層結(jié)構(gòu)樹進(jìn)行優(yōu)化后生成的一種算法,具有較好的分類能力和較強(qiáng)的適應(yīng)性,且計(jì)算過(guò)程清晰,便于在數(shù)據(jù)可信度評(píng)估的過(guò)程中及時(shí)回溯查找[10-12]。
綜上所述,為提高數(shù)據(jù)可信度評(píng)估質(zhì)量及數(shù)據(jù)資產(chǎn)管理效果,本文引入指數(shù)分層結(jié)構(gòu)算法,設(shè)計(jì)了一種新的數(shù)據(jù)可信度評(píng)估模型。首先建立數(shù)據(jù)可信度評(píng)估指標(biāo)體系;然后補(bǔ)充待評(píng)估數(shù)據(jù)集中的缺漏數(shù)據(jù),通過(guò)歸一化處理數(shù)據(jù)形成數(shù)據(jù)集合,并根據(jù)數(shù)據(jù)間的相關(guān)系數(shù)建立亞超度量空間和指數(shù)分層結(jié)構(gòu)樹,完成數(shù)據(jù)處理;最后基于層次分析評(píng)估數(shù)據(jù)可信度評(píng)估模型。實(shí)驗(yàn)結(jié)果表明,上述評(píng)估過(guò)程具有更強(qiáng)的分類適應(yīng)性和數(shù)據(jù)查全能力。
在數(shù)據(jù)資產(chǎn)管理中,對(duì)數(shù)據(jù)的可信度進(jìn)行準(zhǔn)確評(píng)估時(shí)需建立可信度評(píng)估指標(biāo)體系。本文選取的數(shù)據(jù)具有一般性,能夠應(yīng)用在常見的數(shù)據(jù)資產(chǎn)管理中。根據(jù)實(shí)際的數(shù)據(jù)資產(chǎn)類型,通??煽偨Y(jié)出7個(gè)一級(jí)可信度評(píng)估指標(biāo)以及12個(gè)二級(jí)可信度評(píng)估指標(biāo),可建立如表1所示的數(shù)據(jù)可信度評(píng)估指標(biāo)體系。
表1 數(shù)據(jù)可信度評(píng)估指標(biāo)體系
在建立如表1所示的數(shù)據(jù)可信度評(píng)價(jià)指標(biāo)體系后,為方便數(shù)據(jù)可信度評(píng)估模型的運(yùn)行,需對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,再應(yīng)用指數(shù)分層結(jié)構(gòu)算法對(duì)數(shù)據(jù)可信度進(jìn)行評(píng)估和判斷。
為避免因數(shù)據(jù)存在缺漏、重復(fù)等情況而對(duì)數(shù)據(jù)可信度評(píng)估過(guò)程造成影響,降低數(shù)據(jù)評(píng)估精度,需在評(píng)估前對(duì)數(shù)據(jù)進(jìn)行一定的預(yù)處理。
對(duì)于待評(píng)估數(shù)據(jù)中存在缺漏的情況,采用如下方式進(jìn)行數(shù)據(jù)缺漏填補(bǔ):對(duì)于數(shù)據(jù)間存在的具有一定周期性關(guān)系的缺漏數(shù)據(jù),可以利用相同時(shí)間段的同類型數(shù)據(jù)近似補(bǔ)充;若缺漏數(shù)據(jù)的前后數(shù)據(jù)鏈均完整,可以計(jì)算與缺漏數(shù)據(jù)相近數(shù)據(jù)的算術(shù)平均值作為缺漏數(shù)據(jù)的替代值;若缺漏數(shù)據(jù)的前后數(shù)據(jù)鏈不完整,選取與其同周期相鄰數(shù)據(jù)的近似值作為缺漏數(shù)據(jù)的替代值[13];將待評(píng)估的數(shù)據(jù)中的缺漏數(shù)據(jù)補(bǔ)充完畢后,使用聚類算法對(duì)待評(píng)估數(shù)據(jù)按照類型進(jìn)行聚類,即采用聚類算法對(duì)重復(fù)、混亂的數(shù)據(jù)重新分簇[14-17]。
從所有待評(píng)估數(shù)據(jù)中選取n個(gè)不同類型的數(shù)據(jù)作為聚類算法的聚類中心,分別計(jì)算其他待評(píng)估數(shù)據(jù)與聚類中心數(shù)據(jù)的相似值,通過(guò)相似值衡量待評(píng)估數(shù)據(jù)是否與聚類中心數(shù)據(jù)為同一數(shù)據(jù)類型。相似度度量數(shù)值越小,說(shuō)明2種數(shù)據(jù)越相似。相似度計(jì)算過(guò)程如下:
(1)
其中,sim(x,y)為相似度度量,x為聚類中心數(shù)據(jù),y為待聚類數(shù)據(jù),‖x‖是聚類中心數(shù)據(jù)的模,‖y‖為待聚類數(shù)據(jù)的模。將數(shù)據(jù)分配至與其相似度最高的聚類中心所在簇中,完成數(shù)據(jù)聚類[18]。在完成對(duì)所有待評(píng)估數(shù)據(jù)的聚類分簇后,對(duì)聚類中心進(jìn)行迭代處理,即在聚類簇中重新選取聚類中心,再次計(jì)算簇中數(shù)據(jù)與新選取的聚類中心的相似度,重新進(jìn)行分簇[19-20]。反復(fù)上述過(guò)程,直至不再出現(xiàn)新的分類簇。采用聚類算法對(duì)待評(píng)估數(shù)據(jù)進(jìn)行聚類的流程如圖1所示。
若待評(píng)估數(shù)據(jù)的類型為隨機(jī)數(shù)據(jù)時(shí),需剔除隨機(jī)型數(shù)據(jù)的奇異值。假設(shè)隨機(jī)數(shù)據(jù)的誤差為σ,若隨機(jī)數(shù)據(jù)滿足下式關(guān)系,則可判定該隨機(jī)數(shù)據(jù)為非奇異值[21]:
-3σy3σ
(2)
當(dāng)待評(píng)估數(shù)據(jù)的類型為周期性數(shù)據(jù)時(shí),需對(duì)周期性數(shù)據(jù)做平均滑動(dòng)濾波處理。假設(shè)周期數(shù)據(jù)的長(zhǎng)度為m,平均滑動(dòng)濾波的窗口長(zhǎng)度為l,按照窗口寬度對(duì)待評(píng)估數(shù)據(jù)進(jìn)行采樣,將得到的數(shù)據(jù)存放在整體數(shù)據(jù)隊(duì)列的尾端,剔除原來(lái)隊(duì)首的數(shù)據(jù)。隨著采樣窗口的移動(dòng),得到新的長(zhǎng)度同樣也為m的數(shù)據(jù),完成對(duì)數(shù)據(jù)的平均滑動(dòng)濾波[22]。
圖1 待估數(shù)據(jù)聚類流程圖
由于不同類型數(shù)據(jù)的量綱不同,需對(duì)所有待評(píng)估數(shù)據(jù)做量綱歸一化處理,公式如下:
(3)
式(3)中,Xi′為第i類數(shù)據(jù)Xi經(jīng)過(guò)歸一化處理后的數(shù)據(jù),maxXi為第i類數(shù)據(jù)Xi中的最大值,minXi為第i類數(shù)據(jù)Xi中的最小值。歸一化處理過(guò)程能夠?qū)?shù)據(jù)轉(zhuǎn)換為[0,1]區(qū)間上的數(shù)值,避免了數(shù)據(jù)量綱對(duì)數(shù)據(jù)可信度評(píng)估過(guò)程的影響[23]。
在完成待評(píng)估數(shù)據(jù)的預(yù)處理后,應(yīng)用指數(shù)分層結(jié)構(gòu)算法建立評(píng)估模型。
假設(shè)由所有經(jīng)過(guò)預(yù)處理后的數(shù)據(jù)所組成的數(shù)據(jù)集合為S={X1,X2,…,Xi,…,Xj,…,Xn},則按照下式計(jì)算在某一段時(shí)間內(nèi)待評(píng)估數(shù)據(jù)之間的相關(guān)系數(shù):
(4)
dij2=‖Xik-Xjk‖2
(5)
其中,dij2為2個(gè)分量之間的歐氏距離,且i維向量的分量Xik滿足下式:
(6)
由公式(5)和公式(6)可得到2個(gè)分量之間的超度量距離為:
(7)
定義超度量距離為上述的歐氏距離滿足數(shù)據(jù)評(píng)估的拓?fù)浣Y(jié)構(gòu),即:
(8)
圖2 亞超度量空間生成樹
在亞超度量空間中,生成樹會(huì)與經(jīng)過(guò)預(yù)處理后的無(wú)交叉待評(píng)估數(shù)據(jù)序列相對(duì)應(yīng),生成了指數(shù)分層結(jié)構(gòu)樹,根據(jù)生成的指數(shù)分層結(jié)構(gòu)層次評(píng)估樹,結(jié)合數(shù)據(jù)可信度評(píng)估指標(biāo)體系,可建立數(shù)據(jù)可信度判斷矩陣。根據(jù)評(píng)價(jià)指標(biāo)體系中每一指標(biāo)的權(quán)重系數(shù),完成指標(biāo)的兩兩比較,并按照表2所示,對(duì)指標(biāo)進(jìn)行具體賦值。
表2 可信度賦值表
在亞超度量空間中,根據(jù)可信度矩陣對(duì)待評(píng)估數(shù)據(jù)重新映射處理,即:將待評(píng)估數(shù)據(jù)中可信度較高的數(shù)據(jù)以及與其超度量距離較近的數(shù)據(jù)判定為可信度高;若與可信度較高數(shù)據(jù)的距離較近的數(shù)據(jù)其本身的可信度較低,則不判定該數(shù)據(jù)的可信度。直至所有待評(píng)估數(shù)據(jù)可信度評(píng)估完成后,按照相關(guān)系數(shù),再次判定在可信度閾值內(nèi)的數(shù)據(jù)可信度,輸出待評(píng)估可信度的數(shù)據(jù)結(jié)果。至此,完成了基于指數(shù)分層結(jié)構(gòu)算法的數(shù)據(jù)可信度評(píng)估。
本文通過(guò)實(shí)驗(yàn)來(lái)驗(yàn)證所提的基于指數(shù)分層結(jié)構(gòu)算法的數(shù)據(jù)可信度評(píng)估模型的有效性。為保證實(shí)驗(yàn)結(jié)果的有效性,將基于D-S理論的多源數(shù)據(jù)可信度評(píng)估模型[8]和基于聚類云模型的小樣本數(shù)據(jù)可信度評(píng)估模型[9]作對(duì)比。
實(shí)驗(yàn)采用數(shù)據(jù)分類適應(yīng)性和數(shù)據(jù)查全率作為驗(yàn)證指標(biāo)。在對(duì)數(shù)據(jù)可信度進(jìn)行評(píng)估時(shí),評(píng)估模型的分類適應(yīng)性和數(shù)據(jù)查全率越高,表明評(píng)估效果越好。
測(cè)試實(shí)驗(yàn)環(huán)境如表3所示。
表3 模型性能測(cè)試實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)所用數(shù)據(jù)的具體類型及參數(shù)如表4所示。
表4 測(cè)試數(shù)據(jù)類型及參數(shù)
實(shí)驗(yàn)準(zhǔn)備完畢后,嚴(yán)格控制除實(shí)驗(yàn)變量外的其他實(shí)驗(yàn)條件保持相同,完成對(duì)測(cè)試組和對(duì)照組可信度評(píng)估模型的性能對(duì)比。
數(shù)據(jù)分類適應(yīng)性測(cè)試結(jié)果如圖3所示,圖中的圓點(diǎn)為數(shù)據(jù)分類適應(yīng)點(diǎn)。
圖3 分類適應(yīng)性對(duì)比圖
分析圖3可知,使用本文模型對(duì)數(shù)據(jù)可信度進(jìn)行評(píng)估時(shí),模型的分類適應(yīng)數(shù)據(jù)點(diǎn)較為集中,說(shuō)明該模型分類適應(yīng)性較高,使得數(shù)據(jù)點(diǎn)間距離較近,且本文模型的分類適應(yīng)數(shù)據(jù)點(diǎn)不僅分布集中,而且數(shù)據(jù)點(diǎn)間距離均較小。使用文獻(xiàn)[8]模型對(duì)數(shù)據(jù)可信度進(jìn)行評(píng)估時(shí),模型的分類適應(yīng)數(shù)據(jù)點(diǎn)分布較為分散,說(shuō)明該模型的分類適應(yīng)性較差,使得數(shù)據(jù)點(diǎn)間距離較遠(yuǎn)。綜上,相比傳統(tǒng)的數(shù)據(jù)評(píng)估模型,基于指數(shù)分層結(jié)構(gòu)算法的數(shù)據(jù)可信度評(píng)估模型具有較高的分類適應(yīng)性。
測(cè)試不同模型的數(shù)據(jù)查全率,結(jié)果如圖4所示。
圖4 不同模型數(shù)據(jù)查全率對(duì)比
分析圖4可知,與2種傳統(tǒng)模型相比,利用本文模型對(duì)數(shù)據(jù)可信度進(jìn)行評(píng)估時(shí),數(shù)據(jù)的查全率較高,整體保持在95%上下,能夠說(shuō)明本文模型對(duì)數(shù)據(jù)的檢索能力較強(qiáng),評(píng)估范圍更為全面。
為了進(jìn)一步提高數(shù)據(jù)資產(chǎn)管理的有效性,本文設(shè)計(jì)了一種基于指數(shù)分層結(jié)構(gòu)算法的數(shù)據(jù)可信度評(píng)估模型。在構(gòu)建數(shù)據(jù)可信度評(píng)估指標(biāo)體系的基礎(chǔ)上,利用聚類過(guò)程對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,并引入指數(shù)分層結(jié)構(gòu)算法對(duì)數(shù)據(jù)可信度進(jìn)行評(píng)估。通過(guò)與傳統(tǒng)的評(píng)估模型對(duì)比,驗(yàn)證了該模型的分類適應(yīng)性較強(qiáng)、數(shù)據(jù)查全率較高,具有更為優(yōu)越的使用性能。