基于指數(shù)分層結(jié)構(gòu)算法的數(shù)據(jù)可信度評(píng)估模型設(shè)計(jì)

2021-02-27 01:42:18廖嘉煒吳永歡杜舒明鄒時(shí)容徐炫東

計(jì)算機(jī)與現(xiàn)代化 2021年2期

廖嘉煒，吳永歡，杜舒明，鄒時(shí)容，徐炫東

(廣州供電局有限公司，廣東廣州 510620)

0 引言

數(shù)據(jù)資產(chǎn)管理的數(shù)據(jù)對(duì)象存在規(guī)模大、來(lái)源多樣、格式繁雜、采集實(shí)時(shí)等特征，尤其是數(shù)據(jù)的大量遞增，以及格式的多樣化，給數(shù)據(jù)資產(chǎn)管理帶來(lái)了嚴(yán)峻的挑戰(zhàn)。對(duì)數(shù)據(jù)資產(chǎn)進(jìn)行管理能夠?yàn)槠髽I(yè)的發(fā)展管理、控制與科學(xué)決策提供有力的數(shù)據(jù)支撐[1-4]。但不是所有的數(shù)據(jù)都可以稱之為數(shù)據(jù)資產(chǎn)，只有達(dá)到一定可信度的數(shù)據(jù)才能成為數(shù)據(jù)資產(chǎn)。由此可見，數(shù)據(jù)可信度是判斷數(shù)據(jù)是否為數(shù)據(jù)資產(chǎn)的重要依據(jù)之一[5-7]。因此，對(duì)數(shù)據(jù)可信度進(jìn)行評(píng)估是數(shù)據(jù)資產(chǎn)管理的重要組成部分。在此基礎(chǔ)上，設(shè)計(jì)數(shù)據(jù)可信度評(píng)估模型，通過(guò)模型計(jì)算來(lái)量化評(píng)估數(shù)據(jù)可信度，能夠有助于數(shù)據(jù)資產(chǎn)的管理。

目前，在數(shù)據(jù)可信度評(píng)估領(lǐng)域，已有一些相對(duì)成熟的方法，如文獻(xiàn)[8]提出了基于D-S理論的多源數(shù)據(jù)可信度評(píng)估模型，文獻(xiàn)[9]提出了基于聚類云模型的小樣本數(shù)據(jù)可信度評(píng)估模型。然而，由于傳統(tǒng)的評(píng)估模型過(guò)程較為復(fù)雜，導(dǎo)致分類適應(yīng)性較差，且數(shù)據(jù)的查全性較差，難以適應(yīng)目前數(shù)據(jù)資產(chǎn)管理中對(duì)無(wú)形數(shù)據(jù)的可信度評(píng)估，評(píng)估局限性較大。

指數(shù)分層結(jié)構(gòu)算法是基于拓?fù)浣Y(jié)構(gòu)，對(duì)亞超度量空間和指數(shù)分層結(jié)構(gòu)樹進(jìn)行優(yōu)化后生成的一種算法，具有較好的分類能力和較強(qiáng)的適應(yīng)性，且計(jì)算過(guò)程清晰，便于在數(shù)據(jù)可信度評(píng)估的過(guò)程中及時(shí)回溯查找[10-12]。

綜上所述，為提高數(shù)據(jù)可信度評(píng)估質(zhì)量及數(shù)據(jù)資產(chǎn)管理效果，本文引入指數(shù)分層結(jié)構(gòu)算法，設(shè)計(jì)了一種新的數(shù)據(jù)可信度評(píng)估模型。首先建立數(shù)據(jù)可信度評(píng)估指標(biāo)體系；然后補(bǔ)充待評(píng)估數(shù)據(jù)集中的缺漏數(shù)據(jù)，通過(guò)歸一化處理數(shù)據(jù)形成數(shù)據(jù)集合，并根據(jù)數(shù)據(jù)間的相關(guān)系數(shù)建立亞超度量空間和指數(shù)分層結(jié)構(gòu)樹，完成數(shù)據(jù)處理；最后基于層次分析評(píng)估數(shù)據(jù)可信度評(píng)估模型。實(shí)驗(yàn)結(jié)果表明，上述評(píng)估過(guò)程具有更強(qiáng)的分類適應(yīng)性和數(shù)據(jù)查全能力。

1 基于指數(shù)分層結(jié)構(gòu)算法的數(shù)據(jù)可信度評(píng)估模型設(shè)計(jì)

1.1 建立數(shù)據(jù)可信度評(píng)估指標(biāo)體系

在數(shù)據(jù)資產(chǎn)管理中，對(duì)數(shù)據(jù)的可信度進(jìn)行準(zhǔn)確評(píng)估時(shí)需建立可信度評(píng)估指標(biāo)體系。本文選取的數(shù)據(jù)具有一般性，能夠應(yīng)用在常見的數(shù)據(jù)資產(chǎn)管理中。根據(jù)實(shí)際的數(shù)據(jù)資產(chǎn)類型，通?？煽偨Y(jié)出7個(gè)一級(jí)可信度評(píng)估指標(biāo)以及12個(gè)二級(jí)可信度評(píng)估指標(biāo)，可建立如表1所示的數(shù)據(jù)可信度評(píng)估指標(biāo)體系。

表1 數(shù)據(jù)可信度評(píng)估指標(biāo)體系

在建立如表1所示的數(shù)據(jù)可信度評(píng)價(jià)指標(biāo)體系后，為方便數(shù)據(jù)可信度評(píng)估模型的運(yùn)行，需對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，再應(yīng)用指數(shù)分層結(jié)構(gòu)算法對(duì)數(shù)據(jù)可信度進(jìn)行評(píng)估和判斷。

1.2 待評(píng)估數(shù)據(jù)預(yù)處理

為避免因數(shù)據(jù)存在缺漏、重復(fù)等情況而對(duì)數(shù)據(jù)可信度評(píng)估過(guò)程造成影響，降低數(shù)據(jù)評(píng)估精度，需在評(píng)估前對(duì)數(shù)據(jù)進(jìn)行一定的預(yù)處理。

對(duì)于待評(píng)估數(shù)據(jù)中存在缺漏的情況，采用如下方式進(jìn)行數(shù)據(jù)缺漏填補(bǔ)：對(duì)于數(shù)據(jù)間存在的具有一定周期性關(guān)系的缺漏數(shù)據(jù)，可以利用相同時(shí)間段的同類型數(shù)據(jù)近似補(bǔ)充；若缺漏數(shù)據(jù)的前后數(shù)據(jù)鏈均完整，可以計(jì)算與缺漏數(shù)據(jù)相近數(shù)據(jù)的算術(shù)平均值作為缺漏數(shù)據(jù)的替代值；若缺漏數(shù)據(jù)的前后數(shù)據(jù)鏈不完整，選取與其同周期相鄰數(shù)據(jù)的近似值作為缺漏數(shù)據(jù)的替代值[13]；將待評(píng)估的數(shù)據(jù)中的缺漏數(shù)據(jù)補(bǔ)充完畢后，使用聚類算法對(duì)待評(píng)估數(shù)據(jù)按照類型進(jìn)行聚類，即采用聚類算法對(duì)重復(fù)、混亂的數(shù)據(jù)重新分簇[14-17]。

從所有待評(píng)估數(shù)據(jù)中選取n個(gè)不同類型的數(shù)據(jù)作為聚類算法的聚類中心，分別計(jì)算其他待評(píng)估數(shù)據(jù)與聚類中心數(shù)據(jù)的相似值，通過(guò)相似值衡量待評(píng)估數(shù)據(jù)是否與聚類中心數(shù)據(jù)為同一數(shù)據(jù)類型。相似度度量數(shù)值越小，說(shuō)明2種數(shù)據(jù)越相似。相似度計(jì)算過(guò)程如下：

(1)

其中，sim(x,y)為相似度度量，x為聚類中心數(shù)據(jù)，y為待聚類數(shù)據(jù)，‖x‖是聚類中心數(shù)據(jù)的模，‖y‖為待聚類數(shù)據(jù)的模。將數(shù)據(jù)分配至與其相似度最高的聚類中心所在簇中，完成數(shù)據(jù)聚類[18]。在完成對(duì)所有待評(píng)估數(shù)據(jù)的聚類分簇后，對(duì)聚類中心進(jìn)行迭代處理，即在聚類簇中重新選取聚類中心，再次計(jì)算簇中數(shù)據(jù)與新選取的聚類中心的相似度，重新進(jìn)行分簇[19-20]。反復(fù)上述過(guò)程，直至不再出現(xiàn)新的分類簇。采用聚類算法對(duì)待評(píng)估數(shù)據(jù)進(jìn)行聚類的流程如圖1所示。

若待評(píng)估數(shù)據(jù)的類型為隨機(jī)數(shù)據(jù)時(shí)，需剔除隨機(jī)型數(shù)據(jù)的奇異值。假設(shè)隨機(jī)數(shù)據(jù)的誤差為σ，若隨機(jī)數(shù)據(jù)滿足下式關(guān)系，則可判定該隨機(jī)數(shù)據(jù)為非奇異值[21]：

-3σy3σ

(2)

當(dāng)待評(píng)估數(shù)據(jù)的類型為周期性數(shù)據(jù)時(shí)，需對(duì)周期性數(shù)據(jù)做平均滑動(dòng)濾波處理。假設(shè)周期數(shù)據(jù)的長(zhǎng)度為m，平均滑動(dòng)濾波的窗口長(zhǎng)度為l，按照窗口寬度對(duì)待評(píng)估數(shù)據(jù)進(jìn)行采樣，將得到的數(shù)據(jù)存放在整體數(shù)據(jù)隊(duì)列的尾端，剔除原來(lái)隊(duì)首的數(shù)據(jù)。隨著采樣窗口的移動(dòng)，得到新的長(zhǎng)度同樣也為m的數(shù)據(jù)，完成對(duì)數(shù)據(jù)的平均滑動(dòng)濾波[22]。

圖1 待估數(shù)據(jù)聚類流程圖

由于不同類型數(shù)據(jù)的量綱不同，需對(duì)所有待評(píng)估數(shù)據(jù)做量綱歸一化處理，公式如下：

(3)

式(3)中，Xi′為第i類數(shù)據(jù)Xi經(jīng)過(guò)歸一化處理后的數(shù)據(jù)，maxXi為第i類數(shù)據(jù)Xi中的最大值，minXi為第i類數(shù)據(jù)Xi中的最小值。歸一化處理過(guò)程能夠?qū)?shù)據(jù)轉(zhuǎn)換為[0,1]區(qū)間上的數(shù)值，避免了數(shù)據(jù)量綱對(duì)數(shù)據(jù)可信度評(píng)估過(guò)程的影響[23]。

在完成待評(píng)估數(shù)據(jù)的預(yù)處理后，應(yīng)用指數(shù)分層結(jié)構(gòu)算法建立評(píng)估模型。

1.3 應(yīng)用指數(shù)分層結(jié)構(gòu)算法建立評(píng)估模型

假設(shè)由所有經(jīng)過(guò)預(yù)處理后的數(shù)據(jù)所組成的數(shù)據(jù)集合為S={X1,X2,…,Xi,…,Xj,…,Xn}，則按照下式計(jì)算在某一段時(shí)間內(nèi)待評(píng)估數(shù)據(jù)之間的相關(guān)系數(shù)：

(4)

dij2=‖Xik-Xjk‖2

(5)

其中，dij2為2個(gè)分量之間的歐氏距離，且i維向量的分量Xik滿足下式：

(6)

由公式(5)和公式(6)可得到2個(gè)分量之間的超度量距離為：

(7)

定義超度量距離為上述的歐氏距離滿足數(shù)據(jù)評(píng)估的拓?fù)浣Y(jié)構(gòu)，即：

(8)

圖2 亞超度量空間生成樹

在亞超度量空間中，生成樹會(huì)與經(jīng)過(guò)預(yù)處理后的無(wú)交叉待評(píng)估數(shù)據(jù)序列相對(duì)應(yīng)，生成了指數(shù)分層結(jié)構(gòu)樹，根據(jù)生成的指數(shù)分層結(jié)構(gòu)層次評(píng)估樹，結(jié)合數(shù)據(jù)可信度評(píng)估指標(biāo)體系，可建立數(shù)據(jù)可信度判斷矩陣。根據(jù)評(píng)價(jià)指標(biāo)體系中每一指標(biāo)的權(quán)重系數(shù)，完成指標(biāo)的兩兩比較，并按照表2所示，對(duì)指標(biāo)進(jìn)行具體賦值。

表2 可信度賦值表

在亞超度量空間中，根據(jù)可信度矩陣對(duì)待評(píng)估數(shù)據(jù)重新映射處理，即：將待評(píng)估數(shù)據(jù)中可信度較高的數(shù)據(jù)以及與其超度量距離較近的數(shù)據(jù)判定為可信度高；若與可信度較高數(shù)據(jù)的距離較近的數(shù)據(jù)其本身的可信度較低，則不判定該數(shù)據(jù)的可信度。直至所有待評(píng)估數(shù)據(jù)可信度評(píng)估完成后，按照相關(guān)系數(shù)，再次判定在可信度閾值內(nèi)的數(shù)據(jù)可信度，輸出待評(píng)估可信度的數(shù)據(jù)結(jié)果。至此，完成了基于指數(shù)分層結(jié)構(gòu)算法的數(shù)據(jù)可信度評(píng)估。

2 模型測(cè)試與結(jié)果分析

本文通過(guò)實(shí)驗(yàn)來(lái)驗(yàn)證所提的基于指數(shù)分層結(jié)構(gòu)算法的數(shù)據(jù)可信度評(píng)估模型的有效性。為保證實(shí)驗(yàn)結(jié)果的有效性，將基于D-S理論的多源數(shù)據(jù)可信度評(píng)估模型[8]和基于聚類云模型的小樣本數(shù)據(jù)可信度評(píng)估模型[9]作對(duì)比。

2.1 測(cè)試內(nèi)容

實(shí)驗(yàn)采用數(shù)據(jù)分類適應(yīng)性和數(shù)據(jù)查全率作為驗(yàn)證指標(biāo)。在對(duì)數(shù)據(jù)可信度進(jìn)行評(píng)估時(shí)，評(píng)估模型的分類適應(yīng)性和數(shù)據(jù)查全率越高，表明評(píng)估效果越好。

2.2 測(cè)試準(zhǔn)備

測(cè)試實(shí)驗(yàn)環(huán)境如表3所示。

表3 模型性能測(cè)試實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)所用數(shù)據(jù)的具體類型及參數(shù)如表4所示。

表4 測(cè)試數(shù)據(jù)類型及參數(shù)

實(shí)驗(yàn)準(zhǔn)備完畢后，嚴(yán)格控制除實(shí)驗(yàn)變量外的其他實(shí)驗(yàn)條件保持相同，完成對(duì)測(cè)試組和對(duì)照組可信度評(píng)估模型的性能對(duì)比。

2.3 測(cè)試結(jié)果及分析

數(shù)據(jù)分類適應(yīng)性測(cè)試結(jié)果如圖3所示，圖中的圓點(diǎn)為數(shù)據(jù)分類適應(yīng)點(diǎn)。

圖3 分類適應(yīng)性對(duì)比圖

分析圖3可知，使用本文模型對(duì)數(shù)據(jù)可信度進(jìn)行評(píng)估時(shí)，模型的分類適應(yīng)數(shù)據(jù)點(diǎn)較為集中，說(shuō)明該模型分類適應(yīng)性較高，使得數(shù)據(jù)點(diǎn)間距離較近，且本文模型的分類適應(yīng)數(shù)據(jù)點(diǎn)不僅分布集中，而且數(shù)據(jù)點(diǎn)間距離均較小。使用文獻(xiàn)[8]模型對(duì)數(shù)據(jù)可信度進(jìn)行評(píng)估時(shí)，模型的分類適應(yīng)數(shù)據(jù)點(diǎn)分布較為分散，說(shuō)明該模型的分類適應(yīng)性較差，使得數(shù)據(jù)點(diǎn)間距離較遠(yuǎn)。綜上，相比傳統(tǒng)的數(shù)據(jù)評(píng)估模型，基于指數(shù)分層結(jié)構(gòu)算法的數(shù)據(jù)可信度評(píng)估模型具有較高的分類適應(yīng)性。

測(cè)試不同模型的數(shù)據(jù)查全率，結(jié)果如圖4所示。

圖4 不同模型數(shù)據(jù)查全率對(duì)比

分析圖4可知，與2種傳統(tǒng)模型相比，利用本文模型對(duì)數(shù)據(jù)可信度進(jìn)行評(píng)估時(shí)，數(shù)據(jù)的查全率較高，整體保持在95%上下，能夠說(shuō)明本文模型對(duì)數(shù)據(jù)的檢索能力較強(qiáng)，評(píng)估范圍更為全面。

3 結(jié)束語(yǔ)

為了進(jìn)一步提高數(shù)據(jù)資產(chǎn)管理的有效性，本文設(shè)計(jì)了一種基于指數(shù)分層結(jié)構(gòu)算法的數(shù)據(jù)可信度評(píng)估模型。在構(gòu)建數(shù)據(jù)可信度評(píng)估指標(biāo)體系的基礎(chǔ)上，利用聚類過(guò)程對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，并引入指數(shù)分層結(jié)構(gòu)算法對(duì)數(shù)據(jù)可信度進(jìn)行評(píng)估。通過(guò)與傳統(tǒng)的評(píng)估模型對(duì)比，驗(yàn)證了該模型的分類適應(yīng)性較強(qiáng)、數(shù)據(jù)查全率較高，具有更為優(yōu)越的使用性能。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡