張 冉 宋寶燕 單曉歡 王俊陸
(遼寧大學(xué)信息學(xué)院 沈陽 110036)
區(qū)塊鏈[1~3]是一種新型分布式技術(shù),其基于塊鏈?zhǔn)浇Y(jié)構(gòu)、共識算法和智能合約[4~5]實現(xiàn)了數(shù)據(jù)信息從記錄到傳輸再到存儲的過程,且節(jié)點間無需第三方信任機(jī)構(gòu)的約束,實現(xiàn)了無信任關(guān)系[6~7]節(jié)點之間的價值通信。國內(nèi)外大型企業(yè)單位如谷歌、百度、阿里巴巴等都建立了自己的企業(yè)聯(lián)盟區(qū)塊鏈系統(tǒng)。目前區(qū)塊鏈中存儲的企業(yè)經(jīng)營活動信息大多來自于不同的行業(yè)和機(jī)構(gòu),這使得信息質(zhì)量參差不齊,歧義性較大,同時受公司自身信譽度及環(huán)境制約,無法保證區(qū)塊中數(shù)據(jù)的準(zhǔn)確性和價值,因此,在創(chuàng)建區(qū)塊時,會出現(xiàn)一系列問題。傳統(tǒng)的評估方法沒有利用區(qū)塊鏈全程留痕、不可篡改、可追溯的特征,評估效率及準(zhǔn)確性均較低,導(dǎo)致企業(yè)用戶及相關(guān)監(jiān)管部門無法快速篩選出滿足需求的區(qū)塊鏈,也無法建立統(tǒng)一的分析[8~9]模型。因此,評估區(qū)塊鏈的質(zhì)量十分有必要。
針對這些問題,本文提出一種面向企業(yè)經(jīng)營活動的多源異構(gòu)區(qū)塊鏈數(shù)據(jù)質(zhì)量評估模型,實現(xiàn)對經(jīng)營活動信息一致性、可信度以及價值的高效評估。本文主要貢獻(xiàn)如下:
1)針對區(qū)塊鏈中企業(yè)經(jīng)營活動異構(gòu)信息一致性差的問題,提出CEKQRL 模型,用三元組的形式表示企業(yè)經(jīng)營活動信息,并引入注意力機(jī)制[10]對三元組和活動類別進(jìn)行關(guān)聯(lián);同時還考慮了實體上下文信息對一致性評估的影響,進(jìn)而構(gòu)建上下文結(jié)構(gòu)圖模型,進(jìn)一步提高區(qū)塊鏈的相似度計算效率。
2)在此基礎(chǔ)上,針對區(qū)塊鏈中企業(yè)經(jīng)營活動信息的可信度評估困難問題,綜合考慮了信息源、信息評價的可信度,然后將這兩部分的表征結(jié)果進(jìn)行融合[11]。
3)針對區(qū)塊鏈中活動信息的價值評估問題,提出了一種信息價值評估方法,通過信息量的大小表述信息的不確定度,進(jìn)而衡量區(qū)塊中企業(yè)經(jīng)營活動的價值量。最后,綜合區(qū)塊間語義相似度、區(qū)塊鏈內(nèi)容評估以及價值評估,得出面向企業(yè)經(jīng)營活動的多元異構(gòu)區(qū)塊鏈數(shù)據(jù)質(zhì)量評估模型。
目前,許多學(xué)者對數(shù)據(jù)質(zhì)量評估方法進(jìn)行了深入研究,并取得了一定的研究成果。
在區(qū)塊鏈信息一致性評估方面,文獻(xiàn)[12]提出一種結(jié)構(gòu)化梯度樹提升(SGTB)算法進(jìn)行實體消歧,該方法在跨領(lǐng)域的評估中有較好的性能,但它忽略了實體的上下文信息對計算過程的作用;文獻(xiàn)[13]提出一種基于因子圖的不一致記錄對計算方法,該方法對實體進(jìn)行解析,但未關(guān)聯(lián)實體表示與其所屬類別;文獻(xiàn)[14]提出具有多視角關(guān)注的神經(jīng)網(wǎng)絡(luò),從而捕捉更多的信息特征,但該方法未關(guān)注實體上下文信息。
在區(qū)塊鏈信息可信度評估方面,文獻(xiàn)[15]提出一種綜合信譽計算方法,整合了多維度數(shù)據(jù),但卻只注重相關(guān)評價而未重視信息源這一因素;文獻(xiàn)[16]提出基于多源異構(gòu)信息融合的數(shù)據(jù)可信度評估方法,該方法在提高計算收斂性方面效果較好,但忽略了信息內(nèi)容的可信度;文獻(xiàn)[17]提出一種用于用戶生成內(nèi)容可信度評估的監(jiān)督機(jī)器學(xué)習(xí)方法,但該方法只關(guān)注相關(guān)評論信息,忽略了對信息內(nèi)容及其來源的關(guān)注。
在區(qū)塊鏈信息價值評估方面,文獻(xiàn)[18]提出一種基于置信度的可靠性評估方法,該方法能準(zhǔn)確地得到數(shù)據(jù)所屬分布,但忽略了數(shù)據(jù)本身的價值所在;文獻(xiàn)[19]構(gòu)建VW&ICM 計算模型進(jìn)行風(fēng)險評估,該模型削弱了主觀因素對評估結(jié)果的影響,但忽略了數(shù)據(jù)整體價值信息;文獻(xiàn)[20]從主觀和客觀兩個方面確定總體權(quán)重和評估標(biāo)準(zhǔn),克服了單一模型的限制,但卻只適用于信息不確定性較大的情況。
綜上所述,本文針對區(qū)塊鏈質(zhì)量評估方法的不足之處,基于企業(yè)經(jīng)營活動信息的一致性、可信度及價值三個方面,提出了面向企業(yè)經(jīng)營活動的多源異構(gòu)區(qū)塊鏈質(zhì)量評估模型。
由于區(qū)塊鏈中企業(yè)經(jīng)營活動信息多來自于不同數(shù)據(jù)源,導(dǎo)致異構(gòu)信息表征方式不一致,如數(shù)據(jù)格式、實體名稱等,這使得區(qū)塊鏈中存儲的經(jīng)營活動信息具有歧義性,數(shù)據(jù)質(zhì)量較低。針對該問題,本文通過實體間語義相似度比較來評估區(qū)塊鏈數(shù)據(jù)的一致性。
本文提出基于CEKGRL的模型,將區(qū)塊實體表示為三元組形式。此外,本文還考慮了三元組信息與其所屬的類別,并使用注意力分?jǐn)?shù)表征其關(guān)聯(lián)程度。
3.1.1 三元組信息結(jié)構(gòu)
根據(jù)CEKGRL模型,本文將企業(yè)經(jīng)營活動信息定義為G=(E,R,S)形式,其中E、R分別代表企業(yè)實體集和關(guān)系集,三元組集合用S?E×R×E表示,(h,r,t)代表一個由企業(yè)名、活動方向以及活動信息構(gòu)成的三元組,c為類別。CEKGRL 模型的整體架構(gòu)如圖1所示。
圖1 CEKGRL模型整體架構(gòu)
圖中的hs、ts代表基于結(jié)構(gòu)的三元組表示,hc、tc代表基于類別的三元組表示,a表示注意力分?jǐn)?shù),本文將融合兩種表示類型的能量函數(shù)定義如式(1)所示:
其中,β表示基于類別表示的權(quán)重。
3.1.2 關(guān)聯(lián)信息類別與活動表示
某企業(yè)實體名稱可能屬于不同的類別,基于此,本文通過注意力分?jǐn)?shù)值表明關(guān)系與類別之間的相關(guān)性。
首先,利用CEKGRL 模型將關(guān)系r、類別c視為query向量、key向量和value向量,用矩陣的方式表示注意力。將企業(yè)關(guān)系與其對應(yīng)的活動類別以關(guān)系矩陣R和類別矩陣C的方式進(jìn)行拼接。然后,引入權(quán)重矩陣WQ、WK和WV,對其進(jìn)行訓(xùn)練,并對矩陣進(jìn)行相乘操作,運算結(jié)果和注意力分?jǐn)?shù)如式(2)和(3)所示:
式中,dk為矩陣的維度,att(C,R)值越大,表明與關(guān)系r越可能屬于類別c。
在區(qū)塊鏈企業(yè)經(jīng)營活動信息中,單一企業(yè)實體的名稱指代可能存在“一對多”映射關(guān)系,使信息表達(dá)具有歧義性,導(dǎo)致相似度計算的準(zhǔn)確率較低。本文引入上下文信息,構(gòu)建上下文結(jié)構(gòu)圖模型進(jìn)行區(qū)塊之間相似度的計算。
3.2.1 上下文信息關(guān)聯(lián)圖模型構(gòu)建
本文以企業(yè)實體名稱、經(jīng)營交易活動為例進(jìn)行實體歧義性計算。把某企業(yè)實體的上下文關(guān)系描述為實體相關(guān)圖模型G=(V,E),V、E分別代表頂點集和邊集。模型的構(gòu)造分為以下兩步。
1)頂點集合構(gòu)造
圖模型中的各頂點由企業(yè)經(jīng)營活動信息的上下文構(gòu)成,其上下文信息ci的可信程度用置信度(Confidence Measure,CM)衡量,置信度的計算如式(4)所示:
其中,ResultScore(ci)是基于知識圖譜得出的匹配分?jǐn)?shù),值的大小反映了上下文信息的準(zhǔn)確程度。
2)邊集合構(gòu)造
圖模型的邊由該企業(yè)活動所對應(yīng)上下文信息的路徑關(guān)聯(lián)度組成。本文利用信息A到信息B的前向最短路徑FShortPath和后向最短路徑BShortPath判斷兩個節(jié)點之間的最短路徑,并將最短路徑轉(zhuǎn)化為節(jié)點之間的關(guān)聯(lián)程度,計算如式(5)所示:
節(jié)點之間的關(guān)聯(lián)程度計算如式(6)所示:
從該公式可得,節(jié)點間的路徑越短,其關(guān)聯(lián)程度越高。
3.2.2 塊間相似度計算
本文對企業(yè)經(jīng)營活動信息的實體名稱、具體內(nèi)容進(jìn)行語義相似度的計算,SimText(A,B)代表區(qū)塊A與B的語義相似度,采用余弦相似度計算如式(7)所示:
歸一化處理如式(8)所示:
最后,取首塊與其他區(qū)塊的相似度平均值作為最終的一致性計算結(jié)果,計算如式(9)所示:
其中,SimText(A,i)表示首塊與其他區(qū)塊的相似度度量結(jié)果。
評估模型由區(qū)塊鏈一致性、信息可信度以及價值綜合衡量,并根據(jù)重要程度賦予不同的權(quán)重。
本文通過綜合表征企業(yè)經(jīng)營活動的信息源和信息評價的可信度來表示區(qū)塊鏈內(nèi)容的可信度。
4.1.1 基于源的信息可信度表征1)信息頁面的可信度
通過企業(yè)經(jīng)營活動信息所處頁面中各鏈接是否可達(dá)以及所達(dá)頁面是否可用進(jìn)行信息頁面的可信度度量。計算如式(10)所示:
其中,A、B、C分別表示頁面中可達(dá)鏈接、不可達(dá)鏈接以及可達(dá)不可用鏈接的集合。
2)信息發(fā)布者的可信度
本文將網(wǎng)絡(luò)中的用戶看為一個整體,用戶總數(shù)記為N。用戶的三種狀態(tài)如下:
(1)不知者(ignorant)。對于已發(fā)布的信息,用戶無法判斷信息真假的用戶。
(2)信息可信用戶(believed)。對于已發(fā)布的信息,根據(jù)自身的知識積累,認(rèn)為發(fā)布信息是可信的用戶。
(3)信息不可信用戶(unbelieved)。對于已發(fā)布的信息,根據(jù)自身的知識積累,認(rèn)為發(fā)布信息是不可信的用戶。在進(jìn)行信息傳播時,各用戶的狀態(tài)轉(zhuǎn)換如圖2所示。
圖2 節(jié)點間狀態(tài)轉(zhuǎn)化
對于已發(fā)布的信息,首次接觸該信息的用戶被稱為不知者,經(jīng)過t時間后,該用戶認(rèn)為信息可信與不可信的概率分別為α和β。
設(shè)在t時刻后,認(rèn)為發(fā)布信息是可信的用戶又認(rèn)為信息不可信的概率為γ,此時用戶的狀態(tài)改變;反之為δ。信息交互規(guī)則如式(11)所示:
方程組中的I(t),B(t),U(t)表示t時刻各類用戶的比例。該發(fā)布者的可信度計算如式(12)所示:
3)源的可信度表征結(jié)果融合
將發(fā)布平臺、頁面的可信度表征結(jié)果進(jìn)行融合,計算如式(13)所示:
4.1.2 基于評價特征的信息可信度表征
當(dāng)計算評價表征值時,一般分為兩步:第一步是計算該條評論是否與該信息相關(guān);第二步是進(jìn)行相關(guān)表征傾向值的計算。
1)評價與信息的相關(guān)性
評價與信息的相關(guān)性具體計算如式(14)所示:
其中,I是某條信息,C為信息中的某條評價,w是評價中的某個詞,用t表示主題詞,即用某信息中出現(xiàn)各詞的概率來衡量評價與信息是否相關(guān)。
2)相關(guān)評價表征傾向
對信息的評價計算表征傾向值如式(15)所示:
其中,w(R)為評價R的情感傾向得分,p(ai)為句子ai在評價R中所處的位置,count(a|R)為評價中所包含的句子數(shù)目。
最后,用信息源的可信度和信息評價的可信度來綜合衡量區(qū)塊鏈中存儲的企業(yè)經(jīng)營活動信息的可信度,并賦予不同的權(quán)重,計算如式(16)所示:
由于評價具有主觀性,不確定性較大,因此信息源的可信度所占比值最大,信息評價次之。
對區(qū)塊鏈價值的評估,本文采用計算其信息量的方法。該方法利用區(qū)塊鏈中所包含信息量的多少來評估區(qū)塊鏈的價值,其相關(guān)性質(zhì)如下:
性質(zhì)1信息量的值為非負(fù)值,并且值的大小直接反映了信息量的多少。
性質(zhì)2信息量本身是一個值,可直接進(jìn)行相加。
區(qū)塊鏈中的各個區(qū)塊都可視為一種離散信源,某條鏈X的取值集合及其概率空間如式(17)所示:
其中,pi代表區(qū)塊xi中活動信息出現(xiàn)的概率,區(qū)塊鏈總的信息量Validity計算如式(18)所示:
Validity的最終計算值表明這些企業(yè)經(jīng)營活動信息所在區(qū)塊鏈價值量的多少,對于給定的區(qū)塊鏈,其價值量的大小可以由信息量的值來反映,值越小,信息量越少,區(qū)塊鏈的價值效用越小,反之該區(qū)塊鏈的價值效用越大。
為了評估多源異構(gòu)區(qū)塊鏈的質(zhì)量,本文用企業(yè)經(jīng)營活動信息的一致性、可信度以及價值三者的加權(quán)值來度量區(qū)塊鏈的綜合質(zhì)量。具體的評估模型如式(19)所示:
區(qū)塊鏈價值是衡量區(qū)塊鏈質(zhì)量的重要指標(biāo),區(qū)塊鏈所含價值越大,該區(qū)塊鏈的應(yīng)用價值越大,其次是信息的可信度,最后是信息的一致性,因此權(quán)重γ>β>α。
實驗平臺為Intel Core i7-12700 處理器,16GB內(nèi)存和64 位Windows10 操作系統(tǒng)。采用Block?chainSpider 數(shù)據(jù)收集工具箱中的數(shù)據(jù)作為本次實驗的數(shù)據(jù)集,該工具箱旨在收集公鏈數(shù)據(jù),包括交易子圖、標(biāo)簽數(shù)據(jù)、區(qū)塊的內(nèi)部交易以及轉(zhuǎn)賬記錄等,本次實驗大約使用了10 萬條數(shù)據(jù),區(qū)塊中數(shù)據(jù)的詳細(xì)信息如表1 所列。本文從評估模型一致性、準(zhǔn)確性、價值以及效率三個方面進(jìn)行模擬實驗,用本文所建模型(DQAM)與AHP、DSMM 等模型進(jìn)行對比。
表1 區(qū)塊數(shù)據(jù)
本節(jié)在表1 的數(shù)據(jù)集上評估各模型的一致性,其中橫軸代表數(shù)據(jù)條數(shù),縱軸代表一致性評估質(zhì)量,通過結(jié)構(gòu)化梯度樹提升(SGTB)算法、基于因子圖的不一致記錄對消歧(DIBFM)、多視角關(guān)注的神經(jīng)網(wǎng)絡(luò)消歧(NDMP)方法和本文所提的基于上下文信息的相似度計算方法(SCBCI)進(jìn)行對比,實驗結(jié)果如圖3所示。
圖3 一致性評估
由圖3 可知,隨著數(shù)據(jù)量增大,與現(xiàn)有方法相比,本文所提的一致性評估方法的評估質(zhì)量逐步提高,這是因為該方法對區(qū)塊信息采取三元組表示方法,并把這些三元組與某些類別進(jìn)行關(guān)聯(lián),同時又充分考慮了實體的上下文信息,因此能獲得較高的一致性評估質(zhì)量。
本節(jié)驗證基于可信度理論的區(qū)塊鏈內(nèi)容評估(CEBT)方法的效率,各方法在不同數(shù)據(jù)集上的準(zhǔn)確性評估質(zhì)量對比如圖4所示。
圖4 準(zhǔn)確性評估
由圖4 可知,CEBT 方法的平均評估質(zhì)量高于其他方法。對比方法是多源異構(gòu)信息的數(shù)據(jù)可信度評估(MHIF)以及用戶內(nèi)容可信度評估的(SML)方法。
實驗通過模擬采用本文所提的信息量方法(VIS)與基于數(shù)據(jù)分布的價值評估方法(VADD)、VW&ICM 計算模型的價值評估質(zhì)量,橫坐標(biāo)表示數(shù)據(jù)量多少,縱坐標(biāo)表示信息價值的評估質(zhì)量,實驗結(jié)果如圖5所示。
圖5 價值評估
由實驗結(jié)果可發(fā)現(xiàn),本文所提的基于信息量的方法評估質(zhì)量較高。其主要原因是該方法關(guān)注數(shù)據(jù)價值本身而非其分布、規(guī)律等次要因素,因此該方法直觀、明了、效率較高。
本節(jié)比較各質(zhì)量評估模型的運行效率,橫坐標(biāo)代表區(qū)塊鏈中實體數(shù)據(jù)集,縱坐標(biāo)表示各模型運行所需時間,實驗結(jié)果如圖6所示。
圖6 模型效率對比
由結(jié)果可知,AHP、DSMM 方法的平均運行時間在10ms~15ms左右,本文提出的區(qū)塊鏈數(shù)據(jù)質(zhì)量評估模型(DQAM)評估時間在5ms 左右,并且隨著數(shù)據(jù)量的增多,DQAM 模型的評估時間基本波動不大。
本文提出了一種多源異構(gòu)區(qū)塊鏈質(zhì)量評估模型,綜合考慮了企業(yè)經(jīng)營活動信息的一致性、可信度以及價值。一致性評估中著重考慮了實體的上下文信息對實體之間相似度比較的影響;信息可信度評估對企業(yè)經(jīng)營活動信息源、信息評價的可信度表征結(jié)果進(jìn)行融合;價值評估采用信息量衡量區(qū)塊鏈的總價值。最后,通過實驗驗證了本文所提方法的有效性,為區(qū)塊鏈的質(zhì)量評估提供了一條有效的途徑。