李阿芳
摘 要:大數(shù)據(jù)在生產(chǎn)活動(dòng)中扮演著越來(lái)越重要的角色,不可信數(shù)據(jù)給大數(shù)據(jù)的應(yīng)用帶來(lái)了很大的麻煩,如何篩選出真實(shí)可信的數(shù)據(jù)成為大數(shù)據(jù)應(yīng)用的重要課題。本文闡述了當(dāng)前數(shù)據(jù)可信計(jì)算方法和模型,并分析其優(yōu)缺點(diǎn),提出了“互聯(lián)網(wǎng)+”環(huán)境下的數(shù)據(jù)可信度量方法及其評(píng)價(jià)方法。該數(shù)據(jù)可信度量方法依據(jù)發(fā)布信息的主體、數(shù)據(jù)源以及數(shù)據(jù)自身的相關(guān)屬性,計(jì)算數(shù)據(jù)的主觀可信度、全局可信度以及本地可信度。試驗(yàn)結(jié)果表明,本方法在電子商務(wù)數(shù)據(jù)可信度計(jì)算方面有較好的效果。
關(guān)鍵詞:互聯(lián)網(wǎng)+;大數(shù)據(jù);可信度計(jì)算
中圖分類號(hào):TP393.09 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-5168(2019)26-0017-04
Research on Data Credibility Measurement in "Internet +" Environment
LI Afang
(Shandong College of Information Technology,Weifang Shandong 261061)
Abstract: Big data plays an increasingly important role in production activities, and untrusted data has caused great trouble for big data applications. How to filter out authentic data becomes an important topic in big data applications. This paper expounded the current data trustworthy computing methods and models, and analyzed its advantages and disadvantages, and proposed a data credibility measurement method and its evaluation method under the "Internet +" environment. The data trusted metric method calculates the subjective credibility, global credibility and local credibility of the data according to the main body of the published information, the data source and the related attributes of the data itself. The test results show that the method has a good effect on the reliability calculation of e-commerce data.
Keywords: Internet +;big data;data credibility measurement
新時(shí)代,大數(shù)據(jù)呈現(xiàn)出規(guī)模大、流轉(zhuǎn)快、類型多等特點(diǎn),在數(shù)據(jù)生成和傳播過(guò)程中不可避免地產(chǎn)生數(shù)據(jù)不一致、數(shù)據(jù)缺失等問題,導(dǎo)致大數(shù)據(jù)的可信度受到質(zhì)疑[1],低可信度[2]的數(shù)據(jù)對(duì)大數(shù)據(jù)應(yīng)用造成了很大的麻煩。
針對(duì)上述問題,本文提出了“互聯(lián)網(wǎng)+”[3]環(huán)境下基于大數(shù)據(jù)處理技術(shù)的可信度量方法[4]。該方法依據(jù)發(fā)布信息的主體、數(shù)據(jù)源以及數(shù)據(jù)自身的相關(guān)屬性,計(jì)算數(shù)據(jù)的主觀可信度、全局可信度以及本地可信度,具體來(lái)說(shuō),通過(guò)用戶與數(shù)據(jù)源之間的交互記錄計(jì)算主觀可信度,通過(guò)數(shù)據(jù)源發(fā)布或者產(chǎn)生數(shù)據(jù)的交互記錄計(jì)算全局可信度,通過(guò)歷史數(shù)據(jù)來(lái)計(jì)算本地可信度。試驗(yàn)結(jié)果表明,本方法在電子商務(wù)數(shù)據(jù)可信度計(jì)算方面有較好的效果。
1 數(shù)據(jù)可信度計(jì)算方法
1.1 數(shù)據(jù)可信度
在數(shù)據(jù)源可信度計(jì)算模型中,可信度包括直接和間接可信度兩部分[5],根據(jù)實(shí)際情況,人們可以對(duì)兩者分別進(jìn)行加權(quán),得到兩實(shí)體之間的可信度。假設(shè)直接可信度為[DR],間接可信度為[IDR],則兩實(shí)體之間的可信度為[wDR+1-wIDR],其中[w]表示權(quán)重,且滿足[w∈[0,1]]。權(quán)重的大小取決于兩實(shí)體之間交互記錄的多少,如果交互記錄多,則[w]值越大,否則[w]值越小。如果兩實(shí)體之間沒有直接交互記錄,需要引入第三實(shí)體,且第三實(shí)體與前兩個(gè)實(shí)體之間都需要有交互記錄,如圖1所示。
圖1中,A和B之間、B和C之間都有交互記錄,因此可以計(jì)算出兩者的直接信任度,而A和C之間沒有交互記錄,因此只能通過(guò)B來(lái)計(jì)算A和C的間接信任度。
1.2 可信度計(jì)算模型
“互聯(lián)網(wǎng)+”環(huán)境下,數(shù)據(jù)可信度主要包括動(dòng)態(tài)和靜態(tài)兩種計(jì)算模型[6],基本可以劃分為基于交易反饋的可信模型、基于關(guān)系的可信模型和基于興趣的可信模型。
上述三種模型并非相互獨(dú)立,每種模型各有優(yōu)點(diǎn)和缺點(diǎn),在計(jì)算可信度過(guò)程中,人們經(jīng)常需要運(yùn)用多個(gè)模型共同計(jì)算。從上面三種模型可以看出,影響數(shù)據(jù)可信度的因素主要有三個(gè),即主體本身、數(shù)據(jù)源和數(shù)據(jù),因此在“互聯(lián)網(wǎng)+”環(huán)境下計(jì)算數(shù)據(jù)的可信度需要從上述三個(gè)方面入手。
2 大數(shù)據(jù)可信度量方法
2.1 大數(shù)據(jù)可信計(jì)算模型
大數(shù)據(jù)環(huán)境下有各種數(shù)據(jù)源和用戶,為了方便計(jì)算,人們需要將數(shù)據(jù)源和用戶分別抽象為節(jié)點(diǎn),數(shù)據(jù)源和用戶之間的互動(dòng)就可以抽象出5個(gè)交互數(shù)據(jù),即用戶、數(shù)據(jù)源、時(shí)間、結(jié)果以及數(shù)據(jù)內(nèi)容,分別用符號(hào)User、DS、time、Res和Data表示,結(jié)果表示用戶對(duì)該次交互的是否認(rèn)可。在大數(shù)據(jù)可信計(jì)算模型中,首先通過(guò)網(wǎng)絡(luò)爬蟲獲取用戶和數(shù)據(jù)源的交互記錄,并對(duì)這些交互記錄進(jìn)行預(yù)處理,刪除重復(fù)和無(wú)效的數(shù)據(jù),然后對(duì)每條記錄提取交互五元組[T](User,DS,time,Res,Data),之后對(duì)五元組進(jìn)行可信度的計(jì)算,具體計(jì)算流程如圖2所示。
在數(shù)據(jù)可信度計(jì)算過(guò)程中,用戶對(duì)數(shù)據(jù)源之間的交互記錄主要包括用戶對(duì)數(shù)據(jù)源發(fā)布的信息的評(píng)論,主要用于計(jì)算數(shù)據(jù)源的全局可信度,也就是說(shuō),通過(guò)分析全體用戶對(duì)該數(shù)據(jù)源的評(píng)價(jià),獲得關(guān)于該數(shù)據(jù)源的客觀評(píng)價(jià)。主觀可信度表示單個(gè)用戶對(duì)數(shù)據(jù)源發(fā)布消息的信任度,與全局信任度不同,主觀可信度表示個(gè)人對(duì)數(shù)據(jù)源的信任程度。本地可信度是基于數(shù)據(jù)源本身特點(diǎn)計(jì)算的信任度,如數(shù)據(jù)源的所有者、數(shù)據(jù)源取得的認(rèn)證信息、滿足的標(biāo)準(zhǔn)等。
數(shù)據(jù)可信度綜合計(jì)算就是針對(duì)主觀可信度、全局可信度以及本地可信度,采用加法原則,根據(jù)數(shù)據(jù)可信度的側(cè)重點(diǎn)加以權(quán)重。假設(shè)用戶User在t時(shí)刻對(duì)數(shù)據(jù)源DS的主觀可信度為[STUser,DS,t],數(shù)據(jù)源DS在t時(shí)刻的全局可信度為[GTDS,t],數(shù)據(jù)源DS的本地可信度為[LTDS],則此時(shí)數(shù)據(jù)源發(fā)布的數(shù)據(jù)D的可信度可用如式(1)計(jì)算:
[TUser,DS,D,t=αSTUser,DS,t+βGTDS,t+λLTDS]? ? ? ? ? (1)
式中,[α],[β],[λ]分別為三種信任度的權(quán)重系數(shù),且[α+β+λ=1]。在對(duì)待不同的數(shù)據(jù)類型時(shí),可以動(dòng)態(tài)調(diào)整系數(shù)的大小。
2.2 主觀可信度計(jì)算
主觀可信度從本質(zhì)上來(lái)說(shuō)是一種直接可信度,是通過(guò)用戶和數(shù)據(jù)源之間的交互歷史記錄來(lái)計(jì)算的。假設(shè)用戶與數(shù)據(jù)源的交互記錄為[T],[T=T1,T2,…,Tn],其中[Ti=(Di,Si,ti)],三者分別表示交互信息的內(nèi)容、交互信息是否成功、交互時(shí)間。一般來(lái)說(shuō),人們傾向于相信能夠持續(xù)提供準(zhǔn)確信息的數(shù)據(jù)源,因此交互記錄中成功交互可以作為計(jì)算主觀可信度的依據(jù)。在數(shù)據(jù)預(yù)處理過(guò)程中,依據(jù)是否可信,人們需要將交互記錄劃分為可信子序列[CTS=ts1,ts2,…,tsp]和不可信子序列[CFS=fs1,fs2,…,fsp]。
在主觀可信度計(jì)算過(guò)程中,本文采用直接可信計(jì)算的PeerTrust算法,以記錄開始時(shí)間t為準(zhǔn),距離t越長(zhǎng)的交互,即最新的交互的可信程度越高,交互次數(shù)越多,交互的可信程度越高,因此可信交互計(jì)算公式為:
[CTrustUser,DS,t=i=1peti-t×count(tsi)/n]? ? ? ? (2)
式中,[ti]為交互序列[tsi]發(fā)生的時(shí)間;[count(tsi)]為交互序列[tsi]中交互的次數(shù)。
不可信交互計(jì)算公式為:
[CNTrustUser,DS,t=i=1ll2×count(tsi)2eti-t/n2]? ? ? (3)
為了避免在交互過(guò)程中“網(wǎng)絡(luò)水軍”對(duì)正常交互過(guò)程的干擾,在計(jì)算可信交互和不可信交互的過(guò)程中,需要對(duì)交互的用戶主體進(jìn)行評(píng)分,評(píng)分以用戶主體的個(gè)人信息完成程度為標(biāo)準(zhǔn),如是否提供年齡、職業(yè)、通信方式等,以用戶個(gè)人信息為空和提供了完整信息為準(zhǔn),將用戶主體的信息完整程度歸一到[0,1]的區(qū)間,即0<[w(User)]<1,因此用戶User對(duì)數(shù)據(jù)源DS的主觀可信度[STUser,DS,t]為:
[STUser,DS,t=λUserw(User)CTrustw(User)CTrust+(1-w(User))CNTrust]? ? ? ? ?(4)
式中,[λUser]為用戶節(jié)點(diǎn)的獨(dú)立參數(shù)。
2.3 全局可信度計(jì)算
全局信任來(lái)自數(shù)據(jù)源與所有用戶的交互記錄,假設(shè)當(dāng)前數(shù)據(jù)源與用戶和其他數(shù)據(jù)源的交互記錄為[T],[T=T1,T2,…,Tn],其中[Ti=(Vi,Di,Si,ti)],[Vi]表示數(shù)據(jù)源在網(wǎng)絡(luò)中的標(biāo)識(shí),其他符號(hào)與主觀可信度計(jì)算中的意義相同。由于全局可信度是由所有用戶對(duì)該數(shù)據(jù)源的信任度決定的,一般來(lái)說(shuō),對(duì)該數(shù)據(jù)源的信任度特別高或者特別低的用戶的評(píng)價(jià)通常有較強(qiáng)的主觀性,因此需要弱化該部分用戶的信任度在全局可信度計(jì)算中的比例。在t時(shí)刻,全局可信值用[GTrust(DS,t)]表示,則有
[GTrust(DS,t)=mi=1m1STUser,DS,t]? ? ? ?(5)
2.4 本地可信度計(jì)算
本地可信度是指數(shù)據(jù)源自身的可信度,該值的大小取決于其所有發(fā)布信息的可信度,且消息的發(fā)布時(shí)間越新,其可信度在本地可信度中占比越大。假設(shè)數(shù)據(jù)源DS發(fā)布的歷史記錄為[D=Dt1,Dt2,…,Dtn],該序列按時(shí)間順序排列,每條記錄的格式為[Dti=dti1,dti2,…,dtim],[dtim]表示記錄[Dti]的第[m]個(gè)主題,每個(gè)主題包括兩個(gè)Title和Value兩部分內(nèi)容,因此本地可信度的計(jì)算公式如下:
[LTrust(Dn)=j-1n-1sim(Dn,Dj)×LTrust(Dj)j=1nsim(Da,Db)]? ? ? ?(6)
式中,[sim(Dn,Dj)]函數(shù)表示記錄[Dn]與[Dj]的相似度。相似度的計(jì)算公式為:
[sim(Da,Db)=i=1mdai×dbi(i=1md2ai)×(i=1md2bi)]? ? ? ? ? (7)
式中,[m]表示在兩個(gè)記錄[Da]、[Db]中相同主題的個(gè)數(shù)。
3 試驗(yàn)仿真
本仿真試驗(yàn)的目的是檢驗(yàn)方法的正確性,試驗(yàn)的數(shù)據(jù)集采用社會(huì)化電子商務(wù)網(wǎng)站Epinions.數(shù)據(jù)集,包含用戶對(duì)項(xiàng)目的評(píng)分信息和用戶之間的信任信息。為了方便計(jì)算,其間對(duì)數(shù)據(jù)集進(jìn)行歸一化處理,將數(shù)據(jù)集的信任值使用[TTmax]轉(zhuǎn)化到[0,1]區(qū)間內(nèi),數(shù)據(jù)集的統(tǒng)計(jì)特征如表1所示。
計(jì)算過(guò)程中,用戶和數(shù)據(jù)源可抽象為節(jié)點(diǎn)Entity,實(shí)體之間的交互記錄記為Data,Data的記錄中有多個(gè)主題,涉及數(shù)據(jù)源之間的參數(shù)如表2所示。
在試驗(yàn)過(guò)程中,首先根據(jù)大數(shù)據(jù)可信度計(jì)算方法計(jì)算出數(shù)據(jù)的可信值,然后通過(guò)實(shí)際的數(shù)據(jù)可信值與數(shù)據(jù)集中預(yù)先計(jì)算好的信任值進(jìn)行比較。在計(jì)算過(guò)程中,根據(jù)式(1)、式(4)、式(5)和式(6)分別計(jì)算其信任值,并對(duì)比迭代次數(shù)為500和1 000的計(jì)算結(jié)果。本文采用傳統(tǒng)的EigenTrust算法、PeerTrust算法與本算法的計(jì)算結(jié)果進(jìn)行對(duì)比,并使用平均絕對(duì)誤差MAE和均方根誤差RMSE兩種指標(biāo)來(lái)衡量三種算法的性能,計(jì)算結(jié)果如表3所示。
從表3可以看出,隨著迭代次數(shù)的增加,基于大數(shù)據(jù)的數(shù)據(jù)可信度計(jì)算方法在計(jì)算準(zhǔn)確度上明顯高于其他兩種算法,本文提出的算法在MAE和RMSE兩個(gè)指標(biāo)上分別提升了13.1%和9.5%,明顯高于其他兩種算法。
4 結(jié)語(yǔ)
本文研究了大數(shù)據(jù)、社會(huì)學(xué)中的信任理論和各種可信度分析模型,然后提出了“互聯(lián)網(wǎng)+”環(huán)境下基于大數(shù)據(jù)處理技術(shù)的可信度量方法,根據(jù)實(shí)際情況,分別計(jì)算用戶對(duì)數(shù)據(jù)源的主觀可信度、數(shù)據(jù)源的全局可信度和本地可信度,然后通過(guò)權(quán)重加成的方式獲取最終的可信度。在Epinions.數(shù)據(jù)集上與其他可信度計(jì)算算法對(duì)比,結(jié)果發(fā)現(xiàn),本算法在準(zhǔn)確度上明顯高于其他算法。
參考文獻(xiàn):
[1]李剛,李天琦,程曉榮,等.大數(shù)據(jù)可信性度量方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2017(3):652-658.
[2]李淑慧.C2C電子商務(wù)信用評(píng)價(jià)體系研究:以淘寶網(wǎng)為例[J].山西農(nóng)經(jīng),2019(3):11-12.
[3]趙陽(yáng),朱全銀,胡榮林,等.基于自編碼機(jī)和聚類的混合推薦算法[J].微電子學(xué)與計(jì)算機(jī),2018(11):52-56.
[4]戚耀元,戴淑芬,葛澤慧.“互聯(lián)網(wǎng)+”環(huán)境下企業(yè)創(chuàng)新系統(tǒng)耦合研究:技術(shù)創(chuàng)新與商業(yè)模式創(chuàng)新耦合案例分析[J].科技進(jìn)步與對(duì)策,2016(23):76-80.
[5]林泓,辛海濤,謝嘉楠.基于直接和推薦可信度的P2P綜合信任模型[J].武漢理工大學(xué)學(xué)報(bào)(信息與管理工程版),2011(6):887-891.
[6]中國(guó)科學(xué)院信息工程研究所.一種基于動(dòng)態(tài)信任模型的IP定位數(shù)據(jù)庫(kù)可信度評(píng)估方法:中國(guó),CN201710092867.8[P].2017-08-01.