基于分布式技術(shù)的多級數(shù)據(jù)真值發(fā)現(xiàn)?
呂維新殷軍
(云南電網(wǎng)有限責(zé)任公司昆明供電局昆明650200)
為了進(jìn)一步提升數(shù)據(jù)管理系統(tǒng)的可靠性和準(zhǔn)確性,論文提出了一種基于分布式技術(shù)的多級數(shù)據(jù)真值挖掘發(fā)現(xiàn),消除了級別之間的差異性與獨(dú)立性。該方法將數(shù)據(jù)源的數(shù)據(jù)相值進(jìn)行分級,利用級值與真實(shí)值相似度定義準(zhǔn)確率迭代,避免了同一數(shù)據(jù)在不同級被抽取時(shí)的差異性。通過在分布式技術(shù)挖掘算法下,分別計(jì)算級值概率和偏離度來判斷多級數(shù)據(jù)真實(shí)值。最后,通過對重疊數(shù)據(jù)集的實(shí)驗(yàn)說明了論文提出的多級數(shù)據(jù)真值發(fā)現(xiàn)的高效性。
多級數(shù)據(jù);真值發(fā)現(xiàn);分布式;數(shù)據(jù)挖掘
Class NumberTN919.3
隨著互聯(lián)網(wǎng)計(jì)算機(jī)的興起,人們越來越依賴于大數(shù)據(jù)帶來的信息與資源,對于信息的可靠性與準(zhǔn)確性提出了更高的要求[1~2]。多級數(shù)據(jù)在來源上具有復(fù)雜性與模糊性,已有的真值算法采用迭代機(jī)制來進(jìn)行真值發(fā)現(xiàn)[3]。數(shù)據(jù)源質(zhì)量越高,提供的值正確率也越高,與真實(shí)值的偏差也越小。來源提供的值與真實(shí)值的偏差越小,值質(zhì)量越高,來源質(zhì)量也越高,數(shù)據(jù)源質(zhì)量和值質(zhì)量二者相互依賴[4~5]。本研究也采用分布式真值發(fā)現(xiàn)迭代算法,用提供值的所有來源準(zhǔn)確率衡量值可靠性,選出真實(shí)值,用來源提供的所有值與“真實(shí)值”的相似度衡量來源可靠性,在迭代過程中一步一步地逼近真實(shí)值。
2.1符號說明
為了方便描述多級數(shù)據(jù)問題,給相關(guān)概念及其符號給出詳細(xì)解釋[6],如表1所示。
根據(jù)表1對多級數(shù)據(jù)的定義,s→f表明由來源s提供事實(shí)f。f→i表明由事實(shí)f來對數(shù)據(jù)項(xiàng)I進(jìn)行描述。fi表示事實(shí)f的第i級數(shù)據(jù)集的值,fi→f表示級值fi是事實(shí)f的一部分。tf表明由事實(shí)f進(jìn)行描述的數(shù)據(jù)項(xiàng)的真值,tfi表明由事實(shí)f進(jìn)行描述的數(shù)據(jù)項(xiàng)的真值在第i級上的體現(xiàn)。一般來說,每一個(gè)數(shù)據(jù)項(xiàng)真值情況有所不同,有的數(shù)據(jù)項(xiàng)存在多個(gè)真值,而有的數(shù)據(jù)項(xiàng)僅存在單真值,本文將僅對單真值的數(shù)據(jù)項(xiàng)進(jìn)行考察。
表1 符號說明
2.2理論分析
對于每一組數(shù)據(jù)的來源,其在不同的數(shù)據(jù)項(xiàng)上提供事實(shí),但存在對于不同的數(shù)據(jù)項(xiàng)覆蓋率不同的情況,一些數(shù)據(jù)來源能夠提供相當(dāng)數(shù)量的數(shù)據(jù)項(xiàng)值,而有些數(shù)據(jù)來源僅能提供少量的數(shù)據(jù)項(xiàng)值[7]。這和數(shù)據(jù)來源的質(zhì)量也有很大的關(guān)系。同一個(gè)數(shù)據(jù)來源其自身提供的值可能存在一定的沖突[8],為了找出真實(shí)值,我們需要解決這樣的自沖突。因此,本文研究的問題可簡述如下:1)給定一定集合數(shù)據(jù)的數(shù)據(jù)源并提供其事實(shí)數(shù)據(jù)[9];2)研究如何為不同的數(shù)據(jù)項(xiàng)篩選出其真實(shí)值[10]?;诜植际郊夹g(shù)挖掘算法下,本文將給出以下假設(shè)來簡化所研究的問題,如下所示。
1)假設(shè)每個(gè)數(shù)據(jù)項(xiàng)僅存在單真值。當(dāng)同一個(gè)數(shù)據(jù)項(xiàng)存在多個(gè)事件發(fā)生沖突時(shí),必定能找到唯一的真值。
2)數(shù)據(jù)來源提供的數(shù)據(jù)相互獨(dú)立,對于不同數(shù)據(jù)源之間存在的聯(lián)系情況并不在考慮的范圍之內(nèi)。
3)每個(gè)數(shù)據(jù)項(xiàng)之間是相互獨(dú)立的,對于不同的數(shù)據(jù)項(xiàng)的事實(shí),其為真的概率相互之間沒有關(guān)聯(lián)。
4)數(shù)據(jù)項(xiàng)的級別之間互不干擾相互獨(dú)立,不同級值為真的概率相互之間沒有關(guān)聯(lián)。
分布式技術(shù)挖掘算法是基于迭代的思想而實(shí)現(xiàn)的[11]。在上述的四個(gè)假設(shè)之下,每一循環(huán)的迭代過程主要包含下述兩個(gè)主要的關(guān)鍵步驟:
1)針對每一個(gè)數(shù)據(jù)項(xiàng)的值進(jìn)行分級,并對每件事實(shí)f進(jìn)行拆分,將其劃分為多條級值{f1,f2,…,fL(f)},根據(jù)數(shù)據(jù)項(xiàng)所提供的fi(1≤i≤L(f))的來源的配適率得出各個(gè)級值fi獲得的投票,同時(shí)以各條級值fi獲得的投票為依據(jù)來獲得完整的關(guān)于事實(shí)f的投票,再篩選出得到投票數(shù)最高的數(shù)據(jù)項(xiàng)的值作為“真實(shí)值”。
2)演繹出事實(shí)f的級值fi(1≤i≤L(f))以及其與“真值”對應(yīng)的級值tfi的相似程度,并以每級的相似度為依據(jù)來計(jì)算出完整事件事實(shí)f以及“真值”tf的相似程度,并根據(jù)所選數(shù)據(jù)來源的配適率來對下一輪的數(shù)據(jù)處理進(jìn)行迭代。
3.1級值計(jì)算
本文借鑒貝葉斯公式計(jì)算fi,即P(fitrue|ψ(fi)),其中fi為計(jì)算概率為真的公式,并從中篩選出表示fi概率為真的投票值大小的算法并得出fi所獲得的投票[5]。根據(jù)上述的假設(shè)3),事實(shí)fi為真的概率僅僅與f所描述的提供真值的數(shù)據(jù)項(xiàng)來源相關(guān)。再根據(jù)上述的假設(shè)4),fi為真的概率僅僅與f所描述的數(shù)據(jù)項(xiàng)第i級值分布相關(guān)。|S(fi)|表示提供特定極值i的事實(shí)f來源的數(shù)量,其中絕對值表明該數(shù)據(jù)集合的大小。|S∧(fi)|表示提供特定極值i的事實(shí)f來源的數(shù)量,即提供錯(cuò)誤極值的來源數(shù)量。利用|S∨(fi)|表示|S(fi)|∪|S∧(fi)|的集合,數(shù)據(jù)項(xiàng)來源的配適率由A(s)表示。某個(gè)數(shù)據(jù)項(xiàng)來源錯(cuò)誤的概率在本文中用Pop(f)表示,簡寫為P(fi),完整值的投票數(shù)由C(fi)表示,通過推算得到下式:
本文利用上式來計(jì)算提供不同質(zhì)量的數(shù)據(jù)來源的不同極值i的事實(shí)fi的總投票數(shù),其總的投票數(shù)量越高,fi為真的概率則越高。
3.2完整值計(jì)算
本文將采取按照級別的高低乘以權(quán)重再疊加的方法來計(jì)算出完整值的投票數(shù)。數(shù)據(jù)項(xiàng)分級越高則在決定完整值的投票數(shù)時(shí)其地位越發(fā)重要也越有話語權(quán),規(guī)定級別從1開始,隨著數(shù)值的增大其代表的級別也越高[12]。當(dāng)數(shù)據(jù)項(xiàng)的數(shù)值與地理信息位置相聯(lián)系的時(shí)候,其級別數(shù)越高,與其對應(yīng)的地理位置的范圍就越廣,同樣,當(dāng)數(shù)據(jù)項(xiàng)的數(shù)值與長度、重量、距離等相聯(lián)系的時(shí)候,其級別越高,相對應(yīng)的等級也就越大。當(dāng)一個(gè)數(shù)據(jù)項(xiàng)的數(shù)值為數(shù)字時(shí),其級別越大越具有發(fā)言權(quán),也就是數(shù)值的大小最大程度地取決于其數(shù)量等級較高的數(shù)字,在信息位置上此原理同等適用,級別越高的數(shù)值決定基本的位置的范圍。這樣的原理運(yùn)用到完整值的投票數(shù)之上,則其等級越高,權(quán)重越大。
根據(jù)每個(gè)級值獲得的投票數(shù)和相對應(yīng)的影響因子相乘并進(jìn)行累加,可計(jì)算出完整值的投票數(shù)。假定數(shù)據(jù)項(xiàng)級別i的權(quán)重為1,各個(gè)級別之間的權(quán)重比均為α,同時(shí)設(shè)α>1,可得到如下表達(dá)式:
根據(jù)上式,依據(jù)所選范圍內(nèi)的所有數(shù)據(jù)項(xiàng)的事實(shí)f完整值投票數(shù)篩選出每一個(gè)數(shù)據(jù)項(xiàng)的“真值”。依據(jù)表1中的假設(shè)1),同一個(gè)數(shù)據(jù)項(xiàng)存在多個(gè)事件發(fā)生沖突時(shí),必定能找到唯一的真值。因此可根據(jù)數(shù)據(jù)項(xiàng)上投票數(shù)目最多的原則選擇對應(yīng)的事實(shí)f作為真值。
3.3真值計(jì)算
評判數(shù)據(jù)來源提供數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)是,數(shù)據(jù)來源所提供的值同“真值”之間的相似程度,兩者之間的相似程度越高則數(shù)據(jù)來源提供值的質(zhì)量則越高,也就是說當(dāng)數(shù)據(jù)來源所提供的值同“真值”之間的相似程度較低時(shí),數(shù)據(jù)來源提供值的質(zhì)量則越低。本文利用來源所提供的值同“真值”之間的相似程度來表示來源提供值的質(zhì)量[13]。當(dāng)數(shù)據(jù)項(xiàng)中來源提供值的質(zhì)量越高,則其配適率越高。數(shù)據(jù)來源在它所提供了值的所有的數(shù)據(jù)項(xiàng)上的綜合表現(xiàn)會影響到來源配適率的評價(jià)。為了防止極端的數(shù)據(jù)項(xiàng)值兩極分化帶來的數(shù)據(jù)波動(dòng)從而影響到數(shù)據(jù)配適率的計(jì)算,本文將來源所提供的值同“真值”之間的相似程度的平均值作為來源的配適率,如式(3)所示。在計(jì)算過程中將來源所提供的值同“真值”之間的相似程度的演算過程劃分為兩個(gè)步驟:1)計(jì)算出來源所提供的值同“真值”之間的相似程度;2)按照級別的高低乘以權(quán)重再疊加計(jì)算出完整值同真值之間的相似程度。假設(shè)相鄰的兩個(gè)級別之間的影響因子之比均為β,同時(shí)假定β>1,所有的權(quán)重系數(shù)之和為1,由此可得:
3.4算法描述
input:對于來自每個(gè)數(shù)據(jù)源的事實(shí)的集合F劃分為若干個(gè)數(shù)據(jù)源S。
output:真值集合與數(shù)據(jù)源的質(zhì)量指標(biāo)。
Letα=2.5,β=1.5,A(s)=0.6根據(jù)(1)式計(jì)算βl
for eachs∈S//初始化數(shù)據(jù)源質(zhì)量
end
repeat
for eachi=I//根據(jù)(16)式計(jì)算βl
for eachf,f→i//根據(jù)(7)、(8)式計(jì)算第i個(gè)數(shù)據(jù)項(xiàng)事實(shí)的投票數(shù)
for eachfi→f//根據(jù)(9)式計(jì)算事實(shí)的投票數(shù)
end//選出數(shù)據(jù)項(xiàng)i的真實(shí)值
end
end
for eachs∈S//計(jì)算第i個(gè)數(shù)據(jù)項(xiàng)事實(shí)級值與對應(yīng)級數(shù)真實(shí)值之間的相似度
for eachf,s∈f//根據(jù)(15)式計(jì)算完整值f與對應(yīng)真實(shí)值之間的相似度
for eachfi,fi∈f//根據(jù)(13)式計(jì)算數(shù)據(jù)來源s的準(zhǔn)確率A(s)
end
end
end
until Convergence//計(jì)算直到真實(shí)值收斂于級值
returnP(f)andA(s)
4.1實(shí)驗(yàn)準(zhǔn)備
本文以Java語言為工具對本文算法同之前常用算法進(jìn)行對比。JDK的版本為JDK6.0。實(shí)驗(yàn)所選取的處理器為Intel Core i7-2600,實(shí)驗(yàn)過程在內(nèi)存為16GB的Thinkpad筆記本上進(jìn)行,操作系統(tǒng)為Windows10。
4.2性能評價(jià)
本文采取配適率的指標(biāo)來對算法進(jìn)行評價(jià)。利用數(shù)據(jù)集來提供“真值”由此組成“真值”集合,由于數(shù)據(jù)集較為龐大,提供的數(shù)據(jù)項(xiàng)值數(shù)量眾多,如若全部采用人工驗(yàn)證的方法其代價(jià)太大,因此僅包含少數(shù)部分的數(shù)據(jù)項(xiàng)。本文將算法輸出的真實(shí)值同真值的集合的數(shù)值比較以此來對算法的結(jié)果進(jìn)行評價(jià)。集合A表示分布式數(shù)據(jù)真值發(fā)現(xiàn)輸出的同數(shù)據(jù)項(xiàng)所對應(yīng)的“真實(shí)值”,集合B表示集合A描述的數(shù)據(jù)項(xiàng)的子集,它表示真實(shí)值集合所描述的數(shù)據(jù)項(xiàng)。算法準(zhǔn)確率的計(jì)算公式為
本文所采取的分布式真值發(fā)現(xiàn)在對其輸出配適率計(jì)算時(shí)數(shù)據(jù)來源所提供的值同“真值”之間的相似程度進(jìn)行衡量。依據(jù)不同的數(shù)據(jù)集的性質(zhì)采取不同的數(shù)據(jù)采集方法和相似程度度量的方法。本文的試驗(yàn)中選取天氣和人口的數(shù)據(jù)集為數(shù)值型的數(shù)據(jù),依據(jù)其數(shù)值的大小進(jìn)行相似程度的衡量,而像文本這樣的數(shù)據(jù)集為字符串型的數(shù)據(jù),依據(jù)其字符串的長度對其相似程度進(jìn)行衡量。本文將分布式數(shù)據(jù)真值發(fā)現(xiàn)同幾個(gè)常用的真值發(fā)現(xiàn)算法,如Vote、ACCUVOTE、Estimates等進(jìn)行比較,并根據(jù)每個(gè)算法的特性對參數(shù)進(jìn)行調(diào)整,選取最優(yōu)結(jié)果來進(jìn)行比較。
4.3實(shí)驗(yàn)數(shù)據(jù)集
本文選取供電局都采用的能量管理系統(tǒng)(EMS)集控中心的變損、線損和負(fù)載損耗三個(gè)真值的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)并利用輸出結(jié)果進(jìn)行比較。三者的數(shù)據(jù)集為數(shù)值型的數(shù)據(jù),滿足多級空間值定義,各級別之間的獨(dú)立性比較明顯?!罢鎸?shí)集”即真實(shí)值,其表明了由人工校準(zhǔn)的方式篩選出的于數(shù)據(jù)集相對應(yīng)的正確的數(shù)據(jù)項(xiàng)值的數(shù)量,各個(gè)算法的配適率則是通過將真實(shí)集同算法的輸出結(jié)果進(jìn)行比較得出。具體描述了這三類數(shù)據(jù)集的詳細(xì)統(tǒng)計(jì)信息如表2所示。
表2 電網(wǎng)信息真實(shí)數(shù)據(jù)集統(tǒng)計(jì)
4.4結(jié)果分析
具體的算法準(zhǔn)確率與時(shí)間開銷如表4所示。
表4 不同算法的準(zhǔn)確率與時(shí)間開銷統(tǒng)計(jì)
由表3的準(zhǔn)確率P可以看出,分布式數(shù)據(jù)真值發(fā)現(xiàn)在線損數(shù)據(jù)集挖掘上擁有出色的表現(xiàn),比AC?CUVOTE算法的配適準(zhǔn)確率高出4.1%。由于分布式數(shù)據(jù)真值發(fā)現(xiàn)參考了ACCUVOTE的一些原則,其配適率與ACCUVOTE算法存在一定的聯(lián)系,但最終實(shí)驗(yàn)結(jié)果相較于ACCUVOTE算法要優(yōu)越一些。而在變損和負(fù)載損耗數(shù)據(jù)集上,分布式數(shù)據(jù)真值發(fā)現(xiàn)和ACCUVOTE算法輸出結(jié)果的的配適率較低。分布式數(shù)據(jù)真值發(fā)現(xiàn)前提條件是數(shù)值擁有多級值空間,而對于數(shù)據(jù)項(xiàng)的值相對都比較小的數(shù)據(jù)集而言,分布式數(shù)據(jù)真值發(fā)現(xiàn)的多級值空間分級并不存在發(fā)揮其優(yōu)勢的空間。ACCUVOTE方法輸出的結(jié)果在負(fù)載損耗數(shù)據(jù)集上表現(xiàn)也并不如人所愿,主要是負(fù)載損耗數(shù)據(jù)集中的數(shù)據(jù)來源的數(shù)量較少而與數(shù)據(jù)集對應(yīng)的真值較多由此容易引發(fā)冗余數(shù)據(jù)的產(chǎn)生。由于數(shù)據(jù)源之間冗余數(shù)據(jù)的數(shù)據(jù)項(xiàng)數(shù)量較大,它作為指數(shù),容易導(dǎo)致利用ACCUVOTE算法演算數(shù)據(jù)源之間存在依賴。
由表3的時(shí)間開銷與迭代次數(shù)之間的關(guān)系不難發(fā)現(xiàn),Vote算法的時(shí)間耗費(fèi)最小,分布式數(shù)據(jù)真值發(fā)現(xiàn)時(shí)間耗費(fèi)較小,ACCUVOTE時(shí)間耗費(fèi)次之。由于算法中需要采取迭代來計(jì)算數(shù)據(jù)源之間的依賴程度們因此需要大量的計(jì)算時(shí)間,因而時(shí)間開銷較大,其中變損數(shù)據(jù)集的時(shí)間開銷最為明顯。
對參數(shù)α與β的調(diào)整對實(shí)驗(yàn)結(jié)果會產(chǎn)生影響,具體的結(jié)果如圖1和圖2所示。
圖1 不同α調(diào)整分布式真值發(fā)現(xiàn)準(zhǔn)確率
圖2 不同β調(diào)整分布式真值發(fā)現(xiàn)準(zhǔn)確率
根據(jù)圖1中描繪了在β不變且各自選取最優(yōu)值的條件下,當(dāng)參數(shù)α從1.5不斷調(diào)整到4時(shí),變損、線損和負(fù)載損耗三個(gè)數(shù)據(jù)集在算法輸出的結(jié)果中其配適率變化的曲線。當(dāng)變損數(shù)據(jù)集的參數(shù)設(shè)定為2.5時(shí),分布式真值發(fā)現(xiàn)的配適率最高。當(dāng)線損數(shù)據(jù)集的參數(shù)設(shè)定為1.5時(shí),各個(gè)“級別”之間的獨(dú)立性較強(qiáng),不存在拆分的關(guān)聯(lián)原則,導(dǎo)致各個(gè)級別之間的權(quán)重比越大因此結(jié)果也越差。當(dāng)線損數(shù)據(jù)集的參數(shù)設(shè)定為2時(shí),結(jié)果最優(yōu)。圖2中描繪了在α不變且各自選取最優(yōu)值的條件下,當(dāng)參數(shù)β從1.2不斷調(diào)整到2時(shí),三個(gè)數(shù)據(jù)集在算法輸出的結(jié)果中其配適率變化的曲線。參數(shù)均取為1.2時(shí),線損和負(fù)載損耗數(shù)據(jù)集各個(gè)級別之間的權(quán)重比越低,結(jié)果最優(yōu)。當(dāng)變損數(shù)據(jù)集的β取為1.6時(shí),結(jié)果最優(yōu)。
論文針對數(shù)據(jù)管理系統(tǒng)中存儲的多級數(shù)據(jù)真值發(fā)現(xiàn)問題,從多級數(shù)據(jù)源特征出發(fā),利用數(shù)據(jù)集分級后級值與真實(shí)值相似度定義分布式迭代真值發(fā)現(xiàn)。通過貝葉斯公式構(gòu)建不同質(zhì)量的數(shù)據(jù)來源級值計(jì)算,結(jié)合級別權(quán)值迭代生成完整值并利用相似度定義不同級別之間的差異性,最終設(shè)計(jì)了一套分布式真值發(fā)現(xiàn)算法。該多級數(shù)據(jù)真值發(fā)現(xiàn)算法準(zhǔn)確率高,可為數(shù)據(jù)信息管理系統(tǒng)的數(shù)據(jù)分類與挖掘提供一種新的途徑。
[1]楊志.一種實(shí)時(shí)大數(shù)據(jù)查詢技術(shù)-對象分布式查詢[J].計(jì)算機(jī)與數(shù)字工程,2015(10):1851-1856.
YANG Zhi.A Real-Time Big Data Query Technology-Objects Distributed Queries[J].Computer&Digital Engi?neering,2015(10):1851-1856.
[2]付仲良,劉思遠(yuǎn),田宗舜,等.基于多級R-tree的分布式空間索引及其查詢驗(yàn)證方法研究[J].測繪通報(bào),2012(11):42-46.
FU Zhongliang,LIU Siyuan,TIAN Zongshun,et al.Meth?od of Distributed Spatial Indexing and Query Authentica?tion Based on Multi-Level R-Tree[J].Bulletin of Surcey?ing and Mapping,2012(11):42-46.
[3]張濤,余煬,李弋.Linux服務(wù)器安全審計(jì)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件,2014(5):17-22.
ZHANG Tao,YU Yang,LI Ge.Design and Implementa?tion of Linux Server Security Audit System[J].Computer Applications and Software,2014(05):17-22.
[4]李天義,谷峪,馬茜,等.一種多源感知數(shù)據(jù)流上的連續(xù)真值發(fā)現(xiàn)技術(shù)[J].軟件,2016(7):341-349.
LI Tianyi,GU Yu,MA Qian,et al.A multi-Source-Aware Continuous Stream on the True Value of Data Discovery Technology[J].software.2016(7):341-349.
[5]張志強(qiáng),劉麗霞,謝曉芹,等.基于數(shù)據(jù)源依賴關(guān)系的信息評價(jià)方法研究[J].計(jì)算機(jī)學(xué)報(bào),2012,35(11):2392-2402.
ZHANG Zhiqiang,LIU Lixia,XIE Xiaoqin,et al.Evalua?tion Method of Information Based on the Data Source De?pendency[J].Journal of Computers,2012,35(11):2392-2402.
[6]馬如霞,孟小峰.基于數(shù)據(jù)源分類可信性的真值發(fā)現(xiàn)方法研究[J].計(jì)算機(jī)研究與發(fā)展,2015(9):1931-1940.
MA Ruxia,MENG Xiaofeng.Credibility of the Discovery of the True Value Based on the Data Source Classification[J].Research and Development of Computer,2015(9):1931-1940.
[7]唐向紅,李國徽,楊觀賜.快速挖掘數(shù)據(jù)流中離群點(diǎn)[J].小型微型計(jì)算機(jī)系統(tǒng),2011,32(1):9-16.
TANG Xianghong,LI Guohui,YANG Guanci.Fast Mining Data Stream Outliers[J].Journal of Chinese Computer Sys?tems,2011,32(01):9-16.
[8]祝然威,王鵬,劉馬金.基于計(jì)數(shù)的數(shù)據(jù)流頻繁項(xiàng)挖掘算法[J].計(jì)算機(jī)研究與發(fā)展,2011,48(10):1803-1811.
ZHU Ranwei,WANG Peng,LIU Majin.Data Stream Min?ing Algorithms Based on Frequent Item Count[J].Re?search and Development of Computer,2011,48(10):1803-1811.
[9]余祖坤,許景楠,鄭小林,等.基于信任的真實(shí)數(shù)據(jù)判定方法[J].系統(tǒng)工程理論與實(shí)踐,2013,33(9):2404-2414.
YU Zukun,XU Jingnan,ZHENG Xiaolin,et al.Real Data Determination Method Based on Trust[J].Systems Engi?neering Theory and Practice,2013,33(9):2404-2414.
[10]廖國瓊,吳凌琴,萬常選.基于概率衰減窗口模型的不確定數(shù)據(jù)流頻繁模式挖掘[J].計(jì)算機(jī)研究與發(fā)展. 2012,49(5):1105-1115.
LIAO Guoqiong,WU Linqin,WAN Changxuan.Mining Model Based on Probability Attenuation Window of Un?certain Data Stream Frequent Pattern[J].Research and Development of Computer,2012,49(5):1105-1115.
[11]王繼奎,李少波.多數(shù)據(jù)源沖突的主數(shù)據(jù)真值發(fā)現(xiàn)算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2014,35(1):177-182.
WANG Jikui,LI Shaobo.Master Data Multiple Data Sources Conflicts True Value Discovery Algorithm[J]. Engineering and Design of Computer,2014,35(1):177-182.
[12]郭繼東,李學(xué)慶,楊成偉.基于子空間的魯棒射影重建方法[J].計(jì)算機(jī)學(xué)報(bào),2013,36(12):2560-2576.
GUO Jidong,LI Xueqing,YANG Chengwei.A Robust Subspace Algorithm for Projective Reconstruction from Multiple Images[J].Journal of Computers,2013,36(12):2560-2576.
[13]劉暢,唐達(dá).一種改進(jìn)的加權(quán)隨機(jī)抽樣算法[J].軟件,2011,32(1):14-17.
LIU Chang,TANG Da.An Improved Algorithm of Weighted Random Sampling[J].Computer Engineering &Software,2011,32(1):14-17.
Multi-level Data True Value Discovery Based on Distributed Technology
LV WeixinYIN Jun
(Yunnan Power Grid Co.,Ltd.Kunming Power Supply Bureau,Kunming650200)
To further enhance the reliability and accuracy of the data management system,this study presents a multi-level data based on distributed technology discovered the true value of mining and eliminates the difference between the level of indepen?dence.This method grades the data phase values of data source and use level values and the real value of the defined similarity itera?tive accuracy to avoid the same data is extracted in a different level when differences.By distributed technical mining algorithm the probability of level values and the degree of deviation are calculated to determine the true value of the multi-level data.Finally,through the overlapping data sets of experiments the efficiency of multi-level data true value discovery is illustrated.
multi-level data,true value discovery,distributed,data mining
TN919.3
10.3969/j.issn.1672-9722.2017.05.030
2016年11月7日,
2016年12月19日
國家自然科學(xué)基金資助項(xiàng)目(編號:51277085)資助。
呂維新,男,高級工程師,研究方向:云計(jì)算。殷軍,男,工程師,研究方向:信息技術(shù)與信息管理,計(jì)算機(jī)技術(shù)。