劉 亞 男
(安徽工商職業(yè)學(xué)院,安徽 合肥 231131)
數(shù)據(jù)共享是指通過數(shù)據(jù)分析,根據(jù)數(shù)據(jù)規(guī)律使數(shù)據(jù)在不同服務(wù)器間交互的過程,是知識發(fā)現(xiàn)領(lǐng)域的重要應(yīng)用技術(shù)。數(shù)據(jù)共享過程包括數(shù)據(jù)采集、統(tǒng)計、分類、上傳等[1-2]。利用數(shù)據(jù)共享跟蹤算法,有效獲取相關(guān)數(shù)據(jù),可以減少人力、物力資源的消耗,提高決策效率。隨著數(shù)據(jù)量不斷擴(kuò)增,研究提高數(shù)據(jù)共享跟蹤效果的運(yùn)行效率與跟蹤結(jié)果的精準(zhǔn)度的算法具有重要現(xiàn)實(shí)意義[3-4]。
當(dāng)前已經(jīng)有很多專家和學(xué)者提出了較好的數(shù)據(jù)共享算法[5]。如:高峰提出了一種大數(shù)據(jù)分析的數(shù)據(jù)交互共享平臺,通過對數(shù)據(jù)的自適應(yīng)調(diào)度優(yōu)化,對共享數(shù)據(jù)庫進(jìn)行設(shè)計[6],但該方法對數(shù)據(jù)的分類不夠精細(xì),導(dǎo)致共享效果跟蹤準(zhǔn)確度較低。李云飛提出利用自適應(yīng)調(diào)度加權(quán)系數(shù)對數(shù)據(jù)進(jìn)行模糊聚類控制,以完成數(shù)據(jù)的共享存取[7],但該方法的模型構(gòu)建過程復(fù)雜,降低了算法的跟蹤效率。楊蘊(yùn)睿提出分析數(shù)據(jù)的特征,通過正交加權(quán)約束均衡比改進(jìn)蟻群算法,結(jié)合蛙跳算法得到數(shù)據(jù)最優(yōu)共享[8],但該算法所需的跟蹤時間較長,且匯總分析過程復(fù)雜。
針對上述方法存在的問題,提出一種基于加權(quán)關(guān)聯(lián)規(guī)則的數(shù)據(jù)共享效果跟蹤算法。應(yīng)用模糊關(guān)聯(lián)規(guī)則來改善數(shù)據(jù)分類的分區(qū)界限過硬問題,通過數(shù)據(jù)空間映射關(guān)系與數(shù)據(jù)跟蹤因子的結(jié)合,獲取在相同維度與不同維度內(nèi)數(shù)據(jù)空間的數(shù)據(jù)跟蹤算法。
一般情況下,各類信息數(shù)據(jù)共享效果之間或多或少地存在某種內(nèi)在或外在關(guān)聯(lián),在進(jìn)行數(shù)據(jù)共享效果跟蹤前,須要對獲取的數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析,分區(qū)處理獲得的數(shù)據(jù),并進(jìn)行轉(zhuǎn)換,變換為二值型。為不使分區(qū)的數(shù)據(jù)之間的邊界過于硬化,用融合模糊理論來軟化數(shù)據(jù)劃分的邊界[9]。
模糊理論的運(yùn)算過程是以模糊集合為基礎(chǔ)將數(shù)據(jù)信息進(jìn)行嚴(yán)密量化,并將量化后的數(shù)據(jù)元素劃分為模糊數(shù)據(jù)集合,設(shè)定義域?yàn)閁,對于U內(nèi)的某一屬性模糊集合A都有一個與之對應(yīng)的實(shí)值函數(shù)。當(dāng)u∈U,函數(shù)值μA(u)可表示u隸屬于屬性集合A的程度,函數(shù)μA為屬性模糊集合A的隸屬函數(shù)。通過隸屬函數(shù)值來衡量元素隸屬于集合A的程度,隸屬函數(shù)值越趨近于1,說明元素對于集合的隸屬度越高;隸屬函數(shù)值越趨近于0,說明元素對于集合的隸屬度越低;當(dāng)隸屬函數(shù)值為0時,則可認(rèn)為該元素與集合間不存在關(guān)聯(lián),即元素完全不屬于集合。
模糊加權(quán)關(guān)聯(lián)規(guī)則的描述形式為X-A?Y-B,其中,集合X表示加權(quán)關(guān)聯(lián)規(guī)則的前導(dǎo),集合Y表示加權(quán)關(guān)聯(lián)規(guī)則的后續(xù),X,Y?I且X∩Y=φ,I為數(shù)據(jù)庫不可再分割的項(xiàng)集。屬性模糊區(qū)間集合A、B分別為A={a1,a2,…,ap}?R、B={b1,b2,…,bq}?R,R={r1,r2,…,rh}為包含h個差異化模糊區(qū)間的集合。A、B中的區(qū)間ai、bj分別為集合X與Y中元素xi、yj所對應(yīng)的模糊區(qū)間。
設(shè)UA(X)=Λμai(xi)為集合X對于模糊區(qū)間集合A的隸屬函數(shù)值,每一個元素xi在模糊區(qū)間集合A中都僅有一個模糊區(qū)間ai與之對應(yīng),μai(xi)為元素xi隸屬于模糊區(qū)間ai的程度。通過上述分析,得到數(shù)據(jù)共享效果的數(shù)據(jù)集模糊加權(quán)關(guān)聯(lián)支持度ES(X-A?Y-B)的計算式為
(1)
其中,|D|為數(shù)據(jù)庫的數(shù)據(jù)值,UB(Y)=Λμbj(yj)為集合Y對于模糊區(qū)間集合B的隸屬函數(shù)值。數(shù)據(jù)集模糊關(guān)聯(lián)置信度FC(X-A?Y-B)的計算式為
(2)
利用公式(1)、公式(2)計算數(shù)據(jù)共享效果分類間的模糊加權(quán)關(guān)聯(lián)支持度與置信度,并根據(jù)計算結(jié)果對數(shù)據(jù)分類進(jìn)行調(diào)整,為數(shù)據(jù)共享效果的跟蹤奠定基礎(chǔ)。
將數(shù)據(jù)共享效果的數(shù)據(jù)看作分布在多維子空間不同維度內(nèi)的點(diǎn),對于不同子空間維度內(nèi)的數(shù)據(jù),僅考慮數(shù)據(jù)對應(yīng)維度之間的關(guān)聯(lián)性即可;對于子空間同一維度內(nèi)的數(shù)據(jù),需要根據(jù)加權(quán)關(guān)聯(lián)規(guī)則來計算數(shù)據(jù)間的關(guān)聯(lián)程度,對數(shù)據(jù)進(jìn)行歸類劃分,完成數(shù)據(jù)共享效果跟蹤。
設(shè)d′表示數(shù)據(jù)的子空間維度,先對分布在多維子空間不同維度內(nèi)的共享效果數(shù)據(jù)集進(jìn)行數(shù)據(jù)挖掘,數(shù)據(jù)分布的多維子空間描述矩陣M為
(3)
設(shè)分布于不同子空間維度內(nèi)的2個數(shù)據(jù)集分別為Vk1和Vk2,對應(yīng)的子空間維度分別為Mk1和Mk2(k1,k2≤d′),子空間維度Mk1和Mk2之間歐式距離[10]為D(k1,k2),數(shù)據(jù)集Vk1和Vk2之間的歐式距離為d(k1,k2),通過下式對分布在不同空間維度內(nèi)的數(shù)據(jù)集進(jìn)行挖掘:
(4)
其中,M為多維子空間矩陣,δ為多維子空間的數(shù)據(jù)跟蹤算子,P(Vk1)為數(shù)據(jù)集Vk1的數(shù)據(jù)跟蹤頻率,P(Vk2)為數(shù)據(jù)集Vk2的數(shù)據(jù)跟蹤頻率,ES、FC分別表示數(shù)據(jù)集的模糊加權(quán)關(guān)聯(lián)支持度與置信度。
根據(jù)關(guān)聯(lián)狀況劃分不同的數(shù)據(jù)集,則多維子空間中,一個維度內(nèi)的數(shù)據(jù)集Vl1和Vl2之間的相關(guān)因子g(l1,l2)的計算式為
(5)
(6)
其中,P(Vl1)為數(shù)據(jù)集Vl1的數(shù)據(jù)跟蹤頻率,P(Vl2)為數(shù)據(jù)集Vl2的數(shù)據(jù)跟蹤頻率,eg(l1,l2)表示數(shù)據(jù)相關(guān)因子為g(l1,l2)時對應(yīng)的跟蹤算子。
設(shè)同一空間維度Mk內(nèi)各數(shù)據(jù)集間的相關(guān)程度的設(shè)置閾值為T(V),則
當(dāng)g(l1,l2)>T(V)時,說明2個數(shù)據(jù)集之間的關(guān)聯(lián)程度較強(qiáng),2個集合的區(qū)分公式為
(7)
(8)
其中,n為同一維度內(nèi)的數(shù)據(jù)集總量,Vls表示該維度內(nèi)的第s個數(shù)據(jù)集,P(Vls)為數(shù)據(jù)集Vls的數(shù)據(jù)跟蹤頻率。
當(dāng)g(l1,l2) (9) (10) 其中,e為2個數(shù)據(jù)集間的區(qū)分誤差。 以模糊加權(quán)關(guān)聯(lián)分析為基礎(chǔ),結(jié)合數(shù)據(jù)空間映射關(guān)系和數(shù)據(jù)跟蹤因子,得到數(shù)據(jù)共享效果跟蹤算法的計算公式。利用公式(4)實(shí)現(xiàn)空間不同維度內(nèi)數(shù)據(jù)跟蹤,利用公式(6)實(shí)現(xiàn)同一維度內(nèi)的數(shù)據(jù)跟蹤,并通過公式(7)~(10)來區(qū)分同一維度內(nèi)不同關(guān)聯(lián)強(qiáng)度的數(shù)據(jù)集,實(shí)現(xiàn)不同數(shù)據(jù)集的有效共享效果跟蹤。 為了驗(yàn)證所提基于加權(quán)關(guān)聯(lián)規(guī)則的數(shù)據(jù)共享效果跟蹤方法的綜合有效性,通過MATLAB仿真平臺進(jìn)行對比實(shí)驗(yàn)。實(shí)驗(yàn)操作環(huán)境為PC機(jī)(Windows 7系統(tǒng)),CPU(Intel core i5),主頻(2.26 GHz),ROM存儲(6 GB),存儲(32 GB),數(shù)據(jù)庫(SQL Server 2008),算法通過C++Builder實(shí)現(xiàn)。 采用所提基于加權(quán)關(guān)聯(lián)規(guī)則的數(shù)據(jù)共享效果跟蹤方法進(jìn)行實(shí)驗(yàn),對比加權(quán)關(guān)聯(lián)規(guī)則的支持度變化對算法數(shù)據(jù)跟蹤性能的影響,實(shí)驗(yàn)數(shù)據(jù)量為1 000個,實(shí)驗(yàn)結(jié)果見表1。表1中,Su表示加權(quán)關(guān)聯(lián)規(guī)則的支持度,AD表示實(shí)驗(yàn)數(shù)據(jù)量,單位為個,用g表示;Time表示數(shù)據(jù)跟蹤運(yùn)行時間,單位為秒,用s表示;Ac表示數(shù)據(jù)跟蹤結(jié)果的準(zhǔn)確度,單位為%。 表1 加權(quán)關(guān)聯(lián)規(guī)則支持度與算法性能 分析表1數(shù)據(jù)可知,當(dāng)數(shù)據(jù)量一定時,算法運(yùn)行時間不隨加權(quán)關(guān)聯(lián)規(guī)則支持度的變化而變化,說明加權(quán)關(guān)聯(lián)規(guī)則的支持度對算法的數(shù)據(jù)跟蹤效率無影響;對比數(shù)據(jù)量相同時所得數(shù)據(jù)跟蹤結(jié)果的準(zhǔn)確度,準(zhǔn)確度隨著加權(quán)關(guān)聯(lián)規(guī)則支持度的變化而變化,數(shù)據(jù)量為500個和1 000個時,跟蹤結(jié)果的準(zhǔn)確度都大于95%,且在加權(quán)關(guān)聯(lián)規(guī)則支持度為0.28時,跟蹤結(jié)果的準(zhǔn)確度最高,說明加權(quán)關(guān)聯(lián)規(guī)則的支持度對跟蹤結(jié)果的準(zhǔn)確度存在一定影響。根據(jù)實(shí)驗(yàn)結(jié)果,以下實(shí)驗(yàn)中,選取加權(quán)關(guān)聯(lián)規(guī)則置信度為0.28進(jìn)行實(shí)驗(yàn)。 數(shù)據(jù)共享效果跟蹤結(jié)果的準(zhǔn)確度與數(shù)據(jù)維度劃分為正相關(guān)關(guān)系,采用所提方法進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)中將數(shù)據(jù)共享效果數(shù)據(jù)分為不同數(shù)量的數(shù)據(jù)維度,觀察該方法的運(yùn)行時間與數(shù)據(jù)空間維度之間的關(guān)系,對比結(jié)果如下圖1。圖1中,橫坐標(biāo)為數(shù)據(jù)維度,設(shè)其單位為d;縱坐標(biāo)為算法運(yùn)行耗費(fèi)的時間,單位為s。 圖1 算法運(yùn)行時間與數(shù)據(jù)維度的關(guān)系 由圖1可知,隨著數(shù)據(jù)的量和維度的增長,算法的運(yùn)行時間也呈現(xiàn)線性增長。數(shù)據(jù)維度為20 d時,運(yùn)行時間為8 s;數(shù)據(jù)維度為40 d時,運(yùn)行時間為15 s;數(shù)據(jù)維度為60 d與80 d時,運(yùn)行時間分別為28 s和50 s。分析以上數(shù)據(jù)可得到以下結(jié)論:數(shù)據(jù)維度越大,算法運(yùn)行時間越長,且時間增長幅度也隨之增大。根據(jù)這一結(jié)論,進(jìn)行數(shù)據(jù)跟蹤時,應(yīng)結(jié)合實(shí)際需求對數(shù)據(jù)進(jìn)行適當(dāng)?shù)木S度劃分,保證算法的跟蹤效率與準(zhǔn)確性。 隨機(jī)選擇數(shù)據(jù)量為800、2 000的數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),分別采用文獻(xiàn)[6]、文獻(xiàn)[7]算法與所提算法進(jìn)行實(shí)驗(yàn),對比四種算法的數(shù)據(jù)挖掘性能,實(shí)驗(yàn)結(jié)果見表2。AD表示實(shí)驗(yàn)數(shù)據(jù)量,單位為個,用g表示;Time表示數(shù)據(jù)挖掘運(yùn)行時間,單位為秒,用s表示;Ac表示數(shù)據(jù)挖掘結(jié)果的準(zhǔn)確度,單位為%。 表2 三種算法的跟蹤性能對比 分析表2數(shù)據(jù),當(dāng)數(shù)據(jù)量為800個時,3種數(shù)據(jù)跟蹤算法中,文獻(xiàn)[6]算法為21.13 s,跟蹤結(jié)果的準(zhǔn)確度為92.3%;文獻(xiàn)[7]算法的數(shù)據(jù)跟蹤時間為22.45 s,準(zhǔn)確度為93.7%;所提算法所需時間為20.07 s,準(zhǔn)確度為95.4%。所提算法的反饋時間最短,準(zhǔn)確度最高,對比數(shù)據(jù)量為2 000個時的實(shí)驗(yàn)數(shù)據(jù),可以驗(yàn)證以上結(jié)論。數(shù)據(jù)量增加時,所提算法的挖掘時間增加量與挖掘結(jié)果準(zhǔn)確度降低量更小,由此表明,所提方法的性能更優(yōu)越,且數(shù)據(jù)挖掘更穩(wěn)定。 對數(shù)據(jù)共享效果的跟蹤在各領(lǐng)域的應(yīng)用日益廣泛,針對當(dāng)前數(shù)據(jù)跟蹤算法存在的問題,提出基于加權(quán)關(guān)聯(lián)規(guī)則的數(shù)據(jù)共享效果跟蹤算法。利用模糊加權(quán)關(guān)聯(lián)規(guī)則解決了原有數(shù)據(jù)挖掘算法中的數(shù)據(jù)硬分類問題,使數(shù)據(jù)劃分更加合理。基于數(shù)據(jù)分類之間的關(guān)聯(lián)映射關(guān)系,加入跟蹤因子,得到數(shù)據(jù)跟蹤算法,完成了對同一維度數(shù)據(jù)對不同維度數(shù)據(jù)的有效跟蹤,仿真實(shí)驗(yàn)證明了該算法的數(shù)據(jù)跟蹤性能,當(dāng)數(shù)據(jù)量為800個時,該算法的跟蹤時間為20.07 s,精度為95.4%,當(dāng)數(shù)據(jù)量為2 000個時,該算法的跟蹤時間為45.71 s,精度為95.1%,優(yōu)于其他算法。未來階段,將深入研究數(shù)據(jù)間的復(fù)雜關(guān)系,并研究學(xué)習(xí)相關(guān)專家、學(xué)者所提算法,進(jìn)一步提高數(shù)據(jù)跟蹤的效率與精準(zhǔn)度,增強(qiáng)算法的適用性。2 實(shí)驗(yàn)結(jié)果與分析
3 結(jié) 論
河北北方學(xué)院學(xué)報(自然科學(xué)版)2022年3期