李曉峰,李 東
(1.黑龍江外國語學(xué)院 信息工程系,黑龍江 哈爾濱 150025;2.哈爾濱工業(yè)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001)
云數(shù)據(jù)庫中存儲了大量的高維稀疏數(shù)據(jù),對高維稀疏數(shù)據(jù)的有效組合推薦是保障云數(shù)據(jù)庫得到有效訪問和檢索的關(guān)鍵。通過對高維稀疏數(shù)據(jù)特征空間的重構(gòu)和降維處理,提取高維稀疏數(shù)據(jù)的關(guān)聯(lián)規(guī)則特征量,實現(xiàn)對高維稀疏數(shù)據(jù)的組合推薦[1],提高對云數(shù)據(jù)庫的訪問和自動檢索能力。研究高維稀疏數(shù)據(jù)的推薦模型,對實現(xiàn)高維稀疏數(shù)據(jù)庫的最優(yōu)分布設(shè)計和云組合模型設(shè)計具有重要的應(yīng)用價值,相關(guān)的高維稀疏數(shù)據(jù)組合推薦算法的研究受到了極大關(guān)注。
文獻[2]提出一種面向稀疏和虛假評分的協(xié)同推薦方法。運用低秩矩陣補全理論對稀疏矩陣進行填充,根據(jù)填充結(jié)果建立群組模型,并構(gòu)造一個項目評分矩陣,借助協(xié)同過濾算法對稀疏數(shù)據(jù)和虛假評分進行協(xié)同推薦。根據(jù)實驗結(jié)果可知,該方法能夠有效應(yīng)對虛假評分,推薦結(jié)果較優(yōu),但在數(shù)據(jù)推薦過程中,并未對數(shù)據(jù)進行自適應(yīng)尋優(yōu),直接采用協(xié)同過濾算法完成數(shù)據(jù)推薦,導(dǎo)致時間開銷較大。文獻[3]提出基于聯(lián)合聚類與用戶特征提取的協(xié)同過濾推薦算法,根據(jù)聯(lián)合聚類識別方法對用戶偏好進行有效識別,根據(jù)識別結(jié)果提取公共特征,采用相似度概念對公共特征進行進一步分析,得出稀疏數(shù)據(jù)的推薦方法。根據(jù)實驗結(jié)果可知,該算法能夠?qū)ο∈钄?shù)據(jù)進行實時推薦,但是僅對高維稀疏數(shù)據(jù)的公共特征進行分析,并未深入研究數(shù)據(jù)的平均互信息特征量,導(dǎo)致受到高維特征擾動的影響,使數(shù)據(jù)存在一定的誤差。針對傳統(tǒng)算法對高維稀疏數(shù)據(jù)進行推薦時,存在計算開銷大以及推薦的模糊性大等問題,提出一種基于深度學(xué)習(xí)的高維稀疏數(shù)據(jù)組合推薦算法。仿真實驗結(jié)果表明,該算法在提高高維稀疏數(shù)據(jù)組合推薦能力方面具有優(yōu)越性。
為了實現(xiàn)對高維稀疏數(shù)據(jù)組合推薦算法的優(yōu)化設(shè)計,結(jié)合高維稀疏數(shù)據(jù)存儲節(jié)點的分布式結(jié)構(gòu)重組方法,將高維稀疏數(shù)據(jù)體系建立在基于Web移動社會網(wǎng)絡(luò)(web-based MSNs,WMSNs)和分散式移動社會網(wǎng)絡(luò)(decentralized MSNs,DMSNs)的基礎(chǔ)上[4],結(jié)合向量量化分析方法,構(gòu)建高維稀疏數(shù)據(jù)存儲節(jié)點最優(yōu)分布模型。用一個二元有向圖G=(V,E)表示高維稀疏數(shù)據(jù)的圖模型結(jié)構(gòu),其中V是部署在數(shù)據(jù)圖模型分布節(jié)點的頂點集,E是高維稀疏數(shù)據(jù)在有限域分布區(qū)域G中所有邊的集合。假設(shè)M1,M2,…,MN為高維稀疏數(shù)據(jù)的Sink節(jié)點,采用歐氏距離表示高維稀疏數(shù)據(jù)傳輸節(jié)點的相軌跡間距,在高維稀疏數(shù)據(jù)社區(qū)節(jié)點的初始鏈路分布模型下,得到稀疏數(shù)據(jù)的分布式拓撲結(jié)構(gòu)模型,如圖1所示。
結(jié)合圖1所示的拓撲結(jié)構(gòu)模型,構(gòu)建高維稀疏數(shù)據(jù)的有限覆蓋區(qū)域模型,在高維稀疏數(shù)據(jù)存儲結(jié)構(gòu)網(wǎng)絡(luò)中,組合推薦模型有向圖向量的加權(quán)系數(shù)為W={u,w1,w2,…,wk},在高維稀疏數(shù)據(jù)的信息覆蓋區(qū)域,假設(shè)M個高維稀疏數(shù)據(jù)的網(wǎng)絡(luò)節(jié)點傳輸鏈路層數(shù)據(jù)為x(k-1),x(k-2),…,x(k-M),諧波特征分布節(jié)點初始位置xs=[x(η1),x(η2),…,x(ηN)]T的估計值為:
(1)
圖1 高維稀疏數(shù)據(jù)的分布式拓撲結(jié)構(gòu)模型
基于業(yè)務(wù)優(yōu)先級劃分方法,得到高維稀疏數(shù)據(jù)傳輸節(jié)點負載模型為:
(2)
(3)
另外,ω(t)為虛擬節(jié)點的數(shù)據(jù)維數(shù),ph(t)為高維稀疏數(shù)據(jù)Source與Sink節(jié)點之間的距離。采用相空間重構(gòu)方法進行高維稀疏數(shù)據(jù)的特征重構(gòu),結(jié)合非線性統(tǒng)計序列分析方法進行高維稀疏數(shù)據(jù)的回歸分析和點云結(jié)構(gòu)重組[5-6],高維稀疏數(shù)據(jù)相空間重構(gòu)的結(jié)構(gòu)模型為:
X=[s1,s2,…,sK]=
(4)
其中,K=N-(m-1)τ,表示高維稀疏數(shù)據(jù)搜索特征空間的嵌入維數(shù),τ為時延,m為虛擬節(jié)點和虛擬鏈路層數(shù),si=(xi,xi+τ,…,xi+(m-1)τ)T稱為時隙集合。
根據(jù)上述內(nèi)容可知,運用相空間重構(gòu)方法對高維稀疏數(shù)據(jù)特征進行重構(gòu)之后,再在重構(gòu)的相空間中進行數(shù)據(jù)特征提取,有助于提高數(shù)據(jù)的組合推薦能力。
根據(jù)特征量提取結(jié)果,對高維稀疏數(shù)據(jù)的組合特征量進行提取。假設(shè)待組合推薦的高維稀疏數(shù)據(jù)信息流的統(tǒng)計分布序列為{x1,x2,…,xN},令x(n)為一組回歸分析的特征量,在m維重構(gòu)相空間中進行高維稀疏數(shù)據(jù)的稀疏散亂點云映射,得到高維稀疏數(shù)據(jù)的分布式重組結(jié)構(gòu)式為:
X(n)={x(n),x(n+τ),…,x(n+(m-1)τ)},
n=1,2,…,N
(5)
其中,τ表示高維稀疏數(shù)據(jù)在高維相空間中的嵌入延遲。建立狀態(tài)轉(zhuǎn)移模型,高維稀疏數(shù)據(jù)的特征評價概念集表達式為:
(6)
挖掘高維稀疏數(shù)據(jù)的推薦屬性的關(guān)聯(lián)規(guī)則特征量:
(7)
采用云稀疏散亂點結(jié)構(gòu)重組方法,得到第i個高維稀疏數(shù)據(jù)的散亂點集為Pi=(pi1,pi2,…,piD)。
采用演進型時隙分配機制[7-8],得到高維稀疏數(shù)據(jù)的屬性混合推薦值計算迭代式為:
(8)
其中,xi(k)表示xi的范數(shù)。
采用深度學(xué)習(xí)算法對組合特征量進行優(yōu)化提取,計算密集場景中高維稀疏數(shù)據(jù)在起始時刻T0的統(tǒng)計特征量,得到高維稀疏數(shù)據(jù)中的演進型時隙分配的信任值為:
(9)
根據(jù)信任度進行組合特征推薦時,在超幀結(jié)構(gòu)中得到頻譜Z服從參數(shù)為βd的高斯分布[9-10],其中:
βd=(MPDist-d+1)/MPDist,d∈[2,MPDist]
(10)
其中,M表示路徑的個數(shù),具體為用戶端負責處理數(shù)據(jù)的路徑數(shù);βd∈(0,1],采用模糊指向性聚類方法,進行高維稀疏數(shù)據(jù)的組合特征挖掘和提取,根據(jù)特征提取結(jié)果實現(xiàn)數(shù)據(jù)的組合推薦算法設(shè)計。
在上述采用相空間重構(gòu)方法進行高維稀疏數(shù)據(jù)的特征重構(gòu)和特征提取的基礎(chǔ)上,結(jié)合非線性統(tǒng)計序列分析方法進行高維稀疏數(shù)據(jù)的回歸分析和點云結(jié)構(gòu)重組[11-12],得到高維稀疏數(shù)據(jù)的信任關(guān)系為A→B,B→C,推出回歸分析模型為:
MSDa→b=
(11)
采用特征提取技術(shù)抽取高維稀疏數(shù)據(jù)的平均互信息特征量,輸出高維稀疏數(shù)據(jù)的屬性分布的互信息為:
I(Q,S)=H(Q)-H(Q|S)
(12)
其中
(13)
用特征提取技術(shù)抽取高維稀疏數(shù)據(jù)的平均互信息特征量,結(jié)合關(guān)聯(lián)規(guī)則挖掘方法進行高維稀疏數(shù)據(jù)的主成分分析,根據(jù)高維稀疏數(shù)據(jù)的屬性挖掘結(jié)果進行組合推薦,得到數(shù)據(jù)組合推薦的判決準則滿足:
準則(1):
(14)
準則(2):
(15)
根據(jù)高維稀疏數(shù)據(jù)的推薦的判決準則,進行高維稀疏數(shù)據(jù)的主成分分析。在數(shù)據(jù)的特征分布屬性集中,設(shè){u1,u2,…,uN}表示包含的元素節(jié)點集合的高維稀疏數(shù)據(jù)的類空間分布集合,{v1,v2,…,vM}表示不可信節(jié)點集合,R=[Ru,v]N×M表示高維稀疏數(shù)據(jù)的用戶行為集,通過載波監(jiān)聽多路訪問控制方法,進行數(shù)據(jù)的主成分分析,遞推公式如下:
(16)
用CIntrai(n)表示高維稀疏數(shù)據(jù)方位節(jié)點i定位的最優(yōu)間隔,CInteri(n)表示競爭節(jié)點i的總時隙。根據(jù)上述分析,結(jié)合關(guān)聯(lián)規(guī)則挖掘方法進行高維稀疏數(shù)據(jù)的主成分分析,挖掘高維稀疏數(shù)據(jù)的相似度屬性類別成分[13-14]。
采用自適應(yīng)信息融合方法進行高維稀疏數(shù)據(jù)輸出特征的信息融合,在高維相空間中進行高維稀疏數(shù)據(jù)的模糊聚類和特征挖掘處理。假設(shè)高維稀疏數(shù)據(jù)的統(tǒng)計特征序列{Xn},n=1,2,…,N,表示原始待推薦的高維稀疏數(shù)據(jù)特征分布集,在模糊網(wǎng)格區(qū)域聚類環(huán)境下,得到組合推薦的高維稀疏數(shù)據(jù)的特征分布為XN=Xn+η,其中η為觀測數(shù)據(jù)的統(tǒng)計特征量。在d個高維稀疏數(shù)據(jù)的分布空間中,采用相空間重構(gòu)技術(shù)對高維稀疏數(shù)據(jù)進行特征重構(gòu)[15],得到當前可分配最大時隙分布:
Xn={Xn,Xn-τ,Xn-2τ,…,Xn-(d-1)τ}
(17)
令Rd×L是d×L的矩陣,設(shè)立優(yōu)先級,通過頻繁項挖掘,得到組合推薦輸出的高維稀疏數(shù)據(jù)的平均互信息特征量,為:
R1={X1,X2,…,Xd}T
(18)
配置不同長度的時隙幀,采用深度學(xué)習(xí)方法進行高維稀疏數(shù)據(jù)組合推薦過程中的自適應(yīng)尋優(yōu),高維稀疏數(shù)據(jù)的關(guān)聯(lián)規(guī)則向量集為:
(19)
依據(jù)深度學(xué)習(xí)方法,得到高維稀疏數(shù)據(jù)的學(xué)習(xí)過程迭代式為:
(20)
在L+1到2L維的網(wǎng)格區(qū)域中,對高維稀疏數(shù)據(jù)進行降維處理,根據(jù)上述方法類推,得到高維稀疏數(shù)據(jù)組合推薦的輸出特征值為:
(21)
R2={Xd+1,Xd+2,…,Xd+m}T
(22)
(23)
其中,高維稀疏數(shù)據(jù)的測試集V=[V1,V2,…,Vm]∈Rm×m是正交的,即VVT=IM,Σ=diag(σ1,σ2,…,σm)∈Rm×m。采用特征提取技術(shù)抽取高維稀疏數(shù)據(jù)的平均互信息特征量[16],采用深度學(xué)習(xí)機器算法進行推薦的過程反饋實現(xiàn)誤差修正,使得推薦輸出的特征向量集RTR滿足類間平衡性,綜上分析,實現(xiàn)了高維稀疏數(shù)據(jù)的組合推薦,實現(xiàn)流程如圖2所示。
圖2 算法的實現(xiàn)流程
綜上所述,完成了對基于深度學(xué)習(xí)的高維稀疏數(shù)據(jù)組合推薦算法的設(shè)計,通過該算法實現(xiàn)了對高維稀疏數(shù)據(jù)的屬性歸類與有效識辨。
為了驗證該算法在實現(xiàn)高維稀疏數(shù)據(jù)組合推薦中的應(yīng)用性能,結(jié)合Matlab和C++編程軟件進行仿真實驗分析。高維稀疏數(shù)據(jù)的采樣樣本數(shù)據(jù)庫來自于云組合數(shù)據(jù)庫Pearson Database,其中Pearson線性相關(guān)系數(shù)設(shè)定為0.34,Spearman秩相關(guān)系數(shù)設(shè)定為0.21,利用K-S檢驗對推薦過程中的收斂性進行判斷,數(shù)據(jù)的維數(shù)設(shè)定為40,采樣樣本的長度設(shè)定為1 200,測試集大小為3 000,最優(yōu)分布類型參數(shù)為24.2。根據(jù)上述仿真環(huán)境和參數(shù)設(shè)定,進行高維稀疏數(shù)據(jù)組合推薦仿真分析,依據(jù)1.1中給出的高維稀疏數(shù)據(jù)的分布式拓撲結(jié)構(gòu)模型,構(gòu)建高維稀疏數(shù)據(jù)的樣本分布時域圖,如圖3所示。
圖3 高維稀疏數(shù)據(jù)的樣本分布
根據(jù)圖3可以看出,構(gòu)建的高維稀疏數(shù)據(jù)樣本分布均勻,隨著采樣點數(shù)的增加,采樣幅值變化較為平穩(wěn),表明高維稀疏數(shù)據(jù)樣本質(zhì)量較好。
以上述數(shù)據(jù)為研究樣本,采用相空間重構(gòu)方法進行高維稀疏數(shù)據(jù)的特征重構(gòu),提取高維稀疏數(shù)據(jù)的組合特征量。依據(jù)提取得到的高維稀疏數(shù)據(jù)的組合特征量,實現(xiàn)數(shù)據(jù)的組合推薦,得到高維數(shù)據(jù)的推薦輸出,如圖4所示。
圖4 高維稀疏數(shù)據(jù)的組合推薦輸出
分析圖4得知,采用該算法能有效實現(xiàn)對高維稀疏數(shù)據(jù)的組合推薦,對數(shù)據(jù)的降維表達能力較高,相對于圖3,在高維相空間中,對數(shù)據(jù)的辨識度更明顯,推薦能力較強。在特征量提取過程中,主要根據(jù)信任度進行組合特征推薦,假設(shè)將信任值的分值劃分為2-16分,依據(jù)式9分別計算文中算法與文獻[2-3]算法的信任值,結(jié)果如圖5所示。
根據(jù)圖5可以看出,文獻[2-3]算法的信任值波動較大,在200-300數(shù)據(jù)量時,呈現(xiàn)短暫的上升趨勢,隨后信任值則持續(xù)較低,不能很好地完成數(shù)據(jù)組合推薦。而文中算法在任意高維稀疏數(shù)據(jù)量條件下,信任值均顯著高于文獻[2-3]算法,整體信任值在10以上,且波動幅度較小,具有一定的穩(wěn)定性。
圖5 信任值對比分析
對文中算法與文獻[2-3]算法進行高維稀疏數(shù)據(jù)推薦的時間開銷和精度對比,結(jié)果見表1和表2。
表1 高維稀疏數(shù)據(jù)組合推薦的時間開銷性能對比 s
表2 組合推薦精度性能對比 %
分析表1數(shù)據(jù)可知,運用文中算法進行高維稀疏數(shù)據(jù)推薦時,文中算法的最高時間開銷不超過0.766 s,遠低于文獻[2-3]算法。這是因為文中采用深度學(xué)習(xí)方法進行高維稀疏數(shù)據(jù)組合推薦過程中的自適應(yīng)尋優(yōu),大大降低了數(shù)據(jù)推薦耗時。分析表2數(shù)據(jù)可知,三種算法的推薦精度都比較高,但文中算法的推薦精度均可高達99%左右,顯著優(yōu)于其他兩種算法。這是因為文中算法提取了高維稀疏數(shù)據(jù)特征量,依據(jù)特征量提取結(jié)果采用特征提取技術(shù)抽取高維稀疏數(shù)據(jù)的平均互信息特征量,在此基礎(chǔ)上進行數(shù)據(jù)推薦分析,降低了高維特征擾動影響,提高了推薦精度。
綜合上述分析可知,該算法具有實際應(yīng)用性,可以為相關(guān)領(lǐng)域提供參考價值。
對高維稀疏數(shù)據(jù)的有效組合推薦是保障云數(shù)據(jù)庫得到有效訪問和檢索的關(guān)鍵,文中提出基于深度學(xué)習(xí)的高維稀疏數(shù)據(jù)組合推薦算法。實驗結(jié)果表明,用該算法進行高維稀疏數(shù)據(jù)組合推薦的辨識度較高,精度較好,時間開銷較短。未來將繼續(xù)致力于高維稀疏數(shù)據(jù)組合推薦算法的研究,會將重點放在分級推薦方面,以期實現(xiàn)個性化、有針對性的推薦效果。