基于Vanilla算法的數(shù)字化資源在線推薦算法

2023-10-29 01:50程娟娟

計算機仿真 2023年9期

關(guān)鍵詞：權(quán)重神經(jīng)網(wǎng)絡(luò)矩陣

程娟娟,宋彪,李微

(1. 南京工程學院計算機工程學院,江蘇南京 211167;2. 南京信息工程大學計算機學院,江蘇南京 210044;3. 南京工程學院科技與產(chǎn)業(yè)處,江蘇南京 211167)

1 引言

數(shù)字化推薦算法可滿足用戶不同需求,有針對性的快速搜索所需資源,提高數(shù)字化資源檢索效率[1,2]。但是網(wǎng)絡(luò)資源內(nèi)容龐大,為用戶提供精準推薦難度較大。現(xiàn)有陳曄等人[3]提出以LFM矩陣分解為基礎(chǔ)的推薦算法,馬海江[4]提出的推薦算法是以卷積神經(jīng)網(wǎng)絡(luò)與約束概率矩陣分解為基礎(chǔ),以上兩種算法均能對數(shù)字化資源在線推薦,但是在實際應用中存在用戶分析耗時較長,且推薦精度偏低問題,用戶體驗感不夠理想。

為此,本研究提出利用Vanilla算法計算數(shù)字資源排序權(quán)重。再結(jié)合神經(jīng)網(wǎng)絡(luò)模型計算用戶對資源的評分,設(shè)計用戶相似度矩陣初始值計算、分解與重組步驟,計算不同用戶之間的相似度,完成數(shù)字化資源在線推薦。Vanilla算法主要通過全方面掌握用戶信息,了解用戶需求,達到尋找目標的目的,優(yōu)化了數(shù)字化資源推薦的精準度。

2 基于Vanilla算法的數(shù)字化資源在線推薦算法

本文利用Vanilla算法設(shè)計新的數(shù)字化資源在線推薦算法,Vanilla算法結(jié)合專家排列法計算不同情景維度的權(quán)重,并計算用戶使用數(shù)字化資源的消費評分,通過神經(jīng)網(wǎng)絡(luò)的評分自動采集模型,評估用戶對推薦的數(shù)字化資源喜歡程度,從而了解用戶興趣。在固定數(shù)字化資源的情況下,尋找不同用戶之間的共同點,幫助目標用戶實現(xiàn)消費評分的預測,最終完善數(shù)字化資源在線推薦算法。

2.1 基于Vanilla算法的權(quán)重排序

Vanilla算法通過專家排序法獲取所設(shè)立情景維度的權(quán)重,以便依據(jù)該權(quán)重獲取用戶對數(shù)字化資源的評分結(jié)果。

2.1.1 設(shè)定情境維度及權(quán)重

用戶在線推薦數(shù)字化資源時,用戶心情、用戶閑暇時間、用戶年齡、電子移動設(shè)備剩余電量、數(shù)字化資源的種類等均屬于情境,并且信息來源和語境都有所不同[5,6]。由于情境可以改變用戶的行為,因此用戶使用數(shù)字化資源在線推薦算法第一步,應該收集用戶數(shù)字化資源的情境因素,具體信息見表1。

表1 情境信息

將以上5個情境維度的合集用V表示,且V={vi}1≤i≤6,當下的情境狀況用vi代表。不同情境狀況vi的權(quán)重需要排列順序,專家根據(jù)用戶需求量多少進行排列,依照由多到少,第1位情境維度,為需求量最多,第2位僅次于第1位需求量,以此類推。若情境維度為n個,需要m位專家排列,那么排列可用m行n列的數(shù)字表示,即1,2,…,n。該情境的秩理解為該情境的排列位置,該情境的秩和為m位專家判斷該情境的秩相加的數(shù)值,用R表示,Ri和wi分別代表第i個情境的次序和與權(quán)重,運算過程如下

wi=2[m(1+n)-Ri]/[mn(1+n)],i=(1,2…,n)

(1)

2.1.2 情境維度優(yōu)先級一致性檢驗

專家根據(jù)判斷用戶對該情境需求量的多少,決定情境權(quán)重[7,8]。假設(shè)m位專家判斷結(jié)果大致相同,則為有效權(quán)重,否則為無效權(quán)重。權(quán)重計算的前提條件需相同,這就需要顯著性驗證專家判斷結(jié)果。具體驗證步驟如下:

統(tǒng)計量X2是顯著性驗證計算結(jié)果,如式(2)所示

X2=m(n-1)W

(2)

其中

W=12S/[m2(n3-3)]

(3)

(4)

W代表臨界值,S為顯著水平,假設(shè)S>W,則表示幾位專家判斷結(jié)果是顯著相同,否則差異較大。

2.2 基于神經(jīng)網(wǎng)絡(luò)模型的用戶對資源推薦的評分

以了解用戶操作情況為前提,本文算法針對用戶的喜好設(shè)計模型[9]。為避免用戶異常評分行為、消除用戶無理由評分和推薦算法評分不密集的問題,該算法需要根據(jù)用戶使用數(shù)字化資源的行為,設(shè)立深層次的興趣模型或評分,并且結(jié)合已經(jīng)存在的表面評分算法實施推薦。神經(jīng)網(wǎng)絡(luò)推薦算法通過用戶行為采集用戶評分信息。

設(shè)定用戶實際使用數(shù)字化資源累計總時長為L、快進次數(shù)為F、后退次數(shù)為B、用戶數(shù)字化資源本身總時長T共4種因素影響用戶評分R。通過神經(jīng)網(wǎng)絡(luò)學習算法建立一個能用L、T、B、F表示R的模型。

神經(jīng)元作為底層構(gòu)架模塊,每個模塊通過廣泛鏈接形成一種非線性動態(tài)系統(tǒng),該系統(tǒng)可以根據(jù)需要調(diào)整狀態(tài),稱人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)。根據(jù)人工神經(jīng)網(wǎng)絡(luò)能夠利用神經(jīng)元互相采集數(shù)據(jù)的特點,可知該網(wǎng)絡(luò)具有兩大特征:第一,能夠?qū)π率挛锉M快掌握;第二,環(huán)境發(fā)生改變時,功能不受影響。在新環(huán)境中,神經(jīng)網(wǎng)絡(luò)能夠通過學習完善本身功能并且利用學習算法自動修復變化的鏈接權(quán)值,從而適應新環(huán)境[10,11]。因此本文深層次評分的推薦算法選用神經(jīng)網(wǎng)絡(luò),具體結(jié)構(gòu)見圖1。此網(wǎng)絡(luò)含有輸入端:數(shù)字化資源累計總時長L、快進次數(shù)F、后退次數(shù)B、用戶數(shù)字化資源本身總時長T和輸出端:用戶評分R,僅可為0、1、2、3、4、5中的數(shù)值。該神經(jīng)網(wǎng)絡(luò)中L、T、BN、FN與R間的相互關(guān)系用式(5)表示:

圖1 基于神經(jīng)網(wǎng)絡(luò)的資源自動評分模型

(5)

其中,L、T、B、F之一的第i項輸入用xi代表,此處輸入權(quán)值與偏置分別表示為wi、θ。

圖1顯示,如果存在足夠多的輸入變量的權(quán)值wi和偏置θ到推薦算法式(5),利用該神經(jīng)網(wǎng)絡(luò)的傳遞函數(shù)lgsig函數(shù)式(6)獲得輸出值并選擇四舍五入,使輸出值為0到5之間的整數(shù)。lgsig函數(shù)見式(6)

(6)

2.3 用戶相似度計算

2.3.1 用戶相似度矩陣初始值計算

用戶消費關(guān)系可以幫助獲取相似度初始值,為了掌握用戶消費關(guān)系,必須了解用戶時序行為。

用戶合集用U代表,興趣關(guān)系用E代表。現(xiàn)有項目I,如果用戶Ui和Uj的評分態(tài)度一致,那么邊值Ei-j上的權(quán)值Wi-j均需要加1。訪問全部用戶的時序消費關(guān)系,根據(jù)統(tǒng)計學整理設(shè)計出用戶消費關(guān)系,邊值Ei-j上的權(quán)值Wi-j用式(7)進行描述:

(7)

這里,規(guī)定時間間隔用Ni,j代表,共同興趣評分項目數(shù),按順序表示成Ui和Uj。生活中Ni,j個項目里Ui→Uj評分態(tài)度一致的項目數(shù)表示為Wi-j,通過Wi-j顯示用戶Ui對Uj起到多大的作用。

(8)

2.3.2 用戶相似度矩陣分解

用戶集合用U=(U1,U2,…,UN)代表,項目集合用V=(V1,V2,…,VN)代表。根據(jù)上文算得用戶與用戶間相似度值,設(shè)立用戶與用戶相似度矩陣SN×N,優(yōu)化函數(shù)L(S,P,Q)表示如式(9)所示

(9)

利用梯度下降法運算優(yōu)化函數(shù),以下式(10)是梯度迭代公式

(10)

具體運算步驟如式(11)所示

(11)

式中,函數(shù)g(x)的導數(shù)為g′(x),即g′(x)=e-x/(1+e-x)2。

2.3.3 重建用戶相似度矩陣及目標

利用上文得到特征向量Pi、Qj,建立并排列出新的用戶與用戶間相似度矩陣,最終尋找到與該用戶最相似的目標用戶[12]。尋找到目標用戶的具體算法如下:

將數(shù)據(jù)集、學習率α、正則化參數(shù)為λ1、λ2作為輸入,目標用戶作為輸出。

1)制定用戶時序關(guān)系需要MovieLens數(shù)據(jù)集;

2)通過式(8)算出用戶初始相似度值,建立數(shù)據(jù)集DS;并將DS隨機分成兩組,一組為訓練集TR,占80%,另一組為測試集TE,占20%;

3)隨機初始化特征矩陣P、Q;(Ui,Uj,Sij)在TR中;

5)利用TE算出MAE值

6)如果MAE>ε,通過特征矩陣P、Q重建用戶相似度矩陣;對用戶的相似度值排列,得到目標用戶。

2.4 目標用戶評分預估形成推薦列表

在情境不一樣時,通過本文算法專家排列加權(quán)得到消費評分用R(u,j)表示。假設(shè)在用戶u中現(xiàn)有j類數(shù)字化資源需求的目標用戶u′對其進行預測評分,用P(u′,j)代表。

具體運算見式(12)

(12)

U為全部的數(shù)字化資源網(wǎng)站的用戶。

當數(shù)字化資源種類多樣時,算出目標用戶u′的預測評分需要兩方面結(jié)合計算,分別為u的評分計算、u與u′的相似度值計算。以二者值為基礎(chǔ)算出目標用戶u′的預測評分,完成目標用戶u′的數(shù)字化資源在線推薦列表創(chuàng)建任務(wù)。

3 實驗設(shè)計與分析

以某數(shù)據(jù)化資源網(wǎng)站為實驗對象,采用本文算法對該網(wǎng)站用戶進行數(shù)字化資源在線推薦,驗證本文算法的有效性。

3.1 用戶評分計算速度與準確性測試

本文算法采用神經(jīng)網(wǎng)絡(luò)實現(xiàn)用戶自動評分,為了驗證本文算法的速度和準確性,在大量使用該網(wǎng)站數(shù)字化資源的用戶中,隨機選取10名用戶,編號為1～10。由于單純計算失誤率不能更好地反映本文算法的評分能力,因此評分數(shù)據(jù)還需計算平均絕對誤差(MAE)值,同時記錄評分運行時間。運行所需時間少,則表示計算用戶評分速度快;失誤率低,說明評分正確率高,而MAE同樣反映本文算法的評分正確率。當MAE與失誤率一樣時,表示每次失誤最小。實驗結(jié)果見表2。

表2 用戶評分計算速度和準確性

表2中可知,本文算法計算用戶評分時的運行耗時最高為0.031s,說明該算法評分速度快。表中失誤率在5%左右波動,失誤率低,證明該算法計算評分準確性好,并且MAE與失誤率值相等,表示抽取的樣本預測失誤最小。綜上所述,采用本文算法具有運行速度快、準確率高的優(yōu)勢。

3.2 不同推薦算法的精度測試

從該數(shù)據(jù)化資源網(wǎng)站中隨機選取部分數(shù)據(jù)化資源組成數(shù)據(jù)集,將得到的數(shù)據(jù)隨機分成兩組,不能重復出現(xiàn),一組為訓練集占80%,一組為測試集占20%。為了驗證本文算法的精準性,使用運算平均絕對誤差(MAE)和均方根誤差(RMSE)作為實驗指標。實驗對照算法為文獻[3]算法和文獻[4]算法。文獻[3]和文獻[4]均研究了推薦算法,前者通過LFM矩陣分解進行推薦,后者選用卷積神經(jīng)網(wǎng)絡(luò)與約束概率矩陣分解完成推薦。將這兩種算法的實驗結(jié)果與本文算法相對比。實驗利用這三種算法完成數(shù)字化資源推薦。為了驗證精準性,需將獲取的評分數(shù)據(jù)分別算出平均絕對誤差MAE和均方根誤差RMSE,對比情況見圖2。

圖2 三種算法性能對比圖

從圖2可知,當目標用戶數(shù)值為6時,三種算法的MAE和RMSE值最小,說明此時誤差最低,三種算法推薦數(shù)字化資源結(jié)果為最佳。綜合觀察,本文算法與文獻[3]算法、文獻[4]算法比較誤差最低,證明本文算法能夠準確找到目標用戶,并進行數(shù)字化資源精準推薦。

4 結(jié)論

本文提出的基于Vanilla算法的數(shù)字化資源在線推薦算法,能夠高質(zhì)量實現(xiàn)網(wǎng)絡(luò)用戶所需的數(shù)字化資源的推薦。以Vanilla算法獲取的專家排序權(quán)重為基礎(chǔ),采用神經(jīng)網(wǎng)絡(luò)模型計算用戶對資源的評分,運行耗時少,準確率高,用戶在使用本文算法進行數(shù)字化資源推薦時,能夠節(jié)約時間,并且省略了篩選的過程,直接搜索出所需資源。方便用戶的學習和生活。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡