国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多特征的數(shù)字圖書(shū)推薦算法

2021-12-17 00:56李冬
關(guān)鍵詞:權(quán)重矩陣評(píng)分

李冬

(商丘職業(yè)技術(shù)學(xué)院,河南 商丘 476001)

0 引言

伴隨著信息技術(shù)的高速發(fā)展,數(shù)字媒體技術(shù)日新月異,大量的數(shù)字資源的誕生和普及,對(duì)數(shù)字資源服務(wù)也提出越來(lái)越高的要求,如何從海量的數(shù)字圖書(shū)中,根據(jù)相關(guān)的數(shù)據(jù)信息,為讀者提供高質(zhì)量、差異化、個(gè)性化的圖書(shū)推薦愈發(fā)重要。提高圖書(shū)推薦的效率和準(zhǔn)確率,提高讀者的滿意度、粘合度是各種數(shù)字圖書(shū)平臺(tái)努力的目標(biāo)和方向。

基于各種算法建立起來(lái)的數(shù)字圖書(shū)推薦系統(tǒng)是根據(jù)讀者的個(gè)人偏好,提供差異化圖書(shū)推薦的有效方法。算法是推薦系統(tǒng)高效、準(zhǔn)確運(yùn)行的基礎(chǔ)和關(guān)鍵,目前推薦系統(tǒng)常用的算法有基于內(nèi)容的推薦算法、基于知識(shí)的推薦算法、基于關(guān)聯(lián)規(guī)則的推薦算法、基于協(xié)同過(guò)濾推薦算法以及基于模型的各類推薦算法[1]。以這些算法建立起來(lái)的推薦系統(tǒng)通過(guò)對(duì)用戶歷史行為數(shù)據(jù)的分析,得出用戶的真實(shí)需求,向用戶推薦相關(guān)的產(chǎn)品及信息,隨著正反饋結(jié)果的不斷提高,加強(qiáng)了用戶和平臺(tái)間的緊密度,實(shí)現(xiàn)用戶鏈?zhǔn)椒磻?yīng)增值,這些推薦系統(tǒng)在電子商務(wù)、音視頻推薦、新聞、圖書(shū)等很多領(lǐng)域已經(jīng)取得的廣泛的應(yīng)用,產(chǎn)生了很好的經(jīng)濟(jì)效益和社會(huì)效益。

數(shù)字圖書(shū)和普通圖書(shū)相比在數(shù)據(jù)信息和數(shù)據(jù)質(zhì)量上更加的豐富和準(zhǔn)確,讀者對(duì)數(shù)字圖書(shū)的評(píng)價(jià)可以更加的便捷、有效,數(shù)字圖書(shū)的名稱、簡(jiǎn)介、評(píng)論、作者、出版社、出版時(shí)間、上線時(shí)間、搜索量、瀏覽頻次、頁(yè)面停留時(shí)間等因素都可能會(huì)影響讀者的興趣偏好?;谀骋惶卣鹘⑵饋?lái)的推薦系統(tǒng),在一定程度上欠缺了對(duì)其它影響因素的考慮,在推薦的有效性上略顯不足。因此,本文提出一種融合數(shù)字圖書(shū)多項(xiàng)特征的推薦算法,并以此為基礎(chǔ)建立推薦模型。

1 多特征數(shù)字圖書(shū)的數(shù)據(jù)處理

通過(guò)對(duì)多個(gè)數(shù)字圖書(shū)管理系統(tǒng)中的數(shù)據(jù)研究發(fā)現(xiàn),數(shù)字圖書(shū)的數(shù)據(jù)屬性主要有名稱、簡(jiǎn)介、評(píng)論、作者、出版社、出版時(shí)間、讀者信息、圖書(shū)評(píng)分等等。找到合適的方法,融合這些數(shù)據(jù),以此為基礎(chǔ)構(gòu)建數(shù)字圖書(shū)的推薦方法,下面介紹各種數(shù)據(jù)特征的處理和模型構(gòu)建。

1.1 數(shù)字圖書(shū)簡(jiǎn)介信息的數(shù)據(jù)處理及特征提取

數(shù)字圖書(shū)簡(jiǎn)介信息主要采用文本展示,基于卷積神經(jīng)網(wǎng)絡(luò)CNN 在文字識(shí)別中表現(xiàn)出較好的識(shí)別效果,并且對(duì)于未知樣本的類標(biāo)號(hào)也具有較好的預(yù)測(cè)性,本文采用卷積矩陣分解ConvMF 的算法,對(duì)數(shù)字圖書(shū)簡(jiǎn)介信息進(jìn)行處理,得到數(shù)字圖書(shū)預(yù)測(cè)評(píng)分矩陣P1。

忽略標(biāo)點(diǎn)符號(hào)、空格等無(wú)效信息,通過(guò)Word2Vec模型計(jì)算得到數(shù)字圖書(shū)簡(jiǎn)介信息的詞向量矩陣,輸入CNN 中。每條數(shù)字圖書(shū)的最大簡(jiǎn)介信息單詞數(shù)為max_lenth=300,超出單詞直接截?cái)?。所有?shù)字圖書(shū)簡(jiǎn)介信息單詞形成序列L,基于數(shù)據(jù)庫(kù)中數(shù)據(jù)大小的考慮,選取出現(xiàn)最多的前2 000個(gè)單詞組成列表Vs,用UNK 對(duì)應(yīng)的詞向量表示僅在L 中出現(xiàn)的單詞。數(shù)字圖書(shū)簡(jiǎn)介信息組成m × n矩陣,m為簡(jiǎn)介信息的單詞序列,n為每個(gè)單詞向量維度;如若卷積神經(jīng)網(wǎng)絡(luò)輸出的數(shù)字圖書(shū)分類類別為未知,則視未知類別數(shù)字圖書(shū)特征向量為V1。

定義讀者數(shù)量為M,數(shù)字圖書(shū)數(shù)量為N,Ui表示讀者特征向量,Vj表示數(shù)字圖書(shū)特征向量,Rij表示讀者i對(duì)數(shù)字圖書(shū)j的評(píng)分,W為卷積神經(jīng)網(wǎng)絡(luò)中的權(quán)重向量,Wk為第k列元素,ε表示讀者整體評(píng)分矩陣R與讀者、數(shù)字圖書(shū)的特征向量?jī)?nèi)積之差的方差,εu、εv、εw分別為讀者特征向量矩陣U、數(shù)字圖書(shū)特征矩陣V和卷積神經(jīng)網(wǎng)絡(luò)中內(nèi)部權(quán)重W的方差。結(jié)合公式(1),利用隨即梯度下降法求解U和V。

卷積矩陣分解算法中引入概率模型優(yōu)化矩陣分解,利用已知數(shù)據(jù)預(yù)測(cè)評(píng)分矩陣中的未知值,將上文得到數(shù)字圖書(shū)特征向量V1與矩陣概率分解相結(jié)合,能很好地預(yù)測(cè)讀者對(duì)數(shù)字圖書(shū)的預(yù)測(cè)評(píng)分P1,P1的取值在[0,5]之間。

1.2 數(shù)字圖書(shū)評(píng)論信息處理

讀者對(duì)數(shù)字圖書(shū)的評(píng)論會(huì)用許多帶有感情色彩的詞匯,這些詞匯也是讀者對(duì)圖書(shū)喜愛(ài)程度的表達(dá),對(duì)圖書(shū)推薦具有重要的參考價(jià)值。因此,對(duì)這些圖書(shū)評(píng)論中詞匯進(jìn)行量化處理,得到讀者對(duì)數(shù)字圖書(shū)的預(yù)測(cè)評(píng)分矩陣P2。

用AFINN 情感詞典對(duì)圖書(shū)評(píng)論中的情感詞匯進(jìn)行量化,每一個(gè)關(guān)鍵性詞匯對(duì)應(yīng)一個(gè)情感分值,取值范圍在[-5,5]之間,經(jīng)過(guò)處理計(jì)算可以得到每條評(píng)論的總情感分值[2]。利用Python 自然語(yǔ)言工具包對(duì)評(píng)論語(yǔ)言進(jìn)行分詞,并根據(jù)Natural Language Toolkit 中的停用詞表,進(jìn)行停用詞過(guò)濾,建立結(jié)構(gòu)化的評(píng)論數(shù)據(jù)[3]。

AFINN 情感取值介于[-5,5]之間,因此可以將正向積極的評(píng)論取值為(0,5],負(fù)向消極的評(píng)論取值為(0,-5],中性評(píng)價(jià)取值為0,利用公式(2)計(jì)算得出總的情感分值。

其中,Qui=(w1,w2,…,wj),Qui表示讀者u對(duì)數(shù)字圖書(shū)i的結(jié)構(gòu)化評(píng)論;wj是第j個(gè)單詞或詞匯;W(wj) 是每個(gè)單詞或詞匯的情感分值;K為AFINN中的詞匯。

利用公式(3)對(duì)G(Qui) 所得結(jié)果進(jìn)行泛化處理,使其結(jié)果取值在[0,5]之間,x∈[-5,5],y∈[0,5],得到讀者評(píng)論的圖書(shū)預(yù)測(cè)評(píng)分矩陣P2。

半個(gè)多世紀(jì)以來(lái),超高速碰撞不僅在極端條件下的物性與高壓狀態(tài)方程、高溫高壓高應(yīng)變率下材料動(dòng)態(tài)響應(yīng)特性、材料科學(xué)、生命起源、行星與地球物理等基礎(chǔ)學(xué)科研究中發(fā)揮了重要作用,而且推動(dòng)了常規(guī)武器與核武器武器物理、慣性約束聚變(ICF)、核反應(yīng)堆安全防護(hù)設(shè)計(jì)、航天器空間碎片防護(hù)、反彈道導(dǎo)彈、輕質(zhì)裝甲設(shè)計(jì)、飛機(jī)和車輛受撞擊時(shí)乘員與貨物的安全防護(hù)等工程應(yīng)用研究的快速發(fā)展。本文在概要介紹超高速碰撞現(xiàn)象及其關(guān)鍵科學(xué)問(wèn)題的基礎(chǔ)上,評(píng)述了超高速碰撞應(yīng)用于航天器空間碎片防護(hù)、小行星撞擊地球防御研究的若干近期進(jìn)展, 展望了研究發(fā)展趨勢(shì)。

1.3 對(duì)圖書(shū)作者和出版社進(jìn)行數(shù)據(jù)建模

作者、出版社對(duì)于數(shù)字圖書(shū)的評(píng)分也有著較高的影響力,因此將其作為影響圖書(shū)最終預(yù)測(cè)評(píng)分的影響因子,賦予一定的權(quán)重。

最近鄰方法KNN 可以對(duì)一個(gè)不知類別的樣本找出最相似的近鄰用戶進(jìn)行分類,采用此方法求出近鄰讀者對(duì)作者ds所有數(shù)字圖書(shū)的評(píng)分均值,以及近鄰讀者對(duì)出版社eo所有數(shù)字圖書(shū)的評(píng)分均值,利用公式(4)計(jì)算出其均值,作為作者、出版社共同影響下,讀者對(duì)數(shù)字圖書(shū)i綜合評(píng)分為P(i)dseo,表示作者為ds,出版社為eo,讀者對(duì)圖書(shū)i的綜合評(píng)分。

根據(jù)P(i)dseo得出的結(jié)果,利用公式(5)可以構(gòu)建讀者u對(duì)圖書(shū)i的評(píng)分預(yù)測(cè)矩陣P3,P′(ui)為讀者u對(duì)圖書(shū)i的評(píng)分。

1.4 讀者-圖書(shū)評(píng)分?jǐn)?shù)據(jù)的處理

基于讀者、圖書(shū)、圖書(shū)評(píng)分矩陣,通過(guò)協(xié)同過(guò)濾技術(shù)進(jìn)行圖書(shū)推薦已相對(duì)成熟,無(wú)需對(duì)數(shù)據(jù)再進(jìn)行特別的處理。根據(jù)數(shù)據(jù)源D=(U,I,R),結(jié)合協(xié)同過(guò)濾算法,利用余弦相似度計(jì)算,可以得到目標(biāo)讀者對(duì)圖書(shū)的預(yù)測(cè)評(píng)分矩陣P4,其中U={User1,User2,…,Useri}為讀者樣本集合,I={Item1,Item2,…,Itemj}為數(shù)字圖書(shū)樣本集合,R為i × j階矩陣,是已有讀者對(duì)各數(shù)字圖書(shū)的實(shí)際評(píng)分矩陣。

2 融合多特征數(shù)字圖書(shū)數(shù)據(jù)的模型構(gòu)建

根據(jù)多特征數(shù)字圖書(shū)的數(shù)據(jù)處理,重點(diǎn)研究了圖書(shū)簡(jiǎn)介信息、圖書(shū)評(píng)論、圖書(shū)作者和出版社以及圖書(shū)的評(píng)分等影響因子,以此為基礎(chǔ)分別構(gòu)建了讀者對(duì)數(shù)字圖書(shū)的預(yù)測(cè)評(píng)分矩陣P1、P2、P3、P4,將每個(gè)影響因子賦予一定的權(quán)重,利用公式(6)融合計(jì)算,作為最終預(yù)測(cè)評(píng)分Pui。

其中,α、β、γ、δ為不同預(yù)測(cè)評(píng)分矩陣相應(yīng)的權(quán)重,并且α+β+γ+δ=1,通過(guò)問(wèn)卷調(diào)查的方式獲取圖書(shū)簡(jiǎn)介信息、圖書(shū)評(píng)論、圖書(shū)作者和出版社以及圖書(shū)的評(píng)分等因素對(duì)讀者選擇圖書(shū)的直觀影響程度,根據(jù)問(wèn)卷結(jié)果,設(shè)定α、β、γ、δ的初始值,不斷調(diào)整權(quán)重,對(duì)不同的權(quán)重組合進(jìn)行比較,取最小的MAE值所對(duì)應(yīng)的α、β、γ、δ值作為公式中的權(quán)重值。

Pui為讀者u對(duì)圖書(shū)i綜合多特征的預(yù)測(cè)評(píng)分,根據(jù)前文所述,P1為讀者u根據(jù)圖書(shū)簡(jiǎn)介信息對(duì)圖書(shū)i的預(yù)測(cè)評(píng)分;P2為讀者u根據(jù)圖書(shū)評(píng)論對(duì)圖書(shū)i的預(yù)測(cè)評(píng)分;P3為讀者u根據(jù)圖書(shū)作者和出版社對(duì)圖書(shū)i的預(yù)測(cè)評(píng)分;P4為讀者u根據(jù)圖書(shū)的評(píng)分對(duì)圖書(shū)i的預(yù)測(cè)評(píng)分,P1,P2,P3,P4∈[0,5]。根據(jù)已經(jīng)確定的α、β、γ、δ權(quán)重值分別賦予P1、P2、P3、P4,αP1+βP2+γP3+δP4所得結(jié)果即為Pui,得到目標(biāo)讀者對(duì)未選擇圖書(shū)的綜合預(yù)測(cè)評(píng)分后,根據(jù)評(píng)分由高到底排序,將評(píng)分最高的前k個(gè)圖書(shū)推薦給該讀者。

3 實(shí)驗(yàn)分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

3.2 評(píng)價(jià)指標(biāo)

平均絕對(duì)偏差MAE(Mean Absolute Error)體現(xiàn)預(yù)測(cè)評(píng)分與真實(shí)評(píng)分之間的偏差平均值,計(jì)算公式如式(7)所示:

其中,n為讀者數(shù)量;Pi為預(yù)測(cè)讀者評(píng)分集合{p1,p2,…,pN};ri為實(shí)際讀者評(píng)分集合{r1,r2,…,rN};計(jì)算出的MAE值越小,誤差越小,推薦效果越好。

3.3 實(shí)驗(yàn)結(jié)果及分析

首先進(jìn)行權(quán)重調(diào)整實(shí)驗(yàn),獲得最佳的權(quán)重組合對(duì)數(shù)字圖書(shū)的評(píng)分矩陣P1、P2、P3、P4權(quán)重賦值,然后驗(yàn)證融合多特征數(shù)字圖書(shū)推薦性能。

3.3.1 權(quán)重調(diào)整實(shí)驗(yàn)

權(quán)重α、β、γ、δ取值組合范圍較大,通過(guò)對(duì)50位讀者直觀感受和實(shí)際經(jīng)驗(yàn)進(jìn)行的問(wèn)卷調(diào)查顯示,數(shù)字圖書(shū)簡(jiǎn)介信息、讀者評(píng)論、評(píng)分對(duì)其選擇圖書(shū)的影響較大,因此可以假定數(shù)字圖書(shū)簡(jiǎn)介信息、讀者評(píng)論、評(píng)分對(duì)圖書(shū)推薦結(jié)果的影響較大,作者、出版社對(duì)圖書(shū)推薦結(jié)果的影響較小,設(shè)置初始值α=0.3,β=0.3、γ=0.3、δ=0.1,不斷調(diào)整權(quán)重進(jìn)行測(cè)試。鄰居數(shù)N在10-50 之間取值,當(dāng)N取值30時(shí),不同權(quán)重對(duì)應(yīng)的MAE值見(jiàn)表1。

表1 N=30時(shí)不同權(quán)重對(duì)應(yīng)MAE值Tab.1 N=30,Different weights correspond to MAE values

實(shí)驗(yàn)結(jié)果如圖1 所示,權(quán)重編號(hào)為4、12、19時(shí)MAE值較小,采用權(quán)重編號(hào)4 所對(duì)應(yīng)的權(quán)重,取值α=0.2、β=0.3、γ=0.1、δ=0.4 進(jìn)行后續(xù)的數(shù)字圖書(shū)推薦實(shí)驗(yàn)。

圖1 N=30時(shí)不同權(quán)重編號(hào)對(duì)應(yīng)的MAE值Fig.1 N=30,Different weights serial number correspond to MAE values

3.3.2 融合多特征數(shù)字圖書(shū)推薦性能實(shí)驗(yàn)

該實(shí)驗(yàn)驗(yàn)證本文提出的融合多特征數(shù)字圖書(shū)推薦性能,用協(xié)同過(guò)濾算法CF 與本文提出的方法進(jìn)行對(duì)比,比較平均絕對(duì)偏差MAE值。協(xié)同過(guò)濾算法CF 得到的預(yù)測(cè)評(píng)分矩陣就是目標(biāo)讀者對(duì)圖書(shū)的預(yù)測(cè)評(píng)分矩陣P4,得出的MAE值如圖2 所示。

圖2 最近鄰居數(shù)變化時(shí)對(duì)應(yīng)的MAE值Fig.2 MAE values of nearest neighbors’ number changes

實(shí)驗(yàn)表明,融合多特征數(shù)字圖書(shū)推薦方法與協(xié)同過(guò)濾CF 算法相比較,MAE值均最小,表明本文提出的數(shù)字圖書(shū)推薦方法的有效性,該方法在一定程度上提高了數(shù)字圖書(shū)的推薦性能,獲得了較好的推薦效果。

4 結(jié)束語(yǔ)

數(shù)字圖書(shū)具有多特征屬性,隨著現(xiàn)代信息技術(shù)的發(fā)展,數(shù)字圖書(shū)特征數(shù)據(jù)已經(jīng)極大的豐富,這為融合多特征數(shù)字圖書(shū)推薦奠定了基礎(chǔ)。本文通過(guò)對(duì)數(shù)字圖書(shū)特征的分析,考慮圖書(shū)簡(jiǎn)介、讀者評(píng)論、作者、出版社、讀者評(píng)分等多種影響因素,分別對(duì)圖書(shū)評(píng)分進(jìn)行預(yù)測(cè),對(duì)預(yù)測(cè)結(jié)果加權(quán)融合,賦予一定的權(quán)重,以此提高圖書(shū)的推薦性能。通過(guò)實(shí)驗(yàn)證明該方法優(yōu)于協(xié)同過(guò)濾CF 算法,具有更好的數(shù)字圖書(shū)推薦性能。

猜你喜歡
權(quán)重矩陣評(píng)分
車聯(lián)網(wǎng)系統(tǒng)駕駛行為評(píng)分功能開(kāi)發(fā)
權(quán)重望寡:如何化解低地位領(lǐng)導(dǎo)的補(bǔ)償性辱虐管理行為?*
APACHEⅡ評(píng)分在制定ICU患者護(hù)理干預(yù)措施中的應(yīng)用研究
權(quán)重常思“浮名輕”
為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
權(quán)重漲個(gè)股跌 持有白馬藍(lán)籌
雙周最佳陣容
多項(xiàng)式理論在矩陣求逆中的應(yīng)用
雙周最佳陣容
矩陣