王紅霞,鐘愛琳
(沈陽理工大學(xué) 信息科學(xué)與工程學(xué)院,沈陽 110159)
計算機(jī)行業(yè)的迅速發(fā)展使得互聯(lián)網(wǎng)滲透到了生活中的方方面面,是人們獲取信息最有效的途徑,但海量的網(wǎng)絡(luò)信息在給予方便與快捷的同時也使大眾進(jìn)入了信息碎片化的時代,冗余的信息往往會降低用戶的體驗感。面對如此現(xiàn)狀,用戶如何能從中閱讀到真正滿足其需求的信息是迫待解決的關(guān)鍵問題。
協(xié)同過濾推送算法是最為常用的信息推送算法之一。通過用戶的行為特征構(gòu)建用戶興趣模型,根據(jù)協(xié)同過濾推送算法找到用戶的興趣愛好。協(xié)同過濾推送算法分為基于用戶的協(xié)同過濾推送算法[1]和基于項目的協(xié)同過濾推送算法。前者通過計算用戶間的相似度,找到與目標(biāo)用戶相似度較高的其他用戶所喜愛的項目進(jìn)行推送。而基于項目的協(xié)同過濾推送算法[2],關(guān)注點(diǎn)則是項目之間的相似度,首先找到用戶評分歷史中評分較高的項目,然后通過計算項目之間的相似度,把相似度較高的其他項目作為待推送結(jié)果。
盡管協(xié)同過濾推送算法有較高的使用率,但不得不承認(rèn)該算法依然存在弊端。在實(shí)際生活中往往用戶評分這一項會有大量空缺,導(dǎo)致用戶項目評分矩陣稀疏,另外也因為新商品的冷啟動導(dǎo)致推送結(jié)果的覆蓋范圍不夠廣泛。因此,針對這種推送方法的弊端,本文提出了基于本體的協(xié)同過濾信息推送算法,在推薦過程中引入本體,通過本體的概念層次結(jié)構(gòu)關(guān)系和概念之間的關(guān)系與用戶興趣詞之間產(chǎn)生關(guān)聯(lián),進(jìn)而對用戶的興趣詞進(jìn)行詞義擴(kuò)展,使推薦內(nèi)容更為精確豐富。
本文以圖書閱讀網(wǎng)站的個性化推送作為研究背景。用戶興趣模型是對用戶愛好的準(zhǔn)確描述,是服務(wù)推送過程中的重要一環(huán)。而書籍建模是用戶興趣建模的基礎(chǔ),二者缺一不可。
書籍建模采取基于向量空間[3]的模型表示方法。
Project={(project1,style1,author1,pub1),…,(projectm,stylem,authorm,pubm)}
式中:project為書籍編號;style為書籍類別;author為書籍作者;pub為書籍出版社。
用戶興趣模型的建立采取改進(jìn)的向量空間模型表示方式,因為用戶的興趣不是一成不變的,在不同的時間段用戶的興趣可能不同,因此在基本的向量空間模型中加入時間元素,表現(xiàn)形式如下。
User={(userID1,action1,score1,time1),…,(userIDn,actionn,scoren,timen)}
式中:userID為用戶ID;action為行為類型,分為瀏覽、搜索、收藏,對應(yīng)數(shù)值設(shè)為1、2、3來表示其感興趣的程度;score為用戶對書籍的評分;time為以t為單位時間,表示用戶的感興趣程度,若用戶的操作行為發(fā)生在過去的t時間段內(nèi),設(shè)time為5;若用戶的操作行為發(fā)生在過去的t~2t時間段內(nèi),設(shè)time為4;若用戶的操作行為發(fā)生在過去的2t~3t時間段內(nèi),設(shè)time為3;若用戶的操作行為發(fā)生在過去的3t~4t時間段內(nèi),設(shè)time為2;若用戶的操作行為發(fā)生在過去的4t~5t時間段內(nèi),設(shè)time為1。
本體[4]是概念模型形式化的規(guī)范說明,具有概念性、明確性、形式性和共享性。
(1)書籍領(lǐng)域本體的構(gòu)建
初步?jīng)Q定使用protege4.3,按照中圖分類法[5]構(gòu)建部分書籍領(lǐng)域本體。對于部分書籍領(lǐng)域?qū)嶓w可分為出版商、作者、類別,詳細(xì)分類如下。
部分書籍領(lǐng)域整體本體圖如圖1所示
圖1 部分書籍領(lǐng)域本體圖
圖中:BookAreas為部分書籍領(lǐng)域本體類;Book表示書籍種類;Publication表示書籍出版商;Author表示書籍作者;Thing表示事物。
(1)采用改進(jìn)的基于向量的空間模型表示方法構(gòu)建用戶的興趣模型。
(2)根據(jù)公式(1),計算用戶之間的相似度。
sim(Useri,Userj)=cos(Useri,Userj)=
(1)
式中:Useri、Userj為用戶i、j的興趣模型向量。
(3)最近鄰居集的構(gòu)建:將相似度最高的前r個用戶篩選出來,組成用戶的最近鄰居集Ue(U1,U2…Ur)。
(4)選取鄰居集中用戶的所有歷史項目作為待推送商品集。
(5)預(yù)測項目評分:計算待推送集合中書籍的評分,不同用戶對目標(biāo)用戶的影響不同,因而選取鄰居用戶的加權(quán)評分值作為權(quán)重因子[6],計算公式(2)如下,S(a,i)表示用戶a對書籍i的評分。
(2)
根據(jù)評分預(yù)測選取評分最高的前j個書籍構(gòu)建興趣書籍集G1(g1,g2…gj);
(6)根據(jù)建立的商品模型提取興趣書籍集中商品所包含的特征詞。
(1)根據(jù)建立的用戶興趣模型,選取書籍用戶在3t時間內(nèi)評分書籍最高的前k個書籍。
(2)通過公式(3)計算書籍之間的相似度,得到k個書籍的商品鄰居集P。
(3)
式中:Projecti、Projectj表示書籍i、j的模型向量。
(3)據(jù)公式(4)計算鄰居集P中各個項目的預(yù)測評分
(4)
(4)根據(jù)評分預(yù)測選取評分最高的前k個書籍構(gòu)建興趣書籍集G2(g1,g2…gk)。
(5)將特征詞映射到本體模型中,通過搜索找到特征詞在本體中的位置,若本體中沒有該特征詞,則將該特征詞添加到本體中,然后搜索該特征詞同一父類下的特征詞,以及相鄰父類下的特征詞,通過特征詞找到與之對應(yīng)的書籍。構(gòu)成書籍集G′2(g1,g2…gk)。
(6)將G′2做為待推送書籍集。
圖2所示為本體與協(xié)同過濾信息推送算法結(jié)合的具體流程圖。
圖2 算法流程圖
(1)下載BookCrossingDataset數(shù)據(jù)集[7]。
(2)采用空間向量模型的方法構(gòu)建商品模型,在空間向量模型方法之上有所改進(jìn),加入time因素,構(gòu)建用戶興趣模型。
(3)將本體結(jié)合到協(xié)同過濾推送算法中。
(4)選取絕對平均誤差和覆蓋率作為評價指標(biāo),驗證融入本體后的協(xié)同過濾算法的有效性。
本課題需要的數(shù)據(jù)選自BookCrossingDataset數(shù)據(jù)集,該數(shù)據(jù)集包含三張表:用戶信息表、書籍信息表、用戶對書籍的評價。
表1 數(shù)據(jù)集基本信息
(1)原始的書籍?dāng)?shù)據(jù)表中imageURL屬性并不需要,可以將其刪除。
(2)原始的出版時間數(shù)據(jù),其中有一些錯誤條目(如出版商的名字被錯誤地加載為出版日期),將對這些錯誤進(jìn)行更正。
修改后的結(jié)果如圖3、圖4所示。
圖3 刪除imageURL后的書籍?dāng)?shù)據(jù)
圖4 更正后的出版時間數(shù)據(jù)
本課題選取絕對平均誤差(Mean Absolute Error,MAE)[8]和覆蓋率(F)作為評估指標(biāo)來驗證算法的準(zhǔn)確性。
(1)MAE值度量預(yù)測打分與實(shí)際打分的絕對平均誤差。
(5)
式中:pi表示信息推送系統(tǒng)對書籍i的預(yù)測打分;ri表示用戶對書籍i的實(shí)際評分;N為測試集中書籍個數(shù)。
表2為傳統(tǒng)的協(xié)同過濾推送算法與結(jié)合本體后推送算法的MAE值比較,100-100表示100個用戶對一百本書評價,以此類推。
表2 與本體結(jié)合的協(xié)同過濾推送算法的MAE值
由表2的MAE值可得出如下結(jié)論:用戶協(xié)同過濾推送算法的效率要高于書籍協(xié)同過濾推送算法;與本體結(jié)合后的推送算法比傳統(tǒng)的協(xié)同過濾推送算法準(zhǔn)確性更高。
(2)根據(jù)精確度(Precision)、召回率(Recall)、和覆蓋率(F)[9]來進(jìn)行驗證。覆蓋率的高低能反映出推送系統(tǒng)推送信息的豐富性,覆蓋率越高推送的內(nèi)容覆蓋范圍就越廣。
(6)
(7)
(8)
式中:PreSet為預(yù)測的待推送的項目集合;RefSet為真實(shí)的用戶購買的項目集合;F為最終的評價標(biāo)準(zhǔn)。
表3為幾種推送算法的精確度、召回率和覆蓋率的結(jié)果比較。
由表3可看出,與本體結(jié)合后的協(xié)同過濾推送算法覆蓋率更高,說明本文提出的基于本體的協(xié)同過濾信息推送算法準(zhǔn)確性更高,推送內(nèi)容也更為豐富。
表3 不同算法的精確度、召回率、覆蓋率的比較 %
提出基于本體的協(xié)同過濾信息推送算法,采取經(jīng)典的絕對平均誤差及覆蓋率作為評價指標(biāo),經(jīng)實(shí)驗結(jié)果表明,與本體結(jié)合的協(xié)同過濾推送算法較為有效的解決了傳統(tǒng)協(xié)同過濾推送算法存在的用戶興趣矩陣稀疏問題及新商品的冷啟動問題。