張智強,侯愛琴,杜娜娜,甘大廣
(1.西北大學 信息科學與技術學院,陜西 西安 710127;2.北京萬方軟件股份有限公司,北京 100038)
目前海量文獻資料大多數(shù)是通過數(shù)字圖書、電子文檔的形式獲取,為信息共享提供方便的同時,可能會導致信息過載。各種推薦系統(tǒng)是解決信息過載的一種有效方法。推薦系統(tǒng)根據(jù)用戶之前的行為信息發(fā)現(xiàn)其需求,從而對用戶感興趣的信息進行推送[1]。其中,協(xié)同過濾推薦算法是目前應用于各電商最廣泛的個性化推薦算法。基于用戶行為信息的協(xié)同過濾算法可有針對性地推薦新的項目,因此得到了廣泛應用[2]。然而,該類算法僅考慮到用戶間評分信息,卻忽略了用戶本身的屬性特點,存在很多局限性,很難保證推薦質量。新用戶的冷啟動、數(shù)據(jù)稀疏性和推薦準確性依舊是目前亟待解決的難題。綜上,本文提出一種基于用戶特征的共同研究興趣人員的混合推薦算法。
在協(xié)同過濾領域,Herlocker[3]和Breese都為協(xié)同過濾(Collaborative Filtering, CF)算法的評估提供了概述和框架。除了原來的K近鄰算法[4]之外,還有很多算法被提出并用于協(xié)同過濾。其中包括基于項目的算法和基于模型的算法[5],如貝葉斯網(wǎng)絡和聚類。
ReferralWeb將協(xié)同過濾、搜索、社交網(wǎng)絡相結合,創(chuàng)建了一個推薦系統(tǒng),在一個已經(jīng)存在的社交網(wǎng)絡中,將具有共同興趣的人推薦給彼此。筆者的工作是在ReferralWeb基礎上做了擴展,探索了將CF直接應用到社交網(wǎng)絡的方法。
大多數(shù)CF應用領域推薦的條目彼此之間的關系相關性不大,而研究論文方面的推薦,論文之間存在復雜的引用關系網(wǎng)絡。要成功地將CF應用到這個領域,需要對算法進行修改,以有效地解釋引文網(wǎng)絡數(shù)據(jù)。
自動引文索引可提供一種通過引文鏈接檢索文獻的方式,ResearchIndex能夠快速創(chuàng)建一個計算機科學論文的大型在線引文網(wǎng)絡。通過使用協(xié)同過濾等技術,可以大大提高如ResearchIndex這樣的引文索引系統(tǒng)的檢索速度。
Woodruf等人提出一種推薦算法,可以融合文本和引文數(shù)據(jù)進行推薦。這種混合過濾算法結合了語義信息和協(xié)同信息,在研究論文領城有很大的應用潛力。單獨使用研究論文引文,忽略研究論文的內容進行推薦,可能會導致不正確的結果。例如,一些研究人員在參考文獻部分引用了一篇論文,卻沒有在論文的主要內容中實際使用它們。
利用學術論文的參考文獻,可以創(chuàng)建反映學者之間研究興趣相關性的引文網(wǎng)絡。多年來,圖書館員和信息專業(yè)人員一直在研究學術論文作者之間關聯(lián)網(wǎng)絡的創(chuàng)建和索引方法[6-7]。
Waleed Reafee等人提出一種推薦引用的方法。他們的方法是應用協(xié)同過濾(CF)方法,通過研究論文之間的引用創(chuàng)建一個作者之間引用關系圖表。這些數(shù)據(jù)可以映射到CF的框架中,并用于克服冷啟動問題。Caragea等在假設論文作者具有一定背景知識的前提下,使用奇異值分解(Singular Value Decomposition, SVD)來提供更好的引文推薦。然而,為了體現(xiàn)作者的背景知識,用戶需要準備與作者的研究主題相關的引文的初始集合。
為了更好地利用用戶本身的屬性特點,本文使用用戶過去發(fā)表的論文及其引文以檔案的形式為用戶背景建模,并利用信任關系的可傳遞性,通過直接信任和間接信任兩種方式為研究人員推薦相似用戶,幫助其找到與自己研究興趣相同的研究者。其算法流程如圖1所示。
圖1 基于學術論文的共同研究興趣人員推薦流程
首先將研究人員分為初級研究人員和高級研究人員,這是因為這兩種類型的研究人員的論文列表的特性不同。初級研究人員為只有少量發(fā)表的論文,尚未引證(即沒有引文);高級研究人員是指有大量論文發(fā)表且已被引證。
本文利用論文的摘要及其引文網(wǎng)絡,來建立該論文的引用文檔。用戶配置文件的表示是基于以特征向量表示的論文。每個研究人員發(fā)表的每一篇論文,都將轉化成一個個特征向量,如下:
式中TF(tk, p)是p中tk項出現(xiàn)的頻率。因為研究人員發(fā)表的論文數(shù)量較少,可能會對IDF評分的計算產(chǎn)生不利影響,所以采用TF而不采用標準的TF-IDF方案。
基于論文特征向量fp的集合,可以通過每個研究人員發(fā)表的論文與其引文、參考文獻來構建初級研究人員和高級研究人員的配置文件。
本文采用余弦相似度作為論文之間的權重。根據(jù)式(1),分別讓fu和fv作為論文u和論文v的特征向量。然后根據(jù)式(3)可以計算出2個向量之間的相似性sim(fu, fv)作為論文之間的權重wpu→v。
這種方法通過強調其引文與參考文獻之間的相似性增強了研究人員論文中的信息。
(1)初級研究人員配置文件向量
本文選取只有一篇論文發(fā)表的初級研究人員,且該論文尚未被引證(即沒有引文,只有參考文獻)。根據(jù)文獻[8],初級研究人員配置文件向量Puser的定義如下:
(2)高級研究人員配置文件向量
根據(jù)以上分析,計算高級用戶配置文件向量Puser,公式如下:
信任度是指在為用戶做推薦時,其他用戶的參考程度。對一個用戶越信任,其參考程度越大;若兩個用戶屬性比較相近,則可以認為其喜好具有較高的相似性。因此,本文考慮基于用戶信任關系的相似性構建用戶信任網(wǎng)絡。結合信任關系的推薦系統(tǒng)可以有效地緩解傳統(tǒng)協(xié)同過濾算法中存在的數(shù)據(jù)稀疏問題,并為每個用戶提供可信且準確的推薦。信任度分為直接信任度和間接信任度。直接信任度表示有直接關聯(lián)的用戶相似性,間接信任度表示沒有直接關聯(lián)卻存在相似度的用戶相似性[9]。
2.2.1 直接信任推薦
直接信任是指兩個用戶在某些行為方面表現(xiàn)為直接相關,并且通過直接相關的行為對對方產(chǎn)生直接信任關系。具體過程為:利用二分K-Means算法對用戶聚類,可以得到所選用戶的候選用戶集群,再利用Top-K算法,選取與該用戶相似性較高的前K個用戶作為最佳用戶進行推薦,如圖2所示。
圖2 直接信任關系模型
2.2.2 間接信任推薦
間接信任是指兩個用戶沒有直接關系,而根據(jù)信任的傳遞性,信任從一個用戶傳遞到下一個用戶,經(jīng)過不止一次的傳遞到達指定的用戶,兩個用戶之間需要其他用戶的搭橋后才能信任傳遞。設用戶u和用戶v沒有直接信任度,但用戶u和用戶w有直接信任度,用戶w和用戶v有直接信任度,那么就可以說用戶u和用戶v通過用戶w建立了間接信任關系。
圖3 間接信任關系模型
本實驗采用科技情報大數(shù)據(jù)挖掘與服務系統(tǒng)平臺AMiner中的數(shù)據(jù)集,選用其中的DBLP-Citation-network V11數(shù)據(jù)集,包含4 107 340篇論文和36 624 464條引用關系。為建立用戶配置文件、獲得準確的推薦結果提供了保障。
本文獲得萬方數(shù)據(jù)的支持,通過數(shù)據(jù)接口選取其中的30位用戶及其引文網(wǎng)絡作為本文的測試數(shù)據(jù)集并進行了實驗驗證。
本文研究人員相似度計算采用了余弦相似度計算公式,如下:
式中Pu,Pv分別為用戶u、用戶v的配置文件向量。
本文分別采用AMiner數(shù)據(jù)集和萬方數(shù)據(jù)進行直接信任和間接信任兩種方式的推薦,兩個數(shù)據(jù)集實驗結論一致。下面以AMiner數(shù)據(jù)集為例進行實驗說明。
3.3.1 初級研究人員推薦
(1)直接信任推薦
隨機選取了數(shù)據(jù)集中的15位初級研究人員(只有一篇最近發(fā)表的論文,尚未引證,即沒有引文),并為其生成配置文件。對每一位研究者,采用直接信任方式分別計算了前3位、5位、7位、10位相似研究者的余弦相似度,如圖4所示。
圖4 直接信任研究者(初級)間余弦相似度
從圖中可以看出,隨著推薦相似研究人員的增多,研究人員間的相似性也越來越低。研究者4推薦的前3位研究人員和前5位研究人員,經(jīng)過查證都只發(fā)表了一篇論文且均為這篇文章的共同作者,所以相似度為1。
(2)間接信任推薦
對間接信任方式,實驗中仍采用上述直接信任實驗選取的數(shù)據(jù)集中的15位初級研究人員,根據(jù)信任可以在信任網(wǎng)絡中傳播的原理,分別取傳遞距離為3,5,7,10,15,20進行了對比實驗。間接信任研究者間余弦相似度實驗結果如圖5所示。
圖5 間接信任研究者(初級)間相似度
從圖中可以看出,信任傳遞距離越遠,研究人員間的相似性越低。在推薦研究人員從3位增長到5位時,相似度驟減,這也是因為對初級研究者推薦的研究人員中,前3位可能是同一篇文章的共同作者,前5位由于間接信任傳遞距離的增長相似度降低。對任意一個用戶,間接信任與直接信任方式相比,推薦人數(shù)相同的情況下,間接信任研究人員間的相似性略低于直接信任。此外,隨著間接信任傳遞距離的增長,其相似性降低幅度較小。
3.3.2 高級研究人員推薦
本文選取數(shù)據(jù)集中發(fā)表文章相對較多的15位高級研究人員(有一系列論文,過去發(fā)表的論文有被引證),并根據(jù)研究人員最近5年論文列表為其生成配置文件并通過二分K-Means算法對用戶進行聚類。大量研究指出:使用研究者最近5年的論文列表基本可代表該研究者的研究方向。如果使用該作者的全部論文列表,則向量會很大,而且其研究方向可能有改變;而如果使用較少的論文列表則不能更好地代表其研究方向。
(1)直接信任推薦
取數(shù)據(jù)集中發(fā)表文章相對較多的15位高級研究人員,根據(jù)研究者最近5年的出版物列表生成其配置文件進行匹配,直接信任研究人員間的余弦相似度實驗結果見表1和圖6所列。對于同一研究者,根據(jù)余弦相似度高低排序進行推薦。從圖6中可以看出,隨著推薦人數(shù)的增多,雖然相似性有所下降,但下降的幅度很小。總體來說,推薦前5位相似研究興趣人員時,比推薦前3位時的相似度變化值平均僅為2.39%;推薦前7位時,比推薦前3位時的相似度變化值平均為4.16%;推薦前10位時,比推薦前3位時的相似度變化值平均為6.18%,其相似度也僅僅平均變化了0.044 2。
表1 直接信任研究者間相似度表
圖6 直接信任研究者(高級)間余弦相似度
(2)間接信任推薦
仍取上述數(shù)據(jù)集中的15位高級研究人員,計算間接信任研究者間余弦相似度見表2及圖7所列。同樣地,對于同一研究者,按余弦相似度高低排序進行推薦。從圖7可見,同一研究者信任傳遞距離越遠,相似性有所下降??傮w來說,推薦前5位相似研究興趣人員時,比推薦前3位時的相似度變化值平均僅為5.77%;推薦前7位時,比推薦前3位時相似度變化值平均為8.88%;推薦前10位時,比推薦前3位時相似度變化值平均為12.4%,其相似度變化平均為0.203 3;推薦前15位時,相似度變化值平均為15.8%,比推薦前3位時其相似度變化平均僅為0.232 2;推薦前20位時,比推薦前3位時相似度變化值平均為18.9%,其相似度變化也平均僅為0.294 6。所以,隨著間接信任傳遞距離的增長,雖然相似性在減小,但減小的幅度并不大,這樣就極大地擴展了推薦用戶列表。
表2 間接信任研究者間余弦相似度表
圖7 間接信任研究者(高級)間余弦相似度
本文使用研究人員過去的論文列表建立用戶配置文件,分別對初級研究人員和高級研究人員通過直接信任和間接信任的方式對其進行相似研究人員的推薦。結果表明,通過直接信任方式和間接信任方式推薦均可找出相似度高的研究人員,直接信任方式比間接信任方式推薦相似度略高。通過間接信任方式不僅為該研究者找出相似度較高的研究人員,而且能夠極大可能地推薦更多相似興趣的人員。本文基于內容的用戶興趣關系網(wǎng)的推薦方法也緩解了推薦系統(tǒng)的稀疏性和冷啟動等問題。