国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于引文圖模型的科研論文智能推薦算法研究

2019-03-25 08:01:52肖詩(shī)伯付圣
電腦知識(shí)與技術(shù) 2019年3期
關(guān)鍵詞:推薦系統(tǒng)

肖詩(shī)伯 付圣

摘要:科研工作者在搜索文獻(xiàn)時(shí),即使通過(guò)關(guān)鍵詞檢索也常因結(jié)果中的大量文獻(xiàn)而造成篩選困難。本文為幫助用戶(hù)過(guò)濾文獻(xiàn),更好的發(fā)現(xiàn)適合自身的文獻(xiàn),考慮到文獻(xiàn)的引文具有文獻(xiàn)的研究傳承、解釋?zhuān)卣沟葍?nèi)涵。所以本研究以文獻(xiàn)的引文為研究對(duì)象,運(yùn)用圖模型算法,分析各文獻(xiàn)間的親疏關(guān)系,來(lái)為用戶(hù)篩選、推薦文獻(xiàn)。經(jīng)評(píng)價(jià)算法計(jì)算,本研究算法的準(zhǔn)確率為38.57%,召回率為27.32%,覆蓋率為26.83%??蓾M足對(duì)文獻(xiàn)親疏關(guān)系的預(yù)測(cè),為用戶(hù)提供文獻(xiàn)推薦服務(wù),幫助用戶(hù)發(fā)現(xiàn)適合其自身的文獻(xiàn)。

關(guān)鍵詞:推薦系統(tǒng);圖模型;隨機(jī)游走;引文;科研文獻(xiàn)

中圖分類(lèi)號(hào):G642? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? 文章編號(hào):1009-3044(2019)03-0190-03

Abstract: When research workers search the literature, it is often difficult to screen a large number of literature in the result, even if use keyword search. This paper is to help users filter the literature, to find the appropriate literature for themselves, taking into the literature citations has connotation of literature research, inheritance, interpretation, expansion and so on. Therefore, this study is based on the citation of literature, use graph model algorithm, analysis of the relationship between literatures, help users filter and recommend literature. After evaluation algorithm analysis, the accuracy rate is 38.57%, recall rate is 27.32% and the coverage rate is 26.83.%. Can predict the relationship between the literatures, providing recommendation services with literature for users, help users find suitable for theirs literature.

Key words: Recommendation System; Graph Model; PersonalRank; Citation; Research Literature

1研究思路

學(xué)術(shù)數(shù)據(jù)庫(kù)中海量文獻(xiàn)不斷激增,科研工作者在搜索論文時(shí),一方面通過(guò)關(guān)鍵詞搜索因大量的搜索結(jié)果而不能快速地找到自己需要的論文的情況,另一方面有不能較好使用關(guān)鍵詞準(zhǔn)確描述需求的情況,最終造成科研工作者將浪費(fèi)大量時(shí)間排除不相關(guān)論文[1,2]。這也使得論文提供者對(duì)用戶(hù)的文獻(xiàn)服務(wù)不夠完善。

科研論文的引文代表了論文內(nèi)容中相關(guān)知識(shí)的傳遞,可揭示論文中相關(guān)知識(shí)結(jié)構(gòu)的特征,也呈現(xiàn)了某一系列研究的層次和邏輯。本文以科研論文的引文為研究對(duì)象,通過(guò)識(shí)別論文到引文之間、一級(jí)引文到下一級(jí)引文之間、論文互引等的知識(shí)聯(lián)系,為找出各論文之間的相關(guān)性,以幫助科研工作者快速篩選論文、發(fā)現(xiàn)自己的需求。

隨著機(jī)器學(xué)習(xí)算法、大數(shù)據(jù)相關(guān)技術(shù)的不斷更新和成熟,為解決這類(lèi)問(wèn)題提供了技術(shù)支撐。對(duì)于論文引文這種數(shù)據(jù)類(lèi)型,本文使用機(jī)器學(xué)習(xí)中的圖模型算法來(lái)的分析“論文-引文”“引文-引文”的親疏性[3]。論文和引文在集合中均用頂點(diǎn)Un來(lái)表示,論文的引用行為用邊En來(lái)表示。通過(guò)度量各定點(diǎn)之間的路徑數(shù)量和長(zhǎng)度來(lái)判斷某一論文與其他論文的相關(guān)性高低。如圖1示例:

對(duì)于相關(guān)性偏高的論文之間一般具有的特征為:兩個(gè)頂點(diǎn)之間的連接路徑較短、兩個(gè)頂點(diǎn)之間有多條路徑相連、兩個(gè)頂點(diǎn)之間有互引路徑、兩個(gè)頂點(diǎn)之間的路徑?jīng)]有通過(guò)出度較高的頂點(diǎn)。

2推薦算法模型

通過(guò)在某一“頂點(diǎn)”開(kāi)始在有向圖的相應(yīng)“邊”和“頂點(diǎn)”之間隨機(jī)游走。游走到任一頂點(diǎn)Un時(shí),通過(guò)設(shè)計(jì)概率α來(lái)判斷是繼續(xù)游走,還是終止游走并返回原頂點(diǎn)重新進(jìn)行游走。若α判斷為繼續(xù)游走,就對(duì)當(dāng)前頂點(diǎn)的全部“邊”采取隨機(jī)方式任選一“邊”進(jìn)行游走到下一“頂點(diǎn)”,然后又返回到概率α來(lái)判斷是繼續(xù)游走,還是返回重新游走。通過(guò)多次隨機(jī)游走后,各定點(diǎn)被游走到的概率將收斂為一個(gè)數(shù),從而發(fā)現(xiàn)某一論文對(duì)各論文的相關(guān)親疏,形成推薦列表,進(jìn)而實(shí)現(xiàn)對(duì)科研工作者的論文推薦。基于科研工作者發(fā)表論文的數(shù)量和日期的頻繁度相對(duì)不會(huì)太高,先為數(shù)據(jù)集中的作者離線計(jì)算一個(gè)初始的推薦列表,待作者及推薦列表中論文作者有新論文發(fā)表后,再采取離線計(jì)算的方式重新計(jì)算推薦列表,為其提供推薦。

2.1數(shù)據(jù)準(zhǔn)備

把“論文-引文”數(shù)據(jù)集按論文發(fā)布時(shí)間順序分為10份。前9份為訓(xùn)練集:度量各論文之間的相關(guān)性,然后以論文作者為標(biāo)識(shí),排列出對(duì)論文作者相關(guān)性高的論文。將最后1份作為測(cè)試集:以論文作者為標(biāo)識(shí)導(dǎo)出其引用的論文,與訓(xùn)練集排列出的論文列表相比較,來(lái)評(píng)價(jià)算法模型的準(zhǔn)確指數(shù)。具體使用Python語(yǔ)言、Numpy計(jì)算包、科學(xué)計(jì)算包來(lái)實(shí)現(xiàn)。

2.2算法實(shí)施

首先,設(shè)置論文頂點(diǎn)的初始概率值:論文Un的頂點(diǎn)初始游走概率α為1,其對(duì)應(yīng)引文的初始訪問(wèn)概率β為0,定義“邊”的權(quán)重為1,然后運(yùn)用迭代公式處理。

然后,使用隨機(jī)的方式選擇引文。以論文Un的開(kāi)始,在有向圖中根據(jù)引用論文的行為,生成概率α,通過(guò)“邊”En走到其引用的論文Un+s。又以論文Un+s為頂點(diǎn),計(jì)算α=1-f決定是否繼續(xù)游走。若為繼續(xù)游走,則以相同的方式計(jì)算隨機(jī)選擇論文Un+s的引文繼續(xù)重復(fù);若為停止游走,則返回論文Un頂點(diǎn)進(jìn)行下一輪游走循環(huán),具體如式(1)。

其中Su代表某起始論文頂點(diǎn),每篇論文均獨(dú)立進(jìn)行迭代分析,獲取各自對(duì)集合S中其他論文頂點(diǎn)的經(jīng)過(guò)概率。

相關(guān)核心代碼是:

對(duì)于某論文Un進(jìn)行大量隨機(jī)游走循環(huán)后,取被游走到的文獻(xiàn),把每篇論文頂點(diǎn)被經(jīng)過(guò)的概率迭代合并,取得相對(duì)穩(wěn)定的收斂值。

最后,對(duì)論文經(jīng)過(guò)概率進(jìn)行排序。選擇值排名前50的論文,剔除作者已引用過(guò)的論文,作為對(duì)作者的某篇初始論文的初始推薦列表。再以該作者為索引,依次計(jì)算其發(fā)表的全部論文的初始推薦列表。然后將這些初始推薦表中的論文,剔除重復(fù)后再按權(quán)重排序,形成最終推薦列表。

2.3算法優(yōu)化

雖然本算法的理論在圖模型中有比較充足的支撐,但計(jì)算任一篇論文,算法要對(duì)整個(gè)論文集U中的每篇論文進(jìn)行遍歷,造成時(shí)間成本高。若新加入一篇論文產(chǎn)生了新的引用關(guān)系,又需要再對(duì)全部有向圖中的論文進(jìn)行迭代。因此在對(duì)結(jié)果影響不高的前提下,為減少時(shí)間成本和硬件計(jì)算量,使用矩陣論方法優(yōu)化算法。

3結(jié)果與分析

3.1分析標(biāo)準(zhǔn)

本算法模型采取推薦系統(tǒng)領(lǐng)域常用的準(zhǔn)確率、召回率和覆蓋率三種指標(biāo)來(lái)評(píng)價(jià)算法的綜合性能[4]。具體方式為:

準(zhǔn)確率(Precision):把訓(xùn)練集中綜合排名前47的論文與測(cè)試集中科研工作者引用的論文進(jìn)行比較,評(píng)估對(duì)訓(xùn)練集預(yù)測(cè)出論文的比例,具體如式(4)。

其中ep表示訓(xùn)練集與測(cè)試集對(duì)比后相同論文的數(shù)量,bp為訓(xùn)練集與測(cè)試集對(duì)比后差異論文的數(shù)量。

召回率(Recall):把測(cè)試集中作者實(shí)際引用的論文與訓(xùn)練中預(yù)測(cè)出的論文進(jìn)行比較,評(píng)估算法預(yù)測(cè)的查全率,具體如式(5)。

其中bn表示算法模型中未預(yù)測(cè)出的論文數(shù)量。

覆蓋率(Coverage):把訓(xùn)練集中綜合排名前47的論文的流行度和論文集U的整體流行度進(jìn)行比較,來(lái)評(píng)估算法對(duì)非熱門(mén)論文的發(fā)現(xiàn)能力。采用Information-entropy的公式來(lái)評(píng)估,具體如式(6)。

其中d(u)表示用論文d的流行度除論文集U的流行度的和。

3.2 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)使用ANN提供的1965到2012年間發(fā)表的論文數(shù)據(jù)集,經(jīng)篩選不完整數(shù)據(jù)和過(guò)于稀疏的數(shù)據(jù),最后使用的數(shù)據(jù)信息為論文23354篇,作者2603個(gè),引文數(shù)量15729篇,引用關(guān)系93572個(gè)。將算法模型中的α通過(guò)預(yù)先調(diào)試和比較,選擇0.79為合適參數(shù)。將數(shù)據(jù)集導(dǎo)入算法模型中計(jì)算,再把結(jié)果導(dǎo)入評(píng)價(jià)公式計(jì)算,最后實(shí)驗(yàn)結(jié)果如表1:

將本模型結(jié)果與理想狀態(tài)的樸素貝葉斯模型和K近鄰模型相比,本模型的準(zhǔn)確率與召回率雖然與理想狀態(tài)下的模型有一定差距,但考慮到數(shù)據(jù)集的特殊性和不完整性,38.57%的準(zhǔn)確率和27.32%的召回率是較成功的,可較為準(zhǔn)確地為科研工作者在論文搜索過(guò)程中提供論文推薦。26.83%的覆蓋率表示本模型在發(fā)現(xiàn)非熱門(mén)論文方面有一定能力,可為科研工作者推薦一些與其科研內(nèi)容相關(guān)且其可能不容易發(fā)現(xiàn)的論文。

4總結(jié)

本文采用有向圖模型算法在論文和引文中進(jìn)行隨機(jī)游走和迭代,找出與作者論文有較多關(guān)聯(lián)的其他作者的論文,幫助其篩選海量文獻(xiàn)。本算法模型的適合運(yùn)用場(chǎng)景為:作者在數(shù)據(jù)庫(kù)中還未產(chǎn)生文獻(xiàn)使用行為或作者在數(shù)據(jù)庫(kù)中還未輸入關(guān)鍵詞等情況。本算法模型通過(guò)準(zhǔn)確率、召回率和覆蓋率3個(gè)指標(biāo)的評(píng)價(jià),其結(jié)果表示本算法具有一定的預(yù)測(cè)能力,能幫助用戶(hù)發(fā)現(xiàn)適合其自身需求的文獻(xiàn)。在后續(xù)的研究中,可運(yùn)用學(xué)科邏輯分類(lèi)來(lái)縮小算法的迭代遍歷范圍,提高計(jì)算速度并降低計(jì)算資源的消耗;還可結(jié)合作者在數(shù)據(jù)庫(kù)中檢索行為特征來(lái)提高預(yù)測(cè)的準(zhǔn)確性;還可運(yùn)用閃存系統(tǒng)提高算法對(duì)數(shù)據(jù)的讀取速度[5,6]。

參考文獻(xiàn):

[1] 劉凱,王偉軍,黃英輝,等.個(gè)性化推薦系統(tǒng)理論探索:從系統(tǒng)向用戶(hù)為中心的演進(jìn)[J].情報(bào)理論與實(shí)踐,2016,39(03):52-56.

[2] 安維,劉啟華,張李義.個(gè)性化推薦系統(tǒng)的多樣性研究進(jìn)展[J].圖書(shū)情報(bào)工作,2013,57(20):127-135.

[3] 黃波,嚴(yán)宣輝,林建輝.基于有向圖分割的推薦算法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2015,24(12):196-203.

[4] 吳海霞,何苑,路璐.個(gè)性化推薦系統(tǒng)評(píng)測(cè)指標(biāo)與實(shí)驗(yàn)方法研究[J].晉中學(xué)院學(xué)報(bào),2015,32(3):77-81.

[5] 肖詩(shī)伯,郭秀英.基于用戶(hù)特征的文獻(xiàn)個(gè)性化推薦系統(tǒng)研究[J].網(wǎng)絡(luò)新媒體技術(shù),2018,7(4):24-33.

[6] 肖詩(shī)伯,郭秀英.閃存部署方案在高校圖書(shū)館存儲(chǔ)場(chǎng)景中的研究[J].微型電腦應(yīng)用,2018,34(9):47-48+50-51.

【通聯(lián)編輯:王力】

猜你喜歡
推薦系統(tǒng)
數(shù)據(jù)挖掘在選課推薦中的研究
軟件(2016年4期)2017-01-20 10:09:33
基于用戶(hù)偏好的信任網(wǎng)絡(luò)隨機(jī)游走推薦模型
基于個(gè)性化的協(xié)同過(guò)濾圖書(shū)推薦算法研究
個(gè)性化推薦系統(tǒng)關(guān)鍵算法探討
淺談Mahout在個(gè)性化推薦系統(tǒng)中的應(yīng)用
關(guān)于協(xié)同過(guò)濾推薦算法的研究文獻(xiàn)綜述
商(2016年29期)2016-10-29 15:22:08
一種基于自適應(yīng)近鄰選擇的協(xié)同過(guò)濾推薦算法
UGC標(biāo)簽推薦系統(tǒng)的一種新的標(biāo)簽清理方法
商(2016年15期)2016-06-17 17:39:50
網(wǎng)上商品推薦系統(tǒng)設(shè)計(jì)研究
基于消費(fèi)者視角的在線推薦系統(tǒng)研究綜述
新疆| 昌黎县| 亚东县| 徐州市| 邹平县| 岱山县| 无极县| 安宁市| 富源县| 游戏| 广饶县| 朝阳市| 墨脱县| 原平市| 恩平市| 邢台县| 无锡市| 新安县| 腾冲县| 青河县| 商都县| 翼城县| 公主岭市| 闽侯县| 贵溪市| 眉山市| 日土县| 甘肃省| 当雄县| 秭归县| 六安市| 和林格尔县| 汉寿县| 漠河县| 阿勒泰市| 屯昌县| 河间市| 宁明县| 榕江县| 天祝| 图片|