湯志康 李春英 湯 庸 黃泳航 蔡奕彬
(1.廣東技術(shù)師范學(xué)院計(jì)算機(jī)科學(xué)學(xué)院 廣州 510665)(2.廣東技術(shù)師范學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)中心 廣州 510665) (3.華南師范大學(xué)計(jì)算機(jī)科學(xué)學(xué)院 廣州 510631)
學(xué)術(shù)社交平臺論文推薦方法
湯志康1李春英2,3湯 庸3黃泳航3蔡奕彬3
(1.廣東技術(shù)師范學(xué)院計(jì)算機(jī)科學(xué)學(xué)院 廣州 510665)(2.廣東技術(shù)師范學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)中心 廣州 510665) (3.華南師范大學(xué)計(jì)算機(jī)科學(xué)學(xué)院 廣州 510631)
基于搜索學(xué)術(shù)論文對研究者造成的困擾問題,在學(xué)術(shù)論文聚合平臺基礎(chǔ)上提出一種學(xué)術(shù)社交平臺相似論文推薦方法,給出了推薦方法的總體架構(gòu)及各部分的詳細(xì)設(shè)計(jì)方案。該方法首先使用ANSJ對論文數(shù)據(jù)集中的論文進(jìn)行分詞并統(tǒng)計(jì)詞條的TF-IDF,使用這些詞條表示該論文的關(guān)鍵信息。其次使用Word2Vec把每一篇論文映射到一個(gè)高維向量,使用余弦相似度公式計(jì)算其與用戶查詢論文間的相似度,根據(jù)相似度結(jié)果高低生成論文推薦列表。最后在SCHOLAT論文數(shù)據(jù)集上通過應(yīng)用實(shí)例以及量化指標(biāo)分析驗(yàn)證了該推薦方法的有效性。
學(xué)術(shù)社交平臺; 論文檢索; 相似論文; 推薦方法
Class Number TP311
學(xué)術(shù)社交網(wǎng)絡(luò)平臺主要面向科研工作者,旨在為全球科研工作者提供學(xué)術(shù)信息服務(wù)。平臺提供便利的條件讓科研工作者發(fā)布個(gè)人學(xué)術(shù)信息,搜索、分享和推薦相關(guān)學(xué)術(shù)研究成果并追蹤感興趣領(lǐng)域的最新研究動態(tài)。學(xué)術(shù)社交網(wǎng)絡(luò)平臺也能使科研工作者可以跨地域、跨單位、跨學(xué)科進(jìn)行學(xué)術(shù)交流、思想碰撞,從而有效促進(jìn)科學(xué)研究工作的協(xié)同高效開展。
隨著學(xué)術(shù)社交網(wǎng)絡(luò)的快速發(fā)展,科研人員之間的交流變得更加容易,獲取信息也變得更加方便。學(xué)術(shù)社交網(wǎng)絡(luò)平臺為我們提供極大便利的同時(shí),信息過載已經(jīng)成為科研工作者所面臨的主要困境之一。如何在學(xué)術(shù)社交網(wǎng)絡(luò)平臺的海量信息中快速精準(zhǔn)定位所感興趣的內(nèi)容,是需要研究的重要課題。推薦系統(tǒng)[1]是目前解決信息過載的有效方法。本文以學(xué)術(shù)論文的搜索與推薦作為切入點(diǎn),主要研究基于用戶搜索信息的相似論文推薦問題。
當(dāng)前提供學(xué)術(shù)論文檢索的平臺很多且都比較成熟。國內(nèi)比較著名的有中國知網(wǎng)、萬方數(shù)據(jù)庫和百度學(xué)術(shù)等。國外則細(xì)分到各個(gè)學(xué)科領(lǐng)域,以計(jì)算機(jī)學(xué)科為例,有Springer、ACM、ScienceDirect、Microsoft Academic Search等。如果一名科技工作者想要搜索一篇學(xué)術(shù)論文,需要選擇某一種搜索引擎進(jìn)行搜索,倘若搜索的結(jié)果不理想,則需要繼續(xù)選擇其他的搜索引擎進(jìn)行查找。這樣,研究者為找到自己需要的學(xué)術(shù)論文,通常需要頻繁切換搜索平臺,耗費(fèi)了大量的時(shí)間資源,也給科研工作者帶來諸多不便。另外,學(xué)術(shù)論文的檢索本身是繁瑣和耗時(shí)的,檢索某一主題時(shí)還可能遺漏一些重要的學(xué)術(shù)成果,尤其一些較新的具有重要參考價(jià)值的成果。因此,本文提出一種基于學(xué)術(shù)社交平臺的學(xué)術(shù)論文推薦方法,該推薦方法以學(xué)術(shù)社交網(wǎng)絡(luò)平臺中聚合了其它多個(gè)平臺論文的搜索引擎為基礎(chǔ),科技工作者通過這個(gè)搜索引擎提供的統(tǒng)一入口,可以方便快捷地檢索出來自多個(gè)學(xué)術(shù)論文搜索引擎平臺的數(shù)據(jù),基于已有的研究成果和數(shù)據(jù)集,針對用戶選擇的搜索結(jié)果給出與選擇結(jié)果相似的論文推薦列表。
隨著科技論文數(shù)量的快速增長,如何快速有效地在海量的論文數(shù)據(jù)集中進(jìn)行精準(zhǔn)定位找到自己想要的學(xué)術(shù)論文。對于一個(gè)給定的查詢主題,系統(tǒng)自動推薦相似論文研究具有良好的現(xiàn)實(shí)應(yīng)用價(jià)值?;谶@一原因,學(xué)者們做出了很多努力,也產(chǎn)生了豐富的研究成果。張玉連等[2]提出通過建立隱語義模型,然后利用用戶和論文的特征向量進(jìn)行論文推薦的算法,其將所推薦論文的引用和引用該論文的情況加入到論文的特征向量中,通過用戶和論文特征向量之間內(nèi)積的大小確定推薦的論文。通過與基于用戶的協(xié)同過濾算法以及基于論文的協(xié)同過濾算法進(jìn)行比較,該論文推薦算法取得了較好的準(zhǔn)確率和召回率。賀超波等[3]提出了基于學(xué)術(shù)社區(qū)的學(xué)術(shù)論文推薦方法。該方法首先抽取用戶基本信息、論文信息、用戶關(guān)系網(wǎng)絡(luò)以及用戶對論文的評價(jià)信息,然后通過社區(qū)發(fā)現(xiàn)模塊對用戶群體進(jìn)行社區(qū)劃分,計(jì)算目標(biāo)用戶在社區(qū)內(nèi)最相近的K個(gè)用戶,然后結(jié)合基于網(wǎng)絡(luò)社區(qū)的協(xié)同推薦算法以及用戶論文評價(jià)數(shù)據(jù)進(jìn)行綜合計(jì)算后給出論文推薦列表。該方法通過社區(qū)的互動和分享來提高推薦的質(zhì)量和效率。李建國等[4]提出了基于領(lǐng)域認(rèn)知度的學(xué)術(shù)信息服務(wù)平臺論文推薦方法。該方法首先對論文所屬的領(lǐng)域進(jìn)行分類,然后計(jì)算作者對研究領(lǐng)域的認(rèn)知度,領(lǐng)域相近的作者為目標(biāo)論文預(yù)測評分,根據(jù)評分實(shí)現(xiàn)論文推薦。文獻(xiàn)[2~4]在推薦中使用了用戶顯性信息或者隱性信息,這種方法對于新注冊且信息極少的數(shù)據(jù)稀疏用戶存在推薦冷啟動問題。文獻(xiàn)[5]提出使用讀者在數(shù)字圖書館的共訪問記錄比以及共引記錄進(jìn)行論文推薦具有更好的覆蓋率,使用共訪問記錄可使沒有獲得足夠引用的研究論文獲得推薦。但是這種方法對于首次使用數(shù)字圖書館的科技工作者難于獲得推薦。文獻(xiàn)[6]基于奇異值分解理論通過已出版論文的參考文獻(xiàn)列表預(yù)測目標(biāo)研究者的研究興趣,并根據(jù)預(yù)測的研究興趣推薦新出版的科技論文給目標(biāo)用戶。通過在DBLP真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)表明該方法比基于引用網(wǎng)絡(luò)的方法具有更好的推薦效果。但這種方法存在科技工作“新人”難于獲得論文推薦的問題。
本文以大型學(xué)術(shù)社交網(wǎng)絡(luò)平臺學(xué)者網(wǎng)(www.scholat.com)為依托,以其中文論文數(shù)據(jù)庫作為研究語料,提出學(xué)術(shù)社交網(wǎng)絡(luò)平臺相似論文推薦方法,如圖1所示。該模型預(yù)處理階段對研究語料中的論文進(jìn)行分詞,分詞結(jié)果分別存入文本文件wordList.txt和數(shù)據(jù)庫HBase中。對存儲在HBase中的論文,根據(jù)分詞結(jié)果統(tǒng)計(jì)詞條的TF-IDF,并將這些詞條作為論文的關(guān)鍵詞。論文分詞結(jié)果文本文件在Word2Vec程序的訓(xùn)練下得到相應(yīng)的向量表示并使用余弦相似度計(jì)算其與用戶輸入論文的相似程度,根據(jù)相似度從高到低排序生成論文推薦列表。
圖1 推薦方法整體架構(gòu)圖
3.1 數(shù)據(jù)庫設(shè)計(jì)
HBase[7]是Apache Hadoop的子項(xiàng)目,是構(gòu)建在HDFS上的典型的key/value分布式列存儲系統(tǒng),尤其適合于海量非結(jié)構(gòu)化數(shù)據(jù)存儲。對于迅速增長的海量論文數(shù)據(jù)而言,HBase可以依靠橫向擴(kuò)展,通過在廉價(jià)PC Server上搭建大規(guī)模結(jié)構(gòu)化存儲集群可以提高系統(tǒng)的計(jì)算、存儲能力。因此,本推薦系統(tǒng)采用Apache HBase作為數(shù)據(jù)庫管理系統(tǒng)存儲和計(jì)算海量論文數(shù)據(jù)并對用戶提供論文推薦服務(wù)。另外,Apache HBase表的屬性可以根據(jù)需求動態(tài)增加。表是由行和列構(gòu)成的,一個(gè)列名由column family前綴和qualifier構(gòu)成,所有的列都從屬于某個(gè)column family[8]。在本推薦方法中共涉及四個(gè)Bigtable:詞條文檔數(shù)表,論文關(guān)鍵詞表,關(guān)鍵詞論文集合表和論文推薦結(jié)果表。
詞條文檔數(shù)表如表1所示,用于統(tǒng)計(jì)語料中出現(xiàn)某詞條的文檔數(shù),其中term代表一個(gè)詞,qualifier的列數(shù)代表出現(xiàn)該詞條的文檔數(shù)量。
表1 詞條文檔數(shù)表
使用3.2節(jié)Ansj分詞工具動態(tài)產(chǎn)生詞條,并利用式(1)計(jì)算詞條在文檔中的詞頻。通過遍歷表1中的詞條,獲取擁有該詞條的文檔數(shù),使用3.3節(jié)的式(2)計(jì)算詞條的逆文檔頻率值,據(jù)此計(jì)算每個(gè)詞條對應(yīng)的TF和IDF之積。TF-IDF值越高的詞條與論文的相關(guān)性越高,因而選擇TF-IDF值較高的前15個(gè)詞條作為論文的關(guān)鍵字,存儲于表2中。為了計(jì)算相似度并進(jìn)行論文推薦,設(shè)計(jì)表3用于存儲以某個(gè)詞條作為關(guān)鍵詞的論文的集合。表3中qualifier的值是出現(xiàn)該關(guān)鍵詞的論文id,列數(shù)則代表以該詞條作為關(guān)鍵詞的論文的篇數(shù)。
表2 論文關(guān)鍵詞表
表3 關(guān)鍵詞論文集合表
利用表2和表3中存儲的數(shù)據(jù)信息,結(jié)合Word2Vec訓(xùn)練結(jié)果,計(jì)算輸入論文與數(shù)據(jù)庫中論文的相似度,并產(chǎn)生論文推薦結(jié)果,并存儲于表4中。
3.1 護(hù)理質(zhì)量管理的信息化 信息技術(shù)的使用是當(dāng)前護(hù)理質(zhì)量管理走向科學(xué)化的必由之路。通過充分整合搜索引擎技術(shù)、數(shù)據(jù)庫技術(shù)、分布存儲技術(shù)等,設(shè)計(jì)醫(yī)院護(hù)理質(zhì)量信息化管理軟件,包括數(shù)據(jù)錄入、統(tǒng)計(jì)分析、實(shí)時(shí)反饋、重大案例分析、專家在線咨詢、工作提醒、危重癥護(hù)理實(shí)時(shí)監(jiān)測、標(biāo)準(zhǔn)查詢等護(hù)理質(zhì)量管理資源共享模塊,實(shí)現(xiàn)全市護(hù)理質(zhì)量評價(jià)數(shù)據(jù)實(shí)時(shí)監(jiān)測、動態(tài)評價(jià)、專家反饋以及護(hù)理質(zhì)量改進(jìn)的科學(xué)決策,研制開發(fā)護(hù)理風(fēng)險(xiǎn)危機(jī)管理系統(tǒng),建立全市范圍的護(hù)理安全管理共享平臺,從而真正實(shí)現(xiàn)護(hù)理質(zhì)量管理的自動化與智能化。
表4 論文推薦結(jié)果表
3.2 中文分詞
分詞是對語料進(jìn)行統(tǒng)計(jì)和訓(xùn)練的前提條件。Ansj是基于Google語義模型和條件隨機(jī)模型的中文分詞開源工具,支持用戶自定義詞典。Ansj運(yùn)行時(shí)首先讀取停用詞列表文件,去除語料中可能出現(xiàn)頻率很高但無意義的詞條。然后Ansj根據(jù)用戶自定義詞典對語料信息進(jìn)行分詞,并以詞條作為鍵,paperId作為表1的qualifier。
3.3 計(jì)算詞條的TF-IDF值
Salton的詞頻-逆文檔詞頻TF-IDF是一種用于信息檢索和文本挖掘的常用加權(quán)技術(shù),用來評估詞組在文檔中的重要程度。詞頻是統(tǒng)計(jì)一個(gè)詞在文檔中出現(xiàn)的頻率,詞頻越高,通常意味著該詞在文檔中的地位越重要;逆文檔詞頻是一個(gè)詞語重要性的衡量,如果包含該詞條的文檔數(shù)越少,說明該詞條具有很好的類別區(qū)分能力,其值越大。詞頻和逆文檔詞頻的乘積為TF-IDF,其作用通俗來講就是:如果一個(gè)詞條在一個(gè)文檔中頻繁出現(xiàn),即其TF值很高;而同時(shí)在其他文檔中又很少出現(xiàn),那么說明該詞條的區(qū)分度很高。詞條ti在文檔dj中的詞頻TF計(jì)算如式(1)所示。其中,ni,j表示ti在文檔dj中出現(xiàn)的次數(shù),∑knk,j表示所有詞出現(xiàn)的次數(shù)之和。
(1)
詞條ti在當(dāng)前語料庫中的逆文檔頻率IDF的計(jì)算如式(2)所示。其中,|D|是語料庫中的文檔總數(shù),|{j:ti∈dj}|是出現(xiàn)詞條ti的文檔數(shù)。
(2)
根據(jù)語料數(shù)據(jù)集,通過遍歷詞條文檔數(shù)表,對于每一行,統(tǒng)計(jì)其qualifier的列數(shù),即可得到包含該詞條的論文數(shù),而論文總數(shù)在實(shí)驗(yàn)中是常量。依據(jù)式(2)計(jì)算詞條的逆文檔詞頻IDF,保存到詞條逆文檔頻率表中。
3.4 相似度推薦
Word2Vec[9]是Google在2013年開源的一款將詞表征為實(shí)數(shù)向量的高效工具,尤其適合對互聯(lián)網(wǎng)大數(shù)據(jù)進(jìn)行處理,其在一個(gè)優(yōu)化的單機(jī)版本一天可訓(xùn)練上千億個(gè)詞條[10~11]。本文采用Word2Vec的Distributed Representation向量表示法[12]。該向量表示法的維數(shù)可自定義為超參數(shù)K,通過訓(xùn)練把對文本內(nèi)容的處理簡化為K維實(shí)數(shù)向量。并且使用余弦相似度計(jì)算向量之間的距離來判斷文本之間的語義相似度。與潛在語義分析(Latent Semantic Index)[13]、潛在狄立克雷分配(Latent Dirichlet Allocation)[14]等經(jīng)典的相似度計(jì)算模型相比,Word2vec結(jié)合深度學(xué)習(xí)的思想,利用了詞語的上下文關(guān)系,語義信息、語義關(guān)聯(lián)等表達(dá)得更加豐富。
開發(fā)環(huán)境:Apache HBase 1.0、Google Word2Vec、Apache Solr、Ansj2.0.6、Intel(R)Core(TM) i3-3240 CPU @ 3.40GHz,4G內(nèi)存,300G硬盤。基于提出的論文推薦模型,算法如下所示。
算法1 論文推薦算法
已知:學(xué)術(shù)社交網(wǎng)絡(luò)論文集;當(dāng)前用戶的行為記錄(輸入關(guān)鍵詞等)
求:論文推薦列表recommList
1.收集研究語料(包含標(biāo)題、關(guān)鍵詞、摘要)、用戶行為;
2.信息預(yù)處理,去噪、對信息進(jìn)行分詞、統(tǒng)計(jì)詞條TF-IDF;
3.利用Word2Vec訓(xùn)練,計(jì)算用戶行為的余弦相似度;
4.對相似度進(jìn)行逆序排列,取出TOPn篇論文形成推薦列表(最多推薦5篇);
5.return recommList,量化評價(jià)。
4.1 實(shí)例應(yīng)用
考慮到直接采用論文現(xiàn)有的關(guān)鍵詞信息不能很好地體現(xiàn)論文的實(shí)質(zhì)內(nèi)容,實(shí)驗(yàn)挑選學(xué)者網(wǎng)數(shù)據(jù)集SCHOLAT中文部分且論文的元數(shù)據(jù)信息包含標(biāo)題、關(guān)鍵詞、摘要等三種信息的數(shù)據(jù)作為研究語料。利用3.2節(jié)Ansj分詞模型對研究語料進(jìn)行分詞并使用式(1)和式(2)計(jì)算詞條的TF-IDF值,提取前15個(gè)詞條作為論文的關(guān)鍵詞,并將結(jié)果保存到表2中。將以空格作為分隔符的分詞結(jié)果文件wordList.txt導(dǎo)入Word2Vec進(jìn)行訓(xùn)練,訓(xùn)練完成后輸出文件vectors.bin,該文件以二進(jìn)制形式保存了詞條的向量表示。使用Word2Vec提供的distance程序計(jì)算詞條向量表示之間的余弦相似度,distance應(yīng)用通過讀取模型文件中每一個(gè)詞條和其對應(yīng)的向量,對應(yīng)輸入查詢的詞組,計(jì)算該詞與其他被采樣的詞條的余弦相似度,按照分?jǐn)?shù)從高到低排序后返回結(jié)果。然后根據(jù)關(guān)鍵詞,查詢表3中對應(yīng)的論文,并將產(chǎn)生的推薦論文列表id信息保存到表4中。
現(xiàn)假設(shè)社交網(wǎng)絡(luò)平臺用戶輸入論文名稱為“計(jì)算機(jī)輔助教學(xué)的優(yōu)勢與應(yīng)注意的問題”為例,根據(jù)Word2Vec的訓(xùn)練結(jié)果,與“計(jì)算機(jī)”相近的詞語有“多媒體”、“微機(jī)”等,如圖2所示。在表3中檢索對應(yīng)的論文后產(chǎn)生推薦結(jié)果,如圖3所示。
圖2 詞條“計(jì)算機(jī)”的訓(xùn)練結(jié)果圖
圖3 論文推薦結(jié)果圖
4.2 量化分析
為了對本文提出的論文推薦算法進(jìn)行量化評價(jià),利用學(xué)者網(wǎng)提供的數(shù)據(jù)接口,采集了計(jì)算機(jī)相關(guān)類別的中文期刊92848篇論文作為測試集。文中用來評價(jià)論文推薦效果的指標(biāo)是準(zhǔn)確率、召回率、F1-Measure。如式(3)~(5)所示
(3)
(4)
圖4是本文提出的論文推薦算法在不同的推薦數(shù)量的情況下的效果比較,由圖中可以看出,隨著推薦數(shù)量的增加,尤其是達(dá)到200以上的時(shí)候,論文推薦算法趨于穩(wěn)定,總體上具有較好的應(yīng)用價(jià)值。
圖4 推薦效果對比圖
提出一種學(xué)術(shù)社交網(wǎng)絡(luò)平臺相似論文推薦方法,給出了系統(tǒng)的總體架構(gòu)及各部分的詳細(xì)設(shè)計(jì)方案。在SCHOLAT(學(xué)者網(wǎng))論文數(shù)據(jù)集上驗(yàn)證了模型的有效性。但由于當(dāng)前推薦系統(tǒng)計(jì)算量較大,特別是計(jì)算詞頻-逆文檔詞頻和詞條之間的相似度。同時(shí)Word2Vec使用的語料數(shù)據(jù)集越大,效果越理想,但超大的數(shù)據(jù)集使單機(jī)系統(tǒng)的性能受到考驗(yàn)。因此當(dāng)前僅抽取SCHOLAT數(shù)據(jù)集上少部分?jǐn)?shù)據(jù)進(jìn)行實(shí)驗(yàn)驗(yàn)證。下一步考慮采用Apache Hadoop平臺實(shí)現(xiàn)學(xué)者網(wǎng)SCHOLAT完整論文數(shù)據(jù)集的分布式動態(tài)計(jì)算,提高系統(tǒng)的響應(yīng)時(shí)間和訓(xùn)練效果,并將該論文推薦系統(tǒng)模型投入到學(xué)者網(wǎng)平臺上推廣使用。
[2] 張玉連,袁偉.隱語義模型下的科技論文推薦[J].計(jì)算機(jī)應(yīng)用與軟件,2015,32(2):37-40. ZHANG Yulian, YUAN Wei. Scientific Papers Recommendation Using Implicit Semantics Model[J]. Computer Applications and Software,2015,32(2):37-40.
[3] 賀超波,沈玉利,余建輝,等.基于學(xué)術(shù)社區(qū)的科技論文推薦方法[J].華南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,44(3):55-58. HE Chaobo, SHEN Yuli, YU Jianhui, et al. Method for Scientific Paper Recommendation Based on Academic Community[J]. Journal of South China Normal University(Natural Science Edition),2012,44(3):55-58.
[4] 李建國,毛承潔,劉曉,等.學(xué)術(shù)信息服務(wù)平臺的研究與設(shè)計(jì)[J].華南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,44(3):51-54. LI Jianguo, MAO Chengjie, LIU Xiao, et al. Research and Design of Academic Information Service Platform[J]. Journal of South China Normal University(Natural Science Edition),2012,44(3):51-54.
[5] Pohl Stefan, RadlinskiFilip, Joachims Thorsten. Recommending Related Papers Based on Digital Library Access Records[C]//Proceedings of the 7thACM/IEEE-CS Joint Conference on Digital Libraries,New York: ACM,2007:417-418.
[6] Ha Jiwoon, Kwon Soon-Hyoung, Kim Sang-Wook. On Recommending Newly Published Academic Papers[C]//Proceeding HT’15 Proceedings of the 26th ACM Conference on Hypertext & Social Media,New York: ACM,2015:329-330.
[7] Apache HBase Team. Apache HBaseTMReference Guide[EB/OL]. http://hbase.apache.org/book.html,2013-01-17.
[8] Dimiduk Nicholas, Khurana Amandeep. HBase in Action[EB/OL]. https://www.manning.com/books/hbase-in-action.
[9] 周練.Word2vec的工作原理及應(yīng)用探究[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2015(2):145-148. ZHOU Lian. Exploration of the Working Principle and Application of Word2vec[J]. Sci-Tech Information Development & Economy,2015(2):145-148.
[10] 鄭文超,徐鵬.利用word2vec對中文詞進(jìn)行聚類的研究[J].軟件,2013(12):160-162. ZHENG Wenchao, XU Peng. Research on Chinese Word Clustering with Word2vec[J]. Software,2013(12):160-162.
[11] Mikolov Tomas, Chen Kai, CorradoGreg, et al. Efficient Estimation of Word Representations in Vector Space[J]. eprintarXiv:1301.3781,2013,1:1-12.
[12] 鄧澎軍,陸光明,夏龍.Deep Learning實(shí)戰(zhàn)之word2vec[EB/OL].網(wǎng)易有道,2014-02-27. DENG Pengjun, LU Guangming, XIA Long. Deep Learning Practice in Word2vec[EB/OL]. Net Ease You Dao, 2014-02-27.http://techblog.youdao.com/?p=915.
[13] Scott Deerwester, Dumais Susan T, Furnas George W, et al. Indexing by latent semantic analysis[J]. Journal of The American Society for Information Science,1990,41(6):391-407.
[14] Blei David M, Ng Andrew Y, Jordan Michael I. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research,2003,3:993-1022.
Paper Recommendation Method Based on Scholar Social Platform
TANG Zhikang1LI Chunying2,3TANG Yong3HUANG Yonghang3CAI Yibin3
(1. School of Computer Science, GuangDong Polytechnic Normal University, Guangzhou 510665) (2. Computer Network Center, GuangDong Polytechnic Normal University, Guangzhou 510665) (3. School of Computer Science, South China Normal University, Guangzhou 510631)
According to the defects that researchers search academic papers. This paper proposed a similar paper recommendation method in scholar social platform that includes several popular search engine, and explainedthe framework of recommendation method and detailed design of the system. This recommendation method executes word-segmentation with ANSJ, calculate the TF-IDF of lemma and extract paper key words in initialization. Next, read the segmentation result to get the word-vectors by Word2Vec, calculate its similarity with querypaperfrom users according to cosine similarity formula. And further, the paper recommendation list will be generated. In the end, the efficacy will be proof by an application instance and quantitative index analysison SCHOLAT paper dataset.
academic social network, paper seeking, similar paper, recommendation method
2016年8月10日,
2016年9月22日
國家自然科學(xué)基金(編號:61272067,61370229);廣東省自然基金團(tuán)隊(duì)研究項(xiàng)目(編號:S2012030006242);廣東省自然科學(xué)基金-博士科研啟動項(xiàng)目(編號:2014A030310238);廣東省科技計(jì)劃項(xiàng)目(編號:2015B010109003)資助。
湯志康,男,講師,研究方向:社交網(wǎng)絡(luò)與大數(shù)據(jù)應(yīng)用。李春英,女,博士研究生,副教授,研究方向:社交網(wǎng)絡(luò)與大數(shù)據(jù)應(yīng)用、服務(wù)計(jì)算。湯庸,男,教授,博士生導(dǎo)師,研究方向:信息搜索與數(shù)據(jù)挖掘、協(xié)同計(jì)算。黃泳航,男,博士研究生,研究方向:社交網(wǎng)絡(luò)。蔡奕彬,男,碩士研究生,研究方向:服務(wù)計(jì)算。
TP311
10.3969/j.issn.1672-9722.2017.02.006