范圓圓 王日芬
DOI:10.3969/j.issn.1008-0821.2021.09.004
[中圖分類號]TP391.1;G252.7 [文獻(xiàn)標(biāo)識碼]A [文章編號]1008-0821(2021)09-0032-08
在大數(shù)據(jù)時代,信息過載與不對稱的問題逐漸在不同的領(lǐng)域突顯。隨著第四次科技革命的發(fā)展演進(jìn),人類面臨的科學(xué)難題愈加復(fù)雜且涉及面廣,單一學(xué)科視角的局限性逐漸顯露,跨學(xué)科研究已經(jīng)成為當(dāng)前重要的研究范式??蒲腥藛T面對海量文獻(xiàn)、陌生的交叉領(lǐng)域時,及時有效地獲取多樣化的學(xué)術(shù)信息并了解研究進(jìn)展與前沿顯得迫切,因此,專注于學(xué)術(shù)領(lǐng)域的垂直搜索引擎扮演的角色越來越重要。但目前該類平臺都是面向大眾的,對于每個用戶所具有的不同特征尚缺考慮。這意味著不同的學(xué)者輸入相同的搜索內(nèi)容獲得的文獻(xiàn)資源是相同的,即簡短的查詢式并不足以充分表達(dá)其搜索意圖且關(guān)鍵詞不夠精準(zhǔn),這導(dǎo)致用戶搜索到所需的文獻(xiàn)變得困難。而本文解決這一難題的思路便是引進(jìn)個性化推薦策略,通過分析不同學(xué)者產(chǎn)生的行為數(shù)據(jù)來構(gòu)建學(xué)術(shù)行為及興趣特征模型,從而更快速精確地提供其所需的文獻(xiàn)。但是,隨之而來的問題則是學(xué)者學(xué)術(shù)行為數(shù)據(jù)從何而來以及如何加以利用。
學(xué)術(shù)社交網(wǎng)絡(luò)是學(xué)術(shù)科研領(lǐng)域的一種專業(yè)社交網(wǎng)絡(luò)平臺,如ResearchGate等,科研人員可以在此發(fā)布近期研究成果、關(guān)注其他學(xué)者、參與學(xué)術(shù)問答等,使得科研交流與合作模式更加開放與便捷。學(xué)術(shù)社交網(wǎng)絡(luò)蘊含了大量的學(xué)術(shù)行為信息,其中影響力大的學(xué)者對學(xué)術(shù)社區(qū)的形成具有一定的促進(jìn)作用,并且對影響力低的學(xué)者的科學(xué)研究具有一定的導(dǎo)向作用。充分地對學(xué)術(shù)社交網(wǎng)絡(luò)中用戶社交行為產(chǎn)生的復(fù)雜網(wǎng)絡(luò)拓?fù)潢P(guān)系以及用戶生成的內(nèi)容加以利用和分析,能夠發(fā)現(xiàn)具有相似研究興趣的群體,從而用于文獻(xiàn)搜索的個性化推薦當(dāng)中。
同時,眾多學(xué)者在積極構(gòu)建新的、以“人工智能+圖書館”為大方向的知識服務(wù)路徑,并且認(rèn)為以館員為中心到以用戶為中心、從被動等待服務(wù)到主動尋求服務(wù)、從館內(nèi)陣地服務(wù)到館外延伸服務(wù)的“后知識服務(wù)時代”已經(jīng)來臨。而未來的知識服務(wù)平臺將融合一站式文獻(xiàn)搜索引擎、科技情報服務(wù)、智慧學(xué)術(shù)社區(qū)等功能,開創(chuàng)智慧服務(wù)模式,其中產(chǎn)生的用戶數(shù)據(jù)可用于功能交互與優(yōu)化。因此,本文以ResearchGate為例,將學(xué)術(shù)社交網(wǎng)絡(luò)、文獻(xiàn)搜索引擎服務(wù)和用戶生成數(shù)據(jù)結(jié)合起來,構(gòu)建學(xué)者關(guān)注關(guān)系網(wǎng)絡(luò),通過發(fā)現(xiàn)不同學(xué)者的相似興趣點,對特定用戶搜索內(nèi)容進(jìn)行擴(kuò)展,實現(xiàn)文獻(xiàn)搜索個性化推薦,從而提升用戶文獻(xiàn)搜索結(jié)果滿意度,進(jìn)而為增強(qiáng)與優(yōu)化知識服務(wù)平臺功能提供新的思路。
1相關(guān)工作
個性化推薦最早起源于計算機(jī)和信息科學(xué)領(lǐng)域,是通過分析用戶歷史行為數(shù)據(jù)為其生成和展示可能感興趣的信息的過程。相關(guān)學(xué)者主要致力于基于關(guān)聯(lián)規(guī)則的推薦算法、基于內(nèi)容的推薦算法、基于協(xié)同過濾的推薦算法以及混合推薦算法的優(yōu)化與設(shè)計。
推薦算法常被應(yīng)用于信息搜索引擎的功能優(yōu)化中。信息搜索一般是指根據(jù)用戶需求,從大規(guī)模相對靜止的數(shù)據(jù)庫中搜索用戶需要的信息。目前主流的學(xué)術(shù)搜索引擎有中國知網(wǎng)、萬方、Web of Science、Science Direct、Google Scholar等,其中文獻(xiàn)搜索行為本質(zhì)上屬于信息搜索的一種,按照是否考慮用戶的偏好數(shù)據(jù)可分為通用的和個性化的信息搜索過程。
通用學(xué)術(shù)搜索引擎主要根據(jù)搜索內(nèi)容與文獻(xiàn)內(nèi)容的文本相似度構(gòu)建索引,考慮到與搜索內(nèi)容不直接具有較高文本相似度但實際緊密相關(guān)的文獻(xiàn)難以被發(fā)現(xiàn),有學(xué)者嘗試通過利用合著網(wǎng)絡(luò)和引文網(wǎng)絡(luò)引入社群發(fā)現(xiàn)來優(yōu)化學(xué)術(shù)搜索引擎算法;或提出基于樸素貝葉斯概率模型,對標(biāo)題、引文等屬性進(jìn)行條件概率運算來標(biāo)記文獻(xiàn)。盡管已有研究使得搜索字段與搜索內(nèi)容得到進(jìn)一步擴(kuò)展,然而在此過程中,學(xué)術(shù)搜索引擎的角色是靜止且被動的,無法主動了解和掌握用戶的學(xué)術(shù)興趣及其動態(tài)變化過程,同時也需要用戶足夠了解相關(guān)學(xué)術(shù)領(lǐng)域或花費大量的時間精力做額外的準(zhǔn)備工作。
當(dāng)學(xué)術(shù)行為數(shù)據(jù)與學(xué)術(shù)興趣信息被納入計算范疇并允許學(xué)術(shù)搜索引擎主動地向?qū)W者用戶推薦文獻(xiàn),這就使得文獻(xiàn)搜索邁向個性化、動態(tài)化,而個性化文獻(xiàn)搜索過程就相當(dāng)于個性化文獻(xiàn)推薦。意味著文獻(xiàn)搜索與文獻(xiàn)推薦的界限變得模糊,兩者涉及的關(guān)鍵技術(shù)可以通過結(jié)合使用來提高學(xué)術(shù)搜索引擎服務(wù)質(zhì)量與效率。近年來利用社交軟件或服務(wù)場景中的用戶數(shù)據(jù)來發(fā)現(xiàn)用戶行為規(guī)律、理解用戶需求,從而實現(xiàn)信息資源個性化推薦的相關(guān)研究也較為主流,例如全方位地利用智慧圖書館生態(tài)鏈中各環(huán)節(jié)的數(shù)據(jù),將用戶、資源及其關(guān)聯(lián)關(guān)系進(jìn)行重構(gòu)從而實現(xiàn)多種資源的個性化推薦;或利用Twit-ter等社交網(wǎng)絡(luò)平臺中的用戶關(guān)系及博文標(biāo)簽數(shù)據(jù)來計算隱式相似用戶從而進(jìn)行個性化推薦等。
學(xué)術(shù)社交網(wǎng)絡(luò)的興起使得開展文獻(xiàn)搜索推薦研究所需數(shù)據(jù)的門檻逐步降低,尤其是面對科研新手類型的用戶,其發(fā)表的論文數(shù)量可能較少甚至沒有,但可以通過學(xué)術(shù)社區(qū)隨時參與對某一學(xué)術(shù)話題的討論來生成大量的用戶行為數(shù)據(jù)。因此,將用戶學(xué)術(shù)交互行為數(shù)據(jù)納入文獻(xiàn)搜索推薦研究中,是個性化學(xué)術(shù)信息搜索面臨的新課題。從已有的研究看,基于學(xué)術(shù)社交網(wǎng)絡(luò)的相關(guān)研究主要集中在學(xué)者推薦與內(nèi)容推薦兩方面,其中,學(xué)者推薦往往針對可合作學(xué)者、權(quán)威學(xué)者等進(jìn)行推薦,涉及基于學(xué)術(shù)影響力感知及合作關(guān)系網(wǎng)絡(luò)的研究、基于鏈路預(yù)測發(fā)現(xiàn)潛在合作關(guān)系的研究等;而內(nèi)容推薦涉及融合文獻(xiàn)、作者等不同實體影響力的學(xué)術(shù)論文推薦、基于用戶差異化與協(xié)同過濾算法的跨學(xué)科情報推薦等。
綜上,個性化推薦技術(shù)廣泛地被運用在信息搜索領(lǐng)域中,尤其是電子商務(wù)平臺的商品推薦和社交媒體的短視頻傳播,相關(guān)的研究都較為成熟且具有成功的商業(yè)化案例。而在知識服務(wù)領(lǐng)域,個性化推薦技術(shù)的研究與運用大都集中在文獻(xiàn)“獲取后”的相關(guān)推薦中或信息咨詢的獲取途徑中,面向用戶學(xué)術(shù)文獻(xiàn)搜索推薦的研究有待進(jìn)一步開展。因此,本文試圖通過將學(xué)術(shù)社交網(wǎng)絡(luò)的用戶關(guān)系數(shù)據(jù)與蘊含大量用戶學(xué)術(shù)興趣點的生成內(nèi)容用于文獻(xiàn)搜索推薦中,從而更主動、更動態(tài)地捕獲用戶搜索意圖,以解決文獻(xiàn)有效“獲取到”的難題,實現(xiàn)個性化學(xué)術(shù)信息搜索,增強(qiáng)學(xué)術(shù)搜索引擎的功能。
2理論基礎(chǔ)及研究設(shè)計
為了對用戶進(jìn)行個性化的文獻(xiàn)搜索推薦,并提高推薦滿意度,本文基于學(xué)術(shù)社交網(wǎng)絡(luò)中的用戶關(guān)系數(shù)據(jù),構(gòu)建學(xué)者關(guān)注關(guān)系網(wǎng)絡(luò).并基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)發(fā)現(xiàn)與具體用戶相連節(jié)點中具有影響力的學(xué)者,從而利用用戶生成內(nèi)容對搜索內(nèi)容進(jìn)行擴(kuò)展。接下來,本節(jié)將分別從學(xué)者關(guān)注關(guān)系網(wǎng)絡(luò)構(gòu)建、學(xué)者推薦計算、搜索內(nèi)容二次擴(kuò)展與文獻(xiàn)推薦這3個方面對所提方法及相關(guān)理論進(jìn)行詳細(xì)的介紹,整體框架如圖1所示。
2.1學(xué)者關(guān)注關(guān)系網(wǎng)絡(luò)構(gòu)建
如果聯(lián)系從一個行動者指向另一個行動者.則關(guān)系是有向的,在社交網(wǎng)絡(luò)結(jié)構(gòu)中,節(jié)點和邊分別對應(yīng)了用戶和用戶間的關(guān)注關(guān)系,因此,學(xué)者關(guān)注關(guān)系可模型化為有向圖。由于原始數(shù)據(jù)以鄰接表的形式進(jìn)行存儲,為便于計算可達(dá)矩陣,需要將其轉(zhuǎn)化為鄰接矩陣。鄰接矩陣(Adiacency Matrix)是表示節(jié)點之間相鄰關(guān)系的矩陣。設(shè)G=是一個簡單圖,它有n個節(jié)點V={v1,v2,…,vn},則n階方陣A(G)=(αij)稱為G的鄰接矩陣。
對于已構(gòu)建的網(wǎng)絡(luò)而言,假設(shè)用戶A關(guān)注了用戶B,而用戶B關(guān)注了用戶C,那么節(jié)點A是可以到達(dá)節(jié)點C的。對于用戶A而言,不僅需要分析其直接關(guān)注的用戶B的學(xué)術(shù)興趣及關(guān)注點,也應(yīng)分析由間接關(guān)注關(guān)系帶來的豐富信息內(nèi)涵。
其中,該值越大,代表節(jié)點具有更高的聲望。在學(xué)術(shù)界,權(quán)威性往往是科研人員文獻(xiàn)搜索時關(guān)注的一大要素,所以,將學(xué)術(shù)社交網(wǎng)絡(luò)中學(xué)者的權(quán)威性作為推薦指標(biāo)之一。
Friedkin N E在1984年提出,當(dāng)兩個人之間存在正向互動關(guān)系時會存在趨向一致的壓力,即使兩個人不是直接接觸,這種壓力也可能通過中介人的轉(zhuǎn)移而產(chǎn)生,并且與傳輸途徑的數(shù)量相關(guān),即接觸緊密的人與人之間具有更多的同質(zhì)性,而強(qiáng)度會隨親密度的降低而降低。這也意味著應(yīng)將用戶與具有直接關(guān)注和間接關(guān)注關(guān)系的用戶之間的距離作為推薦計算中的影響因素。Diikstra算法是圖論學(xué)中求解最短路問題的經(jīng)典算法,基本思路是從起始點開始,采用貪心算法的策略,每次遍歷到始點距離最近且未訪問過的節(jié)點的鄰接節(jié)點,直至擴(kuò)展到終點為止。
在已獲取具體用戶與可達(dá)節(jié)點的最短距離D的基礎(chǔ)上,根據(jù)距離越短節(jié)點越重要的原則,對距離取倒數(shù)得到D′,并作為第二個推薦指標(biāo)。為綜合考量學(xué)者的權(quán)威性和關(guān)系緊密程度對具體某個用戶的影響,則對兩個指標(biāo)進(jìn)行加權(quán)計算并合并,且定義為:
通過對指標(biāo)U進(jìn)行降序排序可得學(xué)者推薦列表。此外,如果出現(xiàn)冷啟動問題時,則僅對用戶搜索內(nèi)容相關(guān)主題域的學(xué)者進(jìn)行網(wǎng)絡(luò)構(gòu)建與聲望計算,為其推薦相關(guān)主題下被較多人關(guān)注認(rèn)可的學(xué)者,后續(xù)步驟中則僅完成搜索內(nèi)容的一次擴(kuò)展。
2.3搜索內(nèi)容擴(kuò)展與文獻(xiàn)推薦
搜索內(nèi)容擴(kuò)展是基于特定用戶視角展開的,包括一次擴(kuò)展和二次擴(kuò)展。其中,第一次擴(kuò)展關(guān)注的是用戶自身表達(dá)出的潛在研究興趣,主要通過將搜索內(nèi)容與該用戶在學(xué)術(shù)社交網(wǎng)絡(luò)中發(fā)布的內(nèi)容、參與的問答討論等文本數(shù)據(jù)進(jìn)行相似度計算而得到。在這個過程中,由于原始的用戶生成內(nèi)容可能涵蓋不同的研究領(lǐng)域,即使是同一個用戶發(fā)布的內(nèi)容,也可能包含多樣的研究興趣與意圖。所以,需要先探究搜索內(nèi)容與用戶自身生成內(nèi)容的相關(guān)主題,在獲得與搜索內(nèi)容主題相關(guān)的語料后,對其進(jìn)行關(guān)鍵詞抽取并用于搜索內(nèi)容擴(kuò)展中。第二次擴(kuò)展則在第一次基礎(chǔ)上,主要基于學(xué)者推薦列表中涉及的學(xué)者用戶生成的文本數(shù)據(jù)與第一次擴(kuò)展后的搜索內(nèi)容進(jìn)行相似度計算而獲得。
在搜索內(nèi)容擴(kuò)展中,涉及在完成文本預(yù)處理后的向量空間映射、文本特征提取、相似度計算。本文分別選取向量空間模型、詞頻一逆文檔頻次算法和余弦相似度算法進(jìn)行相關(guān)研究。
向量空間模型(Vector Space Model,VSM)是文本挖掘中的一種文本表示模型,構(gòu)建向量空間模型的過程通常分為特征項構(gòu)造與特征項權(quán)重計算。由于VSM需要特征項集合,對于文本而言,往往使用詞作為特征項,可用詞袋(Bag-of-Words,BOW)模型加以表示。
詞頻一逆文檔頻次(Term Frequency-Inverse Document Frequency,TF-IDF)算法實現(xiàn)過程簡單,且使結(jié)果具有較高的準(zhǔn)確率和召回率,既可以用于特征提取與權(quán)重計算,也可以用于對文本關(guān)鍵詞進(jìn)行抽取。
余弦相似度(Cosine Similarity)通過測量兩個向量之間夾角的余弦值以度量它們之間的相似性,余弦值越接近1,說明兩個向量越相似。
將文本特征提取出來后,映射至向量空間即可進(jìn)行余弦相似度計算,進(jìn)而獲取可用于推薦的語料,再對其進(jìn)行關(guān)鍵詞抽取后與搜索內(nèi)容合并,形成新的搜索語句。同樣,上述步驟可處理已有的論文集,在獲取每篇論文的主題后與搜索內(nèi)容進(jìn)行相似度計算,從而得到具有個性化的文獻(xiàn)搜索推薦結(jié)果。
3實證分析
創(chuàng)建于2008年的在線學(xué)術(shù)社交平臺Research-Gate,具有用戶可以發(fā)布研究項目、分享研究成果、關(guān)注科研人員、回答學(xué)者提問等功能。截至2021年4月,該平臺注冊研究人員達(dá)2000萬,擁有超過1.35億的研究成果,用戶活躍度相對較高,是全球最成功的在線社交平臺之一。因此,本文選擇ResearchGate作為學(xué)術(shù)社交平臺案例,使用八爪魚采集器從中爬取“Artificial Intelligence”主題下的學(xué)術(shù)用戶及其關(guān)注關(guān)系數(shù)據(jù),并構(gòu)建關(guān)注關(guān)系網(wǎng)絡(luò),其中包含學(xué)者用戶節(jié)點14366個,邊17381條,如圖2所示,實現(xiàn)過程基于Python語言。
考慮到不同的用戶特征,有的用戶更樂于積極參與問答討論,有的用戶傾向于發(fā)表學(xué)術(shù)文章,為保證用戶生成內(nèi)容數(shù)據(jù)盡可能完整,同時抽取了每個用戶發(fā)布的學(xué)術(shù)成果及其問答文本數(shù)據(jù)。此外,學(xué)者從事的研究主題可能會隨其學(xué)術(shù)生涯的發(fā)展而演變,不同時間節(jié)點的學(xué)術(shù)興趣存在時效性,所以僅爬取2019—2021年的用戶生成內(nèi)容。待推薦論文集源于Web of Science,時間跨度為2017—2021年,盡可能獲取“Artificial Intelligence”相關(guān)論文,共9948篇。
由于用戶關(guān)注關(guān)系數(shù)據(jù)以鄰接表的形式進(jìn)行存儲,不便于可達(dá)矩陣的計算,首先需要將學(xué)者關(guān)注關(guān)系網(wǎng)絡(luò)模型化為鄰接矩陣,如圖3所示,其中每個用戶都具有唯一編碼,避免重名引起的歧義問題。本文隨機(jī)選取了編碼為“ND00051”的用戶作為實驗對象,其關(guān)注了49個學(xué)者用戶,并在后續(xù)的實驗中假設(shè)該用戶的搜索內(nèi)容為“Artificial In-telligence”。
通過可達(dá)矩陣計算,ND00051用戶直接關(guān)注與間接關(guān)注的學(xué)者共有13083個,綜合度數(shù)聲望與最短距離可得學(xué)者推薦列表,本文選取了其中的前10位作為后續(xù)實驗對象,如表1所示。其中前兩位的學(xué)者不是ND00051用戶直接關(guān)注的,但是由于其聲望較高,有更多的學(xué)者認(rèn)可并關(guān)注而被推薦。
在對學(xué)者用戶已發(fā)布學(xué)術(shù)成果與參與問答的文本數(shù)據(jù)進(jìn)行分析前,需要對其進(jìn)行預(yù)處理,由于是英文文本,主要步驟有大寫轉(zhuǎn)小寫字母、去除文本中的網(wǎng)址、去除標(biāo)點符號與數(shù)字、去除停用詞等過程,具體實現(xiàn)使用了自然語言處理工具NLTK。
得到學(xué)者推薦列表后,將對用戶搜索內(nèi)容進(jìn)行二次擴(kuò)展,主要基于Gensim包加以實現(xiàn)文本相似度計算,流程如圖4所示。
首先,通過TF-IDF算法對ND00051用戶發(fā)布的學(xué)術(shù)成果以及參與的問答文本進(jìn)行特征項提取,將文本特征項進(jìn)行向量化處理,得到文本表示。其次,將其與搜索內(nèi)容進(jìn)行相似度計算后可得到該用戶生成內(nèi)容中與搜索內(nèi)容相關(guān)的文本集合?;谙嗨莆谋究傻玫揭唤M關(guān)鍵詞,其能夠表示該學(xué)者其他與搜索內(nèi)容相關(guān)的研究興趣點,就此實現(xiàn)了對搜索內(nèi)容的第一次擴(kuò)展。而根據(jù)推薦學(xué)者列表中學(xué)者生成內(nèi)容的進(jìn)一步挖掘結(jié)果表示了更廣泛的,該用戶潛在的研究興趣,即完成對搜索內(nèi)容的第二次擴(kuò)展。
根據(jù)ND00051用戶自身生成內(nèi)容進(jìn)行的第一次搜索內(nèi)容擴(kuò)展結(jié)果如圖5所示,取排名前十的關(guān)鍵詞作為擴(kuò)展內(nèi)容。由此可知,該用戶更關(guān)注人工智能的下一代技術(shù)革命以及人工智能理論與技術(shù)在全球變暖等領(lǐng)域的應(yīng)用。
第二次擴(kuò)展結(jié)果如圖6所示。根據(jù)擴(kuò)展結(jié)果可知,為ND00051用戶推薦的學(xué)者也比較關(guān)注全球變暖的課題,以及相關(guān)問題產(chǎn)生的經(jīng)濟(jì)變化趨勢,并且傾向于數(shù)據(jù)驅(qū)動型研究范式。
綜上可得,最終的搜索內(nèi)容為“[global climatewarming state differences financial change local data community intelligence artificial next revolution ai glob-al warming scientific causes consequences]”,將該搜索內(nèi)容與數(shù)據(jù)庫中的論文集進(jìn)行相似度計算,部分結(jié)果如圖7所示。
排名前10的論文搜索推薦結(jié)果如表2所示。根據(jù)論文標(biāo)題不難看出其所涉及的研究領(lǐng)域與研究主題基本符合擴(kuò)展后的搜索內(nèi)容所表達(dá)的傾向。其中排名第一的論文標(biāo)題為“大數(shù)據(jù)時代中國氣候變化科學(xué)數(shù)據(jù)共享服務(wù)的發(fā)展現(xiàn)狀與趨勢分析”,該論文發(fā)表在《地理研究》上,文中針對氣候變化驅(qū)動因素科學(xué)數(shù)據(jù)、氣候變化事實科學(xué)數(shù)據(jù)等五類數(shù)據(jù)及其共享服務(wù)進(jìn)行了系統(tǒng)分析,并對大數(shù)據(jù)背景下氣候變化科學(xué)數(shù)據(jù)共享服務(wù)未來的發(fā)展趨勢如人工智能、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、基于模型計算的動態(tài)數(shù)據(jù)共享等進(jìn)行了展望_3引。
對學(xué)者用戶ND00051的主頁進(jìn)行分析,其在自我簡介欄中寫道:“Currently Interested in De-marcation and Testability Aspects of Global Warming Theory”,可知該用戶當(dāng)前的研究興趣主要集中在對全球變暖理論的劃分和可測性方面。該用戶自我標(biāo)注的主攻研究領(lǐng)域為“Philosophv of Science”“En-gineering Physics”“Electrical Engineering”,擅于研究“Climate Modeling”“Reliability Analysis”“Prob-abilistic Risk Analysis”“Scientific Method”等,可見該用戶正在從事氣候變暖理論模型的研究某,其中不乏關(guān)注人工智能與該領(lǐng)域的交叉融合與應(yīng)用前景,并且與實驗中針對該用戶搜索內(nèi)容擴(kuò)展得到的研究主題有較高的重合度。因此,認(rèn)為本文提出的方法能夠較好地滿足個性化文獻(xiàn)搜索推薦的需求。
4總結(jié)與展望
本文針對當(dāng)前學(xué)術(shù)搜索引擎難以滿足用戶個性化需求的問題,提出基于學(xué)術(shù)社交網(wǎng)絡(luò)用戶關(guān)系的文獻(xiàn)搜索推薦方法,構(gòu)建學(xué)者關(guān)注關(guān)系網(wǎng)絡(luò),通過發(fā)現(xiàn)特定用戶可達(dá)網(wǎng)絡(luò)中的學(xué)者權(quán)威性及其緊密程度作為基本推薦指標(biāo),并對相應(yīng)的用戶生成內(nèi)容與搜索內(nèi)容進(jìn)行相似度計算,從而實現(xiàn)兩次對搜索內(nèi)容的擴(kuò)展,最后實現(xiàn)個性化的學(xué)術(shù)文獻(xiàn)搜索。
隨著本文研究問題的解決,一些引發(fā)后續(xù)研究關(guān)注的新問題也在不斷出現(xiàn)。首先,在獲取學(xué)者推薦列表時,度數(shù)聲望與最短距離指標(biāo)加權(quán)需要進(jìn)一步調(diào)整和檢驗;并且在獲取推薦列表后,本文雖然將相似的文本進(jìn)行了整體關(guān)鍵詞抽取,但是不同學(xué)者本身具有不同的推薦評分,如果對文本分別進(jìn)行關(guān)鍵詞抽取并進(jìn)行加權(quán)計算,可能搜索內(nèi)容擴(kuò)展結(jié)果會更精準(zhǔn)。其次,在對文本內(nèi)容進(jìn)行分析時,本文采用的特征提取模型和向量化模型都較為基礎(chǔ),由于擴(kuò)展結(jié)果也會受到模型影響,后續(xù)可以考慮使用更復(fù)雜的、涉及更多語義信息的模型進(jìn)行計算。最后,在文獻(xiàn)搜索推薦結(jié)果的驗證上,可以考慮招募志愿者參與實驗,通過訪談的方式更科學(xué)地評估實驗結(jié)果。
(責(zé)任編輯:郭沫含)