国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于語義興趣地圖的科技文獻(xiàn)個(gè)性化推送

2021-01-03 11:55陳祖琴葛繼科蔣勛
新世紀(jì)圖書館 2021年11期

陳祖琴 葛繼科 蔣勛

摘 要 為文獻(xiàn)的引用關(guān)系賦予語義,通過用戶對(duì)某篇文獻(xiàn)的興趣,發(fā)掘用戶對(duì)這篇文獻(xiàn)所屬概念領(lǐng)域的興趣,實(shí)現(xiàn)從引文網(wǎng)絡(luò)到概念知識(shí)網(wǎng)絡(luò)研究的升級(jí),從而同時(shí)從內(nèi)容、用戶、情景的角度進(jìn)行文獻(xiàn)個(gè)性化推送。通過構(gòu)建科技文獻(xiàn)領(lǐng)域詞典標(biāo)注文獻(xiàn)語義,從內(nèi)容角度進(jìn)行推送;構(gòu)建語義興趣地圖關(guān)注用戶興趣,從用戶協(xié)同角度進(jìn)行推送;結(jié)合文獻(xiàn)發(fā)表時(shí)長(zhǎng)、來源等情景信息計(jì)算推薦指數(shù),從情景角度進(jìn)行推送。

關(guān)鍵詞 語義興趣地圖 科技文獻(xiàn)推送 個(gè)性化推送

分類號(hào) G350

DOI 10.16810/j.cnki.1672-514X.2021.11.009

Abstract This paper first studies giving the semantic meaning to the citation relationship of the literature. Through the user’s interest in a certain document, exploring the user’s interest in the concept domain, and upgrading the research on the citation network to the concept knowledge network. Then carrying out personalized scientific literature recommendation from the perspective of content, user and situation at the same time. Through construction scientific literature domain dictionary, annotate the semantic of literature, so as to recommendation from the perspective of content. Through building semantic interest map to focus on user interest, so as to recommendation from the perspective of user collaboration. Through calculating recommendation index based on the time of literature publication, literature source and other situational information, so as to recommendation from the perspective of circumstances.

Keywords Semantic interest map. Scientific literature recommendation. Personalized recommendation.

0 引言

隨著各學(xué)科領(lǐng)域科研成果的持續(xù)增長(zhǎng),在各類出版物上所發(fā)表的科技論文數(shù)量也一直處于持續(xù)增長(zhǎng)中。據(jù)Web of Science 數(shù)據(jù)統(tǒng)計(jì),近十年我國(guó)科研人員發(fā)表SCI論文總數(shù)已累計(jì)339.7萬篇。然而科技文獻(xiàn)激增的同時(shí),也導(dǎo)致大量的有用文獻(xiàn)被淹沒,研究?jī)r(jià)值得不到承認(rèn)。比如,在自然科學(xué)學(xué)科,發(fā)表五年后仍然未被引用過的數(shù)學(xué)領(lǐng)域的文章占到三分之一,化學(xué)領(lǐng)域也有10% 左右[1]。而在社會(huì)科學(xué)領(lǐng)域,這一現(xiàn)象更加明顯,人類學(xué)領(lǐng)域的文獻(xiàn)零被引比例高達(dá) 90% 以上[2]。Raan等的研究顯示零被引論文中也不乏潛在“精品”[3],科學(xué)界中的“遲滯承認(rèn)”現(xiàn)象和“睡美人”現(xiàn)象[4-6]表明,暫時(shí)未被發(fā)現(xiàn)和承認(rèn)的科技文獻(xiàn)往往蘊(yùn)含著重大科學(xué)發(fā)現(xiàn)。科研人員的精力是有限的,如何快速地從主題復(fù)雜、數(shù)量龐大、質(zhì)量參差的文獻(xiàn)資源中獲取感興趣的學(xué)科領(lǐng)域文獻(xiàn)成為科研人員面臨的共同難題。研究高效的科技文獻(xiàn)個(gè)性化推送方法,將用戶可能感興趣的文獻(xiàn)進(jìn)行推送,對(duì)于加快科技文獻(xiàn)的交流和利用,縮短科學(xué)認(rèn)知的周期,促進(jìn)重大科學(xué)發(fā)現(xiàn)的落地,保護(hù)科學(xué)研究的積極性意義重大。

1 文獻(xiàn)推送服務(wù)相關(guān)研究

總體來看,目前關(guān)于文獻(xiàn)推送服務(wù)的研究,主要分為基于內(nèi)容的推送,基于用戶協(xié)同的推送,以及基于情景的推送等。

1.1 基于內(nèi)容的推送

基于內(nèi)容推送的基本思想是根據(jù)資源與用戶感興趣信息的相似性推薦內(nèi)容,其關(guān)鍵問題是相似性計(jì)算。Vences等提出建立本體來度量文獻(xiàn)之間內(nèi)容的相似性,并據(jù)此進(jìn)行文獻(xiàn)推送[7]。Wan, Xiaojun提出在文獻(xiàn)主題以外結(jié)合文獻(xiàn)結(jié)構(gòu)來計(jì)算文獻(xiàn)之間的相似性[8]。Shu等提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的內(nèi)容推薦算法,可以不需要標(biāo)注而直接利用文本信息進(jìn)行基于內(nèi)容的推薦[9]。Hassan利用遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)發(fā)現(xiàn)文獻(xiàn)的語義特征,根據(jù)文獻(xiàn)內(nèi)容與用戶需求的關(guān)系提供個(gè)性化推薦[10]。針對(duì)傳統(tǒng)的基于內(nèi)容過濾算法存在的不能及時(shí)反映用戶興趣的動(dòng)態(tài)變化和難以區(qū)分資源內(nèi)容的品質(zhì)和風(fēng)格等弊端,王嫣然等提出了基于用戶訪問時(shí)間和文獻(xiàn)重要度加權(quán)的科技文獻(xiàn)推薦算法[11];畢強(qiáng)、劉健等基于本體規(guī)則推理和語義相似度計(jì)算等技術(shù),提出了一種數(shù)字文獻(xiàn)資源內(nèi)容服務(wù)推薦方法[12-13]。

1.2 基于用戶協(xié)同的推送

關(guān)于用戶協(xié)同的文獻(xiàn)發(fā)現(xiàn)推送研究集中在對(duì)傳統(tǒng)的協(xié)同過濾算法進(jìn)行改進(jìn),提高推送的準(zhǔn)確性方面。Lai, Chin-Hui等同時(shí)考慮了個(gè)體和群體對(duì)需求建模的影響,提出一種基于個(gè)體和群體信任的混合模型來進(jìn)行文獻(xiàn)的協(xié)同過濾推薦[14-15]。Liu, Duen-Ren 等提出了一個(gè)基于用戶訪問時(shí)間序列的信任模型,根據(jù)相似用戶過去預(yù)測(cè)的可信度來對(duì)用戶信任值進(jìn)行加權(quán),從而進(jìn)行文獻(xiàn)的協(xié)同推送[16]。Weng, Sung-Shun等利用本體技術(shù)構(gòu)建用戶檔案,并據(jù)此計(jì)算用戶興趣提供科研文獻(xiàn)的協(xié)同推送[17]。Ghazarian等研究了基于記憶增強(qiáng)協(xié)同過濾的推薦在資源服務(wù)推薦中的應(yīng)用[18]。Seo等提出計(jì)算社交圈中用戶之間友誼強(qiáng)度獲取用戶之間的相似度,從而進(jìn)行個(gè)性化推薦的方法[19]。熊回香等基于社會(huì)化標(biāo)簽構(gòu)建用戶模型,尋找相似用戶從而實(shí)現(xiàn)個(gè)性化信息服務(wù)[20]。王丹丹提出基于用戶使用數(shù)據(jù)實(shí)現(xiàn)關(guān)聯(lián)文獻(xiàn)推薦的方法[21];袁銀池對(duì)用戶專利文獻(xiàn)閱讀行為進(jìn)行了實(shí)驗(yàn)分析,挖掘其對(duì)專利文獻(xiàn)要素的興趣,從而進(jìn)行文獻(xiàn)的推送[22]。

1.3 基于用戶背景的推送

關(guān)于情景的文獻(xiàn)發(fā)現(xiàn)推送方面,也有諸多研究。Will等提出結(jié)合用戶當(dāng)前需求的背景知識(shí)(即情景)來進(jìn)行文獻(xiàn)推送[23]。Amini等學(xué)者使用本體論的概念設(shè)計(jì)了數(shù)字圖書館的推薦系統(tǒng)[24]。黃傳慧對(duì)基于情景化用戶偏好的學(xué)術(shù)信息行為研究進(jìn)行了述評(píng)[25]。張琪等系統(tǒng)地分析了情境、科技工作者和科技文獻(xiàn)之間的關(guān)系,建立情境感知的科技文獻(xiàn)協(xié)同推薦過程模型[26]。張劍提出基于科研圈的數(shù)字圖書館多層情境推薦模型[27]。洪亮等引入角色的概念模擬用戶興趣選擇,提出一種基于情境感知的個(gè)性化資源推薦方式[28]。

上述三種主要的文獻(xiàn)推送方式各有優(yōu)點(diǎn),分別從文獻(xiàn)推送中的三個(gè)主體——文獻(xiàn)、用戶、情景的角度出發(fā)進(jìn)行推送,但將這三個(gè)部分結(jié)合起來考慮的研究較少。而在文獻(xiàn)推送過程中,文獻(xiàn)、用戶、情景是不可分割的要素,用戶感興趣的是文獻(xiàn)的內(nèi)容,用戶的興趣則是通過行為顯現(xiàn)出來,相同的用戶行為在特定的情景下又具有一定的內(nèi)涵差異,因此單獨(dú)基于任一方面進(jìn)行推送都不夠全面和準(zhǔn)確。同時(shí),鑒于充分理解文獻(xiàn)的語義對(duì)于提高推送的準(zhǔn)確性具有較大的作用,文獻(xiàn)推送研究中對(duì)文獻(xiàn)語義識(shí)別的關(guān)注還需要進(jìn)一步加強(qiáng)。

2 基于語義興趣地圖的科技文獻(xiàn)個(gè)性化推送

本文借鑒上述三種主要推送方式的優(yōu)點(diǎn),基于語義興趣地圖進(jìn)行綜合的中文科技文獻(xiàn)個(gè)性化推送。首先,考慮文獻(xiàn)的語義,從內(nèi)容的角度進(jìn)行推送;其次,從文獻(xiàn)引用的角度關(guān)注用戶的興趣,從用戶協(xié)同的角度進(jìn)行推送;再次,從文獻(xiàn)發(fā)表的時(shí)間、來源等進(jìn)行加權(quán),實(shí)現(xiàn)從情景的角度進(jìn)行推送?;谡Z義興趣地圖的科技文獻(xiàn)個(gè)性化推送流程如圖1所示。

首先,構(gòu)建科技文獻(xiàn)領(lǐng)域詞典對(duì)領(lǐng)域概念知識(shí)進(jìn)行規(guī)范化描述,再基于領(lǐng)域詞典對(duì)科技文獻(xiàn)進(jìn)行語義標(biāo)注。其次,根據(jù)文獻(xiàn)語義標(biāo)注結(jié)果,用領(lǐng)域概念替換引文網(wǎng)絡(luò)中的節(jié)點(diǎn)文獻(xiàn),形成語義興趣地圖,實(shí)現(xiàn)引文網(wǎng)絡(luò)到概念知識(shí)網(wǎng)絡(luò)的深化。最后,利用語義興趣地圖進(jìn)行用戶興趣的語義挖掘,發(fā)現(xiàn)相似概念知識(shí)和相似用戶,并據(jù)此為用戶推送有針對(duì)性的科技文獻(xiàn)。

2.1 科技文獻(xiàn)領(lǐng)域詞典構(gòu)建

為了對(duì)文獻(xiàn)的語義進(jìn)行有效識(shí)別,構(gòu)建科技文獻(xiàn)領(lǐng)域詞典來對(duì)領(lǐng)域概念和概念間的關(guān)系進(jìn)行準(zhǔn)確描述。本文以中文科技文獻(xiàn)為研究對(duì)象,中文科技文獻(xiàn)相對(duì)于普通的信息資源而言,大都具有標(biāo)注格式較為一致的關(guān)鍵詞,以及標(biāo)注較為準(zhǔn)確的中圖分類號(hào)。因此,在專家意見指導(dǎo)下,可借助各個(gè)領(lǐng)域已有的主題詞表,對(duì)文獻(xiàn)中標(biāo)注的關(guān)鍵詞進(jìn)行規(guī)范化處理,再利用現(xiàn)有語義詞典標(biāo)注每篇文獻(xiàn)的語義概念,并依據(jù)《中國(guó)圖書館分類法》對(duì)文獻(xiàn)的分類,建立語義概念之間的層級(jí)關(guān)系。

中文科技文獻(xiàn)領(lǐng)域詞典構(gòu)建模型如圖2所示。首先,通過隨機(jī)抽取大量領(lǐng)域文獻(xiàn)中的關(guān)鍵詞和中圖分類號(hào)標(biāo)注規(guī)范的部分文獻(xiàn)形成訓(xùn)練集,根據(jù)文獻(xiàn)的關(guān)鍵詞結(jié)合專家意見進(jìn)行人工分析,利用現(xiàn)有語義詞典中的概念詞匯,標(biāo)注并提取文獻(xiàn)的代表性概念知識(shí),再借助《中國(guó)圖書館分類法》確定概念間的層級(jí)關(guān)系;在此基礎(chǔ)上,對(duì)概念和概念間關(guān)系進(jìn)行調(diào)整和補(bǔ)充,生成原始的科技文獻(xiàn)領(lǐng)域詞典。其次,以人工標(biāo)注的文獻(xiàn)資源為訓(xùn)練集,基于標(biāo)注概念與關(guān)鍵詞之間的映射關(guān)系,通過機(jī)器學(xué)習(xí)對(duì)剩余的領(lǐng)域文獻(xiàn)進(jìn)行概念知識(shí)的自動(dòng)標(biāo)注,并根據(jù)反饋結(jié)果在專家的指導(dǎo)下修正科技文獻(xiàn)領(lǐng)域詞典。

2.1.1 關(guān)鍵詞的規(guī)范化處理

采用HowNet對(duì)訓(xùn)練集中文獻(xiàn)的關(guān)鍵詞進(jìn)行規(guī)范化處理,關(guān)鍵詞處理類型主要包括無效詞處理和詞匯的合并。

(1)無效詞處理。將低頻詞、停用詞等直接進(jìn)行去除。將不具有檢索意義的過于寬泛的詞分情況進(jìn)行處理,若與其他關(guān)鍵詞聯(lián)合具有特定的檢索意義,如“方法”“技術(shù)”等可以和具體的研究?jī)?nèi)容聯(lián)系,構(gòu)成諸如“深度學(xué)習(xí)方法”“多媒體技術(shù)”等,則將組合后的詞匯加入領(lǐng)域詞典中;若無法與其他關(guān)鍵詞聯(lián)合生成具有特定檢索意義的詞匯,則直接去除。

(2)詞匯合并。將同義詞、近義詞、多義詞等分析后處理,選取較為通用的表達(dá)形式,作為統(tǒng)一詞匯存入領(lǐng)域詞典中,并將同義詞、近義詞、多義詞等其他表述形式進(jìn)行標(biāo)注,如“戊戌變法”“戊戌維新”和“百日維新”統(tǒng)一對(duì)應(yīng)為“戊戌變法”存入領(lǐng)域詞典中。將詞匯的中英文表達(dá)、縮寫、公式、算符等對(duì)應(yīng)為統(tǒng)一的規(guī)范詞匯,如將“F檢驗(yàn)”和“聯(lián)合假設(shè)檢驗(yàn)”統(tǒng)一對(duì)應(yīng)為“F檢驗(yàn)”存入領(lǐng)域詞典中。

2.1.2 原始科技文獻(xiàn)領(lǐng)域詞典構(gòu)建

采用手工標(biāo)注的方式,借助現(xiàn)有領(lǐng)域詞典對(duì)訓(xùn)練集文獻(xiàn)的語義概念進(jìn)行標(biāo)注,并借助《中國(guó)圖書館分類法》利用文獻(xiàn)的中圖分類號(hào)進(jìn)行分析,建立語義概念間的層級(jí)關(guān)系,最終完成原始科技文獻(xiàn)領(lǐng)域詞典的構(gòu)建。

(1)文獻(xiàn)語義概念人工標(biāo)注。針對(duì)每篇文獻(xiàn),借助現(xiàn)有領(lǐng)域詞典,對(duì)其語義概念進(jìn)行人工標(biāo)注,建立語義概念與文獻(xiàn)關(guān)鍵詞、文獻(xiàn)中圖分類號(hào)之間的關(guān)聯(lián)。文獻(xiàn)語義概念標(biāo)注的數(shù)據(jù)格式如表1所示。

針對(duì)訓(xùn)練集中的每篇文獻(xiàn),為每篇文獻(xiàn)賦予一個(gè)唯一的ID,并手工標(biāo)注其語義,一篇文獻(xiàn)可能對(duì)應(yīng)多個(gè)語義概念。同時(shí),通過文獻(xiàn)題錄信息自動(dòng)提取其關(guān)鍵詞和中圖分類號(hào),完成每篇文獻(xiàn)的語義概念標(biāo)注。

(2)建立語義概念間的層級(jí)關(guān)系。借助《中國(guó)圖書館分類法》,利用文獻(xiàn)概念與中圖分類號(hào)的對(duì)應(yīng)關(guān)系,初步確定概念的層次關(guān)系,并通過專家意見進(jìn)行必要的修正。對(duì)應(yīng)同一中圖分類號(hào)的概念間為同級(jí)概念,對(duì)應(yīng)上、下位中圖分類號(hào)的概念間為相應(yīng)的上、下位概念。例如,在“情報(bào)學(xué)、情報(bào)工作”領(lǐng)域,概念A(yù)和B都對(duì)應(yīng)中圖分類號(hào)G352,則A、B為對(duì)應(yīng)G352層級(jí)的同級(jí)概念;概念C和D對(duì)應(yīng)中圖分類號(hào)G352.2,則C、D為對(duì)應(yīng)G352.2層級(jí)的同級(jí)概念,且C、D為A、B所屬層級(jí)的下級(jí)概念,再通過人工標(biāo)注的方式確定屬于哪個(gè)具體概念的下級(jí)概念。語義概念層級(jí)結(jié)構(gòu)示例如圖3所示。

(3)科技文獻(xiàn)領(lǐng)域詞典存儲(chǔ)結(jié)構(gòu)設(shè)計(jì)。原始科技文獻(xiàn)領(lǐng)域詞典中,每個(gè)概念對(duì)應(yīng)著相應(yīng)的編碼和中圖分類層級(jí),分別聯(lián)系著相應(yīng)的上下位概念。領(lǐng)域詞典的存儲(chǔ)結(jié)構(gòu)如表2所示。其中,概念編碼由兩部分組成,其形式為“中圖分類號(hào)&順序號(hào)”,體現(xiàn)了概念的層級(jí)及概念在該層級(jí)中的位置,如“G352.2&1”表示G352.2層級(jí)的第一個(gè)概念。

2.1.3 基于機(jī)器學(xué)習(xí)的科技文獻(xiàn)領(lǐng)域詞典完善

(1)共現(xiàn)關(guān)鍵詞—語義概念關(guān)系矩陣生成。利用訓(xùn)練集中的每篇文獻(xiàn)的關(guān)鍵詞與每篇文獻(xiàn)的代表性概念知識(shí)的對(duì)應(yīng)關(guān)系,形成規(guī)范化的共現(xiàn)關(guān)鍵詞,即在同一篇文獻(xiàn)中被標(biāo)注的若干個(gè)不同的關(guān)鍵詞,與語義概念間的關(guān)系矩陣,具體過程為:利用訓(xùn)練集中的所有文獻(xiàn)包含的關(guān)鍵詞形成關(guān)鍵詞集合,再利用每篇文獻(xiàn)標(biāo)注的語義概念,形成語義概念集合,針對(duì)每一語義概念,文獻(xiàn)中包含某個(gè)關(guān)鍵詞則在矩陣中相應(yīng)的位置標(biāo)注1,不包含某個(gè)關(guān)鍵詞則在矩陣中相應(yīng)的位置標(biāo)注0,相同語義概念出現(xiàn)在不同的文獻(xiàn)中分別進(jìn)行標(biāo)注,并在矩陣中按照語義概念進(jìn)行排序。共現(xiàn)關(guān)鍵詞—語義概念關(guān)系矩陣示例如表3所示。

(2)測(cè)試集文獻(xiàn)語義概念標(biāo)注。根據(jù)共現(xiàn)關(guān)鍵詞—語義概念關(guān)系矩陣,挖掘語義概念和共現(xiàn)關(guān)鍵詞之間的關(guān)聯(lián),并通過機(jī)器學(xué)習(xí)生成分類模型,從而根據(jù)測(cè)試集中文獻(xiàn)的關(guān)鍵詞與語義概念的對(duì)應(yīng)規(guī)則,自動(dòng)將共現(xiàn)關(guān)鍵詞相似度大于設(shè)定閾值的文獻(xiàn)集合對(duì)應(yīng)的語義概念,標(biāo)注為待標(biāo)文獻(xiàn)的語義概念。對(duì)利用分類器無法有效標(biāo)注的文獻(xiàn),通過專家意見選取原始科技文獻(xiàn)領(lǐng)域詞典中的概念進(jìn)行標(biāo)注,若沒有合適的概念可標(biāo)注則添加新概念進(jìn)行人工標(biāo)注。

(3)領(lǐng)域詞典更新。根據(jù)測(cè)試集文獻(xiàn)語義概念標(biāo)注結(jié)果,更新原始科技文獻(xiàn)領(lǐng)域詞典中的語義概念,并更新原有概念和新概念對(duì)應(yīng)的文獻(xiàn)集合,完善原始科技文獻(xiàn)領(lǐng)域詞典,生成最終的科技文獻(xiàn)領(lǐng)域詞典。

2.2 語義興趣地圖生成

語義興趣地圖是在領(lǐng)域全部文獻(xiàn)生成的引文網(wǎng)絡(luò)的基礎(chǔ)上,通過對(duì)每篇文獻(xiàn)進(jìn)行語義描述,標(biāo)注每篇文獻(xiàn)的語義興趣路徑,再將全部文獻(xiàn)間的引用關(guān)系轉(zhuǎn)化為領(lǐng)域概念間的關(guān)聯(lián)并進(jìn)行相應(yīng)標(biāo)注生成的。

2.2.1 文獻(xiàn)語義興趣路徑生成

研究者發(fā)表的文獻(xiàn)反映了研究者的興趣,每篇文獻(xiàn)具有相應(yīng)的參考文獻(xiàn)和引證文獻(xiàn),構(gòu)成了若干條引文路徑,可以將研究者認(rèn)為相關(guān)的、感興趣的文獻(xiàn)連接起來,代表的是相對(duì)專業(yè)的人士對(duì)文獻(xiàn)之間關(guān)聯(lián)的認(rèn)可。利用科技文獻(xiàn)領(lǐng)域詞典中的領(lǐng)域概念,標(biāo)注引文路徑中文獻(xiàn)的語義,再用領(lǐng)域概念替換引文路徑中對(duì)應(yīng)的節(jié)點(diǎn)文獻(xiàn),節(jié)點(diǎn)之間用無向邊連接,節(jié)點(diǎn)上標(biāo)注概念對(duì)應(yīng)的實(shí)例文獻(xiàn),則生成語義興趣路徑。語義興趣路徑中每個(gè)概念節(jié)點(diǎn)的數(shù)據(jù)表示為:概念P<參考概念集合,引證概念集合,實(shí)例文獻(xiàn)>,若某個(gè)概念沒有參考文獻(xiàn)概念或者引證文獻(xiàn)概念,則記為NULL。例如:文獻(xiàn)A為節(jié)點(diǎn)文獻(xiàn),其對(duì)應(yīng)的參考文獻(xiàn)和引證文獻(xiàn)示例如表4所示。

以文獻(xiàn)A為節(jié)點(diǎn)文獻(xiàn),形成的語義興趣路徑示例如圖4所示。

2.2.2 語義興趣地圖生成

遍歷領(lǐng)域文獻(xiàn)集合中的每一篇文獻(xiàn)生成的所有語義興趣路徑,將全部節(jié)點(diǎn)連接成語義興趣網(wǎng)絡(luò),節(jié)點(diǎn)之間的多次連接反映為節(jié)點(diǎn)聯(lián)系強(qiáng)度,用數(shù)字標(biāo)注在節(jié)點(diǎn)間的連接邊上,讀取完所有記錄后,全部的語義興趣路徑結(jié)合構(gòu)成完整的語義興趣地圖。最終生成的語義興趣地圖結(jié)構(gòu)示例,如圖5所示。

語義興趣地圖生成算法如算法1所示:

算法1 語義興趣地圖生成算法

輸入:語義興趣路徑

輸出:語義興趣地圖

M_ Semantic (語義興趣路徑)

{

讀取語義興趣路徑;

For (i=1 to n; i++)? ? ?//順序讀取語義興趣路徑中的全部n條記錄中的語義概念

{

Addto Map(語義概念i)

{

when(i的參考概念或引證概念不為NULL)

{

if(語義概念i不存在于當(dāng)前語義興趣

地圖中)

{

If(當(dāng)前語義興趣地圖中存在語義

概念i的全部參考概念和引證概念);

{

將語義概念i添加到當(dāng)前語義興趣

地圖參考概念或引證概念相應(yīng)位

置中;

連接概念i的參考概念和引證概

念,連接強(qiáng)度+1;

標(biāo)注語義概念i的實(shí)例文獻(xiàn);

}

else

Addto Map(不 存在于當(dāng)前語義興趣

地圖的語義概念i的參考概念或引證

概念)

}

else

更新當(dāng)前語義興趣地圖中語義概念i的實(shí)

例文獻(xiàn)集合;

}

}

}

}

2.3 科技文獻(xiàn)個(gè)性化推送

基于語義興趣地圖進(jìn)行科技文獻(xiàn)個(gè)性化推送,綜合考慮文獻(xiàn)的語義、用戶協(xié)同及文獻(xiàn)應(yīng)用情景的關(guān)系,挖掘與用戶興趣相匹配的文獻(xiàn),并按照匹配程度的大小進(jìn)行排序推薦。

2.3.1 用戶興趣建模

用戶興趣分為顯性興趣和隱性興趣。顯性興趣挖掘,即根據(jù)用戶請(qǐng)求的文獻(xiàn)或者用戶發(fā)表的文獻(xiàn),利用語義興趣地圖從文獻(xiàn)語義角度判斷用戶感興趣的領(lǐng)域概念,是從文獻(xiàn)語義角度進(jìn)行的用戶興趣挖掘。隱性興趣挖掘,即從用戶顯性興趣概念在語義興趣地圖上的關(guān)聯(lián)概念入手,進(jìn)行深層次挖掘,是從研究者協(xié)同角度,利用研究者的引用行為進(jìn)一步得到的用戶可能的興趣領(lǐng)域,是從用戶協(xié)同角度進(jìn)行的用戶興趣挖掘。同時(shí),通過文獻(xiàn)的應(yīng)用情景,如文獻(xiàn)發(fā)表時(shí)長(zhǎng)、文獻(xiàn)來源的權(quán)威性等進(jìn)行加權(quán),得到用戶對(duì)每個(gè)領(lǐng)域概念的綜合興趣度,從而完成融合應(yīng)用語義、用戶協(xié)同、情景的用戶興趣建模。

(1)顯性興趣挖掘。通過搜集用戶的文獻(xiàn)請(qǐng)求,以及用戶發(fā)表的文獻(xiàn),根據(jù)其在語義興趣地圖上的位置,可以獲取用戶顯性需求對(duì)應(yīng)的領(lǐng)域概念。對(duì)用戶當(dāng)前請(qǐng)求的文獻(xiàn)對(duì)應(yīng)的領(lǐng)域概念,賦予興趣度為1,作為用戶的顯性興趣領(lǐng)域概念。

用戶發(fā)表的文獻(xiàn)對(duì)應(yīng)的領(lǐng)域概念,按照文獻(xiàn)的發(fā)表時(shí)間的久遠(yuǎn)性賦予遞減的權(quán)值,初始權(quán)值和權(quán)值遞減的幅度可根據(jù)用戶發(fā)文數(shù)量、發(fā)文時(shí)間差等進(jìn)行具體的設(shè)置。若用戶發(fā)表的文獻(xiàn)多次歸屬于某個(gè)領(lǐng)域概念A(yù),則先將每次賦予的權(quán)值相加后得到初始權(quán)值WA,歸一化后得到概念A(yù)的權(quán)值? ? ? ? ? ? ? ,其中wmax為用戶發(fā)表的所有文獻(xiàn)歸屬的全部概念的最大初始權(quán)值。歸一化處理后的權(quán)值大于設(shè)定閾值的領(lǐng)域概念作為用戶的顯性興趣記錄,權(quán)值即為用戶對(duì)該概念領(lǐng)域的興趣度。

(2)隱性興趣挖掘。根據(jù)用戶顯性興趣在語義興趣地圖上的位置,可以獲取與用戶興趣相關(guān)的其他領(lǐng)域概念,計(jì)算相關(guān)領(lǐng)域概念與顯性興趣概念之間的相關(guān)度,設(shè)定相關(guān)度閾值,大于該閾值的作為用戶的隱性興趣概念進(jìn)行記錄,并以相似度作為用戶對(duì)該概念領(lǐng)域的興趣度。由此,相關(guān)領(lǐng)域概念與顯性興趣概念的關(guān)系標(biāo)注為相關(guān)概念I(lǐng)'< D,S>,其中D為概念I(lǐng)'與顯性興趣概念I(lǐng)的距離,由兩個(gè)概念間邊的條數(shù)決定,S為概念I(lǐng)'與顯性興趣概念I(lǐng)的聯(lián)系強(qiáng)度,由標(biāo)注在連接邊上的聯(lián)系強(qiáng)度決定。

假設(shè):有m個(gè)概念與概念I(lǐng)相關(guān),其中概念I(lǐng)'k與概念I(lǐng)之間形成的一條路徑長(zhǎng)度為n,路徑包含的節(jié)點(diǎn)形成的邊由近到遠(yuǎn)表示為集合D={D1,D2,……,Dn},且Di =i;相應(yīng)的邊對(duì)應(yīng)的聯(lián)系強(qiáng)度集合S={ S1,S2,……,Sn },概念I(lǐng)'k與概念I(lǐng)之間的相似度計(jì)算方法,如公式(1)所示:

2.3.2 基于用戶興趣的個(gè)性化推薦

(1)推薦指數(shù)計(jì)算。根據(jù)用戶的顯性興趣和隱性興趣,分別對(duì)科技文獻(xiàn)進(jìn)行個(gè)性化推薦,首先推送顯性興趣領(lǐng)域概念對(duì)應(yīng)的文獻(xiàn),再推送隱性興趣領(lǐng)域概念對(duì)應(yīng)的文獻(xiàn)。根據(jù)用戶興趣領(lǐng)域概念包含的對(duì)應(yīng)文獻(xiàn),生成候選推送文獻(xiàn)集合,并在推薦時(shí)均按照其推薦指數(shù)遞減的順序進(jìn)行推薦。候選推送文獻(xiàn)集合中文獻(xiàn)j的推薦指數(shù)計(jì)算方法如公式(3)所示:

(2)算例分析。為了對(duì)本文所提推薦方法進(jìn)行說明,設(shè)定算例分析進(jìn)行演示。設(shè)定對(duì)于用戶U,其顯性興趣領(lǐng)域概念為概念A(yù),隱性興趣領(lǐng)域概念為B、C,用戶對(duì)概念A(yù)、B、C的興趣及其中包含的文獻(xiàn)相關(guān)信息,以及根據(jù)公式(3)計(jì)算的推薦指數(shù)結(jié)果,如表5所示。

根據(jù)表5的算例數(shù)據(jù),首先向用戶推送顯性興趣領(lǐng)域的文獻(xiàn),其排序?yàn)锳3、A2、A1,再向用戶推送隱性興趣領(lǐng)域的文獻(xiàn),其排序?yàn)镃2、B1、B2、C1。

3 結(jié)語

本文提出的基于語義興趣地圖的科技文獻(xiàn)推送方法,通過為文獻(xiàn)的引用行為賦予語義,力圖透過用戶對(duì)某篇文獻(xiàn)的興趣發(fā)掘用戶對(duì)這篇文獻(xiàn)所屬的概念領(lǐng)域的興趣,實(shí)現(xiàn)從引文網(wǎng)絡(luò)到概念知識(shí)網(wǎng)絡(luò)研究的升級(jí)??萍嘉墨I(xiàn)領(lǐng)域詞典的構(gòu)建考慮了文獻(xiàn)的語義,以便更好地從內(nèi)容的角度進(jìn)行推送;語義興趣地圖的構(gòu)建在關(guān)注文獻(xiàn)內(nèi)容之余從文獻(xiàn)引用的角度關(guān)注了用戶的興趣,便于從用戶協(xié)同的角度進(jìn)行推送;推薦指數(shù)計(jì)算時(shí)還考慮了文獻(xiàn)發(fā)表的時(shí)長(zhǎng)、文獻(xiàn)來源等情景信息,最終結(jié)合了三種主要推送方式的優(yōu)點(diǎn),為科技文獻(xiàn)的個(gè)性化推送提供了一種可行的思路和方法。本文的研究主要是對(duì)科技文獻(xiàn)推送方法的探討,具體應(yīng)用還需要在今后的工作中進(jìn)一步檢驗(yàn)和完善。

參考文獻(xiàn):

GL?NZEL W, SCHLEMMER B, THIJS B. Better late than never? On the chance to become highly cited only beyond the standard bibliometric time horizon[J]. Scientometrics, 2003, 58(3):571-586.

朱夢(mèng)皎,武夷山.零被引現(xiàn)象:文獻(xiàn)綜述[J].情報(bào)理論與實(shí)踐, 2013, 36(8):111-116.

RAAN A F J V. Sleeping beauties in science[J].Scientometrics, 2004, 59(3):467-472.

胡澤文,武夷山.零被引研究文獻(xiàn)綜述[J].情報(bào)學(xué)報(bào), 2015, 34(2):213-224.

李賀,解夢(mèng)凡,袁翠敏,等.用無參數(shù)指標(biāo)Bcp識(shí)別睡美人文獻(xiàn)及其作者動(dòng)態(tài)h指數(shù)變化規(guī)律[J].中國(guó)圖書館學(xué)報(bào),2018,44(6):75-89.

王海燕,馬崢,高繼平,等.“睡美人”論文與領(lǐng)域主題演變關(guān)系研究:以信息安全技術(shù)領(lǐng)域睡美人論文為例[J].情報(bào)學(xué)報(bào),2018,37(10):989-996.

NAVA R V, DOMINGUEZ V H M, MONTALVO J G. A document recommendation system using a document-similarity ontology[J]. 2016, 14(7):3329-3334.

WAN X. Beyond topical similarity: a structural similarity measure for retrieving highly similar documents[J]. Knowledge and Information Systems, 2008, 15(1):55-73.

SHU J , SHEN X , LIU H , et al. A content-based recommendation algorithm for learning resources[J]. Multimedia Systems, 2018,24(3):163-173.

HASSAN H A M . Personalized research paper recommendation using deep learning[C]// the 25th Conference. ACM, 2017:327-330.

王嫣然,陳梅,王翰虎,等.一種基于內(nèi)容過濾的科技文獻(xiàn)推薦算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011,21(2):66-69.

畢強(qiáng),劉健.數(shù)字文獻(xiàn)資源內(nèi)容服務(wù)推薦方法研究[J].現(xiàn)代圖書情報(bào)技術(shù),2015(12):21-27,105.

劉健,畢強(qiáng),劉慶旭,等.數(shù)字文獻(xiàn)資源內(nèi)容服務(wù)推薦研究:基于本體規(guī)則推理和語義相似度計(jì)算[J].現(xiàn)代圖書情報(bào)技術(shù),2016(9):70-77.

LAI C H, LIU D R, LIN C S. Novel personal and group-based trust models in collaborative filtering for document recommendation[J]. Information Sciences, 2013, 239(1):31-49.

LIU D R, LAI C H, ChEN Y T. Document recommendations based on knowledge flows: a hybrid of personalized and group-based approaches[J]. Journal of the Association for Information Science and Technology, 2012, 63(10):2100-2117.

LIU D R, LAI C H, CHIU H. Sequence-based trust in collaborative filtering for document recommendation[J]. International Journal of Human-Computer Studies, 2011, 69(9):587-601.

WENG S S, CHANG H L. Using ontology network analysis for research document recommendation[J]. Expert Systems with Applications, 2008, 34(3):1857-1869.

GHAZARIAN S, NEMATBAKHSH M A. Enhancing memory-based collaborative filtering for group recommender systems[J]. Expert Systems with Applications, 2015, 42(7):3801-3812.

SEO Y D , KIM Y G , LEE E , et al. Personalized recommender system based on friendship strength in social network services[J]. Expert Systems with Applications, 2017, 69(3):135-148.

熊回香,楊雪萍,高連花.基于用戶興趣主題模型的個(gè)性化推薦研究[J].情報(bào)學(xué)報(bào),2017,36(9):916-929.

王丹丹.基于用戶使用實(shí)現(xiàn)關(guān)聯(lián)文獻(xiàn)推薦的實(shí)踐與啟示[J].情報(bào)資料工作,2014(3):80-84.

袁銀池.用戶專利文獻(xiàn)閱讀興趣拓?fù)溲芯考霸谥鲃?dòng)推送微服務(wù)中的應(yīng)用[D].鎮(zhèn)江:江蘇大學(xué),2016:29-35.

WILL T C, SRINIVASAN A, IM I, et al. Search personalization: knowledge-based recommendation in digital libraries.[C]// Americas Conference on Information Systems, Amcis 2009, San Francisco, 2009:728.

AMINI B, IBRAHIM R, OTHMAN M S, et al. Incorporating scholar's background knowledge into recommender system for digital libraries[C]// Software Engineering. IEEE, 2011:516 - 523.

黃傳慧.基于情景化用戶偏好的學(xué)術(shù)信息行為研究述評(píng)[J].情報(bào)學(xué)報(bào),2018,37(8): 854-860.

張琪,章穎華.情境感知的科技文獻(xiàn)協(xié)同推薦方法研究[J].現(xiàn)代圖書情報(bào)技術(shù),2012(2):10-17.

張劍.基于科研圈的數(shù)字圖書館多層情境推薦模型研究[J].圖書館學(xué)研究,2015(20):28-31,90.

洪亮,錢晨,樊星.移動(dòng)數(shù)字圖書館資源的情境感知個(gè)性化推薦方法研究[J].現(xiàn)代圖書情報(bào)技術(shù),2016(Z1):110-119.

陳祖琴 重慶科技學(xué)院圖書館副研究館員。 重慶,401331。

葛繼科 重慶科技學(xué)院副教授。 重慶,401331。

蔣 勛 江蘇省數(shù)據(jù)工程與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室(南京大學(xué))教授。 江蘇南京,210023。

(收稿日期:2020-10-16 編校:謝艷秋,曹曉文)