王梓森,梁 英,劉政君,謝小杰,張 偉,史紅周
(1.中國科學(xué)院計算技術(shù)研究所,北京 100190;2.中國科學(xué)院大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,北京 100049)
近年來,我國資助立項的科研項目數(shù)量和規(guī)模逐年增大,日益增加的項目審核工作給科研管理過程帶來極大的挑戰(zhàn)。據(jù)國家統(tǒng)計局?jǐn)?shù)據(jù)(http://data.stats.gov.cn)顯示,2019年我國研究與實驗發(fā)展(Research and Development,R&D)人員全時當(dāng)量461萬人年,研發(fā)人力規(guī)模居全球首位,科研學(xué)者數(shù)量的增多,為推薦科研項目評審專家增加了難度。
現(xiàn)有項目評審專家推薦的過程,依賴人工參與和篩選,即待評審材料(項目申請書等)由工作人員根據(jù)項目指南所屬學(xué)科方向,通過關(guān)鍵字匹配搜索的方式分配給專家?guī)熘械闹付▽<?,并結(jié)合專家回避和專家反饋意見進(jìn)行調(diào)整,以此遴選評審專家。由于項目所屬學(xué)科與專家研究興趣屬于不同的學(xué)科分類體系,分別具有不同的學(xué)科劃分標(biāo)準(zhǔn),關(guān)鍵字詞匹配不能捕捉項目學(xué)科和研究興趣之間的語義聯(lián)系,導(dǎo)致推薦的專家學(xué)術(shù)專長不能精準(zhǔn)匹配項目申報內(nèi)容。隨著學(xué)術(shù)大數(shù)據(jù)的迅速發(fā)展,細(xì)分學(xué)科不斷增多,人工篩選過程在效率和精準(zhǔn)性上不夠,影響選拔合適的小同行專家和跨學(xué)科專家參與項目評審,甚至?xí)?dǎo)致項目評審結(jié)果缺乏公平公正性。
針對上述缺陷,本文提出一種科研項目同行評議專家學(xué)術(shù)專長匹配方法。根據(jù)學(xué)術(shù)實體(包括學(xué)科、專家、研究興趣等)與實體間關(guān)系構(gòu)建異質(zhì)學(xué)術(shù)網(wǎng)絡(luò),設(shè)計元路徑捕捉學(xué)術(shù)實體間語義聯(lián)系;使用學(xué)術(shù)實體共現(xiàn)序列訓(xùn)練網(wǎng)絡(luò)表示學(xué)習(xí)模型,獲得項目學(xué)科與研究興趣語義向量;按照項目學(xué)科樹結(jié)構(gòu)計算向量化結(jié)果語義相似度,實現(xiàn)多粒度的同行評議專家學(xué)術(shù)專長匹配。在爬取的知網(wǎng)和萬方論文數(shù)據(jù)集,某專家評審數(shù)據(jù)集,以及百度百科詞向量數(shù)據(jù)集上進(jìn)行了實驗驗證和實例分析,結(jié)果表明本文方法提升了項目學(xué)科與專家研究興趣間語義關(guān)聯(lián),并能有效應(yīng)用于項目評審專家學(xué)術(shù)專長匹配。
本文主要工作包括:
1)給出科研項目同行評議學(xué)術(shù)網(wǎng)絡(luò)定義。構(gòu)建異質(zhì)學(xué)術(shù)網(wǎng)絡(luò)建立學(xué)術(shù)實體聯(lián)系,根據(jù)網(wǎng)絡(luò)關(guān)系結(jié)構(gòu)設(shè)計元路徑溝通不同類型節(jié)點,捕捉學(xué)科與專家之間的語義關(guān)聯(lián)。
2)提出一種項目所屬學(xué)科和專家研究興趣語義關(guān)聯(lián)的向量表示方法。設(shè)計元路徑指導(dǎo)隨機(jī)游走過程獲取學(xué)術(shù)實體共現(xiàn)序列,使用共現(xiàn)序列訓(xùn)練網(wǎng)絡(luò)表示學(xué)習(xí)模型,得到包含語義信息的學(xué)術(shù)實體低維稠密向量,并通過衡量向量間相似度,表示項目學(xué)科與專家研究興趣之間的語義關(guān)聯(lián)。
3)提出一種多粒度項目評審專家學(xué)術(shù)專長匹配方法。使用專家研究興趣低維向量刻畫專家學(xué)術(shù)專長,按照項目學(xué)科樹層次結(jié)構(gòu)逐層計算專家學(xué)術(shù)專長與項目學(xué)科間語義相似度,實現(xiàn)多粒度的同行評議專家學(xué)術(shù)專長匹配。
傳統(tǒng)衡量實體間關(guān)聯(lián)程度的方法通過關(guān)鍵字匹配[1]實現(xiàn),然而一般情況下,完全不同的關(guān)鍵字卻常常蘊(yùn)含相同的語義,僅依靠關(guān)鍵字無法對實體間的內(nèi)在語義關(guān)聯(lián)進(jìn)行捕捉。
三元組知識圖譜與人工語義詞典常用于語義關(guān)聯(lián)計算,以捕捉實體間的語義關(guān)聯(lián)。張曄等[2]提出Acemap知識圖譜(Acemap Knowledge Graph,AceKG),對學(xué)術(shù)實體間語義關(guān)聯(lián)進(jìn)行建模;基于語義詞典WordNet[3]、HowNet[4]的算法通過計算語義詞典中節(jié)點語義距離獲得節(jié)點間的關(guān)聯(lián)度。然而,知識圖譜與語義詞典在構(gòu)建時所需工作量較大,并且此類方法隨著節(jié)點數(shù)量增多,數(shù)據(jù)維度增大,計算復(fù)雜度逐漸提高。
基于語料庫的算法通過分析大規(guī)模文本,構(gòu)建詞匯與文檔之間的語義共現(xiàn)關(guān)系矩陣,從而獲得實體間語義關(guān)聯(lián)度。Deerwester等[5]通過對共現(xiàn)矩陣進(jìn)行奇異值分解,提出了著名的隱語義分析(Latent Semantic Analysis,LSA)。隨著學(xué)者對LSA技術(shù)的不斷改進(jìn)[6-7],彭云等[8]在此基礎(chǔ)上提出語義關(guān)系約束的潛在狄利克雷分配(Semantic Relation Constrained Latent Dirichlet Allocation,SRC-LDA)擁有更牢固的統(tǒng)計基礎(chǔ),并且在下游情感分析任務(wù)中擁有更高的準(zhǔn)確性。何云等[9]引入詞性過濾對語料庫進(jìn)行預(yù)處理,降低語料中噪聲對計算結(jié)果的影響,提升語義計算性能。王偉等[10]提出了一種基于滑動語義串匹配的漢語詞義消歧方法,通過建立N元語義模板庫并從待消歧句子中提取N元語義碼來確定歧義詞的最終詞義。Wang等[11]提出了一種融入文本信息的深度協(xié)同排序方法,使用語料庫中降噪后的文本數(shù)據(jù)對用戶非線性偏好建模,實現(xiàn)用戶偏好與推薦物品間的潛在語義關(guān)聯(lián)。然而,此類算法的核心在于分析語料庫中的共現(xiàn)詞匯,算法效果高度依賴于訓(xùn)練語料的規(guī)模與品質(zhì),導(dǎo)致文本預(yù)處理工作十分龐大。
網(wǎng)絡(luò)表示學(xué)習(xí)方法將實體以網(wǎng)絡(luò)形式建模,并通過網(wǎng)絡(luò)結(jié)構(gòu)將實體語義信息映射至低維度向量空間,從而實現(xiàn)實體間的關(guān)聯(lián)匹配。Schlichtkrull等[12]利用傅里葉變換將實體網(wǎng)絡(luò)映射到譜域,通過深度學(xué)習(xí)獲得實體語義的低維向量表示。Ji等[13]提出了基于注意力機(jī)制的異質(zhì)網(wǎng)絡(luò)深度表示學(xué)習(xí)方法,基于元路徑聚合約減異質(zhì)網(wǎng)絡(luò),實現(xiàn)了異質(zhì)網(wǎng)絡(luò)節(jié)點的低維向量表示。深度網(wǎng)絡(luò)表示學(xué)習(xí)具有很強(qiáng)的高維特征組合能力,但其參數(shù)眾多,在應(yīng)用于不同下游任務(wù)時存在一定的局限性。Mikolov等[14]通過滑動窗口捕捉詞語共現(xiàn)序列,以詞向量的方法刻畫詞語間的語義關(guān)聯(lián)。DeepWalk[15]模型的作者將詞向量的思想遷移至網(wǎng)絡(luò)表示學(xué)習(xí),使用隨機(jī)游走策略在網(wǎng)絡(luò)中獲得實體語義的低維向量表示。Grover等[16]對DeepWalk算法進(jìn)行了擴(kuò)展,通過結(jié)合深度和廣度優(yōu)先的隨機(jī)游走,更加細(xì)致地捕捉實體網(wǎng)絡(luò)語義信息。Dong等[17]將隨機(jī)游走的思想通過元路徑的限制擴(kuò)展到了異質(zhì)網(wǎng)絡(luò),并基于學(xué)術(shù)網(wǎng)絡(luò)驗證了元路徑限制的游走序列能夠充分捕捉到異質(zhì)網(wǎng)絡(luò)中更豐富的信息。王文濤等[18]對隨機(jī)游走過程進(jìn)行改進(jìn),使得節(jié)點序列能夠更好地反映網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)而提升了鏈路預(yù)測任務(wù)中節(jié)點間的語義關(guān)聯(lián)效果?;陔S機(jī)游走的網(wǎng)絡(luò)表示學(xué)習(xí)方法泛化能力強(qiáng),更易于應(yīng)用到各種下游任務(wù)中,并且考慮到學(xué)術(shù)網(wǎng)絡(luò)數(shù)據(jù)規(guī)模龐大,本文擬采用擴(kuò)展性強(qiáng)的基于隨機(jī)游走的網(wǎng)絡(luò)表示學(xué)習(xí)方法,獲得具備語義關(guān)聯(lián)的項目學(xué)科和專家研究興趣的低維向量表示。
項目申請時需要根據(jù)項目指南撰寫項目申請書,本文所討論的項目指南隸屬于以專題節(jié)點為根節(jié)點的項目學(xué)科分類樹中的某一學(xué)科節(jié)點。在遴選評審專家時,首先要選出學(xué)術(shù)專長和項目隸屬學(xué)科相符的專家,即根據(jù)專家的所有研究興趣節(jié)點來匹配項目學(xué)科樹下項目節(jié)點的上級學(xué)科節(jié)點,參見圖1。
圖1 專家研究興趣與項目學(xué)科匹配示例Fig.1 Matching example of research interest of expert and subject of project
現(xiàn)有方法通過判斷字詞重疊度的方式,并結(jié)合人工判別詞匯相似度,實現(xiàn)項目學(xué)科與研究興趣的關(guān)聯(lián)程度判斷。隨著學(xué)術(shù)數(shù)據(jù)量的增大,細(xì)分項目學(xué)科增多,這種方法難以捕捉研究興趣與學(xué)科之間的語義關(guān)聯(lián),例如“大氣污染”和“環(huán)境保護(hù)”沒有字詞重疊,但都與環(huán)保主題相關(guān)。
本文利用學(xué)術(shù)大數(shù)據(jù)構(gòu)建異質(zhì)學(xué)術(shù)網(wǎng)絡(luò),設(shè)計元路徑捕捉學(xué)術(shù)實體間語義關(guān)聯(lián),并基于網(wǎng)絡(luò)表示學(xué)習(xí)方法獲得學(xué)術(shù)實體語義向量,按照項目學(xué)科樹層次結(jié)構(gòu)逐層計算向量間語義相似度,實現(xiàn)多粒度的同行評議專家學(xué)術(shù)專長匹配。
1)專家:記作E,存在于專家?guī)靸?nèi)的高水平學(xué)者被稱為專家。一般根據(jù)專家遴選管理規(guī)定,從學(xué)術(shù)影響力較大的學(xué)者中遴選產(chǎn)生專家?guī)鞂<摇?/p>
2)研究興趣:記作RI,研究興趣是專家從事科研活動的態(tài)度和傾向。本文特指專家?guī)靸?nèi)專家填報的研究興趣與專家科研成果提取的研究方向。
3)項目:記作P,項目是在特定的時間、預(yù)算、資源限定內(nèi),依據(jù)規(guī)范完成的科學(xué)研究活動??蒲许椖堪▏腋骷壵闪⒒鹬蔚目v向科研項目、來自企事業(yè)單位的橫向科研合作開發(fā)項目和自籌科研項目。
4)專題:記作SS,專題用于概括一類學(xué)科研究的主方向,一個專題下設(shè)多層級多學(xué)科。
5)學(xué)科:記作S,學(xué)科是專題下的多層級學(xué)術(shù)分類,按照不同所屬層級可分為一級學(xué)科、二級學(xué)科、三級學(xué)科等,下級學(xué)科從屬上級學(xué)科。其中,將連接了專題與項目的不同層級學(xué)科統(tǒng)稱為項目學(xué)科。
本文中每個項目都隸屬于某個專題下的某個學(xué)科,被不同專家評審。
定義1 學(xué)術(shù)網(wǎng)絡(luò)(Academic Network/Graph)。學(xué)術(shù)網(wǎng)絡(luò)是一個異質(zhì)網(wǎng)絡(luò),可以表示為Gacademic={V,Edge,T,R,?,δ},其中:
1)V={vi|i=1,2,…,N}表示節(jié)點的集合,其中N表示節(jié)點的數(shù)量。
2)Edge={ei,j| 1≤i,j≤N}表示邊的集合,其中ei,j表示學(xué)術(shù)網(wǎng)絡(luò)中兩個節(jié)點vi和vj之間的連邊,使用|Edge|表示邊的數(shù)量。
3)T={tk|k=1,2,…,|T|}表示節(jié)點類型的集合,其中tk表示節(jié)點vi的節(jié)點類型,tk∈{TE,TRI,TP,TSS,TS},TE表示專家類型,TRI表示研究興趣類型,TP表示項目類型,TSS表示專題類型,TS表示學(xué)科類型,|T|表示節(jié)點類型數(shù)量。
4)R={rl|l=1,2,…,|R|}表示關(guān)系類型集合,其中rl可以表示學(xué)術(shù)網(wǎng)絡(luò)中一個關(guān)系類型,rl∈{RSS?S,RS?P,RE?P,RE?RI,RS?S},RE?RI表示“具有”和“屬于”關(guān)系類型,即專家具有研究興趣,研究興趣屬于專家;RE?P表示“評審”和“被評審”關(guān)系類型,即專家評審項目,項目被專家評審;RSS?S表示“下設(shè)”和“從屬”關(guān)系類型,即專題下設(shè)一級學(xué)科,一級學(xué)科從屬專題,RS?S表示學(xué)科間“下設(shè)”和“從屬”關(guān)系類型,即n-1級學(xué)科下設(shè)n級學(xué)科,n級學(xué)科從屬n-1級學(xué)科;RS?P表示“包含”和“隸屬”關(guān)系類型,即n級學(xué)科包含項目,項目隸屬n級學(xué)科。
5)?表示節(jié)點類型映射函數(shù)。?(vi)∈T表示節(jié)點vi∈V屬于一個節(jié)點類型。
6)δ表 示 關(guān) 系 類 型 映 射 函 數(shù)。δ(ei,j)∈R表 示 邊ei,j∈Edge屬于一個關(guān)系類型。
定義1的學(xué)術(shù)網(wǎng)絡(luò)圖的網(wǎng)絡(luò)模式如圖2所示,包含了五種類型對象:專題、學(xué)科、項目、專家和研究興趣,可以看出學(xué)科之間的下設(shè)關(guān)系對應(yīng)的是內(nèi)部關(guān)系,專題與學(xué)科之間的下設(shè)關(guān)系、學(xué)科與項目之間的包含關(guān)系、專家與項目之間的評審關(guān)系、研究興趣與專家之間的屬于關(guān)系對應(yīng)的是相關(guān)關(guān)系。同時,專題、學(xué)科、項目構(gòu)成項目學(xué)科樹,專題是項目學(xué)科樹的根節(jié)點,學(xué)科是中間節(jié)點,項目是葉子節(jié)點。
圖2 項目評審場景學(xué)術(shù)網(wǎng)絡(luò)的網(wǎng)絡(luò)模式Fig.2 Network modeof academic network in project review scenario
定義2 類型節(jié)點集合(Type Node Set)。TYPEv表示類型為tk的節(jié)點集合,可表示為:
其中:vi∈V表示學(xué)術(shù)網(wǎng)絡(luò)中的節(jié)點,1≤i≤N,?表示節(jié)點類型映射函數(shù),tk表示節(jié)點類型,1≤k≤|Tv|。通過類型節(jié)點集合能夠描述學(xué)術(shù)網(wǎng)絡(luò)中一個節(jié)點類型的節(jié)點集合。當(dāng)tk=TS,即節(jié)點類型為學(xué)科時,類型節(jié)點集合表示為Sv;當(dāng)tk=TRI,即節(jié)點類型為研究興趣時,類型節(jié)點集合表示為RIv。
為了便于描述類型節(jié)點集合TYPEv中任意一個節(jié)點,將該類型節(jié)點記為vTYPE。當(dāng)tk=TS,即節(jié)點類型為學(xué)科時,節(jié)點被記為vS;當(dāng)tk=TRI,即節(jié)點類型為研究興趣時,節(jié)點被記為vRI。
圖3為一個學(xué)術(shù)網(wǎng)絡(luò)示例,圖中共有10個節(jié)點,不同節(jié)點之間存在連邊。有5種節(jié)點類型,通過節(jié)點類型映射函數(shù)能夠獲得節(jié)點對應(yīng)的節(jié)點類型,v1和v2是專家類型,v3是專題類型,v4、v5和v6是學(xué)科類型,v7是項目類型,v8、v9和v10是研究興趣類型;有5種關(guān)系類型,通過關(guān)系類型映射函數(shù)能夠獲得邊對應(yīng)的關(guān)系類型,e7,1是“評審”和“被評審”關(guān)系,e3,4是專題學(xué)科間“下設(shè)”和“從屬”關(guān)系,e4,7是“包含”和“隸屬”關(guān)系,e5,6是學(xué)科間“下設(shè)”和“從屬”關(guān)系,e1,8是“具有”和“屬于”關(guān)系。所有學(xué)科類型節(jié)點v4、v5和v6可以表示為Sv,所有專家類型節(jié)點v1和v2可以表示為Ev,所有研究興趣類型節(jié)點v8、v9和v10可以表示為RIv。
定義3 元路徑(Meta-path)。元路徑ρ定義為學(xué)術(shù)網(wǎng)絡(luò)Gacademic中,連接兩類節(jié)點的路徑,可以用式(2)表示:
其中:tk表示Gacademic中的節(jié)點類型,rk表示Gacademic中的關(guān)系類型,參數(shù)1 圖3 項目評審場景學(xué)術(shù)網(wǎng)絡(luò)示例Fig.3 Exampleof academic network in project review scenario 本文方法首先設(shè)計隨機(jī)游走所使用的元路徑,通過元路徑指導(dǎo)隨機(jī)游走得到項目學(xué)科和專家研究興趣共現(xiàn)節(jié)點序列,使用節(jié)點序列訓(xùn)練網(wǎng)絡(luò)表示模型獲得項目學(xué)科與專家研究興趣語義向量,根據(jù)研究興趣與項目學(xué)科語義向量計算專家學(xué)術(shù)專長與項目學(xué)科間的語義相似度,最終根據(jù)相似度獲得推薦專家列表實現(xiàn)評審專家學(xué)術(shù)專長匹配。 圖4描述了從設(shè)計元路徑到輸出專家推薦列表的全部過程,具體步驟如下: 圖4 評審專家與項目學(xué)科匹配以及專家推薦流程Fig.4 Process of expert and project subject matchingand expert recommendation 步驟1 定義正向項目路徑FPP與反向項目路徑RPP,根據(jù)FPP與RPP設(shè)計元路徑; 步驟2 根據(jù)設(shè)計的元路徑在學(xué)術(shù)網(wǎng)絡(luò)中隨機(jī)游走,獲取包含項目學(xué)科和研究興趣的節(jié)點序列; 步驟3 將獲取的序列輸入Skip-Gram模型,進(jìn)行模型訓(xùn)練; 步驟4 Skip-Gram模型輸出訓(xùn)練結(jié)果,獲得包含語義信息的項目學(xué)科和研究興趣表示向量; 步驟5 使用專家所有的研究興趣向量刻畫專家學(xué)術(shù)專長,并計算專家學(xué)術(shù)專長與項目學(xué)科間相似度; 步驟6 根據(jù)相似度計算結(jié)果推薦專家,獲得推薦專家列表。 本節(jié)總結(jié)出正向項目路徑與反向項目路徑,并設(shè)計了隨機(jī)游走使用的元路徑建立學(xué)科與專家之間的關(guān)聯(lián),為基于隨機(jī)游走的網(wǎng)絡(luò)表示學(xué)習(xí)提供支撐。下面給出正/反向項目路徑的概念。 正向項目路徑(Forward Project Path)是從專題類型出發(fā),到項目類型結(jié)束的元路徑,如式(3)所示: 其中:TSS表示專題類型,TS表示學(xué)科類型,TP表示項目類型;RSS?S表示“下設(shè)”和“從屬”的關(guān)系類型,RS?S表示學(xué)科間“下設(shè)”和“從屬”的關(guān)系類型,RS?P表示“包含”和“隸屬”的關(guān)系類型。正向項目路徑建立了專題與項目的聯(lián)系。 反向項目路徑(Reversed Project Path)是從項目類型出發(fā),到專題類型結(jié)束的元路徑,如式(4)所示: 其中:TP表示項目類型,TS表示學(xué)科類型,TSS表示專題類型;RSS?S表示“下設(shè)”和“從屬”的關(guān)系類型,RS?S表示學(xué)科間“下設(shè)”和“從屬”的關(guān)系類型,RS?P表示“包含”和“隸屬”的關(guān)系類型。反向項目路徑與正向項目路徑所經(jīng)過的節(jié)點類型相同,順序不同,互為逆路徑。 圖5 項目學(xué)科示例Fig.5 Exampleof subjects that projects belonging to 根據(jù)正向項目路徑與反向項目路徑設(shè)計元路徑,建立學(xué)科與專家之間的關(guān)聯(lián)。隨機(jī)游走的元路徑設(shè)計如式(5)所示: 其中:FPP表示正向項目路徑(式(3)),TE表示專家類型,RPP表示反向項目路徑(式(4)),RE?P表示專家評審項目的關(guān)系類型。專家類型節(jié)點將正向項目路徑和反向項目路徑連接起來,構(gòu)成了一條對稱的元路徑。 元路徑將不同類型節(jié)點進(jìn)行組合,用于指導(dǎo)隨機(jī)游走算法過程。 本節(jié)介紹如何利用式(5)的元路徑進(jìn)行隨機(jī)游走,捕捉項目學(xué)科與專家研究興趣間語義聯(lián)系,并在學(xué)術(shù)網(wǎng)絡(luò)中獲取一系列節(jié)點序列,作為3.3節(jié)Skip-Gram模型的輸入。 由于元路徑的設(shè)計是對稱的,隨機(jī)游走可以從專題節(jié)點出發(fā)游走到另一個專題。隨機(jī)游走相當(dāng)于一種在學(xué)術(shù)網(wǎng)絡(luò)上的深度優(yōu)先遍歷,設(shè)當(dāng)前節(jié)點為vt,下一步游走到的節(jié)點為vt+1的轉(zhuǎn)移概率如式(6)所示: 圖6 學(xué)術(shù)網(wǎng)絡(luò)元路徑示例Fig.6 Exampleof academic network meta-path 為了取得項目學(xué)科和研究興趣的語義關(guān)系,在隨機(jī)游走完成后,使用專家研究興趣替換專家節(jié)點[19],每次替換專家節(jié)點時,將專家研究興趣對應(yīng)的詞匯和短語隨機(jī)排序,使不同研究興趣在節(jié)點序列中能夠與學(xué)科節(jié)點具備相同的共現(xiàn)關(guān)系,以提升后續(xù)表示學(xué)習(xí)階段算法的穩(wěn)定性。替換過程如圖7所示,替換前,通過隨機(jī)游走獲得的節(jié)點序列保留了完整的元路徑信息;替換后,通過將專家節(jié)點替換為研究興趣節(jié)點,并刪除項目節(jié)點,使序列中只包含研究興趣、學(xué)科、專題類型的節(jié)點。節(jié)點替換后的序列中,研究興趣與項目學(xué)科直接相鄰,其間存在的語義聯(lián)系得以體現(xiàn)。 圖7 研究興趣替換示例Fig.7 Example of research interest substitution 本節(jié)介紹基于Skip-Gram[14]的表示學(xué)習(xí)方法。使用3.2節(jié)獲得的項目學(xué)科與研究興趣序列建立節(jié)點共現(xiàn)關(guān)系,通過Skip-Gram模型得到項目學(xué)科和研究興趣的語義關(guān)聯(lián)低維向量化表示。 表示學(xué)習(xí)需要捕捉節(jié)點之間的共現(xiàn)關(guān)系,共現(xiàn)關(guān)系可簡化為一系列二元組,如式(7)所示: 其中:vi和vj表示項目學(xué)科類型節(jié)點Sv和研究興趣類型節(jié)點RIv組成集合中的任意兩個節(jié)點,|Sv|表示學(xué)科類型節(jié)點的數(shù)量,|RIv|表示研究興趣類型節(jié)點的數(shù)量,1≤i,j≤|Sv|+|RIv|。二元組表示節(jié)點vi和節(jié)點vj存在語義關(guān)聯(lián),通過二元組能夠描述項目學(xué)科與研究興趣之間的語義關(guān)聯(lián)。 使用滑動窗口在節(jié)點序列上獲得二元組,并將二元組中節(jié)點分為中心節(jié)點和上下文節(jié)點。圖8展示了一個節(jié)點序列上滑動窗口為5采樣的示例,中心節(jié)點為v4,上下文節(jié)點為v2,v3,v5,v6,中心節(jié)點與上下文節(jié)點構(gòu)成的二元組集合可以表示為{v4,v2,v4,v3,v4,v5,v4,v6}。 Skip-Gram模型使用二元組集合作為模型的輸入和輸出,結(jié)合表示學(xué)習(xí)網(wǎng)絡(luò)捕捉節(jié)點共現(xiàn)關(guān)系。Skip-Gram模型(見圖9)最大化使用中心節(jié)點預(yù)測上下文節(jié)點的概率,繼續(xù)以圖8為例,即p(v2|v4)+p(v3|v4)+p(v5|v4)+p(v6|v4),表示通過中心節(jié)點v4分別預(yù)測v2,v3,v5,v6節(jié)點。 圖8 節(jié)點序列上滑動窗口采樣示例Fig.8 Slidingwindow samplingexampleon node sequence 圖9 Skip-Gram模型結(jié)構(gòu)Fig.9 Skip-Gram model structure 將Skip-Gram模型應(yīng)用到項目學(xué)科和研究興趣的節(jié)點序列上,其最大化概率的形式如式(8)所示: 模型經(jīng)過訓(xùn)練后,選取網(wǎng)絡(luò)輸入層到隱藏層的全連接權(quán)重系數(shù),即可獲得項目學(xué)科和研究興趣的向量化結(jié)果。項目學(xué)科和研究興趣均以低維稠密向量的形式表示,具有相同維度,能夠互相計算相似度。 本節(jié)使用3.3節(jié)專家研究興趣與項目學(xué)科的表示學(xué)習(xí)向量化結(jié)果,計算專家與項目學(xué)科間相似度,并根據(jù)相似度完成專家學(xué)術(shù)專長匹配。 首先對專家所有的研究興趣向量化結(jié)果取平均,獲得表示專家語義信息的低維稠密向量,用以刻畫專家學(xué)術(shù)專長。隨后,對專家與項目學(xué)科低維稠密向量相似度進(jìn)行計算,相似度計算方式如式(9)所示: 其中:vE表示評審專家節(jié)點,?(vE)=TE,vec(vE)表示專家低維稠密向量,vS表示學(xué)科節(jié)點,?(vS)=TS,vec(vS)表示學(xué)科低維稠密向量。相似度越大,表示專家越適合該學(xué)科下項目的評審。 專家學(xué)術(shù)專長匹配流程按照項目學(xué)科樹層次結(jié)構(gòu)由上向下逐層進(jìn)行相似度計算,如圖10所示。首先,計算一級學(xué)科與專家學(xué)術(shù)專長間相似度,并將專家按相似度排序,取Top-K名專家輸入到下一層,然后,將二級學(xué)科與輸入到本層的專家列表進(jìn)行相似度計算,并按同樣流程將排序后的結(jié)果繼續(xù)向下輸入,最終,不斷重復(fù)此過程直至完成葉子學(xué)科與專家列表間的相似度計算。 圖10 專家與學(xué)科匹配示例Fig.10 Exampleof expert and subject matching 在每一層的相似度計算中,不同級別的項目學(xué)科匹配的專家排序不同,數(shù)量不同。因此,對于科研“大同行”和“小同行”,所提方法可以得到不同方案的推薦專家列表,從而實現(xiàn)多粒度的專家推薦策略,為不同層級學(xué)科提供不同的備選評審專家團(tuán)隊。 實驗數(shù)據(jù)為本文爬取的某專家?guī)鞌?shù)據(jù)集,知網(wǎng)和萬方論文數(shù)據(jù)集,以及百度百科公開詞向量數(shù)據(jù)集,通過算法對比與實例分析對所提方法有效性進(jìn)行了驗證。使用某專家?guī)鞌?shù)據(jù)集與百度百科公開詞向量數(shù)據(jù)集開展了語義關(guān)聯(lián)方法對比實驗及分析。使用某專家?guī)鞌?shù)據(jù)集開展了專家學(xué)術(shù)專長匹配實驗,通過人工標(biāo)注的方法,驗證了專家學(xué)術(shù)專長匹配方法的有效性。 1)某專家評審數(shù)據(jù)集。 根據(jù)網(wǎng)上的公開信息,創(chuàng)建了5萬左右的專家數(shù)據(jù)。包括專家的基本信息、科研信息、研究興趣、個人業(yè)績、工作經(jīng)歷信息等,選取部分?jǐn)?shù)據(jù)域描述如圖11所示?;谠摂?shù)據(jù)集內(nèi)部實體間關(guān)聯(lián)關(guān)系,構(gòu)成專家評審學(xué)術(shù)網(wǎng)絡(luò),以展開專家研究興趣和項目學(xué)科語義關(guān)聯(lián)實驗。 圖11 某專家評審數(shù)據(jù)集描述Fig.11 Review expert dataset description 2)知網(wǎng)和萬方論文數(shù)據(jù)集。 由于專家?guī)靸?nèi)專家研究興趣存在一定滯后性,本文使用從知網(wǎng)和萬方網(wǎng)站抓取的論文數(shù)據(jù)對專家研究興趣數(shù)據(jù)進(jìn)行補(bǔ)充。根據(jù)專家?guī)熘袑<业男彰退鶎贆C(jī)構(gòu),從網(wǎng)站抓取2018年7月之前專家所發(fā)表過的論文。論文數(shù)據(jù)經(jīng)過清洗和去重之后,專家所參與發(fā)表的論文共計3 948 047篇,論文信息包括論文標(biāo)題、作者、關(guān)鍵字,不包含論文全文信息。 3)百度百科詞向量數(shù)據(jù)集。 為了與本文所提的實體語義關(guān)聯(lián)方法相比較,選取由百度百科訓(xùn)練得到的公開詞向量數(shù)據(jù)[21],該數(shù)據(jù)包含百度百科2018年4月之前公開的文本數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗后語料大小4.1 GB,包含總詞匯數(shù)7.45億,獨立詞匯數(shù)量542萬,使用基于Skip-Gram的表示學(xué)習(xí)方法對其進(jìn)行訓(xùn)練,滑動窗口大小設(shè)置為5,負(fù)采樣數(shù)量為5。此數(shù)據(jù)源的訓(xùn)練結(jié)果將用于語義關(guān)聯(lián)方法對比實驗中。 4.2.1 實驗參數(shù)設(shè)置 表1列出項目學(xué)科和研究興趣語義關(guān)聯(lián)實驗中涉及的多個超參數(shù)。 表1 項目學(xué)科和研究興趣語義關(guān)聯(lián)實驗參數(shù)設(shè)置Tab.1 Parameter settingof semantic association experiment on project subject and research interest Walk_num為500和Walk_len為5 000表示需要從專題開始基于元路徑游走500次,每次游走5 000步,Embedding_size為128表示獲得專家研究興趣和項目學(xué)科的向量維度為128。在基于Skip-Gram的表示學(xué)習(xí)過程中,滑動窗口大小設(shè)置為9表示觀察9個上下文節(jié)點,Neg_num為5表示負(fù)采樣5個節(jié)點。按照上述參數(shù)設(shè)置進(jìn)行訓(xùn)練,獲得的向量化結(jié)果有項目學(xué)科低維稠密向量和研究興趣低維稠密向量,這2類向量存在語義關(guān)聯(lián)。 4.2.2 評價指標(biāo) 向量化后的項目學(xué)科和研究興趣之間的語義關(guān)聯(lián)可以通過計算其間相似度加以衡量,定義項目學(xué)科與研究興趣之間的向量余弦相似度為語義評分,如式(10)所示: 其中:節(jié)點vi和vj表示項目學(xué)科和研究興趣,?∈Gacademic,?(vi)≠?(vj)表示不同類型節(jié)點的相似度比較,約束條件?(vi),?(vj)∈{TS,TRI}表示比較的節(jié)點限于項目學(xué)科和研究興趣類型節(jié)點。 4.2.3 實驗分析 實驗對比了LSA、LDA、詞向量3種常見語義關(guān)聯(lián)方法,通過計算語義關(guān)聯(lián)結(jié)果的語義評分,比較不同方法在項目學(xué)科和研究興趣語義關(guān)聯(lián)中的效果。 首先選擇“創(chuàng)新診療裝備產(chǎn)品評價”學(xué)科作為語義評分計算時用到的項目學(xué)科,從某專家?guī)鞌?shù)據(jù)集中選出參與過此學(xué)科評審工作的全部評審專家,并將這些專家的所有研究興趣作為語義評分計算時用到的研究興趣。通過使用不同方法對上述項目學(xué)科與研究興趣語義評分進(jìn)行計算,來衡量不同算法的語義關(guān)聯(lián)效果,其中,評分越高表明算法捕捉了更多的語義關(guān)聯(lián)。 實驗結(jié)果如圖12所示,本文方法在項目學(xué)科和研究興趣語義關(guān)聯(lián)上相比其他方法均具備優(yōu)勢。圖12(a)是所有研究興趣的平均語義評分,圖12(b)是選取5個高頻研究興趣的語義評分。由于LSA方法依賴于共現(xiàn)矩陣,不能識別未出現(xiàn)在語料庫中的共現(xiàn)關(guān)系,因此在不同研究興趣上語義評分波動較大;LDA在LSA的基礎(chǔ)上引入主題概率,相當(dāng)于加入平滑操作,結(jié)果相對穩(wěn)定,但這兩種方法都基于共現(xiàn)矩陣,整體效果較差;詞向量方法通過引入外部訓(xùn)練語料,提升了語義關(guān)聯(lián)度,但是由于外部語料對評審專家推薦過程缺乏知識覆蓋度,導(dǎo)致效果依然有限;本文方法利用元路徑溝通了項目學(xué)科和研究興趣之間的語義聯(lián)系,使語義關(guān)聯(lián)效果得到提高。 圖12 不同方法語義關(guān)聯(lián)比較Fig.12 Semantic association comparison of different methods 下面以具體實例對本文語義關(guān)聯(lián)方法效果進(jìn)行分析。隨機(jī)選取5個項目學(xué)科(突發(fā)污染事故應(yīng)基于經(jīng)評估技術(shù)、混合動力發(fā)動機(jī)開發(fā)、手術(shù)機(jī)器人、小分子調(diào)控細(xì)胞命運(yùn)轉(zhuǎn)變、新型果蔬汁加工關(guān)鍵技術(shù)及裝備研發(fā)),對其計算語義評分最高的5個專家研究興趣。從表2可以看出,得到的研究興趣與項目學(xué)科相關(guān),說明向量化后的項目學(xué)科和興趣互相關(guān)聯(lián)。 表2 項目學(xué)科與研究興趣語義關(guān)聯(lián)分析Tab.2 Analysisof semantic association between project subject and research interest 4.3.1 實驗參數(shù)設(shè)置 在計算專家與項目學(xué)科間相似度時,隨著專家學(xué)術(shù)專長匹配的進(jìn)行,適合評審的專家數(shù)量應(yīng)當(dāng)不斷減少,從而逐層完成細(xì)分學(xué)科方向?qū)<彝扑]。本文項目評審數(shù)據(jù)中學(xué)科分類最高涉及四級學(xué)科節(jié)點,一級、二級、三級、四級學(xué)科推薦專家列表大小設(shè)置分別為1 000、500、200、100。學(xué)科匹配推薦專家數(shù)量與葉子節(jié)點所在層級有關(guān),學(xué)科細(xì)分程度越高推薦匹配的專家越少。 4.3.2 評價指標(biāo) 設(shè)計專長匹配評分用于評價學(xué)術(shù)專長匹配方法效果。首先采取人工驗證的方式,對推薦專家列表中的所有專家逐一進(jìn)行匹配程度判定,匹配程度包括非常匹配(2分)、一般匹配(1分)、不匹配(0分),依次表示專家的研究興趣和項目學(xué)科相關(guān)、部分相關(guān)、不相關(guān)。 判定后,使用獲得的匹配程度計算專長匹配評分,專長匹配評分計算方法如式(11)所示: 4.3.3 實驗分析 實驗對大氣自由基及納米顆粒物化學(xué)組分在線測量技術(shù)、細(xì)胞運(yùn)動中的蛋白質(zhì)機(jī)器、高比功率長壽命動力電池技術(shù)、高耐磨高強(qiáng)韌重載鋼軌用鋼、高精度原子磁強(qiáng)計(基礎(chǔ)前沿類)五個項目進(jìn)行了專家學(xué)術(shù)專長匹配,并選擇項目所對應(yīng)二級學(xué)科的專長匹配結(jié)果,結(jié)合人工標(biāo)注的方式驗證了學(xué)術(shù)專長匹配方法的有效性。 為了保證驗證過程的普適性,從匹配結(jié)果共500名的推薦專家列表中隨機(jī)抽取20名專家(即Nk=20),并重復(fù)隨機(jī)抽取5次進(jìn)行驗證。使用專長匹配評分進(jìn)行評價,統(tǒng)計專長匹配度評分平均值、最小值、最大值,如圖13所示。從圖13中可以看出專長匹配評分平均值在0.8左右,說明專家推薦結(jié)果的學(xué)術(shù)專長匹配程度較高,驗證了專家學(xué)術(shù)專長匹配方法的有效性。 圖13 不同學(xué)科下的專家學(xué)術(shù)專長匹配度Fig.13 Matching degreeof expert academic expertise in different subjects 針對現(xiàn)有評審專家推薦流程中項目學(xué)科與研究興趣缺乏語義關(guān)聯(lián)的問題,提出了一種科研項目同行評議專家學(xué)術(shù)專長匹配方法,設(shè)計元路徑捕捉項目學(xué)科與研究興趣間語義關(guān)聯(lián),使用基于隨機(jī)游走的網(wǎng)絡(luò)表示學(xué)習(xí)模型訓(xùn)練,獲得項目學(xué)科與專家研究興趣向量化結(jié)果,根據(jù)項目學(xué)科樹結(jié)構(gòu)計算表示向量相似度,實現(xiàn)多粒度的專家學(xué)術(shù)專長匹配。在爬取的知網(wǎng)和萬方論文數(shù)據(jù)集,某專家評審數(shù)據(jù)集,以及百度百科詞向量數(shù)據(jù)集上進(jìn)行了實驗驗證和實例分析,結(jié)果表明本文方法能提升項目學(xué)科與專家研究興趣間語義關(guān)聯(lián),并有效應(yīng)用于項目評審專家學(xué)術(shù)專長匹配。在未來的工作中,將進(jìn)一步研究實時推薦、冷啟動等問題,并應(yīng)用于專家的精準(zhǔn)推薦上。2.3 整體流程
3 專家研究興趣與項目所屬學(xué)科匹配方法
3.1 元路徑設(shè)計
3.2 基于元路徑的隨機(jī)游走
3.3 基于Skip-Gram的表示學(xué)習(xí)方法
3.4 評審專家與項目學(xué)科間的相似度計算
4 實驗與效果評估
4.1 實驗數(shù)據(jù)
4.2 項目學(xué)科和研究興趣語義關(guān)聯(lián)
4.3 專家學(xué)術(shù)專長匹配
5 結(jié)語