国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于異構網絡的無監(jiān)督作者名稱消歧

2021-01-01 11:52:58郭晨亮林欣殷玥

郭晨亮 林欣 殷玥

摘要:作者名稱消歧是構建學術知識圖譜的重要步驟.由于數據缺失、人名重名、人名縮寫導致論文重名現(xiàn)象普遍存在,針對無法充分利用信息和冷啟動問題,提出了基于異構網絡的無監(jiān)督作者名稱消歧方法,自動學習同作者論文特征.用詞形還原預處理作者、機構、標題、關鍵詞的字符,用word2vec和TF-IDF(Term Frequency-Inverse Document Frequency)方法學習文本特征嵌入表示,用元路徑隨機游走和word2vec方法學習結構特征嵌入表示,融合文本、結構特征相似度后用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚類算法、合并孤立論文方法完成消歧.最終根據實驗結果,模型在冷啟動無監(jiān)督作者名稱消歧的小數據集和工程應用中優(yōu)于現(xiàn)有模型,表明了模型有效且可以實際應用.

關鍵詞:作者消歧;學術知識圖譜;異構網絡;元路徑隨機游走

中圖分類號:TP182文獻標志碼:ADOI:10.3969/j.issn.l000-5641.2021.06.015

Unsupervised author name disambiguation based on heterogeneous networks

GUO Chenliang1,LIN Xin1,YIN Yue2

(1. School of Computer Science and Technology,East China Normal University,Shanghai 200062,China;2. Shanghai Technology Development Co.,Ltd.,Shanghai 200031. China)

Abstract:Author name disambiguation is an important step in constructing an academic knowledge graph. The issue of ambiguous names is widely prevalent in academic literature due to the presence of missing data,ambiguous names,or abbreviations. This paper proposes an unsupervised author name disambiguation method,based on heterogenous networks,with the goal of addressing the problems associated with inadequate information utilization and cold-start;the proposed method automatically learns the features of papers with the ambiguous authors' name. As a starting point,the method preprocesses strings of authors,organizations,titles,and keywords by lemmatization. The algorithm then learns the embedded representation of text features by the word2vec and TF-IDF methods and learns the embedded representation of structural features using the meta-path random walk and word2vec methods. After merging features by similarity of structure and text,disambiguation is done by a DBSCAN clustering algorithm and merging isolated papers. Experimental results show that the proposed model significantly outperforms existing models in a small dataset and in engineering applications for cold-start unsupervised author name disambiguation. The data indicates that the model is effective and can be implemented in real-world applications.

Keywords:author disambiguation;academic knowledge graph;heterogeneous network;meta-path random walk

0引言

近年來,隨著網絡數據的不斷積累與發(fā)展,電子形式的學術論文數據也越來越多,學術資源的共享使研究人員越來越依賴公共學術資源.為了更好地進行學術知識圖譜的構建和使用學術知識圖譜對論文數據進行查詢,學術論文的作者名稱消歧任務具有重要的意義,關系到信息檢索的準確性.學術知識圖譜是由論文、作者、機構等信息構成的知識圖譜,作者消歧是構建學術知識圖譜的重要步驟. 近年來,已經有許多相關學者對作者消歧領域進行研究,但這個問題目前仍然沒有得到較好的解決.

由于長期以來論文相關信息的缺失、論文作者名字常用縮寫、現(xiàn)實生活中的重名現(xiàn)象,導致論文作者名字與作者本人難以對應,可能出現(xiàn)兩種問題:(1)同一個作者在不同的論文中用了不同的名字形式,有的是縮寫,有的是全稱;(2)由于重名或姓名縮寫可能有相同的名字形式,無法判斷作者是否為同一個人.已經有一些方法對監(jiān)督學習和無監(jiān)督學習的不同情況,使用相似度規(guī)則進行匹配、使用概率模型進行分類、使用網絡表示學習聚類等方法嘗試解決這個問題.大多數消歧方法的主要過程是,首先對具有相同名稱作者的一組論文學習它們的特征表示,然后根據不同文章的特征進行聚類來獲得哪些文章屬于同一作者的消歧結果.

目前對于冷啟動作者消歧問題,存在的主要挑戰(zhàn)是:(1)由于標記數據需要大量的成本,如何在監(jiān)督數據不足甚至無監(jiān)督的情況下獲得較好的作者消歧結果.(2)在獲取論文的特征表示時,有些論文存在相關信息的缺失現(xiàn)象,如何對這些缺失數據進行合理的處理.⑶如何綜合利用論文的作者、機構、年份、標題、摘要、內容、來源、關鍵詞等相關信息較好地學習文本特征表示.⑷如何學習論文、作者異構關系網絡中的結構信息并與文本特征較好地結合,從而使聚類效果更好.

本文根據作者名稱消歧任務的特點,提出了一種基于異構網絡特征學習的無監(jiān)督作者名稱消歧方法.我們首先對作者與機構名稱、標題與關鍵詞的字符形式進行詞形還原等標準化處理,然后用基于元路徑隨機游走[1-2]的異質網絡嵌入方法學習論文的結構特征,用word2vec詞向量、TF-IDF(Term Frequency-Inverse Document Frequency)[3]、詞向量隨機打亂方法加權學習論文的文本語義特征,融合論文的結構特征和文本特征相似度,在融合相似度時用最優(yōu)權重搜索方法,然后用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚類方法,制訂相似度規(guī)則合并孤立點得到消歧的結果.最后在AMiner數據集[4]、SCI論文數據構建的一個小數據集上進行測試,證明我們的方法可以獲得較好的消歧效果,并應用到項目中對1800萬篇SCI和600萬篇Elsevier論文數據進行消歧,取得了較好的效果.

本文的主要貢獻總結如下:

(1)提出了一種基于異構網絡特征學習的無監(jiān)督作者名稱消歧的方法,分別學習論文的結構特征、文本特征并融合,根據不同特征的相似度完成聚類.

(2)在以前方法基礎上進行改進,對作者與機構名稱、標題與關鍵詞的字符形式使用詞形還原等預處理方法,使用TF-IDF[3]、詞向量隨機打亂的方法表示論文文本特征,使用最優(yōu)權重搜索方法融合結構、文本特征的相似度.

(3)使用AMiner數據集[4]、SCI論文數據進行實驗測試并應用,統(tǒng)計了數據集中的數據分布與缺失,與其他現(xiàn)有方法進行對比證明了本文所提出方法的較好效果,對比刪除模型部分的效果證明了模型結構設計的有效性,對比了一些模型參數在不同取值情況下的實驗效果尋找最優(yōu)取值.

本文的剩余部分結構如下:第1章介紹作者消歧的相關研究;第2章介紹作者消歧問題的形式化定義;第3章介紹本文所提出的基于異構網絡的無監(jiān)督作者名稱消歧方法;第4章介紹實驗所用到的數據和分析實驗效果;第5章總結并展望未來的研究方向.

1相關工作

在這部分介紹作者消歧的相關研究.目前,作者消歧方法可以分為監(jiān)督學習、無監(jiān)督學習,監(jiān)督學習通常需要借助來自網絡的外部知識或已有的標記數據進行模型訓練,無監(jiān)督學習大多數依靠自然語言處理中的詞向量、網絡表示學習等方法學習特征.此外,還有一些方法主要研究如何合理確定聚類類別數量、如何更新消歧結果、如何使人類參與迭代更新模型和主動學習方法.

監(jiān)督學習的作者消歧方法需要一組已經標記的數據集,用于訓練模型學習消歧任務的聚類方法,標記數據可以通過人工標記也可以來自網絡中.文獻[5]中用數據訓練每個作者姓名的分類模型,用生成模型的樸素貝葉斯和判別模型的支持向量機兩種方法預測論文屬于哪個作者.文獻[6]中提出了急切的EAND、延遲的LAND和自適應的SLAND三種關聯(lián)作者名稱的消歧方法,用訓練數據中的論文特征結合概率策略和規(guī)則識別作者身份.文獻[7]中提出了兩階段的聚類方法,通過多次聚類更好地學習論文特征.文獻[8]中用維基百科的資源構造網絡,對特征信息用HAC層次聚類消歧.這類方法雖然效果較好,但需要大量獲取監(jiān)督數據成本高且無法擴展到更多的數據量,具有局限性.

無監(jiān)督學習的方法自動學習論文的特征表示,然后對來自同一作者名稱的論文進行聚類.文獻[9]用馬爾可夫隨機框架建立概率模型,用隱藏變量表示一組同名作者論文對應的真實作者,提出了一種動態(tài)估計聚類種類數的方法,可以在同名作者數據量差別較大時避免設置參數的誤差.文獻[10]中構建了作者單步與兩步合作、作者一論文、論文相似性關系網絡,通過建立概率模型制訂規(guī)則合并網絡結點聚類.GHOST方法[11]提出了構建圖結構、選擇有效路徑、計算相似度、聚類、用戶反饋的消歧方法,并獲得了較好的準確率,較好地分析了關系網絡的拓撲結構.文獻[12]和[13]用網絡表示學習方法消歧,文獻[12]首先結合合作關系等信息構建作者間社交網絡,然后通過網絡結構獲取作者間相似性對論文的同名作者進行聚類,文獻[13]在論文異構網絡中用隨機游走學習特征,但這些方法只考慮了論文間的結構信息而較少考慮文本.文獻[14]提出了一種概率模型構建作者-作者、作者-論文、論文-論文的多個網絡結構共同學習同名作者論文的特征,但這種方法為了保護隱私沒有充分利用論文的文本特征.文獻[15]用手動提取特征和學習文本向量結合的方式進行消歧,利用負樣本感知全局特征.Diting方法[16]根據標題、機構等信息建立多個異構網絡用正負樣本學習論文特征,用無監(jiān)督或結合網絡信息的半監(jiān)督完成聚類.在OAG比賽第一名方法中,分別學習了論文的關系和語義表征并進行融合聚類.文獻[17]和[18]中用對抗網絡學習進行消歧,文獻[17]用對抗網絡學習異構網絡的特征,文獻[18]用對抗網絡判斷兩篇論文是否屬于同一作者.

文獻[19]用GCN學習異構網絡特征,并提出了加入新論文增量更新消歧結果的方法.文獻[20]中用主動學習消歧的方法,對已完成的消歧結果制訂策略抽取一組數據向用戶進行詢問,通過交互方式學習更多有效信息改善結果.文獻[4]結合了結構特征和文本特征的表示學習,用監(jiān)督數據學習自動獲取聚類種類,并允許人工加入限制條件不斷優(yōu)化聚類結果,用兩篇論文是否屬于同一作者、某篇論文是否屬于某個作者進行標記.對文獻[4]有用的細節(jié)進行改進,得到了效果較好的無監(jiān)督作者名稱消歧結果.

一些詞義消歧[21]的方法與作者名稱消歧問題相似,都是為了識別不同位置多個名稱的出現(xiàn)是否對應現(xiàn)實生活中的同一個實體,但區(qū)別是詞義消歧有上下文語義信息而作者名稱只有相關的論文信息.對于學術知識圖譜,知識圖譜間的實體對齊任務[22]也是尋找圖譜中表示相同實體的不同結點,但區(qū)別是實體對齊用于兩個知識圖譜之間而作者名稱消歧用于一個知識圖譜內部.

2問題定義

作者消歧任務可以定義為已知一組論文數據T,每篇論文有對應的作者、機構、來源、發(fā)表時間、題目、摘要、關鍵詞信息,其中機構為作者所在的機構,來源為論文發(fā)表的期刊會議.由于每篇論文中有多個不同的作者,可以將具有同名作者的一組論文提取出來,對于某個作者名稱a,可以得到對應的一組論文,這組論文由多個名字為a的作者創(chuàng)作,需要對這n篇論文進行聚類,把它們分割成c個不相交的集合,,…,,滿足,i,j=1,2,…,c且i≠j,,每個集合對應一個現(xiàn)實生活中的作者,分別對應到c個作者.作者消歧模型需要確定同名作者數量。的取值和論文與真實作者的對應關系.

例如,表1是作者名稱為LIANG Hongbin的5篇論文的信息,對這組論文進行消歧的結果為3個不同的作者的論文集合,分別為{P,P},{P},{P,P}.觀察數據可以發(fā)現(xiàn)屬于同一作者的論文通常具有較多的相同合著者和相似的機構名稱,并具有相似的文本內容,如P與P中都包含了作者LI Xia,P與P、P與P都含有接近的機構名稱與關鍵詞.但屬于不同作者的論文有時會有同名的合著者或機構名稱有相似性,如P,P都包含作者PENG Daiyuan,P,P,P的機構名稱中都包含engineering.

本文主要針對無監(jiān)督的情況進行研究,在沒有額外已知數據的情況下,作者消歧任務主要依靠論文的文本信息、論文與作者間的關系計算完成.對于一篇論文的相關信息,由于作者名稱、機構名稱基本不包含語義信息,我們將這些內容看作論文的結構信息處理,將其他信息作為論文的語義信息處理.我們分別學習了論文的結構和文本的特征表示,根據論文與作者的關系構建論文、作者、機構的異構關系網絡學習論文的結構特征表示,通過論文自身的語義信息學習論文的文本特征表示,融合兩種特征的相似度完成聚類.

3模型結構

本章介紹用于解決無監(jiān)督情況下作者名稱消歧問題的一種模型,詳細介紹模型每部分的結構和特點,模型結構如圖1所示.圖1中左側為包含標題、作者、摘要、機構、出版機構、關鍵詞信息的同名作者論文集,首先,用詞形還原、分詞、去停詞的方法分別對作者名稱、機構名稱、標題、關鍵詞進行規(guī)范化和預處理,定義了兩個作者名稱字符串的比較規(guī)則,用于減少錯誤字符的干擾.然后,分別學習論文的結構特征向量、文本特征向量表示,用異構網絡上的元路徑隨機游走方法獲得論文的結構特征向量表示,用所有文本數據word2vec訓練詞向量、詞向量隨機打亂、統(tǒng)計詞頻計算TF-IDF同加權求和詞向量的方法,以此獲得論文的文本特征向量表示.最后,分別計算結構、文本特征的相似度并融合相似度,用DBSCAN方法對論文進行初步聚類,對信息缺失無法學習文本特征、關聯(lián)較弱無法學習結構特征聚類后是孤立點的論文與初步聚類的結果繼續(xù)計算相似度合并,得到最終消歧聚類的結果,完成論文作者名稱的消歧任務.

下面分別描述模型中5個步驟的具體實現(xiàn)方法,包括:作者名稱、機構名稱、標題與關鍵詞預處理,異構網絡上的結構特征學習,論文相關信息的文本特征學習,融合特征表示,聚類消歧.

3.1作者名稱、機構名稱、標題與關鍵詞預處理

由于從論文數據中提取到的作者名稱字符串格式不規(guī)范,需要預先對作者名稱進行處理,改為規(guī)范的格式.如果作者名稱為中文,首先將中文轉換成對應的拼音.對于每個作者名稱,需要將字母全部轉換成小寫,去除其中的特殊符號,將其中連續(xù)的多個空格替換為一個空格,最后得到作者名稱的標準形式.當比較兩個不同的作者名稱時,若“a,b,c,d,e”表示單詞,將名稱為“a b”和“b a”的兩個作者、名稱為“c d e”和“e c d”的兩個作者視為同名作者,例如“aldstadt joseph”和“joseph aldstadt”可以視為同一個名稱.通過上述的預處理過程,可以減少作者名稱中不同的特殊符號、空格、語序的影響,從而更準確地識別相同的作者名稱.

在異構關系網絡G(V,E)中用到了機構中的單詞,對機構分詞時需要首先將非字母字符替換為空格,大寫字母全部變成小寫字母,然后按空格分詞,對比892個單詞的停詞庫去除機構名稱中的停詞,去掉名稱中長度小于3的詞,對剩余單詞的形式進行詞形還原,保留詞形還原前后的所有單詞作為機構的分詞結果.在詞形還原時使用nltk先進行詞形標注,然后對其中的名詞、動詞、形容詞等按類別分別進行詞形還原.上述詞形還原的方法也被應用到標題、關鍵詞的預處理中.

例如,作者名稱為“Aldstadt,Joseph.”時,將其修正為“aldstadt joseph”,當遇到名稱為“Joseph,Aldstadt”的作者時,由于反轉單詞順序后相同可以匹配為同一個名稱,修正為“joseph aldstadt”,對于機構名稱“State Key Lab. of Struct. Chemistry”,經過上述處理后得到機構的分詞結果“key、lab、struct chemistry”;對于標題名稱“Determining message delivery delay of controller area networks”,詞形還原將“determining”改為“determine”,將“networks”改為“network”.

3.2異構網絡上的結構特征學習

為了在異構網絡上學習論文點的結構特征表示,用基于元路徑的隨機游走算法[1-2]進行特征表示的學習.首先定義論文的異構網絡,然后用基于元路徑的隨機游走方法首先在異構網絡中采集多條按元路徑規(guī)則隨機游走得到的路徑,這些路徑轉換為多個由論文點組成的序列,將每個論文點看作一個單詞,用這些序列作為訓練word2vec的方法的輸入,得到每個論文點對應的結構特征詞向量,重復這個過程多次,并把每次獲得的特征向量計算平均值,得到最終的論文結構特征表示.

根據論文的作者、機構,這些結構信息可以構建與作者a有關的論文、作者、機構間的異構關系網絡G(V,E).網絡中的點集合V=T∪A∪W,其中T={t,t,…,t}表示與作者a有關的所有論文,A表示與論文集合T相關的所有作者的集合,P表示與論文集合T相關的所有機構的集合,W表示P中機構名稱包含的所有單詞集合.因此,每篇論文、每個作者、每個機構中的單詞分別對應一個點.網絡中的邊的集合,其中論文與作者關系集合,表示論文與機構單詞關系集合,若作者a∈A創(chuàng)作了論文t∈T,將對應的兩個點連接邊;若論文t的機構是p∈P,且p的名稱包含單詞w∈W,將對應的兩個點連接邊.

例如,圖2是表1中5篇論文形成的異構網絡圖,其中圓形表示論文,三角形表示作者,正方形表示機構分詞,論文與作者、機構包含的詞連接,圖中只畫出了連接多個論文點的作者和機構詞.如P的機構名稱分詞中包含college、mechanical、engineering,所以與對應的3個機構詞連接;P,P都包含作者LI Xia,所以都與LI Xia連接.

具體來說,為了充分學習每個論文點的向量表示,在隨機游走采集元路徑時,以每個論文點作為起點采集b條“論文-作者-論文-機構單詞-論文”重復r次的隨機游走路徑,首先選擇某個論文點t∈T作為起點,隨機選擇一個與t連接到作者點a∈A的邊,再隨機選擇一個與a連接到論文點t∈T的邊且i≠k,若找不到滿足條件的邊(a,t)或(a,t),就跳過這一步驟的隨機游走過程,否則將已經走過的a,t點加入這條路徑中;然后隨機選擇一個與t連接到機構單詞點w∈W的邊,再隨機選擇一個與w連接到論文點tT的邊且k≠m,若找不到滿足條件的邊(w,t)或(w,t),就跳過這一步驟的隨機游走過程,否則將已經走過的w,t點加入這條路徑中.

重復上述過程r次就完成了對一條路徑的隨機游走采集,并且路徑中只保留其中論文點組成的序列,不保留路徑起點的論文點t.用這個方法采集論文t為起點的b條隨機游走路徑,最終將以每個論文點為起點的n組路徑作為word2vec的訓練輸入,并且設置最小詞頻為1,詞向量維數為d,訓練得到每個論文點的特征向量表示.若某個論文點沒有出現(xiàn)在隨機游走的路徑中,用word2vec方法無法得到這個點的特征向量表示,將這個點的特征向量設為零向量.

為了讓每個論文點有更大概率出現(xiàn)在隨機游走產生的序列中,從而得到論文點更準確的結構特征表示,用bagging的方法,重復s次采集隨機游走元路徑和word2vec訓練詞向量的過程,得到s組論文點的結構特征向量表示,計算平均值得到最終的每篇論文t結構特征向量表示.

如果考慮這個關于作者a的異構網絡中兩篇論文間的關系,可以發(fā)現(xiàn)包含路徑“論文-作者-論文”形成的CoAuthor關系和路徑“論文-機構-論文”形成的CoOrg關系.如果在集合T中的兩篇論文t,t(i,j=1,2,…,n且i≠j)間具有CoAuthor共同作者關系,連接點t,t的“論文-作者-論文”的路徑數量就對應了論文t,t間的共同作者數量;如果兩篇論文t,t間具有共同機構CoOrg關系,連接點的“論文-機構-論文”數量就對應了論文t,t間的機構名稱中共同單詞的數量,也就是機構的相似度.

根據隨機游走的方法,從論文t經過作者點游走到論文t的概率與兩篇論文間的共同作者數量成正比,若論文t與其他論文間的共同作者太少就有可能在這一步驟中查找路徑失敗而跳過.從論文t經過機構單詞點游走到論文t的概率與兩篇論文機構間的共同單詞數量成正比,與機構間相似度相關,若論文t與其他論文機構的相似度太低就有可能在這一步驟中查找路徑失敗而跳過.因此,隨機游走得到的路徑可以較好地將論文間關于作者、機構而產生的聯(lián)系強度轉換為隨機游走路徑中詞的相鄰概率,使word2vec方法較好地學習論文的結構特征表示.而將機構名稱拆分為詞并進行詞形還原的方法,可以將機構名稱中包含的少量語義信息轉換為結構信息進行學習,同時考慮到了同一機構文本相似的不同表達方式.

3.3論文相關信息的文本特征學習

為了在異構網絡上學習論文點的文本特征表示,首先用論文的標題、來源、摘要、年份、機構word2vec訓練詞向量,然后計算每個單詞的逆文檔頻率值IDF(Inverse Document Frequency)[3],最終用IDF值加權平均論文信息中所有詞向量得到論文的語義特征表示.

具體來說,對于一篇論文t∈T(i=1,2,…,n),將論文的標題、來源、摘要、年份、機構、關鍵詞的字符串按空格分隔拼接,去除其中的特殊符號、非數字字母的字符,將字母轉換為小寫,分詞后去除21種含義較少的停詞,將得到的一組詞隨機打亂順序,得到論文t相關的一個單詞可重復的長度為z個單詞的語句u={w,w,…,w},這個語句表示了論文的文本信息.將T中n篇論文的文本信息組成的一組語句U ={u,u,…,u}作為訓練詞向量word2vec的輸入,詞向量維數為d,得到每個文本單詞的向量表示.

逆文檔頻率IDF用來評估一個單詞在一組語料中的重要程度,包含一個詞的文檔數越多,這個詞的IDF值就越低;詞頻TF值表示某個詞在一個文檔中的出現(xiàn)頻率,一個詞在一個文檔中出現(xiàn)次數越多,這個詞就越重要;詞x在文檔y中的TF-IDF值[3]o是通過將詞的TF值q與IDF值u相乘來表示詞的重要程度.若共有N篇文檔,包含詞x的文檔數為N,在文檔y中共有M個詞,其中有M個詞為x,計算公式為

將每篇論文對應的一組文本看作一個文檔,統(tǒng)計詞頻計算每個單詞的IDF值,然后對每篇論文對應的一組單詞的向量表示按IDF值加權求和,若單詞w的IDF值為u,TF-IDF值為o,詞向量為u,論文t的文本特征計算為

若論文t的文本信息u包含的單詞集合為,單詞在u中重復c次,,論文的文本特征也可以表示為詞集合的詞向量按TF-IDF的加權平均為

用TF-IDF對論文文本詞向量加權求和可以對詞的重要性進行準確評估,從而得到更精確的論文文本特征向量表示.對沒有相關文本信息的論文,將它的文本特征向量設為零向量.

3.4融合特征表示

為了融合論文結構、文本兩種特征的向量表示,首先將結構、文本特征為零向量的論文加入孤立點集合G,對剩下的論文分別用兩種特征向量計算任意兩篇論文間的余弦相似度,得到論文間的結構相似度矩陣M和文本相似度矩陣M,令I為單位矩陣然后將兩個相似度矩陣加權求和M=(M+eM)/(I+eI)得到融合后的相似度矩陣,融合的權重比例e用最優(yōu)權重搜索的方法尋找.

在最優(yōu)權重搜索的方法中,為獲得最優(yōu)的e,通過在已知正確結果的消歧測試數據集上等間距嘗試0.5到5之間的多個權重e取值的實驗效果,并對每次取值進行多次實驗取均值得到結果,并在準確率較高的取值附近縮小間距繼續(xù)實驗,最終選擇所有實驗中準確率最高的e值作為模型的比例,部分實驗結果在第4章中.

3.5聚類消歧

使用DBSCAN算法采用融合得到的論文間相似度矩陣對不在集合G內的論文進行聚類,將聚類中的孤立點和集合G內的孤立點通過比較相似度加入已有聚類或生成新的聚類,最終完成對與作者a相關所有論文的聚類.

DBSCAN是一種基于密度的聚類方法,使用掃描半徑R和最小選取個數I作為參數,每次將掃描半徑內最小包含點數較大的點合并,可以將緊密相連的任意形狀的一些點聚類為一組,并且可以自動選擇聚類數量而不需要參數指定,可以在無監(jiān)督的情況下完成自動聚類.

為了計算孤立點與任意論文的相似度,定義論文t,t間相似度的計算方式為

f(t,t)=df(A,A)+df(P,P)+df(S,S)+df(L,L),

其中,d,d,d,d是可調整的超參數,A,A分別為兩篇論文的作者集合,P,P分別為兩篇論文的機構單詞集合,S,S分別為兩篇論文的來源單詞集合,L,L分別為兩篇論文的標題、關鍵詞的單詞集合,函數f(X,Y)表示集合X,Y的交集大小,函數f(X,Y)集合X,Y的交集大小除以并集大小.其中,對論文來源單詞的分詞進行與機構分詞同樣的詞形還原處理,保留詞形還原前后的所有單詞.

首先,設置閾值F,對于每篇論文t∈G,查找與t相似度最高的論文,即f(t,t)≤f,k=1,2,…,n.若論文,查找與論文相似度最高的論文且j?{j,j,…,j},重復直到.若相似度,將論文t合并到所在的聚類,否則將論文t留在G中,完成第一輪聚類合并.

然后,對于G中剩余的論文,若任意兩篇論文t,t∈G的相似度f(t,t)≥F,將它們合并為同一個聚類,使用并查集算法完成這個過程,完成第二輪聚類合并,得到最終的論文聚類結果.

4實驗結果

4.1數據集與實驗設置

在學習異構網絡結構特征時,設置元路徑重復次數r=25,設b為隨機游走路徑采集數量,d為詞向量維數,每篇論文作為起點采集b=10條路徑,使用隨機游走路徑訓練詞向量時使用d=100維詞向量,設置窗口大小為10,使用CBOW方法,最小詞頻為1,設置負采樣數為25;在學習論文的文本特征時,訓練詞向量時使用d=100維詞向量,設置窗口大小為5,最小詞頻為2,負采樣數為5,使用CBOW方法;在特征融合時,使用效果最好的權重e=3.0;在聚類消歧時,設置DBSCAN的參數R=0.2,I=1,設置參數d=3/2,d=1,d=1,d=1/3,閾值F=1.5.

使用AMiner[4]的數據集、SCI論文數據構建的一個小數據集上進行測試.AMiner的數據集中包含600個同名作者的203078篇論文,每篇論文包含標題、摘要、作者及其所在機構、年份、來源、關鍵詞,并將數據分成了500個作者名的訓練集和100個作者名的測試集,由于我們是無監(jiān)督訓練的方法,將所有數據直接用于測試,并使用包含100個作者名的測試集與其他方法進行對比.SCI論文數據構建的測試數據集包含10個同名作者的184篇論文,每篇論文包含標題、摘要、作者、機構、年份、來源、關鍵詞.為了將兩個數據集轉換為同一格式,將AMiner數據集中的待消歧作者的機構信息作為機構,將所有作者的機構信息加入文本信息用于學習文本特征.數據集的數量統(tǒng)計在表2中,包含了數據集的作者、論文數量以及信息缺失情況,沒有提及的來源、出版時間等信息沒有缺失,部分作者對應的論文數量在表3中.

從表2中可以發(fā)現(xiàn)論文的相關信息都存在部分缺失,主要是在機構、摘要、關鍵詞的缺失,并且關鍵詞缺失比較嚴重,摘要、機構的數據相對完整,在AMiner數據集中機構、摘要基本完整,關鍵詞有24%的論文數據缺失;在SCI數據集中機構、摘要、關鍵詞的缺失分別為5%、25%、43%,SCI數據缺失比例相對更高.從表3中可以發(fā)現(xiàn)每個作者的論文數量為5到20篇.

為了評價實驗結果,采用與AMiner方法[4]中相同的成對F值評價方式,對于一個作者名稱的消歧結果,比較任意兩篇論文對是否屬于同一作者的分類結果,屬于同一類且分類為同一類的論文對數量。v稱為真陽性,屬于同一類且分類為不同類的論文對數量v稱為假陰性,屬于不同類且分類為同一類的論文對數量v稱為假陽性,計算召回率值v、精確率值v、F值的公式為

對于多個作者名稱的平均F值,首先計算每個作者名稱數據的召回率v、精確率v的平均值,然后使用F值的公式計算平均的F值,這種計算方法可以給每個作者名稱均勻的權重并合理計算實驗的平均效果.

4.2實驗結果

在測試時,用有監(jiān)督的AMiner[4]和無監(jiān)督的概率模型[14]、GHOST[11]、OAG比賽第一名4種方法在AMiner數據集上進行對比測試,測試結果在表4中,使用我們的方法在SCI數據集上進行消歧,并人工標記少量數據進行評價.AMiner數據集上實驗對比的結果在表4中,SCI數據集上的測試結果在表5中.對比實驗效果可以發(fā)現(xiàn),我們的方法比其他4種對比的方法總體效果更好,并且AMiner方法[4]使用了500個作者名稱的訓練數據,而從表4的本文方法100個均值的F值可以看出,我們的方法在無監(jiān)督的情況下達到了更好的效果.

為了驗證模型每個部分的效果,我們刪除了一些模型中的部分進行對比,包括只用結構特征計算相似度、只用文本特征計算相似度、去除詞形還原等單詞預處理、去除TF-IDF加權、去除文本特征詞向量訓練的隨機打亂、去除關鍵詞或來源或摘要信息,結果在表6中.

對比實驗結果可以發(fā)現(xiàn),去除模型中任意部分準確率都會下降.只用結構特征的效果比只用文本特征的效果更好,但明顯比同時使用的效果更差,在作者消歧問題中結構信息比文本信息具有更加重要的作用,但需要兩者同時考慮才能獲得較好的效果.對文本特征訓練時進行詞向量打亂分詞順序很重要,對比表6 AMiner測試集上原始模型和去除詞向量隨機打亂的F值發(fā)現(xiàn)產生了4.77%的F值提升,可能是因為簡單拼接論文的標題、機構等文本信息由于文本較短不能很好地學習詞義,而打亂單詞順序可以在單詞之間、論文的不同信息之間產生更多關聯(lián).單獨去除來源、關鍵詞、摘要信息對實驗結果的影響都不明顯,所以論文某個單一信息的使用方式對聚類效果影響不大,OAG比賽第一名方法沒有在訓練詞向量時隨機打亂單詞順序但準確率高,可能是由于沒有使用關鍵詞用于聚類相似度、沒有使用摘要用于文本特征表示,雖然沒有更好地學到文本信息,但也減少了多余信息的干擾.因此實驗效果的提升是模型多個部分共同作用的綜合效果,與融合論文相關信息的方式有關. 只用文本特征的召回率v明顯大于精確率v,而其他大多數方法都是召回率v小于精確率v,因此利用文本信息更容易完全找出屬于同一作者的論文對,但更容易將不同作者的論文合并為同一作者而出錯.

為了探索模型參數的最佳取值,我們對融合特征使用的權值e、聚類孤立點集合的相似度閾值F、隨機游走路徑采集數量b、詞向量維數d、隨機游走路徑長度r不同取值的情況進行實驗測試,實驗結果在表7—9和圖3中.

為了尋找準確率最高的融合特征使用的權值e,對e取值范圍為[0.5,5]的情況進行測試,可以發(fā)現(xiàn)e的值過高或過低都會使準確率下降,當e取值為1.3和3.0附近時準確率較高,而當e=3.0時得到效果最好,因此文本特征和結構特征有相似的重要性,在融合結構特征和文本特征時,文本特征相似度數值的權重應該比結構相似度數值的權重更高.為了研究聚類孤立點集合的相似度閾值F對實驗結果的影響,測試了F取值為[0.5,2.5]的實驗效果,F(xiàn)取值過高或過低都會使聚類不準確而使F值降低,當F=1.5時獲得較好效果.為了研究元路徑隨機游走以每篇論文為起點的路徑采集數量b的值對結果的影響,測試了b取值為[5,25]的效果,若b取值過低則采樣數量太少而不足以學到圖中的特征,若b取值過高則學到了過多的噪聲信息而影響結構特征學習,當b=10時獲得較好效果.為了研究詞向量維數d的影響,對d=10,20,50,100,200的取值分別進行測試,可以看出詞向量維數過少不足以表示論文特征而使準確率嚴重下降,詞向量維數過多會導致參數過多使模型準確率逐漸下降.為了研究隨機游走路徑長度r的影響,對r=10,25,35,50,100的取值分別進行測試,可以看出路徑長度太短不能生成足夠長的路徑而難以表達結構信息使準確率嚴重下降,路徑長度太長會引入過多噪聲使準確率逐漸下降.

綜合上述分析可以得到以下結論:論文的結構特征相比文本特征更重要,但融合時文本特征相似度所占比例應該相對更高,訓練文本特征詞向量隨機打亂單詞順序很重要,作者與機構單詞預處理、關鍵詞、摘要等信息的使用方式會綜合影響模型準確率,模型中的閾值、詞向量維數和隨機游走的采樣數與路徑長度過高和過低都會導致準確率下降.

5總結

本文提出了一種基于異構網絡的無監(jiān)督作者名稱消歧方法,用于解決消歧時的冷啟動問題.首先對論文作者、機構、來源等信息進行分詞、詞形還原等預處理,分別使用論文相關信息學習論文的文本特征表示、使用異構關系網絡學習論文的結構特征表示,然后分別計算文本和結構相似度并進行融合聚類.在計算文本特征表示時用TF-IDF[3]、word2vec、詞向量隨機打亂的方法,在計算結構特征表示時用元路徑隨機游走[1-2]和word2vec的方法,加權融合特征表示后用DBSCAN聚類并合并孤立點,最終完成消歧任務.在AMiner數據集[4]和SCI數據中驗證了模型的有效性,分析了模型每部分的有效性和模型參數取值的合理性,獲得了較好的消歧結果.

[參考文獻]

[1]DONG Y,CHAWLA N V,SWAMI A. metapath2vec:Scalable representation learning for heterogeneous networks [C]// Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2017:135-144.

[2]PEROZZI B,ALRFOU R,SKIENA S. Deepwalk:Online learning of social representations [C]// Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2014:701-710.

[3]ROBERTSON S. Understanding inverse document frequency:On theoretical arguments for IDF [J]. Journal of Documentation,2004,60(5):503-520.

[4]ZHANG Y,ZHANG F,YAO P,et al. Name disambiguation in AMiner:Clustering,maintenance,and human in the loop [C]// Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2018:1002-1011.

[5]HAN H,GILES L,ZHA H,et al. Two supervised learning approaches for name disambiguation in author citations [C]// Proceedings of the 2004 Joint ACM/IEEE Conference on Digital Libraries. IEEE,2004:296-305.

[6]VELOSO A,F(xiàn)ERREIRA A A,GONCALVES M A,et al. Cost-effective on-demand associative author name disambiguation [J]. Information Processing and Management,2012. 48(4):680-697.

[7]YOSHIDA M,IKEDA M,ONO S,et al. Person name disambiguation by bootstrapping [C]// Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval. 2010:10-17.

[8]HAN X,ZHAO J. Named entity disambiguation by leveraging wikipedia semantic knowledge [C]// Proceedings of the 18th ACM Conference on Information and Knowledge Management. 2009:215-224.

[9]TANG J,ZHANG J,ZHANG D,et al. A unified framework for name disambiguation [C]// Proceedings of the 17th International Conference on World Wide Web. 2008:1205-1206.

[10]DENG C,DENG H,LI C. A scholar disambiguation method based on heterogeneous relation-fusion and attribute enhancement [J]. IEEE Access,2020,8:28375-28384.

[11]FAN X,WANG J,PU X,et al. On graph-based name disambiguation [J]. Journal of Data and Information Quality,2011,2(2):1-23.

[12]MALIN B. Unsupervised name disambiguation via social network similarity [C]// Proceedings of the Workshop on Link Analysis,Counterterrorism and Security. 2005:93-102.

[13]ZHANG W,YAN Z,ZHENG Y. Author name disambiguation using graph node embedding method [C]// Proceedings of the 2019 IEEE 23rd International Conference on Computer Supported Cooperative Work in Design (CSCWD). IEEE,2019:410-415.

[14]ZHANG B,HASAN M A. Name disambiguation in anonymized graphs using network embedding [C]// Proceedings of the 2017 ACM on Conference on Information and Knowledge Management. 2017:1239-1248.

[15]KIM K,ROHATGI S,GILES C L. Hybrid dee pairwise classification for author name disambiguation [C]// Proceedings of the 2019 ACM on Conference on Information and Knowledge Management. 2019:2369-2372.

[16]PENG L,SHEN S,XU J,et al. Diting:An author disambiguation method based on network representation learning [J]. IEEE Access,2019,7:135539-135555.

[17]PENG L,SHEN S,LI D,et al. Author disambiguation through adversarial network representation learning [C]// International Joint Conference on Neural Networks. 2019:paper N-19712.

[18]WANG H,WANG R,WEN C,et al. Author name disambiguation on heterogeneous information network with adversarial representation learning [C]// Proceedings of the AAAI Conference on Artificial Intelligence. 2020:238-245.

[19]QIAO Z,DU Y,F(xiàn)U Y,et al. Unsupervised author disambiguation using heterogeneous graph convolutional network embedding [C]// Proceedings of the 2019 IEEE International Conference on Big Data. IEEE,2019:910-919.

[20]WANG X,TANG J,CHENG H,et al. ADANA:Active name disambiguation [C]// 2011 11th IEEE International Conference on Data Mining. IEEE,2011:794-803.

[21]NG V. Machine learning for entity coreference resolution:A retrospective look at two decades of research [C]// Proceedings of the AAAI Conference on Artificial Intelligence. 2017:4877-4884.

[22]TANG X,ZHANG J,CHEN B,et al. BERT-INT:A BERT-based interaction model for knowledge graph alignment [C]// Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence. 2020:3174-3180.

(責任編輯:陳麗貞)

行唐县| 崇义县| 金昌市| 彩票| 濮阳县| 遵义县| 靖远县| 新民市| 吴堡县| 阳新县| 额济纳旗| 新河县| 宁国市| 水城县| 临城县| 金溪县| 石阡县| 祁阳县| 巴塘县| 元阳县| 富民县| 内乡县| 邳州市| 宿松县| 柳河县| 体育| 资阳市| 佳木斯市| 肃南| 福泉市| 云霄县| 泽州县| 康定县| 大埔区| 铁岭市| 康马县| 乌拉特中旗| 大城县| 金湖县| 瑞安市| 泉州市|