国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

應(yīng)用雙曲空間特征融合的姓名消歧方法研究

2024-04-09 01:41:38武南南郭澤浩趙一鳴甄紫旭王文俊柳研
智能系統(tǒng)學(xué)報(bào) 2024年1期
關(guān)鍵詞:歐氏雙曲論文

武南南,郭澤浩,趙一鳴,甄紫旭,王文俊,柳研

(1.天津大學(xué) 智能與計(jì)算學(xué)部, 天津 300354; 2.安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 安徽 合肥 230039)

隨著互聯(lián)網(wǎng)數(shù)據(jù)的爆炸式增長(zhǎng),數(shù)據(jù)庫(kù)的容量與信息大量增加。由于自然語(yǔ)言的多義性、復(fù)雜性和模糊性,出現(xiàn)了許多同名不同義的信息,這使得在數(shù)據(jù)庫(kù)中迅速地查找準(zhǔn)確信息成為了一項(xiàng)挑戰(zhàn)。比如在論文期刊搜索相關(guān)專業(yè)的研究人員最新研究工作時(shí),會(huì)出現(xiàn)屬于不同學(xué)者,卻有著相同學(xué)者姓名的文獻(xiàn),從而導(dǎo)致將不同學(xué)者所著文獻(xiàn)誤認(rèn)為同一個(gè)人所寫,降低了搜索文獻(xiàn)的效率,影響了用戶的使用體驗(yàn)。為了降低姓名歧義帶來(lái)的影響,國(guó)內(nèi)外學(xué)者對(duì)姓名消歧進(jìn)行了一系列研究。

姓名消歧是指消除跨文檔情況下的人名歧義性,把相同的人名按照現(xiàn)實(shí)世界的不同實(shí)體進(jìn)行分類,從而把信息有效地組織和聚類后提供給用戶[1]。

目前常見的姓名消歧方法有以下幾種:部分研究人員基于數(shù)據(jù)特征進(jìn)行姓名消歧[2-6],他們使用區(qū)分度較大的特征(如人物傳記、E-mail、職業(yè)等),對(duì)特征進(jìn)行提取,排除無(wú)關(guān)特征,最后選擇合適的算法(如聚類算法)得到消歧結(jié)果;而部分研究人員基于額外信息進(jìn)行姓名消歧[7-9],此類研究大多通過(guò)利用網(wǎng)絡(luò)上的公開資源(如維基百科、Freebase等)構(gòu)建新的規(guī)則和類別,豐富人物特征,結(jié)合社會(huì)屬性進(jìn)行分類達(dá)到消歧的目的;隨著網(wǎng)絡(luò)表示學(xué)習(xí)的興起[10-15],部分研究人員提出使用網(wǎng)絡(luò)表示方法來(lái)進(jìn)行重名消歧[16],此研究使用文獻(xiàn)數(shù)據(jù)集構(gòu)建網(wǎng)絡(luò),利用學(xué)習(xí)得到網(wǎng)絡(luò)表示的相似性進(jìn)行作者重名消歧。目前這些方法通常在歐氏空間中嵌入節(jié)點(diǎn),因?yàn)闅W氏空間具有直觀友好的特點(diǎn),使得模型十分簡(jiǎn)單并且運(yùn)行效率可觀[17-18]。

在現(xiàn)實(shí)世界中,更多的網(wǎng)絡(luò)會(huì)同時(shí)包括多種網(wǎng)絡(luò)結(jié)構(gòu)特征,如Lee等[19]表明大多數(shù)機(jī)器學(xué)習(xí)應(yīng)用中的數(shù)據(jù)表示分布可能位于平滑流形而非歐氏空間上;Gulcehre等[20]提出的 HAT則使用龐加萊球流形(Poincaré manifold)設(shè)計(jì)了雙曲圖注意力操作。實(shí)驗(yàn)證明,在低維情況下,雙曲模型相對(duì)于傳統(tǒng)歐氏空間模型可以更好地學(xué)習(xí)網(wǎng)絡(luò)表示,得到更優(yōu)的節(jié)點(diǎn)分類和鏈接預(yù)測(cè)效果。這表明使用單一網(wǎng)絡(luò)表示會(huì)造成網(wǎng)絡(luò)表示質(zhì)量的下降,從而影響網(wǎng)絡(luò)對(duì)齊性能。因此,本文以不同空間的網(wǎng)絡(luò)表示學(xué)習(xí)為切入點(diǎn),提出了融合多空間特征的網(wǎng)絡(luò)對(duì)齊模型(geometry interaction network alignment, GINA),基于多源網(wǎng)絡(luò)信息,對(duì)高度重合的2個(gè)網(wǎng)絡(luò)中的重名人員進(jìn)行身份識(shí)別,并在此基礎(chǔ)上細(xì)分為中文語(yǔ)境下的重名人員身份識(shí)別和英文語(yǔ)境下的中外論文身份識(shí)別2個(gè)實(shí)證場(chǎng)景,利用不同研究成果數(shù)據(jù)構(gòu)建科研人員多源合作網(wǎng)絡(luò),對(duì)重名科研人員身份進(jìn)行識(shí)別。

1 GINA模型

1.1 模型結(jié)構(gòu)

為了解決現(xiàn)有網(wǎng)絡(luò)對(duì)齊方法大多使用歐氏空間網(wǎng)絡(luò)表示學(xué)習(xí)來(lái)進(jìn)行網(wǎng)絡(luò)對(duì)齊,不能很好地捕捉現(xiàn)實(shí)世界網(wǎng)絡(luò)中常見的層次結(jié)構(gòu)信息,而僅使用雙曲空間又無(wú)法較好地區(qū)分統(tǒng)一層級(jí)的邊緣節(jié)點(diǎn)這一系列問題,本文通過(guò)不同空間的信息交互,提出了融合多空間特征的網(wǎng)絡(luò)對(duì)齊模型GINA。GINA的整體框架如圖1所示。

圖1 GINA模型整體框架Fig.1 Overall framework of GINA model

CINA模型主要由4個(gè)部分組成:1) 首先是多空間表示學(xué)習(xí),給定2個(gè)輸入網(wǎng)絡(luò)Gs和Gt,為了同時(shí)學(xué)習(xí)網(wǎng)絡(luò)空間中的規(guī)則結(jié)構(gòu)和層級(jí)結(jié)構(gòu)特征,本模型對(duì)原始網(wǎng)絡(luò)在不同幾何空間上進(jìn)行卷積來(lái)獲取網(wǎng)絡(luò)中節(jié)點(diǎn)的鄰居信息,得到每個(gè)節(jié)點(diǎn)的歐氏空間嵌入表示和雙曲空間嵌入表示。2) 由于Gs和Gt2個(gè)網(wǎng)絡(luò)的嵌入表示是在不同潛在空間分別學(xué)習(xí)的,空間分布會(huì)有差異,因此本模型實(shí)現(xiàn)了跨空間映射,將2個(gè)網(wǎng)絡(luò)的歐氏空間和雙曲空間的嵌入分別映射至相同幾何空間的潛在空間中。3) 基于映射之后的網(wǎng)絡(luò)嵌入,本模型對(duì)每個(gè)網(wǎng)絡(luò)的歐氏空間網(wǎng)絡(luò)嵌入和雙曲空間網(wǎng)絡(luò)嵌入進(jìn)行融合,以促進(jìn)2個(gè)幾何空間之間的信息交互,達(dá)到捕捉不同結(jié)構(gòu)特征的目的。4) 最后,為了完成網(wǎng)絡(luò)對(duì)齊任務(wù),本文使用一個(gè)多層感知機(jī)來(lái)預(yù)測(cè)任意一對(duì)來(lái)自Gs和Gt的節(jié)點(diǎn)對(duì)之間是否存在錨鏈接。

1.2 多空間表示學(xué)習(xí)

不同的幾何空間對(duì)不同數(shù)據(jù)的適配程度千差萬(wàn)別。如歐氏空間較為平直,十分適合表示均勻規(guī)律的數(shù)據(jù)結(jié)構(gòu);而雙曲空間隨著曲率的變化,空間密度也會(huì)發(fā)生變化,越靠近邊緣空間密度越高,適合表示樹狀結(jié)構(gòu)或具有一定層次關(guān)系的數(shù)據(jù)。而現(xiàn)實(shí)世界中的網(wǎng)絡(luò)數(shù)據(jù)往往同時(shí)包含多種結(jié)構(gòu)特征,因此本文同時(shí)學(xué)習(xí)網(wǎng)絡(luò)的歐氏空間嵌入表示和雙曲空間嵌入表示來(lái)獲取不同特征。通常基于網(wǎng)絡(luò)表示學(xué)習(xí)的網(wǎng)絡(luò)對(duì)齊方法為了使學(xué)到的網(wǎng)絡(luò)嵌入包含節(jié)點(diǎn)之間的關(guān)系和網(wǎng)絡(luò)的結(jié)構(gòu)信息,都會(huì)以重建網(wǎng)絡(luò)為目標(biāo)來(lái)學(xué)習(xí)網(wǎng)絡(luò)的嵌入表示。而雙曲空間中的網(wǎng)絡(luò)表示與傳統(tǒng)的歐氏空間方法不盡相同,因此接下來(lái)本文將分別詳細(xì)介紹歐氏空間和雙曲空間的網(wǎng)絡(luò)嵌入方法。

歐氏空間網(wǎng)絡(luò)嵌入每個(gè)網(wǎng)絡(luò)可以用鄰接矩陣A和節(jié)點(diǎn)特征矩陣X(如果節(jié)點(diǎn)沒有特征,可以是單位矩陣)表示,X中的每一行xi表示節(jié)點(diǎn)的特征。對(duì)鄰接矩陣A進(jìn)行歸一化:

式中:I為單位矩陣,D∈Rn×n為對(duì)角度矩陣。

為了得到歐氏空間中的網(wǎng)絡(luò)結(jié)構(gòu)表示,本文需要對(duì)輸入特征矩陣進(jìn)行圖卷積,它遵循以下前饋傳遞:

式中:為指定層的歐氏空間參數(shù)矩陣;σ(·)為一個(gè)非線性函數(shù),如:ReLU(·) = max(0, ·);Zl∈Rn×d為第l層的節(jié)點(diǎn)嵌入矩陣,輸入層Z0=X;d為每一個(gè)節(jié)點(diǎn)嵌入的維度。該前饋傳遞通過(guò)歸一化后的鄰接矩陣來(lái)使每個(gè)節(jié)點(diǎn)獲取其鄰居節(jié)點(diǎn)的信息,從而學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)。

雙曲空間網(wǎng)絡(luò)嵌入本模型想要得到網(wǎng)絡(luò)在雙曲空間中的嵌入表示,但因?yàn)闅W氏空間中使用的基本操作(如矩陣的加法、乘法和非線性變換)在雙曲空間中不能保持相同的性質(zhì),所以無(wú)法在雙曲空間中直接進(jìn)行圖卷積。如雙曲空間的M?bius加法不能保持交換律和結(jié)合律的性質(zhì)[21]。因此,一般的做法是將操作移至“切線空間”[22-23]。

由于初始節(jié)點(diǎn)特征屬于歐氏空間,本文首先將其映射到雙曲空間。使用o={1,0,···,0}∈Hd表示Hd中的原點(diǎn),滿足〈o,(0,xi)〉L=0,本文將其用作執(zhí)行切線空間操作的參考點(diǎn)。因此,(0,xi)可以被視為T0Hd中的一個(gè)點(diǎn),將其映射至雙曲空間Hd:

式中expo是一個(gè)指數(shù)映射函數(shù)。

因此,對(duì)于給定的網(wǎng)絡(luò),一個(gè)(l+ 1)層GCN在雙曲空間中生成節(jié)點(diǎn)嵌入矩陣的前饋傳遞為

式中:為第l層的雙曲空間參數(shù)矩陣,?為雙曲線性變換,AGG(·)為雙曲空間的鄰域聚合操作,σ?(·)為雙曲非線性激活函數(shù)。接下來(lái)本文將詳細(xì)介紹這幾個(gè)操作的定義與實(shí)現(xiàn)。

1)雙曲線性變換:歐氏空間的變換是通過(guò)矩陣向量乘法來(lái)實(shí)現(xiàn)的,因此本文利用對(duì)數(shù)和指數(shù)映射來(lái)實(shí)現(xiàn)雙曲流形的線性變換。即先用對(duì)數(shù)映射將雙曲空間中的點(diǎn)映射到切空間,然后在切空間上做線性變換,再用指數(shù)映射將切空間中的向量投影回雙曲流形:

2)雙曲鄰域聚合:在線性變換后,模型需要通過(guò)聚合來(lái)獲取鄰居的結(jié)構(gòu)和特征信息。如節(jié)點(diǎn)vi通過(guò)權(quán)值(wj)j∈N(i)聚合來(lái)自其鄰居的信息(vj)j∈N(i)。類似于雙曲線性變換,對(duì)于給定的網(wǎng)絡(luò)嵌入(xiH,xHj),本文通過(guò)將它們映射到原點(diǎn)的切線空間,使用連接和歐幾里德多層感知器(multilayer perceptron,MLP)計(jì)算它們之間的權(quán)重,具體計(jì)算方式為

3)雙曲非線性激活函數(shù):本文使用非線性激活來(lái)學(xué)習(xí)非線性變換,這在GCN中很重要,可以防止多層網(wǎng)絡(luò)崩潰為單層網(wǎng)絡(luò):

式中σ(·)為一個(gè)非線性激活函數(shù),如ReLU(·)。

損失函數(shù)對(duì)于通過(guò)式(2)和式(4)得到的輸出嵌入,本模型通過(guò)最大化正邊的概率和最小化負(fù)邊的概率來(lái)學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)。在對(duì)輸入網(wǎng)絡(luò)進(jìn)行負(fù)采樣后,損失函數(shù)可以定義為

式中:η(·)為計(jì)算邊(vi,vj)存在概率的歐氏空間sigmoid函數(shù);p(hi,hj) =1/(edL(hi,hj)2-τ+1)為計(jì)算雙曲空間中存在邊的概率的函數(shù);τ為超參數(shù);P(v)為噪聲分布,一般P(v) ~,其中dv為節(jié)點(diǎn)v的度。

通過(guò)不同幾何空間的圖卷積網(wǎng)絡(luò)表示學(xué)習(xí),可以分別得到網(wǎng)絡(luò)Gs和Gt在歐氏空間中的節(jié)點(diǎn)表示Zs、Zt和在雙曲空間中的節(jié)點(diǎn)表示Hs、Ht。

1.3 跨空間映射

由于節(jié)點(diǎn)的嵌入表示Zs和Zt、Hs和Ht在嵌入過(guò)程中被映射到不同的潛在空間,在語(yǔ)義和空間上下文方面可能會(huì)有很大的差異,網(wǎng)絡(luò)對(duì)齊模型的常見做法是利用已知錨鏈接集合M,通過(guò)約束錨鏈接之間的距離學(xué)習(xí)一個(gè)映射函數(shù)?(·),使用?(·)將其中一個(gè)網(wǎng)絡(luò)的嵌入表示映射至另一個(gè)網(wǎng)絡(luò)的空間分布中,如圖2所示。由于本模型分別學(xué)習(xí)了歐氏空間和雙曲空間的網(wǎng)絡(luò)嵌入表示,為了降低模型映射損失,本文對(duì)歐氏空間嵌入Zs和Zt使用歐氏空間映射,對(duì)雙曲空間嵌入Hs和Ht使用雙曲空間映射,將其分別映射至相同的潛在空間。

圖2 跨空間映射Fig.2 Cross-space mapping

對(duì)于Zs和Zt,本方法固定其中一個(gè)網(wǎng)絡(luò)嵌入Zt并且通過(guò)學(xué)習(xí)一個(gè)映射函數(shù)?E(·)將另一個(gè)網(wǎng)絡(luò)嵌入Zs映射至和Zt相同的空間,映射函數(shù)通過(guò)使用已知的錨鏈接∈M進(jìn)行約束得到:

式中:‖·‖F(xiàn)為2個(gè)網(wǎng)絡(luò)嵌入表示之間的歐氏空間距離矩陣,ΓE為?E(·)的參數(shù)。

同理,本文固定Ht并將Hs映射至Ht相同的空間。不同的是,對(duì)于雙曲空間網(wǎng)絡(luò)嵌入需要使用雙曲空間映射函數(shù)?H(·)。雙曲空間映射函數(shù)類似于式(4),并且同樣通過(guò)錨鏈接約束,利用雙曲空間的距離函數(shù)dL得到,具體公式為

整合2個(gè)空間的損失函數(shù)可以得到跨空間映射的整體損失函數(shù):

該步驟通過(guò)最小化錨鏈接之間的距離,使學(xué)習(xí)出的4個(gè)網(wǎng)絡(luò)表示盡可能地在各自空間擁有相同的分布和語(yǔ)義。

1.4 跨空間融合

在得到分布映射后的多空間嵌入表示Zs、Zt和Hs、Ht后,為了同時(shí)獲取到歐氏空間和雙曲空間嵌入網(wǎng)絡(luò)結(jié)構(gòu)表示的特點(diǎn),本模型對(duì)不同幾何空間的嵌入表示進(jìn)行融合。由于雙曲空間的嵌入表示并不能直接與歐氏空間的嵌入表示進(jìn)行交互,需要將不同空間的嵌入表示進(jìn)行幾何空間映射,而歐氏空間映射至雙曲空間會(huì)產(chǎn)生較大的信息損失,因此本文采用將雙曲空間嵌入表示利用對(duì)數(shù)映 射映射至切線空間的方式進(jìn)行空間融合。具體來(lái)說(shuō),本文分別融合了從歐氏空間和雙曲空間中學(xué)習(xí)到的Gs和Gt的信息:

本文在其中添加了一個(gè)超參數(shù),即融合空間系數(shù)λ來(lái)控制不同幾何空間的構(gòu)成重要程度。在特征融合之后,節(jié)點(diǎn)嵌入不僅通過(guò)交互學(xué)習(xí)整合不同空間的幾何特征,而且會(huì)保持原始空間的屬性和結(jié)構(gòu)信息。因此,本模型就可以得到包含規(guī)則結(jié)構(gòu)特征和層級(jí)結(jié)構(gòu)特征的2個(gè)網(wǎng)絡(luò)的最終網(wǎng)絡(luò)嵌入表示S和T。

1.5 錨鏈接預(yù)測(cè)

式中:Na()和Na()分別為和鄰居中的已知錨節(jié)點(diǎn),N()和N()分別為和的鄰居。因此,直觀來(lái)說(shuō)sim(·, ·)可以用來(lái)衡量和可能是相應(yīng)錨節(jié)點(diǎn)的概率,通過(guò)篩選節(jié)點(diǎn)間的sim即可對(duì)訓(xùn)練節(jié)點(diǎn)進(jìn)行補(bǔ)充。該規(guī)則遵循一個(gè)直觀的假設(shè),即如果不同網(wǎng)絡(luò)中的2個(gè)節(jié)點(diǎn)共享更多的公共節(jié)點(diǎn)作為它們的鄰居,那么它們很有可能成為潛在的錨節(jié)點(diǎn)。

在數(shù)據(jù)補(bǔ)償后,本文利用一個(gè)多層感知機(jī)來(lái)構(gòu)造判別器:

式中:[· || ·]為嵌入的串聯(lián),W和b為可訓(xùn)練參數(shù),為潛在錨鏈接集。在判別器中輸入節(jié)點(diǎn)對(duì)的嵌入信息,就可以得到二分類概率,即該節(jié)點(diǎn)對(duì)是否為錨鏈接。本文使用已知的錨鏈接集M和交叉熵作為損失函數(shù)來(lái)訓(xùn)練此判別器,訓(xùn)練完成后輸入待預(yù)測(cè)節(jié)點(diǎn)對(duì)的網(wǎng)絡(luò)嵌入就可以得到網(wǎng)絡(luò)對(duì)齊的最終預(yù)測(cè)結(jié)果。

2 實(shí)驗(yàn)與結(jié)果

2.1 數(shù)據(jù)集描述

2.1.1 項(xiàng)目論文數(shù)據(jù)集與學(xué)位論文數(shù)據(jù)集

論文數(shù)據(jù)由自然科學(xué)基金項(xiàng)目成果論文數(shù)據(jù)和高校學(xué)位論文數(shù)據(jù)組成。自然科學(xué)基金項(xiàng)目成果論文數(shù)據(jù)爬取于國(guó)家自然科學(xué)基金基礎(chǔ)研究知識(shí)庫(kù),由2000—2020年間包含2 052所高校及各類研究機(jī)構(gòu)的763 311篇中外論文數(shù)據(jù)構(gòu)成,其中包括中文論文335 140篇,英文論文428 171篇。

中文學(xué)位論文數(shù)據(jù)爬取自萬(wàn)方數(shù)據(jù)網(wǎng),時(shí)間跨度為1980—2020年,涉及全國(guó)2 740所高校共計(jì)2 258 597條記錄。

2.1.2 專利數(shù)據(jù)集

專利數(shù)據(jù)由高校中文專利數(shù)據(jù)和企業(yè)中文專利數(shù)據(jù)組成,數(shù)據(jù)均爬取自萬(wàn)方數(shù)據(jù)網(wǎng)。本文主要使用高校中文專利數(shù)據(jù),數(shù)據(jù)時(shí)間跨度為1985—2020年,涵蓋了全國(guó)2 740所高校共計(jì)4 206 687條記錄。

2.2 數(shù)據(jù)預(yù)處理

本文對(duì)上述3個(gè)數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗,對(duì)無(wú)效數(shù)據(jù)進(jìn)行處理,如爬取字段為空、數(shù)據(jù)間夾雜額外符號(hào)以及部分不完整數(shù)據(jù)等情況,并對(duì)分隔符與存儲(chǔ)方式等格式進(jìn)行統(tǒng)一。

而后本文對(duì)論文數(shù)據(jù)依照語(yǔ)言環(huán)境進(jìn)行劃分,由于實(shí)證場(chǎng)景需要,本文將自然科學(xué)基金項(xiàng)目論文數(shù)據(jù)中的中文論文與英文論文進(jìn)行篩選分離,同時(shí)將學(xué)位論文數(shù)據(jù)與自然科學(xué)基金項(xiàng)目中文論文數(shù)據(jù)合并。由此本文將上述數(shù)據(jù)重新分為3組:學(xué)位論文數(shù)據(jù)與自然科學(xué)基金項(xiàng)目中文論文數(shù)據(jù)、自然科學(xué)基金項(xiàng)目英文論文數(shù)據(jù)、高校中文專利數(shù)據(jù),并將3組數(shù)據(jù)各自整理為相同的格式以便于構(gòu)建網(wǎng)絡(luò)使用。

2.3 網(wǎng)絡(luò)構(gòu)建

基于2.2節(jié)處理的數(shù)據(jù)集,本文針對(duì)實(shí)證場(chǎng)景構(gòu)建了中文論文合作網(wǎng)絡(luò)、英文論文合作網(wǎng)絡(luò)和中文專利合作網(wǎng)絡(luò)等3個(gè)網(wǎng)絡(luò)。接下來(lái)本節(jié)將詳細(xì)介紹這3個(gè)網(wǎng)絡(luò)的構(gòu)建流程。

2.3.1 中文論文網(wǎng)絡(luò)與英文論文網(wǎng)絡(luò)構(gòu)建

本文基于第1組學(xué)位論文數(shù)據(jù)與自然科學(xué)基金項(xiàng)目中文論文數(shù)據(jù)構(gòu)建中文論文合作網(wǎng)絡(luò)Gzh。本文構(gòu)建網(wǎng)絡(luò)均為無(wú)向圖,構(gòu)建規(guī)則遵循:

1)在項(xiàng)目論文中,本文以論文作者為節(jié)點(diǎn),論文合作關(guān)系為邊,其中節(jié)點(diǎn)屬性為成果數(shù)量、所屬機(jī)構(gòu)、學(xué)科大類、專業(yè)等,邊屬性為合作關(guān)系以及合作次數(shù)。

2)在學(xué)位論文中,本文以論文作者及其導(dǎo)師為節(jié)點(diǎn),指導(dǎo)關(guān)系為邊,與項(xiàng)目論文共同構(gòu)建網(wǎng)絡(luò),網(wǎng)絡(luò)屬性與項(xiàng)目論文一致。

3)由于重名現(xiàn)象十分廣泛,本文構(gòu)建的所有網(wǎng)絡(luò)均以姓名、機(jī)構(gòu)以及學(xué)科共同確定一個(gè)人員實(shí)體。

通過(guò)上述規(guī)則,本文構(gòu)建出中文論文合作網(wǎng)絡(luò)Gzh,包含3 144 640個(gè)作者節(jié)點(diǎn)及4 660 835條合作邊。

本文基于第2組自然科學(xué)基金項(xiàng)目英文論文數(shù)據(jù)構(gòu)建英文論文合作網(wǎng)絡(luò)Gen,基本規(guī)則與中文項(xiàng)目論文類似,區(qū)別在于本文統(tǒng)一將英文姓名處理為全小寫名+姓的形式,便于人員實(shí)體定位。

通過(guò)類似規(guī)則,本文構(gòu)建出英文論文合作網(wǎng)絡(luò)Gen,包含1 300 145個(gè)作者節(jié)點(diǎn)及6 506 572條合作邊。

2.3.2 專利網(wǎng)絡(luò)構(gòu)建

本文基于第3組高校中文專利數(shù)據(jù)構(gòu)建中文專利合作網(wǎng)絡(luò)GP-zh,構(gòu)建規(guī)則與中文論文合作網(wǎng)絡(luò)類似,以發(fā)明人為節(jié)點(diǎn),發(fā)明合作關(guān)系為邊,其中節(jié)點(diǎn)屬性為發(fā)明數(shù)量、所屬機(jī)構(gòu)(專利權(quán)人)、專利分類等,邊屬性為合作關(guān)系及合作次數(shù)。

通過(guò)上述規(guī)則,本文構(gòu)建出中文專利合作網(wǎng)絡(luò)GP-zh,包含2 453 313個(gè)作者節(jié)點(diǎn)及13 248 894條合作邊。

2.3.3 基于網(wǎng)絡(luò)對(duì)齊構(gòu)建實(shí)驗(yàn)數(shù)據(jù)集

本文在中文論文合作網(wǎng)絡(luò)、英文論文合作網(wǎng)絡(luò)和中文專利合作網(wǎng)絡(luò)的基礎(chǔ)上,根據(jù)實(shí)證需求,構(gòu)建了2個(gè)網(wǎng)絡(luò)對(duì)齊數(shù)據(jù)集。表1總結(jié)了數(shù)據(jù)集的信息。

表1 網(wǎng)絡(luò)對(duì)齊數(shù)據(jù)集的描述Table 1 Description of network alignment datasets

構(gòu)建論文—專利網(wǎng)絡(luò)論文-專利網(wǎng)絡(luò)使用北京市區(qū)域的合作網(wǎng)絡(luò)。經(jīng)過(guò)區(qū)域劃分和篩選并利用人員實(shí)體構(gòu)建錨鏈接后,本文得到了由北京中文論文合作網(wǎng)絡(luò)和北京中文專利合作網(wǎng)絡(luò)構(gòu)成的網(wǎng)絡(luò)對(duì)齊數(shù)據(jù)集。該網(wǎng)絡(luò)對(duì)齊數(shù)據(jù)集中2個(gè)網(wǎng)絡(luò)分別包含45 976個(gè)節(jié)點(diǎn)、134 069條邊和76 120個(gè)節(jié)點(diǎn)、404 211條邊,同時(shí)該數(shù)據(jù)集包含18 965個(gè)錨鏈接,其中7 914個(gè)錨鏈接連接的節(jié)點(diǎn)為重名人員,部分網(wǎng)絡(luò)可視化如圖3所示,其中上半部分為中文論文合作網(wǎng)絡(luò),下半部分為中文專利合作網(wǎng)絡(luò)。

圖3 論文—專利實(shí)證網(wǎng)絡(luò)對(duì)齊Fig.3 Paper-patent network alignment

構(gòu)建中文—英文網(wǎng)絡(luò)中文-英文網(wǎng)絡(luò)使用北京市的中文論文合作網(wǎng)絡(luò)和英文論文合作網(wǎng)絡(luò)構(gòu)建網(wǎng)絡(luò)對(duì)齊數(shù)據(jù)集。通過(guò)劃分整理,得到的數(shù)據(jù)集中2個(gè)網(wǎng)絡(luò)分別包含45 976個(gè)節(jié)點(diǎn)、134 069條邊和94 874個(gè)節(jié)點(diǎn)、864 988條邊。在進(jìn)行構(gòu)建錨鏈接時(shí),本文先將中文姓名轉(zhuǎn)換為與英文論文中姓名格式相同的拼音。在轉(zhuǎn)換過(guò)程中本文發(fā)現(xiàn),有2 193個(gè)節(jié)點(diǎn)出現(xiàn)了拼音重名的現(xiàn)象,常見于“張偉”和“張薇”等姓名,因此本文在節(jié)點(diǎn)屬性中標(biāo)注出該節(jié)點(diǎn)原有中文名以用于區(qū)分。

在轉(zhuǎn)換后,該數(shù)據(jù)集包含17 222個(gè)錨鏈接,其中10 204個(gè)錨鏈接連接的節(jié)點(diǎn)為重名人員,部分網(wǎng)絡(luò)可視化如圖4所示,其中上半部分為中文論文合作網(wǎng)絡(luò),下半部分為英文論文合作網(wǎng)絡(luò)。

圖4 中文—英文實(shí)證網(wǎng)絡(luò)對(duì)齊Fig.4 Chinese-English network alignment

2.4 實(shí)證方案

針對(duì)真實(shí)世界人員身份識(shí)別這一場(chǎng)景,本文提出了2種實(shí)證方案:1)基于中文論文合作網(wǎng)絡(luò)和中文專利合作網(wǎng)絡(luò)的網(wǎng)絡(luò)對(duì)齊來(lái)探究中文語(yǔ)境下不同網(wǎng)絡(luò)中的身份識(shí)別問題;2)基于中文論文合作網(wǎng)絡(luò)和英文論文合作網(wǎng)絡(luò)的網(wǎng)絡(luò)對(duì)齊來(lái)探究英文語(yǔ)境下同屬性網(wǎng)絡(luò)中的中英文身份識(shí)別問題。接下來(lái)本文將分別介紹這2種實(shí)證方案。

2.4.1 重名人員身份識(shí)別

針對(duì)重名人員身份識(shí)別這一實(shí)證場(chǎng)景,本文利用中文論文合作網(wǎng)絡(luò)和中文專利合作網(wǎng)絡(luò)構(gòu)建了一組網(wǎng)絡(luò)對(duì)齊數(shù)據(jù)集,并在該數(shù)據(jù)集上使用本文提出的方法進(jìn)行實(shí)驗(yàn),探究網(wǎng)絡(luò)對(duì)齊在中文重名人員身份識(shí)別中的效果。

本場(chǎng)景實(shí)驗(yàn)主要流程如下:首先將輸入數(shù)據(jù)整理為鄰接矩陣的形式,將數(shù)據(jù)輸入模型訓(xùn)練,利用訓(xùn)練結(jié)果進(jìn)行網(wǎng)絡(luò)對(duì)齊。為了避免屬性對(duì)重名人員網(wǎng)絡(luò)對(duì)齊的影響,本實(shí)驗(yàn)在訓(xùn)練時(shí)將不使用屬性信息。本文將錨鏈接通過(guò)是否重名進(jìn)行劃分,無(wú)重名人員作為訓(xùn)練集,重名人員作為測(cè)試集使用。為了驗(yàn)證重名人員身份識(shí)別效果,在錨鏈接預(yù)測(cè)時(shí)本文對(duì)同一姓名的多個(gè)節(jié)點(diǎn)進(jìn)行采樣,即采樣錨節(jié)點(diǎn)為正樣本、除錨節(jié)點(diǎn)外其他同名節(jié)點(diǎn)為負(fù)樣本。

2.4.2 中外論文身份識(shí)別

針對(duì)中外論文身份識(shí)別這一實(shí)證場(chǎng)景,本文利用中文論文合作網(wǎng)絡(luò)和英文論文合作網(wǎng)絡(luò)構(gòu)建了一組網(wǎng)絡(luò)對(duì)齊數(shù)據(jù)集,并在該數(shù)據(jù)集上使用本文提出的方法進(jìn)行實(shí)驗(yàn),探究網(wǎng)絡(luò)對(duì)齊對(duì)中英文重名人員身份識(shí)別的效果。

本節(jié)實(shí)驗(yàn)流程與2.4.1幾乎完全相同,對(duì)錨鏈接依照是否重名進(jìn)行劃分采樣,同時(shí)使用不同λ進(jìn)行對(duì)比實(shí)驗(yàn)。唯一的區(qū)別是在錨鏈接預(yù)測(cè)時(shí),本節(jié)使用的是拼音相同的節(jié)點(diǎn)采樣。

2.5 實(shí)驗(yàn)結(jié)果分析

2.5.1 重名人員身份識(shí)別實(shí)驗(yàn)結(jié)果分析

經(jīng)過(guò)實(shí)驗(yàn),本文得到了2種參數(shù)下GINA在整體數(shù)據(jù)和部分常見重名姓名上的實(shí)驗(yàn)指標(biāo),如圖5所示。可以看到,本文模型在僅使用歐氏空間網(wǎng)絡(luò)表示(λ= 0)進(jìn)行網(wǎng)絡(luò)對(duì)齊時(shí)效果較差,而融合多空間特征(λ= 0.5)的情況下不僅在整體數(shù)據(jù)上準(zhǔn)確率提高了27.2%,在常見姓名上也有不錯(cuò)的表現(xiàn)。并且融合多空間特征網(wǎng)絡(luò)對(duì)齊可以精準(zhǔn)地對(duì)在層次結(jié)構(gòu)中處于不同層次的人員實(shí)體進(jìn)行區(qū)分,如本實(shí)驗(yàn)將同名的來(lái)自北京航空航天大學(xué)的王同學(xué),來(lái)自北京交通大學(xué)的王老師和來(lái)自清華大學(xué)的王教授,在另一個(gè)網(wǎng)絡(luò)中的數(shù)十個(gè)同名人員中精確地匹配到了對(duì)應(yīng)實(shí)體。

圖5 論文—專利實(shí)證網(wǎng)絡(luò)對(duì)齊結(jié)果Fig.5 Result of paper-patent network alignment

同時(shí)本文對(duì)重名較多的姓名“張某”進(jìn)行了可視化分析,給出了熱度圖對(duì)比實(shí)驗(yàn)結(jié)果,如圖6所示。圖6中橫坐標(biāo)為中文論文合作網(wǎng)絡(luò)中該姓名的不同人員實(shí)體,縱坐標(biāo)為中文專利合作網(wǎng)絡(luò)中該姓名的不同人員實(shí)體,熱度圖中的小方塊顏色代表該橫縱坐標(biāo)對(duì)應(yīng)2個(gè)人員實(shí)體的預(yù)測(cè)值,顏色越深代表該2個(gè)人員為同一實(shí)體的概率更高。由于熱度圖橫縱坐標(biāo)的人員排列順序是一致的,因此在熱度圖上對(duì)角線的方塊顏色越深則證明網(wǎng)絡(luò)對(duì)齊的效果越好。其中圖6(a)為融合多空間特征網(wǎng)絡(luò)對(duì)齊(λ= 0.5),圖6(b)僅使用歐氏空間網(wǎng)絡(luò)對(duì)齊(λ= 0),可以明顯看到λ= 0時(shí)對(duì)角線顏色雖然略深,但與其他節(jié)點(diǎn)區(qū)分度較小,混淆節(jié)點(diǎn)偏多;而λ= 0.5時(shí)對(duì)角線十分清晰,顏色區(qū)分度較高,且混淆節(jié)點(diǎn)較少,證明了融合多空間特征網(wǎng)絡(luò)對(duì)齊對(duì)處于不同層級(jí)的人員實(shí)體具有較好的區(qū)分能力。

在進(jìn)行細(xì)化探究時(shí)本文還發(fā)現(xiàn),數(shù)據(jù)中有部分定義為不同實(shí)體的用戶,在網(wǎng)絡(luò)對(duì)齊結(jié)果中擁有較高的錨鏈接預(yù)測(cè)概率。研究發(fā)現(xiàn)該現(xiàn)象可能為如下2種原因造成:

1)該實(shí)體同時(shí)掛名于不同機(jī)構(gòu),如北京郵電大學(xué)的劉某,與同名的來(lái)自某電力公司技術(shù)研究院的劉某在實(shí)驗(yàn)中的錨鏈接預(yù)測(cè)概率為83.2%,經(jīng)調(diào)查發(fā)現(xiàn)其二人為同一人員實(shí)體,在學(xué)術(shù)研究過(guò)程中由于身兼數(shù)職或?qū)W術(shù)合作而掛名至其他機(jī)構(gòu)。

2)該實(shí)體由于畢業(yè)晉升等原因轉(zhuǎn)換身份,如首都醫(yī)科大學(xué)的張某和首都醫(yī)科大學(xué)附屬北京世紀(jì)壇醫(yī)院的張某在實(shí)驗(yàn)中的錨鏈接預(yù)測(cè)概率為72.5%,調(diào)查發(fā)現(xiàn)其二人也為同一人員實(shí)體。此種現(xiàn)象在醫(yī)學(xué)領(lǐng)域尤其顯著,因?yàn)樵谄渌I(lǐng)域工作的畢業(yè)生大部分不會(huì)再以研究人員的身份出現(xiàn)。

根據(jù)上述規(guī)律,本文對(duì)其余預(yù)測(cè)為錨鏈接的負(fù)樣本進(jìn)行了簡(jiǎn)單篩查,共找到121名具有上述2種情況的研究人員。因此本文認(rèn)為,網(wǎng)絡(luò)對(duì)齊在身份識(shí)別領(lǐng)域有著十分重要的作用,可以很大程度上消除數(shù)據(jù)歧義;同時(shí)網(wǎng)絡(luò)對(duì)齊還可以幫助識(shí)別隨時(shí)間變化的身份,從而追蹤科研人員的職業(yè)發(fā)展路徑。

2.5.2 中外論文身份識(shí)別實(shí)驗(yàn)結(jié)果分析

經(jīng)過(guò)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖7所示,圖7中展示了2種λ參數(shù)下GINA在整體數(shù)據(jù)和部分常見重名姓名上的對(duì)齊準(zhǔn)確率等指標(biāo)。由圖7可知,融合多空間特征(λ= 0.5)的GINA模型在整體數(shù)據(jù)上比單一空間準(zhǔn)確率提高了24.9%??梢钥吹?,雖然為了對(duì)齊英文數(shù)據(jù)集需要將漢字轉(zhuǎn)換為拼音,增加了重名人員數(shù)量,提高了對(duì)齊難度,如同樣來(lái)自北京科技大學(xué)的王某和汪某均出現(xiàn)在2個(gè)網(wǎng)絡(luò)中,但本文方法依然可以在融合多空間特征時(shí)準(zhǔn)確地對(duì)其進(jìn)行識(shí)別。

同時(shí)本文對(duì)中文-英文實(shí)證網(wǎng)絡(luò)中重名較多的“Wang某”使用熱力圖進(jìn)行了可視化分析,其中圖8(a)為融合多空間特征網(wǎng)絡(luò)對(duì)齊(λ=0.5),圖8(b)僅使用歐氏空間網(wǎng)絡(luò)對(duì)齊(λ= 0)??梢钥吹浇Y(jié)果與上一節(jié)類似,λ= 0時(shí)節(jié)點(diǎn)間區(qū)分度較低,對(duì)應(yīng)節(jié)點(diǎn)預(yù)測(cè)準(zhǔn)確率較差;λ= 0.5時(shí)對(duì)應(yīng)節(jié)點(diǎn)預(yù)測(cè)值與非對(duì)應(yīng)節(jié)點(diǎn)區(qū)分明顯,對(duì)應(yīng)節(jié)點(diǎn)預(yù)測(cè)準(zhǔn)確率提升明顯。

圖8 中文—英文實(shí)證網(wǎng)絡(luò)對(duì)齊熱力圖Fig.8 Heatmap of Chinese-English network alignment

3 結(jié)束語(yǔ)

本文基于網(wǎng)絡(luò)表示學(xué)習(xí)的相關(guān)研究,提出了融合雙曲空間和歐氏空間特征的網(wǎng)絡(luò)對(duì)齊模型GINA。提出重名人員身份識(shí)別和中外論文身份識(shí)別2個(gè)實(shí)證場(chǎng)景,并在構(gòu)建的中文論文合作網(wǎng)絡(luò)、中文專利合作網(wǎng)絡(luò)和英文論文合作網(wǎng)絡(luò)的基礎(chǔ)上,兩兩對(duì)齊分別構(gòu)建了中文語(yǔ)境和英文語(yǔ)境的網(wǎng)絡(luò)對(duì)齊數(shù)據(jù)集,使用GINA模型在2個(gè)場(chǎng)景上進(jìn)行實(shí)驗(yàn)驗(yàn)證。通過(guò)對(duì)數(shù)據(jù)的分析和對(duì)實(shí)驗(yàn)結(jié)果的探究,證明了網(wǎng)絡(luò)對(duì)齊可以幫助姓名消歧和身份識(shí)別,也證明了實(shí)證場(chǎng)景的有效性以及本文模型的適用性。

猜你喜歡
歐氏雙曲論文
中國(guó)科學(xué)技術(shù)館之“雙曲隧道”
軍事文摘(2021年22期)2022-01-18 06:22:48
雙曲型交換四元數(shù)的極表示
一階雙曲型偏微分方程的模糊邊界控制
基于雙曲和代數(shù)多項(xiàng)式的HC-Bézier曲線
下期論文摘要預(yù)登
下期論文摘要預(yù)登
下期論文摘要預(yù)登
2013年5—12月最佳論文
新聞前哨(2014年1期)2014-03-12 22:10:06
基于多維歐氏空間相似度的激光點(diǎn)云分割方法
麗江“思奔記”(上)
探索地理(2013年5期)2014-01-09 06:40:44
姜堰市| 武宣县| 宁蒗| 沭阳县| 靖安县| 故城县| 湟中县| 乌鲁木齐市| 井陉县| 石屏县| 黑河市| 米脂县| 临邑县| 南投县| 塔河县| 成都市| 金昌市| 化德县| 榆树市| 威海市| 博客| 浏阳市| 禹城市| 汝阳县| 龙海市| 托克逊县| 阿勒泰市| 曲麻莱县| 北川| 昌宁县| 凌云县| 安达市| 凉山| 南岸区| 青冈县| 泸西县| 平湖市| 保定市| 南平市| 许昌县| 赫章县|