国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于元路徑異構(gòu)網(wǎng)絡(luò)嵌入的姓名實(shí)體消歧方法

2020-07-14 04:57王建霞張玉璇許云峰
關(guān)鍵詞:自然語(yǔ)言處理

王建霞 張玉璇 許云峰

摘 要:為了解決大型學(xué)術(shù)數(shù)據(jù)庫(kù)中重名作者的歧義消解問(wèn)題,提出了基于元路徑異構(gòu)網(wǎng)絡(luò)嵌入的姓名實(shí)體消歧模型。使用大型在線學(xué)術(shù)搜索系統(tǒng)DBLP上的公開(kāi)數(shù)據(jù)集,首先抽取學(xué)術(shù)出版物的作者信息、標(biāo)題和會(huì)議期刊名稱等特征屬性,再利用word2vec模型工具生成的特征屬性詞嵌入輸入到GRU網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,構(gòu)造出一個(gè)PHNet矩陣網(wǎng)絡(luò)進(jìn)行隨機(jī)游走操作,從而捕捉不同類型節(jié)點(diǎn)之間的關(guān)系,最后進(jìn)行相似節(jié)點(diǎn)的劃分,完成姓名消歧工作。實(shí)驗(yàn)結(jié)果顯示,新方法的精確度為0.865,召回率為0.792,F(xiàn)1值為0.815?;谠窂降漠悩?gòu)網(wǎng)絡(luò)嵌入模型的精確度、召回率等指標(biāo)都優(yōu)于對(duì)比模型。因此,所提出的模型在提高大型學(xué)術(shù)數(shù)據(jù)庫(kù)的消歧精準(zhǔn)度方面具有良好的應(yīng)用前景。

關(guān)鍵詞:自然語(yǔ)言處理;計(jì)算機(jī)神經(jīng)網(wǎng)絡(luò);實(shí)體消歧;網(wǎng)絡(luò)嵌入;異構(gòu)網(wǎng)絡(luò)

中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A

doi:10.7535/hbkd.2020yx03005

Disambiguation method of name entities embedded in meta-path

heterogeneous networks

WANG Jianxia, ZHANG Yuxuan, XU Yunfeng

(School of Information Science and Engineering, Hebei University of Science and Technology, Shijiazhuang, Hebei 050018, China)

Abstract:

In order to solve the problem of disambiguation of duplicate authors in large academic databases, a name entity disambiguation model based on meta-path heterogeneous network was proposed. Based on the public data of the large online academic search system DBLP, the author information, title, name of conference journal and other characteristic attributes of academic publications were extracted first. Then the characteristic attribute words generated by the word2vec model tool were embedded into the GRU network for training, so that a PHNet matrix network for random walk operation was constructed to capture the relationship between different types of nodes and finally similar nodes were divided to complete the name disambiguation. The experimental results show that the accuracy of the method is 0.865, the recall rate is 0.792, and the F1 value is 0.815.The meta-path-based heterogeneous network embedding model is superior to the comparison model in terms of accuracy and recall rate. Therefore, the proposed model has a good application prospect in improving the accuracy of disambiguation of large academic databases.

Keywords:natural language processing; computer neural network; entity disambiguation; network embedding heterogeneous network

現(xiàn)今,人們檢索學(xué)術(shù)論文主要依賴學(xué)術(shù)搜索引擎,如Google Scholar、百度學(xué)術(shù)、DBLP(DataBase systems and logic programming)等。這些大型學(xué)術(shù)數(shù)據(jù)庫(kù)共同面臨的一個(gè)具有挑戰(zhàn)性的問(wèn)題是作者姓名的歧義消解,即通過(guò)作者的姓名來(lái)準(zhǔn)確識(shí)別現(xiàn)實(shí)世界中的人。這一問(wèn)題的解決對(duì)于DBLP這樣的大型數(shù)據(jù)庫(kù)圖書館尤為重要。DBLP是Schloss Dagstuhl-Leibniz信息學(xué)中心和特里爾大學(xué)的聯(lián)合服務(wù)機(jī)構(gòu)。Schloss Dagstuhl是一家“gemeinnutzige GmbH”,是被德國(guó)法律所允許的一個(gè)非盈利慈善組織,是為了增進(jìn)世界計(jì)算機(jī)科學(xué)界的學(xué)術(shù)信息交融而成立的。Schloss Dagstuhl主要進(jìn)行數(shù)字方法和論文書目元數(shù)據(jù)處理等研究。DBLP在處理計(jì)算機(jī)科學(xué)數(shù)據(jù)的同時(shí),還提供計(jì)算機(jī)學(xué)術(shù)論文所涉及到的論文作者的相關(guān)屬性。除了公共領(lǐng)域所提供的論文數(shù)據(jù)外,DBLP不會(huì)向任意第三方公開(kāi)論文的私密數(shù)據(jù),并且DBLP用戶的行為也不會(huì)被系統(tǒng)跟蹤,與此同時(shí),DBLP不會(huì)使用用戶的任何數(shù)據(jù)進(jìn)行廣告宣傳??傊?,DBLP就是一個(gè)僅僅提供計(jì)算機(jī)學(xué)術(shù)界科學(xué)會(huì)議和期刊論文出版記錄的大型學(xué)術(shù)數(shù)據(jù)庫(kù)。

本文針對(duì)DBLP數(shù)據(jù)庫(kù)的重名作者消歧問(wèn)題進(jìn)行以下研究。

2.1 論文信息預(yù)處理

本文使用的DBLP數(shù)據(jù)信息包括論文的標(biāo)題、作者、出版物名稱、年份和id編號(hào)等信息。由于數(shù)據(jù)信息中存在噪音數(shù)據(jù),所以首先需要進(jìn)行預(yù)處理。預(yù)處理過(guò)程依次對(duì)論文信息進(jìn)行去噪處理,包括去掉特殊字符串,去掉標(biāo)點(diǎn)符號(hào)及特殊符號(hào),去掉多余空格和換行符,去掉停用詞等,然后提取需要的信息歸納到一起。

以歧義人名Bo Liu(見(jiàn)圖1)為例,該人名下的出版物論文為124篇,根據(jù)論文標(biāo)題的內(nèi)容可知,Bo Liu名下有研究神經(jīng)網(wǎng)絡(luò)的論文,也有研究基于圖挖掘算法等研究方向的論文,再依據(jù)organization可粗略看出,有從屬于清華大學(xué)、北京科技大學(xué)和暨南大學(xué)等的Bo Liu,甚至很多Bo Liu并未顯示其所屬研究機(jī)構(gòu)。這樣有歧義的人名,本試驗(yàn)一共使用了109個(gè),其中出版物數(shù)量最多的是Wen Gao數(shù)據(jù)集,其包含484條出版記錄。

在預(yù)處理工作中,將109個(gè)XML格式的生數(shù)據(jù)集處理為5個(gè)TXT文件,分別為paper_author.txt,paper_author1.txt,paper_conf.txt,paper_title.txt和paper_word.txt。圖2為paper_title.txt部分文本內(nèi)容,其中包含內(nèi)容為出版物論文id以及論文標(biāo)題,其中論文標(biāo)題經(jīng)過(guò)處理,將其統(tǒng)一使用小寫字母表示,并且去掉了標(biāo)題中的多種符號(hào)。對(duì)于論文標(biāo)題的處理有助于后續(xù)生成paper_word.txt文檔,該文檔保留的內(nèi)容如圖3所示,即是論文id以及去掉預(yù)設(shè)的諸多停止詞(例如,at,based,in等)。每一詞都另起一行,與論文id成行。另外3個(gè)文檔內(nèi)容不再贅述,都是與出版物論文id的結(jié)合。

2.2 訓(xùn)練基于GRU的編碼器學(xué)習(xí)深層語(yǔ)義表示

該部分進(jìn)行的是基于GRU的深度表示學(xué)習(xí),應(yīng)用gensim庫(kù)中的word2vec模型生成出版物標(biāo)題的詞嵌入,訓(xùn)練單詞向量時(shí)維數(shù)=100。嵌入向量的維數(shù)定義batch大小為128,嵌入大小為64,學(xué)習(xí)率為0.001。

GRU即Gated Recurrent Unit,是LSTM網(wǎng)絡(luò)的一種的變體。試驗(yàn)發(fā)現(xiàn)使用GRU可以使訓(xùn)練成果得到提升。

更新門和重置門是GRU模型中僅有的2個(gè)門,具體結(jié)構(gòu)如圖4所示。

圖4中的更新門用zt表示,重置門用rt表示。其中用于控制之前時(shí)刻的狀態(tài)信息被帶入到當(dāng)前狀態(tài)中的程度是更新門的任務(wù),這個(gè)值越大,代表前一時(shí)刻帶入的狀態(tài)信息越多。重置門的作用是調(diào)控之前狀態(tài)有多少信息被寫入到當(dāng)前的候選集t,重置門的值越小,代表之前狀態(tài)寫入的信息越少。

根據(jù)圖4的GRU模型圖,網(wǎng)絡(luò)的前向傳播公式如式(1)—式(3)所示。

rt=σ(Wr·[ht-1,xt]),(1)

zt=σ(Wz·[ht-1,xt]),(2)

t=tanh(W·[rt*ht-1,xt]) ?? 。??????????????????????? (3)

先利用重置門控rt來(lái)獲得“重置”之后的數(shù)據(jù)ht-1·rt,再與輸入xt進(jìn)行拼接,之后再經(jīng)過(guò)一個(gè)tanh激活函數(shù)來(lái)處理數(shù)據(jù),將其放縮到-1~1的范圍內(nèi)。此時(shí)的包含了輸入數(shù)據(jù)xt。式(3)對(duì)t的操作與LSTM的選擇記憶階段類似,可以理解為記憶了當(dāng)前時(shí)刻的狀態(tài)。

在更新記憶階段,使用了式(2)得到的更新門控zt進(jìn)行遺忘和記憶2個(gè)操作。更新表達(dá)式見(jiàn)式(4)。

ht=(1-zt)*ht-1+zt*t。(4)

式中:zt(門控信號(hào))的區(qū)域是0~1,若記憶下的數(shù)據(jù)越多,則門控信號(hào)越逼近1,遺忘的數(shù)據(jù)越多則越逼近0;(1-zt)*ht-1是對(duì)原本隱藏狀態(tài)進(jìn)行的選擇性遺忘;(1-zt)作為遺忘門,用來(lái)遺忘ht-1中一些不緊要的內(nèi)容;zt*t是對(duì)包含當(dāng)前節(jié)點(diǎn)信息的t進(jìn)行選擇性“記憶”。

yt=σ(Wo·ht)。??? (5)

需要說(shuō)明的是,[]用來(lái)代表有2個(gè)向量相連,*是Hadamard Product,代表操作矩陣中對(duì)應(yīng)的元素相乘,此時(shí)要求2個(gè)相乘矩陣是同型的,+表示矩陣加法操作的進(jìn)行,σ為sigmoid函數(shù),利用sigmoid函數(shù)能夠?qū)?shù)據(jù)處理為0~1范圍內(nèi)的數(shù)值,從而來(lái)充當(dāng)門控信號(hào)。激活函數(shù)tanh能夠幫助調(diào)節(jié)流經(jīng)網(wǎng)絡(luò)的值,而且tanh函數(shù)的輸出值一直在區(qū)間(-1,1)內(nèi)。

在輸出層中,計(jì)算loss使用的是softmax的交叉熵(labels和logits)+平均值。

2.3 構(gòu)造一個(gè)PHNet并生成隨機(jī)游走

使用基于元路徑的隨機(jī)游走操作來(lái)捕捉不同節(jié)點(diǎn)間的關(guān)系,即通過(guò)論文標(biāo)題、論文作者、論文發(fā)表期刊,構(gòu)建PHNet(異構(gòu)網(wǎng)絡(luò))矩陣。本文所構(gòu)建的異構(gòu)網(wǎng)絡(luò)中的節(jié)點(diǎn)類型只有論文一種,關(guān)系類型為3種(合著作者、共同標(biāo)題、共同發(fā)表期刊)。在一個(gè)PHNet中,2個(gè)論文節(jié)點(diǎn)之間可以通過(guò)多個(gè)無(wú)向關(guān)系進(jìn)行連接,由這些無(wú)向關(guān)系連接的節(jié)點(diǎn)序列可以看作是從論文到論文的表述。受網(wǎng)絡(luò)嵌入DeepWalk和Metapath2Vec方法的啟發(fā),利用隨機(jī)游走策略和跳躍圖模型學(xué)習(xí)網(wǎng)絡(luò)節(jié)點(diǎn)表示。本文提出了一種元路徑和關(guān)系權(quán)值引導(dǎo)的隨機(jī)游走策略,用于加權(quán)異構(gòu)網(wǎng)絡(luò)上的采樣路徑。

元路徑通過(guò)異構(gòu)關(guān)系捕獲節(jié)點(diǎn)間的相關(guān)性,在異構(gòu)網(wǎng)絡(luò)嵌入中得到了廣泛的應(yīng)用。本文在采樣路徑上考慮了PHNet中關(guān)系的權(quán)值,從直觀上看,兩個(gè)節(jié)點(diǎn)之間的關(guān)系值越大,它們之間的相似性就越大。在每一步游走中,當(dāng)游走到一個(gè)鄰居時(shí),連接當(dāng)前節(jié)點(diǎn)到鄰居節(jié)點(diǎn)的關(guān)系值越高,就越有可能對(duì)該鄰居進(jìn)行采樣。具體來(lái)說(shuō),本文依次選擇PHNet中的一個(gè)論文節(jié)點(diǎn)作為路徑的第一個(gè)節(jié)點(diǎn),生成一個(gè)長(zhǎng)度為100的元路徑,然后選擇最后一個(gè)節(jié)點(diǎn)作為另一條元路徑的第一個(gè)節(jié)點(diǎn)。每個(gè)隨機(jī)遞歸采樣網(wǎng)絡(luò)中的節(jié)點(diǎn),都會(huì)生成一條由論文節(jié)點(diǎn)引導(dǎo)的長(zhǎng)路徑,直到滿足固定長(zhǎng)度,最后生成的結(jié)果輸入到WMRW.txt文檔中,如圖5所示。

2.4 基于元路徑異構(gòu)網(wǎng)絡(luò)嵌入

當(dāng)前進(jìn)行網(wǎng)絡(luò)研究應(yīng)用較多的是同構(gòu)網(wǎng)絡(luò)。若要把基于同構(gòu)信息網(wǎng)絡(luò)的方法用在異構(gòu)信息網(wǎng)絡(luò)中,需要將異構(gòu)網(wǎng)絡(luò)映射為同構(gòu)網(wǎng)絡(luò),或者忽略節(jié)點(diǎn)間的連接信息,只是上述這2種方法都將會(huì)產(chǎn)生信息丟失的情況。因此,直接在異構(gòu)信息網(wǎng)絡(luò)上進(jìn)行數(shù)據(jù)挖掘的方法是非常必要的。由于在異構(gòu)信息網(wǎng)絡(luò)中節(jié)點(diǎn)的連接是通過(guò)不同的語(yǔ)義意義,從而提出最好充分利用異構(gòu)信息網(wǎng)絡(luò)的網(wǎng)絡(luò)模式期盼。網(wǎng)絡(luò)模式即是了解信息網(wǎng)絡(luò)的元結(jié)構(gòu),能夠?qū)W(wǎng)絡(luò)的檢索和數(shù)據(jù)挖掘進(jìn)行指導(dǎo),對(duì)于分析和理解網(wǎng)絡(luò)中對(duì)象和關(guān)系的語(yǔ)義意義大有幫助。簡(jiǎn)單而言,就是一種基于元路徑的方法。元路徑就是在網(wǎng)絡(luò)模式上加以定義的路徑,代表了在2個(gè)對(duì)象類型之間的關(guān)系,同時(shí)能夠定義實(shí)體之間新的或現(xiàn)存的關(guān)系。

現(xiàn)實(shí)世界中普遍存在著異構(gòu)信息網(wǎng)絡(luò),本文選用的DBLP數(shù)據(jù)集是非常經(jīng)典的異構(gòu)網(wǎng)絡(luò),包含了4類實(shí)體:Paper,Venue,Author,Term。對(duì)于每篇論文,它都有一組4類實(shí)體的連接。此網(wǎng)絡(luò)也包含了一些論文的信息,即論文之間有論文引用的論文集合。圖6—圖8為學(xué)術(shù)網(wǎng)絡(luò)與元路徑示意圖。

為了將異構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)合并到skip-gram中,提出了在異構(gòu)網(wǎng)絡(luò)中基于元路徑的隨機(jī)游走。與傳統(tǒng)的方法相比,潛在空間表示學(xué)習(xí)的優(yōu)勢(shì)在于即使沒(méi)有連接元路徑,也能夠?qū)?jié)點(diǎn)之間的相似性進(jìn)行建模。在嵌入時(shí)定義每次掃描的數(shù)據(jù)大小為128,嵌入向量的維數(shù)為64,上下文取得詞的個(gè)數(shù)為2,每次移動(dòng)的窗口大小為1,負(fù)樣本的個(gè)數(shù)為5,定義完畢后度量當(dāng)前詞向量與其他詞向量的相似度,采用余弦定理計(jì)算,完成重名作者的歧義消解工作。

2.5 評(píng)估結(jié)果

評(píng)估指標(biāo)為精確度、召回率、F1值,其中精確度和召回率中對(duì)TP,TP_FP和TP_FN的定義是:TP為正確預(yù)測(cè)到同一作者的配對(duì),TP_FP為對(duì)同一作者的預(yù)測(cè)總對(duì)數(shù),TP_FN為同一作者的總對(duì)數(shù)。

精確度 precision=TP/TP_FP

召回率 recall=TP/TP_FN

F1 f1=(2*precision*recall)/(precision+recall)。

實(shí)驗(yàn)結(jié)果部分截圖如圖9、圖10所示。圖10中name一列為實(shí)驗(yàn)數(shù)據(jù)集中歧義作者名,可與圖9生數(shù)據(jù)集相對(duì)照,每一個(gè)有歧義的人名歸結(jié)為一個(gè)XML文檔。

3 實(shí)驗(yàn)結(jié)果分析

本文使用DBLP數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),有歧義的人名為101個(gè),論文出版物有7 585篇,其中包含的節(jié)點(diǎn)特征有作者id,作者名以及出版物的詳細(xì)信息。詳細(xì)信息包含:論文標(biāo)題、出版年份、作者(論文所有的作者)、出版期刊、出版物id、作者所屬單位。因較多人的所屬單位信息為空白,所以該特征屬性在本次消歧任務(wù)中不作為側(cè)重點(diǎn)。本次實(shí)驗(yàn)整理數(shù)據(jù)側(cè)重于利用論文標(biāo)題、作者集合、出版物期刊名稱、出版年份和id編號(hào)等特征屬性進(jìn)行消歧操作。

為了驗(yàn)證本文所提出方法的消歧性能,將其與另外4種方法進(jìn)行比較,這4種方法包括:DeepWalk,LINE,Node2Vec和PTE,都是目前最先進(jìn)的頂點(diǎn)嵌入方法。為了公平起見(jiàn),所有這些方法都使用相同的數(shù)據(jù)來(lái)實(shí)現(xiàn)姓名消歧。

DeepWalk:DeepWalk是近期所提出的一種網(wǎng)絡(luò)嵌入方法。在給定論文合作關(guān)系的情況下用來(lái)捕獲與關(guān)聯(lián)文檔集合中的一對(duì)人員之間的協(xié)作,并采用均勻隨機(jī)游走的方法來(lái)獲取其鄰域的上下文信息進(jìn)行文檔嵌入。

LINE:LINE不再采用隨機(jī)游走的方法,它在圖上定義一階相似度和二階相似度,對(duì)節(jié)點(diǎn)的信息進(jìn)行了補(bǔ)充,從而得到更豐富的節(jié)點(diǎn)嵌入。

Node2Vec:和DeepWalk近似,Node2Vec為實(shí)現(xiàn)文檔嵌入設(shè)計(jì)了一個(gè)有偏差的隨機(jī)游走過(guò)程。

PTE:預(yù)測(cè)性文本嵌入框架的目標(biāo)是捕獲詞-詞、詞-文檔和詞標(biāo)簽之間的關(guān)系??墒?,該種方式不能捕捉文檔間的連接信息。

表1顯示了本論文所提出的方法與對(duì)比方法在處理多個(gè)不同人名姓名歧義消除方面的性能(表1用于DBLP數(shù)據(jù)集)。在表1中,列1為需要消歧的作者姓名,第3列—第6列為各種方法的F1值。F1值表示各種方法給定姓名數(shù)據(jù)集下的消歧性能。最后一列顯示了本文所提出的方法相較于對(duì)比方法的改進(jìn)水平。

表1表明,本文方法相較于對(duì)比方法的總體改進(jìn)比較大。PTE的表現(xiàn)很差,因?yàn)樗鼪](méi)有將相關(guān)的結(jié)構(gòu)信息整合到實(shí)驗(yàn)中。DeepWalk的方法忽略了邊緣權(quán)值,這一點(diǎn)恰恰在異構(gòu)學(xué)術(shù)網(wǎng)絡(luò)中是非常重要的。這幾種基于嵌入的對(duì)比方法都不能利用多個(gè)網(wǎng)絡(luò)信息來(lái)處理消歧任務(wù),本論文的模型利用了這一點(diǎn),提出了基于元路徑異構(gòu)網(wǎng)絡(luò)嵌入實(shí)現(xiàn)姓名消歧的方法,這可能是該方法優(yōu)于現(xiàn)有的基于網(wǎng)絡(luò)嵌入方法的一個(gè)重要原因。

4 結(jié) 語(yǔ)

筆者提出了一個(gè)有效解決作者姓名消歧問(wèn)題的框架。該框架對(duì)DBLP數(shù)據(jù)集中有待消解歧義的作者姓名的數(shù)據(jù)集進(jìn)行了預(yù)處理操作,利用word2vec模型進(jìn)行嵌入,再輸入到GRU網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,根據(jù)節(jié)點(diǎn)間的關(guān)系構(gòu)造了PHNET網(wǎng)絡(luò),最后基于元路徑異構(gòu)網(wǎng)絡(luò)嵌入實(shí)現(xiàn)姓名消歧。該方法所提出的表示學(xué)習(xí)方案比其他現(xiàn)有的網(wǎng)絡(luò)嵌入方法能更有效地將屬于同名作者的文檔進(jìn)行消歧處理。實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的可行性和有效性。

本研究雖實(shí)現(xiàn)了預(yù)期目標(biāo),但是在組合不同類型的特征屬性(如利用文本信息的語(yǔ)義信息和離散特征)來(lái)學(xué)習(xí)有待消歧作者論文的有效表示方面仍有進(jìn)步空間。在未來(lái)的工作中,將嘗試把此方法應(yīng)用于分布式計(jì)算系統(tǒng),進(jìn)一步提高大型學(xué)術(shù)數(shù)據(jù)庫(kù)的消歧速度和效果。

參考文獻(xiàn)/References:

[1] DENG H, KING I, LYU M R. Formal models for expert finding on DBLP bibliography data[C]//Eighth IEEE International Conference on Data Mining. [S.l.]: [s.n.], 2008: 163-172.

[2] HUANG Zhixing, YAN Yan, QIU Yuhui, et al. Exploring emergent semantic communities from DBLP bibliography database[C]//International Conference on Advances in Social Network Analysis and Mining. [S.l.]: [s.n.], 2009: 219-224.

[3] FRANCESCHET M. Collaboration in computer science: A network science approach[J]. Journal of the American Society for Information Science and Technology, 2011, 62(10): 1992-2012.

[4] KIM J, KIM H, DIESNER J. The impact of name ambiguity on properties of coauthorship networks[J]. Journal of Information Science Theory and Practice, 2014, 2(2): 6-15.

[5] CAVERO J M, VELA B, CACERES P. Computer science research: More production, less productivity[J]. Scientometrics, 2014, 98(3): 2103-2111.

[6] SHI Quan, XU Bo, XU Xiaomin, et al. Diversity of social ties in scientific collaboration networks[J]. Physica A: Statistical Mechanics and Its Applications, 2011, 390(23/24): 4627-4635.

[7] REITZ F, HOFFMANN O. Learning from the past: An analysis of person name corrections in the DBLP collection and social network properties of affected entities[J]. Social Network Analysis and Mining, 2013,6: 427-453.

[8] 余傳明,林奧琛,鐘韻辭,等.基于網(wǎng)絡(luò)表示學(xué)習(xí)的科研合作推薦研究[J]. 情報(bào)學(xué)報(bào),2019,38(5):500-511.

YU Chuanming, LIN Aochen, ZHONG Yunci, et al. Research of author name disambiguation based on network embedding[J]. Journal of the China Society for Scientific and Technical Information, 2019, 38(5): 500-511.

[9] GARFIELD E. British quest for uniqueness versus American egocentrism[J]. Nature, 1969, 223(5207): 763-763.

[10]LEY M. DBLP: Some lessons learned[J]. Proceedings of the VLDB Endowment, 2009, 2(2): 1493-1500.

[11]KIM J. Evaluating author name disambiguation for digital libraries: A case of DBLP[J]. Scientometrics, 2018, 116(3): 1867-1886.

[12]HAZIMEH H, YOUNESS I, MAKKI J, et al. Leveraging co-authorship and biographical information for author ambiguity resolution in DBLP[C]/Advanced Information Networking and Applications (AINA). [S.l.]: [s.n.], 2016: 1080-1084.

[13]HAN H, GILES L, ZHA H, et al. Two supervised learning approaches for name disambiguation in author citations[C]//Proceedings of the 2004 Joint ACM/IEEE Conference on Digital Libraries. [S.l.]: [s.n.], 2004: 296-305.

[14]GILES C L, ZHA H, HAN H. Name disambiguation in author citations using a K-way spectral clustering method[C]//Proceedings of the 5th ACM/IEEE-CS Joint Conference on Digital Libraries (JCDL'05). [S.l.]:[s.n.], 2005: 334-343.

[15]MALIN B. Unsupervised name disambiguation via social network similarity[C]//Workshop on Link Analysis, Counterterrorism, and Security[S.l.]: [s.n.], 2005:93-102.

[16]ZHANG Baichuan, AL-HASAN M. Name disambiguation in anonymized graphs using network embedding[C]//Proceedings of the 2017 ACM on Conference on Information and Knowledge Management. [S.l.]:[s.n.], 2017: 1239-1248.

[17]PERZZI B, AL-RFOU R, SKIENA S. Deepwalk: Online learning of social representations[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. [S.l.]:[s.n.], 2014: 701-710.

[18]TANG Jian, QU Meng, WANG Mingzhe, et al. Line: Large-scale information network embedding[C]//Proceedings of the 24th International Conference on World Wide Web. [S.l.]: International World Wide Web Conferences Steering Committee, 2015: 1067-1077.

[19]TANG Jian, QU Meng, MEI Qiaozhu. PTE: Predictive text embedding through large-scale heterogeneous text networks[C]//Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. [S.l.]:[s.n.], 2015: 1165-1174.

[20]GROVER A, LESKOVEC J. Node2vec: Scalable feature learning for networks[J]. Knowledge Discovery and Data Mining, 2016: 855-864.

[21]PHAM T H, PHAM X K, NGUYEN T A, et al. NNVLP: A neural network-based Vietnamese language processing toolkit[C]//International Joint Conference on Natural Language Processing. [S.l.]:[s.n.], 2017: 37-40.

[22]WU Fangzhao, LIU Junxin, WU Chuhan, et al. Neural Chinese named entity recognition via CNN-LSTM-CRF and joint training with word segmentation[J]. The World Wide Web Conference, 2019: 3342-3348.

[23]甄然,于佳興,趙國(guó)花,等.基于卷積神經(jīng)網(wǎng)絡(luò)的無(wú)人機(jī)識(shí)別方法仿真研究[J]. 河北科技大學(xué)學(xué)報(bào), 2019, 40(5): 397-403.

ZHEN Ran, YU Jiaxing, ZHAO Guohua, et al. Simulation research on UAV recognition method based on convolutional neural network[J]. Journal of Hebei University of Science and Technology, 2019, 40(5): 397-403.

[24]紀(jì)志強(qiáng),魏明,吳啟蒙,等.基于遞歸神經(jīng)網(wǎng)絡(luò)的TVS電磁脈沖響應(yīng)建模[J]. 河北科技大學(xué)學(xué)報(bào), 2015, 36(2): 157-162.

JI Zhiqiang, WEI Ming, WU Qimeng, et al. EMP response modeling of TVS based on the recurrent neural network[J]. Journal of Hebei University of Science and Technology, 2015,36(2): 157-162.

收稿日期:2020-03-25;修回日期:2020-05-25;責(zé)任編輯:馮 民

基金項(xiàng)目:中國(guó)留學(xué)基金委地方合作項(xiàng)目(201808130283);中國(guó)教育部人工智能協(xié)同育人項(xiàng)目(201801003011);河北科技大學(xué)校立課題(82/1182108);河北科技大學(xué)霧霾與空氣污染防治科研項(xiàng)目(82/1182169);河北省科技支撐計(jì)劃項(xiàng)目(17210104D, 18210109D);河北省高等學(xué)??茖W(xué)技術(shù)研究項(xiàng)目(ZD2015099);河北省高層次人才資助項(xiàng)目(A2016002015)

第一作者簡(jiǎn)介:王建霞(1970—),女,河北臨城人,教授,碩士,主要從事網(wǎng)絡(luò)與數(shù)據(jù)庫(kù)、圖像處理方面的研究。

通訊作者:許云峰副教授。E-mail:hbkd_xyf@hebust.edu.cn

王建霞,張玉璇,許云峰.

基于元路徑異構(gòu)網(wǎng)絡(luò)嵌入的姓名實(shí)體消歧方法

[J].河北科技大學(xué)學(xué)報(bào),2020,41(3):233-241.

WANG Jianxia, ZHANG Yuxuan, XU Yunfeng.

Disambiguation method of name entities embedded in meta-path heterogeneous networks

[J].Journal of Hebei University of Science and Technology,2020,41(3):233-241.

猜你喜歡
自然語(yǔ)言處理
基于LSTM自動(dòng)編碼機(jī)的短文本聚類方法
自然語(yǔ)言處理與司法案例
國(guó)外基于知識(shí)庫(kù)的問(wèn)答系統(tǒng)相關(guān)研究進(jìn)展及其啟示
基于依存句法的實(shí)體關(guān)系抽取
基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
面向機(jī)器人導(dǎo)航的漢語(yǔ)路徑自然語(yǔ)言組塊分析方法研究
詞向量的語(yǔ)義學(xué)規(guī)范化
漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
HowNet在自然語(yǔ)言處理領(lǐng)域的研究現(xiàn)狀與分析
开江县| 日喀则市| 安多县| 吴忠市| 县级市| 贵阳市| 灌云县| 乳源| 金坛市| 工布江达县| 西林县| 嘉义县| 通榆县| 安福县| 新安县| 扶绥县| 安阳县| 太康县| 万山特区| 读书| 泽州县| 临夏市| 西林县| 微山县| 凌海市| 邯郸县| 酒泉市| 安康市| 宜州市| 杭州市| 西昌市| 万年县| 哈巴河县| 商丘市| 金昌市| 平湖市| 宣汉县| 类乌齐县| 徐水县| 文化| 吉木萨尔县|