規(guī)則引導的知識圖譜聯(lián)合嵌入方法

2021-01-05 03:05:02姚思雨趙天哲王瑞杰

計算機研究與發(fā)展 2020年12期

姚思雨趙天哲王瑞杰,3 劉均

1(西安交通大學計算機科學與技術(shù)學院西安 710049)

2(陜西省天地網(wǎng)技術(shù)重點實驗室(西安交通大學) 西安 710049)

3(蘇黎世大學計算機科學系瑞士 8050)

近年來，由于具有表達能力強、歧義性低、模式統(tǒng)一、且支持推理等優(yōu)點，知識圖譜已被廣泛用于組織和發(fā)布各領域的結(jié)構(gòu)化數(shù)據(jù).通常，知識圖譜由實體、實體所具有的屬性以及實體間的關(guān)系所組成.例如，其中可能包含有實體中國、關(guān)系首都以及實體屬性“China”. 如圖1所示，知識圖譜的基礎構(gòu)成則是描述2個實體之間的關(guān)系或?qū)嶓w及其屬性之間關(guān)系的三元組，如(中國，首都，北京)、(中國，英語標簽，“China”).

Fig. 1 Several triples which contain the entity Beijing and the related literals圖1 包含實體“北京”的若干三元組及文本信息

目前，知識圖譜已被廣泛應用在智能問答[1]、推薦系統(tǒng)[2]和信息檢索[3]等任務中，其突出表現(xiàn)在學術(shù)與工業(yè)界均獲得了廣泛關(guān)注[4].但是，受益于知識圖譜所包含豐富信息的同時，其龐大的規(guī)模與數(shù)據(jù)稀疏性問題也給知識圖譜的應用帶來了挑戰(zhàn).例如，F(xiàn)reebase[5], Yago[6]和Dbpedia[7]等開放領域知識圖譜中通常包含有數(shù)百萬個實體，以及上億條描述實體關(guān)系的三元組.將子圖匹配等傳統(tǒng)圖算法應用在這些大規(guī)模知識圖譜上往往存在計算低效性問題.為此，研究人員提出了知識圖譜嵌入學習模型(knowledge graph embedding learning model)，將知識圖譜映射到低維、連續(xù)的向量空間中，學習實體與關(guān)系的嵌入表示[8].

通過設計特定的表示學習機制，知識圖譜的結(jié)構(gòu)和語義等信息可被編碼在所學習到的嵌入表示中.一方面，原本需要對大規(guī)模知識圖譜進行頻繁訪問的操作，例如結(jié)構(gòu)化查詢構(gòu)建(structured query construction)[9]、邏輯查詢執(zhí)行(logical query pro-cessing)[10]和查詢放縮(query relaxation)[11]，均可在所學習到的嵌入表示空間中通過數(shù)值計算完成，極大地提高了效率.另一方面，知識圖譜的嵌入學習提供了一種抽取并高效表示知識圖譜特征信息的方法，類似于自然語言處理領域中被廣泛應用的詞嵌入(word embedding)，知識圖譜的嵌入表示也為基于知識圖譜的深度學習工作提供了極大的便利.

現(xiàn)有知識圖譜嵌入學習模型大多僅關(guān)注知識圖譜中以三元組表示的結(jié)構(gòu)信息.例如，Bordes等人提出了基于翻譯機制(translation mechanism)的TransE模型[12]，其目標任務為鏈接預測(link prediction)與三元組分類(triple classification)，概括而言就是判斷知識圖譜中給定的2個實體之間是否存在某個關(guān)系.因此TransE模型僅關(guān)注所學習到的嵌入表示對單條三元組結(jié)構(gòu)信息的編碼，其在嵌入學習過程中將知識圖譜簡化為互不相關(guān)的三元組的有限集合.因此，TransE及其后續(xù)改進模型[13-16]對知識圖譜中上下文信息的編碼能力非常弱，很難應用于語義相關(guān)的任務.針對這一問題，相繼有一些基于上下文信息的嵌入表示模型被提出，如GAKE[17]， RDF2Vec[18].但是它們?nèi)匀粌H關(guān)注知識圖譜中由子圖、路徑等結(jié)構(gòu)所表示的上下文信息.例如，在學習圖1中實體北京的嵌入表示時，上述方法僅關(guān)注(中國，首都，北京)與(北京，位于，華北)等描述實體間關(guān)系的三元組，而忽略了北京的簡介、英文標簽等文本信息.顯然，文本信息的缺失限制了所學到嵌入表示對語義信息的表達.

為解決這一問題，本文提出了一種規(guī)則引導的知識圖譜聯(lián)合嵌入學習模型.受Vashishth等人[19]所提出的圖卷積網(wǎng)絡啟發(fā)，模型首先通過多關(guān)系型圖卷積將實體在知識圖譜中的上下文信息編碼到實體的嵌入表示中.與Vashishth等人的工作所不同的是，本文認為實體的多條上下文信息應該具有不同的重要程度，并且某條上下文信息的重要程度取決于2個因素：該條上下文信息的置信度，以及其相對于實體的關(guān)聯(lián)度.為此，本文提出了一條簡單有效的規(guī)則引導上下文信息置信度的計算，并基于知識圖譜中的文本信息表示提出了實體與其上下文信息之間關(guān)聯(lián)度的計算方法.最后，模型將圖卷積網(wǎng)絡所編碼的嵌入表示與文本信息的向量表示整合，以鏈接預測任務的結(jié)果作為訓練目標，學習知識圖譜中實體與關(guān)系的嵌入表示.

本文貢獻主要體現(xiàn)在3個方面：

1) 基于圖卷積網(wǎng)絡，創(chuàng)新地提出了一種聯(lián)合考慮知識圖譜中上下文信息與文本信息，由規(guī)則引導的嵌入表示學習模型.

2) 針對上下文信息在圖卷積中的重要程度，提出了應用規(guī)則以及知識圖譜中文本信息來計算單條上下文信息置信度與關(guān)聯(lián)度的新方法.

3) 在基準數(shù)據(jù)集上進行了充分的實驗，并與相關(guān)的知識圖譜嵌入學習方法進行了對比，實驗結(jié)果驗證了本文模型的有效性.

1 相關(guān)工作

本節(jié)對與本文工作較相關(guān)的知識圖譜嵌入學習模型進行介紹，由于本文所提出的模型是基于圖神經(jīng)網(wǎng)絡的，因此分別介紹基于圖神經(jīng)網(wǎng)絡的知識圖譜嵌入學習模型和其他非圖神經(jīng)網(wǎng)絡的嵌入學習模型.

1.1 基于圖神經(jīng)網(wǎng)絡的模型

基于圖神經(jīng)網(wǎng)絡的模型主要包括R-GCN[20], W-GCN[21], CompGCN[19]等.該類模型通常將圖卷積網(wǎng)絡作為編碼器，對圖結(jié)構(gòu)數(shù)據(jù)進行編碼，并結(jié)合對應的解碼器進行知識圖譜上的鏈接預測、節(jié)點分類等任務.在R-GCN中，每層網(wǎng)絡中節(jié)點與關(guān)系的特征利用權(quán)重矩陣進行計算，并通過領域聚合的方式傳遞至后續(xù)網(wǎng)絡層.具體而言，R-GCN利用基分解和塊對角分解構(gòu)造特定關(guān)系的權(quán)重矩陣，以處理不同類型的鄰居關(guān)系，將其與鄰居節(jié)點信息進行融合，并傳遞到目標實體上進行更新.W-GCN在圖卷積網(wǎng)絡聚合過程中為每個權(quán)重矩陣分配可學習的權(quán)重參數(shù)，使模型獲得更優(yōu)的實體嵌入表示.CompGCN則提出了針對中心節(jié)點的領域信息聚合方法，在理論上使用多種“實體-關(guān)系”組合算法對當前主流的基于多關(guān)系的圖卷積網(wǎng)絡模型進行了概括.

1.2 非圖神經(jīng)網(wǎng)絡的模型

非圖神經(jīng)網(wǎng)絡的嵌入學習模型類別較多，主要包括基于翻譯機制的模型，如TransE[12]及其后續(xù)改進模型，包括TransH[13]，TransR[14]，TransD[15]，TransAH[16],基于上下文信息的模型，如GAKE[17]，RDF2Vec[18]，基于張量分解的模型，如ComplEx[22]，RESCAL[23].

其中，基于翻譯機制的模型應用較為廣泛.該類模型通常僅關(guān)注知識圖譜的結(jié)構(gòu)信息，將實體之間的關(guān)系表示為嵌入向量空間中的某種翻譯操作(translation operation).以TransE為例，其將知識圖譜中的實體與關(guān)系都表示在同一個低維歐幾里得空間中，以向量表示一個實體或關(guān)系.具體而言，對于知識圖譜中的一條三元組(h,r,t)，TransE 將其中的關(guān)系r看作在歐幾里得空間中從頭實體h到尾實體t的平移操作，即其期望頭實體所對應的向量h經(jīng)過關(guān)系所對應的向量r的平移操作后可以非常逼近尾實體所對應的向量t，即h+r≈t.

TransE的翻譯機制較為簡單，因此可以高效地應用于大規(guī)模知識圖譜，但同時又限制了其模型的表達能力，使其難以處理一對多、多對一以及多對多類型的復雜關(guān)系[14].為解決這一問題，TransE之后相繼有一些翻譯機制更加復雜的模型被提出.例如，TransH[15]相對于所給定三元組中關(guān)系的超平面空間設計翻譯機制，TransR[16]則針對知識圖譜中的每一個關(guān)系額外學習一個矩陣，借助該矩陣將頭、尾實體通過線性變換映射到相應的關(guān)系向量空間中，然后再計算其翻譯機制的損失值.

2 聯(lián)合嵌入表示學習

本節(jié)首先對知識圖譜嵌入學習問題進行形式化定義，介紹相關(guān)概念的符號表示，然后詳細介紹所提出的規(guī)則引導的聯(lián)合嵌入學習模型.

2.1 問題定義

2.2 模型整體架構(gòu)

對于置信度計算，本文針對上下文信息中所包含的關(guān)系提出一條簡單有效的規(guī)則，并基于該規(guī)則在嵌入學習之前預先計算特定于一對關(guān)系的置信度矩陣C，并在圖卷積過程中利用該矩陣計算某條上下文信息的置信度，如圖2中標有置信度計算的虛線所示.

Fig. 2 An overview of the core part of the model圖2 模型核心部分框架圖

對于關(guān)聯(lián)度計算，本文首先利用預訓練語言模型對知識圖譜中實體與關(guān)系的文本信息進行編碼.如圖2所示，對于實體eh與關(guān)系ri的文本leh與lri，它們的文本向量分別記為Leh與Lri.本文基于實體與關(guān)系的文本向量表示計算單條上下文信息與其對應實體之間的關(guān)聯(lián)度，如圖2中標有關(guān)聯(lián)度計算的虛線所示.

值得一提的是，本文所提出的模型采用“編碼器-解碼器”框架(encoder-decoder).上述基于圖卷積網(wǎng)絡的上下文信息編碼即為編碼器的主要內(nèi)容.除此之外，編碼器還將上述過程學習到的實體與關(guān)系的嵌入表示與它們的文本表示相結(jié)合.本文模型的解碼器則主要基于ConvE模型[24]實現(xiàn).下面對模型的細節(jié)進行詳細的介紹.

2.3 編碼器

(1)

(2)

本文利用實體與關(guān)系的文本表示計算對于某一實體而言，其單條上下文信息的關(guān)聯(lián)度.如圖2所示，實體eh的一條鄰居三元組為(eh,ri,eti)，本文計算參數(shù)βi與γi來度量該條鄰居三元組所表示的上下文信息與eh之間的關(guān)聯(lián)度，具體公式為：

(3)

(4)

基于圖卷積網(wǎng)絡的嵌入更新.本文采用Vashishth等人所提出的CompGCN[19]模型作為圖卷積網(wǎng)絡的架構(gòu)，對知識圖譜上下文信息進行編碼.

(5)

αi=λ1βi+λ2γi,

(6)

(7)

(8)

(9)

e=e+Le,

(10)

r=r+Lr.

(11)

2.4 解碼器

(12)

其中,[·]表示相連接，ω表示卷積過濾器，vec(·)為ConvE所定義的維度變換，Wcov為參數(shù)矩陣，f′(·)為非線性函數(shù).當式(12)計算得到的分數(shù)值越高，(eh,r,et)越有可能是正確的三元組.

3 實驗

本節(jié)首先對實驗所使用的數(shù)據(jù)集、對比模型和評價指標等進行說明，然后介紹本文所提模型的實驗結(jié)果，并與其他基準模型進行比較與分析.

3.1 數(shù)據(jù)集及對比模型介紹

本文在2個廣泛使用的數(shù)據(jù)集上進行試驗，分別是FB15K-237[27]和WN18[12]，其統(tǒng)計數(shù)據(jù)如表1所示:

Table 1 Summary Statistics of Knowledge Graphs表1 數(shù)據(jù)集的統(tǒng)計信息

為驗證所提模型的有效性，本文廣泛選取了當前被應用較多的知識圖譜嵌入學習模型作為對比方法，具體包括TransE[11],DistMult[28],ComplEx[22],R-GCN[20],KBGAN[29],ConvE[24],ConvKB[30],SACN[21],HypER[31],RotatE[32],ConvR[33],VR-GCN[34],CompGCN[19].其中，TransE[11]為基于翻譯機制的嵌入學習模型，上文已對其進行了詳細介紹.DistMult[28]將實體表示為通過神經(jīng)網(wǎng)絡學習到的低維向量，將關(guān)系表示為雙線性或線性映射函數(shù).ComplEx[22]與RESCAL[23]模型類似，屬于基于矩陣/張量分解進行鏈接預測的模型.R-GCN[20],VR-GCN[34]與CompGCN[19]屬于基于圖卷積網(wǎng)絡的嵌入表示模型，以R-GCN[20]為例，其將知識圖譜中的關(guān)系編碼為矩陣，通過關(guān)系矩陣傳遞相鄰實體的嵌入信息，并采用了多層圖卷積網(wǎng)絡.KBGAN則應用了對抗生成網(wǎng)絡(generative adversarial network, GAN)，在訓練過程中生成更具迷惑性的負例來提高嵌入表示的訓練效果.本文應用了ConvE[24]模型作為解碼器，在第2節(jié)中對其進行了詳細介紹.ConvKB[30],ConvR[33],SACN[21]與HypER[31]均是基于卷積神經(jīng)網(wǎng)絡的方法.以HypER[31]為例，其可以生成簡化的與關(guān)系相關(guān)的卷積過濾器，且可被構(gòu)造為張量分解.RotatE[32]與TransE[11]等基于翻譯機制的模型類似，其將實體之間的關(guān)系表示為向量空間中從頭實體到尾實體的旋轉(zhuǎn).

3.2 評價方法說明

最后采用MR(mean rank),MRR(mean reciprocal rank)和Hit@k作為評價指標[12].其中，MR與MRR均為預測結(jié)果平均排名的指標，Hit@k則指預測結(jié)果排在前k名中的比例，本文具體采用Hit@10，Hit@3和Hit@1.總之，越好的預測結(jié)果，其MR值越低、MRR值越高、Hit@k也越高.

3.3 實驗設置

本文實驗代碼使用Python實現(xiàn)，在配置Ubuntu 16.04.6 LTS操作系統(tǒng)的服務器上完成，其CPU配置為16核Intel Core i7-6900K 3.20 GHz，內(nèi)存128 GB，GPU配置為4張GeForce GTX 1080 GPU卡.

對于實體和關(guān)系文本表示向量的編碼，本文借助pretrained-bert-base-uncased預訓練模型(1)https://github.com/google-research/bert，文本向量初始維度為768，轉(zhuǎn)換后的維度為200.在圖卷積網(wǎng)絡中，實體和關(guān)系的初始化向量維度為100，即d=100，GCN的維度為200，即d′=200.解碼器中維度轉(zhuǎn)換的高度和寬度分別為10和20，卷積過濾器的大小為7×7，數(shù)量為200.利用Adam優(yōu)化器對整體模型進行訓練，批大小(batch size)為256，學習率(learning rate)為0.001.

本文對TransE模型進行了復現(xiàn)，其余模型則引用對比模型論文中所報告的結(jié)果.

3.4 實驗結(jié)果分析

表2報告了本文模型與對比模型在鏈接預測任務中的實驗結(jié)果.

通過表2可觀察到如下結(jié)果：

1) 本文模型在各個評價指標上顯著優(yōu)于TransE,DistMult和ComplEx等基準模型，與SACN,HypER和CompGCN等最新提出的模型十分接近，由此可證明本文模型的有效性.對于FB15K-237數(shù)據(jù)集，本文在Hit@10指標上排名第一.

2) 在Hit@1和Hit@3指標上也與CompGCN，ConvR，SACN相差極小.具體在Hit@1指標上僅比最高的CompGCN低1.51%，在MRR指標上與CompGCN相比僅低0.8%.而對于WN18數(shù)據(jù)集，本文模型在MR指標上排名第一，在Hit@10和Hit@3指標上也與第一名差距微小.具體在Hit@10指標上比RotatE低0.2%，在Hit@3指標上比ConvR和HypER僅低0.9%.

3) 基于圖神經(jīng)網(wǎng)絡的嵌入學習方法的表現(xiàn)普遍優(yōu)于TransE等僅關(guān)注結(jié)構(gòu)化信息的模型.就本文模型而言，由于其基于圖卷積網(wǎng)絡對知識圖譜的上下文信息與文本信息進行了聯(lián)合嵌入表示，顯著提高了在鏈接預測任務中的表現(xiàn).

Table 2 Link Prediction Results on FB15K-237 and WN18表2 鏈接預測在FB15K-237和WN18上的結(jié)果

4 總結(jié)

現(xiàn)有多數(shù)知識圖譜嵌入學習方法僅考慮由三元組表示的知識圖譜結(jié)構(gòu)信息，而忽視了知識圖譜中豐富的上下文信息與文本信息，限制了嵌入表示在鏈接預測等任務中的表現(xiàn).針對現(xiàn)有方法的這一局限性，本文提出一種利用圖卷積神經(jīng)網(wǎng)絡，結(jié)合知識圖譜的上下文信息與文本信息學習嵌入表示的方法.為了對上下文信息的重要程度進行細粒度分析，本文提出一條簡單有效的規(guī)則來計算上下文信息的置信度，并基于文本信息的向量表示提出計算上下文信息關(guān)聯(lián)度的方法，加強了對上下文信息的約束和引導.最后，通過在2個廣泛使用的基準數(shù)據(jù)集上進行對比實驗，驗證了本文模型的有效性.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡