寧原隆 周 剛,2 盧記倉 楊大偉 張 田
1(戰(zhàn)略支援部隊信息工程大學(xué) 鄭州 450001)
2(數(shù)學(xué)工程與先進計算國家重點實驗室(戰(zhàn)略支援部隊信息工程大學(xué)) 鄭州 450001)
(ningyuanlong@163.com)
谷歌公司于2012年提出了知識圖譜(knowledge graph)的概念[1].知識圖譜為組織、管理和理解海量的互聯(lián)網(wǎng)數(shù)據(jù)信息提供了一種更好的手段.知識圖譜作為人工智能領(lǐng)域的一個重要的分支,具備重要的作用,在搜索引擎、智能醫(yī)療、問答系統(tǒng)[2]等方面應(yīng)用廣泛,得到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注[3].目前,已經(jīng)涌現(xiàn)出了許多知識圖譜,具有代表性的有Freebase[4],DBpedia[5],YAGO[6],NELL[7]等.
知識圖譜是由大量的三元組(頭實體,關(guān)系,尾實體)構(gòu)成的,也可以簡寫為(h,r,t),表示頭實體h和尾實體t之間通過關(guān)系r連接.一個三元組描述一個事實,例如(英國,首都,倫敦)描述的是“英國的首都是倫敦”這一事實.基于符號表示的知識圖譜三元組,雖然簡潔,但是隨著知識圖譜規(guī)模的不斷增加,數(shù)據(jù)稀疏性等問題更加突出,導(dǎo)致計算效率低下,在大規(guī)模知識圖譜上很難實現(xiàn)高效推理.基于此,作為符號表示的補充,引入了知識圖譜表示學(xué)習(xí)[8],其目的就是將知識圖譜中的實體和關(guān)系投影到連續(xù)低維的向量空間,可以有效提高計算效率,并大大促進大規(guī)模知識圖譜上的推理分析.
現(xiàn)有的大多數(shù)知識圖譜表示學(xué)習(xí)及推理模型都僅考慮知識圖譜中單一的三元組信息[9],然而,實體對之間往往存在大量的關(guān)系路徑信息,并且每一個實體通常都有相對應(yīng)的實體描述信息.這些關(guān)系路徑和實體描述等信息蘊含著豐富的語義,能夠為推理提供更確切可靠的輔助信息,從而能夠顯著提高知識圖譜表示學(xué)習(xí)的能力,提高推理的準(zhǔn)確性.目前,已有的引入額外信息的知識圖譜表示方法只考慮在基于翻譯模型的基礎(chǔ)上,融合一種額外的信息,從而提高知識圖譜表示學(xué)習(xí)的能力,例如,DKRL(description-embodied knowledge representation learning)模型[9]和PTransE(path-based TransE)模型[10].為了能夠更好地提高知識圖譜表示學(xué)習(xí)的能力,本文綜合考慮了知識圖譜中的關(guān)系路徑與實體描述信息.
綜上分析,本文提出了一種融合關(guān)系路徑與實體描述信息的知識圖譜表示學(xué)習(xí)方法(relation path and entity description information based knowledge graph representation learning, PDRL).本文的主要貢獻簡要描述為:
1) 提出了一個融合多源信息的知識圖譜表示學(xué)習(xí)模型PDRL,包括三元組信息、關(guān)系路徑信息以及實體描述信息,綜合提高知識圖譜表示學(xué)習(xí)的能力,進而進行推理.
2) 考慮實體描述中的語義信息,利用BERT(bidirectional encoder representations from trans-formers)模型[11]對其進行實體描述信息的編碼表示;有效利用知識圖譜中存在的大量關(guān)系路徑信息,能夠準(zhǔn)確推理出實體對之間的直接關(guān)系,這里不僅考慮了關(guān)系路徑上的關(guān)系信息,也考慮了關(guān)系路徑上的實體信息.結(jié)合能夠處理知識圖譜中較為復(fù)雜關(guān)系的TransR模型,訓(xùn)練一個整合模型以提高知識圖譜推理的性能.
3) 本文在FB15K,WN18,F(xiàn)B15K-237,WN18RR數(shù)據(jù)集上進行實驗,在鏈接預(yù)測和三元組分類任務(wù)中,與其他基準(zhǔn)模型相比,均取得了較好的效果.
知識圖譜表示學(xué)習(xí)在知識推理中發(fā)揮著重要的作用,基于知識圖譜表示學(xué)習(xí)的推理是將知識圖譜中包括實體和關(guān)系的元素映射到一個連續(xù)低維的向量空間中,為每一個元素學(xué)習(xí)在向量空間中的向量表示.關(guān)于知識圖譜表示學(xué)習(xí)的代表性工作不少,接下來將從基于翻譯思想和引入額外信息2個方面概述已有模型并分析其優(yōu)缺點.
結(jié)構(gòu)化嵌入(structured embedding, SE)模型[12]是知識圖譜表示學(xué)習(xí)較早的嘗試,它使用2個獨立的矩陣為每個關(guān)系投影頭尾實體,但矩陣的獨立性將導(dǎo)致實體之間的協(xié)調(diào)性較差,并且在大型知識圖譜上效果不夠好.因此,文獻[13]提出了一個最簡單有效的知識圖譜嵌入TransE模型,該模型將三元組中的關(guān)系看作是從頭實體向量到尾實體向量的翻譯,進而學(xué)習(xí)知識圖譜中實體和關(guān)系的向量表示,該模型的靈感主要來源于文獻[14].TransE模型假設(shè)給定任意一個正確的三元組(h,r,t),頭實體的向量表示h*加上關(guān)系的向量表示r*應(yīng)該等于尾實體的向量表示t*,基于此定義TransE模型的能量函數(shù):
E(h,r,t)=‖h*+r*-t*‖,
(1)
當(dāng)進行推理時,能量值最小的候選實體或關(guān)系就是推理出的結(jié)果.
E(h,r,t)=‖h*TransH+r*-t*TransH‖.
(2)
Wen等人[16]在TransH的基礎(chǔ)上,提出了m-TransH模型,直接建模多元關(guān)系.事實上,每個實體通??梢詮亩鄠€方面描述,且不同關(guān)系可能關(guān)注實體的不同方面.因此,實體在不同關(guān)系中應(yīng)具有不同的表示.TransH通過將實體投影到對應(yīng)關(guān)系的超平面,雖然使實體在不同關(guān)系中的不同表示已成為可能,但實體、關(guān)系以及投影后的實體仍在一個相同的向量空間,這在一定程度上限制了實體和關(guān)系的語義表示能力.因此,Lin等人[17]提出了TransR模型,其將實體和關(guān)系通過關(guān)系矩陣Mr投影到不同的向量空間,即h*TransR=h*Mr,t*TransR=t*Mr,基于此定義TransR模型的能量函數(shù):
E(h,r,t)=‖h*TransR+r*-t*TransR‖.
(3)
TransR模型通過區(qū)分實體向量和關(guān)系向量表示空間增加了模型的表達能力,并提升了表示學(xué)習(xí)的效果.然而,TransR模型為每個關(guān)系學(xué)習(xí)一個唯一的向量表示,這可能不足以適合所有與這個關(guān)系相關(guān)的實體對.因此,Lin等人[17]也提出了CTransR模型,通過將不同的實體對聚類成組,在每個組中學(xué)習(xí)關(guān)系的不同嵌入表示.除此以外,比較典型的嵌入表示模型還有TransD[18],TransM[19],TransA[20],TransG[21]等.
文獻[12-21]所提的模型考慮的是在實數(shù)向量空間中的表示,最近還有一些模型考慮在復(fù)向量空間中進行表示學(xué)習(xí).如文獻[22]為了能夠更好地建模對稱和非對稱關(guān)系,提出了RotatE模型,其將實體表示為復(fù)數(shù)向量空間中的點,關(guān)系表示為從頭實體到尾實體的旋轉(zhuǎn).HAKE(hierarchy-aware knowledge graph embedding)模型[23]在RotatE模型的基礎(chǔ)之上進行改進,通過極坐標(biāo)的方法,結(jié)合實體的模信息和相位信息,并結(jié)合翻譯模型的思想,提出了一種可以建模實體間語義層次關(guān)系的模型,進一步提高了知識圖譜表示學(xué)習(xí)的性能.目前絕大多數(shù)模型對關(guān)系的建模方式是單一的,例如平移或者旋轉(zhuǎn),限制了底層模型的表達能力.為了包含更豐富的關(guān)系信息,文獻[24]提出了對偶四元數(shù)知識圖譜嵌入方法,將平移和旋轉(zhuǎn)操作同時在對偶四元數(shù)空間中建模.
1.1節(jié)所述方法雖然從某些角度解決了TransE的部分問題,但是僅考慮了知識圖譜中單個三元組.事實上,除了三元組本身的結(jié)構(gòu)信息之外,知識圖譜中往往還包括關(guān)系路徑、實體描述、屬性信息及實體類型等豐富的額外信息,若知識圖譜表示學(xué)習(xí)模型能夠更好地利用這些多源信息,將進一步提高模型的語義表示能力,進而實現(xiàn)更好的推理.接下來將從3個方面對現(xiàn)有模型進行綜述:
1) 在考慮實體間多步間接路徑的語義關(guān)系方面.Lin等人[10]提出了PTransE模型,該模型是一種基于路徑的模型,首先使用路徑約束資源算法(path-constraint resource allocation, PCRA)來度量關(guān)系路徑的置信度,然后將獲取到的關(guān)系路徑信息通過相加、相乘和循環(huán)神經(jīng)網(wǎng)絡(luò)的方式進行組合表示,最后將組合表示后的關(guān)系路徑融入到知識表示學(xué)習(xí)模型中,取得了一定的成效.RTransE[25]模型也考慮了知識圖譜中的關(guān)系路徑.
2) 在考慮實體描述信息方面.Xie等人[9]將知識圖譜中的實體描述信息融入到知識圖譜表示學(xué)習(xí)當(dāng)中,提出了DKRL模型,該模型分別使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)和連續(xù)詞袋模型(continuous bag-of-words, CBOW)對實體描述信息進行編碼表示,同時利用事實三元組和實體描述信息進行學(xué)習(xí),最后得到較好的推理效果.實際上,在大型的知識圖譜中,有很多實體對應(yīng)的實體描述信息缺失,基于此,Wang等人[26]引入了外部文本語料庫,將文本語料庫中的實體語義結(jié)構(gòu)作為實體表示的一部分,從而進一步提高實體描述缺失情況下知識推理的準(zhǔn)確性.文獻[27]提出了一種規(guī)則引導(dǎo)的知識圖譜聯(lián)合嵌入學(xué)習(xí)模型,使用圖卷積網(wǎng)絡(luò),將上下文信息與文本信息融合到實體與關(guān)系的嵌入表示中,進一步提高了實體和關(guān)系的表示能力.
3) 在考慮實體屬性信息方面.文獻[28]提出了一種結(jié)合實體屬性信息的表示學(xué)習(xí)方法,使用深度卷積神經(jīng)網(wǎng)絡(luò)模型對實體屬性信息進行編碼,利用屬性信息和三元組結(jié)構(gòu)化信息學(xué)習(xí)知識表示,生成基于屬性的實體表示,進一步提高了實體的表示能力.TransE及其擴展模型僅使用知識圖譜之間的關(guān)系信息作為監(jiān)督信號對實體嵌入施加約束,但實際上實體層次類也能夠為知識表示學(xué)習(xí)提供重要的信息.Xie等人[29]提出了TKRL(type-embodied knowledge representation learning)模型,該模型融合了層次類型信息.除此之外,Xie等人[30]提出了IKRL(image-embodied knowledge representation learning)模型,將實體圖像信息融合到知識表示學(xué)習(xí)當(dāng)中.
此外,最近研究發(fā)現(xiàn),之前的方法是對每一個實體或關(guān)系進行單一的靜態(tài)表示,忽略了實體和關(guān)系在不同上下文對應(yīng)的真正含義,也就是說在不同的上下文中,實體和關(guān)系的含義經(jīng)常是不同的,需要根據(jù)上下文語義信息來判斷采取怎樣的表示.文獻[31-32]將知識圖譜中子圖和路徑作為某一實體的上下文語義信息,提出了結(jié)合語境的動態(tài)知識圖譜表示學(xué)習(xí)的方法,在一定程度上取得了較好的效果.
文獻[9-10]引入額外信息的知識圖譜表示學(xué)習(xí)方法都僅在基于翻譯模型的基礎(chǔ)上,考慮知識圖譜中的一種額外信息,融合方式單一,對知識圖譜中的額外信息融合程度低,未能充分利用知識圖譜中的額外信息,因此本文將知識圖譜中的關(guān)系路徑與實體描述信息進一步融合,促進知識圖譜表示學(xué)習(xí)的性能.
現(xiàn)有的方法對關(guān)系路徑進行表示時,絕大多數(shù)只考慮路徑上的關(guān)系信息,沒有考慮實體信息.DKRL模型對實體描述信息進行關(guān)鍵詞抽取,使用CBOW和CNN對其編碼表示,得到的表示沒有包含實體描述的全部語義信息.針對該問題,本文提出了一種融合關(guān)系路徑與實體描述信息的新型知識圖譜表示學(xué)習(xí)方法,不僅考慮關(guān)系路徑上的實體信息,而且能夠表示出實體描述的全部語義信息,解決了實體描述中的一詞多義的問題.將關(guān)系路徑、實體描述與知識圖譜三元組很好地結(jié)合,不僅提高了知識圖譜中實體和關(guān)系的語義表示,也很大程度上促進了知識圖譜推理的準(zhǔn)確性.該方法可以充分利用知識圖譜中關(guān)系路徑與實體描述的信息,來進一步增強知識表示學(xué)習(xí)的能力,從而進行更好的推理.
為了能夠更好地描述本文提出的模型,首先給出相關(guān)的符號定義.將一個知識圖譜定義為KG=(E,R,T),其中E,R分別表示知識圖譜中所有實體、關(guān)系的集合,T表示所有三元組(h,r,t)的集合,其中h,t∈E,r∈R.
定義1.基于結(jié)構(gòu)的表示.h*TransH,t*TransH,r*是頭實體、尾實體和關(guān)系基于TransH的結(jié)構(gòu)化向量表示;h*TransR,t*TransR,r*是頭實體、尾實體和關(guān)系基于TransR的結(jié)構(gòu)化向量表示.
定義2.基于關(guān)系路徑的表示.如圖1所示,給定一個實體對(h,t)之間的一個關(guān)系路徑p=(r1,e1,…,el-1,rl),代表這個關(guān)系路徑上有l(wèi)個關(guān)系、l-1個實體.路徑的向量表示p*是通過將關(guān)系路徑中的實體和關(guān)系表示相加得到的.
Fig. 1 The example of relation path圖1 關(guān)系路徑示例
定義3.基于實體描述的表示.h*d和t*d是基于實體描述信息的實體向量表示,可以從對應(yīng)的實體描述信息中建模頭實體、尾實體的表示.
本文綜合考慮了關(guān)系路徑和實體描述等信息,構(gòu)建了PDRL模型.該模型是一個聯(lián)合模型,主要由關(guān)系路徑信息的表示和實體描述信息的表示2個模塊組成,模型的總體架構(gòu)如圖2所示.當(dāng)在不同模塊采用不同算法策略時,可獲得相應(yīng)的算法模型,基于此,本文提出了PDRL,DKRL(BERT)+TransR,PTransR這3個算法實現(xiàn)模型.
1) PDRL.該模型是一個聯(lián)合模型,主要包括2部分:①對知識圖譜中實體對之間的多步關(guān)系路徑進行表示;②考慮知識圖譜中實體對之間的直接關(guān)系,聯(lián)合知識圖譜中三元組結(jié)構(gòu)化信息以及實體描述信息進行表示.在關(guān)系路徑信息的表示中,首先通過路徑排序算法(path ranking algorithm, PRA)[33]獲取知識圖譜中實體對之間的關(guān)系路徑信息,然后對關(guān)系路徑進行表示得到組合向量,最后與實體對之間的直接關(guān)系向量進行相似度計算操作.在實體描述信息的表示中,首先使用BERT預(yù)訓(xùn)練模型對實體描述信息進行嵌入,然后得到實體描述的向量表示,最后將得到實體描述的向量表示與實體的向量表示在相同的向量空間中進行學(xué)習(xí).最終,將2部分任務(wù)的結(jié)果進一步綜合,共同訓(xùn)練學(xué)習(xí),獲取模型融合后實體和關(guān)系的向量表示,進而提高知識圖譜的表示能力及推理性能.PDRL是在TransR的基礎(chǔ)之上,融合了關(guān)系路徑與實體描述進行知識圖譜表示學(xué)習(xí);PDRL(TransH)是在TransH的基礎(chǔ)之上,融合了關(guān)系路徑與實體描述進行知識圖譜表示學(xué)習(xí);PDRL(-Entity)是在PDRL的基礎(chǔ)之上,對關(guān)系路徑進行組合表示時,不使用關(guān)系路徑上的實體信息.
2) DKRL(BERT)+TransR.該模型主要考慮實體描述信息的表示,在DKRL模型的基礎(chǔ)之上,使用BERT預(yù)訓(xùn)練模型代替CNN對實體描述信息進行處理,得到實體描述的向量表示,然后結(jié)合能夠解決實體對之間復(fù)雜關(guān)系的TransR模型,共同訓(xùn)練學(xué)習(xí).
3) PTransR.該模型主要考慮關(guān)系路徑信息的表示,在PTransE模型的基礎(chǔ)之上,使用了能夠解決實體對之間復(fù)雜關(guān)系的TransR模型代替TransE模型,進行訓(xùn)練學(xué)習(xí).
Fig. 2 The architecture of PDRL model圖2 PDRL模型架構(gòu)
在知識圖譜中,多步關(guān)系路徑可以提供看似不相連的實體對之間的關(guān)系,因此,本文在知識圖譜表示學(xué)習(xí)中引入了知識圖譜中的關(guān)系路徑信息.假定2個實體h和t之間存在多條可以相連的關(guān)系路徑,即P={p1,p2,…,pN},代表實體對h和t之間存在N條路徑,一條關(guān)系路徑示例如圖1所示.
本文需要給路徑三元組(h,p,t)定義一個類似TransE的能量函數(shù).首先,對實體對之間的關(guān)系路徑信息進行組合表示操作,在向量空間中表示關(guān)系路徑p.雖然實體對之間的關(guān)系路徑的語義信息很大程度上依賴路徑上的關(guān)系,但是路徑上的實體信息也對實體對之間的路徑推理起著重要作用,因此,本文考慮關(guān)系路徑上的關(guān)系和實體信息,將更有助于提高知識推理的準(zhǔn)確性.
使用加法運算將關(guān)系路徑的所有向量表示相加得到路徑的組合向量表示,定義該路徑的組合表示:
p*=r*1+e*1+…+e*l-1+r*l.
(4)
對于多步關(guān)系路徑三元組(h,p,t),本文參考式(1)TransE模型的能量函數(shù),將單條路徑三元組的能量函數(shù)定義為E(h,p,t)=‖h*+p*-t*‖,進一步可以進行如下計算分析:
E(h,p,t)=‖h*+p*-t*‖=
‖p*-(t*-h*)‖=‖p*-r*‖=E(p,r),
(5)
由式(5)可以看出,如果關(guān)系路徑p和實體對之間的關(guān)系r的向量的距離越近,即它們的相似度越高,則由路徑p推理得出的關(guān)系r可能性就越高.
根據(jù)已有針對事實三元組(h,r,t)的路徑約束資源分配算法[10],本文將考慮多條關(guān)系路徑時的綜合能量函數(shù):
(6)
(7)
其中,p∈P(h,t)表示依次遍歷實體對之間所有可能的關(guān)系路徑,R(p|h,t)表示給定實體對(h,t)之間存在關(guān)系路徑p的可靠性,Z是歸一化因子,E(h,p,t)表示式(5)單條路徑三元組(h,p,t)的能量函數(shù).
并不是所有的關(guān)系路徑都是可靠且對知識圖譜表示學(xué)習(xí)是有意義的,而且實體對之間的關(guān)系路徑會有很多,遍歷所有的關(guān)系路徑,計算消耗會很大,因此本文只考慮知識圖譜中實體對之間2步和3步的關(guān)系路徑.
DKRL模型[9]是一個經(jīng)典的模型,該模型通過融合實體描述進行知識圖譜表示學(xué)習(xí).該模型首先對實體描述進行關(guān)鍵詞提取,然后使用CBOW和CNN對其進行編碼,得到相對應(yīng)的表示,由于這些表示沒有包含實體描述的全部語義信息,將會造成一定語義信息的損失.因此,本文引入了BERT模型[11],對完整的實體描述信息進行表示.實體描述信息作為BERT模型的直接輸入,能夠最小化信息的損失,盡可能獲取實體描述的全部語義表示.
Fig. 3 BERT model structure[11]圖3 BERT模型結(jié)構(gòu)圖[11]
BERT模型[11]是谷歌于2018年發(fā)布的語言表示模型,在自然語言處理領(lǐng)域多項任務(wù)中都達到了最好的結(jié)果,是一項重要的突破,模型架構(gòu)如圖3所示.該模型使用了多層Transformer模型結(jié)構(gòu)[34],能夠捕捉語句中的雙向關(guān)系,和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)相比更加高效,能捕捉更長距離的依賴,在圖3中用Trm表示Transformer模型.對比之前的預(yù)訓(xùn)練模型,它能夠更好地捕捉文本的雙向上下文信息.
本文基于官方給定的BERT語言表征模型[11]對實體描述信息進行編碼建模.首先將實體描述信息轉(zhuǎn)換為詞嵌入、分割嵌入和位置嵌入;然后將其進行向量拼接,作為BERT模型的輸入,通過多層Transformer結(jié)構(gòu),得到該實體描述信息的句向量;最后對所有的句向量求平均值,得到基于實體描述信息的向量表示,將其作為該實體對應(yīng)的描述信息的實體表示.實體描述信息的整體建模流程,如圖4所示,其中是Si(i=1,2,…,n)表示的是第i句的句向量.定義實體描述信息的向量表示h*d:
(8)
Fig. 4 The representation of entity description information圖4 實體描述信息的表示
通過將知識圖譜中的三元組和實體描述信息相結(jié)合,能夠更好地學(xué)習(xí)實體和關(guān)系的最優(yōu)向量表示.基于結(jié)構(gòu)的表示能夠較好地捕捉知識圖譜的事實三元組信息,而基于實體描述的表示能夠較好地捕捉文本信息.通常情況下,相似的實體應(yīng)該有相似的描述信息,并且有相似的關(guān)鍵詞.這些關(guān)系難以通過結(jié)構(gòu)信息直接得到,但通過關(guān)鍵詞的內(nèi)在聯(lián)系可能會發(fā)現(xiàn)這些關(guān)系.在相同的連續(xù)低維的向量空間中,對基于結(jié)構(gòu)的表示和基于實體描述信息的表示同時進行學(xué)習(xí),將有可能得到更好的表示能力.由此,本文將基于實體描述信息表示的能量函數(shù)定義為
Ed=Edd+Eds+Esd,
(9)
其中,Edd=‖h*d+r*-t*d‖,Eds=‖h*d+r*-t*s‖,Esd=‖h*s+r*-t*d‖.h*s和t*s代表基于結(jié)構(gòu)的表示;h*d和t*d代表基于實體描述信息的表示.Edd代表頭尾實體都是基于實體描述信息表示的能量函數(shù);Eds代表頭實體是基于實體描述的表示、尾實體是基于結(jié)構(gòu)表示的能量函數(shù);Esd代表頭實體是基于結(jié)構(gòu)表示、尾實體是基于實體描述表示的能量函數(shù).基于這種方式定義能量函數(shù),能夠同時將結(jié)構(gòu)、實體描述等信息應(yīng)用到訓(xùn)練學(xué)習(xí)中,從而更好地獲取實體和關(guān)系的向量表示.
為了更好地學(xué)習(xí)實體和關(guān)系的最優(yōu)化表示,本文的PDRL模型通過將知識圖譜的三元組結(jié)構(gòu)信息、關(guān)系路徑和實體描述結(jié)合起來,綜合進行模型的訓(xùn)練.在相同的連續(xù)低維的向量空間中,學(xué)習(xí)實體和關(guān)系的向量表示.綜合的能量函數(shù)定義為
E=Es+Ep+Ed,
(10)
其中,Es是基于結(jié)構(gòu)表示的能量函數(shù),基于具體的實現(xiàn)算法不同可采用TransH或TransR所定義的能量函數(shù),Ep是式(6)定義的基于關(guān)系路徑表示的能量函數(shù),Ed是式(9)定義的基于實體描述信息表示的能量函數(shù).
基于式(10),可得到基于結(jié)構(gòu)表示和實體描述表示的能量函數(shù),當(dāng)Es分別采用TransH,TransR的定義時,可得具體的計算表達式,下面具體說明.
1) 在TransH基礎(chǔ)上融合實體描述模型的能量函數(shù):
ETransH(h,r,t)=‖h*TransH+r*-t*TransH‖+
‖h*d+r*-t*d‖+‖h*d+r*-t*TransH‖+
‖h*TransH+r*-t*d‖,
(11)
“三農(nóng)”工作是我國經(jīng)濟工作的重要組成部分,長期以來一直是黨的工作的重中之重。在決勝全面建成小康社會的背景下,如何滿足農(nóng)民追求美好生活需求,實施鄉(xiāng)村振興戰(zhàn)略是今后解決“三農(nóng)”問題,全面激活農(nóng)村發(fā)展新活力的重大行動。進一步建立健全城鄉(xiāng)融合發(fā)展的體制機制和政策體系,加快推進農(nóng)業(yè)農(nóng)村現(xiàn)代化,才能使農(nóng)村的“三農(nóng)”活力被真正激發(fā)起來。堅持農(nóng)業(yè)農(nóng)村優(yōu)先發(fā)展,鞏固和完善農(nóng)村基本經(jīng)營制度,深化農(nóng)村集體產(chǎn)權(quán)制度改革,保持土地承包關(guān)系穩(wěn)定并長久不變,把中國人的飯碗牢牢端在自己手中,構(gòu)建現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)體系,促進農(nóng)村一二三產(chǎn)業(yè)融合發(fā)展,這些都是推進“三農(nóng)”建設(shè)的根本。
2) 在TransR基礎(chǔ)上融合實體描述模型的能量函數(shù):
ETransR(h,r,t)=‖h*TransR+r*-t*TransR‖+
‖h*d+r*-t*d‖+‖h*d+r*-t*TransR‖+
‖h*TransR+r*-t*d‖,
(12)
其中,h*TransR=h*Mr,t*TransR=t*Mr.
在上述計算分析的基礎(chǔ)上,進一步構(gòu)造出損失函數(shù).定義基于邊界的優(yōu)化方法,并將其作為訓(xùn)練目標(biāo),通過最小化損失函數(shù)L來優(yōu)化該模型:
(13)
其中
(14)
(15)
其中,γ是衡量正確三元組和錯誤三元組的邊界參數(shù).E(h,r,t)是基于結(jié)構(gòu)和實體描述信息的能量函數(shù),當(dāng)使用基于TransH結(jié)構(gòu)化模型時,E(h,r,t)=ETransH(h,r,t);當(dāng)使用基于TransR結(jié)構(gòu)化模型時,E(h,r,t)=ETransR(h,r,t).E(p,r)是基于關(guān)系路徑的能量函數(shù).T是由正確三元組(h,r,t)構(gòu)成的正例集合,T′是由錯誤三元組(h′,r′,t′)構(gòu)成的負例集合.給出T′的定義:
T′={(h′,r,t)|h′∈E,(h′,r,t)?T}∪
{(h,r′,t)|r′∈R,(h,r′,t)?T}∪
{(h,r,t′)|t′∈E,(h,r,t′)?T},
(16)
式(16)中的T′是通過隨機替換正例集合中的頭實體、尾實體或者關(guān)系,得到相對應(yīng)的負實例集合.在模型訓(xùn)練過程中,使用隨機梯度下降法進行優(yōu)化操作,使其損失函數(shù)的值最小化.
本文實驗采用的數(shù)據(jù)集是FB15K[13],WN18[35],F(xiàn)B15K-237[36],WN18RR[37]標(biāo)準(zhǔn)數(shù)據(jù)集,數(shù)據(jù)集中的實體都有相對應(yīng)的簡短描述信息.其中,F(xiàn)B15K是從大規(guī)模知識庫FreeBase[4]中提取得到的,F(xiàn)B15K-237是FB15K的一個子集,并刪除了FB15K中的反向關(guān)系;WN18是從WordNet[38]知識庫中提取出來的,WN18RR是WN18的一個子集,并刪除了WN18中的反向關(guān)系.本文將數(shù)據(jù)集分別劃分為訓(xùn)練數(shù)據(jù)集、驗證數(shù)據(jù)集和測試數(shù)據(jù)集.所用數(shù)據(jù)集的相關(guān)情況,如表1所示:
Table 1 Statistics of the Used Datasets表1 所用數(shù)據(jù)集統(tǒng)計情況
3.2.1 測試模型
基于本文所提出的模型框架,可實現(xiàn)的預(yù)測模型包括:
1) DKRL(BERT)+TransR.該模型綜合了通過BERT模型編碼得到的實體描述向量表示與TransR一起進行訓(xùn)練學(xué)習(xí);
2) PTransR.該模型是在PTransE的基礎(chǔ)之上,將關(guān)系路徑與TransR一起進行訓(xùn)練學(xué)習(xí);
3) PDRL(TransH).該模型綜合了基于關(guān)系路徑的信息、基于實體描述的信息和基于TransH的結(jié)構(gòu)信息,共同進行訓(xùn)練學(xué)習(xí);
4) PDRL.該模型綜合了基于關(guān)系路徑的信息、基于實體描述的信息和基于TransR的結(jié)構(gòu)信息,共同進行訓(xùn)練學(xué)習(xí);
5) PDRL(-Entity).在PDRL的基礎(chǔ)之上,對關(guān)系路徑進行表示時,不使用關(guān)系路徑信息上的實體信息,進行訓(xùn)練學(xué)習(xí).
3.2.2 參數(shù)設(shè)置
模型調(diào)試過程中,如何獲取最優(yōu)的參數(shù)是非常重要的.模型訓(xùn)練時,設(shè)置參數(shù)包括:學(xué)習(xí)率λ∈{0.0005,0.001,0.002},邊界值γ∈{0.5,1.0,1.5,2.0},實體、關(guān)系和實體描述向量表示的維度D∈{50,80,100,150},batch的大小B∈{64,128,256,512,640,768}.通過實驗,得出本文所提預(yù)測模型的最優(yōu)參數(shù)設(shè)置為:學(xué)習(xí)率λ=0.001,邊界值γ=1.0,向量維度D=100,采用L1正則化參數(shù)優(yōu)化,并將懲罰因子設(shè)置為0.01,batch大小設(shè)置為512.
本文實驗包括鏈接預(yù)測和三元組分類2個任務(wù).這一部分將給出這2個任務(wù)的實驗結(jié)果并進行相應(yīng)的分析.由于實體對之間的關(guān)系路徑會有很多,若遍歷所有長度的關(guān)系路徑,計算消耗將會很大,因此,本文在模型效果驗證和分析中重點以知識圖譜中實體對之間的2步和3步的關(guān)系路徑為主.
3.3.1 鏈接預(yù)測
鏈接預(yù)測任務(wù)是給定一個三元組(h,r,t)中的任意2項,然后去預(yù)測其余一項,即預(yù)測知識圖譜中三元組缺失的實體或者關(guān)系,主要分為實體預(yù)測和關(guān)系預(yù)測2種.實體預(yù)測的任務(wù)旨在預(yù)測知識圖譜中三元組缺失的實體,即預(yù)測缺失三元組(h,r,?)中的尾實體t或預(yù)測缺失三元組(?,r,t)中的頭實體h.關(guān)系預(yù)測旨在預(yù)測給定2個實體之間的關(guān)系信息,即預(yù)測缺失三元組(h,?,t)中的關(guān)系r.對于這項任務(wù),現(xiàn)有研究通常根據(jù)得分函數(shù)對候選實體或關(guān)系進行排序,本文同樣采用這種方法.
鏈接預(yù)測任務(wù)通常采用的評估指標(biāo)主要有3個:平均倒數(shù)排名(mean reciprocal rank,MRR)、平均排名(mean rank,MR)和前n命中率(Hits@n).下面詳細介紹:
1)MRR.所有正確三元組的實體或關(guān)系的倒數(shù)排名的平均值,該指標(biāo)的值越大,說明模型的性能越好.
2)MR.所有正確三元組的實體或關(guān)系的排名的平均值,該指標(biāo)的值越小,說明模型的性能越好.
3)Hits@n.表示排名前n中的命中率,即所有正確三元組的實體或關(guān)系的排名在前n%的比例,該指標(biāo)的值越大,說明模型的表示學(xué)習(xí)的能力越強,表示越準(zhǔn)確.在本實驗中,使用Hits@1和Hits@10對實驗結(jié)果進行評估.
此外,還存在一個問題,在構(gòu)造負樣本時,替換頭實體、尾實體或者關(guān)系之后,所構(gòu)成的新三元組可能在知識圖譜中已經(jīng)存在,這就可能干擾正確三元組的實際排名情況,對評測結(jié)果產(chǎn)生一定的影響.因此,本文在進行鏈接預(yù)測實驗時,根據(jù)是否過濾已經(jīng)存在的三元組,將其分為“原始(raw)”和“過濾(filter)”兩種方式.
本文實現(xiàn)的多個模型以及基準(zhǔn)模型在FB15K和WN18數(shù)據(jù)集上進行實體預(yù)測和關(guān)系預(yù)測的實驗結(jié)果,分別如表2和表3所示.在FB15K-237和WN18RR數(shù)據(jù)集上鏈接預(yù)測的實驗結(jié)果,如表4所示.
從表2的結(jié)果可以觀察分析得到:
1) 在FB15K和WN18這2個數(shù)據(jù)集上,DKRL(BERT)+TransR模型的效果都要比DKRL(CNN)+TransE模型更好,在FB15K數(shù)據(jù)集上,Hits@10(filter)提升了5.8%.這不僅表明使用BERT模型能夠更好地得到實體描述信息的語義表示,也表明了結(jié)合基于TransR模型共同訓(xùn)練,能夠更好地利用知識圖譜的結(jié)構(gòu)信息,處理較為復(fù)雜的關(guān)系信息,效果更好.
Table 2 Entity Prediction Results on FB15K and WN18 Datasets表2 在FB15K和WN18數(shù)據(jù)集上實體預(yù)測的評估結(jié)果
2) PTransR模型的性能比PTransE模型表現(xiàn)優(yōu)異,也表明了在對關(guān)系路徑進行建模訓(xùn)練時,結(jié)合基于TransR的效果比基于TransE的效果要好,因為TransR能夠解決知識圖譜中較為復(fù)雜的關(guān)系信息.
3) 在FB15K和WN18數(shù)據(jù)集上,DKRL(BERT)+TransR和PTransR在各個評估指標(biāo)上都優(yōu)于TransR,這表明在基于TransR的結(jié)構(gòu)化模型上,不管融合關(guān)系路徑信息,還是實體描述信息,都能夠在一定程度上提高知識圖譜中實體和關(guān)系的表示能力,進一步促進對實體的預(yù)測.這是因為基于結(jié)構(gòu)化的模型只考慮了三元組的結(jié)構(gòu)化信息,當(dāng)缺失相應(yīng)的信息時,將無法進行預(yù)測,關(guān)系路徑和實體描述信息可以作為基于結(jié)構(gòu)化模型的有利補充,從而提高知識圖譜表示學(xué)習(xí)的能力和預(yù)測的性能.
4) 在2個數(shù)據(jù)集上,本文提出的PDRL模型在MR和Hits@10的評估指標(biāo)上均優(yōu)于所有基準(zhǔn)模型.在FB15K數(shù)據(jù)集上,與基準(zhǔn)模型中效果最好的PTransE模型相比,MR(filter)降低了24%,Hits@10(filter)提升了8.4%.這個對比結(jié)果表明,PDRL模型比其他的基準(zhǔn)模型更具有精確的知識表示能力.綜合基于關(guān)系路徑的信息、基于實體描述的信息和基于TransR的結(jié)構(gòu)信息,能夠很好地對知識圖譜中的實體和關(guān)系進行表示,促進實體預(yù)測的推理性能,在一定程度上提高預(yù)測的精度.
5) 對比PDRL(TransH)和PDRL的實驗結(jié)果,可以發(fā)現(xiàn)PDRL的效果要比PDRL(TransH)好.這表明在PDRL模型融合關(guān)系路徑與實體描述的基礎(chǔ)上,結(jié)合能夠更好地處理知識圖譜中復(fù)雜關(guān)系的結(jié)構(gòu)化模型,能夠使本文提出的PDRL模型具有更好的表示能力,從而提高實體預(yù)測的精度.
6) 對比DKRL(BERT)+TransR,PTransR,PDRL的實驗結(jié)果,可以發(fā)現(xiàn)PDRL的效果比另兩個模型的效果都好.在FB15K數(shù)據(jù)集上,評估指標(biāo)Hits@10(filter)比DKRL(BERT)+TransR提升了18.6%,比PTransR提升了5.1%,MR(filter)比DKRL(BERT)+TransR降低了31,比PTransR降低了10.這個對比結(jié)果表明,同時融合關(guān)系路徑與實體描述的語義信息比只使用關(guān)系路徑或者實體描述信息在提高模型的知識圖譜表示學(xué)習(xí)能力方面更加有效.
從表3的結(jié)果可以觀察分析得到:
1) 本文提出的模型DKRL(BERT)+TransR模型和模型PTransR在MR和Hits@1的評估指標(biāo)上都優(yōu)于基準(zhǔn)模型.這表明,融入實體描述信息和關(guān)系路徑信息,都能夠很好地提高關(guān)系預(yù)測的準(zhǔn)確性.同時,使用BERT模型代替CNN對實體描述信息進行處理,也表明了提高實體描述信息的語義表示能力也能夠更好地得到知識圖譜中實體和關(guān)系的表示,從而提高關(guān)系預(yù)測的精度.
2) 對比PDRL(-Entity)和PDRL的評估結(jié)果,差別不是很明顯,但也表明了對關(guān)系路徑進行表示時引入實體信息,在一定程度上更有助于對實體對之間關(guān)系的預(yù)測.
3) 本文提出的PDRL模型優(yōu)于其他模型的效果.這表明,同時融入關(guān)系路徑與實體描述,可以作為基于結(jié)構(gòu)化模型的補充,能夠提高知識圖譜表示學(xué)習(xí)能力,促進關(guān)系的預(yù)測.
在鏈接預(yù)測實驗中,本文還評估了PDRL模型與一些較為先進的基準(zhǔn)模型在FB15K-237和WN18RR數(shù)據(jù)集上的實驗效果.從表4可以看出:
1) 本文提出的PDRL模型與其他先進的基準(zhǔn)模型相比,達到了更高的水平.在FB15K-237和WN18RR這2個數(shù)據(jù)集上,與基準(zhǔn)模型中最好的結(jié)果相比,PDRL模型在評估指標(biāo)Hits@1上分別提升了2.4%和3%,這表明PDRL模型通過融合關(guān)系路徑與實體描述信息對基于結(jié)構(gòu)化的TransR模型進行了有利的補充,能夠較好地提高知識圖譜表示學(xué)習(xí)的能力,從而提高預(yù)測的性能.
2) 對比PDRL模型和MINERVA的實驗結(jié)果,可以發(fā)現(xiàn)PDRL的效果比MINERVA的效果好.這表明,在基于結(jié)構(gòu)化的模型上,引入關(guān)系路徑與實體描述信息,比單獨地使用強化學(xué)習(xí)通過關(guān)系路徑對知識圖譜中缺失的信息進行預(yù)測的性能好.
Table 3 Relation Prediction Results on FB15K and WN18 Datasets表3 在FB15K和WN18數(shù)據(jù)集上關(guān)系預(yù)測的評估結(jié)果
Table 4 Link Prediction Results on FB15K-237 and WN18RR表4 鏈接預(yù)測的評估結(jié)果
3.3.2 三元組分類
三元組分類任務(wù)旨在判斷給定的一個三元組(h,r,t)是否正確,可以視為一個二分類任務(wù).為每個關(guān)系設(shè)置特定的閾值σ,如果三元組(h,r,t)的距離得分小于這個閾值σ,就認為這個三元組是正確的,否則是錯誤的.實驗最終的評估標(biāo)準(zhǔn)為所有關(guān)系評估指標(biāo)的平均值.閾值σ是通過在驗證集上訓(xùn)練、最大化分類準(zhǔn)確率得到的.本節(jié)實驗采用與鏈接預(yù)測任務(wù)相同的實驗設(shè)置,構(gòu)造負樣本時,為了平衡數(shù)據(jù),使產(chǎn)生的負樣本數(shù)量與正樣本數(shù)量一致.各個模型在FB15K和WN18數(shù)據(jù)集上三元組分類的實驗結(jié)果,如表5所示.
從表5的結(jié)果可以觀察分析得到,本文提出的3個模型在三元組分類任務(wù)中的表現(xiàn)均優(yōu)于其他基準(zhǔn)模型,其中PDRL模型的效果最好,在FB15K和WN18數(shù)據(jù)集上,與TransE模型相比,PDRL模型的準(zhǔn)確率分別提高了7.2%和3.6%.這表明融合關(guān)系路徑與實體描述信息,對知識圖譜表示學(xué)習(xí)具有更好的促進作用,能夠更準(zhǔn)確地判斷三元組,進而提高知識推理的性能.
為了能夠進一步分析參數(shù)的設(shè)置對模型的影響,給出了3個預(yù)測模型訓(xùn)練的參數(shù)調(diào)試示意圖,如圖5和圖6所示.設(shè)定模型的最優(yōu)學(xué)習(xí)率λ=0.001,在FB15K和WN18數(shù)據(jù)集上分別比較了PDRL,DKRL(BERT)+TransR,PTransR這3個預(yù)測模型隨著嵌入維度和邊界參數(shù)的變化,三元組分類任務(wù)的準(zhǔn)確率的變化情況.從圖5和圖6中可以直觀地觀察到:1)即使沒有參數(shù)的調(diào)試,和其余2個模型相比,PDRL模型也具有較高的三元組分類能力;2)在2個數(shù)據(jù)集上,嵌入維度D=100,邊界值γ=1.0時,3個模型三元組分類的準(zhǔn)確率都達到最高.
Table 5 Accuracy on Triple Classification表5 三元組分類的準(zhǔn)確率 %
Fig. 5 Tuning of embedding dimensions圖5 嵌入維度的調(diào)試
Fig. 6 Tuning of margin圖6 邊界參數(shù)的調(diào)試
本文提出了一種融合關(guān)系路徑與實體描述的新型知識圖譜表示學(xué)習(xí)模型,即PDRL模型.該模型綜合考慮了知識圖譜中的關(guān)系路徑信息和實體描述信息.首先,對實體對之間的關(guān)系路徑上的實體和關(guān)系信息進行組合表示,得到相對應(yīng)的關(guān)系路徑向量表示,并與實體對之間的關(guān)系進行了相似度計算;然后,通過BERT模型對實體描述信息進行編碼表示,得到實體相對應(yīng)的實體描述信息表示,在此基礎(chǔ)上將實體描述信息表示與TransR模型相結(jié)合;最后,整合為一個聯(lián)合模型,共同訓(xùn)練學(xué)習(xí).在FB15K,WN18,F(xiàn)B15K-237,WN18RR數(shù)據(jù)集上的實驗結(jié)果表明,本文提出的PDRL模型能夠很好地提升鏈接預(yù)測和三元組分類任務(wù)的性能,從而能夠更好地支撐知識推理.
在未來的工作中,我們將進一步研究基于知識圖譜表示學(xué)習(xí)的推理技術(shù),并希望能夠在3個方面進行改進:1)在多步關(guān)系路徑的語義獲取中,可以考慮使用強化學(xué)習(xí)來獲取實體對之間的關(guān)系路徑,提高關(guān)系路徑表示的質(zhì)量.2)在實體描述信息的處理中,可以考慮互聯(lián)網(wǎng)中的文本信息,補充實體對應(yīng)的實體描述信息缺失的情況,擴充文本信息的來源.同時,也可以使用注意力機制,提升實體描述表示的性能.3)可以考慮融合更多的知識圖譜的額外信息,例如屬性信息和實體類型信息,綜合提高知識圖譜表示學(xué)習(xí)的性能.
作者貢獻聲明:寧原隆提出研究方法,負責(zé)完成實驗,撰寫論文,并修改與校對論文;周剛負責(zé)論文的指導(dǎo)工作,提出修改意見并審核論文;盧記倉負責(zé)論文結(jié)構(gòu)的指導(dǎo),以及內(nèi)容的修改和校對;楊大偉負責(zé)部分實驗的指導(dǎo);張?zhí)镓撠?zé)審閱和校對論文.