朱艷麗,楊小平,王 良,張志宇
(1. 中國人民大學(xué) 信息學(xué)院 北京 100872;2. 河南科技學(xué)院 信息工程學(xué)院,河南 新鄉(xiāng) 453003)
實際應(yīng)用中,研究人員發(fā)現(xiàn)雖然現(xiàn)有知識圖譜是由大量的事實三元組組成,但仍存在不完備性問題,進而引發(fā)對大規(guī)模知識圖譜自動補全方面的大量研究[1-4]。本文旨在提供一種新的知識圖譜表示方法,對具有不對等特征的知識圖譜中的實體和關(guān)系進行建模,獲得其更精確的表示,提高知識圖譜補全性能。在研究中,我們發(fā)現(xiàn)現(xiàn)有知識圖譜,尤其是領(lǐng)域知識圖譜在語義、鏈接結(jié)構(gòu)和關(guān)系兩端頭尾實體數(shù)量上存在很大差異[5-6],即知識圖譜中的頭尾實體具有不對等特征?,F(xiàn)有的知識圖譜表示方法,包括TransR[7],雖然有良好的知識表達(dá)能力,但對具有不對等特征的知識圖譜中實體和關(guān)系建模仍存在以下兩大缺陷。
缺陷一知識圖譜中實體和關(guān)系建模時,沒有考慮其在語義、局部鏈接結(jié)構(gòu)和關(guān)系兩端的實體數(shù)量三個方面存在的不對等特征,平等對待頭尾實體并以同樣的方式將它們嵌入到關(guān)系空間中。具體來說: ①頭尾實體的語義不對等,大多數(shù)頭尾實體來自不同的語義空間; ②頭尾實體的局部鏈接結(jié)構(gòu)不對等,同一關(guān)系兩端的頭尾實體的入度或出度可能不同,影響其所涵蓋的語義及其在知識圖譜中出現(xiàn)的次數(shù); ③關(guān)系兩端的頭尾實體數(shù)量不對等,一些關(guān)系鏈接許多頭(尾)實體和很少的尾(頭)實體,如關(guān)系-syntax-ns#type,其每個頭節(jié)點對應(yīng)平均尾節(jié)點個數(shù)是1.4,而每個尾節(jié)點對應(yīng)平均頭節(jié)點的個數(shù)是1 642。
缺陷二每個關(guān)系單獨配置一個投影矩陣,不同關(guān)系的嵌入是獨自學(xué)習(xí)的,沒有對關(guān)系之間的相關(guān)性進行建模,導(dǎo)致知識共享困難,泛化能力差。具體來說,知識圖譜中不同的關(guān)系可連接到一個共同的實體,關(guān)系之間顯然存在一定程度的相關(guān)性。邏輯相關(guān)或相似的關(guān)系由于彼此之間相關(guān)性強,關(guān)系之間存在共同信息[8]。但采用TransR建模方式,這些關(guān)系可能被投影在不同的空間,難以共享關(guān)系之間的共同信息。在訓(xùn)練過程中只有包含足夠三元組關(guān)系才能學(xué)到較好的嵌入,而包含極少三元組的關(guān)系的投影矩陣只能得到極少次數(shù)的更新,難以學(xué)到較好的嵌入,導(dǎo)致泛化能力差[9]。
近年來,研究人員已經(jīng)提出許多知識圖譜補全方法,概括起來可分為兩大類[12]: 第一類是基于符號和邏輯的表示方法。采用這種表示方式,知識圖譜是符號化的,并具有邏輯性,因此數(shù)值化的機器學(xué)習(xí)方法和技術(shù)均不能應(yīng)用到知識圖譜上;第二類是知識圖譜嵌入表示方法。該方法在保留原始知識圖譜特定屬性的同時,將實體和關(guān)系映射到低維向量空間中,使得一大批高效的數(shù)值化計算和推理方法得以適用,在鏈接預(yù)測和關(guān)系抽取等多個任務(wù)中都顯示出其有效性。與第一類方法相比,第二類方法更容易計算語義相關(guān)性,是目前進行知識圖譜補全的主流方法,具有很好的泛化能力。鑒于上述優(yōu)點,研究人員提出了若干知識圖譜表示模型,包括平移距離模型和語義匹配模型兩大類[13]。其中,平移距離模型采用基于距離的評分函數(shù),典型代表有TransE[1]及其擴展模型、高斯嵌入模型KG2E[14]和結(jié)構(gòu)嵌入模型SE[15]等。而語義匹配模型則使用基于相似度的評分函數(shù),代表性工作有雙線性模型RESCAL[2]及其擴展模型、語義匹配能量模型SME[16]和神經(jīng)張量網(wǎng)絡(luò)模型NTN[3]等。
本文主要考慮平移距離模型的知識圖譜表示方法,利用正負(fù)例元組之間基于邊際的損失函數(shù)將實體向量和關(guān)系向量關(guān)聯(lián)起來,并優(yōu)化該損失函數(shù),當(dāng)達(dá)到優(yōu)化目標(biāo)時,就可以學(xué)得知識圖譜中每個實體的向量和關(guān)系的向量,從而更好地應(yīng)用于大規(guī)模知識圖譜補全中[17]。TransE是其中最具有代表性的方法,在取得較好的預(yù)測表現(xiàn)的同時,保持足夠的簡潔性和高效性。但由于忽略實體的語義在不同的關(guān)系下可能不一樣,TransE在處理自反、一對多、多對一和多對多等復(fù)雜關(guān)系時存在局限性,不能良好地區(qū)分具有復(fù)雜關(guān)系的實體。為解決上述缺陷,TransR最先將實體嵌入到關(guān)系相關(guān)的空間中,將實體和關(guān)系放置在不同的空間中,然后在投影空間中對平移屬性進行建模。典型的模型還有TransD[18]、STransE[10]和ITransF[9]等。
以實驗所用的知識圖譜WN18、FB15K和 MPBC_20為例,分析其在語義、局部鏈接結(jié)構(gòu)和關(guān)系兩端的實體數(shù)量三個方面存在的不對等特征。
知識圖譜中的知識通常用三元組
知識圖譜是有向圖,頭尾實體的局部知識結(jié)構(gòu)不對等指的是關(guān)系兩端節(jié)點的入度或出度不同。圖1所示MPBC_20訓(xùn)練集中前10 000個三元組頭尾節(jié)點的入度和出度的統(tǒng)計信息,其中圖(a)和(b)分別顯示的是頭尾節(jié)點的入度和出度信息,橢圓形以內(nèi)的點具有相同的入度(出度)值。只有當(dāng)三元組在圖(a)和(b)都落到橢圓區(qū)域內(nèi),才能稱其頭尾實體的局部知識結(jié)構(gòu)對等。從圖中可清楚地看到,具有不對等的特征的三元組在訓(xùn)練集中占有很大比例。因此,該知識圖譜頭尾實體的局部鏈接結(jié)構(gòu)具有不對等特征,而這種特征影響實體所涵蓋的語義及其在知識圖譜中學(xué)習(xí)時出現(xiàn)的次數(shù)。
圖1 MPBC_20訓(xùn)練集中前10000個三元組頭尾節(jié)點的入度和出度的統(tǒng)計信息
以基準(zhǔn)知識圖譜FB15K和WN18為例,從統(tǒng)計角度分析知識圖譜的關(guān)系兩端的實體數(shù)量不對等。對于知識圖譜的每一種關(guān)系,首先統(tǒng)計①每個頭實體對應(yīng)尾實體的平均數(shù)量(記為tph)和②每個尾實體對應(yīng)頭實體的平均數(shù)量(記為hpt)兩方面信息。然后計算出這兩方面數(shù)值的均值(mean)和標(biāo)準(zhǔn)偏差(standard deviation,STDEV),用于衡量知識圖譜的不對等程度及其變化情況。其中,均值表示整個知識圖譜中每個頭(尾)節(jié)點平均有多少尾(頭)節(jié)點相應(yīng),而標(biāo)準(zhǔn)偏差反映出關(guān)系兩端節(jié)點的不對等映射程度的變化情況。直觀上看,均值越大,知識圖譜不對等程度越高,而標(biāo)準(zhǔn)偏差值越大,則知識圖譜不對等程度變化范圍越大。表1列出實驗所用數(shù)據(jù)集上頭(尾)節(jié)點平均對應(yīng)尾(頭)節(jié)點的相關(guān)統(tǒng)計信息。
表1中WN18數(shù)據(jù)集的tph 的均值為4.0,而hpt的均值為4.1,這說明WN18數(shù)據(jù)集從整體上關(guān)系兩端的實體數(shù)量是不對等的。標(biāo)準(zhǔn)偏差值6.0和6.2則表明不對等程度在不同的關(guān)系中存在較大的差異。與WN18信息對比后,我們發(fā)現(xiàn)FB15K數(shù)據(jù)集中tph和hpt的值分別為7.8和16.5,高于WN18中的相應(yīng)值,說明該數(shù)據(jù)集的關(guān)系兩端的實體數(shù)量不對等程度較WN18高。另外,其hpt和tph的標(biāo)準(zhǔn)偏差值相當(dāng)大,表明不對等程度在該數(shù)據(jù)集的不同關(guān)系中存在相當(dāng)大的差異。而MPBC_20中尾實體對應(yīng)的平均頭實體數(shù)量是頭實體對應(yīng)的平均尾實體數(shù)量的39.5倍,表明MPBC_20數(shù)據(jù)集中關(guān)系兩端的實體數(shù)量不對等程度非常高。其hpt標(biāo)準(zhǔn)偏差的值高達(dá)375.2,表明從尾部實體到頭部實體的不對等程度在不同的關(guān)系中差異非常大。
表1 數(shù)據(jù)集中關(guān)系兩端節(jié)點數(shù)量的統(tǒng)計信息
上述統(tǒng)計分析結(jié)果表明,實驗中用到的三個知識圖譜均存在不同程度的不對等問題,尤其在領(lǐng)域知識圖譜中該問題更為嚴(yán)重。具體地,以MPBC_20為例,頭實體對應(yīng)的尾實體的數(shù)量遠(yuǎn)遠(yuǎn)小于尾實體對應(yīng)的頭實體數(shù)量,這意味著在學(xué)習(xí)的過程中,尾實體這邊的實體出現(xiàn)頻繁,頭實體這邊的實體出現(xiàn)次數(shù)少,所以兩者不能同等對待。我們應(yīng)該在建模中分別對待它們,以便學(xué)習(xí)到合理的實體和關(guān)系嵌入。
針對TransR模型的兩大缺陷,TransRD模型分別采用頭尾實體不對等投影和建模關(guān)系相關(guān)性方法來加以解決。
TransRD模型將頭尾實體與其相應(yīng)的投影矩陣關(guān)聯(lián)起來,根據(jù)不對等程度和變化情況自適應(yīng)地動態(tài)調(diào)整參數(shù)和設(shè)置投影矩陣的秩。具體地,首先,對頭尾實體采用不同的投影矩陣,使其可以來自不同的語義空間,從而避免現(xiàn)有模型中語義空間上的同質(zhì)性假設(shè),實現(xiàn)從語義上對頭尾節(jié)點進行區(qū)分;其次,根據(jù)不對等特征采用ADADELTA算法自適應(yīng)地實現(xiàn)學(xué)習(xí),使得頻繁實體具有較大的學(xué)習(xí)率,這樣一來不會出現(xiàn)因為訓(xùn)練時間過長而過擬合現(xiàn)象。而不頻繁實體則設(shè)置較小的學(xué)習(xí)率,使其有充分的學(xué)習(xí)時間,也不會出現(xiàn)欠擬合現(xiàn)象;最后,根據(jù)知識圖譜中頭尾實體的數(shù)量不對等程度確定相應(yīng)投影矩陣的秩。例如,對于知識圖譜MPBC_20,由于每個尾實體對應(yīng)的頭實體數(shù)量非常大,我們應(yīng)該對頭實體這端采用低秩投影矩陣。對于尾部實體這端可直接使用滿秩的投影矩陣,因為相對頭實體而言,尾實體的數(shù)量相當(dāng)小。
TransR模型采用不對等投影方法后,由于每個關(guān)系單獨配置一個投影矩陣,忽略其內(nèi)在相關(guān)性,仍存在參數(shù)過多和知識共享困難問題,其他典型的關(guān)系投影方法TransD[18]和 STransE[10]也存在同樣的問題。上述問題主要是由于忽略關(guān)系的內(nèi)在相關(guān)性造成的,導(dǎo)致邏輯相關(guān)或相似的關(guān)系可能被投影在不同的空間,難以共享這些關(guān)系之間存在的共同信息,使得稀有關(guān)系在訓(xùn)練中只能得到極少次數(shù)的更新,泛化能力差。因此,我們的方法通過建模關(guān)系的內(nèi)在相關(guān)性來改善上述問題,鼓勵在同一組關(guān)系的投影矩陣中共享公共信息,減輕了數(shù)據(jù)稀疏問題。根據(jù)關(guān)系對之間的相關(guān)程度,對關(guān)系按語義進行分組,采用語義相似關(guān)系使用同一對投影矩陣的方式來提高知識表示的性能。
3.2.1 關(guān)系之間存在相關(guān)性
將TransE模型學(xué)習(xí)出的關(guān)系向量組成嵌入關(guān)系矩陣R∈Rd×Nr,其中,Nr是關(guān)系的數(shù)量,d是嵌入空間的維度。采用皮爾遜相關(guān)系數(shù)(PCC)來證明知識圖譜中關(guān)系之間存在相關(guān)性。具體地,首先根據(jù)嵌入關(guān)系矩陣R來計算每個關(guān)系對的PCC值,得到一個對稱矩陣,記為P,其任意元素Pij的值表示第i個關(guān)系和第j個關(guān)系構(gòu)成的關(guān)系對的相關(guān)度,該矩陣的對角線的值通常為1;其次,統(tǒng)計出PCC值超過給定閾值的相關(guān)關(guān)系所占的百分比。掃描矩陣P所有列,對于每一列,如果該列除對角線元素以外的任一元素的值大于等于給定閾值,相關(guān)關(guān)系的數(shù)量加1;最后,我們得到如圖2所示的結(jié)果。其中,PCC值如果在區(qū)間[0.2,0.4)表示弱相關(guān),在[0.4,0.6)表示中度相關(guān),而在[0.6,1.0]則表示強相關(guān)。從圖中可看出,本文實驗所用的三個數(shù)據(jù)集WN18、FB15K和MPBC_20中,至少有70%的關(guān)系強于弱相關(guān),約50%的關(guān)系強于中度相關(guān),還有約20%的關(guān)系彼此之間具有很強的相關(guān)性。以上結(jié)果充分證明這三個數(shù)據(jù)集中關(guān)系之間存在相關(guān)性。
圖2 數(shù)據(jù)集中強于弱相關(guān)、中度相關(guān)和強相關(guān)的相關(guān)關(guān)系所占比例
3.2.2 按相關(guān)性分組建模
3.3.1 模型
評分函數(shù)如式(3)所示。
fr(h,t)=-||hp+r-tp||L1/L2
(3)
其中r∈Rm,正確三元組的分?jǐn)?shù)可能會更高,而損壞三元組的分?jǐn)?shù)可能會更低。實驗中,我們約束‖h‖2≤1,‖r‖2≤1,‖t‖2≤1,‖hp‖2≤1,‖tp‖2≤1。
3.3.2 訓(xùn)練目標(biāo)
我們將下面的基于邊際的評分函數(shù)定義為訓(xùn)練目標(biāo),如式(4)所示。
(4)
其中[x]+?max(0,x),γ是邊界參數(shù),Δ是由正確三元組構(gòu)成的訓(xùn)練集,而Δ′={(h′,r,t)|h′∈ε,(h′,r,t)?Δ}∪{(h,r,t′)|t′∈ε,(h,r,t′)?Δ} 是由損壞三元組構(gòu)成的集合。采用TransH[20]中的采樣策略替換頭實體或尾實體。具體模型訓(xùn)練時,采用經(jīng)典的隨機梯度下降SGD(stochastic gradient descent)法來優(yōu)化上述目標(biāo)函數(shù)。
3.3.3 算法實現(xiàn)
為了加快收斂速度,避免過擬合,我們使用TransE模型訓(xùn)練出的實體向量和關(guān)系向量進行初始化。使用的轉(zhuǎn)換矩陣是對稱矩陣,并用單位矩陣進行初始化。SGD使用全局學(xué)習(xí)率更新所有參數(shù),不考慮數(shù)據(jù)特征。但是,從前面的分析可以看出,不頻繁的實體需要更長的學(xué)習(xí)時間,而頻繁的實體需要更短的學(xué)習(xí)時間。因此,我們采用了一種稱為ADADELTA自適應(yīng)的梯度下降方法進行梯度更新。ADADELTA 使用 RMS ofE[g2]t和E[Δx2]t-1來更新參數(shù),如式(5)所示。
(5)
在公式(5)中,分子RMS[Δx]t-1量值滯后于分母1個時間單位. 其中之前的平方梯度和參數(shù)更新如式(6)、式(7)所示。
其中,ε是常量,ρ為衰減常數(shù)。TransRD實施細(xì)節(jié)詳見算法1。
算法1 Learning TransRD
13: if‖ep‖2>1,ep=hp,tp,hp′ort′pthen14: ep←ep/‖ep‖215: endif16: endfor17: for t=1:Tdo18: computegt19: E[g2]t←ρE[g2]t-1+(1-ρ)gt20: Δxt=-RMS[Δx]t-1RMS[g]tgt21: E[Δx2]t=ρE[Δx2]t-1+(1-ρ)Δx2t22: xt=xt-1+Δxt23: endfor24:endloop
為了評估鏈接預(yù)測的效果,我們首先使用TransR[7]使用的WN18(Wordnet)和FB15K(Freebase)數(shù)據(jù)集進行實驗,并使用與TransR相同的方法分割訓(xùn)練集、驗證集和測試集。還使用不對等特征顯著的領(lǐng)域知識圖譜 MPBC_20來驗證所提方法的有效性。該數(shù)據(jù)集有175 624個實體,20個關(guān)系,以及811 785個三元組。我們按8∶1∶1的比例生成訓(xùn)練集、驗證集和測試集,訓(xùn)練集有649 439個三元組,驗證集有81 603個三元組,測試集有80 743個三元組。在MPBC_20中,我們發(fā)現(xiàn)有實體出現(xiàn)在驗證集和測試集中,但沒有出現(xiàn)在訓(xùn)練集中,這類實體稱為空實體。在驗證集和測試集中,分別有7 910(9.7%)和7 915(9.8%)個三元組包含上述實體。由于本文模型不能像NTN模型[3]那樣從訓(xùn)練出的詞向量中獲得實體的向量表示,需去除驗證集和測試集中包含空實體的三元組。三個數(shù)據(jù)集的信息如表2所示。
表2 實驗所用數(shù)據(jù)集的統(tǒng)計信息
為了減少產(chǎn)生錯誤三元組的機會,我們采用TransH[20]首先提出的方法替換頭或尾實體生成損壞三元組。具體來說,在關(guān)系r的所有三元組中,我們首先得到兩個統(tǒng)計量: ①每個頭實體對應(yīng)尾實體的平均數(shù)量tph; ②每個尾實體對應(yīng)頭實體的平均數(shù)量hpt。然后定義一個參數(shù)為p的伯努利分布,如式(8)所示。
(8)
給定關(guān)系r的一個黃金三元組(h,r,t),我們用概率1-p替換頭實體來生成損壞三元組,用概率p替換尾實體來生成損壞三元組。
4.3.1 評價準(zhǔn)則
與TransR[7]類似,采用黃金三元組的平均排序得分(記為Mean Rank)和黃金三元組排序不大于10的比例(記為Hits@10)作為評估準(zhǔn)則。在本文中,我們報告“過濾”結(jié)果,即將“干擾”的損壞三元組從訓(xùn)練集、驗證集和測試集中去除,然后得到正確實體的排名。我們報告每個模型的Mean Rank和Hits@10值。Mean Rank值越低或Hits@10值越高,準(zhǔn)確性越高。
4.3.2 實施細(xì)節(jié)
在WN18和FB15K上,本文參考TransR[7]的實驗結(jié)果。訓(xùn)練TransRD時,使用ADADELTA算法進行優(yōu)化,選擇邊界值γ為{1,2,3,4,4.5,5,5.5,6,6.5,7,8},實體和關(guān)系向量的維度n和m為 {20,50,100},塊大小B為{100,120,200,480,1 400,4 800},延遲率ρ為{0.8,0.85,0.90,0.95,0.99}和常量ε為{1E-2,1E-4,1E-6,1E-8}。用“unif.”表示傳統(tǒng)的等概率替代頭實體或者尾實體的方法,用 “bern.” 表示使用伯努利抽樣策略的方法,即用不同的概率來代替頭實體或者尾實體。
最優(yōu)參數(shù)由驗證集確定。采用等概率采樣時,最優(yōu)參數(shù)配置如下: 在WN18上,ρ=0.95,ε=1E-6,γ=6,m=n=100,B=100; 在FB15K上,ρ=0.90,ε=1E-4,γ=1,m=n=50,B=4 800; 在MPBC_20上,ρ=0.99,ε=1E-8,γ=6,m=n=100,B=200。采用伯努利采樣時,最優(yōu)參數(shù)配置如下: 在WN18上,ρ=0.85,ε=1E-8,γ=6.5,m=n=100,B=200; 在FB15K上,ρ=0.99,ε=1E-8,γ=1,m=n=100,B=480; 在MPBC_20上ρ=0.90,ε=1E-6,γ=5.5,m=n=100,B=100。對于這三個數(shù)據(jù)集,本實驗將所有的訓(xùn)練三元組迭代2 000次。
鏈接預(yù)測是對一個黃金三元組(h,r,t)缺失的h或t進行預(yù)測,我們將去掉頭或尾實體,然后依次用集合中的所有實體替換本文測試集中的每個三元組。我們首先計算這些損壞三元組的得分,然后按降序排列它們,最終記錄正確實體的排名。該任務(wù)強調(diào)的是正確實體的排名,而不是只找到最好的一個實體。
4.4.1 基于WN18和FB15K數(shù)據(jù)集的鏈接預(yù)測實驗
在WN18和FB15K上的實驗結(jié)果如表3所示,實驗的最優(yōu)值進行加粗以突出顯示。從表3我們可以得出以下結(jié)論: ①在WN18上,TransRD模型相比于其他模型達(dá)到最好的性能,Mean Rank指標(biāo)和Hits@10指標(biāo)的效果遠(yuǎn)優(yōu)于其他模型(包括TransR、STransE和ITransF),說明我們將頭尾實體分開投影和建模關(guān)系的內(nèi)在相關(guān)性相結(jié)合是成功的; ②在FB15K上,TransRD模型性能與STransE的結(jié)果接近,但在Hits@10指標(biāo)上低于ITransF。這可能是由于TransRD在對關(guān)系按語義進行分組時所使用的初始化向量是從TransE模型得到的向量,而數(shù)據(jù)集FB15K上關(guān)系類型有1 365種,某些關(guān)系類型的三元組數(shù)量過少,不能有效識別相似關(guān)系,難以確定合適關(guān)系分組數(shù)量; ③在WN18和FB15K上,與TransR相比,TransRD模型將Mean Rank值最多降低了31,而hit @10的準(zhǔn)確率至少提高了3.3%,該結(jié)果證明TransRD建模時考慮知識圖譜的不對等特征能減少其在鏈接預(yù)測中的負(fù)面影響。同時,與STransE比較,TransRD同樣取得一定的進步,這表明建模關(guān)系的內(nèi)在相關(guān)性方法的有效性; ④與等概率采樣相比,伯努利采樣可以減少錯誤三元組的產(chǎn)生。
表3 WN18和 FB15K 數(shù)據(jù)集上鏈接預(yù)測計算結(jié)果
為了進一步驗證上面的結(jié)論,深入挖掘分析FB15K上不同關(guān)系不同映射類型的相應(yīng)結(jié)果,具體數(shù)值如表4所示。從表4可以看出,對于1-to-N和N-to-1關(guān)系類別,TransRD的表現(xiàn)優(yōu)于TransR/ CTransR等模型。這表明分別映射頭尾實體有助于建模復(fù)雜的關(guān)系。
表4 FB15K 數(shù)據(jù)集基于關(guān)系類型的計算結(jié)果
續(xù)表
4.4.2 基于MPBC_20數(shù)據(jù)集的鏈接預(yù)測實驗
TransRD模型與基準(zhǔn)模型TransE、TransH和TransR在MPBC_20上的鏈接預(yù)測實驗結(jié)果如圖3所示。從圖3中我們可以看出: ①在Hits@10指標(biāo)上,TransRD模型顯著優(yōu)于其他基準(zhǔn)模型,這個結(jié)果表明TransRD模型能獲得具有不對等特征的知識圖譜的實體和關(guān)系更精確表示,而TransE、TransH和TransR在該任務(wù)中取得較為接近的結(jié)果; ②TransRD的Mean Rank值低于TransR,這說明采用分別映射頭尾實體并語義相似關(guān)系使用相同的轉(zhuǎn)換矩陣對方法的有效性。
表5給出在MPBC_20上不同關(guān)系不同映射類型的相應(yīng)結(jié)果。從表5中可以看出,在N-to-1和N-to-N兩種關(guān)系類型上,TransRD的性能優(yōu)于TransR等模型。這也說明TransRD對實體和關(guān)系的嵌入更加合理。而TransR和TransRD都不能很好地處理1-to-N關(guān)系。這可能由于在該數(shù)據(jù)集中此類關(guān)系的三元組僅占5%,使得模型在訓(xùn)練過程中只能接觸非常少的三元組,導(dǎo)致性能不佳。
圖3 MPBC_20數(shù)據(jù)集上鏈接預(yù)測對比結(jié)果
TasksRelation CategoryPredicting Head(Hits@10)Predicting Tail(Hits@10)1-to-11-to-NN-to-1N-to-N1-to-11-to-NN-to-1N-to-NTransE(unif.) [1]62.621.761.747.463.133.575.155.8TransE(bern.) [1]63.224.737.948.863.432.581.154.5TransH(unif.) [20]58.724.362.447.959.139.376.456.1TransH(bern.)[20]60.622.342.648.761.336.880.953.8TransR(unif.) [7]59.223.248.648.360.337.271.561.3TransR(bern.) [7]61.224.955.350.562.341.081.360.3Our TransRD(unif.)62.822.358.449.363.237.778.562.4Our TransRD(bern.)61.121.430.451.162.038.582.159.9
通過前面的分析,我們發(fā)現(xiàn)知識圖譜中的三元組中的頭尾實體在語義、局部鏈接結(jié)構(gòu)和數(shù)量上具有不對等特征。為了讓這種不對等特征不影響模型的準(zhǔn)確性,使得模型更容易訓(xùn)練,我們對TransR模型進行改進。頭尾實體采用不同的投影矩陣,并自適應(yīng)地調(diào)整參數(shù),所得到的模型稱為STransR。為了驗證該方法更適應(yīng)具有不對等特征的知識圖譜嵌入表示,將基準(zhǔn)模型TransR和改進的模型STransR在三個數(shù)據(jù)集上訓(xùn)練,采用實體預(yù)測作為實驗載體,度量指標(biāo)使用Hits@10和Mean Rank,其結(jié)果如圖4和圖5所示。
圖4 頭尾實體采用不同的投影矩陣和自適應(yīng)算法的實體預(yù)測Hits@10值(%)
圖5 頭尾實體采用不同的投影矩陣和自適應(yīng)算法的實體預(yù)測Mean Rank值
從圖4我們可以看出,在Hits@10指標(biāo)上,模型中頭尾實體采用不同的投影矩陣和自適應(yīng)算法訓(xùn)練最少比使用相同的投影矩陣和SGD提升1.7%。在最好的數(shù)據(jù)集FB15K上可以提高11.6%,不對等程度顯著的數(shù)據(jù)集的表示效果提升得更為明顯。這也驗證了該方法的有效性。
同樣,圖5的Mean Rank值也充分說明了這一點。每個數(shù)據(jù)集在使用頭尾實體采用不同的投影矩陣和自適應(yīng)算法都會比采用相同投影矩陣和SGD有一定改善。不對等程度越高的知識圖譜降低效果越明顯,其中在數(shù)據(jù)集FB15K上降低了38.5。這主要是由于TransR采用矩陣映射,參數(shù)較多,再加上數(shù)據(jù)的不對等程度較高,且變化范圍較大,而ADADELTA算法可以隨著時間的推移動態(tài)調(diào)整參數(shù),使得小梯度具有較大的學(xué)習(xí)率,不頻繁實體就有了充分的學(xué)習(xí)時間。
針對TransR模型在對具有不對等特征的知識圖譜中實體和關(guān)系建模時存在兩大缺陷: 一是假定頭尾實體來自同一語義空間,忽略其在鏈接結(jié)構(gòu)和數(shù)量上的不對等;二是每個關(guān)系單獨配置一個投影矩陣,忽略其內(nèi)在聯(lián)系,導(dǎo)致知識共享困難,存在泛化能力差的問題。本文主要提出一種改進的不對等知識圖表示方法TransRD來解決上述兩個缺陷。TransRD通過對頭尾實體采用不對等投影矩陣的方法,避免語義空間的同質(zhì)性假設(shè),表征出頭尾實體不對等特征,并通過建模關(guān)系的內(nèi)在相關(guān)性來改善上述問題;將TransE學(xué)習(xí)到的嵌入關(guān)系矩陣進行PCC相關(guān)性分析,根據(jù)相關(guān)性分析的結(jié)果,將關(guān)系按語義相似性進行分組。采用每組關(guān)系使用同一對投影矩陣的方式來共享公共信息,學(xué)習(xí)出實體和關(guān)系更好的嵌入,解決泛化能力差的問題。我們在WN8、FB15K和MPBC_20數(shù)據(jù)集上對TransRD進行鏈接預(yù)測實驗,實驗結(jié)果表明,采取頭尾不對稱投影是解決問題的關(guān)鍵。
在未來工作中,我們計劃擴展TransRD,以類似于PTransW[21]的方式利用知識圖譜中的關(guān)系路徑信息來進一步提高模型表示能力,并加入關(guān)系類型的語義信息進行改進。此外,我們還將探討如何對實體-屬性關(guān)系單獨建模,以提高模型處理一對多關(guān)系的能力,此類關(guān)系大多由真實知識圖譜中的屬性組成。