洪錦堆,陳 偉,趙 雷
(蘇州大學 計算機科學與技術(shù)學院,江蘇 蘇州 215006)E-mail:zhaol@suda.edu.cn
在自然語言處理、信息檢索和推薦系統(tǒng)等領(lǐng)域中,知識圖譜得到了廣泛應(yīng)用.通常將知識圖譜視為儲存大規(guī)模知識的網(wǎng)絡(luò),其中三元組(h,r,t)是知識圖譜組織知識的常用形式,頭實體h和尾實體t是網(wǎng)絡(luò)中的節(jié)點,關(guān)系r表示一條由h指向t的帶有標記的邊.如(北京,首都,中國)表示北京是中國首都的事實.可是,基于網(wǎng)絡(luò)形式的知識表示面臨以下挑戰(zhàn):1)在大規(guī)模知識圖譜的計算中效率低下;2)因為數(shù)據(jù)稀疏而不能有效地處理罕見實體[1].為應(yīng)對這些挑戰(zhàn),學者們提出了知識表示學習方法,將知識圖譜映射為連續(xù)的向量空間,采用低維向量進行運算來提高計算的效率.而且對低維向量的學習使罕見的實體也可以捕捉到全局的信息從而較好的緩解數(shù)據(jù)稀疏問題.目前的知識表示模型利用衡量給定三元組置信度的評分函數(shù)fr(h,t)來學習知識的向量表示.例如TransE[2],ComplEx[3],ConvE[4],RotatE[5]等,其中RotatE在公開數(shù)據(jù)集上取得了最優(yōu)結(jié)果.上述知識表示模型使用三元組來學習知識圖譜的結(jié)構(gòu)信息.但是,真實世界的知識圖譜中存在著大量可以豐富知識表示模型的擴展信息,包括從外部獲取的圖像、屬性、實體描述文本等外部信息和從知識圖譜內(nèi)部挖掘的關(guān)系路徑、實體鄰居等內(nèi)部特征和信息.
在已有的研究中,一些研究者把知識圖譜的擴展信息引入到了知識表示模型中.TA-DistMult[6]通過引入時間信息來豐富關(guān)系的表示.但是來自外部的信息往往獲取的成本高昂或者含有大量的噪聲.PTransE[7]則將從知識圖譜內(nèi)部挖掘的關(guān)系路徑信息融入TransE模型中.然而,不是所有的數(shù)據(jù)都含有較多的關(guān)系路徑.相比于知識圖譜中數(shù)量較少的關(guān)系,為數(shù)量龐大的實體引入擴展信息具有更大的研究價值和發(fā)展?jié)摿?DKRL和Jointly等模型[8-10]通過引入外部的實體描述文本信息來強化實體的向量表示.然而,目前為實體引入擴展信息的模型中存在以下不足:1)在現(xiàn)實世界中,從外部獲取完整有效的擴展信息存在較大困難.來自外部的擴展信息往往帶有較大的噪聲,而且由于較高的信息獲取成本或者其它技術(shù)原因容易導(dǎo)致缺失部分擴展信息;2)對擴展信息和結(jié)構(gòu)信息的整合效率較為低下.在這類模型中,實體除了有一個表示結(jié)構(gòu)信息的結(jié)構(gòu)向量,還會有一個表示擴展信息的擴展向量.這些模型一般使用較為簡單的聯(lián)合表示方法將實體的結(jié)構(gòu)向量和擴展向量結(jié)合在一起作為實體的向量表示.可是,目前的聯(lián)合表示方法不僅沒有考慮結(jié)構(gòu)向量和擴展向量因為不同來源表示的不同語義,而且容易使知識表示模型丟失結(jié)構(gòu)信息.這些問題導(dǎo)致目前基于擴展信息的模型的效率都較為低下.
最近,NKGE[11]引入實體的鄰居作為擴展信息,該模型中實體的鄰居由從文本獲取的語義鄰居和從知識圖譜三元組獲取的結(jié)構(gòu)鄰居組成.實體鄰居的引入有效地降低了擴展信息中可能含有的噪聲.但是NKGE的主要目標是編碼實體鄰居得到擴展信息的有效表示,在擴展信息和結(jié)構(gòu)信息的整合上仍然較為低效.
針對擴展信息和結(jié)構(gòu)信息在整合上較為低效的問題,本文提出了一種基于線性變換的短接聯(lián)合表示方法.該方法首先對結(jié)構(gòu)向量和擴展向量使用不同的線性變換,將兩個不同來源的向量變換到同一個語義空間.然后,結(jié)合兩種經(jīng)過變換的向量得到基礎(chǔ)聯(lián)合表示.最后,為了保持結(jié)構(gòu)信息,受殘差網(wǎng)絡(luò)啟發(fā)[12],通過加法運算把結(jié)構(gòu)向量和基礎(chǔ)聯(lián)合表示短接在一起得到實體的聯(lián)合表示,將結(jié)構(gòu)向量從實體的聯(lián)合表示中直接傳遞出去.此外,考慮到實體的鄰居具有豐富的特征和信息以及從外部引入信息時可能遇到的問題,本文在不引入外部信息的條件下,從給定知識圖譜內(nèi)部的三元組集合中為實體構(gòu)建擴展信息.首先獲取實體的鄰居列表,接著考慮到數(shù)據(jù)集的實際情況,利用實體鄰居的統(tǒng)計特征使用自動關(guān)鍵詞抽取技術(shù)[13]從鄰居列表中選取部分鄰居作為實體的擴展信息.
最后,結(jié)合上述的短接聯(lián)合表示方法和由鄰居集合構(gòu)建的擴展信息,本文提出了結(jié)合鄰居信息的知識表示模型CombiNe.該模型從實體的鄰居集合為實體引入擴展信息來豐富實體的表示,避免了從外部獲取擴展信息時可能遇到的問題.而且該模型通過提出的短接聯(lián)合表示方法有效地整合了不同語義的信息向量,提高了基于擴展信息的模型的效率.在兩個公開的基準數(shù)據(jù)集FB15k-237和WN18RR上的評估了知識表示模型CombiNe在鏈接預(yù)測任務(wù)上的效果.實驗結(jié)果表明,CombiNe優(yōu)于最優(yōu)模型RotatE.
近年來,知識表示學習受到研究者們的廣泛關(guān)注.TransE基于h+r≈t的基本思想建模三元組(h,r,t),其中加粗字母h、r、t分別是頭實體、關(guān)系、尾實體的低維向量表示.TransH[14],TransR[15]等致力于解決TransE在處理自反及一對多、多對一和多對多等復(fù)雜關(guān)系時表示能力不足的問題.還有大量的工作從另外的角度出發(fā),致力于滿足模型對不同關(guān)系模式的完全表達能力.DistMult[16]是一個能夠建模對稱關(guān)系模式的簡單雙線性模型.ComplEx可以看作是DistMult在復(fù)數(shù)空間的擴展,該模型可以滿足非對稱關(guān)系模式和逆關(guān)系模式.RotatE則將每個關(guān)系定義為在復(fù)數(shù)空間中從頭實體到尾實體的旋轉(zhuǎn),該模型可以同時滿足對稱/非對稱關(guān)系模式、逆關(guān)系模式以及組合關(guān)系模式,并且在用于知識表示學習的基準數(shù)據(jù)集中取得了最優(yōu)結(jié)果.此外,ConvE利用非線性的卷積網(wǎng)絡(luò)從拼接的實體和關(guān)系向量中提取特征然后建模三元組.以上都是經(jīng)典的知識表示模型,這些模型僅利用了知識圖譜的結(jié)構(gòu)信息,而引入擴展信息則能夠進一步豐富實體的表示提高性能表現(xiàn).
已有為實體引入信息的模型主要是從含有噪聲的擴展信息中,通過長短期記憶網(wǎng)絡(luò)(LSTM)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)等深度學習方法獲得擴展信息的有效表示,然后由實體聯(lián)合表示方法融合結(jié)構(gòu)向量和擴展向量得到實體的聯(lián)合表示.目前對擴展信息的學習已經(jīng)有了較好的研究,但是針對實體聯(lián)合表示方法的研究還停留在較為初級的階段.有以下常見的實體聯(lián)合表示方法可以結(jié)合結(jié)構(gòu)向量和擴展向量:
1)DKRL[8]中結(jié)構(gòu)向量和擴展向量未經(jīng)任何處理的經(jīng)過組合,得到多組輸入后,分別輸入到評分函數(shù)中計算得到多個評分,再通過不同的權(quán)重,組合多個評分得到最后的評分.這種聯(lián)合表示方法雖然能將部分結(jié)構(gòu)向量直接傳遞到評分函數(shù),但是更為混亂的輸入不僅增加了計算量而且破壞了知識表示模型原有的結(jié)構(gòu).
2)如圖1左邊所示,兩種不同的向量經(jīng)過預(yù)處理后通過加法運算組合在一起從而得到實體聯(lián)合表示.在加法運算前還有幾種預(yù)處理的方法.AATE[9]引入了一個權(quán)重因子,利用權(quán)重因子調(diào)整不同向量的重要性,但是各個維度的重要性被一致對待,忽略了可能只有部分維度是比較重要的情況;門控機制則能較好的應(yīng)對不同的維度,Jointly[10]中每個實體都有自己的一個門控向量,通過sigmoid函數(shù)控制聯(lián)合表示的每一維是依賴于結(jié)構(gòu)向量還是擴展向量.門控機制不僅增加了大量參數(shù),而且門控單元中結(jié)構(gòu)向量和擴展向量是相互排斥的,不能同時兼顧兩種向量.
圖1 常見的實體聯(lián)合表示方法
3)如圖1右邊所示,兩種向量被拼接在一起后作為輸入,之后使用線性或者非線性的方法還原維度得到實體的聯(lián)合表示.LiteralE[17]中使用了類似的方法,將實體的結(jié)構(gòu)向量和擴展向量拼接在一起,經(jīng)處理之后,使用類似于門控循環(huán)單元(GRU)的門控機制來得到實體的聯(lián)合表示.該方法運算量較大而且門控機制中的問題依然存在.
但是,這些聯(lián)合表示方法都沒有考慮到兩種信息的不同作用,存在著若干問題.首先,使用簡單的方法直接將兩種向量直接結(jié)合在一起,忽略了兩種向量是由不同來源學習而來的,需要變換后才能結(jié)合在一起;其次,結(jié)構(gòu)向量和擴展向量被混合隱藏在實體的聯(lián)合表示中,忽略了知識表示模型最后往往是用學習結(jié)構(gòu)表示的評分函數(shù)來計算評分,容易讓評分函數(shù)在計算評分時失去原有的結(jié)構(gòu)向量信息,造成引入信息的知識表示模型效率低下.
知識表示學習的目標是將實體和關(guān)系映射為有效的低維向量,如將(h,r,t)中的實體和關(guān)系分別映射為低維向量h∈Rk、t∈Rk和r∈Rk,符號Rk表示k維的向量空間.
可以通過用來判斷給定的三元組是正例還是反例的評分函數(shù)fr(h,t)→R來優(yōu)化學習低維向量.評分函數(shù)fr(h,t)也可被寫作f(h,r,t)→R.如果評分函數(shù)f(h,r,t)能有效的給三元組打分,區(qū)分正確的三元組和錯誤的三元組則說明低維向量學習到了有效的信息.例如,預(yù)測(北京,首都,中國)是正確的,(南京,首都,中國)是錯誤的.
知識圖譜是有向的多關(guān)系圖,記作G= {(h,r,t)}?E*R*E,其中E表示實體集合、R表示關(guān)系集合,G表示三元組的集合,(h,r,t)表示知識圖譜中的一條記錄,h、r和t分別表示頭實體、關(guān)系和尾實體.
結(jié)合鄰居信息的CombiNe模型結(jié)構(gòu)如圖2所示,可以分為關(guān)鍵鄰居抽取,實體聯(lián)合表示和知識表示學習三層.
圖2 CombiNe的結(jié)構(gòu)
關(guān)鍵鄰居抽取層會從實體的鄰居集合Ne={h|(h,r,e)∈G,h∈E,r∈R}∪{t|(e,r,t)∈G,t∈E,r∈R}中為實體e抽取出關(guān)鍵的鄰居key(Ne)?Ne.在本模型中從實體e的鄰居集合Ne中為實體抽取一個實體鄰居kn作為關(guān)鍵鄰居,則e的關(guān)鍵鄰居可以重寫為key(Ne)={kn},抽取出的鄰居仍屬于實體集合E;在實體聯(lián)合表示層中,輸入的是實體e的結(jié)構(gòu)向量es∈Rk和擴展向量ea∈Rk,該層將輸出實體的聯(lián)合表示向量ej∈Rk.在CombiNe模型中,因為關(guān)鍵鄰居抽取層輸出的key(Ne)仍屬于實體集合E,則不需要再學習擴展向量的表示,而是將kn對應(yīng)的實體結(jié)構(gòu)向量賦值給ea,即ea=kns;在知識表示學習層中,可以采用現(xiàn)有學習結(jié)構(gòu)信息的大部分知識表示模型.CombiNe模型采用ComplEx模型作為知識表示學習階段使用的知識表示模型.
與現(xiàn)有引入擴展信息的模型相比,雖然CombiNe也將擴展信息引入已有的知識表示模型,但是除了在聯(lián)合表示階段需要增加額外的參數(shù),該模型不會引入其他的參數(shù)用于學習實體的擴展向量.因為模型中實體的擴展向量來自關(guān)鍵實體鄰居對應(yīng)的結(jié)構(gòu)向量.使用實體的結(jié)構(gòu)向量作為實體引入的擴展信息不僅使實體的聯(lián)合表示能從鄰居中學到更豐富的信息,而且鄰居也將由于參與到實體的表示中得到更多的信息.下面將具體地描述模型中各層的實現(xiàn).
如果兩個實體具有相似的鄰居,也就是說它們的大多數(shù)鄰居是相同的,則它們應(yīng)該具有相近的信息,進而有相似的表示.然而,由于知識圖譜的不完整,在給定的知識圖譜中通過實體鄰居確定相似的實體面臨著一定的挑戰(zhàn).而且知識圖譜中實體鄰居的分布可能跨度極大,如在數(shù)據(jù)集FB15k-237上單個實體的鄰居數(shù)量范圍低至一兩個高達幾千個.因此,模型要避免使用鄰居集合中的所有實體作為擴展信息,采用有效的方法來選取部分鄰居作為擴展信息更符合實際情況.
從實體的鄰居集合中抽取出的鄰居要能反映鄰居集合的主要信息.不同于NKGE[11]認為出現(xiàn)次數(shù)少的鄰居更有代表性.有更多鏈接的鄰居不僅具有更豐富的信息,而且能較好的表示實體鄰居集合的特征.在部分鄰居的選取上,利用鄰居的頻率統(tǒng)計信息是一類有效的方法.自動關(guān)鍵詞抽取技術(shù)中的TFIDF[13]恰好符合關(guān)鍵鄰居抽取的要求.實體e的鄰居n的頻率可以分為兩個部分,一部分是e的鄰居集合中n出現(xiàn)頻率,即局部頻率l(e,n)=|{(e,r,n)∈G}∪{(n,r,e)∈G}|;另一部分是n在整個知識圖譜中作為鄰居出現(xiàn)的頻率,即全局頻率g(n)=|{h|{(h,r,n)∈G}∪{t|(n,r,t)∈G}|,這里的全局頻率參考TFIDF做了一定的修正.
TFIDF廣泛用于自動關(guān)鍵詞抽取,而且該技術(shù)不關(guān)心詞在文檔中的位置,使用詞頻(TF)和逆文檔頻率(IDF)的乘積(TF×IDF)來衡量詞語對文檔內(nèi)容的描述能力[13].類似于TFIDF只關(guān)心詞的頻率,在抽取關(guān)鍵鄰居時,CombiNe更關(guān)心鏈接的數(shù)量,也就是鄰居的頻率.如果一個實體經(jīng)常在同一個鄰居集合中作為實體的鄰居出現(xiàn),那么該實體對這個鄰居集合來說是較為重要的,但若是該實體頻繁的在各實體的鄰居中出現(xiàn)則說明該實體過于平凡不太重要.使用式(1)中的m(e,n)可以有效計算e中鄰居n的重要性,局部頻率高的鄰居重要性會得到提高,全局頻率高的鄰居則會受到抑制.式(1)中|E|表示實體集合中實體的數(shù)量.
(1)
最后獲取{m(e,n1),m(e,n2),…,m(e,n|Ne|)}中具有最大值的鄰居ni作為實體e關(guān)鍵鄰居,即key(Ne)={ni}.
知識表示學習模型一般通過結(jié)構(gòu)信息來學習實體的表示,但是這并不常常有效.因為知識圖譜中有些實體僅出現(xiàn)在少量的三元組中,導(dǎo)致這些實體缺乏足夠的結(jié)構(gòu)信息.引入擴展信息可以為實體提供更多的可學習信息.
結(jié)構(gòu)信息和擴展信息的不同來源表明將結(jié)構(gòu)向量和擴展向量直接結(jié)合起來是不合理的.使用線性變換可以統(tǒng)一不同的來源和空間,具體如式(2)所示.
e′s=Wses+bs,e′a=Waea+ba
(2)
式(2)中Ws∈Rk*k和Wa∈Rk*k是用于線性變換的k×k矩陣,bs∈Rk和ba∈Rk是偏置向量.接著使用加法運算結(jié)合兩種向量得到基礎(chǔ)聯(lián)合ebj表示,具體如式(3)所示.
ebj=h(es,ea)=e′s+e′a
(3)
線性變換和加法運算的使用不僅使不同來源的信息結(jié)合得更加合理可靠,而且還使基礎(chǔ)聯(lián)合表示能從各個維度自動學習結(jié)構(gòu)向量和擴展向量.進一步地,實體的聯(lián)合表示在知識表示學習階段將由用于學習結(jié)構(gòu)向量的評分函數(shù)計算,結(jié)構(gòu)向量在聯(lián)合表示中應(yīng)被謹慎地處理.但是,在基礎(chǔ)聯(lián)合表示中,結(jié)構(gòu)向量和擴展向量被混合在一起,當按照傳統(tǒng)的知識表示模型學習的時候,評分函數(shù)在計算階段容易丟失實體的結(jié)構(gòu)信息.為了將結(jié)構(gòu)信息暴露給評分函數(shù),如圖3所示,將結(jié)構(gòu)向量直接短接基礎(chǔ)聯(lián)合表示,具體如式(4)所示.
圖3 短接實體聯(lián)合表示
ej=h(es,ea)+es=ebj+es
(4)
通過短接方式連接,結(jié)構(gòu)向量中的結(jié)構(gòu)信息將直接輸出到實體聯(lián)合表示,實體聯(lián)合表示將保留原始的結(jié)構(gòu)向量.在殘差網(wǎng)絡(luò)中[12],原始的輸入被保留下來用于訓練非常深的網(wǎng)絡(luò).短接實體聯(lián)合表示不僅保持了原始的結(jié)構(gòu)向量,而且還使模型更容易訓練.
CombiNe只是通過引入的鄰居信息豐富實體的表示,同Jointly[9],NKGE[10],LiteralE[16]等一樣易于擴展到傳統(tǒng)的知識表示模型中.CombiNe在知識表示學習階段中使用ComplEx模型.在ComplEx模型中,實體和關(guān)系由實數(shù)和虛數(shù)兩個部分的向量組成.在標準的短接實體聯(lián)合表示中共享參數(shù)也要區(qū)分為實數(shù)和虛數(shù)兩個部分.
不同于ComplEx原文中的實現(xiàn),CombiNe參考ConvE采用了一些能夠加速訓練速度同時提升模型性能的訓練方式.對于一個三元組(h,r,t),使用標準二元交叉熵損失函數(shù)(binary cross-entropy loss)和1-N打分策略,具體如式(5)所示.
(5)
其中|E|表示所有實體的數(shù)量,i表示實體集合E中的一個實體;pi是三元組(h,r,i)的評分;yi的值若為1表示三元組(h,r,i)是在訓練集中出現(xiàn)的正例,其它未知情況的三元組則填充0;由于給定的都是知識圖譜中的正例,大部分方法訓練時需要通過替換正例三元組中的部分實體來生成負例,而且在計算時要獨立地計算每一個三元組.1-N打分策略則能同時計算多個元組而且不用耗費時間在主動生成負例上.
1-N打分策略指對于一個三元組(h,r,t)同時計算(h,r,E)或者(t,r-1,E)的評分,在1-N打分策略中(h,r)或者(t,r-1)首先被計算,然后通過矩陣乘法運算一次計算在全部實體E上的評分,該策略能夠顯著加速訓練和測試的速度.為了受益于該策略,需要為數(shù)據(jù)集中的全部三元組添加逆關(guān)系r-1.由于實際情況中實體的數(shù)量遠遠大于關(guān)系的數(shù)量,雖然逆關(guān)系會增加關(guān)系表示的參數(shù)數(shù)量,但是少量參數(shù)的增加相比于性能的提升和加速是值得的.
CombiNe模型采用PyTorch框架實現(xiàn).其中批歸一化(batch normalization)、Dropout、標簽平滑被用來加速訓練和防止過擬合.批歸一化作用在計算(e,r)時的實體e上.Dropout被應(yīng)用在實體聯(lián)合表示之前的結(jié)構(gòu)向量es和擴展向量ea上,具體如圖3中的線性變換前.
另外在CombiNe中還對聯(lián)合表示的共享參數(shù)矩陣使用了L2正則化.因此,最終的損失函數(shù)如式(6)所示.
L=Lscore+λ(‖Ws‖2+‖Wa‖2)
(6)
可以通過在知識圖譜上的鏈接預(yù)測任務(wù)來評估知識表示模型的性能表現(xiàn).知識圖譜的鏈接預(yù)測任務(wù)已經(jīng)有了較為通用的基準數(shù)據(jù)集、測試方法和評估指標.實驗采用的基準數(shù)據(jù)集是FB15k-237和WN18RR.為了避免測試泄露,沒有采用之前使用較多的FB15k和WN18數(shù)據(jù)集.詳細的數(shù)據(jù)集統(tǒng)計信息如表1所示.
表1 實驗數(shù)據(jù)集的統(tǒng)計信息
FB15k-237是 FB15k的子集.FB15k是從FreeBase抽取的一個大規(guī)模通用知識圖譜.驗證集和測試集中包含大量在訓練階段出現(xiàn)的反關(guān)系,導(dǎo)致簡單的模型在FB15k上也能有較好的表現(xiàn).FB15k-237是FB15k移除反關(guān)系后的子集.
WN18RR是WN18的子集.WN18是從WordNet創(chuàng)建的,包含詞語之間關(guān)系的知識圖譜.WN18和FB15k同樣面臨著測試泄露的問題.在WN18RR中,反關(guān)系被移除.傳統(tǒng)知識表示模型在該數(shù)據(jù)集中的推理效果顯著下降.
鏈接預(yù)測旨在預(yù)測給定的(h,r,?)或者(?,r,t)中缺失的實體.對于一個待測試的三元組,固定它的頭實體h和關(guān)系r,將尾實體替換為實體集中的所有實體或者固定尾實體t和關(guān)系r,將頭實體替換為實體集中的所有實體.然后計算評分并將所有的實體按照評分進行排序.
在評估階段,測試集中的所有三元組并未在訓練過程中出現(xiàn).實驗報道了廣泛使用的“filter”設(shè)置的結(jié)果,該設(shè)置過濾掉所有已被模型觀測到的事實.采用了五個常用的評測指標:平均排序(MR)、平均倒數(shù)排序(MRR)、hits@10、hits@3、hits@1.MR是全部測試樣本中正確答案排序值的平均值;MRR是全部測試樣本中正確答案排序值的倒數(shù)的平均值.hits@k是全部測試樣本中正確答案排名不大于k的占比.除了MR指標越低越好之外,其它指標全是越高越好.
設(shè)置結(jié)構(gòu)向量和擴展向量的Dropout取同樣的參數(shù)設(shè)置.批量大小(batch size)設(shè)置為128,標簽平滑率設(shè)置為0.1.為了更公平地和大部分模型做比較,向量表達空間的維度d取值100.實驗的其它超參數(shù)設(shè)置使用網(wǎng)格尋優(yōu)法搜索,根據(jù)驗證集上MRR的表現(xiàn)選擇最優(yōu)參數(shù).采用Adam優(yōu)化器,學習率α的搜索范圍是{0.001,0.003,0.005},指數(shù)學習率衰減(exponential learning rate decay)β的搜索范圍是{0.99,1.0},Dropout丟棄率γ的搜索范圍為{0.0,0.2,0.3,0.4,0.5},L2正則化參數(shù)λ的搜索范圍為{1e-3,5e-4,1e-4,5e-5,1e-5}.實驗時每訓練5輪進行一次測試,在第600輪時停止,報道在MRR指標上表現(xiàn)最優(yōu)時的結(jié)果.
在數(shù)據(jù)集FB15k-237上,最優(yōu)參數(shù)設(shè)置為α=0.001,β=0.99,γ=0.5,λ=5e-5;在數(shù)據(jù)集WN18RR上最優(yōu)參數(shù)設(shè)置的為α=0.003,β=1.0,γ=0.5,λ=1e-3.
幾個具有代表性且被廣泛引用的知識表示模型TransE、DistMult、ComplEx和ConvE被選取作為CombiNe的結(jié)果對比,同時CombiNe還與目前性能最優(yōu)的RotatE模型作對比.另外還與引入外部信息的方法KBlrn[18]、NKGE[11]、LiteralE[17]作對比.由于實驗用的數(shù)據(jù)集和測試方法均保持一致,直接引用了現(xiàn)有文獻的部分實驗結(jié)果.其中TransE引自文獻[11],DistMult引自文獻[4].按照CombiNe的訓練步驟和優(yōu)化方法重新實現(xiàn)了ComplEx,在使用Dropout優(yōu)化技術(shù)和保持CombiNe的學習率一致的情況下取得了比之前文獻報道更好的性能表現(xiàn).為了降低模型的參數(shù)量另外擴展了CombiNe的一個簡化版本CombiNe-simple.在簡化版本中,共享參數(shù)不作區(qū)分的同時處理實數(shù)和虛數(shù)部分.還將CombiNe中的聯(lián)合表示方法替換成由Jointly提出的門控機制并記作CombiNe-gating.剩余的實驗結(jié)果均引自原文獻.所有的實驗結(jié)果均在表2中給出,表中加粗突出顯示的是每列中的最優(yōu)結(jié)果.
表2 在FB15k-237和WN18RR上的鏈接預(yù)測結(jié)果
從表2中最后兩行的實驗結(jié)果對比可以看到,簡化版本CombiNe-simple不僅降低了參數(shù)數(shù)量,而且在兩個實驗數(shù)據(jù)集上相比于標準版本均取得了輕微的性能提升.CombiNe-gating相對于ComplEx主要提升在hits@10和hits@3上,但是在全部評測指標上均落后于CombiNe模型.從結(jié)果對比上可以看到,短接聯(lián)合表示方法優(yōu)于目前的門控機制聯(lián)合表示方法.
在FB15k-237數(shù)據(jù)集上,CombiNe在所有評測指標上均取得了最優(yōu)結(jié)果.在WN18RR數(shù)據(jù)集的評測指標MRR、hits@3、hits@1上,CombiNe也取得了最優(yōu)結(jié)果,在評測指標MR和hits@10上,雖然CombiNe未能超過最優(yōu)結(jié)果,但是也取得了次優(yōu)的性能表現(xiàn).需要注意的是,RotatE使用了其它方法中沒有使用的自對抗負抽取技術(shù)(self-adversarial negative sampling),從作者公開的代碼實現(xiàn)上還可以看到RotatE使用了較大的維度,如在FB15k-237上的維度d為1000.雖然CombiNe使用的維度d被限制為100,但是除了WN18RR數(shù)據(jù)集上的2個評測指標,在剩余的評測指標上CombiNe使用更少的參數(shù)量卻優(yōu)于RotatE.實驗結(jié)果表明CombiNe優(yōu)于最優(yōu)模型RotatE.
同引入鄰居信息的NKGE相比.NKGE與其使用的基礎(chǔ)知識表示模型ConvE對比,在FB15k-237的MRR上提升幅度為1.5%,在WN18RR的MRR上提升幅度為4.7%.CombiNe同ComplEx模型對比,在FB15k-237的MRR上提升幅度為4.8%,在WN18RR的MRR上提升幅度為6.2%.從提升幅度上看,使用關(guān)鍵鄰居的CombiNe效率高于使用更多低頻鄰居的NKGE.
和知識表示學習階段使用的ComplEx模型相比,在評測指標hits@3和hits@1上兩個數(shù)據(jù)集的提升幅度都有5%以上.引入的鄰居信息有效的融合到實體表示中,顯著提高了實體的表示能力.CombiNe通過添加少量用于實體聯(lián)合表示的參數(shù)更有效地利用了ComplEx中學習到的實體表示和參數(shù).
通過控制訓練集中三元組的數(shù)量測試實體鄰居,可以進一步探索引入實體鄰居的作用.將FB15k-237訓練集中的三元組隨機保留80%得到新的數(shù)據(jù)集FB15k-237-0.8.使用和FB15k-237一樣的訓練步驟和參數(shù)設(shè)置進行訓練和測試.結(jié)果如表3所示.
表3 在FB15k-237-0.8上的鏈接預(yù)測結(jié)果
從表3可以看到當訓練樣本減少時,ComplEx和CombiNe的性能均下降嚴重,但是CombiNe的表現(xiàn)依然優(yōu)于ComplEx模型.CombiNe能從鄰居學習到有效的表示.同完整的FB15k-237數(shù)據(jù)集上的評估結(jié)果對比,更多的鄰居對CombiNe帶來的提升大于對ComplEx的提升.
本文提出了一種結(jié)合實體鄰居信息來豐富實體表示的知識表示模型CombiNe.該模型通過能融合不同來源的信息和保持結(jié)構(gòu)向量傳遞的短接聯(lián)合表示方法有效提高了引入信息的知識表示模型的效率.針對目前主要是從高昂的外部數(shù)據(jù)引入擴展信息的困境,利用現(xiàn)有的自動關(guān)鍵詞抽取技術(shù)TFIDF從實體的鄰居列表中為每個實體抽取關(guān)鍵實體鄰居.然后,使用線性變換結(jié)合不同來源的實體結(jié)構(gòu)向量和引入的實體擴展向量.最后為了將結(jié)構(gòu)向量傳遞給下游的知識表示模型在實體聯(lián)合表示中短接結(jié)構(gòu)向量.實驗結(jié)果表明CombiNe不僅相對于基礎(chǔ)的知識表示模型有較大的提升而且利用更少的參數(shù)實現(xiàn)了在大部分評測指標上對目前最優(yōu)模型的超越.
目前CombiNe僅在ComplEx模型進行了擴展,未來可以在TransE、RotatE等其它知識表示模型上進行擴展.另外當前使用的關(guān)鍵實體鄰居抽取技術(shù)僅考慮了統(tǒng)計特征,還可以考慮增加其它特征.