沙寶程,徐 濤,鄧鑒格,馬 坤
(西北民族大學(xué) 中國民族語言文字信息技術(shù)教育部重點實驗室,甘肅 蘭州 730030)
知識圖譜是以結(jié)構(gòu)化三元組的形式存儲現(xiàn)實世界中的實體以及實體之間的關(guān)系,已知的大規(guī)模知識圖譜包括Freebase[1]、Wikidata[2]、DBpedia[3]、YAGO[4]、NELL和Knowledge Vault等,目前在語義搜索、智能問答、個性化推薦等領(lǐng)域有著廣泛的應(yīng)用.實體對齊就是在不同的知識圖譜中通過相似的語義關(guān)系或較近的向量距離找到描述相同對象的不同實體進行對齊,實體對齊可以為知識圖譜的融合和補全提供支撐,也可以為語義搜索、推薦系統(tǒng)的下游任務(wù)提供支持.傳統(tǒng)的實體對齊是基于符號特征進行對齊的,例如屬性名稱、文本描述、關(guān)系屬性值等.傳統(tǒng)實體對齊方法大多采用有監(jiān)督的機器學(xué)習(xí)方法,如:決策樹、支持向量機(Support Vector Machine,SVM)、集成學(xué)習(xí)等,通過計算屬性相似度進行實體對齊,這種方法非常依賴于人工標(biāo)注,不僅耗費大量的人工勞動力,而且噪聲非常大,在多源知識圖譜中屬性存在異構(gòu)性,導(dǎo)致對齊精度不高.
近年來,為了解決這些問題,提出了知識表示學(xué)習(xí)模型 (Knowledge Representation Learning,KRL)[5].KRL是將知識圖譜中結(jié)構(gòu)化三元組表示為低維向量(稱為嵌入),同時保留原有三元組之間的語義信息,將知識圖譜中的知識表示成向量,在低維度空間中根據(jù)嵌入的相似性進行實體對齊.Bordes等[6]提出TransE為代表的嵌入模型,將知識圖譜表示為G=(h,r,t),h表示關(guān)系三元組的頭實體,t表示關(guān)系三元組的尾實體,r表示他們之間的關(guān)系,在低維度向量中,不斷平移h+r和t的距離,使h+r≈t.如果在其他的多元關(guān)系中,也存在著相似的結(jié)構(gòu),說明他們之間具有相似性.Zhu等[7]提出IPTransE方法,通過聯(lián)合知識嵌入的迭代方法共享參數(shù)實現(xiàn)實體對齊,這種方法需要人工標(biāo)注一些已經(jīng)對齊好的對齊種子集合,利用這些對齊種子集合的結(jié)構(gòu)映射到低維度向量空間,其非常依賴于人工標(biāo)注的種子集合的準確性,如果標(biāo)注不準確,會在迭代種子實體集合過程中產(chǎn)生非常大的噪聲,影響實體對齊任務(wù)的精確度.Zhang等[8]提出了MultiKE方法,將知識圖譜的各種特性劃分成多個視圖,把每個實體嵌入到特定的視圖,多個視圖互相補充學(xué)習(xí),從而提高了實體對齊的精準度.Chen等[9]提出了MTransE,用已有的多語言知識圖譜進行跨語言實體對齊,將多種語言的知識圖譜分別編碼成各自的實體關(guān)系對,利用一個融合模型把多種語言的向量嵌入到一個獨立的空間,通過平移和線性轉(zhuǎn)換進行對齊,這有助于構(gòu)建連貫的多語言知識庫和處理不同語言的不同表達.Wang等[10]提出的GCN-Align方法,首先使用圖卷積神經(jīng)網(wǎng)絡(luò)進行嵌入式實體對齊,利用圖的空間結(jié)構(gòu)特征信息將實體嵌入一個低維度空間,然后在這個空間中計算實體和實體之間的距離來進行對齊實體.雖然利用圖的結(jié)構(gòu)信息和特征信息進行實體嵌入效果比其他的平移模型要好,但是該方法沒有考慮到實體之間存在噪聲實體對,有很多與真實的對齊實體對存在較大誤差的噪聲實體對也被標(biāo)記成為對齊的種子實體對.
為了解決基于嵌入的實體對齊缺少噪音實體對標(biāo)記的缺點,本文提出使用REA方法[11],設(shè)計噪聲感知實體對齊模塊和噪聲檢測模塊.噪聲感知實體對齊模塊利用圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Networks ,GCN)[12]作為知識圖譜的編碼器捕獲知識圖譜的結(jié)構(gòu)信息.對抗噪聲檢測模塊利用生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)[13]設(shè)計了一個噪聲實體對生成器和噪聲實體對鑒別器.噪聲實體對生成器利用學(xué)習(xí)到的實體嵌入來產(chǎn)生噪聲數(shù)據(jù),通過在噪聲實體對生成器中迭代噪音實體對,提取真實噪音實體對和產(chǎn)生的噪音實體對,噪聲實體通過鑒別器分別對這兩個分量進行極小值和極大值的區(qū)分,從而提高分辨噪音數(shù)據(jù)的能力.
1.1 基于GCN的多語言知識圖譜實體對齊模塊基于嵌入的實體對齊方法已經(jīng)成為主流,Trans系列的模型大大提高了實體對齊的精準度,但是利用GCN進行嵌入式實體對齊的研究還遠遠不足.利用GCN捕獲實體與實體之間的結(jié)構(gòu)和語義相似性進行知識圖譜的實體對齊,將會大大提升準確度.因為知識圖譜可以在圖數(shù)據(jù)庫中存儲,節(jié)點就是實體,邊是對應(yīng)的屬性關(guān)系,而GCN主要研究的就是圖的節(jié)點和邊建立的拓撲圖,可以提取出知識圖譜的空間特征.所以無論是在實體對齊還是推薦系統(tǒng)等方向GCN都非常適合用于知識圖譜的研究.
利用GCN進行實體嵌入可以只考慮兩個跨語言知識圖譜中對應(yīng)實體的等價信息,不用考慮關(guān)系或?qū)傩孕畔ⅲ@樣不僅可以大大減少計算的復(fù)雜度,還能提高對齊的準確性.GCN可以捕獲知識圖上的特征信息,并將特征信息嵌入到低維度的空間向量中,通過計算這些特征向量的距離進行實體對齊,設(shè)置一個閾值θ,假設(shè)KG1中的es與 KG2中的eI可以使 ||es-eI||<θ ,則es與eI可以進行對齊.通常等價的實體具有相似的屬性,通過GCN映射的相鄰實體也具有一定的相似性.一個GCN是由多個GCN層組成的,每個GCN層中實體就是一個點,關(guān)系就是邊,圖上有4個屬性,分別是整張圖、頂點、邊和連接性.前3個屬性都是由向量來表示的,分別為全局向量、頂點向量和邊向量,連接性是由每張圖的鄰接矩陣A構(gòu)成.它通過信息傳遞的方式更新每一個部分的信息,不管有多少頂點都只有一個全連接層,并且所有頂點共享一個全連接層的參數(shù).第m層的模型輸入就是一個頂點特征矩陣,H(m)∈Rn×d(m),其中n是頂點數(shù),d(m)為m層的特征個數(shù),m層的輸出則是一個新的頂點特征矩陣H(m+1),計算公式如下:
式中:H(m+1)為H(m)層的特征矩陣輸出,σ為激活函數(shù),W(m)為m層的參數(shù)矩陣,A是鄰接矩陣,A中存儲了圖中的連接性,也就是實體之間的空間結(jié)構(gòu)信息,I為單位矩陣.A+I的目的就是為了在提取圖中結(jié)構(gòu)信息的同時也要保留自身的信息,為的對角節(jié)點度矩陣,因為采用的加法規(guī)則進行聚合,所以度大的節(jié)點會越來越大,度小的節(jié)點會越來越小,這可能導(dǎo)致網(wǎng)絡(luò)在訓(xùn)練的過程中導(dǎo)致梯度爆炸或者梯度消失的問題,所以需要用將特征向量歸一化.通過不斷堆疊卷積層可以得到更深層次的特征結(jié)構(gòu)信息.
式中:φ可以把實體對映射成可學(xué)習(xí)的參數(shù).ST是一組可信的無噪聲的實體對,(ex,ey)~AST,D是判別輸入的真實實體對 (ex,ey)或生成的噪音實體對噪聲鑒別器,G((|ex,ey);θ)為噪聲實體對采集函數(shù),可以將給定的實體對 (ex,ey)生成為噪音實體對,θ可以將其映射成可學(xué)習(xí)的參數(shù),G為噪音實體對生成器.在訓(xùn)練中,噪聲鑒別器D的作用是讓maxD越大越好,真實實體對希望被D劃分成1,噪聲實體對希望被D劃分成0.噪聲鑒別器G的目的是D在劃分噪聲實體(0)的時候劃分成真實實體對(1),這樣就可以使log(1-D(G))最小,訓(xùn)練D的同時也在訓(xùn)練G,G用來最小化log(1-D(G)).兩者達到一個動態(tài)平衡的時候效果最優(yōu).
由于在GAN中生成器生成的噪音實體對是離散的,所以不能用梯度下降法來進行優(yōu)化,所以本文采用KL散度進行參數(shù)優(yōu)化.
1.3 交互訓(xùn)練策略本文采用迭代優(yōu)化策略來訓(xùn)練REA模型,整體的REA模型框架如圖1所示.初始化真實實體對中的信任分數(shù),標(biāo)記真實確定的不含有噪聲的實體對集合為1,不確定是否含有噪聲實體對的集合為0.在每次迭代中,通過GCN將實體嵌入低維度空間向量,然后交替訓(xùn)練噪聲生成器G和噪聲鑒別器D,G和D相互提升以提高分辨真實實體對和噪聲實體對的能力.在每次迭代結(jié)束后,采用訓(xùn)練好的噪聲鑒別器更新不確定是否含有噪聲實體對的集合0,篩選出確定不含有噪聲的實體對補充到評分為1的集合,利用新的信任分數(shù),再次迭代,計算兩個實體之間的距離,對計算結(jié)果進行升序排序,取前m作為已經(jīng)對齊好的不含噪聲的實體對,直到整個模型收斂.
圖1 REA整體模型框架Fig.1 Overall model framework of REA
2.1 數(shù)據(jù)集本文采用DBP15K數(shù)據(jù)集,DBP15K由DBP15KZH-EN、 DBP15KJA-EN和 DBP15KFR-EN3種不同的跨語言知識圖組成.每個數(shù)據(jù)集包含15 000對干凈的標(biāo)簽實體對.為了驗證噪音實體對,我們隨機切割40%的實體作為訓(xùn)練實體,剩下的作為測試數(shù)據(jù).DBP15K數(shù)據(jù)集中包含的實體、關(guān)系和三元組數(shù)量如表1所示.
2.2 評 價 指 標(biāo)本 文 在 實 體 對 齊 任 務(wù) 中 采 用Hits@1、Hits@5、MRR3個評價指標(biāo).MRR表示正確實體的平均倒數(shù)排名,具體的計算方法如下:
表1 數(shù)據(jù)集三元組結(jié)構(gòu)表Tab.1 The triplet structure table of data set
式中:S是三元組集合,|S|是三元組集合個數(shù),ri是代表第i個三元組鏈接預(yù)測排名.
Hits@n指實體在TOPN中排名的正確率,具體計算方法如下:
本文在噪聲檢測任務(wù)中對不可靠的標(biāo)記實體對進行噪聲檢測評估,將真實的噪音實體對和生成的噪音實體對進行二值分類,采用的評價指標(biāo)為精確率(P)、召回率(R)和F1值.具體的計算方法如下:
(4)對于CFRP布加固簡支下表面裂紋DF梁,裂紋處轉(zhuǎn)角跳躍值隨載荷增加而增大,隨著CFRP布加固含量H2的增加,CFRP布加固裂紋梁的撓度減小,且裂紋效應(yīng)逐漸減弱,最后幾乎完全消失.
式中:TP表示預(yù)測為正樣本且分類正確的樣本數(shù),TN表示預(yù)測為負樣本且分類錯誤的樣本數(shù),F(xiàn)P表示實際為負樣本但分類正確的樣本數(shù),F(xiàn)N表 示實際為正樣本但分類錯誤的樣本數(shù).
2.3 相關(guān)實驗及參數(shù)設(shè)置本文與現(xiàn)在主流的3個模型做了對比實驗,分別為GCN-Align[10]、MTransE[9]和IPTransE[7].
GCN-Align模型采用圖卷積神經(jīng)網(wǎng)絡(luò)的方法,直接對知識圖譜中的圖形結(jié)構(gòu)數(shù)據(jù)進行建模.通過編碼節(jié)點和節(jié)點的鄰居節(jié)點生成節(jié)點級嵌入,生成鄰域感知的實體嵌入,可以在發(fā)現(xiàn)對齊實體的同時,發(fā)現(xiàn)更多對齊的鄰域?qū)嶓w.MTransE是一個基于翻譯的多語言知識圖譜對齊模型,將不同語言的實體嵌入同一個低維度空間向量,通過軸校準、平移和線性轉(zhuǎn)換對齊不同語言描述同一事物的實體對.IPTransE采用了一種聯(lián)合嵌入的方式,將兩個異構(gòu)的知識圖譜中的實體對齊種子作為聯(lián)合嵌入的輸入,通過迭代對齊種子集合,從而將兩個知識圖譜中的實體進行對齊,在迭代和對齊的過程中,共享同一參數(shù).
實驗包括3個部分:實體嵌入、實體對齊、噪聲實體對檢測.在實驗過程中采用全局變量,所有模塊共享一個超參數(shù),具體的參數(shù)設(shè)置如表2所示.
表2 模型參數(shù)設(shè)置表Tab.2 The setting table of model parameter
2.4 實 驗 結(jié) 果 分 析本 文 在GCN-Align模 型、IPransE模型、MTransE和REA模型上進行訓(xùn)練測試,實驗結(jié)果如表3所示.用圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)來做實體嵌入比用其他Trans系列的平移模型效果要好,在不添加噪聲實體對的GCN-Align模型中,雖然評價指標(biāo)比Trans系列的模型要好,但與添加噪聲實體對的REA模型相比效果較差.在不同的數(shù)據(jù)集上REA模型在實體對齊方面優(yōu)于其他沒有噪聲檢測的模型,所以利用GAN來添加噪聲實體對在實體對齊任務(wù)中有積極作用.通過添加噪聲實體對標(biāo)簽不僅可以大大提高對齊的準確率,而且通過交互訓(xùn)練不斷迭代的方法對齊了更多的跨語言實體對.
表3 模型在3種數(shù)據(jù)上的實驗結(jié)果Tab.3 Experimental results of the model on three kinds of data set
由表3可以得出,4個模型在不同數(shù)據(jù)集上的實驗結(jié)果對比圖如圖2~4所示.REA在Hits@1、Hits@5、MRR3個評價指標(biāo)上都明顯優(yōu)于其他模型.不同的跨語言對齊模型在涉及噪聲的場景下仍然有不同的性能,與GCN-Align等先進的模型相比,采用Trans系列的平移模型性能較差.
圖2 DBP15KZH-EN對齊效果Fig.2 The alignment of DBP15KZH-EN
圖3 DBP15KJA-EN對齊效果Fig.3 The alignment of DBP15KJA-EN
圖4 DBP15KFR-EN對齊效果Fig.4 The alignment of DBP15KFR-EN
在實驗中進一步檢驗噪聲檢測模塊有多少的噪聲能夠正確的檢測,對噪聲檢測模塊中的實體進行二分類,其中包括未知實體對和噪聲實體對,如表4所示,大多數(shù)的噪聲可以被正確檢測.由于所研究的知識圖譜的不完整性,仍有大量真實實體對被檢測成為噪聲實體對.實驗結(jié)果表明噪聲檢測模塊性能穩(wěn)定,對涉及噪聲的實體對齊任務(wù)非常有用.噪聲檢測模塊在不同的數(shù)據(jù)集上測試的評分如表4所示.
表4 不同數(shù)據(jù)集噪聲檢測分析表Tab.4 Noise detection and analysis of different data sets
由圖5所示,通過計算不同數(shù)據(jù)集上的精確率、召回率和F1值,可以得出,不同數(shù)據(jù)集中的實體關(guān)系越多,噪聲檢測模塊的準確率就越高,模型在訓(xùn)練學(xué)習(xí)時就會更優(yōu)化,在實體對齊任務(wù)中的精準度也更高.
圖5 噪聲檢測評估結(jié)果Fig.5 The results of noise detection and evaluation
基于嵌入的實體對齊模型大部分都沒有考慮在標(biāo)記實體對中出現(xiàn)的噪聲問題,不管是用全監(jiān)督學(xué)習(xí)還是半監(jiān)督學(xué)習(xí)標(biāo)記都存在一定的誤差.所以,本文采用REA模型進行噪聲檢測和實體對齊任務(wù),通過GAN網(wǎng)絡(luò)生成噪聲實體對,噪音鑒別器的鑒別可以將真實的噪聲實體對和生成的噪聲實體對區(qū)分出來.在基于GCN的實體嵌入模塊中迭代,可以將原本真實數(shù)據(jù)中已對齊的未知實體對標(biāo)記出來,若為噪聲實體對則將其舍棄,留下對齊精準度較高的不含噪聲的跨語言實體對.
未來要解決的問題主要有以下3個方面:①在實體嵌入模塊中,由于GCN可擴展性差的問題,如果數(shù)據(jù)量過小,節(jié)點信息較少,則GCN的性能會大大下降;②GCN在信息傳遞過程中,前幾層的節(jié)點信息只能在小范圍傳遞,只有圖卷積層越深,效果才會越好,這樣就增加了計算的復(fù)雜度;③在噪聲檢測模塊中,生成對抗網(wǎng)絡(luò)很難趨于穩(wěn)定,所以要優(yōu)化損失函數(shù),提高分類能力,進一步提高模型實體對齊的準確率.