郭 浩 李欣奕 唐九陽 郭延明 趙 翔
近年來,以三元組形式表示現(xiàn)實世界知識或事件的知識圖譜逐漸成為一種主流的結(jié)構(gòu)化數(shù)據(jù)的表示方式,并廣泛應(yīng)用于各類人工智能的下游任務(wù),如知識問答[1]、信息抽取[2]、推薦系統(tǒng)[3]等.相比于傳統(tǒng)的知識圖譜,多模態(tài)知識圖譜[4-5]將多媒體信息融合到知識圖譜中,從而更好地滿足多種模態(tài)數(shù)據(jù)之間的交互式任務(wù),例如圖像和視頻檢索[6]、視頻摘要[7]、視覺常識推理[8]和視覺問答[9]等,并在近年來受到了學界及工業(yè)界的廣泛關(guān)注.
現(xiàn)有的多模態(tài)知識圖譜往往從有限的數(shù)據(jù)源構(gòu)建而來,存在信息缺失、覆蓋率低的問題,導(dǎo)致知識利用率不高.考慮到人工補全知識圖譜開銷大且效率低,為提高知識圖譜的覆蓋程度,一種可行的方法[10-12]是自動地整合來自其他知識圖譜的有用知識,而實體作為鏈接不同知識圖譜的樞紐,對于多模態(tài)知識圖譜融合至關(guān)重要.識別不同的多模態(tài)知識圖譜中表達同一含義的實體的過程,稱為多模態(tài)實體對齊[5,13].
與一般的實體對齊方法不同[11,14],多模態(tài)實體對齊需要利用和融合多個模態(tài)的信息.當前主流的多模態(tài)實體對齊方法[5,13]首先利用圖卷積神經(jīng)網(wǎng)絡(luò)學習知識圖譜的結(jié)構(gòu)信息表示;然后利用預(yù)訓練的圖片分類模型,生成實體的視覺信息表示(利用VGG16[15]、ResNet[16]生成多張圖片向量并加和),得到實體的視覺信息表示;最后以特定權(quán)重將這兩種模態(tài)的信息結(jié)合.不難發(fā)現(xiàn),這類方法存在以下3 個明顯缺陷:
1) 圖譜結(jié)構(gòu)差異性難以處理.不同知識圖譜中對等的實體通常具有相似的鄰接信息,基于這一假設(shè),目前的主流實體對齊方法主要依賴知識圖譜的結(jié)構(gòu)信息[14,17-18]來實現(xiàn)對齊.然而真實世界中,由于構(gòu)建方式的不同,不同知識圖譜可能存在著較大結(jié)構(gòu)差異,這不利于找到潛在的對齊實體.如圖1所示,實體 [The dark knight] 在 DBpedia 和 Free-Base 中鄰接實體數(shù)量存在巨大差異,雖然包含相同的實體[Nolan]、[Bale],然而在FreeBase 還包含額外6 個實體.因此,DBpedia 中的實體 [Bale]容易錯誤地匹配到 FreeBase 中的實體 [Gary oldman],因為它們都是[The dark knight]的鄰居實體且度數(shù)為 1.真實世界中不同知識圖譜的結(jié)構(gòu)性差異問題比圖中的示例更為嚴峻,以數(shù)據(jù)集MMKG[5]為例,基于FreeBase 抽取得到的圖譜 (FB15K)有接近60 萬的三元組,而基于DBpedia 抽取得到的圖譜(DB15K)中三元組數(shù)量不足10 萬.以實體[Nolan]為例,在FB15K 中有成百的鄰居實體;而DB15K中其鄰居實體數(shù)量不足10 個.針對此類問題,可基于鏈接預(yù)測生成三元組以豐富結(jié)構(gòu)信息.這雖然在一定程度上緩和了結(jié)構(gòu)差異性,但所生成的三元組的可靠性有待考量.此外,在三元組數(shù)量相差多倍的情況下補全難度很大.
圖1 知識圖譜FreeBase 和DBpedia 的結(jié)構(gòu)差異性表現(xiàn)Fig.1 Structural differences between knowledge graphs FreeBase and DBpedia
2) 視覺信息利用差.當前自動化構(gòu)建多模態(tài)知識圖譜的方法通?;诂F(xiàn)有知識圖譜補充其他模態(tài)的信息,為獲取視覺信息,通常利用爬蟲從互聯(lián)網(wǎng)爬取實體的相關(guān)圖片以獲取其視覺信息.然而獲取的結(jié)果中不可避免地存在部分相關(guān)程度較低的圖片,即噪聲圖片.現(xiàn)有方法[5,13,19]忽略了噪聲圖片的影響,使得基于視覺信息對齊實體的準確率受限.因此,實體的視覺信息中混有部分噪聲,進而降低了利用視覺信息進行實體對齊的準確率.
3) 多模態(tài)融合權(quán)重固定.當前的主流多模態(tài)實體對齊方法[5,13]以固定的權(quán)重結(jié)合多個模態(tài).這類方法假設(shè)多種模態(tài)信息對實體對齊的貢獻率始終為一固定值,并多依賴于多模態(tài)知識圖譜的結(jié)構(gòu)信息,然而其忽略了不同模態(tài)信息的互補性.此外,由于實體相關(guān)聯(lián)的實體數(shù)量以及實體在圖譜中分布不同,導(dǎo)致不同實體的結(jié)構(gòu)信息有效性存在一定的差異,進一步影響不同模態(tài)信息的貢獻率權(quán)重.事實上,知識圖譜中超過半數(shù)實體都是長尾實體[20],這些實體僅有不足5 個相連的實體,結(jié)構(gòu)信息相對匱乏.而實體的視覺信息卻不受結(jié)構(gòu)影響,因此在結(jié)構(gòu)信息匱乏的情況下應(yīng)賦予視覺信息更高的權(quán)重.總而言之,以固定的權(quán)重結(jié)合多模態(tài)信息無法動態(tài)調(diào)節(jié)各個模態(tài)信息的貢獻率權(quán)重,導(dǎo)致大量長尾實體錯誤匹配,進一步影響實體對齊效果.
為解決上述缺陷,本文創(chuàng)新性地提出自適應(yīng)特征融合的多模態(tài)實體對齊方法(Adaptive feature fusion for multi-modal entity alignment,AF2MEA).在不失一般性的前提下,本文從多模態(tài)知識圖譜中的結(jié)構(gòu)模態(tài)和視覺模態(tài)兩方面出發(fā): 一方面為解決缺陷 1),提出三元組篩選機制,通過無監(jiān)督方法,結(jié)合關(guān)系PageRank 得分以及實體度,為三元組打分,并過濾掉無效三元組,緩和結(jié)構(gòu)差異性;另一方面,針對缺陷 2),利用圖像-文本匹配模型,計算實體-圖片的相似度得分,設(shè)置相似度閾值以過濾噪聲圖片,并基于相似度賦予圖片不同權(quán)重,生成更高質(zhì)量的實體視覺特征表示.此外,為捕獲結(jié)構(gòu)信息動態(tài)變化的置信度并充分利用不同模態(tài)信息的互補性以應(yīng)對缺陷 3),本文設(shè)計自適應(yīng)特征融合機制,基于實體節(jié)點的度數(shù)以及實體與種子實體之間的距離,動態(tài)融合實體的結(jié)構(gòu)信息和視覺信息.這種機制能夠有效應(yīng)對長尾實體數(shù)量占比大且結(jié)構(gòu)信息相對匱乏的現(xiàn)實問題.本文在多模態(tài)實體對齊數(shù)據(jù)集上進行了充分的實驗及分析,表明AF2MEA取得了最優(yōu)的實體對齊效果并證實了提出的各個模塊的有效性.本文的主要貢獻可總結(jié)為以下3 個方面:
1) 設(shè)計創(chuàng)新的三元組篩選模塊,基于關(guān)系PageRank 評分和實體度生成三元組得分,過濾三元組,緩和不同知識圖譜的結(jié)構(gòu)差異性;
2)針對視覺信息利用差的問題,本工作基于預(yù)訓練圖像-文本匹配模型,計算實體-圖片的相似度得分,過濾噪聲圖片,并基于相似度得分獲得更準確的實體視覺特征表示;
3)設(shè)計自適應(yīng)特征融合模塊,以可變注意力融合實體的結(jié)構(gòu)特征和視覺特征,充分利用不同模態(tài)信息之間的互補性,進一步提升對齊效果.
本文第1 節(jié)簡要介紹相關(guān)工作;第2 節(jié)介紹問題定義和整體框架;第3 節(jié)具體介紹本文提出的多模態(tài)實體對齊模型;第4 節(jié)明確實驗設(shè)置,進行實驗并分析結(jié)果;第5 節(jié)為結(jié)束語.
實體對齊任務(wù)旨在尋找兩個知識圖譜中描述同一真實世界對象的實體對,以便鏈接不同知識圖譜.實體對齊作為整合不同知識圖譜中知識的關(guān)鍵步驟,在近年來得到廣泛研究.
傳統(tǒng)的實體對齊方法[21]多依賴本體模式對齊,利用字符串相似度或者規(guī)則挖掘等復(fù)雜的特征工程方法[22]實現(xiàn)對齊,但在大規(guī)模數(shù)據(jù)下準確率及效率顯著下降.而當前實體對齊方法[14,17,23]大多依賴知識圖譜向量,因為向量表示具有簡潔性、通用性以及處理大規(guī)模數(shù)據(jù)的能力.基于不同知識圖譜中等效實體具有相似的鄰接結(jié)構(gòu)這一假設(shè),即等效的實體通常具有等效的鄰居實體,這些工作具有相似框架: 首先利用基于翻譯的表示學習方法 (Translating embedding,TransE)[17,24-25],圖卷積神經(jīng)網(wǎng)絡(luò)(Graph convolutional network,GCN)[9,14]等知識圖譜表示方法編碼知識圖譜結(jié)構(gòu)信息,并將不同知識圖譜中的元素投射到各自低維向量空間中.接著設(shè)計映射函數(shù),利用已知實體對以對齊不同向量空間.考慮到GCN 在學習知識圖譜表示上存在忽略關(guān)系類型、平均聚合相鄰節(jié)點特征的缺陷,一些方法[26-27]利用基于注意力機制的圖神經(jīng)網(wǎng)絡(luò)模型來為不同的相鄰節(jié)點分配不同的權(quán)重.文獻[28]通過學習知識圖譜的關(guān)系表示以輔助生成實體表示.
除生成并優(yōu)化結(jié)構(gòu)表示之外,部分方法[14,26,29]提出引入屬性信息以補充結(jié)構(gòu)信息.文獻[29]提出利用屬性類型生成屬性向量;而文獻[14]則將屬性表示成最常見屬性名的One-hot 向量.這類工作均假設(shè)圖譜中存在大量屬性三元組.但文獻[30]指出,在大多數(shù)知識圖譜中,69%~ 99%的實體至少缺乏1 個同類別實體具有的屬性.這種情況限制了此類方法的通用性.
多數(shù)知識圖譜的構(gòu)建工作都傾向以結(jié)構(gòu)化形式來組織和發(fā)現(xiàn)文本知識,而很少關(guān)注網(wǎng)絡(luò)上的其他類型的資源[4,31].近年來,不同模態(tài)數(shù)據(jù)之間交互式任務(wù)大量涌現(xiàn),如圖像和視頻檢索[6]、視頻摘要生成[7]、視覺實體消歧[8]和視覺問答[9]等.為滿足跨模態(tài)數(shù)據(jù)交互式任務(wù)的需求,知識圖譜需要融合多媒體信息,多模態(tài)知識圖譜應(yīng)運而生.
為提高多模態(tài)知識圖譜的覆蓋程度,多模態(tài)實體對齊是關(guān)鍵的一步.與實體對齊相似,多模態(tài)實體對齊任務(wù)旨在識別不同的多模態(tài)知識圖譜中表達同一含義的實體對[13,19].相關(guān)的多模態(tài)知識表示方法可用于多模態(tài)實體對齊任務(wù),其中基于圖像的知識表示模型 (Image-embodied knowledge representation learning,IKRL)[32]通過三元組和圖像學習知識表示,首先使用神經(jīng)圖像編碼器為實體的所有圖像構(gòu)建表示,然后通過基于注意力的方法將這些圖像表示聚合到實體基于圖像的集成表示中.文獻[33]提出一種基于多模態(tài)翻譯的方法,將知識圖譜中三元組的損失函數(shù)定義為結(jié)構(gòu)表示、視覺表示和語言知識表示的子損失函數(shù)的總和.
總的來說,多模態(tài)實體對齊是一個新穎的問題,目前直接針對該任務(wù)的研究相對較少.其中,文獻[5]利用專家乘積模型 (Product of experiment,PoE),綜合結(jié)構(gòu)、屬性和視覺特征的相似度得分以找到潛在對齊的實體.文獻[13]注意到歐幾里得空間中知識圖譜的結(jié)構(gòu)表示存在失真問題,利用雙曲圖卷積神經(jīng)網(wǎng)絡(luò) (Hyperbolic graph convolutional network,HGCN) 學習實體結(jié)構(gòu)特征和視覺特征,并在雙曲空間中結(jié)合不同模態(tài)特征以尋找潛在的對齊實體.文獻[19]提出一種創(chuàng)新的多模態(tài)知識表示方法,分別設(shè)計了多模態(tài)知識表示模塊和知識融合模塊,融合實體結(jié)構(gòu)特征、屬性特征和視覺特征到同一個向量空間中以對齊實體.該模型取得較好的對齊效果,但結(jié)構(gòu)設(shè)計較為復(fù)雜,視覺特征的利用率不高.
本節(jié)主要介紹多模態(tài)實體對齊任務(wù)的定義以及本文提出的整體模型框架.
多模態(tài)知識圖譜通常包含多個模態(tài)的信息.鑒于大多數(shù)知識圖譜中屬性信息的缺失[30],在不失一般性的前提下,本工作關(guān)注知識圖譜的結(jié)構(gòu)信息和視覺信息.給定2 個多模態(tài)知識圖譜MG1和MG2:MG1=(E1,R1,T1,I1),MG2=(E2,R2,T2,I2).其中,E代表實體集合;R代表關(guān)系集合;T代表三元組集合,三元組表示為 〈E,R,E〉 的子集;I代表實體相關(guān)聯(lián)的圖片集合.種子實體對集合S=表示用于訓練的對齊的實體對集合.多模態(tài)實體對齊任務(wù)旨在利用種子實體對,發(fā)現(xiàn)潛在對齊的實體對,其中等號代表兩個實體指代真實世界中同一實體.
給定某一實體,尋找其在另一知識圖譜中對應(yīng)實體的過程可視為排序問題.即在某一特征空間下,計算給定實體與另一知識圖譜中所有實體的相似程度(距離) 并給出排序,而相似程度最高(距離最小)的實體可視為對齊結(jié)果.
本工作提出的自適應(yīng)特征融合的多模態(tài)實體對齊框架如圖2 所示.首先利用圖卷積神經(jīng)網(wǎng)絡(luò)學習實體的結(jié)構(gòu)向量,生成實體結(jié)構(gòu)特征;設(shè)計視覺特征處理模塊,生成實體視覺特征;接著基于自適應(yīng)特征融合機制,結(jié)合2 種模態(tài)的信息進行實體對齊.此外,為緩和知識圖譜的結(jié)構(gòu)差異性,本工作設(shè)計三元組篩選機制,融合關(guān)系評分及實體的度,過濾部分三元組.圖2 中MG1和MG2分別表示不同的多模態(tài)知識圖譜;KG1、KG2表示知識圖譜;KG′1表示三元組篩選模塊處理后的知識圖譜.
圖2 自適應(yīng)特征融合的多模態(tài)實體對齊框架Fig.2 Multi-modal entity alignment framework based on adaptive feature fusion
本節(jié)介紹提出的多模態(tài)實體對齊框架的各個子模塊,包括視覺特征處理模塊、結(jié)構(gòu)特征學習模塊、三元組篩選模塊以及自適應(yīng)特征融合模塊.
當前多模態(tài)知識圖譜的視覺信息圖片來源于互聯(lián)網(wǎng)搜索引擎,不可避免地存在噪聲圖片,不加區(qū)分地使用這些圖片信息會導(dǎo)致視覺信息利用率差.而圖像-文本匹配模型[34-35]可以計算圖像與文本的相似性程度.受此啟發(fā),為解決視覺信息利用率差的問題,本工作設(shè)計了視覺特征處理模塊,為實體生成更精確的視覺特征以幫助實體對齊.圖3 詳細描述了實體視覺特征的生成過程.在缺乏監(jiān)督數(shù)據(jù)的情況下,本文采用預(yù)訓練的圖像-文本匹配模型,生成圖片與實體相似度;接下來設(shè)置相似度閾值過濾噪聲圖片;最后基于相似度得分賦予圖片相應(yīng)的權(quán)重,最終生成實體的視覺特征表示,具體步驟如下:
圖3 視覺特征處理模塊Fig.3 Visual feature processing module
1) 計算圖片-實體相似度得分.本步驟使用預(yù)訓練的文本圖像匹配模型-共識感知的視覺語義嵌入模型(Consensus-aware visual semantic embedding,CVSE)[36]計算實體圖片集中各個圖片的相似度得分.CVSE 模型將不同模態(tài)間共享的常識知識結(jié)合到圖像-文本匹配任務(wù)中,并在數(shù)據(jù)集MSCOCO[37]和Flickr30k[38]上進行模型訓練,取得先進的圖文匹配效果.本文基于CVSE 模型及其訓練的參數(shù)計算圖片-實體相似度得分.
視覺特征處理模塊的輸入為實體的名稱和實體相應(yīng)的圖片集,見圖3 左側(cè).首先生成實體圖片集的圖片嵌入pi ∈Rn×36×2048,n為實體對應(yīng)圖片集中圖片的數(shù)量.本文利用目標檢測算法Faster RCNN[39]為每幅圖片生成36×2 048 維的特征向量.然后將實體名[Entity Name]拓展為句子{A photo of Entity Name},再送入雙向門控循環(huán)單元(Bidirectional gated recurrent unit,Bi-GRU)[40]以生成實體的文本信息ti.
接著將圖片嵌入pi和文本信息ti送入CVSE模型中,本文移除CVSE 模型的 S oftmax 層,以獲取實體圖像集中圖片的相似度得分:
其中,CVSE表示共識感知的視覺語義嵌入模型,其運算結(jié)果Rn表示圖片集與文本的相似度得分.
2)過濾噪聲圖片.考慮到實體的圖片集中存在部分相似度很低的圖片,影響視覺信息的精度.鑒于此,設(shè)置相似度閾值α,以過濾噪聲圖片:
其中,set(i) 代表初始圖片集,set′(i) 表示過濾掉噪聲圖片后的圖片集,α是相似度閾值超參數(shù).
3)實體視覺特征表示生成.對于set′(i) 中的圖片,本文基于其相似度得分賦予權(quán)重,為實體ei生成更精確的視覺特征表示Vi:
其中,Vi ∈R2048表示實體i的視覺特征;R2048×n′為ResNet 模型生成的圖像特征,n′為去除噪聲后的圖片數(shù)量;atti表示圖片注意力權(quán)重:
本文采用圖卷積神經(jīng)網(wǎng)絡(luò) (GCN)[41-42]捕捉實體鄰接結(jié)構(gòu)信息并生成實體結(jié)構(gòu)表示向量.GCN是一種直接作用在圖結(jié)構(gòu)數(shù)據(jù)上的卷積網(wǎng)絡(luò),通過捕捉節(jié)點周圍的結(jié)構(gòu)信息生成相應(yīng)的節(jié)點結(jié)構(gòu)向量:
其中,Hl,Hl+1分別表示l層和l+1 層節(jié)點的特征矩陣;Wl表示可訓練的參數(shù);=D1/21/2表示標準化的鄰接矩陣,其中D為度矩陣;=A+I,A表示鄰接矩陣,若實體和實體之間存在關(guān)系,則Aij=1;I表示單位矩陣.激活函數(shù)σ設(shè)為 ReLU.
由于不同知識圖譜的實體結(jié)構(gòu)向量并不在同一空間中,因此需要利用已知實體對集合S將不同知識圖譜中的實體映射到同一空間中.具體的訓練目標為最小化下述損失函數(shù):
其中,(x)+=max{0,x};S′代表負樣本集合,基于已知的種子實體對 (e1,e2),以隨機實體替換e1或者e2生成.he代表實體e的結(jié)構(gòu)向量,代表實體e1和e2之間的曼哈頓距離;超參數(shù)γ代表正負例樣本分隔的距離.
知識圖譜的結(jié)構(gòu)特征以三元組形式表示: (h,r,t),其中,h代表頭實體,t代表尾實體,r代表關(guān)系.不同知識圖譜三元組的數(shù)量差異較大,導(dǎo)致基于結(jié)構(gòu)信息進行實體對齊的效果大打折扣.為緩和不同知識圖譜的結(jié)構(gòu)差異性,本工作設(shè)計三元組篩選模塊,評估三元組重要性,并基于重要性得分過濾部分無效三元組.篩選流程如圖4 所示,其中三元組重要性得分結(jié)合關(guān)系r的PageRank 得分,以及實體h和t的度.
圖4 三元組篩選模塊Fig.4 Triples filtering module
1)關(guān)系PageRank 評分計算.首先構(gòu)建以關(guān)系為節(jié)點、實體為邊的關(guān)系-實體圖,也稱知識圖譜的關(guān)系對偶圖[43].定義知識圖譜為Ge=(V e,Ee),其中V e為實體集合,Ee為關(guān)系集合.而關(guān)系對偶圖Gr=(V r,Er)以關(guān)系為節(jié)點,若兩個不同的關(guān)系由同一個頭實體 (尾實體) 連接,則這兩個關(guān)系節(jié)點間存在一條邊.Vr為關(guān)系節(jié)點的集合,Er為邊的集合.
基于上述生成的關(guān)系對偶圖,本文使用Page-Rank[44]算法計算關(guān)系得分.PageRank 算法是圖結(jié)構(gòu)數(shù)據(jù)上鏈接分析的代表性算法,屬于無監(jiān)督學習方法.其基本思想是在有向圖上定義一個隨機游走模型,描述隨機游走者沿著有向圖隨機訪問各個結(jié)點的行為.在一定條件下,極限情況訪問每個結(jié)點的概率收斂到平穩(wěn)分布,這時各個結(jié)點的平穩(wěn)概率值就是其PageRank 值,表示結(jié)點的重要度.受該算法的啟發(fā),基于知識圖譜關(guān)系對偶圖,計算關(guān)系的PageRank 值以表示關(guān)系的重要性:
其中,PR(r) 為關(guān)系的PageRank 評分;關(guān)系v ∈Br,Br表示關(guān)系r的鄰居關(guān)系集合;L(v) 代表與關(guān)系v連接的關(guān)系數(shù)量 (即關(guān)系節(jié)點的度數(shù)).
2)三元組評分機制.對三元組的篩選,一方面要過濾掉冗余或無效的關(guān)系;另一方面要保護知識圖譜的結(jié)構(gòu)特征.由于結(jié)構(gòu)信息缺乏的長尾實體僅有少量相關(guān)三元組,若基于關(guān)系重要性評分直接過濾一種關(guān)系可能會加劇長尾實體的結(jié)構(gòu)信息匱乏問題.為此,本工作結(jié)合關(guān)系的PageRank 評分和頭尾實體的度,設(shè)計三元組評分函數(shù):
其中,dh和dt分別表示頭實體和尾實體的度,即實體相關(guān)聯(lián)的邊的數(shù)量.基于三元組評分Score,并設(shè)置閾值β,保留Score(h,r,t)>β的三元組,以精化知識圖譜.值得注意的是,閾值β的取值由篩選的三元組數(shù)量決定.
多模態(tài)知識圖譜包含至少2 個模態(tài)的信息,多模態(tài)實體對齊需要融合不同模態(tài)的信息.已有的方法將不同的嵌入合并到一個統(tǒng)一的表示空間中[45],這需要額外的訓練來統(tǒng)一表示不相關(guān)的特征.更可取的策略是首先計算不同模態(tài)特征在其特定空間內(nèi)的相似度,然后組合各個模態(tài)特征的相似度得分以尋找匹配的實體對[14,46].
形式上,給定結(jié)構(gòu)特征向量表示S,視覺特征表示V.計算每個實體對 (e1,e2) 中實體之間的相似度得分,然后利用該相似度得分來預(yù)測潛在的對齊實體.為計算總體相似度,當前方法首先計算e1和e2之間的視覺特征向量相似度得分Simv(e1,e2)和結(jié)構(gòu)特征向量的特征相似度得分Sims(e1,e2).相似度得分一般用向量的余弦相似度或曼哈頓距離表示.接下來,以固定權(quán)重結(jié)合上述相似度得分:
其中,Atts和Attv分別代表結(jié)構(gòu)信息和視覺信息的貢獻率權(quán)重;Sim(e1,e2) 表示最終的實體相似度得分.
不同模態(tài)的特征從不同視角表征實體,具有一定相關(guān)性和互補性[47-49].當前多模態(tài)實體對齊方法以固定的權(quán)重結(jié)合結(jié)構(gòu)信息和視覺信息,認為多種模態(tài)信息對實體對齊的貢獻率始終為一定值,忽略了不同實體之間結(jié)構(gòu)信息的有效性差異.基于度感知的長尾實體對齊方法[10]首次提出動態(tài)賦予不同特征重要性權(quán)重的方法,設(shè)計了基于度感知的聯(lián)合注意力網(wǎng)絡(luò),提升了長尾實體的對齊準確率.這證明實體結(jié)構(gòu)信息的有效性與實體度的數(shù)量呈正相關(guān),并且不同知識圖譜中對等的實體通常具有對等的鄰居實體,實體與種子實體關(guān)聯(lián)的密切程度與其結(jié)構(gòu)特征的有效性也呈正相關(guān).而實體的視覺信息的有效性不受此類影響,對于結(jié)構(gòu)信息匱乏的實體,應(yīng)更多地信任視覺信息.
基于此,為捕捉不同模態(tài)信息的貢獻率動態(tài)變化,本工作基于實體度的數(shù)量,并進一步結(jié)合實體與種子實體關(guān)聯(lián)的密切程度,設(shè)計自適應(yīng)特征融合機制:
其中,K,b,a均為超參數(shù),degree表示該實體的度數(shù),Nhop表示實體與種子實體關(guān)聯(lián)密切程度:
其中,n1-hop和n2-hop分別表示距離種子實體1 跳和2 跳的實體數(shù)量;w1和w2為超參數(shù).
本節(jié)首先介紹實驗的基本設(shè)置,包括參數(shù)設(shè)置、數(shù)據(jù)集、對比方法以及評價指標.接著展示在多模態(tài)實體對齊任務(wù)上的實驗結(jié)果,并進行消融分析以驗證各個模塊的有效性.此外,對各個模塊進行分析,驗證設(shè)計的合理性及有效性.
在實驗中,我們使用文獻[5]構(gòu)建的多模態(tài)實體對齊數(shù)據(jù)集MMKG.數(shù)據(jù)集MMKG 從知識庫FreeBase、DBpedia 和Yago 中抽取得到,包含兩對多模態(tài)數(shù)據(jù)集FB15K-DB15K 和FB15K-Yago15K.表1 描述了數(shù)據(jù)集的詳細信息.SameAs 表示等效實體.在實驗中,等效實體以一定比例劃分,分別用于模型訓練和測試.
表1 多模態(tài)知識圖譜數(shù)據(jù)集數(shù)據(jù)統(tǒng)計Table 1 Statistic of the MMKGs datasets
由于數(shù)據(jù)集不提供圖片,為獲取實體相關(guān)圖片,本文基于數(shù)據(jù)集MMKG 創(chuàng)建URI (Uniform resource identifier)數(shù)據(jù),并設(shè)計網(wǎng)絡(luò)爬蟲,解析來自圖像搜索引擎 (即Google Images、Bing Images 和Yahoo Image Search) 的查詢結(jié)果.然后,將不同搜索引擎獲取的圖片分配給不同的MMKG.為模擬真實世界多模態(tài)知識圖譜的構(gòu)建過程,去除等效實體圖像集中相似度過高的圖片,并引入一定數(shù)量的噪聲圖片.
本文實驗使用Hits@k(k=1, 10) 和平均倒數(shù)排名 (Mean reciprocal rank,MRR) 作為評價指標.對于測試集中每個實體,另一個圖譜中的實體根據(jù)它們與該實體的相似度得分以降序排列.Hits@k表示前k個實體中包含正確的實體的數(shù)量占總數(shù)量的百分比;另一方面,MRR 表示正確對齊實體的倒數(shù)排序的平均值.MRR 是信息檢索領(lǐng)域常用的評價指標之一,表示目標實體在模型預(yù)測的實體相關(guān)性排序中排名的倒數(shù)的平均值.注意,Hits@k和 MRR數(shù)值越高表示性能越好,Hits@k的結(jié)果以百分比表示.表2 和表3 中以粗體標注最好的效果.Hits@1代表對齊的準確率,通常視為最重要的評價指標.
表2 多模態(tài)實體對齊結(jié)果Table 2 Results of multi-modal entity alignment
表3 消融實驗實體對齊結(jié)果Table 3 Entity alignment results of ablation study
實體結(jié)構(gòu)特征由圖卷積神經(jīng)網(wǎng)絡(luò)生成,負例數(shù)量設(shè)定為15,邊緣超參數(shù)γ=3,訓練400 輪,維度ds=300.視覺特征由第3.1 節(jié)中提出的視覺特征處理模塊生成,維度dv=2 048;相似度閾值α的值是基于比例確定的,對于每個實體的圖片集,保留相似度前50%的圖片,過濾其余50%的噪聲圖片.基于文獻[5,13]的實驗設(shè)置,將種子實體的比例設(shè)置為20%和50%,并且選取10%的實體作為驗證集,用于調(diào)整式(10) 和式(12) 中超參數(shù),其中,b=1.5,a=1.參數(shù)K的取值與種子實體的比例相關(guān),實驗中設(shè)定的種子實體比例seed不同,則K取值也不同,當seed=20% 時,K取值為0.6;當seed=50%時,K取值為0.8.式(12)中超參數(shù)w1和w2分別取0.8 和0.1.三元組篩選模塊中的閾值β也是基于驗證集調(diào)整得來,取值為0.3,將FB15K 的三元組量篩選至約30 萬.
此外,將本文提出的模型 (AF2MEA) 與以下4 種方法進行對比.
1) IKRL 方法[32].通過基于注意力的方法,將實體的圖像表示與三元組知識聚合到實體的集成表示中以對齊實體.
2) GCN-align 方法[14].利用GCN 生成實體結(jié)構(gòu)和視覺特征矩陣,以固定權(quán)重結(jié)合兩種特征以對齊實體.
3) PoE 方法[5].基于提取的結(jié)構(gòu)、屬性和視覺特征,綜合各個特征的相似度得分以找到潛在對齊的實體.
4) HMEA (Hyperbolic multi-modal entity alignment)方法[13].利用雙曲圖卷積神經(jīng)網(wǎng)絡(luò)HGCN生成實體的結(jié)構(gòu)和視覺特征矩陣,并在雙曲空間中以權(quán)重結(jié)合結(jié)構(gòu)特征和視覺特征,進行實體對齊.
通過表2 可以明顯看出,與IKRL、GCN-align、PoE 以及HMEA 方法相比,本文提出的方法取得最好的實驗結(jié)果.在數(shù)據(jù)集FB15K-DB15K 上,本文提出的方法AF2MEA 的Hits@1 值顯著高于當前最優(yōu)方法HMEA,尤其在種子實體比例為20%條件下,Hits@1 指標的提升超過5%,MRR 也取得大幅提升.此外,在各項指標上,本文所提AF2MEA均大幅領(lǐng)先IKRL、GCN-align 以及PoE.
在數(shù)據(jù)集FB15K-Yago15K 上,與其他4 種模型相比,AF2MEA 在全部指標上均有大幅提升,進一步驗證了本文提出的模型的有效性.其中,在種子實體比例為20%和50%的條件下,AF2MEA 的Hits@1 指標較HMEA 分別提升約11%和8%.
本文創(chuàng)新性地設(shè)計了模型的3 個模塊,分別是視覺特征處理模塊、三元組篩選模塊和自適應(yīng)特征融合模塊.為驗證各模塊對于多模態(tài)實體對齊任務(wù)的有效性,本節(jié)進一步設(shè)計了消融實驗.其中,AF2MEA-Adaptive、AF2MEA-Visual和AF2MEA-Filter分別表示去除特征融合模塊的模型、去除視覺特征處理模塊的模型和去除三元組篩選模塊的模型,通過與本文提出的完整模型AF2MEA 進行對比來檢測各模塊的有效性.
本文消融實驗分別在數(shù)據(jù)集FB15K-DB15K和FB15K-Yago15K 上進行,并分別基于20%和50%種子實體比例進行實驗對比.表3 展示了消融實驗的結(jié)果,完整模型在所有情況下均取得最好的實體對齊效果,去除各個子模塊都使得對齊準確率出現(xiàn)一定程度的下降.
對表3 進行具體分析可知,三元組篩選模塊對實體對齊影響最大: 在種子實體占比20%的條件下,去除該模塊導(dǎo)致Hits@1 指標在數(shù)據(jù)集FB15KDB15K 和FB15K-Yago15K 上分別下降3.6%和6.8%;在種子實體占比50%的條件下,去除三元組篩選模塊導(dǎo)致的性能下降更多,約為7%和8%.此外,去除視覺特征處理模塊和自適應(yīng)特征融合模塊也對實體對齊效果產(chǎn)生了一定程度的影響.在數(shù)據(jù)集FB15K-DB15K 上,去除視覺特征處理模塊和去除自適應(yīng)特征融合模塊導(dǎo)致近似相同程度的Hits@1指標的下降,在種子實體占比為20%時下降1.5%以上,在種子實體占比為50%時下降超過3%.
1)視覺特征處理模塊.視覺特征處理模塊包含基于相似度注意力的圖片特征融合機制和基于相似度的圖片過濾機制.為驗證上述兩種機制的有效性,本節(jié)設(shè)計了對比實驗,其中Att、Filter 分別表示基于相似度注意力的圖片特征融合機制和基于相似度的圖片過濾機制.Att+Filter 表示結(jié)合兩種機制,即本文提出的視覺特征處理模塊.HMEA-v 表示文獻[13]提出的視覺特征處理方法.
由表4 可知,本文提出的基于相似度注意力的圖片特征融合機制與HMEA-v 相比,在所有指標上均有較大提升,在種子實體占比20%的情況下,Hits@1 提升超過6%,MRR 也取得很大提升.此外,兩個模塊Att、Filter 結(jié)合取得了最好的對齊效果,相比單純使用注意力模塊有了小幅的提升.
表4 實體視覺特征的對齊結(jié)果Table 4 Entity alignment results of visual feature
2)三元組篩選模塊.為驗證本文提出的三元組篩選模塊的有效性,本文對比了 FPageRank、Frandom和 Four三種篩選機制,分別代表基于PageRank 評分篩選機制、隨機篩選機制以及本文設(shè)計的篩選機制.為控制實驗變量,本實驗使用上述三種篩選機制篩選了相同數(shù)量的三元組,約30 萬,并基于圖卷積神經(jīng)網(wǎng)絡(luò)學習結(jié)構(gòu)特征,保持各參數(shù)一致.
實驗結(jié)果表明,隨機篩選 Frandom相較于保留所有三元組的基線,其Hits@1 在seed=20%和seed=50%的情況下分別提升約1.5%和2.5%,表明圖譜結(jié)構(gòu)差異性對于實體對齊存在一定的影響.基于PageRank 評分的篩選機制相比于隨機篩選,在種子實體比例為50%的情況下,提升3%左右.由表5可知,本文提出的三元組篩選機制取得了最優(yōu)對齊結(jié)果,在FB15K-DB15K 上與基線對比,Hits@1 指標在不同種子實體比例下分別提升約3% 和8%;在FB15K-Yago15K 上,Hits@1 指標分別提升約5%和9%.
表5 不同三元組篩選機制下實體結(jié)構(gòu)特征對齊結(jié)果Table 5 Entity alignment results of structure feature in different filtering mechanism
3)自適應(yīng)特征融合模塊.本文提出的自適應(yīng)特征融合,結(jié)合實體度以及實體與種子實體的關(guān)聯(lián)程度,賦予不同模態(tài)信息動態(tài)的貢獻率權(quán)重.第4.4 節(jié)中消融實驗結(jié)果已證明自適應(yīng)特征融合機制的有效性,為進一步驗證該機制對結(jié)構(gòu)信息匱乏的實體的對齊效果,本節(jié)對比自適應(yīng)特征融合機制和固定權(quán)重特征融合兩種方法.
由于結(jié)構(gòu)信息的豐富程度與實體的度相關(guān),我們按照實體度的數(shù)量將實體劃分為3 類,在這3 類實體上分別測試本文提出的自適應(yīng)融合機制和固定權(quán)重機制下多模態(tài)實體對齊的準確率.本實驗種子實體比例設(shè)置為20%,分別在數(shù)據(jù)集FB15K-DB15K與FB15K-Yago15K 上進行,相關(guān)參數(shù)與第4.4 節(jié)中消融實驗保持一致.
表6 展示了自適應(yīng)特征融合與固定權(quán)重融合的多模態(tài)實體對齊結(jié)果.其中Fixed 和Adaptive 分別代表固定權(quán)重融合機制和自適應(yīng)特征融合機制;Group 1、Group 2 和Group 3 分別表示前1/3、中間1/3 和后1/3 部分實體,基于實體度從小到大劃分.由表6 可知,自適應(yīng)特征融合機制相比固定權(quán)重融合,在各類實體上均取得更好的實體對齊效果.圖5 表示自適應(yīng)特征融合與固定權(quán)重融合的實體對齊Hits@1 對比,可以清晰地看出,在Group 1 上提升顯著高于Group 2 和Group 3,證明本文提出的自適應(yīng)特征融合機制可顯著提升結(jié)構(gòu)信息匱乏的實體即長尾實體的對齊準確率.
表6 自適應(yīng)特征融合與固定權(quán)重融合多模態(tài)實體對齊結(jié)果Table 6 Multi-modal entity alignment results of fixed feature fusion and adaptive feature fusion
圖5 自適應(yīng)特征融合與固定權(quán)重融合的實體對齊Hits@1 對比Fig.5 Entity alignment Hits@1's comparison of adaptive feature fusion and fixed feature fusion
本工作旨在結(jié)合知識圖譜中普遍存在的結(jié)構(gòu)信息和不同模態(tài)的視覺信息,并提升視覺信息的有效利用.MMEA (Multi-modal entity alignment)[19]模型取得了較好的實驗結(jié)果,但本文使用的數(shù)據(jù)集與其使用的數(shù)據(jù)集存在一定差異,因此沒有將MMEA 作為主實驗中的對比模型.為證明本文提出方法的有效性,我們在AF2MEA 原有的結(jié)構(gòu)信息和視覺信息的基礎(chǔ)上,添加屬性信息,并在數(shù)據(jù)集FB15K-Yago15K 上進行對比實驗.我們對屬性信息進行簡單處理: 首先基于種子實體找到對應(yīng)屬性,利用對應(yīng)屬性的數(shù)值對實體對進行相似度打分.由于實體屬性值不受實體結(jié)構(gòu)的影響,我們再次使用自適應(yīng)特征融合模塊以融合屬性信息,尋找潛在的對齊實體.
如表7 所示,基于相同實驗條件,本文提出的模型AF2MEA 的效果顯著優(yōu)于PoE 模型及MMEA模型.在種子實體比例為20%的情況下,與MMEA相比,本文提出的方法在Hits@1 指標上取得5%以上的提升.在種子實體比例為50% 的情況下,AF2MEA 的Hits@1 值達到48.25%,高出MMEA約8%.在指標Hits@10 以及MRR 上,AF2MEA也有較大的提升.這進一步證明了本文提出框架的有效性和可擴展性.
表7 補充實驗多模態(tài)實體對齊結(jié)果Table 7 Multi-modal entity alignment results of additional experiment
為解決多模態(tài)知識圖譜不完整的問題,本文提出自適應(yīng)特征融合的多模態(tài)實體對齊方法AF2MEA,設(shè)計自適應(yīng)特征融合機制實現(xiàn)多種模態(tài)信息有效融合,充分利用多模態(tài)信息間的互補性.并且,當前多模態(tài)知識圖譜中視覺信息利用率不高,本文基于預(yù)訓練的圖像-文本匹配模型,設(shè)計了視覺特征處理模塊,為實體生成更精確的視覺特征表示.此外,注意到不同知識圖譜之間存在較大的結(jié)構(gòu)差異限制實體對齊的效果,本文設(shè)計三元組篩選機制,緩和結(jié)構(gòu)差異.該模型在多模態(tài)實體對齊數(shù)據(jù)集上取得最好的效果,并顯著提升實體對齊準確率.
后續(xù)工作將進一步研究多模態(tài)特征聯(lián)合表示、預(yù)訓練實體對齊模型等多模態(tài)實體對齊的相關(guān)問題,構(gòu)建高效可行的多模態(tài)知識圖譜融合系統(tǒng).