摘"" 要:在知識(shí)圖譜補(bǔ)全(knowdge graph completion,KGC)任務(wù)中,負(fù)采樣方法并不被重視,但其對(duì)補(bǔ)全精度能造成巨大的影響。一方面,當(dāng)前一些負(fù)采樣方法使用較少的參數(shù),產(chǎn)生的負(fù)樣本質(zhì)量較低;另一方面,如對(duì)抗性負(fù)采樣的負(fù)采樣方法雖然能夠生成高質(zhì)量的負(fù)樣本,但其計(jì)算復(fù)雜度較高。為解決生成負(fù)例三元組過(guò)程中出現(xiàn)的以上問(wèn)題,提出了一種新的基于實(shí)體自適應(yīng)信息混合的負(fù)采樣方法(entity adaptive information hybrid-negative sampling,EAIH-NS),EAIH-NS將實(shí)體的嵌入表示以層次聚類(lèi)的方法分簇分類(lèi),能實(shí)現(xiàn)較好的分簇效果,且結(jié)果具有較強(qiáng)的可解釋性。同時(shí),在分簇排序的條件下以高斯分布的方式選取多個(gè)負(fù)樣本,采用混合操作最終得到高質(zhì)量的負(fù)例三元組。EAIH-NS采用了相對(duì)于其他負(fù)采樣方法更少的參數(shù),降低了模型的復(fù)雜度,在知識(shí)圖譜數(shù)據(jù)集的實(shí)驗(yàn)中都得到了較好的性能提升。
關(guān) 鍵 詞:負(fù)采樣; 知識(shí)圖譜補(bǔ)全; 層次聚類(lèi); 混合操作
氧化鈷; 納米結(jié)構(gòu); 電容器; 電催化
中圖分類(lèi)號(hào):TP319""" 文獻(xiàn)標(biāo)志碼:A
doi:10.3969/ j.issn.16735862.2024.01.009
Negative sampling method based on entity adaptive information hybrid for knowledge graph embedding
CUI Song "LYU Yan "CHEN Lanfeng1,2
LI Hang, XU Mingshao
(1. College of Physical Science and Technology, Shenyang Normal University, Shenyang 110034, China)
(Software College, Shenyang Normal University, Shenyang 110034, China)
Abstract:
Negative sampling methods are not emphasized in the task of knowledge graph completin, but they can have a huge impact on the complementation accuracy. On the one hand, some negative sampling methods use fewer parameters and produce lower-quality negative samples; on the other hand, some negative sampling methods such as adversarial negative sampling are capable of generating high-quality negative samples, but their computational complexity is high. To address the above issues. proposing a method named Entity Adaptive Information Hybrid Negative Sampling for Knowledge Graph Embedding(EAIH-NS). EAIH-NS classifies the embedded representations of entities in clusters by hierarchical clustering, which can achieve better clustering results. Afterwards, negative samples are selected in a Gaussian distribution under the condition of cluster ordering. At the same time,multiple negative samples are selected in a Gaussian distribution, and a mixing operation is used to finally obtain a high-quality negative triples. EAIH-NS employs fewer parameters relative to other negative sampling methods, which reduces the complexity of the model and results in better performance improvement in all the experiments on the knowledge graph dataset.
Key words:
negative sampling; knowledge graph complementation; hierarchical clustering; mixing operation
知識(shí)圖譜的概念由Google于2012年提出:現(xiàn)實(shí)世界的知識(shí)可以通過(guò)(head,relation,tail)形式的三元組來(lái)表示,即(h,r,t)。知識(shí)圖譜技術(shù)自誕生以來(lái),廣泛應(yīng)用于醫(yī)療、工業(yè)等多個(gè)領(lǐng)域[14]。然而,隨著社會(huì)的發(fā)展,人類(lèi)的知識(shí)在不斷地改變和增加,當(dāng)前的知識(shí)圖譜并不完整,嚴(yán)重影響到下層應(yīng)用的性能。針對(duì)知識(shí)圖譜的不完整性問(wèn)題,知識(shí)圖譜補(bǔ)全(knowledge graph completion,KGC)技術(shù)應(yīng)運(yùn)而生。在知識(shí)圖譜補(bǔ)全任務(wù)中,除了使用正確的三元組外,還需要引入錯(cuò)誤的三元組來(lái)增強(qiáng)模型的辨別能力,負(fù)采樣方法就是生成這些負(fù)樣本的技術(shù)。當(dāng)前研究最多使用的是均勻負(fù)采樣方法,該方法雖實(shí)現(xiàn)簡(jiǎn)單、參數(shù)較少,但生成的負(fù)樣本不具有挑戰(zhàn)性,造成知識(shí)圖譜補(bǔ)全精度較低的問(wèn)題。同時(shí),其他的負(fù)采樣方法如對(duì)抗性負(fù)采樣等也出現(xiàn)參數(shù)較多、復(fù)雜度高等問(wèn)題。
動(dòng)態(tài)負(fù)采樣方法可以用更少的參數(shù)實(shí)現(xiàn)更好的預(yù)測(cè)精度,例如,自適應(yīng)負(fù)采樣(adaptive negative sampling,ANS)使用K-means聚類(lèi)將所有實(shí)體分類(lèi)為相似實(shí)體的組,并且對(duì)于每個(gè)正三元組,隨機(jī)選擇一個(gè)正實(shí)體所在簇中的負(fù)實(shí)體,替換該頭部或尾部的正實(shí)體生成負(fù)樣本[5]。這種方法相比靜態(tài)負(fù)采樣方法(如均勻負(fù)采樣)能生成更具挑戰(zhàn)性的負(fù)采樣樣本,以達(dá)到提升補(bǔ)全精度的目的。盡管其改進(jìn)了負(fù)樣本的選擇,但由于K-means聚類(lèi)算法傾向于在樣本空間密集的區(qū)域中生成質(zhì)心,這可能導(dǎo)致樣本稀疏的區(qū)域中的負(fù)樣本不準(zhǔn)確。同時(shí),負(fù)樣本的生成在許多現(xiàn)有的負(fù)采樣方法中缺乏創(chuàng)新,因?yàn)樗鼈兺ǔR蕾?lài)于選擇預(yù)先存在的負(fù)實(shí)體向量作為負(fù)樣本,這限制了模型預(yù)測(cè)復(fù)雜數(shù)據(jù)關(guān)系的能力。
針對(duì)上述問(wèn)題,本文提出了一種新的負(fù)采樣方法——實(shí)體自適應(yīng)信息混合負(fù)采樣,即EAIH-NS(entity adaptive information hybrid-negative sampling)。EAIH-NS中的自適應(yīng)實(shí)體分類(lèi)方法可以有效地對(duì)形狀復(fù)雜或大小不同的數(shù)據(jù)集進(jìn)行分類(lèi),更好地處理具有自然層次結(jié)構(gòu)的數(shù)據(jù),提高數(shù)據(jù)的可解釋性;EAIH-NS中的負(fù)實(shí)體信息混合方法通過(guò)在聚類(lèi)后從高斯分布中選擇多個(gè)負(fù)實(shí)體來(lái)增加負(fù)樣本的多樣性和復(fù)雜性,并通過(guò)混合操作混合來(lái)自多個(gè)負(fù)主體的信息來(lái)生成新的、更具挑戰(zhàn)性的負(fù)樣本,這為訓(xùn)練模型提供了更多的信息。將該方法在多個(gè)經(jīng)典知識(shí)表示學(xué)習(xí)模型和2個(gè)通用知識(shí)圖譜數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)評(píng)估,較其基線(xiàn)取得了顯著的性能提升。此外,相較于現(xiàn)有其他的負(fù)采樣方法,EAIH-NS在實(shí)驗(yàn)中的表現(xiàn)同樣具有競(jìng)爭(zhēng)力。
1 相關(guān)工作
靜態(tài)負(fù)采樣是知識(shí)圖譜補(bǔ)全任務(wù)中常用的一種方法。均勻負(fù)采樣是知識(shí)表示學(xué)習(xí)模型中使用的主要方法,該方法在替換正三元組中頭部實(shí)體或尾部實(shí)體過(guò)程中均勻地覆蓋整個(gè)樣本空間,以相同概率抽取樣本解決生成負(fù)樣本的挑戰(zhàn)[6]。然而,均勻負(fù)采樣可能會(huì)產(chǎn)生假陰性樣本,假陰性是知識(shí)圖譜補(bǔ)全任務(wù)中的一個(gè)重要挑戰(zhàn)。當(dāng)前已經(jīng)提出了各種負(fù)采樣方法來(lái)解決這個(gè)問(wèn)題,其中一種方法是伯努利負(fù)采樣方法,伯努利負(fù)采樣方法是基于關(guān)系的映射性質(zhì),用不同的概率替換正三元組的頭部或尾部實(shí)體[7]。然而,在涉及約束或不平衡數(shù)據(jù)的情況下,使用均勻負(fù)采樣或伯努利負(fù)采樣方法可能無(wú)法充分捕捉目標(biāo)三元組的缺失成分。
在知識(shí)圖譜補(bǔ)全任務(wù)中,靜態(tài)負(fù)采樣方法往往會(huì)產(chǎn)生過(guò)于簡(jiǎn)單化的負(fù)樣本,為了避免這種情況,研究人員提出了一種基于動(dòng)態(tài)分布的采樣方法。ANS[5]是一種使用K-means聚類(lèi)[8]模型生成負(fù)樣本的方法,但是,由于K-means聚類(lèi)算法傾向于在樣本空間密集的區(qū)域生成質(zhì)心,這可能導(dǎo)致在樣本稀疏的區(qū)域中出現(xiàn)不準(zhǔn)確的負(fù)樣本。SANS方法結(jié)合已知的圖結(jié)構(gòu),通過(guò)從節(jié)點(diǎn)的 k 跳鄰域中選擇負(fù)樣本來(lái)利用豐富的圖結(jié)構(gòu)[9]。方法MixGCF 利用了混合的操作,并不從數(shù)據(jù)中采樣原始樣本,設(shè)計(jì)了混合跳轉(zhuǎn)技術(shù)來(lái)合成負(fù)樣本,但擁有一定的計(jì)算復(fù)雜度[10]。對(duì)抗性負(fù)采樣方法是一類(lèi)新興的技術(shù),例如IGAN和KBGAN引入了生成對(duì)抗網(wǎng)絡(luò)來(lái)選擇高質(zhì)量的負(fù)樣本。在這種方法中,生成器網(wǎng)絡(luò)由損壞的三元組嵌入向量組成,
判別器接收生成器生成的樣本和從知識(shí)圖譜中抽取的真實(shí)樣本,計(jì)算判別器的損失函數(shù)并更新相關(guān)參數(shù),多次迭代生成高質(zhì)量負(fù)樣本[1112]。然而,在大規(guī)模的知識(shí)圖互補(bǔ)任務(wù)中,對(duì)抗性網(wǎng)絡(luò)往往需要更多的參數(shù)和開(kāi)銷(xiāo)。
2 方 法
EAIH-NS的整體架構(gòu)如圖1所示。將知識(shí)圖譜中所有的實(shí)體通過(guò)層次聚類(lèi)生成更具語(yǔ)義合理性的分簇,后將需替換的實(shí)體所在的簇X通過(guò)高斯分布選擇多個(gè)本就與正實(shí)體相近的負(fù)實(shí)體x′n,并使用混合函數(shù)H混合其相應(yīng)的信息以生成更具有挑戰(zhàn)性的高質(zhì)量負(fù)例三元組,最后選擇知識(shí)表示學(xué)習(xí)模型計(jì)算損失函數(shù)L,G代表梯度更新,N表示嵌入標(biāo)準(zhǔn)化。由于聚類(lèi)算法被用于知識(shí)圖嵌入訓(xùn)練的實(shí)體,隨著學(xué)習(xí)的進(jìn)展,實(shí)體嵌入將不斷變化。因此,應(yīng)使聚類(lèi)的簇不斷更新以適應(yīng)不斷變化的實(shí)體嵌入。
2.1 實(shí)體分類(lèi)
知識(shí)圖譜數(shù)據(jù)集中包括的三元組是已存在的事實(shí),不包括負(fù)例三元組,這些負(fù)例三元組是通過(guò)用這些已存在的實(shí)際三元組替換頭實(shí)體或尾實(shí)體而獲得的。在EAIH-NS方法中,如圖1所示,負(fù)示例三元組的生成在很大程度上依賴(lài)于實(shí)體聚類(lèi)的效果,類(lèi)似的方法如ANS使用K-means算法對(duì)實(shí)體進(jìn)行聚類(lèi)。然而,面對(duì)與復(fù)雜知識(shí)圖相關(guān)的更大規(guī)模任務(wù),K-means算法簡(jiǎn)單地計(jì)算實(shí)體與質(zhì)心之間的距離,在語(yǔ)義上并不能提供良好的聚類(lèi)效果。層次聚類(lèi)能夠很好地考慮實(shí)體之間的語(yǔ)義關(guān)系,并不如K-means算法一樣隨機(jī)生成質(zhì)心,這也為稀疏數(shù)據(jù)提供了極好的聚類(lèi)效果。
最初,每個(gè)實(shí)體被視為一個(gè)單獨(dú)的簇,計(jì)算實(shí)體之間的歐幾里得距離,通過(guò)計(jì)算實(shí)體之間歐幾里得距離找到最近的2個(gè)簇,并將它們合并到一個(gè)新的簇中,之后,更新距離矩陣以反映新簇與其他簇之間的距離,并重復(fù)這些步驟以獲得多個(gè)知識(shí)圖譜實(shí)體簇。通過(guò)層次聚類(lèi)獲得的簇中包含的實(shí)體具有相似的特性,為負(fù)樣本的選擇提供了良好的基礎(chǔ)。實(shí)體聚類(lèi)如圖2所示,其中n個(gè)m維實(shí)體被合成為k個(gè)聚類(lèi)。
在訓(xùn)練迭代過(guò)程中,通過(guò)知識(shí)表示學(xué)習(xí)模型計(jì)算出損失后,實(shí)體嵌入向量不斷優(yōu)化和改變,實(shí)體之間的相似性也會(huì)隨之改變,需要更新聚類(lèi)結(jié)果以適應(yīng)新的實(shí)體,從而繼續(xù)為后續(xù)訓(xùn)練提供高質(zhì)量負(fù)樣本的來(lái)源。這樣的更新不需要在每一次訓(xùn)練中執(zhí)行,實(shí)驗(yàn)得出每3個(gè)訓(xùn)練周期執(zhí)行一次更新即可適應(yīng)實(shí)體向量的改變。
2.2 負(fù)實(shí)體信息混合
負(fù)實(shí)體信息混合部分在實(shí)體聚類(lèi)模塊獲得更具語(yǔ)義關(guān)系的實(shí)體分簇基礎(chǔ)上,繼續(xù)生成更高質(zhì)量的負(fù)實(shí)體以提高模型的負(fù)樣本挑戰(zhàn)性,達(dá)到提升模型精度的目的。EAIH-NS通過(guò)選擇與正實(shí)體信息相似的其他實(shí)體作為負(fù)實(shí)體的備選,因?yàn)檫@些負(fù)實(shí)體本就和正實(shí)體具有較強(qiáng)的語(yǔ)義關(guān)聯(lián),后選擇其中的2個(gè)負(fù)實(shí)體混合信息生成更有挑戰(zhàn)性的新負(fù)實(shí)體,該負(fù)實(shí)體在向量角度對(duì)模型的訓(xùn)練中更具挑戰(zhàn)性,但其可能本身并不是真正的實(shí)體,突破了其他負(fù)采樣方法中僅通過(guò)選擇現(xiàn)有的負(fù)實(shí)體生成負(fù)樣本的方法。假設(shè)一個(gè)正三元組(h,r,t)的尾實(shí)體t選擇2個(gè)相應(yīng)的負(fù)實(shí)體t′1和t′2,選擇β作為混合系數(shù)將負(fù)實(shí)體混合生成新負(fù)實(shí)體t′并替換正實(shí)體t,生成負(fù)三元組(h,r,t′),混合公式為
t′=β×t′1+(1-β)×t′2(1)
其中β通過(guò)在(0,1)區(qū)間內(nèi)隨機(jī)獲得。負(fù)實(shí)體向量信息混合如圖3所示,假設(shè)負(fù)實(shí)體t′1和t′2被嵌入為m維的向量,該圖展示混合過(guò)程中負(fù)實(shí)體的結(jié)構(gòu)變化。
被混合信息的負(fù)實(shí)體是使用實(shí)體分類(lèi)方法后,所有正實(shí)體按簇排序后的實(shí)體序號(hào)上高斯分布來(lái)獲得的。通常的負(fù)樣本選擇是通過(guò)隨機(jī)分布抽樣完成的,考慮到層次聚類(lèi)獲得的簇內(nèi)具有強(qiáng)語(yǔ)義關(guān)系,且在實(shí)體數(shù)量上有所不同,有大的聚類(lèi)和小的聚類(lèi),在具有大量實(shí)體的大型集群中,集群內(nèi)隨機(jī)抽樣是不錯(cuò)的選擇,但在具有少量實(shí)體的小型集群中,很容易多次捕獲同一個(gè)負(fù)實(shí)體,在獲取新負(fù)實(shí)體的混合操作中賦予該實(shí)體更大的信息權(quán)重。高斯分布采樣可以有效避免這一情況的發(fā)生,在聚類(lèi)后,將所有的實(shí)體按簇進(jìn)行索引排序分配。假設(shè)共有n個(gè)實(shí)體,對(duì)排序分配出的索引[0~n)進(jìn)行高斯分布,從一個(gè)均值為μ、方差為σ的高斯分布中速記抽取實(shí)體索引xi,xj,即xi,xj~N(μ,σ),其中μ代表正實(shí)體x對(duì)應(yīng)的實(shí)體索引,σ代表了采樣的分散程度,這2個(gè)實(shí)體索引對(duì)應(yīng)上述混合操作的負(fù)實(shí)體t′1和t′2。為簡(jiǎn)單實(shí)現(xiàn)這一抽取操作,可以先從標(biāo)準(zhǔn)正態(tài)分布N(0,1)采樣,然后通過(guò)線(xiàn)性變換乘σ再加μ得到所需分布的樣本,在獲取較強(qiáng)語(yǔ)義關(guān)系的負(fù)實(shí)體的同時(shí),避免小簇重復(fù)使用負(fù)實(shí)體,增強(qiáng)模型的學(xué)習(xí)效果。公式如下:
xi,xj~(N(0,1)×σ+μ)(2)
根據(jù)正實(shí)體所在簇的大小動(dòng)態(tài)調(diào)整σ以獲取最優(yōu)的負(fù)實(shí)體進(jìn)入混合操作,高斯分布采樣如圖4所示。為避免生成假陰性樣本的影響,在獲得xi,xj時(shí)和混合生成t′時(shí),都將替換正樣本檢查是否已存在該三元組。
模型的訓(xùn)練和優(yōu)化采用的損失函數(shù)如下:
L=-logσ(γ-fr(h,t))-1N∑N1logσ(fr(hi′,hj′)-γ)(3)
其中:γ是超參數(shù)邊距;σ代表sigmoid激活函數(shù)。EAIH-NS算法如下所示:
算法1 EAIH-NS算法
Input:知識(shí)圖譜中實(shí)體和關(guān)系集合G=(E,R),訓(xùn)練、驗(yàn)證、測(cè)試三元組(h,r,t)
1:初始化:初始化實(shí)體的嵌入向量e∈E和關(guān)系的嵌入向量r∈R.
2:while ilt;=max_step do
3: "采樣一個(gè)小批量Gbatch∈G;
4: "while (h,r,t)∈Gbatchdo
5:" "層次聚類(lèi)并按簇排序分配實(shí)體序號(hào)
6:" "通過(guò)對(duì)實(shí)體序號(hào)高斯分布xi,xj~(N(0,1)×σ+μ)獲得2個(gè)和正實(shí)體具有較強(qiáng)語(yǔ)義聯(lián)系的負(fù)實(shí)體t′1和t′2
7:" "混合負(fù)實(shí)體信息t′=β×t′1+(1-β)×t′2得到更高質(zhì)量的新負(fù)實(shí)體t′
8:" "新負(fù)實(shí)體替換頭或尾正實(shí)體,檢查新負(fù)三元組是否不在預(yù)先存在的三元組中
9: ""使用損失函數(shù)方程(3)更新相關(guān)參數(shù)
10: "end while
11: "if(epoch mod 3)==0 then
12:" "重新層次聚類(lèi)和實(shí)體索引生成
13:end while
Output:更新調(diào)整后的實(shí)體和關(guān)系向量
3 實(shí)驗(yàn)和分析
3.1 數(shù)據(jù)集
EAIH-NS方法主要針對(duì)知識(shí)圖譜補(bǔ)全任務(wù),通過(guò)比較選擇了幾個(gè)標(biāo)準(zhǔn)化的數(shù)據(jù)集。這些數(shù)據(jù)集有助于公平地比較不同模型的性能。FB15k和WN18是2個(gè)早期常用的數(shù)據(jù)集,它們分別源自FreeBase和WordNet,這2個(gè)知識(shí)庫(kù)廣泛應(yīng)用于語(yǔ)義網(wǎng)和自然語(yǔ)言處理領(lǐng)域,包含大量的實(shí)體及其相互間的關(guān)系。但這些初代數(shù)據(jù)集中存在如數(shù)據(jù)泄露等問(wèn)題,即原始數(shù)據(jù)集中包含大量易于通過(guò)模式匹配進(jìn)行預(yù)測(cè)的逆關(guān)系,對(duì)實(shí)驗(yàn)精度具有一定影響。FB15k-237和WN18RR這2個(gè)數(shù)據(jù)集在FB15k和WN18數(shù)據(jù)集上通過(guò)移除可能導(dǎo)致算法過(guò)度擬合的三元組,有效提高了鏈接預(yù)測(cè)任務(wù)的挑戰(zhàn)性,在知識(shí)圖譜補(bǔ)全任務(wù)中更具挑戰(zhàn)性和通用性,可以更好地區(qū)分模型的效率,數(shù)據(jù)集的基本統(tǒng)計(jì)數(shù)據(jù)如表1所示。
3.2 實(shí)驗(yàn)設(shè)置
3.2.1 評(píng)估方法
在測(cè)試階段,對(duì)于每個(gè)三元組,文章將頭部實(shí)體替換為當(dāng)前 KG 中的所有其他實(shí)體,并計(jì)算這些替換的三元組和原始三元組的分?jǐn)?shù),使用第2節(jié)中指定的評(píng)分函數(shù)。由于一些替換后的三元組也可能在原始數(shù)據(jù)集的訓(xùn)練、驗(yàn)證和測(cè)試集中存在,因此過(guò)濾掉這些三元組然后將剩余三元組按分?jǐn)?shù)降序排列,該排名列表中正確三元組的排名用于評(píng)估,整個(gè)過(guò)程在替換尾部實(shí)體時(shí)重復(fù)。繼之前的研究,使用最常用的指標(biāo)平均倒數(shù)排名(MRR)和 Hits@10。對(duì)于所有指標(biāo),更高的值意味著更好的性能。
3.2.2 訓(xùn)練設(shè)置
文章模型以PyTorch作為深度學(xué)習(xí)框架,在A40顯卡上進(jìn)行所有實(shí)驗(yàn)操作,使用Adam作為梯度優(yōu)化器。在訓(xùn)練過(guò)程中,該模型在驗(yàn)證集上不斷進(jìn)行測(cè)試,測(cè)試結(jié)果被用作評(píng)估模型參數(shù)優(yōu)缺點(diǎn)的標(biāo)準(zhǔn)。表2展示了實(shí)驗(yàn)選用模型部分參數(shù)。
3.3 實(shí)驗(yàn)結(jié)果及分析
負(fù)采樣方法依賴(lài)于知識(shí)表示學(xué)習(xí)模型,會(huì)對(duì)模型的預(yù)測(cè)精度產(chǎn)生極大的影響。為了充分證明EAIH-NS方法的有效性和優(yōu)越性,實(shí)驗(yàn)選擇了不同的負(fù)采樣方法對(duì)不同的知識(shí)表示學(xué)習(xí)模型進(jìn)行比較測(cè)試。負(fù)采樣方法選擇經(jīng)典的均勻負(fù)采樣(uniform),從整個(gè)實(shí)體集中隨機(jī)采樣負(fù)實(shí)體;KBGAN負(fù)采樣方法,通過(guò)生成對(duì)抗網(wǎng)絡(luò)框架中的生成器生成高質(zhì)量的負(fù)樣本來(lái)訓(xùn)練[12];NSCaching負(fù)采樣方法,構(gòu)建緩存以存儲(chǔ)高質(zhì)量的負(fù)樣本;還有就是利用K-means聚類(lèi)選擇負(fù)實(shí)體的ANS負(fù)采樣方法[13]。知識(shí)表示學(xué)習(xí)模型選擇了經(jīng)典模型TransE、DistMult[14]、ComplEx[15]和RotatE[16],由于原始的RotatE模型使用了自對(duì)抗負(fù)采樣方法,因此實(shí)驗(yàn)也將自對(duì)抗負(fù)采樣方法添加到RotatE模型中進(jìn)行比較。
表3顯示了在2個(gè)知識(shí)圖譜數(shù)據(jù)集上使用不同負(fù)采樣方法得到的每個(gè)模型的實(shí)驗(yàn)結(jié)果。表中的實(shí)驗(yàn)數(shù)據(jù)部分參考了經(jīng)典文獻(xiàn)和原始論文。將實(shí)驗(yàn)重復(fù)3次,以最佳結(jié)果作為實(shí)驗(yàn)結(jié)果,并用粗體表示在該評(píng)價(jià)指標(biāo)下的最佳性能。
實(shí)驗(yàn)結(jié)果表明,與其他經(jīng)典的負(fù)采樣方法相比,EAIH-NS產(chǎn)生了顯著的差異,并在提高鏈路預(yù)測(cè)任務(wù)的準(zhǔn)確性方面發(fā)揮了重要作用。這證明了EAIH-NS方法的有效性,與均勻等靜態(tài)負(fù)采樣技術(shù)和ANS等動(dòng)態(tài)負(fù)采樣技術(shù)相比,在評(píng)估指標(biāo)上有了很大精進(jìn)。在RotatE模型的負(fù)采樣技術(shù)比較實(shí)驗(yàn)中,還比較了對(duì)抗性負(fù)采樣技術(shù)中性能較好的一種——自對(duì)抗負(fù)采樣技術(shù),在與對(duì)抗性負(fù)采樣的數(shù)據(jù)對(duì)比中,EAIH-NS方法比KBGAN有更顯著的性能改進(jìn),并且與自對(duì)抗負(fù)采樣技術(shù)產(chǎn)生了極其接近的結(jié)果,在FB15k-237數(shù)據(jù)集上,關(guān)于Hits@10指標(biāo)產(chǎn)生了略弱于自對(duì)抗負(fù)采樣技術(shù)的結(jié)果。然而,EAIH-NS方法使用了比自對(duì)抗負(fù)采樣技術(shù)更少的參數(shù),降低了模型的整體復(fù)雜度。
EAIH-NS相比其基線(xiàn)也產(chǎn)生了顯著的性能提升效果,例如,在TransE模型的情況下,EAIH-NS在WN18RR數(shù)據(jù)集上相比其基線(xiàn)ANS在MRR指標(biāo)上的性能提高了7.9%,在FB15k-237數(shù)據(jù)集上得到的MRR數(shù)據(jù)提高了7.7%。這說(shuō)明了層次聚類(lèi)算法聚集更強(qiáng)語(yǔ)義關(guān)系的實(shí)體,且混合負(fù)實(shí)體信息產(chǎn)生更具挑戰(zhàn)性實(shí)體對(duì)負(fù)采樣方法的提升作用,進(jìn)而影響到知識(shí)表示學(xué)習(xí)模型在鏈接預(yù)測(cè)任務(wù)上的性能。
EAIH-NS方法包括實(shí)體分類(lèi)和負(fù)實(shí)體信息混合。圖5展示了消融實(shí)驗(yàn)的設(shè)計(jì),以證明在TransE模型下2種方法分別對(duì)模型的提升效果。負(fù)采樣方法選擇均勻負(fù)采樣(uniform)、層次聚類(lèi)負(fù)采樣(HC-NS)、信息混合負(fù)采樣(Hybrid NS)和EAIH-NS。
結(jié)果表明,在這2個(gè)數(shù)據(jù)集中都產(chǎn)生了更有區(qū)分度的結(jié)果。然而,由于Hybrid NS中混合信息的來(lái)源是從所有實(shí)體中隨機(jī)提取的負(fù)實(shí)體,因此生成的新負(fù)實(shí)體與隨機(jī)均勻負(fù)采樣沒(méi)有太大區(qū)別,性能改進(jìn)非常有限,在FB15k-237數(shù)據(jù)集上僅提高了1.5%,遠(yuǎn)低于HC-NS。HC-NS與均勻負(fù)采樣相比提高了7.7%的性能。EAIH-NS負(fù)采樣方法優(yōu)化了負(fù)實(shí)體的提取來(lái)源,通過(guò)實(shí)體分類(lèi)獲得高質(zhì)量的負(fù)實(shí)體來(lái)源,然后混合負(fù)實(shí)體信息生成新的負(fù)實(shí)體,在FB15k-237數(shù)據(jù)集上,相比于HC-NS和Uniform性能分別提高了3.3%和11.3%。
同理,在WN18RR數(shù)據(jù)集上,產(chǎn)生了與上述結(jié)論類(lèi)似的實(shí)驗(yàn)結(jié)果。Hybrid NS相較于隨機(jī)均勻負(fù)采樣方法僅產(chǎn)生了1%的性能提升,幾乎可忽略不計(jì)。HC-NS方法由于采用了更聚焦于語(yǔ)義層次的實(shí)體分類(lèi)方法,相較于隨機(jī)均勻負(fù)采樣方法和Hybrid NS方法分別產(chǎn)生了3.6%和2.7%的性能提升。EAIH-NS方法在Hybrid NS方法的基礎(chǔ)上改進(jìn)了采樣的混合負(fù)實(shí)體來(lái)源,結(jié)合了HC-NS方法聚焦實(shí)體語(yǔ)義層次的優(yōu)勢(shì),在WN18RR數(shù)據(jù)集同樣產(chǎn)生了更具挑戰(zhàn)的負(fù)實(shí)體,提升了鏈接預(yù)測(cè)結(jié)果的精度。
EAIH-NS在保持較高性能的同時(shí)簡(jiǎn)化了模型的復(fù)雜度,同時(shí)通過(guò)消融實(shí)驗(yàn)證明了該方法不同模塊的有效性,在實(shí)際應(yīng)用中展現(xiàn)出了極大的潛力。特別是在對(duì)比不同的負(fù)采樣技術(shù)時(shí),EAIH-NS相較普遍采用的知識(shí)圖譜負(fù)采樣方法產(chǎn)生了更高的精度,這提升了知識(shí)圖譜的完整性和準(zhǔn)確性,有效擴(kuò)展了知識(shí)圖譜的應(yīng)用場(chǎng)景。同時(shí)利用更少的參數(shù)和更簡(jiǎn)單的結(jié)構(gòu),達(dá)到了與復(fù)雜負(fù)采樣方法相似的實(shí)驗(yàn)結(jié)果,降低了模型整體復(fù)雜度,有助于知識(shí)圖譜的實(shí)際下游任務(wù)應(yīng)用,節(jié)約了計(jì)算資源。
4 結(jié) 論
當(dāng)前知識(shí)圖譜的負(fù)采樣方法部分實(shí)現(xiàn)簡(jiǎn)單,負(fù)樣本質(zhì)量差;部分質(zhì)量高,復(fù)雜性高。文章提出的EAIH-NS方法利用實(shí)體分類(lèi)和負(fù)實(shí)體信息混合,有效地對(duì)形狀復(fù)雜或大小不同的數(shù)據(jù)集進(jìn)行聚類(lèi),形成更穩(wěn)定、更高質(zhì)量的實(shí)體簇,進(jìn)而生成更具挑戰(zhàn)性的負(fù)實(shí)體,提高了知識(shí)圖譜補(bǔ)全的質(zhì)量。EAIH-NS中使用的實(shí)體分類(lèi)可以在面對(duì)小規(guī)模和一般規(guī)模的知識(shí)圖譜時(shí)提供高效的分類(lèi)結(jié)果,但在面對(duì)復(fù)雜的高維知識(shí)圖譜時(shí),分類(lèi)結(jié)果在訓(xùn)練過(guò)程中需要多次更新,這對(duì)硬件的性能提出了要求,對(duì)分類(lèi)的結(jié)果提出了挑戰(zhàn),未來(lái)的研究將集中于研究更有效的方法適應(yīng)復(fù)雜的高維知識(shí)圖譜。
致謝 感謝沈陽(yáng)師范大學(xué)研究生項(xiàng)目支持經(jīng)費(fèi)專(zhuān)項(xiàng)資金資助項(xiàng)目(SYNUXJ2024055)的支持。
參考文獻(xiàn):
[1]DONG X L,GABRILOVICH E,HEITZ G,et al.Knowledge vault:A web-scale approach to probabilistic knowledge fusion[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:Association for Computing Machinery,2014:601610.
[2]NICKEL M,MURPHY K,TRESP V,et al.A review of relational machine learning for knowledge graphs[J].Proc IEEE,2015,104(1):1133.
[3]WANG Q,MAO Z D,WANG B,et al.Knowledge graph embedding:A survey of approaches and applications[J].IEEE Trans Knowl Data Eng,2017,29(12):27242743.
[4]HOGAN A,BLOMQVIST E,COCHEZ M,et al.Knowledge graphs[J].ACM Comput Surv(Csur),2021,54(4):137.
[5]QIN S G,RAO G J,BIN C Z,et al.Knowledge graph embedding based on adaptive negative sampling[C]//Data Science:5th International Conference of Pioneering Computer Scientists,Engineers and Educators.Guilin:Springer,2019:551563.
[6]BORDES A,USUNIER N,GARCIA-DURAN A,et al.Translating embeddings for modeling multi-relational data[C]// Proceedings of the 26th International Conference on Neural Information Processing Systems.New York:Curran Associates Inc,2013:17872795.
[7]WANG Z,ZHANG J W,F(xiàn)ENG J L,et al.Knowledge graph embedding by translating on hyperplanes[C]// Proceedings of the Twenty-Eighth AAAI Conference on Artificial Intelligence.Québec City:Publication History,2014:11121119.
[8]KRISHNA K,MURTY M N.Genetic K-means algorithm[J].IEEE Trans Syst,Man,Cybern,Part B(Cybernetics),1999,29(3):433439.
[9]KIAN A,AARASH F,YASMIN S,et al.Structure aware negative sampling in knowledge graphs[C]//Conference on Empirical Methods in Natural Language Processing.Puta:Association for Computational Linguistics,2020:60936101.
[10]HUANG T L,DONG Y X,DING M,et al.MixGCF:An improved training method for graph neural network-based recommender systems[C]//Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery amp; Data Mining.New York:Association for Computing Machinery,2021:665674.
[11]WANG P,LI S,PAN R.Incorporating gan for negative sampling in knowledge representation learning[C]//Proceedings of the AAAI Conference on Artificial Intelligence.New Orleans:AAAI,2018:2005-2012.
[12]HU K,LIU H,HAO T Y.A knowledge selective adversarial network for link prediction in knowledge graph[C]//Natural Language Processing and Chinese Computing:8th CCF International Conference.Dunhuang:Springer,2019:171183.
[13]ZHANG Y,YAO Q,SHAO Y,et al.NSCaching:Simple and efficient negative sampling for knowledge graph embedding[C]//2019 IEEE 35th International Conference on Data Engineering(ICDE).Aomen:IEEE,2019:614625.
[14]YANG B S,YIH W-T,HE X,et al.Embedding entities and relations for learning and inference in knowledge bases[C]//Proceedings of the International Conference on Learning Representations.San Diego:ITHACA,2015:113.
[15]TROUILLON T,WELBL J,RIEDEL S,et al.Complex embeddings for simple link prediction[C]//International Conference on Machine Learning.New York:JMLR,2016:20712080.
[16]SUN Z Q,DENG Z H,NIE J Y,et al.RotatE:Knowledge graph embedding by relational rotation in complex space[C]//Proceedings of the International Conference on Learning Representations.New Orleans:ITHACA,2019:118.
【責(zé)任編輯:孫 可】