申宇銘,杜劍峰
廣東外語外貿(mào)大學(xué)信息科學(xué)與技術(shù)學(xué)院,廣東 廣州 510420
在人工智能飛速發(fā)展的背景下,知識圖譜(knowledge graph)被普遍地認(rèn)為是人工智能技術(shù)和系統(tǒng)中的重要組成部分,在智能搜索、網(wǎng)絡(luò)安全、金融風(fēng)險控制及電子商務(wù)等諸多領(lǐng)域得到了廣泛應(yīng)用。傳統(tǒng)的知識圖譜以(實體,關(guān)系,實體)或(實體,屬性,屬性值)三元組集合的方式來表達(dá)現(xiàn)實世界的概念、實體、事件及三者之間的關(guān)系。比如,三元組(姚明,身高,2.26米)和(姚明,國籍,中國)。2012年5月,谷歌公司發(fā)布了谷歌知識圖譜(Google knowledge graph),宣布以此為基礎(chǔ)構(gòu)建下一代智能化搜索引擎。這是知識圖譜名稱的由來,也標(biāo)志著大規(guī)模知識圖譜在語義搜索中的成功應(yīng)用。事實上知識圖譜技術(shù)淵源已久——從20世紀(jì)70年代的專家系統(tǒng)(expert system),到萬維網(wǎng)之父Tim Berners-Lee提出的語義網(wǎng)(semantic web),再到他后來提出的鏈接數(shù)據(jù)(linked data),都是知識圖譜的前身??梢哉f,知識圖譜的升溫是人工智能對數(shù)據(jù)處理與理解需求逐日增加而導(dǎo)致的必然結(jié)果。
時間是自然界中所有實體都具有的重要屬性,不少知識圖譜(如Freebase、Wikidata、DBpedia、YAGO等)具有時間標(biāo)記的知識。將時間信息引入三元組中所構(gòu)成的四元組集合稱作時態(tài)知識圖譜(temporal knowledge graph)。全球事件知識圖譜[1]和沖突事件知識圖譜[2]都是典型的基于事件的時態(tài)知識圖譜。此類知識圖譜不僅包含了事件之間的共指、因果和時序等關(guān)系,還描述了事件之間的規(guī)律和演化模式,對傳統(tǒng)的知識圖譜補(bǔ)充了時間信息,因而具有更大的應(yīng)用價值。時態(tài)知識圖譜示例如圖1所示。
圖1 時態(tài)知識圖譜示例
與傳統(tǒng)的靜態(tài)知識圖譜相似,時態(tài)知識圖譜中的知識也是不完備的,為了實現(xiàn)最大價值,其需要不斷地消化吸收新數(shù)據(jù),以完善知識體系。近年來,時態(tài)知識圖譜補(bǔ)全(temporal knowledge graph completion)方法應(yīng)運而生,受到了學(xué)術(shù)界的高度關(guān)注,并成為研究熱點之一[3]。這類方法基于時態(tài)知識圖譜的現(xiàn)有四元組數(shù)據(jù),建模預(yù)測真實存在的新四元組。這些預(yù)測得到的四元組經(jīng)過驗證后,可被添加到時態(tài)知識圖譜中,作為其演化的結(jié)果。時態(tài)知識圖譜補(bǔ)全的方法在構(gòu)建大規(guī)模知識圖譜、相似度計算、關(guān)系抽取,以及基于知識圖譜問答等任務(wù)方面展現(xiàn)出巨大的應(yīng)用潛力。
為了能夠及時追蹤到補(bǔ)全方法在時態(tài)知識圖譜上的發(fā)展和應(yīng)用,本文首先給出時態(tài)知識圖譜補(bǔ)全的問題定義,回顧代表性的時態(tài)知識圖譜補(bǔ)全方法,然后對不同類別的方法進(jìn)行對比分析,給出可能的結(jié)合途徑,最后總結(jié)當(dāng)前時態(tài)知識圖譜評測的7個基準(zhǔn)數(shù)據(jù)集,并且給出幾個代表性的補(bǔ)全模型在其中3個基準(zhǔn)數(shù)據(jù)集上的評測結(jié)果。
本節(jié)給出時態(tài)知識圖譜及其補(bǔ)全過程的定義,并介紹相關(guān)的評測任務(wù)。
定義2.1時態(tài)知識圖譜。一個時態(tài)知識圖譜是一個四元組的集合。形式地說,任意給定實體集合E、關(guān)系集合R、有窮時間戳集合T,時態(tài)知識圖譜G是笛卡兒積E×R×E×T的一個子集。
比如,事件“2016—2020年期間,特朗普是美國總統(tǒng)”可以表達(dá)為四元組(美國,總統(tǒng),特朗普,[2016,2020])。類似地,事件“拜登于2021年當(dāng)選美國總統(tǒng)”可以表達(dá)為四元組(美國,總統(tǒng),拜登,2021)。
定義2.2時態(tài)知識圖譜補(bǔ)全。令E×R×E×T的一個子集W表達(dá)現(xiàn)實世界中所有成立的事實,G為W的一個真子集。時態(tài)知識圖譜的補(bǔ)全是指:由G出發(fā),推理出不屬于G但是屬于W的事實。
例1假設(shè)W={(a,簽訂合同,b,t1),(a,履行合同,b,t1+1),(a,簽訂合同,c,t2),(a,履行合同,c,t2+1)},且G={(a,簽訂合同,b,t1),(a,履行合同,c,t2+1)},則需要從G出發(fā)推理出事實(a,履行合同,b,t1+1)和(a,簽訂合同,c,t2)。
時態(tài)知識圖譜的補(bǔ)全評測任務(wù)主要有兩個:
● 給定頭實體a、關(guān)系r和時間戳t,補(bǔ)全尾實體,即(a,r,?,t);
● 給定尾實體b、關(guān)系r和時間戳t,補(bǔ)全頭實體,即(?,r,b,t)。
與傳統(tǒng)的知識圖譜補(bǔ)全問題不同,時態(tài)知識圖譜的補(bǔ)全更加強(qiáng)調(diào)事實成立的時效性,比如,四元組(特朗普,當(dāng)選,美國總統(tǒng),2016)和(特朗普,卸任,美國總統(tǒng),2015),第一個四元組是真實事實,而第二個四元組是虛假事實,去掉時間戳后,所得的兩個三元組(特朗普,當(dāng)選,美國總統(tǒng))和(特朗普,卸任,美國總統(tǒng))都是真實事實。因此,如何將事實成立的時效性信息融入傳統(tǒng)的補(bǔ)全模型是亟待解決的問題。
目前,依據(jù)對符號處理的不同方式,時態(tài)知識圖譜的補(bǔ)全方法主要分為兩大類:一類是基于符號邏輯的方法,此類方法通過構(gòu)建領(lǐng)域本體,運用飽和度技術(shù),推理出隱含存在的真實四元組;另一類是基于知識表示學(xué)習(xí)(knowledge representation learning)的方法,此類方法將符號映射到實值空間,采用數(shù)值運算評估四元組的真實程度。
基于符號邏輯的時態(tài)數(shù)據(jù)查詢回答(logic-based temporal query answering)方法又分為兩類:一類以領(lǐng)域為中心,另一類以時間為中心。
以領(lǐng)域為中心的方法假定本體的構(gòu)建語言為描述邏輯,查詢語句為包含時態(tài)算子(next-time,previous-time,sincetime,until-time,future-time)和否定聯(lián)結(jié)詞的一階時態(tài)邏輯公式。以此為基礎(chǔ),Baader F等人[4]分析了基于描述邏輯SHQ本體的時態(tài)查詢計算復(fù)雜性;Borgwardt S等人[5-6]提出了基于描述邏輯DL-Lite族和EL本體的時態(tài)查詢推理算法,并分析了算法的計算復(fù)雜性。
以時間為中心的方法假定本體的構(gòu)建語言為時態(tài)描述邏輯,查詢語句為包含時態(tài)算子(next-time,previous-time,sincetime,until-time,future-time)的一階時態(tài)邏輯公式。以此為基礎(chǔ),Artale A等人[7]設(shè)計了一種時態(tài)描述邏輯語言TQL,其包含past-time和future-time兩個一元時態(tài)算子,并在限定時態(tài)概念只出現(xiàn)在術(shù)語公理左側(cè)的情形下,證明了該邏輯語言支持時態(tài)查詢的一階重寫。Gutiérrez-Basulto V等人[8]在限定時態(tài)查詢語言為時態(tài)原子語句的情形下,證明了時態(tài)本體EL-LTL的查詢問題是不可判定的,繼而通過引入若干語法上的限制條件識別出EL-LTL的若干可判定子片段,并證明了在某些子片段上的時態(tài)查詢回答是多項式時間可以完成的。Artale A等人[9]全面研究了時態(tài)DL-Lite-LTL族下時態(tài)查詢的一階重寫問題,較完整地分析了時態(tài)查詢問題的計算復(fù)雜性。
例2假設(shè)本體只包括一條規(guī)則“對所有x,y,t:R(x,y,t)→Q(x,y,t+1)”,其中謂詞R、Q分別表示簽訂合同和履行合同,考慮到例1中集合G={(a,簽訂合同,b,t1),(a,履行合同,c,t2+1)},由上述規(guī)則可以推理出隱含事實(a,履行合同,b,t1+1)。對于時態(tài)查詢q=(a,履行合同,?,t1+1),隱含的事實 (a,履行合同,b,t1+1) 滿足該時態(tài)查詢q。
對比兩類方法,以領(lǐng)域為中心的方法在查詢語言的表達(dá)能力上要強(qiáng)于以時間為中心的方法,而以時間為中心的方法在本體的表達(dá)能力上要強(qiáng)于以領(lǐng)域為中心的方法。同時,基于符號邏輯的方法在實際應(yīng)用中難以覆蓋大量真實的四元組,召回率較低,而且構(gòu)建本體時也要付出較高的人工成本。
本節(jié)先簡要回顧針對傳統(tǒng)知識圖譜的表示學(xué)習(xí)代表性方法,再以此為基礎(chǔ),綜述針對時態(tài)知識圖譜的表示學(xué)習(xí)方法。知識表示學(xué)習(xí)方法的基本原理是將給定的三元組數(shù)據(jù)映射到低維、高密度的數(shù)值空間,通過數(shù)值運算評估未知三元組的真實程度。依據(jù)三元組評分函數(shù)的不同類型,傳統(tǒng)知識圖譜的表示學(xué)習(xí)方法大致分為3類:第一類是基于平移距離模型的方法,第二類是基于矩陣分解模型的方法,第三類是基于神經(jīng)網(wǎng)絡(luò)模型的方法。
基于平移距離模型的方法根據(jù)三元組中頭尾實體表示向量的距離來估計三元組的真實性。Bordes A等人[10]提出了第一個平移距離模型TransE。該模型采用損失函數(shù)||h+r-t||L1/L2來估計三元組的真實程度,其中h為頭實體向量,r為關(guān)系實體向量,t為尾實體向量,L1和L2分別表示1-范數(shù)和2-范數(shù),而真實程度通??梢员欢x為損失函數(shù)值的相反數(shù)。根據(jù)最優(yōu)化目標(biāo),真實三元組的損失函數(shù)值應(yīng)該趨向于零,因此TransE不太適用于一對多、多對一或者多對多的關(guān)系建模。針對TransE模型的局限性,此后陸續(xù)涌現(xiàn)了TransH[11]、TransR[12]、TransD[13]、TransG[14]、RotatE[15]等模型。
基于矩陣分解模型的方法采用hTMrt形式的評分函數(shù)來評估三元組的真實程度,其中Mr是關(guān)系依賴的矩陣,h和t分別是頭、尾實體向量。Nickel M等人[16]提出了第一個矩陣分解模型,即RESCAL模型,用于三元組預(yù)測。此后,他們又提出了參數(shù)更少的全息嵌入(holographic embedding,HolE)模型[17]。Yang B S等人[18]將關(guān)系依賴的矩陣看作以實數(shù)構(gòu)成的對角矩陣,提出了DistMult模型。Trouillon T等人[19]使用復(fù)數(shù)而不是實數(shù)構(gòu)造頭尾實體向量,并將關(guān)系依賴的矩陣看作以復(fù)數(shù)構(gòu)成的對角矩陣,提出了ComplEx模型。Liu H X等人[20]為關(guān)系依賴矩陣引入正態(tài)性和可交換性約束來表達(dá)類比性質(zhì)(比如北京與中國的關(guān)系類似于巴黎與法國的關(guān)系),提出了ANALOGY模型,并證明了該模型是HolE和ComplEx等模型的一般化形式。此后,研究人員還陸續(xù)提出了SimplE[21]、Tucker[22]等模型。
基于神經(jīng)網(wǎng)絡(luò)模型的知識表示學(xué)習(xí)方法采用神經(jīng)網(wǎng)絡(luò)形式的評分函數(shù)來評估三元組的真實程度。Bordes A等人[23]提出了語義匹配能量(semantic matching energy,SME)模型,該模型將頭實體與關(guān)系的交互模型和尾實體與關(guān)系的交互模型作為第一層網(wǎng)絡(luò),再將兩個交互模型的輸出組合起來構(gòu)成第二層網(wǎng)絡(luò)。Socher R等人[24]提出了神經(jīng)張量網(wǎng)絡(luò)(neural tensor network,NTN)模型,該模型采用頭尾實體各自的線性變換模型以及它們之間交互的線性變換模型來構(gòu)造神經(jīng)網(wǎng)絡(luò),其中所有線性變換模型都使用不同的關(guān)系依賴矩陣。Dong X等人[25]提出了多層感知器(multi-layer perceptron,MLP)模型,該模型采用關(guān)系和頭尾實體各自的線性變換模型共3個線性變換模型來構(gòu)造神經(jīng)網(wǎng)絡(luò),3個線性變換模型中使用的變換矩陣都不依賴于關(guān)系。
除了這3類方法,還有文獻(xiàn)討論了利用知識圖譜外部信息的知識表示學(xué)習(xí)方法,包括結(jié)合實體描述信息的方法、結(jié)合實體類型信息的方法、結(jié)合關(guān)系路徑信息的方法、結(jié)合邏輯規(guī)則的方法等。更多的傳統(tǒng)知識圖譜的表示學(xué)習(xí)方法參見參考文獻(xiàn)[3]。
傳統(tǒng)知識圖譜中的知識在大多數(shù)情況下只在特定的時間內(nèi)有效,而一些事實(如演化的事件)往往出現(xiàn)在一個時間序列中。為了對時間序列中的事實進(jìn)行表示學(xué)習(xí),近年來涌現(xiàn)了不少針對時態(tài)知識圖譜的補(bǔ)全方法。依據(jù)對時間戳的處理方式,這些方法可以大致分為兩類:第一類是時間戳單獨編碼方法,第二類是基于序列學(xué)習(xí)的方法。
時間戳單獨編碼方法顯式地將時間戳建模為向量、矩陣或平面,再將時間戳的信息直接用于知識圖譜的補(bǔ)全。Jiang T S等人[26]率先提出結(jié)合時態(tài)信息的知識圖譜補(bǔ)全模型,該模型由兩部分構(gòu)成,其中一個部分是由TransE獲得關(guān)系的表示向量,另一個部分由3種時態(tài)一致性約束(先后順序關(guān)系、時態(tài)不相交性、時態(tài)區(qū)間有效性)構(gòu)成。模型通過一個時態(tài)演化矩陣來刻畫不同關(guān)系之間的時態(tài)依賴性,具體地說,任意給定兩個時序依賴關(guān)系rk和rl,它們的時序評分函數(shù)定義為:f(rk,rl)=||rkT-rl||L1/L2,其中矩陣T是一個能夠編碼時序關(guān)系對的非對稱矩陣,此評分函數(shù)基本思想如圖2所示。
在圖2中,r1是先于r2的時態(tài)關(guān)系,根據(jù)評分函數(shù)有r1T≈r2,但是r2T≠r1。Dasgupta S S等人[27]結(jié)合了模型TransE和TransH的特點,提出了HyTE時態(tài)表示學(xué)習(xí)模型。該模型首先將時間戳建模為關(guān)系依賴的超平面,然后利用TransH模型將頭、尾實體投影到該平面,最后利用TransE模型完成知識圖譜的補(bǔ)全工作。Ma Y P等人[28]和Lacroix T等人[29]都將時間戳看作第4個維度,分別擴(kuò)展了Tucker和ComplEx張量分解模型,再將時間戳的表示向量直接用于四元組真實程度的估計。Jain P等人[30]在Lacroix工作的基礎(chǔ)上,將先后順序關(guān)系和循環(huán)關(guān)系(比如奧運會每隔3年舉辦)的信息增加到評分函數(shù)中,用于圖譜的補(bǔ)全。Xu C J等人[31]基于RotatE模型提出了時態(tài)旋轉(zhuǎn)模型,該模型將時間戳建模為旋轉(zhuǎn)復(fù)向量,將實體和關(guān)系表示為復(fù)向量,通過旋轉(zhuǎn)復(fù)向量與實體表示復(fù)向量的內(nèi)積運算,將時態(tài)信息融合到實體的表示向量中,并利用基于距離TransE模型完成知識圖譜的補(bǔ)全。時間戳單獨編碼方法將時間信息看成連通實體與實體、關(guān)系與實體及關(guān)系與關(guān)系的橋梁。
基于序列學(xué)習(xí)的方法先設(shè)計一個序列學(xué)習(xí)模型,將時態(tài)信息融合到實體或關(guān)系的表示向量中,再用已有的表示學(xué)習(xí)模型估計帶有時態(tài)信息三元組的真實程度,從而完成時態(tài)知識圖譜的補(bǔ)全任務(wù)。Garcia-Duran A等人[32]將關(guān)系和時間戳的特征(年、月、日)構(gòu)成一個關(guān)系序列,通過一個線性層函數(shù),將關(guān)系和時間戳特征映射為同維數(shù)的向量,然后把該序列向量輸入一個長短期記憶(long short-term memory,LSTM)網(wǎng)絡(luò)進(jìn)行編碼,學(xué)習(xí)到融合時間信息的關(guān)系表示向量,該具體過程如圖3所示。
在圖3中,關(guān)系“bornIn”與日期“1986”經(jīng)過LSTM模型后形成了融合時間信息的關(guān)系表示向量epseq;最后,依據(jù)DistMult模型的評分函數(shù)f(s,pseq,o) = (es?eo)eTpseq或TransE模型的評分函數(shù)f(s,pseq,o) = ||es+epseq-eo||2對三元組(s,pseq,o)完成補(bǔ)全,這里es、eo和epseq分別表示頭實體s、尾實體o和關(guān)系pseq的表示向量。Goel R等人[33]將實體的表示向量分為靜態(tài)和動態(tài)兩個部分,并利用SimplE模型完成知識圖譜的補(bǔ)全,其中實體表示向量的靜態(tài)部分表達(dá)實體在演化過程中固定不變的特征,動態(tài)部分則結(jié)合正弦激活函數(shù)來調(diào)控不同時間點狀態(tài)的閉合,進(jìn)而表達(dá)演化過程中變化的特征。Wu J P等人[34]利用魯棒性圖卷積神經(jīng)網(wǎng)絡(luò)(robust graph convolutional network,RGCN)模型將不同時間同一實體的鄰居結(jié)構(gòu)化信息進(jìn)行融合,獲得了該實體的一個序列表示向量,然后將該表示向量序列輸入時態(tài)遞歸神經(jīng)網(wǎng)絡(luò)中,獲取該實體融合時態(tài)信息的表示向量,最后利用靜態(tài)的補(bǔ)全模型完成補(bǔ)全的工作。Jung J等人[35]提出了一種時態(tài)圖神經(jīng)網(wǎng)絡(luò)(temporal graph neural network,TGNN)模型。該模型對時態(tài)知識圖譜及查詢分別進(jìn)行預(yù)訓(xùn)練,完成時態(tài)信息與實體表示向量的融合,并計算其鄰居的注意力分布,然后利用子圖采樣的方法獲得每個實體及與查詢相關(guān)的鄰居的子圖結(jié)構(gòu),過濾與查詢不相關(guān)的實體,再利用圖神經(jīng)網(wǎng)絡(luò)模型,更新子圖上實體的表示向量,并結(jié)合基于路徑遍歷的方法更新實體鄰居的注意力分布,最后依據(jù)最高概率推理出實體間隱藏的關(guān)系。與更新實體或關(guān)系的表示向量不同,Xu Y R等人[36]考慮了時態(tài)知識圖譜中增加新實體的情況,設(shè)計了一種策略遞歸地更新模型參數(shù)。Xu C等人[37]考慮了知識圖譜時態(tài)演化過程中的不確定性因素,在每個時間點采用高斯分布函數(shù)來表達(dá)實體和關(guān)系的不確定性,再結(jié)合時間序列的線性模型來刻畫實體和關(guān)系表示向量隨時間演化的趨勢,最后通過計算實體和關(guān)系概率分布的距離來完成補(bǔ)全。Han Z等人[38]則將補(bǔ)全的工作從傳統(tǒng)的歐氏空間拓展到黎曼流形(Riemannian manifold)上完成。相對于第一類方法,基于序列學(xué)習(xí)的方法更加強(qiáng)調(diào)不同實體和關(guān)系間的歷史關(guān)系,即實體或關(guān)系之間帶有時間戳的序列之間的交互。
圖2 時態(tài)演化矩陣
圖3 融合時間信息的關(guān)系表示向量
基于符號邏輯的方法可以從已有的知識圖譜出發(fā),結(jié)合本體中的規(guī)則,推理出新的實體間關(guān)系;同時,還可以對演化后的知識圖譜進(jìn)行邏輯一致性檢查,使得推理結(jié)果具備透明、可靠及可解釋性強(qiáng)等特點。為了表達(dá)時態(tài)的知識,這一類方法通常需要引入時態(tài)算子來提升本體的表達(dá)能力,而表達(dá)能力的提升通常會導(dǎo)致如下兩種局限性。
● 不可判定性:即不存在有限時間可終止的算法,使得該算法能夠判定相關(guān)的推理問題是否可證。比如,在描述邏輯EL中,引入時態(tài)算子到本體中會導(dǎo)致其時態(tài)查詢回答是不可判定的[8]。
● 高計算復(fù)雜性:比如,在描述邏輯EL中,交查詢的回答是多項式時間的,但引入時態(tài)算子到查詢語言后,時態(tài)交查詢回答卻是NP難的[5]。
由此可見,基于符號邏輯的方法在推理效率方面難以滿足日益增長的數(shù)據(jù)需求。
基于知識表示學(xué)習(xí)的方法將研究對象的語義信息表示為低維稠密的實值向量。在低維向量空間中能夠高效地計算實體和關(guān)系的語義關(guān)系,顯著地提高推理性能。但是,此類方法的推理過程不透明,推理結(jié)果的可解釋性低。此外,大多數(shù)表示學(xué)習(xí)模型的表達(dá)能力有限。比如,參考文獻(xiàn)[39]指出數(shù)值嵌入模型不能表達(dá)本體中的存在規(guī)則(existential rule),而這類規(guī)則恰好對應(yīng)于輕量級描述邏輯EL或DL-Lite族的術(shù)語或角色公理;進(jìn)一步地,參考文獻(xiàn)[40]指出,就算表示學(xué)習(xí)模型能夠區(qū)分所有真實的三元組和錯誤的三元組,也不能確保正確區(qū)分出本體中的上下位關(guān)系。由此可見,基于知識表示學(xué)習(xí)的推理不能完全替代基于符號邏輯的推理。
從推理的方式來看,基于符號邏輯的推理屬于演繹推理,而基于表示學(xué)習(xí)的推理屬于不完全歸納推理,兩種推理方式各有各的優(yōu)缺點,但最終的目的都是將不完備的知識庫(incomplete knowledge base)演化為完備的知識庫(complete knowledge base)。為了發(fā)揮兩種推理方式的優(yōu)勢,未來的知識圖譜補(bǔ)全研究方向可以聚焦于解決表示學(xué)習(xí)模型無法習(xí)得存在規(guī)則邏輯的結(jié)論的問題。在這一方向上,Du J F等人[41]提出了邏輯背景預(yù)完備技術(shù)來融入關(guān)系特征定義,并提出了區(qū)分頭尾實體的投影函數(shù)來解決關(guān)系表示向量不可區(qū)分的問題;進(jìn)一步地,參考文獻(xiàn)[42]引入了邏輯一致性規(guī)則預(yù)完備技術(shù),解決了部分排位靠前的三元組與邏輯一致性規(guī)則相違背的問題。
當(dāng)前,時態(tài)知識圖譜補(bǔ)全研究領(lǐng)域有7個基準(zhǔn)測試數(shù)據(jù)集,它們是在Wikidata、YAGO、GDELT和綜合早期危機(jī)預(yù)警系統(tǒng)(integrated crisis early warning system,ICEWS)4個數(shù)據(jù)庫上構(gòu)建的。這7個數(shù)據(jù)集分別是GDELT-500、ICEWS14、ICEWS05-15、YAGO15k、Wikidata11k、YAGO11k和Wikidata12k,其中YAGO和Wikidata中的事實是基于時間區(qū)間的,而GDELT和ICEWS中的事實是基于時間點的。
● GDELT:GDELT數(shù)據(jù)庫記錄了從1969年至今,每個國家大約100多種語言的新聞媒體中印刷、廣播和Web形式的新聞,并且每隔15 min更新一次數(shù)據(jù)。GDELT主要包含兩大數(shù)據(jù)庫,即事件數(shù)據(jù)庫(event database)和全球知識圖譜 (global knowledge graph)。目前,用于時態(tài)知識圖譜補(bǔ)全研究的數(shù)據(jù)集是GDELT-500。
● ICEWS:ICEWS數(shù)據(jù)庫涵蓋了100多個數(shù)據(jù)源以及250個國家和區(qū)域的政治事件,并且每天更新一次數(shù)據(jù)。用于時態(tài)知識圖譜補(bǔ)全研究的數(shù)據(jù)集是ICEWS14和ICEWS05-15。
● Wikidata:Wikidata是維基媒體基金會主持的一個自由的協(xié)作式多語言輔助知識庫,旨在為維基百科、維基共享資源以及其他的維基媒體項目提供支持。目前,用于時態(tài)知識圖譜補(bǔ)全研究的數(shù)據(jù)集是Wikidata11k和Wikidata12k。
● YAGO:YAGO是由德國馬克斯·普朗克研究所研制的鏈接數(shù)據(jù)庫。該數(shù)據(jù)庫主要集成了Wikipedia、WordNet和GeoNames 3個來源的數(shù)據(jù)。YAGO將WordNet的詞匯定義與Wikipedia的分類體系進(jìn)行了融合集成,使得YAGO具有更加豐富的實體分類體系。YAGO還考慮了時間和空間知識,為很多知識條目增加了時間和空間維度的屬性描述。目前,用于時態(tài)知識圖譜補(bǔ)全研究的數(shù)據(jù)集是YAGO11k和YAGO15k。上述7個數(shù)據(jù)集的統(tǒng)計結(jié)果見表1。
表2給出了代表性的補(bǔ)全模型在3個基準(zhǔn)數(shù)據(jù)集ICEWS14、ICEWS05-15和Wikidata11k上的評測結(jié)果。表2中上標(biāo)為*的評測結(jié)果來自參考文獻(xiàn)[32],上標(biāo)為+的評測結(jié)果來自參考文獻(xiàn)[33],上標(biāo)為#的評測結(jié)果來自參考文獻(xiàn)[29]。其中-表示所在行的模型在所在列的基準(zhǔn)數(shù)據(jù)集上沒有公布評測結(jié)果。評測指標(biāo)MRR表示所有正確答案預(yù)測排名的倒數(shù)的均值;Hit@k表示正確答案在前k位預(yù)測三元組中的百分比。
表1 基準(zhǔn)數(shù)據(jù)集的統(tǒng)計結(jié)果
表2 若干代表性補(bǔ)全模型的評測結(jié)果
給定某個時間區(qū)間[t0,t1]及其對應(yīng)的時態(tài)知識圖譜G,補(bǔ)全任務(wù)是針對某個時刻t(t0≤t≤t1)的推理任務(wù)。比如,在例2中,可以由(a,履行合同,c,t2+1)補(bǔ)全出(a,簽訂合同,c,t2)。與補(bǔ)全任務(wù)相對的另一個任務(wù)是時態(tài)知識圖譜的預(yù)測任務(wù)。即給定某個時間區(qū)間[t0,t1]及其對應(yīng)的時態(tài)知識圖譜G,預(yù)測出t>t1時刻圖譜G的演化結(jié)果。相比而言,時態(tài)知識圖譜的預(yù)測任務(wù)比補(bǔ)全任務(wù)更具有挑戰(zhàn)性。限于文章的篇幅,請讀者閱讀參考文獻(xiàn)[3]了解預(yù)測任務(wù)的解決方案和相關(guān)技術(shù)。
綜合考慮時態(tài)知識圖譜的補(bǔ)全方法不難發(fā)現(xiàn),基于知識表示學(xué)習(xí)的方法是目前的主流方法。這類方法具有計算效率高和召回率高的特點,但是在表達(dá)能力上還存在弱點。因此,未來的研究工作可以關(guān)注如下兩個可能的完善方向:①融合本體推理,運用基于符號邏輯的推理彌補(bǔ)知識表示學(xué)習(xí)在表達(dá)能力上的不足,完成知識表示學(xué)習(xí)模型的精準(zhǔn)訓(xùn)練;②設(shè)計表達(dá)能力更強(qiáng)的神經(jīng)網(wǎng)絡(luò)模型,用于表達(dá)本體中所有可能的規(guī)則。