夏毅,蘭明敬,陳曉慧,羅軍勇,周剛,何鵬
可解釋的知識(shí)圖譜推理方法綜述
夏毅,蘭明敬,陳曉慧,羅軍勇,周剛,何鵬
(信息工程大學(xué),河南 鄭州 450001)
近年來(lái),以深度學(xué)習(xí)模型為基礎(chǔ)的人工智能研究不斷取得突破性進(jìn)展,但其大多具有黑盒性,不利于人類認(rèn)知推理過(guò)程,導(dǎo)致高性能的復(fù)雜算法、模型及系統(tǒng)普遍缺乏決策的透明度和可解釋性。在國(guó)防、醫(yī)療、網(wǎng)絡(luò)與信息安全等對(duì)可解釋性要求嚴(yán)格的關(guān)鍵領(lǐng)域,推理方法的不可解釋性對(duì)推理結(jié)果及相關(guān)回溯造成較大影響,因此,需要將可解釋性融入這些算法和系統(tǒng)中,通過(guò)顯式的可解釋知識(shí)推理輔助相關(guān)預(yù)測(cè)任務(wù),形成一個(gè)可靠的行為解釋機(jī)制。知識(shí)圖譜作為最新的知識(shí)表達(dá)方式之一,通過(guò)對(duì)語(yǔ)義網(wǎng)絡(luò)進(jìn)行建模,以結(jié)構(gòu)化的形式描述客觀世界中實(shí)體及關(guān)系,被廣泛應(yīng)用于知識(shí)推理。基于知識(shí)圖譜的知識(shí)推理在離散符號(hào)表示的基礎(chǔ)上,通過(guò)推理路徑、邏輯規(guī)則等輔助手段,對(duì)推理過(guò)程進(jìn)行解釋,為實(shí)現(xiàn)可解釋人工智能提供重要途徑。針對(duì)可解釋知識(shí)圖譜推理這一領(lǐng)域進(jìn)行了全面的綜述。闡述了可解釋人工智能和知識(shí)推理相關(guān)概念。詳細(xì)介紹近年來(lái)可解釋知識(shí)圖譜推理方法的最新研究進(jìn)展,從人工智能的3個(gè)研究范式角度出發(fā),總結(jié)了不同的知識(shí)圖譜推理方法。提出對(duì)可解釋的知識(shí)圖譜推理研究前景和未來(lái)研究方向。
知識(shí)推理;知識(shí)圖譜;可解釋人工智能;信息安全
隨著信息技術(shù)的不斷發(fā)展,人工智能實(shí)現(xiàn)了從能存會(huì)算的“計(jì)算智能”,到能聽(tīng)會(huì)說(shuō)、能看會(huì)認(rèn)的“感知智能”[1-3],再到下一階段具備理解、推理和解釋能力的“認(rèn)知智能”[4-6]的逐漸演變,這3個(gè)階段的實(shí)現(xiàn)難度和價(jià)值同時(shí)逐次提升。然而,在以深度學(xué)習(xí)為主導(dǎo)的人工智能技術(shù)中,大多數(shù)的模型是不透明的,即模型在產(chǎn)生高精度結(jié)果的同時(shí),不能提供必要的解釋過(guò)程。模型的不可解釋性嚴(yán)重影響了人們對(duì)模型決策的信任程度,其可靠性和魯棒性均受到廣泛質(zhì)疑[7],特別在國(guó)防、醫(yī)療和網(wǎng)絡(luò)與信息安全等領(lǐng)域的許多關(guān)鍵應(yīng)用[8-11]中,保證系統(tǒng)所做出的決策具備透明性和可解釋性是非常重要且必要的。
知識(shí)推理是人類智能活動(dòng)的重要組成部分,一直以來(lái)也是人工智能的核心研究?jī)?nèi)容之一。DeepMind指出人工智能算法必須具備推理能力,且推理過(guò)程需要依靠人的先驗(yàn)知識(shí)[12],對(duì)推理的結(jié)果形成必要的解釋。作為目前知識(shí)推理最新的知識(shí)表達(dá)方式,知識(shí)圖譜[13]技術(shù)是一種實(shí)現(xiàn)可解釋人工智能的可能解決方案[14],通過(guò)將不同數(shù)據(jù)源中的數(shù)據(jù)統(tǒng)一結(jié)構(gòu),實(shí)現(xiàn)對(duì)多源信息的語(yǔ)義網(wǎng)絡(luò)建模,為真實(shí)世界的各個(gè)推理任務(wù)提供概念、關(guān)系和屬性等可解釋因素。
以安全領(lǐng)域的知識(shí)圖譜為例,該領(lǐng)域主要包括網(wǎng)絡(luò)空間測(cè)繪圖譜、漏洞知識(shí)圖譜、惡意樣本知識(shí)圖譜、攻擊路徑推理圖譜等。通過(guò)威脅建模的方式,對(duì)多源異構(gòu)的網(wǎng)絡(luò)安全領(lǐng)域信息進(jìn)行加工、處理、整合,轉(zhuǎn)化成為結(jié)構(gòu)化的安全領(lǐng)域知識(shí)庫(kù),實(shí)現(xiàn)從威脅實(shí)體和關(guān)系的視角出發(fā),識(shí)別威脅以及對(duì)威脅進(jìn)行評(píng)估。同時(shí),在從圖譜海量數(shù)據(jù)中挖掘、推理威脅的實(shí)體相關(guān)信息過(guò)程中,只有通過(guò)可解釋的知識(shí)推理方法,才能進(jìn)一步為推理結(jié)果的安全可靠提供保證,提高威脅分析的效率。
在長(zhǎng)期的研究和實(shí)踐過(guò)程中,研究人員相繼總結(jié)了有關(guān)知識(shí)圖譜推理的不同技術(shù),并嘗試從不同的角度(如推理長(zhǎng)度[15]、分布式表示[16]、圖嵌入[17])對(duì)推理模型進(jìn)行綜述。然而,對(duì)于推理模型的可解釋性則缺少相關(guān)的總結(jié)與對(duì)比。同時(shí),人工智能的可解釋性越來(lái)越受到人們的重視,可解釋知識(shí)推理在近幾年的學(xué)術(shù)界和工業(yè)界中逐漸成為關(guān)注熱點(diǎn),知識(shí)推理領(lǐng)域缺少較為全面且詳細(xì)的針對(duì)可解釋知識(shí)圖譜推理的綜述文章。
本文通過(guò)廣泛整理與可解釋知識(shí)圖譜推理相關(guān)的文獻(xiàn),在介紹相關(guān)知識(shí)推理的基本概念及可解釋性定義的基礎(chǔ)上,從人工智能研究范式的角度出發(fā),詳細(xì)闡述符號(hào)主義中的可解釋知識(shí)圖譜推理方法、行為主義中的可解釋知識(shí)圖譜推理方法、連接主義中的可解釋知識(shí)圖譜推理方法和新型混合的可解釋知識(shí)圖譜推理方法,詳細(xì)說(shuō)明了在不同場(chǎng)景下,各類可解釋知識(shí)圖譜推理方法的核心思想及改進(jìn)過(guò)程。本文還討論了可解釋知識(shí)圖譜推理的未來(lái)研究方向及前景。
目前業(yè)界較為認(rèn)可的可解釋性定義為“可解釋性是一種以人類認(rèn)識(shí)、理解的方式給人類提供解釋的能力”[5]。
雖然人工智能技術(shù)不斷取得突破性進(jìn)展,高性能的復(fù)雜算法、模型及系統(tǒng)卻普遍無(wú)法向人類用戶解釋它們的自主決策和行為,缺乏決策邏輯的可解釋性[18]。如圖1所示,很多機(jī)器學(xué)習(xí)方法在模型性能和可解釋性之間存在不平衡現(xiàn)象,往往模型越復(fù)雜越難以解釋[14],這對(duì)模型后期的應(yīng)用和優(yōu)化產(chǎn)生很大的影響,因此人們大多基于經(jīng)驗(yàn)來(lái)調(diào)整模型參數(shù)以達(dá)到優(yōu)化模型的目的[19],然后通過(guò)觀察結(jié)果來(lái)判定操作的正確與否,充滿盲目性與隨機(jī)性,忽略了模型可解釋性的重要性。
可解釋性對(duì)于用戶有效地理解、信任和管理人工智能應(yīng)用至關(guān)重要[6],它與深度神經(jīng)網(wǎng)絡(luò)中“黑匣子”的概念形成鮮明對(duì)比。不可解釋的模型在實(shí)踐中經(jīng)常出現(xiàn)難以預(yù)測(cè)正確結(jié)果的情況,這在低風(fēng)險(xiǎn)的環(huán)境中,不會(huì)造成嚴(yán)重后果(如視頻推薦系統(tǒng)),而對(duì)于可靠性要求較高的系統(tǒng)則很危險(xiǎn)[20](如醫(yī)療、法律和信息安全領(lǐng)域),模型必須解釋如何獲得相關(guān)預(yù)測(cè)??山忉屓斯ぶ悄埽╔AI,explainable artificial intelligence)則提供了一種信任的基礎(chǔ),在此基礎(chǔ)上,人工智能才能在更大范圍發(fā)揮作用,有助于識(shí)別潛在的錯(cuò)誤,進(jìn)而改進(jìn)模型[4],提高信息服務(wù)質(zhì)量,滿足道德和法律的規(guī)范要求,為用戶提供更智能的服務(wù)。
圖1 機(jī)器學(xué)習(xí)模型的可解釋性與性能對(duì)比
Figure 1 Interpretability and performance comparison between machine learning models
知識(shí)圖譜是人工智能的核心技術(shù)之一[13],作為一種新型的知識(shí)表示方法,知識(shí)圖譜中包含大量的先驗(yàn)知識(shí),并以結(jié)構(gòu)化三元組的形式組織海量信息,通過(guò)實(shí)體和關(guān)系的形式將不同的數(shù)據(jù)源進(jìn)行關(guān)聯(lián)和深度融合。目前,大量的知識(shí)圖譜,如Yago[21]、Dbpedia[22]和Freebase[23]已經(jīng)開(kāi)發(fā),相關(guān)技術(shù)已被廣泛應(yīng)用在智能問(wèn)答[24]、推薦系統(tǒng)[25]和信息安全[26]等任務(wù)中,其突出表現(xiàn)在學(xué)術(shù)界與工業(yè)界均獲得了廣泛關(guān)注[27-28]。網(wǎng)絡(luò)空間知識(shí)圖譜示例[29]如圖2所示。
圖2 網(wǎng)絡(luò)空間知識(shí)圖譜示例
Figure 2 An illustration of cyber security knowledge graph
知識(shí)推理[15]則是從已知的知識(shí)出發(fā),經(jīng)過(guò)推理挖掘,從中獲取所蘊(yùn)含的新事實(shí),或者對(duì)大量已有知識(shí)進(jìn)行歸納,從個(gè)體知識(shí)推廣到一般性知識(shí)的過(guò)程。早期的推理研究大多在邏輯描述與知識(shí)工程領(lǐng)域,很多學(xué)者提倡用形式化的方法來(lái)描述客觀世界,認(rèn)為一切推理是基于已有的邏輯知識(shí),如一階邏輯和謂詞邏輯,如何從已知的命題和謂詞中得出正確的結(jié)論一直是研究的重點(diǎn)。近些年,隨著互聯(lián)網(wǎng)數(shù)據(jù)規(guī)模的爆炸式增長(zhǎng),傳統(tǒng)的基于人工建立知識(shí)庫(kù)的方法不能適應(yīng)大數(shù)據(jù)時(shí)代對(duì)大量知識(shí)的挖掘需求。數(shù)據(jù)驅(qū)動(dòng)的推理方法逐漸成為知識(shí)推理研究的主流[30]。
面向知識(shí)圖譜的知識(shí)推理即在知識(shí)圖譜的圖結(jié)構(gòu)上,結(jié)合概念、屬性和關(guān)系等知識(shí),通過(guò)相關(guān)推理技術(shù),進(jìn)行知識(shí)推理的過(guò)程。知識(shí)圖譜中所包含的概念、屬性和關(guān)系天然可用于解釋[31-32],且更符合人類對(duì)于解釋的認(rèn)知,方便為真實(shí)世界的推理和解釋場(chǎng)景進(jìn)行直觀建模,因此當(dāng)前基于知識(shí)圖譜的知識(shí)推理方法成為知識(shí)推理領(lǐng)域的典型代表。下文中的“知識(shí)推理”如未加特別說(shuō)明,特指“面向知識(shí)圖譜的知識(shí)推理”。
知識(shí)圖譜推理任務(wù)主要包括知識(shí)圖譜補(bǔ)全和知識(shí)圖譜去噪。前者是通過(guò)推斷出新的事實(shí),擴(kuò)充知識(shí)圖譜,包括實(shí)體預(yù)測(cè)、關(guān)系預(yù)測(cè)、屬性預(yù)測(cè)等任務(wù)。其中最為核心的任務(wù)是實(shí)體預(yù)測(cè)和關(guān)系預(yù)測(cè),實(shí)體預(yù)測(cè)是指利用給定的頭實(shí)體和關(guān)系(或者關(guān)系和尾實(shí)體)找出有效三元組的尾實(shí)體(頭實(shí)體);關(guān)系預(yù)測(cè)是指通過(guò)給定頭實(shí)體和尾實(shí)體,推理出兩者間的關(guān)系。后者關(guān)注圖譜中已知的知識(shí),對(duì)于已經(jīng)構(gòu)建的圖譜中三元組的正誤進(jìn)行評(píng)判,但從本質(zhì)上來(lái)講,兩者其實(shí)是在評(píng)估三元組的有效性。除此之外,知識(shí)推理在下游的信息檢索、智能問(wèn)答和推薦系統(tǒng)中也發(fā)揮著重要的作用,在智慧醫(yī)療、網(wǎng)絡(luò)與信息安全等領(lǐng)域顯現(xiàn)出良好的應(yīng)用場(chǎng)景[27-28]。
知識(shí)推理的可解釋性或者可解釋的知識(shí)推理,是人工智能可解釋性的子問(wèn)題[33]。與研究深度學(xué)習(xí)算法的可解釋性不同,可解釋知識(shí)推理的目的是從已知的知識(shí)出發(fā),經(jīng)過(guò)可解釋的推理方法,最終獲取知識(shí)庫(kù)中蘊(yùn)含的新知識(shí)。目前基于知識(shí)圖譜的可解釋知識(shí)推理是該領(lǐng)域前沿的研究方向之一,其在可解釋知識(shí)推理上有諸多優(yōu)勢(shì),具體如下。
首先,知識(shí)圖譜在表示模式上具有可解釋優(yōu)勢(shì)。知識(shí)表示是為描述世界所做的一組約定,是知識(shí)的符號(hào)化、形式化或模型化的過(guò)程。常見(jiàn)的知識(shí)表示方法包括謂詞邏輯表示法、產(chǎn)生式表示法和分布式知識(shí)表示法等,作為一種新型的知識(shí)表示方法,相對(duì)于這些傳統(tǒng)的知識(shí)表示方法,如產(chǎn)生式表示法,知識(shí)圖譜具有語(yǔ)義豐富、結(jié)構(gòu)友好、知識(shí)組織結(jié)構(gòu)易于理解的優(yōu)點(diǎn)。
其次,基于知識(shí)圖譜的推理在推理過(guò)程中具有可解釋的優(yōu)勢(shì)。人類認(rèn)識(shí)世界、理解事物的過(guò)程,大多是在利用概念、屬性、關(guān)系進(jìn)行理解和認(rèn)知,如對(duì)于問(wèn)題“為什么鳥(niǎo)兒會(huì)飛?”,人類的解釋可能是“鳥(niǎo)兒有翅膀”,這實(shí)質(zhì)上使用了屬性來(lái)解釋。知識(shí)圖譜中富含實(shí)體、概念、屬性、關(guān)系等信息,通過(guò)圖結(jié)構(gòu)形式化組織這些海量的知識(shí),為真實(shí)世界的各個(gè)推理場(chǎng)景直觀建模,可以對(duì)最終的決策進(jìn)行更多元的具體解釋。
最后,知識(shí)圖譜在存儲(chǔ)和使用上具有可解釋的優(yōu)勢(shì),相比其他的存儲(chǔ)形式,知識(shí)圖譜以三元組的形式對(duì)知識(shí)進(jìn)行構(gòu)建以及存儲(chǔ),更加接近人類通常認(rèn)識(shí)事物“主謂賓”的認(rèn)知和學(xué)習(xí)習(xí)慣,對(duì)于人類理解會(huì)更加友好,對(duì)人們的可解釋性相比其他知識(shí)表示方法較強(qiáng)[19]。
1.4.1 知識(shí)推理可解釋性的評(píng)價(jià)指標(biāo)
本文采用的知識(shí)推理的可解釋性評(píng)價(jià)指標(biāo)如下。
(1)可解釋的范圍
根據(jù)模型產(chǎn)生的可解釋性范圍,可解釋性分為局部可解釋和全局可解釋,即解釋是面向某個(gè)或某類實(shí)例還是面向整個(gè)模型行為。
(2)可解釋的產(chǎn)生方式
根據(jù)模型解釋產(chǎn)生的方法,推理模型可以分為事前可解釋和事后可解釋。其中,事前可解釋主要指不需要額外輔助的解釋方法,解釋本身就在自身的模型架構(gòu)中,而事后可解釋指解釋本身不在模型架構(gòu)中,而是在模型訓(xùn)練后,以人類可理解的規(guī)則或可視化等方式,對(duì)模型做出決策的邏輯過(guò)程進(jìn)行后驗(yàn)的解釋。
圖3 可解釋的知識(shí)圖譜推理方法分類
Figure 3 Classification of explainable knowledge graph reasoning methods
(3)可解釋的泛化性
根據(jù)解釋方法是否特定于模型,可以劃分為特定于模型和與模型無(wú)關(guān)兩種解釋類別。
(4)可解釋在下游場(chǎng)景的適用性
根據(jù)下游實(shí)際業(yè)務(wù)需求對(duì)于知識(shí)推理方法的可解釋性的要求,可以將推理方法分為適用于可靠性優(yōu)先領(lǐng)域(如醫(yī)療、網(wǎng)絡(luò)與信息安全領(lǐng)域)和適用于效率優(yōu)先領(lǐng)域(如電影推薦系統(tǒng))。本文在接下來(lái)綜述方法時(shí),每類方法根據(jù)以上4種評(píng)價(jià)指標(biāo)對(duì)模型的可解釋性進(jìn)行對(duì)比分析。
1.4.2 知識(shí)推理準(zhǔn)確性的評(píng)價(jià)指標(biāo)
本文采用的知識(shí)推理的準(zhǔn)確性評(píng)價(jià)指標(biāo)包括平均倒數(shù)排名(MRR,mean reciprocal rank)和前次命中正確預(yù)測(cè)結(jié)果的比例(Hit@)。這兩個(gè)指標(biāo)均是國(guó)際通用的搜索算法評(píng)價(jià)標(biāo)準(zhǔn),具體計(jì)算方法如下:
其中,表示查詢的數(shù)量,對(duì)于一個(gè)查詢來(lái)說(shuō),rank表示第一個(gè)相關(guān)結(jié)果的排序位置。
在相關(guān)模型準(zhǔn)確率評(píng)測(cè)的過(guò)程中,本文在同一實(shí)驗(yàn)環(huán)境(FB15K-237數(shù)據(jù)集)下,對(duì)綜述的各類知識(shí)圖譜推理方法準(zhǔn)確率進(jìn)行量化評(píng)測(cè)。
推動(dòng)人工智能發(fā)展的3種主要研究范式(符號(hào)主義、行為主義和連接主義),對(duì)知識(shí)圖譜推理方法都有著很大的影響,但三者在研究方法和技術(shù)路線等方面有著不同的觀點(diǎn),導(dǎo)致不同研究范式影響下的知識(shí)推理方法在可解釋性與效率上存在不同的側(cè)重,所適用的應(yīng)用場(chǎng)景有所差異。如圖3所示,本文從這3種研究范式角度出發(fā),結(jié)合目前新型混合的知識(shí)圖譜推理技術(shù),分別綜述這些分類中最新的可解釋知識(shí)圖譜推理方法研究進(jìn)展。
從符號(hào)主義角度,知識(shí)推理可以建模為依據(jù)符號(hào)表征的一系列明確推論,通過(guò)顯式的定義推理所需要的本體概念、規(guī)則等離散符號(hào),進(jìn)行邏輯推理的過(guò)程。其核心是從實(shí)例中推導(dǎo)出一般的本體演繹關(guān)系或邏輯規(guī)則,通過(guò)符號(hào)體系進(jìn)行推理,同時(shí),這些符號(hào)體系為推理結(jié)果提供顯式的解釋。根據(jù)知識(shí)圖譜本體概念層和實(shí)體實(shí)例層的劃分,符號(hào)推理方法可以分為基于本體的知識(shí)推理和基于邏輯規(guī)則的知識(shí)推理,接下來(lái)分別介紹其中有代表性的可解釋知識(shí)推理方法。
2.1.1 基于本體的知識(shí)推理
本體是用于定義事物類型及屬性的廣義語(yǔ)義模型?;诒倔w的知識(shí)推理方法主要在抽象化的本體層通過(guò)頻繁挖掘模式等方式進(jìn)行推理,運(yùn)用本體中的知識(shí)來(lái)輔助解決涉及語(yǔ)義的應(yīng)用。用戶可以結(jié)合已有的本體知識(shí)清晰地了解推理的過(guò)程與步驟,具有較強(qiáng)的可解釋性。
知識(shí)圖譜本身就可以理解為規(guī)模非常大的本體[34],存儲(chǔ)著大量的實(shí)例三元組。雖然本體本身沒(méi)有正式的語(yǔ)義,但可以通過(guò)應(yīng)用Web本體語(yǔ)言(OWL,Web ontology language)或資源描述框架(RDFS,resource description framework schema)等本體語(yǔ)言對(duì)概念進(jìn)行描述[35],從而進(jìn)行知識(shí)的表示和推理[36]。Zou等[37]提出一種推理機(jī)F-OWL,F(xiàn)-OWL使用基于OWL的框架進(jìn)行推理,該框架支持對(duì)知識(shí)庫(kù)的一致性檢查。為進(jìn)一步提高該類方法的效率、支持更復(fù)雜的知識(shí)推理,Sirin等[38]提出了OWL-DL推理機(jī)Pellet,Pellet通過(guò)導(dǎo)入規(guī)則進(jìn)行推理增量地更新知識(shí),同時(shí)支持對(duì)動(dòng)態(tài)知識(shí)進(jìn)行迭代更新。Wei等[39]提出并實(shí)現(xiàn)了一種分布式推理規(guī)則的知識(shí)圖譜推理系統(tǒng)KGRL,KGRL可以更好地表達(dá)規(guī)則,具有更強(qiáng)大的推理能力,同時(shí)KGRL通過(guò)相關(guān)優(yōu)化過(guò)程,消除冗余數(shù)據(jù),使推理的過(guò)程更加清晰準(zhǔn)確。
以上基于現(xiàn)有本體演繹關(guān)系實(shí)現(xiàn)的本體推理,不同類型的本體和規(guī)則類型有多種組合,運(yùn)算復(fù)雜度會(huì)呈指數(shù)級(jí)上升。為了提高基于本體推理方法的效率,進(jìn)而對(duì)大規(guī)模知識(shí)圖譜有更好的擴(kuò)展性,很多學(xué)者在不同方面進(jìn)行了努力。Zhou等[40]提出了一個(gè)用于大規(guī)模OWL的推理系統(tǒng)Minerva,Minerva結(jié)合了描述邏輯推理器和規(guī)則引擎進(jìn)行本體推理,提高了效率。為了提高推理的可擴(kuò)展性和性能,Soma等[41]提出了一種并行化的OWL知識(shí)庫(kù)推理方法。通過(guò)對(duì)知識(shí)庫(kù)進(jìn)行劃分,實(shí)現(xiàn)不同規(guī)則子集并行化應(yīng)用于知識(shí)庫(kù)。Marx等[42]提出了一個(gè)更簡(jiǎn)單的、基于規(guī)則的多屬性謂詞邏輯片段推理方法,可進(jìn)一步用于大型知識(shí)圖譜的本體推理。Chen等[43]則在此基礎(chǔ)上提出了本體路徑發(fā)現(xiàn)(OP,ontological pathfinding)算法,通過(guò)一系列的并行化和優(yōu)化技術(shù)擴(kuò)展知識(shí)圖譜的規(guī)模,用發(fā)現(xiàn)的規(guī)則進(jìn)一步擴(kuò)充知識(shí)圖譜,如圖4所示,實(shí)線代表知識(shí)圖譜中已有的知識(shí),以事實(shí)三元組的形式進(jìn)行存儲(chǔ);虛線代表通過(guò)OP算法中本體間上下位的規(guī)則,可以推理出的潛在事實(shí)三元組。該算法運(yùn)用一種新的分割方法,通過(guò)繼承上位詞的關(guān)系得到封閉模式圖,將挖掘任務(wù)分割成更小的獨(dú)立的子任務(wù),同時(shí)通過(guò)規(guī)則修剪策略,檢測(cè)不正確的和消耗資源的規(guī)則,在每個(gè)部分構(gòu)建置信度高的候選規(guī)則集。
圖4 OP算法中封閉模式圖實(shí)例
Figure 4 Example schema closure graph in OP algorithm
近些年來(lái),很多學(xué)者嘗試對(duì)概念層的本體進(jìn)行表示學(xué)習(xí),即本體嵌入[44],來(lái)進(jìn)一步提高本體推理的效率。本體嵌入考慮的是本體語(yǔ)義和邏輯層面的表示學(xué)習(xí),其更關(guān)注表示概念層的層次體系、概念之間的邏輯組合關(guān)系、屬性的層次體系、概念和屬性之間的邏輯組合關(guān)系。其中比較典型的本體嵌入模型是EL Embedding[45],其基本思想是將本體中每一個(gè)類映射成一個(gè)球的幾何表示,而類之間的關(guān)系可以用球的位置反映,進(jìn)而實(shí)現(xiàn)概念層的推理。該類模型的主要目標(biāo)是將類和屬性之間邏輯關(guān)系映射到向量空間,并在向量空間完成類似邏輯空間完成的本體概念推理[46]。
基于本體的知識(shí)推理在推理過(guò)程中有很多本體約束,且大部分推理場(chǎng)景為自上而下的演繹推理,可以利用抽象本體層面的頻繁模式或路徑進(jìn)行推理,為相應(yīng)的知識(shí)推理提供較高準(zhǔn)確率,同時(shí)這些約束會(huì)反映推理出結(jié)果的過(guò)程,提高推理的解釋性。由于抽象層面的本體需要進(jìn)行相應(yīng)的實(shí)例化,對(duì)于實(shí)例數(shù)量較多、規(guī)模很大的知識(shí)庫(kù),推理的可計(jì)算性一般比較差,效率比較低,并且這類知識(shí)推理方法的魯棒性差,高度依賴于本體約束的準(zhǔn)確性,當(dāng)數(shù)據(jù)存在噪聲時(shí),會(huì)誤導(dǎo)推理結(jié)果。
2.1.2 基于邏輯規(guī)則的知識(shí)推理
基于邏輯規(guī)則的知識(shí)推理方法通過(guò)人工定義或結(jié)合機(jī)器學(xué)習(xí)等方法自動(dòng)化地發(fā)掘規(guī)則和特征,結(jié)合合適的剪枝策略,進(jìn)一步應(yīng)用于推理任務(wù)。邏輯規(guī)則可以提供清晰、明確的推理依據(jù)[6],因此具有較強(qiáng)的可解釋性。早期的基于一階謂詞邏輯的推理方法較為經(jīng)典。為進(jìn)一步實(shí)現(xiàn)具有不確定性的大范圍知識(shí)推理,適應(yīng)更加復(fù)雜的推理環(huán)境,學(xué)者相繼提出很多概率規(guī)則推理方法。
(1)基于一階謂詞邏輯的知識(shí)推理方法
在早期的推理研究中,知識(shí)推理主要依靠一階謂詞邏輯,通過(guò)設(shè)置關(guān)系推理的邏輯和約束條件,實(shí)現(xiàn)執(zhí)行簡(jiǎn)單的推理。其中較為經(jīng)典的是由Schoenmackers等[47]提出的一階歸納學(xué)習(xí)器(FOIL,first-order inductive learner),其目的是搜索知識(shí)庫(kù)中的所有關(guān)系,獲取每個(gè)關(guān)系的霍恩子句集合作為特征模式來(lái)預(yù)測(cè)推理結(jié)果。在此基礎(chǔ)上,為進(jìn)一步提高推理的準(zhǔn)確率,Landwehr等[48]提出的 nFOIL和tFOIL分別在FOIL基礎(chǔ)上集成了樸素貝葉斯學(xué)習(xí)方法和樹(shù)狀增強(qiáng)的樸素貝葉斯方法,對(duì)學(xué)習(xí)器的搜索進(jìn)行指導(dǎo)。Landwehr等[49]提出的 kFOIL結(jié)合了FOIL的規(guī)則學(xué)習(xí)算法和核方法,從其關(guān)系表示中得到特征的集合,將這些特征用于核方法,進(jìn)行更高效的預(yù)測(cè)。
傳統(tǒng)的FOIL算法成功實(shí)現(xiàn)了在小規(guī)模的知識(shí)庫(kù)中有較高的推理精度,但由于實(shí)體和關(guān)系的復(fù)雜性和多樣性,并且隨著動(dòng)態(tài)添加新的事實(shí)三元組,擴(kuò)展規(guī)則的復(fù)雜度會(huì)呈現(xiàn)指數(shù)級(jí)上升,其高復(fù)雜度和低效率使原始的FOIL算法不適用于目前的大規(guī)模圖譜的推理。為了緩解這個(gè)問(wèn)題,Nakashole等[50]提出了一種結(jié)合軟演繹規(guī)則和硬規(guī)則的RDF知識(shí)庫(kù)查詢一階推理方法,軟規(guī)則用于產(chǎn)生新事實(shí),而硬規(guī)則用于強(qiáng)制知識(shí)圖譜中的數(shù)據(jù)和推斷事實(shí)之間的一致性約束。在歸納效率方面有較大進(jìn)展的是Galárraga等[51]提出的AMIE系統(tǒng),AMIE從以下兩個(gè)步驟進(jìn)行挖掘邏輯規(guī)則。首先是規(guī)則擴(kuò)展,通過(guò)3種給定操作(添加懸掛邊、實(shí)例邊和閉合邊)擴(kuò)展候選的規(guī)則;然后通過(guò)規(guī)則修剪,去除其中錯(cuò)誤的規(guī)則,并根據(jù)預(yù)定義的評(píng)估指標(biāo)輸出可信規(guī)則。
為進(jìn)一步提升邏輯規(guī)則的歸納速度,以適應(yīng)目前大規(guī)模的知識(shí)庫(kù),Galárraga等[52]進(jìn)一步在AMIE的基礎(chǔ)上通過(guò)增加一系列的剪枝算法和查詢重寫(xiě)技術(shù),將AMIE擴(kuò)展為AMIE+,通過(guò)考慮實(shí)體類型信息并使用聯(lián)合推理,在推理速度和預(yù)測(cè)的精度上有了大幅度提升。然而,AMIE+每次只能挖掘一條規(guī)則,無(wú)法進(jìn)行并行化。為進(jìn)一步提升推理的并行效率,Wang等[53]提出了一種新的規(guī)則學(xué)習(xí)方法RDF2Rules,RDF2Rules通過(guò)挖掘頻繁謂詞的方法來(lái)并行化這個(gè)過(guò)程,憑借適當(dāng)?shù)募糁Σ呗?,?shí)現(xiàn)更有效地在大規(guī)模的知識(shí)圖譜上進(jìn)行推理。
(2)基于概率規(guī)則的知識(shí)推理方法
一階謂詞邏輯表示的方法是以謂詞公式的形式為結(jié)果的,其規(guī)則的邏輯值只有“真”和“假”兩種結(jié)果,而對(duì)不確定性的知識(shí)無(wú)法表示,所以其僅適用于精確性知識(shí)推理方法,而不適用于表示具有不確定性或模糊性的知識(shí)推理。因此,研究人員提出了基于概率規(guī)則的知識(shí)推理方法,通過(guò)結(jié)合一階謂詞邏輯和概率圖模型,同時(shí)應(yīng)用邏輯規(guī)則或統(tǒng)計(jì)特征來(lái)進(jìn)行建模,實(shí)現(xiàn)具有不確定性的知識(shí)推理,擴(kuò)充符號(hào)邏輯推理的功能。其中較為典型的方法是Richardson等提出的馬爾可夫邏輯網(wǎng)絡(luò)(MLN,Markov logic network)[54-56]。如圖5所示,MLN模型基于定義好的規(guī)則和知識(shí)庫(kù)中的事實(shí)三元組建立概率圖模型,在建立的馬爾可夫邏輯網(wǎng)絡(luò)中應(yīng)用馬爾可夫鏈蒙特卡洛(MCMC,Markov chain Monte Carlo)算法,通過(guò)最大似然估計(jì)[55]學(xué)習(xí)對(duì)應(yīng)規(guī)則的權(quán)重,進(jìn)而在給定周圍事實(shí)的情況下推斷未知三元組成立的概率。
然而,在MLN模型中,計(jì)算目標(biāo)實(shí)例的概率需要所有符合相關(guān)規(guī)則的實(shí)例,這在現(xiàn)實(shí)的應(yīng)用中很難得到滿足。De等[57]提出的ProbLog模型則通過(guò)選擇性線性確定(SLD,selective linear definite)的方法為查詢建造推理樹(shù)來(lái)解決這個(gè)問(wèn)題,通過(guò)自上而下的方式構(gòu)建SLD搜索樹(shù),將目標(biāo)查詢的概率最終分解為計(jì)算所有可能子句集合的聯(lián)合概率總和。為進(jìn)一步優(yōu)化計(jì)算子句的速度,Cussens等[58]提出隨機(jī)邏輯程序(SLP,stochastic logic programs)方法,SLP定義了一個(gè)遍歷SLD樹(shù)的隨機(jī)過(guò)程,其中節(jié)點(diǎn)上定義的概率分布通過(guò)對(duì)所需答案子句和其他子句進(jìn)行加權(quán)求和來(lái)學(xué)習(xí)。Wang等[59]提出的ProPPR方法則對(duì)SLP進(jìn)一步進(jìn)行擴(kuò)展,將SLP隨機(jī)抽樣策略改為基于個(gè)性化的PageRank算法[60]的偏差抽樣策略,從而實(shí)現(xiàn)優(yōu)化推理速度。
圖5 馬爾可夫邏輯網(wǎng)絡(luò)推理模型[54]
Figure 5 Reasoning model based on Markov logic network[54]
以上方法均在假設(shè)數(shù)據(jù)完整的情況下進(jìn)行推理,數(shù)據(jù)的缺失會(huì)導(dǎo)致其賦值各種組合公式學(xué)習(xí)和推理難以優(yōu)化。為了解決這一問(wèn)題,Kimmig等[61]提出了概率軟邏輯(PSL,probability soft logic)。PSL使用FOIL規(guī)則作為在軟真值區(qū)間為[0,1]的隨機(jī)變量,在這種情況下,推理可以被認(rèn)為是一個(gè)持續(xù)優(yōu)化的任務(wù),可以有效地在數(shù)據(jù)缺失的情況下進(jìn)行運(yùn)算。為進(jìn)一步優(yōu)化在缺失數(shù)據(jù)情況下的推理速度和準(zhǔn)確度,Pujara等[62]通過(guò)生成一個(gè)以實(shí)體和關(guān)系為節(jié)點(diǎn)、本體約束為邊的知識(shí)圖譜,采用邊緣最小切割聚類技術(shù)對(duì)關(guān)系和標(biāo)簽進(jìn)行劃分,利用PSL定義的聯(lián)合概率分布,實(shí)現(xiàn)并行高效推理。Bach等[63]在此基礎(chǔ)上提出了一種能在更大規(guī)模知識(shí)圖譜中進(jìn)行推理的方法——Hinge-Loss馬爾可夫隨機(jī)場(chǎng)(HL-MRF)模型,它實(shí)現(xiàn)了基于布爾邏輯的松弛概率推理和基于模糊邏輯的精確概率推理,使模型在離散和連續(xù)的數(shù)據(jù)中都可以實(shí)現(xiàn)高效推理。近些年,利用強(qiáng)化學(xué)習(xí)進(jìn)行規(guī)則歸納的方法也有一定的進(jìn)展,Meilicke等[64]提出的AnyBRUL模型利用強(qiáng)化學(xué)習(xí)的方法對(duì)兩個(gè)實(shí)體間的關(guān)系進(jìn)行采樣,然后從采樣路徑中構(gòu)造基本規(guī)則,并根據(jù)自下而上的規(guī)則構(gòu)建方法將頻繁路徑模式一般化為抽象規(guī)則,取得了效率的一定提升。
總體來(lái)說(shuō),符號(hào)主義的知識(shí)推理具有嚴(yán)謹(jǐn)?shù)耐评磉^(guò)程,其依據(jù)的本體演繹關(guān)系或邏輯推導(dǎo)規(guī)則可以為推理結(jié)果提供可解釋依據(jù)[65]。具體地,如表1所示,在可解釋性的范圍方面,符號(hào)主義中的知識(shí)推理方法通過(guò)概念層的本體演繹關(guān)系,或圖譜中邏輯規(guī)則的挖掘進(jìn)行解釋,解釋不單單針對(duì)某一個(gè)或一類實(shí)例,因此具有全局可解釋性;在可解釋性的產(chǎn)生方式方面,模型的解釋通過(guò)本身的本體和邏輯規(guī)則,不依賴于模型以外的輔助方法,因此其解釋性產(chǎn)生方式均是事前可解釋的;在可解釋性的泛化性方面,推理出的本體演繹關(guān)系和規(guī)則不特定于具體模型,所以解釋與模型無(wú)關(guān);在可解釋的下游場(chǎng)景適用性方面,該類推理方法適用于可靠性優(yōu)先領(lǐng)域。
表1 符號(hào)主義中的可解釋知識(shí)圖譜推理方法
注:由于符號(hào)主義中基于本體的知識(shí)推理為概念層的推理,推理準(zhǔn)確性不做比較。
從行為主義角度,知識(shí)圖譜推理可以建模為在圖結(jié)構(gòu)上通過(guò)多步游走,同時(shí)對(duì)每一步進(jìn)行預(yù)見(jiàn)和控制,通過(guò)序列決策逐步找到推理答案的過(guò)程,其核心是實(shí)現(xiàn)知識(shí)圖譜圖結(jié)構(gòu)上的多跳推理。該類方法在得到推理結(jié)果的同時(shí),顯式地推導(dǎo)出具體的路徑推導(dǎo)過(guò)程,因此可解釋性較強(qiáng)。
該研究領(lǐng)域有兩個(gè)主要方向,分別是基于隨機(jī)游走和基于強(qiáng)化學(xué)習(xí)的知識(shí)圖譜推理方法?;陔S機(jī)游走的知識(shí)圖譜推理方法在圖結(jié)構(gòu)上利用隨機(jī)游走策略,結(jié)合合適的圖搜索算法獲取多條路徑,利用這些路徑的特征預(yù)測(cè)實(shí)體間是否存在潛在的關(guān)系;基于強(qiáng)化學(xué)習(xí)的知識(shí)圖譜推理方法則通過(guò)智能體與環(huán)境不斷進(jìn)行交互,以反饋和交互的方式訓(xùn)練智能體,在動(dòng)作選擇和狀態(tài)更新的動(dòng)態(tài)過(guò)程中逐漸優(yōu)化目標(biāo),進(jìn)而實(shí)現(xiàn)知識(shí)推理。
2.2.1 基于隨機(jī)游走的知識(shí)推理
基于隨機(jī)游走的方法將路徑作為特征對(duì)推理結(jié)果進(jìn)行預(yù)測(cè),由于路徑的特征是可解釋的,人們更容易理解其含義,通過(guò)對(duì)路徑的重要性進(jìn)行量化,來(lái)判定特征對(duì)最終預(yù)測(cè)結(jié)果的影響。具體地,Lao等[66]提出的路徑排序算法(PRA,path ranking algorithm)是其中較為經(jīng)典的基于隨機(jī)游走的知識(shí)推理方法,為了學(xué)習(xí)數(shù)據(jù)庫(kù)中特定邊緣類型的推理模型,PRA首先游走發(fā)現(xiàn)邊緣類型序列,通過(guò)邏輯回歸模型,將這些邊緣類型作為特征,來(lái)預(yù)測(cè)圖結(jié)構(gòu)中缺失的邊,該模型顯著提高了計(jì)算效率,為大規(guī)模知識(shí)推理提供了一種有效的解決方案。在此基礎(chǔ)上,Lao等進(jìn)一步通過(guò)實(shí)驗(yàn)證明,基于約束、加權(quán)、隨機(jī)遍歷組合的軟推理過(guò)程,可以更高效地預(yù)測(cè)知識(shí)庫(kù)中的新知識(shí),為此,進(jìn)一步基于PRA提出了一種數(shù)據(jù)驅(qū)動(dòng)的尋找路徑的方法[67],改進(jìn)了PRA中的路徑生成過(guò)程,將通過(guò)枚舉生成的路徑改進(jìn)為僅生成可能對(duì)目標(biāo)任務(wù)有信息增益的路徑,利用實(shí)體之間所有路徑的加權(quán)概率和得分對(duì)實(shí)體之間存在的關(guān)聯(lián)關(guān)系進(jìn)行度量。此外,實(shí)驗(yàn)結(jié)果證明,結(jié)合文本的語(yǔ)法模式和背景知識(shí)中的語(yǔ)義模式,路徑約束的隨機(jī)游走模型可以更有效地預(yù)測(cè)新的語(yǔ)義知識(shí)。
基于PRA的方法效率較高,且有著很好的可解釋性,但是存在游走的過(guò)程中特征空間稀疏以及路徑特征爆炸式增長(zhǎng)的問(wèn)題。Gardner等[68]則有針對(duì)性地將向量相似度考慮到隨機(jī)游動(dòng)的推理中,利用表層文本來(lái)減少固有特征的稀疏性,該模型僅允許在與語(yǔ)義上相一致的邊上游動(dòng),其中語(yǔ)義的一致性由邊類型的向量空間決定,減少了PRA特征空間的稀疏性。然而,此類推理方法大多對(duì)整個(gè)知識(shí)庫(kù)進(jìn)行推理,一方面,推理過(guò)程非常耗時(shí),另一方面,全局結(jié)構(gòu)信息粒度比較粗,因此Gardner等[69]在該方法的基礎(chǔ)上進(jìn)一步提出了一種更簡(jiǎn)單、高效的算法,結(jié)合細(xì)粒度的局部結(jié)構(gòu)信息對(duì)知識(shí)圖譜進(jìn)行局部推理,稱為子圖特征提取(SFE)算法。當(dāng)給定一些節(jié)點(diǎn)對(duì)時(shí),該算法首先執(zhí)行局部搜索來(lái)描述實(shí)體節(jié)點(diǎn)周圍的子圖,然后結(jié)合細(xì)粒度的局部信息,在這些局部子圖上進(jìn)行特征提取,得到每個(gè)實(shí)體對(duì)的特征向量,在此基礎(chǔ)上進(jìn)行知識(shí)推理,SFE算法不僅在推理性能上有了顯著提升,時(shí)間復(fù)雜度也大大優(yōu)于PRA算法。
Liu等[70]研究發(fā)現(xiàn)目前相關(guān)隨機(jī)游走算法大多采用隨機(jī)采樣的方式提取關(guān)系路徑特征,犧牲了知識(shí)圖譜中語(yǔ)義信息的利用率,因此提出了雙向語(yǔ)義假設(shè)和關(guān)系特異性推斷假設(shè),設(shè)計(jì)并實(shí)現(xiàn)了兩層隨機(jī)游走算法(TRWA)。TRWA將兩種不同的特征建模方法結(jié)合起來(lái),將知識(shí)圖譜的拓?fù)浣Y(jié)構(gòu)細(xì)分為全局概覽圖和局部子圖,分別進(jìn)行特征提取,并對(duì)全局概覽圖和局部子圖模塊進(jìn)行加權(quán)和合并,對(duì)結(jié)果進(jìn)行推理。同時(shí),為了避免純粹的無(wú)引導(dǎo)隨機(jī)游走算法尋找有用路徑的低效,甚至引入噪聲而誤導(dǎo)推理的情況,Wei等[71]有針對(duì)性地提出了一種新的目標(biāo)引導(dǎo)的推理算法,該算法在隨機(jī)游走過(guò)程每一步都使用特定的推理目標(biāo)作為引導(dǎo),隨機(jī)游走的過(guò)程中估計(jì)每個(gè)鄰居節(jié)點(diǎn)的潛在可能性,從而實(shí)現(xiàn)這種目標(biāo)引導(dǎo)機(jī)制。Wang等[72]提出了一種新的PRA多任務(wù)學(xué)習(xí)框架,稱為耦合PRA(CPRA,coupling PRA)。CPRA使用多任務(wù)機(jī)制執(zhí)行推理,由兩個(gè)模塊組成(關(guān)系聚類和關(guān)系耦合),前者用于自動(dòng)發(fā)現(xiàn)高度相關(guān)的關(guān)系,后者用于耦合這些關(guān)系進(jìn)行學(xué)習(xí),通過(guò)耦合這些關(guān)系,模型能進(jìn)一步學(xué)習(xí)關(guān)系的語(yǔ)義,提高推理的性能。
基于隨機(jī)游走的知識(shí)推理方法可以獲得預(yù)測(cè)結(jié)果具體的推理路徑,提升結(jié)果的可解釋性,但其中大多方法的路徑選擇過(guò)程是啟發(fā)式遍歷的,無(wú)目的隨機(jī)游走挖掘有價(jià)值的推理路徑效率較低,甚至?xí)脲e(cuò)誤的推理規(guī)則。同時(shí),在知識(shí)圖譜稀疏、低連通的情況下,對(duì)路徑特征的提取效率低且耗時(shí)。盡管一些學(xué)者提出使用啟發(fā)式規(guī)則指導(dǎo)的隨機(jī)游走策略取得一定的效果,但由于推理規(guī)則的多樣性,這種方法很難取得較好的泛化性。
2.2.2 基于強(qiáng)化學(xué)習(xí)的知識(shí)推理
基于強(qiáng)化學(xué)習(xí)的方法進(jìn)一步將知識(shí)推理中的多跳推理問(wèn)題建模為一個(gè)序列化決策問(wèn)題,知識(shí)推理中的每一條推理鏈代表一系列決策的過(guò)程,強(qiáng)化學(xué)習(xí)智能體在路徑探索的過(guò)程中,通過(guò)反饋和交互的方式學(xué)習(xí)獲得高獎(jiǎng)勵(lì)的路徑尋找策略,從而對(duì)知識(shí)圖譜中的多跳決策問(wèn)題進(jìn)行建模,實(shí)現(xiàn)知識(shí)推理。
Xiong等[73]提出了一種用于知識(shí)圖譜推理的強(qiáng)化學(xué)習(xí)模型DeepPath,使用強(qiáng)化學(xué)習(xí)方法來(lái)解決知識(shí)圖譜中的多跳推理問(wèn)題。該模型利用強(qiáng)化學(xué)習(xí)的方法來(lái)評(píng)估采樣路徑,大大減少搜索空間。在路徑推理的過(guò)程中,強(qiáng)化學(xué)習(xí)環(huán)境被建模為馬爾可夫決策過(guò)程(MDP)。DeepPath模型結(jié)構(gòu)如圖6所示,通過(guò)設(shè)計(jì)一個(gè)策略函數(shù)來(lái)編碼強(qiáng)化學(xué)習(xí)智能體的連續(xù)狀態(tài),智能體在向量空間環(huán)境下進(jìn)行推理,在每一跳處對(duì)當(dāng)前關(guān)系進(jìn)行抽樣,并擴(kuò)展推理路徑。獎(jiǎng)勵(lì)用于衡量智能體所發(fā)現(xiàn)路徑的準(zhǔn)確性、效率和多樣性,從而監(jiān)督每一跳的采樣動(dòng)作。
圖6 DeepPath模型結(jié)構(gòu)
Figure 6 Model structure of DeepPath
然而,DeepPath模型要求首先采樣頭部實(shí)體和尾部實(shí)體之間的所有路徑,然后利用它們來(lái)評(píng)估尾部實(shí)體是否可以為正確答案,即(h, ?, t)的情況,無(wú)法處理尾部實(shí)體未知的情況,即(h, r, ?)的情況。Das等[74]提出了一種深度強(qiáng)化學(xué)習(xí)方法MINERVA,該學(xué)習(xí)方法根據(jù)輸入查詢來(lái)引導(dǎo)智能體,尋找預(yù)測(cè)路徑,根據(jù)給定的頭部實(shí)體和查詢關(guān)系來(lái)獲得正確的答案實(shí)體。MINERVA將環(huán)境建模為一個(gè)確定性的部分觀察馬爾可夫決策過(guò)程(POMDP)以減少行動(dòng)空間。同時(shí)采用基于長(zhǎng)短期記憶(LSTM)神經(jīng)[75]網(wǎng)絡(luò)的策略函數(shù)對(duì)經(jīng)過(guò)節(jié)點(diǎn)的每個(gè)鄰居進(jìn)行表示,硬獎(jiǎng)勵(lì)0/1表示最后一步的采樣實(shí)體是否為正確答案。實(shí)驗(yàn)結(jié)果進(jìn)一步表明MINERVA可以學(xué)習(xí)相對(duì)較長(zhǎng)的推理鏈,且推理的準(zhǔn)確性較好。
以上強(qiáng)化學(xué)習(xí)方法均采用硬獎(jiǎng)勵(lì)機(jī)制來(lái)監(jiān)督抽樣過(guò)程,即抽樣的實(shí)體為正確答案,獎(jiǎng)勵(lì)為1,否則為0。但是在不完整的知識(shí)圖譜環(huán)境中,基于這種擴(kuò)展路徑策略的智能體大多只會(huì)得到稀疏的獎(jiǎng)勵(lì),不足以指導(dǎo)復(fù)雜的強(qiáng)化學(xué)習(xí)模型進(jìn)行學(xué)習(xí)。很多學(xué)者針對(duì)這一問(wèn)題做出了探索,Lin等[76]有針對(duì)性地提出一種模型,其改進(jìn)了MINERVA模型中硬獎(jiǎng)勵(lì)機(jī)制,提出了一種基于計(jì)算真實(shí)答案實(shí)體與最后一步采樣實(shí)體之間相似性的軟獎(jiǎng)勵(lì)方法RewardShaping,可以使智能體探索更多的路徑集合,降低對(duì)虛假路徑的敏感度。此外,受dropout技術(shù)的啟發(fā),該模型在訓(xùn)練過(guò)程中刻意忽略一些偶然行為,鼓勵(lì)智能體選擇不同路徑,更有效地進(jìn)行推理,緩解了過(guò)擬合的問(wèn)題。Shen等[77]提出了一種基于值函數(shù)的強(qiáng)化學(xué)習(xí)方法M-walk,利用蒙特卡洛樹(shù)搜索(MCTS)進(jìn)行尋徑,通過(guò)MCTS軌跡生成步驟和策略改進(jìn)步驟迭代來(lái)細(xì)化策略函數(shù),緩解獎(jiǎng)勵(lì)稀疏的問(wèn)題。Godin等[78]進(jìn)一步明確目前基于強(qiáng)化學(xué)習(xí)推理的方法中回饋獎(jiǎng)勵(lì)不明確的問(wèn)題。通過(guò)引入三元獎(jiǎng)勵(lì)機(jī)制,對(duì)正確答案給予正獎(jiǎng)勵(lì),對(duì)智能體采取規(guī)定步驟數(shù)無(wú)法達(dá)到候選實(shí)體或者一個(gè)錯(cuò)誤的答案時(shí),給予負(fù)獎(jiǎng)勵(lì),對(duì)圖譜中的信息無(wú)法回答的情況給予中性獎(jiǎng)勵(lì),對(duì)智能體所獲得的獎(jiǎng)勵(lì)進(jìn)行量化,防止智能體對(duì)于錯(cuò)誤路徑的學(xué)習(xí)。
為進(jìn)一步結(jié)合更多的輔助信息對(duì)強(qiáng)化學(xué)習(xí)的智能體進(jìn)行指導(dǎo),Lei等[79]提出了一種結(jié)合規(guī)則的知識(shí)圖譜多跳推理模型RuleGuider,其利用基于符號(hào)的方法生成的高質(zhì)量規(guī)則,為圖譜上游走的智能體提供額外的規(guī)則獎(jiǎng)勵(lì),實(shí)現(xiàn)RuleGuider在優(yōu)化模型的性能同時(shí),提升推理的可解釋性。Xia等[80]提出的SparKGR對(duì)規(guī)則引導(dǎo)智能體探索的策略在稀疏的知識(shí)圖譜環(huán)境中進(jìn)一步進(jìn)行探索,在判斷下一步動(dòng)作空間的過(guò)程中,融合了3種策略,分別是隨機(jī)游走采樣的方法、規(guī)則引導(dǎo)的方法以及利用智能體策略函數(shù)的方法,將3種方法對(duì)應(yīng)的概率分布進(jìn)行加權(quán)求和,綜合判定智能體下一步的決策。
為了提高現(xiàn)有基于強(qiáng)化學(xué)習(xí)推理模型的魯棒性,適應(yīng)目前有噪聲的推理環(huán)境,很多學(xué)者有針對(duì)性地做了不同的工作。Chen等[81]提出DIVA模型將知識(shí)圖譜補(bǔ)全任務(wù)構(gòu)建為一個(gè)統(tǒng)一的模型,使用變分推理方法來(lái)處理復(fù)雜推理,該模型將智能體尋找路徑和推理預(yù)測(cè)作為一個(gè)整體,通過(guò)主動(dòng)的協(xié)作和交互進(jìn)行尋找路徑,在這個(gè)過(guò)程中,路徑被建模為隱變量,采用VAE 方法[82]對(duì)模型進(jìn)行求解,路徑推理模塊可以從路徑查找器中獲得不同的推理路徑,為結(jié)果提供不同的可解釋依據(jù)。Li等[83]和Yu等[84]用強(qiáng)化學(xué)習(xí)和軟規(guī)則聯(lián)合的方法進(jìn)行高效的圖譜搜索,模型使用軟規(guī)則的路徑對(duì)知識(shí)圖譜的規(guī)則進(jìn)行補(bǔ)充,為路徑推理中的關(guān)系增加不確定性,從而更好地進(jìn)行模糊推理。Wang等[85]提出了一種基于注意力機(jī)制的深度強(qiáng)化學(xué)習(xí)(ADRL)框架,通過(guò)基于注意力機(jī)制的深度學(xué)習(xí)模型和強(qiáng)化學(xué)習(xí)的關(guān)系推理相結(jié)合的方法,提高了模型的效率和可解釋性。Hildebrandt等[86]提出了一種基于動(dòng)態(tài)生成對(duì)抗網(wǎng)絡(luò)的知識(shí)圖譜推理方法R2D2,R2D2通過(guò)將三元組的分類問(wèn)題建模成兩個(gè)強(qiáng)化學(xué)習(xí)智能體之間對(duì)抗博弈的任務(wù),兩個(gè)智能體分別尋找推理證據(jù)鏈,證明查詢?nèi)M正確或錯(cuò)誤,并由一個(gè)判別器判定最終結(jié)果。這兩個(gè)智能體可以被認(rèn)為是稀疏的、對(duì)抗的特征生成器,通過(guò)訓(xùn)練為正例和反例分別提供可解釋的依據(jù)。
總體來(lái)說(shuō),行為主義中知識(shí)圖譜推理方法無(wú)須大量標(biāo)注語(yǔ)料,僅需要一些推理目標(biāo)即可得到泛化能力較強(qiáng)的模型,實(shí)現(xiàn)效率較高的推理。同時(shí)通過(guò)路徑對(duì)推理結(jié)果的過(guò)程進(jìn)行顯性的回溯,在加快推理效率同時(shí),提升了推理的可解釋性。具體地,如表2所示,在可解釋性的范圍方面,行為主義中的可解釋知識(shí)推理方法大多在知識(shí)圖譜的圖結(jié)構(gòu)上進(jìn)行多跳推理,推理出的路徑針對(duì)具體的推理實(shí)例,提供了局部的可解釋;在可解釋的產(chǎn)生方式方面,所產(chǎn)生的解釋是通過(guò)模型本身所產(chǎn)生的路徑信息進(jìn)行提供,所以解釋性產(chǎn)生的方式是事前的可解釋性;在可解釋性的泛化性方面,基于隨機(jī)游走的方法中,結(jié)合隨機(jī)游走策略,通過(guò)圖搜索算法進(jìn)行知識(shí)推理,解釋沒(méi)有依靠模型以外的輔助方法,所以基于隨機(jī)游走方法產(chǎn)生的解釋與模型無(wú)關(guān),而基于強(qiáng)化學(xué)習(xí)的方法雖然最后顯式地給出推理路徑,但其智能體的策略網(wǎng)絡(luò)通常是基于LSTM等深度網(wǎng)絡(luò),在推理的過(guò)程中依賴LSTM等組件對(duì)路徑歷史信息進(jìn)行嵌入,得出下一步的決策信息,所以基于強(qiáng)化學(xué)習(xí)方法產(chǎn)生的解釋特定于具體模型;在可解釋的下游場(chǎng)景適用性方面,適用于效率優(yōu)先領(lǐng)域。
表2 行為主義中的可解釋知識(shí)圖譜推理方法
從連接主義角度,知識(shí)圖譜中的實(shí)體和關(guān)系可以通過(guò)表示學(xué)習(xí)方法嵌入低維向量空間,進(jìn)行數(shù)值化的運(yùn)算操作,進(jìn)而實(shí)現(xiàn)知識(shí)推理。其核心是找到一種映射函數(shù),將符號(hào)表示映射到向量空間進(jìn)行數(shù)值表示,從而減少維數(shù)災(zāi)難,同時(shí)捕捉實(shí)體和關(guān)系之間的隱式關(guān)聯(lián),實(shí)現(xiàn)符號(hào)表示向量化的直接計(jì)算。
在語(yǔ)義的層面,很多淺層的表示模型在提升效率的同時(shí),考慮建模不同的關(guān)系模式(如對(duì)稱關(guān)系、逆反關(guān)系和組合關(guān)系)、邏輯操作(如與、或、非操作)和實(shí)體間的上下位層次關(guān)系,使模型具有推理部分語(yǔ)義結(jié)構(gòu)的能力,因此,連接主義中的部分推理模型具有一定的可解釋性。該類方法大體可以分為3種,分別是基于平移距離的模型、基于張量分解的模型和基于神經(jīng)網(wǎng)絡(luò)的模型,本文重點(diǎn)對(duì)方法的可解釋性進(jìn)行對(duì)比分析。
2.3.1 基于平移距離的知識(shí)推理
首先,TransE模型無(wú)法建模一對(duì)多和多對(duì)多的多映射關(guān)系。由于該模型基于在實(shí)數(shù)空間中轉(zhuǎn)移思想的簡(jiǎn)單假設(shè),在出現(xiàn)多映射關(guān)系時(shí),即使語(yǔ)義相差很大,尾實(shí)體競(jìng)爭(zhēng)向量空間中的同一個(gè)點(diǎn),無(wú)法很好地建模此類多映射關(guān)系。Wang等[88]提出的TransH模型引入特定關(guān)系超平面,通過(guò)將實(shí)體和關(guān)系投影到特定關(guān)系超平面,從而對(duì)多映射關(guān)系有不同的表示,有效地處理一對(duì)多、多對(duì)多的關(guān)系。Lin等[89]提出的TransR模型則將原來(lái)的單個(gè)語(yǔ)義空間分離為實(shí)體空間和關(guān)系空間,通過(guò)線性變換將實(shí)體表示映射到對(duì)應(yīng)的關(guān)系空間,提高了模型的表示能力,但參數(shù)量過(guò)大,模型收斂較慢。Ji等[90]提出的TransSparse模型在TransR工作的基礎(chǔ)上,通過(guò)使用稀疏矩陣建模關(guān)系映射,緩解了TransR參數(shù)量過(guò)大的問(wèn)題。
圖7 部分平移距離模型示意
Figure 7 Simple illustrations of the translation distance model
其次,TransE模型無(wú)法建模所有的關(guān)系模式,特別是對(duì)稱關(guān)系。該模型可以很好地建模反向、組合和非對(duì)稱的關(guān)系模式,但由于實(shí)數(shù)空間的限制,在處理對(duì)稱關(guān)系時(shí)有劣勢(shì)。一些學(xué)者因此研究在復(fù)向量空間內(nèi)進(jìn)行更適合的實(shí)體和關(guān)系的嵌入表示。Sun等[91]提出的RotatE模型將實(shí)體表示為復(fù)數(shù)向量空間中的向量,將每個(gè)關(guān)系定義為在復(fù)矢量空間中從源實(shí)體到目標(biāo)實(shí)體的旋轉(zhuǎn),這樣相比實(shí)數(shù)空間的模型,可以更好地建模對(duì)稱的關(guān)系。Zhang等[92]提出的QuatE模型通過(guò)旋轉(zhuǎn)的思想進(jìn)行建模對(duì)稱關(guān)系,其采用四元向量來(lái)表示實(shí)體和關(guān)系,從而建模對(duì)稱和非對(duì)稱關(guān)系。Song等[93]提出的Rot-Pro模型則進(jìn)一步對(duì)傳遞性的冪等關(guān)系實(shí)現(xiàn)了建模。Cao等[94]提出的DuelE模型進(jìn)一步通過(guò)結(jié)合對(duì)偶四元數(shù)的方法將關(guān)系建模為一系列平移和旋轉(zhuǎn)的組合操作,使對(duì)應(yīng)嵌入推理更具有幾何上的解釋。
同時(shí),TransE模型無(wú)法顯式地建模實(shí)體的語(yǔ)義層級(jí)信息。Li等[95]證明,考慮實(shí)體的層次信息有助于緩解長(zhǎng)尾實(shí)體的問(wèn)題,進(jìn)而利于知識(shí)推理,因此語(yǔ)義層次信息在建模過(guò)程中十分必要。Zhang等[96]提出的HAKE模型,通過(guò)極坐標(biāo)方法,結(jié)合實(shí)體的模信息和相位信息,建模知識(shí)圖譜中實(shí)體間語(yǔ)義層次關(guān)系的距離。Wang等[97]提出的HARotatE建模思想與HAKE相似,在RotatE的基礎(chǔ)上通過(guò)定義模長(zhǎng),對(duì)實(shí)體間的層次信息進(jìn)行建模。Hu等[98]則定義了實(shí)體的層級(jí)表示,將實(shí)體作為葉子節(jié)點(diǎn),上層概念作為內(nèi)部節(jié)點(diǎn),構(gòu)建有向無(wú)環(huán)圖。Balazevic等[99]提出的MuRP模型則從表示空間的角度進(jìn)行改進(jìn),將實(shí)體和關(guān)系映射到雙曲幾何空間,利用雙曲幾何中的龐加萊圓盤進(jìn)行建模,有效地建模了實(shí)體的層次性質(zhì)。
以上這類基于平移距離的模型大多是淺層的表示學(xué)習(xí)模型,由于參數(shù)量適中,運(yùn)算操作簡(jiǎn)單高效,同時(shí)模型從表示空間、運(yùn)算類型等方面進(jìn)行建模,使對(duì)應(yīng)的嵌入表示滿足更多關(guān)系模式、層次關(guān)系或者可以進(jìn)行更多的邏輯操作,因此對(duì)應(yīng)的嵌入推理具有幾何上的可解釋性。
2.3.2 基于張量分解的知識(shí)推理
基于張量分解的模型又稱為基于語(yǔ)義匹配的圖嵌入方法。該類模型從文本語(yǔ)義的角度出發(fā)學(xué)習(xí)知識(shí)圖譜中實(shí)體和關(guān)系的表示,如圖8所示,該類模型首先通過(guò)將知識(shí)圖譜建模為張量,然后通過(guò)張量分解來(lái)學(xué)習(xí)實(shí)體和關(guān)系的隱層表示,度量圖譜中三元組潛在語(yǔ)義的合理性。該類模型最早由Nickel等[100]提出,提出的RESCAL模型將每個(gè)實(shí)體與向量關(guān)聯(lián)來(lái)捕獲其潛在語(yǔ)義,通過(guò)將得分函數(shù)定義為雙線性函數(shù)捕獲所有和實(shí)體間的成對(duì)交互作用,該模型能建模一對(duì)一、非對(duì)稱關(guān)系和對(duì)稱關(guān)系,但無(wú)法建模一對(duì)多關(guān)系,且參數(shù)規(guī)模較大。Yang等[101]提出的DisMult模型通過(guò)約束關(guān)系矩陣為對(duì)角矩陣,從而緩解參數(shù)量過(guò)大的問(wèn)題,學(xué)習(xí)效率因此大幅度提升。Trouillon等[102]提出的ComplEx模型進(jìn)一步擴(kuò)展DistMult模型,通過(guò)引入復(fù)值嵌入來(lái)建模非對(duì)稱和反向關(guān)系。Liu等[103]提出的ANALOGY模型則在RESCAL模型的基礎(chǔ)上,假設(shè)關(guān)系的線性映射是相互可交換的,從而更好地建模實(shí)體和關(guān)系的類比屬性。Bala?evi?等[104]提出的TuckER模型則利用Tucker分解算法的性質(zhì),引入更加精簡(jiǎn)的張量分解方法對(duì)圖譜張量進(jìn)行分解,進(jìn)一步提升了效率。相比基于平移距離的模型,基于張量分解的模型可以利用張量變換來(lái)表達(dá)知識(shí)圖譜的關(guān)系變換,對(duì)于其中的語(yǔ)義也能進(jìn)行合理的幾何表示,因此可解釋性較好。
2.3.3 基于神經(jīng)網(wǎng)絡(luò)的知識(shí)推理
基于神經(jīng)網(wǎng)絡(luò)的模型采用神經(jīng)網(wǎng)絡(luò)的方法學(xué)習(xí)知識(shí)圖譜中三元組的語(yǔ)義關(guān)系。例如,NTN[105]、SME[106]、NAM[107]等模型均利用全連接神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)模型的得分函數(shù),進(jìn)而擬合圖譜中的三元組的語(yǔ)義信息;ConvE[108]、ConvKB[109]和InteractE[110]等模型則利用卷積神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)模型的得分函數(shù);Yao等[111]提出的KG-BERT模型則是利用BERT對(duì)語(yǔ)義關(guān)系進(jìn)行建模;近些年有很多學(xué)者利用圖神經(jīng)網(wǎng)絡(luò)以及圖注意力機(jī)制對(duì)知識(shí)圖譜進(jìn)行表示學(xué)習(xí)建模[112]。雖然這種神經(jīng)網(wǎng)絡(luò)模型通過(guò)深層次的網(wǎng)絡(luò)和海量的參數(shù)訓(xùn)練不斷擬合知識(shí)圖譜中三元組的語(yǔ)義信息,在推理準(zhǔn)確率上取得了不錯(cuò)的效果,但由于深度學(xué)習(xí)網(wǎng)絡(luò)的不可解釋性,模型僅通過(guò)黑盒模型獲取實(shí)體和關(guān)系的語(yǔ)義交互信息,相對(duì)于淺層表示學(xué)習(xí)模型,很難對(duì)知識(shí)圖譜中實(shí)體和關(guān)系的層次性、關(guān)系模式和關(guān)系的多樣性進(jìn)行建模,所以可解釋性較弱。
圖8 部分基于張量分解的模型示意
Figure 8 Simple illustrations of the tensor factorization model
總體來(lái)看,連接主義中的知識(shí)推理方法可以進(jìn)行高效的數(shù)值化運(yùn)算完成推理任務(wù),同時(shí),很多淺層表示模型通過(guò)嵌入優(yōu)化,表達(dá)語(yǔ)義層面的關(guān)系模式與邏輯操作,進(jìn)而提升模型的可解釋性。具體地,如表3所示,在可解釋性的范圍方面,連接主義中的可解釋知識(shí)推理方法通過(guò)嵌入表示模型,對(duì)每一個(gè)實(shí)體和關(guān)系進(jìn)行分布式表示,因而解釋是面向具體的一個(gè)或一類實(shí)例,提供了局部的可解釋;在可解釋的產(chǎn)生方式方面,所產(chǎn)生的可解釋性是通過(guò)提前設(shè)定的關(guān)系模式或者時(shí)間、實(shí)體類型等額外信息進(jìn)行提供,解釋需要模型以外的信息進(jìn)行輔助,因此可解釋的產(chǎn)生方式是事后可解釋的。在可解釋的泛化性方面,特定模型依賴于特定的假設(shè)或額外信息,所以解釋特定于模型。同時(shí),在連接主義的模型中,分布式表示的向量具體維度仍沒(méi)有明確的解釋,對(duì)用戶來(lái)說(shuō),可解釋性相對(duì)其他類型的方法仍較弱;在可解釋的下游場(chǎng)景適用性方面,該類推理方法適用于效率優(yōu)先領(lǐng)域。
表3 連接主義中的可解釋知識(shí)圖譜推理方法
主流的挖掘隱式特征的嵌入學(xué)習(xí)模型(TransE[87]、RotatE[91]等),提升了模型的推理效率,但極大地影響了模型的可解釋性?;趫D遍歷搜索的顯式邏輯規(guī)則挖掘方法(AMIE+[52]、RDF2Rule[53]等)在提升推理過(guò)程可解釋性的同時(shí),效率方面有明顯的欠缺。因此,通過(guò)結(jié)合兩者的優(yōu)勢(shì),利用符號(hào)推理在可解釋性和準(zhǔn)確性上的優(yōu)勢(shì)以及神經(jīng)網(wǎng)絡(luò)方法在魯棒性與效率上的優(yōu)勢(shì),進(jìn)行混合推理[113],可以一定程度解決傳統(tǒng)規(guī)則方法的計(jì)算復(fù)雜度高等難題,同時(shí)提升神經(jīng)網(wǎng)絡(luò)方法的可解釋性。根據(jù)推理的不同側(cè)重點(diǎn),可以將新型的混合推理方法分為符號(hào)規(guī)則增強(qiáng)神經(jīng)網(wǎng)絡(luò)的知識(shí)推理和神經(jīng)網(wǎng)絡(luò)增強(qiáng)符號(hào)規(guī)則的知識(shí)推理。
2.4.1 符號(hào)規(guī)則增強(qiáng)神經(jīng)網(wǎng)絡(luò)的知識(shí)推理
符號(hào)規(guī)則增強(qiáng)神經(jīng)網(wǎng)絡(luò)的知識(shí)推理,是指利用邏輯規(guī)則中的知識(shí),推理新的實(shí)體和關(guān)系來(lái)進(jìn)一步提升神經(jīng)網(wǎng)絡(luò)推理中的嵌入效率。模型不僅學(xué)習(xí)原始圖譜中已經(jīng)存在的三元組實(shí)例,同時(shí)學(xué)習(xí)通過(guò)邏輯規(guī)則推導(dǎo)出的一些置信度較高的三元組,使神經(jīng)網(wǎng)絡(luò)模型可以在更大的訓(xùn)練集上進(jìn)行學(xué)習(xí),在實(shí)現(xiàn)更高效推理預(yù)測(cè)的同時(shí),間接提升神經(jīng)網(wǎng)絡(luò)模型推理的可解釋性。
Guo等[114]提出的KALE模型通過(guò)一階邏輯將三元組和規(guī)則統(tǒng)一起來(lái),將其映射到一個(gè)統(tǒng)一的空間,并進(jìn)行建模,通過(guò)聯(lián)合模型將一階謂詞邏輯融入嵌入式表示。模型具體可分為3個(gè)部分:三元組建模、邏輯規(guī)則建模、聯(lián)合學(xué)習(xí)。如圖9所示,該模型利用TransE模型[87]對(duì)三元組進(jìn)行建模,并使用t-norm模糊邏輯方法對(duì)規(guī)則進(jìn)行建模,把三元組和規(guī)則建模為原子公式后,通過(guò)聯(lián)合學(xué)習(xí),最小化全局損失以學(xué)習(xí)同時(shí)滿足三元組和規(guī)則的實(shí)體、關(guān)系的嵌入。為進(jìn)一步將規(guī)則的一次性輸入改進(jìn)為迭代更新的方式,Guo等[115]在KALE的基礎(chǔ)上提出了RUGE模型,RUGE模型沒(méi)有像KALE模型那樣直接將基本規(guī)則作為正實(shí)例處理,而是將由規(guī)則派生的三元組作為未標(biāo)記三元組更新實(shí)體或關(guān)系的嵌入,RUGE根據(jù)當(dāng)前的嵌入情況對(duì)每個(gè)未標(biāo)記的三元組成立的概率進(jìn)行預(yù)測(cè),然后分別基于帶標(biāo)簽和未帶標(biāo)簽的三元組對(duì)實(shí)體和關(guān)系的嵌入進(jìn)行更新,迭代地進(jìn)行上述未標(biāo)記三元組評(píng)分和嵌入更新過(guò)程,更新實(shí)體和關(guān)系的嵌入表示以進(jìn)行推理。
圖9 KALE模型聯(lián)合嵌入與規(guī)則推理示意
Figure 9 Illustration of joint embedding knowledge graph and logical rules in KALE
基于深度網(wǎng)絡(luò)的規(guī)則歸納方法在推理的過(guò)程中存在參數(shù)難以解釋的情況,因而可解釋性通常較弱, Wang等[116]通過(guò)將三元組和基本邏輯規(guī)則都轉(zhuǎn)換為一階謂詞邏輯來(lái)緩解這個(gè)問(wèn)題,根據(jù)一階邏輯中包含的實(shí)體和關(guān)系的嵌入情況,執(zhí)行向量/矩陣運(yùn)算,對(duì)一階邏輯規(guī)則進(jìn)行評(píng)分。表4說(shuō)明了一階邏輯格式的轉(zhuǎn)換方式,表5說(shuō)明了用數(shù)學(xué)表達(dá)式對(duì)一階邏輯進(jìn)行打分的方法。同一規(guī)則中包含的不同三元組,都可以直接在向量空間中進(jìn)行操作,實(shí)現(xiàn)顯式符號(hào)規(guī)則結(jié)構(gòu)的發(fā)現(xiàn)和知識(shí)表達(dá)可解釋性的增強(qiáng)。
表4 一階邏輯格式的轉(zhuǎn)換
表5 一階邏輯的數(shù)學(xué)表達(dá)
在以上的方法中,規(guī)則的增強(qiáng)會(huì)促進(jìn)更好的嵌入學(xué)習(xí),但學(xué)習(xí)過(guò)程推理規(guī)則集合始終保持不變,即嵌入不會(huì)利于規(guī)則的歸納,不利于更好地挖掘新規(guī)則進(jìn)行推理。不同于RUGE等模型構(gòu)建方法,Zhang等[117]提出的IterE模型,通過(guò)迭代的方法基于更新的嵌入來(lái)推斷新的規(guī)則,如圖10所示,每一次迭代過(guò)程中分為3個(gè)步驟。首先,嵌入學(xué)習(xí)步驟學(xué)習(xí)知識(shí)圖譜中實(shí)體和關(guān)系的向量表示;然后,基于實(shí)體和關(guān)系的嵌入表示對(duì)新的規(guī)則進(jìn)行歸納,同時(shí)對(duì)規(guī)則挖掘的搜索過(guò)程進(jìn)行剪枝;最后,公理推導(dǎo)則是將學(xué)習(xí)出的規(guī)則植入嵌入學(xué)習(xí)的過(guò)程,提升向量表示學(xué)習(xí)的效果。該迭代循環(huán)過(guò)程形成一個(gè)相互促進(jìn)的過(guò)程,是一個(gè)演繹推理和歸納推理相互結(jié)合的框架。Cheng等[118]提出的UniKER則是設(shè)計(jì)一個(gè)統(tǒng)一的框架,融合了霍恩規(guī)則推理和嵌入表示學(xué)習(xí),該框架以一個(gè)迭代式的方式將兩者相互促進(jìn)。一方面,霍恩規(guī)則推理推導(dǎo)出新的知識(shí),幫助嵌入學(xué)習(xí)更好地表示;另一方面,嵌入學(xué)習(xí)可以幫助規(guī)則推理模塊推導(dǎo)出更多的知識(shí),兩者相互迭代促進(jìn),使模型的學(xué)習(xí)和推理效果都得到提升。
圖10 IterE模型迭代訓(xùn)練示意
Figure 10 Overview of iterative training in IterE
融合關(guān)系路徑和神經(jīng)網(wǎng)絡(luò)的知識(shí)推理技術(shù)最近引起了很多學(xué)者的關(guān)注。關(guān)系路徑不僅在部分行為主義的推理方法中起著信息傳播媒介的作用,同時(shí)關(guān)系路徑可以看作符號(hào)的序列組合,結(jié)合神經(jīng)網(wǎng)絡(luò)的方法可以實(shí)現(xiàn)更加高效的推理,同時(shí)對(duì)推理的結(jié)果有顯式的路徑解釋。Neelakantan等[119]提出了一種方法Path-RNN,Path-RNN使用PRA算法為每種關(guān)系類型找到不同的路徑,利用循環(huán)神經(jīng)網(wǎng)絡(luò)將關(guān)系之間的連接進(jìn)行表示,從而實(shí)現(xiàn)組合路徑的多跳推理。Shen等[120]提出了隱式推理網(wǎng)絡(luò)(IRN),在不使用任何附加信息的情況下,通過(guò)在向量空間中遍歷知識(shí)圖譜,將向量空間中的關(guān)系路徑與模型聯(lián)合進(jìn)行訓(xùn)練,進(jìn)而推斷缺失的三元組。Das等[121]發(fā)現(xiàn)Path-RNN在預(yù)測(cè)時(shí),只采用單一路徑作為依據(jù),且對(duì)每一個(gè)關(guān)系類型都要訓(xùn)練一個(gè)新的模型,變量數(shù)量多且無(wú)法共享。因此,他們提出了Single-Model模型,將所有遞歸神經(jīng)網(wǎng)絡(luò)的關(guān)系類型表示和組成矩陣進(jìn)行共享,使相同的訓(xùn)練數(shù)據(jù)可以用較少的參數(shù)表示,顯著地提高了基于循環(huán)神經(jīng)網(wǎng)絡(luò)的大規(guī)模圖譜鏈接推理的可擴(kuò)展性。Wang等[122]進(jìn)一步為多跳推理問(wèn)題引入了注意力機(jī)制。在找到實(shí)體間的所有可能推理路徑后,根據(jù)注意力機(jī)制的打分值將這些路徑的嵌入聚合為一個(gè)組合嵌入,并根據(jù)組合嵌入推斷出實(shí)體之間的關(guān)系。Niu等[123]提出的RPJE模型則首先運(yùn)用規(guī)則的先驗(yàn)知識(shí)實(shí)現(xiàn)符合路徑的聚合規(guī)約,然后利用嵌入的方法對(duì)這些規(guī)約后的路徑進(jìn)行進(jìn)一步的嵌入表示,在表示的損失計(jì)算中同時(shí)考慮路徑生成的精度、規(guī)則生成的損失。
符號(hào)推理中基于馬爾可夫邏輯網(wǎng)絡(luò)的方法在理想的規(guī)則結(jié)構(gòu)下可以實(shí)現(xiàn)高效的推理,但很難應(yīng)對(duì)復(fù)雜的圖結(jié)構(gòu),同時(shí),圖譜中缺失的三元組會(huì)影響該類模型規(guī)則推理的效果。Qu等[124]提出的PlogicNet模型通過(guò)結(jié)合馬爾可夫邏輯網(wǎng)絡(luò)和圖譜嵌入技術(shù)來(lái)解決以上的問(wèn)題,圖譜嵌入技術(shù)可以高效推測(cè)缺失的三元組并通過(guò)隨機(jī)梯度下降進(jìn)行訓(xùn)練,而通過(guò)馬爾可夫網(wǎng)絡(luò)定義知識(shí)圖譜中三元組的聯(lián)合概率分布,為每一個(gè)邏輯規(guī)則賦予權(quán)重,通過(guò)變分EM算法來(lái)學(xué)習(xí)對(duì)應(yīng)規(guī)則的權(quán)重,在該EM算法中,通過(guò)E-step推斷了未觀測(cè)三元組的似然值,而M-step則通過(guò)知識(shí)圖譜嵌入模型中已有的三元組和模型推導(dǎo)出的三元組的似然估計(jì)來(lái)更新邏輯規(guī)則的權(quán)值。不同于PlogicNet中通過(guò)圖譜嵌入技術(shù)對(duì)實(shí)體和關(guān)系進(jìn)行向量化,Zhang等[125]提出的ExpressGNN模型通過(guò)結(jié)合馬爾可夫邏輯網(wǎng)絡(luò)和圖神經(jīng)網(wǎng)絡(luò)的方法對(duì)實(shí)體和關(guān)系向量化,進(jìn)而判定缺失三元組的正確或錯(cuò)誤。而Vardhan等[126]提出的概率邏輯圖注意力網(wǎng)絡(luò)(PGAT,probabilistic logic graph attention network)模型則是利用圖注意力機(jī)制,通過(guò)與一階邏輯進(jìn)行結(jié)合,優(yōu)化了馬爾可夫邏輯網(wǎng)絡(luò)所定義的聯(lián)合分布,進(jìn)而對(duì)三元組的正誤進(jìn)行判定。以上介紹的3種模型的思想都是通過(guò)目前最新的一些嵌入手段對(duì)符號(hào)方法中的馬爾可夫邏輯網(wǎng)絡(luò)中三元組的聯(lián)合分布進(jìn)行優(yōu)化,從而更加高效地在大規(guī)模的復(fù)雜圖結(jié)構(gòu)上進(jìn)行推理。
2.4.2 神經(jīng)網(wǎng)絡(luò)增強(qiáng)符號(hào)規(guī)則的知識(shí)推理
符號(hào)推理的方法側(cè)重于規(guī)則的學(xué)習(xí),在邏輯推理上有著很好的表現(xiàn),且有著很強(qiáng)的可解釋性,但這類方法很難處理實(shí)體與關(guān)系的不確定性和數(shù)據(jù)的噪聲問(wèn)題,同時(shí)推理時(shí)搜索空間過(guò)大,導(dǎo)致推理效率低。神經(jīng)網(wǎng)絡(luò)增強(qiáng)符號(hào)規(guī)則的知識(shí)推理在邏輯規(guī)則推理的基礎(chǔ)上,利用神經(jīng)網(wǎng)絡(luò)的方法的強(qiáng)學(xué)習(xí)和高泛化能力,解決數(shù)據(jù)的不確定性和歧義問(wèn)題,提升數(shù)據(jù)處理的魯棒性,緩解傳統(tǒng)符號(hào)推理中規(guī)則學(xué)習(xí)搜索空間大的問(wèn)題,進(jìn)而提升規(guī)則學(xué)習(xí)和歸納推理的效率。該類方法的具體特點(diǎn)如表6所示。
表6 混合的可解釋知識(shí)圖譜推理方法
為實(shí)現(xiàn)邏輯規(guī)則的高效數(shù)值化推理,Cohen等[127]將其建模為一個(gè)概率推理和學(xué)習(xí)的任務(wù),并提出可微邏輯框架TensorLog,通過(guò)關(guān)系矩陣相乘來(lái)模擬知識(shí)推理和規(guī)則提取,實(shí)現(xiàn)了將規(guī)則推理編譯成可微的操作序列,可微序列在推理的過(guò)程中可以進(jìn)行更多數(shù)值化運(yùn)算,實(shí)現(xiàn)更高效的推理。Evans等[128]提出的Differentable ILP模型則通過(guò)交叉熵?fù)p失函數(shù)對(duì)數(shù)值化轉(zhuǎn)換的神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,實(shí)現(xiàn)將邏輯操作近似地通過(guò)可微操作進(jìn)行替代。為進(jìn)一步學(xué)習(xí)不同的規(guī)則結(jié)構(gòu),如圖11所示。Yang等[129]提出的Neural LP模型加入了具有注意力機(jī)制和內(nèi)存的神經(jīng)控制器系統(tǒng),通過(guò)馬爾可夫邏輯網(wǎng)絡(luò)進(jìn)行神經(jīng)網(wǎng)絡(luò)的邏輯編程,將邏輯規(guī)則的結(jié)構(gòu)和參數(shù)學(xué)習(xí)結(jié)合到一個(gè)端到端可微模型中,使模型能夠同時(shí)學(xué)習(xí)參數(shù)和規(guī)則的結(jié)構(gòu)。然而在Neural LP中,數(shù)值規(guī)則會(huì)導(dǎo)致稠密的矩陣操作,Wang等[130]提出的Num-Neural-LP模型對(duì)Neural LP進(jìn)行擴(kuò)展,通過(guò)動(dòng)態(tài)規(guī)劃和累積求和運(yùn)算,實(shí)現(xiàn)對(duì)數(shù)值規(guī)則的快速學(xué)習(xí),有效地表達(dá)用于數(shù)值比較的操作符。同時(shí),Num-Neural-LP模型加入否定、聚合等操作符,使訓(xùn)練的規(guī)則形式更加豐富。為進(jìn)一步提升表達(dá)和解釋復(fù)雜規(guī)則的能力,Yan等[131]提出的NLIL模型利用分治策略,改進(jìn)了一般用于解決邏輯規(guī)則歸納推理的框架。該模型將搜索空間分解為同一層次結(jié)構(gòu)的3個(gè)子空間,每一個(gè)子空間都可以通過(guò)注意力機(jī)制進(jìn)行推理,同時(shí)訓(xùn)練的過(guò)程分為規(guī)則生成和規(guī)則評(píng)估以維護(hù)規(guī)則的全局一致性,通過(guò)聯(lián)合訓(xùn)練處理非鏈類規(guī)則。
圖11 不同類型邏輯規(guī)則推理結(jié)構(gòu)
Figure 11 Different types of logical rule inference structures
最近興起的圖神經(jīng)網(wǎng)絡(luò)技術(shù)在混合推理中取得很好的效果[132]。Teru等[133]提出的歸納學(xué)習(xí)方法GraIL模型通過(guò)顯式編碼知識(shí)圖譜中的規(guī)則,對(duì)抽取的子圖運(yùn)用圖神經(jīng)網(wǎng)絡(luò),并進(jìn)行歸納式的關(guān)系推理。該模型假設(shè)對(duì)于兩個(gè)需要被預(yù)測(cè)關(guān)系的目標(biāo)節(jié)點(diǎn)之間,連通路徑包含預(yù)測(cè)關(guān)系的信息,分3個(gè)步驟進(jìn)行推理,如圖12所示。首先對(duì)兩個(gè)目標(biāo)分別采樣局部子圖,然后對(duì)局部子圖中的節(jié)點(diǎn)表示進(jìn)行初始化,表示包含圖的相關(guān)結(jié)構(gòu)信息,最后利用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行消息傳遞,利用得到的節(jié)點(diǎn)表示和整個(gè)局部圖的表示進(jìn)行計(jì)算打分,預(yù)測(cè)兩個(gè)實(shí)體之間的關(guān)系。在GraIL的基礎(chǔ)上,Du等[134]提出了CogKR模型,在每一步推理過(guò)程中通過(guò)策略函數(shù)將目標(biāo)擴(kuò)展多個(gè)實(shí)體,然后運(yùn)用圖神經(jīng)網(wǎng)絡(luò)模型,利用擴(kuò)展子圖對(duì)每個(gè)節(jié)點(diǎn)嵌入,CogKR再基于這些子圖的嵌入預(yù)測(cè)答案。為使針對(duì)目標(biāo)關(guān)系的推理更有針對(duì)性。Xu等[135]提出DPMPN模型,運(yùn)用兩個(gè)圖神經(jīng)網(wǎng)絡(luò)模型進(jìn)行整體和局部的混合推理。第一個(gè)圖神經(jīng)網(wǎng)絡(luò)模型在整個(gè)知識(shí)圖譜上進(jìn)行輸入不變的全局信息傳遞,可以為實(shí)體提供原始的語(yǔ)義表示。第二個(gè)圖神經(jīng)網(wǎng)絡(luò)模型在與查詢相關(guān)的子圖上進(jìn)行修剪后的消息傳遞,僅依賴于輸入的語(yǔ)義,而與整個(gè)圖分離,通過(guò)這種整體與局部的混合推理方式可以有針對(duì)性地實(shí)現(xiàn)更加高效的推理,且可以對(duì)推理的結(jié)果進(jìn)行全局和局部的解釋。
圖12 GraIL模型[133]基于注意力機(jī)制的可解釋推理
Figure 12 Explainable reasoning based on attention mechanism in GraIL model[133]
邏輯規(guī)則可以為模型預(yù)測(cè)提供較好的可解釋性依據(jù),但在傳統(tǒng)歸納學(xué)習(xí)方法中,規(guī)則的搜索空間通常過(guò)大,且無(wú)法應(yīng)對(duì)噪聲或者是有歧義的數(shù)據(jù),魯棒性比較差,很多歸納規(guī)則模型通常與神經(jīng)網(wǎng)絡(luò)相結(jié)合。Ho等[136]提出的RuLES模型則利用額外的文本信息訓(xùn)練嵌入模型,通過(guò)學(xué)習(xí)到的模型來(lái)衡量所學(xué)習(xí)到邏輯規(guī)則的質(zhì)量。Omran等[137]提出的RLvLR模型通過(guò)在知識(shí)圖譜中運(yùn)用合適的采樣策略和表示學(xué)習(xí)方法,更快地學(xué)習(xí)到高質(zhì)量的規(guī)則,該模型首先對(duì)與目標(biāo)謂詞相關(guān)的子圖進(jìn)行采樣,然后利用知識(shí)圖譜嵌入模型RESCAL[100]生成實(shí)體和關(guān)系的子圖嵌入,最后利用基于嵌入的評(píng)分函數(shù)對(duì)規(guī)則的搜索進(jìn)行引導(dǎo)和修剪,并根據(jù)AMIE[52]中定義的度量覆蓋度和置信度對(duì)候選規(guī)則進(jìn)行評(píng)價(jià)。Dong等[138]則提出一個(gè)新型的神經(jīng)符號(hào)體系(NLM,neural logic machine)結(jié)構(gòu),用于一階邏輯歸納學(xué)習(xí)和推理,緩解搜索空間大的問(wèn)題。NLM利用神經(jīng)網(wǎng)絡(luò)作為函數(shù)近似器,邏輯編程作為具有屬性、關(guān)系和謂詞等對(duì)象的符號(hào)處理器,使整個(gè)邏輯編程推理過(guò)程計(jì)算可微,實(shí)現(xiàn)模型端到端的訓(xùn)練。Pan等[139]提出了一種基于關(guān)系路徑對(duì)比的規(guī)則歸納推理模型RPC-IR,該模型對(duì)局部子圖結(jié)構(gòu)進(jìn)行推理,通過(guò)構(gòu)建正、負(fù)關(guān)系路徑的自監(jiān)督學(xué)習(xí)方法,提取每一個(gè)子圖的關(guān)系路徑并引入對(duì)比學(xué)習(xí)以獲取自監(jiān)督信息,結(jié)合監(jiān)督和自監(jiān)督信息聯(lián)合訓(xùn)練策略來(lái)訓(xùn)練推理模型。Qu等[140]提出的RNNlogic模型從隱變量的角度提出了一種新的推理方法,該模型將邏輯規(guī)則視為隱變量,同時(shí)用歸納出的邏輯規(guī)則訓(xùn)練規(guī)則生成器和推理預(yù)測(cè)器,通過(guò)EM算法對(duì)模型參數(shù)進(jìn)行優(yōu)化,有效地解決了搜索空間過(guò)大的問(wèn)題,同時(shí)提高推理預(yù)測(cè)結(jié)果的準(zhǔn)確率。
隨著人工智能技術(shù)的廣泛應(yīng)用,人工智能的可解釋性受到越來(lái)越多的關(guān)注。在目前流行的深度學(xué)習(xí)模型中,復(fù)雜的處理機(jī)制與大量的參數(shù)使人類很難追溯與理解其推理過(guò)程,導(dǎo)致這種端到端的黑箱學(xué)習(xí)方法可解釋性較差。知識(shí)圖譜作為知識(shí)的一種語(yǔ)義化和結(jié)構(gòu)化的表達(dá)方式,以人類可理解的表達(dá)形式進(jìn)行知識(shí)推理,通過(guò)推理路徑、邏輯規(guī)則等輔助手段,結(jié)合節(jié)點(diǎn)周圍的實(shí)體信息,進(jìn)行顯式的可解釋知識(shí)圖譜推理,為實(shí)現(xiàn)可解釋人工智能提供了一種解決方案,在信息檢索、信息安全、網(wǎng)絡(luò)空間安全等領(lǐng)域都有廣泛的應(yīng)用前景,引發(fā)了廣泛的關(guān)注。
本文概述了可解釋人工智能及知識(shí)推理的相關(guān)概念,從經(jīng)典的人工智能三大研究范式的角度出發(fā),總結(jié)和分析了可解釋的知識(shí)推理方法。無(wú)論是以符號(hào)主義中的本體推理和規(guī)則推理方法為代表的具有全局模型可解釋性的模型,還是通過(guò)將推理過(guò)程顯式地進(jìn)行學(xué)習(xí)(具體表現(xiàn)為證明、關(guān)系路徑和邏輯規(guī)則等方式),從而為推理預(yù)測(cè)提供可解釋性依據(jù)的具有事后過(guò)程可解釋性的模型,都一定程度增強(qiáng)了人們對(duì)推理結(jié)果的理解,同時(shí)實(shí)現(xiàn)對(duì)錯(cuò)誤預(yù)測(cè)原因的輔助挖掘。
如表7所示,本文對(duì)所介紹的知識(shí)圖譜推理方法及特點(diǎn)進(jìn)行相關(guān)的總結(jié)與對(duì)比分析。這些推理方法根據(jù)推理目的不同,在推理準(zhǔn)確性和可解釋性方面各有側(cè)重,所適用的推理應(yīng)用場(chǎng)景也因此不同。符號(hào)主義中的知識(shí)推理模型有著很好的可解釋性,推理準(zhǔn)確、遷移性好。然而,離散的符號(hào)表示方法通常不足以描述數(shù)據(jù)之間所有內(nèi)在關(guān)系,造成規(guī)則學(xué)習(xí)的搜索空間太大、效率較低,且對(duì)數(shù)據(jù)中出現(xiàn)的噪聲魯棒性較差(如AMIE+[52]、RDF2Rule[53]),因此這種推理方法適用于數(shù)據(jù)庫(kù)知識(shí)結(jié)構(gòu)規(guī)整,要求推理精度及可解釋程度較高的推理場(chǎng)景,如醫(yī)療和信息安全等要求可靠性優(yōu)先的領(lǐng)域。在行為主義中的知識(shí)推理模型中,以強(qiáng)化學(xué)習(xí)為代表,通過(guò)反饋和交互訓(xùn)練智能體,鼓勵(lì)獲得更大的獎(jiǎng)勵(lì),實(shí)現(xiàn)了較高的推理效率,同時(shí)得到具體的推理路徑,可解釋性雖然相較于邏輯規(guī)則有所降低,但得到了具體的推理步驟,具有過(guò)程的可解釋性(如DeepPath[73]、MINERVA[74]),因此這種推理方法更適用針對(duì)序列決策問(wèn)題的多跳知識(shí)推理場(chǎng)景,如網(wǎng)絡(luò)安全領(lǐng)域的攻擊路徑推理圖譜,推理效率和可解釋性均有較大的優(yōu)勢(shì)。在連接主義中的知識(shí)推理模型中,通過(guò)數(shù)值化運(yùn)算實(shí)現(xiàn)的模糊推理,加快了推理的速度,增強(qiáng)了模型的魯棒性和推理效率,但不能為預(yù)測(cè)結(jié)果提供顯式的推理過(guò)程說(shuō)明,對(duì)模型的可解釋性造成了很大影響(如TransE[87]、RotatE[91]),憑借其效率和魯棒性的優(yōu)勢(shì),這種推理方法適用在低風(fēng)險(xiǎn)但效率要求較高的效率優(yōu)先領(lǐng)域,如電影推薦系統(tǒng)與問(wèn)答系統(tǒng)等。在新型混合的推理模型中,結(jié)合符號(hào)推理在可解釋性上的優(yōu)勢(shì)和神經(jīng)網(wǎng)絡(luò)推理在魯棒性與效率上的優(yōu)勢(shì)進(jìn)行的新型混合推理,無(wú)論是利用邏輯規(guī)則生成更多實(shí)例,輔助高質(zhì)量嵌入學(xué)習(xí),還是通過(guò)神經(jīng)網(wǎng)絡(luò)模型輔助解決數(shù)據(jù)的歧義和不確定性,幫助歸納出更多的顯式邏輯規(guī)則,推理的可解釋性和效率都得到了提升(如IterE[117]、RNNLogic[140]),這種推理方法則更加需要結(jié)合系統(tǒng)及應(yīng)用需求,根據(jù)目標(biāo)任務(wù)要求的效率或可解釋性等指標(biāo)的不同,動(dòng)態(tài)調(diào)整對(duì)應(yīng)神經(jīng)網(wǎng)絡(luò)推理方法和符號(hào)推理方法的側(cè)重點(diǎn),有針對(duì)性地進(jìn)行推理。
表7 可解釋的知識(shí)推理方法及特點(diǎn)
注:由于符號(hào)主義中基于本體的知識(shí)推理為概念層的推理,推理準(zhǔn)確率不以比較。
雖然目前可解釋的知識(shí)圖譜推理方法在不同的研究范式下都取得了一定進(jìn)展,但該領(lǐng)域仍處于發(fā)展時(shí)期,各類方法在推理的準(zhǔn)確性和推理過(guò)程的可解釋性上很難達(dá)到平衡,需要在理論和實(shí)際應(yīng)用中進(jìn)一步完善,在未來(lái)的研究中,可解釋的知識(shí)推理還面臨很多新的挑戰(zhàn),主要有以下4個(gè)方面值得探索。
1) 結(jié)合常識(shí)知識(shí)的可解釋推理。常識(shí)推理即利用人類對(duì)世界和行為基本理解的常識(shí)認(rèn)知進(jìn)行推理。結(jié)合目前人類在深度學(xué)習(xí)方面的進(jìn)展,表征并融入常識(shí)知識(shí)于推理模型,從而創(chuàng)造更加貼近人類思維習(xí)慣的模型,將從本質(zhì)上增加模型行為的透明度,幫助人們獲得更具可解釋性的結(jié)果。
2) 考慮復(fù)雜推理模式的可解釋知識(shí)推理。在知識(shí)邏輯推理中,推理的規(guī)則主要遵循傳遞性約束,即鏈狀的推理,表達(dá)能力有限。但是現(xiàn)實(shí)生活中所要面臨的要素更加復(fù)雜,需要支持更復(fù)雜推理模式,自適應(yīng)地挖掘更多樣、有效的推理結(jié)構(gòu),如實(shí)現(xiàn)對(duì)樹(shù)狀或網(wǎng)狀等結(jié)構(gòu)的邏輯規(guī)則推理[130],同時(shí)保證挖掘規(guī)則的可靠性和可解釋性,輔助更多樣的決策。
3) 多模態(tài)的可解釋知識(shí)推理。解釋方法大多通過(guò)推理文本中的邏輯規(guī)則或路徑從而實(shí)現(xiàn)可解釋性,但隨著移動(dòng)通信技術(shù)的快速發(fā)展,如何有效地利用語(yǔ)音、圖片等多模態(tài)信息進(jìn)行解釋成為一個(gè)具有挑戰(zhàn)性的問(wèn)題[141]。多模態(tài)信息顯示出其對(duì)知識(shí)圖譜進(jìn)行可解釋推理的潛力,可以通過(guò)圖像、聲音等多種模態(tài)對(duì)于推理的過(guò)程與結(jié)果進(jìn)行語(yǔ)義增強(qiáng)的解釋。
4) 可解釋性的量化度量指標(biāo)。對(duì)于可解釋性的優(yōu)劣并不存在非常成熟的、廣為接受的量化標(biāo)準(zhǔn)。大多數(shù)已有的方法是主觀度量,因而只能定性分析,無(wú)法對(duì)可解釋模型的性能進(jìn)行量化。這就造成用戶無(wú)法非常準(zhǔn)確地判斷解釋方法的優(yōu)劣[142],所以需要進(jìn)一步研究科學(xué)合理的可解釋的評(píng)測(cè)指標(biāo),對(duì)解釋方法進(jìn)行量化評(píng)價(jià),模型得到反饋并進(jìn)行相關(guān)優(yōu)化,從而更好地指導(dǎo)系統(tǒng)的決策。
[1] RISSOLA E A, BAHRAINIAN S A, CRESTANI F. Personality recognition in conversations using capsule neural networks[C]//Proceedings of the Int Conf on Web Intelligence. 2019: 180-187.
[2] SADAK F, SAADAT M, HAJIYAVAND A M. Real-time deep learning-based image recognition for applications in automated positioning and injection of biological cells[J]. Computers in Biology and Medicine, 2020, 125(10): 103976.
[3] VALMADRE J, BERTINETTO L, HENRIQUES J, et al. End-to-end representation learning for correlation filter based tracking[C]//Proceedings of the IEEE Conf on Computer Vision and Pattern Recognition. 2017: 2805-2813.
[4] MILLEN J. A survey of methods for explaining black box models[J]. Computing Reviews, 2019, 60(4):175-176.
[5] DOSHI-VELEZ F, KIM B. Towards a rigorous science of interpretable machine learning[J]. arXiv preprint arXiv: 1702.08608, 2017.
[6] ZHANG YU, TINO P, LEONARDIS A, et al. A survey on neural network interpretability[J]. arXiv preprint arXiv: 2012.14261, 2021.
[7] 成科揚(yáng), 王寧, 師文喜, 等. 深度學(xué)習(xí)可解釋性研究進(jìn)展[J]. 計(jì)算機(jī)研究與發(fā)展, 2020, 57(6): 1208-1217.
CHENG K Y, WANG N, SHI W X, et al. Research advances in the interpretability of deep learning[J]. Journal of Computer Research and Development, 2020, 57(6): 1208-1217.
[8] GAWEHN E, HISS J A, SCHNEIDER G. Deep learning in drug discovery[J]. Molecular Informatics, 2016, 35(1):3-14.
[9] 方濱興. 定義網(wǎng)絡(luò)空間安全[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2018, 4(1): 1-5.
FANG B X. Define cyberspace security[J]. Chinese Journal of Network and Information Security, 2018, 4(1): 1-5.
[10] HOFMAN J M, SHARMA A, WATTS D J. Prediction and explanation in social systems[J]. Science, 2017, 355(6324):486-488.
[11] 胡浩, 劉玉嶺, 張玉臣, 等. 基于攻擊圖的網(wǎng)絡(luò)安全度量研究綜述[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2018, 4(9): 1-16.
HUH, LIUYL, ZHANGYC, et al. Survey of attack graph based network security metric[J]. Chinese Journal of Network and Information Security, 2018, 4(9): 1-16.
[12] CHEN X, JIA S, XIANG Y. A review: knowledge reasoning over knowledge graph[J]. Expert Systems with Application, 2020, 141(3):1-21.
[13] AMIT S. Introducing the knowledge graph[R]. America: Official Blog of Google, 2012.
[14] DAVID G, MARK S, JAESIK C, et al. XAI-Explainable artificial intelligence [J]. Science Robotics, 2019,4(37):7120.
[15] 官賽萍, 靳小龍, 賈巖濤, 等. 面向知識(shí)圖譜的知識(shí)推理研究進(jìn)展[J]. 軟件學(xué)報(bào), 2018, 29(10): 2966-2994.
GUAN S P, JIN X L, JIA Y T, et al. Knowledge reasoning over knowledge graph: a survey[J]. Journal of Software, 2018, 29(10): 2966-2994.
[16] WANG Q, MAO Z, WANG B, et al. Knowledge graph embedding: a survey of approaches and applications[J]. IEEE Transactions onKnowledge and Data Engineering, 2017, 29(12): 2724-2743.
[17] ARORA S. A Survey on graph neural networks for knowledge graph completion[J]. arXiv preprint arXiv:2007.12374, 2020.
[18] LIPTON Z C. The mythos of model interpretability[J]. Communications of the ACM, 2016, 61(10):31-57
[19] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[J]. Advances in Neural Information Processing Systems, 2012, 25(2):84-90.
[20] PAPERNOT N, MCDANIEL P, JHA S, et al. The limitations of deep learning in adversarial settings[C]//Proceedings of 2016 IEEE European Symp on Security and Privacy. 2016: 372-387.
[21] SUCHANEK F M, KASNECI G, WEIKUM G. Yago: a core of semantic knowledge[C]//Proceedings of the 16th Int Conf on World Wide Web. 2007:697-706
[22] AUER S, BIZER C, KOBILAROV G, et al. Dbpedia: a nucleus for a Web of open data[M]//Proceedings of the Semantic Web. Berlin: Springer, 2007.
[23] BOLLACKER K, EVANS C, PARITOSH P, et al. Freebase: a collaboratively created graph database for structuring human knowledge[C]//Proceedings of the 2008 ACM SIGMOD Int Conf on Management of Data. 2008:1247-1250.
[24] HU S, ZOU L, YU J X, et al. Answering natural language questions by subgraph matching over knowledge graphs[J]. IEEE Trans on Knowledge and Data Engineering, 2017, 30(5):824-837.
[25] PALUMBO E, RIZZO G, TRONCY R. Entity2rec: learning user-item relatedness from knowledge graphs for top-n item recommendation[C]//Proceedings of the 7th ACM Conf on Recommender Systems. 2017:32-36.
[26] 宋蕾, 馬春光, 段廣晗. 機(jī)器學(xué)習(xí)安全及隱私保護(hù)研究進(jìn)展[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2018, 4(8): 1-11.
SONGL, MACG, DUANGH. Machine learning security and privacy: a survey[J]. Chinese Journal of Network and Information Security, 2018, 4(8): 1-11.
[27] 任奎, 孟泉潤(rùn), 閆守琨, 等. 人工智能模型數(shù)據(jù)泄露的攻擊與防御研究綜述[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2021, 7(1): 1-10.
RENK, MENGQR, YANSK, et al. Survey of artificial intelligence data security and privacy protection[J]. Chinese Journal of Network and Information Security, 2021, 7(1): 1-10.
[28] BADER S, GRANGEL-GONZALEZ, NANJAPPA P, et al. A knowledge graph for industry 4.0[C]//Proceedings of the 2020 European Semantic Web Conf. 2020: 465-480.
[29] ISA B, MSBC D. Open-CyKG: an open cyber threat intelligence knowledge graph[J]. Knowledge-Based Systems, 2021, 233: 107524.
[30] 劉知遠(yuǎn), 孫茂松, 林衍凱, 等. 知識(shí)表示學(xué)習(xí)研究進(jìn)展[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 53(2): 247-261.
LIU Z Y, SUN M S, LIN Y K, et al. Knowledge representation learning: a review[J]. Journal of Computer Research and Development, 2016, 53(2): 247-261.
[31] LECUE, FREDDY. On the role of knowledge graphs in explainable AI[J]. Semantic Web, 2020, 11(1):41-51.
[32] 劉嶠,李楊,段宏,等. 知識(shí)圖譜構(gòu)建技術(shù)綜述[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 53(3): 582-600.
LIU Q, LI Y, DUAN H, et al. Knowledge graph construction techniques[J]. Journal of Computer Research and Development, 2016, 53(3): 582-600.
[33] 劉瀟,劉書(shū)洋,莊韞愷,等.強(qiáng)化學(xué)習(xí)可解釋性基礎(chǔ)問(wèn)題探索和方法綜述[J]. 軟件學(xué)報(bào), 2021.
LIU X, LIU S Y, ZHUANG W K, et al. Explainable reinforcement learning: basic problems exploration and asurvey[J]. Journal of Software, 2021.
[34] EHRLINGER L, WOLFRAM W. Towards a definition of knowledge graphs[C]//Proceedings of the Posters and Demos Track of 12th International Conference on Semantic Systems - SEMANTiCS2016 and 1st International Workshop on Semantic Change & Evolving Semantics (SuCCESS16). 2016.
[35] CHEN X, CHEN H J, ZHANG N Y, et al. OWL reasoning over big biomedical data[C]//Proceedings of the 2013 IEEE Int Conf on Big Data. 2013: 29-36.
[36] ZHANG D H, YUAN Z X, LIU H, et al. Learn to walk with dual agents for knowledge graph reasoning[C]//Proceedings of the 2022 AAAI Conf on Artificial Intelligence. 2022: 5932-5941.
[37] ZOU Y, FININ T, CHEN H. F-OWL: an inference engine for semantic Web[C]//Proceedings of the Int Conf on Formal Approaches to Agent-based Systems. 2004:238-248.
[38] SIRIN E, PARSIA B, GRAU B C, et al. Pellet: a practical OWL DL reasoner[J]. Journal of Web Semantics, 2007, 5(2):51-53.
[39] WEI Y Z, LUO J, XIE HY. KGRL: an OWL2 RL reasoning system for large scale knowledge graph[C]//Proceedings of the 12th Int Conf on Semantics, Knowledge and Grids. 2016:83-89.
[40] ZHOU J, MA L, LIU Q, et al. Minerva: a scalable OWL ontology storage and inference system[C]//Proceedings of the Asian Conf on the Semantic Web. 2006:429-443.
[41] SOMA R, PRASANNA V K. Parallel inferencing for OWL knowledge bases[C]//Proceedings of the 37th Int Conf on Parallel Processing. 2008:75-82.
[42] MARX M, KR?TZSCH M, THOST V. Logic on mars: ontologies for generalised property graphs[C]//Proceedings of the 26th Int Joint Conf on Arti?cial Intelligence. 2017:118-1194.
[43] CHEN Y, GOLDBERG S, WANG D Z, et al. Ontological pathfinding: mining first-order knowledge from large knowledge bases[C]//Proceedings of the 2016 Int Conf on Management of Data. 2016: 835-846.
[44] HAO J H, CHEN M H, YU W C, et al. Universal representation learning of knowledge bases by jointly embedding instances and ontological concepts[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD '19). 2019: 1709-1719.
[45] KULMANOV M, LIU-WEI W, YAN Y, et al. El Embeddings: geometric construction of models for the description logic el++[C]//Proceedings of the 28th International Joint Conference on Artificial Intelligence (IJCAI-19). 2019:6103-6109.
[46] DENG S, ZHANG N, LI L, et al. Ontoed: low-resource event detection with ontology embedding[J]. arXiv preprint arXiv:2105.10922, 2021.
[47] SCHOENMACKERS S, ETZIONI O, WELD D S, et al. Learning ?rst-order horn clauses from Web text[C]//Proceedings of the 2010 Conf on Empirical Methods in Natural Language Processing. 2010:1088-1098.
[48] LANDWEHR N, KERSTING K, RAEDT L D. Integrating naive Bayes and FOIl[J]. Journal of Machine Learning Research, 2007, 8(5):481-507.
[49] LANDWEHR N, PASSERINI A, RAEDT L D, et al. Fast learning of relational kernels[J]. Machine Learning, 2010, 78(3):305-342.
[50] NAKASHOLE N, SOZIO M, SUCHANEK F M, et al. Query-time reasoning in uncertain RDF knowledge bases with soft and hard rules[J]. VLDS, 2012, 884(6):15-20.
[51] GALáRRAGA L, TELIOUDI C, HOSE K, et al. Fast rule mining in ontological knowledge bases with AMIE+[J]. The Int Journal on Very Large Data Bases, 2015, 24(6):707-730.
[52] GALáRRAGA L, TELIOUDI C, HOSE K, et al. Amie: association rule mining under incomplete evidence in ontological knowledge bases[C]//Proceedings of the 22nd Int Conf on World Wide Web. 2013:413-422.
[53] WANG Z C, LI J Z. RDF2Rules: learning rules from RDF knowledge bases by mining frequent predicate cycles[J]. arXiv preprint arXiv: 1512.07734, 2015.
[54] KOK S, DOMINGOS P. Learning the structure of Markov logic networks[C]//Proceedings of the 22nd Int Conf on Machine Learning. 2005: 441-448.
[55] RICHARDSON M, DOMINGOS P. Markov logic networks[J]. Machine Learning, 2006, 62(1-2): 107-136.
[56] ONDREJ K, JESSE D. Markov logic networks for knowledge base completion: a theoretical analysis under the MCAR assumption[C]//Proceedings of the 35th Uncertainty in Artificial Intelligence Conf. 2020: 1138-1148.
[57] DE-RAEDT L, KIMMIG A, TOIVONEN H. A probabilistic prolog and its application in link discovery[C]//Proceedings of the 20th Int Joint Conf on Arti?cal Intelligence. 2007:2462-2467.
[58] CUSSENS J. Parameter estimation in stochastic logic programs[J]. Machine Learn, 2001, 44 (3):245-271.
[59] WANG W Y, MAZAITIS K, COHEN W W. Programming with personalized pagerank: a locally groundable ?rst-order probabilistic logic[C]//Proceedings of the 22nd ACM Int Conf on Information & Knowledge Management. 2013:2129-2138.
[60] HAVELIWALA T H. Topic-sensitive PageRank: a context-sensitive ranking algorithm for Web search[J]. IEEE Trans on Knowledge and Data Engineering, 2003, 15(4):784-796.
[61] KIMMIG A, BACH S H, BROECHELER M, et al. A short introduction to probabilistic soft logic[C]//Proceedings of the NIPS Workshop on Probabilistic Programming: Foundations and Applications. 2012:1-4.
[62] PUJARA J, MIAO H, GETOOR L, et al. Ontology-aware partitioning for knowledge graph identi?cation[C]//Proceedings the Workshop on Automated Knowledge Base Construction. 2013:19-24
[63] BACH S H, BROECHELER M, HUANG B, et al. Hinge-loss markov random fields and probabilistic soft logic[J]. Computer Science, 2017, 18(1):1-67.
[64] MEILICKE C, CHEKOL M W, FINK M, et al. Reinforced anytime bottom up rule learning for knowledge graph completion[J]. arXiv preprint, arXiv:2004.04412, 2020.
[65] PEDRESCHI D, GIANNOTTI F, GUIDOTTI R, et al. Meaningful explanations of black box ai decision systems[C]//Proceedings of the AAAI Conf on Artificial Intelligence. 2019.
[66] LAO N, COHEN W. Relational retrieval using a combination of path-constrained random walks[J]. Machine Learning, 2010, 81(1): 53-67.
[67] LAO N, MITCHELL T, COHEN W. Random walk inference and learning in a large scale knowledge base[C]//Proceedings of the 2011 Conf on Empirical Methods in Natural Language Processing. 2011:27-31.
[68] GARDNER M, TALUKDAR P, KRISHNAMURTHY J, et al. Incorporating vector space similarity in random walk inference over knowledge bases[C]//Proceedings of the 2014 Conf on Empirical Methods in Natural Language Processing. 2014:397-406.
[69] GARDNER M, MITCHELL T. E?cient and expressive knowledge base completion using subgraph feature extraction[C]//Proceedings of the 2015 Conf on Empirical Methods in Natural Language Processing. 2015:1488-1498
[70] LIU Q, HAN M, JIANG L, et al. Two-tier random walk based relational inference algorithm[J]. Chineses Journal of Computers, 2017, 40(6):1275-1290.
[71] WEI Z, ZHAO J, LIU K. Mining inference formulas by goal-directed random walks[C]//Proceedings of the 2016 Conf on Empirical Methods in Natural Language Processing. 2016:1379-1388.
[72] WANG Q, LIU J, LUO Y F, et al. Knowledge base completion via coupled path ranking[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. 2016:1308-1318.
[73] XIONG W H, HONG T, WANG W Y. DeepPath: a reinforcement learning method for knowledge graph reasoning[C]//Proceedings of the 2017 Conf on Empirical Methods in Natural Language Processing. 2017: 564-573.
[74] DAS R, DHULIAWALA S, ZAHEER M, et al. Go for a walk and arrive at the answer: reasoning over paths in knowledge bases using reinforcement learning[C]//Proceedings of the 6th Int Conf on Learning Representations. 2018.
[75] GREFF K, SRIVASTAVA R K, KOUTNíK J, et al. LSTM: a search space odyssey[J]. IEEE Trans on Neural Networks & Learning Systems, 2016, 28(10):2222-2232.
[76] LIN X V, SOCHER R, XIONG C M. Multi- hop knowledge graph reasoning with reward shaping[C]//Proceedings of the 2018 Conf on Empirical Methods in Natural Language Processing. 2018: 3243-3253.
[77] SHEN Y, CHEN J, HUANG P S, et al. M-Walk: learning to walk over graphs using monte carlo tree search[C]//Proceedings of the 32nd Int Conf on Neural Information Processing Systems. 2018: 6786-6797.
[78] GODIN F, KUMAR A, MITTAL A. Using ternary rewards to reason over knowledge graphs with deep reinforcement learning[C]//Proceedings of the 2019 Conf and Workshop on Neural Information Processing Systems. 2019:846-852.
[79] LEI D R, JIANG G G, GU X T, et al. Learning collaborative agents with rule guidance for knowledge graph reasoning[C]//Proceedings of the 2020 Conf on Empirical Methods in Natural Language Processing.2020:8541-8547.
[80] XIA Y, LAN M J, LUO J Y, et al. Iterative rule-guided reasoning over sparse knowledge graphs with deep reinforcement learning [C]//Information Processing & Management. 2022:103040.
[81] CHEN W H, XIONG W H, YAN X F, et al. Variational knowledge graph reasoning[C]//Proceedings of the 2018 Conf of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2018: 1823-1832.
[82] KINGMA D P, WELLING M. Auto-encoding variational Bayes[C]//Proceedings of the 2nd Int Conf on Learning Representations. 2014: 1-14.
[83] LI Z X, JINX L, GUAN S P, et al. Path reasoning over knowledge graph: a multi-agent and reinforcement learning based method[C]//Proceedings of the 2018 IEEE Int Conf on Data Mining Workshops. 2018:929-936.
[84] YU W T, MA X G, BAI L Y, et al. Path-based knowledge graph completion combining reinforcement learning with soft rules[C]//Proceedings of the Int Conf on Natural Computation, Fuzzy Systems and Knowledge Discovery. 2019:139-146.
[85] WANG Q, HAO Y S, CAO J. ADRL: an attention-based deep reinforcement learning framework for knowledge graph reasoning[J]. Knowledge-Based Systems, 2020, 197(7):105910.
[86] HILDEBRANDT M, SERNA J A Q, MA Y P, et al. Reasoning on knowledge graphs with debate dynamics[C]//Proceedings of the 34th AAAI Conf on Arti?cial Intelligence. 2020:4123-4131.
[87] BORDES A, USUNIER N, GARCIADURAN A, et al. Translating embeddings for modeling multi-relational data[C]//Proceedings of the 26th Int Conf on Neural Information Processing Systems. 2013: 2787-2795.
[88] WANG Z, ZHANG J W, FENG J L, et al. Knowledge graph embedding by translating on hyper planes[C]//Proceedings of the 28th AAAI Conf on Artificial Intelligence. 2014: 1112-1119.
[89] LIN Y K, LIU Z Y, SUN M S, et al. Learning entity and relation embeddings for knowledge graph completion[C]//Proceedings of the 29th AAAI Conf on Artificial Intelligence. 2015: 2181-2187.
[90] JI G, LIU K, HE S, et al. Knowledge graph completion with adaptive sparse transfer matrix[C]//Proceedings of the 30th AAAI Conference on Artificial Intelligence. 2016: 985-991.
[91] SUN Z Q, DENG Z H, NIE J Y, et al. RotatE: knowledge graph embedding by relational rotation in complex space[C]//Proceedings of the 7th Int Conf on Learning Representations. 2019.
[92] ZHANG S, TAY Y, YAO L, et al. Quaternion knowledge graph embeddings[C]//Proceedings of the 33rd Conference on Neural Information Processing Systems. 2019: 1-14.
[93] SONG T W, LUO J, HUANG L. Rot-Pro: modeling transitivity by projection in knowledge graph embedding[J]. Advances in Neural Information Processing Systems, 2021, 34.
[94] CAO Z S, XU Q Q, YANG Z Y et al. Dual quaternion knowledge graph embeddings[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2021: 6894-6902.
[95] LI M, JIA Y, WANG Y, et al. Hierarchy-based link prediction in knowledge graphs[C]//Proceedings of the 25th International Conference Companion on World Wide Web. 2016: 77-78.
[96] ZHANG Z, CAI J, ZHANG Y, et al. Learning hierarchy-aware knowledge graph embeddings for link prediction[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020: 3065-3072.
[97] WANG S, FU K, SUN X, et al. Hierarchical-aware relation rotational knowledge graph embedding for link prediction[J]. Neurocomputing, 2021, 458: 259-270.
[98] HU Z, HUANG P, DENG Y, et al. Entity hierarchy embedding[C]//Proceedings of the 7th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing. 2015: 1292-1300.
[99] BALAZEVIC I, ALLEN C, HOSPEDALES T. Multi-relational poincaré graph embeddings[J]. Advances in Neural Information Processing Systems, 2019, 32: 4463-4473.
[100] NICKEL M, TRESP V, KRIEGEL H-P. A three-way model for collective learning on multi-relational data[C]//Proceedings of the Int Conf on Machine Learning. 2011: 809-816.
[101] YANG B, YI W T, HE X, et al. Embedding entities and relations for learning and inference in knowledge bases[C]//Proceedings of the 2015 Int Conf on Learning Representations. 2015.
[102] TROUILLON T, WELBL J, RIEDEL S, et al. Complex embeddings for simple link prediction[C]//Proceedings of the Int Conf on Machine Learning. 2016: 2071-2080.
[103] LIU H, WU Y, YANG Y. Analogical inference for multi-relational embeddings[C]//Proceedings of the International Conference on Machine Learning. 2017: 2168-2178.
[104] BALA?EVI? I, ALLEN C, HOSPEDALES T M. Tucker: tensor factorization for knowledge graph completion[J]. arXiv preprint arXiv:1901.09590, 2019.
[105] SOCHER R, CHEN D, MANNING C D, et al. Reasoning with neural tensor networks for knowledge base completion[C]//Proceedings of the Advances in Neural Information Processing Systems. 2013: 926-934.
[106] BORDES A, GLOROT X, WESTON J, et al. A semantic matching energy function for learning with multi-relational data[J].Machine Learning,2014, 94 (2): 233-259.
[107] LIU Q, JIANG H, Evdokimov A, et al. Probabilistic reasoning via deep learning: neural association models[J]. arXiv preprint arXiv:1603.07704,2016.
[108] DETTMERS T, MINERVINI P, STENETORP P, et al. Convolutional 2D knowledge graph embeddings[C]//Proceedings of the 32nd AAAI Conference on Artificial Intelligence. 2018: 1811-1818.
[109] VU T, NGUYEN T D, NGUYEN D Q, et al. A capsule network-based embedding model for knowledge graph completion and search personalization [C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2019: 2180-2189.
[110] VASHISHTH S, SANYAL S, NITIN V, et al. InteractE: improving convolution-based knowledge graph embeddings by increasing feature interactions[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020: 3009-3016.
[111] YAO L, MAO C, LUO Y. KG-BERT: BERT for knowledge graph completion[J]. arXiv preprint arXiv:1909.03193, 2019.
[112] ZHAO Y, ZHOU H, XIE RB, et al. Incorporating global information in local attention for knowledge representation learning[C]//Proceedings of the Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021. 2021: 1341-1351.
[113] 姚思雨, 趙天哲, 王瑞杰, 等. 規(guī)則引導(dǎo)的知識(shí)圖譜聯(lián)合嵌入方法[J]. 計(jì)算機(jī)研究與發(fā)展, 2020, 57(12): 2514-2522.
YAO S Y, ZHAO T Z, WANG R J, et al. Rule-guided joint embedding learning of knowledge graphs[J]. Journal of ComputerResearch and Development, 2020, 57(12): 2514-2522
[114] GUO S, WANG Q, WANG L H, et al. Jointly embedding knowledge graphs and logical rules[C]//Proceedings of the 2016 Conf on Empirical Methods in Natural Language Processing. 2016:192-202.
[115] GUO S, WANG Q, WANG L H, et al. Knowledge graph embedding with iterative guidance from soft rules[C]//Proceedings of the 32th AAAI Conf on Arti?cial Intelligence. 2018:4816-4823.
[116] WANG P W, DOU D J, WU F Z, et al. Logic rules powered knowledge graph embedding[J]. arXiv preprint, arXiv: 1903.03772, 2019.
[117] ZHANG W, PAUDEL B, WANG L, et al. Iteratively learning embeddings and rules for knowledge graph reasoning[C]//Proceed- ings of the World Wide Web Conf. 2019:2366-2377.
[118] CHENG K W, YANG Z Q, ZHANG M, et al. UniKER: a unified framework for combining embedding and definite horn rule reasoning for knowledge graph inference[C]//Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. 2021: 9753-9771.
[119] NEELAKANTAN A, ROTH B, MCCALLUM A. Compositional vector space models for knowledge base completion[J]. Computer Science, 2015:1-16.
[120] SHEN Y, HUANG P S, CHANG M W, et al. Traversing knowledge graph in vector space without symbolic space guidance[J]. arXiv preprint, arXiv: 1611.04642, 2016.
[121] DAS R, NEELAKANTAN A, BELANGER D, et al. Chains of reasoning over entities, relations, and text using recurrent neural networks[C]//Proceedings of the 15th Conf of the European Chapter of the Association for Computational Linguistics. 2017: 132-141.
[122] WANG Z K, LI L J, ZENG D D. Attention-based multi-hop reasoning for knowledge graph[C]//Proceedings of the 2018 IEEE Int Conf on Intelligence and Security Informatics. 2018:211-213.
[123] NIU G, ZHANG Y, LI B, et al. Rule-guided compositional representation learning on knowledge graphs[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020: 2950-2958.
[124] QU M, TANG J, Probabilistic logic neural networks for reasoning[C]//Proceedings of the Advances in Neural Information Processing Systems. 2019:7712-7722.
[125] ZHANG Y Y, CHEN X S, YANG Y, et al. Efficient probabilistic logic reasoning with graph neural networks[J]. arXiv preprint, arXiv: 2001.11850, 2020.
[126] VARDHAN L V H, JIA G, KOK S. Probabilistic logic graph attention networks for reasoning[C]//Proceedings of the World Wide Web Conf 2020. 2020: 669-673.
[127] COHEN W W. Tensorlog: a differentiable deductive database[J]. arXiv preprint, arXiv: 1605.06523, 2020.
[128] EVANS R, GREFENSTETTE E. Learning explanatory rules from noisy data[J]. Journal of Artificial Intelligence Research, 2018, 61(8): 1-64
[129] YANG F, YANG Z, COHEN W W, Differentiable learning of logical rules for knowledge base reasoning[C]//Proceedings of the Advances in Neural Information Processing Systems. 2017:2319-2328.
[130] WANG P, STEPANOVA D, DOMOKOS C, et al. Differentiable learning of numerical rules in knowledge graphs[C]//Proceedings of the 8th Int Conf on Learning Representations. 2020.
[131] YAN Y, SONG L. Learn to explain ef?ciently via neural logic inductive learning[C]//Proceedings of the 8th Int Conf on Learning Representations. 2020.
[132] WANG S, WEI X K, NOGUEIRA DOS SANTOS C N, et al. Mixed-curvature multi-relational graph neural network for knowledge graph completion[C]//Proceedings of the Web Conference. 2021: 1761-1771.
[133] TERU K K, DENIS E, HAMILTON W L. Inductive relation prediction by subgraph reasoning[J]. arXiv preprint, arXiv:1911.06962, 2019.
[134] DU Z, ZHOU C, DING M, et al. Cognitive knowledge graph reasoning for one-shot relational learning[J]. IEEE Trans on Knowledge and Data Engineering, 2021.
[135] XU X R, FENG W, JIANG Y S, et al. Dynamically pruned message passing networks for large-scale knowledge graph reasoning[C]//Proceedings of the 2020 Int Conf on Learning Representations. 2020.
[136] HO V T, STEPANOVA D, GAD-ELRAB M H, et al. Rule learning from knowledge graphs guided by embedding models[C]//Proceedings of the 17th Int Semantic Web Conf. 2018:72-90.
[137] OMRAN P G, WANG K, WANG Z. Scalable rule learning via learning representation[C]//Proceedings of the 27th Int Joint Conf on Arti?cial Intelligence. 2018: 2149-2155.
[138] DONG H H, MAO J Y, LIN T, et al. Neural logic machines[C]//Proceedings of the 7thInt Conf on Learning Reresentations. 2019.
[139] PAN Y, LIU J, ZHANG L, et al. Learning first-order rules with relational path contrast for inductive relation reasoning[J]. arXiv preprint arXiv:2110.08810, 2021.
[140] QU M, CHEN J K, XHONNEUX LP, et al. RNNLogic: learning logic rules for reasoning on knowledge graphs[C]//Proceedings of the 2021 Int Conf on Learning Representations. 2021.
[141] XIA Y, ZHOU G, LUO J Y, et al. PFCA: an intelligent method of multidimensional user profile construction and application[C]//Proceedings of the 2022 Int Conf on big data analytics. 2022:272-279.
[142] LYU X, CAO Y X, HOU L, et al. Is multi-hop reasoning really explainable? Towards benchmarking reasoning interpretability[C]//Proceedings of the 2021 Conference on Empirical Methods in NaturalLanguage Processing. 2021:8899-8911.
Survey on explainable knowledge graph reasoning methods
XIA Yi, LAN Mingjng, CHEN Xiaohui, LUO Junyong, ZHOU Gang, HE Peng
Information Engineering University, Zhengzhou 450001, China
In recent years, deep learning models have achieved remarkable progress in the prediction and classification tasks of artificial intelligence systems. However, most of the current deep learning models are black box, which means it is not conducive to human cognitive reasoning process. Meanwhile, with the continuous breakthroughs of artificial intelligence in the researches and applications, high-performance complex algorithms, models and systems generally lack the transparency and interpretability of decision making. This makes it difficult to apply the technologies in a wide range of fields requiring strict interpretability, such as national defense, medical care and cyber security. Therefore, the interpretability of artificial intelligence should be integrated into these algorithms and systems in the process of knowledge reasoning. By means of carrying out explicit explainable intelligence reasoning based on discrete symbolic representation and combining technologies in different fields, a behavior explanation mechanism can be formed which is an important way for artificial intelligence to realize data perception to intelligence perception. A comprehensive review of explainable knowledge graph reasoning was given. The concepts of explainable artificial intelligence and knowledge reasoning were introduced briefly. The latest research progress of explainable knowledge graph reasoning methods based on the three paradigms of artificial intelligence was introduced. Specifically, the ideas and improvement process of the algorithms in different scenarios of explainable knowledge graph reasoning were explained in detail. Moreover, the future research direction and the prospect of explainable knowledge graph reasoning were discussed.
knowledge reasoning, knowledge graph, explainable artificial intelligence, information security
TP309
A
10.11959/j.issn.2096?109x.2022063
2022?04?05;
2022?06?13
蘭明敬,lanmingjing@126.com
國(guó)家自然科學(xué)基金(41801313);河南省科技攻關(guān)計(jì)劃(222102210081, 222300420590)
The National Natural Science Foundation of China (41801313), The Science and Technology Program of Henan Province (222102210081, 222300420590)
夏毅, 蘭明敬, 陳曉慧, 等. 可解釋的知識(shí)圖譜推理方法綜述[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2022, 8(5): 1-25.
Format: XIA Y, LAN M J, CHEN X H, et al. Survey on explainable knowledge graph reasoning methods[J]. Chinese Journal of Network and Information Security, 2022, 8(5): 1-25.
夏毅(1997?),男,遼寧丹東人,信息工程大學(xué)碩士生,主要研究方向?yàn)橹R(shí)圖譜推理。
蘭明敬(1982?),男,安徽潁上人,信息工程大學(xué)副教授,主要研究方向?yàn)橹R(shí)圖譜。
陳曉慧(1983?),女,新疆烏魯木齊人,信息工程大學(xué)副教授、博士生導(dǎo)師,主要研究方向?yàn)榭梢暬c可視分析。
羅軍勇(1964?),男,江西南昌人,信息工程大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)榫W(wǎng)絡(luò)與信息安全。
周剛(1974?),男,江蘇武進(jìn)人,信息工程大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)閿?shù)據(jù)挖掘。
何鵬(1983?),女,河南鄭州人,信息工程大學(xué)博士生,主要研究方向?yàn)橹R(shí)圖譜表示學(xué)習(xí)。