王 萌 王昊奮 李博涵 趙 翔 王 鑫
1(東南大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 南京 211189)
2(同濟(jì)大學(xué)創(chuàng)意設(shè)計(jì)學(xué)院 上海 200092)
3(南京航空航天大學(xué)計(jì)算機(jī)學(xué)院 南京 211106)
4(國(guó)防科技大學(xué)信息系統(tǒng)工程國(guó)家重點(diǎn)實(shí)驗(yàn)室 長(zhǎng)沙 410073)
5(天津大學(xué)智能與計(jì)算學(xué)部 天津 300072)
(meng.wang@seu.edu.cn)
伴隨著過去10年浪潮,人工智能發(fā)展方興未艾,正處于由感知智能到認(rèn)知智能轉(zhuǎn)變的關(guān)鍵時(shí)期.知識(shí)圖譜作為大數(shù)據(jù)時(shí)代的知識(shí)工程集大成者,是符號(hào)主義與連接主義相結(jié)合的產(chǎn)物,是實(shí)現(xiàn)認(rèn)知智能的基石.知識(shí)圖譜以其強(qiáng)大的語(yǔ)義表達(dá)能力、存儲(chǔ)能力和推理能力,為互聯(lián)網(wǎng)時(shí)代的數(shù)據(jù)知識(shí)化組織和智能應(yīng)用提供了有效的解決方案.因此,新一代知識(shí)圖譜的關(guān)鍵技術(shù)研究逐漸受到來(lái)自工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注.
知識(shí)圖譜最早于2012年由Google正式提出[1],其初衷是為了改善搜索,提升用戶搜索體驗(yàn).知識(shí)圖譜至今沒有統(tǒng)一的定義,在維基百科中的定義為:“Google知識(shí)圖譜(Google knowledge graph)是Google的一個(gè)知識(shí)庫(kù),其使用語(yǔ)義檢索從多種來(lái)源收集信息,以提高Google搜索的質(zhì)量.”從當(dāng)前知識(shí)圖譜的發(fā)展看來(lái),此定義顯然是不夠全面的,當(dāng)前知識(shí)圖譜的應(yīng)用儼然遠(yuǎn)超其最初始的搜索場(chǎng)景,已經(jīng)廣泛應(yīng)用于搜索、問答、推薦等場(chǎng)景中.比較普遍被接受的一種定義為“知識(shí)圖譜本質(zhì)上是一種語(yǔ)義網(wǎng)絡(luò)(semantic network),網(wǎng)絡(luò)中的結(jié)點(diǎn)代表實(shí)體(entity)或者概念(concept),邊代表實(shí)體/概念之間的各種語(yǔ)義關(guān)系”.一種更為寬泛的定義為“使用圖(graph)作為媒介來(lái)組織與利用不同類型的大規(guī)模數(shù)據(jù),并表達(dá)明確的通用或領(lǐng)域知識(shí)”.從覆蓋的領(lǐng)域來(lái)看,知識(shí)圖譜可以分為通用知識(shí)圖譜和行業(yè)知識(shí)圖譜;前者面向開放領(lǐng)域,而后者則面向特定的行業(yè).隨著知識(shí)圖譜在各行業(yè)的應(yīng)用落地,知識(shí)圖譜技術(shù)的相關(guān)研究得到了大量研究者的關(guān)注.以知識(shí)圖譜為基礎(chǔ)的典型應(yīng)用也逐漸走進(jìn)各個(gè)行業(yè)領(lǐng)域,包括智能問答、推薦系統(tǒng)、個(gè)人助手、戰(zhàn)場(chǎng)指揮系統(tǒng)等.
傳統(tǒng)的知識(shí)圖譜研究領(lǐng)域主要圍繞傳統(tǒng)的數(shù)據(jù)存儲(chǔ)、知識(shí)獲取、本體融合、邏輯推理以及知識(shí)圖譜應(yīng)用等方面.文獻(xiàn)[2]詳細(xì)綜合和分析了知識(shí)圖譜存儲(chǔ)管理最新的研究進(jìn)展.文獻(xiàn)[3]從知識(shí)表示學(xué)習(xí)、知識(shí)獲取與知識(shí)補(bǔ)全、時(shí)態(tài)知識(shí)圖譜和知識(shí)圖譜應(yīng)用等方面進(jìn)行了全面的綜述.文獻(xiàn)[4]則重點(diǎn)對(duì)面向知識(shí)圖譜的知識(shí)推理相關(guān)研究進(jìn)行了綜述.
然而,在大數(shù)據(jù)環(huán)境和新基建背景下,數(shù)據(jù)對(duì)象和交互方式的日益豐富和變化,對(duì)新一代知識(shí)圖譜在基礎(chǔ)理論和關(guān)鍵技術(shù)等方面提出新的需求,也帶來(lái)新的挑戰(zhàn).和已有的知識(shí)圖譜研究綜述相比,本文將從眾多最新的知識(shí)圖譜研究方法中,對(duì)3方面的新一代知識(shí)圖譜關(guān)鍵技術(shù)和理論做分析:
1) 非結(jié)構(gòu)化多模態(tài)數(shù)據(jù)組織與理解;
2) 大規(guī)模動(dòng)態(tài)圖譜表示學(xué)習(xí)與預(yù)訓(xùn)練模型;
3) 神經(jīng)符號(hào)結(jié)合的知識(shí)更新與推理.
本文將綜述國(guó)內(nèi)外新一代知識(shí)圖譜關(guān)鍵技術(shù)研究發(fā)展現(xiàn)狀,對(duì)國(guó)內(nèi)外研究的最新進(jìn)展進(jìn)行歸納、比較和分析,就未來(lái)的技術(shù)挑戰(zhàn)和研究方向進(jìn)行展望.
“模態(tài)”的定義較多,可以直觀地理解為不同類型的多媒體數(shù)據(jù),也可以作為一個(gè)更加細(xì)粒度的概念,區(qū)分模態(tài)的關(guān)鍵點(diǎn)可以理解為數(shù)據(jù)是否具有異構(gòu)性.例如,對(duì)于某個(gè)歌手,互聯(lián)網(wǎng)上可以找到他的照片和歌曲視頻,同時(shí)也有相關(guān)的文本信息(百科、新聞等)以及具體的歌曲音頻.圖片、視頻、文本、語(yǔ)音這4種數(shù)據(jù),可以被理解為該對(duì)象的多模態(tài)數(shù)據(jù).目前主要的非結(jié)構(gòu)化多模態(tài)知識(shí)圖譜如表1所示:
Table 1 Multi-Modal Knowledge Graphs表1 多模態(tài)知識(shí)圖譜
DBpedia[5]作為近10年來(lái)知識(shí)圖譜研究領(lǐng)域的核心數(shù)據(jù)集,其豐富的語(yǔ)義信息中也包含了大量的非結(jié)構(gòu)化數(shù)據(jù),如文本描述和實(shí)體圖片.目前DBpedia包含了超過260萬(wàn)個(gè)實(shí)體,且每個(gè)實(shí)體具有唯一的全局標(biāo)識(shí)符.以此為基礎(chǔ),越來(lái)越多的數(shù)據(jù)發(fā)布者將自己的數(shù)據(jù)通過SameAs關(guān)系鏈接到DBpedia資源,使DBpedia一定程度上成為多類型數(shù)據(jù)組織的中心.目前,圍繞DBpedia的互聯(lián)網(wǎng)數(shù)據(jù)源網(wǎng)絡(luò)提供了約47億條信息,涵蓋地理信息、人、基因、藥物、圖書、科技出版社等多個(gè)領(lǐng)域.
Wikidata[6]中也存在大量的多模態(tài)數(shù)據(jù)資源,它是維基媒體基金會(huì)(Wikimedia Foundation)推出的知識(shí)圖譜,也是維基媒體數(shù)據(jù)組織和管理的核心項(xiàng)目.Wikidata充分利用了知識(shí)圖譜的圖數(shù)據(jù)模型,綜合了Wikivoyage,Wiktionary,Wikisource等各類結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),其目標(biāo)是通過創(chuàng)造維基百科全球管理數(shù)據(jù)的新方法來(lái)克服多類數(shù)據(jù)的不一致性,已經(jīng)成為維基媒體最活躍的項(xiàng)目之一,越來(lái)越多的網(wǎng)站都從Wikidata獲取內(nèi)容以嵌入提供的頁(yè)面瀏覽服務(wù).
IMGPedia[7]是多模態(tài)知識(shí)圖譜的早期嘗試.相較于DBpedia和Wikidata,其更關(guān)注在已有的知識(shí)圖譜中補(bǔ)充非結(jié)構(gòu)化的圖片信息.IMGPedia的核心思路是首先提取Wikimedia Commons中的多媒體資源(主要是圖片),然后基于多媒體內(nèi)容生成特征用于視覺相似性的計(jì)算,最后通過定義相似關(guān)系的方式將圖片內(nèi)容信息引入到知識(shí)圖譜中,此外其還鏈接了DBpedia和DBpedia Commons來(lái)提供上下文和元數(shù)據(jù).IMGPedia的優(yōu)勢(shì)在于開創(chuàng)性地定義了知識(shí)圖譜中圖像內(nèi)容的“描述符”,也就是視覺實(shí)體屬性(諸如灰度等),同時(shí)根據(jù)這些描述符去計(jì)算圖片相似度,方便人們進(jìn)行相似圖片的查找.但I(xiàn)MGPedia中定義的“描述符”種類較少,且圖片之間的關(guān)系單一.
MMKG[8]項(xiàng)目旨在對(duì)不同知識(shí)圖譜(Freebase,YAGO,DBpedia)的實(shí)體和圖片資源進(jìn)行對(duì)齊.其通過對(duì)3個(gè)知識(shí)圖譜(Freebase15k,YAGO15k,DB15k,均為從原始的知識(shí)圖譜中獲得的知識(shí)圖譜子集)進(jìn)行實(shí)體對(duì)齊,以及數(shù)值、圖片資源與實(shí)體的綁定,構(gòu)建了一個(gè)包含3個(gè)知識(shí)圖譜子集的多模態(tài)數(shù)據(jù)集合.MMKG包含的3個(gè)知識(shí)圖譜既有諸多對(duì)齊的實(shí)體,又有各自不同的拓?fù)浣Y(jié)構(gòu).值得一提的是,MMKG的目標(biāo)并非是提供一個(gè)多模態(tài)知識(shí)圖譜,而是定義一個(gè)包含多模態(tài)信息的評(píng)估知識(shí)圖譜實(shí)體對(duì)齊技術(shù)的基準(zhǔn)數(shù)據(jù)集.但是其本質(zhì)上還是以傳統(tǒng)的知識(shí)圖譜為主,規(guī)模很小同時(shí)也沒有充分收集和挖掘互聯(lián)網(wǎng)上多種類型的多模態(tài)數(shù)據(jù),在將圖像分發(fā)給相關(guān)文本實(shí)體時(shí)也未曾考慮圖像的多樣性.
KgBench[9]和MMKG類似,在RDF編碼的知識(shí)圖譜上引入了一組新的實(shí)體分類基準(zhǔn)多模態(tài)數(shù)據(jù)集.對(duì)于多個(gè)知識(shí)圖譜基準(zhǔn)實(shí)體分類任務(wù),提供至少1 000個(gè)實(shí)例的測(cè)試和驗(yàn)證集,有些實(shí)例超過10 000個(gè),每個(gè)實(shí)例包含了多種模態(tài)的數(shù)據(jù)描述和特征.每個(gè)任務(wù)都能夠以知識(shí)圖譜結(jié)構(gòu)特征進(jìn)行評(píng)估,或者使用多模態(tài)信息來(lái)實(shí)驗(yàn).所有數(shù)據(jù)集都以CSV格式打包,并提供RDF格式的源數(shù)據(jù)和源代碼.
東南大學(xué)的Wang等人[10]提出的多模態(tài)圖譜Richpedia,是目前國(guó)內(nèi)在多模態(tài)知識(shí)圖譜領(lǐng)域的代表工作.其核心思路延續(xù)了知識(shí)圖譜的基本數(shù)據(jù)模型,在RDF框架下對(duì)現(xiàn)有的知識(shí)圖譜進(jìn)行擴(kuò)充(主要是包含視覺信息的圖片實(shí)體),使其變?yōu)槎嗄B(tài)知識(shí)圖譜.相較之前的多模態(tài)知識(shí)圖譜,該工作的最大貢獻(xiàn)在于收集與實(shí)體相關(guān)圖片的同時(shí),利用圖片的配文來(lái)識(shí)別圖片中所包含的其他實(shí)體,進(jìn)而在跨模態(tài)實(shí)體之間的語(yǔ)義關(guān)系發(fā)現(xiàn)方面取得了顯著效果提升.
西安交通大學(xué)的鄭慶華等人[11-12]提出了知識(shí)森林的概念,旨在針對(duì)智慧教育領(lǐng)域的多模態(tài)數(shù)據(jù),實(shí)現(xiàn)基于知識(shí)森林?jǐn)?shù)據(jù)模型的組織與個(gè)性化導(dǎo)學(xué).知識(shí)森林的特點(diǎn)在于針對(duì)教育領(lǐng)域的垂域特點(diǎn),用自然語(yǔ)言處理、圖像識(shí)別等人工智能技術(shù)突破了教育領(lǐng)域給定課程科目的知識(shí)森林自動(dòng)構(gòu)建,研制了知識(shí)森林AR交互系統(tǒng),緩解學(xué)習(xí)過程中人機(jī)可視化交互難題.知識(shí)森林的多模態(tài)類型不再局限于文本和圖像的范疇,增加了與視頻數(shù)據(jù)交互的能力.
百度知識(shí)圖譜近年來(lái)也逐漸向多模態(tài)知識(shí)圖譜演變.基于海量互聯(lián)網(wǎng)資源,百度構(gòu)建了超大規(guī)模的通用知識(shí)圖譜,并隨著文本、語(yǔ)音、視覺等智能技術(shù)的不斷深入,以及行業(yè)智能化訴求的提升,百度近年來(lái)一直致力于知識(shí)圖譜在復(fù)雜知識(shí)表示、多模態(tài)語(yǔ)義理解、行業(yè)圖譜構(gòu)建和應(yīng)用,其挖掘的多模態(tài)知識(shí)在圖文視頻的基礎(chǔ)上,加入了更多語(yǔ)音數(shù)據(jù)來(lái)豐富多模態(tài)知識(shí)圖譜的內(nèi)容.
多模態(tài)數(shù)據(jù)理解旨在實(shí)現(xiàn)處理和理解不同模態(tài)信息之間共同表達(dá)語(yǔ)義的能力.整體上,和知識(shí)圖譜相關(guān)的多模態(tài)數(shù)據(jù)的理解主要分為基于本體的多模態(tài)語(yǔ)義理解和基于機(jī)器學(xué)習(xí)的多模態(tài)語(yǔ)義理解.基于本體的多模態(tài)語(yǔ)義理解是比較早期的工作,均和知識(shí)圖譜相關(guān),其主要活躍于深度學(xué)習(xí)的浪潮興起之前,代表性的工作為L(zhǎng)SCOM(large-scale concept ontology for multimedia)[13]和COMM(core ontology for multimedia)[14].
LSCOM[13]是一個(gè)由IBM、卡內(nèi)基梅隆大學(xué)(Carnegie Mellon University, CMU)和哥倫比亞大學(xué)領(lǐng)導(dǎo)開發(fā)的多模態(tài)大規(guī)模概念本體協(xié)作編輯任務(wù).在這項(xiàng)工作中,CyC公司與很多學(xué)術(shù)研究和工業(yè)團(tuán)體均有參與.其整個(gè)過程包含了一系列學(xué)術(shù)研討會(huì),來(lái)自多個(gè)領(lǐng)域的專家聚集在一起,創(chuàng)建了描述廣播新聞視頻的1 000個(gè)概念的分類.LSCOM中對(duì)多模態(tài)數(shù)據(jù)的實(shí)用性、覆蓋率、可行性和可觀察性制定了多個(gè)標(biāo)準(zhǔn).除了對(duì)1 000個(gè)概念進(jìn)行分類外,LSCOM還生成了一組用例和查詢,以及廣播新聞視頻的大型注釋數(shù)據(jù)集.
COMM[14]是由德國(guó)、荷蘭以及葡萄牙的研究團(tuán)隊(duì)聯(lián)合推出的多模態(tài)本體,其誕生的主要?jiǎng)訖C(jī)在于LSCOM為多模態(tài)數(shù)據(jù)語(yǔ)義分析研究創(chuàng)建了一個(gè)統(tǒng)一的框架,但并沒有一個(gè)高質(zhì)量的多模態(tài)本體正式描述,也缺乏與已有的語(yǔ)義Web技術(shù)兼容.針對(duì)此問題,COMM定義了一個(gè)基于MPEG-7的多模態(tài)本體,由多模態(tài)數(shù)據(jù)模式組成,滿足了本體框架的基本要求,并且在OWL DL中完全形式化.基于本體的多模態(tài)語(yǔ)義理解要求高質(zhì)量的本體編輯以及精細(xì)粒度的數(shù)據(jù)描述,因此COMM和LSCOM并沒有很好地發(fā)展起來(lái).
基于機(jī)器學(xué)習(xí)的多模態(tài)語(yǔ)義理解[15]是目前多模態(tài)數(shù)據(jù)理解的主流方法,和知識(shí)圖譜的聯(lián)系主要是利用多模態(tài)表示學(xué)習(xí)方法實(shí)現(xiàn)知識(shí)補(bǔ)全或應(yīng)用到下游任務(wù)中.多模態(tài)表示學(xué)習(xí)是指通過利用不同多模態(tài)數(shù)據(jù)之間的互補(bǔ)性,剔除模態(tài)冗余性,從而將多模態(tài)數(shù)據(jù)的語(yǔ)義表征為實(shí)值向量,該實(shí)值向量蘊(yùn)含了不同模態(tài)數(shù)據(jù)的共同語(yǔ)義和各自特有的特征,如圖1所示.代表性的工作如Srivastava等人[16]通過深度玻爾茲曼機(jī)實(shí)現(xiàn)圖像和文本的聯(lián)合空間生成,在此基礎(chǔ)上實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的統(tǒng)一表示.
Fig. 1 Multi-modal representation learning圖1 多模態(tài)表示學(xué)習(xí)
多模態(tài)知識(shí)圖譜表示學(xué)習(xí)的代表性工作是Mousselly-Sergieh等人[17]將視覺特征、文本特征和知識(shí)圖譜的結(jié)構(gòu)特征共同學(xué)習(xí)成統(tǒng)一的知識(shí)嵌入,在此過程中使用Simple Concatenation,DeViSE,Imagined這3種不同的方法來(lái)集成多模態(tài)信息,最終實(shí)現(xiàn)了知識(shí)圖譜的多模態(tài)表示學(xué)習(xí),生成了蘊(yùn)含多種模態(tài)特征的知識(shí)圖譜實(shí)體和關(guān)系實(shí)值向量,相較于傳統(tǒng)的基于結(jié)構(gòu)的知識(shí)圖譜表示學(xué)習(xí),其在鏈接預(yù)測(cè)和實(shí)體分類任務(wù)上的效果均有提升.
GAIA[18]是最近提出的一個(gè)細(xì)粒度的多模態(tài)知識(shí)抽取、理解和組織框架,旨在提取不同來(lái)源的異構(gòu)多媒體數(shù)據(jù)(包括多模態(tài)、多語(yǔ)言等),生成連續(xù)的結(jié)構(gòu)化知識(shí),同時(shí)提供一個(gè)豐富的細(xì)粒度的多模態(tài)數(shù)據(jù)描述本體.GAIA整個(gè)系統(tǒng)主要有3個(gè)優(yōu)勢(shì):1)大量使用計(jì)算機(jī)視覺和自然語(yǔ)言處理的深度學(xué)習(xí)框架和其他知識(shí)圖譜算法作為其底層模塊,通過結(jié)合不同領(lǐng)域的技術(shù)實(shí)現(xiàn)了特別是對(duì)于圖片資源的實(shí)體識(shí)別和多模態(tài)實(shí)體鏈接,相較于之前的IMGPedia,這樣的處理保證了對(duì)圖片內(nèi)容細(xì)粒度識(shí)別的進(jìn)一步深入,而對(duì)于文本資源,也實(shí)現(xiàn)了實(shí)體識(shí)別和關(guān)系抽取.2)相較于粗粒度的實(shí)體,細(xì)粒度可以保證內(nèi)容查詢的靈活性和更強(qiáng)的易用性,例如對(duì)場(chǎng)景的理解和事件預(yù)測(cè),故可以更廣泛地用于實(shí)際應(yīng)用中.3)通過將圖片和文本實(shí)體進(jìn)行實(shí)體鏈接、關(guān)系抽取等處理,實(shí)現(xiàn)了多模態(tài)知識(shí)融合和知識(shí)推理,充分利用了多模態(tài)的優(yōu)勢(shì).GAIA所提出的多模態(tài)知識(shí)圖譜提取框架是當(dāng)前比較全面的一種范式,有著較好的借鑒意義.
北京大學(xué)的Peng等人[19]提出了跨媒體智能的概念,該概念和多模態(tài)數(shù)據(jù)理解的思路類似,其借鑒人腦跨越視覺、聽覺、語(yǔ)言等不同感官信息認(rèn)知外部世界的特性,重點(diǎn)研究了跨媒體分析推理技術(shù)中的任務(wù)和目標(biāo),包括細(xì)粒度圖像分類、跨媒體檢索、文本生成圖像、視頻描述生成等.其代表性的工作為PKU FG-Xmedia[20],是第1個(gè)包含4種媒體類型(圖像、文本、視頻和音頻)的細(xì)粒度跨媒體檢索公開數(shù)據(jù)集和評(píng)測(cè)基準(zhǔn),并且在此基礎(chǔ)上提出了能夠同時(shí)學(xué)習(xí)4種媒體統(tǒng)一表征的深度網(wǎng)絡(luò)模型FGCrossNet.
中國(guó)科學(xué)院自動(dòng)化研究所的張瑩瑩等人[21]提出了一個(gè)基于多模態(tài)知識(shí)感知注意力機(jī)制的問答模型.該模型首先學(xué)習(xí)知識(shí)圖譜中實(shí)體的多模態(tài)表示;然后從多模態(tài)知識(shí)圖譜中與問答對(duì)相關(guān)聯(lián)的實(shí)體的路徑來(lái)推測(cè)出回答該問題時(shí)的邏輯,并刻畫問答對(duì)之間的交互關(guān)系.此外,該模型還提出了一種注意力機(jī)制來(lái)判別連接問答對(duì)的不同路徑之間的重要性.
清華大學(xué)的Liu等人[22]最早在多模態(tài)知識(shí)圖譜表示學(xué)習(xí)方面開展了研究,代表性的工作是IKRL,其將視覺特征和知識(shí)圖譜的結(jié)構(gòu)特征進(jìn)行聯(lián)合表示學(xué)習(xí),進(jìn)而通過不同模態(tài)信息之間的約束生成質(zhì)量更高的知識(shí)圖譜嵌入.
華南理工大學(xué)的Cai等人[23]提出一種結(jié)合圖像信息和文本信息的神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)Twitter等短文本中的實(shí)體進(jìn)行識(shí)別和消歧.其核心思想是將視覺和文本信息通過表示學(xué)習(xí)生成的嵌入連接起來(lái),并且為細(xì)粒度的信息交互引入了共同關(guān)注機(jī)制.在Twitter數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,其方法優(yōu)于單純依賴文本信息的方法.
中國(guó)科學(xué)技術(shù)大學(xué)的Xu等人[24]在多模態(tài)信息理解與關(guān)聯(lián)方面探索了如何有效聯(lián)合映射與建模跨模態(tài)信息,進(jìn)而從視頻概括性描述深入至實(shí)體間語(yǔ)義關(guān)系,實(shí)現(xiàn)視覺元素多層次、多維度語(yǔ)義理解與關(guān)聯(lián),以形成對(duì)視頻等多模態(tài)內(nèi)容更為全面的解析,有效解讀其中的語(yǔ)義信息,進(jìn)而為支撐面向多模態(tài)內(nèi)容的智能應(yīng)用服務(wù)奠定重要基礎(chǔ).其代表性的工作為MMEA[24],針對(duì)多模態(tài)知識(shí)圖譜的實(shí)體對(duì)齊問題,設(shè)計(jì)了一種多視圖知識(shí)嵌入方法,實(shí)現(xiàn)多模態(tài)知識(shí)圖譜實(shí)體對(duì)齊效果的提升.
國(guó)防科技大學(xué)的Zhao等人[25]在多模態(tài)知識(shí)圖譜的實(shí)體對(duì)齊任務(wù)上進(jìn)一步進(jìn)行了探索,其主要將多模態(tài)實(shí)體對(duì)齊任務(wù)從歐氏空間拓展到了雙曲空間進(jìn)行建模表示,最終利用雙曲空間內(nèi)的圖卷積網(wǎng)絡(luò)和視覺特征抽取模型DENSENET實(shí)現(xiàn)了多個(gè)數(shù)據(jù)集上的實(shí)體對(duì)齊效果.
知識(shí)圖譜的本質(zhì)是一種語(yǔ)義網(wǎng)絡(luò),亦是一種特殊的圖.動(dòng)態(tài)知識(shí)圖譜同樣是一種特殊的動(dòng)態(tài)圖.但是因?yàn)橹R(shí)圖譜的特殊性,動(dòng)態(tài)知識(shí)圖譜可以被分為2類:一類是時(shí)序動(dòng)態(tài)知識(shí)圖譜,其中蘊(yùn)含著時(shí)間特征,知識(shí)圖譜的結(jié)構(gòu)、實(shí)體和關(guān)系都會(huì)隨著時(shí)間的推移發(fā)生改變;另一類是非時(shí)序動(dòng)態(tài)知識(shí)圖譜,這類知識(shí)圖譜中沒有顯式的時(shí)間特征,但是知識(shí)圖譜會(huì)發(fā)生更新,有新的實(shí)體和關(guān)系添加到原有的知識(shí)圖譜中.一般情況來(lái)說(shuō),已存在知識(shí)圖譜中的實(shí)體和關(guān)系不會(huì)發(fā)生改變.
1) 時(shí)序的動(dòng)態(tài)知識(shí)圖譜表示學(xué)習(xí)
時(shí)序知識(shí)圖譜是一種特殊的知識(shí)圖譜,其相比傳統(tǒng)的靜態(tài)知識(shí)圖譜多了時(shí)間信息,知識(shí)圖譜中的知識(shí)不是靜態(tài)不變的,反而是因?yàn)闀r(shí)間的變化,知識(shí)三元組發(fā)生改變.如表2中所總結(jié),我們根據(jù)其對(duì)時(shí)間信息處理方式的差異將所有算法模型分為三大類:具有時(shí)間約束的歷時(shí)性時(shí)序知識(shí)圖譜表示模型、基于時(shí)間序列編碼的時(shí)序知識(shí)圖譜表示模型和基于路徑推理的時(shí)序知識(shí)圖譜表示模型.其中在各通用數(shù)據(jù)上表現(xiàn)最佳的模型為2021年Zhu等人[26]提出的CyGNet,其模型結(jié)構(gòu)如圖2所示.
Table 2 Features Comparison of the Dynamic Knowledge Graph Representation Learning表2 時(shí)序知識(shí)圖譜表示學(xué)習(xí)的特點(diǎn)比較
2) 非時(shí)序的動(dòng)態(tài)知識(shí)圖譜表示學(xué)習(xí)
對(duì)于非時(shí)序動(dòng)態(tài)知識(shí)圖譜,其在應(yīng)用和更新過程中,可以加入新的實(shí)體和關(guān)系,新實(shí)體與原有實(shí)體構(gòu)成的三元組只要在現(xiàn)實(shí)應(yīng)用場(chǎng)景下為正確的,則可將此三元組納入到原有的知識(shí)圖譜中.所以非時(shí)序動(dòng)態(tài)知識(shí)圖譜的規(guī)模是可以隨著現(xiàn)實(shí)情況不斷增大的,被認(rèn)為是一種動(dòng)態(tài)變化的知識(shí)圖譜.針對(duì)非時(shí)序知識(shí)圖譜,其中最初的模型是在原有的DKRL模型[34]上進(jìn)行簡(jiǎn)單的更改,直接應(yīng)用于開放世界知識(shí)圖譜上,其效果相比其他靜態(tài)的算法有所提高,成為了這個(gè)任務(wù)的一個(gè)基準(zhǔn)結(jié)果,其模型基礎(chǔ)框架如圖3所示.DKRL的優(yōu)勢(shì)不僅在于提升了實(shí)體表示的區(qū)分能力,而且更在于其對(duì)新實(shí)體的表示,當(dāng)一個(gè)未在知識(shí)圖譜中出現(xiàn)的新實(shí)體出現(xiàn)時(shí),DKRL將根據(jù)新實(shí)體的簡(jiǎn)短描述生成它的表示,用于知識(shí)圖譜補(bǔ)全.
Fig. 2 Framework of CyGNet model圖2 CyGNet模型結(jié)構(gòu)圖
Fig. 3 Framework of DKRL model圖3 DKRL模型結(jié)構(gòu)圖
Shi等人[35]提出了一種以文本為中心的表示方法ConMask,其中頭實(shí)體、關(guān)系和尾實(shí)體基于文本的向量表示是通過注意力模型在名稱和描述上得出的,并且通過全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional neural network)得到三元組的評(píng)分,最后通過評(píng)分完成實(shí)體與關(guān)系的預(yù)測(cè).
Shah等人[36]提出了區(qū)別于DKRL和ConMask這2種方法的新模型OWE,其獨(dú)立地訓(xùn)練知識(shí)圖譜和文本向量,然后通過缺失實(shí)體的描述文本向量模糊代替實(shí)體的表示,在知識(shí)圖譜中進(jìn)行匹配,最終得到實(shí)體與關(guān)系的預(yù)測(cè)結(jié)果.該模型可以調(diào)整和選用不同的基礎(chǔ)知識(shí)圖譜表示模型得到不同的融合模型,在不同環(huán)境任務(wù)中發(fā)揮更好的作用.
Wang等人[37]提出了一種基于膠囊網(wǎng)絡(luò)的新模型Caps-OWKG,其在融合知識(shí)圖譜的結(jié)構(gòu)信息和描述信息后,采用膠囊網(wǎng)絡(luò)提取三元組的特征,得到動(dòng)態(tài)非時(shí)序知識(shí)圖譜三元組的表示.Gaur等人[38]提出了一個(gè)框架HUKA,它使用起源多項(xiàng)式通過編碼生成答案所涉及的邊來(lái)跟蹤知識(shí)圖譜上查詢結(jié)果的推導(dǎo).
Das等人[39]證明了基于案例的推理(case-based reasoning, CBR)系統(tǒng)通過檢索與給定問題相似的“案例”來(lái)解決一個(gè)新問題是可以實(shí)現(xiàn)動(dòng)態(tài)知識(shí)庫(kù)(KBs).其通過收集知識(shí)庫(kù)中相似實(shí)體的推理路徑來(lái)預(yù)測(cè)實(shí)體的屬性.概率模型估計(jì)路徑在回答關(guān)于給定實(shí)體的查詢時(shí)有效的可能性.
在國(guó)內(nèi),最初的模型是在Xie等人[34]提出的DKRL模型上進(jìn)行簡(jiǎn)單的更改,直接應(yīng)用于開放世界知識(shí)圖譜上,其效果相比其他靜態(tài)的算法有所提高,成為了這個(gè)任務(wù)的一個(gè)基準(zhǔn)結(jié)果.
杜治娟等人[40]提出一種表示學(xué)習(xí)方法TransNS.其選取相關(guān)的鄰居作為實(shí)體的屬性來(lái)推斷新實(shí)體,并在學(xué)習(xí)階段利用實(shí)體之間的語(yǔ)義親和力選擇負(fù)例三元組來(lái)增強(qiáng)語(yǔ)義交互能力.
Xie等人[41]提出了一種基于深度遞歸神經(jīng)網(wǎng)絡(luò)DKGC-JSTD的動(dòng)態(tài)知識(shí)圖譜補(bǔ)全模型.該模型學(xué)習(xí)實(shí)體名稱及其部分文本描述的嵌入,將看不見的實(shí)體連接到知識(shí)圖譜.為了建立文本描述信息與拓?fù)湫畔⒅g的相關(guān)性,DKGC-JSTD采用深度記憶網(wǎng)絡(luò)和關(guān)聯(lián)匹配機(jī)制,從實(shí)體文本描述中提取實(shí)體與關(guān)系之間的相關(guān)語(yǔ)義特征信息.然后利用深度遞歸神經(jīng)網(wǎng)絡(luò)對(duì)拓?fù)浣Y(jié)構(gòu)與文本描述之間的依賴關(guān)系進(jìn)行建模.
Zhou等人[42]提出了一種聚合器,采用注意網(wǎng)絡(luò)來(lái)獲取實(shí)體描述中單詞的權(quán)重.這樣既不打亂詞嵌入中的信息,又使聚合的單詞嵌入更加高效.
Niu等人[43]使用多重交互注意(MIA)機(jī)制來(lái)模擬頭部實(shí)體描述、頭部實(shí)體名稱、關(guān)系名稱和候選尾部實(shí)體描述之間的交互,以形成豐富的表示.此外,還利用頭部實(shí)體描述的額外文本特征來(lái)增強(qiáng)頭部實(shí)體的表示,并在候選尾部實(shí)體之間應(yīng)用注意機(jī)制來(lái)增強(qiáng)它們的表示.
知識(shí)廣泛存在于文本、結(jié)構(gòu)化及其他多種模態(tài)的數(shù)據(jù)中.除了通過抽取技術(shù)將知識(shí)從原始數(shù)據(jù)中萃取出來(lái)以支持搜索、問答、推理、分析等應(yīng)用以外,另外一種思路是利用數(shù)據(jù)中本身存在的基本信號(hào)對(duì)隱藏的知識(shí)進(jìn)行預(yù)訓(xùn)練.預(yù)訓(xùn)練的核心思想是“預(yù)訓(xùn)練和微調(diào)”,例如預(yù)訓(xùn)練一般包含2個(gè)步驟:首先利用大量的通用知識(shí)數(shù)據(jù)訓(xùn)練一個(gè)知識(shí)模型,獲取文本中包含的通用知識(shí)信息;然后在下游任務(wù)微調(diào)階段,針對(duì)不同下游任務(wù),設(shè)計(jì)相應(yīng)的目標(biāo)函數(shù),基于相對(duì)較少的監(jiān)督數(shù)據(jù)進(jìn)行微調(diào),便可得到不錯(cuò)的效果.近2年對(duì)面向知識(shí)表示、面向自然語(yǔ)言、面向下游任務(wù)和基于圖結(jié)構(gòu)的預(yù)訓(xùn)練模型這4類有所進(jìn)展,代表性模型如表3所示:
Table 3 Models and Their Characteristics of Knowledge Graph Pre-trained From 2019 to 2021表3 2019—2021年知識(shí)圖譜預(yù)訓(xùn)練的模型與特點(diǎn)
續(xù)表3
1) 面向知識(shí)圖譜表示的預(yù)訓(xùn)練模型
在詞向量表示中,預(yù)訓(xùn)練模型分為2個(gè)部分,分別是預(yù)訓(xùn)練與微調(diào),這樣的模式可以使詞向量表示更適合于不同的應(yīng)用環(huán)境.同樣地,在面向知識(shí)表示的預(yù)訓(xùn)練模型中,同樣先采用預(yù)訓(xùn)練的向量表示,然后再基于此進(jìn)行進(jìn)一步的深化挖掘.這類預(yù)訓(xùn)練模型,旨在通過引入新的處理方法對(duì)預(yù)訓(xùn)練的知識(shí)表示進(jìn)行進(jìn)一步的特征挖掘,以此可以得到原有表示不具備的特征,如ConvKB[44],CapsE[45]等.這類模型不能最大化地提取三元組的特征,模型預(yù)訓(xùn)練效果依賴于基礎(chǔ)知識(shí)圖譜表示學(xué)習(xí)模型的選擇.
2) 面向自然語(yǔ)言問題的預(yù)訓(xùn)練模型
知識(shí)圖譜在處理與自然語(yǔ)言相關(guān)的任務(wù)時(shí),必不可少地與語(yǔ)言模型相互聯(lián)系.這一類預(yù)訓(xùn)練模型,主要是將知識(shí)融合到一個(gè)詞向量模型中形成一個(gè)既包含知識(shí)又具備上下文信息的預(yù)訓(xùn)練詞向量.近幾年的相關(guān)研究主要是將知識(shí)融合到BERT中形成新的預(yù)訓(xùn)練模型.典型的模型有:CMU和微軟聯(lián)合提出的JAKET[46]、清華大學(xué)和華為聯(lián)合提出的ERNIE[47]、北京大學(xué)和騰訊聯(lián)合提出的模型K-BERT[48]、復(fù)旦大學(xué)和亞馬遜提出的CoLAKE[49]、清華大學(xué)和Mila實(shí)驗(yàn)室提出的KEPLER[50]等.這類模型利用實(shí)體信息增強(qiáng)了預(yù)訓(xùn)練效果并減少了訓(xùn)練時(shí)間,但不適用于缺少實(shí)體相關(guān)描述的預(yù)訓(xùn)練任務(wù).
3) 面向下游任務(wù)的預(yù)訓(xùn)練模型
知識(shí)圖譜預(yù)訓(xùn)練模型還可以通過不同的特殊下游任務(wù)來(lái)幫助向預(yù)訓(xùn)練模型融入任務(wù)相關(guān)的知識(shí).主要方法是在對(duì)具體的下游任務(wù)進(jìn)行微調(diào)時(shí),可以采用不同的適配器來(lái)針對(duì)性地加入特征,進(jìn)而增強(qiáng)其效果.代表性的工作有復(fù)旦大學(xué)和微軟提出的K-ADAPTER[51]和阿里巴巴實(shí)驗(yàn)室提出的“預(yù)訓(xùn)練+知識(shí)向量服務(wù)”的模式PKGM[52],結(jié)構(gòu)如圖4所示.這類模型需要盡可能大且全量的知識(shí)圖譜數(shù)據(jù)集,這樣才能發(fā)揮模型預(yù)訓(xùn)練的優(yōu)勢(shì),因此模型對(duì)于圖譜完成性差、稀疏度高的知識(shí)圖譜預(yù)訓(xùn)練較差.
Fig. 4 Adding service embedding to the sequence model圖4 將服務(wù)向量添加到序列模型
4) 基于圖譜中圖結(jié)構(gòu)的預(yù)訓(xùn)練模型
知識(shí)圖譜是一種特殊的信息圖,可以通過適用于圖的方法GNN獲取知識(shí)圖譜的部分結(jié)構(gòu)特征.圖神經(jīng)網(wǎng)絡(luò)(graph neural networks, GNNs)已被證明是建模圖結(jié)構(gòu)數(shù)據(jù)的強(qiáng)大工具,然而,訓(xùn)練GNN模型通常需要大量的特定任務(wù)的標(biāo)記數(shù)據(jù),而獲取這些數(shù)據(jù)往往非常昂貴.利用自監(jiān)督GNN模型對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練是減少標(biāo)記工作的一種有效方法,預(yù)訓(xùn)練學(xué)習(xí)到的模型可用在只有少量標(biāo)簽圖譜數(shù)據(jù)的下游任務(wù)中.代表性的工作有:GPT-GNN[53],GI[54],GraphCL[55],GCC[56]等.這類方法不依賴于圖譜的節(jié)點(diǎn)與邊信息,僅利用圖結(jié)構(gòu)進(jìn)行預(yù)訓(xùn)練,避免復(fù)雜的特征工程,但缺陷是耗時(shí)巨大.
ACM圖靈獎(jiǎng)獲得者Yoshua Bengio在NeuIPS 2019的特邀報(bào)告中明確提到,深度學(xué)習(xí)需要從系統(tǒng)1到系統(tǒng)2轉(zhuǎn)化.這里所說(shuō)的系統(tǒng)1和系統(tǒng)2來(lái)源于認(rèn)知科學(xué)中的雙通道理論,其中系統(tǒng)1可以理解為神經(jīng)系統(tǒng),它表示直覺的、快速的、無(wú)意識(shí)的系統(tǒng);系統(tǒng)2可以理解為符號(hào)系統(tǒng),它表示慢的、有邏輯的、有序的、可推理的系統(tǒng).Bengio所提的系統(tǒng)2關(guān)于深度學(xué)習(xí)的想法與“神經(jīng)+符號(hào)”的知識(shí)表示與推理目標(biāo)基本一致.神經(jīng)系統(tǒng)優(yōu)勢(shì)在于能夠輕松處理圖像識(shí)別、文本分類等一類機(jī)器學(xué)習(xí)擅長(zhǎng)的問題,模型能夠允許數(shù)據(jù)噪音的存在,但缺點(diǎn)在于其端到端的過程缺乏可解釋性,并且在模型求解答案過程中難以嵌入已有的人類知識(shí).相反地,符號(hào)系統(tǒng)可以完美地定義各類專家經(jīng)驗(yàn)規(guī)則和知識(shí),形成對(duì)結(jié)構(gòu)化數(shù)據(jù)的各類原子操作,在此基礎(chǔ)上通過搜索和約束進(jìn)行求解,整個(gè)過程的解釋性和可理解性也很強(qiáng).但是,符號(hào)系統(tǒng)的缺點(diǎn)在于難以處理很多擁有異常數(shù)據(jù)和噪音的場(chǎng)景.然而,“神經(jīng)+符號(hào)”到底如何有機(jī)結(jié)合,實(shí)現(xiàn)起來(lái)并不容易.知識(shí)圖譜從早期的知識(shí)庫(kù)、專家系統(tǒng),到谷歌2012年正式提出知識(shí)圖譜,其發(fā)展歷程也體現(xiàn)了神經(jīng)系統(tǒng)和符號(hào)系統(tǒng)的各自發(fā)展縮影,整體上可分為神經(jīng)助力符號(hào)和符號(hào)助力神經(jīng)兩大類.
神經(jīng)助力符號(hào)推理方法的特點(diǎn)在于將神經(jīng)的方法應(yīng)用在傳統(tǒng)符號(hào)系統(tǒng)的問題求解,通常主要是解決淺層的推理問題,其核心在于如何將神經(jīng)系統(tǒng)學(xué)到的“淺層知識(shí)表示”(計(jì)算結(jié)構(gòu)和連續(xù)型數(shù)值表示的知識(shí))更新到已有的符號(hào)知識(shí)體系中(離散的、顯式的符號(hào)化知識(shí)).
敏捷邏輯(swift logic)是牛津大學(xué)Gottlob等人[57]關(guān)于“神經(jīng)+符號(hào)”的嘗試,如圖5所示,該系統(tǒng)既能夠執(zhí)行復(fù)雜的推理任務(wù)(以Datalog±語(yǔ)言為理論基礎(chǔ)),同時(shí)在可接受的計(jì)算復(fù)雜度下,利用神經(jīng)網(wǎng)絡(luò)在大數(shù)據(jù)上實(shí)現(xiàn)高效和可擴(kuò)展的推理.此外,敏捷邏輯還定義了與企業(yè)數(shù)據(jù)庫(kù)、網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)和分析軟件包的接口,以實(shí)現(xiàn)與數(shù)據(jù)庫(kù)和人工智能中不斷出現(xiàn)的新技術(shù)相結(jié)合.敏捷邏輯的特點(diǎn)是不局限于模型層面的結(jié)合,更關(guān)注從知識(shí)圖譜管理系統(tǒng)框架層面來(lái)使用神經(jīng)和符號(hào)多種技術(shù).
Fig. 5 Neural for symbolic system—swift logic圖5 神經(jīng)助理符號(hào)系統(tǒng)——敏捷邏輯框架
Markov邏輯網(wǎng)絡(luò)[58](Markov logic network, MLN)是由一階邏輯公式及其對(duì)應(yīng)的權(quán)值組成的二元組集合,其基本思想是利用統(tǒng)計(jì)關(guān)系學(xué)習(xí)模型將Markov網(wǎng)絡(luò)與一階邏輯相結(jié)合,進(jìn)而實(shí)現(xiàn)對(duì)傳統(tǒng)一階邏輯限制的放松,在自然語(yǔ)言處理、復(fù)雜網(wǎng)絡(luò)、信息抽取等領(lǐng)域都有重要的應(yīng)用.此類方法的缺點(diǎn)在于模型往往受限于Markov邏輯推理的效率瓶頸,采用相對(duì)簡(jiǎn)單的邏輯推理機(jī)制又易陷入推理困境.
知識(shí)圖譜表示學(xué)習(xí)技術(shù)[59]也是一種典型的神經(jīng)助力符號(hào)推理的研究,其特點(diǎn)是采用神經(jīng)系統(tǒng)訓(xùn)練的思想,設(shè)計(jì)知識(shí)圖譜實(shí)體和關(guān)系在隱空間下的距離度量函數(shù),用統(tǒng)計(jì)推理代替邏輯演繹,最終應(yīng)用于知識(shí)補(bǔ)全或其他下游任務(wù)中.最具代表性的工作是翻譯模型TransE[60]和基于矩陣分解的RESCAL[61]模型.在這2種方法的啟發(fā)下誕生了很多變種,其本質(zhì)區(qū)別是分別從知識(shí)圖譜特征上有更多考慮,如時(shí)空知識(shí)圖譜嵌入[62],或從表示空間上進(jìn)行拓展遷移,如使用奇異值分解模型生成的復(fù)數(shù)值嵌入ComplEx[63],ConvE[64]等.受知識(shí)圖譜表示學(xué)習(xí)的啟發(fā)和圖神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展,華盛頓大學(xué)Chen等人[65]則嘗試直接使用圖神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)技術(shù)進(jìn)行知識(shí)表示學(xué)習(xí).
牛津大學(xué)和倫敦大學(xué)學(xué)院的研究團(tuán)隊(duì)提出神經(jīng)理論證明機(jī)[66],其設(shè)計(jì)了一個(gè)端到端的微分定理證明神經(jīng)網(wǎng)絡(luò),其中的運(yùn)算基于知識(shí)圖譜的稠密實(shí)值向量表示,通過運(yùn)算稠密向量表示來(lái)實(shí)現(xiàn)對(duì)知識(shí)圖譜上查詢的端到端可微證明.在該過程中,神經(jīng)網(wǎng)絡(luò)是受Prolog中的反向鏈算法啟發(fā)遞歸構(gòu)造而成,同時(shí)用徑向基函數(shù)核符號(hào)向量表示的可微計(jì)算來(lái)代替?zhèn)鹘y(tǒng)的符號(hào)統(tǒng)一表示,從而將符號(hào)推理與學(xué)習(xí)次符號(hào)向量表示相結(jié)合.
斯坦福大學(xué)的自然語(yǔ)言處理團(tuán)隊(duì)提出神經(jīng)張量網(wǎng)絡(luò)[67],相比前人在知識(shí)圖譜里使用實(shí)體去預(yù)測(cè)關(guān)系,其引入了一個(gè)損失函數(shù)為雙線性的3層神經(jīng)網(wǎng)絡(luò)模型,并且對(duì)于實(shí)體向量初始化的處理采用非監(jiān)督模型訓(xùn)練得到的詞向量的平均值,進(jìn)而大大提高了系統(tǒng)準(zhǔn)確率.
清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室在知識(shí)圖譜表示學(xué)習(xí)領(lǐng)域發(fā)布了OpenKE平臺(tái)(1)http://openke.thunlp.org/,整合了TransE,TransH,TransR,TransD,RESCAL,DistMult,HolE,ComplEx等算法,提供了統(tǒng)一接口方便研究人員進(jìn)行高效復(fù)現(xiàn)或直接調(diào)用,同時(shí),在WikiData 和 Freebase兩個(gè)數(shù)據(jù)集上提供了預(yù)訓(xùn)練知識(shí)表示.該項(xiàng)目旨在為開發(fā)者和研究人員提供便利,在系統(tǒng)工具方面是一項(xiàng)重要的貢獻(xiàn).
東南大學(xué)的Wang等人[68-69]從知識(shí)圖譜的應(yīng)用出發(fā),在知識(shí)圖譜嵌入空間求解復(fù)雜問題方向提出了一系列方法,首先針對(duì)知識(shí)圖譜復(fù)雜查詢面臨的空集問題,充分利用知識(shí)圖譜嵌入空間對(duì)于數(shù)據(jù)不完整性的彌補(bǔ)以及鏈接預(yù)測(cè)機(jī)制,設(shè)計(jì)了一種全身的知識(shí)圖譜近似查詢方法[68-69],并針對(duì)該方法的效率問題設(shè)計(jì)了合理的知識(shí)圖譜哈希學(xué)習(xí)方法[70].
南京大學(xué)的Hu等人[71-72]和清華大學(xué)的Li等人[73]在傳統(tǒng)的知識(shí)圖譜實(shí)體對(duì)齊任務(wù)上,引入知識(shí)圖譜表示學(xué)習(xí)技術(shù),提出了一系列基于知識(shí)圖譜嵌入的實(shí)體對(duì)齊模型,并充分考慮了路徑等特征對(duì)于實(shí)體對(duì)齊模型的影響[73].值得一提的是南京大學(xué)的Hu等人在基準(zhǔn)數(shù)據(jù)集上對(duì)于知識(shí)圖譜嵌入的有效性做了深入評(píng)測(cè),為該領(lǐng)域提供了重要的基準(zhǔn)數(shù)據(jù)集和方向指引[74].
中山大學(xué)的Wan等人[75]和廣東外語(yǔ)外貿(mào)大學(xué)的Du等人[76]針對(duì)知識(shí)圖譜表示學(xué)習(xí)的更新問題,以及無(wú)法有效利用邏輯公理進(jìn)行推理的缺陷,提出了一種效率較高的增量更新方法,可以在不重新進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練的情況下對(duì)知識(shí)圖譜實(shí)體和關(guān)系向量進(jìn)行更新,同時(shí)分析了各種現(xiàn)有的基于翻譯機(jī)制的表示學(xué)習(xí)模型對(duì)不同類型的邏輯公式的支持情況,并有效嵌入邏輯規(guī)則提升嵌入質(zhì)量.
值得一提的是,異質(zhì)信息網(wǎng)絡(luò)近年來(lái)和知識(shí)圖譜一樣在社交網(wǎng)絡(luò)挖掘領(lǐng)域也逐漸被提及,國(guó)內(nèi)清華大學(xué)的Cui等人[77-78]在異質(zhì)信息網(wǎng)絡(luò)的表示學(xué)習(xí)方面從節(jié)點(diǎn)重要性、社團(tuán)、網(wǎng)絡(luò)距離等方面都進(jìn)行了向量空間中的探索研究,同時(shí)考慮了超圖等復(fù)雜的結(jié)構(gòu)和嵌入的動(dòng)態(tài)更新,為知識(shí)圖譜領(lǐng)域的嵌入提供了一定的借鑒思路.北京郵電大學(xué)的Shi等人[79-81]則立足于知識(shí)圖譜和社交網(wǎng)絡(luò)的研究交叉點(diǎn),重點(diǎn)探索了基于圖神經(jīng)網(wǎng)絡(luò)和異質(zhì)信息網(wǎng)絡(luò)表示學(xué)習(xí)技術(shù)在文本分析、知識(shí)圖譜問答、推薦系統(tǒng)層面的作用.
符號(hào)助力神經(jīng)方法的特點(diǎn)在于將符號(hào)的方法應(yīng)用在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中.國(guó)外代表性的工作有:
日本索尼公司聯(lián)合英國(guó)和意大利的學(xué)者共同提出的邏輯張量網(wǎng)絡(luò)[82-83],通過改進(jìn)神經(jīng)的方法,引入稱為多值和端到端的可微分一階邏輯作為表示語(yǔ)言來(lái)支持深度學(xué)習(xí)和推理.邏輯張量網(wǎng)絡(luò)為多種任務(wù)(例如數(shù)據(jù)聚類、多標(biāo)簽分類、關(guān)系學(xué)習(xí)、查詢應(yīng)答、半監(jiān)督學(xué)習(xí)、回歸和嵌入學(xué)習(xí))提供了統(tǒng)一的語(yǔ)言.
卡內(nèi)基梅隆大學(xué)團(tuán)隊(duì)使用邏輯規(guī)則在深度神經(jīng)網(wǎng)絡(luò)中進(jìn)行數(shù)據(jù)的編審(data curation)[84],其核心是將一階邏輯規(guī)則所代表的認(rèn)知和結(jié)構(gòu)化知識(shí)通過后驗(yàn)正則項(xiàng)(posterior regularization)建模成一個(gè)指導(dǎo)網(wǎng)絡(luò)(teacher network),然后用知識(shí)蒸餾的方式將指導(dǎo)網(wǎng)絡(luò)中的知識(shí)傳授給另一個(gè)學(xué)習(xí)者神經(jīng)網(wǎng)絡(luò)(student neural network)的權(quán)重中,實(shí)現(xiàn)在測(cè)試階段一些新樣本的預(yù)測(cè).
斯坦福大學(xué)的研究團(tuán)隊(duì)提出的遠(yuǎn)程監(jiān)督(distant supervision)模型[85],衍生出了一系列研究工作.遠(yuǎn)程監(jiān)督針對(duì)知識(shí)圖譜構(gòu)建過程中的核心任務(wù)關(guān)系抽取,假設(shè)知識(shí)圖譜中存在一個(gè)三元組〈實(shí)體1,關(guān)系,實(shí)體2〉,那么給定非結(jié)構(gòu)化的文本中任何包含實(shí)體1和實(shí)體2的句子在一定程度上都反映了該三元組中的關(guān)系.基于這個(gè)假設(shè),遠(yuǎn)程監(jiān)督算法可以利用知識(shí)圖譜中已有三元組和對(duì)應(yīng)的關(guān)系來(lái)啟發(fā)式地標(biāo)注句子.值得一提的是遠(yuǎn)程監(jiān)督這種啟發(fā)式的策略可能使一些句子被錯(cuò)誤標(biāo)記,導(dǎo)致抽取性能下降,因而如何去噪是遠(yuǎn)程監(jiān)督的關(guān)鍵問題.
在計(jì)算機(jī)視覺和自然語(yǔ)言處理領(lǐng)域的少樣本、零樣本模型和場(chǎng)景中,知識(shí)圖譜等符號(hào)知識(shí)也被用來(lái)增強(qiáng)訓(xùn)練數(shù)據(jù),從而擴(kuò)充監(jiān)督信息,實(shí)現(xiàn)用充足數(shù)據(jù)和可靠的經(jīng)驗(yàn)知識(shí)將神經(jīng)系統(tǒng)學(xué)習(xí)得到的模型誤差最小化[86].
Fig. 6 Neural+symbolic complex multi-hop question answering圖6 神經(jīng)符號(hào)結(jié)合的復(fù)雜多跳問題求解
哈爾濱工業(yè)大學(xué)團(tuán)隊(duì)近年來(lái)致力于符號(hào)助力的自然語(yǔ)言處理研究,在傳統(tǒng)的自然語(yǔ)言處理的實(shí)體識(shí)別及其類別獲取、關(guān)系抽取、文本情感分析、生物醫(yī)學(xué)文獻(xiàn)挖掘、因果推斷、知識(shí)推理、事理圖譜構(gòu)建等方面都有一定的進(jìn)展[87].
中國(guó)科學(xué)院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室團(tuán)隊(duì)充分利用符號(hào)形式的知識(shí),在傳統(tǒng)的自然語(yǔ)言處理[88]和事件知識(shí)抽取[89]方面取得了一系列進(jìn)展.在自然語(yǔ)言處理方面,其最新致力于探索神經(jīng)網(wǎng)絡(luò)的可解釋性研究;在事件圖譜構(gòu)建方面,其最新致力于面向垂直領(lǐng)域的復(fù)雜場(chǎng)景事件知識(shí)抽取和事件圖譜構(gòu)建.
復(fù)旦大學(xué)團(tuán)隊(duì)近年來(lái)提出的符號(hào)接地(symbol grounding)工作[90],旨在為大規(guī)模知識(shí)圖譜實(shí)現(xiàn)符號(hào)接地,實(shí)現(xiàn)基于大規(guī)模知識(shí)圖譜的跨模態(tài)語(yǔ)義增強(qiáng).其核心思想是以符號(hào)知識(shí)為核心的認(rèn)知智能與以模式識(shí)別為核心的感知智能相結(jié)合,在大規(guī)模符號(hào)接地技術(shù)的推動(dòng)下,使機(jī)器學(xué)習(xí)與符號(hào)知識(shí)充分融合與協(xié)同計(jì)算,進(jìn)而賦予符號(hào)化的知識(shí)體系與形式化系統(tǒng)以“體驗(yàn)”與“意義”,進(jìn)一步提升機(jī)器的認(rèn)知水平.
一個(gè)完美的“神經(jīng)+符號(hào)”系統(tǒng)的特點(diǎn)和優(yōu)勢(shì)為:1)能夠輕松處理目前主流機(jī)器學(xué)習(xí)擅長(zhǎng)的問題;2)對(duì)于數(shù)據(jù)噪音有較強(qiáng)的魯棒性;3)系統(tǒng)求解過程和結(jié)果可以被人容易地進(jìn)行理解、解釋和評(píng)價(jià);4)可以很好地進(jìn)行各類符號(hào)的操作;5)可以無(wú)縫地利用各種背景知識(shí).從以上標(biāo)準(zhǔn)來(lái)看,實(shí)現(xiàn)神經(jīng)符號(hào)知識(shí)表示的充分結(jié)合還有很長(zhǎng)一段路要走.國(guó)外目前最具代表性的研究為Cohen等人[91]和Lamb等人[92]的研究工作.
Cohen[91]作為人工智能領(lǐng)域的重要學(xué)者,近年來(lái)發(fā)表了一系列的神經(jīng)符號(hào)結(jié)合的研究工作,其中典型工作DrKIT的整體框架如圖6所示.DrKIT使用語(yǔ)料庫(kù)作為虛擬的知識(shí)圖譜,進(jìn)而實(shí)現(xiàn)復(fù)雜多跳問題求解.DrKIT采用傳統(tǒng)知識(shí)圖譜上的搜索策略進(jìn)行文本數(shù)據(jù)的遍歷,主要是遵循語(yǔ)料庫(kù)中包含文本提及實(shí)體之間的關(guān)系路徑.在每個(gè)步驟中,DrKIT使用稀疏矩陣TF/IDF索引和最大內(nèi)積搜索,并且整個(gè)模塊是可微的,所以整個(gè)系統(tǒng)可使用基于梯度的方法從自然語(yǔ)言輸入到輸出答案進(jìn)行訓(xùn)練.DrKIT非常高效,每秒比現(xiàn)有的多跳問答系統(tǒng)快10~100倍,同時(shí)保持了很高的精度.
Lamb等人[92]從事神經(jīng)符號(hào)結(jié)合的人工智能研究已經(jīng)很多年,其最新的研究致力于探索圖神經(jīng)網(wǎng)絡(luò)技術(shù)在神經(jīng)符號(hào)集合的智能計(jì)算過程中扮演的關(guān)鍵作用.值得一提的是,由其發(fā)起的神經(jīng)符號(hào)國(guó)際研討會(huì)已經(jīng)召開了15屆,近些年逐漸受到越來(lái)越多的關(guān)注.
清華大學(xué)的Ding等人[93]所做的工作CogQA提出了基于人類認(rèn)知模式的認(rèn)知圖譜來(lái)解決閱讀理解上的多跳問答,屬于神經(jīng)符號(hào)結(jié)合較為均衡的工作,整體框架如圖7所示.其核心思想是“知識(shí)圖譜+認(rèn)知推理+邏輯表達(dá)”,目的是在系統(tǒng)1中做知識(shí)的擴(kuò)展,在系統(tǒng)2中做邏輯推理和決策(采用圖神經(jīng)網(wǎng)絡(luò)和符號(hào)知識(shí)結(jié)合的方法),進(jìn)而實(shí)現(xiàn)用符號(hào)知識(shí)的表示、推理和決策(系統(tǒng)2)來(lái)解決深度學(xué)習(xí)求解過程(系統(tǒng)1)的黑盒問題.值得一提的是要真正實(shí)現(xiàn)對(duì)系統(tǒng)1所有場(chǎng)景的知識(shí)和推理,需要萬(wàn)億級(jí)的知識(shí)圖譜支持.
Fig. 7 Neural+symbolic cognitive graph圖7 神經(jīng)符號(hào)結(jié)合的認(rèn)知圖譜
浙江大學(xué)的Zhang等人[94]在知識(shí)圖譜表示學(xué)習(xí)和規(guī)則挖掘方面的結(jié)合近年來(lái)進(jìn)行了一系列探索,核心思想是將表示學(xué)習(xí)和規(guī)則挖掘結(jié)合在一起,互相彌補(bǔ)各自的瓶頸,既能夠通過知識(shí)圖譜規(guī)則挖掘的方法提取一組可代表知識(shí)圖譜語(yǔ)義信息的Horn邏輯規(guī)則,又通過基于規(guī)則的物化推理方法將相應(yīng)的隱藏語(yǔ)義信息注入到知識(shí)圖譜表示學(xué)習(xí)模型中提升嵌入效果,反之,更新后的知識(shí)圖譜嵌入集合有效的生成策略可以生成候選規(guī)則.
吉林大學(xué)的Cui等人[95]最新的研究工作充分探究了神經(jīng)符號(hào)結(jié)合在圖生成領(lǐng)域的效果,該文作者提出一個(gè)通用的關(guān)注成本的圖生成(cost-aware graph generation)框架,把貝葉斯優(yōu)化的優(yōu)勢(shì)帶給圖生成任務(wù)來(lái)解決此問題,該方法在分子發(fā)現(xiàn)和神經(jīng)架構(gòu)搜索2個(gè)具有挑戰(zhàn)任務(wù)中能夠找到次優(yōu)甚至最優(yōu)解,同時(shí)比當(dāng)前最新的深度圖生成技術(shù),特別是被MIT review評(píng)論為2020年十大突破技術(shù)之一的GENTRL方法降低了30%~95%的評(píng)估代價(jià).
在非結(jié)構(gòu)化多模態(tài)數(shù)據(jù)組織方面,多模態(tài)知識(shí)圖譜目前已經(jīng)成為國(guó)內(nèi)外學(xué)者對(duì)于多種類型數(shù)據(jù)組織的共識(shí),國(guó)內(nèi)外的學(xué)者均有新的研究成果.對(duì)于國(guó)外研究團(tuán)隊(duì)而言,其核心思路依然是從維基百科中抽取已有知識(shí)圖譜的多模態(tài)數(shù)據(jù)資源,而國(guó)內(nèi)研究團(tuán)隊(duì)將范圍擴(kuò)展到了通過全域的數(shù)據(jù)資源來(lái)補(bǔ)充已有知識(shí)圖譜中的視覺和文本信息.可以看出,對(duì)于知識(shí)圖譜而言,開放域的非結(jié)構(gòu)化數(shù)據(jù)資源豐富,但是如何同已有結(jié)構(gòu)化的圖譜融合并建立不同模態(tài)數(shù)據(jù)之間的語(yǔ)義關(guān)聯(lián)是關(guān)鍵.此外,國(guó)內(nèi)研究團(tuán)隊(duì)面向垂直領(lǐng)域(智慧教育)提出了系統(tǒng)級(jí)的研究工作,這一點(diǎn)要比國(guó)外的研究更具有落地思維,可以預(yù)見未來(lái)國(guó)內(nèi)在更多垂域會(huì)出現(xiàn)以多模態(tài)知識(shí)圖譜為基礎(chǔ)的系統(tǒng)和應(yīng)用.在多模態(tài)數(shù)據(jù)理解方面,受益于深度學(xué)習(xí)技術(shù)的持續(xù)發(fā)展,國(guó)內(nèi)外在該領(lǐng)域都取得了最新的研究成果.可以看出,國(guó)內(nèi)研究人員已經(jīng)可以從延續(xù)他人工作轉(zhuǎn)變?yōu)殚_辟新的研究領(lǐng)域,這一點(diǎn)說(shuō)明國(guó)內(nèi)在該領(lǐng)域走在世界學(xué)術(shù)前沿.值得一提的是,國(guó)內(nèi)學(xué)者在知識(shí)圖譜驅(qū)動(dòng)的多模態(tài)數(shù)據(jù)理解方面同樣具有較強(qiáng)的應(yīng)用落地思維,分別面向推薦系統(tǒng)等垂直場(chǎng)景進(jìn)行了探索嘗試.
在大規(guī)模動(dòng)態(tài)表示學(xué)習(xí)方面,國(guó)內(nèi)外均有新的研究成果,在不同的方向有所突破.國(guó)外在序列模型編碼方法上有更多模型被提出,對(duì)GCN,GNN等類型的編碼器進(jìn)行了改進(jìn),在動(dòng)態(tài)表示方面取得了更好的結(jié)果;而國(guó)內(nèi)主要的工作集中在基于分解、基于歷時(shí)性編碼和基于隨機(jī)游走改進(jìn)3個(gè)方面,雖然與國(guó)外的方法思路不同,但是在動(dòng)態(tài)表示方面也有亮點(diǎn)和突出表現(xiàn).知識(shí)圖譜預(yù)訓(xùn)練是近兩年的一個(gè)熱點(diǎn)方向,國(guó)內(nèi)外很多研究機(jī)構(gòu)都針對(duì)此方面有所研究并做出了突破.國(guó)外在圖譜表示的預(yù)訓(xùn)練方面有一些新的工作,并在基于知識(shí)圖譜圖結(jié)構(gòu)的預(yù)訓(xùn)練方面有更多的進(jìn)展.而國(guó)內(nèi),基于自然語(yǔ)言方面的知識(shí)預(yù)訓(xùn)練有更多的新模型產(chǎn)生,諸如北京大學(xué)、清華大學(xué)等學(xué)校,百度等企業(yè)均在這方面有新的研究成果產(chǎn)生.尤其是面向基于大規(guī)模知識(shí)下游任務(wù)的預(yù)訓(xùn)練模型,有了重大突破,對(duì)數(shù)以10億計(jì)規(guī)模的知識(shí)進(jìn)行了預(yù)訓(xùn)練,并應(yīng)用于阿里電商平臺(tái),為商品推薦、語(yǔ)義搜索和智能問答等下游任務(wù)提供支持.
在神經(jīng)助力符號(hào)方面,國(guó)內(nèi)外均有新的研究成果.通過比較可以看出,國(guó)外研究團(tuán)隊(duì)在知識(shí)圖譜表示學(xué)習(xí)技術(shù)的初期走在該領(lǐng)域的前沿,提出了一系列開創(chuàng)性的工作;國(guó)內(nèi)的研究團(tuán)隊(duì)主要針對(duì)各類模型和數(shù)據(jù)特點(diǎn)進(jìn)行改進(jìn),在后期逐漸提出了創(chuàng)新性更高和實(shí)用性更強(qiáng)的工作,尤其是知識(shí)圖譜表示學(xué)習(xí)技術(shù)在其他任務(wù)(如智能問答、近似搜索、推薦系統(tǒng)、實(shí)體對(duì)齊、社交網(wǎng)絡(luò)等)中有效地使用,國(guó)內(nèi)研究團(tuán)隊(duì)走在學(xué)術(shù)的前沿,可以看出國(guó)內(nèi)學(xué)者更傾向于應(yīng)用層級(jí)的研究.除此之外,在邏輯推理等偏理論的模型中如何引入神經(jīng)網(wǎng)絡(luò),國(guó)內(nèi)研究工作還不多.在符號(hào)助力神經(jīng)方面,國(guó)內(nèi)外都走在學(xué)術(shù)的前沿.在神經(jīng)符號(hào)結(jié)合方面,谷歌公司依然走在世界的最前沿,提出了一系列開創(chuàng)性工作,國(guó)內(nèi)這方面的工作還偏少.不過整個(gè)神經(jīng)符號(hào)的有機(jī)結(jié)合還屬于初期探索領(lǐng)域,隨著越多的研究者開始關(guān)注,未來(lái)我國(guó)研究團(tuán)隊(duì)還有很大的提升空間.
知識(shí)圖譜對(duì)于大數(shù)據(jù)智能具有重要意義,在自然語(yǔ)言處理、信息檢索、智能推薦和智能問答等領(lǐng)域中發(fā)揮重要作用.
現(xiàn)如今,各大高校、科研機(jī)構(gòu)和商業(yè)互聯(lián)網(wǎng)絡(luò)公司都已經(jīng)意識(shí)到知識(shí)圖譜的重要戰(zhàn)略意義,紛紛投入精力加速對(duì)知識(shí)圖譜的研究與應(yīng)用.同時(shí),知識(shí)圖譜雖然已歷經(jīng)10余年的發(fā)展,但是依然處在發(fā)展的初級(jí)階段,部分知識(shí)圖譜投入使用但是應(yīng)用場(chǎng)景僅僅局限在商品推薦、智能搜索和醫(yī)療健康等領(lǐng)域,更多的領(lǐng)域知識(shí)圖譜還處在構(gòu)建完善階段,遠(yuǎn)遠(yuǎn)沒有達(dá)到投入前沿應(yīng)用并發(fā)揮顯著作用的地步.
在未來(lái)的一段時(shí)間內(nèi),知識(shí)圖譜的構(gòu)建、儲(chǔ)存、表示和推理等依然是知識(shí)圖譜領(lǐng)域內(nèi)的研究熱點(diǎn),與此同時(shí)適用于特殊場(chǎng)景、更多下游任務(wù)的特殊知識(shí)圖譜,諸如動(dòng)態(tài)知識(shí)圖譜、時(shí)序知識(shí)圖譜、空間知識(shí)圖譜、事理圖譜、認(rèn)知圖譜和多模態(tài)圖譜等均是研究者們關(guān)注的重點(diǎn),同時(shí)許多問題也需要學(xué)術(shù)界和工業(yè)界共同協(xié)力解決.在此,我們對(duì)未來(lái)新一代知識(shí)圖譜關(guān)鍵技術(shù)研究發(fā)展趨勢(shì)進(jìn)行展望.
知識(shí)不是簡(jiǎn)單的數(shù)據(jù),亦不是普通的信息,知識(shí)反映了客觀世界中事物之間的關(guān)系,不同事物或者相同事物之間的不同關(guān)系形成了不同的知識(shí).而在互聯(lián)網(wǎng)上,人們往往最先接觸到的是各種信息或各種數(shù)據(jù),而知識(shí)往往就存在于這些信息和數(shù)據(jù)中,人們可以通過對(duì)信息和數(shù)據(jù)的初步提煉和分析獲得自己需要的知識(shí).對(duì)于計(jì)算機(jī)而言同樣如此,如何從互聯(lián)網(wǎng)上各種格式的信息和大數(shù)據(jù)中提煉出其需要的知識(shí),是知識(shí)圖譜的重要問題.目前,已經(jīng)存在很多優(yōu)秀的算法可以從文本、圖像等格式的數(shù)據(jù)中抽取知識(shí),部分優(yōu)秀的算法也能達(dá)到比較優(yōu)異的準(zhǔn)確率.但是往往這些表現(xiàn)優(yōu)異的算法,更多的是針對(duì)格式化的數(shù)據(jù),并且對(duì)于知識(shí)的領(lǐng)域有所限制.然而,隨著需求的不斷提高,從非結(jié)構(gòu)化多模態(tài)的數(shù)據(jù)中提取特定領(lǐng)域的知識(shí)就愈發(fā)重要.因此,在未來(lái)針對(duì)非結(jié)構(gòu)化知識(shí)獲取、多模態(tài)知識(shí)獲取、長(zhǎng)文本處理、多方式協(xié)同獲取、特定領(lǐng)域知識(shí)獲取、環(huán)境自適應(yīng)增量獲取等方向的研究將成為研究者們進(jìn)一步深入研究的重點(diǎn).
知識(shí)圖譜主要以三元組的方式進(jìn)行儲(chǔ)存,這種方法可以較好地表示更多事實(shí)性知識(shí).然而,知識(shí)豐富多樣,面對(duì)很多特殊環(huán)境,簡(jiǎn)單的三元組就已經(jīng)束手無(wú)策,諸如時(shí)序知識(shí)、事件知識(shí)和模糊知識(shí)等.針對(duì)簡(jiǎn)單的知識(shí)圖譜三元組、時(shí)序知識(shí)圖譜和事件知識(shí)圖譜等,研究者們已經(jīng)研究出很多相關(guān)的表示模型用以對(duì)這些知識(shí)進(jìn)行表示.但是,現(xiàn)有的研究還遠(yuǎn)遠(yuǎn)沒有滿足人們的需求,知識(shí)表示是知識(shí)圖譜構(gòu)建和后續(xù)研究的基礎(chǔ),而且針對(duì)不同類型的知識(shí)圖譜也需要特定的知識(shí)表示方式.因此,針對(duì)特殊的知識(shí)圖譜,諸如時(shí)序、空間、事理、認(rèn)知圖譜等均需要獨(dú)特的知識(shí)表示方法,這些相比簡(jiǎn)單的三元組知識(shí)而言的復(fù)雜知識(shí)所需的特殊知識(shí)表示方法將是未來(lái)幾年知識(shí)表示方向的重要研究趨勢(shì).此外,近幾年,研究者們對(duì)知識(shí)表示的可解釋性越發(fā)地重視,不能簡(jiǎn)簡(jiǎn)單單地將知識(shí)表示為嵌入向量,而是需要對(duì)表示的可解釋性進(jìn)行展示.因此,未來(lái)幾年,知識(shí)表示可解釋性方面的研究依然會(huì)是熱點(diǎn).
神經(jīng)符號(hào)結(jié)合的知識(shí)更新與推理的核心在于神經(jīng)方法和符號(hào)方法如何有效結(jié)合,圍繞此過程,未來(lái)該領(lǐng)域的研究方向首先是神經(jīng)符號(hào)2種知識(shí)的翻譯問題,這種神經(jīng)符號(hào)知識(shí)的翻譯研究將主要包括知識(shí)圖譜預(yù)訓(xùn)練結(jié)果與知識(shí)圖譜實(shí)例的映射,以及融合神經(jīng)和符號(hào)的知識(shí)圖譜實(shí)例多重語(yǔ)義表達(dá).其次,在神經(jīng)符號(hào)完美融合較為困難的理論背景下,2類方法的合理組合方式可能會(huì)是研究人員更為實(shí)際的探索方向,主要包括“神經(jīng)+符號(hào)”的聯(lián)合表征學(xué)習(xí),融合預(yù)訓(xùn)練、知識(shí)圖譜、記憶機(jī)制的神經(jīng)符號(hào)組合框架設(shè)計(jì),面向不同垂域任務(wù)應(yīng)用的神經(jīng)符號(hào)知識(shí)互補(bǔ)范式,以及腦認(rèn)知啟發(fā)下的神經(jīng)符號(hào)結(jié)合4個(gè)方面.最后,在知識(shí)推理層級(jí),主要可能的研究方向包括融合神經(jīng)與符號(hào)知識(shí)的推理任務(wù)重定義、將符號(hào)知識(shí)高效編碼并且以低損方式嵌入到神經(jīng)網(wǎng)絡(luò)、設(shè)計(jì)包含符號(hào)知識(shí)的可微推理規(guī)則、本體(概念層次、公理規(guī)則)表示學(xué)習(xí)以及神經(jīng)符號(hào)推理引擎4個(gè)方面.
本文圍繞支撐新一代知識(shí)圖譜的關(guān)鍵技術(shù)研究進(jìn)展與趨勢(shì)展開系統(tǒng)性論述,內(nèi)容包括:非結(jié)構(gòu)化多模態(tài)圖譜組織與理解、大規(guī)模動(dòng)態(tài)圖譜表示學(xué)習(xí)與預(yù)訓(xùn)練模型、神經(jīng)符合結(jié)合的知識(shí)表示與推理.在此基礎(chǔ)上,給出了國(guó)內(nèi)與國(guó)際的當(dāng)前研究進(jìn)展,并對(duì)國(guó)內(nèi)外研究進(jìn)展進(jìn)行比較.最后對(duì)這些關(guān)鍵技術(shù)的發(fā)展趨勢(shì)進(jìn)行了展望.
作者貢獻(xiàn)聲明:王萌負(fù)責(zé)組織文章整體結(jié)構(gòu),調(diào)研部分文獻(xiàn)以及分析、整理文獻(xiàn);王昊奮完成部分文獻(xiàn)的分析與比較;李博涵調(diào)研、分析、整理文獻(xiàn);趙翔參與部分文獻(xiàn)的調(diào)研、分析和比較,還參與圖形制作以及審核論文;王鑫修訂論文.