覃 曉,廖兆琪,施 宇,元昌安
(1.南寧師范大學(xué),廣西南寧 530299,2.廣西科學(xué)院,廣西南寧 530007)
知識(shí)圖譜(Knowledge Graph)的研究最早可追溯到1977年,在第五屆國(guó)際人工智能會(huì)議上,美國(guó)計(jì)算機(jī)科學(xué)家Feigenbaum B.A.首次提出知識(shí)工程(Knowledge Engineering)的概念。知識(shí)工程即針對(duì)用戶(hù)提出的問(wèn)題用知識(shí)庫(kù)中已有的知識(shí)來(lái)求解的系統(tǒng),其中最經(jīng)典的是專(zhuān)家系統(tǒng)。
2012年5月17日,谷歌(Google)發(fā)布知識(shí)圖譜項(xiàng)目,并宣布以此為基礎(chǔ)構(gòu)建下一代智能化搜索引擎[1]。該項(xiàng)目通過(guò)對(duì)客觀真實(shí)世界中各種實(shí)體及其關(guān)系的描繪,形成一張巨大的語(yǔ)義結(jié)構(gòu)網(wǎng)絡(luò)圖,使各種龐雜無(wú)關(guān)的知識(shí)聯(lián)系起來(lái),從而達(dá)到便捷地獲取知識(shí)的目的。
如果按使用范圍劃分,知識(shí)圖譜可劃分為領(lǐng)域知識(shí)圖譜和通用知識(shí)圖譜。對(duì)于特定領(lǐng)域知識(shí),通過(guò)知識(shí)庫(kù)的理論進(jìn)行組織和管理較為有效。根據(jù)全球機(jī)構(gòu)庫(kù)統(tǒng)計(jì)網(wǎng)站開(kāi)放獲取知識(shí)庫(kù)名錄的數(shù)據(jù),截至2014年4月,大約有2 616個(gè)知識(shí)庫(kù)已在該網(wǎng)站注冊(cè),其中包含機(jī)構(gòu)知識(shí)庫(kù)2 212個(gè),占總數(shù)的84.56%。在國(guó)內(nèi),始建于2007年的中國(guó)科學(xué)院知識(shí)庫(kù)為全民提供大量的知識(shí)學(xué)習(xí)資源。另外,許多高校也開(kāi)始構(gòu)造或已經(jīng)構(gòu)造自己的知識(shí)庫(kù)系統(tǒng)。
通用知識(shí)圖譜指的是由世界知識(shí)構(gòu)成的語(yǔ)義網(wǎng)絡(luò)。從2006年開(kāi)始,隨著大規(guī)模百科資源的出現(xiàn)以及知識(shí)提取方法的進(jìn)步,知識(shí)工程取得重大進(jìn)展。典型的例子是谷歌收購(gòu)Freebase后在2012年推出的知識(shí)圖譜。最具代表性的大規(guī)模網(wǎng)絡(luò)知識(shí)獲取工作包括DBpedia、Freebase、KnowItAll、WikiTaxonomy和YAGO,以及BabelNet、ConceptNet、DeepDive、NELL、Probase、Wikidata、XLORE、Zhishi.me、CNDBpedia等。這些知識(shí)圖譜遵循RDF數(shù)據(jù)模型,包含數(shù)以千萬(wàn)級(jí)或者億級(jí)規(guī)模的實(shí)體,并且這些實(shí)體被組織到各種客觀世界的概念中。
知識(shí)圖譜是將大量收集的數(shù)據(jù)整理成機(jī)器能處理的知識(shí)庫(kù),并實(shí)現(xiàn)可視化的展示。知識(shí)圖譜本質(zhì)上是一種大規(guī)模的語(yǔ)義網(wǎng)絡(luò),其主要目的是對(duì)真實(shí)世界里實(shí)體或概念之間的關(guān)聯(lián)關(guān)系進(jìn)行描述。
三元組是知識(shí)圖譜的一種基本表示方式,即G=(E,R,S),其中E={e1,e2,…,e|E|}是知識(shí)庫(kù)中的實(shí)體集,共包含|E|種實(shí)體;R={r1,r2,…,r|E|}是知識(shí)庫(kù)中的關(guān)系集合,共包含|R|種關(guān)系;S?E×R×E代表知識(shí)庫(kù)中的三元組集合。三元組的主要結(jié)構(gòu)是實(shí)體-關(guān)系-實(shí)體,以及各種概念、屬性和屬性值等,其中實(shí)體是其最基本的元素。概念主要指集合、類(lèi)別、對(duì)象類(lèi)型等;屬性主要指對(duì)象可能具有的屬性、特征、特性等;屬性值主要指對(duì)象指定屬性的值。實(shí)體可以通過(guò)特有的標(biāo)簽來(lái)表示,關(guān)系則用來(lái)聯(lián)系兩個(gè)實(shí)體[2]。
知識(shí)圖譜的體系架構(gòu)是指構(gòu)造該圖譜模型的結(jié)構(gòu),如圖1所示。其中虛線框內(nèi)的部分為知識(shí)圖譜的模塊構(gòu)造過(guò)程。
圖1 知識(shí)圖譜的體系架構(gòu)Fig.1 Architecture of the knowledge graph
知識(shí)圖譜主要有自頂向下與自底向上兩種構(gòu)造方式。自頂向下指的是先定義所需要的模式,再將各種實(shí)體知識(shí)加入知識(shí)庫(kù)中。自底向上指的是先從各種數(shù)據(jù)中抽取實(shí)體,再篩選出置信度較高的實(shí)體去構(gòu)造頂層的模式[3]。
知識(shí)圖譜的體系架構(gòu)展現(xiàn)了構(gòu)造知識(shí)圖譜的幾個(gè)關(guān)鍵步驟,包括數(shù)據(jù)采集、知識(shí)抽取、知識(shí)融合、知識(shí)加工、知識(shí)更新等過(guò)程,其中,從數(shù)據(jù)采集到知識(shí)抽取還需要恰當(dāng)?shù)闹R(shí)表達(dá)技術(shù)。本文著重就知識(shí)表達(dá)和知識(shí)抽取兩個(gè)關(guān)鍵技術(shù)進(jìn)行闡述。
為了高效存儲(chǔ)與利用結(jié)構(gòu)化知識(shí),人們結(jié)合專(zhuān)家手工標(biāo)注與計(jì)算機(jī)自動(dòng)標(biāo)注等方式,面向開(kāi)放領(lǐng)域和垂直領(lǐng)域構(gòu)建了各種大規(guī)模知識(shí)圖譜。如來(lái)自羅馬薩皮恩薩大學(xué)的Roberto Navigli是BabelNet的創(chuàng)始人[4],BabelNet目前是最大的高質(zhì)量多語(yǔ)言百科全書(shū)計(jì)算機(jī)辭典,一個(gè)覆蓋廣泛的大型多語(yǔ)言語(yǔ)義網(wǎng)絡(luò)。BabelNet網(wǎng)絡(luò)能夠自動(dòng)將最大的多語(yǔ)Web百科全書(shū)——維基百科,鏈接到最常用的英語(yǔ)計(jì)算詞典WordNet。除此之外,機(jī)器翻譯也能夠讓所有語(yǔ)種的詞匯信息資源等更豐富,已有的BabelNet(v3.7)已覆蓋271種語(yǔ)言,包括全部的歐洲語(yǔ)言、大多數(shù)亞洲語(yǔ)言及拉丁語(yǔ)。在新的標(biāo)準(zhǔn)數(shù)據(jù)集和現(xiàn)有的標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果也證明這個(gè)資源具有很高的品質(zhì)和很廣的覆蓋范圍。
來(lái)自Max-Planck信息學(xué)研究所的Hoffart等[5]提出的YAGO2,是YAGO知識(shí)庫(kù)的一個(gè)拓展;實(shí)體、事實(shí)和事件在YAGO2知識(shí)庫(kù)里都被按照時(shí)間和空間的順序進(jìn)行排序;YAGO2涵蓋980萬(wàn)個(gè)實(shí)體的4.47億個(gè)事實(shí),這些事實(shí)數(shù)據(jù)都在GeoNames、維基百科以及WordNet上自動(dòng)構(gòu)建形成,經(jīng)過(guò)專(zhuān)家的評(píng)估確認(rèn),其中有95%的事實(shí)是正確的。
此外,還有WikiData[6]、Freebase[7]、DBpedia[8]、WordNet[9]等經(jīng)典知識(shí)庫(kù)。以WikiData為例,目前其已經(jīng)包含5 700多萬(wàn)個(gè)實(shí)體。與此同時(shí),國(guó)內(nèi)外各大互聯(lián)網(wǎng)公司也均有各自的知識(shí)圖譜產(chǎn)品,如谷歌知識(shí)圖譜、百度知心、同方、搜狗知立方和微軟(Microsoft) Bing Satori 等。
知識(shí)表示是知識(shí)圖譜研究首先需要討論的技術(shù)。鄢珞青[10]對(duì)知識(shí)表達(dá)方面的相關(guān)知識(shí)做了細(xì)致的研究,提出知識(shí)點(diǎn)的概念并討論了各種知識(shí)表達(dá)的類(lèi)型等。王知津等[11]在對(duì)知識(shí)組織各個(gè)方面進(jìn)行分析后提出多維性原則、科學(xué)性原則等十大原則。王軍等[12]著重對(duì)互聯(lián)網(wǎng)環(huán)境下知識(shí)的組織結(jié)構(gòu)進(jìn)行系統(tǒng)化討論,針對(duì)網(wǎng)絡(luò)知識(shí)組織系統(tǒng)的各種應(yīng)用層面進(jìn)行細(xì)致的介紹。知識(shí)表達(dá)組織需要根據(jù)整個(gè)知識(shí)庫(kù)系統(tǒng)的需求及其框架來(lái)確定。當(dāng)今,比較常用的知識(shí)表達(dá)框架主要基于面向?qū)ο?,將知識(shí)分解為實(shí)體與實(shí)體間的關(guān)系。
近年來(lái),知識(shí)表示學(xué)習(xí)由于深度學(xué)習(xí)的發(fā)展也獲得了相應(yīng)的成果,并逐漸成為前沿研究的熱點(diǎn)。知識(shí)表示學(xué)習(xí)主要是對(duì)知識(shí)庫(kù)中的實(shí)體以及它們之間的關(guān)系進(jìn)行學(xué)習(xí),將其中的語(yǔ)義知識(shí)信息向量化,從而在低維空間中實(shí)現(xiàn)高效計(jì)算實(shí)體和關(guān)系的語(yǔ)義聯(lián)系,不但有效解決數(shù)據(jù)稀疏的問(wèn)題,而且使知識(shí)獲取、融合和推理的效果更為有效。國(guó)外關(guān)于知識(shí)庫(kù)的研究更側(cè)重實(shí)踐方面,并且主要針對(duì)網(wǎng)絡(luò)知識(shí)組織系統(tǒng)進(jìn)行相關(guān)的研發(fā)工作,例如對(duì)在線圖書(shū)館的研究等[13]。
2.1.1 知識(shí)表示學(xué)習(xí)經(jīng)典模型
(1)神經(jīng)張量模型
神經(jīng)張量模型[14]的基本思想:在不同維度下,將實(shí)體聯(lián)系起來(lái),表示實(shí)體間復(fù)雜的語(yǔ)義聯(lián)系。模型為知識(shí)庫(kù)中的每個(gè)三元組(h,r,t)定義了以下形式的評(píng)價(jià)函數(shù):
神經(jīng)張量模型在構(gòu)造實(shí)體的向量表示時(shí),是將該實(shí)體中的所有單詞的向量取平均值,這樣一方面可以反復(fù)使用單詞向量構(gòu)造實(shí)體,另一方面將有利于增強(qiáng)低維向量的稠密程度以及實(shí)體與關(guān)系的語(yǔ)義計(jì)算。
(2)矩陣分解模型
通過(guò)矩陣分解的方式可得到低維的向量表示,因此相關(guān)模型被開(kāi)發(fā)出來(lái),其中的典型代表是RESACL模型[15]。
(3)翻譯模型
受平移不變現(xiàn)象的啟發(fā),有研究團(tuán)隊(duì)提出TransE模型[16],即將知識(shí)庫(kù)中實(shí)體之間的關(guān)系看成是從實(shí)體間的某種平移,并用向量表示。關(guān)系lr可以看作是從頭實(shí)體向量lh到尾實(shí)體向量lt的翻譯。對(duì)于知識(shí)庫(kù)中的每個(gè)三元組(h,r,t),TransE都希望滿(mǎn)足以下關(guān)系:lh+lr≈lt,其損失函數(shù)為
fr(h,r,t)=|lh+lr-lt|L1/L2,
即向量lh+lr與Lt的L1或L2距離。該模型的參數(shù)較少,計(jì)算的復(fù)雜度顯著降低,并且該模型具有較好的性能與擴(kuò)展性。
2.1.2 知識(shí)表示學(xué)習(xí)改進(jìn)模型
盡管知識(shí)表示學(xué)習(xí)經(jīng)典模型具有很好的效率和結(jié)果,并被廣泛應(yīng)用于知識(shí)表示學(xué)習(xí)任務(wù)中,但經(jīng)典模型仍存在難以表達(dá)復(fù)雜關(guān)系、未充分利用多步關(guān)系路徑信息的不足。有研究人員嘗試將復(fù)雜關(guān)系、多步路徑關(guān)系信息進(jìn)行嵌入表達(dá),如Tang等[17]針對(duì)知識(shí)表示學(xué)習(xí)中的復(fù)雜關(guān)系建模進(jìn)行研究,提出一種基于距離的鏈接預(yù)測(cè)知識(shí)圖嵌入方法。這個(gè)方法先是使用正交關(guān)系變換把RotatE拓展到高維空間上,然后把圖結(jié)構(gòu)的信息集成到距離評(píng)分函數(shù)中,用于訓(xùn)練和推理過(guò)程中度量三元組的相似性。Nguyen等[18]提出基于關(guān)系記憶網(wǎng)絡(luò)的Embedding模型,這個(gè)模型充分利用三元組之間潛在的依賴(lài)關(guān)系,其中包含多頭注意力機(jī)制編碼,并且在三元組分類(lèi)中驗(yàn)證了模型的效果比當(dāng)前最新的模型好。Zhang等[19]提出一種名為CrossE的新型知識(shí)圖譜嵌入,該模型可以正確地模擬交叉交互。它不僅能像大多數(shù)已有方法一樣為每個(gè)實(shí)體和關(guān)系學(xué)習(xí)生成一個(gè)通用嵌入,還為這兩者之間生成多個(gè)三重特定的嵌入,即交互嵌入。通過(guò)對(duì)典型鏈接預(yù)測(cè)任務(wù)上的嵌入評(píng)估,發(fā)現(xiàn)CrossE可以在很復(fù)雜的數(shù)據(jù)集上得到良好效果。同時(shí)從新的角度評(píng)估嵌入,然后對(duì)頭尾實(shí)體之間的可靠閉合路徑給出解釋?zhuān)瓿扇M的預(yù)測(cè)。Lin等[20]提出將關(guān)系路徑信息嵌入知識(shí)表示學(xué)習(xí)模型PTransE。PTransE提供一種知識(shí)圖譜的新型表示方法,通過(guò)編碼關(guān)系路徑將實(shí)體和關(guān)系嵌入一個(gè)低維空間之中,與傳統(tǒng)方法相比,PTransE在知識(shí)圖譜補(bǔ)全和文本關(guān)系抽取任務(wù)上取得了顯著的改進(jìn)效果。
復(fù)雜關(guān)系知識(shí)表示模型TransR和關(guān)系路徑知識(shí)表示PTransE是關(guān)系表示學(xué)習(xí)的成功改進(jìn)模型。
(1)復(fù)雜關(guān)系知識(shí)表示模型TransR
經(jīng)典知識(shí)表示模型的三元組(h,r,t)中,關(guān)系r僅代表一種語(yǔ)義。但實(shí)際情況下,同一個(gè)實(shí)體在不同的關(guān)系場(chǎng)景下具有的語(yǔ)義是有區(qū)別的。比如“繡球”在民族文化語(yǔ)義中是廣西壯族手工藝品,是壯家人的定情物和吉祥物,但在植物科目中“繡球”卻是薔薇目虎耳草科植物;“韋啟初”是環(huán)江韋氏仿古壯族銅鼓鑄造廠廠長(zhǎng),又是廣西壯族自治區(qū)級(jí)非物質(zhì)文化遺產(chǎn)“壯族銅鼓鑄造技藝”代表性傳承人。為擴(kuò)展經(jīng)典知識(shí)表示模型復(fù)雜關(guān)系的表達(dá)能力,Lin等[21]提出TransR模型,該模型基于復(fù)雜關(guān)系知識(shí)表示建模,為每一種關(guān)系r定義單獨(dú)的語(yǔ)義空間,并使用不同的映射矩陣Mr將經(jīng)典模型中的實(shí)體映射到關(guān)系空間中(圖2)。
圖2 實(shí)體空間到關(guān)系空間映射Fig.2 Mapping from entity space to relation space
以翻譯模型TransE為基礎(chǔ),考慮復(fù)雜關(guān)系的知識(shí)表示模型,在關(guān)系r所在的空間中,hr和tr滿(mǎn)足的損失函數(shù)與TransE相同。即
fr(h,r,t)=|lhr+lr-ltr|L1/L2。
(2)關(guān)系路徑知識(shí)表示模型PTransE
PTransE為關(guān)系三元組定義的損失函數(shù)考慮實(shí)體間多步關(guān)系路徑信息:
f(h,r,t)=E(h,r,t)+E(h,P,t),
其中,E(h,r,t)代表實(shí)體h和t之間直接關(guān)系的相關(guān)性,而E(h,P,t)則刻畫(huà)多步路徑所蘊(yùn)含的關(guān)系信息。PTransE模型將P看作是多條關(guān)系路徑p的嵌入表示,每一條關(guān)系路徑p看作多步關(guān)系信息得到的實(shí)體間關(guān)系的近似。于是E(h,P,t)就可以定義為
E(h,P,t)=∑p∈P(h,t)R(p|h,t)E(h,p,t),
近年來(lái),盡管很多大型知識(shí)圖譜,如Freebase、DBpedia、YAGO等在問(wèn)答系統(tǒng)、文本檢索等領(lǐng)域取得顯著效果,但是這些大型知識(shí)圖譜所涵蓋的知識(shí),與現(xiàn)實(shí)世界無(wú)窮無(wú)盡的知識(shí)比較起來(lái),是不夠完善的。因此,知識(shí)自動(dòng)獲取成為豐富知識(shí)圖譜知識(shí)和提高知識(shí)獲取效率的重要課題。在知識(shí)的自動(dòng)獲取技術(shù)上,關(guān)系抽取是其核心。關(guān)系抽取的目標(biāo)是解決實(shí)體間語(yǔ)義鏈接的問(wèn)題,最初的關(guān)系抽取是通過(guò)人為構(gòu)造規(guī)則的方法,隨后,實(shí)體間的關(guān)系模型逐漸替代人工預(yù)定義的語(yǔ)法與規(guī)則。文獻(xiàn)[22]提出面向開(kāi)放域的信息抽取框架(Open Information Extraction,OIE)。但OIE方法在對(duì)實(shí)體的隱含關(guān)系抽取方面性能低下,因此部分學(xué)者提出基于馬爾可夫邏輯網(wǎng)(Markov Logic Network,MLN)以及基于本體推理的深層隱含關(guān)系抽取方法[23]。
2.2.1 傳統(tǒng)的關(guān)系抽取模型
(1)開(kāi)放式實(shí)體關(guān)系抽取
開(kāi)放式實(shí)體關(guān)系抽取可分為二元開(kāi)放式關(guān)系抽取和n元開(kāi)放式關(guān)系抽取。在二元開(kāi)放式關(guān)系抽取中,早期的研究有KnowItAll[24]與TextRunner[25]系統(tǒng),但是表現(xiàn)一般。Suchanek等[26]提出一種基于Wikipedia的OIE方法——WOE,經(jīng)自監(jiān)督學(xué)習(xí)得到提取器,準(zhǔn)確率較TextRunner有顯著提高。
(2)基于聯(lián)合推理的實(shí)體關(guān)系抽取
聯(lián)合推理的實(shí)體關(guān)系抽取中的典型方法是馬爾可夫邏輯網(wǎng)MLN[27],其最核心的思想即將馬爾可夫網(wǎng)絡(luò)與邏輯相結(jié)合,同時(shí)也是在OIE中融入推理的一種重要實(shí)體關(guān)系抽取模型?;谠撃P?,Liu等[28]提出一種無(wú)監(jiān)督學(xué)習(xí)模型StatSnowball,不同于傳統(tǒng)的OIE,該方法可自動(dòng)產(chǎn)生或選擇樣例生成提取器。在StatSnowball的基礎(chǔ)上,楊博等[22]和Liu等[28]提出一種實(shí)體識(shí)別與關(guān)系抽取相結(jié)合的模型EntSum,該模型主要由擴(kuò)展的CRF命名實(shí)體識(shí)別模塊與基于StatSnowball的關(guān)系抽取模塊構(gòu)成,在保證準(zhǔn)確率的同時(shí)也提高了召回率。
(3)有監(jiān)督的實(shí)體關(guān)系抽取
傳統(tǒng)的有監(jiān)督的實(shí)體關(guān)系抽取模型主要基于統(tǒng)計(jì)方法,包括特征工程方法[29-31]、核函數(shù)方法[32-34]、圖模型方法[35-37]等。有監(jiān)督的實(shí)體關(guān)系抽取模型雖然取得有目共睹的效果,但是這些方法大多依賴(lài)于大量的標(biāo)注數(shù)據(jù),而取得大規(guī)模標(biāo)注數(shù)據(jù)需要極高代價(jià)的人力和物力。為取得大規(guī)模的標(biāo)注數(shù)據(jù)用于關(guān)系抽取模型的訓(xùn)練,Mintz等[38]提出遠(yuǎn)程監(jiān)督模型,用于自動(dòng)標(biāo)注訓(xùn)練數(shù)據(jù)。遠(yuǎn)程監(jiān)督模型基于一個(gè)強(qiáng)假設(shè)條件來(lái)標(biāo)注數(shù)據(jù),即假設(shè)在一個(gè)小型的知識(shí)圖譜中,兩個(gè)實(shí)體之間存在某種關(guān)系R,那么遠(yuǎn)程監(jiān)督模型認(rèn)為,現(xiàn)實(shí)世界中只要這兩個(gè)實(shí)體同時(shí)出現(xiàn)在一個(gè)句子中,則兩個(gè)實(shí)體間的關(guān)系就一定是R。
遠(yuǎn)程監(jiān)督的強(qiáng)假設(shè)條件不可避免地造成數(shù)據(jù)的錯(cuò)誤標(biāo)注問(wèn)題。為了解決遠(yuǎn)程監(jiān)督數(shù)據(jù)集的噪聲問(wèn)題,Bunescu等[39]將弱監(jiān)督學(xué)習(xí)與多實(shí)例學(xué)習(xí)相結(jié)合,并將其擴(kuò)展到關(guān)系抽取上。Riedel等[40]將遠(yuǎn)程監(jiān)督的關(guān)系抽取問(wèn)題形式化為多實(shí)例單標(biāo)簽問(wèn)題。但這些方法還是基于傳統(tǒng)的自然語(yǔ)言處理工具生成特征,其效果仍然受到特征提取錯(cuò)誤的附加影響。
2.2.2 關(guān)系抽取學(xué)習(xí)模型
伴隨著深度學(xué)習(xí)的快速發(fā)展,基于深度學(xué)習(xí)的關(guān)系抽取模型得到廣泛關(guān)注和研究。有監(jiān)督的關(guān)系抽取深度學(xué)習(xí)模型的研究,主要受計(jì)算機(jī)視覺(jué)任務(wù)中各種卷積神經(jīng)網(wǎng)絡(luò)的啟發(fā),諸多基于變種卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取模型相繼被提出[41-43],研究人員同時(shí)也關(guān)注了深度學(xué)習(xí)應(yīng)用與消除遠(yuǎn)程監(jiān)督模型噪聲數(shù)據(jù)的研究。
(1)句子級(jí)別的關(guān)系抽取深度學(xué)習(xí)模型
其中的αi在ATT模型中由選擇性注意力機(jī)制定義。
ATT模型通過(guò)從遠(yuǎn)程監(jiān)督的噪聲數(shù)據(jù)識(shí)別有效實(shí)例,減輕遠(yuǎn)程監(jiān)督中錯(cuò)誤標(biāo)注帶來(lái)的影響。但這種僅對(duì)每一類(lèi)關(guān)系使用單獨(dú)模型來(lái)處理噪聲數(shù)據(jù)的方法,忽略了實(shí)體關(guān)系間豐富的關(guān)聯(lián)信息,而這些關(guān)聯(lián)信息對(duì)關(guān)系抽取具有重要意義。
Yang等[45]在ATT模型基礎(chǔ)上引進(jìn)關(guān)系的層次信息,提出層次注意力模型的關(guān)系自動(dòng)抽取模型(HATT)。與ATT模型相比較,HATT模型引入關(guān)系內(nèi)在的層次結(jié)構(gòu),并規(guī)定底層關(guān)系具有特定的關(guān)系特征(如寧明花山景點(diǎn)),而高層關(guān)系則為泛化概念,較為籠統(tǒng)和普遍(如地域)。HATT模型在關(guān)系層次上逐層計(jì)算包含同樣實(shí)體對(duì)的句子權(quán)重,因而在不同層次的關(guān)系上具有不同粒度的信息選擇與噪聲處理能力。與傳統(tǒng)的去噪模型相比,注意力機(jī)制通過(guò)學(xué)習(xí)句子關(guān)系信息量的權(quán)重,能夠動(dòng)態(tài)降低噪聲句子的影響,有效提升關(guān)系抽取的性能。而層次注意力機(jī)制能夠更好地利用關(guān)系間豐富的聯(lián)系,進(jìn)一步提升關(guān)系抽取模型的整體效果。
(2)多語(yǔ)言關(guān)系抽取
在互聯(lián)網(wǎng)時(shí)代,承載信息的自由文本資源來(lái)源豐富,實(shí)體間的關(guān)系不僅存在于一種語(yǔ)言文本中,而且常常是多語(yǔ)言的。如同一個(gè)景區(qū)景點(diǎn)的介紹,常常存在多國(guó)語(yǔ)言版本,因此,不同語(yǔ)言文本之間,實(shí)體關(guān)系具有潛在的互補(bǔ)性和一致性。Lin等[46]基于實(shí)體關(guān)系通常在各種語(yǔ)言中存在不同的表達(dá)模式這個(gè)事實(shí),基于當(dāng)前存在的單語(yǔ)言關(guān)系抽取方法,提出一個(gè)基于多語(yǔ)言交叉Attention機(jī)制實(shí)體關(guān)系抽取方法(MNRE),即針對(duì)不同語(yǔ)言中實(shí)體間關(guān)系的不同表達(dá)模式,設(shè)計(jì)相應(yīng)的關(guān)系權(quán)重計(jì)算方法,可以充分利用不同語(yǔ)言中的關(guān)系模式,從而增強(qiáng)關(guān)系模式的學(xué)習(xí)。Wang等[47]針對(duì)MNRE模型不能夠很好地捕捉不同語(yǔ)言間關(guān)系模式的一致性和多樣性的問(wèn)題,將對(duì)抗網(wǎng)絡(luò)引入多語(yǔ)言關(guān)系抽取模型學(xué)習(xí)中,提出基于對(duì)抗訓(xùn)練的多語(yǔ)言神經(jīng)關(guān)系抽取模型(AMNRE)。該模型將不同語(yǔ)言文本映射到相應(yīng)的特有語(yǔ)言空間進(jìn)行語(yǔ)言特性的提取,并采用對(duì)抗機(jī)制以保證能夠有效抽取出語(yǔ)言一致性特征,從而解決關(guān)系模式一致性和多樣性的學(xué)習(xí)問(wèn)題。
3.1.1 基于知識(shí)圖譜的對(duì)話系統(tǒng)
對(duì)話系統(tǒng),傳統(tǒng)上分為目標(biāo)導(dǎo)向Agent和閑聊Agent兩種。所謂目標(biāo)導(dǎo)向Agent,即幫助用戶(hù)去完成某項(xiàng)任務(wù),例如幫忙預(yù)定餐桌或安排代駕等。閑聊Agent即智能對(duì)話,具有互動(dòng)性、娛樂(lè)性和話題性。
近年來(lái)涌現(xiàn)出太多關(guān)于深度神經(jīng)網(wǎng)絡(luò)構(gòu)建端到端(不需要特定通道)對(duì)話系統(tǒng)的工作。然而,現(xiàn)在越來(lái)越明顯的趨勢(shì)是,無(wú)論在目標(biāo)導(dǎo)向Agent還是閑聊Agent中都需要擁有一些知識(shí),前者需要領(lǐng)域知識(shí),后者需要常識(shí)知識(shí)。知識(shí)圖譜將提高Agent對(duì)話的可解釋性。在實(shí)際應(yīng)用中,一個(gè)任務(wù)型對(duì)話系統(tǒng)一般會(huì)涉及多個(gè)領(lǐng)域的知識(shí),分別對(duì)應(yīng)不同領(lǐng)域的知識(shí)庫(kù)。這些知識(shí)庫(kù)往往有著不同的來(lái)源。這些不同的知識(shí)源往往由不同的技術(shù)人員進(jìn)行維護(hù),且具有異構(gòu)的分布和屬性。這會(huì)導(dǎo)致知識(shí)庫(kù)很難甚至無(wú)法直接應(yīng)用于任務(wù)型對(duì)話系統(tǒng)中。所以,需要借助于知識(shí)融合模型,將這些異源的知識(shí)庫(kù)融合為一個(gè)知識(shí)庫(kù),然后再將融合后的知識(shí)庫(kù)應(yīng)用于任務(wù)型對(duì)話系統(tǒng)中[48]。
3.1.2 知識(shí)圖譜情報(bào)案例分析
漆桂林實(shí)驗(yàn)團(tuán)隊(duì)的前沿研究現(xiàn)狀是對(duì)知識(shí)圖譜在情報(bào)案例中的分析[49]。該團(tuán)隊(duì)為推動(dòng)知識(shí)圖譜發(fā)展,強(qiáng)調(diào)中文開(kāi)放知識(shí)圖譜聯(lián)盟OpenKG發(fā)展的必要性。該聯(lián)盟旨在推動(dòng)中文知識(shí)圖譜的開(kāi)放與互聯(lián),推動(dòng)知識(shí)圖譜技術(shù)在中國(guó)的普及與應(yīng)用,為中國(guó)人工智能的發(fā)展以及創(chuàng)新創(chuàng)業(yè)做出貢獻(xiàn)。
該實(shí)驗(yàn)團(tuán)隊(duì)舉例的情報(bào)案例分析包括股票投研情報(bào)分析、公安情報(bào)分析、反欺詐情報(bào)分析。對(duì)于股票投研情報(bào)分析,主要是從各種股票相關(guān)的半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)中批量自動(dòng)抽取股票相關(guān)人員的信息,構(gòu)建公司知識(shí)圖譜,為投資研究人員做更深層次的分析與決策提供可視化的分析依據(jù)。對(duì)于公安情報(bào)分析,主要是構(gòu)建融合企業(yè)與個(gè)人信息的資金關(guān)系知識(shí)圖譜,通過(guò)分析資金流向,為公安人員判斷是否為非法集資提供分析依據(jù)。對(duì)于反欺詐情報(bào)分析,主要是通過(guò)融合來(lái)自不同數(shù)據(jù)源的信息構(gòu)成知識(shí)圖譜,同時(shí)引入領(lǐng)域?qū)<医I(yè)務(wù)專(zhuān)家規(guī)則,利用構(gòu)建的知識(shí)圖譜分析識(shí)別可能潛在的詐騙風(fēng)險(xiǎn)[49]。
3.1.3 基于知識(shí)圖譜的產(chǎn)品案例
除上述將知識(shí)圖譜技術(shù)應(yīng)用于輔助特定業(yè)務(wù)分析之外,國(guó)內(nèi)有關(guān)知識(shí)圖譜技術(shù)應(yīng)用的成熟智能產(chǎn)品也在市場(chǎng)中不斷涌現(xiàn)。其中科大訊飛、云知聲等企業(yè)的基于知識(shí)圖譜的智慧產(chǎn)品在市場(chǎng)中表現(xiàn)尤為活躍。
科大訊飛基于學(xué)生學(xué)情、學(xué)科教學(xué)內(nèi)容等數(shù)據(jù),構(gòu)建教育領(lǐng)域知識(shí)圖譜,借助教育知識(shí)圖譜,幫助老師預(yù)設(shè)教學(xué)重點(diǎn),打造課前、課中、課后以生為本的教學(xué)閉環(huán)場(chǎng)景,構(gòu)建實(shí)時(shí)線上互動(dòng)的智慧課堂,顯著提升教學(xué)效率,實(shí)現(xiàn)精準(zhǔn)教學(xué)。同時(shí),知識(shí)點(diǎn)圖譜與自適應(yīng)推薦引擎可為學(xué)生構(gòu)建線上線下可視化的自主學(xué)習(xí)場(chǎng)景,支持學(xué)生按圖索驥式學(xué)習(xí),從而實(shí)現(xiàn)因材施教,提升學(xué)習(xí)效率,達(dá)到自主學(xué)習(xí)的目的。而通過(guò)構(gòu)建基于司法案件宗卷數(shù)據(jù)的司法領(lǐng)域知識(shí)圖譜,科大訊飛實(shí)現(xiàn)了智慧司法的產(chǎn)品研發(fā)和實(shí)際應(yīng)用。在公安、檢察機(jī)關(guān)、法院以及政法業(yè)務(wù)等領(lǐng)域,提供多種一體化智慧建設(shè)方案,實(shí)現(xiàn)案件宗卷語(yǔ)義理解,規(guī)范司法管理流程,打通公檢法司數(shù)據(jù)流程,服務(wù)各級(jí)機(jī)關(guān)執(zhí)法辦案,確保辦案證據(jù)標(biāo)準(zhǔn)符合法定定案標(biāo)準(zhǔn)。
與科大訊飛相比,云知聲的AI能力始于智能語(yǔ)音處理技術(shù),在知識(shí)感知、表達(dá)、理解、分析和決策等認(rèn)知技術(shù)廣泛部署,并朝著多模態(tài)人工智能系統(tǒng)方向發(fā)展。同樣是智能教育方案,云知聲專(zhuān)注于利用自然語(yǔ)言理解技術(shù),構(gòu)建自然語(yǔ)言語(yǔ)義及語(yǔ)音的關(guān)系知識(shí)庫(kù),并聯(lián)合應(yīng)用語(yǔ)音評(píng)測(cè)技術(shù)、云計(jì)算技術(shù)等,為用戶(hù)提供智能化的語(yǔ)言學(xué)習(xí)產(chǎn)品后臺(tái)服務(wù)。云知聲在智能家居、智慧醫(yī)療等行業(yè),將領(lǐng)域知識(shí)與語(yǔ)音識(shí)別、語(yǔ)音交互技術(shù)有效結(jié)合起來(lái),有效解決現(xiàn)實(shí)領(lǐng)域內(nèi)智能服務(wù)產(chǎn)品的技術(shù)實(shí)現(xiàn),真正帶給用戶(hù)良好流暢的交流體驗(yàn)和卓越的應(yīng)用價(jià)值。如云知聲提供的智慧醫(yī)療方案,能夠?qū)崿F(xiàn)智能語(yǔ)音交互的知識(shí)問(wèn)答和病例查詢(xún),從而進(jìn)行健康風(fēng)險(xiǎn)預(yù)測(cè)等患者病例分析,能夠從真正意義上實(shí)現(xiàn)病例的精準(zhǔn)錄入。
知識(shí)圖譜在未來(lái)的智能機(jī)器中將發(fā)揮大腦的作用,對(duì)自然語(yǔ)言處理、信息檢索以及人工智能的發(fā)展將產(chǎn)生深遠(yuǎn)的影響。知識(shí)圖譜關(guān)鍵技術(shù)及應(yīng)用研究將會(huì)在很長(zhǎng)一段時(shí)間成為大數(shù)據(jù)、人工智能的熱門(mén)研究方向。未來(lái)的知識(shí)圖譜關(guān)鍵技術(shù)及應(yīng)用仍需針對(duì)以下3個(gè)方面展開(kāi)深入研究。
第一,高質(zhì)量知識(shí)的獲取。如何在互聯(lián)網(wǎng)大數(shù)據(jù)以及其他紛繁浩瀚的數(shù)據(jù)來(lái)源里面獲取高質(zhì)量的知識(shí),是構(gòu)建知識(shí)圖譜的難題之一。目前在抽取知識(shí)的準(zhǔn)確率、有效性和效率等方面都不盡如人意,影響知識(shí)圖譜系統(tǒng)構(gòu)建的有效性。在旅游文化知識(shí)圖譜中,文化知識(shí)的來(lái)源主要為百科科普型網(wǎng)站、旅游網(wǎng)站以及相關(guān)的書(shū)籍等,各方面來(lái)源的知識(shí)匯聚到一起使得知識(shí)量非常龐大,出現(xiàn)冗余或者錯(cuò)誤的知識(shí)比較普遍,因此如何構(gòu)建知識(shí)圖譜的本體成為難題,這時(shí)需要旅游相關(guān)的專(zhuān)家來(lái)進(jìn)行實(shí)體的定義。如何定義實(shí)體并建立實(shí)體之間的關(guān)系,以及用什么方法把實(shí)體在知識(shí)中抽取出來(lái),這些都是建立知識(shí)圖譜非常關(guān)鍵的過(guò)程。同時(shí)為了保證知識(shí)的高質(zhì)量,在實(shí)體抽取的過(guò)程中需要大量的人力資源進(jìn)行校對(duì)修改。因此,如何有效地獲取高質(zhì)量的知識(shí),應(yīng)作為知識(shí)圖譜的重要研究主題。
第二,知識(shí)的融合。從不同來(lái)源獲取的知識(shí)可能存在大量的噪聲或者冗余,不同語(yǔ)種中對(duì)同類(lèi)型知識(shí)也可能存在不同的描述方式,使用什么方法把這些知識(shí)有效地融合到一起,以建立更大規(guī)模的知識(shí)圖譜,是完成大數(shù)據(jù)智能的必經(jīng)之路。在旅游文化知識(shí)圖譜系統(tǒng)中,某個(gè)實(shí)體或者概念在知識(shí)庫(kù)中可能存在不同的描述信息,在現(xiàn)實(shí)中也存在相同事物有多種不同叫法的情況。為了確保知識(shí)圖譜系統(tǒng)的質(zhì)量,以便于給用戶(hù)提供準(zhǔn)確的信息,需要把多個(gè)來(lái)源同一個(gè)實(shí)體或者概念的不同描述信息進(jìn)行融合映射,這需要解決實(shí)體命名模糊、數(shù)據(jù)格式不一致等問(wèn)題。同時(shí),因?yàn)橹R(shí)量過(guò)于龐大,如何準(zhǔn)確有效地把知識(shí)進(jìn)行融合映射也是其中的難點(diǎn)之一。
第三,民族文化知識(shí)圖譜構(gòu)建及應(yīng)用。知識(shí)圖譜在智能產(chǎn)品中的應(yīng)用案例分析,揭示了知識(shí)圖譜是從大數(shù)據(jù)到人工智能實(shí)現(xiàn)的技術(shù)橋梁這一事實(shí)。知識(shí)圖譜的構(gòu)建為領(lǐng)域數(shù)據(jù)分析提供具有可解釋性的推理過(guò)程,因而基于知識(shí)圖譜的解決方案更符合人類(lèi)認(rèn)知的規(guī)律。目前已有基于教育、司法、醫(yī)療、交通等諸多領(lǐng)域知識(shí)圖譜的成功應(yīng)用案例公開(kāi)報(bào)道,但是關(guān)于民族文化知識(shí)圖譜的研究還非常匱乏。民族文化知識(shí)是世界知識(shí)的一個(gè)子集,構(gòu)建民族文化知識(shí)圖譜對(duì)于豐富世界知識(shí)圖譜具有重要意義。
民族文化知識(shí)圖譜的構(gòu)建能夠應(yīng)用于數(shù)字文化旅游中的特色文化推薦、同源文化演變分析,以及文化跨媒體數(shù)據(jù)有效管理和檢索等場(chǎng)景,具有重要的應(yīng)用價(jià)值。民族文化知識(shí)圖譜的構(gòu)建工作同樣在于知識(shí)庫(kù)中實(shí)體類(lèi)型、屬性、實(shí)體關(guān)系類(lèi)型和屬性的定義,以及海量知識(shí)數(shù)據(jù)的標(biāo)注。民族文化知識(shí)本身的多樣性和豐富性,使得文化知識(shí)的實(shí)體類(lèi)型、關(guān)系類(lèi)型及其屬性的定義存在較大難度,需要通過(guò)閱讀大量文獻(xiàn),并與領(lǐng)域?qū)<夜餐接戇M(jìn)行約定。同時(shí),承載文化知識(shí)的媒體數(shù)據(jù)繁多,如何有效降低數(shù)據(jù)標(biāo)注的人工成本,研究文化知識(shí)數(shù)據(jù)自動(dòng)標(biāo)注方法,是當(dāng)前知識(shí)圖譜領(lǐng)域的一個(gè)研究熱點(diǎn)。
筆者所在研究團(tuán)隊(duì)針對(duì)上述民族文化知識(shí)圖譜構(gòu)建中的兩個(gè)主要工作——民族文化知識(shí)實(shí)體、實(shí)體關(guān)系及其屬性的定義和文化知識(shí)數(shù)據(jù)標(biāo)注展開(kāi)深入研究。目前對(duì)旅游行業(yè)的景觀文化、民族服飾等不同類(lèi)型的文化實(shí)體、實(shí)體關(guān)系進(jìn)行定義,構(gòu)建關(guān)于廣西旅游景區(qū)文化知識(shí)、壯族服飾和瑤族服飾等幾類(lèi)小型知識(shí)圖譜,并基于廣西民族文化旅游知識(shí)圖譜,設(shè)計(jì)相應(yīng)的問(wèn)答系統(tǒng)。后續(xù)將針對(duì)民族文化知識(shí)數(shù)據(jù)深入研究其知識(shí)表達(dá)和知識(shí)自動(dòng)獲取關(guān)鍵技術(shù),提高民族文化知識(shí)圖譜構(gòu)建效率,拓展民族文化知識(shí)圖譜的應(yīng)用場(chǎng)景,使其在地方經(jīng)濟(jì)建設(shè),特別是旅游產(chǎn)業(yè)建設(shè)中發(fā)揮重要作用。