劉燕 賈志杰 閆利華 鄒妍
摘 要:知識(shí)圖譜將知識(shí)庫以一種圖譜的形式展現(xiàn)出來,使知識(shí)具有可解釋性、可推理性,從而使機(jī)器具備認(rèn)知能力,是人工智能的重要基石。本文對(duì)知識(shí)圖譜構(gòu)建的關(guān)鍵技術(shù)、工具以及應(yīng)用進(jìn)行了綜述,并且對(duì)知識(shí)圖譜未來的研究方向做出展望。
關(guān)鍵詞:知識(shí)圖譜;實(shí)體抽取;知識(shí)融合
中圖分類號(hào):TP391 ?文獻(xiàn)標(biāo)識(shí)碼:A ?文章編號(hào):1673-260X(2021)04-0033-04
1 知識(shí)圖譜概念及主要應(yīng)用
知識(shí)圖譜[1](Knowledge Graph)本質(zhì)上是一種大規(guī)模語義網(wǎng)絡(luò),它包含了各種各樣的實(shí)體、概念以及實(shí)體之間的語義關(guān)系,是大數(shù)據(jù)時(shí)代知識(shí)表示的重要方式之一。2012年google發(fā)布了基于知識(shí)圖譜的搜索引擎產(chǎn)品,由于知識(shí)圖譜將知識(shí)以一種直觀、可視化的方式展現(xiàn)出來,并且可以建立碎片化的數(shù)據(jù)的關(guān)聯(lián),因此,知識(shí)圖譜成為語義搜索、問答系統(tǒng)、推薦系統(tǒng)等領(lǐng)域的研究熱點(diǎn)[2]。
語義搜索可以利用知識(shí)圖譜準(zhǔn)確地捕捉用戶的搜索意圖,進(jìn)而用基于知識(shí)圖譜中的知識(shí)解決傳統(tǒng)搜索中遇到自然語言輸入帶來的表達(dá)多樣性、歧義性問題,通過實(shí)體鏈接實(shí)現(xiàn)知識(shí)與文檔的混合檢索。Google、百度和搜狗等搜索引擎公司通過構(gòu)建Knowledge Graph、知心和知立方改進(jìn)搜索質(zhì)量。
問答系統(tǒng)是信息服務(wù)的高級(jí)形式,基于知識(shí)圖譜的問答系統(tǒng)能夠讓計(jì)算機(jī)以精準(zhǔn)的自然語言自動(dòng)回答用戶提出的問題。北京大學(xué)構(gòu)建了基于開放領(lǐng)域知識(shí)圖譜的自然語言問答(QA)系統(tǒng)-gAnswer,用戶通過自然語言輸入,經(jīng)過一系列的轉(zhuǎn)化能直接得到最終答案。
個(gè)性化推薦系統(tǒng)是所有面向用戶的互聯(lián)網(wǎng)產(chǎn)品的核心技術(shù),在大量商品中,猜測(cè)用戶的興趣,給用戶推薦一個(gè)小規(guī)模的商品集合,知識(shí)圖譜為推薦系統(tǒng)提供了額外的輔助信息來源,可以提高推薦系統(tǒng)的精度。易趣正在構(gòu)建其產(chǎn)品知識(shí)圖譜,從而給出產(chǎn)品的定位和吸引買家的因素[3]。
2 知識(shí)圖譜的主要特征
知識(shí)圖譜利用圖的形式展現(xiàn)數(shù)據(jù)實(shí)體的關(guān)系,數(shù)據(jù)通常以三元組RDF的形式表示,S、O在圖譜中代表節(jié)點(diǎn),表示實(shí)體,P在圖譜中代表邊,表示實(shí)體之間的“關(guān)系”。例如,在民政救助服務(wù)領(lǐng)域,針對(duì)遭受意外事件受到民政救助信息的三元組<人員姓名,救助原因,救助金額>形成可視化的數(shù)據(jù),如圖1所示[4]。
知識(shí)圖譜是一個(gè)空間的概念,使知識(shí)具有可視化的展示,能夠直觀地看到實(shí)體之間的關(guān)系,通常具有以下幾個(gè)特征。
2.1 知識(shí)圖譜可以直觀地表示實(shí)體之間的關(guān)系
如圖1所示,展示了民政救助知識(shí)圖譜中“救助人”和“救助原因”“救助金額”實(shí)體之間的關(guān)系,將民政部門救助情況直觀地展示出來。
2.2 知識(shí)圖譜使知識(shí)具有可擴(kuò)展性
隨著時(shí)間變化,可以在知識(shí)圖譜中增加新的知識(shí)節(jié)點(diǎn)(實(shí)體),新的知識(shí)結(jié)構(gòu)和知識(shí)內(nèi)容能夠累積成一個(gè)完整的知識(shí)結(jié)構(gòu),在圖1中還可以抽取救助人的家庭成員、收入等信息,使知識(shí)圖譜更完備。
2.3 知識(shí)圖譜使知識(shí)具有可推理性
知識(shí)圖譜中大多數(shù)的關(guān)系是缺失的,基于已有的三元組關(guān)系,知識(shí)圖譜還可以推導(dǎo)出新的關(guān)系,可以進(jìn)一步實(shí)現(xiàn)知識(shí)發(fā)現(xiàn)。例如在知識(shí)圖譜中存在<老虎,科,貓科>,<貓科,目,食肉目>這樣的關(guān)系,可以推導(dǎo)出<老虎,目,食肉目>這樣的關(guān)系。
2.4 知識(shí)圖譜使知識(shí)具有可解釋性
由于知識(shí)圖譜具有可推理性,使得知識(shí)具有可解釋性,尤其是在推薦系統(tǒng)的應(yīng)用,能為用戶推薦需要的商品,還能解釋推薦的原因。
2.5 知識(shí)圖譜的數(shù)據(jù)存儲(chǔ)形式可以提高檢索速度
知識(shí)圖譜所采用的知識(shí)存儲(chǔ)方式,在知識(shí)查詢的過程中可以提高查詢速度和效率,尤其是隨著數(shù)據(jù)量的增多和關(guān)聯(lián)深度的增加,更能展現(xiàn)知識(shí)圖譜的數(shù)據(jù)查詢和分析的優(yōu)勢(shì)。
3 知識(shí)圖譜構(gòu)建的主要技術(shù)
知識(shí)圖譜主要分為知識(shí)圖譜構(gòu)建和知識(shí)圖譜應(yīng)用兩個(gè)部分,其中知識(shí)圖譜的構(gòu)建是關(guān)鍵,基本流程和主要技術(shù)為模型設(shè)計(jì)、知識(shí)抽取、知識(shí)融合、知識(shí)存儲(chǔ)和管理。
3.1 模型設(shè)計(jì)
知識(shí)圖譜的邏輯結(jié)構(gòu)主要分為模式層和數(shù)據(jù)層,模式層在數(shù)據(jù)層之上,是知識(shí)圖譜的核心,模式層存儲(chǔ)的是經(jīng)過提煉的知識(shí),用本體表示,本體(ontology)的本質(zhì)是概念模型,表達(dá)的是概念及概念之間的關(guān)系[5]。通常知識(shí)圖譜的模式層采用本體庫來管理,主要的本體庫有WordNet、DBpedia、Cys等,可以借助本體庫對(duì)公理、規(guī)則和約束條件的支持能力來規(guī)范實(shí)體的類型以及實(shí)體之間的關(guān)系類型。例如,高血壓、糖尿病等實(shí)體在本體庫中歸類為病癥,發(fā)燒、咳嗽歸類為癥狀,在本體庫中的規(guī)則約束病癥和癥狀之間的聯(lián)系。比較流行的本體編輯工具是Protégé,用戶只需要在概念層次上進(jìn)行本體的模型構(gòu)建,比較靈活,但缺乏對(duì)中文的支持。
3.2 知識(shí)抽取
知識(shí)抽取是在海量、多源異構(gòu)的數(shù)據(jù)中抽取出實(shí)體和關(guān)系,對(duì)結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)可以通過專門的工具進(jìn)行抽取,對(duì)于非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行實(shí)體抽取通常有三種方法。
3.2.1 基于詞典和規(guī)則的方法
基于詞典和規(guī)則的實(shí)體抽取方法需要通過人工定義命名詞典、實(shí)體抽取規(guī)則模板,從文中抽取出三元組信息。例如,在醫(yī)療領(lǐng)域知識(shí)抽取過程中我們可以定義這樣的規(guī)則:X+謂語+疾?。╔作為實(shí)體可能是疾病、藥品、癥狀),將這個(gè)規(guī)則保存在信息庫,對(duì)于要抽取的文本經(jīng)過處理后和信息庫的規(guī)則進(jìn)行匹配,基于以上規(guī)則,對(duì)于“高血壓引起腦出血、腦梗等疾病”的描述,可以抽取出<高血壓,引起,腦出血>這樣的三元組信息。這種方法的缺點(diǎn)是需要依靠大量的人工標(biāo)注和制定規(guī)則,對(duì)于不同的應(yīng)用領(lǐng)域,需要專家重新標(biāo)注詞典和定義規(guī)則,效率低、可移植性差,但準(zhǔn)確性較高。
3.2.2 基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)的方法
基于統(tǒng)計(jì)模型的方法通過對(duì)已經(jīng)標(biāo)注語料采用統(tǒng)計(jì)方法進(jìn)行訓(xùn)練,并保存訓(xùn)練模型,從訓(xùn)練語料中挖掘出特征,對(duì)于要抽取的文本調(diào)用模板獲取命名實(shí)體。主要模型有隱馬爾可夫模型、條件馬爾可夫模型、最大熵模型、條件隨機(jī)場(chǎng)模型,這些模型都是將命名實(shí)體作為序列標(biāo)注問題處理。例如,隱馬爾可夫模型[6]就是在給定模型下,從一定的觀察序列X選取一個(gè)最優(yōu)的標(biāo)記序列Y,使得P(Y|X)的概率最大,如圖2所示。
3.2.3 基于深度學(xué)習(xí)的方法
深度學(xué)習(xí)方法將文本詞向量作為輸入,通過深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型實(shí)現(xiàn)端到端的命名實(shí)體識(shí)別,不再依賴人工定義的特征,這種方法的遷移學(xué)習(xí)能力強(qiáng),但由于網(wǎng)絡(luò)模型繁多,對(duì)參數(shù)設(shè)置依賴大,模型可解釋性較差。目前,采用深度學(xué)習(xí)的模型有BiLSTM、CNN、RNN、BiLSTM-CRF等。
CNN(卷積神經(jīng)網(wǎng)絡(luò)模型)分為卷積層、池化層和全連接層,卷積層的輸入是一個(gè)M×N的矩陣,N代表的是詞向量的維度,M代表的是詞的個(gè)數(shù),例如,一句話中有5個(gè)詞,每個(gè)詞是10維的詞向量,那么輸入就是一個(gè)5×10的矩陣。卷積操作是指卷積核在輸入張量上按步長(zhǎng)進(jìn)行左右上下滑動(dòng),每一步的滑動(dòng)卷積核與張量重疊部分的元素按位相乘后求和[7]。通常一個(gè)卷積核用來抽取一個(gè)特征,一般用多個(gè)卷積核抽取多種特征,卷積層的輸出結(jié)果為特征圖,一個(gè)卷積核對(duì)應(yīng)一個(gè)特征圖,如圖3所示。池化層主要是對(duì)卷積結(jié)果進(jìn)行池化操作,降低卷積操作的數(shù)據(jù)量。全連接層對(duì)卷積層和池化層提取的特征進(jìn)行分類。
3.3 知識(shí)融合
知識(shí)融合是構(gòu)建不同數(shù)據(jù)源獲取的知識(shí)之間的關(guān)聯(lián),在構(gòu)建知識(shí)圖譜之前,首先需要消除來自多個(gè)不同數(shù)據(jù)源知識(shí)的歧義,以及進(jìn)行知識(shí)的統(tǒng)一表達(dá)等,然后才能將實(shí)體鏈接到知識(shí)庫中的實(shí)體上,對(duì)于知識(shí)庫中沒有的知識(shí)補(bǔ)全到知識(shí)庫中。通常知識(shí)融合的方法有基于聚類的實(shí)體消歧和基于實(shí)體鏈接的命名實(shí)體消歧。
基于聚類的實(shí)體消歧不給定目標(biāo)實(shí)體列表,以聚類的方式對(duì)實(shí)體指稱項(xiàng)進(jìn)行消歧。方法是對(duì)每個(gè)實(shí)體指稱抽取其特征(上下文的詞,實(shí)體,概念),組成特征向量,然后利用向量的余弦相似度進(jìn)行比較,將指稱項(xiàng)聚類到與之最相近的實(shí)體指稱項(xiàng)集合中[8]。
基于實(shí)體鏈接的命名實(shí)體消歧給定目標(biāo)實(shí)體列表,對(duì)于待消歧的實(shí)體根據(jù)上下文信息通過打分的方式獲取分?jǐn)?shù)最高的實(shí)體作為目標(biāo)實(shí)體。例如,中關(guān)村的蘋果不錯(cuò),蘋果是水果蘋果還是蘋果電腦?通過計(jì)算相關(guān)度(中關(guān)村,水果蘋果)=0.1,相關(guān)度(中關(guān)村、電腦蘋果)=0.7進(jìn)行實(shí)體消歧。
3.4 知識(shí)存儲(chǔ)和管理
3.4.1 基于鄰接表的存儲(chǔ)方式
知識(shí)圖譜中的知識(shí)以三元組的形式表示,在抽取完實(shí)體、關(guān)系后,將三元組的知識(shí)存儲(chǔ)在數(shù)據(jù)庫中,基于鄰接表的存儲(chǔ)方式的典型是gStore[9],這種方式將每個(gè)實(shí)體點(diǎn)的鄰接表轉(zhuǎn)化成一個(gè)二進(jìn)制位串,將二進(jìn)制位串按照知識(shí)圖譜中的實(shí)體之間的關(guān)系連接起來。查詢的時(shí)候?qū)⒉樵兊淖訄D也按照這種方式轉(zhuǎn)化成一個(gè)二進(jìn)制位串的形式,那么,知識(shí)圖譜的查詢就變成了子圖匹配的問題。gStore采用的查詢語言為SPARQL查詢語言。
3.4.2 基于圖數(shù)據(jù)庫的存儲(chǔ)方式
圖數(shù)據(jù)庫是基于圖模型,對(duì)圖數(shù)據(jù)進(jìn)行存儲(chǔ)、操作和訪問的一項(xiàng)技術(shù),與關(guān)系型數(shù)據(jù)庫相比,圖數(shù)據(jù)庫在處理關(guān)聯(lián)數(shù)據(jù)時(shí)展現(xiàn)出高性能、靈活、敏捷的優(yōu)勢(shì)[10]。典型的圖數(shù)據(jù)庫是Neo4j[11],Neo4j底層以圖的方式把用戶定義的節(jié)點(diǎn)和關(guān)系存儲(chǔ)起來,通過這種方式,實(shí)現(xiàn)從某個(gè)節(jié)點(diǎn)開始,利用節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)系,找出另外的節(jié)點(diǎn)之間的關(guān)系。Neo4j的查詢語言為Cypher查詢語言。
3.4.3 基于分布式的知識(shí)圖譜存儲(chǔ)
由于知識(shí)圖譜的數(shù)據(jù)規(guī)模不斷擴(kuò)大,為了應(yīng)對(duì)大規(guī)模知識(shí)圖譜的存儲(chǔ)和管理,將知識(shí)圖譜采用分布式的存儲(chǔ)方式,一種是利用現(xiàn)有的云存儲(chǔ)平臺(tái)和云平臺(tái)上成熟的任務(wù)處理模式處理知識(shí)圖譜的任務(wù),稱為基于云平臺(tái)的分布式知識(shí)圖譜存儲(chǔ)方法;另一種根據(jù)知識(shí)圖譜的查詢要求,將知識(shí)圖譜數(shù)據(jù)按照一定的方法進(jìn)行劃分,形成不同的分片,分別存儲(chǔ)這些分片,稱為基于數(shù)據(jù)劃分的分布式知識(shí)圖譜存儲(chǔ)方法,采用這種方法面臨的問題就是如何對(duì)數(shù)據(jù)進(jìn)行劃分,使得知識(shí)圖譜查詢速度最快。
4 知識(shí)圖譜未來研究方向
4.1 大規(guī)模知識(shí)圖譜的自動(dòng)化構(gòu)建
由于知識(shí)圖譜在不同認(rèn)知領(lǐng)域的廣泛應(yīng)用,要求能從大規(guī)模非結(jié)構(gòu)化內(nèi)容中自動(dòng)構(gòu)建知識(shí)圖譜。目前,自動(dòng)化構(gòu)建知識(shí)圖譜有四大技術(shù)重點(diǎn):如何自動(dòng)化地從結(jié)構(gòu)化數(shù)據(jù)庫映射為知識(shí)圖譜并做知識(shí)融合;如何通過小樣本學(xué)習(xí)和領(lǐng)域知識(shí)遷移的技術(shù)減少人工標(biāo)注成本;如何從非結(jié)構(gòu)化文本中做篇章級(jí)的事件抽取和多事件關(guān)聯(lián);基于深度學(xué)習(xí)的知識(shí)表示在各個(gè)構(gòu)建的環(huán)節(jié)的應(yīng)用。
4.2 時(shí)序性知識(shí)圖譜的構(gòu)建
目前,知識(shí)圖譜中展現(xiàn)的實(shí)體或者是概念的關(guān)系都是靜態(tài)的,事實(shí)不隨時(shí)間的變化而變化,對(duì)知識(shí)圖譜的時(shí)序動(dòng)態(tài)研究比較少,然而,在大數(shù)據(jù)背景下,能夠?qū)崿F(xiàn)數(shù)據(jù)的實(shí)時(shí)采集,事實(shí)通常具有時(shí)效性,靜態(tài)的知識(shí)圖譜難以適應(yīng)對(duì)數(shù)據(jù)準(zhǔn)確性要求較高的業(yè)務(wù)。例如,在知識(shí)圖譜中實(shí)體的數(shù)量、實(shí)體之間的關(guān)系或者是實(shí)體的屬性值會(huì)實(shí)時(shí)變化,如果簡(jiǎn)單的通過對(duì)圖數(shù)據(jù)庫進(jìn)行delete和insert操作實(shí)現(xiàn),會(huì)大大影響知識(shí)圖譜的性能,那么如何構(gòu)建具有時(shí)序性的知識(shí)圖譜成為研究方向之一。
5 結(jié)束語
知識(shí)圖譜提供了一種新的知識(shí)表示、存儲(chǔ)、管理方式,使機(jī)器能夠理解知識(shí),進(jìn)行知識(shí)推理,在很多領(lǐng)域得到了廣泛應(yīng)用,未來,知識(shí)圖的研究也會(huì)越來越受到重視。本文介紹了知識(shí)圖譜的應(yīng)用、構(gòu)建以及未來研究方向,目前知識(shí)圖譜的應(yīng)用領(lǐng)域相對(duì)較小,下一步我們要在大規(guī)模知識(shí)圖譜的自動(dòng)化構(gòu)技術(shù)和時(shí)序性知識(shí)圖譜的構(gòu)建做深入研究,提高知識(shí)圖譜在其他領(lǐng)域的應(yīng)用水平。
參考文獻(xiàn):
〔1〕漆桂林,高桓,吳天星.知識(shí)圖譜研究進(jìn)展[J].情報(bào)工程,2017,3(01):4-25.
〔2〕黃恒琪,于娟,廖曉.知識(shí)圖譜研究綜述[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2019,28(6):1-12.
〔3〕G.Gini.Industry-scale knowledge graphs: lessons and challenges[J].Communication of the ACM,2019,62(08):36-43.
〔4〕Yan Liu, Yan Zou,Lihua Yan,Zhijie Jia,Visualization Research of People's Livelihood Service Data based on Knowledge Graph[C].2020 IEEE International Conference on Information Technology,Big Data and Artificial Intelligence(ICIBA).IEEE,2020.
〔5〕鄧志鴻,唐世渭,張銘,等.Ontology研究綜述[J].北京大學(xué)學(xué)報(bào),2002,38(05):731-737.
〔6〕趙琳瑛.基于隱馬爾可夫模型的中文實(shí)體識(shí)別研究[D].西安:西安電子科技大學(xué),2008.
〔7〕霍振朗.基于深度學(xué)習(xí)的命名實(shí)體識(shí)別研究[D].廣州:華南理工大學(xué),2018.
〔8〕范鵬程,沈英漢,許洪波,程學(xué)旗.融合實(shí)體知識(shí)描述的實(shí)體聯(lián)合消歧方法[J].中文信息學(xué)報(bào),2020, 35(07):42-49.
〔9〕王鑫,鄒磊,王朝坤.知識(shí)圖譜數(shù)據(jù)管理研究綜述[J].軟件學(xué)報(bào),2019,30(07):2139-2174.
〔10〕Kurt Cagle.Graph Databases Go Mainstream[J/OL].https://www.forbes.com/sites/cognitiveworl d/2019/07/18/graph-databases-go-mainstream/#32d93bd0179d,2019-07-18.
〔11〕Zou Y, Liu Y. The Implementation Knowledge Graph of Air Crash Data based on Neo4j*[C]// 2020 IEEE 4th Information Technology, Networking, Electronic and Automation Control Conference (ITNEC). IEEE, 2020.