知識(shí)圖譜研究綜述

2021-06-24 10:59劉燕賈志杰閆利華鄒妍

赤峰學(xué)院學(xué)報(bào)·自然科學(xué)版 2021年4期

劉燕賈志杰閆利華鄒妍

摘要：知識(shí)圖譜將知識(shí)庫以一種圖譜的形式展現(xiàn)出來，使知識(shí)具有可解釋性、可推理性，從而使機(jī)器具備認(rèn)知能力，是人工智能的重要基石。本文對(duì)知識(shí)圖譜構(gòu)建的關(guān)鍵技術(shù)、工具以及應(yīng)用進(jìn)行了綜述，并且對(duì)知識(shí)圖譜未來的研究方向做出展望。

關(guān)鍵詞：知識(shí)圖譜;實(shí)體抽取;知識(shí)融合

中圖分類號(hào)：TP391 ?文獻(xiàn)標(biāo)識(shí)碼：A ?文章編號(hào)：1673-260X（2021）04-0033-04

1 知識(shí)圖譜概念及主要應(yīng)用

知識(shí)圖譜[1]（Knowledge Graph）本質(zhì)上是一種大規(guī)模語義網(wǎng)絡(luò)，它包含了各種各樣的實(shí)體、概念以及實(shí)體之間的語義關(guān)系，是大數(shù)據(jù)時(shí)代知識(shí)表示的重要方式之一。2012年google發(fā)布了基于知識(shí)圖譜的搜索引擎產(chǎn)品，由于知識(shí)圖譜將知識(shí)以一種直觀、可視化的方式展現(xiàn)出來，并且可以建立碎片化的數(shù)據(jù)的關(guān)聯(lián)，因此，知識(shí)圖譜成為語義搜索、問答系統(tǒng)、推薦系統(tǒng)等領(lǐng)域的研究熱點(diǎn)[2]。

語義搜索可以利用知識(shí)圖譜準(zhǔn)確地捕捉用戶的搜索意圖，進(jìn)而用基于知識(shí)圖譜中的知識(shí)解決傳統(tǒng)搜索中遇到自然語言輸入帶來的表達(dá)多樣性、歧義性問題，通過實(shí)體鏈接實(shí)現(xiàn)知識(shí)與文檔的混合檢索。Google、百度和搜狗等搜索引擎公司通過構(gòu)建Knowledge Graph、知心和知立方改進(jìn)搜索質(zhì)量。

問答系統(tǒng)是信息服務(wù)的高級(jí)形式，基于知識(shí)圖譜的問答系統(tǒng)能夠讓計(jì)算機(jī)以精準(zhǔn)的自然語言自動(dòng)回答用戶提出的問題。北京大學(xué)構(gòu)建了基于開放領(lǐng)域知識(shí)圖譜的自然語言問答（QA）系統(tǒng)-gAnswer，用戶通過自然語言輸入，經(jīng)過一系列的轉(zhuǎn)化能直接得到最終答案。

個(gè)性化推薦系統(tǒng)是所有面向用戶的互聯(lián)網(wǎng)產(chǎn)品的核心技術(shù)，在大量商品中，猜測(cè)用戶的興趣，給用戶推薦一個(gè)小規(guī)模的商品集合，知識(shí)圖譜為推薦系統(tǒng)提供了額外的輔助信息來源，可以提高推薦系統(tǒng)的精度。易趣正在構(gòu)建其產(chǎn)品知識(shí)圖譜，從而給出產(chǎn)品的定位和吸引買家的因素[3]。

2 知識(shí)圖譜的主要特征

知識(shí)圖譜利用圖的形式展現(xiàn)數(shù)據(jù)實(shí)體的關(guān)系，數(shù)據(jù)通常以三元組RDF的形式表示，S、O在圖譜中代表節(jié)點(diǎn)，表示實(shí)體，P在圖譜中代表邊，表示實(shí)體之間的“關(guān)系”。例如，在民政救助服務(wù)領(lǐng)域，針對(duì)遭受意外事件受到民政救助信息的三元組<人員姓名，救助原因，救助金額>形成可視化的數(shù)據(jù)，如圖1所示[4]。

知識(shí)圖譜是一個(gè)空間的概念，使知識(shí)具有可視化的展示，能夠直觀地看到實(shí)體之間的關(guān)系，通常具有以下幾個(gè)特征。

2.1 知識(shí)圖譜可以直觀地表示實(shí)體之間的關(guān)系

如圖1所示，展示了民政救助知識(shí)圖譜中“救助人”和“救助原因”“救助金額”實(shí)體之間的關(guān)系，將民政部門救助情況直觀地展示出來。

2.2 知識(shí)圖譜使知識(shí)具有可擴(kuò)展性

隨著時(shí)間變化，可以在知識(shí)圖譜中增加新的知識(shí)節(jié)點(diǎn)（實(shí)體），新的知識(shí)結(jié)構(gòu)和知識(shí)內(nèi)容能夠累積成一個(gè)完整的知識(shí)結(jié)構(gòu)，在圖1中還可以抽取救助人的家庭成員、收入等信息，使知識(shí)圖譜更完備。

2.3 知識(shí)圖譜使知識(shí)具有可推理性

知識(shí)圖譜中大多數(shù)的關(guān)系是缺失的，基于已有的三元組關(guān)系，知識(shí)圖譜還可以推導(dǎo)出新的關(guān)系，可以進(jìn)一步實(shí)現(xiàn)知識(shí)發(fā)現(xiàn)。例如在知識(shí)圖譜中存在<老虎，科，貓科>，<貓科，目，食肉目>這樣的關(guān)系，可以推導(dǎo)出<老虎，目，食肉目>這樣的關(guān)系。

2.4 知識(shí)圖譜使知識(shí)具有可解釋性

由于知識(shí)圖譜具有可推理性，使得知識(shí)具有可解釋性，尤其是在推薦系統(tǒng)的應(yīng)用，能為用戶推薦需要的商品，還能解釋推薦的原因。

2.5 知識(shí)圖譜的數(shù)據(jù)存儲(chǔ)形式可以提高檢索速度

知識(shí)圖譜所采用的知識(shí)存儲(chǔ)方式，在知識(shí)查詢的過程中可以提高查詢速度和效率，尤其是隨著數(shù)據(jù)量的增多和關(guān)聯(lián)深度的增加，更能展現(xiàn)知識(shí)圖譜的數(shù)據(jù)查詢和分析的優(yōu)勢(shì)。

3 知識(shí)圖譜構(gòu)建的主要技術(shù)

知識(shí)圖譜主要分為知識(shí)圖譜構(gòu)建和知識(shí)圖譜應(yīng)用兩個(gè)部分，其中知識(shí)圖譜的構(gòu)建是關(guān)鍵，基本流程和主要技術(shù)為模型設(shè)計(jì)、知識(shí)抽取、知識(shí)融合、知識(shí)存儲(chǔ)和管理。

3.1 模型設(shè)計(jì)

知識(shí)圖譜的邏輯結(jié)構(gòu)主要分為模式層和數(shù)據(jù)層，模式層在數(shù)據(jù)層之上，是知識(shí)圖譜的核心，模式層存儲(chǔ)的是經(jīng)過提煉的知識(shí)，用本體表示，本體（ontology）的本質(zhì)是概念模型，表達(dá)的是概念及概念之間的關(guān)系[5]。通常知識(shí)圖譜的模式層采用本體庫來管理，主要的本體庫有WordNet、DBpedia、Cys等，可以借助本體庫對(duì)公理、規(guī)則和約束條件的支持能力來規(guī)范實(shí)體的類型以及實(shí)體之間的關(guān)系類型。例如，高血壓、糖尿病等實(shí)體在本體庫中歸類為病癥，發(fā)燒、咳嗽歸類為癥狀，在本體庫中的規(guī)則約束病癥和癥狀之間的聯(lián)系。比較流行的本體編輯工具是Protégé，用戶只需要在概念層次上進(jìn)行本體的模型構(gòu)建，比較靈活，但缺乏對(duì)中文的支持。

3.2 知識(shí)抽取

知識(shí)抽取是在海量、多源異構(gòu)的數(shù)據(jù)中抽取出實(shí)體和關(guān)系，對(duì)結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)可以通過專門的工具進(jìn)行抽取，對(duì)于非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行實(shí)體抽取通常有三種方法。

3.2.1 基于詞典和規(guī)則的方法

基于詞典和規(guī)則的實(shí)體抽取方法需要通過人工定義命名詞典、實(shí)體抽取規(guī)則模板，從文中抽取出三元組信息。例如，在醫(yī)療領(lǐng)域知識(shí)抽取過程中我們可以定義這樣的規(guī)則：X+謂語+疾?。╔作為實(shí)體可能是疾病、藥品、癥狀），將這個(gè)規(guī)則保存在信息庫，對(duì)于要抽取的文本經(jīng)過處理后和信息庫的規(guī)則進(jìn)行匹配，基于以上規(guī)則，對(duì)于“高血壓引起腦出血、腦梗等疾病”的描述，可以抽取出<高血壓，引起，腦出血>這樣的三元組信息。這種方法的缺點(diǎn)是需要依靠大量的人工標(biāo)注和制定規(guī)則，對(duì)于不同的應(yīng)用領(lǐng)域，需要專家重新標(biāo)注詞典和定義規(guī)則，效率低、可移植性差，但準(zhǔn)確性較高。

3.2.2 基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)的方法

基于統(tǒng)計(jì)模型的方法通過對(duì)已經(jīng)標(biāo)注語料采用統(tǒng)計(jì)方法進(jìn)行訓(xùn)練，并保存訓(xùn)練模型，從訓(xùn)練語料中挖掘出特征，對(duì)于要抽取的文本調(diào)用模板獲取命名實(shí)體。主要模型有隱馬爾可夫模型、條件馬爾可夫模型、最大熵模型、條件隨機(jī)場(chǎng)模型，這些模型都是將命名實(shí)體作為序列標(biāo)注問題處理。例如，隱馬爾可夫模型[6]就是在給定模型下，從一定的觀察序列X選取一個(gè)最優(yōu)的標(biāo)記序列Y，使得P（Y|X）的概率最大，如圖2所示。

3.2.3 基于深度學(xué)習(xí)的方法

深度學(xué)習(xí)方法將文本詞向量作為輸入，通過深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型實(shí)現(xiàn)端到端的命名實(shí)體識(shí)別，不再依賴人工定義的特征，這種方法的遷移學(xué)習(xí)能力強(qiáng)，但由于網(wǎng)絡(luò)模型繁多，對(duì)參數(shù)設(shè)置依賴大，模型可解釋性較差。目前，采用深度學(xué)習(xí)的模型有BiLSTM、CNN、RNN、BiLSTM-CRF等。

CNN（卷積神經(jīng)網(wǎng)絡(luò)模型）分為卷積層、池化層和全連接層，卷積層的輸入是一個(gè)M×N的矩陣，N代表的是詞向量的維度，M代表的是詞的個(gè)數(shù)，例如，一句話中有5個(gè)詞，每個(gè)詞是10維的詞向量，那么輸入就是一個(gè)5×10的矩陣。卷積操作是指卷積核在輸入張量上按步長(zhǎng)進(jìn)行左右上下滑動(dòng)，每一步的滑動(dòng)卷積核與張量重疊部分的元素按位相乘后求和[7]。通常一個(gè)卷積核用來抽取一個(gè)特征，一般用多個(gè)卷積核抽取多種特征，卷積層的輸出結(jié)果為特征圖，一個(gè)卷積核對(duì)應(yīng)一個(gè)特征圖，如圖3所示。池化層主要是對(duì)卷積結(jié)果進(jìn)行池化操作，降低卷積操作的數(shù)據(jù)量。全連接層對(duì)卷積層和池化層提取的特征進(jìn)行分類。

3.3 知識(shí)融合

知識(shí)融合是構(gòu)建不同數(shù)據(jù)源獲取的知識(shí)之間的關(guān)聯(lián)，在構(gòu)建知識(shí)圖譜之前，首先需要消除來自多個(gè)不同數(shù)據(jù)源知識(shí)的歧義，以及進(jìn)行知識(shí)的統(tǒng)一表達(dá)等，然后才能將實(shí)體鏈接到知識(shí)庫中的實(shí)體上，對(duì)于知識(shí)庫中沒有的知識(shí)補(bǔ)全到知識(shí)庫中。通常知識(shí)融合的方法有基于聚類的實(shí)體消歧和基于實(shí)體鏈接的命名實(shí)體消歧。

基于聚類的實(shí)體消歧不給定目標(biāo)實(shí)體列表，以聚類的方式對(duì)實(shí)體指稱項(xiàng)進(jìn)行消歧。方法是對(duì)每個(gè)實(shí)體指稱抽取其特征（上下文的詞，實(shí)體，概念），組成特征向量，然后利用向量的余弦相似度進(jìn)行比較，將指稱項(xiàng)聚類到與之最相近的實(shí)體指稱項(xiàng)集合中[8]。

基于實(shí)體鏈接的命名實(shí)體消歧給定目標(biāo)實(shí)體列表，對(duì)于待消歧的實(shí)體根據(jù)上下文信息通過打分的方式獲取分?jǐn)?shù)最高的實(shí)體作為目標(biāo)實(shí)體。例如，中關(guān)村的蘋果不錯(cuò)，蘋果是水果蘋果還是蘋果電腦？通過計(jì)算相關(guān)度（中關(guān)村，水果蘋果）=0.1，相關(guān)度（中關(guān)村、電腦蘋果）=0.7進(jìn)行實(shí)體消歧。

3.4 知識(shí)存儲(chǔ)和管理

3.4.1 基于鄰接表的存儲(chǔ)方式

知識(shí)圖譜中的知識(shí)以三元組的形式表示，在抽取完實(shí)體、關(guān)系后，將三元組的知識(shí)存儲(chǔ)在數(shù)據(jù)庫中，基于鄰接表的存儲(chǔ)方式的典型是gStore[9]，這種方式將每個(gè)實(shí)體點(diǎn)的鄰接表轉(zhuǎn)化成一個(gè)二進(jìn)制位串，將二進(jìn)制位串按照知識(shí)圖譜中的實(shí)體之間的關(guān)系連接起來。查詢的時(shí)候?qū)⒉樵兊淖訄D也按照這種方式轉(zhuǎn)化成一個(gè)二進(jìn)制位串的形式，那么，知識(shí)圖譜的查詢就變成了子圖匹配的問題。gStore采用的查詢語言為SPARQL查詢語言。

3.4.2 基于圖數(shù)據(jù)庫的存儲(chǔ)方式

圖數(shù)據(jù)庫是基于圖模型，對(duì)圖數(shù)據(jù)進(jìn)行存儲(chǔ)、操作和訪問的一項(xiàng)技術(shù)，與關(guān)系型數(shù)據(jù)庫相比，圖數(shù)據(jù)庫在處理關(guān)聯(lián)數(shù)據(jù)時(shí)展現(xiàn)出高性能、靈活、敏捷的優(yōu)勢(shì)[10]。典型的圖數(shù)據(jù)庫是Neo4j[11]，Neo4j底層以圖的方式把用戶定義的節(jié)點(diǎn)和關(guān)系存儲(chǔ)起來，通過這種方式，實(shí)現(xiàn)從某個(gè)節(jié)點(diǎn)開始，利用節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)系，找出另外的節(jié)點(diǎn)之間的關(guān)系。Neo4j的查詢語言為Cypher查詢語言。

3.4.3 基于分布式的知識(shí)圖譜存儲(chǔ)

由于知識(shí)圖譜的數(shù)據(jù)規(guī)模不斷擴(kuò)大，為了應(yīng)對(duì)大規(guī)模知識(shí)圖譜的存儲(chǔ)和管理，將知識(shí)圖譜采用分布式的存儲(chǔ)方式，一種是利用現(xiàn)有的云存儲(chǔ)平臺(tái)和云平臺(tái)上成熟的任務(wù)處理模式處理知識(shí)圖譜的任務(wù)，稱為基于云平臺(tái)的分布式知識(shí)圖譜存儲(chǔ)方法;另一種根據(jù)知識(shí)圖譜的查詢要求，將知識(shí)圖譜數(shù)據(jù)按照一定的方法進(jìn)行劃分，形成不同的分片，分別存儲(chǔ)這些分片，稱為基于數(shù)據(jù)劃分的分布式知識(shí)圖譜存儲(chǔ)方法，采用這種方法面臨的問題就是如何對(duì)數(shù)據(jù)進(jìn)行劃分，使得知識(shí)圖譜查詢速度最快。

4 知識(shí)圖譜未來研究方向

4.1 大規(guī)模知識(shí)圖譜的自動(dòng)化構(gòu)建

由于知識(shí)圖譜在不同認(rèn)知領(lǐng)域的廣泛應(yīng)用，要求能從大規(guī)模非結(jié)構(gòu)化內(nèi)容中自動(dòng)構(gòu)建知識(shí)圖譜。目前，自動(dòng)化構(gòu)建知識(shí)圖譜有四大技術(shù)重點(diǎn)：如何自動(dòng)化地從結(jié)構(gòu)化數(shù)據(jù)庫映射為知識(shí)圖譜并做知識(shí)融合;如何通過小樣本學(xué)習(xí)和領(lǐng)域知識(shí)遷移的技術(shù)減少人工標(biāo)注成本;如何從非結(jié)構(gòu)化文本中做篇章級(jí)的事件抽取和多事件關(guān)聯(lián);基于深度學(xué)習(xí)的知識(shí)表示在各個(gè)構(gòu)建的環(huán)節(jié)的應(yīng)用。

4.2 時(shí)序性知識(shí)圖譜的構(gòu)建

目前，知識(shí)圖譜中展現(xiàn)的實(shí)體或者是概念的關(guān)系都是靜態(tài)的，事實(shí)不隨時(shí)間的變化而變化，對(duì)知識(shí)圖譜的時(shí)序動(dòng)態(tài)研究比較少，然而，在大數(shù)據(jù)背景下，能夠?qū)崿F(xiàn)數(shù)據(jù)的實(shí)時(shí)采集，事實(shí)通常具有時(shí)效性，靜態(tài)的知識(shí)圖譜難以適應(yīng)對(duì)數(shù)據(jù)準(zhǔn)確性要求較高的業(yè)務(wù)。例如，在知識(shí)圖譜中實(shí)體的數(shù)量、實(shí)體之間的關(guān)系或者是實(shí)體的屬性值會(huì)實(shí)時(shí)變化，如果簡(jiǎn)單的通過對(duì)圖數(shù)據(jù)庫進(jìn)行delete和insert操作實(shí)現(xiàn)，會(huì)大大影響知識(shí)圖譜的性能，那么如何構(gòu)建具有時(shí)序性的知識(shí)圖譜成為研究方向之一。

5 結(jié)束語

知識(shí)圖譜提供了一種新的知識(shí)表示、存儲(chǔ)、管理方式，使機(jī)器能夠理解知識(shí)，進(jìn)行知識(shí)推理，在很多領(lǐng)域得到了廣泛應(yīng)用，未來，知識(shí)圖的研究也會(huì)越來越受到重視。本文介紹了知識(shí)圖譜的應(yīng)用、構(gòu)建以及未來研究方向，目前知識(shí)圖譜的應(yīng)用領(lǐng)域相對(duì)較小，下一步我們要在大規(guī)模知識(shí)圖譜的自動(dòng)化構(gòu)技術(shù)和時(shí)序性知識(shí)圖譜的構(gòu)建做深入研究，提高知識(shí)圖譜在其他領(lǐng)域的應(yīng)用水平。

參考文獻(xiàn)：

〔1〕漆桂林，高桓，吳天星.知識(shí)圖譜研究進(jìn)展[J].情報(bào)工程，2017，3（01）：4-25.

〔2〕黃恒琪，于娟，廖曉.知識(shí)圖譜研究綜述[J].計(jì)算機(jī)系統(tǒng)應(yīng)用，2019，28（6）：1-12.

〔3〕G.Gini.Industry-scale knowledge graphs： lessons and challenges[J].Communication of the ACM，2019，62（08）：36-43.

〔4〕Yan Liu， Yan Zou，Lihua Yan，Zhijie Jia，Visualization Research of People's Livelihood Service Data based on Knowledge Graph[C].2020 IEEE International Conference on Information Technology，Big Data and Artificial Intelligence（ICIBA）.IEEE，2020.

〔5〕鄧志鴻，唐世渭，張銘，等.Ontology研究綜述[J].北京大學(xué)學(xué)報(bào)，2002，38（05）：731-737.

〔6〕趙琳瑛.基于隱馬爾可夫模型的中文實(shí)體識(shí)別研究[D].西安：西安電子科技大學(xué)，2008.

〔7〕霍振朗.基于深度學(xué)習(xí)的命名實(shí)體識(shí)別研究[D].廣州：華南理工大學(xué)，2018.

〔8〕范鵬程，沈英漢，許洪波，程學(xué)旗.融合實(shí)體知識(shí)描述的實(shí)體聯(lián)合消歧方法[J].中文信息學(xué)報(bào)，2020， 35（07）：42-49.

〔9〕王鑫，鄒磊，王朝坤.知識(shí)圖譜數(shù)據(jù)管理研究綜述[J].軟件學(xué)報(bào)，2019，30（07）：2139-2174.

〔10〕Kurt Cagle.Graph Databases Go Mainstream[J/OL].https：//www.forbes.com/sites/cognitiveworl d/2019/07/18/graph-databases-go-mainstream/#32d93bd0179d，2019-07-18.

〔11〕Zou Y， Liu Y. The Implementation Knowledge Graph of Air Crash Data based on Neo4j*[C]// 2020 IEEE 4th Information Technology， Networking， Electronic and Automation Control Conference （ITNEC）. IEEE， 2020.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

知識(shí)圖譜研究綜述