国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

知識圖譜可視化查詢技術(shù)綜述

2020-06-18 03:41:08徐大為王昊奮
計算機工程 2020年6期
關(guān)鍵詞:數(shù)據(jù)模型本體圖譜

王 鑫,傅 強,王 林,徐大為,王昊奮

(1.天津大學(xué) 智能與計算學(xué)部,天津 300354; 2.天津泰凡科技有限公司,天津 300457;3.同濟大學(xué) 設(shè)計創(chuàng)意學(xué)院,上海 200092)

0 概述

在人工智能迅速發(fā)展的背景下,知識圖譜被廣泛認(rèn)為是許多人工智能技術(shù)和系統(tǒng)中的重要組成部分[1]。近年來,大量不同規(guī)模的知識圖譜發(fā)布在Web網(wǎng)絡(luò)上,得到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。2012年5月,Google公司正式提出了知識圖譜的概念[2],目的是為了增強搜索引擎的性能,提高終端用戶的搜索質(zhì)量及體驗。在語義Web、描述邏輯和本體論等技術(shù)發(fā)展后,知識圖譜旨在描述現(xiàn)實世界中存在的實體以及實體與實體之間的關(guān)系。知識圖譜作為信息互聯(lián)、知識共享網(wǎng)絡(luò)時代的知識信息庫,在智能搜索、智慧醫(yī)療、生物信息、社區(qū)推薦、網(wǎng)絡(luò)安全等領(lǐng)域發(fā)揮著重要作用[3]。

目前知識圖譜的主流數(shù)據(jù)模型是由萬維網(wǎng)聯(lián)盟(W3C)在語義Web上制定的標(biāo)準(zhǔn)數(shù)據(jù)模型RDF圖[4]和關(guān)聯(lián)數(shù)據(jù)基準(zhǔn)委員會(LDBC)采用的屬性圖,以及有向標(biāo)簽圖和異構(gòu)信息網(wǎng)絡(luò)圖。目前,各領(lǐng)域基于上述數(shù)據(jù)模型已經(jīng)建成了大量大規(guī)模知識圖譜,例如百科類知識圖譜DBpedia[5]、Freebase[6],生物信息知識圖譜Bio2RDF[7]、UniProt[8],以及社交網(wǎng)絡(luò)知識圖譜FOAF[9]等。隨著知識互聯(lián)時代信息量的爆炸式增長,包含百萬頂點和上億條邊的大規(guī)模知識圖譜將十分常見,如何在此類知識圖譜上進(jìn)行查詢、理解和分析將成為一項重要挑戰(zhàn)。

知識圖譜是符號主義發(fā)展的成果,而可視化技術(shù)可以將抽象的符號映射為圖形元素,并基于交互邏輯幫助用戶有效地理解、查詢和分析大規(guī)模知識圖譜。目前,國內(nèi)外已有大量學(xué)者對知識圖譜的可視化和可視化查詢進(jìn)行了研究,涉及多種可視化技術(shù)和查詢模式,相關(guān)工作主要分為以下3個方面:

1)基于已有的可視技術(shù)對知識圖譜進(jìn)行可視化表示,幫助用戶理解知識圖譜[3]。此類方法主要關(guān)注于知識圖譜的不同數(shù)據(jù)類型,以及領(lǐng)域特定知識圖譜中存在的特殊形式[10]。

2)大規(guī)模知識圖譜的可視化查詢語言以及查詢系統(tǒng)。隨著數(shù)據(jù)規(guī)模的不斷增大,如何幫助普通用戶更友好地理解、查詢和分析大規(guī)模知識圖譜成為一項重要的挑戰(zhàn)。針對這一問題,學(xué)者提出了基于不同數(shù)據(jù)模型的可視化查詢語言QueryVOWL[11]以及VIGOR[12]等大規(guī)模知識圖譜上的可視化查詢分析系統(tǒng)。

3)知識圖譜間的聯(lián)合可視化查詢分析。盡管已有大量大規(guī)模知識圖譜發(fā)布在網(wǎng)絡(luò)中,但是它們都具有自己獨立的查詢接口以及數(shù)據(jù)格式,當(dāng)一個查詢涉及多個數(shù)據(jù)集時,就需要進(jìn)行跨數(shù)據(jù)集的聯(lián)合查詢。針對這一問題,學(xué)者提出了關(guān)聯(lián)可視化模型LDVM[13]以及BioPW[14]等跨知識圖譜的聯(lián)合可視化查詢工具。

文獻(xiàn)[3]對知識圖譜可視化技術(shù)進(jìn)行了綜述,但其主要介紹異構(gòu)信息網(wǎng)絡(luò)上的可視化技術(shù),未涉及可視化查詢語言。文獻(xiàn)[15]對近年來基于RDF圖的可視工具進(jìn)行了分析總結(jié),但未涉及屬性圖。文獻(xiàn)[16]針對多刻面科學(xué)數(shù)據(jù)的可視化與可視分析技術(shù)進(jìn)行了綜述,但未以知識圖譜作為可視對象。文獻(xiàn)[17]則主要介紹了近年來本體可視化的典型方法并加以分類。本文針對知識圖譜的數(shù)據(jù)模型、可視化技術(shù)、可視化查詢語言、可視化查詢系統(tǒng)以及領(lǐng)域特定知識圖譜可視化技術(shù)5個方面進(jìn)行介紹,并對知識圖譜可視化查詢研究的發(fā)展方向進(jìn)行展望。

1 知識圖譜的可視化技術(shù)

可視化技術(shù)自提出以來,在各領(lǐng)域得到了廣泛的運用與發(fā)展[14],目前已有學(xué)者提出大量的可視化技術(shù)用于不同類型的數(shù)據(jù)可視化表示。本節(jié)將從知識圖譜的數(shù)據(jù)類型、可視表達(dá)技術(shù)以及大規(guī)??梢暬夹g(shù)3個方面進(jìn)行介紹。

1.1 知識圖譜的數(shù)據(jù)類型

目前對知識圖譜的數(shù)據(jù)類型并沒有統(tǒng)一的嚴(yán)格規(guī)定,主流的知識圖譜數(shù)據(jù)模型都是對一般圖模型G=(V,E)的擴展形式,其中:V是頂點的集合,表示實體;E是邊的集合,表示實體間的關(guān)系。下面介紹知識圖譜4種主要數(shù)據(jù)類型,即RDF圖、屬性圖、有向標(biāo)簽圖和異構(gòu)信息網(wǎng)絡(luò)圖。

RDF是W3C于1999年提出的語義Web上的資源描述框架,其通過資源、屬性和字面量來描述特定網(wǎng)絡(luò)信息。RDF圖的形式化定義[4]如下:

定義1(RDF圖) 設(shè)U、B和L分別代表URI、空頂點和字面量的無限集合,并且互不相交,三元組(s,p,o)∈(U∪B)×U×(U∪B∪L)稱為RDF三元組,其中,s表示主語,p表示謂語,o表示賓語。RDF圖G是有限個三元組(s,p,o)的集合。

屬性圖是LDBC采用并進(jìn)行標(biāo)準(zhǔn)化的數(shù)據(jù)模型。與一般圖模型相比,屬性圖多了一組鍵值對來表示頂點或邊上的標(biāo)簽和屬性信息,其形式化定義[1]如下:

定義2(屬性圖) 屬性圖G=(V,E,λ,δ),其中:1)V是頂點的集合;2)E?V×V是有向邊的集合,如e=(v1,v2)表示從v1到v2的有向邊;3)設(shè)LLab是標(biāo)簽集合,函數(shù)λ:(V∪E)→LLab為頂點或邊賦予標(biāo)簽,如l∈LLab,λ(v)=l表示l是頂點v的標(biāo)簽;4)設(shè)PProp是屬性集合,VVal是值集合,函數(shù)δ:(V∪E)×PProp→VVal為頂點或邊關(guān)聯(lián)屬性,如p∈PProp,a∈VVal,δ(v,p)=a表示頂點v的屬性p的值是a。

有向標(biāo)簽圖在一般圖模型的基礎(chǔ)上為每個頂點添加了標(biāo)簽,是RDF圖的一種特殊形式,其形式化定義[3]如下:

定義3(有向標(biāo)簽圖) 有向標(biāo)簽圖G=(V,E,L),其中:1)V是頂點的集合;2)E?V×V是有向邊的集合;3)L是頂點上標(biāo)簽的集合。

異構(gòu)信息網(wǎng)絡(luò)起源于信息網(wǎng)絡(luò),其在一般圖模型的基礎(chǔ)上為每個頂點或邊添加了一個對象或者鏈接類型,如果圖中的類型總數(shù)大于1,則稱為異構(gòu)信息網(wǎng)絡(luò)。異構(gòu)信息網(wǎng)絡(luò)圖是屬性圖的一種特殊形式,其形式化定義[3]如下:

定義4(異構(gòu)信息網(wǎng)絡(luò)圖) 異構(gòu)信息網(wǎng)絡(luò)圖G=(V,E,λ),其中:1)V是頂點的集合;2)E?V×V是有向邊的集合;3)設(shè)TType是類型集合,函數(shù)λ:(V∪E)→TType為頂點或邊賦值類型。

知識圖譜在一般圖模型的基礎(chǔ)上進(jìn)行擴展,泛化、統(tǒng)一了各種圖模型結(jié)構(gòu)。有向標(biāo)簽圖作為最簡單的知識圖譜數(shù)據(jù)類型,在一般圖模型的基礎(chǔ)上添加了標(biāo)簽集合。異構(gòu)信息網(wǎng)絡(luò)圖在一般圖模型的基礎(chǔ)上添加了屬性集合,且允許每個頂點或邊的類型不止一種。RDF圖是有向標(biāo)簽圖的特殊形式,其特殊之處在于允許一個三元組中的謂語作為其他三元組的主語或賓語,反映在有向標(biāo)簽圖中,即邊亦可作為頂點。屬性圖模型在RDF圖模型的基礎(chǔ)上添加了屬性集合,允許頂點和邊內(nèi)置屬性信息。知識圖譜沒有統(tǒng)一的嚴(yán)格定義,上述4種知識圖譜數(shù)據(jù)模型是針對不同數(shù)據(jù)的具體實現(xiàn)形式。

1.2 知識圖譜的可視表達(dá)

本節(jié)主要介紹知識圖譜的可視表達(dá)技術(shù),包括基于節(jié)點-鏈接和基于鄰接矩陣2種類型。

1.2.1 基于節(jié)點-鏈接的圖可視技術(shù)

基于節(jié)點-鏈接的可視技術(shù)是圖的常用表示方法,通常采用點或圓圈等可視元素表示節(jié)點,邊表示節(jié)點間的鏈接。如圖1所示,其中圓圈表示知識圖譜中的實體,有向線段表示這些實體間的關(guān)系,在之后的圖形渲染過程中可以利用不同的顏色或者半徑表示實體的類型。

圖1 節(jié)點-鏈接圖可視化示例

文獻(xiàn)[18]結(jié)合胡克定律和庫倫定律提出了力導(dǎo)向布局算法,此類算法的設(shè)計思想是賦予節(jié)點-鏈接圖中節(jié)點間的引力與斥力,節(jié)點依據(jù)引力與斥力自由移動知道所有節(jié)點間的作用力處于平衡狀態(tài)。文獻(xiàn)[19]提出的彈簧電子力模型是一種經(jīng)典的力導(dǎo)向模型,也被稱為FR模型。此外,文獻(xiàn)[20]則提出了應(yīng)力模型。

1.2.2 基于鄰接矩陣的圖可視技術(shù)

鄰接矩陣是圖論中經(jīng)常用來表示圖的一種方法。當(dāng)使用節(jié)點-鏈接可視技術(shù)表示含有復(fù)雜關(guān)系的知識圖譜時,邊的交叉問題以及節(jié)點的重疊問題是無法避免的。鄰接矩陣可以有效地規(guī)避此類問題,使數(shù)據(jù)更具可讀性。節(jié)點在鄰接矩陣圖中通常用行向量和列向量表示,行列向量的交叉元素可反映節(jié)點間的關(guān)系,通常用來表示有無關(guān)系以及關(guān)系的權(quán)重等量化信息。圖2(a)和圖2(b)是同一個圖的不同節(jié)點排序可視化形式,可以看出,鄰接矩陣的可視化效果很大程度上受節(jié)點排序影響。目前有大量的研究關(guān)注于基于鄰接矩陣的圖結(jié)構(gòu)挖掘。

圖2 鄰接矩陣圖可視化示例

盡管通過鄰接矩陣能夠有效避免節(jié)點-鏈接圖中的邊交叉問題,但是無法直觀了解圖的拓?fù)浣Y(jié)構(gòu),以及圖中存在的隱含關(guān)系,不適用于路徑匹配類的查詢?nèi)蝿?wù)。對此,文獻(xiàn)[21]提出混合布局的鄰接矩陣可視化技術(shù),文獻(xiàn)[22]在鄰接矩陣的基礎(chǔ)上結(jié)合?;鶊D、柱狀圖等提出一個可交互的多視圖可視化系統(tǒng)StratomeX,文獻(xiàn)[23]結(jié)合樹與鄰接矩陣的方法實現(xiàn)了多變量圖的可視分析系統(tǒng)Juniper,用于分析由論文、引文度量和學(xué)者組成的網(wǎng)絡(luò)。

1.3 大規(guī)模知識圖譜可視化技術(shù)

隨著人工智能的廣泛運用,知識圖譜的規(guī)模隨之增大。目前已有大量公開發(fā)布的知識圖譜,表1展示了部分知識圖譜的數(shù)據(jù)規(guī)模。

表1 部分知識圖譜數(shù)據(jù)規(guī)模統(tǒng)計

2007年5月關(guān)聯(lián)開放數(shù)據(jù)項目的提出,將獨立的知識圖譜通過RDF鏈接連接在了一起,形成了一個超大規(guī)模的知識圖譜,目前包含1 239個數(shù)據(jù)集通過16 147個RDF鏈接進(jìn)行連接。面向關(guān)聯(lián)開放數(shù)據(jù)的大規(guī)模可視化技術(shù)得到了學(xué)者廣泛關(guān)注。文獻(xiàn)[13]通過在不同數(shù)據(jù)集間定義抽象層實現(xiàn)關(guān)聯(lián)數(shù)據(jù)集間的動態(tài)可視化,并提出了關(guān)聯(lián)數(shù)據(jù)可視化模型LDVM。文獻(xiàn)[24]基于LDVM模型提出了大規(guī)模知識圖譜可視化的系統(tǒng)架構(gòu),如圖3所示,其中主要分為5個部分,分別為數(shù)據(jù)檢索、圖初始化、模型計算、節(jié)點布局和圖形渲染。首先通過數(shù)據(jù)檢索操作從知識圖譜中獲取數(shù)據(jù),例如RDF三元組,然后通過不同的可視化技術(shù),例如節(jié)點-鏈接圖,得到二元組形式的圖G=(V,E),接著運用不同的模型根據(jù)數(shù)據(jù)中蘊含的信息計算節(jié)點的大小、顏色等信息,得到G=(V′,E′),并通過不同的布局模型,如FR模型,得到G=(V″,E″),最后經(jīng)過圖形渲染將結(jié)果顯示到用戶的界面上。

圖3 大規(guī)模知識圖譜可視化一般步驟

數(shù)據(jù)檢索的主要方式是查詢操作,將在本文的第2節(jié)進(jìn)行介紹,圖形渲染主要是圖形圖像學(xué)的工作,本文不做過多闡述,詳情可以參考文獻(xiàn)[25]。

2 知識圖譜的可視化查詢

查詢語言是對數(shù)據(jù)進(jìn)行操作的重要工具,在關(guān)系數(shù)據(jù)庫時代,結(jié)構(gòu)化查詢語言(Structured Query Language,SQL)作為數(shù)據(jù)庫語言被廣泛使用。由于知識圖譜沒有統(tǒng)一的數(shù)據(jù)模型,不同數(shù)據(jù)模型的知識圖譜需要不同的查詢語言進(jìn)行數(shù)據(jù)的操作與管理。目前,主流的知識圖譜數(shù)據(jù)模型是RDF圖和屬性圖。SPARQL[26](SPARQL Protocol and RDF Query Language)是W3C制定的RDF知識圖譜標(biāo)準(zhǔn)查詢語言,其從語法上繼承了許多SQL查詢語言的優(yōu)點。屬性圖上的查詢語言主要有Cypher和Gremlin。Cypher是一種聲明性圖查詢語言,由Neo4j公司[27]于2015年提出,其允許用戶在屬性圖中進(jìn)行高效的數(shù)據(jù)查詢。Gremlin是Apache TinkerPop圖計算框架提供的屬性圖查詢語言[28],是一種圖遍歷語言,主要執(zhí)行機制是在圖中沿著有向邊進(jìn)行導(dǎo)航式游走,屬于過程式查詢語言。上述查詢語言均屬于結(jié)構(gòu)化文本查詢語言,需要用戶進(jìn)行一定的專業(yè)學(xué)習(xí)與訓(xùn)練才能掌握使用,對于普通用戶來說友好性比較差。早在1977年,ZLOOF等人就針對SQL提出了按例查詢(Query by Example,GBE)方法[29],其允許用戶通過修改查詢模板中的關(guān)鍵字構(gòu)造查詢,而不是使用結(jié)構(gòu)化文本查詢語言,可視為關(guān)系數(shù)據(jù)庫時代的可視查詢技術(shù)。

圖4展示了知識圖譜可視化查詢的典型架構(gòu),其中,終端用戶通過移動設(shè)備,例如智能手機、電腦等,向網(wǎng)絡(luò)層發(fā)送查詢?nèi)蝿?wù)請求,網(wǎng)絡(luò)層對知識圖譜進(jìn)行查詢處理與數(shù)據(jù)請求,上文提到的大規(guī)模知識圖譜可視化的5個主要步驟都在網(wǎng)絡(luò)層實現(xiàn),最后網(wǎng)絡(luò)層將渲染好的圖形反饋到終端用戶的移動設(shè)備上。本節(jié)主要介紹查詢?nèi)蝿?wù)請求階段中的知識圖譜可視化查詢語言與系統(tǒng),以及本體上的可視化查詢系統(tǒng)。

圖4 知識圖譜可視化查詢典型架構(gòu)

2.1 知識圖譜可視化查詢語言

目前,知識圖譜的主要數(shù)據(jù)類型為RDF圖和屬性圖,有向標(biāo)簽圖和異構(gòu)信息網(wǎng)絡(luò)分別是前者的特殊形式。本節(jié)主要介紹這兩種主要知識圖譜數(shù)據(jù)類型對應(yīng)的可視化查詢語言。

2.1.1 基于RDF圖的可視化查詢語言

隨著查詢語言的不斷發(fā)展,早期RDF圖上的查詢語言包括RQL[30]、RDQL[31]等,目前RDF知識圖譜上的標(biāo)準(zhǔn)查詢語言是W3C制定的SPARQL。SPARQL查詢的基本單元是三元組模式,與RDF數(shù)據(jù)模型中的基本三元組(s,p,o)相對應(yīng),多個三元組模式可以構(gòu)成基本圖模式(Basic Graph Pattern,BGP)。同時,SPARQL支持多種運算符,包括FILTER、AND、LIMIT等,可將基本圖模式擴展成復(fù)雜圖模式(Complex Graph Pattern,CGP)。

SPARQL查詢語言存在文本結(jié)構(gòu)化查詢語言共同的問題,即用戶需要經(jīng)過一定時間的專業(yè)學(xué)習(xí)來掌握查詢語言的結(jié)構(gòu)以及各種關(guān)鍵字、運算符對應(yīng)的語義信息。針對這一問題,文獻(xiàn)[32]結(jié)合GQL圖查詢語言思想,提出RDF圖上的可視化查詢語言RDF-GL[32]。RDF-GL通過矩形和有向線段的組合構(gòu)成基本查詢模式,并用圓形表示UNION、OPTIONAL運算符,將COUNT、LIMIT等操作符內(nèi)置在矩形中。這種可視語言對用戶來說并不具備良好的可學(xué)習(xí)性和可讀性。

文獻(xiàn)[11]基于SPARQL查詢語言的語法與語義,結(jié)合VOWL可視化查詢語言的可視元素,提出了QueryVOWL可視化查詢語言。如圖5所示,通過圓圈與有向線段的組合形成由三元組模式組成的復(fù)雜查詢模式,圖中的矩形表示RDF圖中的字面量,圓圈中的數(shù)表示通過COUNT運算符得到的結(jié)果。QueryVOWL可視化查詢語言的詳細(xì)語法與語義參見文獻(xiàn)[11]。

目前,多數(shù)可視化查詢語言的查詢模式與查詢結(jié)果之間存在壁壘,當(dāng)查詢結(jié)果不符合用戶的查詢意圖時,用戶往往不知如何修改查詢模式。文獻(xiàn)[33]提出了知識圖譜上的交互式可視化查詢語言KGVis,通過將中間結(jié)果存儲在查詢模式中,實現(xiàn)了查詢模式與查詢結(jié)果間的雙向轉(zhuǎn)換,從而打破了兩者間的壁壘。KGVis支持在構(gòu)造查詢模式的過程中進(jìn)行實時數(shù)據(jù)查詢,使用戶可以通過查看中間結(jié)果來確保查詢模式的正確性。圖6展示了基于KGVis的可視化查詢系統(tǒng)架構(gòu),用戶通過可視化界面構(gòu)造查詢模式,系統(tǒng)后臺自動生成相應(yīng)的查詢語句,通過HTTP請求相應(yīng)的知識圖譜Endpoint,并將結(jié)果可視化展現(xiàn)給用戶。

圖5 基于RDF圖的可視化查詢語言QueryVOWL

圖6 基于KGVis的可視化系統(tǒng)架構(gòu)

2.1.2 基于屬性圖的可視化查詢語言

相比于RDF圖,屬性圖在節(jié)點和邊上內(nèi)置了屬性信息,被工業(yè)界圖數(shù)據(jù)庫廣泛采用,例如著名的Neo4j圖數(shù)據(jù)庫,但是還沒有形成統(tǒng)一的工業(yè)標(biāo)準(zhǔn)。目前屬性圖上的主流查詢語言有Cypher、Gremlin、PGQL和G-CORE等。近年來,由工業(yè)界和學(xué)術(shù)界聯(lián)合組成的關(guān)聯(lián)數(shù)據(jù)基準(zhǔn)委員會(LDBC)正在進(jìn)行屬性圖數(shù)據(jù)模型以及圖查詢語言的標(biāo)準(zhǔn)化工作[3]。

在針對屬性圖的圖模式匹配方面,文獻(xiàn)[34]提出了屬性圖上的可視化查詢語言V1,值得注意的是,V1并不與某一種特定的屬性圖查詢語言進(jìn)行綁定,如圖7所示,其通過矩形和線段的組合來表示屬性圖上的基本圖模式,利用不同的顏色區(qū)分節(jié)點的類別。由于不基于任意一種圖查詢語言,因此V1的語法中不包含“AND”等運算符,而是采用算術(shù)與邏輯運算符“&”“‖”“×”等。文獻(xiàn)[34]以奇幻小說《冰與火之歌》為知識背景詳細(xì)地介紹了V1豐富的表達(dá)能力,由于筆者還未了解到有基于V1的可視化查詢系統(tǒng),因此目前其對于用戶的可學(xué)習(xí)性和可讀性仍未知。文獻(xiàn)[35]對屬性圖上的查詢語言進(jìn)行了性能測試,包括Cypher、Gremlin等。

圖7 基于屬性圖的可視化查詢語言V1

2.2 知識圖譜可視化查詢系統(tǒng)

知識圖譜可視化查詢系統(tǒng)是基于各類知識圖譜數(shù)據(jù)模型設(shè)計開發(fā)的工具,用于幫助用戶更好地了解和查詢知識圖譜。本文根據(jù)查詢結(jié)構(gòu)以及交互邏輯將其總結(jié)為以下3類:基于關(guān)鍵字的可視化查詢系統(tǒng),基于過濾的可視化查詢系統(tǒng),基于模板的可視化查詢系統(tǒng)。

2.2.1 基于關(guān)鍵字的可視化查詢系統(tǒng)

基于關(guān)鍵字的查詢是搜索引擎中最常用的方法,用戶只需要輸入一個或多個關(guān)鍵字,系統(tǒng)就能根據(jù)用戶輸入的關(guān)鍵字進(jìn)行檢索并返回相近的查詢結(jié)果。文獻(xiàn)[36]基于關(guān)鍵字查詢方法提出了知識圖譜上基于實體元組的查詢系統(tǒng)GQBE,圖8展示了其查詢架構(gòu)。系統(tǒng)以用戶輸入的實體元組作為關(guān)鍵字,計算實體元組構(gòu)成的加權(quán)隱藏最大子圖,通過計算查詢結(jié)果與關(guān)鍵字的相似度對查詢結(jié)果進(jìn)行排序,返回相似度較高的查詢結(jié)果。該系統(tǒng)雖然簡化了用戶的輸入以及對知識圖譜背景知識的需求,但只能進(jìn)行簡單的元組模式查詢,無法進(jìn)行復(fù)雜的圖模式查詢。另一方面,用戶只能輸入實體作為查詢的關(guān)鍵字,實體與實體間的關(guān)系需要通過算法進(jìn)行計算。由于實體與實體間往往存在不止一種關(guān)系,因此基于關(guān)鍵字的可視化查詢系統(tǒng)使用并不廣泛。

圖8 基于關(guān)鍵字的可視化查詢系統(tǒng)GQBE

2.2.2 基于過濾的可視化查詢系統(tǒng)

基于過濾的可視化查詢又稱刻面瀏覽,其被廣泛運用于Web用戶界面,例如電子商務(wù)網(wǎng)站。這種查詢方法的特點是通過不斷過濾用戶的篩選條件反復(fù)細(xì)化查詢結(jié)果,使最后得到的查詢結(jié)果符合用戶查詢需求。目前已有大量學(xué)者將刻面瀏覽方法運用于RDF圖中,文獻(xiàn)[37]總結(jié)RDF/S數(shù)據(jù)上的刻面瀏覽方法并進(jìn)行了比較。

文獻(xiàn)[38]提出了基于過濾的刻面瀏覽查詢系統(tǒng)Grafa,通過預(yù)先查詢并存儲下一步查詢結(jié)果,將結(jié)果不為空的關(guān)系或?qū)傩砸赃x項的形式供用戶進(jìn)行選擇。如圖9所示,當(dāng)用戶以people類型作為查詢起點時,Grafa提供了多個屬性,例如性別、職業(yè)、城市等,用戶可以通過下拉選項框?qū)eople類型的查詢結(jié)果進(jìn)行過濾,以找到符合查詢意圖的結(jié)果?;谶^濾的查詢方法通常以實體或類型作為查詢的起點,適用于星型查詢模式[37]。

圖9 基于過濾的可視化查詢系統(tǒng)Grafa

2.2.3 基于模板的可視化查詢系統(tǒng)

基于模板的可視化查詢系統(tǒng)是在QBE思想上繼承發(fā)展得來的,相比于基于關(guān)鍵字的可視化查詢方法,其不需要通過算法去預(yù)測用戶查詢意圖對應(yīng)的查詢模式,另一方面,也不同于基于過濾的可視化查詢方法只能支持較為簡單的星型查詢模式。學(xué)者通過對問題的歸納總結(jié),提出一套完善的查詢模板供用戶選擇使用。

文獻(xiàn)[39]結(jié)合圖自動完成功能提出一種交互式可視化查詢系統(tǒng)VISAGE,其以不同類型的節(jié)點表示不同本體的實例,利用無向邊連接節(jié)點構(gòu)成查詢圖模板,通過在知識圖譜上進(jìn)行子圖匹配查詢,將查詢結(jié)果可視化給用戶。盡管本體與本體間的關(guān)系較少,但當(dāng)知識圖譜達(dá)到一定規(guī)模時,本體的類型較為豐富,需要大量不同類型的節(jié)點用以區(qū)分。文獻(xiàn)[12]在VISAGE的基礎(chǔ)上提出了圖查詢結(jié)果的交互式可視化探索系統(tǒng)VIGOR,并在DBLP的共同作者知識圖譜以及網(wǎng)絡(luò)安全數(shù)據(jù)集上進(jìn)行了實驗。在生物信息領(lǐng)域中,學(xué)者通常使用網(wǎng)絡(luò)模型來表示生物實體間的相互作用和更高級別的關(guān)聯(lián),因此,適合使用基于模板的可視化查詢方法。

文獻(xiàn)[40]提出一種在生物信息應(yīng)用中使用基于模板的可視化查詢框架。如圖10所示,其通過矩形和有向線段的組合表示查詢模式,其中,QD代表已知的實體,TD表示期望查詢到的結(jié)果。圖10(a)表示查詢與已知疾病有共同蛋白質(zhì)關(guān)聯(lián)的疾病,圖10(b)表示查詢與已知疾病關(guān)聯(lián)蛋白質(zhì)有二元相互作用的蛋白質(zhì)關(guān)聯(lián)的疾病,圖10(c)將圖10(b)查詢變量換為病毒,圖10(d)表示查詢的一個生物的表型關(guān)聯(lián)的蛋白質(zhì)與已知生物的表型關(guān)聯(lián)的蛋白質(zhì)屬于同一個蛋白質(zhì)家族,但不是一類蛋白質(zhì)。

圖10 基于模板的生物信息可視化查詢示例

在SPARQL 1.1引入屬性路徑之后,正則路徑查詢(Regular Path Querie,RPQ)被廣泛認(rèn)為是在RDF圖上進(jìn)行導(dǎo)航式查詢的主要方法。正則路徑查詢的目的是查找知識圖譜中是否存在一組實體,且判斷實體間的關(guān)系是否符合正則路徑,通常用于進(jìn)行模式匹配查詢。由于正則路徑具有一定的實際意義且構(gòu)造難度較大,因此通常由學(xué)者預(yù)先進(jìn)行定義,以模板的形式提供給用戶進(jìn)行查詢。

文獻(xiàn)[41]提出一種交互式可視化正則路徑查詢工具ProvRPQ。用戶可以在正則路徑查詢的結(jié)果上進(jìn)行交互式探索,通過點擊邊查看中間的完整路徑信息。文獻(xiàn)[42]在此基礎(chǔ)上提出一種交互式可視化查詢工具SPARQLVis,其支持關(guān)鍵字、過濾以及正則路徑查詢。文獻(xiàn)[43]則將3D可視化技術(shù)運用在查詢結(jié)果的展示中,提出一種交互式3D可視化工具KG3D。

2.3 本體的可視化查詢

本體是概念及其復(fù)雜關(guān)系的形式化表示,可用于獲取生物信息學(xué)和網(wǎng)絡(luò)安全等領(lǐng)域的綜合領(lǐng)域知識。在這些領(lǐng)域中,大型復(fù)雜的本體可以包含數(shù)十萬個概念。本節(jié)針對本體數(shù)據(jù)中是否包含大量的層次關(guān)系,例如is_a和subClassOf等,將本體的可視化查詢方法分成兩類:基于層次結(jié)構(gòu)的可視化查詢和基于非層次結(jié)構(gòu)的可視化查詢。

2.3.1 基于層次結(jié)構(gòu)的可視化查詢

目前,大量的本體可視化查詢方法通常側(cè)重于本體的層次結(jié)構(gòu),文獻(xiàn)[44]提出了Protégé,一款基于Java語言開發(fā)的本體編輯和知識獲取軟件,主要針對本體的層次結(jié)構(gòu)進(jìn)行可視化,并為多重繼承復(fù)制概念,如圖11所示,其中非層次結(jié)構(gòu)在單獨的窗口中以文本形式列出。該軟件目前被廣泛應(yīng)用于生物醫(yī)學(xué)領(lǐng)域。樹視圖和歐拉圖是體現(xiàn)層次結(jié)構(gòu)最佳的可視化模型,縮進(jìn)列表作為樹的一種特殊形式,能夠清晰地體現(xiàn)本體的類名以及層次關(guān)系,但是無法表達(dá)處于同一層次關(guān)系的本體間的關(guān)系。另一方面,盡管歐拉圖能夠通過節(jié)點嵌套的形式體現(xiàn)本體的層次關(guān)系,以及通過節(jié)點的大小和節(jié)點間的距離體現(xiàn)實體間的關(guān)系,如以距離體現(xiàn)實體間的相似度,但是和樹視圖一樣無法體現(xiàn)多層繼承關(guān)系,并且不適合大規(guī)模的本體數(shù)據(jù)。

圖11 基于層次結(jié)構(gòu)的可視化查詢軟件Protégé

2.3.2 基于非層次結(jié)構(gòu)的可視化查詢

本體中不僅包含豐富的層次關(guān)系信息,而且包含大量的類、屬性及實體間的復(fù)雜關(guān)聯(lián)信息。針對層次結(jié)構(gòu)無法有效表達(dá)此類信息的問題,文獻(xiàn)[10]提出了一種大型本體非層次關(guān)聯(lián)可視化查詢系統(tǒng)OntoPlot。如圖12所示,OntoPlot采用冰柱圖[45]作為主要的可視化方法,能夠有效地保留本體的主要層次結(jié)構(gòu),同時對查詢結(jié)果中涉及不到的節(jié)點進(jìn)行視覺壓縮,從而使得查詢結(jié)果能夠基本處于同一層次高度,實現(xiàn)大規(guī)模本體數(shù)據(jù)上的非層次關(guān)聯(lián)查詢。

圖12 基于非層次結(jié)構(gòu)可視化查詢系統(tǒng)OntoPlot

對本節(jié)介紹的7種知識圖譜可視化查詢技術(shù)進(jìn)行分類總結(jié),并從理論依據(jù)、表達(dá)力、可讀性、可學(xué)習(xí)性、準(zhǔn)確率等方面進(jìn)行對比,如表2所示,其中主要分為兩類可視化查詢語言和5種可視化查詢方法。對比內(nèi)容包括是否具有對應(yīng)的語法與語義、表達(dá)力表示查詢模式能否表達(dá)復(fù)雜的查詢問題、可讀性表示查詢模式是否容易被用戶閱讀和理解、可學(xué)習(xí)性表示查詢方法是否容易被用戶學(xué)習(xí)和理解,以及準(zhǔn)確率表示查詢結(jié)果是否符合用戶的查詢意圖。

由表2可知:

1)可視化查詢語言的表達(dá)力強于可視化查詢方法,是因為可視化查詢語言具有一定的理論依據(jù)以及語法。

2)在可讀性與可學(xué)習(xí)性方面,可視化查詢語言強于傳統(tǒng)的文本查詢語言,但弱于可視化查詢方法。

3)基于關(guān)鍵字的查詢方法對用戶的輸入要求低于其他方法,但是由于關(guān)鍵字無法有效地表達(dá)用戶的查詢意圖,因此查詢準(zhǔn)確率較低。

4)基于過濾的查詢方法能有效避免查詢結(jié)果為空,適用于星型和鏈?zhǔn)讲樵兘Y(jié)構(gòu),但是不支持復(fù)雜的模式查詢。

5)基于模板的查詢方法在可用性、可讀性、可學(xué)習(xí)性以及準(zhǔn)確率方面高于其他方法,但受限于模板的數(shù)量,用戶可操作性較低。

6)由于本體中包含大量的層次關(guān)系,因此基于層次結(jié)構(gòu)的查詢方法能夠有效地展示本體中的層次關(guān)聯(lián),并支持多重繼承。

7)基于非層次結(jié)構(gòu)的查詢方法在盡可能保留層次結(jié)構(gòu)的同時,支持對非層次關(guān)聯(lián)問題的查詢。

表2 知識圖譜可視化查詢技術(shù)對比

3 領(lǐng)域知識圖譜可視化查詢

知識圖譜作為人工智能領(lǐng)域中實現(xiàn)認(rèn)知智能的關(guān)鍵技術(shù),被廣泛運用于生物信息、智能交通、地理信息以及社交網(wǎng)絡(luò)等方面。隨著各個領(lǐng)域不斷地形成領(lǐng)域知識圖譜,通用可視化查詢方法不能有效地針對各個領(lǐng)域特定問題進(jìn)行描述。因此,針對領(lǐng)域知識圖譜進(jìn)行可視化查詢成為一項重要的挑戰(zhàn)。

在學(xué)術(shù)知識圖譜可視化查詢方面,文獻(xiàn)[46]使用基于模板的可視化查詢方法,以基于節(jié)點-鏈接圖的可視化技術(shù),使用力導(dǎo)向布局表示實體間關(guān)系的強弱,將查詢結(jié)果可視化展現(xiàn)給用戶。利用此方法,用戶可以找到與自己研究方向相關(guān)的會議論文以及作者的師承關(guān)系與合作關(guān)系,從而建立自己的學(xué)術(shù)網(wǎng)絡(luò)。

在社交網(wǎng)絡(luò)方面,可以通過節(jié)點-鏈接圖展示社交網(wǎng)絡(luò)中人、地點、關(guān)系間的聯(lián)系,并且用戶可以通過基于過濾的可視化查詢方法,迅速找到與自己具有共同愛好的人、可能感興趣的地點或電影等[47]。文獻(xiàn)[48]基于活動數(shù)據(jù)以及社交網(wǎng)絡(luò)中的拓?fù)浣Y(jié)構(gòu),提出一種社交朋友可視化查詢系統(tǒng)SFViz,通過生成社交標(biāo)簽的層次結(jié)構(gòu)幫助用戶尋找潛在的朋友,并在音樂社區(qū)中進(jìn)行實驗。

在網(wǎng)絡(luò)空間安全領(lǐng)域,計算機網(wǎng)絡(luò)本身就是由多個節(jié)點組成的,節(jié)點間的網(wǎng)絡(luò)連接對應(yīng)于知識圖譜中的邊。通過融合攻擊事件、漏洞路徑、任務(wù)需求以及網(wǎng)絡(luò)資產(chǎn)等信息,能夠可視化展示網(wǎng)絡(luò)中的實際運行狀態(tài)。文獻(xiàn)[49]基于實際網(wǎng)絡(luò)攻擊、防御和任務(wù)影響相關(guān)的網(wǎng)絡(luò)安全模型,提出一種網(wǎng)絡(luò)安全交互式可視化查詢工具CyGraph,通過將孤立的網(wǎng)絡(luò)數(shù)據(jù)和時間匯總在一起,以提供決策支持和態(tài)勢感知,面對實際網(wǎng)絡(luò)攻擊,查詢可能需要更深入地檢查易受攻擊的路徑。

生物信息領(lǐng)域包含大量代謝網(wǎng)絡(luò)、基因表達(dá)網(wǎng)絡(luò)、基因調(diào)控網(wǎng)絡(luò)和細(xì)胞信號轉(zhuǎn)導(dǎo)通路等內(nèi)容,由蛋白質(zhì)、基因、代謝物、病毒等不同種類物質(zhì)構(gòu)成。文獻(xiàn)[14]基于生物途徑信息建立了可視化模型,其通過力導(dǎo)向布局圖以及桑基布局圖對查詢結(jié)果進(jìn)行展示,并開發(fā)了可視化系統(tǒng)BioPW[14]。

知識圖譜的可視化查詢在電商領(lǐng)域也得到了廣泛的運用,其通過對用戶瀏覽信息的收集,為每個用戶構(gòu)建一個小型知識圖譜進(jìn)行分析,可通過可視化查詢找到用戶可能感興趣的商品,或者對商品流行趨勢進(jìn)行預(yù)測[50]。

此外,知識圖譜的可視化查詢還可運用于社會輿情的可視分析[51]、地理空間數(shù)據(jù)的可視分析[52]、電網(wǎng)運行狀態(tài)的可視分析[53]等諸多方面。

4 未來研究方向

目前,知識圖譜可視化查詢的理論、方法、技術(shù)與系統(tǒng)均處于快速發(fā)展階段。基于知識圖譜數(shù)據(jù)規(guī)模逐漸擴大的現(xiàn)狀,該技術(shù)的未來研究方向可歸納如下:

1)針對已有的知識圖譜數(shù)據(jù)模型,設(shè)計一套統(tǒng)一的知識圖譜可視化查詢語言。目前知識圖譜數(shù)據(jù)模型還尚未統(tǒng)一和標(biāo)準(zhǔn)化,相應(yīng)的知識圖譜文本查詢語言也正處于開發(fā)階段,目前還沒有一套完善的可視化語法與語義作為可視化查詢語言的理論基礎(chǔ)。因此,設(shè)計一套統(tǒng)一的可視化查詢語言,是知識圖譜領(lǐng)域的一個重要研究方向。

2)將可視化前沿技術(shù)與知識圖譜的數(shù)據(jù)模型相結(jié)合,從而更好地展示知識圖譜豐富的語義信息。目前的可視化技術(shù)主要注重于數(shù)據(jù)的展示,并不能有效地表達(dá)知識圖譜中蘊含的語義關(guān)聯(lián)信息。因此,如何把可視化技術(shù)與知識圖譜數(shù)據(jù)模型進(jìn)行結(jié)合,將可視化技術(shù)最前沿的方法用于表達(dá)和查詢知識圖譜中豐富的語義信息,將是未來一個重要的研究方向。

3)對已有的知識圖譜可視化技術(shù)進(jìn)行優(yōu)化,以適配領(lǐng)域特定知識圖譜可視化查詢。不同領(lǐng)域的知識圖譜根據(jù)領(lǐng)域特點也具有不盡相同的圖結(jié)構(gòu)和語義特征,如社交網(wǎng)絡(luò)中存在大量5連通度的子圖結(jié)構(gòu)[47]。因此,下一步可結(jié)合領(lǐng)域特定圖結(jié)構(gòu)以及語義特征,利用可視化技術(shù)設(shè)計基于領(lǐng)域特定知識圖譜的圖查詢語言,并在此基礎(chǔ)上開發(fā)面向領(lǐng)域特定知識圖譜的可視化查詢系統(tǒng)。

4)針對大規(guī)模知識圖譜數(shù)據(jù),實現(xiàn)大規(guī)模知識圖譜的高效可視化查詢。二維節(jié)點-鏈接圖目前已經(jīng)無法有效展示規(guī)模上萬的知識圖譜;三維可視化技術(shù)能夠解決邊重疊問題,但同樣面臨數(shù)據(jù)規(guī)模引起的可視化性能下降的問題;分頁圖可視化技術(shù)能夠在一定程度上解決數(shù)據(jù)規(guī)模問題,但卻舍棄了知識圖譜的完整性。隨著三維、增強現(xiàn)實與虛擬現(xiàn)實技術(shù)的不斷發(fā)展,如何在有限的可視化空間,利用可視化查詢技術(shù)實現(xiàn)大規(guī)模知識圖譜上的查詢與分析,是亟需解決的重要問題。

5)針對知識圖譜的領(lǐng)域特性,實現(xiàn)跨領(lǐng)域知識圖譜間的聯(lián)合可視化查詢。目前,大量發(fā)布在Web上的知識圖譜都具有單獨的查詢接口以及數(shù)據(jù)格式,這使得用戶需要了解不同的查詢接口并進(jìn)行數(shù)據(jù)格式的轉(zhuǎn)換。隨著知識圖譜數(shù)據(jù)模型的統(tǒng)一與標(biāo)準(zhǔn)化,跨領(lǐng)域知識圖譜間的聯(lián)合可視化查詢將成為重要的研究方向。

5 結(jié)束語

知識圖譜可視化查詢是通過圖形圖像描述知識資源及它們之間的相互聯(lián)系,并在此基礎(chǔ)上提供查詢服務(wù)的一項計算機技術(shù)。本文以“知識圖譜數(shù)據(jù)模型-可視化技術(shù)-知識圖譜可視化查詢語言-知識圖譜可視化查詢方法-領(lǐng)域知識圖譜可視化查詢應(yīng)用”為主線,對比分析2種知識圖譜可視化查詢語言和5種知識圖譜可視化查詢方法的優(yōu)缺點,對目前知識圖譜上的可視化查詢技術(shù)進(jìn)行研究。隨著知識圖譜在新一代人工智能發(fā)展中發(fā)揮愈加關(guān)鍵的作用,大規(guī)模、跨領(lǐng)域知識圖譜的可視化查詢方法與技術(shù)將會有更廣泛的需求與應(yīng)用。因此,基于統(tǒng)一模型的知識圖譜可視化查詢語言、感知語義的知識圖譜可視化技術(shù)、面向領(lǐng)域知識圖譜優(yōu)化的可視查詢方法以及大規(guī)模知識圖譜的高效可視化查詢策略,將是未來知識圖譜可視化查詢重要的發(fā)展方向。

猜你喜歡
數(shù)據(jù)模型本體圖譜
Abstracts and Key Words
繪一張成長圖譜
對姜夔自度曲音樂本體的現(xiàn)代解讀
面板數(shù)據(jù)模型截面相關(guān)檢驗方法綜述
加熱爐爐內(nèi)跟蹤數(shù)據(jù)模型優(yōu)化
電子測試(2017年12期)2017-12-18 06:35:36
補腎強身片UPLC指紋圖譜
中成藥(2017年3期)2017-05-17 06:09:01
主動對接你思維的知識圖譜
《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
Care about the virtue moral education
卷宗(2013年6期)2013-10-21 21:07:52
面向集成管理的出版原圖數(shù)據(jù)模型
邳州市| 塔河县| 巨野县| 浦城县| 大悟县| 原阳县| 建瓯市| 东乡族自治县| 西畴县| 杭锦旗| 内乡县| 惠水县| 赤城县| 舒城县| 钟祥市| 吴川市| 十堰市| 咸阳市| 柞水县| 曲靖市| 定安县| 郧西县| 昌邑市| 新余市| 集贤县| 陇西县| 洞口县| 北川| 清新县| 呼和浩特市| 容城县| 芒康县| 通州区| 庆安县| 建水县| 铁力市| 文登市| 合川市| 临高县| 崇阳县| 阜新市|