国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

本體和知識(shí)圖譜的比較研究

2021-08-03 03:16楊延云杜建強(qiáng)熊旺平羅計(jì)根賀佳江西中醫(yī)藥大學(xué)計(jì)算機(jī)學(xué)院南昌330004
關(guān)鍵詞:結(jié)構(gòu)化本體圖譜

★ 楊延云 杜建強(qiáng) 熊旺平 羅計(jì)根 賀佳(江西中醫(yī)藥大學(xué)計(jì)算機(jī)學(xué)院 南昌 330004)

本體和知識(shí)圖譜同是重要的知識(shí)組織表達(dá)形式,目前已經(jīng)被普遍應(yīng)用于人工智能、自然語言處理、軟件工程、醫(yī)學(xué)信息學(xué)以及圖書館學(xué)等領(lǐng)域[1-2],雖然二者有一定的內(nèi)在聯(lián)系,但是它們還是有實(shí)質(zhì)上的差別。為此,本篇論文對(duì)本體和知識(shí)圖譜之間的聯(lián)系和區(qū)別展開相關(guān)探索和研究。

1 相關(guān)知識(shí)及研究基礎(chǔ)

1.1 本體追根溯源,本體(Ontology)概念來源于哲學(xué),在20世紀(jì)90年代被引入到人工智能、圖書情報(bào)和知識(shí)工程等[3-4]領(lǐng)域,從此本體一直成為眾多領(lǐng)域的熱門研究話題。關(guān)于本體的定義一直是眾說紛紜,沒有定論。Studer等人在1998年提出本體的定義:本體是共享概念模型的明確的形式化規(guī)范說明[5]。此定義在學(xué)術(shù)界具有較大的影響,對(duì)于本體研究具有重要意義。

在本體研究發(fā)展的過程中,描述本體的語言有很多種,其中基于謂詞邏輯的本體描述語言[6]和基于Web的本體描述語言[7]是最具代表性的兩類。通常來說,根據(jù)本體的應(yīng)用領(lǐng)域不同可以將本體分為領(lǐng)域本體和上層本體兩類。

1.2 知識(shí)圖譜知識(shí)圖譜(Knowledge Graph,KG)本質(zhì)上是一種大規(guī)模的語義網(wǎng)絡(luò),其概念于2012年5月由Google正式提出,初衷是為了用戶能夠更快更簡單地發(fā)現(xiàn)新的信息和知識(shí)。知識(shí)圖譜由節(jié)點(diǎn)和邊組成,其中節(jié)點(diǎn)表示實(shí)體或概念,邊代表兩個(gè)實(shí)體或概念之間的語義關(guān)系,屬性是一個(gè)鍵值對(duì),每個(gè)實(shí)體或關(guān)系可以有一個(gè)或多個(gè)屬性,為實(shí)體和關(guān)系提供信息。

圖1 是一個(gè)知識(shí)圖譜示例:其中,統(tǒng)計(jì)學(xué)習(xí)方法就是一個(gè)課程實(shí)體,李明是一個(gè)教師實(shí)體,工號(hào)是其屬性,屬性值是20171001,李華是一個(gè)學(xué)生實(shí)體。李明和統(tǒng)計(jì)學(xué)習(xí)方法之間的關(guān)系是授課,李華和統(tǒng)計(jì)學(xué)習(xí)方法之間的關(guān)系是選課。同時(shí),知識(shí)圖譜也可以描述各種概念之間的關(guān)系,例如研究生和學(xué)生的關(guān)系是概念和子概念之間的關(guān)系。

圖1 知識(shí)圖譜示例

2 本體與知識(shí)圖譜的聯(lián)系

知識(shí)圖譜的構(gòu)建過程如圖2所示,其中包括息抽取、知識(shí)表示、知識(shí)融合、知識(shí)推理四個(gè)部分[8]。信息抽取是從結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中通過自動(dòng)化或者半自動(dòng)化的技術(shù)抽取有價(jià)值的信息,其中包括實(shí)體抽取,語義類抽取,屬性和屬性值抽取,關(guān)系抽??;知識(shí)表示方法主要是以RDF的三元組來符號(hào)性描述實(shí)體間的關(guān)系,近年來采用深度學(xué)習(xí)技術(shù)將實(shí)體的語義信息表示為稠密低維實(shí)值向量的方法開始興起[9]。對(duì)于本體和知識(shí)圖譜的聯(lián)系主要涉及知識(shí)融合和知識(shí)推理這兩個(gè)部分。

圖2 知識(shí)圖譜體系架構(gòu)

2.1 知識(shí)融合下二者的聯(lián)系知識(shí)融合指將來自多個(gè)數(shù)據(jù)源的知識(shí)進(jìn)行融合后集成到知識(shí)圖譜中[10]。就邏輯結(jié)構(gòu)而言,知識(shí)圖譜可分為模式層與數(shù)據(jù)層,模式層構(gòu)建在數(shù)據(jù)層之上。知識(shí)圖譜的模式層通常采用本體庫來保存,而數(shù)據(jù)層主要是采用圖數(shù)據(jù)庫來管理。知識(shí)融合階段主要是對(duì)數(shù)據(jù)進(jìn)行本體對(duì)齊和實(shí)體匹配。

本體對(duì)齊就是判斷和處理來自不同本體的兩個(gè)實(shí)體是否指向一致,達(dá)到數(shù)據(jù)的統(tǒng)一[11],發(fā)生在知識(shí)圖譜的模式層,涉及的是模式層的融合,包括概念的合并,概念上下位關(guān)系合并,概念的屬性定義合并。而實(shí)體匹配是為了發(fā)現(xiàn)來源于多個(gè)數(shù)據(jù)源而具有不同ID卻代表同一對(duì)象的實(shí)體,將這些實(shí)體融合為一個(gè)具有全局唯一ID的實(shí)體,然后添加到知識(shí)圖譜中,主要發(fā)生在數(shù)據(jù)層,更多涉及的是數(shù)據(jù)層的融合,匹配結(jié)果類型分為一對(duì)一,一對(duì)多和多對(duì)一3種。

由于知識(shí)圖譜的構(gòu)建為了保證模式層的可靠性,模式層基本上通過人工校驗(yàn)。因此,知識(shí)融合的主要任務(wù)是數(shù)據(jù)層的融合[12]。

2.2 知識(shí)推理下二者的聯(lián)系知識(shí)推理是在現(xiàn)有知識(shí)圖譜的基礎(chǔ)上通過各種方法進(jìn)一步挖掘隱含的知識(shí)、結(jié)論[13]或識(shí)別出知識(shí)圖譜中錯(cuò)誤的知識(shí),從而豐富和拓展知識(shí)圖譜,主要分為本體推理和規(guī)則推理[14],推理的對(duì)象不僅僅局限于實(shí)體層面還涉及本體庫中概念的層次結(jié)構(gòu)等。

基于本體的推理,體現(xiàn)在本體層面,主要是通過預(yù)定義的本體公理進(jìn)行推理,例如對(duì)于性別男、女是交集為空的兩個(gè)類,那么一定不會(huì)存在一個(gè)人的性別既是男又是女?;谧远x規(guī)則的推理,可以根據(jù)特定的場景制定規(guī)則,來實(shí)現(xiàn)自定義的推理過程。推理關(guān)系規(guī)則,定義父親的母親是祖母,已知a是b的父親,b是c的母親,則可以推出a是c的祖母。

3 本體與知識(shí)圖譜的區(qū)別

對(duì)于本體和知識(shí)圖譜表達(dá)的信息方面而言,本體表達(dá)的是領(lǐng)域內(nèi)共同認(rèn)可的概念和概念間的關(guān)系,它反映的是常識(shí)或相對(duì)恒定的知識(shí),不具備情報(bào)價(jià)值。譬如,Wordnet[15]、Hownet[16]和Cyc[17]都是國內(nèi)外主要的通用本體庫,是由眾多行業(yè)專家經(jīng)過多年手工編制的結(jié)果,其知識(shí)具備穩(wěn)定性而不具備情報(bào)性,通常知識(shí)圖譜則是情報(bào)挖掘的結(jié)果[18]。知識(shí)圖譜構(gòu)建過程的知識(shí)抽取環(huán)節(jié),從結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)中進(jìn)行信息抽取,形成知識(shí)存入知識(shí)圖譜中。谷歌知識(shí)圖譜中所涉及的實(shí)體、實(shí)體間的關(guān)系以及其他相關(guān)信息并不是相對(duì)恒定的知識(shí),具有流動(dòng)性。

對(duì)于自然語言理解而言,語義消歧是其中的基礎(chǔ)問題,是研究熱點(diǎn)也是研究難點(diǎn)。在句法知識(shí)或者單獨(dú)的句法不能實(shí)現(xiàn)消歧的情況下,本體作為一個(gè)支撐性的知識(shí),有助于實(shí)現(xiàn)語義區(qū)分,實(shí)現(xiàn)對(duì)語句的正確理解。比如,“他雞吃了” 和 “雞他吃了”,句法分析本身無法區(qū)分誰吃了誰。這種情況下,本體中的常識(shí)可以起到作用,因?yàn)樵诔WR(shí)中,“雞”通常是“人”的食物,這樣就可以判斷是“他”吃了“雞”。語言理解之后的信息抽取,涉及哪些實(shí)體以及實(shí)體間的發(fā)生何種關(guān)系,都可以從知識(shí)圖譜中得到。

對(duì)于結(jié)構(gòu)而言,本體描述了知識(shí)圖譜的模式層,提供對(duì)相關(guān)領(lǐng)域知識(shí)的共同理解,突出和強(qiáng)調(diào)概念以及概念之間的關(guān)聯(lián)關(guān)系[19]。知識(shí)圖譜則是在本體構(gòu)建的模式層的基礎(chǔ)上添加更多實(shí)體的信息,不斷豐富和擴(kuò)充。

4 總結(jié)

隨著互聯(lián)網(wǎng)、人工智能等行業(yè)的迅猛發(fā)展,本體和知識(shí)圖譜作為重要的知識(shí)組織表達(dá)手段,不僅可以將海量數(shù)據(jù)表達(dá)成更接近人類認(rèn)知現(xiàn)實(shí)世界的形式,還提供一種更好的組織、管理和利用信息的方式。加之,本體和知識(shí)圖譜相輔相成的緊密關(guān)系,只有將二者共同發(fā)展強(qiáng)大才能滿足人類對(duì)海量數(shù)據(jù)管理和利用的需求。

猜你喜歡
結(jié)構(gòu)化本體圖譜
促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
改進(jìn)的非結(jié)構(gòu)化對(duì)等網(wǎng)絡(luò)動(dòng)態(tài)搜索算法
眼睛是“本體”
繪一張成長圖譜
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
左顧右盼 瞻前顧后 融會(huì)貫通——基于數(shù)學(xué)結(jié)構(gòu)化的深度學(xué)習(xí)
補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
基于本體的機(jī)械產(chǎn)品工藝知識(shí)表示
主動(dòng)對(duì)接你思維的知識(shí)圖譜
專題