存儲于關(guān)系數(shù)據(jù)庫的知識庫的語義推理方法

2013-04-29 00:44:03單永剛

計(jì)算機(jī)時(shí)代 2013年7期

單永剛

摘要：語義推理的功能使得知識庫更具人工智能，具有實(shí)用意義。文章根據(jù)語義模型的特點(diǎn)，構(gòu)建了基于關(guān)系數(shù)據(jù)庫的知識庫語義存儲體系，該存儲體系的模式空間和實(shí)例空間相分離，降低了結(jié)構(gòu)和數(shù)據(jù)的耦合性，使語義的存儲范圍更具完整性、語義的推理效果更具智能性。面向該存儲體系的語義推理方法實(shí)現(xiàn)了相關(guān)語義（專家知識）的推理和相似語義（詞匯）的推理，同時(shí)，該方法也考慮到了推理范圍的可控能力和推理結(jié)果的語義還原能力。分析表明，該方法能應(yīng)用于實(shí)際，但仍存在一些可改進(jìn)之處。

關(guān)鍵詞：推理；語義；模式空間；實(shí)例空間；知識庫；關(guān)系數(shù)據(jù)庫

中圖分類號：TP182 文獻(xiàn)標(biāo)志碼：A 文章編號：1006-8228（2013）07-48-04

0 引言

Tim Berners-Lee曾在TED的演講中提到“數(shù)據(jù)就是聯(lián)系，聯(lián)系產(chǎn)生數(shù)據(jù)”，Tim Hanis等人在解釋語義圖模式時(shí)強(qiáng)調(diào)“數(shù)據(jù)之間的聯(lián)系不是數(shù)據(jù)庫結(jié)構(gòu)的一部分，而是數(shù)據(jù)的一部分”[1]，“聯(lián)系”是語義數(shù)據(jù)的重要特點(diǎn)。知識庫內(nèi)容的簡單呈現(xiàn)不符合當(dāng)下熱門的Web3.0理念，知識庫的設(shè)計(jì)思想應(yīng)該提升到語義層面，充分考慮知識元數(shù)據(jù)之間的語義聯(lián)系，具備語義推理功能的知識庫在學(xué)習(xí)資源建設(shè)中大有用武之地。

知識庫是一個(gè)局部的語義數(shù)據(jù)庫，在關(guān)系數(shù)據(jù)庫中為知識庫建立一套靈活的語義存儲體系，該存儲體系可根據(jù)實(shí)際情況創(chuàng)建相應(yīng)類（如某門課程）的對象及其屬性，它繼承了RDF語義數(shù)據(jù)的框架和內(nèi)容的分離性，能靈活應(yīng)對各類元數(shù)據(jù)描述的框架需求，從而克服本體的框架和內(nèi)容緊耦合性的不足之處。存儲體系包括模式空間和實(shí)例空間，其中前者提供構(gòu)建語義框架的基本屬性和基本元素，后者用于存儲語義實(shí)例數(shù)據(jù)，它們反映在關(guān)系數(shù)據(jù)庫中就是模式空間表和實(shí)例空間表，模式空間與實(shí)例空間相分離是關(guān)系數(shù)據(jù)庫完整、高效地存儲語義數(shù)據(jù)的前提。

筆者在文獻(xiàn)[2]中對語義數(shù)據(jù)存儲于關(guān)系數(shù)據(jù)庫的實(shí)現(xiàn)方法作了詳細(xì)闡述。雖然關(guān)系數(shù)據(jù)庫存儲語義數(shù)據(jù)使語義存儲的長久性更有保障，而且，這種存儲方式使得語義數(shù)據(jù)的操作更為簡便，但是不得不忽略一個(gè)弱點(diǎn)——基于關(guān)系數(shù)據(jù)庫的語義存儲體系的推理能力有限。本文通過對模式空間表和實(shí)例空間表的邏輯組織，來加強(qiáng)關(guān)系數(shù)據(jù)庫語義存儲體系的語義推理能力，這是對知識庫存儲體系的一個(gè)完美補(bǔ)充。

1 知識庫存儲體系的基本原理

語義數(shù)據(jù)可以理解為概念集合，它由類標(biāo)識符集、屬性標(biāo)識符集和數(shù)據(jù)類型標(biāo)識符集組成，它是實(shí)現(xiàn)語義數(shù)據(jù)邏輯模型與關(guān)系數(shù)據(jù)存儲模型相映射，進(jìn)而在關(guān)系數(shù)據(jù)庫中建立模式空間表和實(shí)例空間表的基礎(chǔ)，圖1是一個(gè)由本體編輯工具protégé[3]模擬出的關(guān)于出版物本體的語義模型，本文以該模型為例來介紹在關(guān)系數(shù)據(jù)庫中實(shí)現(xiàn)語義推理的基本原理和基本條件。

圖1中帶符號“●”的是本體的類（class），帶符號“◆”的是本體的實(shí)例（indivisuals of class），類之間、實(shí)例之間的箭頭線表示謂詞關(guān)系，類與實(shí)例之間的箭頭線表示繼承關(guān)系。

定義1：類與類之間構(gòu)成的子圖稱為模式（Schema）空間圖，根據(jù)模式空間圖的模型生成的關(guān)系數(shù)據(jù)表稱為模式空間表。

定義2：實(shí)例與實(shí)例之間構(gòu)成的子圖稱為實(shí)例（Instance）空間圖，根據(jù)實(shí)例空間圖的模型生成的關(guān)系數(shù)據(jù)表稱為實(shí)例空間表。

2 模式空間表和實(shí)例空間表

語義數(shù)據(jù)存儲于關(guān)系數(shù)據(jù)庫，不僅是為存儲而存儲，其主要目的是用來讀取、推理數(shù)據(jù)，常規(guī)的存儲方式中，按順序查詢數(shù)據(jù)表的推理策略不但效果不佳，而且推理效率也低下，模式空間與實(shí)例空間相結(jié)合而構(gòu)建的存儲體系，最大限度地保留了語義模型的特征，通過模式空間表之間的邏輯關(guān)系獲取相關(guān)語義的元組ID，再通過索引查詢從實(shí)例空間表中獲取元組ID所對應(yīng)的語義數(shù)據(jù)。

2.1 模式空間表

2.1.1 類表（ObjectClass）

存儲語義數(shù)據(jù)的所有類，主要信息來源是類標(biāo)識符集合A，類表的數(shù)據(jù)項(xiàng)用來對每個(gè)類基本情況的描述，如：是否啟用該類的對象實(shí)體、是否屏蔽對象實(shí)體的一些屬性等。類表的一個(gè)重要的作用就是用來定義對象實(shí)體的文本信息字段，這些字段所構(gòu)成的表用來存儲DH語義圖（有向超圖結(jié)構(gòu)的RDF語義圖[5]）中的標(biāo)簽所描述的文本信息，如圖1中Person類為它的對象實(shí)體定義了表Author{Education、Professional、Degree…}則，Lucy，Jim的相關(guān)信息可以存儲到Author表中。

2.1.2 數(shù)據(jù)屬性表（ObjectProperty）

存儲語義數(shù)據(jù)關(guān)系屬性類型，每項(xiàng)數(shù)據(jù)表達(dá)一個(gè)該數(shù)據(jù)項(xiàng)相關(guān)的關(guān)系屬性的實(shí)例表，該實(shí)例表存儲Subject-Object的數(shù)據(jù)。該表主要數(shù)據(jù)來源是實(shí)體的描述信息，即元數(shù)據(jù)。但是要注意到的是，在實(shí)際應(yīng)用中，ObjectProperty 的Subject和Object并不都是1：1的關(guān)系，恰恰絕大部分關(guān)系是1：n的關(guān)系，如：在圖1中，{publication1 hasAuthor （lucy，tom，…）}，{lucy isAuthorof （publication1，publication2，…）}，這種情況帶來兩個(gè)問題：查詢效率降低；存儲空間浪費(fèi)。解決問題的方法是不管Object有多少個(gè)組成部分，都把它存儲在一個(gè)變長的數(shù)據(jù)字段中，這樣既可以明顯提高存儲效率，也可以實(shí)現(xiàn)一次完成Object的查詢。

2.1.3 數(shù)據(jù)屬性類型表（DatatypeProperty）

存儲語義數(shù)據(jù)的屬性類型，每項(xiàng)數(shù)據(jù)表達(dá)一個(gè)該數(shù)據(jù)項(xiàng)相關(guān)的數(shù)據(jù)屬性的實(shí)例表，該表存儲Subject-Data的數(shù)據(jù)。該表主要數(shù)據(jù)來源是屬性標(biāo)識符集合U，由于在固定領(lǐng)域范圍內(nèi)集合U的元素?cái)?shù)量是有限的，這使得實(shí)現(xiàn)垂直分割數(shù)據(jù)更具有可行性。

數(shù)據(jù)屬性類型表中，為每項(xiàng)數(shù)據(jù)設(shè)置一個(gè)互逆屬性字段，聲明該類的屬性互逆的屬性值。在圖1中，集合Ea具有對稱性，所以每個(gè)屬性的逆屬性就是相互對稱的二元關(guān)系的元素，如：R={hasAuthor}和R={isAuthorof}就是一對互逆屬性。這樣，當(dāng)向hasAuthor表做（？hasAuthor Lucy）查詢時(shí)，在hasAuthor表中將做多次查詢操作和字符串操作算法，利用互逆屬性，則將查詢轉(zhuǎn)化為在isAuthorof表中做（Lucy isAuthorof ？）查詢，這樣可一次性查詢到所要結(jié)果。

2.1.4 數(shù)據(jù)類型表（Datatype）

數(shù)據(jù)類型表存儲語義數(shù)據(jù)所有的數(shù)據(jù)類型及其與關(guān)系數(shù)據(jù)庫的映射關(guān)系，它的數(shù)據(jù)來源是數(shù)據(jù)類型標(biāo)識符集K，如：語義描述體系XML Schema的數(shù)據(jù)類型Xsd：string、Xsd：datetime在關(guān)系數(shù)據(jù)庫中，分別對應(yīng)數(shù)據(jù)類型VARCHAR、TIMESTAMP。

2.2 實(shí)例空間表

實(shí)例空間表對描述對象的具體描述，實(shí)例空間表的屬性（即關(guān)系數(shù)據(jù)庫表的字段）根據(jù)實(shí)際應(yīng)用需要從模式空間表中獲取，實(shí)例空間表一般包括：推理索引表、三元組表、實(shí)例數(shù)據(jù)表、實(shí)例語義聯(lián)系表等。

2.2.1 推理索引表

Reasoning_Table={ID，SubjectID，Predicate，Type}，其中：Predicate記錄Subject在所在領(lǐng)域本體中應(yīng)該有的謂詞集合（如：hasAuthor，BothCiting，…），Predicate字段存儲的是一系列謂詞的集合，謂詞集合也即數(shù)據(jù)屬性類型表的對象，由于語義數(shù)據(jù)存儲于關(guān)系數(shù)據(jù)的存儲對象是對語義圖（如圖1模型）的存儲，包括數(shù)據(jù)結(jié)構(gòu)的存儲和數(shù)據(jù)內(nèi)容的存儲，因此，推理索引表的類型、結(jié)構(gòu)和內(nèi)容可以從語義模型中獲取。局部語義網(wǎng)或某個(gè)領(lǐng)域本體的推理索引表的集合構(gòu)成推理知識庫。

2.2.2 三元組表

Predicate_Table={ID，SubjectID，ObjectID}繼承了數(shù)據(jù)屬性表的結(jié)構(gòu)，用于垂直記錄三元組數(shù)據(jù)，Predicate即三元組的謂詞，它是三元組表的表名，如：isAuthorof、hasAuthor，當(dāng)推理要查詢關(guān)系“hasAuthor”時(shí)，只要查找hasAuthor三元組表即可，能提高推理效率。三元組表是基于相關(guān)詞匯推理的推理規(guī)則。

2.2.3 實(shí)例數(shù)據(jù)表

Semantic_Table={Subject_ID，ClassName，Description1， Description2…}，該表的數(shù)據(jù)結(jié)構(gòu)根據(jù)類表自主生成，它用于記錄某主題的語義信息。三元組的Subject和Object在關(guān)系數(shù)據(jù)庫中只是描述角色上的不同，作為數(shù)據(jù)項(xiàng)并無差別，因此，實(shí)例數(shù)據(jù)表的字段Subject_ID既可以適合Subject的ID也適合Object的ID。

2.2.4 實(shí)例語義聯(lián)系表

Reration_Table={ID， Subject， Objects}，實(shí)例語義聯(lián)系表用以描述Subject的主題有聯(lián)系的詞匯，如：subject=“CPU”，則Object=“內(nèi)存，硬盤，主板，AMD，Intel…”，它不同于三元組表，三元組表的數(shù)據(jù)基于共同的謂詞，數(shù)據(jù)自動從語義數(shù)據(jù)中采集，而實(shí)例語義聯(lián)系表是基于相關(guān)領(lǐng)域?qū)＜业乃季S規(guī)則，匯集了專家們的領(lǐng)域知識，它使得知識庫的語義更加豐富，語義推理結(jié)果更具“智能性”。實(shí)例語義聯(lián)系表是基于專家知識推理的推理規(guī)則。

2.3 模式空間表與實(shí)例空間表的關(guān)系

模式空間表和實(shí)例空間表之間的關(guān)系是類似于面向?qū)ο笏枷胫械摹邦悺迸c“對象”之間的關(guān)系，后者有選擇地繼承前者的屬性，前者為后者派生特定領(lǐng)域的類或?qū)傩?，這是一種“決定”關(guān)系。圖2是模式空間表與實(shí)例空間表之間的“決定”關(guān)系圖，其中：深色的為模式空間表，淺色為實(shí)例空間表，箭頭方向表示“決定關(guān)系”。由圖2可知，當(dāng)謂詞集和領(lǐng)域確定時(shí)（數(shù)據(jù)類型表是固定的），相關(guān)的實(shí)例數(shù)據(jù)表的結(jié)構(gòu)就也確定了。

3 推理算法

3.1 推理步驟

基于關(guān)系數(shù)據(jù)庫的知識庫的語義推理主要分兩類推理：描述詞匯的推理（相似性）和專家知識的推理（相關(guān)性），兩者分開計(jì)算，同時(shí)推理。

推理步驟如下：①判斷預(yù)設(shè)推理?xiàng)l件（如：推理層次i），如果成立則開始推理工作；②描述詞匯推理：根據(jù)條件確定Subject在相應(yīng)環(huán)境下的謂詞集，根據(jù)垂直存儲的特點(diǎn)，謂詞即三元組表的表名，以此查找在相關(guān)表中所有與該Subject有關(guān)系的Object1；③專家知識推理：根據(jù)條件確定Subject在實(shí)例語義聯(lián)系表中相關(guān)的Object2；④在實(shí)例數(shù)據(jù)表中查詢Object（Object1+Object2）的所有數(shù)據(jù)描述信息（Descriptions），存儲中間結(jié)果，輸出相關(guān)信息；⑤判斷推理?xiàng)l件，如果推理層次i>0，則把本次推理返回的所有Object作為新的推理的Subject，逐個(gè)重復(fù)步驟①-④，推理層次i自減1，直到條件不滿足，其中步驟②和步驟③為并列關(guān)系。

3.2 算法說明

相關(guān)謂詞：同一語境下類與類存在某種關(guān)系，則它們?yōu)橄嚓P(guān)類，類的本身一定是它自己的相關(guān)類，如圖1中的三個(gè)類：Article、Person和Publication兩兩相關(guān)，并且每個(gè)類都是自己的相關(guān)類。相關(guān)謂詞是由相關(guān)類集合的全二元關(guān)系組成，如{Article，Person，Publication}的相關(guān)謂詞為：{Citing，Cited，BothCiting，BothCited，Publish，IsPublished，isAuthorofhasAuthor}，相關(guān)謂詞集合在推理運(yùn)算時(shí)能起到兩個(gè)作用：①由數(shù)據(jù)屬性類型表的互逆屬性可知，相關(guān)謂詞也具有互逆屬性，這可以省去一半的算法開銷；②相關(guān)謂詞的分類、集中存儲，有助于在推理時(shí)能精準(zhǔn)地找到相關(guān)的三元組表，大大提高查詢效率。

語義模糊性：由于語義數(shù)據(jù)存在模糊性或不精確性，檢索需要支持?jǐn)?shù)據(jù)的模糊語義表達(dá)[4]。特別在關(guān)系數(shù)據(jù)庫中查詢數(shù)據(jù)時(shí)，精確的計(jì)算方法將失去大量的語義聯(lián)系，查詢語義數(shù)據(jù)時(shí)，所涉及的查詢條件均須采用模糊表達(dá)式，如：查詢必須要考慮到通配符命令、嵌套查詢、視圖查詢等的靈活運(yùn)用。

算法思想：最常用的語義推理算法包括Tableau算法和Rete算法兩種[6]，前者強(qiáng)調(diào)判斷知識的可滿足性或知識之間的包含關(guān)系，后者強(qiáng)調(diào)存儲語義匹配的中間結(jié)果，以提高規(guī)則匹配的效率。本文所述的是基于關(guān)系數(shù)據(jù)庫的知識語義推理算法，它所建立的推理算法模型同時(shí)考慮到了以上兩種算法的側(cè)重點(diǎn)。

3.3 推理算法

3.4 算法評價(jià)與應(yīng)用實(shí)例

該算法的優(yōu)點(diǎn)是，能自主控制推理范圍（參數(shù)i）；相似性和相關(guān)性相結(jié)合的推理使得推理結(jié)果更加豐富和智能化；推理中間過程的存儲，一方面增加了推理的效率，另一方面能快捷地生成主題相關(guān)的語義脈絡(luò)（即語義圖）。缺點(diǎn)是，遞歸函數(shù)的特性使得推理規(guī)則數(shù)據(jù)表的數(shù)據(jù)量不能過大，算法不適合大型知識庫；存儲中間結(jié)果將消耗存儲空間。

采用上述方法，課題組完成了本文的基金項(xiàng)目“智能型”網(wǎng)絡(luò)課程的研發(fā)，該項(xiàng)目的“智能”實(shí)現(xiàn)過程如下：網(wǎng)絡(luò)課程平臺把課程資源根據(jù)課程教師的教學(xué)經(jīng)驗(yàn)和詞匯之間的關(guān)聯(lián)語義化，并把語義化的元資源存儲于關(guān)系數(shù)據(jù)庫語義存儲體系（包括語義聯(lián)系的存儲），即生成基于本課程內(nèi)容的知識庫，再根據(jù)網(wǎng)絡(luò)課程的交互學(xué)習(xí)的“語境”，把3.3中的算法函數(shù)實(shí)例化，推理出該語境下的相關(guān)語義（如：學(xué)習(xí)元資源），有準(zhǔn)對性地推送給學(xué)習(xí)者。這種網(wǎng)絡(luò)課程的人工智能化方法，對遠(yuǎn)程教育有很大的實(shí)用意義。

4 結(jié)束語

本文在介紹語義模型的基礎(chǔ)上，構(gòu)建了由模式空間和實(shí)例空間組成的關(guān)系數(shù)據(jù)語義存儲體系。模式空間表和實(shí)例空間表保障了該存儲體系有能力完全存儲知識庫語義數(shù)據(jù)，并能模擬出知識語義的推理算法。知識語義的推理包括面向三元組信息的相似性推理和面向?qū)＜抑R的相關(guān)性推理。算法設(shè)定了推理范圍控制參數(shù)，使推理范圍能靈活控制。

算法在假設(shè)知識庫是某領(lǐng)域知識元數(shù)據(jù)的有限集合的基礎(chǔ)上進(jìn)行，如果實(shí)例空間表中的數(shù)據(jù)量過大或預(yù)設(shè)推理層次過多，遞歸函數(shù)將導(dǎo)致算法次數(shù)急劇增加，進(jìn)而影響推理效率，因此該算法在如何減少計(jì)算次數(shù)方面還有待更多的研究。

參考文獻(xiàn)：

[1] T HANIS， D NOLLER. Semantic models A flexible foundation formodel-driven application architectures[C/OL]. （2011-10-11）[2013-37].http：//www.ibm.com/developerworks/industry/library/ind-semanticmodels/index.html.

[2] Yonggang Shan， Jiangfeng Yu， Dongyi Chen. Implementation Method of the Semantic Data be Stored into the Relational Database[C].China：Najing，2012.8，CSSS2012.

[3] 陶皖，廖述梅.當(dāng)前本體編輯工具的分析與研究[J]計(jì)算機(jī)工程與設(shè)計(jì)，2005.26（3）：761-763

[4] 金海，袁平鵬.語義網(wǎng)數(shù)據(jù)管理技術(shù)及應(yīng)用[M].科學(xué)出版社，2010.

[5] ANTONIO A， MORALES M， SERODIO M E V. A DirectedHypergraph Model for RDF[C/OL].（2007-6-6）[2013-2-15].http：//ceur-ws.org/Vol-275/paper24.pdf.

[6] 湯怡潔，周子健.語義web環(huán)境下語義推理的研究與實(shí)現(xiàn)[J].圖書館雜志，2011.30（3）：69-75

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

存儲于關(guān)系數(shù)據(jù)庫的知識庫的語義推理方法