單永剛
摘 要: 語義推理的功能使得知識庫更具人工智能,具有實(shí)用意義。文章根據(jù)語義模型的特點(diǎn),構(gòu)建了基于關(guān)系數(shù)據(jù)庫的知識庫語義存儲體系,該存儲體系的模式空間和實(shí)例空間相分離,降低了結(jié)構(gòu)和數(shù)據(jù)的耦合性,使語義的存儲范圍更具完整性、語義的推理效果更具智能性。面向該存儲體系的語義推理方法實(shí)現(xiàn)了相關(guān)語義(專家知識)的推理和相似語義(詞匯)的推理,同時(shí),該方法也考慮到了推理范圍的可控能力和推理結(jié)果的語義還原能力。分析表明,該方法能應(yīng)用于實(shí)際,但仍存在一些可改進(jìn)之處。
關(guān)鍵詞: 推理; 語義; 模式空間; 實(shí)例空間; 知識庫; 關(guān)系數(shù)據(jù)庫
中圖分類號:TP182 文獻(xiàn)標(biāo)志碼:A 文章編號:1006-8228(2013)07-48-04
0 引言
Tim Berners-Lee曾在TED的演講中提到“數(shù)據(jù)就是聯(lián)系,聯(lián)系產(chǎn)生數(shù)據(jù)”,Tim Hanis等人在解釋語義圖模式時(shí)強(qiáng)調(diào)“數(shù)據(jù)之間的聯(lián)系不是數(shù)據(jù)庫結(jié)構(gòu)的一部分,而是數(shù)據(jù)的一部分”[1],“聯(lián)系”是語義數(shù)據(jù)的重要特點(diǎn)。知識庫內(nèi)容的簡單呈現(xiàn)不符合當(dāng)下熱門的Web3.0理念,知識庫的設(shè)計(jì)思想應(yīng)該提升到語義層面,充分考慮知識元數(shù)據(jù)之間的語義聯(lián)系,具備語義推理功能的知識庫在學(xué)習(xí)資源建設(shè)中大有用武之地。
知識庫是一個(gè)局部的語義數(shù)據(jù)庫,在關(guān)系數(shù)據(jù)庫中為知識庫建立一套靈活的語義存儲體系,該存儲體系可根據(jù)實(shí)際情況創(chuàng)建相應(yīng)類(如某門課程)的對象及其屬性,它繼承了RDF語義數(shù)據(jù)的框架和內(nèi)容的分離性,能靈活應(yīng)對各類元數(shù)據(jù)描述的框架需求,從而克服本體的框架和內(nèi)容緊耦合性的不足之處。存儲體系包括模式空間和實(shí)例空間,其中前者提供構(gòu)建語義框架的基本屬性和基本元素,后者用于存儲語義實(shí)例數(shù)據(jù),它們反映在關(guān)系數(shù)據(jù)庫中就是模式空間表和實(shí)例空間表,模式空間與實(shí)例空間相分離是關(guān)系數(shù)據(jù)庫完整、高效地存儲語義數(shù)據(jù)的前提。
筆者在文獻(xiàn)[2]中對語義數(shù)據(jù)存儲于關(guān)系數(shù)據(jù)庫的實(shí)現(xiàn)方法作了詳細(xì)闡述。雖然關(guān)系數(shù)據(jù)庫存儲語義數(shù)據(jù)使語義存儲的長久性更有保障,而且,這種存儲方式使得語義數(shù)據(jù)的操作更為簡便,但是不得不忽略一個(gè)弱點(diǎn)——基于關(guān)系數(shù)據(jù)庫的語義存儲體系的推理能力有限。本文通過對模式空間表和實(shí)例空間表的邏輯組織,來加強(qiáng)關(guān)系數(shù)據(jù)庫語義存儲體系的語義推理能力,這是對知識庫存儲體系的一個(gè)完美補(bǔ)充。
1 知識庫存儲體系的基本原理
語義數(shù)據(jù)可以理解為概念集合,它由類標(biāo)識符集、屬性標(biāo)識符集和數(shù)據(jù)類型標(biāo)識符集組成,它是實(shí)現(xiàn)語義數(shù)據(jù)邏輯模型與關(guān)系數(shù)據(jù)存儲模型相映射,進(jìn)而在關(guān)系數(shù)據(jù)庫中建立模式空間表和實(shí)例空間表的基礎(chǔ),圖1是一個(gè)由本體編輯工具protégé[3]模擬出的關(guān)于出版物本體的語義模型,本文以該模型為例來介紹在關(guān)系數(shù)據(jù)庫中實(shí)現(xiàn)語義推理的基本原理和基本條件。
圖1中帶符號“●”的是本體的類(class),帶符號“◆”的是本體的實(shí)例(indivisuals of class),類之間、實(shí)例之間的箭頭線表示謂詞關(guān)系,類與實(shí)例之間的箭頭線表示繼承關(guān)系。
定義1:類與類之間構(gòu)成的子圖稱為模式(Schema)空間圖,根據(jù)模式空間圖的模型生成的關(guān)系數(shù)據(jù)表稱為模式空間表。
定義2:實(shí)例與實(shí)例之間構(gòu)成的子圖稱為實(shí)例(Instance)空間圖,根據(jù)實(shí)例空間圖的模型生成的關(guān)系數(shù)據(jù)表稱為實(shí)例空間表。
2 模式空間表和實(shí)例空間表
語義數(shù)據(jù)存儲于關(guān)系數(shù)據(jù)庫,不僅是為存儲而存儲,其主要目的是用來讀取、推理數(shù)據(jù),常規(guī)的存儲方式中,按順序查詢數(shù)據(jù)表的推理策略不但效果不佳,而且推理效率也低下,模式空間與實(shí)例空間相結(jié)合而構(gòu)建的存儲體系,最大限度地保留了語義模型的特征,通過模式空間表之間的邏輯關(guān)系獲取相關(guān)語義的元組ID,再通過索引查詢從實(shí)例空間表中獲取元組ID所對應(yīng)的語義數(shù)據(jù)。
2.1 模式空間表
2.1.1 類表(ObjectClass)
存儲語義數(shù)據(jù)的所有類,主要信息來源是類標(biāo)識符集合A,類表的數(shù)據(jù)項(xiàng)用來對每個(gè)類基本情況的描述,如:是否啟用該類的對象實(shí)體、是否屏蔽對象實(shí)體的一些屬性等。類表的一個(gè)重要的作用就是用來定義對象實(shí)體的文本信息字段,這些字段所構(gòu)成的表用來存儲DH語義圖(有向超圖結(jié)構(gòu)的RDF語義圖[5])中的標(biāo)簽所描述的文本信息,如圖1中Person類為它的對象實(shí)體定義了表Author{Education、Professional、Degree…}則,Lucy,Jim的相關(guān)信息可以存儲到Author表中。
2.1.2 數(shù)據(jù)屬性表(ObjectProperty)
存儲語義數(shù)據(jù)關(guān)系屬性類型,每項(xiàng)數(shù)據(jù)表達(dá)一個(gè)該數(shù)據(jù)項(xiàng)相關(guān)的關(guān)系屬性的實(shí)例表,該實(shí)例表存儲Subject-Object的數(shù)據(jù)。該表主要數(shù)據(jù)來源是實(shí)體的描述信息,即元數(shù)據(jù)。但是要注意到的是,在實(shí)際應(yīng)用中,ObjectProperty 的Subject和Object并不都是1:1的關(guān)系,恰恰絕大部分關(guān)系是1:n的關(guān)系,如:在圖1中,{publication1 hasAuthor (lucy,tom,…)},{lucy isAuthorof (publication1,publication2,…)},這種情況帶來兩個(gè)問題:查詢效率降低;存儲空間浪費(fèi)。解決問題的方法是不管Object有多少個(gè)組成部分,都把它存儲在一個(gè)變長的數(shù)據(jù)字段中,這樣既可以明顯提高存儲效率,也可以實(shí)現(xiàn)一次完成Object的查詢。
2.1.3 數(shù)據(jù)屬性類型表(DatatypeProperty)
存儲語義數(shù)據(jù)的屬性類型,每項(xiàng)數(shù)據(jù)表達(dá)一個(gè)該數(shù)據(jù)項(xiàng)相關(guān)的數(shù)據(jù)屬性的實(shí)例表,該表存儲Subject-Data的數(shù)據(jù)。該表主要數(shù)據(jù)來源是屬性標(biāo)識符集合U,由于在固定領(lǐng)域范圍內(nèi)集合U的元素?cái)?shù)量是有限的,這使得實(shí)現(xiàn)垂直分割數(shù)據(jù)更具有可行性。
數(shù)據(jù)屬性類型表中,為每項(xiàng)數(shù)據(jù)設(shè)置一個(gè)互逆屬性字段,聲明該類的屬性互逆的屬性值。在圖1中,集合Ea具有對稱性,所以每個(gè)屬性的逆屬性就是相互對稱的二元關(guān)系的元素,如:R
2.1.4 數(shù)據(jù)類型表(Datatype)
數(shù)據(jù)類型表存儲語義數(shù)據(jù)所有的數(shù)據(jù)類型及其與關(guān)系數(shù)據(jù)庫的映射關(guān)系,它的數(shù)據(jù)來源是數(shù)據(jù)類型標(biāo)識符集K,如:語義描述體系XML Schema的數(shù)據(jù)類型Xsd:string、Xsd:datetime在關(guān)系數(shù)據(jù)庫中,分別對應(yīng)數(shù)據(jù)類型VARCHAR、TIMESTAMP。
2.2 實(shí)例空間表
實(shí)例空間表對描述對象的具體描述,實(shí)例空間表的屬性(即關(guān)系數(shù)據(jù)庫表的字段)根據(jù)實(shí)際應(yīng)用需要從模式空間表中獲取,實(shí)例空間表一般包括:推理索引表、三元組表、實(shí)例數(shù)據(jù)表、實(shí)例語義聯(lián)系表等。
2.2.1 推理索引表
Reasoning_Table={ID,SubjectID,Predicate,Type},其中:Predicate記錄Subject在所在領(lǐng)域本體中應(yīng)該有的謂詞集合(如:hasAuthor,BothCiting,…),Predicate字段存儲的是一系列謂詞的集合,謂詞集合也即數(shù)據(jù)屬性類型表的對象,由于語義數(shù)據(jù)存儲于關(guān)系數(shù)據(jù)的存儲對象是對語義圖(如圖1模型)的存儲,包括數(shù)據(jù)結(jié)構(gòu)的存儲和數(shù)據(jù)內(nèi)容的存儲,因此,推理索引表的類型、結(jié)構(gòu)和內(nèi)容可以從語義模型中獲取。局部語義網(wǎng)或某個(gè)領(lǐng)域本體的推理索引表的集合構(gòu)成推理知識庫。
2.2.2 三元組表
Predicate_Table={ID,SubjectID,ObjectID}繼承了數(shù)據(jù)屬性表的結(jié)構(gòu),用于垂直記錄三元組數(shù)據(jù),Predicate即三元組的謂詞,它是三元組表的表名,如:isAuthorof、hasAuthor,當(dāng)推理要查詢關(guān)系“hasAuthor”時(shí),只要查找hasAuthor三元組表即可,能提高推理效率。三元組表是基于相關(guān)詞匯推理的推理規(guī)則。
2.2.3 實(shí)例數(shù)據(jù)表
Semantic_Table={Subject_ID,ClassName,Description1, Description2…},該表的數(shù)據(jù)結(jié)構(gòu)根據(jù)類表自主生成,它用于記錄某主題的語義信息。三元組的Subject和Object在關(guān)系數(shù)據(jù)庫中只是描述角色上的不同,作為數(shù)據(jù)項(xiàng)并無差別,因此,實(shí)例數(shù)據(jù)表的字段Subject_ID既可以適合Subject的ID也適合Object的ID。
2.2.4 實(shí)例語義聯(lián)系表
Reration_Table={ID, Subject, Objects},實(shí)例語義聯(lián)系表用以描述Subject的主題有聯(lián)系的詞匯,如:subject=“CPU”,則Object=“內(nèi)存,硬盤,主板,AMD,Intel…”,它不同于三元組表,三元組表的數(shù)據(jù)基于共同的謂詞,數(shù)據(jù)自動從語義數(shù)據(jù)中采集,而實(shí)例語義聯(lián)系表是基于相關(guān)領(lǐng)域?qū)<业乃季S規(guī)則,匯集了專家們的領(lǐng)域知識,它使得知識庫的語義更加豐富,語義推理結(jié)果更具“智能性”。實(shí)例語義聯(lián)系表是基于專家知識推理的推理規(guī)則。
2.3 模式空間表與實(shí)例空間表的關(guān)系
模式空間表和實(shí)例空間表之間的關(guān)系是類似于面向?qū)ο笏枷胫械摹邦悺迸c“對象”之間的關(guān)系,后者有選擇地繼承前者的屬性,前者為后者派生特定領(lǐng)域的類或?qū)傩?,這是一種“決定”關(guān)系。圖2是模式空間表與實(shí)例空間表之間的“決定”關(guān)系圖,其中:深色的為模式空間表,淺色為實(shí)例空間表,箭頭方向表示“決定關(guān)系”。由圖2可知,當(dāng)謂詞集和領(lǐng)域確定時(shí)(數(shù)據(jù)類型表是固定的),相關(guān)的實(shí)例數(shù)據(jù)表的結(jié)構(gòu)就也確定了。
3 推理算法
3.1 推理步驟
基于關(guān)系數(shù)據(jù)庫的知識庫的語義推理主要分兩類推理:描述詞匯的推理(相似性)和專家知識的推理(相關(guān)性),兩者分開計(jì)算,同時(shí)推理。
推理步驟如下:①判斷預(yù)設(shè)推理?xiàng)l件(如:推理層次i),如果成立則開始推理工作;②描述詞匯推理:根據(jù)條件確定Subject在相應(yīng)環(huán)境下的謂詞集,根據(jù)垂直存儲的特點(diǎn),謂詞即三元組表的表名,以此查找在相關(guān)表中所有與該Subject有關(guān)系的Object1;③專家知識推理:根據(jù)條件確定Subject在實(shí)例語義聯(lián)系表中相關(guān)的Object2;④在實(shí)例數(shù)據(jù)表中查詢Object(Object1+Object2)的所有數(shù)據(jù)描述信息(Descriptions),存儲中間結(jié)果,輸出相關(guān)信息;⑤判斷推理?xiàng)l件,如果推理層次i>0,則把本次推理返回的所有Object作為新的推理的Subject,逐個(gè)重復(fù)步驟①-④,推理層次i自減1,直到條件不滿足,其中步驟②和步驟③為并列關(guān)系。
3.2 算法說明
相關(guān)謂詞:同一語境下類與類存在某種關(guān)系,則它們?yōu)橄嚓P(guān)類,類的本身一定是它自己的相關(guān)類,如圖1中的三個(gè)類:Article、Person和Publication兩兩相關(guān),并且每個(gè)類都是自己的相關(guān)類。相關(guān)謂詞是由相關(guān)類集合的全二元關(guān)系組成,如{Article,Person,Publication}的相關(guān)謂詞為:{Citing,Cited,BothCiting,BothCited,Publish,IsPublished,isAuthorofhasAuthor},相關(guān)謂詞集合在推理運(yùn)算時(shí)能起到兩個(gè)作用:①由數(shù)據(jù)屬性類型表的互逆屬性可知,相關(guān)謂詞也具有互逆屬性,這可以省去一半的算法開銷;②相關(guān)謂詞的分類、集中存儲,有助于在推理時(shí)能精準(zhǔn)地找到相關(guān)的三元組表,大大提高查詢效率。
語義模糊性:由于語義數(shù)據(jù)存在模糊性或不精確性,檢索需要支持?jǐn)?shù)據(jù)的模糊語義表達(dá)[4]。特別在關(guān)系數(shù)據(jù)庫中查詢數(shù)據(jù)時(shí),精確的計(jì)算方法將失去大量的語義聯(lián)系,查詢語義數(shù)據(jù)時(shí),所涉及的查詢條件均須采用模糊表達(dá)式,如:查詢必須要考慮到通配符命令、嵌套查詢、視圖查詢等的靈活運(yùn)用。
算法思想:最常用的語義推理算法包括Tableau算法和Rete算法兩種[6],前者強(qiáng)調(diào)判斷知識的可滿足性或知識之間的包含關(guān)系,后者強(qiáng)調(diào)存儲語義匹配的中間結(jié)果,以提高規(guī)則匹配的效率。本文所述的是基于關(guān)系數(shù)據(jù)庫的知識語義推理算法,它所建立的推理算法模型同時(shí)考慮到了以上兩種算法的側(cè)重點(diǎn)。
3.3 推理算法
3.4 算法評價(jià)與應(yīng)用實(shí)例
該算法的優(yōu)點(diǎn)是,能自主控制推理范圍(參數(shù)i);相似性和相關(guān)性相結(jié)合的推理使得推理結(jié)果更加豐富和智能化;推理中間過程的存儲,一方面增加了推理的效率,另一方面能快捷地生成主題相關(guān)的語義脈絡(luò)(即語義圖)。缺點(diǎn)是,遞歸函數(shù)的特性使得推理規(guī)則數(shù)據(jù)表的數(shù)據(jù)量不能過大,算法不適合大型知識庫;存儲中間結(jié)果將消耗存儲空間。
采用上述方法,課題組完成了本文的基金項(xiàng)目“智能型”網(wǎng)絡(luò)課程的研發(fā),該項(xiàng)目的“智能”實(shí)現(xiàn)過程如下:網(wǎng)絡(luò)課程平臺把課程資源根據(jù)課程教師的教學(xué)經(jīng)驗(yàn)和詞匯之間的關(guān)聯(lián)語義化,并把語義化的元資源存儲于關(guān)系數(shù)據(jù)庫語義存儲體系(包括語義聯(lián)系的存儲),即生成基于本課程內(nèi)容的知識庫,再根據(jù)網(wǎng)絡(luò)課程的交互學(xué)習(xí)的“語境”,把3.3中的算法函數(shù)實(shí)例化,推理出該語境下的相關(guān)語義(如:學(xué)習(xí)元資源),有準(zhǔn)對性地推送給學(xué)習(xí)者。這種網(wǎng)絡(luò)課程的人工智能化方法,對遠(yuǎn)程教育有很大的實(shí)用意義。
4 結(jié)束語
本文在介紹語義模型的基礎(chǔ)上,構(gòu)建了由模式空間和實(shí)例空間組成的關(guān)系數(shù)據(jù)語義存儲體系。模式空間表和實(shí)例空間表保障了該存儲體系有能力完全存儲知識庫語義數(shù)據(jù),并能模擬出知識語義的推理算法。知識語義的推理包括面向三元組信息的相似性推理和面向?qū)<抑R的相關(guān)性推理。算法設(shè)定了推理范圍控制參數(shù),使推理范圍能靈活控制。
算法在假設(shè)知識庫是某領(lǐng)域知識元數(shù)據(jù)的有限集合的基礎(chǔ)上進(jìn)行,如果實(shí)例空間表中的數(shù)據(jù)量過大或預(yù)設(shè)推理層次過多,遞歸函數(shù)將導(dǎo)致算法次數(shù)急劇增加,進(jìn)而影響推理效率,因此該算法在如何減少計(jì)算次數(shù)方面還有待更多的研究。
參考文獻(xiàn):
[1] T HANIS, D NOLLER. Semantic models A flexible foundation formodel-driven application architectures[C/OL]. (2011-10-11)[2013-37].http://www.ibm.com/developerworks/industry/library/ind-semanticmodels/index.html.
[2] Yonggang Shan, Jiangfeng Yu, Dongyi Chen. Implementation Method of the Semantic Data be Stored into the Relational Database[C].China:Najing,2012.8,CSSS2012.
[3] 陶皖,廖述梅.當(dāng)前本體編輯工具的分析與研究[J]計(jì)算機(jī)工程與設(shè)計(jì),2005.26(3):761-763
[4] 金海,袁平鵬.語義網(wǎng)數(shù)據(jù)管理技術(shù)及應(yīng)用[M].科學(xué)出版社,2010.
[5] ANTONIO A, MORALES M, SERODIO M E V. A DirectedHypergraph Model for RDF[C/OL].(2007-6-6)[2013-2-15].http://ceur-ws.org/Vol-275/paper24.pdf.
[6] 湯怡潔,周子健.語義web環(huán)境下語義推理的研究與實(shí)現(xiàn)[J].圖書館雜志,2011.30(3):69-75