文必龍,史春波,關(guān)翔瑞
(1.大慶石油學(xué)院 計算機(jī)與信息技術(shù)學(xué)院,黑龍江大慶 163318;2.大慶金橋信息工程技術(shù)有限公司 MES項目部,黑龍江大慶 163316)
數(shù)據(jù)元作為領(lǐng)域范圍內(nèi)標(biāo)準(zhǔn)化的信息術(shù)語,在國內(nèi)外信息系統(tǒng)得到廣泛應(yīng)用.當(dāng)前各種數(shù)據(jù)元的定義主要是采用工具輔助下的人工定義方式開發(fā)的,按照國際標(biāo)準(zhǔn)和國家標(biāo)準(zhǔn),數(shù)據(jù)元的語義解釋是通過文本描述完成的,由于不同的人對相同的自然語言描述有不同的理解,導(dǎo)致不同的人對相同數(shù)據(jù)元的語義的理解存在著偏差.這些問題影響了數(shù)據(jù)元的質(zhì)量,進(jìn)而降低了數(shù)據(jù)元作為標(biāo)準(zhǔn)術(shù)語的可信度,甚至可能導(dǎo)致數(shù)據(jù)元失去其基本作用.從理論上講,需要計算機(jī)能自動理解一個符號的語義,首先需要解決數(shù)據(jù)元語義描述的形式化問題.針對這些問題本文在分析了數(shù)據(jù)元的語義結(jié)構(gòu)的基礎(chǔ)上,在本體思想的指導(dǎo)下提出了一種基于 XML的數(shù)據(jù)元形式化語義描述方法及語義樹結(jié)構(gòu),實現(xiàn)了數(shù)據(jù)元的語義可被計算機(jī)閱讀,減少人為誤差.
在國際標(biāo)準(zhǔn)中,關(guān)于概念的定義是:概念(Concept)是客體在人們心理上的反映,是通過對客體特征的獨(dú)特組織而形成的知識單元.
為了從語義上理解概念,將概念分為語義簡單清晰的原子概念和語義復(fù)雜的復(fù)合概念.
原子概念(Atomic Concept)是在特定領(lǐng)域范圍內(nèi),語義上不必再細(xì)分的最小單元概念.
復(fù)合概念(Composition Concept)是在特定領(lǐng)域范圍內(nèi),語義需要由其它概念(稱為元素概念)進(jìn)行解釋的概念,是多個概念按一定的關(guān)系相互限定構(gòu)成的語義集合體.
復(fù)合概念的語義,從語義構(gòu)詞上講,是由一個核心詞加上一個或多個修飾詞,修飾詞還可以有自己的修飾詞.如:“軟件工程實驗室學(xué)生”,核心詞是學(xué)生,修飾詞為“實驗室”和“軟件工程”,“軟件工程”是“實驗室”的修飾詞.修飾詞對核心詞所代表的概念給出更細(xì)致地說明,核心詞所代表的概念稱為復(fù)合概念的源概念.
復(fù)合概念 X與元素概念之間的復(fù)合關(guān)系表示為X=Composition(D,S,E,I,Q).
D是一個特定的域.S是源概念.E為元素概念集合,S∈E.I為對概念實例的約束規(guī)則集,一條約束規(guī)則通過對概念的屬性值的取值范圍進(jìn)行重新定義來限定概念的實例范圍,從而限定概念的語義.如約束規(guī)則“學(xué)號為 007的學(xué)生”將“學(xué)生”的屬性“學(xué)號”值限定為“007”.Q為作用于各元素概念之間修飾關(guān)系的集合.
本體[1-2](Ontology),起源于哲學(xué),隨著本體在人工智能、計算機(jī)以及網(wǎng)絡(luò)領(lǐng)域的應(yīng)用發(fā)展,也被融入了許多新的內(nèi)容.目前,一個廣為大家接受的定義是:本體是共享概念模型的明確形式化規(guī)范說明.
本體能清晰明確的描述概念與概念之間的關(guān)系.例如:領(lǐng)域本體.領(lǐng)域本體(Domain ontology)是用于描述指定領(lǐng)域(如石化、制造)或任務(wù)(如銷售、財會)知識的一種專門本體,它給出了領(lǐng)域?qū)嶓w概念及相互關(guān)系、領(lǐng)域活動以及該領(lǐng)域所具有的特性和規(guī)律的一種形式化描述[3].由于領(lǐng)域本體的知識在領(lǐng)域范圍內(nèi)相對普及,因此許多概念不用作詳細(xì)的描述就有很清晰的語義,有比較明確的原子概念集,是復(fù)合概念的元素概念的基礎(chǔ).本文采用本體語義描述的思想描述數(shù)據(jù)元的語義,將領(lǐng)域本體中的概念作為原子概念,將數(shù)據(jù)元作為復(fù)合概念,其語義可以由領(lǐng)域本體中的原子概念進(jìn)行描述.
數(shù)據(jù)元是用一組屬性描述定義、標(biāo)識、表示和允許值的數(shù)據(jù)單元,是在一定環(huán)境下不必再細(xì)分的最小數(shù)據(jù)單元.數(shù)據(jù)元在語義上由特性、對象、表示組成,其中修飾特性的對象類可以被一個或多個其他對象類進(jìn)行限定,如圖1所示.
圖1 數(shù)據(jù)元語義結(jié)構(gòu)
本文將數(shù)據(jù)元作為復(fù)合概念,把數(shù)據(jù)元的一個對象作為一個概念.在數(shù)據(jù)元的語義結(jié)構(gòu)中,最核心的概念就是數(shù)據(jù)元的特性,數(shù)據(jù)元的對象是對特性的限定,而數(shù)據(jù)元的對象又被其他對象限定以確定數(shù)據(jù)元的對象的實例選擇范圍.這種概念間的限定關(guān)系構(gòu)成了一個層次分明的樹形,如圖2所示.
圖2 數(shù)據(jù)元的語義樹結(jié)構(gòu)
為了將數(shù)據(jù)元的語義直觀化,便于理解,將數(shù)據(jù)元的語義用樹描述,即語義樹.
定義 1:在域 D內(nèi),一個概念集及約束集構(gòu)成一顆樹 T,樹 T的根節(jié)點(diǎn)記為 root(T),T中所有節(jié)點(diǎn)的集合為 nodes(T),T中所有相鄰接點(diǎn)構(gòu)成的邊的集合為 edges(T).復(fù)合概念 C=composite(D,S,E,I,Q),如果 T滿足以下條件:
1)root(T)=S;
2)nodes(T)=EI;
3)edges(T)=Q;
則稱 T為概念 C在域 D中的語義樹(Semantic Tree),記為 T=STree(D,C).
語義樹中有 2種節(jié)點(diǎn):概念節(jié)點(diǎn)和規(guī)則節(jié)點(diǎn).規(guī)則節(jié)點(diǎn)定義一個邏輯表達(dá)式,用來對它所限定的對象的實例取值進(jìn)行約束,規(guī)則節(jié)點(diǎn)不受進(jìn)一步的限定,因此規(guī)則節(jié)點(diǎn)總是葉子節(jié)點(diǎn).語義樹中只包含概念節(jié)點(diǎn)的部分是一顆樹,稱為抽象語義樹.因此,語義樹可以看作是抽象語義樹中的概念節(jié)點(diǎn)附加上一些規(guī)則節(jié)點(diǎn)而構(gòu)成的.抽象語義樹通常對應(yīng)一個通用數(shù)據(jù)元,通過附加規(guī)則節(jié)點(diǎn)可派生各種應(yīng)用數(shù)據(jù)元.
根據(jù)數(shù)據(jù)元語義描述基本原理,本文采用XML格式描述數(shù)據(jù)元的語義.所有數(shù)據(jù)元的語義描述集稱為數(shù)據(jù)元語義字典.數(shù)據(jù)元語義字典的模式說明如圖3所示.
圖3 數(shù)據(jù)元語義字典的模式說明
在圖3中 SourceAttribute、SourceEntity、ElementEntity、Rule用來描述語義樹中的概念,每一個概念對應(yīng)語義樹中的一個節(jié)點(diǎn).每一個節(jié)點(diǎn)都有屬性 name、role、detail,其中 name表示概念名,role和detail表示父子節(jié)點(diǎn)上概念之間的關(guān)系.
屬性 role取值有 3種:
· E表示是實體,即當(dāng)前節(jié)點(diǎn)是父節(jié)點(diǎn)的實體,因此父節(jié)點(diǎn)是當(dāng)前節(jié)點(diǎn)的屬性.
· R表示引用關(guān)系,即從父節(jié)點(diǎn)有一個指向本節(jié)點(diǎn)的引用關(guān)系.這時屬性 detail表示本節(jié)點(diǎn)在這種引用關(guān)系中的角色.
· “I表示實例關(guān)系,即當(dāng)前節(jié)點(diǎn)描述的是對父節(jié)點(diǎn)實例的取值范圍.
數(shù)據(jù)元語義字典中,定義了 6個標(biāo)記:
1)標(biāo)記 ElementSemanteme
語義字典的根標(biāo)記,有一個屬性 name,表示語義字典的名稱.
2)標(biāo)記 DataElement
數(shù)據(jù)元,定義一個數(shù)據(jù)元的語義描述.
在標(biāo)記 ElementSemanteme下,可以有 0個或多個 DataElement,每一個 DataElement定義一個數(shù)據(jù)元.
標(biāo)記 DataElement有屬性 name,數(shù)據(jù)元的名稱.
標(biāo)記 DataElement下的內(nèi)容定義了相應(yīng)數(shù)據(jù)元的語義樹.
3)標(biāo)記 SourceAttribute
源屬性,表示直接存放數(shù)據(jù)元值的實體的屬性名.
SourceAttribute是一個數(shù)據(jù)元的語義樹的根節(jié)點(diǎn),對應(yīng)復(fù)合概念的源概念.
標(biāo)記 DataElement下,必須有且只有一個子標(biāo)記SourceAttribute.
標(biāo)記 SourceAttribute有一個屬性 name,表示源屬性的名稱.
4)標(biāo)記 SourceEntity源實體,表示直接或間接引用源屬性的實體.標(biāo)記 SourceEntity有屬性 name,表示源實體名.
5)標(biāo)記 ElementEntity
元素實體,即源實體的語義樹中的元素概念,用于直接或間接修飾源實體.
與源實體標(biāo)記 SourceEntity一樣,元素實體標(biāo)記 ElementEntity有三個屬性:name、role和 detail
6)標(biāo)記 Rule
規(guī)則,用來描述對父節(jié)點(diǎn)的屬性值的約束條件.
標(biāo)記 Rule沒有子節(jié)點(diǎn),其父節(jié)點(diǎn)只能是 ElementEntity或SourceEntity.數(shù)據(jù)元語義字典例子
下面給出一個數(shù)據(jù)元語義字典的例子,該例子的 XML符合前面的規(guī)范.
例如:數(shù)據(jù)元“成績”.約束規(guī)則:計算機(jī)系男生的英語成績
元語義字典如下:
<?xmlversion="1.0"encoding="UTF-8"?>
<ElementSemantemename="數(shù)據(jù)元語義字典"
xmlns:xsi="http://www.w3.org/2001/
XMLSchema-instance
"xsi:noNamespaceSchemaLocation="數(shù)據(jù)元描述規(guī)范.xsd">
<DataElement name="成績">
<SourceAttribute name="data_value">
<SourceEntity name="GRADE"role="E">
<ElementEntity name="COURSE"role="R">
<ElementEntity name="STUDENT"role="R"de
tail="course">
<ElementEntity name="SEX"role="R">
<Rule attributeName="identifier">男 </Rule>
</ElementEntity>
<ElementEntity name="DPARTMENT"role="R"
>
<Rule attributeName="identifier">計算機(jī) </
Rule>
</ElementEntity>
</ElementEntity>
<ElementEntity name="CNAME"role="R">
<Rule attributeName="identifier">英語 </Rule
>
</ElementEntity>
</ElementEntity>
</SourceEntity>
</SourceAttribute>
</DataElement>
</ElementSemanteme>
為了將數(shù)據(jù)元的語義直觀化,將數(shù)據(jù)元的語義用樹描述.根據(jù)數(shù)據(jù)元“成績”語義描述的 XML文件的層次關(guān)系,繪制語義樹的結(jié)構(gòu)圖.如圖4所示.
圖4 數(shù)據(jù)元“成績”的語義樹結(jié)構(gòu)圖
針對當(dāng)前數(shù)據(jù)元語義描述存在的問題,提出了基于 XML數(shù)據(jù)元語義描述方法.將數(shù)據(jù)元作為復(fù)合概念,領(lǐng)域本體中的概念作為原子概念,用領(lǐng)域本體中原子概念描述數(shù)據(jù)元的語義,并采用 XML格式描述數(shù)據(jù)元語義,這種形式化的描述方式便于計算機(jī)理解數(shù)據(jù)元的語義,減少人為誤差.根據(jù)XML數(shù)據(jù)元語義描述文件的層次關(guān)系,繪制數(shù)據(jù)元語義樹,將數(shù)據(jù)元的語義直觀化,便于查看.本文通過采用領(lǐng)域本體中原子概念描述數(shù)據(jù)元的語義,并將其語義形式化的表達(dá)為實現(xiàn)業(yè)務(wù)模型的輔助設(shè)計、邏輯完整性和一致性檢查、業(yè)務(wù)模型間的自動映射等奠定了基礎(chǔ).
[1] 高茂庭,王正歐.Ontology及其應(yīng)用[J].計算機(jī)應(yīng)用,2003,23:31-34.
[2] 鄧志鴻,唐世渭,張 銘,等.Ontology研究綜述[J].北京大學(xué)學(xué)報,2002,38(5):730-738.
[3] 陳 剛,陸汝鈐,金 芝.基于領(lǐng)域知識重用的虛擬領(lǐng)域本體構(gòu)造[J].軟件學(xué)報,2003,14(3):350-355.
哈爾濱商業(yè)大學(xué)學(xué)報(自然科學(xué)版)2010年1期