国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于XML的生物信息數(shù)據(jù)整合模型

2010-05-13 09:17潘雪峰
現(xiàn)代電子技術(shù) 2009年20期
關(guān)鍵詞:數(shù)據(jù)集成數(shù)據(jù)模型

潘雪峰

摘 要:在互聯(lián)網(wǎng)生物信息數(shù)據(jù)庫(kù)中,各大研究機(jī)構(gòu)之間生物信息數(shù)據(jù)是異地、異構(gòu)和高度自治的,并且信息之間的存放是分散無(wú)序的。為了充分使用資源,必須建立關(guān)于生物信息數(shù)據(jù)的整合模型。在此提出一種新的基于XML表達(dá)的有序?qū)哟畏中螖?shù)據(jù)模型,通過(guò)對(duì)現(xiàn)有數(shù)據(jù)的結(jié)構(gòu)化,借助BXEEM模型分別使用內(nèi)部指針引用和外部鏈接的方法,將數(shù)據(jù)進(jìn)行整合,更有利于生物信息數(shù)據(jù)的集成和融合。

關(guān)鍵詞:XML;半結(jié)構(gòu)化;異構(gòu)數(shù)據(jù)集成;數(shù)據(jù)模型;數(shù)據(jù)集成

中圖分類號(hào):Q811.4;TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1004-373X(2009)20-160-03

Data Integration Model of Biological Information Based on XML

PAN Xuefeng

(Wuhan Bioengineering Institute,Wuhan,430415,China)

Abstract:In Internet biological information database,among the major research institutions and bio-informatics data is remote,heterogeneous,high degree of autonomy,and the stored information is scattered between the disorder.In order to full use resource,integration model of biological information data is built.A new XML-based and orderly expression of data-level fractal model of the existing data structure is proposed,through the use of internal models BXEEM pointer references and external links to the method of data integration,it is more conducive to bio-informatics data integration and fusion.

Keywords:XML;semi-structure;heterogeneous data integration;data model;data integration

0 引 言

生物信息學(xué)(Bioinformatics)是通過(guò)對(duì)生物學(xué)實(shí)驗(yàn)數(shù)據(jù)的獲取、加工、存儲(chǔ)、檢索與分析,達(dá)到揭示數(shù)據(jù)所蘊(yùn)含生物學(xué)意義的目的[1,2]。

生物信息數(shù)據(jù)源的主要特點(diǎn)是:國(guó)際化生物數(shù)據(jù)庫(kù)相互獨(dú)立而又利用協(xié)議統(tǒng)一維護(hù)原始數(shù)據(jù),而各實(shí)驗(yàn)室的數(shù)據(jù)庫(kù)就各有特色;數(shù)據(jù)量龐大且增長(zhǎng)速度很快;數(shù)據(jù)通過(guò)Internet進(jìn)行發(fā)布,發(fā)布格式復(fù)雜多樣[3,4]。目前非常必要的課題之一是將各自的、獨(dú)立的、分散的基因組信息整合到一起,并且可以最大限度地消除冗余數(shù)據(jù),保證數(shù)據(jù)的可靠性和準(zhǔn)確性[5]。

本文重點(diǎn)討論將XML作為中間媒介,建立新的生物信息公共數(shù)據(jù)模型,使異構(gòu)生物信息數(shù)據(jù)的提取與集成更方便。

1 XML的特點(diǎn)

擴(kuò)展標(biāo)記語(yǔ)言(eXtensible Markup Language,XML)是一門新興的面向Internet應(yīng)用的標(biāo)記語(yǔ)言,它將數(shù)據(jù)信息本身的存儲(chǔ)和關(guān)聯(lián)與表現(xiàn)形式相分離,且具有強(qiáng)大的可擴(kuò)展性[6]。生物信息學(xué)的發(fā)展同樣引入了XML技術(shù)。XML的特點(diǎn)如下:

(1) XML數(shù)據(jù)的自描述性。它指XML中的語(yǔ)義標(biāo)識(shí),一方面限定了元素的層次結(jié)構(gòu),另一方面也說(shuō)明了元素的含義[7,8]。

(2) 內(nèi)容的獨(dú)立性。它將成為跨平臺(tái)數(shù)據(jù)交換和操作的標(biāo)準(zhǔn)模式。實(shí)現(xiàn)異構(gòu)數(shù)據(jù)集成中數(shù)據(jù)的互操作性。

(3) 能描述不同復(fù)雜程度的數(shù)據(jù)。XML提供了數(shù)據(jù)的結(jié)構(gòu)化表示,并且易于操作。

(4) 可擴(kuò)展性。XML可以在不破壞現(xiàn)有結(jié)構(gòu)和系統(tǒng)的情況下增加新的數(shù)據(jù)字段。應(yīng)用服務(wù)器利用XML對(duì)所有數(shù)據(jù)建模,若要改變數(shù)據(jù)模型只需改變數(shù)據(jù)模型定義。

(5) 結(jié)構(gòu)性。數(shù)據(jù)存儲(chǔ)格式不受顯示格式制約。一般包括三要素:數(shù)據(jù)、結(jié)構(gòu)以及顯示方式。

因此,運(yùn)用XML可以有效地解決新舊系統(tǒng)、不同應(yīng)用系統(tǒng)之間或數(shù)據(jù)源之間的數(shù)據(jù)共享與交互問(wèn)題。XML和數(shù)據(jù)庫(kù)之間是互補(bǔ)的關(guān)系,在不同的場(chǎng)合有不同的優(yōu)勢(shì)[9,10]??梢院芊奖愕亟粨Q復(fù)雜數(shù)據(jù)在不同平臺(tái)上的瀏覽。

2 基于XML的生物信息數(shù)據(jù)模型

實(shí)際上,在此提出的半結(jié)構(gòu)化數(shù)據(jù)模型是一種基于帶標(biāo)簽、帶根的有向有序樹(An Labeled Rooted Directed Ordinal Tree)數(shù)據(jù)模型BXEEM(Based XML Extensible Exchange Model)。下面給出相關(guān)定義:

定義1 有向圖G是一個(gè)有序四元組,G=(V,E,vr,Ψ)。其中:V是一個(gè)非空的有向圖中根結(jié)點(diǎn)的所有結(jié)點(diǎn)集合;E V×V是此有向圖中邊的集合;(V,E)代表一個(gè)有向多重圖(Directed Multi-graph);vr∈V表示根結(jié)點(diǎn),并且滿足該結(jié)點(diǎn)的入度為0;d(vr,vi)>0,vi∈(V-{ vr }),i=0,1,2,…,n,即vr到V中任意一個(gè)結(jié)點(diǎn)vi都有一條通路;Ψ為關(guān)聯(lián)函數(shù),是邊集合E到(V×V)的一個(gè)映射,是帶信息標(biāo)簽約束的映射。稱G為帶標(biāo)簽、帶根的有向連通圖,表示為G(V,E,vr,Ψ)。

定義2 在帶標(biāo)簽、帶根的有向連通圖G(V,E,vr,Ψ)中,根結(jié)點(diǎn)(vr∈V)~V中任意一結(jié)點(diǎn)vi都恰有一條單向通路,稱此有向圖為有向樹,記為T(V,E,vr,Ψ),vr為T的根結(jié)點(diǎn)。其中,如果結(jié)點(diǎn)的度d(vi)>1,vi∈(V-{ vr }),i=0,1,2,…,n,則稱vi為內(nèi)點(diǎn)或分支點(diǎn);如果結(jié)點(diǎn)的度d(vj)=1,vj∈(V-{ vr }),j=0,1,2,…,n,則稱其為葉結(jié)點(diǎn)。Ψ為關(guān)聯(lián)函數(shù),是邊集合E到(V×V)的一個(gè)映射,是帶信息標(biāo)簽約束的映射。

定義3 在帶標(biāo)簽、帶根的有向樹T(V,E,vr,Ψ)中,存在vi∈(V-{ vr }),i=0,1,2,…,n。從vi出發(fā)的帶標(biāo)簽連通的最大有向樹,記為T′(Vi,Ei,vr,Ψi)。其中,Vi表示T(Vi,Ei,vr,Ψi)樹的結(jié)點(diǎn)集;Ei表示T(Vi,Ei,vr,Ψi)樹的邊集;Ψi為關(guān)聯(lián)函數(shù),是邊集合Ei到(Vi×Vi)的一個(gè)映射,是帶信息標(biāo)簽約束的映射,稱T′為T的子樹。當(dāng)T′的出度數(shù)為0時(shí),T′是個(gè)結(jié)點(diǎn);當(dāng)T′的出度數(shù)不為0時(shí),T′是個(gè)復(fù)雜樹。

定義4 在帶標(biāo)簽、帶根的有向樹T(V,E,vr,Ψ)中,T={t1,t2,…,tn},ti{i=0,1,2,…,n}是T的子樹。當(dāng)t1,t2,…,tn是按照一定順序規(guī)則排列時(shí),則稱T為有序樹。

定義5 在帶標(biāo)簽、帶根的有向樹T(V,E,vr,Ψ)中,v0,v1,…,vn∈V,e1,e2,…,en∈E。其中,ei是連接vi-1,vi的邊,交替序列v0 e1v1 e2…vn-1 en vn就稱為聯(lián)結(jié)v0~vn的路徑。v0與vn分別稱為路徑的起點(diǎn)和終點(diǎn)。

這里的BXEEM(Based XML Extensible Exchange Model)數(shù)據(jù)模型就是基于帶標(biāo)簽、帶根的有向有序樹(An Labeled Rooted Directed Ordinal Tree)的數(shù)據(jù)模型。樹的每一個(gè)節(jié)點(diǎn)都有一個(gè)惟一的標(biāo)識(shí)符(ID)。這個(gè)標(biāo)識(shí)符可以顯示用XML文檔中某一元素的ID屬性來(lái)標(biāo)識(shí),也可以為其分配一個(gè)惟一的ID來(lái)標(biāo)識(shí)。然而點(diǎn)和邊的交替序列可以惟一表示節(jié)點(diǎn)之間的路徑。用標(biāo)簽表示信息的類別、標(biāo)簽標(biāo)記標(biāo)簽之間的信息應(yīng)如何被處理。

XML文檔的數(shù)據(jù)模型的示意圖如圖1所示。

圖1 XML文檔的數(shù)據(jù)模型的示意圖

3 BXEEM數(shù)據(jù)模型在XML中的應(yīng)用

XML雖然與HTML屬于半結(jié)構(gòu)化數(shù)據(jù),但之所以比HTML更具有數(shù)據(jù)描述和數(shù)據(jù)識(shí)別能力在于它自身可以定義嚴(yán)格的層次結(jié)構(gòu),如通過(guò)XML的DTD或Schema定義。因此在面向XML表達(dá)的數(shù)據(jù)建模過(guò)程中,必須具有描述表達(dá)XML元數(shù)據(jù)結(jié)構(gòu)的能力。

模型對(duì)XML定義語(yǔ)法描述為:

〈! ELEMENT基元(基元頭體,基元主體,關(guān)聯(lián)基元)〉

〈! ATTLIST基元標(biāo)識(shí)符ID#REQUIRED名字CDATA#REQUIRED引用IDREFS#IMPLIED

〈! --內(nèi)部鏈接關(guān)系--〉〉

〈! ELEMENT基元頭體(基元指針,(#PCDATA|empty|基元)*)*〉〈! --外部超鏈關(guān)系--〉

〈! ELEMENT基元主體(#PCDATA|empty基元描述內(nèi)容)*〉

〈! ELEMENT基元描述內(nèi)容(#PCDATA|empty)*〉

〈! ELEMENT關(guān)聯(lián)基元(#PCDATA|empty|基元主體)*〉〈! --層次分形關(guān)系--〉

不同的BXEEM對(duì)象,其結(jié)構(gòu)是相似的,其自我嵌套、自我描述的特性使得BXM對(duì)象在縱向呈現(xiàn)嚴(yán)格的層次樹結(jié)構(gòu),而對(duì)處于同一層次或非同類路徑的BXEEM對(duì)象之間關(guān)系,橫向是由鏈接關(guān)系實(shí)現(xiàn)的,由BXEEM模型可知,鏈接關(guān)系存在不同類型的鏈接。由此可歸納出這種描述元數(shù)據(jù)的結(jié)構(gòu)共性,稱之為層次分形-多級(jí)超鏈的基元。

各對(duì)象之間關(guān)系動(dòng)態(tài)改變時(shí),通過(guò)基元頭體可動(dòng)態(tài)關(guān)聯(lián)和建立新的鏈接關(guān)系,根據(jù)不同的需求實(shí)現(xiàn)基元的重組織,從而透明映射到BXEEM對(duì)象,重新組合形成新的有向圖?;羔樀闹赶?yàn)橐粋€(gè)新的出口,該出口可對(duì)應(yīng)于另一個(gè)XML文檔。它可采用物理路徑或采用惟一的ID表示。

此模型建立的基元具有以下特性:

(1) 層次樹自我遞歸生長(zhǎng)的特性。一個(gè)基元通過(guò)其關(guān)聯(lián)基元能夠衍生出新的子基元,多次遞歸生長(zhǎng)成樹型結(jié)構(gòu)的組織,由此形成BXEEM模型的對(duì)象層次結(jié)構(gòu)關(guān)系。此特性實(shí)現(xiàn)了對(duì)整個(gè)BXEEM對(duì)象的描述。

(2) 自我重組織特性。一個(gè)基元通過(guò)基元頭體實(shí)現(xiàn)與外部的動(dòng)態(tài)導(dǎo)航功能,利用其屬性建立內(nèi)部鏈接關(guān)系,從而根據(jù)不同的需求實(shí)現(xiàn)基元的動(dòng)態(tài)重組織。此特性實(shí)現(xiàn)了BXEEM對(duì)象間鏈接關(guān)系的動(dòng)態(tài)改變。

通過(guò)基元的操作,可保證BXEEM對(duì)象代數(shù)操作的一致性。對(duì)XML文檔而言,則確保了該文檔的一致有效性和合法性。

3.1 根據(jù)BXEEM模型對(duì)象的定義,在描述表達(dá)BXM數(shù)據(jù)模型時(shí),又做了一些規(guī)定

規(guī)定1 BXEEM模型用有向樹的節(jié)點(diǎn)和有向?qū)嵾叺臉?biāo)識(shí)(Label)表示被描述對(duì)象(數(shù)據(jù))。結(jié)點(diǎn)用圓表示。結(jié)點(diǎn)必須含有標(biāo)識(shí)符oid以及標(biāo)記名(Labelname),有向?qū)嵾叡硎緦?duì)象與其子對(duì)象間的嵌套關(guān)系,有向?qū)嵾叺臉?biāo)識(shí)表示對(duì)象的Labelname。

規(guī)定2 BXEEM模型用有向虛邊表示對(duì)象屬性以及對(duì)象間的鏈接引用關(guān)系。

規(guī)定3 BXEEM模型的復(fù)雜對(duì)象結(jié)點(diǎn)可以具有多個(gè)引出向的實(shí)邊,但只能有惟一引入向的實(shí)邊表明,該對(duì)象僅能有一個(gè)父對(duì)象來(lái)反映XML文檔嚴(yán)格的層次嵌套關(guān)系。

規(guī)定4 BXEEM模型中規(guī)定結(jié)點(diǎn)在同一層按照從左到右的順序依次排列,以此來(lái)表明BXEM數(shù)據(jù)模型與XML文檔的匹配。

根據(jù)BXEEM模型的定義,層次分形-多級(jí)超鏈的基元描述了XML文檔的DTD以及XMLSchema,保證了在該基礎(chǔ)上BXEEM模型表達(dá)XML文檔的一致有效性和合法性。與XML文檔匹配有如下關(guān)系:XML元素采用XOEM對(duì)象表達(dá),XML的子元素嵌套關(guān)系反映了BXEEM的子對(duì)象關(guān)系。XML元素之間的順序不是任意的,因此BXM模型中規(guī)定各結(jié)點(diǎn)按照從左到右的順序作為XML元素表達(dá)的順序。

XML的鏈接引用存在兩種方法:一種是內(nèi)部指針引用,即通過(guò)ID與IDREF(S)實(shí)現(xiàn)的,在BXM模型中對(duì)象的oid與ID相匹配,對(duì)象的引用屬性名均可作為IDREF(S)的類型。因此有向虛邊與實(shí)圓構(gòu)成內(nèi)部鏈接引用。另一種是外部鏈接,即通過(guò)Xlink/Xpointer。外部鏈接分為兩級(jí)即link=1時(shí)表示線性超鏈(簡(jiǎn)單鏈接),link=2時(shí)表示擴(kuò)展超鏈。

3.2 實(shí)例

以下是一個(gè)XML數(shù)據(jù)文檔實(shí)例。以信息為例,其BXEEM有向樹如圖2所示。現(xiàn)以XML描述如下:

1rgf

< list > XVSGTVCLSALPPEATDTLNLIASDGPFPYSQDGVVFQNRESVLPTQSYGYYHEYT

VITPGARTRGTRRIITGEATQEDYYTGDHYATFSLIDQTC

猜你喜歡
數(shù)據(jù)集成數(shù)據(jù)模型
面板數(shù)據(jù)模型截面相關(guān)檢驗(yàn)方法綜述
加熱爐爐內(nèi)跟蹤數(shù)據(jù)模型優(yōu)化
成本與制造數(shù)據(jù)集成分析
基于Biztalk的異構(gòu)醫(yī)療信息系統(tǒng)數(shù)據(jù)集成研究
信息系統(tǒng)集成與數(shù)據(jù)集成策略研究
基于數(shù)據(jù)集成的水上項(xiàng)目國(guó)家隊(duì)數(shù)據(jù)庫(kù)網(wǎng)絡(luò)管理平臺(tái)的設(shè)計(jì)與開(kāi)發(fā)
面向集成管理的出版原圖數(shù)據(jù)模型
一種顧及級(jí)聯(lián)時(shí)空變化描述的土地利用變更數(shù)據(jù)模型
大理市| 关岭| 江安县| 牟定县| 郴州市| 太和县| 邯郸市| 广南县| 乌兰察布市| 赣榆县| 宣威市| 大宁县| 韶山市| 仲巴县| 潼关县| 乌什县| 松滋市| 沙坪坝区| 从江县| 凯里市| 香格里拉县| 饶阳县| 绥滨县| 兴山县| 铜陵市| 壶关县| 营口市| 宁陕县| 尤溪县| 林西县| 正镶白旗| 吉木萨尔县| 迭部县| 巢湖市| 镇巴县| 成武县| 张掖市| 丰县| 庐江县| 莆田市| 即墨市|