朱敏
摘 要:研究實(shí)現(xiàn)基于XML的數(shù)據(jù)集成技術(shù),探討XML的主要技術(shù)以及XML 應(yīng)用。XML是eXtensible Markup Language(可擴(kuò)展的標(biāo)記語(yǔ)言)的縮寫,標(biāo)記是指計(jì)算機(jī)所能理解的信息符號(hào),通過(guò)此種標(biāo)記,計(jì)算機(jī)之間可以處理包含各種信息的文章等。并從XML主要技術(shù)、XML應(yīng)用來(lái)闡述。同時(shí)XML應(yīng)用從支持?jǐn)?shù)據(jù)交換、在異構(gòu)數(shù)據(jù)庫(kù)集成中的關(guān)鍵技術(shù)作用、存儲(chǔ)數(shù)據(jù)、支持以文檔為中心和以數(shù)據(jù)為中心的應(yīng)用、定義新的標(biāo)記語(yǔ)言。
關(guān)鍵詞:XML;數(shù)據(jù)集成;數(shù)據(jù)交換
中圖分類號(hào):F270 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-291X(2014)03-0015-02
一、XML 概述
XML是eXtensible Markup Language(可擴(kuò)展的標(biāo)記語(yǔ)言)的縮寫,標(biāo)記是指計(jì)算機(jī)所能理解的信息符號(hào),通過(guò)此種標(biāo)記,計(jì)算機(jī)之間可以處理包含各種信息的文章等。如何定義這些標(biāo)記,既可以選擇國(guó)際通用的標(biāo)記語(yǔ)言,比如HTML,也可以使用像XML這樣由相關(guān)人士自由決定的標(biāo)記語(yǔ)言,這就是語(yǔ)言的可擴(kuò)展性。用XML作為中介格式,就不再需要知道對(duì)方內(nèi)部的資料存儲(chǔ)格式,某個(gè)系統(tǒng)內(nèi)部的變更,也不再會(huì)涉及和它往來(lái)的其他系統(tǒng)。因此,XML成為定義一種互聯(lián)網(wǎng)上交換數(shù)據(jù)的標(biāo)準(zhǔn)。XML為大家提供了理想的緩沖,并逐步成為Internet上數(shù)據(jù)表示和交換的標(biāo)準(zhǔn)。
1.XML 與HTML 。HTML 作為標(biāo)記的集合并不能揭示標(biāo)記中內(nèi)容的含義,在XML文檔中能夠清楚地反映數(shù)據(jù)內(nèi)容和數(shù)據(jù)結(jié)構(gòu)之間的關(guān)系(如圖1所示)。XML實(shí)際上是一種定義語(yǔ)言,即使用者可以定義無(wú)窮無(wú)盡的標(biāo)記來(lái)描述文件中的任何數(shù)據(jù)元素,從而突破了HTML固定標(biāo)記集合的約束,使文件的內(nèi)容更豐富更復(fù)雜并組成一個(gè)完整的信息體系,在WEB上有著很旺盛的生命力。
XML 在使用上,很多地方還離不開(kāi)HTML 的幫助。只是在HTML 標(biāo)準(zhǔn)中可能不會(huì)再增加新的功能,對(duì)新功能的支持可能都會(huì)放在XML 標(biāo)準(zhǔn)中。
設(shè)計(jì)XML 的目的不是取代HTML,而是與HTML 合作以擴(kuò)展網(wǎng)站網(wǎng)頁(yè)的功能。如傳輸任意形式的文件、以盡可能合理的方式來(lái)排序、篩選、重組、搜尋以及管理信息、使信息呈現(xiàn)出高度的結(jié)構(gòu)化。
目前XML 的最大的不足在于所有的執(zhí)行細(xì)節(jié)還是沒(méi)有完全制訂出來(lái),語(yǔ)法格式還有可能再變動(dòng)。
2.XML主要技術(shù)。W3C最近發(fā)布處理的一個(gè)就是關(guān)于Web Services的研究和XML的更新機(jī)制。其中關(guān)于XML有三個(gè)關(guān)鍵要素:Schema(模式)、XSL,可擴(kuò)展樣式語(yǔ)言)和XLL(eXtensible Link Language,可擴(kuò)展鏈接語(yǔ)言)。
Schema規(guī)定了XML文件的邏輯結(jié)構(gòu),定義了XML文件中的元素,元素的屬性以及元素和元素的屬性之間的關(guān)系,它可以幫助XML的分析程序校驗(yàn)XML文件標(biāo)記的合法性。
文檔類型定義(DTD)和XML Schema都是用來(lái)定義XML文檔結(jié)構(gòu)的語(yǔ)言。當(dāng)XML文檔與特定的DTD或是XML Schema結(jié)合在一起,能夠驗(yàn)證XML文檔中的數(shù)據(jù)結(jié)構(gòu)是否符合DTD或是XML Schema中對(duì)數(shù)據(jù)結(jié)構(gòu)定義的要求。
XSL提供了一種疊式頁(yè)面CSS的功能,使開(kāi)發(fā)者構(gòu)造出具有表達(dá)層次結(jié)構(gòu)的Web頁(yè)面來(lái),以有別于XML的數(shù)據(jù)結(jié)構(gòu)。XSL也能和HTML一起構(gòu)造疊式頁(yè)面。
XLL是XML的鏈接語(yǔ)言,它與HTML的鏈接相似,但功能更強(qiáng)大。XLL支持可擴(kuò)展的鏈接和多方向的鏈接。它打破了HTML只支持超級(jí)文本概念下最簡(jiǎn)單的鏈接限制,能支持獨(dú)立于地址的域名、雙向鏈路、環(huán)路、多個(gè)源的集合鏈接等。XLL鏈接可不受文檔制約,完全按用戶要求來(lái)指定和管理。
二、XML 應(yīng)用
Internet 上的服務(wù)器與服務(wù)器之間、服務(wù)器與瀏覽器之間有大量的數(shù)據(jù)需要交換。所有被交換的數(shù)據(jù),都要求對(duì)數(shù)據(jù)的內(nèi)容和表現(xiàn)方式有所說(shuō)明,用標(biāo)準(zhǔn)語(yǔ)言擔(dān)當(dāng)?shù)脑撝厝问窃俸线m不過(guò)的了。因此XML是實(shí)現(xiàn)數(shù)據(jù)集成的核心技術(shù)。
1.支持?jǐn)?shù)據(jù)交換。作為一個(gè)建立在現(xiàn)有Internet協(xié)議基礎(chǔ)上的標(biāo)準(zhǔn),XML是第一個(gè)能在現(xiàn)有Internet基礎(chǔ)架構(gòu)上傳輸純數(shù)據(jù)的國(guó)際標(biāo)準(zhǔn)。因此XML一出現(xiàn),就立即被很多應(yīng)用領(lǐng)域采用作為數(shù)據(jù)交換的標(biāo)準(zhǔn),XML已經(jīng)成為眾多在Intranet和Internet上運(yùn)行的應(yīng)用程序的數(shù)據(jù)交換標(biāo)準(zhǔn)。
2.在異構(gòu)數(shù)據(jù)庫(kù)集成中的關(guān)鍵技術(shù)作用。由于開(kāi)發(fā)的管理系統(tǒng)時(shí)間不同、開(kāi)發(fā)工具不同、數(shù)據(jù)庫(kù)不同,各個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)所依賴的硬件平臺(tái)、操作系統(tǒng)平臺(tái)、網(wǎng)絡(luò)服務(wù)器平臺(tái)、數(shù)據(jù)庫(kù)平臺(tái)都可能是互不相同的。正是由于這些差異,目前Internet上的數(shù)據(jù)庫(kù)系統(tǒng)往往是分布的、異構(gòu)的,構(gòu)成了我們常說(shuō)的異構(gòu)平臺(tái)、異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng),形成一個(gè)個(gè)“信息孤島”。
針對(duì)各個(gè)異構(gòu)信息系統(tǒng)的特點(diǎn),采用現(xiàn)代最新技術(shù),對(duì)管理系統(tǒng)異構(gòu)數(shù)據(jù)庫(kù)實(shí)現(xiàn)集成,以支持對(duì)各異構(gòu)數(shù)據(jù)庫(kù)之間靈活的信息交換和共享,如何實(shí)現(xiàn)這個(gè)目標(biāo),已成為當(dāng)前亟待解決的問(wèn)題。而 XML技術(shù)正是實(shí)現(xiàn)網(wǎng)絡(luò)環(huán)境下異構(gòu)數(shù)據(jù)庫(kù)間集成的關(guān)鍵技術(shù)。
通過(guò)為各商務(wù)網(wǎng)站現(xiàn)有的不同數(shù)據(jù)庫(kù)系統(tǒng)提供一個(gè)XML接口,外界就可以借助XML實(shí)現(xiàn)對(duì)任何平臺(tái)上的現(xiàn)有數(shù)據(jù)庫(kù)的訪問(wèn),并將訪問(wèn)結(jié)果以XML的形式輸出到其他平臺(tái),從而實(shí)現(xiàn)了異構(gòu)數(shù)據(jù)庫(kù)間的信息交換和共享。
傳遞數(shù)據(jù)的理想方式就是利用XML進(jìn)行。對(duì)于傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng),存在著異質(zhì)或異構(gòu)的數(shù)據(jù)庫(kù),可以用XML來(lái)實(shí)現(xiàn)這些數(shù)據(jù)源有效地集成。
3.存儲(chǔ)數(shù)據(jù)。為了使基于XML的業(yè)務(wù)數(shù)據(jù)交換成為可能,就必須實(shí)現(xiàn)數(shù)據(jù)庫(kù)的XML數(shù)據(jù)存取,并且將XML數(shù)據(jù)同應(yīng)用程序集成,XML能把數(shù)據(jù)存儲(chǔ)在文檔或是數(shù)據(jù)庫(kù)中。
4.支持以文檔為中心和以數(shù)據(jù)為中心的應(yīng)用。XML能被用于對(duì)所交換信息的數(shù)據(jù)格式和數(shù)據(jù)結(jié)構(gòu)要求不嚴(yán)格的應(yīng)用程序之間進(jìn)行數(shù)據(jù)交換。這就是以文檔為中心(Document-centric)的應(yīng)用,例如報(bào)刊雜志的發(fā)行就是如此,其中內(nèi)容的組成沒(méi)有固定的結(jié)構(gòu)。這種文檔的結(jié)構(gòu)是半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)。與以文檔為中心相對(duì)應(yīng)的是以數(shù)據(jù)為中心(Data-centric)。以數(shù)據(jù)為中心的應(yīng)用是指處理的XML文檔是完整、結(jié)構(gòu)良好并且符合Schemas精確結(jié)構(gòu)定義的文檔。
5.定義新的標(biāo)記語(yǔ)言。XML作為一種原語(yǔ)言,是一種可以定義其他語(yǔ)言的語(yǔ)言。這個(gè)特點(diǎn)有利于各個(gè)應(yīng)用領(lǐng)域根據(jù)自己的需要定義一整套領(lǐng)域內(nèi)使用的標(biāo)準(zhǔn)數(shù)據(jù)表達(dá)標(biāo)簽。這對(duì)推動(dòng)各個(gè)行業(yè)的標(biāo)準(zhǔn)化進(jìn)程起到了巨大作用。
三、小結(jié)
隨著企業(yè)信息化的逐步深入,企業(yè)內(nèi)部及企業(yè)之間存在著大量的異構(gòu)數(shù)據(jù),數(shù)據(jù)集成問(wèn)題是企業(yè)信息化建設(shè)所面臨的問(wèn)題之一。它提供了一個(gè)理想的緩沖層,使得異構(gòu)數(shù)據(jù)源之間可以保持互相透明,不再需要知道對(duì)方的內(nèi)部存儲(chǔ)格式,某個(gè)數(shù)據(jù)源內(nèi)部的變更,也不會(huì)影響其他數(shù)據(jù)源?;赬ML的數(shù)據(jù)集成問(wèn)題,已經(jīng)成為數(shù)據(jù)庫(kù)研究領(lǐng)域中一個(gè)重要的研究方向。
參考文獻(xiàn):
[1] 李軍懷,周明全,耿國(guó)華,張景.在異構(gòu)數(shù)據(jù)集成中的應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用,2002,(22):18-24.
[2] Brett McLaughlin.Java與XML(第2版)[M].北京:中國(guó)電力出版社,2004:2.
[責(zé)任編輯 劉嬌嬌]endprint
摘 要:研究實(shí)現(xiàn)基于XML的數(shù)據(jù)集成技術(shù),探討XML的主要技術(shù)以及XML 應(yīng)用。XML是eXtensible Markup Language(可擴(kuò)展的標(biāo)記語(yǔ)言)的縮寫,標(biāo)記是指計(jì)算機(jī)所能理解的信息符號(hào),通過(guò)此種標(biāo)記,計(jì)算機(jī)之間可以處理包含各種信息的文章等。并從XML主要技術(shù)、XML應(yīng)用來(lái)闡述。同時(shí)XML應(yīng)用從支持?jǐn)?shù)據(jù)交換、在異構(gòu)數(shù)據(jù)庫(kù)集成中的關(guān)鍵技術(shù)作用、存儲(chǔ)數(shù)據(jù)、支持以文檔為中心和以數(shù)據(jù)為中心的應(yīng)用、定義新的標(biāo)記語(yǔ)言。
關(guān)鍵詞:XML;數(shù)據(jù)集成;數(shù)據(jù)交換
中圖分類號(hào):F270 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-291X(2014)03-0015-02
一、XML 概述
XML是eXtensible Markup Language(可擴(kuò)展的標(biāo)記語(yǔ)言)的縮寫,標(biāo)記是指計(jì)算機(jī)所能理解的信息符號(hào),通過(guò)此種標(biāo)記,計(jì)算機(jī)之間可以處理包含各種信息的文章等。如何定義這些標(biāo)記,既可以選擇國(guó)際通用的標(biāo)記語(yǔ)言,比如HTML,也可以使用像XML這樣由相關(guān)人士自由決定的標(biāo)記語(yǔ)言,這就是語(yǔ)言的可擴(kuò)展性。用XML作為中介格式,就不再需要知道對(duì)方內(nèi)部的資料存儲(chǔ)格式,某個(gè)系統(tǒng)內(nèi)部的變更,也不再會(huì)涉及和它往來(lái)的其他系統(tǒng)。因此,XML成為定義一種互聯(lián)網(wǎng)上交換數(shù)據(jù)的標(biāo)準(zhǔn)。XML為大家提供了理想的緩沖,并逐步成為Internet上數(shù)據(jù)表示和交換的標(biāo)準(zhǔn)。
1.XML 與HTML 。HTML 作為標(biāo)記的集合并不能揭示標(biāo)記中內(nèi)容的含義,在XML文檔中能夠清楚地反映數(shù)據(jù)內(nèi)容和數(shù)據(jù)結(jié)構(gòu)之間的關(guān)系(如圖1所示)。XML實(shí)際上是一種定義語(yǔ)言,即使用者可以定義無(wú)窮無(wú)盡的標(biāo)記來(lái)描述文件中的任何數(shù)據(jù)元素,從而突破了HTML固定標(biāo)記集合的約束,使文件的內(nèi)容更豐富更復(fù)雜并組成一個(gè)完整的信息體系,在WEB上有著很旺盛的生命力。
XML 在使用上,很多地方還離不開(kāi)HTML 的幫助。只是在HTML 標(biāo)準(zhǔn)中可能不會(huì)再增加新的功能,對(duì)新功能的支持可能都會(huì)放在XML 標(biāo)準(zhǔn)中。
設(shè)計(jì)XML 的目的不是取代HTML,而是與HTML 合作以擴(kuò)展網(wǎng)站網(wǎng)頁(yè)的功能。如傳輸任意形式的文件、以盡可能合理的方式來(lái)排序、篩選、重組、搜尋以及管理信息、使信息呈現(xiàn)出高度的結(jié)構(gòu)化。
目前XML 的最大的不足在于所有的執(zhí)行細(xì)節(jié)還是沒(méi)有完全制訂出來(lái),語(yǔ)法格式還有可能再變動(dòng)。
2.XML主要技術(shù)。W3C最近發(fā)布處理的一個(gè)就是關(guān)于Web Services的研究和XML的更新機(jī)制。其中關(guān)于XML有三個(gè)關(guān)鍵要素:Schema(模式)、XSL,可擴(kuò)展樣式語(yǔ)言)和XLL(eXtensible Link Language,可擴(kuò)展鏈接語(yǔ)言)。
Schema規(guī)定了XML文件的邏輯結(jié)構(gòu),定義了XML文件中的元素,元素的屬性以及元素和元素的屬性之間的關(guān)系,它可以幫助XML的分析程序校驗(yàn)XML文件標(biāo)記的合法性。
文檔類型定義(DTD)和XML Schema都是用來(lái)定義XML文檔結(jié)構(gòu)的語(yǔ)言。當(dāng)XML文檔與特定的DTD或是XML Schema結(jié)合在一起,能夠驗(yàn)證XML文檔中的數(shù)據(jù)結(jié)構(gòu)是否符合DTD或是XML Schema中對(duì)數(shù)據(jù)結(jié)構(gòu)定義的要求。
XSL提供了一種疊式頁(yè)面CSS的功能,使開(kāi)發(fā)者構(gòu)造出具有表達(dá)層次結(jié)構(gòu)的Web頁(yè)面來(lái),以有別于XML的數(shù)據(jù)結(jié)構(gòu)。XSL也能和HTML一起構(gòu)造疊式頁(yè)面。
XLL是XML的鏈接語(yǔ)言,它與HTML的鏈接相似,但功能更強(qiáng)大。XLL支持可擴(kuò)展的鏈接和多方向的鏈接。它打破了HTML只支持超級(jí)文本概念下最簡(jiǎn)單的鏈接限制,能支持獨(dú)立于地址的域名、雙向鏈路、環(huán)路、多個(gè)源的集合鏈接等。XLL鏈接可不受文檔制約,完全按用戶要求來(lái)指定和管理。
二、XML 應(yīng)用
Internet 上的服務(wù)器與服務(wù)器之間、服務(wù)器與瀏覽器之間有大量的數(shù)據(jù)需要交換。所有被交換的數(shù)據(jù),都要求對(duì)數(shù)據(jù)的內(nèi)容和表現(xiàn)方式有所說(shuō)明,用標(biāo)準(zhǔn)語(yǔ)言擔(dān)當(dāng)?shù)脑撝厝问窃俸线m不過(guò)的了。因此XML是實(shí)現(xiàn)數(shù)據(jù)集成的核心技術(shù)。
1.支持?jǐn)?shù)據(jù)交換。作為一個(gè)建立在現(xiàn)有Internet協(xié)議基礎(chǔ)上的標(biāo)準(zhǔn),XML是第一個(gè)能在現(xiàn)有Internet基礎(chǔ)架構(gòu)上傳輸純數(shù)據(jù)的國(guó)際標(biāo)準(zhǔn)。因此XML一出現(xiàn),就立即被很多應(yīng)用領(lǐng)域采用作為數(shù)據(jù)交換的標(biāo)準(zhǔn),XML已經(jīng)成為眾多在Intranet和Internet上運(yùn)行的應(yīng)用程序的數(shù)據(jù)交換標(biāo)準(zhǔn)。
2.在異構(gòu)數(shù)據(jù)庫(kù)集成中的關(guān)鍵技術(shù)作用。由于開(kāi)發(fā)的管理系統(tǒng)時(shí)間不同、開(kāi)發(fā)工具不同、數(shù)據(jù)庫(kù)不同,各個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)所依賴的硬件平臺(tái)、操作系統(tǒng)平臺(tái)、網(wǎng)絡(luò)服務(wù)器平臺(tái)、數(shù)據(jù)庫(kù)平臺(tái)都可能是互不相同的。正是由于這些差異,目前Internet上的數(shù)據(jù)庫(kù)系統(tǒng)往往是分布的、異構(gòu)的,構(gòu)成了我們常說(shuō)的異構(gòu)平臺(tái)、異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng),形成一個(gè)個(gè)“信息孤島”。
針對(duì)各個(gè)異構(gòu)信息系統(tǒng)的特點(diǎn),采用現(xiàn)代最新技術(shù),對(duì)管理系統(tǒng)異構(gòu)數(shù)據(jù)庫(kù)實(shí)現(xiàn)集成,以支持對(duì)各異構(gòu)數(shù)據(jù)庫(kù)之間靈活的信息交換和共享,如何實(shí)現(xiàn)這個(gè)目標(biāo),已成為當(dāng)前亟待解決的問(wèn)題。而 XML技術(shù)正是實(shí)現(xiàn)網(wǎng)絡(luò)環(huán)境下異構(gòu)數(shù)據(jù)庫(kù)間集成的關(guān)鍵技術(shù)。
通過(guò)為各商務(wù)網(wǎng)站現(xiàn)有的不同數(shù)據(jù)庫(kù)系統(tǒng)提供一個(gè)XML接口,外界就可以借助XML實(shí)現(xiàn)對(duì)任何平臺(tái)上的現(xiàn)有數(shù)據(jù)庫(kù)的訪問(wèn),并將訪問(wèn)結(jié)果以XML的形式輸出到其他平臺(tái),從而實(shí)現(xiàn)了異構(gòu)數(shù)據(jù)庫(kù)間的信息交換和共享。
傳遞數(shù)據(jù)的理想方式就是利用XML進(jìn)行。對(duì)于傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng),存在著異質(zhì)或異構(gòu)的數(shù)據(jù)庫(kù),可以用XML來(lái)實(shí)現(xiàn)這些數(shù)據(jù)源有效地集成。
3.存儲(chǔ)數(shù)據(jù)。為了使基于XML的業(yè)務(wù)數(shù)據(jù)交換成為可能,就必須實(shí)現(xiàn)數(shù)據(jù)庫(kù)的XML數(shù)據(jù)存取,并且將XML數(shù)據(jù)同應(yīng)用程序集成,XML能把數(shù)據(jù)存儲(chǔ)在文檔或是數(shù)據(jù)庫(kù)中。
4.支持以文檔為中心和以數(shù)據(jù)為中心的應(yīng)用。XML能被用于對(duì)所交換信息的數(shù)據(jù)格式和數(shù)據(jù)結(jié)構(gòu)要求不嚴(yán)格的應(yīng)用程序之間進(jìn)行數(shù)據(jù)交換。這就是以文檔為中心(Document-centric)的應(yīng)用,例如報(bào)刊雜志的發(fā)行就是如此,其中內(nèi)容的組成沒(méi)有固定的結(jié)構(gòu)。這種文檔的結(jié)構(gòu)是半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)。與以文檔為中心相對(duì)應(yīng)的是以數(shù)據(jù)為中心(Data-centric)。以數(shù)據(jù)為中心的應(yīng)用是指處理的XML文檔是完整、結(jié)構(gòu)良好并且符合Schemas精確結(jié)構(gòu)定義的文檔。
5.定義新的標(biāo)記語(yǔ)言。XML作為一種原語(yǔ)言,是一種可以定義其他語(yǔ)言的語(yǔ)言。這個(gè)特點(diǎn)有利于各個(gè)應(yīng)用領(lǐng)域根據(jù)自己的需要定義一整套領(lǐng)域內(nèi)使用的標(biāo)準(zhǔn)數(shù)據(jù)表達(dá)標(biāo)簽。這對(duì)推動(dòng)各個(gè)行業(yè)的標(biāo)準(zhǔn)化進(jìn)程起到了巨大作用。
三、小結(jié)
隨著企業(yè)信息化的逐步深入,企業(yè)內(nèi)部及企業(yè)之間存在著大量的異構(gòu)數(shù)據(jù),數(shù)據(jù)集成問(wèn)題是企業(yè)信息化建設(shè)所面臨的問(wèn)題之一。它提供了一個(gè)理想的緩沖層,使得異構(gòu)數(shù)據(jù)源之間可以保持互相透明,不再需要知道對(duì)方的內(nèi)部存儲(chǔ)格式,某個(gè)數(shù)據(jù)源內(nèi)部的變更,也不會(huì)影響其他數(shù)據(jù)源?;赬ML的數(shù)據(jù)集成問(wèn)題,已經(jīng)成為數(shù)據(jù)庫(kù)研究領(lǐng)域中一個(gè)重要的研究方向。
參考文獻(xiàn):
[1] 李軍懷,周明全,耿國(guó)華,張景.在異構(gòu)數(shù)據(jù)集成中的應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用,2002,(22):18-24.
[2] Brett McLaughlin.Java與XML(第2版)[M].北京:中國(guó)電力出版社,2004:2.
[責(zé)任編輯 劉嬌嬌]endprint
摘 要:研究實(shí)現(xiàn)基于XML的數(shù)據(jù)集成技術(shù),探討XML的主要技術(shù)以及XML 應(yīng)用。XML是eXtensible Markup Language(可擴(kuò)展的標(biāo)記語(yǔ)言)的縮寫,標(biāo)記是指計(jì)算機(jī)所能理解的信息符號(hào),通過(guò)此種標(biāo)記,計(jì)算機(jī)之間可以處理包含各種信息的文章等。并從XML主要技術(shù)、XML應(yīng)用來(lái)闡述。同時(shí)XML應(yīng)用從支持?jǐn)?shù)據(jù)交換、在異構(gòu)數(shù)據(jù)庫(kù)集成中的關(guān)鍵技術(shù)作用、存儲(chǔ)數(shù)據(jù)、支持以文檔為中心和以數(shù)據(jù)為中心的應(yīng)用、定義新的標(biāo)記語(yǔ)言。
關(guān)鍵詞:XML;數(shù)據(jù)集成;數(shù)據(jù)交換
中圖分類號(hào):F270 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-291X(2014)03-0015-02
一、XML 概述
XML是eXtensible Markup Language(可擴(kuò)展的標(biāo)記語(yǔ)言)的縮寫,標(biāo)記是指計(jì)算機(jī)所能理解的信息符號(hào),通過(guò)此種標(biāo)記,計(jì)算機(jī)之間可以處理包含各種信息的文章等。如何定義這些標(biāo)記,既可以選擇國(guó)際通用的標(biāo)記語(yǔ)言,比如HTML,也可以使用像XML這樣由相關(guān)人士自由決定的標(biāo)記語(yǔ)言,這就是語(yǔ)言的可擴(kuò)展性。用XML作為中介格式,就不再需要知道對(duì)方內(nèi)部的資料存儲(chǔ)格式,某個(gè)系統(tǒng)內(nèi)部的變更,也不再會(huì)涉及和它往來(lái)的其他系統(tǒng)。因此,XML成為定義一種互聯(lián)網(wǎng)上交換數(shù)據(jù)的標(biāo)準(zhǔn)。XML為大家提供了理想的緩沖,并逐步成為Internet上數(shù)據(jù)表示和交換的標(biāo)準(zhǔn)。
1.XML 與HTML 。HTML 作為標(biāo)記的集合并不能揭示標(biāo)記中內(nèi)容的含義,在XML文檔中能夠清楚地反映數(shù)據(jù)內(nèi)容和數(shù)據(jù)結(jié)構(gòu)之間的關(guān)系(如圖1所示)。XML實(shí)際上是一種定義語(yǔ)言,即使用者可以定義無(wú)窮無(wú)盡的標(biāo)記來(lái)描述文件中的任何數(shù)據(jù)元素,從而突破了HTML固定標(biāo)記集合的約束,使文件的內(nèi)容更豐富更復(fù)雜并組成一個(gè)完整的信息體系,在WEB上有著很旺盛的生命力。
XML 在使用上,很多地方還離不開(kāi)HTML 的幫助。只是在HTML 標(biāo)準(zhǔn)中可能不會(huì)再增加新的功能,對(duì)新功能的支持可能都會(huì)放在XML 標(biāo)準(zhǔn)中。
設(shè)計(jì)XML 的目的不是取代HTML,而是與HTML 合作以擴(kuò)展網(wǎng)站網(wǎng)頁(yè)的功能。如傳輸任意形式的文件、以盡可能合理的方式來(lái)排序、篩選、重組、搜尋以及管理信息、使信息呈現(xiàn)出高度的結(jié)構(gòu)化。
目前XML 的最大的不足在于所有的執(zhí)行細(xì)節(jié)還是沒(méi)有完全制訂出來(lái),語(yǔ)法格式還有可能再變動(dòng)。
2.XML主要技術(shù)。W3C最近發(fā)布處理的一個(gè)就是關(guān)于Web Services的研究和XML的更新機(jī)制。其中關(guān)于XML有三個(gè)關(guān)鍵要素:Schema(模式)、XSL,可擴(kuò)展樣式語(yǔ)言)和XLL(eXtensible Link Language,可擴(kuò)展鏈接語(yǔ)言)。
Schema規(guī)定了XML文件的邏輯結(jié)構(gòu),定義了XML文件中的元素,元素的屬性以及元素和元素的屬性之間的關(guān)系,它可以幫助XML的分析程序校驗(yàn)XML文件標(biāo)記的合法性。
文檔類型定義(DTD)和XML Schema都是用來(lái)定義XML文檔結(jié)構(gòu)的語(yǔ)言。當(dāng)XML文檔與特定的DTD或是XML Schema結(jié)合在一起,能夠驗(yàn)證XML文檔中的數(shù)據(jù)結(jié)構(gòu)是否符合DTD或是XML Schema中對(duì)數(shù)據(jù)結(jié)構(gòu)定義的要求。
XSL提供了一種疊式頁(yè)面CSS的功能,使開(kāi)發(fā)者構(gòu)造出具有表達(dá)層次結(jié)構(gòu)的Web頁(yè)面來(lái),以有別于XML的數(shù)據(jù)結(jié)構(gòu)。XSL也能和HTML一起構(gòu)造疊式頁(yè)面。
XLL是XML的鏈接語(yǔ)言,它與HTML的鏈接相似,但功能更強(qiáng)大。XLL支持可擴(kuò)展的鏈接和多方向的鏈接。它打破了HTML只支持超級(jí)文本概念下最簡(jiǎn)單的鏈接限制,能支持獨(dú)立于地址的域名、雙向鏈路、環(huán)路、多個(gè)源的集合鏈接等。XLL鏈接可不受文檔制約,完全按用戶要求來(lái)指定和管理。
二、XML 應(yīng)用
Internet 上的服務(wù)器與服務(wù)器之間、服務(wù)器與瀏覽器之間有大量的數(shù)據(jù)需要交換。所有被交換的數(shù)據(jù),都要求對(duì)數(shù)據(jù)的內(nèi)容和表現(xiàn)方式有所說(shuō)明,用標(biāo)準(zhǔn)語(yǔ)言擔(dān)當(dāng)?shù)脑撝厝问窃俸线m不過(guò)的了。因此XML是實(shí)現(xiàn)數(shù)據(jù)集成的核心技術(shù)。
1.支持?jǐn)?shù)據(jù)交換。作為一個(gè)建立在現(xiàn)有Internet協(xié)議基礎(chǔ)上的標(biāo)準(zhǔn),XML是第一個(gè)能在現(xiàn)有Internet基礎(chǔ)架構(gòu)上傳輸純數(shù)據(jù)的國(guó)際標(biāo)準(zhǔn)。因此XML一出現(xiàn),就立即被很多應(yīng)用領(lǐng)域采用作為數(shù)據(jù)交換的標(biāo)準(zhǔn),XML已經(jīng)成為眾多在Intranet和Internet上運(yùn)行的應(yīng)用程序的數(shù)據(jù)交換標(biāo)準(zhǔn)。
2.在異構(gòu)數(shù)據(jù)庫(kù)集成中的關(guān)鍵技術(shù)作用。由于開(kāi)發(fā)的管理系統(tǒng)時(shí)間不同、開(kāi)發(fā)工具不同、數(shù)據(jù)庫(kù)不同,各個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)所依賴的硬件平臺(tái)、操作系統(tǒng)平臺(tái)、網(wǎng)絡(luò)服務(wù)器平臺(tái)、數(shù)據(jù)庫(kù)平臺(tái)都可能是互不相同的。正是由于這些差異,目前Internet上的數(shù)據(jù)庫(kù)系統(tǒng)往往是分布的、異構(gòu)的,構(gòu)成了我們常說(shuō)的異構(gòu)平臺(tái)、異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng),形成一個(gè)個(gè)“信息孤島”。
針對(duì)各個(gè)異構(gòu)信息系統(tǒng)的特點(diǎn),采用現(xiàn)代最新技術(shù),對(duì)管理系統(tǒng)異構(gòu)數(shù)據(jù)庫(kù)實(shí)現(xiàn)集成,以支持對(duì)各異構(gòu)數(shù)據(jù)庫(kù)之間靈活的信息交換和共享,如何實(shí)現(xiàn)這個(gè)目標(biāo),已成為當(dāng)前亟待解決的問(wèn)題。而 XML技術(shù)正是實(shí)現(xiàn)網(wǎng)絡(luò)環(huán)境下異構(gòu)數(shù)據(jù)庫(kù)間集成的關(guān)鍵技術(shù)。
通過(guò)為各商務(wù)網(wǎng)站現(xiàn)有的不同數(shù)據(jù)庫(kù)系統(tǒng)提供一個(gè)XML接口,外界就可以借助XML實(shí)現(xiàn)對(duì)任何平臺(tái)上的現(xiàn)有數(shù)據(jù)庫(kù)的訪問(wèn),并將訪問(wèn)結(jié)果以XML的形式輸出到其他平臺(tái),從而實(shí)現(xiàn)了異構(gòu)數(shù)據(jù)庫(kù)間的信息交換和共享。
傳遞數(shù)據(jù)的理想方式就是利用XML進(jìn)行。對(duì)于傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng),存在著異質(zhì)或異構(gòu)的數(shù)據(jù)庫(kù),可以用XML來(lái)實(shí)現(xiàn)這些數(shù)據(jù)源有效地集成。
3.存儲(chǔ)數(shù)據(jù)。為了使基于XML的業(yè)務(wù)數(shù)據(jù)交換成為可能,就必須實(shí)現(xiàn)數(shù)據(jù)庫(kù)的XML數(shù)據(jù)存取,并且將XML數(shù)據(jù)同應(yīng)用程序集成,XML能把數(shù)據(jù)存儲(chǔ)在文檔或是數(shù)據(jù)庫(kù)中。
4.支持以文檔為中心和以數(shù)據(jù)為中心的應(yīng)用。XML能被用于對(duì)所交換信息的數(shù)據(jù)格式和數(shù)據(jù)結(jié)構(gòu)要求不嚴(yán)格的應(yīng)用程序之間進(jìn)行數(shù)據(jù)交換。這就是以文檔為中心(Document-centric)的應(yīng)用,例如報(bào)刊雜志的發(fā)行就是如此,其中內(nèi)容的組成沒(méi)有固定的結(jié)構(gòu)。這種文檔的結(jié)構(gòu)是半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)。與以文檔為中心相對(duì)應(yīng)的是以數(shù)據(jù)為中心(Data-centric)。以數(shù)據(jù)為中心的應(yīng)用是指處理的XML文檔是完整、結(jié)構(gòu)良好并且符合Schemas精確結(jié)構(gòu)定義的文檔。
5.定義新的標(biāo)記語(yǔ)言。XML作為一種原語(yǔ)言,是一種可以定義其他語(yǔ)言的語(yǔ)言。這個(gè)特點(diǎn)有利于各個(gè)應(yīng)用領(lǐng)域根據(jù)自己的需要定義一整套領(lǐng)域內(nèi)使用的標(biāo)準(zhǔn)數(shù)據(jù)表達(dá)標(biāo)簽。這對(duì)推動(dòng)各個(gè)行業(yè)的標(biāo)準(zhǔn)化進(jìn)程起到了巨大作用。
三、小結(jié)
隨著企業(yè)信息化的逐步深入,企業(yè)內(nèi)部及企業(yè)之間存在著大量的異構(gòu)數(shù)據(jù),數(shù)據(jù)集成問(wèn)題是企業(yè)信息化建設(shè)所面臨的問(wèn)題之一。它提供了一個(gè)理想的緩沖層,使得異構(gòu)數(shù)據(jù)源之間可以保持互相透明,不再需要知道對(duì)方的內(nèi)部存儲(chǔ)格式,某個(gè)數(shù)據(jù)源內(nèi)部的變更,也不會(huì)影響其他數(shù)據(jù)源?;赬ML的數(shù)據(jù)集成問(wèn)題,已經(jīng)成為數(shù)據(jù)庫(kù)研究領(lǐng)域中一個(gè)重要的研究方向。
參考文獻(xiàn):
[1] 李軍懷,周明全,耿國(guó)華,張景.在異構(gòu)數(shù)據(jù)集成中的應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用,2002,(22):18-24.
[2] Brett McLaughlin.Java與XML(第2版)[M].北京:中國(guó)電力出版社,2004:2.
[責(zé)任編輯 劉嬌嬌]endprint