任燕燕
摘 要:文章闡述XML的功能和技術(shù)優(yōu)勢(shì),指出XML廣闊的使用前景為其在數(shù)字圖書(shū)館中的應(yīng)用提供了更大的發(fā)展空間,易于實(shí)現(xiàn)知識(shí)共享和交換,易于處理交換信息,不僅使指定信息搜索成為可能,而且使數(shù)據(jù)更新變得更加容易。
關(guān)鍵詞:XML;數(shù)字圖書(shū)館;信息技術(shù);數(shù)據(jù)
中圖分類(lèi)號(hào):G434;G258.6 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1008-3561(2018)15-0019-01
XML是W3C創(chuàng)建的一組規(guī)范,已得到許多工業(yè)組織和開(kāi)發(fā)商的支持,是SGML的子集,它是由SGML派生出來(lái)的,是一種創(chuàng)建標(biāo)記語(yǔ)言的語(yǔ)言,一種元標(biāo)記語(yǔ)言。XML起源于SGML(Standard Generalized Markup Language),它去除了SGML中一些非常復(fù)雜而又用得很少的特性,使其更加精練、簡(jiǎn)潔,更易于理解和使用。XML出現(xiàn)的最早目的是解決大規(guī)模出版面臨的挑戰(zhàn),但它現(xiàn)在被廣泛用于Web上標(biāo)記各種數(shù)據(jù),發(fā)揮著越來(lái)越重要的作用,更適合在網(wǎng)絡(luò)環(huán)境下使用。
一是可擴(kuò)展性。XML是一種簡(jiǎn)化的標(biāo)記語(yǔ)言,允許自定義標(biāo)記,因而具有良好的擴(kuò)展性。XML是SGML的一個(gè)精簡(jiǎn)的子集,是一種元標(biāo)記語(yǔ)言,這使得其在網(wǎng)絡(luò)應(yīng)用和信息共享上方便、高效、可擴(kuò)展。二是多樣性。XML的突出特點(diǎn)是數(shù)據(jù)內(nèi)容與描述數(shù)據(jù)顯示方式的信息相分離。XML通過(guò)定義標(biāo)記來(lái)描述文檔內(nèi)容,數(shù)據(jù)內(nèi)容的顯示方式由XSL和CSS來(lái)控制,允許開(kāi)發(fā)人員指定不同的顯示方式,使數(shù)據(jù)可以按最適合用戶(hù)瀏覽的方式表現(xiàn)出來(lái)。三是通用性。XML是一種定義嚴(yán)格的語(yǔ)言,它幾乎沒(méi)有定義什么可選的特性。這使得XML達(dá)到了最大程度的通用性,任何與XML兼容的解析器都可以對(duì)一個(gè)合法的XML文檔進(jìn)行解析而不會(huì)出現(xiàn)任何錯(cuò)誤。所以,XML能夠作為一種廣義的中介,在各種平臺(tái)、語(yǔ)言和程序中流通。四是簡(jiǎn)單性。數(shù)據(jù)可被XML唯一標(biāo)識(shí),沒(méi)有XML,搜索軟件必須了解每個(gè)數(shù)據(jù)庫(kù)是如何創(chuàng)建的,這在實(shí)際操作中是不可能的。因?yàn)槊總€(gè)數(shù)據(jù)庫(kù)描述數(shù)據(jù)的方式都是不同的,有了XML標(biāo)識(shí)數(shù)據(jù)的功能,搜索就變得十分容易。五是靈活性。通過(guò)XML,數(shù)據(jù)可以粒狀地更新。每當(dāng)一部分?jǐn)?shù)據(jù)變化后,不需要重發(fā)整個(gè)結(jié)構(gòu)化的數(shù)據(jù)。變化的元素從服務(wù)器發(fā)送到客戶(hù)端,不需要刷新整個(gè)使用者的頁(yè)面就能夠顯示出來(lái)。六是描述性。這是XML的最重要特性之一,XML是一種用來(lái)定義數(shù)據(jù)和元數(shù)據(jù)的語(yǔ)法,這就使得用戶(hù)能夠定義數(shù)據(jù)本身。也就是說(shuō),由于XML提供了描述數(shù)據(jù)的方法,其具備了描述任何事物的能力。七是跨平臺(tái)性。由于XML是SGML的子集,其具有跨平臺(tái)的特性。
(1)易于實(shí)現(xiàn)知識(shí)共享和交換。數(shù)字圖書(shū)館中的數(shù)字化信息比較龐大,并且要為網(wǎng)上用戶(hù)提供檢索服務(wù),因而圖書(shū)館必須采用較先進(jìn)的技術(shù)手段對(duì)數(shù)據(jù)進(jìn)行合理有效的描述。由W3C提出的資源描述框架(Resource description Framework, RDF)是XML的最重要的一項(xiàng)應(yīng)用,它對(duì)數(shù)字圖書(shū)館的開(kāi)發(fā)具有重大意義。RDF可描述內(nèi)容及內(nèi)容之間的關(guān)系,易于實(shí)現(xiàn)知識(shí)和交換共享。
(2)易于處理交換信息。數(shù)字圖書(shū)館是一個(gè)虛擬的、分布式的系統(tǒng),在其內(nèi)部各子系統(tǒng)之間必然會(huì)有大量的信息(數(shù)據(jù))交換。同時(shí),數(shù)字圖書(shū)館與外界(如用戶(hù)、合作者、信息提供商等)也存在信息交換,而交換各方的軟、硬件環(huán)境是很難保持一致的。因此,操作人員必須采用一種通用的信息交換格式(交換語(yǔ)言)。由于XML是非專(zhuān)有的并易于閱讀和編寫(xiě),因而成為交換語(yǔ)言的首選。有了XML,人們就可以利用任何理解XML的工具來(lái)處理交換信息,而不必花費(fèi)大量的時(shí)間和精力去尋找或編寫(xiě)轉(zhuǎn)換程序。
(3)使指定信息搜索成為可能。海量信息資源的組織形式和檢索信息是數(shù)字圖書(shū)館建設(shè)中必須解決的問(wèn)題。因此,成功的數(shù)字圖書(shū)館應(yīng)該是一個(gè)真正的資源中心,在這個(gè)中心里,海量數(shù)據(jù)不能無(wú)序地堆積,必須按照一定的規(guī)則有序地組織起來(lái)。只有在有序的數(shù)據(jù)結(jié)構(gòu)中,檢索機(jī)制才能高效率地運(yùn)轉(zhuǎn),而信息快速準(zhǔn)確地檢索是學(xué)校建設(shè)數(shù)字圖書(shū)館的主要目標(biāo)。使用XML尋找所需圖書(shū),可輕松按照作者書(shū)名、ISSN號(hào)或其他準(zhǔn)則的標(biāo)準(zhǔn)方式進(jìn)行分類(lèi)描述,搜索經(jīng)過(guò)篩選的網(wǎng)站,找到相關(guān)的圖書(shū)。這樣,就克服了HTML不能區(qū)分信息和元信息且不支持信息嵌套體系結(jié)構(gòu)的缺陷,使全文檢索功能大大增強(qiáng),檢索針對(duì)性更強(qiáng)。
(4)使數(shù)據(jù)更新變得更加容易。任何一個(gè)數(shù)據(jù)庫(kù)都面臨增加、修改和刪除數(shù)據(jù)的工作,但用XML形式存儲(chǔ)的數(shù)據(jù)變化要少一些,因?yàn)楫?dāng)其一部分?jǐn)?shù)據(jù)變化后,不需要重發(fā)整個(gè)結(jié)構(gòu)化數(shù)據(jù),只要將發(fā)生變化的數(shù)據(jù)從服務(wù)器發(fā)送到客戶(hù)端,整個(gè)頁(yè)面不用刷新就能顯示出來(lái)。這種更新方式可避免重建Web頁(yè),減輕服務(wù)器負(fù)擔(dān),提高網(wǎng)絡(luò)運(yùn)行效率。
總之,數(shù)字圖書(shū)館是未來(lái)圖書(shū)館的發(fā)展方向,從傳統(tǒng)的圖書(shū)館到數(shù)字圖書(shū)館是一次革命性的轉(zhuǎn)折。隨著XML及其相關(guān)技術(shù)的不斷完善,以XML為主導(dǎo)的信息技術(shù)在高校數(shù)字圖書(shū)館建設(shè)中的應(yīng)用優(yōu)勢(shì)已充分顯現(xiàn)出來(lái),必將廣泛地應(yīng)用于數(shù)字圖書(shū)館中,為數(shù)字圖書(shū)館的建設(shè)帶來(lái)勃勃的生機(jī)。
參考文獻(xiàn):
[1]賈宏.基于XML的數(shù)字圖書(shū)館Web信息資源整合[J].晉圖學(xué)刊,2006(04).
[2]鄭京華.XML在數(shù)字圖書(shū)館中的應(yīng)用[J].圖書(shū)館學(xué)刊,2004(05).