高學(xué)正,孔昭煜,李曉蕾,賈麗瓊
(1.中國地質(zhì)調(diào)查局發(fā)展研究中心,北京 100037; 2.全國地質(zhì)資料館,北京 100037)
地質(zhì)資料是地質(zhì)工作的真實記錄與成果結(jié)晶,兼具專業(yè)性與檔案性,對于現(xiàn)勢性地質(zhì)工作具有指導(dǎo)和參考意義[1-2]。地質(zhì)資料的管理與服務(wù)是開展地質(zhì)工作的重要基礎(chǔ)環(huán)節(jié),為我國能源保障與資源安全做出了重要貢獻[3]。隨著信息時代的到來,服務(wù)需求日益多元化[4],科學(xué)管理、快速提供、精準服務(wù)已成為我國地質(zhì)資料館藏機構(gòu)面臨的重要命題。元數(shù)據(jù)作為數(shù)據(jù)管理與服務(wù)的基礎(chǔ),在地質(zhì)數(shù)字化服務(wù)方面發(fā)揮著核心作用[5],也成為了地質(zhì)資料館藏機構(gòu)持續(xù)提供權(quán)威、高效服務(wù)的助推器。
數(shù)字地質(zhì)資料館是以數(shù)字資源為核心的資料館,面向數(shù)字資源管理、面向新技術(shù)環(huán)境下社會化服務(wù)需求,以現(xiàn)代信息技術(shù)改造傳統(tǒng)工作流程,匯聚全國地質(zhì)數(shù)字資源,集合了各地質(zhì)學(xué)科和各專業(yè)的地質(zhì)數(shù)據(jù)[6],能夠向社會提供公益權(quán)威、開放穩(wěn)定、持續(xù)發(fā)展的地質(zhì)信息服務(wù)的國家級地質(zhì)信息資源基礎(chǔ)設(shè)施[7]。簡而言之,數(shù)字地質(zhì)資料館是用數(shù)字技術(shù)處理、存儲、發(fā)布數(shù)字形式的地質(zhì)工作記錄與地質(zhì)工作成果的分布式信息系統(tǒng)。
數(shù)字資料館是一個不斷建設(shè)持續(xù)運行的系統(tǒng),從建設(shè)與運行的角度,其技術(shù)系統(tǒng)包括一站式門戶與關(guān)聯(lián)網(wǎng)站系統(tǒng)、應(yīng)用服務(wù)系統(tǒng)與支撐系統(tǒng)、元數(shù)據(jù)、框架數(shù)據(jù)和地質(zhì)專題數(shù)據(jù)構(gòu)成的數(shù)據(jù)庫體系、標準規(guī)范與政策、技術(shù)平臺等六大部分[8]。
地質(zhì)資料元數(shù)據(jù)與數(shù)據(jù)目錄是數(shù)字地質(zhì)資料館的核心內(nèi)容,包括館藏資料數(shù)據(jù)目錄、案卷級和文件級元數(shù)據(jù)信息、各類地質(zhì)數(shù)據(jù)的衍生產(chǎn)品元數(shù)據(jù)(數(shù)據(jù)產(chǎn)品元數(shù)據(jù)、地質(zhì)專題與應(yīng)用元數(shù)據(jù)、地質(zhì)文獻元數(shù)據(jù)、在線服務(wù)元數(shù)據(jù)、地質(zhì)圖庫元數(shù)據(jù)等)。標準規(guī)范與政策是系統(tǒng)各部分建設(shè)的準則和指導(dǎo),系統(tǒng)各構(gòu)件建設(shè)和運行,要根據(jù)建設(shè)內(nèi)容,按照相應(yīng)的標準和規(guī)范進行,是保證系統(tǒng)各部分能夠有效互聯(lián)互通的基礎(chǔ);技術(shù)平臺包括計算機網(wǎng)絡(luò)系統(tǒng)、安全保障系統(tǒng)。前者為數(shù)字資料館各個構(gòu)件的信息交換提供互連互通的基礎(chǔ),使之形成一個整體。后者用于在各個層面保障計算機網(wǎng)絡(luò)系統(tǒng)、數(shù)字信息庫系統(tǒng)、各類應(yīng)用與支撐系統(tǒng)的運行安全;信息體系由實體資料、電子文檔與數(shù)據(jù)庫構(gòu)成,是數(shù)據(jù)服務(wù)提供基礎(chǔ),同時信息體系也是其余構(gòu)件的主要工作對象;應(yīng)用服務(wù)系統(tǒng)與支撐系統(tǒng)是各類終端用戶和應(yīng)用系統(tǒng)類用戶獲得系統(tǒng)服務(wù)能力的平臺,同時也是數(shù)字地質(zhì)資料館內(nèi)部運轉(zhuǎn),開展數(shù)據(jù)組織管理和整合處理的平臺。資料數(shù)據(jù)成果包括館藏資料成果、研發(fā)的地質(zhì)數(shù)據(jù)產(chǎn)品以及其他渠道獲取的數(shù)據(jù)信息。
地質(zhì)資料的內(nèi)容與組織結(jié)構(gòu)較為復(fù)雜,具有工作周期長、涉及專業(yè)多、數(shù)據(jù)量大、格式多樣、難以重復(fù)獲取等特點。成果地質(zhì)資料以檔為基本單元,內(nèi)容十分豐富,不僅有多格式的文檔資料,還包括有附圖、附表、附件等內(nèi)容。地質(zhì)資料具有現(xiàn)代信息數(shù)據(jù)的屬性,同時具有極強的現(xiàn)勢性服務(wù)價值,因此,能夠?qū)ζ渌休d的信息內(nèi)容進行準確地描述至關(guān)重要。
為加快地質(zhì)資料元數(shù)據(jù)的編目速度,尤其是文件級地質(zhì)資料元數(shù)據(jù)的建設(shè),實現(xiàn)地質(zhì)資料的精細化管理和高質(zhì)量服務(wù),全國地質(zhì)資料館開發(fā)建設(shè)了地質(zhì)資料元數(shù)據(jù)編目系統(tǒng),并利用這套系統(tǒng)開展了館藏地質(zhì)資料元數(shù)據(jù)的采集生產(chǎn)。系統(tǒng)以自動化采集的方式完成主要是元數(shù)據(jù)項的快速建立,并在人工數(shù)據(jù)采集過程中使用了流程化模型實現(xiàn)數(shù)據(jù)質(zhì)量控制,數(shù)據(jù)需要經(jīng)過自檢、互檢和抽檢三級質(zhì)量檢查方可入庫。元數(shù)據(jù)與每件存檔數(shù)據(jù)都進行了數(shù)據(jù)關(guān)聯(lián),并全部存儲于數(shù)據(jù)庫中,使百萬件數(shù)據(jù)的檢索與獲取變得高效便捷,安全可靠。
圖1 地質(zhì)資料元數(shù)據(jù)編目系統(tǒng)功能結(jié)構(gòu)
Fig.1 Functional structure of geological data metadata cataloging system
系統(tǒng)的功能包括用戶管理、數(shù)據(jù)導(dǎo)入、信息提取、任務(wù)分配、案卷級和文件級編目、質(zhì)量檢查、元數(shù)據(jù)查詢、數(shù)據(jù)統(tǒng)計以及成果導(dǎo)出,數(shù)據(jù)生產(chǎn)過程由系統(tǒng)自動完成和人機交互來共同完成,主要的流程包括提取案卷級元數(shù)據(jù)內(nèi)容及文件級題名清單、自動生成默認項、人工編目、質(zhì)量檢查、數(shù)據(jù)入庫和數(shù)據(jù)庫備份等6個步驟。
地質(zhì)服務(wù),目錄先行。近年來,隨著數(shù)字地質(zhì)資料館的不斷建設(shè)與發(fā)展,元數(shù)據(jù)編目工作也取得了顯著的成就。經(jīng)過多年的積累與實踐,以館藏數(shù)據(jù)目錄為基礎(chǔ),以地質(zhì)資料元數(shù)據(jù)編目系統(tǒng)為工作手段,全國地質(zhì)資料館取得了大量有價值的元數(shù)據(jù)成果,從而進一步明確了成果地質(zhì)資料中“檔”和“件”的關(guān)系,同時也建立了“檔”和“庫”的關(guān)聯(lián),促進館藏機構(gòu)全面掌握館內(nèi)數(shù)據(jù)內(nèi)容,實現(xiàn)了數(shù)據(jù)的精細化、科學(xué)化管理。另一方面,元數(shù)據(jù)已經(jīng)成為提高社會化服務(wù)水平的重要抓手。不同于實體數(shù)據(jù),目錄的處理相對簡單,及時向用戶公開進館資料的基本信息,可以極大地滿足地質(zhì)資料的服務(wù)利用要求,為用戶了解、跟蹤和使用地質(zhì)資料提供了便利。截至目前,全國地質(zhì)資料館地質(zhì)資料元數(shù)據(jù)庫包含文件級元數(shù)據(jù)5 203 080條,其中矢量數(shù)據(jù)共計2 454 669條,圖文數(shù)字化數(shù)據(jù)共計27 848 411條,見表1。
表1 館藏地質(zhì)資料元數(shù)據(jù)分類別統(tǒng)計
數(shù)據(jù)目錄和元數(shù)據(jù)是用戶開展資源檢索的基礎(chǔ),同時也是地質(zhì)資料館藏機構(gòu)滿足地質(zhì)資料多元化需求的必要條件。隨著網(wǎng)絡(luò)服務(wù)的日益發(fā)達和地質(zhì)資料數(shù)字化的完成,全國地質(zhì)資料館基于館藏目錄和元數(shù)據(jù)成果研發(fā)了多種地質(zhì)資料數(shù)據(jù)產(chǎn)品,并通過數(shù)字地質(zhì)資料館進行了發(fā)布,公眾可以方便的進行查詢,取得了很好的實踐效果。
1) 地質(zhì)資料網(wǎng)絡(luò)服務(wù)產(chǎn)品建設(shè)。作為由“紙”向“電”轉(zhuǎn)換的代表性內(nèi)容,地質(zhì)資料網(wǎng)絡(luò)服務(wù)產(chǎn)品受到了廣大用戶的歡迎,已經(jīng)成為數(shù)字地質(zhì)資料館開展網(wǎng)絡(luò)服務(wù)的重要組成內(nèi)容,連同元數(shù)據(jù)成果一同發(fā)布,使用戶實現(xiàn)了對地質(zhì)資料的一站式查詢,體現(xiàn)了網(wǎng)絡(luò)服務(wù)的跨時空、交互式、不間斷、范圍廣的特點。通過對用戶點擊行為和關(guān)注度的監(jiān)督與統(tǒng)計,館藏機構(gòu)可以更好的追蹤用戶的使用習(xí)慣,更好地了解用戶需求,并根據(jù)需求持續(xù)改進產(chǎn)品內(nèi)容,更好的滿足用戶,形成了地質(zhì)資料服務(wù)的良性循環(huán)。
2) 地質(zhì)資料元數(shù)據(jù)互聯(lián)互查平臺實踐。地質(zhì)資料元數(shù)據(jù)互聯(lián)互查平臺是在開展元數(shù)據(jù)互聯(lián)互查技術(shù)、國際標準、數(shù)據(jù)接口與數(shù)據(jù)語義[9]技術(shù)的研究基礎(chǔ)上逐步建設(shè)完成的?;诖?,全國地質(zhì)資料館實現(xiàn)了與我國測繪部門、地理信息部門,以及相關(guān)國際地質(zhì)調(diào)查機構(gòu)的元數(shù)據(jù)互聯(lián)查詢。平臺很好地體現(xiàn)了跨越空間的語義檢索,實現(xiàn)了不同網(wǎng)絡(luò)環(huán)境、不同職責部門開展多層次、多類別用戶的在線元數(shù)據(jù)服務(wù),極大地促進了地質(zhì)資料信息資源的共享,擴大了地質(zhì)資料的影響范圍,起到良好的宣傳和傳播效果。通過元數(shù)據(jù)互聯(lián)互查技術(shù)的實踐,對外實現(xiàn)了規(guī)范化化元數(shù)據(jù)服務(wù)的接入,向互查方提供了地質(zhì)資料元數(shù)據(jù)的查詢檢索接口。對內(nèi)依據(jù)互查要求完善了元數(shù)據(jù)編目系統(tǒng)功能,補充了數(shù)據(jù)采集內(nèi)容,建立了數(shù)據(jù)的簡單統(tǒng)計與導(dǎo)出機制。在內(nèi)、外網(wǎng)絡(luò)環(huán)境下提供的元數(shù)據(jù)互聯(lián)互查服務(wù),有效地支撐了地質(zhì)資料數(shù)據(jù)管理與服務(wù)工作的開展。
1) 元數(shù)據(jù)資源優(yōu)勢沒有得到很好的發(fā)揮。我國地質(zhì)資料館藏機構(gòu)建設(shè)程度不一,尤其是信息化水平和能力有較大差別,部分機構(gòu)的信息系統(tǒng)和網(wǎng)絡(luò)支撐受資金和人力因素限制建設(shè)效果不佳。大量地質(zhì)信息數(shù)據(jù)內(nèi)容沒有整理或沒有條件進行網(wǎng)絡(luò)發(fā)布,用戶獲取資料還只能依賴到館申請,沒有體現(xiàn)出數(shù)字資源優(yōu)勢。
2) 元數(shù)據(jù)采編的標準不一。當前,地質(zhì)資料館藏機構(gòu)的目錄和元數(shù)據(jù)編目標準沒有進行統(tǒng)一,元數(shù)據(jù)編目尤其是文件級元數(shù)據(jù)編目細粒度程度也存在不一致的情況,元數(shù)據(jù)字段內(nèi)容和編目細則沒有進行統(tǒng)一規(guī)范。各級館藏機構(gòu)所使用的編目系統(tǒng)以及系統(tǒng)的接口沒有進行統(tǒng)一,甚至部分館藏機構(gòu)并沒有開展文件級元數(shù)據(jù)的編目工作,對后期開展元數(shù)據(jù)開放與共享工作造成困難。
3) 館藏機構(gòu)間缺乏數(shù)據(jù)合作與共享。地質(zhì)資料數(shù)字資源作為一種信息資源,利用信息技術(shù)實現(xiàn)其所蘊含的巨大價值至關(guān)重要。但截至目前,地質(zhì)資料館藏機構(gòu)間信息資源集成匯聚程度不夠、資源開放共享程度不高、合作創(chuàng)新能力不足。這些問題的存在,造成了資金資源浪費,重復(fù)工作現(xiàn)象的存在,拖慢元數(shù)據(jù)的編目速度與水平,不利于地質(zhì)資料的管理和服務(wù)工作的開展。
4) 元數(shù)據(jù)采集與發(fā)布內(nèi)容不全面。大多數(shù)地質(zhì)資料館藏機構(gòu)發(fā)布內(nèi)容僅僅為館藏資料目錄,缺乏元數(shù)據(jù)內(nèi)部生產(chǎn)和管理機制,對于所研發(fā)的地質(zhì)資料產(chǎn)品、災(zāi)害應(yīng)急服務(wù)、公開版地質(zhì)圖產(chǎn)品沒有開展元數(shù)據(jù)的采集與發(fā)布,用戶若需要相關(guān)資料只能到館獲取,影響網(wǎng)絡(luò)數(shù)據(jù)服務(wù)利用的開展。
在信息技術(shù)高速發(fā)展的當今,地質(zhì)資料信息資源的管理、組織、發(fā)布與服務(wù)面臨巨大的機遇與挑戰(zhàn)。利用信息化技術(shù),建立地質(zhì)信息數(shù)字化管理與服務(wù)平臺,將地質(zhì)元數(shù)據(jù)成果最大范圍的進行社會服務(wù),讓“數(shù)據(jù)多跑腿,群眾少跑路”成為地質(zhì)資料館藏機構(gòu)發(fā)展的方向和目標。
1) 統(tǒng)一元數(shù)據(jù)采編標準。無規(guī)矩不成方圓,元數(shù)據(jù)的規(guī)范化編目是開展元數(shù)據(jù)管理和進行元數(shù)據(jù)服務(wù)的基礎(chǔ),也可以為地質(zhì)資料數(shù)字信息的管理提供基礎(chǔ)。通過參考圖書館界與檔案界的目錄和元數(shù)據(jù)標準,結(jié)合地質(zhì)資料的實際工作特點,確立符合地質(zhì)資料工作規(guī)律與特點的各級館藏機構(gòu)可以統(tǒng)一執(zhí)行的元數(shù)據(jù)編目標準。通過利用數(shù)字資源唯一標識符,為全國每一檔、每一件地質(zhì)資料進行唯一身份標識,解決館藏機構(gòu)間檔號不一致的問題,同時提供網(wǎng)絡(luò)環(huán)境下可解析的、持久的、可語義互操作的標識機制,為開展分布式環(huán)境下地質(zhì)資料數(shù)字資源的集成、管理和服務(wù)提供有力支持。
2) 建立多元的元數(shù)據(jù)編目機制。在在線服務(wù)、數(shù)據(jù)產(chǎn)品大量涌現(xiàn)的情況下,地質(zhì)資料的目錄和元數(shù)據(jù)并不僅局限于館藏資料一種,支持館藏機構(gòu)的各類數(shù)據(jù)庫和相關(guān)數(shù)據(jù)產(chǎn)品的元數(shù)據(jù)和傳統(tǒng)館藏元數(shù)據(jù)也不完全一致,做好館藏資料元數(shù)據(jù)的編目的同時,需建立更為多元的元數(shù)據(jù)采編機制,開展更大范圍的地質(zhì)元數(shù)據(jù)編目工作,從而豐富元數(shù)據(jù)內(nèi)容提供用戶進行快速索取。
3) 開展元數(shù)據(jù)合作創(chuàng)新。通過館藏目錄的對接,推進館藏機構(gòu)間元數(shù)據(jù)的共享與交換,建立數(shù)據(jù)共享交換系統(tǒng),形成數(shù)據(jù)和目錄的共享工作機制。加強各機構(gòu)彼此聯(lián)系與創(chuàng)新合作,分享的元數(shù)建設(shè)目成果,減少重復(fù)投資與建設(shè)。以點帶面,促進信息資源編目的同時,提高館藏機構(gòu)的信息化能力和技術(shù)水平。通過聯(lián)合編目工作的開展提高我國地質(zhì)資料元數(shù)據(jù)的編目速度,使元數(shù)據(jù)管理與服務(wù)達到快速聚集、組織有序、分工明確、精準服務(wù)的目標,最大化的發(fā)揮地質(zhì)資料的巨大價值。
4) 開展多維多層次的元數(shù)據(jù)服務(wù)。對國內(nèi)外信息系統(tǒng)建設(shè)進行調(diào)研,借鑒其先進經(jīng)驗與做法,探索開展多維度、多樣化、多展現(xiàn)形式的目錄服務(wù)模式。提高實體數(shù)據(jù)與目錄服務(wù)信息的集成整合程度,開展關(guān)聯(lián)數(shù)據(jù)、數(shù)據(jù)挖掘、語義檢索、知識發(fā)現(xiàn)、人工智能等數(shù)據(jù)發(fā)現(xiàn)應(yīng)用的技術(shù)研究工作[9-10],為用戶提供更為豐富和準確的信息。針對特定用戶,在了解其需求的基礎(chǔ)上,開展元數(shù)據(jù)定制化服務(wù)并定期更新,多措并舉提高館藏機構(gòu)目錄和元數(shù)據(jù)資源的利用效率。