韓春花,耿姍姍,楊錦坤
(國家海洋信息中心 天津 300171)
海洋綜合調(diào)查數(shù)據(jù)集成管理方法研究*
——以廣東省近海海洋綜合調(diào)查與評價數(shù)據(jù)集集成為例
韓春花,耿姍姍,楊錦坤
(國家海洋信息中心 天津 300171)
文章探討了海洋綜合調(diào)查數(shù)據(jù)集成管理的方式方法,提出不同學科、不同類別的海洋綜合調(diào)查數(shù)據(jù)集成管理的關(guān)鍵在于制定統(tǒng)一的數(shù)據(jù)技術(shù)標準、規(guī)定統(tǒng)一的標準數(shù)據(jù)集制作流程、制定嚴格的質(zhì)量管理措施和采取恰當?shù)馁|(zhì)量控制方法,采用核心元數(shù)據(jù)方式描述數(shù)據(jù),最終形成元數(shù)據(jù)導(dǎo)航下的具有統(tǒng)一技術(shù)標準與格式,并經(jīng)過嚴格質(zhì)量控制的標準化數(shù)據(jù)集。采用這種思路與方法,筆者對廣東省近海海洋綜合調(diào)查與評價獲取的全部原始數(shù)據(jù)進行了數(shù)據(jù)集成,并通過制作光盤數(shù)據(jù)產(chǎn)品,可使用戶方便快捷地查詢、瀏覽與使用集成成果。研究成果已被廣東省908專項辦公室采用,為廣東省海洋科學研究、海洋綜合管理提供本底數(shù)據(jù)信息與服務(wù)。
海洋綜合調(diào)查;數(shù)據(jù)集成;廣東省;數(shù)據(jù)管理
近年來,我國在國家層面及各沿海地區(qū)組織開展了多個海洋綜合調(diào)查與評價項目,獲取了大量的調(diào)查與評價原始數(shù)據(jù)。負責具體實施這些項目調(diào)查與評價的單位有多家,各自使用的調(diào)查設(shè)備不盡相同,所執(zhí)行的調(diào)查標準也不完全統(tǒng)一,因而獲取調(diào)查數(shù)據(jù)的類型、格式與涵蓋的學科更是五花八門、多種多樣的,對其進行整編、處理與集成,對數(shù)據(jù)的后續(xù)應(yīng)用有著重要的意義。尤其對于管理者來說,在進行綜合管理與決策時,需要的往往是多源、多種類、多學科數(shù)據(jù)的集成與顯示服務(wù)。因此,對海洋綜合調(diào)查多源數(shù)據(jù)的集成與管理應(yīng)用方法研究作用日益凸顯。筆者通過對廣東省近海海洋綜合調(diào)查與評價專項獲取的各類原始數(shù)據(jù)進行集成,對海洋綜合調(diào)查多源數(shù)據(jù)集成管理方法與過程做了有益的嘗試與探討。
海洋綜合調(diào)查獲取的數(shù)據(jù)類型多種多樣,涵蓋的學科范圍也相當廣泛。以廣東省近海海洋綜合調(diào)查與評價專項獲取的原始數(shù)據(jù)為例,數(shù)據(jù)類型既包括二維數(shù)據(jù)表、儀器自記錄的原始數(shù)據(jù)集,又包括文字班報、圖形圖像、視頻影音等;涵蓋的學科包括海洋水文、海洋氣象、海洋生物、海洋化學、海洋底質(zhì)、水深地形、海域使用、海洋經(jīng)濟、海洋統(tǒng)計、海洋綜合管理等多個學科。
結(jié)合廣東省近海海洋綜合調(diào)查與評價實際,將廣東省近海海洋綜合調(diào)查與評價數(shù)據(jù)集集成的具體內(nèi)容概括為六大類,在每大類數(shù)據(jù)集下又包含小類數(shù)據(jù)集。
(1)近岸水體環(huán)境綜合調(diào)查數(shù)據(jù)集,包括:水文、氣象、生物、化學、底質(zhì)等內(nèi)容;
(2)濱海濕地及其特色生態(tài)系統(tǒng)和珍稀瀕危海洋動物調(diào)查數(shù)據(jù)集,包括:珊瑚礁生態(tài)系統(tǒng)、紅樹林生態(tài)系統(tǒng)、海草床生態(tài)系統(tǒng)和珍稀瀕危海洋動物調(diào)查數(shù)據(jù);
(3)海域使用現(xiàn)狀調(diào)查數(shù)據(jù)集,包括:海籍調(diào)查、海域使用基本情況、海域使用金征繳情況和海洋功能區(qū)劃數(shù)據(jù);
(4)海洋災(zāi)害調(diào)查數(shù)據(jù)集,包括:海岸侵蝕災(zāi)害調(diào)查和赤潮災(zāi)害調(diào)查數(shù)據(jù);
(5)沿海地區(qū)社會經(jīng)濟調(diào)查數(shù)據(jù)集,包括:海洋經(jīng)濟、人口與城鎮(zhèn)、社會經(jīng)濟調(diào)查數(shù)據(jù);
(6)近海海洋綜合評價數(shù)據(jù)集,包括:環(huán)境容量、環(huán)境質(zhì)量、灘涂圍墾變遷、咸潮入侵規(guī)律、海洋污染災(zāi)害、海岸線利用現(xiàn)狀、海岸線開發(fā)利用功能分區(qū)、漁業(yè)資源現(xiàn)狀、潛在增養(yǎng)殖區(qū)、港口資源、海砂礦產(chǎn)資源、濱海潛在旅游區(qū)數(shù)據(jù)。
2.1 總體思路
對于調(diào)查所獲取的原始數(shù)據(jù),必須經(jīng)過專業(yè)的甄別、加工整理后方能方便研究者和管理者所使用。對整個數(shù)據(jù)集成的總體思路如下。
(1)按照不同資料來源進行資料收集,并在資料收集過程中根據(jù)實施方案、任務(wù)合同書等依據(jù)性文件對所收集到的資料進行反復(fù)核查、反饋、再補充收集;
(2)給收集到的資料編制統(tǒng)一的編號,制作資料清單目錄、進行立卷、歸檔、備份等,保證原始資料的完整與安全;
(3)對整理后的原始資料進行預(yù)處理,包括合并或重新劃分數(shù)據(jù)集、代碼添加或轉(zhuǎn)換、經(jīng)緯度和時間記錄形式檢查與修改、調(diào)查項名稱和計算單位檢查與修改等;
(4)對預(yù)處理后的數(shù)據(jù)集進行數(shù)據(jù)分析,對于目前已經(jīng)具備比較成熟的標準數(shù)據(jù)記錄格式的數(shù)據(jù),按照標準數(shù)據(jù)格式進行標準化與質(zhì)量控制規(guī)范進行處理,形成標準化數(shù)據(jù)集,對于暫無標準化數(shù)據(jù)記錄格式的數(shù)據(jù),按照相關(guān)的專業(yè)規(guī)范進行格式編制、數(shù)據(jù)整編、質(zhì)量控制,最終形成標準化數(shù)據(jù)集、數(shù)據(jù)庫文件及相關(guān)說明。
2.2 主要步驟
2.2.1 制定統(tǒng)一的數(shù)據(jù)技術(shù)標準
制定統(tǒng)一的數(shù)據(jù)標準是數(shù)據(jù)集成、信息共享、與業(yè)務(wù)協(xié)同的前提[1]。有了統(tǒng)一的技術(shù)標準作為依據(jù),數(shù)據(jù)集成的過程就可以遵循一致的數(shù)據(jù)標準,不同學科、類別的數(shù)據(jù)就可以做到數(shù)據(jù)含義和格式的一致性。針對不同數(shù)據(jù)的不同特點,編制相關(guān)技術(shù)標準,包括術(shù)語標準、數(shù)據(jù)元標準、信息分類編碼標準和數(shù)據(jù)交換標準等[2]。在廣東省近海海洋綜合調(diào)查與評價數(shù)據(jù)集中編制了標準數(shù)據(jù)集記錄格式、基礎(chǔ)數(shù)據(jù)庫標準與綜合數(shù)據(jù)庫標準、公共代碼表 (調(diào)查單位、調(diào)查船、調(diào)查項目、密級代碼)、標準數(shù)據(jù)集命名方法、元數(shù)據(jù)標準等,以便于使用者在使用數(shù)據(jù)時只用一套標準便可遍歷整個集成數(shù)據(jù)成果。
2.2.2 制定統(tǒng)一的數(shù)據(jù)制作流程
為實現(xiàn)集成數(shù)據(jù)的科學、高效管理,保證集成后的數(shù)據(jù)信息一致性、兼容性、完整性和準確性,數(shù)據(jù)的集成過程需遵守一定的原則和規(guī)則[3]。結(jié)合實際,廣東省近海海洋綜合調(diào)查與評價數(shù)據(jù)集成的流程如下。
(1)數(shù)據(jù)預(yù)處理。根據(jù)匯交的航次報告、實施計劃、研究報告等素材,核對資料的真實性、完整性和可靠性。核實數(shù)據(jù)集中調(diào)查單位、調(diào)查船、斷面號等內(nèi)容是否齊全、檢查格式是否符合匯交格式要求。對有異議或者不符合要求的數(shù)據(jù),需與數(shù)據(jù)源單位相關(guān)人員溝通,解除疑惑或令其整改后重新匯交。
(2)格式轉(zhuǎn)換。按照有關(guān)數(shù)據(jù)標準記錄格式進行格式轉(zhuǎn)換,在格式轉(zhuǎn)換過程中將 “調(diào)查單位”“調(diào)查海區(qū)”“調(diào)查船”“調(diào)查項目”等按照公共代碼表轉(zhuǎn)換為代碼。
(3)質(zhì)量控制。選擇適合的質(zhì)量控制參數(shù),編制相關(guān)質(zhì)量控制軟件,對轉(zhuǎn)換后的標準格式數(shù)據(jù)進行質(zhì)量控制或進行人工、人-機交互的質(zhì)量控制。發(fā)現(xiàn)錯誤數(shù)據(jù)進行修正,對可疑數(shù)據(jù)加注質(zhì)量符,生成質(zhì)控后標準數(shù)據(jù)集。
(4)標準數(shù)據(jù)集命名。按照數(shù)據(jù)集標準文件命名方法對質(zhì)量后數(shù)據(jù)進行文件的標準重命名。
(5)統(tǒng)計數(shù)據(jù)集時空范圍,進行數(shù)據(jù)集站次數(shù)、數(shù)據(jù)量統(tǒng)計,編寫數(shù)據(jù)集元數(shù)據(jù),完成元數(shù)據(jù)文檔的編寫。
(6)編寫資料處理記錄與資料處理報告,由同專業(yè)的人員進行交叉審核,最后經(jīng)專業(yè)審核通過后方可完成數(shù)據(jù)集集成制作。
2.2.3 制定合理的質(zhì)量管理體系
數(shù)據(jù)的質(zhì)量是數(shù)據(jù)的生命,是保證數(shù)據(jù)是否可用的重要措施。制定合理的數(shù)據(jù)管理措施,通過控制數(shù)據(jù)集成過程控制數(shù)據(jù)集成成果是一個有效的措施。質(zhì)量管理體系的建立包含建立體系文件、執(zhí)行現(xiàn)行有效的標準、確保量值的溯源性、提高人員素質(zhì)及提供符合要求的環(huán)境和設(shè)施等內(nèi)容[4]。
在廣東省近海海洋綜合調(diào)查與評價數(shù)據(jù)集成過程中,通過執(zhí)行國家海洋信息現(xiàn)有的質(zhì)量管理體系認證標準,填寫質(zhì)量認證的相關(guān)表格。包括集成過程中的實施方案和評審表、會議記錄表、數(shù)據(jù)資料收集記錄表,數(shù)據(jù)資料交接記錄表,資料質(zhì)量控制表,資料處理記錄表、海洋資料處理報告等,各項記錄表都嚴格經(jīng)過審核,通過控制數(shù)據(jù)集成的過程控制數(shù)據(jù)集成的成果。
2.2.4 數(shù)據(jù)處理質(zhì)量控制
各類數(shù)據(jù)的質(zhì)量控制方案是根據(jù)具體數(shù)據(jù)的屬性與其變化特征及各要素之間的制約關(guān)系而制定,經(jīng)過計算機軟件反復(fù)試驗,并與人工審查結(jié)果相比較[5]。在廣東省908綜合調(diào)查與評價數(shù)據(jù)集集成的數(shù)據(jù)質(zhì)量控制中,對海洋水文、海洋氣象、海洋生物、海洋化學、海洋底質(zhì)等海洋環(huán)境基礎(chǔ)數(shù)據(jù)進行了各數(shù)據(jù)要素的質(zhì)量控制[6-10]。采用的主要方法包括:合理性檢驗、范圍檢驗、尖峰檢驗、代碼檢驗、梯度檢驗、良好率百分比檢驗、圖形檢驗等方法,編制了質(zhì)量控制程序軟件,進行數(shù)據(jù)的自動質(zhì)量控制,或采用人工審核、人-機交互等多種方式對原始數(shù)據(jù)進行質(zhì)量控制,質(zhì)控后對質(zhì)控的要素標注質(zhì)量控制符,給后續(xù)用戶利用該數(shù)據(jù)時提供參考。
2.2.5 制定元數(shù)據(jù)標準,提取元數(shù)據(jù)
數(shù)據(jù)集集成的最終目的是供不同用戶所使用,在數(shù)據(jù)使用過程中,元數(shù)據(jù)發(fā)揮了重要的作用。元數(shù)據(jù)最本質(zhì)、最抽象的定義為 “說明數(shù)據(jù)的數(shù)據(jù)”,在不同的領(lǐng)域有廣泛的應(yīng)用[11]。元數(shù)據(jù)標準可分為核心元數(shù)據(jù)標準和特定功能的元數(shù)據(jù)標準[12]。在廣東省近海海洋綜合調(diào)查與評價數(shù)據(jù)集成過程中采用核心元數(shù)據(jù)標準。用戶通過瀏覽核心元數(shù)據(jù),可基本了解數(shù)據(jù)的來源、時空分布、要素、數(shù)據(jù)量及數(shù)據(jù)處理、聯(lián)系方式等基本信息。用戶使用集成數(shù)據(jù)集時,首先瀏覽元數(shù)據(jù)信息,根據(jù)元數(shù)據(jù)信息,找出自己最感興趣的數(shù)據(jù),進而進一步獲得成果數(shù)據(jù)。
根據(jù)不同級別的數(shù)據(jù)集編制相應(yīng)的元數(shù)據(jù)。本例中提取的元數(shù)據(jù)核心內(nèi)容包括:
(1)實體集信息,具體內(nèi)容為元數(shù)據(jù)名稱、元數(shù)據(jù)創(chuàng)建日期、負責單位、電話、聯(lián)系人。
(2)標志信息,具體內(nèi)容為數(shù)據(jù)集名稱、數(shù)據(jù)集創(chuàng)建日期、表示方式、數(shù)據(jù)集摘要、關(guān)鍵詞、數(shù)據(jù)集聯(lián)系單位、聯(lián)系人、聯(lián)系方式、數(shù)據(jù)集維護和更新頻率、數(shù)據(jù)集格式及說明、數(shù)據(jù)集安全級別、語種、字符集、時間采樣間隔、數(shù)據(jù)集類別名稱、時空范圍、站次數(shù)、數(shù)據(jù)量。
(3)內(nèi)容信息,具體內(nèi)容為資源域、要素名稱。
(4)分發(fā)信息,具體內(nèi)容為分發(fā)單位、聯(lián)系人、聯(lián)系方式、分發(fā)格式。
(5)數(shù)據(jù)質(zhì)量信息,具體內(nèi)容為數(shù)據(jù)志說明、數(shù)據(jù)處理人、處理人聯(lián)系方式、數(shù)據(jù)處理步驟、數(shù)據(jù)源負責人、數(shù)據(jù)源聯(lián)系信息。
(6)參考系統(tǒng)信息,具體內(nèi)容為水深參照系統(tǒng)、投影參數(shù)等[13]。
2.3 制作光盤數(shù)據(jù)產(chǎn)品
為方便集成后的成果數(shù)據(jù)使用,將所有集成后的成果數(shù)據(jù)集成到數(shù)據(jù)光盤中,編制原始數(shù)據(jù)清單、標準化數(shù)據(jù)集清單,實現(xiàn)清單與數(shù)據(jù)的聯(lián)動,實現(xiàn)元數(shù)據(jù)與原始數(shù)據(jù)的聯(lián)動,即通過數(shù)據(jù)清單和元數(shù)據(jù)可以直接瀏覽原始數(shù)據(jù),實現(xiàn)元數(shù)據(jù)導(dǎo)航下的數(shù)據(jù)查詢檢索,方便用戶的使用。
通過以上原理和方法對調(diào)查數(shù)據(jù)集進行集成,集成后的數(shù)據(jù)集不再僅僅是單一的數(shù)據(jù)文件,而是在統(tǒng)一技術(shù)標準下、具有統(tǒng)一標準格式、統(tǒng)一標準命名、并配有數(shù)據(jù)源說明、處理過程說明及經(jīng)過質(zhì)量控制后的標準數(shù)據(jù)集。
采用以上原理和方法,筆者組織完成了廣東省近海海洋綜合調(diào)查與評價數(shù)據(jù)集的集成,內(nèi)容包括近海水體綜合環(huán)境調(diào)查數(shù)據(jù)集、濱海濕地及其特色生態(tài)系統(tǒng)和珍稀瀕危海洋動物調(diào)查數(shù)據(jù)集、海域使用現(xiàn)狀調(diào)查數(shù)據(jù)集、海洋災(zāi)害調(diào)查數(shù)據(jù)集、沿海地區(qū)社會經(jīng)濟基本狀況調(diào)查數(shù)據(jù)集、近海海洋綜合評價數(shù)據(jù)集六大類數(shù)據(jù)的集成,集成后的數(shù)據(jù)集包括6大類、215個小類、567個數(shù)據(jù)集,總計184 594站次,數(shù)據(jù)總量為369.09 MB。并形成相應(yīng)的元數(shù)據(jù)、資料格式說明、資料處理報告與質(zhì)量評價報告、站位矢量數(shù)據(jù)、站位分布圖等。制作了廣東省近海海洋綜合調(diào)查與評價數(shù)據(jù)集光盤查詢檢索系統(tǒng),為廣東省海洋科學研究、海洋綜合管理提供本底數(shù)據(jù)。
[1] 吳志剛,林寧.信息共享、業(yè)務(wù)協(xié)同的前提:數(shù)據(jù)標準化[J].信息技術(shù)與標準化,2003(1-2).
[2] 劉發(fā)軍,何方,趙明麗.四大基礎(chǔ)數(shù)據(jù)庫數(shù)據(jù)標準化建設(shè)研究[J].信息技術(shù),2010(9):80-82.
[3] 施仲添.城市規(guī)劃多源數(shù)據(jù)組織管理的總結(jié)與思考[J].城市勘測,2010(6):13-14.
[4] 康壽嶺.海洋環(huán)境監(jiān)測數(shù)據(jù)質(zhì)量管理[J].氣象水文海洋儀器,2003(3):1-6.
[5] 康壽嶺.海洋監(jiān)測數(shù)據(jù)集成系統(tǒng)概論[J].氣象水文海洋儀器,2004(3):1-9.
[6] JI Fengying,WANG Fan.A calibration method of Argo floats based on multiple regression analysis [J].Chinese Journal of Oceanology and Limnolog, 2006,24(2):118-124.
[7] 匡曉迪,郭心順,范洪濤.CTD資料預(yù)處理規(guī)范化的探討[J].海洋技術(shù),2009,28(2):33-36.
[8] 劉小寧,任芝花,地面氣象資料質(zhì)量控制方法研究概述[J].氣象科技,2005,33(3):199-203.
[9] 王伯民,基本氣象資料質(zhì)量控制綜合判別法的研究[J].應(yīng)用氣象學報,2004,15(Suppl):50-59.
[10]許自舟,宋德瑞,趙輝,等.海洋環(huán)境監(jiān)測數(shù)據(jù)質(zhì)量計算機控制方法研究[J].海洋環(huán)境科學,2009,28 (3):320-323.
[11]趙文濤,郭曉利.元數(shù)據(jù)技術(shù)研究[J].艦船科學技術(shù),2011,33(Suppl):88-92.
[12]樊雋軒,遲昭利,陳峰,等.元數(shù)據(jù)標準及其在古生物數(shù)據(jù)庫中的應(yīng)用[J].地層學雜志,2009,33(4): 391-397.
[13]陳繼香,石綏祥,夏登文,等.HY/T 136-2010.中華人民共和國海洋行業(yè)標準:海洋信息元數(shù)據(jù)[S].北京:中國標準出版社,2010.
廣東省近海海洋綜合調(diào)查與評價數(shù)據(jù)集集成(GD908-JC-01).