于婷 ,劉玉龍 ,楊錦坤 ,紀風(fēng)穎 ,鄧增安 ,3
(1.國家海洋信息中心,天津 300171;2.中國海洋大學(xué) 海洋環(huán)境學(xué)院,山東 青島 266100;3.國家海洋局數(shù)字海洋技術(shù)研究重點實驗室,天津 300171)
海洋世紀的到來極大地推動了海洋觀測系統(tǒng)的發(fā)展,也促進了海洋觀測儀器的技術(shù)革新以及海洋觀測數(shù)據(jù)種類和數(shù)據(jù)量的快速增長。海洋觀測數(shù)據(jù)的獲取更新、整合處理、管理應(yīng)用和共享服務(wù)等工作已經(jīng)成為社會各界共同關(guān)注的議題。目前,面對來源眾多、格式不一、數(shù)據(jù)量越來越大、時效性越來越高的多源觀測數(shù)據(jù),對其實行準確有效的數(shù)據(jù)質(zhì)量控制和檢驗評估是海洋工作者面對的重大挑戰(zhàn)之一。多源海洋觀測數(shù)據(jù)的融合和同化將成為準確描述和預(yù)測近岸和開闊大洋的物理、生物、化學(xué)狀態(tài)的關(guān)鍵技術(shù),進而服務(wù)于科研和社會多種應(yīng)用。而這一切的前提是對數(shù)據(jù)的質(zhì)量有清晰明確的認識,即要求對各種海洋觀測系統(tǒng)和平臺所獲取的數(shù)據(jù)有簡便、可靠的質(zhì)量描述。換而言之,海洋環(huán)境觀測資料的可用性檢驗評估指標一直是一個隱性存在的問題。
海洋觀測數(shù)據(jù)質(zhì)量檢驗評估,是對數(shù)據(jù)真實性和可靠性等特性的科學(xué)、客觀的評價。數(shù)據(jù)檢驗評估指標的高低,直接影響數(shù)據(jù)分析的科學(xué)性和決策的正確性。對海洋環(huán)境數(shù)據(jù)質(zhì)量的檢驗評估,應(yīng)建立在充分利用不同時間、不同范圍和不同要素的各種數(shù)據(jù),使檢驗評估指標能客觀和準確地反映海洋環(huán)境資料的實際情況。本文介紹了一套基于多年數(shù)據(jù)處理和管理實踐經(jīng)驗積累而研發(fā)的海洋環(huán)境數(shù)據(jù)質(zhì)量評估指標,可以為多源海洋資料的質(zhì)量提供參考依據(jù),為海上安全、環(huán)境保護、應(yīng)對氣候變化和海洋科學(xué)研究等提供重要的海洋環(huán)境資料信息支撐。
數(shù)據(jù)的質(zhì)量控制是指采用一定方法、模型和參數(shù),判斷資料質(zhì)量可靠性與準確性,并進行質(zhì)量標識的處理過程。數(shù)據(jù)質(zhì)量控制是數(shù)據(jù)質(zhì)量評估的基礎(chǔ)。對海洋觀測數(shù)據(jù)進行適當(dāng)?shù)奶幚砗唾|(zhì)量控制,能夠妥善解決資料中可能存在的問題,剔除資料中的錯誤,提高資料的可靠性與準確性。目前海洋數(shù)據(jù)質(zhì)量控制中選用的檢驗方法主要包括:位置檢驗、氣候?qū)W范圍檢驗、合理性檢驗(季節(jié)性、局地性)、時間連續(xù)性、異常天氣限制、雙傳感器檢驗、內(nèi)部一致性檢驗、可視化圖形繪制檢驗等(任芝花等,2007;王芳等,2009;楊萍等,2011;中國氣象局,2005)。在要素質(zhì)控方法的基礎(chǔ)上根據(jù)資料觀測時間和空間的差異以及要素特性,采用不同的質(zhì)控方法,自動調(diào)整質(zhì)控參數(shù)。
數(shù)據(jù)的質(zhì)量評估是指對海洋觀測、調(diào)查匯總和整理完畢后的數(shù)據(jù)進行科學(xué)的、實事求是的分析和評價。它不是一個僅靠簡單的程序就能解決的問題,而是一個多維的概念,需要多方面衡量。質(zhì)量評估檢驗的內(nèi)容詳見表1。
海洋觀測數(shù)據(jù)的多源性決定了對數(shù)據(jù)質(zhì)量的檢驗評估不能一概而論,實時海洋觀測數(shù)據(jù)和延時數(shù)據(jù)或數(shù)據(jù)集就需要區(qū)別對待。
海洋實時觀測數(shù)據(jù)的特點是時效性高,通常是在數(shù)據(jù)由儀器測量獲取后,48 h內(nèi)發(fā)布的數(shù)據(jù)。海洋實時觀測數(shù)據(jù)的質(zhì)量評估標準,至少應(yīng)包括如下幾個方面(Edward et al, 2004):
1)每個向用戶發(fā)布的實時觀測數(shù)據(jù)必須伴隨質(zhì)量符。
表1 數(shù)據(jù)質(zhì)量評估的各個衡量方面(量度)
2)所有的觀測必須進行自動的實時質(zhì)量檢驗
3)為了滿足一般用戶和科學(xué)工作者的需要,實時數(shù)據(jù)的質(zhì)量最好使用一個綜合質(zhì)量符來表示,并伴隨有詳細的質(zhì)量檢驗記錄(說明應(yīng)用的每個質(zhì)控檢驗)。綜合質(zhì)量等級推薦使用下列表述(順序可認為調(diào)整):
● 9=缺測
● 0=質(zhì)量未被評估
●1=壞
● 2=有疑問的
●3=好
4)質(zhì)量符和質(zhì)量檢驗說明必須在與數(shù)據(jù)相應(yīng)的元數(shù)據(jù)中清楚的描述。
5)觀測者在布放之前,應(yīng)該獨立地驗證或校準傳感器。
6)觀測者應(yīng)該在實時的元數(shù)據(jù)中描述驗證和校準使用的方法。
7)觀測者應(yīng)該量化校準精度和相關(guān)預(yù)期誤差范圍的等級。
8)觀測者必須提供自動程序的人工檢驗、收集的實時數(shù)據(jù)、在恰當(dāng)?shù)臅r間內(nèi)觀測系統(tǒng)的狀態(tài)報告,以保證觀測系統(tǒng)的連續(xù)性。
上述這些評估可以利用計算機自動質(zhì)量檢驗評估程序?qū)崿F(xiàn),自動化的質(zhì)量檢驗評估包括的各個檢驗參見表2。
表2 自動化的質(zhì)量檢驗評估
上述這些檢驗的結(jié)果(例如0代表通過,1代表失?。?yīng)該存儲在與數(shù)據(jù)配套的元數(shù)據(jù)之中,并詳細的說明其含義。元數(shù)據(jù)應(yīng)隨實時觀測數(shù)據(jù)一同發(fā)布。數(shù)據(jù)提供者可以使用最適合其觀測系統(tǒng)的數(shù)據(jù)格式,但均需清晰地描述所選數(shù)據(jù)格式。例如,使用一個整型字節(jié)存儲是否通過了檢驗,在元數(shù)據(jù)中按照檢驗順序存儲檢驗結(jié)果。實時數(shù)據(jù)的質(zhì)量檢驗評估與質(zhì)量控制類似,更傾向于自動化實現(xiàn),呈現(xiàn)方便快捷的特點(NOAA,2008)。筆者認為,海洋實時觀測數(shù)據(jù)的檢驗評估將向著可視化界面的趨勢發(fā)展,使用戶能夠直觀查看和獲取評估結(jié)果。
延時海洋觀測數(shù)據(jù)多指晚于觀測時間6個月至1年內(nèi)發(fā)布的數(shù)據(jù),不同機構(gòu)和組織往往對數(shù)據(jù)的處理標準和處理程度不一。對延時觀測數(shù)據(jù)質(zhì)量進行準確、直觀的檢驗評估,則需對數(shù)據(jù)就多方面的檢驗指標進行描述。面對來源眾多、內(nèi)容龐雜、分類繁復(fù)的海洋數(shù)據(jù),筆者開展了大量的綜合分析工作,建立起了一整套的評價指標,包括數(shù)據(jù)質(zhì)量有效性、數(shù)據(jù)可讀性和表述一致性、數(shù)據(jù)測量精度、時間跨度和完整性、數(shù)據(jù)時間累計量、網(wǎng)格覆蓋率、剖面深度上測量比率、口碑等。
2.2.1 數(shù)據(jù)質(zhì)量有效性
主要指針對經(jīng)過質(zhì)量控制的海洋環(huán)境數(shù)據(jù),分別提取并分析其正確、可疑、錯誤、缺測等情況的質(zhì)量控制符,對存在的數(shù)據(jù)的有效性進行客觀公正的評估。這是對數(shù)據(jù)最簡單最直接的評價,給出了數(shù)據(jù)正確和可靠程度的基礎(chǔ)信息。例如19000160號Argo浮標,從投放之初至觀測周期結(jié)束,共計觀測88個剖面,自第48個剖面開始,幾乎所有的觀測層次雖有數(shù)值卻均為缺省值(Yu et al,2010),即剖面缺測率達到54%,則該浮標數(shù)據(jù)的有效性極低。
2.2.2 數(shù)據(jù)可讀性和表述一致性
由于觀測的儀器和方式不同,來源眾多的海洋數(shù)據(jù)文件,存儲的格式不一,在表述形式上各有不同。數(shù)據(jù)可讀性是指數(shù)據(jù)使用恰當(dāng)?shù)恼Z言、符號、單位和定義的程度。數(shù)據(jù)表述一致性則是指數(shù)據(jù)按照其表頭(標題行/信息行)所標明的格式,使用統(tǒng)一格式表述的程度。數(shù)據(jù)的可讀性和表述一致性直接影響著用戶使用,一個格式和內(nèi)容不明的數(shù)據(jù),不能被用于科研和業(yè)務(wù)工作。
2.2.3 數(shù)據(jù)測量精度
數(shù)據(jù)測量精度是指采用觀測儀器采集數(shù)據(jù)時,給出測量結(jié)果的精確度,采用儀器不同,測量精度可能會有較大差異,因此較高的數(shù)據(jù)精確度(儀器自身決定)將會給預(yù)報、分析、研究帶來較多的指示信息。比如海溫觀測,假如儀器測量誤差為1℃,那么Nino3.4區(qū)的海溫異常信號將不能夠得到有效地捕捉,對于預(yù)報和研究ENSO的科學(xué)家而言是一種極大的損失。因此,給出數(shù)據(jù)集中測量要素的精確度以衡量資料的數(shù)據(jù)分辨率對使用者而言具有較高的科學(xué)意義。
2.2.4 時間跨度和完整性
對各類資料集而言,時間跨度和完整性的計算方法會有所不同。
針對定點連續(xù)資料,時間跨度和完整性描述變得極為重要。時間跨度是指觀測起始和終止的時間;時間完整性是指按照觀測規(guī)范的要求頻次(例如1 h)計算其頻次上的數(shù)據(jù)存在率。
數(shù)據(jù)存在率是反映觀測資料完整性的重要指標之一,缺測數(shù)據(jù)量越少,說明數(shù)據(jù)質(zhì)量越好,其完整度相對越高。但只用數(shù)據(jù)存在率(缺測數(shù)據(jù)的個數(shù))來反映資料完整情況又不夠全面和有效,難以甄別出真正可用的資料信息。如當(dāng)氣溫、氣壓等具有連續(xù)特性的定時觀測數(shù)據(jù)缺測時,用前、后兩定時數(shù)據(jù)內(nèi)插已被證明可行,而連續(xù)多時的缺測則需要依賴同一時間段相鄰站點的信息進行插值,若逐時缺測數(shù)據(jù)超過1個月以上,該數(shù)據(jù)資料的完整性就需要斟酌。為客觀評估定點連續(xù)觀測資料的缺測情況,不僅需要數(shù)據(jù)存在率這一指標,而且需根據(jù)數(shù)據(jù)缺測長度,對資料缺測情況進行分類。
針對大面觀測資料,時間跨度是指所有觀測資料的最早和最晚時間,時間的完整性指的是在要求的觀測統(tǒng)計時間量級上(例如月)計算其當(dāng)前量級上的觀測時間網(wǎng)格覆蓋率,求其均值作為時間完整性的量度。
數(shù)據(jù)時間完整性依據(jù)下式計算:
其中,Tobsi表示此時間頻次上的有效觀測記錄,Tj表示第j個站點的總觀測次數(shù),n表示總的評價站點數(shù),最終得出描述此類資料時間完整率Trate。
2.2.5 數(shù)據(jù)時間累計量
隨著海洋觀測儀器的不斷發(fā)展,穩(wěn)定、快捷的觀測手段接連出現(xiàn),觀測數(shù)據(jù)時間連續(xù)性也逐漸提高,數(shù)據(jù)量也逐漸增大。因此,數(shù)據(jù)時間累計量對數(shù)據(jù)使用者挑選數(shù)據(jù)而言具有較高的價值,統(tǒng)計每個時間段的可用要素數(shù)據(jù)量,將其記錄數(shù)作為此時段內(nèi)的數(shù)據(jù)時間累計量,以降低大規(guī)模使用數(shù)據(jù)時挑選的難度。
另外,由于海洋過程通常都是長時間大尺度的,長時間序列的觀測數(shù)據(jù)對于海洋科學(xué)研究和應(yīng)用具有重要的意義。以政府間海洋學(xué)委員會(IOC)于1995年發(fā)起的全球海平面觀測系統(tǒng)(GLOSS)計劃為例,截至目前,累計管理和發(fā)布全球1240個海洋站逐時、逐日、逐月(月平均)、年平均的水位觀測數(shù)據(jù),某些站的觀測時間最早可追溯至19世紀初,GLOSS數(shù)據(jù)集可謂在數(shù)據(jù)時間累計量上具有相當(dāng)?shù)膬?yōu)勢,這對于海平面上升和氣候變化研究極為有幫助。
2.2.6 網(wǎng)格覆蓋率
水平空間網(wǎng)格覆蓋率是指研究區(qū)域的海洋觀測資料網(wǎng)絡(luò)覆蓋范圍,以覆蓋度作為指標,將全球以經(jīng)緯度劃分為1°×1°網(wǎng)格,每個單元格應(yīng)存在1個以上觀測數(shù)據(jù),即認為觀測覆蓋該范圍,在研究區(qū)域內(nèi)篩選具有以上特征的觀測數(shù)據(jù)的單元網(wǎng)格,計算這些網(wǎng)格的水平覆蓋率。
其中:Nall為研究區(qū)域所有網(wǎng)格,Nland為以全球地形1°×1°網(wǎng)格得出的陸地值網(wǎng)格,Nvalue為有價值的觀測數(shù)據(jù)格點數(shù),由以上公式得出觀測值的網(wǎng)格覆蓋率Crate。
以世界海洋數(shù)據(jù)集(World Ocean Database)為例,溫度和鹽度的網(wǎng)格覆蓋率為99.21%(圖1),因此在此項評估指標上國際WOD溫鹽數(shù)據(jù)集表現(xiàn)優(yōu)異。
圖1 世界海洋數(shù)據(jù)集WOD09溫鹽觀測在中國近海及西北太平洋海域的網(wǎng)格覆蓋情況
圖1世界海洋數(shù)據(jù)集WOD09溫鹽觀測在中國近海及西北太平洋海域的網(wǎng)格覆蓋情況,藍色由淺至深代表數(shù)據(jù)量依次遞增,白色代表無觀測。
2.2.7 剖面深度上測量比率
剖面深度上測量比率是指研究區(qū)域的剖面測量數(shù)據(jù)以觀測規(guī)程水深或全水深作為基數(shù)的測量最大深度的比例。
其中Hobs為觀測深度,Hall為該地點的全水深。通常剖面深度在淺海海域會測量到海底,在深海海域會有觀測規(guī)程對其加以限制,造成全水深數(shù)據(jù)采集不完整或者超出全水深值,因此評測水深測量比率成為一個剖面數(shù)據(jù)的重要考核指標,將有助于了解剖面測量的情況,從側(cè)面反映剖面數(shù)據(jù)的完整性和區(qū)域代表性。通常使用美國發(fā)布的ETOPO2v2地形數(shù)據(jù)進行水深比對,也可進一步對測量水深進行質(zhì)量控制。
圖2 海洋觀測剖面資料觀測深度和該點全水深示意圖
資料集的剖面觀測深度比率計算:
其中n表示進行的n次剖面觀測,Hobsi表示第i次觀測的最大深度,Halli表示第i次觀測地點的理論深度,若單點深度比率超過100%,則數(shù)據(jù)可疑,需輸出錯誤數(shù)據(jù),進一步查驗。
2.2.8 口碑
觀測數(shù)據(jù)的質(zhì)量好壞直接影響其在用戶中的口碑。反過來,用戶會更加傾向于選擇使用口碑良好的觀測數(shù)據(jù)和數(shù)據(jù)集產(chǎn)品。以Argo計劃為例,作為目前國際海洋研究中最活躍和規(guī)模最大的觀測計劃,它可謂海洋觀測歷史上的一場革命,它第一次建立了一個實時的、高分辨率的全球立體海洋觀測網(wǎng)。Argo資料以其快捷、高分辨率、時空連續(xù)性高等特點深受廣大海洋學(xué)者和工作者的青睞,在全球擁有廣大的用戶群體。因此,數(shù)據(jù)乃至數(shù)據(jù)觀測/數(shù)據(jù)集制作機構(gòu)的口碑將也是衡量數(shù)據(jù)或數(shù)據(jù)產(chǎn)品的一個方面。
隨著科技和經(jīng)濟的發(fā)展,不僅僅是海洋科學(xué)工作者,社會各界對高質(zhì)量的海洋觀測數(shù)據(jù)、信息和相關(guān)產(chǎn)品的需求均快速增長。海洋觀測數(shù)據(jù)是國家海洋戰(zhàn)略決策、海洋環(huán)境保護、海洋資源可持續(xù)利用、海洋防災(zāi)減災(zāi)、氣候變化與應(yīng)對策略研究、社會公益性服務(wù)等的基礎(chǔ)。但是,目前多數(shù)觀測資料的全球網(wǎng)絡(luò)覆蓋率較低,經(jīng)緯度單元網(wǎng)格內(nèi)數(shù)據(jù)源分布不均勻,長時間尺度的觀測序列記錄有限,且不同年代記錄數(shù)量存在顯著差異,大量站點觀測連續(xù)性差,由此造成未經(jīng)評估的資料集要素統(tǒng)計值可信度偏低。對海洋觀測數(shù)據(jù)的有效檢驗評估,是海洋數(shù)據(jù)綜合集成與服務(wù)的前提(圖3)。本文提到的各種檢驗評估指標不一定適用于所有的海洋觀測數(shù)據(jù),也不盡全面。海洋觀測數(shù)據(jù)的檢驗評估是一個多層次的過程,使用每個檢驗指標來評估數(shù)據(jù)只是初級層次,系統(tǒng)的評估最終還需將評估指標的結(jié)果進行綜合考慮,例如加權(quán)平均,得到對于海洋環(huán)境水文氣象數(shù)據(jù)的檢驗評估模型。筆者撰寫本文的目的,在于為讀者提供一種評價多源海洋觀測數(shù)據(jù)的參考方法,以期使用戶在浩如煙海、良莠不齊的眾多來源海洋觀測資料面前,能夠有據(jù)可依的做出初步的判斷。然而僅僅是初步判斷顯然不夠嚴謹,筆者下一步的工作,將是對各評估指標的權(quán)重及組合方式進行算法研究,給出一個多維組合的數(shù)據(jù)可用性的初步評估模型。這個模型將是綜合海洋觀測系統(tǒng)服務(wù)平臺的一個重要組成部分,將進一步促進海洋觀測數(shù)據(jù)的整合應(yīng)用,并推動多層次、高水平的海洋數(shù)據(jù)共享服務(wù)。
圖3 海洋觀測數(shù)據(jù)處理流程示意圖
致謝:國家海洋信息中心的張冬生研究員對本文的撰寫給予了多項指導(dǎo)在此一并致謝。
任芝花,熊安元,2007.地面自動站觀測資料三級質(zhì)量控制業(yè)務(wù)系統(tǒng)的研制.氣象,33(1):19-24.
王芳,葛全勝,陳泮勤,2009.IPCC評估報告氣溫變化觀測數(shù)據(jù)的不確定性分析.地理學(xué)報,64(7):828-837.
楊萍,劉偉東,仲躋芹,等,2011.北京地區(qū)自動氣象站氣溫觀測資料的質(zhì)量評估.應(yīng)用氣象學(xué)報,22(6):706-715.
中國氣象局,2005.地面氣象觀測數(shù)據(jù)文件和記錄薄表格.北京:氣象出版社,18-26.
Edward K,Catherine W,Mark B,2004.First Workshop Report on the Quality Assurance of Real-Time Ocean Data.National Data Buoy Center,NWS/NOAA,Stennis Space Center,MS.
NOAA,Integrated Ocean Observing System(IOOS)Program Office,2008.Data Integration Framework(DIF)Customer Implementation Project Summary and Performance Assessment Plan Version 1.1.
Yu T,Han G J,Guan C L,et al, 2010.Several Important Issues in Salinity Quality Control of Argo Float.Marine Geodesy,33(4):424-436.