實時和延時海洋觀測數(shù)據(jù)質(zhì)量評估方法研究

2013-08-14 05:50:04于婷劉玉龍楊錦坤紀風(fēng)穎鄧增安

海洋通報 2013年6期

于婷，劉玉龍，楊錦坤，紀風(fēng)穎，鄧增安，3

（1.國家海洋信息中心，天津 300171；2.中國海洋大學(xué) 海洋環(huán)境學(xué)院，山東青島 266100；3.國家海洋局數(shù)字海洋技術(shù)研究重點實驗室，天津 300171）

海洋世紀的到來極大地推動了海洋觀測系統(tǒng)的發(fā)展，也促進了海洋觀測儀器的技術(shù)革新以及海洋觀測數(shù)據(jù)種類和數(shù)據(jù)量的快速增長。海洋觀測數(shù)據(jù)的獲取更新、整合處理、管理應(yīng)用和共享服務(wù)等工作已經(jīng)成為社會各界共同關(guān)注的議題。目前，面對來源眾多、格式不一、數(shù)據(jù)量越來越大、時效性越來越高的多源觀測數(shù)據(jù)，對其實行準確有效的數(shù)據(jù)質(zhì)量控制和檢驗評估是海洋工作者面對的重大挑戰(zhàn)之一。多源海洋觀測數(shù)據(jù)的融合和同化將成為準確描述和預(yù)測近岸和開闊大洋的物理、生物、化學(xué)狀態(tài)的關(guān)鍵技術(shù)，進而服務(wù)于科研和社會多種應(yīng)用。而這一切的前提是對數(shù)據(jù)的質(zhì)量有清晰明確的認識，即要求對各種海洋觀測系統(tǒng)和平臺所獲取的數(shù)據(jù)有簡便、可靠的質(zhì)量描述。換而言之，海洋環(huán)境觀測資料的可用性檢驗評估指標一直是一個隱性存在的問題。

海洋觀測數(shù)據(jù)質(zhì)量檢驗評估，是對數(shù)據(jù)真實性和可靠性等特性的科學(xué)、客觀的評價。數(shù)據(jù)檢驗評估指標的高低，直接影響數(shù)據(jù)分析的科學(xué)性和決策的正確性。對海洋環(huán)境數(shù)據(jù)質(zhì)量的檢驗評估，應(yīng)建立在充分利用不同時間、不同范圍和不同要素的各種數(shù)據(jù)，使檢驗評估指標能客觀和準確地反映海洋環(huán)境資料的實際情況。本文介紹了一套基于多年數(shù)據(jù)處理和管理實踐經(jīng)驗積累而研發(fā)的海洋環(huán)境數(shù)據(jù)質(zhì)量評估指標，可以為多源海洋資料的質(zhì)量提供參考依據(jù)，為海上安全、環(huán)境保護、應(yīng)對氣候變化和海洋科學(xué)研究等提供重要的海洋環(huán)境資料信息支撐。

1 質(zhì)量控制和質(zhì)量評估的概念

數(shù)據(jù)的質(zhì)量控制是指采用一定方法、模型和參數(shù)，判斷資料質(zhì)量可靠性與準確性，并進行質(zhì)量標識的處理過程。數(shù)據(jù)質(zhì)量控制是數(shù)據(jù)質(zhì)量評估的基礎(chǔ)。對海洋觀測數(shù)據(jù)進行適當(dāng)?shù)奶幚砗唾|(zhì)量控制，能夠妥善解決資料中可能存在的問題，剔除資料中的錯誤，提高資料的可靠性與準確性。目前海洋數(shù)據(jù)質(zhì)量控制中選用的檢驗方法主要包括：位置檢驗、氣候?qū)W范圍檢驗、合理性檢驗（季節(jié)性、局地性）、時間連續(xù)性、異常天氣限制、雙傳感器檢驗、內(nèi)部一致性檢驗、可視化圖形繪制檢驗等（任芝花等，2007；王芳等，2009；楊萍等，2011；中國氣象局，2005）。在要素質(zhì)控方法的基礎(chǔ)上根據(jù)資料觀測時間和空間的差異以及要素特性，采用不同的質(zhì)控方法，自動調(diào)整質(zhì)控參數(shù)。

數(shù)據(jù)的質(zhì)量評估是指對海洋觀測、調(diào)查匯總和整理完畢后的數(shù)據(jù)進行科學(xué)的、實事求是的分析和評價。它不是一個僅靠簡單的程序就能解決的問題，而是一個多維的概念，需要多方面衡量。質(zhì)量評估檢驗的內(nèi)容詳見表1。

2 質(zhì)量檢驗評估標準的制定

海洋觀測數(shù)據(jù)的多源性決定了對數(shù)據(jù)質(zhì)量的檢驗評估不能一概而論，實時海洋觀測數(shù)據(jù)和延時數(shù)據(jù)或數(shù)據(jù)集就需要區(qū)別對待。

2.1 海洋實時觀測數(shù)據(jù)

海洋實時觀測數(shù)據(jù)的特點是時效性高，通常是在數(shù)據(jù)由儀器測量獲取后，48 h內(nèi)發(fā)布的數(shù)據(jù)。海洋實時觀測數(shù)據(jù)的質(zhì)量評估標準，至少應(yīng)包括如下幾個方面（Edward et al， 2004）：

1）每個向用戶發(fā)布的實時觀測數(shù)據(jù)必須伴隨質(zhì)量符。

表1 數(shù)據(jù)質(zhì)量評估的各個衡量方面（量度）

2）所有的觀測必須進行自動的實時質(zhì)量檢驗

3）為了滿足一般用戶和科學(xué)工作者的需要，實時數(shù)據(jù)的質(zhì)量最好使用一個綜合質(zhì)量符來表示，并伴隨有詳細的質(zhì)量檢驗記錄（說明應(yīng)用的每個質(zhì)控檢驗）。綜合質(zhì)量等級推薦使用下列表述（順序可認為調(diào)整）：

● 9=缺測

● 0=質(zhì)量未被評估

●1=壞

● 2=有疑問的

●3=好

4）質(zhì)量符和質(zhì)量檢驗說明必須在與數(shù)據(jù)相應(yīng)的元數(shù)據(jù)中清楚的描述。

5）觀測者在布放之前，應(yīng)該獨立地驗證或校準傳感器。

6）觀測者應(yīng)該在實時的元數(shù)據(jù)中描述驗證和校準使用的方法。

7）觀測者應(yīng)該量化校準精度和相關(guān)預(yù)期誤差范圍的等級。

8）觀測者必須提供自動程序的人工檢驗、收集的實時數(shù)據(jù)、在恰當(dāng)?shù)臅r間內(nèi)觀測系統(tǒng)的狀態(tài)報告，以保證觀測系統(tǒng)的連續(xù)性。

上述這些評估可以利用計算機自動質(zhì)量檢驗評估程序?qū)崿F(xiàn)，自動化的質(zhì)量檢驗評估包括的各個檢驗參見表2。

表2 自動化的質(zhì)量檢驗評估

上述這些檢驗的結(jié)果（例如0代表通過，1代表失?。?yīng)該存儲在與數(shù)據(jù)配套的元數(shù)據(jù)之中，并詳細的說明其含義。元數(shù)據(jù)應(yīng)隨實時觀測數(shù)據(jù)一同發(fā)布。數(shù)據(jù)提供者可以使用最適合其觀測系統(tǒng)的數(shù)據(jù)格式，但均需清晰地描述所選數(shù)據(jù)格式。例如，使用一個整型字節(jié)存儲是否通過了檢驗，在元數(shù)據(jù)中按照檢驗順序存儲檢驗結(jié)果。實時數(shù)據(jù)的質(zhì)量檢驗評估與質(zhì)量控制類似，更傾向于自動化實現(xiàn)，呈現(xiàn)方便快捷的特點（NOAA，2008）。筆者認為，海洋實時觀測數(shù)據(jù)的檢驗評估將向著可視化界面的趨勢發(fā)展，使用戶能夠直觀查看和獲取評估結(jié)果。

2.2 海洋延時觀測數(shù)據(jù)

延時海洋觀測數(shù)據(jù)多指晚于觀測時間6個月至1年內(nèi)發(fā)布的數(shù)據(jù)，不同機構(gòu)和組織往往對數(shù)據(jù)的處理標準和處理程度不一。對延時觀測數(shù)據(jù)質(zhì)量進行準確、直觀的檢驗評估，則需對數(shù)據(jù)就多方面的檢驗指標進行描述。面對來源眾多、內(nèi)容龐雜、分類繁復(fù)的海洋數(shù)據(jù)，筆者開展了大量的綜合分析工作，建立起了一整套的評價指標，包括數(shù)據(jù)質(zhì)量有效性、數(shù)據(jù)可讀性和表述一致性、數(shù)據(jù)測量精度、時間跨度和完整性、數(shù)據(jù)時間累計量、網(wǎng)格覆蓋率、剖面深度上測量比率、口碑等。

2.2.1 數(shù)據(jù)質(zhì)量有效性

主要指針對經(jīng)過質(zhì)量控制的海洋環(huán)境數(shù)據(jù)，分別提取并分析其正確、可疑、錯誤、缺測等情況的質(zhì)量控制符，對存在的數(shù)據(jù)的有效性進行客觀公正的評估。這是對數(shù)據(jù)最簡單最直接的評價，給出了數(shù)據(jù)正確和可靠程度的基礎(chǔ)信息。例如19000160號Argo浮標，從投放之初至觀測周期結(jié)束，共計觀測88個剖面，自第48個剖面開始，幾乎所有的觀測層次雖有數(shù)值卻均為缺省值（Yu et al，2010），即剖面缺測率達到54%，則該浮標數(shù)據(jù)的有效性極低。

2.2.2 數(shù)據(jù)可讀性和表述一致性

由于觀測的儀器和方式不同，來源眾多的海洋數(shù)據(jù)文件，存儲的格式不一，在表述形式上各有不同。數(shù)據(jù)可讀性是指數(shù)據(jù)使用恰當(dāng)?shù)恼Z言、符號、單位和定義的程度。數(shù)據(jù)表述一致性則是指數(shù)據(jù)按照其表頭（標題行/信息行）所標明的格式，使用統(tǒng)一格式表述的程度。數(shù)據(jù)的可讀性和表述一致性直接影響著用戶使用，一個格式和內(nèi)容不明的數(shù)據(jù)，不能被用于科研和業(yè)務(wù)工作。

2.2.3 數(shù)據(jù)測量精度

數(shù)據(jù)測量精度是指采用觀測儀器采集數(shù)據(jù)時，給出測量結(jié)果的精確度，采用儀器不同，測量精度可能會有較大差異，因此較高的數(shù)據(jù)精確度（儀器自身決定）將會給預(yù)報、分析、研究帶來較多的指示信息。比如海溫觀測，假如儀器測量誤差為1℃，那么Nino3.4區(qū)的海溫異常信號將不能夠得到有效地捕捉，對于預(yù)報和研究ENSO的科學(xué)家而言是一種極大的損失。因此，給出數(shù)據(jù)集中測量要素的精確度以衡量資料的數(shù)據(jù)分辨率對使用者而言具有較高的科學(xué)意義。

2.2.4 時間跨度和完整性

對各類資料集而言，時間跨度和完整性的計算方法會有所不同。

針對定點連續(xù)資料，時間跨度和完整性描述變得極為重要。時間跨度是指觀測起始和終止的時間；時間完整性是指按照觀測規(guī)范的要求頻次（例如1 h）計算其頻次上的數(shù)據(jù)存在率。

數(shù)據(jù)存在率是反映觀測資料完整性的重要指標之一，缺測數(shù)據(jù)量越少，說明數(shù)據(jù)質(zhì)量越好，其完整度相對越高。但只用數(shù)據(jù)存在率（缺測數(shù)據(jù)的個數(shù)）來反映資料完整情況又不夠全面和有效，難以甄別出真正可用的資料信息。如當(dāng)氣溫、氣壓等具有連續(xù)特性的定時觀測數(shù)據(jù)缺測時，用前、后兩定時數(shù)據(jù)內(nèi)插已被證明可行，而連續(xù)多時的缺測則需要依賴同一時間段相鄰站點的信息進行插值，若逐時缺測數(shù)據(jù)超過1個月以上，該數(shù)據(jù)資料的完整性就需要斟酌。為客觀評估定點連續(xù)觀測資料的缺測情況，不僅需要數(shù)據(jù)存在率這一指標，而且需根據(jù)數(shù)據(jù)缺測長度，對資料缺測情況進行分類。

針對大面觀測資料，時間跨度是指所有觀測資料的最早和最晚時間，時間的完整性指的是在要求的觀測統(tǒng)計時間量級上（例如月）計算其當(dāng)前量級上的觀測時間網(wǎng)格覆蓋率，求其均值作為時間完整性的量度。

數(shù)據(jù)時間完整性依據(jù)下式計算：

其中，Tobsi表示此時間頻次上的有效觀測記錄，Tj表示第j個站點的總觀測次數(shù)，n表示總的評價站點數(shù)，最終得出描述此類資料時間完整率Trate。

2.2.5 數(shù)據(jù)時間累計量

隨著海洋觀測儀器的不斷發(fā)展，穩(wěn)定、快捷的觀測手段接連出現(xiàn)，觀測數(shù)據(jù)時間連續(xù)性也逐漸提高，數(shù)據(jù)量也逐漸增大。因此，數(shù)據(jù)時間累計量對數(shù)據(jù)使用者挑選數(shù)據(jù)而言具有較高的價值，統(tǒng)計每個時間段的可用要素數(shù)據(jù)量，將其記錄數(shù)作為此時段內(nèi)的數(shù)據(jù)時間累計量，以降低大規(guī)模使用數(shù)據(jù)時挑選的難度。

另外，由于海洋過程通常都是長時間大尺度的，長時間序列的觀測數(shù)據(jù)對于海洋科學(xué)研究和應(yīng)用具有重要的意義。以政府間海洋學(xué)委員會（IOC）于1995年發(fā)起的全球海平面觀測系統(tǒng)（GLOSS）計劃為例，截至目前，累計管理和發(fā)布全球1240個海洋站逐時、逐日、逐月（月平均）、年平均的水位觀測數(shù)據(jù)，某些站的觀測時間最早可追溯至19世紀初，GLOSS數(shù)據(jù)集可謂在數(shù)據(jù)時間累計量上具有相當(dāng)?shù)膬?yōu)勢，這對于海平面上升和氣候變化研究極為有幫助。

2.2.6 網(wǎng)格覆蓋率

水平空間網(wǎng)格覆蓋率是指研究區(qū)域的海洋觀測資料網(wǎng)絡(luò)覆蓋范圍，以覆蓋度作為指標，將全球以經(jīng)緯度劃分為1°×1°網(wǎng)格，每個單元格應(yīng)存在1個以上觀測數(shù)據(jù)，即認為觀測覆蓋該范圍，在研究區(qū)域內(nèi)篩選具有以上特征的觀測數(shù)據(jù)的單元網(wǎng)格，計算這些網(wǎng)格的水平覆蓋率。

其中：Nall為研究區(qū)域所有網(wǎng)格，Nland為以全球地形1°×1°網(wǎng)格得出的陸地值網(wǎng)格，Nvalue為有價值的觀測數(shù)據(jù)格點數(shù)，由以上公式得出觀測值的網(wǎng)格覆蓋率Crate。

以世界海洋數(shù)據(jù)集（World Ocean Database）為例，溫度和鹽度的網(wǎng)格覆蓋率為99.21%（圖1），因此在此項評估指標上國際WOD溫鹽數(shù)據(jù)集表現(xiàn)優(yōu)異。

圖1 世界海洋數(shù)據(jù)集WOD09溫鹽觀測在中國近海及西北太平洋海域的網(wǎng)格覆蓋情況

圖1世界海洋數(shù)據(jù)集WOD09溫鹽觀測在中國近海及西北太平洋海域的網(wǎng)格覆蓋情況，藍色由淺至深代表數(shù)據(jù)量依次遞增，白色代表無觀測。

2.2.7 剖面深度上測量比率

剖面深度上測量比率是指研究區(qū)域的剖面測量數(shù)據(jù)以觀測規(guī)程水深或全水深作為基數(shù)的測量最大深度的比例。

其中Hobs為觀測深度，Hall為該地點的全水深。通常剖面深度在淺海海域會測量到海底，在深海海域會有觀測規(guī)程對其加以限制，造成全水深數(shù)據(jù)采集不完整或者超出全水深值，因此評測水深測量比率成為一個剖面數(shù)據(jù)的重要考核指標，將有助于了解剖面測量的情況，從側(cè)面反映剖面數(shù)據(jù)的完整性和區(qū)域代表性。通常使用美國發(fā)布的ETOPO2v2地形數(shù)據(jù)進行水深比對，也可進一步對測量水深進行質(zhì)量控制。

圖2 海洋觀測剖面資料觀測深度和該點全水深示意圖

資料集的剖面觀測深度比率計算：

其中n表示進行的n次剖面觀測，Hobsi表示第i次觀測的最大深度，Halli表示第i次觀測地點的理論深度，若單點深度比率超過100%，則數(shù)據(jù)可疑，需輸出錯誤數(shù)據(jù)，進一步查驗。

2.2.8 口碑

觀測數(shù)據(jù)的質(zhì)量好壞直接影響其在用戶中的口碑。反過來，用戶會更加傾向于選擇使用口碑良好的觀測數(shù)據(jù)和數(shù)據(jù)集產(chǎn)品。以Argo計劃為例，作為目前國際海洋研究中最活躍和規(guī)模最大的觀測計劃，它可謂海洋觀測歷史上的一場革命，它第一次建立了一個實時的、高分辨率的全球立體海洋觀測網(wǎng)。Argo資料以其快捷、高分辨率、時空連續(xù)性高等特點深受廣大海洋學(xué)者和工作者的青睞，在全球擁有廣大的用戶群體。因此，數(shù)據(jù)乃至數(shù)據(jù)觀測/數(shù)據(jù)集制作機構(gòu)的口碑將也是衡量數(shù)據(jù)或數(shù)據(jù)產(chǎn)品的一個方面。

3 結(jié)語

隨著科技和經(jīng)濟的發(fā)展，不僅僅是海洋科學(xué)工作者，社會各界對高質(zhì)量的海洋觀測數(shù)據(jù)、信息和相關(guān)產(chǎn)品的需求均快速增長。海洋觀測數(shù)據(jù)是國家海洋戰(zhàn)略決策、海洋環(huán)境保護、海洋資源可持續(xù)利用、海洋防災(zāi)減災(zāi)、氣候變化與應(yīng)對策略研究、社會公益性服務(wù)等的基礎(chǔ)。但是，目前多數(shù)觀測資料的全球網(wǎng)絡(luò)覆蓋率較低，經(jīng)緯度單元網(wǎng)格內(nèi)數(shù)據(jù)源分布不均勻，長時間尺度的觀測序列記錄有限，且不同年代記錄數(shù)量存在顯著差異，大量站點觀測連續(xù)性差，由此造成未經(jīng)評估的資料集要素統(tǒng)計值可信度偏低。對海洋觀測數(shù)據(jù)的有效檢驗評估，是海洋數(shù)據(jù)綜合集成與服務(wù)的前提（圖3）。本文提到的各種檢驗評估指標不一定適用于所有的海洋觀測數(shù)據(jù)，也不盡全面。海洋觀測數(shù)據(jù)的檢驗評估是一個多層次的過程，使用每個檢驗指標來評估數(shù)據(jù)只是初級層次，系統(tǒng)的評估最終還需將評估指標的結(jié)果進行綜合考慮，例如加權(quán)平均，得到對于海洋環(huán)境水文氣象數(shù)據(jù)的檢驗評估模型。筆者撰寫本文的目的，在于為讀者提供一種評價多源海洋觀測數(shù)據(jù)的參考方法，以期使用戶在浩如煙海、良莠不齊的眾多來源海洋觀測資料面前，能夠有據(jù)可依的做出初步的判斷。然而僅僅是初步判斷顯然不夠嚴謹，筆者下一步的工作，將是對各評估指標的權(quán)重及組合方式進行算法研究，給出一個多維組合的數(shù)據(jù)可用性的初步評估模型。這個模型將是綜合海洋觀測系統(tǒng)服務(wù)平臺的一個重要組成部分，將進一步促進海洋觀測數(shù)據(jù)的整合應(yīng)用，并推動多層次、高水平的海洋數(shù)據(jù)共享服務(wù)。

圖3 海洋觀測數(shù)據(jù)處理流程示意圖

致謝：國家海洋信息中心的張冬生研究員對本文的撰寫給予了多項指導(dǎo)在此一并致謝。

任芝花，熊安元，2007.地面自動站觀測資料三級質(zhì)量控制業(yè)務(wù)系統(tǒng)的研制.氣象，33（1）：19-24．

王芳，葛全勝，陳泮勤，2009.IPCC評估報告氣溫變化觀測數(shù)據(jù)的不確定性分析.地理學(xué)報，64（7）：828-837.

楊萍，劉偉東，仲躋芹，等，2011.北京地區(qū)自動氣象站氣溫觀測資料的質(zhì)量評估.應(yīng)用氣象學(xué)報，22（6）：706-715.

中國氣象局，2005.地面氣象觀測數(shù)據(jù)文件和記錄薄表格.北京：氣象出版社，18-26．

Edward K，Catherine W，Mark B，2004.First Workshop Report on the Quality Assurance of Real-Time Ocean Data.National Data Buoy Center，NWS/NOAA，Stennis Space Center，MS.

NOAA，Integrated Ocean Observing System（IOOS）Program Office，2008.Data Integration Framework（DIF）Customer Implementation Project Summary and Performance Assessment Plan Version 1.1.