雷發(fā)美,萬(wàn) 艷,商少平,陳劍橋
(1.廈門大學(xué)海洋與地球?qū)W院,福建 廈門 361005;2.廈門大學(xué)海洋觀測(cè)技術(shù)研發(fā)中心,福建 廈門361005;3.福建省水產(chǎn)設(shè)計(jì)院,福建 福州 350003;4.福建省海洋預(yù)報(bào)臺(tái),福建 福州 350003)
隨著國(guó)家對(duì)海洋的重視,我國(guó)的海洋開發(fā)和管理日益加強(qiáng),海洋經(jīng)濟(jì)日益繁榮,極大地推動(dòng)了海洋觀測(cè)系統(tǒng)的發(fā)展,也促進(jìn)了海洋觀測(cè)儀器的技術(shù)革新及海洋觀測(cè)數(shù)據(jù)種類和數(shù)據(jù)量的快速增長(zhǎng)。多源海洋觀測(cè)數(shù)據(jù)的融合和同化將成為準(zhǔn)確描述和預(yù)測(cè)近岸和開闊大洋的物理、生物、化學(xué)狀態(tài)的關(guān)鍵技術(shù),進(jìn)而服務(wù)于科研和社會(huì)的多種應(yīng)用。在海洋環(huán)境預(yù)報(bào)、海洋工程建設(shè)、海洋災(zāi)害應(yīng)對(duì)、海洋權(quán)益保障等方面,海洋環(huán)境觀測(cè)資料提供了重要的基礎(chǔ)信息,是不可缺少的依據(jù),尤其是高質(zhì)量的監(jiān)測(cè)數(shù)據(jù)能夠科學(xué)地反映海洋環(huán)境,而這一切的前提是對(duì)多源數(shù)據(jù)的質(zhì)量有清晰明確的認(rèn)識(shí),即要求對(duì)各種海洋觀測(cè)系統(tǒng)和平臺(tái)所獲取的數(shù)據(jù)有簡(jiǎn)便、可靠的質(zhì)量描述與控制。然而,在實(shí)際觀測(cè)過程中,數(shù)據(jù)采集、傳輸、保存、儀器故障、采樣地點(diǎn)的偶發(fā)事件等一系列因素都可能對(duì)觀測(cè)結(jié)果產(chǎn)生影響,導(dǎo)致數(shù)據(jù)出現(xiàn)異常。目前,對(duì)來(lái)源眾多、格式不一、數(shù)據(jù)量越來(lái)越大、時(shí)效性越來(lái)越高的多源觀測(cè)數(shù)據(jù),實(shí)行準(zhǔn)確有效的數(shù)據(jù)質(zhì)量評(píng)估和控制是海洋工作者面對(duì)的重大挑戰(zhàn)之一。海洋觀測(cè)數(shù)據(jù)的獲取更新、整合處理、管理應(yīng)用和共享服務(wù)等工作已經(jīng)成為社會(huì)各界共同關(guān)注的議題。
20世紀(jì)末開始,美國(guó)環(huán)境保護(hù)署(United States Environmental Protection Agency,EPA)建立了一系列標(biāo)準(zhǔn)化的數(shù)據(jù)質(zhì)量控制和質(zhì)量評(píng)估方法,即《數(shù)據(jù)質(zhì)量評(píng)估導(dǎo)則》[1-2],對(duì)環(huán)境監(jiān)測(cè)數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估[3]。美國(guó)海洋政策委員會(huì)(United States Commission on Ocean Policy)于2012—2016年完成實(shí)時(shí)海洋數(shù)據(jù)的質(zhì)量保證與質(zhì)量控制計(jì)劃,該計(jì)劃針對(duì)26個(gè)物理、化學(xué)和生物等方面核心要素的實(shí)時(shí)海洋觀測(cè)數(shù)據(jù)建立了標(biāo)準(zhǔn)化的質(zhì)控流程[4]。日本海洋學(xué)會(huì)(The Oceanographic Society of Japan)也將海洋數(shù)據(jù)質(zhì)量控制作為重要的工作內(nèi)容[5]。我國(guó)海洋監(jiān)測(cè)數(shù)據(jù)的質(zhì)量控制主要依據(jù)GB 4883—2008《數(shù)據(jù)的統(tǒng)計(jì)處理和解釋 正態(tài)樣本離群值的判斷和處理》[6]、GB/T 14914.6—2021《海洋觀測(cè)規(guī)范第6部分:數(shù)據(jù)處理與質(zhì)量控制》[7]、《海洋監(jiān)測(cè)質(zhì)量保證手冊(cè)》[8]和HY/T 0315—2021《海洋觀測(cè)延時(shí)資料質(zhì)量控制審核技術(shù)規(guī)范》[9]。
為了保證海洋監(jiān)測(cè)數(shù)據(jù)的代表性、完整性、精密性、準(zhǔn)確性和可比性(即“五性”),近年來(lái)國(guó)內(nèi)外都將數(shù)據(jù)質(zhì)量控制和評(píng)估作為海洋觀測(cè)的重要內(nèi)容來(lái)考慮,并陸續(xù)建立一系列標(biāo)準(zhǔn)化的質(zhì)量控制或評(píng)估流程和方法[10]。海洋監(jiān)測(cè)數(shù)據(jù)具有多源性、多態(tài)性、多樣性和區(qū)域性等特征,這就決定了對(duì)數(shù)據(jù)質(zhì)量的控制和評(píng)估不能一概而論,需要結(jié)合具體的觀測(cè)方式、觀測(cè)平臺(tái)和觀測(cè)區(qū)域等要素來(lái)綜合考慮。雖然在海洋數(shù)據(jù)質(zhì)控方面存在大量研究成果,但主要是圍繞質(zhì)控共性理論方法的探究[11],專門針對(duì)浮標(biāo)表層環(huán)境要素?cái)?shù)據(jù)質(zhì)控流程和方法的研究較少[12]。本文主要研究海洋浮標(biāo)表層環(huán)境要素?cái)?shù)據(jù)的質(zhì)控,并對(duì)質(zhì)控結(jié)果進(jìn)行分析,以此來(lái)建立一種可靠且實(shí)用的數(shù)據(jù)質(zhì)量控制流程和方法,該方法流程清晰,簡(jiǎn)潔實(shí)用,正常情況下不需人工干預(yù)就可以有效檢出異常數(shù)據(jù),質(zhì)控過程中采用誤差控制,可最大限度防止誤刪,并且質(zhì)控后對(duì)每個(gè)值進(jìn)行質(zhì)量標(biāo)識(shí),根據(jù)質(zhì)量標(biāo)識(shí)可以快速追蹤數(shù)據(jù)異常的原因,為最終獲得完整、準(zhǔn)確、質(zhì)量可靠的海洋觀測(cè)數(shù)據(jù)提供保障。
海洋浮標(biāo)包括大型海洋環(huán)境監(jiān)測(cè)浮標(biāo)和小型海洋環(huán)境監(jiān)測(cè)浮標(biāo),兩者觀測(cè)要素基本相同,數(shù)據(jù)格式也基本相同[13],主要包括剖面流速、剖面流向、有效波高、平均波高、最大波高、1/10大波波高、有效波周期、平均周期、最大波高周期、1/10大波周期、平均波向、波數(shù)(測(cè)波個(gè)數(shù))、平均風(fēng)速、平均風(fēng)向、最大風(fēng)速、氣溫、氣壓、能見度、相對(duì)濕度、表層水溫、電導(dǎo)率、表層鹽度等表層環(huán)境要素和溶解氧、溶解氧飽和度、葉綠素、濁度、pH等生化要素,另外,數(shù)據(jù)中還包括浮標(biāo)名稱或編號(hào)、時(shí)間、經(jīng)度、緯度、儀器狀態(tài)等信息。本文僅對(duì)大浮標(biāo)表層環(huán)境要素進(jìn)行質(zhì)控,但不包括海流。
質(zhì)控流程一般分為計(jì)算機(jī)自動(dòng)質(zhì)控和人工審核兩部分,其中計(jì)算機(jī)自動(dòng)質(zhì)控部分包括數(shù)據(jù)前處理質(zhì)控、數(shù)理統(tǒng)計(jì)質(zhì)控、局地質(zhì)控和誤差控制等4個(gè)部分,人工審核包括剔除未自動(dòng)識(shí)別出的異常值和恢復(fù)被誤刪的正確值。質(zhì)控過程中根據(jù)每步質(zhì)控結(jié)果對(duì)數(shù)據(jù)進(jìn)行質(zhì)量標(biāo)識(shí),標(biāo)識(shí)出正確數(shù)據(jù)、未評(píng)估數(shù)據(jù)、可疑數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)和缺失數(shù)據(jù)等。
1.2.1 前處理質(zhì)控
在浮標(biāo)表層環(huán)境要素?cái)?shù)據(jù)記錄中,空白值一般為特殊符號(hào)或者缺省值,該值的存在嚴(yán)重影響數(shù)據(jù)的處理和后續(xù)質(zhì)控的進(jìn)行,應(yīng)優(yōu)先剔除。在某些情況下,僅從數(shù)據(jù)本身很難判斷該值是否為需要的測(cè)量值,比如跑標(biāo),因此要從時(shí)間、地點(diǎn)和日志等多方面進(jìn)行檢驗(yàn),基本屬性錯(cuò)誤的數(shù)據(jù)直接剔除。若獲取的數(shù)據(jù)明顯超過該區(qū)域歷史觀測(cè)資料的范圍,也判定為錯(cuò)誤值,直接剔除。因此,前處理質(zhì)控主要包括空白值檢驗(yàn)、時(shí)間檢驗(yàn)、位置檢驗(yàn)、設(shè)備日志檢驗(yàn)和閾值檢驗(yàn)等。
(1)空白值檢驗(yàn)
空白值檢驗(yàn)包括空格和缺省填充值檢驗(yàn),海洋觀測(cè)資料一般是按照規(guī)定的格式進(jìn)行記錄的,對(duì)缺測(cè)數(shù)據(jù)的填寫都有相應(yīng)的要求,一般用預(yù)先設(shè)置的值(明顯區(qū)別于正常值)進(jìn)行填充。檢驗(yàn)時(shí),空格不處理,缺省值直接剔除。
(2)時(shí)間檢驗(yàn)
時(shí)間檢驗(yàn)包括時(shí)間范圍和時(shí)間連續(xù)性檢驗(yàn)。數(shù)據(jù)的觀測(cè)時(shí)間應(yīng)在質(zhì)控?cái)?shù)據(jù)的起止時(shí)間范圍內(nèi),觀測(cè)時(shí)間不合理的判定為異常值;依據(jù)數(shù)據(jù)的觀測(cè)頻率進(jìn)行連續(xù)性判斷,刪除不在理論采樣時(shí)間點(diǎn)的數(shù)據(jù),同時(shí)補(bǔ)充缺失的理論采樣時(shí)間點(diǎn)的數(shù)據(jù)記錄,要素觀測(cè)值設(shè)置為空格。對(duì)于時(shí)間間隔不規(guī)律的觀測(cè),不進(jìn)行連續(xù)性檢驗(yàn)。
(3)設(shè)備日志檢驗(yàn)
根據(jù)設(shè)備的工作情況記錄,對(duì)儀器維護(hù)、故障等非正常運(yùn)行期間的數(shù)據(jù),各要素觀測(cè)值直接剔除。
(4)位置檢驗(yàn)
若浮標(biāo)位置信息缺失,一般問題不大(浮標(biāo)通常比較固定),將缺失經(jīng)緯度的觀測(cè)要素值標(biāo)識(shí)為可疑值,參與后續(xù)處理。若某一時(shí)刻浮標(biāo)位置明顯超出預(yù)先設(shè)定的范圍,該位置及其對(duì)應(yīng)的要素值均判定為異常值。若一段時(shí)間內(nèi)浮標(biāo)位置不斷變化,則可能發(fā)生移標(biāo)(跑標(biāo)或人為移動(dòng)),位置變化過程中的所有數(shù)據(jù)判定為異常值,穩(wěn)定后數(shù)據(jù)保留。
(5)閾值檢驗(yàn)
對(duì)監(jiān)測(cè)參數(shù)在該區(qū)域歷史觀測(cè)資料中的范圍進(jìn)行統(tǒng)計(jì),找出該監(jiān)測(cè)參數(shù)的取值變化范圍,指導(dǎo)參數(shù)閾值范圍的劃分,超出閾值范圍的數(shù)據(jù)判定為異常值,但要注意邊界值,比如波高和風(fēng)速記錄值為0的時(shí)候,有可能是正確值。
1.2.2 數(shù)理統(tǒng)計(jì)質(zhì)控
數(shù)理統(tǒng)計(jì)是以概率論為基礎(chǔ)研究大量隨機(jī)現(xiàn)象的統(tǒng)計(jì)規(guī)律性的一門數(shù)學(xué)學(xué)科[14]。數(shù)理統(tǒng)計(jì)檢測(cè)數(shù)據(jù)異常的方法一般具有普適性,應(yīng)用范圍廣泛,但需要滿足一定的數(shù)據(jù)量,且該數(shù)據(jù)具有隨機(jī)性,這樣才具有穩(wěn)定性和準(zhǔn)確性。對(duì)于浮標(biāo)數(shù)據(jù)來(lái)說(shuō),數(shù)據(jù)量一般不是問題,長(zhǎng)時(shí)間觀測(cè)獲得了大量的數(shù)據(jù),在隨機(jī)性方面,基于成本考慮,一個(gè)變量同一時(shí)刻一般只有一個(gè)測(cè)量數(shù)據(jù),等到下一個(gè)時(shí)刻再次測(cè)量時(shí),環(huán)境參數(shù)可能已經(jīng)發(fā)生了變化,無(wú)法對(duì)同一參數(shù)進(jìn)行多次獨(dú)立重復(fù)測(cè)量,也就是說(shuō),隨著時(shí)間的推移,獲取的變量數(shù)據(jù)不是隨機(jī)的。為了使用數(shù)理統(tǒng)計(jì)理論,需要做一個(gè)假設(shè):在t時(shí)刻測(cè)得某個(gè)變量值,在時(shí)刻之前測(cè)n個(gè)數(shù)據(jù),在t時(shí)刻之后測(cè)m個(gè)數(shù)據(jù),把這些數(shù)據(jù)視為一個(gè)整體,看成是對(duì)同一個(gè)變量的多次測(cè)量,環(huán)境引起的變化視為隨機(jī)變化造成的,于是可以對(duì)該數(shù)據(jù)使用數(shù)理統(tǒng)計(jì)方法?;谠摷僭O(shè),對(duì)浮標(biāo)數(shù)據(jù)進(jìn)行質(zhì)控時(shí),時(shí)間窗口的選擇尤為重要。
基于以上假設(shè),可以用數(shù)理統(tǒng)計(jì)的方法來(lái)檢驗(yàn)數(shù)據(jù),數(shù)理檢驗(yàn)的方法很多,各方法基本原理大同小異,但不同情形下采用的準(zhǔn)則有所不同[15]。選取數(shù)理檢驗(yàn)方法時(shí),遵循簡(jiǎn)單易用并且大家都比較熟悉和公認(rèn)的方法,同時(shí)參照國(guó)家標(biāo)準(zhǔn)[6]和行業(yè)標(biāo)準(zhǔn)[9],選擇幾種適當(dāng)?shù)姆椒▽?duì)各種要素進(jìn)行多次檢驗(yàn),防止漏檢。本次采用的數(shù)理統(tǒng)計(jì)質(zhì)控方法主要有萊特檢驗(yàn)(三倍標(biāo)準(zhǔn)差)、奈爾檢驗(yàn)、格拉布斯(Grubbs)檢驗(yàn)、狄克遜(Dixon)檢驗(yàn)、峰度檢驗(yàn)等。
(1)萊特檢驗(yàn)
萊特準(zhǔn)則是一種正態(tài)分布情況下判別異常值的方法,比較適用于樣本n>10的情況,具有普適性。σ為已知的總體標(biāo)準(zhǔn)差,為樣本均值,若第i個(gè)測(cè)量值xi對(duì)應(yīng)殘差的絕對(duì)值滿足式(1),則判定該測(cè)量值xi為異常值。
(2)奈爾檢驗(yàn)
當(dāng)已知標(biāo)準(zhǔn)差時(shí),使用雙側(cè)奈爾檢驗(yàn)法,樣本量為3≤n≤100,該檢驗(yàn)主要針對(duì)短時(shí)間內(nèi)高頻測(cè)量數(shù)據(jù),此時(shí)可以把儀器的精度當(dāng)作標(biāo)準(zhǔn)差來(lái)使用。
確定檢出水平α后,從國(guó)家標(biāo)準(zhǔn)[6]查表A.1得出臨界值R1-α/2(n),當(dāng)Rn>Rn′且Rn>R1-α/2(n)時(shí),判定xn為可疑值;當(dāng)Rn′>Rn且Rn′>R1-α/2(n)時(shí),判定x1為可疑值。對(duì)可疑值確定剔除水平α*,從國(guó)家標(biāo)準(zhǔn)[6]查表A.1得出臨界值R1-α*/2(n),當(dāng)Rn>R1-α*/2(n)時(shí),判定xn為異常值;當(dāng)Rn′>R1-α*/2(n)時(shí),判定x1為異常值。
(3)Grubbs檢驗(yàn)
未知標(biāo)準(zhǔn)差時(shí),可以使用雙側(cè)Grubbs檢驗(yàn)法,樣本量為3≤n≤100。
對(duì)樣本最大值計(jì)算統(tǒng)計(jì)量如下。
確定檢出水平α后,從國(guó)家標(biāo)準(zhǔn)[6]查表A.2得出臨界值G1-α/2(n),當(dāng)Gn>Gn′且Gn>G1-α/2(n)時(shí),判定xn為可疑值;當(dāng)Gn′>Gn且Gn′>G1-α/2(n)時(shí),判定x1為可疑值。對(duì)可疑值確定剔除水平α*,從國(guó)家標(biāo)準(zhǔn)[6]查表A.2得出臨界值G1-α*/2(n),當(dāng)Gn>G1-α*/2(n)時(shí),判定xn為異常值;當(dāng)Gn′>G1-α*/2(n)時(shí),判定x1為異常值。
(4)Dixon檢驗(yàn)
未知標(biāo)準(zhǔn)差時(shí),可以使用雙側(cè)Dixon檢驗(yàn)法,樣本量為3≤n≤100。
對(duì)樣本最大值xn和最小值x1計(jì)算統(tǒng)計(jì)量Dn和Dn′,計(jì)算公式見表1。
表1 Dixon檢驗(yàn)統(tǒng)計(jì)量計(jì)算表
確定檢出水平α后,從國(guó)家標(biāo)準(zhǔn)[6]查表A.3′或C.2得出臨界值D1-α(n),當(dāng)Dn>Dn′且Dn>D1-α(n)時(shí),判定xn為可疑值;當(dāng)Dn′>Dn且Dn′>D1-α(n)時(shí),判定x1為可疑值。對(duì)可疑值確定剔除水平α*,從國(guó)家標(biāo)準(zhǔn)[6]查表A.3′或C.2得出臨界值D1-α*(n),當(dāng)Dn>Dn′且Dn>D1-α*(n)時(shí),判定xn為異常值;當(dāng)Dn′>Dn且Dn′>D1-α*(n)時(shí),判定x1為異常值。
(5)峰度檢驗(yàn)
分析樣本觀測(cè)值,發(fā)現(xiàn)樣本主體來(lái)自正態(tài)總體而極端值較明顯偏離樣本主體時(shí),可以使用峰度檢驗(yàn)法。峰度統(tǒng)計(jì)量公式如下。
確定檢出水平α后,從國(guó)家標(biāo)準(zhǔn)[6]查表A.5得出臨界值b1-(αn),當(dāng)bk>b1-(αn),判定離均值最遠(yuǎn)的值為可疑值。對(duì)可疑值確定剔除水平α*,從國(guó)家標(biāo)準(zhǔn)[6]查表A.5得出臨界值b1-α(*n),當(dāng)bk>b1-α(*n)時(shí),判定距離均值最遠(yuǎn)的值為異常值。
1.2.3 局地質(zhì)控
浮標(biāo)觀測(cè)數(shù)據(jù)是多樣的,有些數(shù)據(jù)通過數(shù)理統(tǒng)計(jì)方法不能有效地檢出,比如短時(shí)間內(nèi)整體漂移或者長(zhǎng)時(shí)間數(shù)值不變,因此,引入局地質(zhì)控檢驗(yàn)[12],主要包括梯度檢驗(yàn)、卡值檢驗(yàn)(粘滯檢驗(yàn))、尖峰檢驗(yàn)、濾波檢驗(yàn)和關(guān)聯(lián)性檢驗(yàn)等。
(1)梯度檢驗(yàn)
梯度檢驗(yàn)主要是針對(duì)短時(shí)間內(nèi)數(shù)據(jù)的整體漂移,該部分漂移值用數(shù)理檢測(cè)方法難以檢出,而使用梯度檢驗(yàn)效果較好。對(duì)同一個(gè)站位某一要素的連續(xù)觀測(cè)數(shù)據(jù)計(jì)算梯度(即觀測(cè)要素的時(shí)間變化率),計(jì)算公式如下。
式中,t為觀測(cè)時(shí)間;ξ(t)為時(shí)刻的觀測(cè)值;gradξ(t)為梯度。
對(duì)梯度進(jìn)行三倍標(biāo)準(zhǔn)差檢驗(yàn),在一個(gè)梯度數(shù)據(jù)序列中,如果兩個(gè)梯度數(shù)值都超出三倍標(biāo)準(zhǔn)差并且這兩個(gè)數(shù)據(jù)相隔時(shí)間較短,則認(rèn)為該段數(shù)據(jù)出現(xiàn)了整體偏移,這兩個(gè)數(shù)值之間的整段數(shù)據(jù)判定為異常值,剔除后繼續(xù)對(duì)剩余數(shù)據(jù)檢驗(yàn),直到?jīng)]有異常數(shù)據(jù)檢出。
(2)卡值檢驗(yàn)
觀測(cè)儀器靈敏度和精度足夠的情況下,海洋觀測(cè)要素受流體動(dòng)力因素的影響,在一定時(shí)間或空間內(nèi)不會(huì)恒定不變,若恒定不變,則數(shù)據(jù)可能異常,需要進(jìn)行卡值檢驗(yàn),具體方法如下。
找出某段時(shí)間中要素最大值xmax和最小值xmin,兩者之間的差值應(yīng)大于一定的值,否則該段數(shù)據(jù)判定為異常數(shù)據(jù)。
式中,H為卡值檢驗(yàn)參數(shù),根據(jù)要素類型、觀測(cè)時(shí)間和區(qū)域等確定,通常取值接近0。
(3)尖峰檢驗(yàn)
在數(shù)據(jù)量較少時(shí),數(shù)理統(tǒng)計(jì)方法比較難以判斷是否為異常值,可以采用尖峰檢驗(yàn),計(jì)算公式如下。
式中,β是臨界系數(shù),根據(jù)不同的觀測(cè)要素進(jìn)行設(shè)置,并且默認(rèn)前一時(shí)刻值xn-1和后一時(shí)刻值xn+1均為正常數(shù)據(jù),大于臨界系數(shù)的判定為異常值。
(4)濾波檢驗(yàn)
濾波方法有很多種,根據(jù)不同的變量可以采用不同的濾波方法,比如限幅濾波法、中位值濾波法、算術(shù)平均濾波法、遞推平均濾波法、中位值平均濾波法、限幅平均濾波法、一階滯后濾波法、加權(quán)遞推平均濾波法、消抖濾波法、限幅消抖濾波法、卡爾曼濾波等。每種濾波方法有各自的優(yōu)缺點(diǎn),根據(jù)質(zhì)控變量數(shù)據(jù)本身的性質(zhì),選擇合適的濾波法,可獲得較好的效果,該方法主要用于海流檢驗(yàn)。
(5)關(guān)聯(lián)性檢驗(yàn)
根據(jù)觀測(cè)資料數(shù)據(jù)間的相互關(guān)系進(jìn)行檢驗(yàn),例如電導(dǎo)率、鹽度和水溫之間的關(guān)聯(lián)性,這三個(gè)變量之間存在函數(shù)關(guān)系,水溫異常會(huì)導(dǎo)致電導(dǎo)率、鹽度異常,電導(dǎo)率的異常會(huì)導(dǎo)致鹽度異常等。風(fēng)、浪和流之間也有關(guān)聯(lián)性,風(fēng)速增大會(huì)導(dǎo)致波浪變高、流速變快等。當(dāng)風(fēng)速突然變大為確定事件時(shí),例如臺(tái)風(fēng)天,對(duì)浪和流檢出的異常值要引起注意,很可能是正確值。
此外,由于矢量包括大小和方向,兩者分別進(jìn)行質(zhì)控,若其中一個(gè)量為異常值,則判定該矢量為異常值,對(duì)質(zhì)控后的矢量再分解為東分量和北分量,若其中一個(gè)分量為異常值,則判定該矢量為異常值。
1.2.4 誤差控制
在數(shù)理統(tǒng)計(jì)質(zhì)控中,做了一個(gè)隨機(jī)的假設(shè),但事實(shí)上觀測(cè)數(shù)據(jù)并不是隨機(jī)的,因此基于該假設(shè)的計(jì)算結(jié)果無(wú)法保證準(zhǔn)確性,甚至有可能是錯(cuò)誤的,需要進(jìn)一步對(duì)結(jié)果進(jìn)行檢驗(yàn),檢驗(yàn)方法主要采用誤差控制法,把檢測(cè)結(jié)果與相鄰數(shù)據(jù)進(jìn)行比較,超過誤差控制值的才判定為可疑值或者異常值,該檢驗(yàn)可以有效防止因儀器本身誤差而造成的過度刪除。
式中,xE為xn前后時(shí)刻的相鄰值(也可以取平均值);Er為誤差控制值。Er可以分為理論誤差值和經(jīng)驗(yàn)誤差值,理論誤差值是基于儀器自身精度來(lái)計(jì)算的,根據(jù)誤差傳播定律[16],兩次獨(dú)立測(cè)量的差值最大允許范圍為儀器精度的倍,即Er可取對(duì)應(yīng)儀器精度的倍;經(jīng)驗(yàn)誤差值則是根據(jù)實(shí)際經(jīng)驗(yàn),認(rèn)為一段時(shí)間內(nèi)差值要大于某一特定值(或者百分比)才算異常值,該值可以根據(jù)不同時(shí)間、不同地點(diǎn)、不同變量而設(shè)不同的值。一般來(lái)說(shuō),經(jīng)驗(yàn)控制誤差值要大于理論控制誤差值。當(dāng)xn與xE差值不大于誤差控制值時(shí),判定xn為正常數(shù)據(jù),不能剔除。誤差控制部分不單獨(dú)使用,在每個(gè)異常數(shù)據(jù)檢出后均進(jìn)行誤差控制檢驗(yàn)。
1.2.5 人工審核
由于數(shù)據(jù)的多樣性和環(huán)境變化復(fù)雜性,通過以上質(zhì)控步驟不能完全達(dá)到質(zhì)控要求,可能有部分錯(cuò)誤數(shù)據(jù)沒被檢出,也有可能會(huì)誤刪部分正確數(shù)據(jù),比如過于稀疏的數(shù)據(jù)、臺(tái)風(fēng)過境的數(shù)據(jù)等,因此還需要進(jìn)行人工審核。人工審核一般通過繪制可視化的圖形進(jìn)行對(duì)比,觀察挑選出遺漏的錯(cuò)誤數(shù)據(jù),同時(shí)恢復(fù)誤刪的正確數(shù)據(jù)。
1.2.6 質(zhì)量標(biāo)識(shí)
參照美國(guó)海洋政策委員會(huì)開展的實(shí)時(shí)海洋數(shù)據(jù)的質(zhì)量保證與質(zhì)量控制計(jì)劃[17],對(duì)各觀測(cè)要素質(zhì)控后分離出的數(shù)據(jù)進(jìn)行質(zhì)量標(biāo)識(shí),正確數(shù)據(jù)標(biāo)識(shí)為1,未評(píng)估數(shù)據(jù)標(biāo)識(shí)為2,可疑數(shù)據(jù)標(biāo)識(shí)為3,錯(cuò)誤數(shù)據(jù)標(biāo)識(shí)為4,缺失數(shù)據(jù)標(biāo)識(shí)為9,在此基礎(chǔ)上,為了便于區(qū)分和追蹤質(zhì)控過程,對(duì)每種質(zhì)控檢驗(yàn)方法也都給定相應(yīng)的編號(hào),兩兩相互組合,詳細(xì)情況見表2,根據(jù)質(zhì)量標(biāo)識(shí)就可以快速了解可疑值和異常值的檢出原因。
表2 檢驗(yàn)方法及質(zhì)量標(biāo)識(shí)
由于質(zhì)控是按固定流程進(jìn)行的,異常值第一次檢出時(shí)就會(huì)被剔除并進(jìn)行標(biāo)識(shí),而可疑值會(huì)繼續(xù)保留參與質(zhì)控直到流程結(jié)束,所以異常值的標(biāo)識(shí)為第一種檢出異常值的方法,而可疑值的標(biāo)識(shí)為最后一種檢出可疑值的方法。比如質(zhì)控后某個(gè)異常值標(biāo)識(shí)為4.23,表示該值在Grubbs檢驗(yàn)時(shí)未通過,判定為異常值,雖然該值在Dixon檢驗(yàn)時(shí)也可能是異常值,但Grubbs檢驗(yàn)在前面,該值已經(jīng)被判定為異常值,不參與后面的Dixon檢驗(yàn)。同樣的,如果質(zhì)控后某個(gè)可疑值標(biāo)識(shí)為3.25,表示該值在峰度檢驗(yàn)時(shí)判定為可疑值,當(dāng)然在Grubbs和Dixon檢驗(yàn)時(shí)也可能是可疑值,但只保留最后一個(gè)檢驗(yàn)出可疑值的方法。
1.2.7 質(zhì)控流程
根據(jù)浮標(biāo)數(shù)據(jù)的特點(diǎn),采用了前處理質(zhì)控、數(shù)理統(tǒng)計(jì)質(zhì)控、局地質(zhì)控、誤差控制、人工審核及質(zhì)量標(biāo)識(shí)等步驟,其中誤差控制只有在數(shù)理統(tǒng)計(jì)和局地質(zhì)控未通過時(shí)才使用,質(zhì)量標(biāo)識(shí)在每個(gè)數(shù)據(jù)檢驗(yàn)完成之后進(jìn)行,整個(gè)質(zhì)控流程步驟見圖1。質(zhì)控時(shí),不同要素質(zhì)控流程會(huì)有所不同,有些要素?zé)o法使用數(shù)理統(tǒng)計(jì)或者局地質(zhì)控。
圖1 質(zhì)控流程示意圖
本文使用的海洋浮標(biāo)數(shù)據(jù)來(lái)源于福建省海洋觀測(cè)網(wǎng)的海洋1~5號(hào)大浮標(biāo)和海峽1~2號(hào)大浮標(biāo)(該浮標(biāo)命名在行業(yè)標(biāo)準(zhǔn)[18]執(zhí)行之前,故未按標(biāo)準(zhǔn)命名),數(shù)據(jù)時(shí)間從2017/01/01 00∶00開始至2017/01/15 23∶50結(jié)束,采樣間隔均為10 min,各浮標(biāo)數(shù)據(jù)信息見表3。
采用以上質(zhì)控流程和方法,對(duì)海洋1號(hào)大浮標(biāo)數(shù)據(jù)按要素逐一進(jìn)行質(zhì)控,時(shí)間窗口約為1 d(數(shù)理統(tǒng)計(jì)部分每次檢驗(yàn)最大為100個(gè)數(shù)據(jù)),質(zhì)控參數(shù)的選取參考浮標(biāo)觀測(cè)的時(shí)間、地點(diǎn)、歷史資料等,控制誤差均設(shè)置為經(jīng)驗(yàn)誤差,各要素閾值范圍和控制誤差見表4,其中波向、風(fēng)向、波數(shù)、能見度等幾個(gè)要素未進(jìn)行數(shù)理統(tǒng)計(jì)檢驗(yàn),不設(shè)控制誤差。
表4 質(zhì)控參數(shù)設(shè)置
一般來(lái)說(shuō),前處理質(zhì)控對(duì)所有要素均適用,只是參數(shù)的選擇有所不同,但數(shù)理統(tǒng)計(jì)和局地質(zhì)控對(duì)不同要素質(zhì)控時(shí)應(yīng)當(dāng)選擇適當(dāng)?shù)臋z驗(yàn)方法。比如能見度,在一段時(shí)間內(nèi)大部分?jǐn)?shù)據(jù)為固定值,但也可能存在突然變化的情況,因此,不能使用數(shù)理統(tǒng)計(jì)質(zhì)控檢驗(yàn)方法。矢量中的方向也要注意,由于方向取值范圍為0°~360°,但0°和360°是同一個(gè)方向,所以方向數(shù)值未做處理時(shí),一般的異常值檢測(cè)方法都不適用。針對(duì)各要素的特點(diǎn),以海洋1號(hào)大浮標(biāo)為例,海洋表層環(huán)境不同要素質(zhì)控方法的選取和異常數(shù)據(jù)檢出情況見表5,質(zhì)控前后對(duì)比見圖2至圖7(僅給出部分圖,無(wú)數(shù)據(jù)或者無(wú)效數(shù)據(jù)過多者略)。
圖2 海洋1號(hào)大浮標(biāo)有效波高和平均波高質(zhì)控前后對(duì)比圖
圖7 海洋1號(hào)大浮標(biāo)相對(duì)濕度和表層水溫質(zhì)控前后對(duì)比圖
表5 海洋1號(hào)大浮標(biāo)各質(zhì)控方法檢出異常值情況
從表5質(zhì)控結(jié)果來(lái)看,海洋1號(hào)浮標(biāo)理論記錄為2 160個(gè),實(shí)際記錄為2 087個(gè),缺失73個(gè),波數(shù)和表層鹽度數(shù)據(jù)基本缺失。檢出的異常值中,閾值檢出占大部分,主要是因?yàn)榭瞻撞糠謹(jǐn)?shù)據(jù)記錄為0,這些空白值通過閾值檢出。平均波高和平均波向、平均風(fēng)速和平均風(fēng)向則通過關(guān)聯(lián)性檢出部分異常值,但需要注意的是,由于測(cè)量原理和儀器不同,該矢量可能不是嚴(yán)格意義上的關(guān)聯(lián)矢量(大小和方向分別測(cè)量),可根據(jù)需要選擇關(guān)聯(lián)性質(zhì)控。日至15日7個(gè)大型海洋浮標(biāo)各要素?cái)?shù)據(jù)質(zhì)控統(tǒng)計(jì)結(jié)果見表6,該表中的異常值個(gè)數(shù)不含缺測(cè)數(shù)據(jù),空白值(包括空值和填充值)在異常值后面用括號(hào)單獨(dú)列出。
圖3 海洋1號(hào)大浮標(biāo)平均波向和最大波高質(zhì)控前后對(duì)比圖
圖4 海洋1號(hào)大浮標(biāo)1/10大波波高和平均風(fēng)速質(zhì)控前后對(duì)比圖
圖5 海洋1號(hào)大浮標(biāo)最大風(fēng)速和氣溫質(zhì)控前后對(duì)比圖
圖6 海洋1號(hào)大浮標(biāo)氣壓和能見度質(zhì)控前后對(duì)比圖
表6 各個(gè)大浮標(biāo)表層環(huán)境要素異常值個(gè)數(shù)統(tǒng)計(jì)
對(duì)7個(gè)海洋浮標(biāo)質(zhì)控檢出的異常值進(jìn)行人工審核時(shí),發(fā)現(xiàn)平均風(fēng)速誤刪較多,刪除標(biāo)識(shí)為4.34,表明是關(guān)聯(lián)性檢驗(yàn)時(shí)刪除,進(jìn)一步查詢?cè)瓟?shù)據(jù),發(fā)現(xiàn)是浮標(biāo)數(shù)據(jù)記錄的問題,當(dāng)風(fēng)向?yàn)?°的時(shí)候記錄為空白,導(dǎo)致質(zhì)控時(shí)風(fēng)矢量被判為異常值。對(duì)于該異常值,風(fēng)速大小通過數(shù)理統(tǒng)計(jì)未出現(xiàn)明顯異常,但缺少對(duì)應(yīng)的風(fēng)向,可以根據(jù)需要是否保留使用。
一般來(lái)說(shuō),通過質(zhì)控處理后如果還有未被剔除的異常數(shù)據(jù),很容易通過作圖比較看出,但是如果有誤刪則比較難以發(fā)現(xiàn)。在引入誤差控制后,誤刪的可能性較小,從質(zhì)控結(jié)果來(lái)看,誤刪一般發(fā)生在極端天氣或者有效數(shù)據(jù)太少的情況下,另外有些臨界值也不容易判定是否為異常值。
以海洋1號(hào)大浮標(biāo)有效波高為例,實(shí)際數(shù)據(jù)記錄為2 087條,以個(gè)人經(jīng)驗(yàn)判斷,原始數(shù)據(jù)圖8中紅線以下部分的數(shù)據(jù)都可能是異常值,共81個(gè)值。通過以上質(zhì)控檢出79個(gè)異常數(shù)據(jù)(表5),有2個(gè)數(shù)據(jù)未被判定為異常數(shù)據(jù),見圖8中A、B兩點(diǎn)。通過查看數(shù)據(jù)發(fā)現(xiàn),2017年1月2日21點(diǎn)40分(即A點(diǎn))有效波高值為0.3 m,兩側(cè)鄰近值為0.7 m,其對(duì)應(yīng)的質(zhì)量標(biāo)識(shí)為3.25,表明該值被判定為可疑值;另一個(gè)出現(xiàn)在2017年1月7日23點(diǎn)10分(即B點(diǎn))有效波高值為0.4 m,兩側(cè)鄰近值為0.7 m,其對(duì)應(yīng)的質(zhì)量標(biāo)識(shí)為1,表明該值判定為正確值。究其原因,在質(zhì)控過程中,把控制誤差設(shè)定為0.5 m[19],只要不超過控制誤差都判定為正確值,由于A、B點(diǎn)與兩端的差值均沒有超過控制誤差,所以不會(huì)被判定為異常值。因此,通過質(zhì)控后A點(diǎn)被判定為可疑值(數(shù)理統(tǒng)計(jì)判定),B點(diǎn)被判定為正確值。從圖8中也可以看出,A、B兩點(diǎn)與其他異常值所處的環(huán)境條件是不同的,這兩點(diǎn)處于波谷,環(huán)境的變化加上儀器測(cè)量的誤差,這個(gè)測(cè)量值可能是真實(shí)的,所以這個(gè)質(zhì)控結(jié)果是合理的。
圖8 海洋1號(hào)大浮標(biāo)有效波高原始數(shù)據(jù)圖
通過對(duì)7個(gè)浮標(biāo)各海洋表層環(huán)境要素質(zhì)控前后數(shù)據(jù)和圖形對(duì)比可以看出,該質(zhì)控流程和方法達(dá)到了預(yù)期的目標(biāo),異常值均被檢出并且剔除,沒有發(fā)現(xiàn)明顯異常?;谝陨腺|(zhì)控結(jié)果,采用該質(zhì)控流程和方法對(duì)小浮標(biāo)、漁排基、潮位站等同類型觀測(cè)站點(diǎn)獲取的海洋表層環(huán)境要素?cái)?shù)據(jù)進(jìn)行質(zhì)控,同樣可得到滿意的結(jié)果,但由于不同站點(diǎn)的觀測(cè)要素不完全相同,在輸入、輸出和前處理等方面要做出相應(yīng)的改變。
針對(duì)福建省海洋觀測(cè)網(wǎng)的7個(gè)海洋大浮標(biāo)表層環(huán)境要素?cái)?shù)據(jù),通過前處理質(zhì)控、數(shù)理統(tǒng)計(jì)質(zhì)控和局地質(zhì)控后可以有效地檢出異常數(shù)據(jù),再通過人工審核對(duì)一些特殊數(shù)據(jù)進(jìn)行處理,最后可根據(jù)數(shù)據(jù)的質(zhì)量標(biāo)識(shí),追蹤數(shù)據(jù)質(zhì)量的判斷依據(jù)。本文對(duì)海洋浮標(biāo)表層環(huán)境要素?cái)?shù)據(jù)質(zhì)控流程和方法的研究結(jié)論如下。
(1)前處理質(zhì)控很有必要,因?yàn)楦?biāo)數(shù)據(jù)不可避免地會(huì)有空白值及儀器維護(hù)和故障等,這些值嚴(yán)重影響數(shù)理統(tǒng)計(jì)質(zhì)控。數(shù)理統(tǒng)計(jì)質(zhì)控是質(zhì)控的核心部分,可以有效地檢出異常數(shù)據(jù),使用多種數(shù)理統(tǒng)計(jì)方法檢驗(yàn),防止漏檢。
(2)誤差控制是質(zhì)控過程中的重要環(huán)節(jié),數(shù)理統(tǒng)計(jì)和局地質(zhì)控檢出的每個(gè)異常值都要進(jìn)行誤差控制,能有效防止誤刪,人工審核為漏檢和誤刪做最后把關(guān)。
(3)質(zhì)控后對(duì)每個(gè)值進(jìn)行質(zhì)量標(biāo)識(shí),根據(jù)質(zhì)量標(biāo)識(shí)可以快速追蹤數(shù)據(jù)異常的原因,后期也可以按照質(zhì)量標(biāo)識(shí)根據(jù)實(shí)際需要使用數(shù)據(jù)。
(4)本文質(zhì)控流程和方法思路清晰,簡(jiǎn)潔實(shí)用,由于在不同質(zhì)控環(huán)節(jié)使用多種質(zhì)控方法,一般情況下不需人工干預(yù),但是在特殊環(huán)境下,存在誤刪的可能。
(5)本文質(zhì)控是基于大型海洋浮標(biāo)表層環(huán)境要素延時(shí)資料提出的,但也適用于其他同類型海洋觀測(cè)平臺(tái)獲取的延時(shí)或?qū)崟r(shí)資料。