戴文娟,雒偉民,陳靚瑜,張 峰,高靜霞,黃雅馨
(國家海洋局東海信息中心 上海市 200120)
數(shù)據(jù)的質(zhì)量控制是指采用一定方法、模型和參數(shù),判斷資料質(zhì)量可靠性與準(zhǔn)確性,并進(jìn)行質(zhì)量標(biāo)識的處理過程,數(shù)據(jù)質(zhì)量控制是數(shù)據(jù)質(zhì)量評估的基礎(chǔ)。對海洋觀測數(shù)據(jù)進(jìn)行適當(dāng)?shù)奶幚砗唾|(zhì)量控制,能夠妥善解決資料中可能存在的錯(cuò)誤,提高資料的可靠性與準(zhǔn)確性。目前海洋數(shù)據(jù)質(zhì)量控制中選用的檢驗(yàn)方法主要包括兩類:第一類是常規(guī)檢驗(yàn),主要有位置檢驗(yàn)、氣候?qū)W范圍檢驗(yàn)、合理性檢驗(yàn)(季節(jié)性、局地性)、時(shí)間連續(xù)性、異常天氣限制、雙傳感器檢驗(yàn)、內(nèi)部一致性檢驗(yàn)等方法構(gòu)成;第二類為特殊檢驗(yàn),主要由相關(guān)檢驗(yàn)、人工比對等方法構(gòu)成[1]。第一類常規(guī)檢驗(yàn)均針對某一特定的觀測要素,目前也是運(yùn)用較多的檢驗(yàn)方式。而第二類特殊檢驗(yàn)是針對兩個(gè)或者多個(gè)觀測要素在同一時(shí)段內(nèi)產(chǎn)生數(shù)據(jù)的相互檢驗(yàn),因觀測要素性質(zhì)不同、變化規(guī)律不同因而為相關(guān)檢驗(yàn)帶來了一定的復(fù)雜度。
正因?yàn)橄嚓P(guān)檢驗(yàn)的復(fù)雜性,目前在海濱觀測數(shù)據(jù)質(zhì)量控制中尚未有較通用的相關(guān)檢驗(yàn)方法,一般是通過人工氣象預(yù)報(bào)經(jīng)驗(yàn)對常規(guī)檢驗(yàn)中可疑的數(shù)據(jù)進(jìn)行相關(guān)檢驗(yàn)。每年6-9月份是東海臺風(fēng)、風(fēng)暴潮等極端天氣頻發(fā)時(shí)刻,當(dāng)極端天氣過境時(shí),風(fēng)浪數(shù)據(jù)往往可能突破正常的合理性范圍或產(chǎn)生非連續(xù)性突變,此時(shí)只有相關(guān)檢驗(yàn)就能較準(zhǔn)確地判斷該數(shù)據(jù)變化是否符合這種極端天氣的特性從而能夠判定當(dāng)前數(shù)據(jù)采集傳感器是否處于正常工作狀態(tài)(極端天氣帶來數(shù)據(jù)采集傳感器故障或異常頻率較高)。
選擇經(jīng)典的關(guān)聯(lián)規(guī)則Aprior 算法解決海濱數(shù)據(jù)相關(guān)性檢驗(yàn)的問題,將海濱觀測數(shù)據(jù)屬性分成3 類:小于等于Minin、大于Minin且小于Maxin、大于等于Maxin。通過歷史數(shù)據(jù)的挖掘建立這不同觀測要素3 種屬性的最小支持度和置信度,當(dāng)極端天氣出現(xiàn)時(shí)通過比較不同觀測要素出現(xiàn)變化的頻繁性是否與歷史數(shù)據(jù)挖掘出的最小支持度和置信度一致,來判斷觀測要素是否符合相關(guān)性檢驗(yàn)[2-4]。
Apriori 算法是挖掘關(guān)聯(lián)規(guī)則的一種重要方法,該算法屬于遞歸統(tǒng)計(jì)計(jì)算,枚舉出其可能出現(xiàn)的所有頻繁項(xiàng)集,非常適用于變化規(guī)律較一致的海濱觀測數(shù)據(jù)。只需要一次性自下而上遍歷整個(gè)數(shù)據(jù)庫,建立頻繁集出現(xiàn)規(guī)則,以后每次相關(guān)檢驗(yàn)只需要調(diào)用相應(yīng)規(guī)則比對即可[5,6]。
定義1,選擇一個(gè)事物數(shù)據(jù)庫D,D = {I1,I2,…,Ij,…,In},I 是其中每個(gè)事物集,而Ij則是其中一項(xiàng)事物,它可以由若干個(gè)項(xiàng)目構(gòu)成,可以表示為{X1,X2,X3,……},我們稱為項(xiàng)目集X,如果X 屬于Ij,那么稱事物Ij包含項(xiàng)目集X。
定義2,事物數(shù)據(jù)庫D 包含的項(xiàng)目集X 的個(gè)數(shù),我們稱為項(xiàng)目集X 的支持?jǐn)?shù),用α(X)表示。用sup port(X)表示項(xiàng)目集X 的支持度,支持度是項(xiàng)目集X 的支持?jǐn)?shù)和數(shù)據(jù)集D 的事物個(gè)數(shù)的比值。公式如下[7,8]:
定義3,如果項(xiàng)目集X 的支持度大于用戶定義的最小支持度,則稱X 為頻繁項(xiàng)目集。
定義4,如果同時(shí)存在A,B 兩個(gè)項(xiàng)目集,并且A 和B 中都包含相同的元素,就稱A圯B 為關(guān)聯(lián)規(guī)則。sup port(A圯B)為關(guān)聯(lián)規(guī)則的支持度,可以表示為sup port(A 圯B)= sup port(A∪B)。并且用confidence(A圯B)表示關(guān)聯(lián)規(guī)則的置信度,推導(dǎo)公式為:
假如事務(wù)數(shù)據(jù)庫D 有2 個(gè)項(xiàng)目集,分別為項(xiàng)目集A 和項(xiàng)目集B,根據(jù)以上定義,我們還可推導(dǎo)出如下定理:
定理1:如果項(xiàng)目集A 包含項(xiàng)目集B,也就是A勐B,一定有項(xiàng)目集B 的支持度大于等于項(xiàng)目集A 的支持度,也就是sup port(B)≥sup port(A)。
定理2:如果項(xiàng)目集A 包含項(xiàng)目集B,也就是A勐B,并且項(xiàng)目集B 不是頻繁項(xiàng)目集,那么A 也一定不是頻繁項(xiàng)目集;反過來也同樣,如果A 是頻繁項(xiàng)目集那么B 也一定是頻繁項(xiàng)目集。
Apriori 算法的基本思想是:首先找出所有的頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1 步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則,其中每一條規(guī)則的右部只有一項(xiàng),這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。具體算法步驟如下。
(1)掃描整個(gè)事物數(shù)據(jù)庫D,找到候選項(xiàng)集1-的集合A1。
(2)根據(jù)最小支持度sup_min,從找到的候選項(xiàng)A1中產(chǎn)生頻繁項(xiàng)集1-的集合I1。
(3)如果k 莨1,則重復(fù)步驟4、5、6。
(4)對Lk進(jìn)行連接和減枝操作,生成候選(k+1)-項(xiàng)集的集合Ak+1。
(5)根據(jù)最小支持度sup_min,從Ak+1中產(chǎn)生頻繁(k+1)-項(xiàng)集的集合Lk+1。
(6)如果Lk≠覫,則K=K+1,轉(zhuǎn)到步驟4,否則轉(zhuǎn)到步驟7。
(7)根據(jù)最小置信度con_min,由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。
根據(jù)關(guān)聯(lián)規(guī)則的基本概念和Apriori 算法的基本思想,結(jié)合海濱觀測歷史數(shù)據(jù),可以得到海濱觀測數(shù)據(jù)關(guān)聯(lián)規(guī)則模式提取的基本步驟。
(1)掃描海濱觀測數(shù)據(jù)庫,確定Ij為海濱月報(bào)數(shù)據(jù)文件T011、T012、T021、T022、T023、T031、T051、T052、T053、T054,各種文件包含的不同觀測要素見表1。
根據(jù)質(zhì)量控制的基本原理,首先確定每種要素其相關(guān)檢驗(yàn)的數(shù)據(jù)來源,海表溫度、鹽度數(shù)據(jù)來源于T012 文件;潮位數(shù)據(jù)來源于T023 文件;海浪數(shù)據(jù)來源于T031 文件;氣壓、氣溫相對濕度、降水量數(shù)據(jù)來源于T054 文件;風(fēng)速風(fēng)向來源于T053 文件。最終要素間的相關(guān)性檢驗(yàn)就是對T012、T023、T031、T053、T054 文件數(shù)據(jù)提取后進(jìn)行文件間的相關(guān)性檢驗(yàn)。
表1 海濱月報(bào)數(shù)據(jù)觀測要素表
(2)通過每個(gè)從歷史資料(2006-2012年海濱觀測數(shù)據(jù))中挑選出該海洋站該要素的歷年當(dāng)月極大值的平均值(Maxin)和歷年當(dāng)月極小值的平均值(Minin),作為該站該要素屬性的邊界。將所有觀測要素賦予3 類項(xiàng)目屬性,小于等于Minin、大于Minin且小于Maxin、大于等于Maxin。不同情況的觀測要素的項(xiàng)目屬性表示如表2 所示,觀測屬性的代碼賦值如表3 所示。
表2 海濱觀測要素?cái)?shù)值項(xiàng)目屬性表示表
表3 海濱觀測要素屬性對應(yīng)代碼
(3)通過項(xiàng)目屬性中數(shù)值“1”計(jì)算不同觀測要素的頻繁項(xiàng)集并計(jì)算最小置信度con_min,即由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。若推理得出降水量的最小置信度con_min 大于1,那么其含義為降水量的X 項(xiàng)目非(0,0,1)。將1.3 章節(jié)的算法代入選擇某海洋站的某月部分?jǐn)?shù)據(jù)進(jìn)行實(shí)驗(yàn)計(jì)算結(jié)果如圖1。
圖1 海濱觀測相關(guān)性檢驗(yàn)事例數(shù)據(jù)計(jì)算結(jié)果
選擇東海區(qū)某觀測站點(diǎn)2006-2012年間觀測月報(bào)數(shù)據(jù)的統(tǒng)計(jì)計(jì)算部分強(qiáng)關(guān)聯(lián)規(guī)則如表4。
表4 海濱觀測要素的部分強(qiáng)關(guān)聯(lián)規(guī)則
2012年8月東海區(qū)沿海遭遇達(dá)維、???、天秤、布拉萬等多個(gè)臺風(fēng)登陸,該月海濱觀測數(shù)據(jù)報(bào)文通過常規(guī)質(zhì)量控制軟件發(fā)現(xiàn)多處數(shù)據(jù)可疑,為了進(jìn)一步判斷該數(shù)據(jù)可疑是觀測真實(shí)情況還是因儀器故障等生成的無效數(shù)據(jù),因此對該月數(shù)據(jù)報(bào)文采用基于Apriori 算法的關(guān)聯(lián)規(guī)則模式進(jìn)行相關(guān)性檢驗(yàn)。
分別導(dǎo)入可疑數(shù)據(jù)較多的3 個(gè)海洋站崇武(CWU)、東海大橋(DHQ)、大戟山(DJS)。導(dǎo)入每個(gè)海洋站的T012、T023、T031、T053、T054 5 個(gè)文件。
選擇臺風(fēng)過境時(shí)最可能出現(xiàn)的風(fēng)速增大模式對可疑數(shù)據(jù)進(jìn)行相關(guān)性檢驗(yàn)。選擇需要相關(guān)性檢驗(yàn)的要素崇武站是溫度、潮位,東海大橋站是溫度、鹽度、波浪,大戟山站是潮位、降水量。
經(jīng)檢驗(yàn)崇武海洋站可疑的溫度潮位變化,符合相關(guān)性檢驗(yàn),當(dāng)風(fēng)速突然增大時(shí)溫度下降速度較快,潮位有較大的上升。
圖2 崇武站傳統(tǒng)檢驗(yàn)提示數(shù)據(jù)可疑
經(jīng)檢驗(yàn)東海大橋海洋站可疑的溫度、鹽度、波浪數(shù)據(jù)不符合相關(guān)性檢驗(yàn),當(dāng)風(fēng)速突然增大時(shí)溫度上升,鹽度增大后降低,波高無明顯變化,周期變小,經(jīng)于當(dāng)?shù)睾Q笳韭?lián)系因臺風(fēng)導(dǎo)致傳感器異常故障,該月所有數(shù)據(jù)均做缺測處理。
經(jīng)檢驗(yàn)大戟山海洋站可疑的潮位和降水量,符合相關(guān)性檢驗(yàn),當(dāng)風(fēng)速增大時(shí)潮位有較大變化,降水量突增。
海濱觀測數(shù)據(jù)質(zhì)量控制是海洋防災(zāi)減災(zāi)領(lǐng)域的一項(xiàng)重要工作,海洋預(yù)報(bào)及海洋變化研究對數(shù)據(jù)的質(zhì)量均有較高的要求。在實(shí)際工作中海濱觀測數(shù)據(jù)質(zhì)量控制正通過歷史經(jīng)驗(yàn)的積累逐步走向自動化、智能化。數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中抽取出隱含在其中不為人所注意的有用信息的過程,關(guān)聯(lián)規(guī)則時(shí)數(shù)據(jù)挖掘領(lǐng)域重要的研究方向。而海濱觀測的各種數(shù)據(jù)并不是相互孤立的,在同一時(shí)間內(nèi)其不同觀測要素之間有著強(qiáng)烈的相關(guān)性,發(fā)掘其之間的相關(guān)性作為其相關(guān)性檢驗(yàn)的基礎(chǔ)是該研究的核心思想[9,10]。
實(shí)驗(yàn)數(shù)據(jù)證明通過選擇不同場景模式進(jìn)行相關(guān)性檢驗(yàn),可以較好地對常規(guī)數(shù)據(jù)質(zhì)量控制中的可疑數(shù)據(jù)進(jìn)一步質(zhì)量控制,從而判斷數(shù)據(jù)是否可用,可以作為今后工作中數(shù)據(jù)相關(guān)性檢驗(yàn)的方法。然后該方法還有較多缺陷,例如規(guī)則模式無法通過人工智能的自學(xué)習(xí)進(jìn)行自動更新,相關(guān)性檢驗(yàn)僅能判斷數(shù)據(jù)變化的趨勢性,而無法更加精確地研究數(shù)據(jù)變化的范圍,該缺陷有待后續(xù)進(jìn)一步研究。
[1] 于婷,劉玉龍,等.實(shí)時(shí)和延時(shí)海洋觀測數(shù)據(jù)質(zhì)量評估方法研究[J].海洋通報(bào),2013(6):610-615.
[2] 李廣霞,思亮.關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法研究[J].軟件導(dǎo)刊,2014(4):14-17.
[3] 毛國君,段立娟,王實(shí),等.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社,2007.
[4] 金蛟.回歸模型的相關(guān)性檢驗(yàn)[J].北京師范大學(xué)學(xué)報(bào),2007(43):591-594.
[5] 李宏偉.基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)在中長期水文預(yù)報(bào)中的應(yīng)用[J].人民珠江,2013(6):21-25.
[6] 呂杰,林陳是維.基于相關(guān)性度量的關(guān)聯(lián)規(guī)則挖掘[J].浙江大學(xué)學(xué)報(bào),2012(39):285-288.
[7] 俊芳,謝益武,周生寶.關(guān)聯(lián)規(guī)則相關(guān)性的度量[J].計(jì)算機(jī)應(yīng)用,2007(4):891-896.
[8] 張玉芳,熊忠陽,彭燕,等.基于興趣度含正負(fù)項(xiàng)目的關(guān)聯(lián)規(guī)則挖掘方法[J].電子科技大學(xué)學(xué)報(bào),2010(3):407-411.
[9] 廖琴,郝志峰,陳志宏.數(shù)據(jù)挖掘與數(shù)學(xué)建模[M].北京:國防工業(yè)出版社,2010.
[10] 尚志,粱寶華,趙小龍,等.正負(fù)關(guān)聯(lián)規(guī)則量化方法[J].計(jì)算機(jī)工程,2009(15),74-76.