李濤 張燦 張帥弛 陸正邦
摘 要: 為了提高海洋漂流浮標(biāo)觀測(cè)數(shù)據(jù)的質(zhì)量,提出一種新的基于興趣度模型的關(guān)聯(lián)規(guī)則挖掘算法。通過該關(guān)聯(lián)規(guī)則算法挖掘浮標(biāo)觀測(cè)數(shù)據(jù),提取出所有關(guān)聯(lián)項(xiàng)對(duì)形成范例庫,以此構(gòu)建海洋漂流浮標(biāo)數(shù)據(jù)質(zhì)量控制模型,并與傳統(tǒng)數(shù)據(jù)質(zhì)量控制方法對(duì)比,發(fā)現(xiàn)基于新的關(guān)聯(lián)規(guī)則算法的質(zhì)量控制模型在檢出率和靈敏度以及性能方面有極大提高,非常具有可行性。通過真實(shí)數(shù)據(jù)驗(yàn)證表明,新算法不僅能夠挖掘出所有相關(guān)性很強(qiáng)的規(guī)則,與同類非Apriori類算法相比,在時(shí)間性能上更加優(yōu)越。
關(guān)鍵詞: 海洋漂流浮標(biāo); 興趣度; 關(guān)聯(lián)規(guī)則; 挖掘算法; 氣象數(shù)據(jù); 質(zhì)量控制
中圖分類號(hào): TN011?34; TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2018)22?0138?05
Abstract: A new association rule mining algorithm based on the interestingness model is proposed to improve the observation data quality of the ocean drifting buoy. The association rule algorithm is adopted to mine the buoy observation data, so as to extract all the correlation pairs to form a sample database, based on which the data quality control model of the ocean drifting buoy is constructed. By comparing with the traditional data quality control methods, it is found that the quality control model based on the new association rule algorithm has improved a lot in detection rate, sensitivity and performance, which is of great feasibility. The results of the real data verification show that the new algorithm can mine all rules with strong correlation, and has more superior time performance than other non?Apriori algorithms of the same class.
Keywords: ocean drifting buoy; interestingness; association rule; mining algorithm; meteorological data; quality control
海洋漂流浮標(biāo)憑借自身體積小、重量輕、便于投放等一系列特點(diǎn)成為海洋水文觀測(cè)的重要工具之一。為了確保觀測(cè)數(shù)據(jù)的準(zhǔn)確性和實(shí)用性,對(duì)獲取的海量觀測(cè)數(shù)據(jù)進(jìn)行科學(xué)有效的質(zhì)量控制必不可少。一般而言,漂流浮標(biāo)數(shù)據(jù)的質(zhì)控內(nèi)容有時(shí)間一致性質(zhì)控、位置質(zhì)控、梯度質(zhì)控、極值控制等。其核心內(nèi)容是對(duì)觀測(cè)數(shù)據(jù)中異常值的質(zhì)控。海洋數(shù)據(jù)中異常值的檢測(cè)常抽象為離群數(shù)據(jù)的搜索和聚類[1]。關(guān)于時(shí)間序列異常值的判定,比較常用且具有共性特征的是基于經(jīng)典統(tǒng)計(jì)理論的離群點(diǎn)檢測(cè)方法[2]。該檢測(cè)方法對(duì)單個(gè)異常點(diǎn)判斷比較準(zhǔn)確。而異常值常以連續(xù)多個(gè)的復(fù)雜方式出現(xiàn),甚至在小段時(shí)間內(nèi)可能超過正常數(shù)據(jù)的量。因此,基于統(tǒng)計(jì)理論的海洋數(shù)據(jù)異常值檢測(cè)法很難對(duì)這些數(shù)據(jù)進(jìn)行有效的判斷。海洋觀測(cè)數(shù)據(jù)種類多,而對(duì)不同類型的異常值判斷沒有一種普適性的異常檢測(cè)方法。雖然在海洋數(shù)據(jù)質(zhì)量控制方法存在大量的研究成果,但是內(nèi)容主要圍繞質(zhì)控共性理論方法進(jìn)行研究[3?4]。應(yīng)用于浮標(biāo)數(shù)據(jù)且具有可行性的質(zhì)控方法流程比較少見。
本文從關(guān)聯(lián)規(guī)則在孤立點(diǎn)分析和異常檢測(cè)中[5?6]的應(yīng)用出發(fā),結(jié)合氣象觀測(cè)數(shù)據(jù)的特點(diǎn)以及誤差等背景,提出基于關(guān)聯(lián)規(guī)則的海洋浮標(biāo)氣象觀測(cè)數(shù)據(jù)的質(zhì)量控制模型。接著從相關(guān)性角度出發(fā)提出一種新的基于興趣度的關(guān)聯(lián)規(guī)則挖掘算法,通過項(xiàng)或項(xiàng)對(duì)的超集的興趣度上界來裁剪搜索空間[7],不僅避免了傳統(tǒng)關(guān)聯(lián)規(guī)則挖掘算法的不足,而且在時(shí)間性能上提高更顯著。
2.1 算法主要思想
2.3 實(shí)驗(yàn)分析
分別在這兩組數(shù)據(jù)集上將本文算法與未使用上界剪枝算法的運(yùn)行時(shí)間做對(duì)比。如圖1、圖2所示,兩種算法的運(yùn)行時(shí)間都隨著最小興趣度閾值t的逐漸增大而減少;相比于以往算法,新算法的運(yùn)行效率和時(shí)間性能顯著提升。將該算法作為海洋氣象觀測(cè)數(shù)據(jù)質(zhì)控方法的基礎(chǔ),提高了挖掘效率。
3.1 數(shù)據(jù)準(zhǔn)備及變換
本文使用的數(shù)據(jù)是某海域歷史海洋浮標(biāo)記錄,實(shí)驗(yàn)選擇了海風(fēng)、海浪、海流、溫度、鹽度等氣象要素作為考察對(duì)象。由于數(shù)據(jù)量多,首先需要對(duì)原始的數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理。由于關(guān)聯(lián)規(guī)則挖掘目前無法處理量化的連續(xù)數(shù)據(jù),需要對(duì)每個(gè)要素?cái)?shù)據(jù)進(jìn)行離散化,按照每個(gè)要素的屬性值劃分為不同的區(qū)間。區(qū)間劃分的標(biāo)準(zhǔn)為8段或9段。按照區(qū)間段為8段劃分,數(shù)據(jù)預(yù)處理結(jié)果見表2。溫度要素離散化可劃分為{q1,q2,…,q8}。
3.2 模型總流程
使用前述基于興趣度的關(guān)聯(lián)規(guī)則算法對(duì)經(jīng)過預(yù)處理后的海洋浮標(biāo)觀測(cè)數(shù)據(jù)進(jìn)行挖掘得到關(guān)聯(lián)項(xiàng)對(duì),將所有關(guān)聯(lián)項(xiàng)對(duì)作為規(guī)則集范例庫。然后將植入誤差后的待測(cè)數(shù)據(jù)集于規(guī)則庫中進(jìn)行匹配,檢測(cè)出異常數(shù)據(jù),從而達(dá)到質(zhì)量控制的目的。
基于關(guān)聯(lián)規(guī)則的氣象觀測(cè)數(shù)據(jù)質(zhì)制算法主要包含了三大步驟,即數(shù)據(jù)預(yù)處理、產(chǎn)生關(guān)聯(lián)規(guī)則、規(guī)則匹配。
1) 數(shù)據(jù)預(yù)處理階段:數(shù)據(jù)離散化;
2) 關(guān)聯(lián)規(guī)則階段:通過挖掘算法挖掘出關(guān)聯(lián)規(guī)則;
3) 規(guī)則匹配階段:將待測(cè)數(shù)據(jù)與規(guī)則集中每條規(guī)則進(jìn)行匹配。
先在當(dāng)前記錄中搜索當(dāng)前規(guī)則的前項(xiàng),如果找不到,判定此條規(guī)則不適用于該條記錄,放棄匹配,轉(zhuǎn)向規(guī)則集的下一條規(guī)則;如果在此記錄中找到該規(guī)則的前項(xiàng),則認(rèn)為此條規(guī)則適用于這條記錄,繼續(xù)在記錄中尋找當(dāng)前規(guī)則中的后項(xiàng),如果可以找到,那么認(rèn)為此條規(guī)則匹配當(dāng)前記錄,判斷為匹配正常;如果找不到,則認(rèn)為當(dāng)前記錄不適用于這條規(guī)則,判斷為匹配異常。
學(xué)習(xí)階段建立的關(guān)聯(lián)規(guī)則集數(shù)目較大,為了提高檢測(cè)性能和效率,在匹配過程中做如下處理:
情況1:當(dāng)前規(guī)則不適用于當(dāng)前記錄,從規(guī)則集中提取下一條規(guī)則進(jìn)行匹配,直到出現(xiàn)情況2;若遍歷所有規(guī)則集都沒找到適用的規(guī)則,定位該記錄為異常。
情況2:當(dāng)前記錄不匹配當(dāng)前規(guī)則,則認(rèn)為當(dāng)前記錄可能為異常,繼續(xù)在規(guī)則集中尋找不匹配的規(guī)則,直到出現(xiàn)u條不匹配的規(guī)則,則定位該記錄為異常。
整個(gè)規(guī)則匹配的流程圖如圖3所示。
實(shí)驗(yàn)有兩個(gè)參數(shù)控制,首先根據(jù)相關(guān)系數(shù)t的設(shè)置,挖掘出相關(guān)性很高的項(xiàng)對(duì);參數(shù)u設(shè)置越大異常記錄越多,u設(shè)置越小,挖掘出的異常記錄越少。所以這兩個(gè)參數(shù)需要經(jīng)過實(shí)驗(yàn)分析。
3.3 實(shí)驗(yàn)分析
首先從訓(xùn)練數(shù)據(jù)集中選取兩條各500行的測(cè)試數(shù)據(jù)A和B。其中數(shù)據(jù)A的前18行數(shù)據(jù)和B中的前12行數(shù)據(jù)手動(dòng)植入誤差,使A中的第1~18行、B中的第1~12行數(shù)據(jù)是異常數(shù)據(jù)。
對(duì)于異常記錄的檢測(cè)效果,用檢測(cè)率、誤檢率[10]兩個(gè)參數(shù)來衡量。
1) 檢測(cè)率:檢測(cè)出的異常記錄的概率。
2) 誤檢率:檢測(cè)到的記錄中不是異常記錄的個(gè)數(shù)占總的數(shù)據(jù)異常記錄的百分比。
理想狀態(tài)下,檢測(cè)數(shù)達(dá)到百分之百,而誤檢數(shù)為零。
例如測(cè)試A組數(shù)據(jù),若結(jié)果檢測(cè)到18條記錄,且這18條記錄就是第1~18行數(shù)據(jù),那么此時(shí)檢測(cè)率達(dá)到100%,誤檢率為0。
因此針對(duì)A和B兩組測(cè)試數(shù)據(jù),調(diào)整相關(guān)系數(shù)t與u不同的參數(shù)值,檢測(cè)結(jié)果如表3,表4所示。
通過兩組數(shù)據(jù)實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)相關(guān)系數(shù)t不變時(shí),參數(shù)u越大,則挖掘出的記錄越少,同時(shí)挖掘出的異常記錄也會(huì)越少,檢測(cè)率也會(huì)越小。而隨著相關(guān)系數(shù)t的不斷增大,為了最大可能地挖掘出所有異常記錄,保證高檢測(cè)率和低誤檢率,參數(shù)u取值會(huì)不斷的減小,因?yàn)殡S著t的增加,范例庫中挖掘到關(guān)聯(lián)規(guī)則數(shù)目減少,而記錄不匹配規(guī)則的數(shù)目也會(huì)減少,所以參數(shù)u取值會(huì)降低。
且通過兩組實(shí)驗(yàn)發(fā)現(xiàn),每組實(shí)驗(yàn)都有一個(gè)最優(yōu)參數(shù)值使得檢測(cè)效果最好。例如A組實(shí)驗(yàn)中當(dāng)相關(guān)系數(shù)t等于0.5時(shí),參數(shù)u取值為14時(shí),檢測(cè)率為100%,誤檢率為0,它檢測(cè)出了測(cè)試數(shù)據(jù)中所有的異常記錄。而在B組數(shù)據(jù)實(shí)驗(yàn)中,巧合地發(fā)現(xiàn)同樣在t=0.5,u=14時(shí),檢測(cè)率為100%,誤檢率為0,檢測(cè)效果最好。為了防止出現(xiàn)偶然性存在,除在本文中的兩組試驗(yàn)外,在其他測(cè)試數(shù)據(jù)上做了大量的實(shí)驗(yàn)對(duì)比,同樣發(fā)現(xiàn)當(dāng)t = 0.5,u在14周圍取值時(shí),檢測(cè)效果最佳。通過參數(shù)優(yōu)化使得浮標(biāo)數(shù)據(jù)異常記錄的檢測(cè)率接近100%,而誤檢率為0。
以上是基于新的關(guān)聯(lián)規(guī)則挖掘算法實(shí)現(xiàn)的海洋氣象浮標(biāo)觀測(cè)數(shù)據(jù)質(zhì)控模型。下面以海洋數(shù)據(jù)其他質(zhì)控方法即極值控制法、一致性檢驗(yàn)控制方法與本文提出的質(zhì)控模型算法進(jìn)行錯(cuò)誤數(shù)據(jù)檢測(cè)分析。表5和表6分別是針對(duì)測(cè)試數(shù)據(jù)A和B進(jìn)行傳統(tǒng)質(zhì)控的結(jié)果分析。
本文針對(duì)傳統(tǒng)質(zhì)量控制算法的不足,提出基于關(guān)聯(lián)規(guī)則算法的數(shù)據(jù)質(zhì)量控制方法。通過與傳統(tǒng)的質(zhì)控方法對(duì)比發(fā)現(xiàn),新的質(zhì)控方法在精度和靈敏度方面都得到了很大提高,并驗(yàn)證了所提方法的可行性。依據(jù)這套質(zhì)控算法,應(yīng)用到海洋氣象浮標(biāo)觀測(cè)數(shù)據(jù)質(zhì)量檢測(cè)中,準(zhǔn)確而又快速地找到異常觀測(cè)數(shù)據(jù),具有很高的實(shí)際應(yīng)用價(jià)值。
參考文獻(xiàn)
[1] 胡瑩.Argo剖面浮標(biāo)數(shù)據(jù)異常檢測(cè)方法研究[D].桂林:桂林電子科技大學(xué),2016.
HU Ying. Research on buoy data anomaly detection method of Argo profile [D]. Guilin: Guilin University of Electronic Technology, 2016.
[2] 陳斌.異常檢測(cè)方法及其關(guān)鍵技術(shù)研究[D].南京:南京航空航天大學(xué),2013.
CHEN Bin. Research on outlier detection method and its key techniques [D]. Nanjing: Nanjing University of Aeronautics and Astronautics, 2013.
[3] 于婷,劉玉龍,楊錦坤,等.實(shí)時(shí)和延時(shí)海洋觀測(cè)數(shù)據(jù)質(zhì)量控制評(píng)估方法研究[J].海洋通報(bào),2013,32(6):610?614.
YU Ting, LIU Yulong, YANG Jinkun, et al. Study on the quality control and quality assurance for the oceanographic data of real?time and delayed mode [J]. Marine science bulletin, 2013, 32(6): 610?614.
[4] 鄭琳,劉艷,崔文林,等.海洋觀測(cè)數(shù)據(jù)質(zhì)量控制評(píng)估研究[J].海洋通報(bào),2014,33(2):228?234.
ZHENG Lin, LIU Yan, CUI Wenlin, et al. Research on the quality assessment of marine environmental monitoring data [J]. Marine science bulletin, 2014, 33(2): 228?234.
[5] 鄭忠平.基于關(guān)聯(lián)規(guī)則和聚類分析的異常天氣挖掘[D].成都:電子科技大學(xué),2011.
ZHENG Zhongping. Anomaly weather mining based on association rules and cluster analysis [D]. Chengdu: University of Electronic Science and Technology of China, 2011.
[6] 溫玉波.海洋環(huán)境觀測(cè)數(shù)據(jù)的質(zhì)量控制研究[J].農(nóng)業(yè)網(wǎng)絡(luò)信息,2014(2):35?38.
WEN Yubo. Study on the quality control of marine environment observation data [J]. Agriculture network information, 2014(2): 35?38.
[7] 李濤,林陳,王麗娜.一種改進(jìn)的相關(guān)項(xiàng)對(duì)挖掘算法研究[J].計(jì)算機(jī)仿真,2016,33(8):223?228.
LI Tao, LIN Chen, WANG Lina. An improved algorithm research on mining correlation pairs [J]. Computer simulation, 2016, 33(8): 223?228.
[8] 呂杰林,陳是維.基于相關(guān)性度量的關(guān)聯(lián)規(guī)則挖掘[J].浙江大學(xué)學(xué)報(bào)(理學(xué)版),2012,39(3):284?288.
L? Jielin, CHEN Shiwei. Mining association rules based on correlation measure [J]. Journal of Zhejiang University (Science edition), 2012, 39(3): 284?288.
[9] 彭昱忠,王謙,元昌安,等.數(shù)據(jù)挖掘技術(shù)在氣象預(yù)報(bào)研究中的應(yīng)用[J].干旱氣象,2015,33(1):19?27.
PENG Yuzhong, WANG Qian, YUAN Changan, et al. Review of research on data mining in application of meteorological forecasting [J]. Journal of arid meteorology, 2015, 33(1): 19?27.
[10] 袁遇晴,況湘玲,凌利軍.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)入侵檢測(cè)模式研究[J].計(jì)算機(jī)安全,2014,7(17):14?17.
YUAN Yuqing, KUANG Xiangling, LING Lijun, et al. Research on intrusion detection based on data mining [J]. Computer security, 2014, 7(17): 14?17.