国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Aprior 算法在海濱觀測數(shù)據(jù)相關(guān)性檢驗(yàn)中的應(yīng)用

2014-12-14 08:51:16戴文娟雒偉民陳靚瑜高靜霞黃雅馨
關(guān)鍵詞:海濱項(xiàng)集關(guān)聯(lián)

戴文娟,雒偉民,陳靚瑜,張 峰,高靜霞,黃雅馨

(國家海洋局東海信息中心 上海市 200120)

數(shù)據(jù)的質(zhì)量控制是指采用一定方法、模型和參數(shù),判斷資料質(zhì)量可靠性與準(zhǔn)確性,并進(jìn)行質(zhì)量標(biāo)識的處理過程,數(shù)據(jù)質(zhì)量控制是數(shù)據(jù)質(zhì)量評估的基礎(chǔ)。對海洋觀測數(shù)據(jù)進(jìn)行適當(dāng)?shù)奶幚砗唾|(zhì)量控制,能夠妥善解決資料中可能存在的錯(cuò)誤,提高資料的可靠性與準(zhǔn)確性。目前海洋數(shù)據(jù)質(zhì)量控制中選用的檢驗(yàn)方法主要包括兩類:第一類是常規(guī)檢驗(yàn),主要有位置檢驗(yàn)、氣候?qū)W范圍檢驗(yàn)、合理性檢驗(yàn)(季節(jié)性、局地性)、時(shí)間連續(xù)性、異常天氣限制、雙傳感器檢驗(yàn)、內(nèi)部一致性檢驗(yàn)等方法構(gòu)成;第二類為特殊檢驗(yàn),主要由相關(guān)檢驗(yàn)、人工比對等方法構(gòu)成[1]。第一類常規(guī)檢驗(yàn)均針對某一特定的觀測要素,目前也是運(yùn)用較多的檢驗(yàn)方式。而第二類特殊檢驗(yàn)是針對兩個(gè)或者多個(gè)觀測要素在同一時(shí)段內(nèi)產(chǎn)生數(shù)據(jù)的相互檢驗(yàn),因觀測要素性質(zhì)不同、變化規(guī)律不同因而為相關(guān)檢驗(yàn)帶來了一定的復(fù)雜度。

正因?yàn)橄嚓P(guān)檢驗(yàn)的復(fù)雜性,目前在海濱觀測數(shù)據(jù)質(zhì)量控制中尚未有較通用的相關(guān)檢驗(yàn)方法,一般是通過人工氣象預(yù)報(bào)經(jīng)驗(yàn)對常規(guī)檢驗(yàn)中可疑的數(shù)據(jù)進(jìn)行相關(guān)檢驗(yàn)。每年6-9月份是東海臺風(fēng)、風(fēng)暴潮等極端天氣頻發(fā)時(shí)刻,當(dāng)極端天氣過境時(shí),風(fēng)浪數(shù)據(jù)往往可能突破正常的合理性范圍或產(chǎn)生非連續(xù)性突變,此時(shí)只有相關(guān)檢驗(yàn)就能較準(zhǔn)確地判斷該數(shù)據(jù)變化是否符合這種極端天氣的特性從而能夠判定當(dāng)前數(shù)據(jù)采集傳感器是否處于正常工作狀態(tài)(極端天氣帶來數(shù)據(jù)采集傳感器故障或異常頻率較高)。

選擇經(jīng)典的關(guān)聯(lián)規(guī)則Aprior 算法解決海濱數(shù)據(jù)相關(guān)性檢驗(yàn)的問題,將海濱觀測數(shù)據(jù)屬性分成3 類:小于等于Minin、大于Minin且小于Maxin、大于等于Maxin。通過歷史數(shù)據(jù)的挖掘建立這不同觀測要素3 種屬性的最小支持度和置信度,當(dāng)極端天氣出現(xiàn)時(shí)通過比較不同觀測要素出現(xiàn)變化的頻繁性是否與歷史數(shù)據(jù)挖掘出的最小支持度和置信度一致,來判斷觀測要素是否符合相關(guān)性檢驗(yàn)[2-4]。

1 Apriori 算法

Apriori 算法是挖掘關(guān)聯(lián)規(guī)則的一種重要方法,該算法屬于遞歸統(tǒng)計(jì)計(jì)算,枚舉出其可能出現(xiàn)的所有頻繁項(xiàng)集,非常適用于變化規(guī)律較一致的海濱觀測數(shù)據(jù)。只需要一次性自下而上遍歷整個(gè)數(shù)據(jù)庫,建立頻繁集出現(xiàn)規(guī)則,以后每次相關(guān)檢驗(yàn)只需要調(diào)用相應(yīng)規(guī)則比對即可[5,6]。

1.1 關(guān)聯(lián)規(guī)則的定義

定義1,選擇一個(gè)事物數(shù)據(jù)庫D,D = {I1,I2,…,Ij,…,In},I 是其中每個(gè)事物集,而Ij則是其中一項(xiàng)事物,它可以由若干個(gè)項(xiàng)目構(gòu)成,可以表示為{X1,X2,X3,……},我們稱為項(xiàng)目集X,如果X 屬于Ij,那么稱事物Ij包含項(xiàng)目集X。

定義2,事物數(shù)據(jù)庫D 包含的項(xiàng)目集X 的個(gè)數(shù),我們稱為項(xiàng)目集X 的支持?jǐn)?shù),用α(X)表示。用sup port(X)表示項(xiàng)目集X 的支持度,支持度是項(xiàng)目集X 的支持?jǐn)?shù)和數(shù)據(jù)集D 的事物個(gè)數(shù)的比值。公式如下[7,8]:

定義3,如果項(xiàng)目集X 的支持度大于用戶定義的最小支持度,則稱X 為頻繁項(xiàng)目集。

定義4,如果同時(shí)存在A,B 兩個(gè)項(xiàng)目集,并且A 和B 中都包含相同的元素,就稱A圯B 為關(guān)聯(lián)規(guī)則。sup port(A圯B)為關(guān)聯(lián)規(guī)則的支持度,可以表示為sup port(A 圯B)= sup port(A∪B)。并且用confidence(A圯B)表示關(guān)聯(lián)規(guī)則的置信度,推導(dǎo)公式為:

1.2 關(guān)聯(lián)規(guī)則的定理

假如事務(wù)數(shù)據(jù)庫D 有2 個(gè)項(xiàng)目集,分別為項(xiàng)目集A 和項(xiàng)目集B,根據(jù)以上定義,我們還可推導(dǎo)出如下定理:

定理1:如果項(xiàng)目集A 包含項(xiàng)目集B,也就是A勐B,一定有項(xiàng)目集B 的支持度大于等于項(xiàng)目集A 的支持度,也就是sup port(B)≥sup port(A)。

定理2:如果項(xiàng)目集A 包含項(xiàng)目集B,也就是A勐B,并且項(xiàng)目集B 不是頻繁項(xiàng)目集,那么A 也一定不是頻繁項(xiàng)目集;反過來也同樣,如果A 是頻繁項(xiàng)目集那么B 也一定是頻繁項(xiàng)目集。

1.3 關(guān)聯(lián)規(guī)則挖掘

Apriori 算法的基本思想是:首先找出所有的頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1 步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則,其中每一條規(guī)則的右部只有一項(xiàng),這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。具體算法步驟如下。

(1)掃描整個(gè)事物數(shù)據(jù)庫D,找到候選項(xiàng)集1-的集合A1。

(2)根據(jù)最小支持度sup_min,從找到的候選項(xiàng)A1中產(chǎn)生頻繁項(xiàng)集1-的集合I1。

(3)如果k 莨1,則重復(fù)步驟4、5、6。

(4)對Lk進(jìn)行連接和減枝操作,生成候選(k+1)-項(xiàng)集的集合Ak+1。

(5)根據(jù)最小支持度sup_min,從Ak+1中產(chǎn)生頻繁(k+1)-項(xiàng)集的集合Lk+1。

(6)如果Lk≠覫,則K=K+1,轉(zhuǎn)到步驟4,否則轉(zhuǎn)到步驟7。

(7)根據(jù)最小置信度con_min,由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。

2 海濱觀測數(shù)據(jù)中關(guān)聯(lián)規(guī)則模式提取

根據(jù)關(guān)聯(lián)規(guī)則的基本概念和Apriori 算法的基本思想,結(jié)合海濱觀測歷史數(shù)據(jù),可以得到海濱觀測數(shù)據(jù)關(guān)聯(lián)規(guī)則模式提取的基本步驟。

(1)掃描海濱觀測數(shù)據(jù)庫,確定Ij為海濱月報(bào)數(shù)據(jù)文件T011、T012、T021、T022、T023、T031、T051、T052、T053、T054,各種文件包含的不同觀測要素見表1。

根據(jù)質(zhì)量控制的基本原理,首先確定每種要素其相關(guān)檢驗(yàn)的數(shù)據(jù)來源,海表溫度、鹽度數(shù)據(jù)來源于T012 文件;潮位數(shù)據(jù)來源于T023 文件;海浪數(shù)據(jù)來源于T031 文件;氣壓、氣溫相對濕度、降水量數(shù)據(jù)來源于T054 文件;風(fēng)速風(fēng)向來源于T053 文件。最終要素間的相關(guān)性檢驗(yàn)就是對T012、T023、T031、T053、T054 文件數(shù)據(jù)提取后進(jìn)行文件間的相關(guān)性檢驗(yàn)。

表1 海濱月報(bào)數(shù)據(jù)觀測要素表

(2)通過每個(gè)從歷史資料(2006-2012年海濱觀測數(shù)據(jù))中挑選出該海洋站該要素的歷年當(dāng)月極大值的平均值(Maxin)和歷年當(dāng)月極小值的平均值(Minin),作為該站該要素屬性的邊界。將所有觀測要素賦予3 類項(xiàng)目屬性,小于等于Minin、大于Minin且小于Maxin、大于等于Maxin。不同情況的觀測要素的項(xiàng)目屬性表示如表2 所示,觀測屬性的代碼賦值如表3 所示。

表2 海濱觀測要素?cái)?shù)值項(xiàng)目屬性表示表

表3 海濱觀測要素屬性對應(yīng)代碼

(3)通過項(xiàng)目屬性中數(shù)值“1”計(jì)算不同觀測要素的頻繁項(xiàng)集并計(jì)算最小置信度con_min,即由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。若推理得出降水量的最小置信度con_min 大于1,那么其含義為降水量的X 項(xiàng)目非(0,0,1)。將1.3 章節(jié)的算法代入選擇某海洋站的某月部分?jǐn)?shù)據(jù)進(jìn)行實(shí)驗(yàn)計(jì)算結(jié)果如圖1。

圖1 海濱觀測相關(guān)性檢驗(yàn)事例數(shù)據(jù)計(jì)算結(jié)果

選擇東海區(qū)某觀測站點(diǎn)2006-2012年間觀測月報(bào)數(shù)據(jù)的統(tǒng)計(jì)計(jì)算部分強(qiáng)關(guān)聯(lián)規(guī)則如表4。

表4 海濱觀測要素的部分強(qiáng)關(guān)聯(lián)規(guī)則

3 模式在海濱觀測數(shù)據(jù)相關(guān)檢驗(yàn)中的應(yīng)用

2012年8月東海區(qū)沿海遭遇達(dá)維、???、天秤、布拉萬等多個(gè)臺風(fēng)登陸,該月海濱觀測數(shù)據(jù)報(bào)文通過常規(guī)質(zhì)量控制軟件發(fā)現(xiàn)多處數(shù)據(jù)可疑,為了進(jìn)一步判斷該數(shù)據(jù)可疑是觀測真實(shí)情況還是因儀器故障等生成的無效數(shù)據(jù),因此對該月數(shù)據(jù)報(bào)文采用基于Apriori 算法的關(guān)聯(lián)規(guī)則模式進(jìn)行相關(guān)性檢驗(yàn)。

分別導(dǎo)入可疑數(shù)據(jù)較多的3 個(gè)海洋站崇武(CWU)、東海大橋(DHQ)、大戟山(DJS)。導(dǎo)入每個(gè)海洋站的T012、T023、T031、T053、T054 5 個(gè)文件。

選擇臺風(fēng)過境時(shí)最可能出現(xiàn)的風(fēng)速增大模式對可疑數(shù)據(jù)進(jìn)行相關(guān)性檢驗(yàn)。選擇需要相關(guān)性檢驗(yàn)的要素崇武站是溫度、潮位,東海大橋站是溫度、鹽度、波浪,大戟山站是潮位、降水量。

經(jīng)檢驗(yàn)崇武海洋站可疑的溫度潮位變化,符合相關(guān)性檢驗(yàn),當(dāng)風(fēng)速突然增大時(shí)溫度下降速度較快,潮位有較大的上升。

圖2 崇武站傳統(tǒng)檢驗(yàn)提示數(shù)據(jù)可疑

經(jīng)檢驗(yàn)東海大橋海洋站可疑的溫度、鹽度、波浪數(shù)據(jù)不符合相關(guān)性檢驗(yàn),當(dāng)風(fēng)速突然增大時(shí)溫度上升,鹽度增大后降低,波高無明顯變化,周期變小,經(jīng)于當(dāng)?shù)睾Q笳韭?lián)系因臺風(fēng)導(dǎo)致傳感器異常故障,該月所有數(shù)據(jù)均做缺測處理。

經(jīng)檢驗(yàn)大戟山海洋站可疑的潮位和降水量,符合相關(guān)性檢驗(yàn),當(dāng)風(fēng)速增大時(shí)潮位有較大變化,降水量突增。

4 結(jié) 語

海濱觀測數(shù)據(jù)質(zhì)量控制是海洋防災(zāi)減災(zāi)領(lǐng)域的一項(xiàng)重要工作,海洋預(yù)報(bào)及海洋變化研究對數(shù)據(jù)的質(zhì)量均有較高的要求。在實(shí)際工作中海濱觀測數(shù)據(jù)質(zhì)量控制正通過歷史經(jīng)驗(yàn)的積累逐步走向自動化、智能化。數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中抽取出隱含在其中不為人所注意的有用信息的過程,關(guān)聯(lián)規(guī)則時(shí)數(shù)據(jù)挖掘領(lǐng)域重要的研究方向。而海濱觀測的各種數(shù)據(jù)并不是相互孤立的,在同一時(shí)間內(nèi)其不同觀測要素之間有著強(qiáng)烈的相關(guān)性,發(fā)掘其之間的相關(guān)性作為其相關(guān)性檢驗(yàn)的基礎(chǔ)是該研究的核心思想[9,10]。

實(shí)驗(yàn)數(shù)據(jù)證明通過選擇不同場景模式進(jìn)行相關(guān)性檢驗(yàn),可以較好地對常規(guī)數(shù)據(jù)質(zhì)量控制中的可疑數(shù)據(jù)進(jìn)一步質(zhì)量控制,從而判斷數(shù)據(jù)是否可用,可以作為今后工作中數(shù)據(jù)相關(guān)性檢驗(yàn)的方法。然后該方法還有較多缺陷,例如規(guī)則模式無法通過人工智能的自學(xué)習(xí)進(jìn)行自動更新,相關(guān)性檢驗(yàn)僅能判斷數(shù)據(jù)變化的趨勢性,而無法更加精確地研究數(shù)據(jù)變化的范圍,該缺陷有待后續(xù)進(jìn)一步研究。

[1] 于婷,劉玉龍,等.實(shí)時(shí)和延時(shí)海洋觀測數(shù)據(jù)質(zhì)量評估方法研究[J].海洋通報(bào),2013(6):610-615.

[2] 李廣霞,思亮.關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法研究[J].軟件導(dǎo)刊,2014(4):14-17.

[3] 毛國君,段立娟,王實(shí),等.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社,2007.

[4] 金蛟.回歸模型的相關(guān)性檢驗(yàn)[J].北京師范大學(xué)學(xué)報(bào),2007(43):591-594.

[5] 李宏偉.基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)在中長期水文預(yù)報(bào)中的應(yīng)用[J].人民珠江,2013(6):21-25.

[6] 呂杰,林陳是維.基于相關(guān)性度量的關(guān)聯(lián)規(guī)則挖掘[J].浙江大學(xué)學(xué)報(bào),2012(39):285-288.

[7] 俊芳,謝益武,周生寶.關(guān)聯(lián)規(guī)則相關(guān)性的度量[J].計(jì)算機(jī)應(yīng)用,2007(4):891-896.

[8] 張玉芳,熊忠陽,彭燕,等.基于興趣度含正負(fù)項(xiàng)目的關(guān)聯(lián)規(guī)則挖掘方法[J].電子科技大學(xué)學(xué)報(bào),2010(3):407-411.

[9] 廖琴,郝志峰,陳志宏.數(shù)據(jù)挖掘與數(shù)學(xué)建模[M].北京:國防工業(yè)出版社,2010.

[10] 尚志,粱寶華,趙小龍,等.正負(fù)關(guān)聯(lián)規(guī)則量化方法[J].計(jì)算機(jī)工程,2009(15),74-76.

猜你喜歡
海濱項(xiàng)集關(guān)聯(lián)
夏日海濱
“一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
奇趣搭配
海濱書簡
散文詩(2017年17期)2018-01-31 02:34:19
智趣
讀者(2017年5期)2017-02-15 18:04:18
海濱1
關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
卷宗(2014年5期)2014-07-15 07:47:08
一種頻繁核心項(xiàng)集的快速挖掘算法
Effect of decompression in different time on hemodynamics and oxygen metabolism of porcine model with severe acute pancreatitis combined intraabdominal hypertension
語言學(xué)與修辭學(xué):關(guān)聯(lián)與互動
朔州市| 怀集县| 余干县| 宁德市| 右玉县| 台江县| 康平县| 巴东县| 扎鲁特旗| 吴堡县| 广丰县| 英德市| 当雄县| 中西区| 郧西县| 江华| 泰宁县| 庆元县| 如东县| 彭泽县| 普兰店市| 永新县| 山东省| 前郭尔| 武鸣县| 肥城市| 丰台区| 赤壁市| 吴江市| 华阴市| 怀远县| 白朗县| 铜陵市| 屏山县| 泊头市| 阳信县| 越西县| 梁河县| 遵义市| 遂溪县| 永新县|