盧秀蕓
摘要:隨著我國社會水平的提升,經(jīng)濟步伐的推進,我國的氣象事業(yè)也在這個過程中得到了較大程度的發(fā)展。而在氣象事業(yè)發(fā)展的過程中,伴隨著是氣象資料數(shù)據(jù)量以及覆蓋規(guī)模的不斷增大。面對這部分龐大的的數(shù)據(jù),如何對其進行有效的查找、利用則成為了我國氣象行業(yè)人員非常關(guān)注的一項問題。在本文中,將就數(shù)據(jù)挖掘技術(shù)在氣象數(shù)據(jù)中的應用進行一定的研究與分析。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);氣象數(shù)據(jù);應用
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2015)09-0239-02
Abstract: along with our country social improvement, economic development,meteorological services in China has been developed greatly in the process.In the process of the development of meteorological services, meteorological data along with the increasing scale and coverage. In the face of this part of the huge data, how to effectively search, its use has become a problem of great concern to the industry of our country. In this paper, the application of data mining technology in meteorological data on the study and analysis of some.
Key words: data mining; meteorological data; application
對于氣象數(shù)據(jù)的收集與分析有利于幫助我們對不同地區(qū)所具有的氣象條件以及氣象規(guī)律進行把握,以此使我們能夠更好的對該地區(qū)某一時段下的氣象情況進行預測。但是,這種數(shù)據(jù)的收集就會使我們所具有的氣象數(shù)據(jù)資料越來越多,難以對其進行管理與應用。僅僅通過我們計算機方式的應用,也很難對這種規(guī)模較大的數(shù)據(jù)集進行處理,在這種情況下,就需要我們能夠以數(shù)據(jù)挖掘技術(shù)的應用更好的實現(xiàn)氣象數(shù)據(jù)的管理。
1 數(shù)據(jù)挖掘流程
1.1 確定對象
在開展數(shù)據(jù)挖掘工作中,首先需要對業(yè)務所具有的問題進行明確的定義,幫助我們對數(shù)據(jù)挖掘的目的進行確定。雖然對于我們后續(xù)數(shù)據(jù)的挖掘結(jié)果會具有一定的不可預測性,但是對于我們問題探索的目標卻需要具有良好的預見性,并以此針對性目標的確定幫助我們更好的開展后續(xù)工作。
1.2 數(shù)據(jù)準備
在這個環(huán)節(jié)中,主要具有數(shù)據(jù)預處理、數(shù)據(jù)轉(zhuǎn)換以及數(shù)據(jù)選擇這三個主要步驟。其中,數(shù)據(jù)選擇是對同本次業(yè)務具有關(guān)聯(lián)的維度或者數(shù)據(jù)進行選擇,并從中選擇出適合本次數(shù)據(jù)挖掘工作的相關(guān)數(shù)據(jù);數(shù)據(jù)預處理則是對本次研究數(shù)據(jù)所具有的質(zhì)量進行研究,并以此幫助我們?yōu)楹罄m(xù)的進一步分析作出準備,同時對數(shù)據(jù)操作所具有的類型進行確定;數(shù)據(jù)轉(zhuǎn)換則是要將不同類型數(shù)據(jù)通過一定的方式將其轉(zhuǎn)換為我們所需要的數(shù)據(jù)分析模型,對于該模型而言,其是針對我們原有挖掘算法而建立的,而這種分析模型的建立也是我們開展數(shù)據(jù)挖掘工作的重要基礎(chǔ)與重點環(huán)節(jié)。
1.3 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘正是我們本次工作的核心環(huán)節(jié),需要對所有數(shù)據(jù)預處理完成的、經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進行全面的挖掘。在此過程中,除了需要我們以人工的方式對適合本次挖掘工作所使用的算法進行選擇之外,其余的工作都會以自動的方式開展。
1.4 結(jié)果解釋與評價
在我們數(shù)據(jù)挖掘工作結(jié)束之后,往往會得到一系列規(guī)則集,而這部分規(guī)則集通常需要在專業(yè)人員對其進行一定的研究與合理的解釋才能夠被人們更好的掌握。對此,就需要我們對本次數(shù)據(jù)挖掘結(jié)果進行適當?shù)慕忉屌c評價,進而使其能夠具有更好的易用性以及廣泛性。
2氣象資料特點
2.1 數(shù)據(jù)量大
氣象資料可以說是我國歷史最為久遠、保存最為系統(tǒng)且完善的一類資源信息。尤其隨著改革開放之后,我國已經(jīng)積累了數(shù)量非常多的氣象基礎(chǔ)數(shù)據(jù)以及信息,且新的氣象數(shù)據(jù)資料也以非??斓乃俣仍诿磕暝鲩L,在我們實際處理時經(jīng)常會出現(xiàn)冗余情況。
2.2 多樣性
氣象信息具有著非常多樣化的種類,如高空氣象資料、農(nóng)業(yè)氣象資料、日地物理資料、雷達資料、氣象輻射資料、冰雪圈資料、土壤與植被資料、氣象災害資料、地面氣象資料、水文氣象資料以及衛(wèi)星資料等等。而氣象資料所具有的載體也具有著很多種方式,如不同氣象站所發(fā)布的氣象原始報表,不同省市所發(fā)布的氣象衛(wèi)星云圖以及雷達圖等等。
2.3 多維性
在氣象資料中,通常都具有著較多的氣象要素,如高空資料以及地面資料往往具有著溫度、日照以及氣溫等很多種要素。而在每一類要素中,也都具有著其所獨特的屬性維度。也正是根據(jù)這種特點,則使氣象資料往往具有著較為明顯的多為特征。
2.4 復雜性
氣象資料中所常見的數(shù)據(jù)類型主要有標稱類型、二元類型、數(shù)值類型以及序列類型等等。比如降雨與否為二元類型、氣壓為數(shù)值類型等等。
2.5 連續(xù)性
在氣象站中,無論是高空站還是地面站,其所具有的氣象要素屬性值都是一種具有連續(xù)特征的數(shù)值,比如氣壓、溫度以及氣溫要素。
3 氣象資料預處理
3.1 缺失值處理
在SPSS軟件中,具有著很多種對于數(shù)據(jù)的缺失值處理方式。而對于氣象數(shù)據(jù)來說,由于其所具有的變化是一個能量的動態(tài)變化過程,對此,我們對于氣象數(shù)據(jù)所具有的缺失值則使用Mean of nearby points方式進行,并對其中所具有的缺失值根據(jù)鄰近三個小時所具有的數(shù)據(jù)平均值對缺失值進行替代。
3.2 氣象資料屬性泛化
在數(shù)據(jù)維度泛化方面,需要嚴格的按照我國相關(guān)標準開展工作,比如在二氧化硫數(shù)據(jù)的泛化方面,其是否存在超標情況則需要根據(jù)我國所制定的污染物濃度標準對其進行泛化。即如果CO2所執(zhí)行的為一級標準,那么則可以根據(jù)其每小時所具有的濃度值同標準中的參考值0.15進行比對,并以此幫助我們判斷該項參數(shù)是否存在超標的現(xiàn)象。而對于其所具有的超標、不超標現(xiàn)象來說,我們則需要在對結(jié)果判斷之后將其標記為(是,否)二元屬性值。
3.3 氣象資料標準化
在氣象數(shù)據(jù)資料中,不同維度間數(shù)據(jù)往往具有著不一致的量綱,而我們在對其開展定量量測以及聚類分析時,也經(jīng)常由于量綱所具有的不同而對最終的分析結(jié)果產(chǎn)生較大的影響。一般情況下,氣象資料中所具有的風向數(shù)值都會控制在0至360之間,而如果污染因子的單位為毫克,那么其所具有的范圍則會在0至1之間,我們在對聚類進行應用時如果以距離作為評價,其主要依據(jù)則會在兩個維度中更加傾向于風向維護。而為了能夠?qū)@部分維度間所具有的影響進行消除,就需要我們對這部分重點維度開展標準化預處理。在氣象數(shù)據(jù)的標準化處理中,具有著很多種方式,Z標準化是我們應用較多的一類方式,即均值為0,方差為1。
3.4 氣象資料維歸約
在氣象資料中有時候維度之間具有很強的依賴性或者說相關(guān)性,對于維度之間的這種依賴性或者相關(guān)性有時候在數(shù)據(jù)分析時候由于數(shù)據(jù)量巨大會導致多余的計算,所以對于一些需要把握主要的或者消除冗余的數(shù)據(jù)來進行數(shù)據(jù)分析時就可以采用主成分分析方法或者計算相關(guān)性來消除這些冗余的屬性維度。
4 氣象資料孤立點分析
在氣象資料中的龐大數(shù)據(jù)中,我們在對其進行分析時往往忽略了孤立點的存在,或者忽略了孤立點所具有的特殊意義。通常來說,人們認為孤立點僅僅是噪聲數(shù)據(jù)的一種,且經(jīng)常將孤立點分析這項工作作為了數(shù)據(jù)預處理進行處理,僅僅對其中可能對數(shù)據(jù)挖掘整體結(jié)果產(chǎn)生影響的因素進行了剔除。但是,在氣象數(shù)據(jù)中,這部分孤立點往往具有著非常特殊的意義,通過孤立點數(shù)據(jù)的分析與檢測,很容易幫助我們對很多災害氣象進行分析。目前,對于孤立點進行分析的技術(shù)主要有以下幾種:
4.1 基于統(tǒng)計方式
首先,需要假設我們所具有的數(shù)據(jù)集能夠滿足某一種概率的分布形式,之后再根據(jù)其所具有的這種獨特概率對數(shù)據(jù)集進行擬合,并通過不一致檢驗方式的應用對其中很多個數(shù)據(jù)對象開展不一致性測試。如果經(jīng)過測試發(fā)現(xiàn)其存在著不符合的情況,就可以認為其是一個孤立點。
4.2 基于距離方式
在該種方式中,我們可以將對于孤立點的分析視作鄰居對象不充分的集合,且這種鄰居對象也是根據(jù)對象所具有的距離進行定義的。通常來說,人們僅僅會通過DB(p,d)的應用對全局孤立點進行發(fā)現(xiàn),而對于局部孤立點卻很難判斷。對此,我們則可以認為孤立點概念不需要以一分為二的屬性對其分離,而可以通過對象孤立度的制定對其所具有的模糊度進行衡量。
4.3 基于密度方式
基于密度的孤立點分析就是探測局部密度,通過不同的密度估計策略來檢查
孤立點。密度即指任一點和 p 距離小于給定半徑 R 的領(lǐng)域空間數(shù)據(jù)點的個數(shù)?;诿芏鹊墓铝Ⅻc分析最顯著的特點就是給定了對象是孤立點程度的定量量度,并且是數(shù)據(jù)具有不同密度的區(qū)域也能得到很好的處理?;诿芏鹊墓铝Ⅻc分析較基于距離的孤立點分析更合理,但數(shù)據(jù)的計算復雜度較基于距離的孤立點分析要高許多。
4.4 基于聚類方式
聚類分析是用來發(fā)現(xiàn)數(shù)據(jù)集中強相關(guān)聯(lián)的對象組,而孤立點檢測是發(fā)現(xiàn)不與其他對象組強關(guān)聯(lián)的對象。因此,孤立點分析與聚類是兩個相互對立的過程。首先聚類所有的對象,然后評估對象屬于簇的程度,對于基原型的聚類,可以用對象到它的簇中心的距離來衡量對象屬于簇的程度。
總得來說,數(shù)據(jù)挖掘技術(shù)在我國現(xiàn)今的氣象數(shù)據(jù)處理中具有著較為重要的作用。在上文中,我們對于數(shù)據(jù)挖掘技術(shù)在氣象數(shù)據(jù)中的應用進行了一定的研究,而在實際操作過程中,也需要我們在聯(lián)系數(shù)據(jù)類別的基礎(chǔ)上通過數(shù)據(jù)挖掘技術(shù)的應用獲得更好的氣象分析效果。
參考文獻:
[1] 何永健, 曹蕓, 黃勇. GIS氣象數(shù)據(jù)的管理與表達方法[J]. 南京信息工程大學學報(自然科學版), 2011(3):232-237.
[2] 石揚, 張燕平, 趙姝, 張玲, 田福生, 汪小寒. 基于商空間的氣象時間序列數(shù)據(jù)挖掘研究[J]. 計算機工程與應用, 2007(1):101-102.
[3] Theodore B. Trafalis,Budi Santosa, Michael B. Richman. Learning networks in rainfall estimation[J]. Computational Management Science, 2005(3):113-116.