焦 飛,黃天文
(1.肇慶學(xué)院 教育技術(shù)與計(jì)算機(jī)中心,廣東 肇慶 526061;2.肇慶市氣象局,廣東 肇慶 526040)
時(shí)間冪函數(shù)與LSF在氣溫預(yù)測(cè)中的應(yīng)用研究
焦 飛1,黃天文2
(1.肇慶學(xué)院 教育技術(shù)與計(jì)算機(jī)中心,廣東 肇慶 526061;2.肇慶市氣象局,廣東 肇慶 526040)
為將數(shù)據(jù)挖掘知識(shí)應(yīng)用于氣象領(lǐng)域,現(xiàn)將肇慶市高要?dú)庀笥^測(cè)站1954—2014年的氣溫序列,采用滑動(dòng)平均法進(jìn)行處理;再利用時(shí)間冪函數(shù)與最小二乘法分析了肇慶地區(qū)氣溫的變化趨勢(shì),得到擬合曲線圖和溫度變化趨勢(shì)回歸方程.用2014年與2015年的年平均氣溫實(shí)況對(duì)預(yù)測(cè)結(jié)果進(jìn)行檢驗(yàn),發(fā)現(xiàn)擬合的相關(guān)系數(shù)與標(biāo)準(zhǔn)差比較理想;此外,還預(yù)測(cè)出肇慶的年平均氣溫呈上升趨勢(shì).從20世紀(jì)中期到現(xiàn)在,氣溫上升趨勢(shì)明顯增大,這和全球氣候變暖的結(jié)論相一致.經(jīng)實(shí)驗(yàn)證明,該方法具備良好的因子信息提取能力,其預(yù)報(bào)建模方法對(duì)氣溫預(yù)報(bào)具有一定的價(jià)值.
數(shù)據(jù)挖掘;最小二乘擬合;滑動(dòng)平均;時(shí)間冪函數(shù);氣溫變化趨勢(shì)
目前,數(shù)據(jù)挖掘在氣象上的應(yīng)用主要集中于氣象預(yù)報(bào)、氣候預(yù)測(cè)和氣象災(zāi)害預(yù)測(cè)等方面,常用的挖掘方法有決策樹法[1]、支持向量機(jī)[2]、序列模式挖掘技術(shù)[3]、降維分析[4]、關(guān)聯(lián)規(guī)則挖掘[5]等方法.回顧歷史可知,二戰(zhàn)以后各國(guó)開始致力于發(fā)展經(jīng)濟(jì),犧牲了環(huán)境,使得全球氣候明顯變暖.由于大氣層中二氧化碳等溫室氣體急劇增加,大量吸收地面紅外線長(zhǎng)波輻射,使溫室效應(yīng)增強(qiáng),這在一定程度上又加劇了厄爾尼諾現(xiàn)象的出現(xiàn)頻率和負(fù)面影響.因氣溫的變化將影響到降水,且氣溫與人類社會(huì)及生態(tài)系統(tǒng)有著密切關(guān)系,因此對(duì)氣溫的長(zhǎng)期變化趨勢(shì)進(jìn)行研究是很有必要的.對(duì)肇慶地區(qū)“有器測(cè)資料”時(shí)間最長(zhǎng)的高要?dú)庀笥^測(cè)站的氣溫?cái)?shù)據(jù)進(jìn)行研究,希望能用數(shù)據(jù)挖掘技術(shù)開發(fā)應(yīng)用軟件,為肇慶地區(qū)的氣溫預(yù)測(cè)研究工作提供工具,提高預(yù)報(bào)員對(duì)中長(zhǎng)期天氣的預(yù)報(bào)能力,從而更好地滿足用戶和預(yù)報(bào)服務(wù)的需求.
氣象數(shù)據(jù)由于其自身的特點(diǎn),具有很強(qiáng)的時(shí)空關(guān)聯(lián)特性,因此,對(duì)氣象數(shù)據(jù)進(jìn)行時(shí)空關(guān)聯(lián)分析,從而進(jìn)行氣象預(yù)報(bào)是提高預(yù)報(bào)水平的一個(gè)有效方法.數(shù)據(jù)挖掘中對(duì)時(shí)間序列的分析與研究,已有相關(guān)研究者提供了寶貴資料.王永弟將模糊時(shí)間序列模型引入短期氣候預(yù)報(bào),并與加權(quán)集成、人工神經(jīng)網(wǎng)絡(luò)集成、數(shù)據(jù)挖掘集成等模型進(jìn)行了精度比較和分析[6].潘航、宋敏紅、閆俊、徐文慧等[7-10]分別對(duì)南京近60年、雅魯藏布江流域46年、安徽49年、全球近百年的氣溫?cái)?shù)據(jù)進(jìn)行了分析和研究,提供了寶貴的方法與經(jīng)驗(yàn).東京航空地方氣象臺(tái)的吉村純[11]曾就100多年來的全球平均地面氣溫進(jìn)行研究,認(rèn)為平均地面氣溫呈上升趨勢(shì),特別是20世紀(jì)80年代氣溫顯著變暖,90年代繼續(xù)攀升.筆者將肇慶地區(qū)高要?dú)庀笥^測(cè)站的氣溫時(shí)間序列進(jìn)行滑動(dòng)平均預(yù)處理后,利用時(shí)間冪函數(shù)和最小二乘擬合(least square fitting;LSF)分析了氣溫變化趨勢(shì)并進(jìn)行了預(yù)測(cè),實(shí)驗(yàn)效果良好.數(shù)據(jù)挖掘方法在氣象領(lǐng)域的應(yīng)用值得推廣,特別是在大數(shù)據(jù)時(shí)代,氣象服務(wù)不斷拓寬領(lǐng)域,氣象部門需要永久保存的數(shù)據(jù)不斷增長(zhǎng),利用數(shù)理方法對(duì)這些數(shù)據(jù)進(jìn)行挖掘、分析和預(yù)測(cè)的研究是可行和必要的.
高要?dú)庀笥^測(cè)站是建國(guó)后1954年才建立的,觀測(cè)數(shù)據(jù)僅有60多年(圖1為肇慶市1954—2014年年平均氣溫變化趨勢(shì)圖).我們要對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理,并對(duì)比處理前后所得實(shí)驗(yàn)結(jié)果的檢驗(yàn)因子,以證明實(shí)驗(yàn)方法的可靠性.
圖1 肇慶市1954—2014年年平均氣溫變化趨勢(shì)圖
將氣溫?cái)?shù)據(jù)可視化以直觀的方式表現(xiàn)出來,有助于發(fā)現(xiàn)該時(shí)間序列的特征.看對(duì)應(yīng)的散點(diǎn)圖,根據(jù)經(jīng)驗(yàn),氣溫變化趨勢(shì)可能是明顯增長(zhǎng),也可能是明顯減少,且該變化趨勢(shì)可能是線性的,也可能是二次曲線、三次曲線等.肇慶全年平均氣溫經(jīng)過10年滑動(dòng)平均,所得散點(diǎn)圖可以初步估計(jì)曲線方程的大致形式,然后利用最小二乘回歸方法得到擬合的氣溫變化趨勢(shì)方程,并對(duì)回歸方程的顯著性進(jìn)行檢驗(yàn).
研究氣溫的變化趨勢(shì),關(guān)注的是其長(zhǎng)期性變化,首先要消除噪音.為將短期的變化消除掉,本實(shí)驗(yàn)采用了滑動(dòng)平均法.根據(jù)時(shí)間序列資料進(jìn)行逐項(xiàng)推移,依次計(jì)算包含一定項(xiàng)數(shù)的序時(shí)平均值,以反映氣溫長(zhǎng)期變化的趨勢(shì).當(dāng)時(shí)間序列的數(shù)值由于受周期變動(dòng)和隨機(jī)波動(dòng)的影響起伏較大,不易顯示出事件的發(fā)展趨勢(shì)時(shí),使用滑動(dòng)平均法可以消除這些因素的影響.滑動(dòng)平均法的應(yīng)用非常普遍,因?yàn)樗乃惴ǚ浅:?jiǎn)單,在計(jì)算機(jī)編程上很容易實(shí)現(xiàn),所以它是降低隨機(jī)噪聲的最優(yōu)選擇之一.前人在各種領(lǐng)域都運(yùn)用了該方法,認(rèn)為滑動(dòng)平均可以快速實(shí)現(xiàn)目標(biāo)[12].
對(duì)于氣溫序列x1,x2,…,xn,2項(xiàng)平均為(xn-1+xn)/2,3項(xiàng)平均為(xn-2+xn-1+xn)/3,還有4項(xiàng)、5項(xiàng)等平均,可統(tǒng)一表示為
在式(1)中:m表示由m項(xiàng)構(gòu)成的滑動(dòng)平均;k=1,2,3,….按照滑動(dòng)平均數(shù)的數(shù)列,利用C#.NET的GDI+作圖技術(shù),可點(diǎn)出其散布圖.如果通過散點(diǎn)圖仍看不出變化趨勢(shì),則可以用滑動(dòng)平均數(shù)的數(shù)列,求第2次滑動(dòng)平均數(shù)列或加大滑動(dòng)平均的年數(shù).
關(guān)于短期氣候預(yù)測(cè),特別是省級(jí)及其以下的臺(tái)站,主要依靠統(tǒng)計(jì)分析方法,其中應(yīng)用最廣泛的是多元回歸分析法,其參數(shù)估計(jì)通常采用最小二乘參數(shù)估計(jì)法.通過參考相關(guān)的文獻(xiàn),發(fā)現(xiàn)關(guān)于偏最小二乘法(partial least squares;PLS)的應(yīng)用,很多研究者已做過大量研究[13-14],該方法適用于回歸模型自變量之間存在相關(guān)性的情況.由于本文的研究只有1個(gè)自變量,即年代,因此用最小二乘擬合(LSF)即能滿足要求[15-16].
在擬合曲線問題中,確定參數(shù)的最常見方法是最小二乘法.它是一種數(shù)學(xué)優(yōu)化技術(shù),通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配.利用最小二乘法可以簡(jiǎn)便地求得未知的數(shù)據(jù),并使得這些求得的數(shù)據(jù)與實(shí)際數(shù)據(jù)之間誤差的平方和為最小.而氣溫的變化趨勢(shì)方程,根據(jù)原始數(shù)據(jù)的散點(diǎn)圖,一般認(rèn)為是時(shí)間冪函數(shù)[17],其一般形式為
在式(2)中:t代表時(shí)間(年份);T代表對(duì)應(yīng)的年平均氣溫值.若令t=x1,t2=x2,…,tm=xm,T=y′,則式(2)化為y′=b0+b1x1+b2x2+…+bmxm,由原來的非線性回歸方程轉(zhuǎn)化為多元線性回歸.多元線性回歸分析作為一種有效的數(shù)據(jù)處理方法,在工業(yè)、農(nóng)業(yè)、醫(yī)學(xué)、社會(huì)調(diào)查、生物信息處理等領(lǐng)域被廣泛應(yīng)用[18].所謂多元線性回歸預(yù)測(cè),即利用歷史樣本數(shù)據(jù),建立多元線性回歸模型,研究某一因變量和多個(gè)自變量之間關(guān)系的定量化分析方法[19].事實(shí)上,一種現(xiàn)象常常是與多個(gè)因素相聯(lián)系的,由多個(gè)自變量的最優(yōu)組合共同預(yù)測(cè)或估計(jì)因變量,比只用1個(gè)自變量進(jìn)行預(yù)測(cè)或估計(jì)更有效,更符合實(shí)際情況.從這個(gè)意義上講,多元線性回歸比一元線性回歸的實(shí)用意義更大.多元線性回歸的方法較為復(fù)雜,計(jì)算量也很大,一般采用計(jì)算機(jī)進(jìn)行處理.
多元線性回歸方程建立后,確定參數(shù)b0,b1,…,bm.對(duì)這些回歸系數(shù),需要根據(jù)最小二乘原理,尋求誤差平方和
關(guān)于結(jié)果的顯著性檢驗(yàn),筆者參照早期的實(shí)驗(yàn)成果,采用F-分布函數(shù)檢驗(yàn)法(F-信度檢驗(yàn)法).首先根據(jù)方程的回歸平方和U以及2個(gè)自由度(N1,N2)計(jì)算F-統(tǒng)計(jì)量FR,再根據(jù)(N1,N2)和FR,計(jì)算F-分布函數(shù)值.如果顯著性水平設(shè)為α,則F-分布函數(shù)值就是1-α,若以百分?jǐn)?shù)表示,可稱為F-信度,記為FX.設(shè)定F-分布函數(shù)的臨界值為FC,如果FX>FC,則認(rèn)為趨勢(shì)方程是顯著的;否則,若FX<FC,就認(rèn)為趨勢(shì)方程是不顯著的[20].
結(jié)合時(shí)間冪函數(shù)與最小二乘法,通過計(jì)算機(jī)編程并作圖,可得出全年年平均和各月月平均氣溫變化的擬合曲線圖.限于篇幅,本文僅以年平均氣溫變化趨勢(shì)方程的研究為例進(jìn)行探討.肇慶地區(qū)歷年年平均地面氣溫的原始數(shù)據(jù),需要經(jīng)過滑動(dòng)平均才能消除噪音.由計(jì)算機(jī)程序?qū)υ紨?shù)據(jù)分別執(zhí)行項(xiàng)數(shù)為0,5,10的滑動(dòng)平均,結(jié)果發(fā)現(xiàn)10項(xiàng)滑動(dòng)平均是最優(yōu)的.然后經(jīng)過計(jì)算機(jī)編程和多次實(shí)驗(yàn),發(fā)現(xiàn)氣溫變化趨勢(shì)方程的階數(shù)為2時(shí),擬合程度最高,方程擬合的相關(guān)系數(shù)高達(dá)0.93,標(biāo)準(zhǔn)差是0.1,由此設(shè)2階多項(xiàng)式擬合方程為
其中:t代表時(shí)間(年份),T代表對(duì)應(yīng)的年平均氣溫值;各個(gè)系數(shù)b0,b1和b2的值分別為7.449E+002,-7.490E-001和1.939E-004.作為檢驗(yàn),r為因子t與原總序列的相關(guān)系數(shù),S為其標(biāo)準(zhǔn)差.相關(guān)系數(shù)r的絕對(duì)值一般在0.8以上,認(rèn)為是有強(qiáng)的相關(guān)性;0.3~0.8之間,可以認(rèn)為有弱的相關(guān)性;在0.3以下,則認(rèn)為沒有相關(guān)性.作為實(shí)驗(yàn),分別把年份t=2014和t=2015依次代入方程,可以得到相應(yīng)的溫度T為23.1℃和23.2℃,而2014年和2015年肇慶高要站年平均氣溫實(shí)況分別為22.8℃和23.4℃,可見方程的擬合效果較好.
方程對(duì)應(yīng)的擬合曲線圖如圖2所示,由此可知肇慶60多年來氣候逐漸變暖,年平均氣溫呈升高趨勢(shì).
圖2 肇慶市高要站年平均氣溫變化趨勢(shì)
時(shí)間冪函數(shù)結(jié)合最小二乘法,通過計(jì)算機(jī)編程實(shí)現(xiàn)對(duì)曲線的擬合,得到時(shí)間序列變化趨勢(shì)的回歸方程,檢驗(yàn)結(jié)果令人滿意.通過對(duì)肇慶地區(qū)歷年氣溫資料的分析,認(rèn)為60多年來肇慶的年平均地面氣溫呈上升趨勢(shì),這與前人所講的“大氣變暖”相一致.特別是建國(guó)以后,隨著工業(yè)的快速發(fā)展,“粗獷型”的經(jīng)濟(jì)騰飛帶來環(huán)境的破壞,一方面人類燃燒煤、石油等大量排放二氧化碳;另一方面,砍伐樹林等對(duì)綠色植物的破壞,減少了植物對(duì)二氧化碳的吸收,使得大氣中二氧化碳的含量增加.而二氧化碳對(duì)大氣有保溫作用,氣溫也就隨之升高了.以上研究結(jié)果對(duì)氣溫的長(zhǎng)期預(yù)報(bào)、超長(zhǎng)期預(yù)報(bào)和制定農(nóng)業(yè)規(guī)劃,都具有參考價(jià)值.今后,還可以研究降雨量、蒸發(fā)量等的變化與預(yù)測(cè).筆者對(duì)數(shù)據(jù)挖掘在氣象數(shù)據(jù)中的應(yīng)用展開研究,主要源于氣象數(shù)據(jù)包含了大量信息,需要探索適合氣象數(shù)據(jù)特點(diǎn)的挖掘方法,提高挖掘算法的效率,這對(duì)于生產(chǎn)實(shí)踐和社會(huì)生活具有重要意義.
[1] 姜文瑞,王玉英,郝小琪,等.決策樹方法在氣溫預(yù)測(cè)中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(8):141-144.
[2] 丁世飛,齊丙娟,譚紅艷.支持向量機(jī)理論與算法研究綜述[J].電子科技大學(xué)學(xué)報(bào),2011,40(1):2-10.
[3] 李亮.序列模式挖掘在入侵檢測(cè)中的應(yīng)用研究[J].計(jì)算機(jī)工程與科學(xué),2012,34(11):68-71.
[4] 黎克波,陳磊,張翼.真比例導(dǎo)引律的降維分析方法[J].國(guó)防科技大學(xué)學(xué)報(bào),2012,34(3):1-5.
[5] 宇星,陳彤兵,施伯樂.一種高效的多層和概化關(guān)聯(lián)規(guī)則挖掘方法[J].軟件學(xué)報(bào),2011,22(12):2 965-2 980.
[6] 王永弟.模糊時(shí)間序列模型在短期氣候預(yù)測(cè)中的應(yīng)用[J].南京信息工程大學(xué)學(xué)報(bào),2012(4):316-320.
[7] 潘航.近60年來南京季節(jié)變化特征分析[J].氣象科學(xué),2011,31(6):742-746.
[8] 宋敏紅,馬耀明,張宇,等.雅魯藏布江流域氣溫變化特征及趨勢(shì)分析[J].氣候與環(huán)境研究,2011,16(6):760-766.
[9] 徐文慧,李慶祥,楊溯,等.近百年全球地表月氣溫?cái)?shù)據(jù)的概況與初步整合[J].氣候變化研究進(jìn)展,2014,10(5):358-364.
[10] 閆俊,王海功,李紅梅.氣候變暖背景下安徽氣溫變化趨勢(shì)分析[J].安徽農(nóng)業(yè)科學(xué),2013,41(36):13 953-13 971.
[11] 吉村純.近110年來全球地面氣溫變化[J].氣象科技,1994(3):43-47.
[12] 熊波,尹周平.滑動(dòng)平均和改進(jìn)權(quán)重函數(shù)的快速非局部平均圖像去噪算法[J].中國(guó)圖像圖形學(xué)報(bào),2012,17(5):628-634.
[13] 薛佳辰,馮鈞,雷震,等.基于偏最小二乘回歸的性別識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2013,34(9):3 226-3 254.
[14] 汪春輝,羅飛,舒紅平.偏最小二乘回歸在氣溫預(yù)測(cè)中的研究與應(yīng)用[J].微計(jì)算機(jī)信息,2012,28(5):142-144.
[15] 王燕,吳文峰,梁國(guó)龍.基于穩(wěn)健最小二乘的魯棒波束形成[J].電子學(xué)報(bào),2013(12):2 321-2326.
[16] 曲付勇,孟祥偉.基于約束總體最小二乘方法的到達(dá)時(shí)差到達(dá)頻差無源定位算法[J].電子與信息學(xué)報(bào),2014,36(5):1 075-1 081.
[17] 魏廣彬,徐蕊,孫和平,等.葉齡模型在水稻上應(yīng)用的檢驗(yàn)與比較[J].江蘇農(nóng)業(yè)學(xué)報(bào),2013,29(4):696-707.
[18] 劉錦萍,郁金祥.基于改進(jìn)的粒子群算法的多元線性回歸模型參數(shù)估計(jì)[J].計(jì)算機(jī)工程與科學(xué),2010,32(4):101-105.
[19] 代亮,許宏科,陳婷,等.基于MapReduce的多元線性回歸預(yù)測(cè)模型[J].計(jì)算機(jī)應(yīng)用,2014,34(7):1 862-1 866.
[20] 焦飛,黃天文,何華慶.數(shù)據(jù)挖掘技術(shù)在氣溫長(zhǎng)期變化趨勢(shì)預(yù)測(cè)中的應(yīng)用[J].廣東氣象,2006(2):33-39.
Application of Time Power Function and Least Square in Air Temperature Forecast
JIAO Fei1,HUANG Tianwen2
(1.Information Center,Zhaoqing University,Zhaoqing,Guangdong 526061,China;2.Zhaoqing Meteorological Bureau,Zhaoqing,Guangdong 526040,China)
The air temperature sequence from 1954 to 2014 of Gaoyao weather station in Zhaoqing area is processed by moving average method to apply data mining method in meteorological fields.The fitting curves and the regression of temperature change trend are obtained by using time power function and east square method and the fitting correlation coefficient and the standard deviation are found to be ideal by checking with actual temperature of 2014 and 2015.It is concluded that the yearly mean temperature of Zhaoqing area increases slowly.The trend is obvious especially from 1950s up till the present moment,which is coincided with global warming.It is proved that the method has a good ability to extract factors information and the forecasting modeling methods will be of certain value in temperature prediction.
data mining;least square;moving average;time power function;temperature change trend
TP39
A
1009-8445(2017)05-0001-04
2017-02-27
廣東省氣象局科學(xué)技術(shù)研究項(xiàng)目(2016B51);肇慶市氣象局科學(xué)技術(shù)基金資助研究項(xiàng)目(201609)
焦 飛(1980-),男,河南虞城人,肇慶學(xué)院教育技術(shù)與計(jì)算機(jī)中心實(shí)驗(yàn)師,碩士.
黃天文(1975-),女,廣東臺(tái)山人,肇慶市氣象局高級(jí)工程師.
(責(zé)任編輯:陳 靜)