程曉龍
摘 ?要:經過幾十年的發(fā)展,氣象信息技術獲得了極大的進步,也積累了大量來自多方面的氣象數據。由于我國氣象大數據發(fā)展仍在起步階段,相關方法和技術都需要進一步研究。為充分利用大量的氣象數據,相關的數據分析方法研究成為重中之重。該文結合實際工作,總結數據分析方法,介紹氣象數據分析存在的相關問題,以期為以后的氣象大數據發(fā)展奠定基礎。
關鍵詞:氣象數據 ?數據分析 ?大數據
中圖分類號:TP311 ? 文獻標識碼:A 文章編號:1672-3791(2019)12(c)-0184-02
Abstract: With decades of development,meteorological information technology has made great progress,and has accumulated a large number of meteorological data from many aspects.As the development of meteorological big data in China is still in its infancy,relevant methods and technologies need further research.In order to make reasonable use of a large amount of meteorological data, relevant data analysis methods are also essential. This paper combines the actual work, summarizes the data analysis methods, introduces the related problems in meteorological data analysis, and lays a foundation for the future development of meteorological big data.
Key Words: Meteorological data; Data analysis; Big data
氣象大數據是由網絡上所有和氣象行業(yè)相關的數據組成的,包括氣象站觀測數據、網民分享的天氣圖片和評論、氣象相關服務收集到的氣象數據等[1]。這些數據規(guī)模龐大,數據量在幾十PB左右,而且仍在增加。為合理地處理這些氣象數據,研究人員主要將氣象大數據分成兩類,即觀測數據和預測數據。觀測數據是“當前的數據”表示現(xiàn)在實際觀察到的天氣現(xiàn)象對應的氣象數據。預測數據是“未來的數據”表示通過氣象模式計算得到的用來預測未來天氣的數據[2]。而這些氣象數據本身晦澀難懂、專業(yè)性強,對普通大眾的服務性差。這就需要利用相關方法去對氣象數據進行分析挖掘,凝練出簡單易懂的結論服務大眾。
1 ?數據分析方法
在任何行業(yè)的數據分析當中,數據分析方法都是其中的關鍵。不同的分析方法對于相同的數據會生成不同的結果,這些結果是原始數據某個或某幾個方面的客觀反映。了解常見的數據分析方法對氣象數據理解和分析有著重要的意義。
1.1 描述性分析
所謂描述性統(tǒng)計分析,就是對一組數據的各種特征進行分析,以便于描述測量樣本的各種特征及其所代表的總體特征。描述性統(tǒng)計分析的項目很多,常用的如平均數、標準差、中位數、頻數分布、正態(tài)或偏態(tài)程度等。描述性分析的常用指標也較為常見,主要有均值、中位數、眾數,極差、方差、標準差、偏度、峰度等。其中不同的指標表示數據的不同信息。均值、中位數、眾數體現(xiàn)了數據的集中趨勢。極差、方差、標準差體現(xiàn)了數據的離散程度。偏度、峰度體現(xiàn)了數據的分布形狀。
描述性分析是一般數據分析方法的匯總,其主要作用為顯示數據的基本信息,讓分析人員對數據的基本分布有一定了解。具體統(tǒng)計計算方法也是大部分研究者都了解的。利用該方法獲得的結果可以讓研究者對當前數據有較深的認識,為深入分析數據奠定基礎。
1.2 回歸分析
回歸分析是應用范圍非常廣的數據分析方法之一。該方法尋求變量之間的相關關系,來揭示數據的內在規(guī)律。具體來說,它是研究自變量和因變量之間數量變化關系的一種分析方法,它主要是通過建立因變量Y與影響它的自變量X之間的回歸模型,表達自變量和因變量存在的內在邏輯,進而可以預測因變量的發(fā)展趨勢。
回歸分析存在多種具體的回歸方法,這些方法通過自變量的個數,因變量的類型以及回歸線的形狀可以分為以下幾個類別。
(1)線性回歸。其主要特點是因變量連續(xù),而對應的自變量可以是連續(xù)的也可以是離散的,畫出來的圖像具有線性特點。線性回歸也通過因變量的數量分為一元線性回歸和多元線性回歸兩類。其中多元線性回歸中有大于1個的自變量,而一元線性回歸只有一個自變量。線性回歸的回歸方程如下所示:
y=ax+b ? ? ? ?(1)
為合理使用線性回歸方法,需要待分析的數據中因變量和自變量有線性相關關系。除此之外,由于線性回歸方法在擬合回歸曲線時使用了最小二乘法,導致數據誤差對線性回歸方法的擬合結果影響較大,甚至能預測出錯誤的結果。因此在使用時,必須事先去除待分析數據的誤差從而進一步分析。
(2)邏輯回歸。邏輯回歸方法用于數據的基本分類。該方法是尋求兩類數據之間的區(qū)別,用一個函數作為分類函數對未知的數據進行類別標注,完成數據類別的預測。邏輯回歸的公式如下所示:
(2)
邏輯回歸方法不要求自變量和因變量是線性相關關系。為了防止數據模型出現(xiàn)過擬合現(xiàn)象,在使用邏輯回歸方法時需要篩選自變量以確保自變量和因變量之間存在相關關系。
(3)聚類分析。該方法主要實現(xiàn)數據內部之間的區(qū)分,讓具有相同數據屬性的數據聚合在一起,從而對待分析數據的內涵進行挖掘?;镜木垲惙椒ú襟E如下:第一,確定使用哪些指標來對數據進行區(qū)分;第二,計算數據指標之間的距離也就是差異程度,一般用空間距離來對比;第三,將差異程度較小的數據歸結為一類,形成許多差距明顯的類別[3]。
聚類分析也是當下眾多研究人員使用的基本分析方法。聚類分析在具體計算時通常使用3種計算方法:Kmeans、密度聚類、層次聚類方法。
(4)判別分析。判別分析是在已知研究對象分成若干類型并已取得各種類型的一批已知樣品的觀測數據,在此基礎上根據某些準則建立判別式,然后對未知類型的樣品進行判別分析。該方法在氣象上應用也非常廣泛,例如利用距離相近的氣象站數據來判斷未知站的屬類;在天氣預報中,可以根據前期的天氣觀測值來判斷是哪種天氣現(xiàn)象或者是未來的火災等級。
判別分析常常和聚類分析聯(lián)合起來使用。當總體分類不清楚時,可以先用聚類分析對原來的一批樣品進行分類,然后再用判別分析建立判別式對新樣品進行判別。判別分析的具體方法非常豐富,具體包括距離判別法、Fisher判別法、Bayes判別法和逐步判別法等。
(5)主成分與因子分析。該方法利用降維的思想,在損失信息較小的前提下,將多個判別指標綜合為幾個主要指標。每個主要指標都是原始判別指標的線性組合,而且主要指標之間不相關,從而降低數據分析難度,簡化數據分析過程,提高分析效率。
(6)時間序列分析。該方法就是對按照時間順序排列的一組數據序列發(fā)現(xiàn)其中的變化規(guī)律并用于預測的統(tǒng)計方法。這種方法具有以下3個基本特點:假設事物發(fā)展趨勢會延伸到未來;預測所依據的數據具有不規(guī)則性;不考慮事物發(fā)展之間的因果關系。在實際進行時間序列預測時,數據較為復雜,需要對時間序列的四要素進行分析,這四要素的不同組合就影響著時間序列的未來發(fā)展。這4種要素分別為長期趨勢、季節(jié)變動、循環(huán)變動、不規(guī)則變動。常見的四要素組合方式有兩種:一種是4種因素相互獨立,可用四要素相加來表示。另一種是4種元素相互影響,可用四要素相乘來表示。
當進行數據分析時,需要對上述4種元素從時間序列中分解出來,這樣才能克服其他因素的影響,從而更加客觀地反映事物本來的發(fā)展規(guī)律??偨Y時間序列分析的預測步驟分為以下4步:
①繪制時間序列圖;
②分析序列平穩(wěn)性;
③建立時間序列模型;
④評估模型預測未來結果。
(6)決策樹分析。該方法主要是在已知各種情況發(fā)生的概率的前提下,通過形成決策樹來計算得到期望值的概率,是直觀運用概率分析的方法之一。該方法模擬了人類在決策過程中對數據特征的應用,實現(xiàn)利用少量的數據特征類型來將數據進行分類,并判斷未知數據的所屬類別。
2 ?氣象數據分析存在的相關問題
隨著氣象大數據發(fā)展的相關要求,氣象數據分析業(yè)務也逐漸增多。但是由于相關業(yè)務發(fā)展時間較短,相關業(yè)務人員對氣象數據的理解程度不同,導致不同氣象數據的分析效果大不相同,大量氣象數據沒有充分利用。經總結,以上問題的主要原因主要包括以下幾個方面。
(1)氣象數據存儲較為雜亂。由于氣象數據采集途徑不同,導致不同氣象數據的對應存儲方式也不同。一旦進行氣象數據分析時,有可能沒有快速及時地獲取到全部所需的氣象數據信息,影響了氣象數據分析的有效性。
(2)氣象數據的數據格式不統(tǒng)一。氣象數據時間跨度大,不同時期的氣象數據的存儲格式并不相同。不同格式的氣象數據的數據整理相較于相同格式的氣象數據更為困難。這就導致了在氣象數據分析時,歷史數據的使用存在天然的劣勢,分析報告質量也受到一定影響。
(3)部分氣象業(yè)務人員業(yè)務不熟練。氣象數據分析對業(yè)務人員的要求非常高,需要他們能基本了解氣象業(yè)務同時深度了解氣象數據格式和數據特點。但目前氣象業(yè)務人員的個人能力參差不齊,導致甚至出現(xiàn)不同業(yè)務人員對相同氣象數據處理得到不同的分析結果。
3 ?結語
該文對氣象數據分析中使用的基本數據方法進行了介紹,分析了不同方法對于待分析數據的要求以及該方法的特點,對今后的工作有一定的指導作用。針對氣象數據分析出現(xiàn)的相關問題,相關業(yè)務人員應該及時排查自身問題,提高氣象業(yè)務水平,為今后高效地完成工作打下堅實的基礎。
參考文獻
[1] 劉喆玥.我國氣象大數據的發(fā)展趨勢研究[J].電腦知識與技術,2019,15(21):252-254.
[2] 王麗,李云鵬,甄熙.淺析互聯(lián)網大數據在氣象行業(yè)的應用[J].電腦知識與技術:學術版,2018,14(24):218-219.
[3] 王德青,朱建平,劉曉葳,等.函數型數據聚類分析研究綜述與展望[J].數理統(tǒng)計與管理,2018,37(1):51-63.