李社宏(陜西省氣象局,西安 710014)
大數(shù)據(jù)時代氣象數(shù)據(jù)分析應(yīng)用的新趨勢
李社宏
(陜西省氣象局,西安 710014)
簡要介紹了大數(shù)據(jù)的概念和特征,以及大數(shù)據(jù)時代的思維變革方式,通過案例引述,從數(shù)據(jù)采集、數(shù)據(jù)存取、數(shù)據(jù)挖掘和信息發(fā)布等方面探討了大數(shù)據(jù)時代氣象數(shù)據(jù)分析應(yīng)用的新趨勢,提出了應(yīng)對思路和方法。
大數(shù)據(jù)時代;大數(shù)據(jù)思維;氣象數(shù)據(jù)分析應(yīng)用
大數(shù)據(jù)分析應(yīng)用一般可分為兩個方向:一個方向側(cè)重于數(shù)據(jù)的處理與表示,主要強調(diào)數(shù)據(jù)采集、存取、加工和可視化方法;另一個方向則側(cè)重于數(shù)據(jù)本質(zhì)特征的提取和模式發(fā)現(xiàn),即數(shù)據(jù)挖掘[1]。近些年來,氣象部門高度重視氣象數(shù)據(jù)的采集工作,建設(shè)改造了大量國家氣象站、區(qū)域站、天氣雷達、氣象衛(wèi)星、閃電定位、大氣電場、土壤水分、能見度等自動化觀測設(shè)備,采集到的數(shù)據(jù)“爆增”,氣象數(shù)據(jù)采集呈現(xiàn)出了顯著的大數(shù)據(jù)特征。然而,在氣象數(shù)據(jù)存取、加工、可視化、挖掘分析、精準發(fā)布等環(huán)節(jié),還存在不少問題,主要是不能很好發(fā)揮這些海量數(shù)據(jù)的作用。究其原因,是因為沒有做好充分準備,不能適應(yīng)悄然而至的大數(shù)據(jù)時代,沒有學(xué)會用大數(shù)據(jù)的思維和方法解決面臨的問題。
2013年被世界公認為“大數(shù)據(jù)元年”。繼2012年3月奧巴馬政府公布了2億美元的《大數(shù)據(jù)研究發(fā)展計劃》之后,2013年11月再度公布了涉及各級政府和私企、科研機構(gòu)的多個大數(shù)據(jù)研究項目,人們稱之為美國大數(shù)據(jù)戰(zhàn)略的2.0版。在英國,雖然經(jīng)濟不景氣、財政緊縮,但政府依然為大數(shù)據(jù)一擲千金,2013年初,英國政府宣布注資3億美元用于大數(shù)據(jù)項目。大數(shù)據(jù)引爆的大變革、大競爭、大挑戰(zhàn)正在迅速發(fā)酵、蔓延。根據(jù)互聯(lián)網(wǎng)數(shù)據(jù)中心的研究結(jié)果,2011年全球產(chǎn)生的數(shù)據(jù)總量達到1.8 ZB(1 ZB=1 024 EB,1 EB=1 024 PB,1 PB=1 024 TB,1 TB=1 024 GB,1 GB=1 024 MB,1 MB=1 024 KB,1 KB=1 024 B),每年產(chǎn)生的數(shù)據(jù)總量還在以60%的速率高速增長,到2020年,全球每年產(chǎn)生的數(shù)據(jù)總量將達到35 ZB。2013年,中國產(chǎn)生的數(shù)據(jù)總量達0.8 ZB,較2012年翻了一倍,相當于2009年全球的數(shù)據(jù)總量,到2020年,將是2013年的10倍,達到8.5 ZB[2]。
目前,中國氣象局所保存的數(shù)據(jù)總量約為5 PB,每年新增數(shù)據(jù)量接近1 PB,這些數(shù)據(jù)包含了地面觀測、衛(wèi)星、雷達和數(shù)據(jù)預(yù)報產(chǎn)品等幾大類。以這些數(shù)據(jù)為主,構(gòu)成了氣象部門的大數(shù)據(jù),即“氣象大數(shù)據(jù)”[3]。
1.1 什么是大數(shù)據(jù)
維基百科對大數(shù)據(jù)的定義,是指利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時間超過可容忍時間的數(shù)據(jù)集。一般認為,大數(shù)據(jù)具有“4V”特征:第一,數(shù)據(jù)量大(Volume),從TB級別躍升到PB級別;第二,數(shù)據(jù)類型多(Variety),有傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),更多的是音頻、視頻、圖像等非結(jié)構(gòu)化數(shù)據(jù);第三,數(shù)據(jù)處理速度快(Velocity),遵循“1秒鐘定律”,即1秒鐘之內(nèi)完成數(shù)據(jù)分析處理,輸出結(jié)果;第四,價值密度低(Value),有效信息占總信息量的比例很小,常常淹沒其中,難以發(fā)掘。
大數(shù)據(jù)的本質(zhì)并不在于“大”,而在于以嶄新的思維和技術(shù)去分析海量數(shù)據(jù),揭示其中隱藏的信息、知識、人類行為等,進而由此創(chuàng)新產(chǎn)品、服務(wù)、管理,或是預(yù)測未來趨勢。所以,大數(shù)據(jù)既指海量的數(shù)據(jù),也指處理海量數(shù)據(jù)的技術(shù)和工具,還指利用海量數(shù)據(jù)的思維方式[5]。
從定義可以看出,大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)顯然不同。舉一個很形象的例子,如果把數(shù)據(jù)比作“水”,把有價值信息比作“魚”,則大數(shù)據(jù)分析就好比“大海捕魚”,傳統(tǒng)數(shù)據(jù)分析好比“池塘捕魚”。首先,二者規(guī)模不同,這點很好理解;其次,大海中魚的種類多,池塘中魚的種類少;再次,在池塘中捕魚,事先能判斷出究竟能撈出些什么,而在大海中捕魚,常常不清楚能撈出什么,經(jīng)常需要根據(jù)上一網(wǎng)撈出的東西,判斷下一網(wǎng)可能會撈到什么,還要根據(jù)季節(jié)、天氣等因素,決定到哪里去撈;最后,“大海捕魚”和“池塘捕魚”使用的工具會截然不同,“池塘捕魚”使用一種或很少幾種漁網(wǎng)即可,而“大海捕魚”使用的工具要復(fù)雜得多。
1.2 大數(shù)據(jù)時代的思維變革
英國人維克托·邁爾-舍恩伯格被譽為“大數(shù)據(jù)時代的預(yù)言家”,他于2012年出版了風靡全球的《大數(shù)據(jù)時代》,他指出大數(shù)據(jù)帶來的信息風暴正在變革我們的生活、工作和思維,大數(shù)據(jù)開啟了一次重大的時代轉(zhuǎn)型。根據(jù)舍恩伯格的觀點,現(xiàn)有的認知體系是建立在原來數(shù)據(jù)稀缺背景下的,在大數(shù)據(jù)時代,人們思維和工作方式必須發(fā)生變革。第一,要分析與事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量數(shù)據(jù)樣本,即“要總體、不要樣本”,或者“樣本等于總體”。第二,要樂于接受數(shù)據(jù)的“雜、亂”,而不再追求數(shù)據(jù)的精確性,即容許錯誤數(shù)據(jù)存在。第三,相關(guān)關(guān)系比因果關(guān)系更重要,即只關(guān)心“是什么”,不關(guān)心“為什么”[4]。氣象部門以舊思維分析數(shù)據(jù)的傳統(tǒng)根深蒂固,在大數(shù)據(jù)時代實現(xiàn)上述三個思維變革尤為重要,也會非常艱難。
2.1 數(shù)據(jù)采集
當前的氣象數(shù)據(jù)采集已經(jīng)呈現(xiàn)出明顯的大數(shù)據(jù)特征。但是,這僅僅是數(shù)據(jù)量的“爆增”,還不是真正意義上的大數(shù)據(jù)。實際上,大數(shù)據(jù)更側(cè)重于研究非氣象類數(shù)據(jù)、或者是看起來與氣象毫無關(guān)系的數(shù)據(jù),在這些數(shù)量超大、而單個數(shù)據(jù)有效價值低的數(shù)據(jù)中挖掘出有價值的信息。因此,氣象大數(shù)據(jù)采集不僅包括傳統(tǒng)的氣象數(shù)據(jù),還包括其他任何可能用到的數(shù)據(jù)。如:哪些人在什么時間關(guān)注哪一類天氣信息,某一類商品的銷售信息,航班信息,用戶訪問氣象網(wǎng)站的時間、地點、瀏覽內(nèi)容、滯留時間,網(wǎng)絡(luò)社區(qū)交流內(nèi)容,手機應(yīng)用使用情況等。氣象大數(shù)據(jù)采集的一般特征表現(xiàn)為:自動、客觀、單個監(jiān)測點成本低、實時性強、數(shù)據(jù)量大、數(shù)據(jù)質(zhì)量不高、間接性等,同時還具有物聯(lián)網(wǎng)的特征。下面給出幾個有趣例子。
2010年,聯(lián)合國哥本哈根世界氣候大會期間,美國麻省理工學(xué)院的學(xué)生設(shè)計了一款自行車輔助工具——哥本哈根車輪。車輪內(nèi)置了一些監(jiān)測裝置,可以對路況、溫度、濕度、一氧化碳等信息進行監(jiān)測,GPS幫助記錄位置信息。通過藍牙模塊與智能手機關(guān)聯(lián),騎車人可以參考這些實時數(shù)據(jù)調(diào)整自己的出行計劃。更有意義的是,還可以將這些數(shù)據(jù)上傳,幫助建立一個龐大的環(huán)境狀況數(shù)據(jù)庫,繪制出城市環(huán)境地圖。
2011年,美國國家氣象局在美國2 000輛客運大巴上安裝了傳感器,隨著巴士的移動,這些傳感器可以搜集沿途所有地點的溫度、濕度、光照度等數(shù)據(jù),并立即傳回國家氣象局數(shù)據(jù)中心。數(shù)據(jù)采集每10秒一次,每天每個傳感器要采集10萬次以上的數(shù)據(jù)。與此情況類似,該國郵政局計劃在他們的郵政車上安裝傳感器,實時采集空氣質(zhì)量、污染指數(shù)、噪聲等數(shù)據(jù)。
英國的研究人員在智能手機里安裝了氣壓、溫度、濕度傳感器,隨時隨地、不知不覺的測量并發(fā)送這些信息到國家氣象數(shù)據(jù)中心。雖然發(fā)出的可能是用戶口袋里的溫度,但是他們已經(jīng)研究出了相應(yīng)的模型,通過大量這樣不太準確的數(shù)據(jù)計算出高分辨率、實時的城市溫度分布圖。
2.2 數(shù)據(jù)存取
大數(shù)據(jù)存取面臨兩個方面的問題。一是存儲容量問題,當前省級氣象部門應(yīng)達到PB級水平。二是存取速度問題,要滿足“1秒鐘輸出結(jié)果”定律。這兩個問題既相互矛盾,又相互關(guān)聯(lián),必須統(tǒng)籌解決。解決這兩個問題的關(guān)鍵不在于存儲系統(tǒng)擴容,而在于系統(tǒng)架構(gòu)設(shè)計和數(shù)據(jù)分析算法。需要應(yīng)用分布式存儲、分布式計算、云計算、非結(jié)構(gòu)化數(shù)據(jù)存儲等新技術(shù),改造現(xiàn)有的信息系統(tǒng),建設(shè)滿足大數(shù)據(jù)需求的數(shù)據(jù)中心。
2.3 數(shù)據(jù)挖掘
氣象部門開展數(shù)據(jù)分析由來已久,而在大數(shù)據(jù)分析領(lǐng)域還是新手。大數(shù)據(jù)分析為氣象數(shù)據(jù)分析提供了全新的思路、方法,也開辟了廣闊的發(fā)展空間。
大數(shù)據(jù)的核心是“預(yù)測”。大數(shù)據(jù)之所以能預(yù)測未來,靠的是對相關(guān)關(guān)系的把握,通過相關(guān)關(guān)系分析過去,獲得對未來的預(yù)測。例如:“清明時節(jié)雨紛紛”這個結(jié)論不是邏輯推導(dǎo)出來的,而是人們通過多年觀察,發(fā)現(xiàn)每年清明前后總是下雨比較多,于是總結(jié)出這一規(guī)律,運用此規(guī)律即可做出預(yù)測。這是一種傳統(tǒng)的統(tǒng)計學(xué)分析,實際中的大數(shù)據(jù)分析比這要復(fù)雜得多。傳統(tǒng)統(tǒng)計學(xué)方法對樣本數(shù)據(jù)的正態(tài)性假設(shè)、變量的獨立性、變量個數(shù)、假設(shè)檢驗等要求較高,而大數(shù)據(jù)分析(即數(shù)據(jù)挖掘)則是對傳統(tǒng)統(tǒng)計學(xué)方法的擴展和延伸,側(cè)重于應(yīng)用高維建模、多模式建模、復(fù)雜網(wǎng)絡(luò)建模、非參數(shù)模型等新技術(shù),從種類繁多、數(shù)量龐大的數(shù)據(jù)中快速獲取有價值的信息。
“多維”和“混搭”是大數(shù)據(jù)分析的重要特征。許多成功的大數(shù)據(jù)應(yīng)用案例,都是從似乎毫不相干的數(shù)據(jù)中找到了相互之間的相關(guān)關(guān)系。美國天氣預(yù)報公司長期以來都在向航空公司和能源交易商銷售天氣預(yù)報服務(wù)。而現(xiàn)在,他們不僅僅能夠提供天氣預(yù)報,還能依據(jù)人們查看天氣的時間、地點和頻次等情況,預(yù)測人們的消費行為。借助大數(shù)據(jù)分析技術(shù),該公司幫助廣告主投放高度精準的廣告,如空氣干燥時推銷保濕型洗發(fā)水等。
大數(shù)據(jù)與“預(yù)防性維修模式”。美國一家運輸公司通過“任何數(shù)據(jù)都不能少”計劃,從成千上萬的貨車運輸系統(tǒng)中搜集了900個數(shù)據(jù)元素,包括輪胎和汽油使用的傳感器、引擎運行、GPS定位數(shù)據(jù),以及貨車司機在博客上的抱怨等。通過對這些數(shù)據(jù)的集成分析處理,可以預(yù)測哪輛車的哪個部件什么時候可能出現(xiàn)故障,建立了“預(yù)防性維修模式”,取代了過去出現(xiàn)故障后再進行搶修的“救火維修模式”,取得了很好的效果。這個案例對綜合氣象觀測系統(tǒng)的運行保障有很好的借鑒意義。
2.4 信息發(fā)布
氣象信息、特別是氣象預(yù)警信息不僅要發(fā)得快、還要發(fā)得準,才能保證在這個信息過載的時代,氣象信息被閱讀而不被忽略。如何實現(xiàn)氣象信息的精準發(fā)布和個性發(fā)布?氣象部門為此大動腦筋,大數(shù)據(jù)也許是解決這一問題的利劍。
目前使用墨跡天氣、天氣通等應(yīng)用,用戶可定制個性化的氣象服務(wù)。未來用戶還可依據(jù)用戶前期的上網(wǎng)記錄、位置信息、消費記錄等,推送個性化的氣象信息,甚至包括家里的電視天氣預(yù)報節(jié)目、辦公室的電腦都可根據(jù)瀏覽記錄、個人愛好、天氣情況等自動推送個性化的內(nèi)容。內(nèi)置了位置、方位、震動等多種傳感器,且操作方便、互動性強的智能手機將是大數(shù)據(jù)時代氣象信息精準發(fā)布和個性化發(fā)布的重要渠道。同時,通過智能手機把氣象災(zāi)害現(xiàn)場的視頻、圖片、音頻及時發(fā)送給數(shù)據(jù)中心,也有重要的意義。
美國國家天氣服務(wù)局推出了“無線緊急預(yù)警系統(tǒng)”,這個系統(tǒng)可以根據(jù)暴風或者惡劣天氣通過的路徑來確定會受影響的人群,從而發(fā)送信息,而不是以一個省或一個市為單位盲目群發(fā)。具體的說,該系統(tǒng)不是根據(jù)手機用戶的注冊地址來推送預(yù)警信息,而是根據(jù)用戶手機發(fā)出的信號,來判別其是否位于災(zāi)區(qū)之內(nèi),再決定是否發(fā)送信息,這樣既提高了預(yù)警信息發(fā)布的精準度,又減少了不必要的信息擾民。
大數(shù)據(jù)對氣象部門的影響遠遠不止上述幾點。從政府運行角度講,氣象數(shù)據(jù)向社會開放是大勢所趨,數(shù)據(jù)開放能夠大大驅(qū)動全社會參與創(chuàng)新[6]。從管理角度講,要學(xué)會以數(shù)據(jù)為基礎(chǔ),進行決策、管理和工作。從公共服務(wù)角度講,要學(xué)會應(yīng)用大數(shù)據(jù)分析用戶需求,持續(xù)改進服務(wù)質(zhì)量。另外,駕馭大數(shù)據(jù)需要高質(zhì)量的數(shù)據(jù)分析師,這是人力資源管理方面應(yīng)關(guān)注的。當然,大數(shù)據(jù)并不盡善盡美,信息安全和保護個人隱私將是大數(shù)據(jù)時代面臨的嚴峻挑戰(zhàn)。
大數(shù)據(jù)時代已經(jīng)來臨,一場改變世界格局和人類生活的大數(shù)據(jù)革命即將引爆。誰掌握了大數(shù)據(jù),誰就將在這個時代勝出。誰漠視大數(shù)據(jù),等待他的只有落后。
[1] 王星.大數(shù)據(jù)分析:方法與應(yīng)用[M].北京:清華出版社,2013.
[2] ZDNET.數(shù)據(jù)中心2013:硬件重構(gòu)和軟件定義[EB/OL]. [2014-02-21].http://itpapers.zdnet.com.cn/itpaper/detail/3/24234.shtml.
[3] “氣象大數(shù)據(jù)”以何種方式在氣象領(lǐng)域蔓延?[EB/OL].[2014-02-18].http://www.chinawuliu.com.cn/zhxw/201402/18/278296.shtml.
[4] 維克托·邁爾-舍恩伯格,肯尼斯·庫克耶.大數(shù)據(jù)時代[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.
[5] 徐繼華,馮啟娜,陳貞汝.智慧政府:大數(shù)據(jù)治國時代的來臨[M].北京,中信出版社,2014.
[6] 涂子沛.大數(shù)據(jù)[M].南寧:廣西師范大學(xué)出版社,2012.
李社宏.大數(shù)據(jù)時代氣象數(shù)據(jù)分析應(yīng)用的新趨勢[J].陜西氣象,2014(2):41-44.
編者的話:目前氣象觀測資料包含有海量信息,呈現(xiàn)出了顯著的大數(shù)據(jù)特征,氣象大數(shù)據(jù)采集不僅包括傳統(tǒng)的氣象數(shù)據(jù),還包括其他任何可能用到的數(shù)據(jù),數(shù)據(jù)分析不僅僅涉及氣象業(yè)務(wù)和科研方面,而且涉及到?jīng)Q策、管理及公共氣象服務(wù)等許多方面?;鶎託庀罂萍既藛T常反映寫文章難,實際上,許多氣象科學(xué)的重大發(fā)現(xiàn)和論斷的提出都是基于氣象觀測事實和觀測資料分析而完成的。基層氣象臺站擁有許多寶貴的第一手氣象數(shù)據(jù),同時基層科技人員對氣象數(shù)據(jù)有著深刻的理解,因此,基層臺站開展數(shù)據(jù)分析有天然的優(yōu)勢。為幫助基層年輕科技人員提高業(yè)務(wù)技能和科研能力,鼓勵他們開展氣象數(shù)據(jù)的分析應(yīng)用,本刊特約陜西省氣象局觀測網(wǎng)絡(luò)處處長李社宏撰寫了《大數(shù)據(jù)時代氣象數(shù)據(jù)分析應(yīng)用的新趨勢》一文,為氣象數(shù)據(jù)分析應(yīng)用提供了全新的思路?!蛾兾鳉庀蟆穼鶎幼髡哂嘘P(guān)數(shù)據(jù)分析應(yīng)用的論文優(yōu)先刊載。
1006-4354(2014)02-0041-04
2014-02-21
李社宏(1969—),男,漢族,陜西周至人,高級工程師,主要從事氣象業(yè)務(wù)管理。
C