李文靜
(中國地震局地殼應(yīng)力研究所,北京100085)
(作者電子信箱,李文靜:wenjing410@126.com)
“大數(shù)據(jù)”這個術(shù)語最早期的引用可追溯到Apache.org的開源項目Nutch。當(dāng)時,大數(shù)據(jù)用來描述為更新網(wǎng)絡(luò)搜索索引需要同時進行批量處理或分析的大量數(shù)據(jù)集。隨著谷歌Map Reduce和Google File System(GFS)的發(fā)布,大數(shù)據(jù)不再僅用來描述大量的數(shù)據(jù),還涵蓋了處理數(shù)據(jù)的速度[1]。早在1980年,著名未來學(xué)家阿爾文·托夫勒便在《第三次浪潮》一書中,將大數(shù)據(jù)熱情地贊頌為“第三次浪潮的華彩樂章”。不過,大約從2009年開始,“大數(shù)據(jù)”才成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的流行詞匯[2]。
大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理,并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。大數(shù)據(jù)的4V 特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)[3-4]。
大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”[5]。從技術(shù)上看,大數(shù)據(jù)與云計算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺的計算機進行處理,必須采用分布式計算架構(gòu)。它的特色在于對海量數(shù)據(jù)的挖掘,但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫、云存儲和虛擬化技術(shù)。大數(shù)據(jù)需要特殊的技術(shù),以便在允許的時間內(nèi)有效地處理大量的數(shù)據(jù)[6-7]。
從字面上看,某個單一的地震觀測臺站和大數(shù)據(jù)是沒有關(guān)系的,而實際上,臺站不僅需要大數(shù)據(jù)工程,而且是迫切需要大數(shù)據(jù)工程。
目前的野外觀測臺站向上級部門提供的就是儀器觀測的時間序列數(shù)據(jù),有些臺站提供部分輔助的觀測數(shù)據(jù),如地震前兆觀測臺站還提供相應(yīng)的氣象要素觀測結(jié)果等。然而這遠遠不夠,完整的臺站數(shù)據(jù),即這里所說的大數(shù)據(jù)計劃,應(yīng)該包括如下內(nèi)容:
(1)臺站歷史資料。包括選擇在該臺站設(shè)立相關(guān)觀測項目的初衷,建臺以來臺站觀測設(shè)備的更換,觀測手段的增減。如果是人工讀數(shù)觀測,還應(yīng)該提供相應(yīng)讀數(shù)人員的變化情況。
(2)臺站場地環(huán)境資料。包括臺站所處位置一定范圍內(nèi)的地貌情況,地下結(jié)構(gòu)情況,周邊環(huán)境變化,比如在可能影響數(shù)據(jù)變化的距離內(nèi)修建水庫、興建大型建筑等。
(3)臺站觀測數(shù)據(jù)資料。除了目前常規(guī)的觀測數(shù)據(jù)時間序列外,還應(yīng)包括一個通用的數(shù)據(jù)說明,在其中標(biāo)明數(shù)據(jù)文件格式、數(shù)據(jù)是什么(何種)設(shè)備產(chǎn)出的,中間經(jīng)過了怎樣的數(shù)據(jù)處理過程等。
(4)臺站臨時試驗資料。為了項目研究或者其他工作的需要,對臺站正在進行的觀測項目開展的臨時試驗,例如改變觀測井水溫的探頭深度或場地注水試驗等,就需要將該段時間的數(shù)據(jù)進行特別標(biāo)注;有些研究項目在臺站臨時架設(shè)觀測設(shè)備的數(shù)據(jù),臺站需要保留下來,以便后續(xù)可能的應(yīng)用分析;有些工程項目在臺站所轄的一定范圍內(nèi)開挖探槽、打樁、放炮等,需要給臺站備份該項目所獲得的數(shù)據(jù)和分析結(jié)果。
(5)臺站常規(guī)及常用的分析工具。主要是臺站使用的數(shù)據(jù)處理軟件、源程序等,包括臺站人員自己研發(fā)的實用程序,以及應(yīng)用臺站數(shù)據(jù)開展分析工作的研究程序等。
(6)臺站觀測數(shù)據(jù)行業(yè)應(yīng)用。臺站不僅僅是產(chǎn)出數(shù)據(jù)的地方,還是最先處理數(shù)據(jù)并開展行業(yè)應(yīng)用的地方。臺站可以利用自己單一的臺站或者綜合臨近數(shù)個臺站的相關(guān)資料開展分析,并將結(jié)果匯總至上級部門。
(7)臺站觀測數(shù)據(jù)的應(yīng)用效益。觀測數(shù)據(jù)是用來被分析的,因此需要統(tǒng)計臺站資料的應(yīng)用情況,比如每年有多少篇文章、多少份報告中用到了臺站數(shù)據(jù),是用什么樣的方法分析的臺站數(shù)據(jù),對數(shù)據(jù)觀測提出了什么樣的建議等。
臺站大數(shù)據(jù)計劃涵蓋的內(nèi)容很多,其意義和必要性主要體現(xiàn)在:
(1)從數(shù)據(jù)處理的工作量來看,采用并行計算的思想,將原來集中在一個國家數(shù)據(jù)中心或省數(shù)據(jù)中心,由數(shù)名人員分析全國或全省的數(shù)據(jù),改變?yōu)橛扇珖鱾€臺站人員獨立分析數(shù)據(jù),將結(jié)果反饋到數(shù)據(jù)中心進行二次加工,從而大大減輕數(shù)據(jù)中心或分析預(yù)報中心的壓力,提高工作效率。臺站進行常規(guī)數(shù)據(jù)分析時,可以采用統(tǒng)一的軟件和算法標(biāo)準(zhǔn),或者根據(jù)已有經(jīng)驗確定固定的算法標(biāo)準(zhǔn)。同時,臺站人員是對觀測數(shù)據(jù)最熟悉,對當(dāng)時一些可能的影響因素最了解,由他們開展數(shù)據(jù)分析工作,可以大大提高結(jié)論的可靠性。
(2)從數(shù)據(jù)的完備性來看,觀測資料僅僅是一部分,觀測資料的變化與觀測設(shè)備的更新?lián)Q代、觀測場地環(huán)境的改造以及數(shù)據(jù)預(yù)處理方法的差異等都密切相關(guān)。數(shù)據(jù)分析結(jié)論的可靠性取決于數(shù)據(jù)的完備程度,如果僅僅從數(shù)據(jù)時間序列出發(fā),分析得到的結(jié)論是不可靠的,甚至是錯誤的。而從臺站長期的人員更換來看,一套完備的數(shù)據(jù),可以讓剛從事該項工作的人員更快地掌握工作技能,從而降低由于人員變更帶來的數(shù)據(jù)變化風(fēng)險。
(3)從臺站管理的角度來看,完備的數(shù)據(jù)有益于上級部門對臺站建設(shè)和運行維護做出正確的決策。比如,臺站觀測的數(shù)據(jù)是否達到了架設(shè)臺站測項時的預(yù)期目標(biāo)?臺站數(shù)據(jù)是否有其存在的意義,是否存在一些臺站數(shù)據(jù)長期沒有被使用?通過對類似相關(guān)內(nèi)容的分析,可以對當(dāng)前臺站布局、臺站測項搭配、后續(xù)臺站布局等提出合理的意見和建議,并做出適當(dāng)調(diào)整。
(4)從人才培養(yǎng)和科學(xué)進步的角度看,由臺站來建立一套完備的大數(shù)據(jù),將改變觀測、分析、研究相互脫節(jié)的現(xiàn)狀。盡管現(xiàn)在有很多科研項目也開展野外觀測,但這些觀測的短處是顯而易見的,比如是遠程訪問或定期下載觀測數(shù)據(jù),而不是現(xiàn)場觀測等。同時,大數(shù)據(jù)計劃也將會激勵更多的高學(xué)歷人才從事一線工作,有助于改善臺站知識層次以及改變社會就業(yè)理念等,最終推動行業(yè)研究工作乃至科學(xué)研究的進步。
1983年,太陽電腦(Sun Microsystems)提出“網(wǎng)絡(luò)是電腦”(“The Network is the Computer”),2006年3月,亞馬遜(Amazon)推出彈性計算云(Elastic Compute Cloud,EC2)服務(wù)。2006年8 月9 日,Google首席執(zhí)行官埃里克·施密特(Eric Schmidt)在搜索引擎大會(SES San Jose 2006)首次提出“云計算”(cloud computing)的概念。對云計算的定義有多種說法,目前廣為接受的是中國云計算專家咨詢委員會副主任、秘書長劉鵬教授和著云臺團隊給出的定義:“云計算是通過網(wǎng)絡(luò)提供可伸縮的廉價的分布式計算能力”。云計算代表了以虛擬化技術(shù)為核心,以低成本為目標(biāo)的動態(tài)可擴展網(wǎng)絡(luò)應(yīng)用基礎(chǔ)設(shè)施,是近年來最有代表性的網(wǎng)絡(luò)計算技術(shù)與模式。一般意義上的云計算提供基礎(chǔ)設(shè)施即服 務(wù)(Infrastructure-as-a-Service,IaaS),平臺即服務(wù)(Platform-as-a-Service,PaaS)和軟件即服務(wù)(Software-as-a-Service,SaaS)這3個層次的服務(wù)功能。
臺站的云計算計劃和管理臺站的上級部門或數(shù)據(jù)中心密切相關(guān)。因為它需要數(shù)據(jù)中心提供計算數(shù)據(jù)和計算軟件,這正是臺站的上級部門或數(shù)據(jù)中心所應(yīng)該提供的云計算服務(wù)功能。臺站不需要龐大的計算集群和高性能計算設(shè)備,只需根據(jù)自己的需要,從數(shù)據(jù)中心選擇數(shù)據(jù),并在計算平臺上利用相應(yīng)的計算軟件或程序開展數(shù)據(jù)分析和研究。而這些研究成果將成為上級部門進一步分析時的重要參考。而上級部門或數(shù)據(jù)中心也將根據(jù)大部分臺站的需求,提供相應(yīng)的軟件和算法,以進一步提高臺站數(shù)據(jù)分析能力和可靠性。
臺站大數(shù)據(jù)和云計算計劃看起來是個非常龐大的課題,似乎難度很大,但仔細(xì)分析并非如此。因為它只是涉及工作的調(diào)整,特別是很多數(shù)據(jù)中心的工作被分流到一個個臺站來完成。對數(shù)據(jù)中心而言,一般都有遠程數(shù)據(jù)服務(wù)功能,現(xiàn)在只是把更多關(guān)于一個個臺站的信息增加了進來,這需要對數(shù)據(jù)庫進行擴展改造。對上級部門的數(shù)據(jù)分析專家而言,他們的工作中心應(yīng)該是對數(shù)據(jù)的二次加工,以及在此基礎(chǔ)上為臺站提供更為成熟的或必要的計算軟件。對臺站而言,增加了很多原來沒有的工作,但是保留了一套完整的臺志,為后人留下可用的資料,提高了臺站數(shù)據(jù)的應(yīng)用效益,提高了臺站人員的地位。對行業(yè)科學(xué)進步而言,它將會推進行業(yè)研究水平的提高。因此,這是一個可行的計劃。
當(dāng)然,在具體操作過程中,還是存在一些問題,特別是數(shù)據(jù)分析任務(wù)分流到臺站,需要結(jié)合臺站的具體情況,采取合適的步驟進行,否則分析中心可能得不到正確的結(jié)論。
[1]撫蘇.眾望所歸,大數(shù)據(jù)時代來臨.電腦報,2013-06-24(14):1-3
[2]任姝瑋.大數(shù)據(jù)時代:新機會 新模式.浦東開發(fā),2013(3):22-23
[3]趙三明.汽車后市場大數(shù)據(jù)時代已來臨.中國工業(yè)報,(2014-02-14)[2014-04-15].http:∥www.cinn.cn/qc/309938.shtml
[4]維克托·邁爾-舍爾維恩,肯尼斯·庫克耶.大數(shù)據(jù)時代.杭州:浙江人民出版社,2013
[5]邱雪濤,趙金濤.基于實時大數(shù)據(jù)處理的交易欺詐偵測的研究.軟件產(chǎn)業(yè)與工程,2013,22(4):36-40
[6]王太師.大風(fēng)起兮“云”飛揚.貴州日報,(2014-02-28)[2014-04-15].http:∥58.42.249.98/epaper/gzrb/Content/20140228/Articel01007WD.htm
[7]《財務(wù)與會計》編輯部.詞條:大數(shù)據(jù).財務(wù)與會計:理財版.2013(7):23