李留越
大數(shù)據(jù)時(shí)代已經(jīng)來臨,帶來了信息科學(xué)技術(shù)發(fā)展的深刻變革,并對(duì)社會(huì)生產(chǎn)和人民生活的方方面面產(chǎn)生了巨大影響。全球范圍內(nèi),世界各國均高度重視大數(shù)據(jù)技術(shù)的研究和產(chǎn)業(yè)發(fā)展,紛紛把大數(shù)據(jù)上升為國家戰(zhàn)略加以重點(diǎn)推進(jìn)。我國的互聯(lián)網(wǎng)企業(yè)和學(xué)術(shù)機(jī)構(gòu)正加大技術(shù)、資金和人員投入力度,加強(qiáng)對(duì)大數(shù)據(jù)關(guān)鍵技術(shù)的研發(fā)和應(yīng)用。大數(shù)據(jù)已經(jīng)不是那么遙不可及,它的影響力和作用力正在迅速觸及社會(huì)的每個(gè)角落,所到之處,有對(duì)傳統(tǒng)行業(yè)的沖擊,也有基于大數(shù)據(jù)技術(shù)的產(chǎn)業(yè)革新,都讓人們深切感受到了大數(shù)據(jù)技術(shù)的影響力以及作用力。
據(jù)預(yù)測(cè),到2020年,全球包含PC、平板電腦、智能手機(jī)等聯(lián)網(wǎng)設(shè)備將超過300億臺(tái)。實(shí)際上,隨著物聯(lián)網(wǎng)技術(shù)與可穿戴設(shè)備的飛速發(fā)展,終端設(shè)備會(huì)遠(yuǎn)遠(yuǎn)大于這個(gè)數(shù)量。大量終端設(shè)備會(huì)產(chǎn)生巨大的數(shù)據(jù)量,數(shù)據(jù)內(nèi)容的種類也會(huì)變得多種多樣,比如大量的普通文本數(shù)據(jù)、醫(yī)療影像數(shù)據(jù)以及越來越多城市攝像頭所記錄下的視頻數(shù)據(jù),還有最近比較火的短視頻應(yīng)用所產(chǎn)生的大量視頻數(shù)據(jù)等等。大數(shù)據(jù),指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)技術(shù)有四大特點(diǎn):Volume(大體量)、Variety(多樣性)、Velocity(時(shí)效性)和Veracity(準(zhǔn)確性),人們將其總結(jié)為4V特征。
一般而言,大數(shù)據(jù)處理有三種模式:離線計(jì)算、在線處理和流計(jì)算。Hadoop是目前使用較為廣泛的離線計(jì)算應(yīng)用框架,在線處理和流計(jì)算尚未形成廣泛使用的開源生態(tài)環(huán)境。說到大數(shù)據(jù)我們首先要關(guān)注的是Google公司,Google公司的三大核心技術(shù)MapReduece、GFS和BigTable奠定了大數(shù)據(jù)分布式處理的基礎(chǔ)。MapReduece是一種編程模型,用于大規(guī)模數(shù)據(jù)的并行計(jì)算。在Google公司三大核心技術(shù)的基礎(chǔ)上,Apache社區(qū)開發(fā)的開源軟件Hadoop是實(shí)現(xiàn)MapReduece計(jì)算模型的分布式并行編程框架。Hadoop還提供一個(gè)分布式文件系統(tǒng)(HDFS)及分布式數(shù)據(jù)庫(Hbase),將數(shù)據(jù)部署到各個(gè)計(jì)算節(jié)點(diǎn)上。Hadoop的獨(dú)特之處在于它的編程模型簡單,用戶可以很快地編寫和測(cè)試分布式系統(tǒng)。2008年以來,Hadoop逐漸被互聯(lián)企業(yè)廣泛接受,這一開源的生態(tài)系統(tǒng)已成為大數(shù)據(jù)處理的主流和事實(shí)標(biāo)準(zhǔn)。
當(dāng)前,對(duì)大數(shù)據(jù)的處理分析技術(shù)正成為新一代信息技術(shù)融合應(yīng)用的節(jié)點(diǎn)。移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、數(shù)字家庭、電子商務(wù)等是新一代信息技術(shù)的應(yīng)用,這些應(yīng)用不斷產(chǎn)生大量數(shù)據(jù)。通過對(duì)不同來源數(shù)據(jù)的管理、處理、分析與優(yōu)化,將結(jié)果反饋到應(yīng)用中去,將創(chuàng)造出巨大的經(jīng)濟(jì)和社會(huì)價(jià)值??赡苡行┤诉€沒意識(shí)到大數(shù)據(jù)的作用,總覺得這種技術(shù)很遙遠(yuǎn),但是大數(shù)據(jù)技術(shù)已經(jīng)融入了我們的生活。比如現(xiàn)在很火的抖音短視頻APP,很多年輕人的手機(jī)里面都有這個(gè)APP,用的時(shí)間久了你就發(fā)現(xiàn)這個(gè)手機(jī)軟件會(huì)根據(jù)你的喜好給你推薦視頻,這正是對(duì)于大數(shù)據(jù)處理分析技術(shù)的應(yīng)用。當(dāng)你使用了一段時(shí)間這個(gè)軟件之后,它收集了你點(diǎn)贊的視頻,然后經(jīng)過后臺(tái)的分析,把相關(guān)的視頻推薦給你,這樣你使用這個(gè)軟件的時(shí)間就會(huì)變長,就會(huì)給軟件的制作者帶來收益。
對(duì)于大數(shù)據(jù)處理與分析技術(shù)的應(yīng)用還體現(xiàn)在生活的很多方面。在社會(huì)管理方面,我們的政府會(huì)根據(jù)全國的就業(yè)信息來分析目前經(jīng)濟(jì)形式和企業(yè)的經(jīng)營問題。解決十幾億人的吃飯問題是我們國家經(jīng)濟(jì)發(fā)展的首要任務(wù),國家對(duì)就業(yè)形式的全面了解有利于制定相關(guān)的政策來解決相應(yīng)的問題,但是整個(gè)國家的就業(yè)信息非常龐大,這個(gè)時(shí)候就需要大數(shù)據(jù)處理與分析技術(shù)來解決這個(gè)難題。首先我們要對(duì)全國就業(yè)信息進(jìn)行采集,然后將所有采集到的數(shù)據(jù)利用分布式文件系統(tǒng)存儲(chǔ)在很多臺(tái)機(jī)器上。利用相關(guān)的經(jīng)濟(jì)學(xué)原理,分析我們所采集到的數(shù)據(jù)之間的邏輯關(guān)系,然后在一些優(yōu)秀的大數(shù)據(jù)平臺(tái)如Hadoop、Spark等上編寫相應(yīng)的數(shù)據(jù)分析程序,最后將程序部署到我們的存儲(chǔ)數(shù)據(jù)的機(jī)器上,開始我們的數(shù)據(jù)分析并且將最終的結(jié)果匯總,得出我們想要的結(jié)論。大數(shù)據(jù)處理與分析技術(shù)不像傳統(tǒng)的抽樣調(diào)查,大數(shù)據(jù)分析是對(duì)所有數(shù)據(jù)的計(jì)算,不是對(duì)部分?jǐn)?shù)據(jù)的分析,這樣我們利用大數(shù)據(jù)處理與分析得到的結(jié)論比傳統(tǒng)的抽樣調(diào)查得到的結(jié)果更準(zhǔn)確。除此之外,通過對(duì)全國就業(yè)信息的分析,我們不僅僅可以得出國家經(jīng)濟(jì)形式相關(guān)的結(jié)論,我們還可以利用其中的數(shù)據(jù)來判斷當(dāng)前比較熱門的行業(yè)有哪些,預(yù)計(jì)哪些行業(yè)將會(huì)給就業(yè)者帶來無限機(jī)遇。
在這個(gè)信息時(shí)代,我們每個(gè)人每天都會(huì)產(chǎn)生各種各樣的數(shù)據(jù),例如我們的出行信息、購物信息、身體健康狀況等信息,利用這些數(shù)據(jù)為我們的生活帶來便利是大數(shù)據(jù)處理與分析技術(shù)所要做的。生老病死是人的客觀規(guī)律,在治理疾病方面,我們的大數(shù)據(jù)處理與分析技術(shù)有著非常廣泛的應(yīng)用。在醫(yī)療行業(yè),大數(shù)據(jù)技術(shù)的應(yīng)用有比較效果研究、臨床決策系統(tǒng)和遠(yuǎn)程病人監(jiān)護(hù)等等。通過全面分析病人特征數(shù)據(jù)和療效數(shù)據(jù),然后比較多種干預(yù)措施的有效性,可以找到針對(duì)特定病人的最佳治療途徑。研究表明,對(duì)同一病人來說,醫(yī)療提供方不同,醫(yī)療護(hù)理方法不同和效果不同,成本上也存在很大差異。精確分析包括病人體征數(shù)據(jù)、費(fèi)用數(shù)據(jù)和療效數(shù)據(jù)在內(nèi)的大型數(shù)據(jù)集,可以幫助醫(yī)生確定臨床上最有效和最具有成本效益的治療方法。
在我們的日常生活當(dāng)中,我們最常見的應(yīng)用大數(shù)據(jù)處理與分析技術(shù)應(yīng)當(dāng)是天氣預(yù)報(bào),我們每個(gè)人都會(huì)很關(guān)心天氣信息,天氣與我們的生活息息相關(guān)。以前我們收看天氣預(yù)報(bào),我們基本上只能看到未來三天的天氣信息,并且這些天氣信息有可能出錯(cuò)。但是現(xiàn)在不同了,我們?cè)谔鞖忸A(yù)測(cè)這方面引入了大數(shù)據(jù)技術(shù),我們不僅可以查看未來一周甚至15天的天氣信息,還可以查看未來24小時(shí)內(nèi)每個(gè)時(shí)間段的天氣信息,并且現(xiàn)在天氣信息的準(zhǔn)確率非常高。大數(shù)據(jù)技術(shù)在我們的生活中的應(yīng)用已經(jīng)無處不在,只是如果我們不去深入了解,我們就不知道這其中深藏著對(duì)大數(shù)據(jù)技術(shù)的應(yīng)用。我們生活中的購物網(wǎng)站的智能推薦、我們的智能設(shè)備對(duì)身體健康狀態(tài)的檢測(cè)、手機(jī)上地圖軟件的實(shí)時(shí)路況及路徑推薦等等,這些都運(yùn)用到了大數(shù)據(jù)技術(shù)。
大數(shù)據(jù)技術(shù)已經(jīng)融入我們的生活,在眼下這個(gè)“深刻變革、深刻變動(dòng)、深刻調(diào)整、深刻變化”的時(shí)代,我們更需要學(xué)習(xí)科學(xué)技術(shù),保證自身不會(huì)被這個(gè)時(shí)代淘汰。大數(shù)據(jù)時(shí)代已經(jīng)來臨,新的時(shí)代,新的挑戰(zhàn),需要我們更加好好學(xué)習(xí)。