[摘 要]文章詳細(xì)敘述了大數(shù)據(jù)的特點(diǎn)、分類、發(fā)展趨勢(shì)、代表人物、國(guó)內(nèi)外研究現(xiàn)狀。特點(diǎn)主要有大容量、多樣性、快速度、真實(shí)性。分類主要有海量性數(shù)據(jù)、響應(yīng)型數(shù)據(jù)、影隨行數(shù)據(jù)、過程型數(shù)據(jù)、未知型數(shù)據(jù)。發(fā)展趨勢(shì)主要有數(shù)據(jù)的資源化、與云計(jì)算的深度結(jié)合、科學(xué)理論的突破、數(shù)據(jù)科學(xué)和數(shù)據(jù)聯(lián)盟的建立。代表人物主要是對(duì)當(dāng)今世界大數(shù)據(jù)發(fā)展產(chǎn)生巨大影響的人。國(guó)內(nèi)外研究現(xiàn)狀主要包括生物信息學(xué)、生物信息管理學(xué)科、云計(jì)算、MapReduce和Hadoop以及可視化研究。
[關(guān)鍵詞]大數(shù)據(jù);大容量;真實(shí)性;云計(jì)算;可視化研究
[DOI]10.13939/j.cnki.zgsc.2020.04.018
隨著人類社會(huì)的進(jìn)步,數(shù)據(jù)的數(shù)量與質(zhì)量同時(shí)都在提高。人類在工業(yè)革命之后對(duì)數(shù)據(jù)更加重視,于是在不同的行業(yè)分別建立了相對(duì)應(yīng)的數(shù)據(jù)標(biāo)準(zhǔn),并積累了一定量級(jí)的結(jié)構(gòu)化數(shù)據(jù)。緊接著隨著計(jì)算機(jī)與網(wǎng)絡(luò)的這股浪潮,人們急需高效的處理數(shù)據(jù)的方式,隨著人們的研究使得處理大量的傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)成為了可能。近幾年來(lái),音頻、文字、圖片、視頻等半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)隨著互聯(lián)網(wǎng)的快速發(fā)展大量出現(xiàn),社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、云計(jì)算的廣泛應(yīng)用,使得個(gè)人數(shù)據(jù)的發(fā)布與獲取可以更加準(zhǔn)確快捷。在眾多領(lǐng)域如科學(xué)研究、互聯(lián)網(wǎng)應(yīng)用、電子商務(wù),數(shù)據(jù)的規(guī)模與種類正在以極快的速度增長(zhǎng),現(xiàn)如今的時(shí)代即將變成大數(shù)據(jù)時(shí)代。接下來(lái)文章將從大數(shù)據(jù)的特點(diǎn)、分類、發(fā)展趨勢(shì)、代表人物以及國(guó)內(nèi)外研究現(xiàn)狀進(jìn)行詳細(xì)敘述。
1 大數(shù)據(jù)的特點(diǎn)
(1)大容量。數(shù)量(Volume),即數(shù)據(jù)本身的量級(jí)就非常巨大。隨著科學(xué)技術(shù)的不斷進(jìn)步,人們制造出的數(shù)據(jù)從最開始的紙質(zhì)文件數(shù)據(jù)為主,到現(xiàn)在的數(shù)字?jǐn)?shù)據(jù)為主并且在數(shù)量上不斷增加,增加的速度也在不斷提高。
馬丁·希爾伯特和普里西利亞·洛佩茲曾經(jīng)對(duì)1986—2007年人類所創(chuàng)造、存儲(chǔ)和傳播的一切信息數(shù)量進(jìn)行了追蹤計(jì)算。其中大約包含了書籍、圖畫、信件、電子郵件、照片、音樂、視頻(模擬和數(shù)字)、電子游戲、電話、汽車導(dǎo)航等60種模擬和數(shù)字技術(shù)。
(2)多樣性。多樣性(Variety)就是指數(shù)據(jù)種類多樣化,包括傳統(tǒng)的格式化數(shù)據(jù)以及來(lái)自互聯(lián)網(wǎng)的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等非格式化數(shù)據(jù)。
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)形式的種類越來(lái)越多,包括了文本、音頻、圖片、視頻、模擬信號(hào)等各種不同的類型;數(shù)據(jù)的來(lái)源也越來(lái)越多樣化,在組織的內(nèi)部與外部均會(huì)產(chǎn)生。
(3)快速度。速度(Velocity),即處理速度快,“1秒定律”在數(shù)據(jù)處理速度方面是非常有名的,定律規(guī)定要在秒級(jí)時(shí)間范圍內(nèi)給出分析結(jié)果,如若超出這個(gè)時(shí)間范圍那么數(shù)據(jù)就失去了其價(jià)值。由此可見數(shù)據(jù)更迭之快以及快速度處理的重要。
英特爾中國(guó)研究院首席工程師吳甘沙發(fā)表過以下觀點(diǎn),大數(shù)據(jù)處理技術(shù)和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)最大的區(qū)別就是快速度。大數(shù)據(jù)是一種以實(shí)時(shí)數(shù)據(jù)處理、實(shí)時(shí)結(jié)果導(dǎo)向?yàn)樘卣鞯慕鉀Q方案,它的“快”有兩個(gè)層面:一個(gè)是數(shù)據(jù)的產(chǎn)生速度快,另一個(gè)是數(shù)據(jù)處理得快。
(4)真實(shí)性。真實(shí)性(Veracity),即追求高質(zhì)量的數(shù)據(jù)。數(shù)據(jù)的重要性體現(xiàn)在其對(duì)決策的支持,數(shù)據(jù)的規(guī)模并不能作為能否為決策提供幫助的標(biāo)準(zhǔn),數(shù)據(jù)的真實(shí)性和質(zhì)量才是獲得真知和思路最重要的因素。 但是即使是高質(zhì)量的數(shù)據(jù)中,也存在不確定性,同時(shí)這種不確定性又無(wú)法修正,因此如何調(diào)整算法使得應(yīng)用這些數(shù)據(jù)仍能得出正確的結(jié)果就變得更為重要。
2 大數(shù)據(jù)的分類
(1)海量型數(shù)據(jù)。挖掘發(fā)展趨勢(shì)或是通過挖掘驚人海量的數(shù)據(jù)推動(dòng)科學(xué)知識(shí)的界限,這些都是傳統(tǒng)預(yù)測(cè)分析的問題。 總的來(lái)說,數(shù)據(jù)集越大,結(jié)論越精確。盡管如此,大范圍意味著要重新考慮數(shù)據(jù)將如何存放、存放在哪里、如何共享這些問題。
(2)響應(yīng)型數(shù)據(jù)。響應(yīng)型數(shù)據(jù)集依舊很大,但圍繞著它的價(jià)值能夠產(chǎn)出足夠好的分析結(jié)果:一個(gè)根據(jù)近實(shí)時(shí)數(shù)據(jù)做出的精確車流預(yù)測(cè)要比一個(gè)小時(shí)之后才能得到的完美分析要好得多,要精準(zhǔn)得多。
(3)影隨型數(shù)據(jù)。影隨型數(shù)據(jù)是一種確實(shí)存在,但并不容易拿到的數(shù)據(jù)。要挖掘這些數(shù)據(jù)需要龐大的計(jì)算量和復(fù)雜的算法,但是從這些數(shù)據(jù)中能得到相關(guān)場(chǎng)景下一時(shí)刻的發(fā)展規(guī)律與狀態(tài),對(duì)于預(yù)測(cè)來(lái)說還是有比較重要的意義。
(4)過程型數(shù)據(jù)。過程型數(shù)據(jù),也叫作操作數(shù)據(jù)。這是從生產(chǎn)設(shè)備、化工鍋爐、工業(yè)機(jī)械和其他在商業(yè)建筑和工業(yè)廠房里找到的信息,是在這些設(shè)備運(yùn)行過程中產(chǎn)生的大量數(shù)據(jù),這并不是技術(shù)上的丟失,而在于這些數(shù)據(jù)存在于操作系統(tǒng)內(nèi)部,對(duì)這些數(shù)據(jù)的處理可以得到設(shè)備的運(yùn)行情況,進(jìn)而判斷設(shè)備當(dāng)前和下一時(shí)刻的運(yùn)行狀態(tài),并進(jìn)行相應(yīng)的故障分析。
(5)未知型數(shù)據(jù)。未知型數(shù)據(jù)包括現(xiàn)在拿不到的、想要拿到的、還不充足的信息。但是這些數(shù)據(jù)背后隱藏的信息與價(jià)值又是巨大的,處理這些不明朗的數(shù)據(jù)使其逐漸清晰,并最終得到相應(yīng)的結(jié)果。全世界每年約有86000億加侖石油在流入管道時(shí)丟失,這足以填滿一個(gè)胡佛水壩。以色列的TaKaDu正在進(jìn)行解決問題的第一步——利用一個(gè)復(fù)雜的算法查明泄漏源。
3 大數(shù)據(jù)的四個(gè)主要發(fā)展趨勢(shì)
(1)趨勢(shì)一。數(shù)據(jù)的資源化,所謂的資源化就是指大數(shù)據(jù)已經(jīng)成為一種重要的戰(zhàn)略資源,企業(yè)必須要提前制定大數(shù)據(jù)戰(zhàn)略營(yíng)銷計(jì)劃,去搶占市場(chǎng)先機(jī)。未來(lái)企業(yè)的生存與發(fā)展可能將取決于對(duì)相應(yīng)大數(shù)據(jù)資源的獲取與處理。
(2)趨勢(shì)二。深度與云計(jì)算結(jié)合,大數(shù)據(jù)與云計(jì)算的關(guān)系十分緊密,云處理為大數(shù)據(jù)提供了可彈性拓展的基礎(chǔ)設(shè)備,是產(chǎn)生大數(shù)據(jù)的平臺(tái)之一。同時(shí)云計(jì)算使得大數(shù)據(jù)的快速處理的可行性不斷提高。各種新型的計(jì)算形態(tài)的發(fā)展也將對(duì)大數(shù)據(jù)的發(fā)展產(chǎn)生促進(jìn)作用,讓大數(shù)據(jù)營(yíng)銷產(chǎn)生其相應(yīng)的價(jià)值。
(3)趨勢(shì)三。科學(xué)理論的新突破,大數(shù)據(jù)很有可能是新一輪的技術(shù)革命。隨之興起的相應(yīng)的學(xué)科可能會(huì)影響之前存在的理論與算法,并可能引發(fā)新一輪的技術(shù)革命。
(4)趨勢(shì)四。數(shù)據(jù)科學(xué)和數(shù)據(jù)聯(lián)盟的成立,未來(lái),數(shù)據(jù)科學(xué)也有可能將成為一門專門的學(xué)科,被越來(lái)越多的人所認(rèn)知。各大高校將設(shè)立專門的數(shù)據(jù)科學(xué)類專業(yè),也會(huì)催生一批與之相關(guān)的新的就業(yè)崗位。與此同時(shí),基于數(shù)據(jù)這個(gè)基礎(chǔ)平臺(tái),也將建立起跨領(lǐng)域的數(shù)據(jù)共享平臺(tái),之后,數(shù)據(jù)共享將擴(kuò)展到企業(yè)層面,并且成為未來(lái)產(chǎn)業(yè)的核心一環(huán)。
4 大數(shù)據(jù)研究的代表人物
大數(shù)據(jù)研究的代表人物都是在當(dāng)今世界產(chǎn)生巨大影響的人物,影響著整個(gè)領(lǐng)域的發(fā)展。
Geoffrey Hinton?!吧窠?jīng)網(wǎng)絡(luò)”在剛開始人們都對(duì)這門學(xué)科無(wú)從下手,但是Geoffrey Hinton和他的團(tuán)隊(duì)強(qiáng)力將其變成了研究與應(yīng)用的熱潮,“神經(jīng)網(wǎng)絡(luò)”如今已經(jīng)是備受推崇的學(xué)術(shù)課題,學(xué)者們都想在這方面作出新的突破?!吧疃葘W(xué)習(xí)”也是因?yàn)镚eoffrey Hinton和他的團(tuán)隊(duì)的研究使其從當(dāng)初的邊緣課題變成了當(dāng)今Google等互聯(lián)網(wǎng)巨頭仰賴的核心技術(shù)。
Yann Lecun。他在機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、計(jì)算機(jī)視覺、計(jì)算神經(jīng)科學(xué)領(lǐng)域進(jìn)行了深度研究。
Yoshua Bengio。他的主要貢獻(xiàn)在于深度學(xué)習(xí)與人工智能等領(lǐng)域。
Corinna Cortes。她的研究主要在人工智能、機(jī)器學(xué)習(xí)、自然科學(xué)通論、算法與理論等方面。
Micheal I Jordan。他近些年的研究工作主要集中在無(wú)參數(shù)貝葉斯分析、概率圖模型、譜方法、核方法以及信號(hào)處理中的應(yīng)用等方面。
5 大數(shù)據(jù)的國(guó)內(nèi)外研究現(xiàn)狀
(1)生物信息學(xué)。自然科學(xué)領(lǐng)域一直是產(chǎn)生數(shù)據(jù)的活水源泉。近年,生物信息學(xué)也伴隨醫(yī)學(xué)領(lǐng)域數(shù)據(jù)的指數(shù)增長(zhǎng)而持續(xù)走熱,大數(shù)據(jù)作為一種技術(shù)手段逐漸應(yīng)用于自然科學(xué)研究,并且也在不斷推動(dòng)自然科學(xué)領(lǐng)域的發(fā)展。
(2)生物信息管理學(xué)科。生物信息管理是在大背景下新興熱門的領(lǐng)域,它使得人們對(duì)生物信息數(shù)據(jù)的處理更加趨向于資源化和集中化,使得人們對(duì)生物信息領(lǐng)域的研究能夠更加深入。
(3)云計(jì)算。云計(jì)算在2006年問世后備受推崇。云計(jì)算是一種基于互聯(lián)網(wǎng)而能夠無(wú)處不在、無(wú)時(shí)無(wú)刻、便捷、按需獲取計(jì)算資源的共享池模式。
(4)可視化。可視化的成果主要分布在以下三個(gè)方面。
①多學(xué)科應(yīng)用。將大數(shù)據(jù)與其他學(xué)科相結(jié)合起來(lái),并進(jìn)行進(jìn)一步的開發(fā),在醫(yī)學(xué)領(lǐng)域大數(shù)據(jù)的應(yīng)用已經(jīng)較為廣泛,比如心率記錄手表、健康監(jiān)控系統(tǒng)等。
②可視化分析??梢暬梢杂糜趯?duì)情報(bào)的分析,科學(xué)家們也研究出了可視化分析系統(tǒng)用于情報(bào)的可視化分析。
③信息可視化。即將信息變?yōu)槿藗兛梢灾苯永斫獾淖匀徽Z(yǔ)言,使得人們更加了解這一事物或一類事物內(nèi)在的聯(lián)系與規(guī)律。
6 結(jié)論
大量種類繁多的數(shù)據(jù)給人們對(duì)它們的獲取方式、分析途徑、處理方法、存儲(chǔ)方式等都帶來(lái)了極大的挑戰(zhàn),人類急需找到更好的方式來(lái)處理利用這些龐大的數(shù)據(jù)。這些大量的數(shù)據(jù)已經(jīng)開始影響人們的日常生活以及人類社會(huì)的發(fā)展。文章從大數(shù)據(jù)的特點(diǎn)、分類發(fā)展方向、代表人物、國(guó)內(nèi)外研究現(xiàn)狀等方面進(jìn)行了詳細(xì)的分析與敘述,大數(shù)據(jù)的概念雖然起源并發(fā)展于美國(guó),但現(xiàn)如今全球都在對(duì)大數(shù)據(jù)進(jìn)行研究,大數(shù)據(jù)的研究與發(fā)展一定會(huì)為我國(guó)未來(lái)的各項(xiàng)發(fā)展起到重要的作用。
參考文獻(xiàn):
[1]黃永勤.國(guó)內(nèi)外大數(shù)據(jù)研究熱點(diǎn)及發(fā)展趨勢(shì)探析[J].情報(bào)雜志,2014,6(33):3.5.
[2]黃海翔.詳解大數(shù)據(jù)的4個(gè)基本特征[Z].黃海翔博客數(shù)據(jù)分析,2014.
[3]馬建光,姜巍.大數(shù)據(jù)的概念、特征及應(yīng)用[J].國(guó)防科技,2013,2(34):2.4.
[4]ZIKOPOULOS P,EATON C.Understanding big data:analytics for enterprise class hadoop and streaming data[M].McGraw . Hill Osborne Media,2011.
[5]楊繹. 基于文獻(xiàn)計(jì)量的“大數(shù)據(jù)”研究[J].圖書館雜志,2012,31(9):29.32.
[6]韓芳芳,范群,韓青青. 我國(guó)大數(shù)據(jù)領(lǐng)域研究論文的計(jì)量分析[J].圖書館學(xué)研究,2013(8):2.7.
[7]王新才,丁家友. 大數(shù)據(jù)知識(shí)圖譜:概念,特征,應(yīng)用與影響[J].情報(bào)科學(xué),2013(9):1.
[8]CHEN C. CiteSpace II:detecting and visualizing emerging trendsand transient patterns in scientific literature [J].Journal of the American Society for Information Science and Technology,2006.
[作者簡(jiǎn)介]劉元諾,哈爾濱工業(yè)大學(xué)(威海)理學(xué)院數(shù)學(xué)系應(yīng)用數(shù)學(xué)專業(yè)。