編者按:目前,數(shù)據(jù)已經(jīng)滲透到了每一個(gè)行業(yè)領(lǐng)域并成為重要的生產(chǎn)因素,數(shù)據(jù)規(guī)模也正以驚人的速度呈膨脹式的增長(zhǎng),大數(shù)據(jù)正成為這個(gè)時(shí)代最為顯著的標(biāo)簽。雖然大數(shù)據(jù)這個(gè)概念已經(jīng)為大多人所知,但大數(shù)據(jù)究竟是什么,很多人其實(shí)并不明白,甚至還存在許多誤區(qū),文章基于對(duì)大數(shù)據(jù)現(xiàn)有技術(shù)體系的認(rèn)知,對(duì)大數(shù)據(jù)技術(shù)的現(xiàn)狀及其未來(lái)發(fā)展趨勢(shì)進(jìn)行探討。
數(shù)據(jù)已經(jīng)悄無(wú)聲息地融入我們生活的每一個(gè)細(xì)節(jié),即使人們無(wú)法直接觸摸感受到它,但它的能力不可小覷。自2013年成為大數(shù)據(jù)元年以來(lái),大數(shù)據(jù)一詞越來(lái)越多地進(jìn)入到了人們的視野當(dāng)中,這個(gè)名詞已然成為當(dāng)前日常生活中的一種時(shí)尚或者時(shí)髦。即便不從事科研工作或者在科技領(lǐng)域甚至在平日里接觸不到大數(shù)據(jù)概念的人們也對(duì)此較為熟悉,大數(shù)據(jù)已經(jīng)切實(shí)地融入了我們的生活,但對(duì)于“大數(shù)據(jù)是什么?”這個(gè)問(wèn)題,大多數(shù)人還是一知半解。
什么才是大數(shù)據(jù)?盡管大數(shù)據(jù)的概念一經(jīng)提出便引發(fā)了社會(huì)各界的廣泛關(guān)注,但到目前為止,學(xué)術(shù)界對(duì)于大數(shù)據(jù)還沒(méi)有形成一個(gè)統(tǒng)一的定義,麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合。IBM公司提出了大數(shù)據(jù)的5V特點(diǎn)以將其與傳統(tǒng)數(shù)據(jù)區(qū)別,即:
1.Volume:數(shù)據(jù)量大,包括采集、存儲(chǔ)和計(jì)算的量都非常大。大數(shù)據(jù)的起始計(jì)量單位至少是PB(1024個(gè)TB)、E(1024個(gè)PB)或ZB(1024個(gè)EB)。
2.Variety:種類(lèi)和來(lái)源多樣化。包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),具體表現(xiàn)為網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等等,多類(lèi)型的數(shù)據(jù)對(duì)數(shù)據(jù)的處理能力提出了更高的要求。
3.Value:數(shù)據(jù)價(jià)值密度相對(duì)較低,或者說(shuō)是浪里淘沙卻又彌足珍貴。隨著互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)的廣泛應(yīng)用,信息感知無(wú)處不在,信息海量,但價(jià)值密度較低。
4.Velocity:數(shù)據(jù)增長(zhǎng)速度快,處理速度也快,時(shí)效性要求高。
5.Veracity:數(shù)據(jù)的準(zhǔn)確性和可信賴度,即數(shù)據(jù)的質(zhì)量。
從字面意義入手,大數(shù)據(jù)也應(yīng)該從“大”字開(kāi)始理解。隨著互聯(lián)網(wǎng)浪潮席卷全球,全世界的數(shù)據(jù)量也呈井噴式上漲,2010年全球產(chǎn)生的數(shù)據(jù)量為1.2ZB,而十年后2020年這個(gè)數(shù)字已經(jīng)增長(zhǎng)到64ZB,約為64萬(wàn)億GB,預(yù)計(jì)到2025年將增長(zhǎng)到約1000ZB。出于保存海量的網(wǎng)絡(luò)信息并獲取其中潛藏的巨大價(jià)值的目的,催生了大數(shù)據(jù)技術(shù)。大數(shù)據(jù)技術(shù)就是通過(guò)分析采集得來(lái)的、大量的、不同類(lèi)型的數(shù)據(jù),使數(shù)據(jù)可視化并得到其中的潛在價(jià)值,讓人們直觀地感受到數(shù)據(jù)的力量、使用數(shù)據(jù)的力量。
我國(guó)大數(shù)據(jù)技術(shù)發(fā)展現(xiàn)狀分析
大數(shù)據(jù)技術(shù)主要涉及四個(gè)部分,數(shù)據(jù)采集技術(shù)、數(shù)據(jù)存儲(chǔ)技術(shù)、數(shù)據(jù)分析技術(shù)、數(shù)據(jù)可視化技術(shù)。
數(shù)據(jù)采集技術(shù):大數(shù)據(jù)采集是指從終端設(shè)備、社交網(wǎng)絡(luò)、企業(yè)管理系統(tǒng)以及其他互聯(lián)網(wǎng)平臺(tái)、系統(tǒng)等獲取數(shù)據(jù)的過(guò)程。這些數(shù)據(jù)不但來(lái)源廣泛,且數(shù)據(jù)類(lèi)型多樣、規(guī)模龐大、產(chǎn)生速度快,傳統(tǒng)的數(shù)據(jù)采集方法基本無(wú)法勝任。
數(shù)據(jù)存儲(chǔ)技術(shù):大數(shù)據(jù)存儲(chǔ)目前主要通過(guò)建立輕型數(shù)據(jù)庫(kù)、大型分布式數(shù)據(jù)庫(kù)或者存儲(chǔ)集群平臺(tái)以滿足大數(shù)據(jù)讀寫(xiě)的高速需求。
數(shù)據(jù)分析技術(shù):大數(shù)據(jù)分析技術(shù)通過(guò)數(shù)據(jù)清洗從大量不同類(lèi)型的數(shù)據(jù)中獲取真實(shí)有效的數(shù)據(jù),經(jīng)算法運(yùn)算處理后獲得需要的結(jié)果。
數(shù)據(jù)可視化技術(shù):使數(shù)據(jù)分析的復(fù)雜結(jié)果以圖表、詞云等對(duì)非計(jì)算機(jī)專業(yè)人士友好的形式輸出,方便其他專業(yè)人才運(yùn)用。
近年來(lái),大數(shù)據(jù)產(chǎn)業(yè)高速發(fā)展,在“十三五”時(shí)期,我國(guó)大數(shù)據(jù)產(chǎn)業(yè)規(guī)模年均增速超過(guò)25%,2020年達(dá)到約8000億元,產(chǎn)業(yè)價(jià)值不斷提升。并且“大數(shù)據(jù)”一詞在“十四五”規(guī)劃的征求意見(jiàn)稿中頻繁出現(xiàn),“數(shù)據(jù)”一詞則更是出現(xiàn)了六十余次。可以看出,作為國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展的重要風(fēng)向標(biāo),“十四五”規(guī)劃對(duì)于大數(shù)據(jù)的發(fā)展也作出了重要部署。
目前,大數(shù)據(jù)技術(shù)已經(jīng)在多個(gè)行業(yè)領(lǐng)域中有著不同運(yùn)用,如:
1.電商領(lǐng)域:淘寶、京東等電商平臺(tái)利用大數(shù)據(jù)技術(shù),對(duì)用戶信息進(jìn)行分析,從而為用戶推送用戶感興趣的產(chǎn)品,從而刺激消費(fèi)。
2.醫(yī)療領(lǐng)域:醫(yī)療行業(yè)通過(guò)臨床數(shù)據(jù)對(duì)比、實(shí)時(shí)統(tǒng)計(jì)分析、遠(yuǎn)程病人數(shù)據(jù)分析、就診行為分析等,輔助醫(yī)生進(jìn)行臨床決策,規(guī)范診療路徑,提高醫(yī)生的工作效率。
3.安防領(lǐng)域:安防行業(yè)可實(shí)現(xiàn)視頻圖像模糊查詢、快速檢索、精準(zhǔn)定位,并能夠進(jìn)一步挖掘海量視頻監(jiān)控?cái)?shù)據(jù)背后的價(jià)值信息,反饋內(nèi)涵知識(shí)輔助決策判斷。
4.金融領(lǐng)域:用戶畫(huà)像的基礎(chǔ)上,銀行可以根據(jù)用戶的年齡、資產(chǎn)規(guī)模、理財(cái)偏好等,對(duì)用戶群進(jìn)行精準(zhǔn)定位,分析出潛在的金融服務(wù)需求。
5.教育領(lǐng)域:通過(guò)大數(shù)據(jù)進(jìn)行學(xué)習(xí)分析,能夠?yàn)槊课粚W(xué)生創(chuàng)設(shè)一個(gè)量身定做的個(gè)性化課程,為學(xué)生的多年學(xué)習(xí)提供一個(gè)富有挑戰(zhàn)性而不讓人厭倦的學(xué)習(xí)計(jì)劃。
6.交通領(lǐng)域:大數(shù)據(jù)技術(shù)可以預(yù)測(cè)未來(lái)交通情況,為改善交通狀況提供優(yōu)化方案,有助于交通部門(mén)提高對(duì)道路交通的把控能力,防止和緩解交通擁堵,提供更加人性化的服務(wù)。
大數(shù)據(jù)技術(shù)發(fā)展趨勢(shì)預(yù)測(cè)
大數(shù)據(jù)的安全及隱私問(wèn)題
隨著大數(shù)據(jù)的發(fā)展,數(shù)據(jù)的來(lái)源和應(yīng)用領(lǐng)域越來(lái)越廣泛:在互聯(lián)網(wǎng)上隨意瀏覽網(wǎng)頁(yè),就會(huì)留下一連串的瀏覽痕跡;2018年Facebook泄露8700萬(wàn)用戶的隱私數(shù)據(jù)的事件引發(fā)各界廣泛關(guān)注,隱私數(shù)據(jù)泄露不僅會(huì)威脅到用戶自身的人身財(cái)產(chǎn)安全,更會(huì)威脅到國(guó)家安全。獲得大量用戶數(shù)據(jù)的劍橋公司便是通過(guò)分析這8700萬(wàn)用戶的隱私數(shù)據(jù)分析用戶行為與思維,以向其精準(zhǔn)投放內(nèi)容,用戶在這種精準(zhǔn)投放下很容易形成“信息繭房”,如果在內(nèi)容中添加某些特定成分,很容易在潛移默化中改變一個(gè)人的思想,劍橋公司便是利用這種手段在某種程度上達(dá)到了操作美國(guó)大選的目的。
大數(shù)據(jù)時(shí)代數(shù)據(jù)的更新變化速度加快,而一般的數(shù)據(jù)隱私保護(hù)技術(shù)大都基于靜態(tài)數(shù)據(jù)保護(hù),這就給隱私保護(hù)帶來(lái)了新的挑戰(zhàn).在復(fù)雜變化的條件下如何實(shí)現(xiàn)數(shù)據(jù)隱私安全的保護(hù),這將是未來(lái)大數(shù)據(jù)研究的重點(diǎn)方向之一。
大數(shù)據(jù)的存儲(chǔ)管理問(wèn)題
截至2019年我國(guó)共有7.4萬(wàn)個(gè)數(shù)據(jù)中心,2021年1月騰訊西部云計(jì)算數(shù)據(jù)中心二期工程竣工,整體建成后將具備20萬(wàn)臺(tái)服務(wù)器的運(yùn)算存儲(chǔ)能力,將會(huì)成為中國(guó)西部最大的單體數(shù)據(jù)中心。盡管目前通過(guò)建立大型分布式數(shù)據(jù)庫(kù),數(shù)據(jù)存儲(chǔ)的問(wèn)題得到了緩解,然而數(shù)據(jù)量以每年約50%的增速持續(xù)增長(zhǎng),即使全國(guó)范圍內(nèi)有如此之多的數(shù)據(jù)中心,傳統(tǒng)的數(shù)據(jù)存儲(chǔ)方式也已經(jīng)無(wú)法滿足現(xiàn)有需求。
大數(shù)據(jù)技術(shù)5V特征中的Value是價(jià)值密度低的體現(xiàn),現(xiàn)有存儲(chǔ)技術(shù)存在大量數(shù)據(jù)冗余,大數(shù)據(jù)存儲(chǔ)技術(shù)的能耗極高并存在數(shù)據(jù)丟包的可能性,冗余數(shù)據(jù)的存儲(chǔ)意味著有效數(shù)據(jù)的丟失可能性增高,數(shù)據(jù)的價(jià)值密度進(jìn)一步降低、數(shù)據(jù)存儲(chǔ)成本上漲,這就對(duì)數(shù)據(jù)清洗技術(shù)提出了更高的要求。在數(shù)據(jù)存儲(chǔ)中數(shù)據(jù)讀寫(xiě)速度、數(shù)據(jù)格式轉(zhuǎn)化是必要的,也是非常關(guān)鍵和復(fù)雜的,在未來(lái)如何進(jìn)一步提高數(shù)據(jù)存儲(chǔ)系統(tǒng)的效率將是亟待解決的大問(wèn)題。
大數(shù)據(jù)融合應(yīng)用實(shí)體經(jīng)濟(jì)
近幾月來(lái),金融、教育、互聯(lián)網(wǎng)、房地產(chǎn)等資本驅(qū)動(dòng)行業(yè)均受到國(guó)家不同力度的打擊,而硬科技、新能源等更能創(chuàng)造社會(huì)價(jià)值的產(chǎn)業(yè)持續(xù)走高,“十四五”規(guī)劃中也提出要將大數(shù)據(jù)融合應(yīng)用的重點(diǎn)從虛擬經(jīng)濟(jì)轉(zhuǎn)變?yōu)閷?shí)體經(jīng)濟(jì)。
因?yàn)榇髷?shù)據(jù)的發(fā)展不僅改變了科學(xué)思維,也必然會(huì)引起企業(yè)以及政府、個(gè)人的思維方式的變革,在信息技術(shù)突飛猛進(jìn)的今天,物聯(lián)網(wǎng)、嵌入式技術(shù)、傳感技術(shù)等的發(fā)展,為人類(lèi)更全面地感知客觀存在的物理世界提供了基礎(chǔ),大數(shù)據(jù)技術(shù)正是新型信息技術(shù)與傳統(tǒng)實(shí)業(yè)之間的紐帶,融合應(yīng)用會(huì)是大數(shù)據(jù)技術(shù)的發(fā)展重點(diǎn)。隨著大數(shù)據(jù)技術(shù)在各種產(chǎn)業(yè)中的深入融合應(yīng)用并帶動(dòng)產(chǎn)業(yè)升級(jí),我們的生活、生產(chǎn)方式也將會(huì)因?yàn)榇髷?shù)據(jù)技術(shù)而改變。
結(jié)語(yǔ)
大數(shù)據(jù)技術(shù)已經(jīng)成為各行各業(yè)需求創(chuàng)新突破的首要選擇,每天都會(huì)產(chǎn)生的龐大數(shù)據(jù),也使得大數(shù)據(jù)成為一種新型資產(chǎn)。目前,大數(shù)據(jù)技術(shù)已經(jīng)改變了人們的思維方式、生活方式、生產(chǎn)方式。未來(lái),大數(shù)據(jù)技術(shù)將會(huì)滲透進(jìn)我們生活的方方面面。蒸汽機(jī)誕生開(kāi)創(chuàng)了“蒸汽時(shí)代”,電力發(fā)明帶領(lǐng)人們走入電氣時(shí)代,互聯(lián)網(wǎng)信息技術(shù)的浪潮將人們推向“信息時(shí)代”?!按髷?shù)據(jù)時(shí)代”會(huì)不會(huì)就是我們正在尋求的那個(gè)嶄新的時(shí)代呢?
參考文獻(xiàn):
[1]陳曈,林捷.大數(shù)據(jù)是什么[J].電腦知識(shí)與技術(shù),2017,13(13):10-11.
[2]彭宇,龐景月,劉大同,等.大數(shù)據(jù):內(nèi)涵、技術(shù)體系與展望[J].電子測(cè)量與儀器學(xué)報(bào),2015,29(04):469-482.
[3]黃小華.大數(shù)據(jù)技術(shù)體系及發(fā)展趨勢(shì)探析[J].商業(yè)文化,2021(20):48-49.
[4]劉智慧,張泉靈.大數(shù)據(jù)技術(shù)研究綜述[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2014,48(06):957-972.
作者簡(jiǎn)介:江子楊(2002—),江西上饒人,本科,現(xiàn)就讀于江西師范大學(xué),主要研究方向?yàn)閿?shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)。