摘 要:隨著信息技術(shù)的迅猛發(fā)展,各種數(shù)據(jù)呈指數(shù)級增長,標(biāo)志著大數(shù)據(jù)時代的到來。大數(shù)據(jù)已經(jīng)開始影響我們的工作、生活,甚至國家決策,大數(shù)據(jù)技術(shù)因此也得到了各大研究機(jī)構(gòu)與企業(yè)廣泛的關(guān)注和研究。本文對大數(shù)據(jù)的相關(guān)概念進(jìn)行了介紹,并對大數(shù)據(jù)技術(shù)未來的發(fā)展趨勢進(jìn)行了展望。
關(guān)鍵詞:大數(shù)據(jù);云計算;大數(shù)據(jù)技術(shù);數(shù)據(jù)挖掘
中圖分類號:TP311.13
隨著互聯(lián)網(wǎng)技術(shù)和應(yīng)用模式的快速發(fā)展,人們生活方式在不斷改變的同時也產(chǎn)生了巨大的數(shù)據(jù)資源。預(yù)計到2020年,全球的數(shù)據(jù)總量將遠(yuǎn)遠(yuǎn)超過人類有史以來所有印刷材料的數(shù)據(jù)總量,大數(shù)據(jù)時代即將到來?,F(xiàn)階段關(guān)于大數(shù)據(jù)有多種不同的定義,研究機(jī)構(gòu)Gartner認(rèn)為大數(shù)據(jù)是指需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn);維基百科上大數(shù)據(jù)指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達(dá)到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營決策目的的資訊;而麥肯錫則認(rèn)為大數(shù)據(jù)是指無法在一定時間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi)容進(jìn)行采集、存儲、管理和分析的數(shù)據(jù)集合。無論哪種定義,我們可以看出,大數(shù)據(jù)并不是一種新的產(chǎn)品也不是一種新的技術(shù),就如同本世紀(jì)初提出的“海量數(shù)據(jù)”概念一樣,大數(shù)據(jù)只是數(shù)字化時代出現(xiàn)的一種現(xiàn)象。
數(shù)據(jù)量的劇增、國家和企業(yè)間競爭的加劇,要求政府和企業(yè)能更準(zhǔn)確、快速、個性化的為客戶和公眾提供產(chǎn)品和公共服務(wù)。通過大規(guī)模掌握用戶的細(xì)節(jié)數(shù)據(jù),政府和企業(yè)可以分析出通過傳統(tǒng)數(shù)據(jù)分析手段無法獲知的價值和模式,做出更為迅速、科學(xué)、準(zhǔn)確的決策和預(yù)測。由此可見,大數(shù)據(jù)技術(shù)是預(yù)測分析、數(shù)據(jù)挖掘、統(tǒng)計分析、人工智能、自然語言處理、并行計算、數(shù)據(jù)存儲等技術(shù)的綜合運(yùn)用。
1 大數(shù)據(jù)特點(diǎn)
從計算科學(xué)發(fā)展歷程來看,物聯(lián)網(wǎng)的興起對數(shù)據(jù)存儲和分析產(chǎn)生了更高層次的需求,云計算則進(jìn)一步拓展了計算機(jī)的計算能力。在以上二者的共同推動之下,大數(shù)據(jù)的概念應(yīng)運(yùn)而生,同時也標(biāo)志著計算科學(xué)進(jìn)入到一個嶄新的時代。大數(shù)據(jù)有著不同于傳統(tǒng)數(shù)據(jù)對象的特點(diǎn)。目前的研究認(rèn)為,大數(shù)據(jù)具有以下主要特征:數(shù)據(jù)規(guī)模大、數(shù)據(jù)種類多、數(shù)據(jù)要求處理速度快、數(shù)據(jù)價值密度低以及數(shù)據(jù)真實(shí)性。數(shù)據(jù)規(guī)模大體現(xiàn)在大數(shù)據(jù)的數(shù)據(jù)量是以PB,EB和ZB來進(jìn)行衡量的;數(shù)據(jù)種類多體現(xiàn)在大數(shù)據(jù)的數(shù)據(jù)類型不僅是結(jié)構(gòu)化數(shù)據(jù),還包括物聯(lián)網(wǎng)數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)和位置數(shù)據(jù)等數(shù)據(jù),更多的是半結(jié)構(gòu)和異構(gòu)數(shù)據(jù),數(shù)據(jù)的復(fù)雜性高;數(shù)據(jù)處理速度快體現(xiàn)在對靜態(tài)數(shù)據(jù)和動態(tài)實(shí)時數(shù)據(jù)處理的速度與時效要求高;數(shù)據(jù)價值密度低主要體現(xiàn)在大數(shù)據(jù)數(shù)據(jù)量巨大但由于數(shù)據(jù)結(jié)構(gòu)分散導(dǎo)致數(shù)據(jù)價值密度低,需要進(jìn)行數(shù)據(jù)分析和推理實(shí)現(xiàn)價值提純;數(shù)據(jù)真實(shí)性體現(xiàn)在只有真實(shí)而準(zhǔn)確的數(shù)據(jù)才能使大數(shù)據(jù)的分析、推理和管理有意義。
2 大數(shù)據(jù)技術(shù)發(fā)展趨勢
2.1 人工智能技術(shù)的結(jié)合
大數(shù)據(jù)分析的目的是挖掘大數(shù)據(jù)中有價值的信息,是從大數(shù)據(jù)中獲取更準(zhǔn)確、更深層次的知識,而不是對數(shù)據(jù)的簡單統(tǒng)計分析。要達(dá)到這一目標(biāo),需要提高計算機(jī)的智能計算能力,讓系統(tǒng)具備對數(shù)據(jù)的分析、推理和決策,人工智能是實(shí)現(xiàn)以上能力的核心技術(shù)。近年來,人工智能的研究成為學(xué)術(shù)界和企業(yè)界的研究熱點(diǎn),一方面得益于計算機(jī)硬件性能的提升,另一方面得益于以云計算、大數(shù)據(jù)為代表的計算技術(shù)的快速發(fā)展,使得信息處理的速度和質(zhì)量大為提高,能夠快速、并行地處理海量數(shù)據(jù)。
2.2 基于數(shù)據(jù)科學(xué)的多學(xué)科融合
在大數(shù)據(jù)時代,許多學(xué)科的研究內(nèi)容從表面上看存在很大的區(qū)別,但是從數(shù)據(jù)研究的視角來看,其實(shí)是有共通點(diǎn)的。隨著數(shù)字化時代的到來,越來越多的學(xué)科在數(shù)據(jù)層面趨于一致,可以采用相似的思想來進(jìn)行統(tǒng)一的研究。但數(shù)據(jù)科學(xué)的基礎(chǔ)問題體系尚不明朗,其自身的發(fā)展尚未形成體系成為制約多學(xué)科融合的關(guān)鍵問題。
2.3 與網(wǎng)絡(luò)技術(shù)領(lǐng)域的交叉融合
未來大數(shù)據(jù)將與物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、云計算等熱點(diǎn)技術(shù)領(lǐng)域相互交叉融合,產(chǎn)生更多融合不同行業(yè)數(shù)據(jù)的綜合性應(yīng)用。近年來計算機(jī)和信息技術(shù)發(fā)展的趨勢是:前端更加簡單豐富,后端更加智能快速。物聯(lián)網(wǎng)與移動互聯(lián)網(wǎng)促進(jìn)了物理世界和人的融合,大數(shù)據(jù)和云計算提升了后端的數(shù)據(jù)存儲管理和計算能力。今后,這幾個熱點(diǎn)技術(shù)領(lǐng)域?qū)⑾嗷ソ徊嫒诤?,產(chǎn)生很多跨行業(yè)和跨領(lǐng)域的綜合性應(yīng)用。
2.4 大數(shù)據(jù)安全與隱私
過去幾年大數(shù)據(jù)安全和隱私問題是國內(nèi)外的研究熱點(diǎn),未來大數(shù)據(jù)的安全和隱私問題依然將是學(xué)術(shù)界和企業(yè)界研究與探討的熱點(diǎn)。大數(shù)據(jù)及其相關(guān)核心資源涉及企業(yè)商業(yè)機(jī)密和國家主權(quán),引發(fā)了社會各界人士的廣泛關(guān)注,因此如何保護(hù)大數(shù)據(jù)的安全以及用戶的隱私成為一個亟待解決的社會熱點(diǎn)問題。但大數(shù)據(jù)應(yīng)用所產(chǎn)生的隱私問題、大數(shù)據(jù)系統(tǒng)和體系存在的安全防范方面還沒有實(shí)質(zhì)性的進(jìn)展和突破。毫無疑問,未來大數(shù)據(jù)安全和隱私問題依然是熱點(diǎn)趨勢。
2.5 基于大數(shù)據(jù)的深度學(xué)習(xí)和眾包計算
最近幾年深度學(xué)習(xí)大熱,在很多領(lǐng)域發(fā)揮了巨大的作用,成為人工智能和大數(shù)據(jù)領(lǐng)域研究的熱門學(xué)科,未來基于大數(shù)據(jù)的深度學(xué)習(xí)還將是各大研究機(jī)構(gòu)和企業(yè)的研究重點(diǎn)。
基于物理資源分散式的應(yīng)用場景,比如以前常用的P2P技術(shù)等對于深度學(xué)習(xí)這種需要物理資源相對集中的計算方式則會有局限,而眾包計算這種物理資源分散式的分布式計算平臺則可以有效避免這個問題。因此基于大數(shù)據(jù)的眾包計算也是未來大數(shù)據(jù)分析與應(yīng)用領(lǐng)域的研究熱點(diǎn)和發(fā)展趨勢。
2.6 大數(shù)據(jù)技術(shù)課程體系建設(shè)和人才培養(yǎng)
大數(shù)據(jù)技術(shù)的快速發(fā)展和行業(yè)應(yīng)用需求的快速增長,使得目前技術(shù)市場上高素質(zhì)大數(shù)據(jù)技術(shù)人才嚴(yán)重短缺。因此,政府、高等院校和科研院所將加快建立大數(shù)據(jù)技術(shù)人才教育和培養(yǎng)體系,發(fā)展數(shù)據(jù)科學(xué)和工程專業(yè),梳理和構(gòu)建跨學(xué)科和領(lǐng)域交叉的大數(shù)據(jù)課程體系,融合計算機(jī)、數(shù)學(xué)分析統(tǒng)計、應(yīng)用相關(guān)的學(xué)科,推動交叉學(xué)科數(shù)據(jù)分析技術(shù)的發(fā)展以及人才的培養(yǎng)。只有在體系建設(shè)和人才培養(yǎng)方面與市場需求同步,大數(shù)據(jù)技術(shù)才有不斷向前發(fā)展的基石和動力,因此這也是未來大數(shù)據(jù)技術(shù)行業(yè)的發(fā)展趨勢。
3 結(jié)束語
大數(shù)據(jù)技術(shù)是我們利用計算技術(shù)對大數(shù)據(jù)進(jìn)行分析和推理并挖掘其潛在價值的技術(shù),具有重要的研究意義和實(shí)際價值。本文從大數(shù)據(jù)的概念展開討論,詳細(xì)分析了大數(shù)據(jù)技術(shù)研究目前面臨的一些問題以及未來的研究熱點(diǎn)和發(fā)展趨勢。盡管目前大數(shù)據(jù)技術(shù)研究已經(jīng)取得了一些研究成果,但在學(xué)科基礎(chǔ)、應(yīng)用廣泛性、系統(tǒng)支撐基礎(chǔ)、生態(tài)環(huán)境、人才底蘊(yùn)等方面仍然存在一些亟需解決的問題,需要政府、企業(yè)高等院校和研究機(jī)構(gòu)等共同努力,推動國家在該領(lǐng)域的技術(shù)水平走到世界前沿。
參考文獻(xiàn):
[1]王元卓,靳小龍,程學(xué)旗.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與挑戰(zhàn)[J].計算機(jī)學(xué)報,2013(06):1-15.
[2]陶雪嬌,胡曉峰,劉洋.大數(shù)據(jù)研究綜述[J].系統(tǒng)仿真學(xué)報,2013(25):142-146.
[3]Thomas H.Davenport,Paul Barth,Randy Bean.How'BigData'is Different[J].MIT Sloan Management Review, 2012,54(01):22-24.
[4]Victor Mayer-Schonberger,Kenneth Cukier.大數(shù)據(jù)時代[M].杭州:浙江人民出版社,2013:193-232.
作者簡介:劉琳(1981-),女,四川瀘州人,講師,本科,研究方向:計算機(jī)網(wǎng)絡(luò)、多媒體技術(shù)。
作者單位:重慶電子工程職業(yè)學(xué)院 計算機(jī)學(xué)院,重慶沙坪壩 401331