羅軍鋒+鎖志海
摘 要:目前大數(shù)據(jù)是IT產(chǎn)業(yè)又一次劃時(shí)代的技術(shù)發(fā)明。在大數(shù)據(jù)時(shí)代,高等教育不可避免地將發(fā)生一次變革。本文介紹了大數(shù)據(jù)的概念及關(guān)鍵技術(shù),描述了大數(shù)據(jù)時(shí)代的機(jī)遇與挑戰(zhàn),并對(duì)大數(shù)據(jù)時(shí)代的高等教育信息化進(jìn)行了初步探討。
關(guān)鍵詞:大數(shù)據(jù);高等教育;信息化
中圖分類號(hào):G434 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-8454(2014)01-0008-02
一、引言
隨著云計(jì)算、物聯(lián)網(wǎng)等技術(shù)的興起與發(fā)展,數(shù)據(jù)正以前所未有的速度飛快增長(zhǎng)和累積,大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨,整個(gè)學(xué)術(shù)界、工業(yè)界、政府都開(kāi)始關(guān)注大數(shù)據(jù)問(wèn)題。 2012 年 3 月 29 日 美國(guó)政府宣布了“大數(shù)據(jù)研究和發(fā)展倡議(Big Data Research and Development Initiative)”, 正式啟動(dòng)“大數(shù)據(jù)發(fā)展計(jì)劃”,并承諾政府將為此投資超2億美元,許多重要國(guó)家機(jī)構(gòu)都將參與其中。 2012 年 7 月 10 日 ,聯(lián)合國(guó)發(fā)布大數(shù)據(jù)政務(wù)白皮書(shū)《大數(shù)據(jù)促發(fā)展: 挑戰(zhàn)與機(jī)遇》,指出各國(guó)政府應(yīng)當(dāng)使用極豐富的數(shù)據(jù)資源,更好地響應(yīng)社會(huì)和經(jīng)濟(jì)指標(biāo)。隨著數(shù)據(jù)的不斷增多,海洋一般浩瀚的數(shù)據(jù)已成為一種戰(zhàn)略資源。大數(shù)據(jù)技術(shù)的目標(biāo)就是從這些數(shù)據(jù)中挖掘信息、判斷趨勢(shì)、 提高效益。大數(shù)據(jù)的挖掘和應(yīng)用可創(chuàng)造出超萬(wàn)億美元的價(jià)值, 將是未來(lái) IT 領(lǐng)域最大的市場(chǎng)機(jī)遇之一, 其作用堪稱又一次工業(yè)革命。[1]
二、大數(shù)據(jù)的概念及特點(diǎn)
目前,大數(shù)據(jù)沒(méi)有一個(gè)公認(rèn)的定義,不同的定義基本都是從大數(shù)據(jù)的特征出發(fā)給出的。比如國(guó)際數(shù)據(jù)公司認(rèn)為大數(shù)據(jù)應(yīng)當(dāng)具有價(jià)值性,大數(shù)據(jù)的價(jià)值往往呈現(xiàn)稀疏性的特點(diǎn)。IBM認(rèn)為大數(shù)據(jù)必然具有真實(shí)性。維基百科對(duì)大數(shù)據(jù)的定義為:大數(shù)據(jù)是指利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時(shí)間超過(guò)可容忍時(shí)間的數(shù)據(jù)集。大數(shù)據(jù)有四個(gè)典型的4V特點(diǎn),即數(shù)量(Volume)、多樣性(Variety)、速度(Velocity)和價(jià)值(Value)。
數(shù)量:是指數(shù)據(jù)規(guī)模超大。數(shù)量級(jí)別從TB(1TB=1024GB)級(jí)別,躍升到 PB(1PB=1024TB)、EB(1 EB = 1024 PB )乃至 ZB (1 ZB =1024 EB )級(jí)別。
多樣性:是指管理結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)據(jù)來(lái)自多種數(shù)據(jù)源如傳感器、智能設(shè)備, 數(shù)據(jù)種類和格式?jīng)_破了以前所限定的結(jié)構(gòu)化數(shù)據(jù)范疇,包括文本、微博、音頻、視頻等等。
速度:是指處理數(shù)據(jù)快,包含大量或?qū)崟r(shí)數(shù)據(jù)分析處理的時(shí)間要求非常短,符合1秒定律。速度影響數(shù)據(jù)時(shí)延——從數(shù)據(jù)創(chuàng)建或獲取到數(shù)據(jù)可以訪問(wèn)的時(shí)間差。
價(jià)值:是指價(jià)值密度低,商業(yè)價(jià)值高。以視頻為例,連續(xù)不間斷的監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅僅有一兩秒。
大數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)庫(kù)也有明顯的區(qū)別,兩者在數(shù)據(jù)來(lái)源、數(shù)據(jù)處理方式和數(shù)據(jù)思維等方面都有很大的變化。正像孟小峰[2]所言,兩者的區(qū)別就是“池塘捕魚(yú)”和“大海捕魚(yú)”的區(qū)別,前者代表著傳統(tǒng)數(shù)據(jù)庫(kù)時(shí)代的數(shù)據(jù)管理方式,后者則對(duì)應(yīng)著大數(shù)據(jù)時(shí)代的數(shù)據(jù)管理方式,其在數(shù)據(jù)規(guī)模、數(shù)據(jù)類型、數(shù)據(jù)模式、數(shù)據(jù)對(duì)象、處理工具上都有巨大的差異。
三、大數(shù)據(jù)的關(guān)鍵技術(shù)
文件系統(tǒng):該系統(tǒng)提供最底層存儲(chǔ)能力的支持,是支撐上層應(yīng)用的基礎(chǔ)。Google公司最早開(kāi)發(fā)出了自己的文件系統(tǒng)GFS(Google file system),隨后微軟也開(kāi)發(fā)了自己的Cosmos,后來(lái)開(kāi)源也有了HDFS。
數(shù)據(jù)庫(kù)系統(tǒng):由于關(guān)系模型的分布式數(shù)據(jù)庫(kù)不能應(yīng)對(duì)大數(shù)據(jù)時(shí)代大規(guī)模的壓力,相應(yīng)地提出了許多新型數(shù)據(jù)庫(kù)系統(tǒng),如Google的Bigtable、Amazon的Dynamo等等,直到現(xiàn)在形成統(tǒng)一的NoSQL(not only SQL)。雖然NoSQL沒(méi)有準(zhǔn)確的定義,但一般認(rèn)為具有模式自由、簡(jiǎn)易備份、最終一致性、支持海量數(shù)據(jù)等特征。同時(shí),形成了對(duì)應(yīng)的索引與查詢技術(shù)。
數(shù)據(jù)分析:其上最著名的計(jì)算模型為Google的MapReduce,目前,Google公司針對(duì)MapReduce離線處理模式的不足,提出了基于Web數(shù)據(jù)級(jí)別的交互式數(shù)據(jù)分析系統(tǒng)Dremel,能夠?qū)崿F(xiàn)極短時(shí)間內(nèi)的海量數(shù)據(jù)分析。在離線與實(shí)時(shí)處理模式上,已經(jīng)出現(xiàn)了二者融合的趨勢(shì)。
大數(shù)據(jù)處理工具:Hadoop是目前最為流行的大數(shù)據(jù)處理平臺(tái),目前,將該平臺(tái)進(jìn)行改進(jìn),以便應(yīng)用到各種場(chǎng)景是研究的熱點(diǎn)之一。當(dāng)然,除了Hadoop,還有其他處理工具,這里就不一一提出。
四、大數(shù)據(jù)時(shí)代高校信息化面臨的挑戰(zhàn)
高校也是數(shù)據(jù)生產(chǎn)大戶,中國(guó)高校規(guī)模一般都比較大,一般萬(wàn)人以上的大學(xué)非常多,在高校里上學(xué)的學(xué)生從招生、學(xué)籍、選課、成績(jī)、飯?zhí)?、活?dòng)等會(huì)產(chǎn)生大量的數(shù)據(jù);教師的上課音視頻、課件、實(shí)驗(yàn)數(shù)據(jù)等也會(huì)有龐大的數(shù)據(jù);校務(wù)系統(tǒng)運(yùn)行、圖書(shū)館、微博、博客等都會(huì)產(chǎn)生很大的數(shù)據(jù);尤其重要的是科研和教學(xué)數(shù)據(jù),是高等教育的兩大核心功能的重要數(shù)據(jù)。在這個(gè)大數(shù)據(jù)的時(shí)代,只有用好這些數(shù)據(jù),才能更好地幫助教學(xué)、科研,做好招生推廣、學(xué)生管理等各個(gè)方面的工作,用好這些數(shù)據(jù),毋庸置疑將會(huì)大大提高高校的信息化水平。要用好大數(shù)據(jù),至少面臨以下幾個(gè)方面的挑戰(zhàn):
大數(shù)據(jù)集成與分析:大數(shù)據(jù)的多樣性特點(diǎn)決定了數(shù)據(jù)來(lái)源的廣泛性、復(fù)雜性,這種數(shù)據(jù)環(huán)境給大數(shù)據(jù)的處理帶來(lái)了很大的挑戰(zhàn),必須對(duì)多種數(shù)據(jù)來(lái)源進(jìn)行抽取集成,先進(jìn)行數(shù)據(jù)的清洗,經(jīng)過(guò)關(guān)聯(lián)和聚合,采用統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)來(lái)存儲(chǔ)這些數(shù)據(jù)。大數(shù)據(jù)分析無(wú)疑是整個(gè)大數(shù)據(jù)時(shí)代的核心所在,因?yàn)榇髷?shù)據(jù)的價(jià)值就產(chǎn)生于數(shù)據(jù)分析過(guò)程中。當(dāng)然,數(shù)據(jù)分析是基于集成處理后的數(shù)據(jù)作為數(shù)據(jù)分析的原始數(shù)據(jù)。數(shù)據(jù)分析一般是根據(jù)不用的應(yīng)用需求從數(shù)據(jù)中的部分或者全部進(jìn)行分析。傳統(tǒng)的分析技術(shù)如數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析在大數(shù)據(jù)時(shí)代需要做出調(diào)整,主要原因是大數(shù)據(jù)時(shí)代的“大”字,具體的調(diào)整包括分析前數(shù)據(jù)的預(yù)處理、算法、評(píng)價(jià)質(zhì)量等等。
大數(shù)據(jù)的存儲(chǔ):需要研究低成本、高效率的數(shù)據(jù)存儲(chǔ)方式,眾所周知,低成本一般意味著低效率,但是在大數(shù)據(jù)時(shí)代,如果處理效率低下,則大數(shù)據(jù)毫無(wú)意義,因此,必須打破常規(guī),要處理好大數(shù)據(jù)的存儲(chǔ)。另外,還要做好大數(shù)據(jù)時(shí)代數(shù)據(jù)存儲(chǔ)的管理問(wèn)題,因?yàn)榇鎯?chǔ)空間巨大,無(wú)疑給存儲(chǔ)硬件帶來(lái)壓力,同時(shí),對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行有序、高效的存儲(chǔ)管理也是面臨的挑戰(zhàn)。
大數(shù)據(jù)的融合與使用:數(shù)據(jù)不融合就發(fā)揮不出數(shù)據(jù)的大價(jià)值,大數(shù)據(jù)面臨的一個(gè)非技術(shù)性的重要問(wèn)題就是數(shù)據(jù)的融合。作為高等院校,大數(shù)據(jù)的融合應(yīng)該走在前列,必須徹底打通數(shù)據(jù)孤島,將各個(gè)業(yè)務(wù)充分整合,只有有效融合,才能形成高質(zhì)量的大數(shù)據(jù),才能發(fā)揮大數(shù)據(jù)時(shí)代高等教育信息化對(duì)學(xué)校發(fā)展的具體推動(dòng)作用。
五、大數(shù)據(jù)時(shí)代的應(yīng)對(duì)策略
面對(duì)大數(shù)據(jù)時(shí)代帶給我們的這些挑戰(zhàn),作為高等教育信息化從業(yè)人員,必須堅(jiān)持不懈地學(xué)習(xí),具體學(xué)習(xí)或者做好如下關(guān)鍵技術(shù)或工作:
我們要學(xué)習(xí)大數(shù)據(jù)時(shí)代的基礎(chǔ)平臺(tái)和支撐技術(shù),學(xué)習(xí)大數(shù)據(jù)時(shí)代的文件系統(tǒng),如Google的GFS系統(tǒng),開(kāi)源的HDFS、CloudStore系統(tǒng)等等,了解這些技術(shù),方便我們實(shí)現(xiàn)大數(shù)據(jù)低成本、高效率的存儲(chǔ),也方便我們進(jìn)行存儲(chǔ)的管理。學(xué)習(xí)這些技術(shù),將掌握大數(shù)據(jù)的基礎(chǔ)平臺(tái)與技術(shù)。
我們要學(xué)習(xí)大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析技術(shù),前面提過(guò),大數(shù)據(jù)時(shí)代,傳統(tǒng)的數(shù)據(jù)分析方式如數(shù)據(jù)挖掘等需要調(diào)整,那么我們就要學(xué)習(xí)傳統(tǒng)的數(shù)據(jù)分析方式的調(diào)整與方法,研究和學(xué)習(xí)大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析技術(shù)。
做好大數(shù)據(jù)時(shí)代的數(shù)據(jù)管理,大數(shù)據(jù)時(shí)代數(shù)據(jù)管理就不是以前傳統(tǒng)的大型關(guān)系型數(shù)據(jù)庫(kù)那種管理方式,而是改變成為NoSQL為代表的新型數(shù)據(jù)模型的一類技術(shù)。這種改變是因?yàn)殛P(guān)系型數(shù)據(jù)模型不能應(yīng)對(duì)大數(shù)據(jù)時(shí)代的種種挑戰(zhàn)。這種新型的數(shù)據(jù)模型就是為了迎合大數(shù)據(jù)時(shí)代的多樣性、異構(gòu)性等這些數(shù)據(jù)特征而出現(xiàn)的。當(dāng)然,新的數(shù)據(jù)模型是新的一套理論,是截然不同的理論。這就需要我們數(shù)據(jù)管理者積極學(xué)習(xí),應(yīng)對(duì)挑戰(zhàn)。同時(shí),要積極升級(jí)、改造相關(guān)存儲(chǔ)設(shè)備,以滿足大數(shù)據(jù)時(shí)代的要求。
積極推動(dòng)業(yè)務(wù)的深入融合,梳理業(yè)務(wù)數(shù)據(jù),形成“大數(shù)據(jù)”,然后利用這些“大數(shù)據(jù)”建設(shè)結(jié)構(gòu)和非結(jié)構(gòu)化的數(shù)據(jù)分析平臺(tái),通過(guò)平臺(tái)能提供更加深入、更加全面的高質(zhì)量信息,這些信息能為學(xué)校領(lǐng)導(dǎo)進(jìn)行高質(zhì)量的決策提供依據(jù)。
總之,大數(shù)據(jù)時(shí)代的這些挑戰(zhàn),有些需要科研人員進(jìn)行研究,有些非技術(shù)挑戰(zhàn),需要我們積極努力,有效進(jìn)行數(shù)據(jù)的整合、業(yè)務(wù)的整合,充分利用科研人員的最新研究成果。?筅
參考文獻(xiàn):
[1]桑慶兵.大數(shù)據(jù)在高校的應(yīng)用與思考[J].南通紡織職業(yè)技術(shù)學(xué)院學(xué)報(bào),2013(2):84-87.
[2]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1):146-169.
[3]陳甜遠(yuǎn).大數(shù)據(jù)時(shí)代的高校信息管理中心對(duì)策[J].無(wú)線互聯(lián)科技,2013(5).
(編輯:王天鵬)