史志杰
(山西職業(yè)技術(shù)學(xué)院 計(jì)算機(jī)工程系,山西 太原 030006)
在各行業(yè)與各產(chǎn)業(yè)向著信息化方向發(fā)展的過程中,各產(chǎn)業(yè)從監(jiān)控、傳感器等信息化設(shè)備中獲取的復(fù)雜信息內(nèi)容,讓各產(chǎn)業(yè)需要處理的信息規(guī)模不斷擴(kuò)大。各地的地質(zhì)數(shù)據(jù)狀況、氣候變動(dòng)情況、人口大數(shù)據(jù)統(tǒng)計(jì)等詳細(xì)信息都產(chǎn)生了大量的數(shù)據(jù)處理需求。 而在各產(chǎn)業(yè)生產(chǎn)與經(jīng)營的過程中,對產(chǎn)品生產(chǎn)線的監(jiān)控、對用戶商業(yè)購買情況的記錄等大數(shù)據(jù)內(nèi)容也在影響著各企業(yè)在經(jīng)營策略與運(yùn)營方向上的轉(zhuǎn)變。 因此,大數(shù)據(jù)處理技術(shù)對于各行業(yè)與產(chǎn)業(yè)而言都是非常重要的,如今的時(shí)代可以被稱為信息化時(shí)代,也可以被稱為大數(shù)據(jù)時(shí)代。
大數(shù)據(jù)處理技術(shù)是在云計(jì)算技術(shù)之后信息科技領(lǐng)域出現(xiàn)的一個(gè)研究焦點(diǎn)。 在信息化時(shí)代,隨處可見的傳感器和微處理器成了數(shù)據(jù)的主要來源,且其涉及各個(gè)領(lǐng)域與學(xué)科。 如在科學(xué)研究領(lǐng)域,氣象數(shù)據(jù)、地理數(shù)據(jù)、生物信息數(shù)據(jù)等是傳統(tǒng)的海量數(shù)據(jù)集;在制造業(yè)領(lǐng)域,很多機(jī)器上都安裝了一個(gè)或多個(gè)微處理器來采集生產(chǎn)數(shù)據(jù);在商業(yè)消費(fèi)領(lǐng)域,網(wǎng)上購買記錄、消費(fèi)評價(jià)等數(shù)據(jù)。 各國政府的海量統(tǒng)計(jì)數(shù)據(jù)和文件也因計(jì)算機(jī)技術(shù)的發(fā)展而成為亟待分析處理的大數(shù)據(jù)問題。 有研究報(bào)告稱,2011 年全球被創(chuàng)建和被復(fù)制的數(shù)據(jù)總量為1.8 ZB,而到了2020 年,全球數(shù)據(jù)總量則達(dá)到了驚人的35 ZB。 在大數(shù)據(jù)時(shí)代,如何合理利用大數(shù)據(jù)處理技術(shù)就成了社會(huì)廣泛關(guān)注的焦點(diǎn)。
目前為止,世界范圍內(nèi)針對大數(shù)據(jù)的具體定義尚不統(tǒng)一,信息處理領(lǐng)域的頭部企業(yè)及機(jī)構(gòu)均對大數(shù)據(jù)進(jìn)行了定義,其主要包含以下幾種:一是麥肯錫。 麥肯錫將大數(shù)據(jù)定義為超過了傳統(tǒng)概念尺度的數(shù)據(jù)信息,即常規(guī)的數(shù)據(jù)庫技術(shù)難以實(shí)現(xiàn)捕捉、存儲(chǔ)、管理和分析的數(shù)據(jù)信息。 二是IBM。 IBM 認(rèn)為,大數(shù)據(jù)具有規(guī)模性、多樣性和高速性的基本特征。 規(guī)模性指的是大數(shù)據(jù)的整體規(guī)模較大,超過了PB 級(jí)別;多樣性是指大數(shù)據(jù)的數(shù)據(jù)來源廣泛,種類多樣,且涉及了多個(gè)領(lǐng)域與學(xué)科;高速性指的是大數(shù)據(jù)對于數(shù)據(jù)處理技術(shù)的要求較高,數(shù)據(jù)處理技術(shù)必須達(dá)到較高的速度才能夠滿足大數(shù)據(jù)的實(shí)際需求。 三是EMC。 EMC 簡單使用“大”字對大數(shù)據(jù)處理技術(shù)進(jìn)行概括。 “大”本身就是大數(shù)據(jù)處理技術(shù)的基本特征,常規(guī)的數(shù)據(jù)庫規(guī)模一般超過10 TB。 多用戶把多個(gè)數(shù)據(jù)集放在一起,形成PB 級(jí)的數(shù)據(jù)量。 同時(shí)這些數(shù)據(jù)來自多種數(shù)據(jù)源,以實(shí)時(shí)、迭代的方式來實(shí)現(xiàn)。
云計(jì)算技術(shù)是通過網(wǎng)絡(luò),將供應(yīng)方龐大的數(shù)據(jù)處理與存儲(chǔ)資源提供給用戶在網(wǎng)絡(luò)云端使用。 這樣的特性讓云計(jì)算技術(shù)擁有可靠性較高且運(yùn)營成本較低的特點(diǎn)。 同時(shí),以云計(jì)算技術(shù)為基礎(chǔ),誕生專屬于云端技術(shù)的數(shù)據(jù)處理方式,也讓數(shù)據(jù)云端化發(fā)展的優(yōu)勢逐漸明顯。 從某種角度來看,大數(shù)據(jù)技術(shù)是在云計(jì)算技術(shù)基礎(chǔ)上延伸發(fā)展出來的新型技術(shù)。 對于一般的數(shù)據(jù)處理技術(shù)而言,由于數(shù)據(jù)信息的樣本數(shù)量較少,計(jì)算難度較低,其對于技術(shù)本身的要求也相對較低。 但是,大數(shù)據(jù)技術(shù)自身的大規(guī)模特征就決定了一般的計(jì)算技術(shù)無法滿足其實(shí)際的計(jì)算需求,而云計(jì)算技術(shù)的出現(xiàn)卻能夠有效滿足大數(shù)據(jù)技術(shù)的基本需求。 整體大量數(shù)據(jù)的傳輸與運(yùn)算,也讓大數(shù)據(jù)可以更順利地進(jìn)行處理,不僅解決了大數(shù)據(jù)處理技術(shù)對數(shù)據(jù)量與存儲(chǔ)大小的要求,也讓大數(shù)據(jù)分析系統(tǒng)的安全性與穩(wěn)定性有了對應(yīng)的保障。
總體上來看,云計(jì)算與大數(shù)據(jù)之間處于相互合作但又相對獨(dú)立的狀態(tài)。 云計(jì)算負(fù)責(zé)為大數(shù)據(jù)處理技術(shù)提供較強(qiáng)的運(yùn)算能力,而大數(shù)據(jù)則可發(fā)揮數(shù)據(jù)量龐大的特點(diǎn),讓計(jì)算出的結(jié)果能夠?yàn)閱我划a(chǎn)業(yè)或企業(yè)提供在經(jīng)營方向、風(fēng)險(xiǎn)預(yù)測等方面的信息化數(shù)據(jù)內(nèi)容,以便于企業(yè)進(jìn)行風(fēng)險(xiǎn)問題的規(guī)避與處理,以此形成一套完整的對數(shù)據(jù)處理與分析系統(tǒng)。
Hadoop 技術(shù)屬于大數(shù)據(jù)分布式處理技術(shù),這一技術(shù)就是利用云計(jì)算的高算力與大數(shù)據(jù)處理技術(shù)數(shù)據(jù)量龐大的特點(diǎn)。 同時(shí)向數(shù)據(jù)的多個(gè)目標(biāo)方向進(jìn)行計(jì)算與處理,若發(fā)生計(jì)算失敗的情況,就迅速對失敗情況加以處理,并重新選擇計(jì)算處理目標(biāo),以此來實(shí)現(xiàn)對龐大信息數(shù)據(jù)的迅速處理與管理。 這一方式的應(yīng)用對于提升數(shù)據(jù)處理效率有一定的幫助,且可以讓各平臺(tái)更順利的利用大數(shù)據(jù)處理技術(shù)。 Open Stack 是對各類型構(gòu)件技術(shù)進(jìn)行組合使用的數(shù)據(jù)處理平臺(tái),這一平臺(tái)所涉及的模塊化技術(shù)包括NOVA,SWIFT 等內(nèi)容,將此平臺(tái)與Hadoop 技術(shù)加以結(jié)合后,就可以讓數(shù)據(jù)信息的利用率得以提升,減少因?yàn)閱雾?xiàng)運(yùn)算出現(xiàn)失敗而導(dǎo)致數(shù)據(jù)信息內(nèi)容浪費(fèi)的情況。
數(shù)據(jù)采集就是通過軟件或硬件的形式將單一設(shè)備內(nèi)所產(chǎn)生的數(shù)據(jù)加以收集的技術(shù)。 在全面信息化發(fā)展的當(dāng)下,信息采集技術(shù)會(huì)采集到大量精確度高、涉及范圍廣的信息內(nèi)容,這些信息會(huì)應(yīng)用于大數(shù)據(jù)分析工作,為需求方提供相應(yīng)的幫助。 從某種角度來看,大數(shù)據(jù)處理技術(shù)的核心在于對大量數(shù)據(jù)的標(biāo)準(zhǔn)化處理,依據(jù)處理結(jié)果總結(jié)規(guī)律或者分析現(xiàn)象,進(jìn)而為實(shí)現(xiàn)某種既定目標(biāo)奠定數(shù)據(jù)基礎(chǔ)。 而想要實(shí)現(xiàn)這一目標(biāo),基本的前提條件就是實(shí)現(xiàn)數(shù)據(jù)信息的收集工作,收集到的信息總量越大則意味著分析結(jié)果的準(zhǔn)確性越高,收集信息的速度越快則意味著數(shù)據(jù)分析過程的耗時(shí)越短。
信息采集的方法分為集中式與分布式。 其中,集中式采集是在統(tǒng)一的數(shù)據(jù)庫內(nèi)直接進(jìn)行數(shù)據(jù)信息的收集與分析,在信息的處理上更注重信息內(nèi)容的綜合性與全面性。 而分布式采集則是先根據(jù)需求,將數(shù)據(jù)內(nèi)容劃分為不同的區(qū)域類型,然后在不同的區(qū)域內(nèi)開展數(shù)據(jù)的收集與分析。 這一方式能夠?qū)Ω黝愋蛿?shù)據(jù)進(jìn)行針對性的挖掘,更注重?cái)?shù)據(jù)在單一方向的信息深度。這兩種信息采集方式在通過云計(jì)算后,就可以在云端進(jìn)行全程的數(shù)據(jù)處理與信息存儲(chǔ),是大數(shù)據(jù)處理技術(shù)最基礎(chǔ)的應(yīng)用。 另外,因?yàn)樵朴?jì)算技術(shù)在進(jìn)行數(shù)據(jù)收集時(shí),并不會(huì)過度侵犯用戶的隱私狀況,所以也能夠避免用戶對頻繁的信息采集產(chǎn)生厭煩。
傳統(tǒng)的數(shù)據(jù)存儲(chǔ)方式屬于單點(diǎn)式存儲(chǔ),整體雖然在信息數(shù)據(jù)的索引與閱讀方面存在一定優(yōu)勢,但因?yàn)榇髷?shù)據(jù)時(shí)代對數(shù)據(jù)存儲(chǔ)量的要求不斷提高,這種單點(diǎn)式存儲(chǔ)方式已經(jīng)很難應(yīng)對。 單點(diǎn)式存儲(chǔ)在信息響應(yīng)速度上也較為遲緩,進(jìn)行大量數(shù)據(jù)的訪問與處理時(shí)經(jīng)常會(huì)造成時(shí)間上的延誤,已經(jīng)不符合信息化時(shí)代對信息存儲(chǔ)的需求。 而云計(jì)算憑借自身的運(yùn)算能力,會(huì)在進(jìn)行存儲(chǔ)時(shí),自動(dòng)將數(shù)據(jù)內(nèi)容劃分到不同的信息列中存儲(chǔ),需要進(jìn)行訪問時(shí),根據(jù)訪問關(guān)鍵詞,就能夠直接訪問對應(yīng)的信息列,不僅避免了大量數(shù)據(jù)造成的訪問壓力,也讓數(shù)據(jù)的處理效率得到了明顯的提升,使存儲(chǔ)系統(tǒng)的性能得到優(yōu)化。 同時(shí),各信息列之間的排列也會(huì)按照相關(guān)性進(jìn)行分配,具備相關(guān)性的信息列會(huì)存在一定的數(shù)據(jù)互通性,在進(jìn)行大數(shù)據(jù)分析時(shí),就會(huì)根據(jù)信息列之間的共同數(shù)據(jù)進(jìn)行綜合性分析,避免分析結(jié)果存在信息局限性,確保信息內(nèi)容的處理足夠全面。
大數(shù)據(jù)聯(lián)機(jī)分析技術(shù)是在傳統(tǒng)數(shù)據(jù)聯(lián)機(jī)分析技術(shù)的基礎(chǔ)上,通過技術(shù)層面的遞進(jìn)發(fā)展,降低了技術(shù)層面的難度,可以對一些數(shù)據(jù)量龐大,且數(shù)據(jù)關(guān)系復(fù)雜的信息內(nèi)容進(jìn)行綜合性分析的技術(shù)。
大數(shù)據(jù)聯(lián)機(jī)分析技術(shù)在應(yīng)用時(shí),會(huì)對整體的數(shù)據(jù)內(nèi)容進(jìn)行綜合性分析,并結(jié)合大數(shù)據(jù)信息內(nèi)容的關(guān)聯(lián)性,建立起相應(yīng)的信息結(jié)構(gòu)模型,通過模型來判斷信息數(shù)據(jù)間的相對關(guān)系。 通過這一技術(shù)的應(yīng)用,就可以在數(shù)據(jù)分析的過程中,避免因?yàn)樾畔?fù)雜程度較高對數(shù)據(jù)分析結(jié)構(gòu)造成的影響,對于大數(shù)據(jù)處理技術(shù)的發(fā)展有著重要的意義[1]。
大數(shù)據(jù)挖掘技術(shù)是采取云計(jì)算與大數(shù)據(jù)相結(jié)合的方式,在大量重復(fù)性高、可利用價(jià)值低的信息數(shù)據(jù)中,提取出對企業(yè)或個(gè)人有一定價(jià)值的數(shù)據(jù)信息,并對這些信息進(jìn)行二次的數(shù)據(jù)加工,讓信息內(nèi)容具備實(shí)際應(yīng)用價(jià)值的一種方式。 這一技術(shù)是以大數(shù)據(jù)龐大的數(shù)據(jù)庫與云計(jì)算強(qiáng)大的數(shù)據(jù)分析能力為基礎(chǔ)運(yùn)行的。 在處理的過程中會(huì)更加注重信息的整體性,一般會(huì)將大量信息進(jìn)行全面的處理,并對可能存在價(jià)值的信息進(jìn)行存儲(chǔ)與整合,對整合結(jié)果加以優(yōu)化,以此得到存在價(jià)值的信息內(nèi)容[2]。
因?yàn)榇髷?shù)據(jù)挖掘技術(shù)所消耗的運(yùn)算能力與存儲(chǔ)空間較為龐大,所以在信息挖掘前,首先需要明確信息挖掘的方向,讓大數(shù)據(jù)分析能夠擁有一個(gè)整體的方向,以這一方向作為判斷信息有效性的基礎(chǔ),確保大數(shù)據(jù)挖掘可以正常展開。 整體方向越清晰,其挖掘結(jié)果的針對性與準(zhǔn)確性就越強(qiáng)。 確立方向后,應(yīng)當(dāng)選擇具體的挖掘方式,挖掘方式可以簡單地劃分為直接與間接兩種,直接就是根據(jù)數(shù)據(jù)算法對信息內(nèi)容進(jìn)行簡單的運(yùn)算與加工,并直接得出數(shù)據(jù)挖掘的結(jié)果。 間接就是在信息基礎(chǔ)算法的基礎(chǔ)上利用網(wǎng)絡(luò)等信息算法技術(shù)對信息進(jìn)行二次加工,可以得到處理結(jié)果更為精準(zhǔn)的大數(shù)據(jù)信息內(nèi)容。
對于大數(shù)據(jù)的分析也不能僅僅停留在數(shù)據(jù)分析的層面上。 利用大數(shù)據(jù)處理技術(shù)與云計(jì)算的方式,可以將數(shù)據(jù)性的內(nèi)容以視圖的形式,更形象地加以展現(xiàn),利用這一技術(shù)的企業(yè)可以在數(shù)據(jù)分析的基礎(chǔ)上,加以圖像化的內(nèi)容與立體的建模方式,更全面地展現(xiàn)數(shù)據(jù)內(nèi)容。 避免因?yàn)閭鹘y(tǒng)數(shù)據(jù)信息復(fù)雜性強(qiáng)的特性,導(dǎo)致信息判斷的結(jié)果產(chǎn)生一定遺露,使大數(shù)據(jù)分析的結(jié)果更具應(yīng)用的價(jià)值。 讓信息的分析工作不再局限于大數(shù)據(jù)與云計(jì)算單純的數(shù)據(jù)分析,將信息在圖像層面與建模層面的內(nèi)容進(jìn)行進(jìn)一步的分析與挖掘,全面了解大數(shù)據(jù)信息內(nèi)容。 從某種角度來看,大數(shù)據(jù)可視化技術(shù)的原理與一般的數(shù)據(jù)可視化技術(shù)的原理相同,但是由于大數(shù)據(jù)的數(shù)據(jù)總量較大,其對數(shù)據(jù)處理和歸類整理能力提出了較高的要求。 此外,大數(shù)據(jù)可視化技術(shù)所采取的樣本總量巨大,這也意味著最終的分析結(jié)果將更為精確,精度級(jí)別更高。
云計(jì)算因?yàn)橐劳杏诰W(wǎng)絡(luò),所有的信息訪問與信息處理對于應(yīng)用技術(shù)的企業(yè)而言,無論是數(shù)據(jù)的傳輸還是處理都會(huì)存在一定的風(fēng)險(xiǎn),這也是大數(shù)據(jù)與云計(jì)算技術(shù)目前最具爭議的信息安全性問題,對云計(jì)算技術(shù)的發(fā)展有著一定的制約作用。 一般對于網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)內(nèi)容,都會(huì)使用信息提供方的信息加密算法進(jìn)行加密處理,以這種方式來確保上傳云端的數(shù)據(jù)內(nèi)容足夠安全,這一方式也是目前大部分信息的安全處理手段,主要應(yīng)用于對信息內(nèi)容進(jìn)行單純的加密處理的情況,當(dāng)需要對信息進(jìn)行重復(fù)訪問并重復(fù)加密時(shí),這一普通的信息加密方式在易用性與安全性上會(huì)受到影響,需要采取雙向加密的方式,在確保數(shù)據(jù)安全性的同時(shí),讓信息可以得到有效應(yīng)用[3]。
企業(yè)在進(jìn)行云計(jì)算信息加密時(shí),最常見的就是內(nèi)容感知加密技術(shù)。 這一技術(shù)的優(yōu)勢在于可以由企業(yè)自行選擇信息加密的具體內(nèi)容與使用的加密形式,讓關(guān)鍵信息的安全性有一定的保障。 這一技術(shù)的實(shí)用性與安全性較高,且應(yīng)用難度較低,是較為主流的加密形式[4]。
內(nèi)容感知加密技術(shù)在成熟應(yīng)用的基礎(chǔ)上,進(jìn)一步的發(fā)展就是保格式加密技術(shù)。 格式加密技術(shù)可以自行判斷數(shù)據(jù)內(nèi)容所需要的加密形式,并以非常高的效率完成全部文件的加密,且不同加密內(nèi)容之間在內(nèi)容獨(dú)立的同時(shí),能夠同時(shí)進(jìn)行大數(shù)據(jù)處理技術(shù)與云計(jì)算技術(shù)的處理與存儲(chǔ),讓信息處理效率得到了進(jìn)一步的提升,且在這一過程中也不會(huì)出現(xiàn)數(shù)據(jù)丟失等情況,無論對于數(shù)據(jù)安全還是完整性都有較好的保護(hù)效果[5]。
通過云計(jì)算與大數(shù)據(jù)處理技術(shù)的應(yīng)用,企業(yè)可以通過更簡單的方式完成數(shù)據(jù)的存儲(chǔ)與管理,并對數(shù)據(jù)的信息內(nèi)容加以分析,為企業(yè)的發(fā)展提供實(shí)質(zhì)性的幫助。 因此,企業(yè)需要積極地利用云計(jì)算技術(shù)與大數(shù)據(jù)處理技術(shù),讓企業(yè)的數(shù)據(jù)處理能力能夠符合大數(shù)據(jù)時(shí)代的需求,推動(dòng)企業(yè)發(fā)展。