王艷 蔣義然 盧秀麗
摘 要:隨著現(xiàn)代經(jīng)濟(jì)社會(huì)實(shí)力的不斷增加,我國(guó)現(xiàn)代化信息技術(shù)也在迅速的發(fā)展著,主要的應(yīng)用是大數(shù)據(jù)分析與計(jì)算體系架構(gòu)。其中可以分為大數(shù)據(jù)分析和大數(shù)據(jù)計(jì)算兩大類。大數(shù)據(jù)分析能夠從眾多的數(shù)據(jù)信息中尋找到有用的信息,是挖掘信息的最主要的方式。
關(guān)鍵詞:大數(shù)據(jù)分析;大數(shù)據(jù)計(jì)算;架構(gòu)
1 大數(shù)據(jù)分析
1.1 大數(shù)據(jù)分析基本概念
大數(shù)據(jù)分析是指對(duì)海量的數(shù)據(jù)進(jìn)行分析。大數(shù)據(jù)分析是運(yùn)用云計(jì)算等先進(jìn)網(wǎng)絡(luò)和計(jì)算設(shè)備搜集、記錄、分析和預(yù)測(cè)超大規(guī)模群集現(xiàn)象的現(xiàn)代統(tǒng)計(jì)方法。大數(shù)據(jù)分析主要是通過(guò)高效的算法和模式分析大數(shù)據(jù),并挖掘大數(shù)據(jù)潛藏的巨大價(jià)值。常見(jiàn)的大數(shù)據(jù)分析方法主要有BloomFilter、Hashing、索引、并行計(jì)算和Trie樹(shù)等。大數(shù)據(jù)分析的數(shù)據(jù)源除了傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),還包括半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。針對(duì)不同的數(shù)據(jù)源采用數(shù)據(jù)抽取、統(tǒng)計(jì)分析及數(shù)據(jù)挖掘等多個(gè)步驟進(jìn)行分析與處理,以快速挖掘出有用信息,洞悉出數(shù)據(jù)價(jià)值。
1.2 大數(shù)據(jù)分析的基礎(chǔ)
Hadoop能有效地處理海量的數(shù)據(jù),并具有存儲(chǔ)的能力。同時(shí),它可以整合多臺(tái)計(jì)算機(jī)的資源,提供數(shù)據(jù)分散運(yùn)算,在極短的時(shí)間內(nèi)完成運(yùn)算工作,自動(dòng)保留數(shù)據(jù)副本,提高數(shù)據(jù)的可靠性和延展性。Hadoop分布式文件系統(tǒng)(Hadoopdistributedfifilesystem,HDFS)和Hadoop分布式計(jì)算處理架構(gòu)(MapReduce)為Hadoop架構(gòu)的兩個(gè)核心部分。Hadoop分
布式文件系統(tǒng)可對(duì)數(shù)據(jù)進(jìn)行切割并制作副本備份,然后分散存儲(chǔ)于不同的計(jì)算機(jī)或服務(wù)器上,實(shí)現(xiàn)對(duì)數(shù)據(jù)的迅速存取。還可備份于不同的硬件,以防止數(shù)據(jù)損壞。Hadoop分布式計(jì)算處理架構(gòu)即MapReduce,由Map和Reduce構(gòu)成。對(duì)數(shù)據(jù)進(jìn)行分散計(jì)算是Map的主要作用。整合Map計(jì)算后的結(jié)果并提供分布式的數(shù)據(jù)平行處理分析,是Reduce的主要作用。除了兩個(gè)核心部分,根據(jù)Hadoop所延伸的其他項(xiàng)目,現(xiàn)已發(fā)展成為一個(gè)生態(tài)系統(tǒng)。該部分主要包括Zookeeper、Avro、Hbase、Mapreduce、Sqoop、Pig、Hive、Mahout和Hadoopdistributedfifilesystem等。
2 大數(shù)據(jù)計(jì)算平臺(tái)現(xiàn)狀及存在的問(wèn)題
大數(shù)據(jù)產(chǎn)品的主要的運(yùn)作方式就是建立大數(shù)據(jù)計(jì)算平臺(tái),大數(shù)據(jù)計(jì)算平臺(tái)主要以云計(jì)算作為硬件基礎(chǔ),并將其處理能力作為總體服務(wù)框架,并對(duì)大數(shù)據(jù)進(jìn)行實(shí)時(shí)計(jì)算的過(guò)程。大數(shù)據(jù)計(jì)算平臺(tái)能夠?qū)Σ煌N類的數(shù)據(jù)進(jìn)行收集、分析、計(jì)算、存儲(chǔ)、處理等處理,這就使得各大企業(yè)都需要其應(yīng)用,能夠?qū)ζ髽I(yè)的內(nèi)部產(chǎn)品進(jìn)行相應(yīng)的檢驗(yàn),并組為技術(shù)基礎(chǔ),能夠處理相關(guān)的數(shù)據(jù)處理問(wèn)題。但是在實(shí)際應(yīng)用中,大數(shù)據(jù)計(jì)算平臺(tái)還存著較多的問(wèn)題,主要有以下幾個(gè)方面:
2.1 平臺(tái)研發(fā)需要交叉學(xué)科知識(shí)
在進(jìn)行設(shè)計(jì)大數(shù)據(jù)計(jì)算平臺(tái)時(shí),需要參考的知識(shí)方面涉及較多。大數(shù)據(jù)計(jì)算平臺(tái)在實(shí)際應(yīng)用中,所計(jì)算的數(shù)據(jù)較多,需要提高大數(shù)據(jù)的處理能力,并降低自身能源的損耗、還需要增加企業(yè)平臺(tái)自身的安全性和隱私性。所以在大數(shù)據(jù)計(jì)算平臺(tái)研發(fā)時(shí),需要交叉學(xué)科知識(shí)共同應(yīng)用,進(jìn)而對(duì)其進(jìn)行創(chuàng)新和發(fā)展。
2.2 平臺(tái)研發(fā)人才缺乏
在大數(shù)據(jù)的使用中,但是由于大數(shù)據(jù)是新出的行業(yè),主要的研發(fā)人才還沒(méi)有及時(shí)的到位,并且相關(guān)的企業(yè)也并不重視大數(shù)據(jù)計(jì)算平臺(tái)研發(fā),這就導(dǎo)致平臺(tái)的研發(fā)嚴(yán)重的缺乏人才。在
企業(yè)中,實(shí)際應(yīng)用平臺(tái)搭建不完善,不能承擔(dān)大數(shù)據(jù)計(jì)算平臺(tái)的使用,所以無(wú)法對(duì)有關(guān)的項(xiàng)目進(jìn)行處理;大數(shù)據(jù)技術(shù)還處在發(fā)展階段,很多軟件都是開(kāi)源的,所以在進(jìn)行應(yīng)用時(shí)缺乏相關(guān)的安全性。
2.3 技術(shù)環(huán)境不統(tǒng)一
目前大數(shù)據(jù)技術(shù)開(kāi)發(fā)的環(huán)境主要集中在GitHub為主的開(kāi)源社區(qū)內(nèi),其余的開(kāi)發(fā)環(huán)境都是小眾的,所以這就使得大數(shù)據(jù)計(jì)算平臺(tái)開(kāi)發(fā)環(huán)境不統(tǒng)一。雖然可以根據(jù)用戶的實(shí)際使用情況進(jìn)行選擇不同的平臺(tái),但是在開(kāi)發(fā)應(yīng)用中,卻無(wú)形的提升了研發(fā)成本。
3 大數(shù)據(jù)計(jì)算體系架構(gòu)
3.1 大數(shù)據(jù)計(jì)算系統(tǒng)大數(shù)據(jù)計(jì)算系統(tǒng)主要采用的設(shè)計(jì)方案較多,其中所涉及的技術(shù)有軟件分層化、技術(shù)復(fù)雜化等,還依賴于較多的實(shí)際應(yīng)用。但是在實(shí)際的系統(tǒng)建設(shè)中,主要分為三個(gè)基礎(chǔ)系統(tǒng),分別是數(shù)據(jù)存儲(chǔ)系統(tǒng)、數(shù)據(jù)分析系統(tǒng)和數(shù)據(jù)分析系統(tǒng)。大數(shù)據(jù)的計(jì)算不僅涉及到算法的應(yīng)用,還應(yīng)用了較多的數(shù)據(jù)分析技術(shù)。
3.2 大數(shù)據(jù)計(jì)算采用的方法和技術(shù)在大數(shù)據(jù)計(jì)算中所采用的方法主要是計(jì)算機(jī)科學(xué)計(jì)算法和數(shù)學(xué)統(tǒng)計(jì)法,在這其中還應(yīng)用數(shù)據(jù)模型計(jì)算法、數(shù)據(jù)處理法、數(shù)據(jù)安全、算法優(yōu)化法、數(shù)據(jù)讀取和數(shù)據(jù)建模等方法。并且在大數(shù)據(jù)計(jì)算中采用了智能學(xué)習(xí)方法,能夠在對(duì)數(shù)據(jù)進(jìn)行處理的過(guò)程中,加強(qiáng)對(duì)數(shù)據(jù)的處理能力,進(jìn)而提升數(shù)據(jù)結(jié)果的準(zhǔn)確性。
3.3 大數(shù)據(jù)計(jì)算總體架構(gòu)在進(jìn)行鋪設(shè)大數(shù)據(jù)計(jì)算總體架構(gòu)時(shí),主要是將數(shù)據(jù)儲(chǔ)存系統(tǒng)、數(shù)據(jù)分析系統(tǒng)和數(shù)據(jù)計(jì)算系統(tǒng)集合在一起,然后對(duì)數(shù)據(jù)進(jìn)行整體的處理。數(shù)據(jù)儲(chǔ)存系統(tǒng)主要對(duì)數(shù)據(jù)進(jìn)行收集、分析、和建模,然后對(duì)處理的結(jié)果進(jìn)行存儲(chǔ)。而且在數(shù)據(jù)儲(chǔ)存系統(tǒng)中還能對(duì)數(shù)據(jù)進(jìn)行清洗建模、數(shù)據(jù)操作的操作。數(shù)據(jù)分析系統(tǒng)主要包括三維建模、數(shù)據(jù)模型和算法優(yōu)化方式,為大數(shù)據(jù)計(jì)算提供了數(shù)據(jù)分析能力和實(shí)際使用能力。數(shù)據(jù)計(jì)算系統(tǒng)主要能夠?qū)?shù)據(jù)進(jìn)行計(jì)算,處理和分析,保證處理數(shù)據(jù)準(zhǔn)確性。
3.4 大數(shù)據(jù)的采集在構(gòu)建大數(shù)據(jù)計(jì)算體系時(shí),需要對(duì)大數(shù)據(jù)進(jìn)行收集,對(duì)數(shù)據(jù)的收集不僅僅是來(lái)源于實(shí)際的數(shù)據(jù),還包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù)。由于數(shù)據(jù)的具有非結(jié)構(gòu)化的特點(diǎn),所以在進(jìn)行處理時(shí),大數(shù)據(jù)的存儲(chǔ)系統(tǒng)比傳統(tǒng)的數(shù)據(jù)存儲(chǔ)要更加的復(fù)雜。并且在大數(shù)據(jù)計(jì)算體系中,能夠構(gòu)建大數(shù)據(jù)采集于建模、分布式數(shù)據(jù)庫(kù)等方式來(lái)提高數(shù)據(jù)處理能力。在進(jìn)行數(shù)據(jù)處理時(shí),還需要在相關(guān)的數(shù)據(jù)庫(kù)中添加多余的一項(xiàng)存儲(chǔ)庫(kù),能將處理后的數(shù)據(jù)進(jìn)行儲(chǔ)存,方便后期對(duì)其調(diào)用。在構(gòu)建大數(shù)據(jù)計(jì)算體系中,需要按照標(biāo)準(zhǔn)進(jìn)行搭建系統(tǒng),首先先建立數(shù)據(jù)層,對(duì)數(shù)據(jù)進(jìn)行收集和建模,然后是建立分布式文件處理系統(tǒng)用來(lái)處理數(shù)據(jù)的采取,并對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)化,使其被系統(tǒng)所是識(shí)別。在最上層需要建立分布式數(shù)據(jù)庫(kù),可以對(duì)數(shù)據(jù)記性存儲(chǔ)管理,能夠確保數(shù)據(jù)處理的穩(wěn)定性。
4 結(jié)語(yǔ)
大數(shù)據(jù)分析是找出隱藏于數(shù)據(jù)信息中有用信息的主要方式,是挖掘有用價(jià)值信息的主要途徑,通過(guò)分析挖掘出有用信息,為科學(xué)決策提供依據(jù)。當(dāng)前,大數(shù)據(jù)計(jì)算遇到了前所未有的挑戰(zhàn),傳統(tǒng)的計(jì)算理論已經(jīng)不再適用于海量數(shù)據(jù)的大入系統(tǒng),政府要投入一定的資金予以支持,以此更好地保障圖書館收支平衡。
參考文獻(xiàn)
[1]陸杉,陳宇斌.供應(yīng)鏈中大數(shù)據(jù)分析應(yīng)用研究綜述[J].商業(yè)經(jīng)濟(jì)與管理,2018(09):27-35.
[2]拉瑪莫哈那勞·哥達(dá)吉利.人工智能=大數(shù)據(jù)分析+機(jī)器學(xué)習(xí)+云計(jì)算[J].重慶與世界,2018(18):33-34.
[3]龍虎.大數(shù)據(jù)分析與計(jì)算體系架構(gòu)研究[J].信息與電腦(理論版),2018(18):130-131+138.