徐亦卿
摘要:人們通常會誤認(rèn)為大數(shù)據(jù)即是大量數(shù)據(jù),真實意義上的大數(shù)據(jù)技術(shù)則是對于數(shù)據(jù)的分類、處理、計算的綜合類的技術(shù)總稱。大數(shù)據(jù)技術(shù)本質(zhì)是上對數(shù)據(jù)的極快計算能力,它與傳統(tǒng)的編程技術(shù)有著本質(zhì)區(qū)別。對于大數(shù)據(jù)構(gòu)成以及實現(xiàn)較高的計算能力的探究,是每個相關(guān)行業(yè)人員提升自己的必要途徑。認(rèn)識大數(shù)據(jù)技術(shù)的具體構(gòu)成技術(shù)、詳細(xì)功能、應(yīng)用領(lǐng)域,是每個軟件開發(fā)和教育相關(guān)領(lǐng)域人才成長的必經(jīng)途徑,因此,對于此方面的研究對于個人專業(yè)能力成長具有積極意義。
關(guān)鍵詞:大數(shù)據(jù)技術(shù);大數(shù)據(jù)管理模塊組成技術(shù);技術(shù)分析;分支技術(shù)探析
中圖分類號:TP311? ? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2021)27-0033-02
自從我國各領(lǐng)域?qū)Υ髷?shù)據(jù)技術(shù)產(chǎn)生應(yīng)用需求之后,已有多個企業(yè)并計算機(jī)技術(shù)開發(fā)應(yīng)用領(lǐng)域人員開始對多個情境下的大數(shù)據(jù)技術(shù)的需求、應(yīng)用以及發(fā)展做出了應(yīng)有的貢獻(xiàn)。在大數(shù)據(jù)技術(shù)日趨成熟之際,人們對大數(shù)據(jù)的認(rèn)知成熟度需要得到普遍提升,而計算機(jī)技術(shù)領(lǐng)域的專業(yè)人員也需要站在專業(yè)角度,對大數(shù)據(jù)技術(shù)的構(gòu)成進(jìn)行深入了解。這不僅對大數(shù)據(jù)技術(shù)的普及應(yīng)用和持續(xù)發(fā)展有益,更對各領(lǐng)域的個人發(fā)展、順應(yīng)時代潮流以及個人的專業(yè)素養(yǎng)提升有極大幫助意義。本文中筆者結(jié)合自身對于大數(shù)據(jù)相關(guān)技術(shù)的正確認(rèn)知,對大數(shù)據(jù)技術(shù)發(fā)展認(rèn)識基礎(chǔ)上的分支技術(shù)體系展開深入討論。
1 基于分布式大數(shù)據(jù)管理模塊構(gòu)成的技術(shù)探究
我們在深入挖掘大數(shù)據(jù)技術(shù)對其進(jìn)行了解之前,首先要了解它主要需要解決什么問題,以及能夠解決什么問題。一方面,在大數(shù)據(jù)技術(shù)出現(xiàn)之前,IT行業(yè)各類技術(shù)發(fā)展速度不是很快,系統(tǒng)化應(yīng)用過程中的各類軟件框架體系也足夠完善,普通的單個服務(wù)器為基礎(chǔ)平臺的數(shù)據(jù)庫之計算能力,也足夠支撐各類系統(tǒng)計算業(yè)務(wù)。但隨著各行業(yè)數(shù)據(jù)越來越多,單機(jī)計算能力上限已經(jīng)被多個行業(yè)的計算軟件“觸頂”。在這種情況下,大數(shù)據(jù)管理模塊技術(shù)開始被人們所關(guān)注,下面分析支持它進(jìn)行計算的細(xì)分技術(shù)。
首先,在大量數(shù)據(jù)儲存方面,HDFS的分布式儲存可以解決數(shù)據(jù)儲存的困難。它可以讓多個主機(jī)對同一任務(wù)進(jìn)行同時計算。那么,它的實現(xiàn)需要周邊便衍生了許多與管理和緩存有關(guān)的技術(shù)。包括:“yarn”技術(shù)可以在程序開發(fā)中幫助人解決資源難資源調(diào)節(jié)難題;“flume”可以幫助解決傳輸數(shù)據(jù)的問題;“sqoop”可以轉(zhuǎn)換分布式儲存數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫之間的數(shù)據(jù);“oozie”可以幫助業(yè)務(wù)程序資源調(diào)節(jié)計算任務(wù);“kafka”則提供了發(fā)布訂閱機(jī)制的消息隊列;“zookeeper”可以有效地幫助用戶快速完成對主備服務(wù)的選擇;“hive”在HDFS的基礎(chǔ)上提供了數(shù)倉的功能?!癶base”基“hdf”來實現(xiàn)一個列式數(shù)據(jù)庫。然后從數(shù)據(jù)處理過程來看,對于數(shù)據(jù)庫計算技術(shù)方面的大數(shù)據(jù)相關(guān)技術(shù)應(yīng)用,是在普通數(shù)據(jù)庫技術(shù)存在和被應(yīng)用基礎(chǔ)上對計算業(yè)務(wù)進(jìn)行邏輯處理的過程。對于單一的業(yè)務(wù)處理,可以通過編寫健壯的代碼進(jìn)行定時的任務(wù)進(jìn)行相應(yīng)數(shù)據(jù)的結(jié)算。若業(yè)務(wù)冗雜,需要定時獲取多種數(shù)據(jù)采集分析,則通過代碼實現(xiàn)各個JOB維護(hù)成本太高。在“Hadoop2.0”完美解決該問題,采用HQL自動生成數(shù)據(jù)的mapreduce任務(wù)基礎(chǔ)上,多個領(lǐng)域的項目實踐過程中,就會出現(xiàn)多個reduce任務(wù)就會被批量刪除掉的情況。因此,Hadoop技術(shù)正在走在被淘汰的路上。那么,Hadoop 現(xiàn)在是一個可以用硬件集群上進(jìn)行大規(guī)模數(shù)據(jù)處理的優(yōu)秀工具,但是若開發(fā)人員需要處理動態(tài)數(shù)據(jù)集、點對點分析多進(jìn)程數(shù)據(jù),那么Google已經(jīng)為我們展示了大大優(yōu)于MapReduce范型的技術(shù)選擇。因此毫無疑問,Percolator、Dremel和Pregel將成為大數(shù)據(jù)技術(shù)未來發(fā)展的主流技術(shù)。
2 支撐大數(shù)據(jù)管理模塊組成的各類技術(shù)詳析
為了能夠更好地架構(gòu)大數(shù)據(jù)項目,技術(shù)人員、項目經(jīng)理、架構(gòu)師等大數(shù)據(jù)管理模塊開發(fā)流程中不同角色人員為了選擇合適的技術(shù),必須了解大數(shù)據(jù)各種技術(shù)之間的關(guān)系,以便選擇合適的語言,實現(xiàn)相應(yīng)的功能。那么,筆者在下面對幾點中提到的大數(shù)據(jù)分支技術(shù)進(jìn)行詳細(xì)分析。
2.1 HDFS技術(shù)
與普通編程語言應(yīng)用編寫系統(tǒng)相比,HDFS主要改革在數(shù)據(jù)儲存形式方面,HDFS即Hadoop是以流式的數(shù)據(jù)查找和提取模式對文件型數(shù)據(jù)進(jìn)行規(guī)模化儲存,而且大數(shù)據(jù)管理模塊應(yīng)用中的數(shù)據(jù)通常是占用內(nèi)存過大的單元數(shù)據(jù),HDFS運行于多個主機(jī)集群中,屬于是管理網(wǎng)絡(luò)中跨多臺及其進(jìn)行數(shù)據(jù)儲存的文件系統(tǒng)支撐基礎(chǔ)。
我們從HDFS技術(shù)應(yīng)用的過程來分析使用數(shù)據(jù)塊的益處:在程序運行過程中,HDFS上的文件會被劃成64MB大的多個分塊,每一個數(shù)據(jù)塊都可以存儲不同的數(shù)據(jù)。文件型數(shù)據(jù)塊不需要儲存在同一個磁盤上,因此它們可以利用集群上的任意一個磁盤實現(xiàn)存儲。所以這從根本上大幅提升了大量數(shù)據(jù)管理的效率。而HDFS技術(shù)也可以提高系統(tǒng)中對數(shù)據(jù)儲存的容錯力。在業(yè)務(wù)處理方面HDFS的優(yōu)點更為明顯:HDFS的應(yīng)用可以做到簡化儲存子系統(tǒng)的設(shè)計,將每個服務(wù)器的儲存子系統(tǒng)控制單元設(shè)置為“塊”,因此可實現(xiàn)簡化儲存管理,用一個單獨的系統(tǒng)就可以管理這些塊的元數(shù)據(jù),這就大幅減輕了服務(wù)器的數(shù)據(jù)管理壓力。
2.2 yarn技術(shù)
Hadoop集群管理員希望能根據(jù)不同的業(yè)務(wù)組或不同的用戶對集群yarn作業(yè)的資源進(jìn)行控制,也就是對yarn的資源池進(jìn)行劃分,達(dá)到資源管控、任務(wù)管控的效果。yarn技術(shù)管理分配資源細(xì)節(jié)如下:yarn默許提供了多種資源分配的策略,用于分配的資源可以是節(jié)點的數(shù)量、內(nèi)存的大小、CPU核數(shù),它主要將MP1中JobTracker的資源管理和作業(yè)資源調(diào)節(jié)兩個功能分散,分別由ResourceManager和ApplicationMaster進(jìn)程來實現(xiàn)管理,以負(fù)責(zé)整個集群的資源管理和資源調(diào)度,并負(fù)責(zé)處理應(yīng)用程序提出的事件,比如調(diào)節(jié)任務(wù)及數(shù)據(jù)資源、監(jiān)視運行任務(wù)情況和出錯信息等,具體作用體現(xiàn)在“模塊提交作業(yè)”“初始化作業(yè)”“分配任務(wù)和運行”“更新模塊運行相關(guān)數(shù)據(jù)”等方面。而Flume可以通過運行可靠的服務(wù)模塊,用于有效地收集和移動日志數(shù)據(jù),使用簡單的可擴(kuò)展數(shù)據(jù)模型,被允許收集日志數(shù)據(jù),導(dǎo)進(jìn)到HDFS中并實現(xiàn)在線分析應(yīng)用程序。因此,HDFS是Hadoop應(yīng)用程序中主要的分布式儲存系統(tǒng)。