宇文富博
摘 要:隨著大數(shù)據(jù)時代的來臨,大數(shù)據(jù)正在以快速有效處理海量數(shù)據(jù)的技術影響著各行各業(yè),其中大數(shù)據(jù)的環(huán)境下高性能計算模型及關鍵技術的研究能夠有效地提高海量大數(shù)據(jù)的索引和處理速度,因此,文章主要針對大數(shù)據(jù)環(huán)境下高性能計算模型及關鍵技術進行了詳細探究和討論。
關鍵詞:大數(shù)據(jù)環(huán)境:高性能計算模型:關鍵技術
中圖分類號:TP3 文獻標志碼:A 文章編號:2095-2945(2017)25-0041-02
大數(shù)據(jù)時代已經(jīng)來臨,大數(shù)據(jù)(big data)是指無法在一定時間范圍內(nèi)用常規(guī)軟件捕捉和處理的數(shù)據(jù)集合,需要新型處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率以及多樣化的信息資產(chǎn)。大數(shù)據(jù)具有5V的特點,分別是Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)以及Veracity(真實性)。
1 大數(shù)據(jù)環(huán)境下高性能計算模型
1.1 數(shù)據(jù)活化理論
數(shù)據(jù)活化理論方面的研究實際上最早起始于上個世紀初葉,現(xiàn)如今,隨著全球信息科學和計算機科學的持續(xù)高速發(fā)展,數(shù)據(jù)活化理論已經(jīng)成為了大數(shù)據(jù)環(huán)境下高性能計算模型中被廣泛應用并投入使用的理論。尤其在隨著全球現(xiàn)代化的高速發(fā)展的趨勢,數(shù)據(jù)活化理論在大數(shù)據(jù)環(huán)境下高性能計算模型中日益顯示出其重要的地位,雖然現(xiàn)如今,在全球經(jīng)濟高速發(fā)展的背景下,各種各樣的基于大數(shù)據(jù)環(huán)境下的高性能計算模型理論層出不窮,例如:走鵑——RoadRuner存儲系統(tǒng)理論、藍色基因Blue Gene/L存儲系統(tǒng)、元數(shù)據(jù)管理理論、分布式多級緩存管理理論、分布式數(shù)據(jù)布局理論等,但數(shù)據(jù)活化理論的地位卻依舊無法撼動[1]。
1.2 數(shù)據(jù)多態(tài)組織索引
在大數(shù)據(jù)環(huán)境下高性能計算模型中,數(shù)據(jù)多態(tài)組織索引是目前最常用的一種索引技術,數(shù)據(jù)多態(tài)組織索引實際上就是基于一種離散目標的索引方式,主要針對的是目標區(qū)域內(nèi)的某一個特定的點集進行搜索,也正是由于數(shù)據(jù)多態(tài)組織索引覆蓋的搜索區(qū)域和范圍非常的廣,所以在數(shù)據(jù)多態(tài)組織索引就具有了網(wǎng)絡能耗大且關注點不突出的缺點。但在大數(shù)據(jù)環(huán)境下高性能計算模型中數(shù)據(jù)多態(tài)組織索引由于可以針對一定區(qū)域內(nèi)的移動的目標進行索引,因而具有了其他索引技術所不具備的優(yōu)勢,在一定范圍內(nèi)目標被搜索到的概率就會有相對的提高。同時,由于數(shù)據(jù)多態(tài)組織索引對于大數(shù)據(jù)環(huán)境中的數(shù)據(jù)質(zhì)量、網(wǎng)絡的連通性、能量的有效性、網(wǎng)絡的容錯性、算法的復雜度、算法的精確度、動態(tài)性和兼容性、網(wǎng)絡的可擴展性、執(zhí)行的復雜程度等各個方面的要求都較低,因而也就成為了大數(shù)據(jù)環(huán)境下高性能計算模型中最實用和方便的一種方式[2]。
1.3 數(shù)據(jù)處理
針對大數(shù)據(jù)環(huán)境下高性能計算模型的特點,想要保證數(shù)據(jù)處理的及時性、完整性以及可靠性,就必須加強大數(shù)據(jù)環(huán)境下高性能計算模型中的數(shù)據(jù)處理技術,通過對大數(shù)據(jù)環(huán)境下高性能計算模型中的所有數(shù)據(jù)的狀態(tài)進行全面的監(jiān)視。依照不同數(shù)據(jù)的信息來源的不同,根據(jù)不同的實際情況,從而通過數(shù)據(jù)采集模塊為大數(shù)據(jù)環(huán)境下高性能計算模型的系統(tǒng)提供原始數(shù)據(jù),數(shù)據(jù)源可以是數(shù)據(jù)的固定信息或者變動信息,也可以是網(wǎng)絡上的數(shù)據(jù)的信息變化等。當數(shù)據(jù)提取模塊獲得數(shù)據(jù)源之后,通過對數(shù)據(jù)源進行簡單的過濾、數(shù)據(jù)格式的標準化等處理,并且將處理后的數(shù)據(jù)存入數(shù)據(jù)庫當中,這個時候大數(shù)據(jù)環(huán)境下高性能計算模型中的分析模塊就會對數(shù)據(jù)庫中的數(shù)據(jù)進行深入分析和分類,從而根據(jù)不同的協(xié)議建立數(shù)據(jù)倉庫,通過對數(shù)據(jù)的挖掘從而發(fā)現(xiàn)基本的時間變化規(guī)則,最終提交給大數(shù)據(jù)環(huán)境下高性能計算模型中的數(shù)據(jù)處理系統(tǒng)生成模塊,對大數(shù)據(jù)環(huán)境下高性能計算模型中可能出現(xiàn)的一切數(shù)據(jù)進行全面的監(jiān)測,一旦監(jiān)測到索引的數(shù)據(jù),就會進行提示,并重復以上步驟。大數(shù)據(jù)環(huán)境下高性能計算模型中的數(shù)據(jù)處理技術在很大程度上,填補了過去傳統(tǒng)動態(tài)解決計算模型中數(shù)據(jù)處理問題上的不足,為大數(shù)據(jù)環(huán)境下高性能計算模型數(shù)據(jù)處理的構(gòu)建提供了有力的方法和手段。
2 大數(shù)據(jù)環(huán)境下高性能計算模型關鍵技術研究
2.1 基于分布式內(nèi)存計算的并行二路空間連接算法
基于分布式內(nèi)存計算的并行二路空間連接算法使大數(shù)據(jù)環(huán)境下高性能計算模型中一項較為常用的算法,最早是由J. Kennedy和R. C. Eberhart等開發(fā)的?;诜植际絻?nèi)存計算的并行二路空間連接算法具有自組織性強以及并行二路空間連接速度快等特點。但由于基于分布式內(nèi)存計算的并行二路空間連接算法,主要是通過隨機解出以迭代的方式尋找出目標的方式,雖然收斂速度、參數(shù)選取、收斂性等許多方面都具有一定的優(yōu)勢,但是由于基于分布式內(nèi)存計算的并行二路空間連接算法的缺點是,比較容易陷入局部的搜尋最優(yōu)解,而基于分布式內(nèi)存計算的并行二路空間連接算法的全面搜索的能力實際上比較的差。因而,基于分布式內(nèi)存計算的并行二路空間連接算法經(jīng)常是通過分為三種狀態(tài),分別是活躍、預休眠以及休眠狀態(tài),對三種狀態(tài)之間的相互切換,可以很好的實現(xiàn)調(diào)度策略,可在很大程度上實現(xiàn)對監(jiān)測范圍內(nèi)進行有效地索引,從而最大限度的延長大數(shù)據(jù)環(huán)境下高性能計算模型生存周期的目的?;诜植际絻?nèi)存計算的并行二路空間連接算法能夠在很大程度上有效的保證數(shù)據(jù)通過索引模塊對數(shù)據(jù)的索引,從而為大數(shù)據(jù)環(huán)境下高性能計算模型提供更高的可靠性,非常有效的避免了大數(shù)據(jù)環(huán)境下高性能計算模型中可能出現(xiàn)的盲區(qū)或者是索引數(shù)據(jù)冗余等情況的出現(xiàn)。而基于分布式內(nèi)存計算的并行二路空間連接算法實際上是對于數(shù)據(jù)索引和處理模式進行并行的索引和處理方式,索引通過模式索引后的數(shù)據(jù),必須要與索引之前的原模式等價,雖然這會在很大程度上有效的避免過多數(shù)據(jù)搜索冗余的情況,并且能夠通過減少索引目標的能量消耗,非常有效和全面的提高索引的利用率。但基于分布式內(nèi)存計算的并行二路空間連接算法實際上將每個不同的數(shù)據(jù),都看作是在一定維度搜索范圍中的一個數(shù)據(jù),并在搜索范圍內(nèi)以一定的并行速度進行搜索,這就必然使得在數(shù)據(jù)處理某些優(yōu)化的問題時,往往會出現(xiàn)過早收斂的情況,所以基于分布式內(nèi)存計算的并行二路空間連接算法在一定程度上還需要進一步的優(yōu)化[3]。endprint
2.2 基于分布式內(nèi)存計算的并行多路空間連接算法
基于分布式內(nèi)存計算的并行多路空間連接算法由于通過采用并行多路的空間連接方式,因此在面對海量的大數(shù)據(jù)的情況下,能夠比基于分布式內(nèi)存計算的并行二路空間連接算法有更大的優(yōu)化,但毫無疑問,基于分布式內(nèi)存計算的并行多路空間連接算法比基于分布式內(nèi)存計算的并行二路空間連接算法在能源消耗的問題上更加嚴重,如何能夠通過降低能源的消耗,從而實現(xiàn)延長大數(shù)據(jù)環(huán)境下高性能計算模型的壽命,這已經(jīng)成為了當前基于分布式內(nèi)存計算的并行多路空間連接算法需要考慮的重要課題。一般來說,基于分布式內(nèi)存計算的并行多路空間連接算法多是通過充分考慮到了所有數(shù)據(jù)范圍內(nèi)可能出現(xiàn)的能量消耗的均衡性,以數(shù)據(jù)的位置信息為依據(jù)的層次進行的一種拓撲控制算法,從而根據(jù)目標數(shù)據(jù)的感知半徑,將目標范圍分別劃分為等大小的多個網(wǎng)格,并通過讓數(shù)據(jù)索引模塊盡量處于休眠的狀態(tài),保證每個網(wǎng)格中只有簇頭數(shù)據(jù)保持活躍。當進入索引狀態(tài)時候,基于分布式內(nèi)存計算的并行多路空間連接算法就會通過一個數(shù)據(jù)代替另一個數(shù)據(jù)進行替換的方式,從而可以得知某一個數(shù)據(jù)點,以及其他數(shù)據(jù)點的精確位置,從而實現(xiàn)兩個相鄰的網(wǎng)格內(nèi)的數(shù)據(jù),或者所有網(wǎng)格內(nèi)的數(shù)據(jù)索引和處理的方式,在這種情況下,所有的數(shù)據(jù)在網(wǎng)格當中都相當于是等價的存在,通過等價數(shù)據(jù)的確定,可以提高單簇的索引面積和單跳的索引面積,在很大程度上,有效的避免了個別簇頭數(shù)據(jù)因其過多參與到數(shù)據(jù)的替換過程中而消耗能量的方式??梢哉f這是目前,基于分布式內(nèi)存計算的并行多路空間連接算法能夠減少能源消耗,延長大數(shù)據(jù)環(huán)境下高性能計算模型唯一方法[4]。
3 結(jié)束語
大數(shù)據(jù)的環(huán)境下高性能計算模型及關鍵技術的研究因其能夠不斷提升對海量數(shù)據(jù)的采集、處理、傳輸、存儲的方式和方法,在索引和處理的過程中有效的保證數(shù)據(jù)的完整性和及時性,避免大數(shù)據(jù)環(huán)境下數(shù)據(jù)索引、采集、處理等過程中可能出現(xiàn)的各種數(shù)據(jù)丟失或數(shù)據(jù)溢出等情況的發(fā)生,因此,關于大數(shù)據(jù)環(huán)境下,高性能計算模型及關鍵技術的研究具有非常重要的積極意義。
參考文獻:
[1]李國杰,程學旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領域——大數(shù)據(jù)的研究現(xiàn)狀與科學思考機[J].中國科學院院刊,
2015,27(6):647-657.
[2]陳國良,毛 ,蔡嘩.高性能計算及其相關新興技術[J].深圳大學學報(理工版),2014(11):124-125.
[3]陳國良,孫廣中,徐玄,等.并行計算的一體化研究現(xiàn)狀與發(fā)展趨勢[J].科學通報,2016(3):1143-1147.
[4]沈盛或,劉哲,張平倉,等.一種適用于云計算可擴展高分辨率遙感影像存儲組織結(jié)構(gòu)[J].長江科學院院報,2014,31(12):107-112.endprint