歐衛(wèi)紅 楊永琴 李家華
(廣州科技職業(yè)技術(shù)大學(xué),廣東 廣州 510550)
近年來,信息技術(shù)的發(fā)展日新月異,人們的一舉一動(dòng)都在被數(shù)字化,人們逐漸從信息匱乏的時(shí)代走入了信息充裕的時(shí)代。信息的社會(huì)地位也在不斷上升,現(xiàn)已成為人們生產(chǎn)、生活中不可缺少的重要資源。可以毫不夸張地說“誰掌握了信息技術(shù)的話語權(quán),誰就掌握了未來”。而數(shù)據(jù)作為信息的主要來源和原始材料,迅速成為信息技術(shù)科學(xué)中的一個(gè)熱點(diǎn),數(shù)據(jù)也成為一種新的自然資源[1]。在大千世界中各種活動(dòng)產(chǎn)生著大量的數(shù)據(jù),我們稱之為大數(shù)據(jù)。[2,3]據(jù)統(tǒng)計(jì)每年產(chǎn)生的數(shù)據(jù)量正在逐年增長(zhǎng),而且根據(jù)數(shù)據(jù)顯示該增長(zhǎng)趨勢(shì)依舊處于加速狀態(tài),預(yù)估近幾年數(shù)據(jù)量的增長(zhǎng)速度將超過50%。[4]大數(shù)據(jù)其表現(xiàn)形式各樣,結(jié)構(gòu)復(fù)雜,但蘊(yùn)含了各種豐富的信息,且具有廣泛的應(yīng)用潛質(zhì)。當(dāng)今世界國(guó)際一體化加快形成,“互聯(lián)網(wǎng)+”快速推進(jìn),各種技術(shù)不斷成熟,因而又促進(jìn)了信息處理技術(shù)快速發(fā)展。信息論告訴我們數(shù)據(jù)中包含了知識(shí)、客觀存在的規(guī)律等異常珍貴的財(cái)富和資源。計(jì)算機(jī)科學(xué)技術(shù)的快速發(fā)展為信息處理提供了一個(gè)理想的工作平臺(tái),并逐步形成了分布式處理、知識(shí)識(shí)別及表達(dá)、數(shù)據(jù)挖掘、邊界處理等新的學(xué)科領(lǐng)域。
現(xiàn)階段各研究機(jī)構(gòu)和相關(guān)企業(yè)都在轉(zhuǎn)變模式,利用大數(shù)據(jù)分析處理來解決自身關(guān)注的問題及提升業(yè)務(wù)的處理能力。例如:在醫(yī)學(xué)應(yīng)用方面,利用新的信息技術(shù)獲取大量數(shù)據(jù)(圖形、圖像、文字、行為過程等),來研究疾病的發(fā)病機(jī)理及治療的方法;在圖像處理方面,利用新的信息技術(shù)獲取大量數(shù)據(jù),實(shí)現(xiàn)人臉識(shí)別技術(shù)。在企業(yè)中,人們利用各種渠道獲取用戶的大量數(shù)據(jù),利用大數(shù)據(jù)挖掘出用戶的愛好、需求趨勢(shì)、行為習(xí)慣等,從而調(diào)整自身的生產(chǎn)、銷售、庫存等以實(shí)現(xiàn)更大的效益。在國(guó)內(nèi),近年來大數(shù)據(jù)技術(shù)在各方的合力下發(fā)展非常迅速。2016年,國(guó)家工信部發(fā)布了《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020年)》。2017年12月,中共中央政治局就實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略進(jìn)行第二次集體學(xué)習(xí),習(xí)近平主席發(fā)表重要講話?!笆糯蟆钡恼ぷ鲌?bào)告中明確提出云計(jì)算、大數(shù)據(jù)成為“十四五”重點(diǎn)發(fā)展的技術(shù)領(lǐng)域。
大數(shù)據(jù)的高效處理需要強(qiáng)有力的基礎(chǔ)計(jì)算力,目前有兩種方式來提高計(jì)算力,一種是利用超級(jí)計(jì)算機(jī)處理大數(shù)據(jù),這種方式投入大,一般應(yīng)用于科學(xué)研究的數(shù)據(jù)處理;另一種是利用云計(jì)算平臺(tái)來處理大數(shù)據(jù),云計(jì)算具有超大規(guī)模、處理速度快、虛擬化、高可靠性、通用性、高可擴(kuò)展性、性價(jià)比高等特點(diǎn),它為大數(shù)據(jù)高效處理提供了一個(gè)理想的解決方案。
云計(jì)算技術(shù)[5,6]就是分布式計(jì)算的一種具體實(shí)現(xiàn),它是分布式計(jì)算、網(wǎng)格計(jì)算、負(fù)載均衡、并行計(jì)算、網(wǎng)絡(luò)存儲(chǔ)、熱備份冗雜和虛擬化等技術(shù)混合演進(jìn)并躍升的結(jié)果。云計(jì)算技術(shù)的出現(xiàn)給大數(shù)據(jù)高效處理提供了一個(gè)理想的解決方案。云計(jì)算它提供一種“按需分配”的可擴(kuò)展的計(jì)算服務(wù),提供強(qiáng)大的存儲(chǔ)能力和計(jì)算能力。[7]目前云計(jì)算技術(shù)得到了快速發(fā)展,2019年,以IaaS、PaaS和SaaS為代表的全球云計(jì)算市場(chǎng)規(guī)模達(dá)到1883億美元,增速20.86%,預(yù)計(jì)未來幾年將以每年20%左右的增長(zhǎng)率快速增長(zhǎng)[8]。各種跡象表明云計(jì)算的研究與開發(fā)在未來的若干年還將持續(xù)升溫,引領(lǐng)著計(jì)算機(jī)技術(shù)飛速發(fā)展。[9]這反映出人們從傳統(tǒng)的IT服務(wù)向云端服務(wù)的轉(zhuǎn)變,逐漸將業(yè)務(wù)趨向于數(shù)字化戰(zhàn)略,云計(jì)算理所當(dāng)然成為承載大數(shù)據(jù)處理的首選基礎(chǔ)平臺(tái)。
如何更有效地在云平臺(tái)下實(shí)現(xiàn)高效處理大數(shù)據(jù),可從以下幾個(gè)方面進(jìn)行分析:
實(shí)現(xiàn)高效的并行計(jì)算的關(guān)鍵點(diǎn)就是任務(wù)和虛擬機(jī)的調(diào)度問題,好的調(diào)度算法可大幅度提高資源利用率和處理數(shù)據(jù)的效率。云平臺(tái)在提供服務(wù)時(shí),其物理節(jié)點(diǎn)的資源消耗是動(dòng)態(tài)調(diào)整的,調(diào)度時(shí)不能保證每次新的任務(wù)都能及時(shí)部署到最優(yōu)剩余資源量的節(jié)點(diǎn)上。在實(shí)際的應(yīng)用過程中,用戶每次新的任務(wù)都是隨機(jī)地部署到一個(gè)物理節(jié)點(diǎn)上,如果提交的任務(wù)資源需求量比選取的物理節(jié)點(diǎn)的可用資源數(shù)更大,就會(huì)發(fā)生任務(wù)部署失敗的事件,影響處理效率。另一種情況,如果提交的任務(wù)資源需求量剛好與選取的物理節(jié)點(diǎn)的可用資源數(shù)相近,雖然能正常部署,但是其物理節(jié)點(diǎn)的負(fù)荷太高,其處理效率也不會(huì)高。我們改變一下任務(wù)的部署策略,每次都將任務(wù)部署到最空閑的物理節(jié)點(diǎn)上,這樣是可以得到最好的執(zhí)行效率,但大多數(shù)物理節(jié)點(diǎn)的利用率就會(huì)非常低,造成了大量的資源浪費(fèi)。因此,不同的任務(wù)部署方式和不同的系統(tǒng)負(fù)載分布情況,直接決定云平臺(tái)的處理效率和服務(wù)能力。因此,大數(shù)據(jù)要在云平臺(tái)上進(jìn)行高效處理,云平臺(tái)需要有相匹配的最佳虛擬機(jī)及任務(wù)部署方法,提高平臺(tái)的負(fù)載均衡能力,提高云計(jì)算平臺(tái)處理大數(shù)據(jù)的效率。圖1給出了任務(wù)在IAAS云平臺(tái)的部署過程。
圖1 任務(wù)在IAAS云平臺(tái)的部署
綜上所述,如何合理地進(jìn)行任務(wù)和虛擬機(jī)的調(diào)度以實(shí)現(xiàn)整個(gè)云平臺(tái)的負(fù)載均衡是影響云平臺(tái)下大數(shù)據(jù)處理效率的第一個(gè)主要因素。
數(shù)據(jù)存儲(chǔ)技術(shù)一直對(duì)數(shù)據(jù)處理效率影響較大,選擇不同的數(shù)據(jù)存儲(chǔ)方式其數(shù)據(jù)處理效率有非常大的差異。如今,主要的網(wǎng)絡(luò)存儲(chǔ)解決方案有以下三種[10]:直連存儲(chǔ)DAS(Direct Attached Storage),聯(lián)網(wǎng)存儲(chǔ)NAS(Network Attached Storage),存儲(chǔ)區(qū)域網(wǎng)絡(luò)SAN(Storage Area Network)。目前,在實(shí)際應(yīng)用中使用比較多的是SAN,存儲(chǔ)區(qū)域網(wǎng)絡(luò)SAN[11]是獨(dú)立于服務(wù)器網(wǎng)絡(luò)系統(tǒng)之外的高速存儲(chǔ)網(wǎng)絡(luò),網(wǎng)絡(luò)上的應(yīng)用服務(wù)器可以共享所有的存儲(chǔ)設(shè)備,它一般采用FC(Fiber Channel,光通道)和SCSI(Small Computer System Interface,小型計(jì)算機(jī)系統(tǒng)接口)作為存儲(chǔ)訪問協(xié)議,并通過專用的交換機(jī)等設(shè)備組成高速可靠的網(wǎng)絡(luò),使存儲(chǔ)子系統(tǒng)網(wǎng)絡(luò)化,實(shí)現(xiàn)真正高速共享存儲(chǔ)的目標(biāo)[12]。圖2是三種網(wǎng)絡(luò)存儲(chǔ)結(jié)構(gòu)圖。
圖2 三種網(wǎng)絡(luò)存儲(chǔ)結(jié)構(gòu)圖
在云平臺(tái)下一般資源都是分布式的,數(shù)據(jù)的存放也是分布式的。如何整合存儲(chǔ)在網(wǎng)絡(luò)上分布式的不同類型的數(shù)據(jù),提高其存儲(chǔ)空間利用率,并提供簡(jiǎn)單、高效、智能的管理方式,降低運(yùn)行成本是當(dāng)前云平臺(tái)下存儲(chǔ)技術(shù)要急需解決的問題。
虛擬存儲(chǔ)技術(shù)的出現(xiàn)為云平臺(tái)提供了一個(gè)最佳的存儲(chǔ)解決方案。虛擬存儲(chǔ)技術(shù)將所有的存儲(chǔ)資源在邏輯上映射為一個(gè)整體,屏蔽了單個(gè)存儲(chǔ)設(shè)備的容量、速度等物理特性,向用戶呈現(xiàn)單一透明的存儲(chǔ)視圖。[13,14]虛擬存儲(chǔ)(Storage Virtualization)是邏輯存儲(chǔ),它管理存儲(chǔ)數(shù)據(jù)的方式比較智能化。[15]其結(jié)構(gòu)如圖3所示。
圖3 虛擬存儲(chǔ)結(jié)構(gòu)及分類
從存儲(chǔ)虛擬化的實(shí)現(xiàn)原理來看,存儲(chǔ)虛擬化又分為帶內(nèi)和帶外兩種。[16]其虛擬化方式可分為三類:基于主機(jī)及服務(wù)器的虛擬化、基于網(wǎng)絡(luò)的虛擬化、基于存儲(chǔ)設(shè)備及存儲(chǔ)子系統(tǒng)的虛擬化。[17,18]他們各有優(yōu)缺點(diǎn):基于主機(jī)及服務(wù)器的虛擬化具有較高的穩(wěn)定性,但不便于擴(kuò)展,受限于主機(jī)自身的資源,也會(huì)導(dǎo)致主機(jī)性能下降?;诖鎯?chǔ)設(shè)備及存儲(chǔ)子系統(tǒng)的虛擬化具有獨(dú)立性,節(jié)省主機(jī)的資源,擴(kuò)展性也不錯(cuò),但存在兼容性問題,不同廠商的設(shè)備可能無法互聯(lián)互通。基于網(wǎng)絡(luò)的虛擬化存儲(chǔ)系統(tǒng),從形式上是分布式的,是把網(wǎng)絡(luò)上的存儲(chǔ)設(shè)備或存儲(chǔ)系統(tǒng)進(jìn)行整合并抽象成統(tǒng)一的存儲(chǔ)池,可以為用戶提供按需分配的服務(wù),它具有以下優(yōu)點(diǎn):結(jié)構(gòu)上簡(jiǎn)化了存儲(chǔ)架構(gòu)、實(shí)行集中存儲(chǔ)管理;存儲(chǔ)資源是按需分配的、并且可以動(dòng)態(tài)調(diào)整,實(shí)現(xiàn)跨存儲(chǔ)平臺(tái)分級(jí)存儲(chǔ),業(yè)務(wù)處理不受物理存儲(chǔ)設(shè)備的變化影響,同時(shí)解決了不同廠商的設(shè)備的兼容性問題,也有效降低了存儲(chǔ)成本。
因此,在云平臺(tái)上處理大數(shù)據(jù)時(shí),選擇什么樣的存儲(chǔ)結(jié)構(gòu)是提高大數(shù)據(jù)處理效率的又一個(gè)主要因素。當(dāng)然,影響在云平臺(tái)上處理大數(shù)據(jù)的處理效率的因素還很多,本文只是拋磚引玉,現(xiàn)在已經(jīng)有更多的學(xué)者去分析解決相關(guān)問題。
如何提升云平臺(tái)下大數(shù)據(jù)處理效率,本文提出了一種啟迪式的感應(yīng)負(fù)載均衡方法來優(yōu)化任務(wù)和虛擬機(jī)的調(diào)度,從而提高云平臺(tái)處理大數(shù)據(jù)的效率。
負(fù)載均衡的調(diào)度算法一般被分成兩類:動(dòng)態(tài)負(fù)載均衡算法和靜態(tài)負(fù)載均衡算法。[19]經(jīng)典的靜態(tài)負(fù)載均衡調(diào)度算法有:輪詢調(diào)度(RR算法)算法、權(quán)重輪詢均衡(WRR算法)算法、最小連接數(shù)法(LC算法)算法、加權(quán)最小連接調(diào)度算法(WLC算法)等等。靜態(tài)負(fù)載均衡算法相對(duì)簡(jiǎn)單,它主要是根據(jù)系統(tǒng)中一些靜態(tài)信息進(jìn)行任務(wù)調(diào)度和分配,實(shí)現(xiàn)起來也比較容易,但它不能實(shí)時(shí)動(dòng)態(tài)反映云平臺(tái)中各種資源的變化情況,而且當(dāng)規(guī)模迅速擴(kuò)大后存儲(chǔ)這些靜態(tài)信息的量也快速增長(zhǎng),其調(diào)度效率快速下降,使用靜態(tài)負(fù)載均衡算法就更顯得力不從心。因此,它不能很好滿足云平臺(tái)高效處理大數(shù)據(jù)的需求。
大數(shù)據(jù)處理的問題一般是規(guī)模比較大的,問題的復(fù)雜度也是比較高的,當(dāng)我們處理問題的規(guī)模擴(kuò)大后解決問題的時(shí)間復(fù)雜度就會(huì)快速增長(zhǎng),處理大數(shù)據(jù)的平臺(tái)的復(fù)雜度也會(huì)快速增長(zhǎng)。人們?cè)诜治鎏幚磉@類規(guī)模大復(fù)雜度高的問題時(shí)一般會(huì)采用P類問題和NP類問題來抽象。動(dòng)態(tài)負(fù)載均衡調(diào)度算法[20]就是最典型的NP完全組合及優(yōu)化問題,在一大批解決問題的方法中求最優(yōu)值。在實(shí)際的生產(chǎn)和生活中,一般會(huì)借助于組合數(shù)學(xué)、擬陣和廣義擬陣以及圖論等理論,用直觀算法、近似算法來解決組合最優(yōu)化的問題?;谶@些理論,提出了一大批實(shí)用高效的算法;如VMware就采用了分布式的資源調(diào)度算法(DRS算法),[21]DRS對(duì)資源的分配方式有兩種:第一種是將虛擬機(jī)遷移到另外一臺(tái)具有更多合適資源的服務(wù)器上,第二種是將該服務(wù)器上其他的虛擬機(jī)遷移出去,從而為該虛擬機(jī)騰出更多的“空間”。DRS減少了虛擬機(jī)停機(jī)時(shí)間,保持業(yè)務(wù)的持續(xù)性和穩(wěn)定性,提高了處理效率,減少了需要運(yùn)行服務(wù)器的數(shù)量以及動(dòng)態(tài)地切斷當(dāng)前不需要使用的服務(wù)器的電源,提高了能源的利用率。文獻(xiàn)[22]中提出了基于網(wǎng)絡(luò)感知的虛擬機(jī)放置方法,這個(gè)方法提高了云計(jì)算平臺(tái)環(huán)境下虛擬機(jī)資源利用率以及數(shù)據(jù)密集型程序的運(yùn)行效率,使其數(shù)據(jù)訪問時(shí)間最小,并且當(dāng)該虛擬機(jī)的數(shù)據(jù)訪問時(shí)間不能滿足要求時(shí),運(yùn)用概率統(tǒng)計(jì)知識(shí),將它遷移到其它物理服務(wù)器上。文獻(xiàn)[23]提出了基于虛擬機(jī)網(wǎng)絡(luò)親和度的動(dòng)態(tài)調(diào)度策略,它主要是通過監(jiān)控成對(duì)虛擬機(jī)間的網(wǎng)絡(luò)親和度,再結(jié)合分布式交換算法來動(dòng)態(tài)地調(diào)整虛擬機(jī)的遷移和放置,使通信的開銷最小化,從而實(shí)現(xiàn)負(fù)載均衡,提高處理效率。還有基于靜態(tài)和動(dòng)態(tài)相結(jié)合的調(diào)度策略,基于改進(jìn)遺傳算法和帕累托最優(yōu)化理論的啟發(fā)式自適應(yīng)多目標(biāo)優(yōu)化算法[24],都從不同角度很好地解決了目前任務(wù)和虛擬機(jī)調(diào)度的效率問題。結(jié)合上述的分析,本文提出一種基于長(zhǎng)期的工作過程的云計(jì)算平臺(tái)下啟迪式的感應(yīng)負(fù)載均衡方法E-LBI(Enlightening Load Balancing Method of Induction)來優(yōu)化在云計(jì)算平臺(tái)下處理大數(shù)據(jù)的效率。
E-LBI是從云平臺(tái)的長(zhǎng)期運(yùn)行維護(hù)的角度出發(fā)的,其主要的思想是將聚類思想與貝葉斯理論相結(jié)合,認(rèn)為當(dāng)集群中的所有物理主機(jī)的剩余負(fù)載率趨于相近時(shí)能反映出云平臺(tái)的負(fù)載均衡情況,利用聚類思想將主機(jī)動(dòng)態(tài)分成剩余負(fù)載率低、中、高等集合。其任務(wù)部署問題可以形式化如下:有m個(gè)任務(wù)在Δt時(shí)間內(nèi)到達(dá)云平臺(tái),需要把它們分配到由n臺(tái)物理服務(wù)器組成的云平臺(tái)上運(yùn)行著的虛擬機(jī)上。我們用一個(gè)m維解向量P(p1,p2,……,pm)來表示一個(gè)任務(wù)部署的解決方案,pi代表將要執(zhí)行某個(gè)任務(wù)請(qǐng)求i的目的物理服務(wù)器。通過向量P來確定某個(gè)任務(wù)將會(huì)被部署到哪個(gè)物理服務(wù)器中。E-LBI方法就是利用它的算法機(jī)制以解向量P的形式解出最終部署策略。我們從六個(gè)方面來描述它,用一個(gè)六元組γ={SV,TC,Rc,Rm,Dc,Dm}來描述要求解的問題,其中SV表示n個(gè)可用物理主機(jī)的集合,SV(n,t)={sv1,sv2,...,svm},t表示任務(wù)部署的初始時(shí)間。TC(m,Δt,t)={tc1,tc2,...,tcm}表示在一個(gè)Δt時(shí)間內(nèi)所有的請(qǐng)求集合。Rc表示SV中各物理服務(wù)器的CPU所剩余的資源量,Rc(n,t)={Rc1,Rc2,...,Rcn}。Rm表示SV中各物理服務(wù)器的可用內(nèi)存資源量,Rm(m,t)={Rm1,Rm2,...,Rmm}。Dc表示TC中m個(gè)任務(wù)請(qǐng)求的CPU計(jì)算資源需求量,Dc(m,t)={Dc1,Dc2,...,Dcn}。Dm(m,t)={Dm1,Dm2,...,Dmm}是TC中m個(gè)任務(wù)請(qǐng)求的內(nèi)存資源需求量。
第i物理服務(wù)器的剩余資源量Ri可以定義如下:
α表示計(jì)算資源CPU的權(quán)重,β表示存儲(chǔ)資源內(nèi)存的權(quán)重。
任務(wù)集合的性能約束值可以被定義為TC中最大的資源請(qǐng)求量,其公式表達(dá)為:
第i個(gè)任務(wù)的請(qǐng)求資源量可定義如下:
E-LBI方法通過計(jì)算所有主機(jī)的剩余負(fù)載率的標(biāo)準(zhǔn)差來評(píng)價(jià)負(fù)載均衡程度,其期望和標(biāo)準(zhǔn)差表示如下:
第i個(gè)物理服務(wù)器的剩余負(fù)載率公式如下:
Ti表示第i個(gè)物理服務(wù)器的資源總量,其公式表達(dá)為:
代表第i個(gè)物理服務(wù)器的總CPU資源,代表第i個(gè)物理服務(wù)器的總內(nèi)存資源。E-LBI方法認(rèn)為每個(gè)主機(jī)的剩余負(fù)載率Ei盡可能相近的情形可以反映一個(gè)云計(jì)算平臺(tái)的負(fù)載均衡程度,通過上面的公式,優(yōu)化目標(biāo)可以得到以下公式:
E-LBI方法不是直接應(yīng)用公式(9)去優(yōu)化目標(biāo),而是從云平臺(tái)長(zhǎng)期運(yùn)營(yíng)的角度來設(shè)計(jì)一個(gè)框架和過程式的方法集,從而實(shí)現(xiàn)更好的負(fù)載均衡效果。在E-LBI中,將剩余資源量比約束值大的物理服務(wù)器組成一個(gè)具有nˊ個(gè)物理服務(wù)器的新集合NSV,該集合中的物理服務(wù)器成為任務(wù)分配的最優(yōu)候選集,再利用聚類的思想把物理服務(wù)器之間的相似度與給定的閾值進(jìn)行比較從NSV集合中找出最優(yōu)類簇組成最后的物理服務(wù)器最優(yōu)候選集。
相似度函數(shù)定義如下:
和表示物理服務(wù)器i和物理服務(wù)器j的第k個(gè)屬性。
物理服務(wù)器i的后驗(yàn)概率P(Bi|A)公式如下:
采用E-LBI進(jìn)行虛擬機(jī)和任務(wù)部署時(shí)有如下幾個(gè)步驟:第一步,通過動(dòng)態(tài)監(jiān)測(cè)選出剩余資源比當(dāng)前提交的任務(wù)的最大資源需求更大的一批主機(jī)構(gòu)成一個(gè)候選集群。第二步,先確定集合中每一臺(tái)物理主機(jī)的先驗(yàn)概率,再通過貝葉斯理論計(jì)算出每一臺(tái)物理主機(jī)后驗(yàn)概率,最后找出具有最大后驗(yàn)概率的主機(jī),同時(shí)結(jié)合物理主機(jī)的計(jì)算資源和內(nèi)存資源量,利用這三個(gè)值來計(jì)算其它所有主機(jī)與最大后驗(yàn)概率主機(jī)的相似度。第三步,確定相似度閾值,把相似度值在閾值內(nèi)的主機(jī)構(gòu)成一個(gè)最優(yōu)物理主機(jī)集合。第四步,部署任務(wù)到最優(yōu)物理主機(jī)集合中的物理主機(jī)上來執(zhí)行。圖4描述了E-LBI任務(wù)部署過程。
圖4 E-LBI任務(wù)部署過程
我們采用CloudSim模擬器[25]對(duì)E-LBI啟迪式的感應(yīng)負(fù)載均衡方法、DLB動(dòng)態(tài)負(fù)載均衡方法、RD隨機(jī)部署方法進(jìn)行驗(yàn)證和評(píng)估,分別從最大完成時(shí)間、衡量負(fù)載均衡效果的標(biāo)準(zhǔn)差值、任務(wù)部署事件的失敗次數(shù)進(jìn)行比較。在CloudSim模擬器中創(chuàng)建一個(gè)模擬云平臺(tái),該平臺(tái)由100臺(tái)物理服務(wù)器組成。模擬有30批任務(wù)同時(shí)請(qǐng)求,而且每批任務(wù)又有50個(gè)不同資源需求的子任務(wù)連續(xù)到達(dá)平臺(tái)。
在實(shí)驗(yàn)中E-LBI、DLB、RD的最大完成時(shí)間的對(duì)比圖如圖5所示:RD方法是隨機(jī)地將任務(wù)部署到主機(jī)上的,隨著任務(wù)數(shù)量增加系統(tǒng)的性能下降比較快,因此任務(wù)的執(zhí)行時(shí)間增長(zhǎng)也較快。DLB方法是基于歷史數(shù)據(jù)與經(jīng)驗(yàn)再加上知識(shí)庫來預(yù)測(cè)將要到來的任務(wù)需求,通過計(jì)算系統(tǒng)負(fù)載均衡的收益值來進(jìn)行任務(wù)部署,隨著任務(wù)數(shù)量增加各物理服務(wù)器之間的通信開銷快速增加,從而降低物理服務(wù)器處理性能,因此任務(wù)的執(zhí)行時(shí)間也隨之增加,但比RD方法要小。E-LBI方法經(jīng)過多次迭代會(huì)選擇最優(yōu)物理服務(wù)器集合來部署和處理任務(wù),減少了大量的通信開銷,物理服務(wù)器的性能得到最大程度的發(fā)揮,處理時(shí)間也會(huì)隨著任務(wù)數(shù)量增加而加大,但在相同條件下,E-LBI的處理時(shí)間更小。
圖5 E-LBI、DLB、RD的最大完成時(shí)間比較
在實(shí)驗(yàn)中E-LBI、DLB、RD的負(fù)載均衡效果的標(biāo)準(zhǔn)差值對(duì)比圖如圖6所示:RD方法的標(biāo)準(zhǔn)差一直是最大的;DLB與E-LBI方法的標(biāo)準(zhǔn)差隨著時(shí)間的推移逐漸減少,其速度更快一些;E-LBI方法隨著時(shí)間的加長(zhǎng)標(biāo)準(zhǔn)差減少比DLB更快。顯然,標(biāo)準(zhǔn)差值越小表示云平臺(tái)負(fù)載越均衡。
圖6 E-LBI、DLB、RD的負(fù)載均衡效果的標(biāo)準(zhǔn)差比較
在實(shí)驗(yàn)中E-LBI、DLB、RD任務(wù)部署事件的失敗次數(shù)進(jìn)行比較如圖7所示:RD方法和DLB方法隨著任務(wù)的增加,其部署任務(wù)失敗的次數(shù)越多,E-LBI相對(duì)增長(zhǎng)緩慢一些。
圖7 任務(wù)部署事件失敗數(shù)量的比較
通過應(yīng)用E-LBI方法進(jìn)行虛擬機(jī)的調(diào)度及任務(wù)部署,減少了任務(wù)部署失敗次數(shù),實(shí)現(xiàn)了更好的云平臺(tái)負(fù)載均衡效果,特別是在部署大規(guī)模而且連續(xù)任務(wù)請(qǐng)求時(shí),它的表現(xiàn)更為優(yōu)秀,它提高了云平臺(tái)處理大數(shù)據(jù)的效率。
數(shù)據(jù)已成為當(dāng)今社會(huì)的重要資源,為了更好更高效地處理大數(shù)據(jù),人們還在不斷地尋找新途徑和新方法。IAAS云計(jì)算平臺(tái)正在成為社會(huì)的基礎(chǔ)設(shè)施,是信息處理的基礎(chǔ),它提供了一個(gè)“按需分配”的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)資源池,為大數(shù)據(jù)處理提供強(qiáng)大的支持。云計(jì)算平臺(tái)和大數(shù)據(jù)處理都是一個(gè)復(fù)雜的大系統(tǒng),它們之間如何更好地結(jié)合,如何提高云計(jì)算平臺(tái)下大數(shù)據(jù)處理效率,本文只作了簡(jiǎn)單的分析及優(yōu)化,并提出一種云計(jì)算平臺(tái)下啟迪式的感應(yīng)負(fù)載均衡方法E-LBI,下一步仍將繼續(xù)優(yōu)化完善。