葉 進(jìn),謝紫琪,肖慶宇,宋 玲,李曉歡
1.廣西多媒體通信與網(wǎng)絡(luò)技術(shù)重點(diǎn)實(shí)驗(yàn)室(廣西大學(xué)計算機(jī)與電子信息學(xué)院),南寧 530004
2.桂林電子科技大學(xué)信息與通信學(xué)院,廣西桂林 541004
3.綜合交通大數(shù)據(jù)應(yīng)用技術(shù)國家工程實(shí)驗(yàn)室(廣西),南寧 530001
目前,社交網(wǎng)絡(luò)和網(wǎng)頁搜索等大規(guī)模網(wǎng)絡(luò)應(yīng)用部署在數(shù)據(jù)中心,產(chǎn)生大量異構(gòu)任務(wù)流。網(wǎng)絡(luò)測量數(shù)據(jù)表明,數(shù)據(jù)中心中任務(wù)流數(shù)據(jù)傳輸延時實(shí)際占應(yīng)用完成時間的70%[1-2]。如何設(shè)計高效的混合任務(wù)流調(diào)度方法已經(jīng)成為了提升數(shù)據(jù)中心應(yīng)用性能的關(guān)鍵。
在數(shù)據(jù)中心分布式計算模式下,一個任務(wù)所傳輸?shù)乃辛鲬?yīng)該被當(dāng)作一個整體來實(shí)施調(diào)度。根據(jù)應(yīng)用的語義,同一個任務(wù)內(nèi)流的聚合為一個流簇(Coflow)[3]。從設(shè)計角度考慮,流簇調(diào)度器需要感知應(yīng)用級的需求和特征,優(yōu)化網(wǎng)絡(luò)的利用率以加速任務(wù)的傳輸。
在信息未知的流簇調(diào)度設(shè)計中,調(diào)度器缺乏流簇大小的先驗(yàn)知識,而是采用推理機(jī)制來獲取任務(wù)信息,但流簇大小推理的精確度會極大地影響流簇調(diào)度的效率。例如,D-CLAS(discretized coflow-aware least-attained service)[4]通過統(tǒng)計已傳輸字節(jié)數(shù)推斷流簇的大小。但這種被動的方法只有當(dāng)傳輸開始一段時間后才能檢測出流簇的字節(jié)數(shù),而此時較小的流簇很可能已經(jīng)被較大的流簇阻塞,導(dǎo)致了較大的平均任務(wù)完成時間。MCS(multiple-attributes-based Coflow scheduling)[5]在D-CLAS 的基礎(chǔ)上進(jìn)行了改進(jìn),引入了流簇寬度(流簇內(nèi)包含的子流數(shù))和流簇長度(流簇內(nèi)子流中最長子流的字節(jié)數(shù))兩個特征,通過貝葉斯概率算法推理流簇的大小。然而,在分布式計算模式下調(diào)度器很難快速準(zhǔn)確感知MCS 的方法所依賴的流簇寬度信息。此外,目前設(shè)計的流簇大小推理方法僅針對于其分析的數(shù)據(jù)集,沒有一種能廣泛適用的推理模型建模方法。
實(shí)際上數(shù)據(jù)中心執(zhí)行的大部分任務(wù)都是重復(fù)的,可以從歷史日志中學(xué)習(xí)混合多任務(wù)的特征,進(jìn)而對流簇大小等任務(wù)特征進(jìn)行推理。因此本文提出了一種基于極限學(xué)習(xí)機(jī)的流簇大小推理方法(machine learning Coflow,MLcoflow),主要貢獻(xiàn)在于:
(1)基于FaceBook 數(shù)據(jù)中心日志的數(shù)據(jù)挖掘,進(jìn)行各個特征的權(quán)重計算,建立了流簇大小的關(guān)聯(lián)特征集,利用極限學(xué)習(xí)機(jī)訓(xùn)練獲得了多特征融合的推理模型。
(2)將MLcoflow 部署到最短任務(wù)優(yōu)先(shortest job first,SJF)的流簇調(diào)度器中[6],和現(xiàn)有的流簇調(diào)度器相比,降低了20%的流簇平均完成時間。
(3)由于MLcoflow 使用的流簇特征可以從調(diào)度中得到,不需要大規(guī)模手動修改應(yīng)用,因此它可以很容易地部署到各類數(shù)據(jù)并行框架中如MapReduce、Hadoop 和Spark 等。
本文給出了基于極限學(xué)習(xí)機(jī)的MLcoflow 分類器的詳細(xì)設(shè)計,實(shí)驗(yàn)證明其在流簇大小推理的準(zhǔn)確率、敏感度及適用性上均具有優(yōu)勢,是一種基于數(shù)據(jù)驅(qū)動的流簇推理的高效機(jī)制。
流簇調(diào)度通過給流簇分配適合的優(yōu)先級和帶寬來提升網(wǎng)絡(luò)傳輸?shù)男省,F(xiàn)有的流簇調(diào)度方法可以分為兩類:
(1)信息已知流簇調(diào)度
信息已知的流簇調(diào)度假設(shè)調(diào)度時所有關(guān)于流簇的先驗(yàn)信息都可以被調(diào)度器獲取,因此這類調(diào)度器在模擬實(shí)驗(yàn)中通常能表現(xiàn)出較為卓越的性能。如Varys[7]采用分布式調(diào)度算法來提高調(diào)度性能,通過一個集中式控制器基于最小效率瓶頸優(yōu)先算法給網(wǎng)絡(luò)中的流簇分配速率。Sincronia[8]使用貪婪式的速率分配方法為網(wǎng)絡(luò)中的流簇分配不同優(yōu)先級,它證明了在正確設(shè)置流簇優(yōu)先級的情況下可以實(shí)現(xiàn)近似最優(yōu)網(wǎng)絡(luò)設(shè)計。然而,Coflow 是一組來自不同源的并行流集合,這些流通常是異步的,這意味著它們不同時開始。因此在調(diào)度中獲取先驗(yàn)信息在現(xiàn)有的并行計算框架中是難以實(shí)現(xiàn)的[9]。部署這類調(diào)度器通常需要對現(xiàn)有的應(yīng)用進(jìn)行大規(guī)模手動修改[10],這導(dǎo)致這類調(diào)度器難以廣泛使用。
(2)信息未知流簇調(diào)度
信息未知流簇調(diào)度器不需要任何先驗(yàn)信息,它們通過調(diào)度中獲取的流簇特征來執(zhí)行調(diào)度。其中比較經(jīng)典的調(diào)度器設(shè)計包括:D-CLAS,它首個提出信息未知調(diào)度設(shè)計,通過設(shè)置已傳輸字節(jié)數(shù)閾值為流簇分配優(yōu)先級;MCS 通過多種流簇特征及貝葉斯概率論來推測流簇的大小并基于最小最短流簇優(yōu)先算法為流簇分配優(yōu)先級。然而,現(xiàn)有的信息未知調(diào)度器大部分采用經(jīng)典的SJF 策略,這種策略有兩個目標(biāo):一是從小流簇(總傳輸字節(jié)數(shù)較少的流簇)中把大流簇篩選出來;二是給小流簇高優(yōu)先級。這兩個目標(biāo)能保證調(diào)度器實(shí)現(xiàn)降低平均流簇完成時間的目的。為實(shí)現(xiàn)這個目標(biāo),調(diào)度器必須能準(zhǔn)確地推理流簇的大小,不準(zhǔn)確的推理可能會導(dǎo)致隊(duì)頭阻塞,從而降低傳輸效率。
此外,很多工作已經(jīng)證明了機(jī)器學(xué)習(xí)算法在流大小推理應(yīng)用中的有效性和可行性。例如,文獻(xiàn)[11]通過數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法,基于歷史數(shù)據(jù)和在線信息,使用一條流中前幾個包的特性(例如包大小和包頭信息)來預(yù)測每個流啟動時的大小,主要目的是為了檢測大象流。文獻(xiàn)[12]設(shè)計了一個可以事先估計流大小的框架FLUX,并通過機(jī)器學(xué)習(xí)方法預(yù)測流大小并標(biāo)記數(shù)據(jù)包讓交換機(jī)可以感知流的大小信息,最后使用真實(shí)實(shí)驗(yàn)驗(yàn)證了FLUX 在真實(shí)環(huán)境中的可實(shí)現(xiàn)性和部署性。上述研究證明了機(jī)器學(xué)習(xí)方法在流大小預(yù)測中的可行性,這些研究也僅僅是針對流模型。雖然FLUX 將其方法用于流簇模型中,但是流簇是多條流的集合,這意味著這種方法只能通過流大小疊加來實(shí)現(xiàn)流簇大小推理,這會導(dǎo)致錯誤率的疊加從而大幅度降低推理精度。因此,設(shè)計了針對數(shù)據(jù)中心任務(wù)特征的流簇大小推理模型。
流簇信息未知調(diào)度器應(yīng)當(dāng)同時考慮準(zhǔn)確率和敏感度這兩方面。一般而言,準(zhǔn)確率代表了有多少流簇能被準(zhǔn)確推理出其所在大小的分類區(qū)間,而敏感度代表了準(zhǔn)確推理流簇大小需要多少已知信息。流簇大小的準(zhǔn)確率一直是關(guān)鍵指標(biāo),但現(xiàn)有的推理方法在設(shè)計中都忽略了敏感度的問題。式(1)給出了關(guān)注的流簇大小推理的敏感度。
R表示推理器用來計算流簇特征使所使用的子流數(shù)占流簇總子流數(shù)的比例。本文將敏感度定義為準(zhǔn)確率達(dá)到1.0 時R的取值,該值越小推理方法敏感度越高,該值為1.0 意味著推理方法完全失敗。
本章用一個例子揭示推理敏感度的重要性。圖1給出了基于SJF 策略的調(diào)度器在不同敏感度推理器下的流簇調(diào)度情況。圖1(a)和(b)描述了流簇傳輸場景和信息。為簡化問題,在這里只考慮流簇大小的相對關(guān)系,此例推理的結(jié)果只有優(yōu)先級高、中、低三種情況。
假設(shè):流簇大小≥4 units 時為低優(yōu)先級,3 units≤流簇大小<4 units 時為中優(yōu)先級,流簇大?。? units時為高優(yōu)先級。
圖1 描述了三種敏感度下的調(diào)度情形,圖1(c)描述了直到流簇傳輸結(jié)束后都無法完成推理,因此調(diào)度器無法發(fā)現(xiàn)三條流之間的優(yōu)先級,只能按到達(dá)順序傳輸。圖1(d)描述在數(shù)據(jù)傳輸?shù)揭话霑r推理出優(yōu)先級,因此推理器會在T=2.5 時推理出C1 屬于低優(yōu)先級,暫停C1 轉(zhuǎn)而開始傳輸C2 ;在C2 傳輸一半的數(shù)據(jù)時推理出C2 屬于中優(yōu)先級,轉(zhuǎn)而開始傳輸C3。圖1(e)描述了當(dāng)流簇到達(dá)時就能進(jìn)行區(qū)分的情形,當(dāng)C2 到達(dá)時先傳輸C2,而當(dāng)C1 達(dá)到時,先進(jìn)行C1的傳輸。上述三種情況平均流簇完成時間分別為7.333、5.833 和4.667,最理想的情況平均流簇完成時間比最差情況的完成時間減少了近36%??梢娡评砻舾卸葘ζ骄鞔赝瓿蓵r間產(chǎn)生影響,在設(shè)計推理器時需要同時考慮準(zhǔn)確率和敏感度。但推理器在真實(shí)的工作環(huán)境中只能利用不完全信息,實(shí)現(xiàn)較高敏感度的推理是一個挑戰(zhàn)。本文旨在結(jié)合任務(wù)特征,通過數(shù)據(jù)驅(qū)動式機(jī)器學(xué)習(xí),設(shè)計考慮敏感度的推理機(jī)制及其調(diào)度算法。
Fig.1 Impacts of inferring sensitivity圖1 推理敏感度的影響
本文設(shè)計了MLcoflow 調(diào)度機(jī)制來對流簇實(shí)施調(diào)度,以降低平均任務(wù)的完成時間。圖2描述了MLcoflow的工作流程。
推理器的輸入是當(dāng)前核心交換機(jī)采集的流簇信息,如當(dāng)前包含子流數(shù)和到達(dá)時間等。推理器會首先處理這些信息,從中篩選強(qiáng)關(guān)聯(lián)的特征集,作為推理模型的輸入。離散化流簇大小能夠加快模型的訓(xùn)練速度,并且使得推理器容易部署。因此將推理模型設(shè)計為一個多分類器,推理器將分類結(jié)果返回給調(diào)度器,據(jù)此執(zhí)行優(yōu)先級調(diào)度。
推理模型將周期性地基于數(shù)據(jù)中心網(wǎng)絡(luò)的歷史日志進(jìn)行更新,更新后的模型會被發(fā)送至推理器進(jìn)行在線應(yīng)用。本文中的周期設(shè)定為流到達(dá)間隔的2至3 倍,符號為H。為了提高推理算法的敏感度,離線訓(xùn)練中僅使用不完全信息,即流簇內(nèi)一半的子流信息來挖掘流簇特征。
本文的推理器將基于FaceBook 數(shù)據(jù)中心發(fā)布的日志進(jìn)行建模[5],在實(shí)際應(yīng)用中它會通過采集數(shù)據(jù)中心網(wǎng)絡(luò)中任務(wù)執(zhí)行的歷史日志,篩選與流簇大小相關(guān)的特征集合。MLcoflow 使用了極限學(xué)習(xí)機(jī)建立推理模型。本章詳細(xì)描述了基于數(shù)據(jù)挖掘的特征提取及流簇大小的多分類建模,最后給出了基于該推理器的調(diào)度算法。
為了提升推理的準(zhǔn)確性和敏感度,首先需要確定信息未知場景下的可用特征集合。然而,過多的特征信息可能會占用大量的存儲空間和計算時間,甚至影響訓(xùn)練模型的收斂性。因此在建模前篩選并去除多余的特征是很重要的。
為簡化問題,數(shù)據(jù)中心的抽象模型為一個無阻塞交換機(jī)連接所有主機(jī),調(diào)度器僅工作于交換機(jī)的出入端口處。因此流簇調(diào)度和帶寬分配也僅在交換機(jī)端口處進(jìn)行,這是流簇相關(guān)研究中最常用的抽象模型[4-8]。
和傳統(tǒng)的流抽象模型不同,流簇是一組流的集合,每條流的特征由一個四元組表示。使用Multi-RELIEF[13]方法來篩選特征,它計算每個特征對于推理貢獻(xiàn)的權(quán)重,通過FaceBook 數(shù)據(jù)中心日志來分析計算各個特征的權(quán)重。為了更好地對比,特征的權(quán)重值被歸一化后列于表1 中。歸一化的權(quán)重值相當(dāng)于該特征對正確推理的貢獻(xiàn),值越大說明該特征越重要。選擇了歸一化權(quán)重值大于0.01 的特征(如表1中1 至6 行所示),最終選取的Coflow 特征集為一個六元組,如式(2)所示。
在實(shí)際應(yīng)用中流簇特征由實(shí)時狀態(tài)確定,它們是累計值,將隨著流簇子流的到達(dá)率而改變。在表1中“~”用于定義實(shí)時值,如。
這里考慮用極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)[14]來生成推理模型,它是一個單隱層前饋神經(jīng)網(wǎng)絡(luò),不需要手動設(shè)置太多的參數(shù),訓(xùn)練速度快,泛化性能好,比較適用于數(shù)據(jù)中心這種實(shí)時性要求強(qiáng)的環(huán)境。
Table 1 Features and their normalized weighted values表1 特征及其歸一化權(quán)重值
在數(shù)據(jù)預(yù)處理階段,歷史流簇信息日志被分為兩個集合,訓(xùn)練集和測試集。由于分類是由流簇大小確定的,不同分類之間存在邏輯聯(lián)系,因此訓(xùn)練集的標(biāo)簽使用Label-encoding 處理。此外,本文使用Zscore標(biāo)準(zhǔn)化方法處理
典型的ELM 結(jié)構(gòu)包括了一個輸入層、輸出層和隱藏層。輸入層包含n個神經(jīng)元,n的值為輸出層包含m個神經(jīng)元,m相當(dāng)于多分類的分類數(shù)。
隱含層包含了k個神經(jīng)元,激活函數(shù)的初始化是隨機(jī)的,在本文的設(shè)計中,激活函數(shù)為Sigmoid,式(3)給出了該函數(shù)的定義,其中x為ELM 的輸入:
通過多個實(shí)驗(yàn)驗(yàn)證了參數(shù)a、b、k的最佳設(shè)置。圖3 給出了不同a、b和k下的模型測試錯誤率。
Fig.3 Parameters optimization experiment圖3 參數(shù)優(yōu)化實(shí)驗(yàn)
可以看到,當(dāng)a和b值改變時,k的最佳參數(shù)設(shè)置總位于40 到50 之間,因此在本文的實(shí)驗(yàn)中選擇將k值設(shè)置為45。同時可以發(fā)現(xiàn),a和b值的改變對結(jié)果影響不大,通常為了保證模型泛化性能,它們在ELM中也是隨機(jī)設(shè)置的,因此設(shè)置a、b服從隨機(jī)分布N=(μ,σ2),μ=0,σ=1.0。
和其他工作類似,流簇大小可以離散成多個分類[4-6]。本文分析了來自FaceBook 數(shù)據(jù)中心Hive/MapReduce 數(shù)據(jù)倉庫真實(shí)的日志及其流簇大小的分布,圖4 給出了本文統(tǒng)計得出的流簇大小累積分布函數(shù)(cumulative distribution function,CDF)圖,圖中可見它近似于指數(shù)分布。
Fig.4 CDF of Coflow size and classification periods圖4 流簇大小的CDF 圖及分類區(qū)間
在這種分布中,如果使用平均分割法會導(dǎo)致某些分類中的流簇數(shù)目很少甚至沒有流簇,因此選擇了根據(jù)CDF 分布來進(jìn)行流簇分類。
在調(diào)度中每個分類將被映射一個優(yōu)先級隊(duì)列,假設(shè)存在有m個分類,那么優(yōu)先級隊(duì)列集合就為Q={Q1,Q2,…,Qm},則有流簇C屬于某一隊(duì)列Qi(i∈[1,m])的條件為:
其中,CS代表流簇C的預(yù)測大小。本文假設(shè)流簇的大小分布服從函數(shù)y(x),如下所示:
通過擬合分布曲線得到c=1.5×106,a=-11,且本文中m設(shè)置為8。
基于MLcoflow 的調(diào)度器將根據(jù)推理結(jié)果給流簇分配優(yōu)先級。算法執(zhí)行過程中,Agent 從當(dāng)前端口的流簇信息中提出流簇特征并將其發(fā)送給位于核心控制器處的Master,Master 通過使用MLcoflow 推理流簇的大小并將推理結(jié)果返回給Agent。收到結(jié)果后,部署在Agent 處的調(diào)度器會根據(jù)推理結(jié)果給流簇分配優(yōu)先級隊(duì)列。
MLcoflow 調(diào)度算法如算法1 所示。新流簇到達(dá)交換機(jī)后調(diào)度器會提取該流簇的特征集并使用推理器推理流簇的實(shí)際大小及該大小的流簇所屬的分類,通過其大小所屬分類為流簇分配優(yōu)先級隊(duì)列。對于n個流簇,該算法的時間復(fù)雜度為O(n)。
當(dāng)前的數(shù)據(jù)中心流量大,且流量行為變化復(fù)雜[15],因此為了保證模型推理的準(zhǔn)確性和對環(huán)境變化的適應(yīng)性,算法中設(shè)置了觸發(fā)標(biāo)志F作為定期更換新模型的觸發(fā)機(jī)制,當(dāng)F為真時Agent 里的調(diào)度器會詢問本地存儲器是否存在新的模型,若存在則進(jìn)行模型更新。F的值變化判斷條件由應(yīng)用層決定。
將MLcoflow 的性能評估分成兩部分:第一部分評估推理方法的準(zhǔn)確性和敏感度;第二部分評估基于MLcoflow 調(diào)度器的性能。
本節(jié)對比了ELM算法和其他兩類機(jī)器學(xué)習(xí)算法,包括:
(1)CART(classification and regression trees)[16],一種常用的決策樹算法,使用基尼指數(shù)來分割數(shù)據(jù)。在CART 中樹的深度限制為6,典型設(shè)置為3~10 之間,發(fā)現(xiàn)設(shè)置為3 太淺導(dǎo)致準(zhǔn)確率較低,而設(shè)置為10太深導(dǎo)致過擬合,因此選擇了一個中間值。
(2)XGBoost(extreme gradient Boosting)[17],一種基于梯度增強(qiáng)的集成學(xué)習(xí)算法。在XGBoost 中,設(shè)置了100 個分類器,每個分類器的深度限制為6。
數(shù)據(jù)預(yù)處理中,它們的標(biāo)簽方式都和ELM 相同,而特征集在CART 和XGBoost 中保持原始數(shù)據(jù)。使用的數(shù)據(jù)集一部分取樣自FaceBook 數(shù)據(jù)中心的日志,用FB 表示。此外,另一部分由一個流簇日志生成器[18]生成,它通過分析FB 數(shù)據(jù)集的特征來生成新的日志,用Custom 表示,Custom 后的數(shù)字表示數(shù)據(jù)集包含的流簇數(shù)目。
由于本文的模型是一個多分類模型,一些傳統(tǒng)的模型評估基準(zhǔn)(如F1score 和準(zhǔn)確率)不再適用,因?yàn)樗鼈儾粔蛉?。本文采用Macro-F1score(MaF1)和Micro-F1score(MiF1)來評估本文的模型[19]。MaF1對所有分類的權(quán)重相等。而MiF1 對每個實(shí)例有相同的權(quán)重,因此數(shù)量較多的類別對該分?jǐn)?shù)的影響更大。采用十折交叉驗(yàn)證法測試數(shù)據(jù)。表2 給出了三種算法在不同測試集中的測試結(jié)果。
Table 2 Test results of MaF1 and MiF1表2 MaF1 和MiF1 測試結(jié)果
可以看到測試集上的結(jié)果與訓(xùn)練集FB 的結(jié)果相比出現(xiàn)了變化,所有算法的評分都出現(xiàn)了不同程度的下降。總體而言,CART評分下降了35.4%,XGBoost的評分下降了11.7%,而ELM 的評分僅下降了7.3%,相比CART 和XGBoost,ELM 的平均分?jǐn)?shù)分別提高37.6%和9.2%。和其他兩個算法相比,ELM 的兩個分?jǐn)?shù)都表現(xiàn)最優(yōu),且分?jǐn)?shù)變化最小證明其泛化能力較好。
本文使用FB 測試了三種算法生成模型的推理敏感度,結(jié)果如圖5 所示。R<0.7 時,ELM 具有明顯的優(yōu)勢,從R=0.7 開始,XGBoost的敏感度才接近ELM,顯而易見CART 的敏感度是最差的。若以0.9 的準(zhǔn)確率定義敏感度,則ELM 和XGBoost的敏感度相近,若以小于0.9 的準(zhǔn)確率定義敏感度,則ELM 存在明顯的優(yōu)勢。相比其他兩種算法,ELM 的敏感度平均提高了10.2%以上。
Fig.5 Inferring sensitivity of three algorithms圖5 三種算法的推理敏感度對比
圖6(a)給出了三種算法的訓(xùn)練時間(樣本量100~1 000),圖6(b)給出了測試(推理)時間(樣本量1 000~10 000)??梢钥闯觯珽LM 的耗時低于XGBoost 高于CART,但是其訓(xùn)練時間及測試時間都在100 ms 以內(nèi),能夠滿足絕大多數(shù)數(shù)據(jù)中心的處理需求。
綜上,CART、XGBoost 與ELM 均能夠在大多數(shù)數(shù)據(jù)中心的在線流簇調(diào)度中使用,因?yàn)樗鼈儨?zhǔn)確、敏感,訓(xùn)練和測試速度快。但是,CART 的準(zhǔn)確率和敏感度均比較低,難以滿足要求較高的數(shù)據(jù)中心。而XGBoost作為Boost框架算法,其模型結(jié)構(gòu)比較復(fù)雜,導(dǎo)致部署的復(fù)雜性高,開銷較大。因此認(rèn)為ELM 具備更好的廣泛適用性。
Fig.6 Time cost comparisons of three algorithms圖6 三種算法的耗時對比
本文使用日志驅(qū)動的仿真器[4]評估流簇調(diào)度的性能,該仿真器內(nèi)置了許多傳統(tǒng)流簇調(diào)度器如DCLAS,它是流簇相關(guān)研究[5-8]中最常用的實(shí)驗(yàn)工具。在這個模擬器上,實(shí)現(xiàn)了MCS、基于MLcoflow 的SJF策略調(diào)度器。實(shí)驗(yàn)網(wǎng)絡(luò)拓?fù)淙鐖D7 所示,它是一個廣泛應(yīng)用于各類數(shù)據(jù)中心的Leaf-spine 結(jié)構(gòu)[20],由144臺服務(wù)器組成。
本文將基于MLcoflow 的調(diào)度器與以下三個流簇調(diào)度器進(jìn)行對比:
(1)先入先出(first in first out,F(xiàn)IFO)[4],最基礎(chǔ)的流簇調(diào)度方法,根據(jù)流簇的到達(dá)順序(即表1 中的ST)傳輸流簇。
(2)D-CLAS,根據(jù)已傳輸字節(jié)數(shù)S推理流簇的大小,優(yōu)先傳輸小流簇。
(3)MCS,根據(jù)流簇寬度W、已傳輸字節(jié)數(shù)S和長度L來推理流簇的大小,優(yōu)先傳輸最小最窄的流簇。
Fig.7 Network topology圖7 網(wǎng)絡(luò)拓?fù)?/p>
Fig.8 Average CCT of four coflow schedulers圖8 四種流簇調(diào)度器的平均流簇完成時間
圖8 顯示了它們在不同測試集中的平均流簇完成時間(average coflow completion time,Average CCT)。
從結(jié)果可以看出,MLcoflow 與MCS、D-CLAS 相比,平均降低了15~20 ms 的平均CCT。而且隨著測試集規(guī)模的增大,MLcoflow 的優(yōu)勢變得更加明顯,因?yàn)橥粫r間需要調(diào)度的流簇增加了,同時也導(dǎo)致推理錯誤時產(chǎn)生的代價更大。性能最差的是FIFO,因?yàn)樗恼{(diào)度沒有基于流簇的整體特性進(jìn)行優(yōu)先級設(shè)置。
本文提出了一種基于ELM 的流簇大小推理模型,它利用多種特征推理流簇大小。該推理方法具有較高的準(zhǔn)確率和敏感度,基于MLcoflow 的流簇調(diào)度器可以有效降低平均流簇完成時間。由于該模型不需要對應(yīng)用程序進(jìn)行大規(guī)模人工修改,僅基于數(shù)據(jù)中心網(wǎng)絡(luò)歷史日志即可建模,因此具備較好的可行性。通過同其他幾種機(jī)器學(xué)習(xí)算法的分析和比較,可以看到ELM 是一種具有廣泛適用性的推理算法。在未來的工作中,將考慮更多類型的機(jī)器學(xué)習(xí)算法,如無監(jiān)督學(xué)習(xí)算法和增強(qiáng)學(xué)習(xí)算法。