周萍
(南昌職業(yè)大學(xué),江西 南昌 330599)
網(wǎng)絡(luò)擁塞控制策略是確保數(shù)據(jù)傳輸穩(wěn)定性和網(wǎng)絡(luò)資源利用公平性的網(wǎng)絡(luò)系統(tǒng)關(guān)鍵模塊。傳輸控制協(xié)議(Transmission Control Protocol, TCP)是當(dāng)前Internet等網(wǎng)絡(luò)主流的傳輸協(xié)議,TCP實(shí)現(xiàn)了大多數(shù)的擁塞控制機(jī)制。但是,隨著網(wǎng)絡(luò)功能和服務(wù)的發(fā)展,現(xiàn)有的TCP已經(jīng)逐漸不適應(yīng)當(dāng)前網(wǎng)絡(luò)的需求。例如,TCP會(huì)將隨機(jī)的數(shù)據(jù)包丟失檢測(cè)為網(wǎng)絡(luò)擁塞,從而導(dǎo)致數(shù)據(jù)傳輸性能下降。對(duì)此,研究者們針對(duì)不同應(yīng)用場(chǎng)景中的TCP協(xié)議提出了許多新穎的擁塞控制方法中。在動(dòng)態(tài)且資源受限的網(wǎng)絡(luò)中計(jì)算合適的擁塞窗口是一個(gè)極具挑戰(zhàn)的問(wèn)題。然而現(xiàn)有的擁塞控制機(jī)制無(wú)法很好地適應(yīng)快速變化的網(wǎng)絡(luò)環(huán)境。對(duì)此,提出了CWARL,一種基于強(qiáng)化學(xué)習(xí)的擁塞窗口調(diào)整策略。CWARL(Congestion Window Adjustment based on Reinforcement Learning)在源節(jié)點(diǎn)進(jìn)行在線訓(xùn)練,并在可用時(shí)使用網(wǎng)絡(luò)內(nèi)機(jī)制確定擁塞窗口的更新值。
CWARL策略利用發(fā)送者收集的統(tǒng)計(jì)數(shù)據(jù)來(lái)計(jì)算下一個(gè)擁塞窗口值。表1展示了本文選擇用來(lái)構(gòu)建模型狀態(tài)空間的特征。其中,特征1到7是端到端的統(tǒng)計(jì)特征,特征8和9是網(wǎng)絡(luò)的統(tǒng)計(jì)特征。端到端的特征是由發(fā)送方在每個(gè)時(shí)間間隔內(nèi)進(jìn)行收集。網(wǎng)絡(luò)統(tǒng)計(jì)特征分別代表來(lái)自網(wǎng)絡(luò)的部分信息(特征8)和一個(gè)表示知識(shí)量的參數(shù)(特征9)。對(duì)于每個(gè)受控制的交換機(jī),令為在給定時(shí)間間隔內(nèi)接收到的數(shù)據(jù)包總數(shù),而為傳出數(shù)據(jù)包的總數(shù)。然后將diff 定義為|-|。
表1 CWARL所使用的特征
部分網(wǎng)絡(luò)知識(shí)(PNK)代表了網(wǎng)絡(luò)已知擁塞程度的指標(biāo)。PNK可以使用以下公式計(jì)算:PNK=max(diff,…,diff)。PNK顯示了當(dāng)前的擁塞級(jí)別,即網(wǎng)絡(luò)中的丟失率。PNK可以通過(guò)協(xié)議和網(wǎng)絡(luò)測(cè)量應(yīng)用程序(例如OpenFlow或NetFlow)進(jìn)行測(cè)量得到。此外,將每個(gè)所選特征的個(gè)歷史窗口視為狀態(tài),以充分預(yù)測(cè)網(wǎng)絡(luò)狀況并相應(yīng)地調(diào)整擁塞窗口。提出的深度強(qiáng)化學(xué)習(xí)算法的神經(jīng)網(wǎng)絡(luò)的輸入為一個(gè)×矩陣,將值設(shè)置為5。
擁塞窗口是連接狀態(tài)變量之一,TCP使用它來(lái)限制發(fā)送方在收到ACK之前可以傳輸?shù)臄?shù)據(jù)量。在有損鏈路中,當(dāng)丟包發(fā)生后,TCP會(huì)通過(guò)過(guò)度地減少擁塞窗口來(lái)大幅度地降低傳輸速率,從而對(duì)端到端傳輸性能產(chǎn)生負(fù)面影響。因此,利用基于RL的在線訓(xùn)練算法來(lái)正確更新?lián)砣翱?。CWARL的動(dòng)作是用來(lái)確定擁塞窗口的改變量,擁塞窗口改變量所構(gòu)成的集合很大,并且與RL系統(tǒng)的獎(jiǎng)勵(lì)相關(guān)。所使用的動(dòng)作集合為:={-10,-3,-1,0,1,3,10}。
CWARL動(dòng)作集合的前三個(gè)選項(xiàng)以不同程度減小擁塞窗口的大小,而后三個(gè)選項(xiàng)將以不同的幅度增加擁塞窗口的大小。CWARL將擁塞窗口的初始值設(shè)置為10。CWARL學(xué)習(xí)如何根據(jù)經(jīng)驗(yàn)做出控制決策,因此無(wú)須必要的預(yù)編碼規(guī)則來(lái)適應(yīng)各種網(wǎng)絡(luò)環(huán)境。擁塞控制模式的選擇依賴于效用函數(shù),具體來(lái)說(shuō),發(fā)送方的效用是吞吐量和丟包率的函數(shù),如式(1)所示:
其中是一個(gè)可調(diào)整的系數(shù),決定了吞吐量和丟包率之間的重要性。每個(gè)發(fā)送者的目標(biāo)是最大化其效用函數(shù)U。
圖1詳細(xì)地說(shuō)明發(fā)送方執(zhí)行的主要操作,收集到的指標(biāo)被饋送到神經(jīng)網(wǎng)絡(luò),隨后CWARL啟動(dòng),如算法1所示。
圖1 CWARL概述
算法1 CWARL擁塞窗口更新1.S←源節(jié)點(diǎn);2.D←目的節(jié)點(diǎn);3.F←從S出發(fā)、以D為目的節(jié)點(diǎn)的流;4.收集時(shí)刻t流F的狀態(tài)s;5.cwnd*(t)←cwndPre(s, t);6.cwnd←cwnd*(t);
我們利用TCP Linux的API收集諸如時(shí)延和吞吐量的端到端通信狀態(tài)。關(guān)于網(wǎng)絡(luò)反饋,網(wǎng)絡(luò)測(cè)量代理通過(guò)控制底層拓?fù)溆?jì)算PNK,并將其通知給發(fā)送者。獲取源和目的節(jié)點(diǎn)之間的完整路徑并不總是可能的,即使網(wǎng)絡(luò)反饋不完整或不可用,即神經(jīng)網(wǎng)絡(luò)不使用網(wǎng)絡(luò)內(nèi)特征,CWARL仍然可以提供有意義的結(jié)果。
CWARL會(huì)根據(jù)值表通過(guò)選擇動(dòng)作來(lái)確定下一個(gè)擁塞窗口。預(yù)測(cè)下一個(gè)擁塞窗口值的算法如算法2所示。該算法利用狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)來(lái)選擇最佳值并更新值表。每當(dāng)確認(rèn)數(shù)據(jù)包到達(dá)的時(shí)候都會(huì)預(yù)測(cè)最佳擁塞窗口,以保證在擁塞避免階段對(duì)擁塞窗口進(jìn)行充分刷新。然后更新?tīng)顟B(tài)集以確保每個(gè)度量在任何時(shí)間間隔都有個(gè)歷史值。
算法2 cwndPre(s, t)算法1. r(t)←Ui=λi-δiλi(1/(1-pi)) ;2. Q(s, a)←Q(s, a)+α(r+γmaxa'Q(s', a')-Q(s, a));3.cwnd*(t) ←softmax(a, s, t);4.Return cwnd*(t);
CWARL充分考慮了網(wǎng)絡(luò)部分未知的實(shí)際場(chǎng)景,網(wǎng)絡(luò)可能需要多個(gè)網(wǎng)關(guān)的協(xié)作和協(xié)調(diào),不穩(wěn)定的網(wǎng)絡(luò)條件可能會(huì)隱藏網(wǎng)絡(luò)的信息。
設(shè)計(jì)和實(shí)現(xiàn)一個(gè)網(wǎng)絡(luò)系統(tǒng),該系統(tǒng)將軟件定義網(wǎng)絡(luò)(SDN)控制器作為測(cè)量收集器并僅管理一些已部署的虛擬交換機(jī)。雖然在實(shí)現(xiàn)中使用了SDN控制器,但該系統(tǒng)并不局限于這種特定的網(wǎng)絡(luò)技術(shù)。控制器定期與交換機(jī)交互以收集有關(guān)發(fā)送和接收的數(shù)據(jù)包統(tǒng)計(jì)信息。然后,使用這些統(tǒng)計(jì)數(shù)據(jù)來(lái)學(xué)習(xí)和預(yù)測(cè)在給定擁塞級(jí)別的情況下要采取的端到端動(dòng)作。 在此處的實(shí)現(xiàn)中,控制器以每秒一次的采樣率從所有交換機(jī)接收數(shù)據(jù)包的統(tǒng)計(jì)信息,以實(shí)現(xiàn)負(fù)載和信息新鮮度之間的折衷。
CWARL通過(guò)與測(cè)量代理(如SDN控制器)通信來(lái)獲取網(wǎng)絡(luò)狀態(tài),以設(shè)置最優(yōu)擁塞窗口。CWARL由兩個(gè)主要進(jìn)程組成:一個(gè)進(jìn)程在內(nèi)核中運(yùn)行,另一個(gè)在用戶空間中運(yùn)行。運(yùn)行在內(nèi)核的進(jìn)程利用Linux內(nèi)核中的擁塞控制模塊中的函數(shù)來(lái)訪問(wèn)TCP的底層擁塞控制功能。本內(nèi)核實(shí)現(xiàn)可以作為可插入的擁塞控制算法進(jìn)行安裝,并可以設(shè)置和獲取端到端的傳輸狀態(tài)(如序列號(hào)和RTT),并有效地計(jì)算吞吐量。
在用戶空間中運(yùn)行的應(yīng)用程序進(jìn)程收集有關(guān)當(dāng)前TCP的套接字信息,并使用它們來(lái)構(gòu)建運(yùn)行強(qiáng)化學(xué)習(xí)算法的深度神經(jīng)網(wǎng)絡(luò)輸入矩陣。該模塊根據(jù)RL的反饋采取行動(dòng),并修改擁塞窗口以應(yīng)對(duì)事件。
在內(nèi)核級(jí)別存儲(chǔ)運(yùn)行強(qiáng)化學(xué)習(xí)算法和保持與網(wǎng)絡(luò)控制器通信所需的狀態(tài)可能會(huì)很昂貴。而用戶空間應(yīng)用程序可以利用更廣泛的庫(kù)集來(lái)滿足學(xué)習(xí)算法的需求?;诖?,在用戶空間實(shí)現(xiàn)了擁塞控制算法的網(wǎng)絡(luò)管理組件,并通過(guò)Netlink服務(wù)在用戶空間和內(nèi)核之間連接當(dāng)前TCP套接字狀態(tài)?;趶?qiáng)化學(xué)習(xí)的擁塞控制器在固定周期內(nèi)通過(guò)ACK統(tǒng)計(jì)網(wǎng)絡(luò)數(shù)據(jù),并以異步的方式使用獨(dú)立的線程發(fā)送動(dòng)作。
為了評(píng)估提出的CWARL,實(shí)驗(yàn)評(píng)估部分將CWARL與3種現(xiàn)有的傳輸策略相比。其中,將Cubic作為端到端擁塞控制的代表,Aurora作為基于強(qiáng)化學(xué)習(xí)的擁塞控制的代表,ABC作為網(wǎng)絡(luò)內(nèi)控制的代表。實(shí)驗(yàn)部分使用虛擬網(wǎng)絡(luò)測(cè)試平臺(tái)和Mahimahi仿真器。通過(guò)Mininet實(shí)現(xiàn)了網(wǎng)絡(luò)命名空間,結(jié)合SDN技術(shù),實(shí)現(xiàn)交換機(jī)與中央控制器交互。實(shí)驗(yàn)還評(píng)估了真實(shí)主機(jī)的性能,并在GENI測(cè)試平臺(tái)上部署了CWARL。實(shí)驗(yàn)采用兩個(gè)的公開(kāi)數(shù)據(jù)集(用數(shù)據(jù)集1和數(shù)據(jù)集2表示),為上行鏈路和下行鏈路提供單獨(dú)的數(shù)據(jù)包傳輸。OpenFlow控制器只能從連接到SDN控制器的虛擬交換機(jī)中獲取信息。
圖2展示了CWARL與其他策略在吞吐量和時(shí)延方面的對(duì)比。在數(shù)據(jù)集1的情況下,如圖2(a)所示,CWARL具有較高的吞吐量、獲得較低的時(shí)延。與其他策略相比,CWARL實(shí)現(xiàn)了最好的綜合性能。CWARL獎(jiǎng)勵(lì)函數(shù)的目標(biāo)是實(shí)現(xiàn)高吞吐量和低丟包率,因此可以提高傳輸效率,降低時(shí)延。數(shù)據(jù)集2的結(jié)果與數(shù)據(jù)集1的結(jié)果相似,如圖2(b)所示。綜上所述,CWARL在吞吐量和延遲之間做出均衡,能獲得更好的綜合性能。
圖2 吞吐量和時(shí)延性能對(duì)比
圖3展示了隨著網(wǎng)絡(luò)知識(shí)變化的吞吐量和時(shí)延結(jié)果對(duì)比。由于Cubic和Aurora均為端到端的擁塞控制算法,因此他們的性能不受缺乏網(wǎng)絡(luò)知識(shí)的影響。由結(jié)果可知,隨著可用的部分網(wǎng)絡(luò)知識(shí)的增加,CWARL的吞吐量會(huì)大幅增加、延遲大幅度減少。
圖3 隨著網(wǎng)絡(luò)知識(shí)變化的性能對(duì)比
為了評(píng)估CWARL的實(shí)用性,在GENI測(cè)試平臺(tái)上部署了CWARL。圖4展示了CWARL策略與其他策略的對(duì)比結(jié)果。由結(jié)果可知,與其他策略相比,CWARL策略可以實(shí)現(xiàn)高吞吐量和低丟失率,有效地在兩者間取得了平衡。
圖4 吞吐量和丟包率性能對(duì)比
本文提出了一種基于強(qiáng)化學(xué)習(xí)的擁塞窗口調(diào)整策略——CWARL。通過(guò)實(shí)現(xiàn)CWARL策略,結(jié)合真實(shí)數(shù)據(jù)集驗(yàn)證了CWARL的有效性。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有的策略相比,CWARLs基本能夠更好地提高傳輸效率并降低時(shí)延和丟包率。在未來(lái)的研究中,將CWARL部署到真實(shí)的應(yīng)用環(huán)境中,進(jìn)一步評(píng)估驗(yàn)證CWARL的性能和有效性,并對(duì)CWARL進(jìn)行有針對(duì)性的改善。