李凡 李慧斯 馬文丹
摘? 要:該文結(jié)合強(qiáng)化學(xué)習(xí)方法提出一種QLCC算法,此算法是將網(wǎng)絡(luò)擁塞過程進(jìn)行簡化之后描述為馬爾科夫決策過程,在Q-learning算法應(yīng)用的基礎(chǔ)上創(chuàng)新設(shè)計(jì)的新型網(wǎng)絡(luò)擁塞控制算法。研究過程中首先介紹強(qiáng)化學(xué)習(xí)方法,并對網(wǎng)絡(luò)擁塞過程中馬爾科夫決策過程的構(gòu)建條件及假設(shè)進(jìn)行探討,之后從框架結(jié)構(gòu)、參數(shù)結(jié)構(gòu)及定義、參數(shù)離散劃分和更新步驟幾個(gè)方面介紹QLCC算法,并采取仿真實(shí)驗(yàn)方法對該種新算法的網(wǎng)絡(luò)吞吐量、公平性、隨機(jī)丟包環(huán)境下的吞吐量分別進(jìn)行檢測,通過與其他3種傳統(tǒng)網(wǎng)絡(luò)擁塞控制算法進(jìn)行對比分析,證實(shí)QLCC算法具有吞吐量較佳、公平性最高、抗丟包性能最優(yōu)的性能,說明其是一種具有較高應(yīng)用優(yōu)勢的智能化網(wǎng)絡(luò)擁塞控制算法。
關(guān)鍵詞:強(qiáng)化學(xué)習(xí);QLCC算法;網(wǎng)絡(luò)擁塞控制;學(xué)習(xí)方法;仿真實(shí)驗(yàn)
中圖分類號:TP393.0? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? ? ? 文章編號:2095-2945(2024)10-0055-04
Abstract: In this paper, based on reinforcement learning, a QLCC algorithm is proposed, which describes the network congestion process as a Markov decision process and innovatively designs a new network congestion control algorithm based on the application of Q-learning algorithm. In the course of the research, the reinforcement learning method is first introduced, and the construction conditions and assumptions of Markov decision process in the process of network congestion are discussed, and then the QLCC algorithm is introduced from the aspects of frame structure, parameter structure and definition, parameter discrete partition and update steps. However, simulation experiments are used to test the network throughput, fairness and throughput of the new algorithm in random packet loss environment. By comparison and analysis with other three traditional network congestion control algorithms, it is proved that QLCC algorithm has better throughput, highest fairness and best anti-packet loss performance, indicating that it is an intelligent network congestion control algorithm with high application advantages.
Keywords: reinforcement learning; QLCC algorithm; network congestion control; learning method; simulation experiment
在互聯(lián)網(wǎng)高速發(fā)展的過程中,網(wǎng)絡(luò)上數(shù)據(jù)傳送量不斷增大,若網(wǎng)站端點(diǎn)傳輸數(shù)量超過網(wǎng)絡(luò)最大承受范圍,便會形成網(wǎng)絡(luò)擁塞,為此,相關(guān)專家針對特定網(wǎng)絡(luò)環(huán)境提出了網(wǎng)絡(luò)擁塞控制算法。網(wǎng)絡(luò)環(huán)境不斷改變的同時(shí),網(wǎng)絡(luò)擁塞控制算法也需要持續(xù)優(yōu)化,需要考慮到多方面影響因素,因此網(wǎng)絡(luò)擁塞控制算法性能的優(yōu)化難度相對較高。而基于人工智能的智能化網(wǎng)絡(luò)擁塞控制算法可以針對網(wǎng)絡(luò)環(huán)境進(jìn)行模型的預(yù)建與虛擬,因此,網(wǎng)絡(luò)擁塞控制算法呈現(xiàn)出了向智能化與模型化設(shè)計(jì)方向發(fā)展的趨勢。為此,基于強(qiáng)化學(xué)習(xí)思想,利用O-learning算法求解構(gòu)建擁塞控制模型,是優(yōu)化網(wǎng)絡(luò)擁塞控制算法的新路徑。
1? 強(qiáng)化學(xué)習(xí)方法
強(qiáng)化學(xué)習(xí)是一種人工智能機(jī)器學(xué)習(xí)方法,主要是通過試錯(cuò)類學(xué)習(xí),在交互過程中不停試錯(cuò)從而實(shí)現(xiàn)自動尋優(yōu)[1]。強(qiáng)化學(xué)習(xí)由5個(gè)部分實(shí)現(xiàn),分別是智能體、外部環(huán)境、狀態(tài)空間、動作空間及反饋。其中,智能體指的是決策及行為的分析模型,而狀態(tài)空間分別是環(huán)境量化的表示方式及智能體執(zhí)行動作的集合。反饋則是指外部環(huán)境對智能體動作執(zhí)行所作出的評價(jià)。強(qiáng)化學(xué)習(xí)中的智能體及環(huán)境,可以利用狀態(tài)、動作,在獎勵激勵下產(chǎn)生交互。在強(qiáng)化學(xué)習(xí)過程中,智能體首先執(zhí)行動作,然后環(huán)境會立即向新狀態(tài)轉(zhuǎn)變,并對新狀態(tài)給予正激勵或負(fù)激勵。智能體在新狀態(tài)及新環(huán)境反饋下獲得獎勵激勵后,會采用持續(xù)性獲得最多獎勵的策略執(zhí)行后續(xù)動作?;趶?qiáng)化學(xué)習(xí)方式了解何種狀態(tài)下做出何種動作方可實(shí)現(xiàn)獎勵最大化,是智能體的最終目的。強(qiáng)化學(xué)習(xí)基本過程如圖1所示。
2? 網(wǎng)絡(luò)擁塞過程中馬爾科夫決策過程的構(gòu)建
馬爾科夫決策過程是實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)的基礎(chǔ),而此過程的構(gòu)建有2個(gè)必要條件,一是在當(dāng)前狀態(tài)執(zhí)行當(dāng)前動作后才可進(jìn)入下一狀態(tài)。二是當(dāng)前狀態(tài)前期狀態(tài)與下一狀態(tài)之間并無關(guān)聯(lián)[2]。因此,網(wǎng)絡(luò)擁塞控制過程符合這2個(gè)條件后,方可基于馬爾科夫決策過程構(gòu)建網(wǎng)絡(luò)擁塞控制模型。由于傳統(tǒng)網(wǎng)絡(luò)擁塞控制算法采用的是將網(wǎng)絡(luò)擁塞控制過程直接假設(shè)為馬爾科夫決策過程的簡單假設(shè)方式,會出現(xiàn)關(guān)鍵信息丟失現(xiàn)象。為此,本文提出簡化網(wǎng)絡(luò)擁塞過程,使此過程與馬爾科夫決策過程更加匹配,并且采用強(qiáng)化學(xué)習(xí)方法實(shí)現(xiàn)網(wǎng)絡(luò)擁塞控制過程求解過程的簡化。由于傳統(tǒng)網(wǎng)絡(luò)擁塞控制算法的數(shù)據(jù)報(bào)傳送時(shí)間延時(shí)效應(yīng)與馬爾科夫控制過程不相匹配,為此,基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)擁塞控制算法是在當(dāng)前網(wǎng)絡(luò)鏈路帶寬探測的基礎(chǔ)上,尋求最優(yōu)數(shù)據(jù)發(fā)送速率點(diǎn),不必進(jìn)行隊(duì)列填充,但要確保瓶頸鏈路有持續(xù)的數(shù)據(jù)包傳輸。也就是說網(wǎng)絡(luò)鏈路中沒有數(shù)據(jù)包排列現(xiàn)象。假設(shè)網(wǎng)絡(luò)擁塞控制過程數(shù)據(jù)發(fā)送速率與最優(yōu)操作點(diǎn)完全契合,那么,本文假設(shè)的網(wǎng)絡(luò)擁塞過程將具備2個(gè)性質(zhì),一是在網(wǎng)絡(luò)鏈路資源得到充分利用的前提下,將最優(yōu)操作點(diǎn)的網(wǎng)絡(luò)傳輸速率作為最大傳輸速率。二是數(shù)據(jù)包不排隊(duì)不會出現(xiàn)時(shí)間延遲現(xiàn)象,且此時(shí)網(wǎng)絡(luò)鏈路的傳送時(shí)間延時(shí)值最低。此操作使網(wǎng)絡(luò)擁塞過程得以簡化,可與馬爾科夫決策過程的構(gòu)建條件相吻合。因此,可利用馬爾科夫決策過程構(gòu)建網(wǎng)絡(luò)擁塞控制模型,之后,再利用強(qiáng)化學(xué)習(xí)方法優(yōu)化與求解此模型。
3? QLCC擁塞控制算法
3.1? QLCC算法框架
Q-Learning算法屬于強(qiáng)化學(xué)習(xí)的基礎(chǔ)性、離用化算法,此算法可利用時(shí)間差分法估算值函數(shù)。為化解網(wǎng)絡(luò)擁塞問題,本文采用Q-Learning算法構(gòu)建智能化網(wǎng)絡(luò)擁塞控制算法的模型。以Q-Learning算法為基礎(chǔ)構(gòu)建的網(wǎng)絡(luò)擁塞控制算法(QLCC)框架圖如圖2所示。
3.2? QLCC算法參數(shù)結(jié)構(gòu)及定義
此算法以傳統(tǒng)網(wǎng)絡(luò)狀態(tài)參數(shù)向量、接收反饋信息參數(shù)為輸入,并以當(dāng)前網(wǎng)絡(luò)狀態(tài)最佳窗口調(diào)節(jié)動作為輸出。在利用Q-learning算法時(shí),由于其具有離散化特征,為避免多特征參數(shù)設(shè)置時(shí)可能出現(xiàn)維度爆炸等問題,且為達(dá)到提高算法運(yùn)算效率的目的,可以利用Remy擁塞控制算法的參數(shù)描述當(dāng)前網(wǎng)絡(luò)狀態(tài)[3]。參數(shù)符號共有3個(gè),一是ack_ewma,表示2個(gè)連續(xù)接收確認(rèn)數(shù)據(jù)包的平均時(shí)間差值;二是send_ewma,代表接收到確認(rèn)數(shù)據(jù)包所對應(yīng)的發(fā)送數(shù)據(jù)包移動平均時(shí)間差值;三是rtt_ratio,指的是最新RTT數(shù)值及歷史最小RTT數(shù)值之比。而QLCC算法的動作空間參數(shù)結(jié)構(gòu)復(fù)雜,包含5個(gè)擁塞控制窗口調(diào)節(jié)動作,分別是cwnd=cwnd、cwnd=cwnd-1、cwnd=cwnd-1/cwnd、cwnd=cwnd+1和cwnd=cwnd+1/cwnd。其中,cwnd=cwnd表示收到確認(rèn)數(shù)據(jù)包時(shí)網(wǎng)絡(luò)發(fā)送窗口大小不發(fā)生改變,而其他4個(gè)動作依次代表收到確認(rèn)數(shù)據(jù)包時(shí),減少一個(gè)單位大小、減少一個(gè)當(dāng)前窗口單位大小、增加一個(gè)單位大小和增強(qiáng)一個(gè)當(dāng)前窗口單位大小。
3.3? QLCC算法參數(shù)離散劃分
Q-Learning算法屬于強(qiáng)化學(xué)習(xí)中的一種離散化算法,用于描述各個(gè)網(wǎng)絡(luò)狀態(tài)的參數(shù)均具有離散化特征,可采用離散化的形式表示本文所選用的3個(gè)連續(xù)參數(shù),這3個(gè)參數(shù)的離散劃分?jǐn)?shù)量并不一致,rtt_ratio參數(shù),直接離散劃分即可,而send_ewma、ack_ewma 2個(gè)參數(shù)需要經(jīng)過歸一公式處理后再進(jìn)行離散劃分,公式如下
f(s)=2×((1/1+e-x)-0.5)。? (1)
得到的3個(gè)參數(shù)離散劃分結(jié)果詳見表1。
3.4? 基本回報(bào)值函數(shù)定義
為提升網(wǎng)絡(luò)擁塞控制過程及馬爾科夫擁塞過程的契合性,確??稍谧顑?yōu)操作點(diǎn)處獲取最大回報(bào)值,將基本回報(bào)值函數(shù)定義為
U=?琢×log(瞬時(shí)吞吐量)-?茁×log■,(2)
式中:?琢為調(diào)節(jié)延時(shí)參數(shù);?茁為吞吐量比例參數(shù)。在實(shí)驗(yàn)過程中,通過調(diào)節(jié)吞吐量比例參數(shù)便可得到與馬爾科夫擁塞控制過程更加契合的網(wǎng)絡(luò)擁塞控制過程。在智能體了解環(huán)境時(shí),回報(bào)值函數(shù)屬于關(guān)鍵因子,為創(chuàng)造更佳的網(wǎng)絡(luò)環(huán)境,保證智能體學(xué)習(xí)效果,還需要對反饋函數(shù)算法進(jìn)行定義,公式如下
3.5? QLCC算法迭代更新步驟
算法更新時(shí),首先需要錄入網(wǎng)絡(luò)環(huán)境量化參數(shù),而后輸出最優(yōu)決策動作,輸出參數(shù)有當(dāng)前網(wǎng)絡(luò)狀態(tài)量化后參數(shù)向量(s)、行為動作參數(shù)向量(a)、行為動作參數(shù)空間(A)、下一網(wǎng)絡(luò)狀態(tài)量化后參數(shù)向量(■)、狀態(tài)-行為對應(yīng)值函數(shù)(Q(s,a))、規(guī)則集合(Q-Table)、折扣因子(?酌)、單步學(xué)習(xí)率(?琢)、回報(bào)值(R)和動作概率(?茁),而后會對規(guī)則集合進(jìn)行初始化,并于當(dāng)前網(wǎng)絡(luò)環(huán)境進(jìn)行量化后參數(shù)向量的獲取,之后停止模擬過程,在if random(0,1)<0.9條件下,在規(guī)則集合中選取當(dāng)前狀態(tài)下量化后參數(shù)向量的最大值的動作ealse,那么便會在行為動作參數(shù)空間動作集中隨機(jī)選擇一個(gè)行為動作參數(shù)向量,并且此向量會在環(huán)境下運(yùn)行,從中獲取到下一網(wǎng)絡(luò)狀態(tài)量化得到的參數(shù)向量及回報(bào)值,最后值函數(shù)會進(jìn)行更新,步驟為:Q(s,a)←Q((s,a)+?琢[R+?酌maxaQ(■,a)-Q((s,a)]。s與■數(shù)值相等是當(dāng)前環(huán)境狀態(tài)參數(shù)進(jìn)行更新的必要條件[4]。
4? QLCC算法實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
4.1? QLCC算法實(shí)驗(yàn)拓?fù)浣Y(jié)構(gòu)設(shè)計(jì)
本實(shí)驗(yàn)仿真平臺選用網(wǎng)絡(luò)仿真模擬器,網(wǎng)絡(luò)仿真拓?fù)洵h(huán)境的結(jié)構(gòu)包含3個(gè)主要部分,一是發(fā)送端,二是接收端,三是路由節(jié)點(diǎn),其中發(fā)送端及接收端分別有多個(gè),而路由節(jié)點(diǎn)只有2個(gè)。發(fā)送節(jié)點(diǎn)具備嵌入不同種類擁塞控制算法的功能,而瓶頸鏈路的作用是對不同帶寬及延時(shí)進(jìn)行設(shè)置。
4.2? 仿真實(shí)驗(yàn)及結(jié)果分析
4.2.1? 網(wǎng)絡(luò)吞吐量實(shí)驗(yàn)
在網(wǎng)絡(luò)吞吐量實(shí)驗(yàn)中,只需設(shè)置一個(gè)發(fā)送端,并分析單個(gè)發(fā)送端的吞吐量,實(shí)驗(yàn)時(shí)將瓶頸鏈路的帶寬及延時(shí)分別設(shè)定為5 Mb及10 ms,而隊(duì)列排隊(duì)值及模擬時(shí)間值分別設(shè)置為100 kpt及100 s。在數(shù)據(jù)發(fā)送端嵌入QLCC算法,同時(shí)還需將TCP NewReno算法、TCP CUBIC算法、TCP Compound算法嵌入其中作為對比,并對各個(gè)算法的網(wǎng)絡(luò)吞吐量值、平均時(shí)間延時(shí)值展開對比分析。4種算法各自發(fā)送端吞吐量及時(shí)延統(tǒng)計(jì)數(shù)據(jù)見表2。通過仿真實(shí)驗(yàn)的QLCC算法及其他算法的擁塞控制窗口數(shù)據(jù)變化情況分析發(fā)現(xiàn),網(wǎng)絡(luò)環(huán)境下只設(shè)置發(fā)送端時(shí),QLCC算法可在低時(shí)延下(無須排隊(duì)的情況下)具備較高的吞吐量,雖然此吞吐量要低于TCP Compound算法,但卻比TCP NewReno算法、TCP CUBIC算法更高。QLCC算法的平均時(shí)延僅為0.012 8 s左右,而其他算法的平均時(shí)延均高于0.12 s,說明QLCC算法比其他3種算法的時(shí)延更低。這是由于QLCC算法數(shù)據(jù)傳送時(shí),鏈路上無數(shù)據(jù)包排隊(duì)現(xiàn)象,因而數(shù)據(jù)傳輸更加高效。
4.2.2? 算法公平性實(shí)驗(yàn)
在對QLCC算法的公平性進(jìn)行檢驗(yàn)時(shí),需要在網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中設(shè)置4個(gè)發(fā)送端,將上述4種算法分別嵌入其中,并將瓶頸鏈路的帶寬及時(shí)延設(shè)置為10 Mb及10 ms,隊(duì)列排隊(duì)值及模擬時(shí)間值分別設(shè)置為1 000 kpt及100 s。通過仿真實(shí)驗(yàn)可以獲取4種算法網(wǎng)絡(luò)擁塞控制算法協(xié)議內(nèi)公平性對比數(shù)據(jù)。其中QLCC算法及TCP CUBIC算法的網(wǎng)絡(luò)公平因子均為1.000 0,而TCP NewReno算法及TCP CUBIC算法的網(wǎng)絡(luò)公平因子分別是0.977 5及0.990 0。QLCC算法的公平性在4種算法中居于第二,雖不如TCP Compound算法,但比TCP NewReno算法及TCP CUBIC算法更為優(yōu)異。并且QLCC的4個(gè)發(fā)送端吞吐量在前期快速提升后以極快的速度進(jìn)行收斂, 在整個(gè)仿真實(shí)驗(yàn)過程中,4個(gè)發(fā)送端的瞬時(shí)吞吐量持平,由此可見,相較于其他3種算法而言,QLCC算法的公平性更佳[5]。
4.2.3? 隨機(jī)丟包環(huán)境下吞吐量實(shí)驗(yàn)
此實(shí)驗(yàn)過程中,在網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中只設(shè)置1個(gè)發(fā)送端,所有實(shí)驗(yàn)參數(shù)設(shè)置均與網(wǎng)絡(luò)吞吐量實(shí)驗(yàn)相同,即瓶頸鏈路帶寬、延時(shí)、隊(duì)列排隊(duì)值和模擬時(shí)間分別為5 Mb、10 ms、100 kpt和100 s。之后將4種算法分別嵌入到4個(gè)發(fā)送端中。通過仿真實(shí)驗(yàn)可以得到4種算法在丟包環(huán)境下的吞吐量情況。其中,在丟包率為1%時(shí),TCP Compound算法、TCP NewReno算法、TCP CUBIC算法的吞吐量均出現(xiàn)了明顯下滑趨勢,導(dǎo)致此現(xiàn)象的原因是這些傳統(tǒng)網(wǎng)絡(luò)擁塞控制算法均以丟包反饋?zhàn)鳛樵O(shè)計(jì)依據(jù),因而在丟包越多的情況下,數(shù)據(jù)包傳送速率越低,因而其吞吐量出現(xiàn)了不斷下降現(xiàn)象。而QLCC算法在丟包率達(dá)到25%后吞吐量才出現(xiàn)下滑,是因?yàn)榇藭r(shí)QLCC算法所收集及學(xué)習(xí)的有價(jià)值信息量有所不足,對其決策制定產(chǎn)生了影響[6]。然而相較于其他3種算法而言,相同丟包率情況下,QLCC算法的吞吐量更高。這說明,QLCC算法具備更強(qiáng)的抗丟包性能。如圖3所示。
5? 結(jié)論
基于QLCC的網(wǎng)絡(luò)擁塞控制算法可通過簡化網(wǎng)絡(luò)擁塞控制過程,使之與馬爾科夫決策過程更加契合,并可基于強(qiáng)化學(xué)習(xí)中的Q-learning算法完成網(wǎng)絡(luò)擁塞控制模型的求解。相較于傳統(tǒng)網(wǎng)絡(luò)擁塞控制方法而言,此種基于強(qiáng)化學(xué)習(xí)的新型網(wǎng)絡(luò)擁塞控制算法的網(wǎng)絡(luò)吞吐量、公平性均較強(qiáng),并且丟包環(huán)境下的吞吐量更高,說明其抗丟包能力更強(qiáng)。通過仿真實(shí)驗(yàn)證實(shí),此種智能化網(wǎng)絡(luò)擁塞控制算法在化解網(wǎng)絡(luò)擁塞問題方面具備更高的應(yīng)用價(jià)值。
參考文獻(xiàn):
[1] 何佳晉.基于深度強(qiáng)化學(xué)習(xí)方法的擁塞控制研究[D].哈爾濱:哈爾濱理工大學(xué),2021.
[2] 楊明.網(wǎng)絡(luò)擁塞控制算法BBR的公平性研究與改進(jìn)[D].武漢:華中科技大學(xué),2020.
[3] 成誠.基于在線學(xué)習(xí)的數(shù)據(jù)中心網(wǎng)絡(luò)擁塞控制算法的設(shè)計(jì)與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2020.
[4] 劉安戰(zhàn).移動延遲容忍傳感網(wǎng)絡(luò)擁塞控制算法研究[J].計(jì)算機(jī)仿真,2020,37(2):307-311.
[5] 李少博.端到端的TCP擁塞控制算法研究[D].哈爾濱:哈爾濱理工大學(xué),2018.
[6] 張奎.基于NS2的網(wǎng)絡(luò)擁塞控制算法實(shí)驗(yàn)仿真與分析[J].青海師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,37(2):36-41.