秦 爽,趙冠群,馮 鋼
(電子科技大學(xué)通信抗干擾技術(shù)國家級重點實驗室 成都 611731)
以5G 為代表的未來移動通信系統(tǒng),將廣泛采用SDN 和NFV 技術(shù),通過構(gòu)建軟件定義的移動通信網(wǎng)絡(luò),為用戶提供靈活按需的網(wǎng)絡(luò)傳輸服務(wù)[1-2]。在軟件定義的移動通信網(wǎng)絡(luò)架構(gòu)下,將采用網(wǎng)絡(luò)切片技術(shù),來滿足多樣化業(yè)務(wù)的差異化服務(wù)需求,也越來越成為研究者的共識[2-4]。每個端到端網(wǎng)絡(luò)切片服務(wù)于網(wǎng)絡(luò)中某一類具有特定需求的業(yè)務(wù),在邏輯功能層面對應(yīng)相互獨立的端到端虛擬網(wǎng)絡(luò),多個切片對應(yīng)的不同邏輯虛擬網(wǎng)絡(luò),將通過映射部署到相同的物理網(wǎng)絡(luò)之上。
當(dāng)移動用戶到達(dá)網(wǎng)絡(luò)時,需要選擇一個滿足自身業(yè)務(wù)服務(wù)需求的切片接入網(wǎng)絡(luò)。在實際的網(wǎng)絡(luò)中,網(wǎng)絡(luò)條件和用戶業(yè)務(wù)需求動態(tài)變化,使得用戶到不同接入站點的信道條件以及不同切片中的可用資源情況不斷變化。因此,為了保證用戶的接入和傳輸性能,需要根據(jù)用戶的接入信道條件和可用資源情況,進(jìn)行用戶接入切片的動態(tài)切換。在傳統(tǒng)的移動通信網(wǎng)絡(luò)中,用戶的接入切換只需要考慮從一個接入站點切換到另一個接入站點。而在基于切片的軟件定義移動通信網(wǎng)絡(luò)中,一個接入站點上往往部署了多個不同的網(wǎng)絡(luò)切片,而同一切片可能覆蓋多個不同的接入站點。由此,用戶與接入站點二者之間的接入選擇和切換問題,就變成了用戶、切片和接入站點三者之間的優(yōu)化匹配問題。
在移動通信網(wǎng)絡(luò)中,用戶的接入切換一直是研究熱點[5-8]。但現(xiàn)有的研究主要關(guān)注傳統(tǒng)移動通信網(wǎng)絡(luò)中的用戶切換問題,而對于如何在基于切片的軟件定義移動通信網(wǎng)絡(luò)中,進(jìn)行用戶接入切片的動態(tài)優(yōu)化切換,保障用戶業(yè)務(wù)的服務(wù)性能,還少有涉及。同時,在實際的通信系統(tǒng)中,切片的可用傳輸資源有限,接入同一切片的多個用戶將競爭有限的傳輸資源。某一用戶的接入選擇,會改變接入切片中可用傳輸資源數(shù)量,進(jìn)而對其他用戶的接入和傳輸性能產(chǎn)生影響。因此,需要綜合考慮網(wǎng)絡(luò)中多個用戶的接入決策之間的相互制約和影響關(guān)系,從提升多個用戶整體傳輸性能的角度,設(shè)計多用戶協(xié)同的接入切片動態(tài)切換機(jī)制。
本文重點關(guān)注了基于網(wǎng)絡(luò)切片的軟件定義移動網(wǎng)絡(luò)中,移動用戶接入切片的動態(tài)優(yōu)化選擇和切換問題。首先,考慮到多個用戶共存的網(wǎng)絡(luò)中,不同用戶的接入選擇將相互影響相互制約,結(jié)合移動通信應(yīng)用場景下,動態(tài)的網(wǎng)絡(luò)條件和業(yè)務(wù)需求對用戶接入決策的影響,將網(wǎng)絡(luò)中多個用戶的接入切換建模為一個多人隨機(jī)博弈問題。然后,通過多智體強(qiáng)化 學(xué) 習(xí)(multi-agent reinforcement learning, MARL)方法[9-11]對該問題進(jìn)行求解,并提出了一種基于分布式多智體強(qiáng)化學(xué)習(xí)[12]的多用戶接入切換算法。在此基礎(chǔ)上,通過仿真實驗,驗證本文提出算法的性能。
本文考慮的網(wǎng)絡(luò)模型如圖1 所示,M 個基站組成的移動網(wǎng)絡(luò)中部署了N 個網(wǎng)絡(luò)切片。多個切片部署在相同的物理網(wǎng)絡(luò)之上,共享相同的物理傳輸資源,包括接入網(wǎng)的無線傳輸帶寬和功率,以及核心網(wǎng)的傳輸帶寬。一個切片可能覆蓋多個基站,一個基站上也可能部署多個不同的切片,基站的無線傳輸資源將根據(jù)需求被分配給各個切片。在接入網(wǎng),多個不同的基站之間可以通過Xn 接口相互連接,各個基站通過NG 接口連接到核心網(wǎng)中的AMF(access and mobility management Function)。AMF 負(fù)責(zé)切片的部署和管理,一個AMF 可以同時管理多個切片。AMF 通過與SDN 控制器的信息交互,可以獲得切片在核心網(wǎng)中可用的傳輸資源情況,并通過NG 接口告知部署了該切片的各個基站。而一個用戶可能處于多個接入站點的覆蓋范圍內(nèi),由此通過基站的廣播信息,可以獲得不同基站上可接入的切片狀態(tài)信息,并從中選擇合適的切片接入。為了便于分析,本文假設(shè)一個用戶只產(chǎn)生一條業(yè)務(wù)流,用戶和業(yè)務(wù)是一一對應(yīng)關(guān)系。
當(dāng)一個用戶接入某一切片,其獲得的服務(wù)速率,同時受切片在接入網(wǎng)和核心網(wǎng)中可用傳輸資源的限制。如果用戶通過基站m 上的切片n 接入網(wǎng)絡(luò),則其在接入端獲得的無線接入速率 rm,n將由用戶到基站m 的信道條件,以及此時切片n 在站點m 上可用的無線傳輸帶寬和傳輸功率共同決定。而用戶在核心網(wǎng)能夠獲得傳輸速率 cn,則由切片n 在核心網(wǎng)部分的容量以及業(yè)務(wù)負(fù)載共同決定。因此,用戶接入網(wǎng)絡(luò)后可以獲得的端到端服務(wù)速率bm,n=min(rm,n,cn)。由于如何進(jìn)行切片傳輸資源的優(yōu)化配置并非本文的關(guān)注重點,為了便于分析,本文簡單假設(shè)切片覆蓋范圍內(nèi)的用戶信道條件相近,且切片可用的接入網(wǎng)和核心網(wǎng)傳輸資源平均分配給接入切片的多個用戶。因此,用表示站點m 上的切片n 能夠提供的總的最大傳輸速率,則當(dāng)有K 個用戶同時通過站點m 上的切片n 接入網(wǎng)絡(luò)時,某一用戶k 獲得服務(wù)速率
由于基站m 通過與AMF 的交互,可以獲得切片n 核心網(wǎng)部分的容量和負(fù)載。結(jié)合切片n 在基站m 獲得的無線傳輸資源數(shù)量,基站可以得出當(dāng)前基站m 上的切片n 能夠提供的最大傳輸速率同時,根據(jù)當(dāng)前接入用戶數(shù)量,基站就可以計算出當(dāng)前有新用戶k 接入網(wǎng)絡(luò)時能夠提供的服務(wù)速率并且可以通過基站廣播,把這一信息提供給用戶。
網(wǎng)絡(luò)用戶的移動及業(yè)務(wù)需求的變化,使得各個切片中服務(wù)的業(yè)務(wù)流不斷到達(dá)和離開。由于每個切片在接入端和核心網(wǎng)可用的傳輸資源有限,切片負(fù)載的變化使得接入用戶獲得的服務(wù)速率動態(tài)變化。由此,考慮網(wǎng)絡(luò)中的用戶每隔一段時間,將根據(jù)當(dāng)前網(wǎng)絡(luò)狀態(tài)的變化,判斷是否需要進(jìn)行接入切片的切換,以獲得更高的服務(wù)速率。
用戶在進(jìn)行接入切換時,會帶來相應(yīng)的信令傳輸、處理時延等切換開銷,頻繁的切換可能導(dǎo)致過大的切換開銷,從而降低用戶體驗和網(wǎng)絡(luò)服務(wù)性能。因此,本文的設(shè)計目標(biāo)是希望在通過用戶接入切片的優(yōu)化切換來提升用戶服務(wù)速率的同時,盡量減少由此帶來的切換開銷。
在實際網(wǎng)絡(luò)中,往往多個用戶同時處于多個切片的覆蓋范圍內(nèi),每個切片可用的傳輸資源有限,一個用戶的接入選擇,將對其他用戶的可用傳輸資源和接入決策產(chǎn)生影響。因此,本文將動態(tài)網(wǎng)絡(luò)條件下,多用戶的周期性接入選擇和切換決策過程建模為一個多用戶隨機(jī)博弈問題。
多用戶隨機(jī)博弈可以看作一個包含多個決策者的馬爾科夫決策過程,并用元組(S,A1,A2,···,AK,r1,r2,···,rK,p)表 示,其中S 為系統(tǒng)狀態(tài)空間, Ak為決策者k 的動作空間, rk:S×A1×···AK→R為回報函數(shù),p 為狀態(tài)轉(zhuǎn)移概率。本文考慮將每個用戶看作一個決策者,在每個決策時刻,用戶k 執(zhí)行動作ak,并且獲得收益 rk( s,a1,a2,···,aK)。用戶所處的狀態(tài)s 會根據(jù)轉(zhuǎn)移概率跳轉(zhuǎn)到下一狀態(tài)s’。
因此,在本文考慮的多用戶切換對應(yīng)的多人隨機(jī)博弈問題中,每個用戶周期性地根據(jù)當(dāng)前網(wǎng)絡(luò)狀態(tài),以最大化自身的累積收益為目標(biāo),進(jìn)行接入切片的切換決策。多用戶隨機(jī)博弈問題中各個組成元素可以表示為:
1) 系統(tǒng)狀態(tài):用 s ∈S表示網(wǎng)絡(luò)狀態(tài),其中S 為所有狀態(tài)的集合。設(shè)網(wǎng)絡(luò)中存在N 個切片,M 個基站,則某一時刻用戶k 所處的狀態(tài)可表示為表示決策者k 當(dāng)前通過基站m 接入切片n,反應(yīng)了用戶當(dāng)前的連接狀態(tài)。的含義如第1 節(jié)所述,表示當(dāng)前時刻,用戶k 如果接入基站m 上的切片n 可以獲得的服務(wù)速率。在實際網(wǎng)絡(luò)中,往往很多基站上只部署了部分切片,因此如果基站m 上沒有部署切片n時,可以在狀態(tài)向量中將對應(yīng)的去掉,從而降低狀態(tài)空間的大小。同時,可以將傳輸速率表示為單位速率的倍數(shù),通過將傳輸速率的離散化來進(jìn)一步簡化狀態(tài)空間,則有其中表示通過基站m 上的切片n 能提供的最大服務(wù)速率。周期,用戶k 采取動作 ak=(m,n)表示用戶k 選擇通過基站m 接入切片n,其中 ak∈Ak,Ak={(m,n)|1}為用戶k 的動作空間。
2) 動作:在本文所考慮的切換問題中,將用戶的動作定義為用戶對接入切片的選擇。在每個決策
4) 回報函數(shù):在某一決策周期,用戶k 處于狀態(tài)s 采取動作 ak后,獲得的立即回報由兩部分決定:一是用戶采取動作后獲得的服務(wù)速率;二是用戶接入切片發(fā)生切換所帶來的切換開銷。
值得注意的是,本文考慮切片將可用傳輸資源平均分配給接入的多個用戶,所以用戶k 處于狀態(tài)s 采取動作 ak后獲得服務(wù)速率與系統(tǒng)跳轉(zhuǎn)后的狀態(tài)相關(guān),受系統(tǒng)中其他用戶的動作影響。因此用fk(s,a1,a2,···,aK)來表示在某一決策周期,處于狀態(tài)s 的用戶k 在所有用戶采取聯(lián)合動作(a1,a2,···,aK)后獲得的服務(wù)速率。為了便于分析,假設(shè)用戶獲得單位服務(wù)速率的收益為1。同時,當(dāng)用戶k 采取動作 ak后,從狀態(tài) s= [Im,n,B1,1,···,Bm,n,···,BM,N]跳轉(zhuǎn)到狀態(tài)用戶的接入切片可能發(fā)生變化,從而帶來切換開銷 gk( s,ak)。開銷函數(shù) gk( s,ak)定義為:
在多用戶隨機(jī)博弈過程中,用戶之間的決策會相互影響。因此考慮每個用戶都是以最大化系統(tǒng)的累積收益為目標(biāo)進(jìn)行切換策略的優(yōu)化決策,從而將用戶的立即回報函數(shù)定義為K 個用戶的總收益,即:
在多人隨機(jī)博弈問題中,如果所有決策者都具有相同的回報函數(shù),則稱為團(tuán)隊博弈。已有研究證明,在團(tuán)隊博弈中,存在全局最優(yōu)均衡點[14]。本文采用多智體強(qiáng)化學(xué)習(xí)(MARL)方法來求解上述多人隨機(jī)博弈問題。
多人隨機(jī)博弈可以看作一個多智體強(qiáng)化學(xué)習(xí)問題。在包含K 個智能體的MARL 中,設(shè)智能體k 的策略為 πk,則根據(jù)文獻(xiàn)[12],其狀態(tài)值函數(shù)可以表示為:
與傳統(tǒng)強(qiáng)化學(xué)習(xí)相比,MARL 存在多個智能體,在求解對應(yīng)的多用戶隨機(jī)博弈問題時,可以將傳統(tǒng)的Q-Learning 方法[15]擴(kuò)展到多智體系統(tǒng)。對于一個K 個智能體構(gòu)成的多智體系統(tǒng),對應(yīng)的Q 函數(shù)可以表示為:
式中, α為探索率, (a1,a2,···,aK)和 (π1,π2,···,πK)分別為K 個智能體的聯(lián)合動作和聯(lián)合策略;rk(s,a1,a2,···,aK)為用戶k 的立即回報,可由式(2)得到。
本文考慮的多用戶切換問題中,在每個決策時刻,一但用戶的聯(lián)合動作 (a1,a2,···,aK)確定,則K 個用戶的連接狀態(tài)就確定了,由此可以確定系統(tǒng)的跳轉(zhuǎn)狀態(tài) s′, 并得到 p(s′|s,a1,a2,···,aK)=1。則式(4)可以簡化為:
由此,對應(yīng)的多智體Q-Learning 算法中,Q函數(shù)的更新公式可表示為:
在基于網(wǎng)絡(luò)切片的軟件定義移動通信網(wǎng)絡(luò)中,(a1,a2,···,aK)相對應(yīng),這使得算法的狀態(tài)空間和動作空間都較大,導(dǎo)致很高的算法復(fù)雜度。因此,本文考慮采用一種分布式的在線多智體Q-Learning算法,每個智能體只維護(hù)與自身動作相對應(yīng)的Q 值函數(shù),降低了算法的復(fù)雜度,同時算法運行過程中用戶之間只需進(jìn)行少量的信息交互。
本文設(shè)計的分布式Q-Learning 算法如下。在該算法中,每次迭代計算,智能體k 根據(jù)當(dāng)前的網(wǎng)絡(luò)s,獨立 地 采取 ε? greedy策 略 選擇自己 的 動作ak。由此,可以得到網(wǎng)絡(luò)中的聯(lián)合動作( a1,a2,···,aK)。利用SDN 控制器,可以方便地實現(xiàn)集中控制的多智體Q-learning 算法。由式(6)可以看到,集中控制算法中,Q 值函數(shù)與所有用戶的聯(lián)合動作執(zhí)行動作后,智能體通過觀察網(wǎng)絡(luò)轉(zhuǎn)移到的新狀態(tài)s’計算得到的立即回報 rk( s,a1,a2,···,ak),并更新對應(yīng)的動作值函數(shù) Qk(s,ak)。
算法 1 基于分布式Q-learning 的動態(tài)切換決策算法
輸入:S; A; r; α; γ;
1) 初始化 Qk(s,ak)=0, ?ak∈Ak,k=1,2,···,K
2) Repeat
3) 獲取當(dāng)前s
4) if exploration then
5) 隨機(jī)選擇 ak∈Ak,k=1,2,···,K
6) if exploitation then
7) ak=argmaxaQk(s,a) ,k=1,2,···,K
8) for k=1,2···,K
9) 觀 察 下 一 狀 態(tài)s′,agent k 獲 得 的 回 報 rk(s,a1,a2,···,aK)
11) s ←s′
12) end for
13) until(完成特定步數(shù)或所有 Qk(s,ak)都收斂)值得注意的是,分布式算法中,每個智能體只需要維護(hù)與自身動作相對應(yīng)的動作值函數(shù) Qk(s,ak),而不需要維護(hù)聯(lián)合動作值函數(shù) Q( s,a1,a2,···,aK)。但這并不表示在算法中,每個智能體完全獨立地進(jìn)行學(xué)習(xí)。由系統(tǒng)狀態(tài)的定義可知,當(dāng)智能體要判斷當(dāng)前所處狀態(tài)時,需要獲得網(wǎng)絡(luò)切片當(dāng)前可以提供的服務(wù)速率。這除了取決于智能體自身的接入選擇決策外,也將受其他智能體接入選擇策略的影響。此外,從算法第10)行可以看到,Q 函數(shù)的更新需要獲得聯(lián)合動作(a1,a2,···,aK)下的立即回報 rk( s,a1,a2,···,aK)。因此,為了計算立即回報,在此多智體系統(tǒng)中,智能體之間需要通過基站進(jìn)行必要的信息交互。
在本文的多用戶隨機(jī)博弈問題中,系統(tǒng)狀態(tài)空間的大小為 |S|, 每個用戶的動作空間大小為 |A|,設(shè)用戶的數(shù)量為K。則可以得到,在對應(yīng)的分布式Q-Learning 算法執(zhí)行過程中,系統(tǒng)中所有智能體需要維護(hù)的Q 值表中狀態(tài)-動作對的總數(shù)為 K· |S|·|A|。因此,在算法運行過程中,存儲所有Q 值表所需要的存儲空間復(fù)雜度和算法每次迭代運算的計算復(fù)雜度都是 K· |S|·|A|。
與本文中采用的分布式Q-learning 算法相比,傳統(tǒng)的多智體算法中,動作值函數(shù)由所有智能體的聯(lián)合動作決定,表示為 Q( s,a1,a2...,aK),則每個智能體對應(yīng)Q 值表中的狀態(tài)-動作對的個數(shù)就變?yōu)榱藎S|·|A|K。因此,系統(tǒng)中所有智能體需要維護(hù)的Q值表中狀態(tài)-動作對的總數(shù)就是 K· |S|·|A|K。因此,傳統(tǒng)的多智體Q-learning 算法運行過程中,空間復(fù)雜度和每次迭代的計算復(fù)雜度為 K· |S|·|A|K。相比于傳統(tǒng)的多智體Q-learning 算法,算法1 采用的分布式多智體Q-learning 算法在計算復(fù)雜度和空間復(fù)雜度上都有明顯的提升。
在仿真實驗中,考慮將設(shè)計的MARL 算法與多種傳統(tǒng)算法性能進(jìn)行對比,對比算法包括:
1) Fixed 算法:用戶在到達(dá)網(wǎng)絡(luò)后,固定選擇一個切片接入,不進(jìn)行切換;
2) RSS-based 算法:在每個決策時間點,用戶總是選擇RSS 最大的基站上的切片接入;
3) BW-based 算法:在每個決策時間點,用戶總是選擇能夠提供最大服務(wù)速率的切片接入;
4) SAW (simple additive weighting method)算法:用戶僅考慮自己采取的動作帶來的收益,不考慮用戶之間的相互影響。在每個決策時間點,選擇收益最大的切片接入。
在圖1 網(wǎng)絡(luò)場景下進(jìn)行仿真實驗,仿真參數(shù)如表1 所示。假設(shè)每個基站覆蓋范圍內(nèi)有業(yè)務(wù)不斷動態(tài)到達(dá)或離開,業(yè)務(wù)的到達(dá)和離開服從泊松分布,對應(yīng)的聯(lián)合到達(dá)速率可以表示為 λ= (λ1,λ2,···,λM),其中 λm為基站m 上的用戶到達(dá)速率,同理有μ=(μ1,μ2,···,μM)。本文中的數(shù)值結(jié)果為100 次隨機(jī)仿真結(jié)果的平均值。
表1 仿真實驗參數(shù)
圖2 和圖3 分別給出了系統(tǒng)中的累積回報和吞吐量隨決策步數(shù)的變化關(guān)系。如圖所示,在不同的算法下,系統(tǒng)累積回報和吞吐量的值都隨著決策步數(shù)的增加而遞增,其中本文提出的MARL 算法的性能總是優(yōu)于其他算法。BW-based 算法和RSS 算法分別根據(jù)服務(wù)速率最大和RSS 最大進(jìn)行切換決策,沒有考慮切換開銷帶來的影響,可能導(dǎo)致較多的切換和較大的切換開銷。Fixed 算法在用戶接入網(wǎng)絡(luò)后不進(jìn)行切換,當(dāng)網(wǎng)絡(luò)條件發(fā)生變化時無法切換到性能更好的切片。而SAW 算法在進(jìn)行切換決策時,不考慮其他用戶決策的影響,可能導(dǎo)致多個用戶選擇相同切片接入,從而競爭有限的切片資源。而MARL 算法一方面綜合考慮了用戶服務(wù)速率和切換開銷的之間相互影響和約束關(guān)系,另一方面也考慮了系統(tǒng)中多個用戶間的相互競爭關(guān)系,因此能取得比其他幾種算法更好的性能。
圖4對比了不同算法下系統(tǒng)中的累積切換次數(shù)。從圖中可以看出,除了Fixed 算法不會進(jìn)行切換,MARL 算法的切換次數(shù)少于其他幾種算法。其中,RSS 算法的切換次數(shù)相對較少,這是因為仿真中沒有考慮用戶移動,用戶到接入站點的信道條件相對固定,當(dāng)用戶找到信道強(qiáng)度較好的基站就基本不再切換。而SAW 算法由于沒有考慮其他用戶接入選擇的影響,容易造成多個用戶競爭同一切片資源,導(dǎo)致切換次數(shù)較高。BW-based 算法只考慮了當(dāng)前切片可以提供的服務(wù)速率,而沒有考慮切換帶來的開銷,也會導(dǎo)致切換次數(shù)較高。
圖5給出了切換開銷 Kc與系統(tǒng)中累積回報的關(guān)系。隨著 Kc增大,各算法的累積回報逐漸減小。當(dāng)Kc值較大時,如圖 Kc>5時,切換開銷很大,用戶通過切換獲得的服務(wù)速率增益小于切換帶來的開銷,因此MARL 算法下,用戶基本不進(jìn)行切換,算法曲線與Fixed 算法重合。同理,SAW 算法在切換開銷較大時也很少切換,使得累積回報基本保持不變。而BW-based 算法在進(jìn)行切換決策時并沒有考慮切換開銷的影響,因此不會因為 Kc的增大額而調(diào)整自己的切換策略,使得其累積回報受 Kc影響較大,隨著 Kc的增大而持續(xù)下降。
圖6 給出了隨著切換開銷的增大,不同切換算法下,系統(tǒng)吞吐量的變化情況。由于 Kc較大時,為了避免較多的切換開銷,MARL 算法傾向于較少的切換,使得很多用戶不會切換到當(dāng)前能夠提供最大服務(wù)速率的切片,造成系統(tǒng)吞吐量下降。同理,SAW 算法吞吐量的變化規(guī)律與MARL 算法類似,同樣隨著 Kc的增大而降低。而其他3 種算法在進(jìn)行切換決策時,沒有考慮切換開銷的影響,隨著 Kc的增大,系統(tǒng)吞吐量基本不受影響。綜合圖2~圖6可以看到,與其他算法相比,本文提出的MARL算法能獲得較好的網(wǎng)絡(luò)傳輸和服務(wù)性能。
最后,圖7 和圖8 給出了本文提出的MARL算法的收斂性能。如圖7 所示,當(dāng) α= 0.2時,算法在進(jìn)行約20 000 次迭代訓(xùn)練后逐漸收斂。圖中結(jié)果顯示,α的取值越大,算法的收斂速度越快,但相應(yīng)的數(shù)值結(jié)果波動越大,反之亦然。在此基礎(chǔ)上,圖8 給出了所采用的分布式Q-Learning 算法中,對應(yīng)Q 值函數(shù)的收斂情況。Q(s,ai)為系統(tǒng)處于狀態(tài)s 時,采取動作ai得到的動作值函數(shù)。從圖中可以看到,與圖7 相似,在經(jīng)過約20 000 次迭代訓(xùn)練后,Q 函數(shù)的取值趨于穩(wěn)定。
本文研究了面向網(wǎng)絡(luò)切片的移動網(wǎng)絡(luò)中,移動用戶接入切片的動態(tài)優(yōu)化切換問題??紤]到網(wǎng)絡(luò)中,多個用戶之間的相互影響和制約關(guān)系,將多用戶協(xié)同的接入切片切換過程建模為一個多人隨機(jī)博弈問題。在此基礎(chǔ)上,設(shè)計了基于多智體強(qiáng)化學(xué)習(xí)的多用戶接入選擇和切換算法。仿真實驗的結(jié)果證明,本文提出的算法能夠在提升網(wǎng)絡(luò)服務(wù)性能的同時降低網(wǎng)絡(luò)中的切換開銷。