周鑫 何攀峰 陳勇 錢鵬智
(1. 陸軍工程大學(xué)通信工程學(xué)院,南京 210007;2. 國防科技大學(xué)第六十三研究所,南京 210007)
隨著無線通信業(yè)務(wù)的飛速增長,頻譜資源日益短缺. 基于認(rèn)知無線電(cognitive radio, CR) 技術(shù)[1]的頻譜共享策略作為一種能夠提升頻譜利用效率,緩解頻譜資源緊缺的有效方法,近年來引起了人們的廣泛關(guān)注. 頻譜共享方式可以分為填充式(overlay)和下墊式(underlay)兩種[2]. overlay 頻譜共享方式中,系統(tǒng)將空閑信道分配給次用戶,次用戶能夠以最大功率傳輸信息[3]. underlay 頻譜共享方式中,若次用戶發(fā)射功率傳輸?shù)街饔脩艚邮諜C(jī)時(shí)在干擾門限以下,即可與主用戶共同使用信道[4]. 文獻(xiàn)[5]采用overlay頻譜共享方式,提出了基于頻譜可用性的子載波功率分配算法,但該算法需要對(duì)信道狀態(tài)進(jìn)行周期性感知. 文獻(xiàn)[6] 提出了underlay 頻譜共享算法,可有效進(jìn)行信道選擇和功率控制. 但在信道負(fù)載率較低,即主用戶占用信道的時(shí)隙較少的情況下,會(huì)對(duì)頻譜資源造成一定程度浪費(fèi).
綜合兩種共享方式的優(yōu)點(diǎn)和不足,學(xué)者們提出了面向混合頻譜共享方式的動(dòng)態(tài)頻譜分配策略,使系統(tǒng)可根據(jù)次用戶的異質(zhì)性和信道狀態(tài),切換頻譜共享方式,最大化系統(tǒng)吞吐量. 文獻(xiàn)[7]提出了在不完美感知的場(chǎng)景下,根據(jù)用戶間距離切換頻譜共享方式的分配策略,提高了次用戶吞吐量,但仍然依賴信道感知. 文獻(xiàn)[8]將混合頻譜共享方式問題建模為多臂賭博機(jī)(multi-armed bandit, MAB)問題,并通過組合多個(gè)單用戶MAB 策略提供了一種有效的信道分配算法,降低了用戶間沖突率. 雖然系統(tǒng)不需要信道感知,但犧牲了系統(tǒng)吞吐量. 因此,混合頻譜共享方式對(duì)信道感知性能提出了更高的要求. 當(dāng)系統(tǒng)感知結(jié)果較差時(shí),如何提高混合頻譜共享模式下動(dòng)態(tài)頻譜分配的性能,是實(shí)際應(yīng)用中亟需解決的問題.
Q 學(xué)習(xí)是一種無模型強(qiáng)化學(xué)習(xí)算法,能夠在無信道感知的情況下,通過Q 值迭代找到最優(yōu)策略. 近年來,Q 學(xué)習(xí)技術(shù)在動(dòng)態(tài)頻譜分配中應(yīng)用比較廣泛,也取得了一些進(jìn)展. 文獻(xiàn)[9]提出了ε 貪心策略下的多智能體Q 學(xué)習(xí)(multi-agent Q-learning,MAQL)算法,將多個(gè)智能體的回報(bào)函數(shù)用期望回報(bào)矩陣的形式表示,而后跟蹤每個(gè)智能體在學(xué)習(xí)過程中最大Q 值對(duì)應(yīng)的動(dòng)作,進(jìn)行頻譜分配. 但該算法需要將所有動(dòng)作組合枚舉,系統(tǒng)復(fù)雜度較大. 文獻(xiàn)[10]提出了多智能體抗干擾(collaborative multi-Agent anti-jamming,CMAA)算法,雖然該算法是解決通信抗干擾問題,但可將干擾源看成主用戶,用以解決多智能體動(dòng)態(tài)頻譜分配問題. 該算法中多智能體依次學(xué)習(xí)外部環(huán)境,廣播其選擇的信道,其他智能體將其視為環(huán)境的一部分,繼續(xù)學(xué)習(xí). 但該文獻(xiàn)研究對(duì)象是掃頻干擾,系統(tǒng)狀態(tài)轉(zhuǎn)移規(guī)律性較強(qiáng),易于學(xué)習(xí). 實(shí)際應(yīng)用中,主用戶通常在各自信道中傳輸,主用戶間的相關(guān)性較小,學(xué)習(xí)難度相對(duì)較大.
綜上,Q 學(xué)習(xí)在解決動(dòng)態(tài)頻譜分配問題中,存在一定優(yōu)勢(shì),但大多應(yīng)用于overlay 頻譜共享方式,這是因?yàn)镼 學(xué)習(xí)方法擅長學(xué)習(xí)主用戶忙閑規(guī)律,從而便于系統(tǒng)找到頻譜空洞,而且普通的Q 學(xué)習(xí)方法,只能根據(jù)信道Q 值大小決定分配哪個(gè)信道,但無法判斷應(yīng)以何種共享方式共享信道. 因此,在某些無法實(shí)施信道感知的場(chǎng)景下,針對(duì)混合頻譜共享方式,如何進(jìn)行動(dòng)態(tài)頻譜分配,是頻譜分配問題中面臨的一個(gè)難點(diǎn).
本文在上述算法的啟發(fā)下,提出一種混合共享方式下動(dòng)態(tài)頻譜分配算法. 該算法可在無信道檢測(cè)和信道先驗(yàn)知識(shí)的條件下,能根據(jù)前一時(shí)隙信道狀態(tài)和次用戶傳輸速率需求,實(shí)現(xiàn)動(dòng)態(tài)信道分配和頻譜共享方式確定,避免次用戶間沖突,減少主次用戶間沖突,有效提升次用戶總吞吐量.
本文主要研究CR 網(wǎng)絡(luò)中的頻譜分配問題,其網(wǎng)絡(luò)模型如圖1 所示.
圖1 網(wǎng)絡(luò)模型示意圖Fig. 1 Schematic diagram of network model
一個(gè)小區(qū)有M個(gè)次用戶和N個(gè)主用戶通過基站進(jìn)行通信(N≥M). 有N個(gè)帶寬為B的相互獨(dú)立信道,分別授權(quán)給N個(gè)主用戶,主用戶可隨時(shí)接入授權(quán)信道,無需考慮次用戶的傳輸情況. 同一時(shí)隙內(nèi),主用戶忙閑狀態(tài)保持不變,主用戶在整個(gè)通信過程中只占用本授權(quán)信道. 次用戶j接入信道時(shí),若主用戶未占用信道,則次用戶可采用overlay 頻譜共享方式,以最大發(fā)射功率傳輸信息;若主用戶占用信道,則次用戶只能選擇釋放信道或降低發(fā)射功率Pcj以u(píng)nderlay 頻譜共享方式與主用戶共用信道. 為便于分析,每個(gè)次用戶同一時(shí)隙只能分配一個(gè)信道,且每個(gè)信道同一時(shí)隙只能分配給一個(gè)次用戶.
圖2 系統(tǒng)共存模型示意圖Fig. 2 Schematic diagram of system coexistence model
實(shí)際情況中,傳播并不總是發(fā)生在平坦地面,而是存在多條傳播路徑的可能性,視距路徑也往往會(huì)存在被障礙物遮擋等情況,因此理論上功率以d-2衰減. 但是由于實(shí)際信道的不同,功率以d-g衰減,g為衰減系數(shù),根據(jù)測(cè)算,g∈(1.5,5.5),g=4為各種環(huán)境中的一個(gè)平均值[12].
根據(jù)系統(tǒng)模型和香農(nóng)公式,可得次用戶j信噪比為
假設(shè)主用戶占用信道狀態(tài)符合兩狀態(tài)馬爾科夫過程,如圖3 所示.
圖3 兩狀態(tài)馬爾科夫過程示意圖Fig. 3 Schematic diagram of the two-state Markov process
主用戶在空閑和忙碌狀態(tài)下的持續(xù)時(shí)間,分別符合參數(shù)為λ(閑)和μ(忙)的指數(shù)分布,將傳輸過程離散為t個(gè)長度為τ的時(shí)隙,則可得主用戶狀態(tài)轉(zhuǎn)移概率矩陣為[13]
根據(jù)狀態(tài)轉(zhuǎn)移概率矩陣Pz,模擬出主用戶在各時(shí)隙內(nèi)忙閑狀態(tài).
系統(tǒng)根據(jù)信道衰落、主用戶干擾門限、次用戶最大發(fā)射功率、最低傳輸速率,以及上一時(shí)隙各信道狀態(tài)等信息,為次用戶分配信道和共享方式. 若以overlay 方式共享,但當(dāng)前時(shí)隙信道被主用戶占用,則記作主次用戶間發(fā)生沖突,次用戶無法傳輸信息. 若以u(píng)nderlay 方式共享,但次用戶以最低速率傳輸仍對(duì)主用戶產(chǎn)生有害干擾,則記作主次用戶間發(fā)生沖突,次用戶無法傳輸信息. 當(dāng)不止一個(gè)次用戶共用信道時(shí),則記作該信道內(nèi)次用戶間發(fā)生沖突,次用戶無法傳輸信息.
本問題的目標(biāo)是在次用戶之間不發(fā)生沖突,不對(duì)主用戶產(chǎn)生有害干擾,且滿足自身最低傳輸速率的條件下,次用戶總吞吐量最大,則目標(biāo)函數(shù)為
將Q 學(xué)習(xí)算法應(yīng)用于動(dòng)態(tài)頻譜分配問題,需將上述問題建模為一個(gè)有限馬爾科夫決策過程,定義智能體、狀態(tài)集、動(dòng)作集等要素,并通過如下迭代規(guī)則更新Q矩陣[14]:
智能體:系統(tǒng)中與各次用戶對(duì)應(yīng)的虛擬次用戶.
動(dòng)作集A:A∈{a1o,a1u,a2o,a2u,···,aMo,aMu},表示智能體可以采取的動(dòng)作集合. 每個(gè)智能體有N個(gè)信道可供選擇,每個(gè)信道存在overlay 和underlay 兩種共享方式,因此動(dòng)作空間由 2N個(gè)動(dòng)作構(gòu)成.aio表示選擇第i個(gè)信道,并以overlay 方式共享信道;aiu表示選擇第i個(gè)信道,并以u(píng)nderlay 方式共享信道.
回報(bào)值r:回報(bào)值r是與次用戶吞吐量相關(guān)的反饋值,本文定義為
從提升次用戶總吞吐量,同時(shí)盡量降低主次用戶間沖突率角度出發(fā),本文提出了針對(duì)混合頻譜共享方式的基于Q 學(xué)習(xí)的動(dòng)態(tài)頻譜分配方案,具體算法流程如下:
步驟1 初始化. 將各虛擬次用戶的Q矩陣Q={Qs,a|Qs,a∈R}2N×2N、選擇概率矩陣P={ps,a|ps,a∈[0,1]}2N×2N、狀態(tài)動(dòng)作對(duì)訪問計(jì)數(shù)矩陣V={visits,a|visits,a∈N?}2N×2N初始化為零矩陣. 初始化傳輸時(shí)隙數(shù)t、折現(xiàn)因子 γ、退火溫度T等參數(shù)以及系統(tǒng)初始狀態(tài)s0,初始化信道狀態(tài)統(tǒng)計(jì)向量st={s1,s2,···,sN}為s0.
步驟2 信道初選. 各虛擬次用戶統(tǒng)計(jì)前一時(shí)隙各信道主用戶的占用狀態(tài),更新信道狀態(tài)統(tǒng)計(jì)向量st,在狀態(tài)集S中找到對(duì)應(yīng)的狀態(tài)序號(hào)s={s1s2···sN},根據(jù)Q矩陣和玻爾茲曼學(xué)習(xí)策略[16],更新選擇概率矩陣P中s狀態(tài)下各動(dòng)作的選擇概率,并根據(jù)概率進(jìn)行信道初選,有較高Q值的動(dòng)作則有較大概率被選中. 虛擬次用戶選擇概率矩陣P中各元素p(s,a)通過如下規(guī)則更新:
式中:ρ(a/s)為在s狀態(tài)下選擇動(dòng)作a的概率;Q(s,a)為Q矩陣中s狀態(tài)下動(dòng)作a的Q值;T為退火溫度,表示Q值大小對(duì)概率的影響程度,T較大時(shí),Q值對(duì)概率影響較小,反之則影響較大.
步驟3 信道再分配. 建立并初始化沖突統(tǒng)計(jì)矩陣H={hx,y|hx,y∈{0,1}}M×M為零矩陣,用來統(tǒng)計(jì)M個(gè)虛擬次用戶信道初選的沖突情況,hx,y=1表示次用戶y初選信道與次用戶x初選信道沖突,hx,y=0表示次用戶y初選信道與次用戶x初選信道不沖突. 對(duì)沒有發(fā)生沖突的虛擬次用戶,按其初選信道進(jìn)行分配. 對(duì)發(fā)生沖突的虛擬次用戶,系統(tǒng)需根據(jù)其選擇概率矩陣P,進(jìn)行信道再分配:在發(fā)生沖突的各虛擬次用戶選擇概率矩陣P中,找到與其狀態(tài)動(dòng)作對(duì)(s,a)相對(duì)應(yīng)的概率值ρ(a/s),并進(jìn)行比較,概率值最大的虛擬次用戶可使用此信道,剩余虛擬次用戶在剩余信道中,選擇狀態(tài)s下各自最大概率值對(duì)應(yīng)的動(dòng)作,更新沖突統(tǒng)計(jì)矩陣H;若仍有沖突,繼續(xù)比較所選動(dòng)作對(duì)應(yīng)的概率值,直到無虛擬次用戶沖突,本時(shí)隙信道分配結(jié)束,找到所選動(dòng)作對(duì)應(yīng)的信道和共享方式,并下發(fā)信道分配方案.
步驟4 得到回報(bào)值. 執(zhí)行信道分配方案,根據(jù)式(11)計(jì)算本時(shí)隙各虛擬次用戶的回報(bào)值.
步驟5 更新Q矩陣. 各虛擬次用戶根據(jù)回報(bào)值rj、訪問計(jì)數(shù)矩陣V和式(9),更新Q矩陣.
步驟6 參數(shù)更新. 時(shí)隙結(jié)束后,傳輸時(shí)隙數(shù)t加1,退火溫度T以倒數(shù)規(guī)律隨t增加而減小,信道狀態(tài)統(tǒng)計(jì)向量st更新為前一時(shí)隙各信道主用戶的忙閑狀態(tài).
步驟7 判斷t是否滿足結(jié)束條件,若不滿足,進(jìn)入步驟2,若滿足則算法結(jié)束. 算法流程如圖4 所示.
圖4 本文算法流程圖Fig. 4 The algorithm flow chart of this paper
本文考慮一個(gè)由N個(gè)主用戶、M個(gè)次用戶構(gòu)成的CR 網(wǎng)絡(luò),為驗(yàn)證混合頻譜共享方式的可行性和優(yōu)越性以及本文算法的有效性,本節(jié)采用仿真對(duì)比方法分析算法的性能.
系統(tǒng)仿真參數(shù)設(shè)置如表1 所示.
表1 系統(tǒng)仿真參數(shù)Tab. 1 System simulation parameters
表2 主用戶仿真參數(shù)Tab. 2 Simulation parameters of each primary user
表3 次用戶仿真參數(shù)Tab. 3 Simulation parameters of each secondary user
設(shè)置退火起始溫度Ts=30 000,終止溫度Te=1,退火溫度T隨著傳輸時(shí)隙數(shù)t增加,以參數(shù)為1.5 的倒數(shù)規(guī)律遞減,減小至終止溫度后停止遞減. 仿真長度為30 000 個(gè)時(shí)隙,為了便于分析,將30 000 個(gè)時(shí)隙分為100 個(gè)相等的學(xué)習(xí)階段,每個(gè)學(xué)習(xí)階段300 個(gè)時(shí)隙,統(tǒng)計(jì)各學(xué)習(xí)階段次用戶總吞吐量和用戶間沖突率,同時(shí)采用蒙特卡洛實(shí)驗(yàn)策略,每個(gè)時(shí)隙進(jìn)行200 次相互獨(dú)立實(shí)驗(yàn)并取其平均值為最后實(shí)驗(yàn)結(jié)果.
將本文算法與CMAA 算法[10]和underlay 頻譜分配算法[6]進(jìn)行比較. CMAA 算法和underlay 頻譜分配算法分別為overlay 共享方式和underlay 共享方式,且均不依賴信道檢測(cè),與本文場(chǎng)景相似,因此加入對(duì)比.
圖5 是CMAA 算法、本文算法和underlay 頻譜分配算法的次用戶總吞吐量對(duì)比. 可以看出,在學(xué)習(xí)初期,三種算法吐量均較低,且CMAA 算法高于本文算法和underlay 頻譜分配算法. 這是因?yàn)樵趯W(xué)習(xí)初期,三種算法分別接近于在overlay、混合和underlay三種共享方式中隨機(jī)選擇,且仿真中系統(tǒng)各信道負(fù)載率較低. 所以在接近隨機(jī)選擇情況下,吞吐量方面overlay 共享方式大于underlay 共享方式,混合共享方式居中. 隨著傳輸時(shí)隙增加,三種算法均能夠不斷與外部環(huán)境進(jìn)行交互學(xué)習(xí),優(yōu)化信道分配策略,提升系統(tǒng)性能,并分別在第35、30 和40 學(xué)習(xí)階段逐漸收斂. 收斂后,本文算法與CMAA 算法相比,次用戶總吞吐量提高約6.5%. underlay 頻譜分配算法受主用戶發(fā)射功率和干擾門限等因素影響,總吞吐量較低,但波動(dòng)較小,可保持長時(shí)間穩(wěn)定通信.圖6 是CMAA 算法、本文算法和underlay 頻譜分配算法的主次用戶間沖突率對(duì)比. 可以看出,在學(xué)習(xí)初期,三種算法沖突率較高,且CMAA 算法高于本文算法和underlay 頻譜分配算法,原因與圖5 類似. 在接近隨機(jī)選擇情況下,overlay 共享方式?jīng)_突率大于underlay 共享方式,混合共享方式居中. 隨著傳輸時(shí)隙增加,三種算法沖突率均有所降低,并分別在第35、30 和40 學(xué)習(xí)階段逐漸收斂. 收斂后,本文算法相對(duì)于CMAA 算法主次用戶間沖突率下降約66.7%. underlay 頻譜分配算法無需考慮各時(shí)隙主用戶忙閑變化情況,因此當(dāng)系統(tǒng)找到與所有次用戶均匹配的信道后,主次用戶間沖突率可下降為0.
圖5 不同頻譜共享方式下次用戶總吞吐量對(duì)比Fig. 5 Comparison of throughput under different spectrum sharing modes
圖6 不同頻譜共享方式下主次用戶間沖突率對(duì)比Fig. 6 Comparison of conflict rate under different spectrum sharing modes
綜上,圖5、圖6 以三種可實(shí)現(xiàn)的強(qiáng)化學(xué)習(xí)算法為例,分析了混合共享方式的優(yōu)勢(shì)和不足. 在三種共享方式中,次用戶總吞吐量方面:混合共享方式優(yōu)于單一共享方式;在主次用戶間沖突率方面:undelay 共享方式最低、混合共享方式其次、overlay 共享方式最高,但underlay 共享方式需要犧牲較大吞吐量.
仿真參數(shù)不變,將本文算法與MAB 算法[8]、隨機(jī)算法和遍歷算法進(jìn)行比較. 其中,隨機(jī)算法為每個(gè)時(shí)隙從N個(gè)信道中隨機(jī)挑選M個(gè)信道,并隨機(jī)選擇共享方式分配給次用戶傳輸信息. 遍歷算法為每個(gè)時(shí)隙遍歷所有信道和共享方式的組合,最終以次用戶總吞吐量最大的方案進(jìn)行分配,用以計(jì)算理論上吞吐量和沖突率的最優(yōu)值. MAB 算法為混合共享方式,且不依賴信道檢測(cè),與本文場(chǎng)景相似,因此加入對(duì)比.
圖7 是本文算法、MAB 算法、隨機(jī)算法和遍歷算法的次用戶總吞吐量對(duì)比. 可以看出,在學(xué)習(xí)初期,本文算法和MAB 算法的吞吐量較低,與隨機(jī)算法相近,通過不斷學(xué)習(xí)交互,更新Q矩陣,優(yōu)化分配策略,提升吞吐量,并分別在第30 和45 學(xué)習(xí)階段逐漸收斂. 收斂后本文算法與MAB 算法相比,次用戶總吞吐量提高約16.7%,且收斂更快;與隨機(jī)算法相比,吞吐量提高78.2%;但與遍歷算法的最優(yōu)策略相比,總吞吐量為遍歷算法的91.3%.
圖7 混合共享方式下不同算法次用戶吞吐量對(duì)比Fig. 7 Comparison of throughput of different algorithms under hybrid spectrum sharing mode
圖8 是本文算法、MAB 算法、隨機(jī)算法和遍歷算法的主次用戶間沖突率對(duì)比. 可以看出,各算法性能與圖7 基本一致,本文算法和MAB 算法的沖突率隨傳輸時(shí)隙增加而降低,并在第30 和45 學(xué)習(xí)階段逐漸收斂. 收斂后,本文算法相對(duì)于MAB 算法,主次用戶間沖突率下降約53.8%,且收斂更快;與隨機(jī)算法相比,沖突率下降約73.9%. 但與遍歷算法的最優(yōu)策略相比,仍存在差距,遍歷算法沖突率可逼近于0.
圖8 混合共享方式下不同算法主次用戶沖突率對(duì)比Fig. 8 Comparison of conflict rate of different algorithms under hybrid spectrum sharing mode
綜上,本文算法相比MAB 算法和隨機(jī)算法,在次用戶總吞吐量和主次用戶間沖突率方面均具有明顯優(yōu)勢(shì),但與遍歷算法相比仍存在差距. 這是因?yàn)橄到y(tǒng)的狀態(tài)是由N個(gè)服從馬爾科夫隨機(jī)過程的主用戶忙閑狀態(tài)構(gòu)成,系統(tǒng)相鄰狀態(tài)存在一定的相關(guān)性,同時(shí)狀態(tài)轉(zhuǎn)移也存在不確定性,依靠學(xué)習(xí)算法無法完美預(yù)測(cè)所有時(shí)隙主用戶的忙閑狀態(tài),當(dāng)信道狀態(tài)預(yù)測(cè)錯(cuò)誤時(shí),會(huì)造成沖突率升高,吞吐量降低.
系統(tǒng)各主用戶的參數(shù)λ 和μ分別等比例擴(kuò)大3 倍和9 倍,其他參數(shù)不變,將本文算法和遍歷算法進(jìn)行仿真對(duì)比,如圖9 所示. 可以看出,隨著參數(shù)λ 和μ增大,遍歷算法性能沒有影響,因?yàn)楦餍诺镭?fù)載率不變,次用戶在最優(yōu)策略下的總吞吐量不變. 但隨著系統(tǒng)相鄰狀態(tài)相關(guān)性增強(qiáng),本文算法通過學(xué)習(xí),可對(duì)信道狀態(tài)預(yù)測(cè)的準(zhǔn)確性提高,導(dǎo)致吞吐量增大,性能逼近遍歷算法.
圖9 不同參數(shù)λ 和μ 下兩種算法吞吐量對(duì)比Fig. 9 Comparison of throughput between 2 algorithms with different parameters λ and μ
將信道數(shù)分別設(shè)置為4 個(gè)、6 個(gè)和8 個(gè),主用戶數(shù)與信道數(shù)相等,次用戶數(shù)設(shè)置為3 個(gè),其他參數(shù)不變,對(duì)本文算法的性能進(jìn)行仿真,如圖10 所示. 可以看出,在不同信道數(shù)的情況下,系統(tǒng)均能隨著傳輸時(shí)隙增加,優(yōu)化信道分配策略,提升次用戶總吞吐量,并最終收斂. 隨著信道數(shù)和主用戶數(shù)的增加,收斂值逐漸升高,但收斂速度下降,這是因?yàn)?,信道?shù)增多導(dǎo)致探索時(shí)間增加.
圖10 不同信道數(shù)下本文算法吞吐量對(duì)比Fig. 10 Throughput comparison of different channel numbers
將信道數(shù)和主用戶數(shù)設(shè)置為8 個(gè),次用戶數(shù)分別設(shè)置為3 個(gè)、5 個(gè)和7 個(gè),其他參數(shù)不變,對(duì)本文算法的性能進(jìn)行仿真,如圖11 所示. 可以看出,在不同次用戶數(shù)的情況下,系統(tǒng)均能隨著傳輸時(shí)隙增加,優(yōu)化信道分配策略,提升次用戶總吞吐量,并最終收斂.
圖11 不同次用戶數(shù)的吞吐量對(duì)比Fig. 11 Comparison of throughput with different number of secondary users
以系統(tǒng)一個(gè)時(shí)隙的分配過程為例,本文算法中狀態(tài)空間為 2N,動(dòng)作空間為 2N,次用戶個(gè)數(shù)為M,則在信道初選過程運(yùn)算次數(shù)為M×(2N)×2N,信道再分配過程運(yùn)算次數(shù)為M2,由于系統(tǒng)中M≤N,因此本文算法信道分配過程復(fù)雜度約為O(M×(2N)×2N)+O(M2)≈O(M×N×2N+1).
CMAA 算法的狀態(tài)空間為 2N,動(dòng)作空間為N,次用戶個(gè)數(shù)為M,與本文算法復(fù)雜度類似,但沒有信道再分配過程,因此CMAA 算法復(fù)雜度約為O(M×N×2N).
underlay 頻譜分配算法的狀態(tài)空間為 2N,動(dòng)作空間為N,次用戶個(gè)數(shù)為M,與本文算法復(fù)雜度類似,但沒有信道再分配過程,因此underlay 頻譜分配算法復(fù)雜度約為O(M×N×2N).
MAB 算法的狀態(tài)空間為1,動(dòng)作空間為 2N,次用戶個(gè)數(shù)為M,信道選擇過程運(yùn)算次數(shù)為2N×M,策略組合過程運(yùn)算次數(shù)為M2,因此MAB 算法復(fù)雜度為O((2N+M)×M).
隨機(jī)算法為任意選取信道和共享方式進(jìn)行分配,因此復(fù)雜度為O(1).
各算法復(fù)雜度對(duì)比表4 所示.
表4 復(fù)雜度對(duì)比Tab. 4 Comparison of complexity
綜上所述,本文算法與CMAA 算法、underlay頻譜分配算法、MAB 算法、隨機(jī)算法相比,復(fù)雜度較高,但性能有顯著提升. 由于本文為多次用戶和多信道場(chǎng)景,M≥2,N≥2,所以本文算法的時(shí)間復(fù)雜度小于遍歷算法,且隨著次用戶和信道數(shù)量增加,復(fù)雜度差距將逐漸增大.
本文構(gòu)建了混合頻譜共享方式下的動(dòng)態(tài)頻譜分配模型,并將Q 學(xué)習(xí)思想加以改進(jìn),提出了一種解決混合共享方式下多次用戶頻譜分配問題的算法. 仿真結(jié)果表明,混合共享方式與單一共享方式相比,在主次用戶間沖突率方面,低于overlay 共享方式,高于underlay 共享方式;但在次用戶吞吐量方面,明顯優(yōu)于兩種單一共享方式.
在混合共享方式的4 種算法對(duì)比中,本文算法能夠在避免次用戶間沖突前提下,在次用戶總吞吐量、主次用戶間沖突率兩個(gè)方面優(yōu)于MAB 算法和隨機(jī)算法,且隨著系統(tǒng)相鄰狀態(tài)相關(guān)性提高,算法性能可逼近遍歷算法. 此外,本算法無需信道檢測(cè),并考慮了次用戶傳輸速率需求的差異,更符合實(shí)際情況.