李冠雄 李桂林
(1. 天津大學(xué)微電子學(xué)院,天津 300072;2. 大連交通大學(xué)電氣信息工程學(xué)院,大連 116021)
隨著5G時(shí)代的到來,人們對(duì)于互聯(lián)網(wǎng)接入的服務(wù)質(zhì)量要求越來越高,頻譜資源短缺的問題日益凸顯,傳統(tǒng)的固定頻譜分配方式無法滿足飛速增長的通信需求[1-2],為了解決頻譜資源短缺和利用效率低下等問題,認(rèn)知無線電(cognitive radio, CR)技術(shù)應(yīng)運(yùn)而生[3]. 這是一種智能化的無線通信系統(tǒng),系統(tǒng)中的次用戶(secondary users, SU)能夠檢測出無線頻譜中的空閑信道,并在不干擾主用戶(primary users, PU)正常通信的條件下動(dòng)態(tài)接入空閑信道資源,為提高頻譜利用效率提供了一種新的方法.
在CR系統(tǒng)中,頻譜分配是認(rèn)知網(wǎng)絡(luò)循環(huán)的一個(gè)重要環(huán)節(jié),將強(qiáng)化學(xué)習(xí)算法融入到頻譜分配過程中,使用戶能獨(dú)立進(jìn)行環(huán)境感知,學(xué)習(xí)信道選擇策略,可以有效提升認(rèn)知網(wǎng)絡(luò)系統(tǒng)性能. 文獻(xiàn)[4]將多信道傳輸下的動(dòng)態(tài)頻譜接入問題建模為部分可觀測的Markov決策過程,并利用Whittle指數(shù)激勵(lì)法輔助決策,用戶在授權(quán)信道上以最小的Whittle指數(shù)進(jìn)行傳輸. 文獻(xiàn)[5]研究了大規(guī)模多輸入多輸出(multi-input multi-output, MIMO) CR系統(tǒng)中底層用戶的信道選擇策略,針對(duì)次基站提出了一種深度強(qiáng)化學(xué)習(xí)算法,可以智能地選擇合適的用戶,以滿足系統(tǒng)的體驗(yàn)質(zhì)量要求. 文獻(xiàn)[6]提出一種基于強(qiáng)化學(xué)習(xí)的功率控制信道切換策略,SU通過強(qiáng)化學(xué)習(xí)掌握最優(yōu)的信道切換方案,并根據(jù)PU通信行為在不同信道間進(jìn)行切換,有效地利用了數(shù)據(jù)的延遲容量,降低了信道切換時(shí)的功率消耗. 文獻(xiàn)[7]通過強(qiáng)化學(xué)習(xí)和Bayes算法預(yù)測信道保持空閑狀態(tài)的時(shí)間,減少了用于信道感知監(jiān)測的功率消耗,實(shí)現(xiàn)了更高的吞吐量. 文獻(xiàn)[8]融合了Q-learning和SARSA算法,提出一種多智能體無模型的強(qiáng)化學(xué)習(xí)資源分配方案,可以減輕認(rèn)知網(wǎng)絡(luò)中基站聚集干擾問題,有效提升了網(wǎng)絡(luò)容量.
上述基于強(qiáng)化學(xué)習(xí)的頻譜分配方案主要集中在對(duì)分配算法的研究,在信道選擇過程中缺乏對(duì)頻譜價(jià)格的考量,且對(duì)性能結(jié)果的分析主要集中在吞吐量、阻塞率和傳輸速率等維度,缺少可以直觀反映用戶體驗(yàn)的綜合評(píng)價(jià)指標(biāo). 本文提出一種基于用戶體驗(yàn)質(zhì)量(quality of experience, QoE)的合作強(qiáng)化學(xué)習(xí)頻譜分配算法,在信道選擇過程中新用戶通過合作學(xué)習(xí)其他用戶的選擇策略,有效提升了吞吐量和系統(tǒng)性能,將平均意見得分(mean opinion score, MOS)作為QoE的綜合評(píng)價(jià)指標(biāo),并且在信道接入過程中引入PU的頻譜定價(jià)因素,從市場博弈的角度研究了頻譜價(jià)格對(duì)SU收益的影響.
本文中的通信場景由兩部分組成,如圖1所示,一是由主基站(primary base station, PBS)和PU構(gòu)成的授權(quán)服務(wù)系統(tǒng),二是由次基站(secondary base station, SBS)和SU構(gòu)成的認(rèn)識(shí)服務(wù)系統(tǒng). 在授權(quán)服務(wù)系統(tǒng)中PBS通過單一鏈路為PU提供通信服務(wù),并在干擾可控的條件下與認(rèn)知服務(wù)系統(tǒng)共享信道資源. 在認(rèn)知服務(wù)系統(tǒng)中包含N個(gè)隨機(jī)分布在次基站周圍的SU,SU依托SBS動(dòng)態(tài)接入主服務(wù)系統(tǒng)中的頻譜空洞,實(shí)現(xiàn)頻譜資源的高效復(fù)用.
圖1 CR通信場景Fig. 1 Cognitive radio communication scenarios
在次服務(wù)系統(tǒng)中PU和SU均采用自適應(yīng)調(diào)制編碼技術(shù)進(jìn)行信息傳輸,SU動(dòng)態(tài)接入PU的授權(quán)頻譜資源對(duì)不同信干噪比(signal to interference noise ratio,SINR)的信道做出選擇. 從圖1可以看出SU會(huì)受到來自PU、CR系統(tǒng)內(nèi)其他SU以及環(huán)境噪聲三部分干擾,第i個(gè)SU接入信道的SINR如下[9]:
式中:x、y為用戶坐標(biāo);d0為參考距離常數(shù);n為信道衰落因子. 由式(1)和式(2)可知SU接入信道的SINR與其到基站的距離有關(guān),所以SU在實(shí)際頻譜分配過程中是通過調(diào)整與SBS間的相對(duì)物理位置來進(jìn)行信道選擇,最終達(dá)到使CR系統(tǒng)整體性能最優(yōu)的目標(biāo).
Q-learning是一種用于機(jī)器學(xué)習(xí)的value-based強(qiáng)化學(xué)習(xí)算法,其優(yōu)勢為能通過時(shí)間差分法進(jìn)行離線學(xué)習(xí). 算法由三部分要素構(gòu)成[10]:環(huán)境狀態(tài);動(dòng)作策略;獎(jiǎng)勵(lì)函數(shù). 其中:狀態(tài)代表算法當(dāng)前所處的執(zhí)行階段;動(dòng)作策略代表智能體可選擇的策略集合;獎(jiǎng)勵(lì)函數(shù)則代表了策略選擇后的直接獎(jiǎng)勵(lì)反饋,其最終目標(biāo)為求得當(dāng)前狀態(tài)下按照策略π進(jìn)行動(dòng)作選擇所能獲得的最大獎(jiǎng)勵(lì)期望,通過式(3)表示.
式中:s表示環(huán)境狀態(tài);γ為折損因子,代表了智能體對(duì)長期收益的重視程度;R為獎(jiǎng)勵(lì)值大小.
算法的核心路徑是利用狀態(tài)s和動(dòng)作策略a構(gòu)建Q表來儲(chǔ)存代表即時(shí)收益的Q值Q(s,a),每一輪強(qiáng)化學(xué)習(xí)可抽象為一次有限馬爾科夫決策過程,智能體按照最大化獎(jiǎng)勵(lì)函數(shù)的策略進(jìn)行動(dòng)作選擇,選擇完成后狀態(tài)由s轉(zhuǎn)變?yōu)閟′,同時(shí)按照式(4)Bellman公式進(jìn)行Q值的更新并等待下一步動(dòng)作選擇[11].
式中,α為學(xué)習(xí)因子.
式(5)為狀態(tài)值函數(shù),代表智能體總是選擇使Q值最大化的動(dòng)作策略. 經(jīng)過多次迭代策略選擇過程,當(dāng)完成Q表全域更新且Q值保持穩(wěn)定收斂時(shí),即完成了強(qiáng)化學(xué)習(xí)過程.
在認(rèn)知無線網(wǎng)絡(luò)中PBS作為頻譜提供者在保證自身干擾閾值的情況下向SBS出租授權(quán)頻譜資源,SU需要對(duì)SBS分發(fā)的頻譜資源的不同信道做出選擇,由于不同的信道具有不同的增益,根據(jù)式(2),距離基站越近的位置信道增益越大,單個(gè)SU出于自利性總是會(huì)向基站靠攏以接入增益較高的信道,這樣的結(jié)果會(huì)造成SU間的干擾大幅增加,從而降低信道的SINR值使系統(tǒng)的整體通信性能下降.
為了糾正單個(gè)SU的選擇盲目性,本文將Q-learning強(qiáng)化學(xué)習(xí)算法應(yīng)用到SU的信道選擇過程中,將SU模擬為算法中的智能體,將SU干擾r與PU通信閾值β0的大小關(guān)系定義為算法的狀態(tài)s并通過式(6)表示. 當(dāng)干擾大于閾值時(shí)狀態(tài)s為0,否則狀態(tài)s為1. 不同信道的SINR值a={β1,···,βn}構(gòu)成算法的動(dòng)作策略集合,獎(jiǎng)勵(lì)值R通過式(7)表示,M為小于獎(jiǎng)勵(lì)函數(shù)的固定常數(shù).
算法通過Q表來儲(chǔ)存不同信道選擇對(duì)應(yīng)的獎(jiǎng)勵(lì)值結(jié)果,根據(jù)式(5),作為智能體的SU會(huì)按照最大化Q值的原則選擇信道,接著根據(jù)收到的即時(shí)獎(jiǎng)勵(lì),按照式(4)對(duì)Q表進(jìn)行更新,通過多次迭代“選擇信道-計(jì)算獎(jiǎng)勵(lì)值-更新Q表”的循環(huán)完成強(qiáng)化學(xué)習(xí). 最后,我們針對(duì)新用戶引入docitive合作學(xué)習(xí)機(jī)制,當(dāng)新用戶加入到認(rèn)知系統(tǒng)中時(shí),可通過式(8)將系統(tǒng)內(nèi)存量老用戶信道選擇經(jīng)驗(yàn)也就是Q值通過求和平均的方式賦給新用戶,作為新用戶的初始Q值,擴(kuò)充到原Q表中作為第n+1維數(shù)據(jù),形成新的n+1維Q表,以減少新加入節(jié)點(diǎn)對(duì)系統(tǒng)穩(wěn)定性的影響,縮短重復(fù)學(xué)習(xí)的時(shí)間. 與獨(dú)立學(xué)習(xí)算法相比合作學(xué)習(xí)機(jī)制更突出了“教學(xué)”的概念,已完成策略學(xué)習(xí)的節(jié)點(diǎn)將信道選擇經(jīng)驗(yàn)傳遞給新加入節(jié)點(diǎn),以合作分配的方式提升算法的整體性能.
為了使頻譜分配模型更加貼合實(shí)際通信場景,對(duì)影響頻譜分配算法性能的因素做進(jìn)一步探究,我們引入了頻譜定價(jià)機(jī)制,允許主服務(wù)系統(tǒng)根據(jù)自身通信情況對(duì)頻譜資源進(jìn)行定價(jià),PU處于閑時(shí)狀態(tài)時(shí)可將頻譜價(jià)格設(shè)置為較低水平,相反在通信高峰期可將頻譜價(jià)格提高,以此來調(diào)節(jié)認(rèn)知系統(tǒng)的頻譜資源供需關(guān)系. 用戶效用收益Us[12]為
式中:ts為吞吐量;Ps為SU的發(fā)射功率;μ為主服務(wù)系統(tǒng)對(duì)授權(quán)頻譜的單位定價(jià).
用戶的吞吐量與傳輸速率和接入信道的SINR有關(guān),計(jì)算公式如下[13]:
式中:ri為傳輸速率;βi為信道SINR值;L代表單個(gè)數(shù)據(jù)包的位寬,此處設(shè)置為20. SU在進(jìn)行信道選擇時(shí)需要對(duì)自身收益進(jìn)行評(píng)估,對(duì)不同頻譜價(jià)格條件下的用戶收益進(jìn)行模擬測算,通過求出SU收益Us達(dá)到峰值點(diǎn)時(shí)對(duì)應(yīng)的頻譜價(jià)格μ,確定主次用戶價(jià)格博弈過程中能使系統(tǒng)收益最大的頻譜定價(jià).
傳統(tǒng)的通信系統(tǒng)評(píng)價(jià)維度多集中在擁塞率、通信速率、吞吐量等性能指標(biāo),而隨著5G時(shí)代到來,用戶對(duì)于通信服務(wù)的主觀感受變得尤為重要,MOS被廣泛應(yīng)用于主觀評(píng)測結(jié)果,且在QoE管理方面發(fā)揮著重要作用,因此本文選擇MOS評(píng)分作為網(wǎng)絡(luò)性能的評(píng)價(jià)維度,以評(píng)估頻譜分配方案的整體性能,系統(tǒng)MOS分值與QoE的映射關(guān)系如表1所示[14].
表1 MOS分值和QoE映射關(guān)系Tab. 1 Relationship between MOS and user experience quality
根據(jù)SU不同通信需求,將其鏈路承載的流量劃分為實(shí)時(shí)視頻流量和靜態(tài)數(shù)據(jù)流量兩類. 視頻流量屬于實(shí)時(shí)通信,對(duì)低時(shí)延要求較高;數(shù)據(jù)流量則對(duì)實(shí)時(shí)性要求較低,在信道接入時(shí)的優(yōu)先級(jí)低于前者. 本文使用基于比特率、丟包率等參數(shù)的MOS估計(jì)模型來進(jìn)行QoE的主觀評(píng)價(jià),實(shí)時(shí)視頻流量的MOS計(jì)算公式如下[15]:
式中:RPSN為峰值信噪比;c、d、f均為函數(shù)參數(shù),在本次實(shí)驗(yàn)中分別設(shè)置為c=6.643 1、d=?0.134 4、f=30.426 4.
靜態(tài)數(shù)據(jù)流量的MOS計(jì)算公式為
式中:a和b為兩個(gè)系統(tǒng)常數(shù);r為信道傳輸速率,可通過香農(nóng)公式進(jìn)行計(jì)算;pe2e為端到端數(shù)據(jù)丟包率.最后針對(duì)系統(tǒng)內(nèi)不同用戶的通信流量需求,通過下式計(jì)算系統(tǒng)整體MOS得分:
式中:U為數(shù)據(jù)流量通信用戶數(shù);N為視頻流量通信用戶數(shù);Qd為數(shù)據(jù)型MOS分值;Qv為視頻型MOS分值. 通過平均求解的集成方式整合不同鏈路類型的MOS分值,作為基于QoE的頻譜分配方案綜合評(píng)價(jià)維度.
整個(gè)頻譜分配算法可以概括為:系統(tǒng)根據(jù)可選信道范圍和參與資源分配的用戶數(shù)量建立Q表;按照最大化獎(jiǎng)勵(lì)值的原則逐次迭代強(qiáng)化學(xué)習(xí)過程,尋找使系統(tǒng)性能最優(yōu)的信道選擇路徑;新用戶加入后通過合作學(xué)習(xí)掌握先前用戶的信道選擇經(jīng)驗(yàn);最后根據(jù)PU頻譜定價(jià)計(jì)算SU的效用收益,如圖2所示.以下為算法的流程圖及核心步驟.
圖2 核心算法流程圖Fig. 2 Flowchart of the core algorithm
Step1 模型初始化
①按照?qǐng)D1中的CR通信場景,初始化認(rèn)知模型參數(shù),接著根據(jù)預(yù)先設(shè)置的SBS覆蓋半徑的大小,確定用戶坐標(biāo)范圍;
②根據(jù)用戶坐標(biāo)范圍按照式(2)計(jì)算出不同基站距離場景所對(duì)應(yīng)的信道增益,從而確定可選信道SINR策略集合;
③將認(rèn)知系統(tǒng)中的SU按照通信需求的不同,劃分為不同數(shù)量的視頻流量用戶和數(shù)據(jù)流量用戶.
Step2 執(zhí)行強(qiáng)化學(xué)習(xí)
①按照認(rèn)知系統(tǒng)內(nèi)SU的數(shù)量N和可選信道數(shù)量M,構(gòu)建一個(gè)M×N維的Q表并將Q值全部初始化為0;
②SU按照最大化獎(jiǎng)勵(lì)期望的原則進(jìn)行信道選擇,而后將所選信道的SINR、傳輸速率等參數(shù)上傳至SBS判斷SU干擾是否超出PU設(shè)定閾值以更新環(huán)境狀態(tài);
③每個(gè)SU根據(jù)當(dāng)前所選信道的SINR值以及自身流量需求類型,計(jì)算出當(dāng)期信道選擇后所得到的即時(shí)獎(jiǎng)勵(lì)值;
④將SU信道選擇后獲得的即時(shí)獎(jiǎng)勵(lì)值代入到Bellman公式(4),結(jié)合上一周期的Q值和學(xué)習(xí)因子對(duì)Q表進(jìn)行更新;
⑤單次Q-learning的迭代次數(shù)設(shè)置為100,學(xué)習(xí)完成后如狀態(tài)函數(shù)小于PU干擾閾值且Q表處于收斂狀態(tài),則完成了一次有效的強(qiáng)化學(xué)習(xí).
Step3 新用戶合作學(xué)習(xí)
當(dāng)?shù)贜+1個(gè)SU加入到認(rèn)知系統(tǒng)時(shí),系統(tǒng)需要建立新的強(qiáng)化學(xué)習(xí)循環(huán)過程,為了提升頻譜分配效率,降低算法執(zhí)行的復(fù)雜度,我們將上一步中前N個(gè)用戶已收斂的Q表數(shù)值進(jìn)行復(fù)用,并通過式(8)將新用戶的Q值設(shè)置為前N個(gè)用戶Q值的平均值,完成新Q表的初始化,接著使用新的Q表執(zhí)行step2中的學(xué)習(xí)過程.
Step4 SU收益測算
完成強(qiáng)化學(xué)習(xí)過程獲得信道選擇方案后,根據(jù)SINR值計(jì)算不同信道用戶的吞吐量,同時(shí)引入PU對(duì)頻譜資源的單位帶寬定價(jià),本實(shí)驗(yàn)中頻譜定價(jià)因子范圍設(shè)置為[0,0.3],最后按照式(9)計(jì)算SU在不同帶寬定價(jià)下效用收益的變化情況.
Step5 系統(tǒng)結(jié)果評(píng)估
執(zhí)行完全部SU學(xué)習(xí)過程后,對(duì)認(rèn)知系統(tǒng)的MOS分值、通信傳輸速率、系統(tǒng)吞吐量等數(shù)值進(jìn)行整合,計(jì)算出全周期的頻譜分配方案性能結(jié)果.
本節(jié)在MATLAB平臺(tái)環(huán)境下,對(duì)基于QoE驅(qū)動(dòng)的頻譜分配算法進(jìn)行仿真測試. 主服務(wù)系統(tǒng)中用戶數(shù)量為1,授權(quán)頻譜帶寬設(shè)置為10 MHz,高斯噪聲功率和PU發(fā)射功率分別設(shè)置為1 nW和10 mW,PBS的蜂窩區(qū)域半徑為20~1 000 m,SBS的蜂窩區(qū)域半徑為5~200 m,PU和SU在各自基站的蜂窩區(qū)域內(nèi)進(jìn)行通信,信道增益遵循長距離路徑損耗模型,路徑衰減系數(shù)n=2.8,SU可選信道SINR范圍為?45~40 dB.算法模型中的SU學(xué)習(xí)因子α=0.1,衰變因子γ=0.4,SU的最大數(shù)量設(shè)置為22.
圖3為三種不同頻譜分配方案的MOS. 方案一為合作學(xué)習(xí)算法,新用戶加入系統(tǒng)后,可通過式(8)學(xué)習(xí)其他用戶的信道選擇經(jīng)驗(yàn);方案二為獨(dú)立學(xué)習(xí)算法,新加入的用戶獨(dú)立執(zhí)行Q-learning算法,而不考慮其他用戶的學(xué)習(xí)經(jīng)驗(yàn);方案三為隨機(jī)分配方案,SU不執(zhí)行強(qiáng)化學(xué)習(xí)過程,而是根據(jù)隨機(jī)生成的坐標(biāo)位置直接接入授權(quán)信道. 可以看出三種算法的MOS均會(huì)隨著SU數(shù)量的增加而降低,其原因是,隨著用戶數(shù)的增加用戶間的干擾相應(yīng)增大,為了滿足授權(quán)系統(tǒng)干擾約束,每個(gè)SU趨向于選擇較小SINR值的信道,從而總體上導(dǎo)致MOS分值下降. 該結(jié)果還表明,合作學(xué)習(xí)算法相較于獨(dú)立學(xué)習(xí)算法能夠獲得更高的MOS分值,并且前兩種執(zhí)行了強(qiáng)化學(xué)習(xí)的方案MOS分值遠(yuǎn)高于方案三隨機(jī)分配算法.
圖3 不同分配算法MOS分值曲線Fig. 3 MOS score curve for different allocation algorithms
圖4比較了三種不同頻譜分配方案的系統(tǒng)吞吐量. 可以看到:當(dāng)用戶數(shù)在10個(gè)以下時(shí),合作學(xué)習(xí)算法的吞吐量性能具有一定優(yōu)勢;但隨著用戶數(shù)量繼續(xù)增加,三種算法的吞吐量迅速下降并趨于一致. 原因是隨著用戶數(shù)增加用戶間干擾加劇,使SU的通信速率大幅降低,系統(tǒng)產(chǎn)生了嚴(yán)重的擁塞.
圖4 不同分配算法的吞吐量曲線Fig. 4 Throughput curve of different allocation algorithms
圖5對(duì)合作學(xué)習(xí)算法做了進(jìn)一步延伸,對(duì)新加入用戶和原有用戶的流量需求類型進(jìn)行劃分,探討了兩種新的合作學(xué)習(xí)頻譜分配算法:同類用戶合作學(xué)習(xí)算法,異類用戶合作學(xué)習(xí)算法. 第一種是新加入用戶只學(xué)習(xí)具有相同流量類型用戶的信道選擇經(jīng)驗(yàn),第二種是新加入用戶只學(xué)習(xí)具有不同流量類型用戶的信道選擇經(jīng)驗(yàn). 從仿真結(jié)果可以看出:融合全量用戶學(xué)習(xí)經(jīng)驗(yàn)的算法仍是MOS分值最高的方案;只學(xué)習(xí)同流量類型用戶經(jīng)驗(yàn)的算法MOS分值略高于其余兩種分配算法;完全獨(dú)立學(xué)習(xí)的算法仍是MOS分值最低的方案.
圖5 四種頻譜分配算法的MOS分值曲線Fig. 5 MOS score curve of 4 spectrum allocation algorithms
圖6反映了SU數(shù)量對(duì)算法性能的影響. 可以看到:隨著SU數(shù)量大幅增加,合作頻譜分配算法所獲得的MOS分值和收斂速度會(huì)隨之下降,但仍處于可接受的范圍內(nèi);當(dāng)用戶數(shù)量達(dá)到120個(gè)時(shí),系統(tǒng)MOS分值為2.41,根據(jù)表1可知對(duì)應(yīng)“一般”的QoE,依然可以滿足正常通信需求. 收斂速度的下降,雖然會(huì)增加算法的執(zhí)行時(shí)間,但不會(huì)影響對(duì)用戶的服務(wù)質(zhì)量.
圖6 SU數(shù)量對(duì)算法性能的影響Fig. 6 The impact of the SU on the algorithm
圖7反映了不同頻譜價(jià)格條件下的SU收益,頻譜價(jià)格因子μ范圍設(shè)置為[0,0.3]. 可以看出:起初隨著單位頻譜價(jià)格的提高SU的效用收益隨之增大,效用收益達(dá)到峰值時(shí)對(duì)應(yīng)的頻譜價(jià)格因子為0.16;之后用戶收益開始緩慢下降,當(dāng)μ增加到0.26時(shí),用戶收益迅速下降,原因是PU頻譜定價(jià)過高,導(dǎo)致頻譜博弈市場崩潰,SU接入授權(quán)頻譜的意愿大幅下降.
圖7 不同頻譜定價(jià)的SU收益Fig. 7 SU utility under different spectrum pricing
本文針對(duì)認(rèn)知用戶自利性和相互干擾而導(dǎo)致的頻譜資源分配不合理問題,提出了一種基于QoE的合作強(qiáng)化學(xué)習(xí)分配算法,通過SU的強(qiáng)化學(xué)習(xí)找到使不同流量特性用戶通信效用最大化的頻譜分配方案,同時(shí)引入了用戶間的合作機(jī)制,新加入用戶可以學(xué)習(xí)其他用戶的信道選擇策略,從而有效優(yōu)化了算法執(zhí)行過程,提升了系統(tǒng)通信性能. 此外,本文將MOS用作系統(tǒng)性能評(píng)價(jià)度量,為不同流量類型用戶提供統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn),實(shí)現(xiàn)了異類流量的無縫集成. 仿真結(jié)果表明所提出的合作頻譜分配算法可以有效提升用戶的服務(wù)質(zhì)量和認(rèn)知系統(tǒng)通信性能,在新用戶與不同流量類型用戶合作所做的對(duì)比中也可以看出,全流量類型的合作分配算法仍具有明顯優(yōu)勢. 最后本文在PU和SU間融合了市場價(jià)格博弈因素,允許PU根據(jù)自身通信情況對(duì)授權(quán)頻譜進(jìn)行定價(jià),研究了不同頻譜價(jià)格對(duì)SU效用收益的影響,對(duì)強(qiáng)化學(xué)習(xí)和市場博弈理論相融合的頻譜分配算法做了初步探索.但是目前所提出的算法只在單個(gè)PU和SU間進(jìn)行了價(jià)格博弈,如何在多個(gè)SU強(qiáng)化學(xué)習(xí)過程中融入價(jià)格博弈的因素,建立多維度的頻譜分配約束機(jī)制,是未來的研究方向.