基于Q學(xué)習(xí)的CDMA/WLAN異構(gòu)網(wǎng)絡(luò)接入控制算法*

2016-11-30 07:44:10劉惠茹徐玉濱

通信技術(shù) 2016年8期

關(guān)鍵詞：用戶數(shù)異構(gòu)控制算法

劉惠茹，馬琳，徐玉濱

（1.北京機(jī)電工程研究所，北京 100074；2.哈爾濱工業(yè)大學(xué) 通信技術(shù)研究所，黑龍江哈爾濱 150080）

基于Q學(xué)習(xí)的CDMA/WLAN異構(gòu)網(wǎng)絡(luò)接入控制算法*

劉惠茹1，馬琳2，徐玉濱2

（1.北京機(jī)電工程研究所，北京 100074；2.哈爾濱工業(yè)大學(xué) 通信技術(shù)研究所，黑龍江哈爾濱 150080）

針對(duì)CDMA和WLAN異構(gòu)網(wǎng)絡(luò)環(huán)境下用戶呼叫阻塞率高和系統(tǒng)資源利用率低的問(wèn)題，提出一種結(jié)合Q學(xué)習(xí)的CDMA/WLAN網(wǎng)絡(luò)智能接入控制方法。該方法通過(guò)將Q學(xué)習(xí)引入接入控制算法，對(duì)網(wǎng)絡(luò)的進(jìn)行網(wǎng)絡(luò)狀態(tài)離散化處理，并根據(jù)各網(wǎng)絡(luò)所處的狀態(tài)，驅(qū)使網(wǎng)絡(luò)選擇適合自己的用戶，進(jìn)而提高系統(tǒng)資源利用率。仿真結(jié)果表明，該方法通過(guò)Q學(xué)習(xí)的在線試錯(cuò)學(xué)習(xí)，降低了系統(tǒng)阻塞率，從整體上實(shí)現(xiàn)兩個(gè)網(wǎng)絡(luò)中用戶累計(jì)回報(bào)值的最大化，并獲得智能接入的系統(tǒng)狀態(tài)——?jiǎng)幼鱍值表。

異構(gòu)網(wǎng)絡(luò)；Q學(xué)習(xí)；接入控制；CDMA；WLAN

現(xiàn)有的CDMA和WLAN網(wǎng)絡(luò)接入選擇策略中，常用的接入算法主要分為三類：①基于終端位置算法[2]是在重疊覆蓋區(qū)盡可能使用WLAN網(wǎng)絡(luò)，當(dāng)用戶處于高速移動(dòng)狀態(tài)或處于WLAN系統(tǒng)邊緣時(shí)，會(huì)導(dǎo)致切換頻率加快；②基于信號(hào)強(qiáng)度的方法[3]是通過(guò)周期性地測(cè)量WCDMA和WLAN網(wǎng)絡(luò)信號(hào)，從而保證服務(wù)的持續(xù)連接；③基于系統(tǒng)收益的方法[4]引入效用參數(shù)，計(jì)算目標(biāo)網(wǎng)絡(luò)的代價(jià)函數(shù)，代價(jià)最小說(shuō)明該網(wǎng)絡(luò)具有最多的資源，從而接入到該網(wǎng)絡(luò)。

強(qiáng)化學(xué)習(xí)中的Q學(xué)習(xí)理論是一種試錯(cuò)的在線學(xué)習(xí)技術(shù)，智能體通過(guò)與環(huán)境的交互獲得經(jīng)驗(yàn)，并逐步改進(jìn)其行為策略。隨著Q學(xué)習(xí)算法研究以及應(yīng)用的越來(lái)越廣泛，近年來(lái)已有學(xué)者將Q學(xué)習(xí)算法應(yīng)用到網(wǎng)絡(luò)的接入控制領(lǐng)域，并且取得了一定的成果。文獻(xiàn)[5]提出了一種WCDMA/WLAN異構(gòu)網(wǎng)絡(luò)中適用于多媒體業(yè)務(wù)的模糊Q學(xué)習(xí)接入控制算法，采用效用函數(shù)方法判斷一個(gè)用戶業(yè)務(wù)請(qǐng)求接入到哪個(gè)網(wǎng)絡(luò)最為合適。在保證服務(wù)質(zhì)量的同時(shí)，將低了對(duì)新用戶和切換用戶的阻塞率，增大了系統(tǒng)吞吐量，減少了切換發(fā)生率，平衡了兩個(gè)網(wǎng)絡(luò)的負(fù)荷和系統(tǒng)利用率。文獻(xiàn)[6]提出一種基于Q學(xué)習(xí)的WCDMA系統(tǒng)多速率傳輸控制策略的無(wú)線資源管理，將該控制問(wèn)題根據(jù)用戶QoS和傳輸代價(jià)建模為一個(gè)馬爾科夫決策問(wèn)題，以實(shí)現(xiàn)保證用戶QoS需求的前提下，提高頻譜利用率。2008年，張永靖提出給予Q學(xué)習(xí)的自主聯(lián)合無(wú)線資源管理算法[7]，即設(shè)置一個(gè)聯(lián)合無(wú)線資源管理控制器，通過(guò)與環(huán)境的交互，學(xué)習(xí)環(huán)境中的知識(shí)，進(jìn)而更有利于采取能夠提高頻譜效用的動(dòng)作，并且實(shí)現(xiàn)了呼叫阻塞率與頻譜效用的折中。文獻(xiàn)[8]則提出一種能夠適應(yīng)網(wǎng)絡(luò)環(huán)境動(dòng)態(tài)變化的Q學(xué)習(xí)異構(gòu)網(wǎng)絡(luò)選擇算法。該算法考慮了網(wǎng)絡(luò)的負(fù)載情況，并結(jié)合呼叫的業(yè)務(wù)類型、終端在網(wǎng)絡(luò)中所處的位置，實(shí)現(xiàn)了網(wǎng)絡(luò)的自主選擇，降低了系統(tǒng)阻塞率。

鑒于用戶數(shù)目和業(yè)務(wù)類型的增加，網(wǎng)絡(luò)狀態(tài)呈現(xiàn)出爆炸式增長(zhǎng)的問(wèn)題。同時(shí)，為了使用戶獲得更好的網(wǎng)絡(luò)接入性能，需要充分利用CDMA和WLAN的網(wǎng)絡(luò)特性，挖掘Q學(xué)習(xí)算法的技術(shù)優(yōu)勢(shì)。為此，本文提出一種基于Q學(xué)習(xí)的異構(gòu)網(wǎng)絡(luò)接入控制方法，以實(shí)現(xiàn)對(duì)用戶的智能接入控制，提高系統(tǒng)資源利用率。

1　系統(tǒng)模型

本文考慮一個(gè)CDMA網(wǎng)絡(luò)和一個(gè)WLAN網(wǎng)絡(luò)的情形，且WLAN網(wǎng)絡(luò)位于CDMA網(wǎng)絡(luò)的覆蓋區(qū)域內(nèi)。

1.1CDMA網(wǎng)絡(luò)準(zhǔn)入條件

在CDMA網(wǎng)絡(luò)中，判斷一個(gè)新用戶能否接入需要滿足兩個(gè)條件：①接入后是否會(huì)影響已有用戶QoS；②網(wǎng)絡(luò)能否滿足該呼叫用戶的QoS要求。

CDMA網(wǎng)絡(luò)上行鏈路準(zhǔn)入條件分析。假設(shè)CDMA網(wǎng)絡(luò)中用戶數(shù)為N，信噪比Eb/N0為每個(gè)用戶比特能量與噪聲譜密度之比，用戶i的信噪比為：

式中，W為碼片速率；Pi為來(lái)自用戶i的信號(hào)接收功率；vi為用戶i的激活因子；Ri為用戶i的比特速率；Itotal是基站處的總接收功率，可表示為：

因此，解得Pi為：

定義Pi=LiItotal，得到一個(gè)連接的負(fù)載因子Li：

負(fù)載因子中考慮來(lái)自其他小區(qū)的干擾，各條連接負(fù)載因子之和ηUL可寫成：

式中，f為其他小區(qū)與本小區(qū)干擾之比，取0.55[4]。

當(dāng)上行負(fù)載因子ηUL增加時(shí)，上行干擾功率Itotal也增加。由文獻(xiàn)[9]可知，預(yù)測(cè)干擾功率增加量為：

式中，新用戶負(fù)載因子ΔL是新連接的負(fù)載因子：

CDMA網(wǎng)絡(luò)的準(zhǔn)入條件需同時(shí)滿足：

（1）新的總干擾電平低于門限，即

（2）新的總負(fù)載不大于負(fù)載門限，即

式中，Ithreshold和ηthreshold為干擾電平和負(fù)載門限。

1.2WLAN網(wǎng)絡(luò)準(zhǔn)入條件

由文獻(xiàn)[10]得到，WLAN網(wǎng)絡(luò)信道利用率為：

采用RTS/CTS機(jī)制來(lái)避免沖突。根據(jù)信道利用率，WLAN網(wǎng)絡(luò)歸一化吞吐量S可通過(guò)式（11）得到：

式中，Tdata是成功傳輸一次數(shù)據(jù)包所需要的平均時(shí)間。WLAN網(wǎng)絡(luò)的最大吞吐量只有在非飽和情況下，通過(guò)控制沖突概率為一個(gè)最優(yōu)值p*才能達(dá)到[10]。此時(shí)，WLAN網(wǎng)絡(luò)提供的總帶寬為：

式中，B為WLAN網(wǎng)絡(luò)的總發(fā)射速率。定義WLAN網(wǎng)絡(luò)中用戶i的負(fù)載為：

式中，bi為用戶i的帶寬，Ba由式（12）決定。因此，有n個(gè)用戶的WLAN網(wǎng)絡(luò)總負(fù)載為：

當(dāng)一個(gè)新用戶接入WLAN網(wǎng)絡(luò)后總負(fù)載小于負(fù)載門限時(shí)，該請(qǐng)求才被允許。

2　Q學(xué)習(xí)算法設(shè)計(jì)

由于Q學(xué)習(xí)算法訓(xùn)練是利用網(wǎng)絡(luò)狀態(tài)和選取動(dòng)作進(jìn)行迭代并獲得即時(shí)回報(bào)，從而引導(dǎo)智能體選擇有利于增大系統(tǒng)收益的動(dòng)作。所以，用戶的選擇過(guò)程中，參數(shù)對(duì)網(wǎng)絡(luò)性能有直接的影響。Q學(xué)習(xí)里的狀態(tài)是離散的，需要將CDMA和WLAN網(wǎng)絡(luò)中的網(wǎng)絡(luò)狀態(tài)離散化。同時(shí)，即時(shí)回報(bào)需要深入探討，因?yàn)樗侵悄荏w在采取某個(gè)動(dòng)作的重要衡量標(biāo)準(zhǔn)，影響著智能體選擇動(dòng)作的正確性。

2.1網(wǎng)絡(luò)狀態(tài)離散化

主要采取了取樣試驗(yàn)和鉆孔壓注水檢查手段，結(jié)果均滿足設(shè)計(jì)要求。通過(guò)鉆孔提取芯樣分析，墻體連續(xù)性和完整性較好，滿足設(shè)計(jì)要求。

由于網(wǎng)絡(luò)中的最大用戶數(shù)和最小用戶數(shù)相差較大，均勻離散化網(wǎng)絡(luò)狀態(tài)會(huì)導(dǎo)致網(wǎng)絡(luò)中的某些狀態(tài)出現(xiàn)次數(shù)較少，因此需要仿真更多次數(shù)才能使Q學(xué)習(xí)算法達(dá)到收斂。文中充分利用網(wǎng)絡(luò)中用戶數(shù)的均值和方差來(lái)進(jìn)行網(wǎng)絡(luò)離散化處理，有助于Q學(xué)習(xí)在線學(xué)習(xí)時(shí)保證每一個(gè)狀態(tài)都能夠被遍歷無(wú)數(shù)次，加快收斂速度。根據(jù)CDMA和WLAN網(wǎng)絡(luò)中的用戶數(shù)，將分別對(duì)兩個(gè)網(wǎng)絡(luò)的狀態(tài)離散為4個(gè)，分別用SCDMA和SWLAN表示CDMA和WLAN網(wǎng)絡(luò)中離散化后的四個(gè)狀態(tài)。

CDMA網(wǎng)絡(luò)中，狀態(tài)SCDMA定義如下：

式中，NCDMA為CDMA網(wǎng)絡(luò)當(dāng)前用戶數(shù)；Naver_CDMA為CDMA網(wǎng)絡(luò)中的平均用戶數(shù)；δCDMA為CDMA網(wǎng)絡(luò)中的用戶數(shù)方差。根據(jù)方差的定義，CDMA網(wǎng)絡(luò)用戶數(shù)的方差為：

式中，N為CDMA網(wǎng)絡(luò)中當(dāng)前在線用戶數(shù)。

同理，WLAN網(wǎng)絡(luò)中也可得到類似的表達(dá)式。WLAN網(wǎng)絡(luò)狀態(tài)SWLAN定義如下：

式中，NWLAN為WLAN網(wǎng)絡(luò)中當(dāng)前在線用戶數(shù)；Naver_WLAN為WLAN網(wǎng)絡(luò)平均用戶數(shù)；δWLAN為WLAN網(wǎng)絡(luò)用戶數(shù)方差：

分別得到CDMA和WLAN兩個(gè)網(wǎng)絡(luò)中的4個(gè)狀態(tài)后，考慮異構(gòu)網(wǎng)絡(luò)環(huán)境時(shí)，則兩兩組合可以組成的狀態(tài)總共有16種。每個(gè)用戶到達(dá)網(wǎng)絡(luò)后，智能體可選擇的動(dòng)作有三個(gè)：接入到CDMA系統(tǒng)、接入到WLAN系統(tǒng)和拒絕用戶請(qǐng)求。于是，通過(guò)Q學(xué)習(xí)能得到16行3列的Q值表。

2.2回報(bào)函數(shù)定義

本文業(yè)務(wù)屬性函數(shù)定義為：若新呼叫用戶為語(yǔ)音業(yè)務(wù)，用戶接入CDMA網(wǎng)絡(luò)，業(yè)務(wù)屬性η(v,d)=5，用戶接入到WLAN網(wǎng)絡(luò)，業(yè)務(wù)屬性η(v,d)=2，用戶請(qǐng)求被拒絕，業(yè)務(wù)屬性η(v,d)=0；若新呼叫用戶為數(shù)據(jù)業(yè)務(wù)，用戶接入CDMA網(wǎng)絡(luò)，業(yè)務(wù)屬性η(v,d)=2，用戶接入WLAN網(wǎng)絡(luò)，業(yè)務(wù)屬性η(v,d)=5，用戶請(qǐng)求被拒絕，業(yè)務(wù)屬性η(v,d)=0。

根據(jù)用戶請(qǐng)求帶寬和網(wǎng)絡(luò)能夠給用戶提供的實(shí)際帶寬，定義網(wǎng)絡(luò)收益函數(shù)[4]。

式中，θ為用戶請(qǐng)求的帶寬，x為當(dāng)前系統(tǒng)能夠分配給用戶的帶寬。根據(jù)網(wǎng)絡(luò)收益函數(shù)的定義及業(yè)務(wù)屬性，得到CDMA/WLAN異構(gòu)網(wǎng)絡(luò)的回報(bào)函數(shù)：

通過(guò)Q學(xué)習(xí)算法的在線學(xué)習(xí)，獲得即時(shí)回報(bào)值，該值由式（20）給出。

2.3算法流程

本文綜合考慮CDMA和WLAN網(wǎng)絡(luò)中的用戶數(shù)、用戶請(qǐng)求速率、業(yè)務(wù)屬性以及系統(tǒng)實(shí)際分配給用戶的速率等諸多因素，利用Q學(xué)習(xí)算法，根據(jù)網(wǎng)絡(luò)狀態(tài)和回報(bào)函數(shù)的分析，提出基于Q學(xué)習(xí)的CDMA/WLAN異構(gòu)網(wǎng)絡(luò)接入控制算法。

算法具體步驟如下：

步驟一：初始化Q(s,α)。初始化Q值表，可以令Q值表中每一個(gè)元素都為零或者利用函數(shù)產(chǎn)生隨機(jī)值，并分別設(shè)定初始學(xué)習(xí)率α和折扣因子γ，設(shè)定初始動(dòng)作選擇探索概率ε。因?yàn)镼學(xué)習(xí)需要通過(guò)狀態(tài)-動(dòng)作進(jìn)行迭代，故需要在迭代過(guò)程中快速、高效地遍歷每一個(gè)策略空間。避免貪婪算法開(kāi)始迭代過(guò)程中，由于學(xué)習(xí)的環(huán)境知識(shí)較少，會(huì)“掩蓋”最優(yōu)策略的問(wèn)題。為了避免其發(fā)生，本文采用Boltzmann[11]搜索方法，在網(wǎng)絡(luò)的當(dāng)前狀態(tài)s下，按式（21）定義的概率來(lái)選擇動(dòng)作a，即：

式中，T為模擬退火溫度參數(shù)，隨迭代逐漸降為0。

步驟二：獲取當(dāng)前狀態(tài)s。先判斷當(dāng)前CDMA和WLAN網(wǎng)絡(luò)的各業(yè)務(wù)用戶數(shù)，然后根據(jù)網(wǎng)絡(luò)離散化策略獲得兩個(gè)網(wǎng)絡(luò)的當(dāng)前所處狀態(tài)，從而判斷出當(dāng)前網(wǎng)絡(luò)所處16個(gè)狀態(tài)中的位置。

步驟三：選擇執(zhí)行的動(dòng)作α。觀察作集合A（CDMA、WLAN和拒絕），根據(jù)當(dāng)前時(shí)刻網(wǎng)絡(luò)的狀態(tài)-動(dòng)作函數(shù)值Qt(s,α)，按式（21）給出的概率來(lái)選擇動(dòng)作α，并執(zhí)行該動(dòng)作。

步驟四：獲取回報(bào)r和下一時(shí)刻的狀態(tài)s'。根據(jù)動(dòng)作執(zhí)行的結(jié)果，計(jì)算當(dāng)前用戶獲得的回報(bào)值R，并獲得網(wǎng)絡(luò)下一個(gè)狀態(tài)的動(dòng)作值函數(shù)的最大值利用式（22）更新Qt(s,α)：

步驟五：系統(tǒng)參數(shù)更新。每次迭代結(jié)束后，更新探索概率和學(xué)習(xí)率。

步驟六：更新Q值表，最后找到最優(yōu)的Q值，即：

步驟七：比較前后兩次Q值的變化情況。如果滿足ΔQ( s, a)＜ε，?s∈S, a∈A，算法達(dá)到收斂，停止計(jì)算。否則，重復(fù)步驟二到步驟六。

3　仿真與分析

3.1仿真建立

根據(jù)以上對(duì)Q學(xué)習(xí)接入控制策略的分析，在CDMA/WLAN異構(gòu)網(wǎng)絡(luò)條件下，考察一個(gè)由單一小區(qū)重疊覆蓋區(qū)域的異構(gòu)網(wǎng)絡(luò)環(huán)境，如圖1所示。CDMA和WLAN的覆蓋范圍和小區(qū)容量不一樣，假設(shè)都支持12.2 kbps和32 kbps的語(yǔ)音和數(shù)據(jù)兩種業(yè)務(wù)。用戶達(dá)到率服從泊松分布，業(yè)務(wù)持續(xù)時(shí)間服從負(fù)指數(shù)分布。為了驗(yàn)證所提出的Q學(xué)習(xí)接入控制算法的性能，仿真評(píng)估基于Q學(xué)習(xí)的CDMA/WLAN異構(gòu)網(wǎng)絡(luò)接入控制策略的系統(tǒng)阻塞率、用戶收益及吞吐量。

圖1　CDMA和WLAN單小區(qū)重疊覆蓋場(chǎng)景

根據(jù)離散化的16個(gè)狀態(tài)，可選動(dòng)作為三個(gè)：CDMA網(wǎng)絡(luò)、WLAN網(wǎng)絡(luò)和拒絕用戶接入。對(duì)CDMA/WLAN異構(gòu)網(wǎng)絡(luò)采用Q學(xué)習(xí)進(jìn)行接入控制算法訓(xùn)練，同時(shí)根據(jù)當(dāng)前網(wǎng)絡(luò)的用戶數(shù)判斷網(wǎng)絡(luò)所處的狀態(tài)，根據(jù)Q學(xué)習(xí)迭代公式進(jìn)行訓(xùn)練。仿真10 000次在不同到達(dá)率情況下的阻塞率情況，最后給出某個(gè)到達(dá)率下訓(xùn)練結(jié)束后的Q值表。智能體根據(jù)最終Q值表，從為用戶帶來(lái)收益的角度選擇最適合異構(gòu)網(wǎng)絡(luò)的最佳動(dòng)作。CDMA/WLAN系統(tǒng)仿真參數(shù)設(shè)定如表1所示，并設(shè)定語(yǔ)音業(yè)務(wù)和數(shù)據(jù)業(yè)務(wù)的速率與CDMA中的請(qǐng)求速率一樣。

表1　系統(tǒng)仿真參數(shù)

3.2結(jié)果分析

為了說(shuō)明本文提出Q學(xué)習(xí)接入控制方法的性能，本文與WLAN優(yōu)先接入控制算法的系統(tǒng)阻塞率和長(zhǎng)期累計(jì)回報(bào)值進(jìn)行比較。圖2和圖3給出了不同用戶到達(dá)率情況下系統(tǒng)阻塞率和歸一化的累計(jì)回報(bào)。

圖2　不同到達(dá)率下的系統(tǒng)阻塞率

如圖2所示，本文提出的Q學(xué)習(xí)接入控制算法比WLAN網(wǎng)絡(luò)優(yōu)先接入控制算法有著更低的阻塞率。因?yàn)樵赪LAN優(yōu)先接入控制算法中，只考慮了當(dāng)用戶到達(dá)時(shí)所有用戶都嘗試接入到WLAN網(wǎng)絡(luò)中，而沒(méi)有考慮當(dāng)前兩個(gè)網(wǎng)絡(luò)的整體情況。例如，當(dāng)WLAN網(wǎng)絡(luò)中用戶數(shù)較多時(shí)，更多的用戶向WLAN網(wǎng)絡(luò)發(fā)起呼叫請(qǐng)求，那么呼叫請(qǐng)求被系統(tǒng)引導(dǎo)到CDMA網(wǎng)絡(luò)中的用戶數(shù)較多。本文提出的Q學(xué)習(xí)接入控制算法是通過(guò)在線學(xué)習(xí)選擇能夠最大化網(wǎng)絡(luò)中用戶總收益的網(wǎng)絡(luò)進(jìn)行接入，能夠從長(zhǎng)遠(yuǎn)角度考慮，使智能體能夠選擇一個(gè)最優(yōu)的動(dòng)作。這樣不僅平衡了兩個(gè)網(wǎng)絡(luò)負(fù)荷，同時(shí)也降低了系統(tǒng)阻塞率。可見(jiàn)，該Q學(xué)習(xí)接入控制算法從整體上實(shí)現(xiàn)了兩個(gè)網(wǎng)絡(luò)中用戶累計(jì)回報(bào)的最大化。

圖3給出了兩種算法在不同到達(dá)率下用戶的歸一化累計(jì)回報(bào)值。可以看出，當(dāng)采用本文提出的Q學(xué)習(xí)接入控制算法后，用戶的歸一化累計(jì)回報(bào)明顯高于WLAN網(wǎng)絡(luò)優(yōu)先接入算法，說(shuō)明提出的算法在通過(guò)學(xué)習(xí)網(wǎng)絡(luò)當(dāng)前的狀態(tài)而采取相應(yīng)的策略，不僅能夠降低系統(tǒng)阻塞率，同時(shí)系統(tǒng)還能得到更高的長(zhǎng)期回報(bào)，從而驗(yàn)證了本文提出算法的有效性。

圖3　不同到達(dá)率下歸一化用戶累計(jì)回報(bào)

根據(jù) 對(duì)網(wǎng)絡(luò)狀態(tài)進(jìn)行離散化和定義的回報(bào)函數(shù)，仿真中分別考慮了CDMA和WLAN網(wǎng)絡(luò)的4個(gè)狀態(tài)組合后形成的16個(gè)新的狀態(tài)。在給定的每一個(gè)用戶到達(dá)率下，本文所提出的Q學(xué)習(xí)異構(gòu)網(wǎng)絡(luò)接入控制方法都能夠獲得一個(gè)Q表。假設(shè)用戶平均到達(dá)率為0.5個(gè)/秒，則根據(jù)學(xué)習(xí)結(jié)束后獲得的Q表，每個(gè)對(duì)應(yīng)的狀態(tài)下智能體做出的動(dòng)作是選擇該狀態(tài)行中Q的最大值所對(duì)應(yīng)的動(dòng)作，如表2所示。

表2　Q學(xué)習(xí)狀態(tài)—?jiǎng)幼鞅?/p>

由表2可以得到，當(dāng)CDMA/WLAN異構(gòu)網(wǎng)絡(luò)系統(tǒng)處于某個(gè)狀態(tài)時(shí)，則找到Q表中對(duì)應(yīng)于該狀態(tài)的行，選擇該行中最大值對(duì)應(yīng)的動(dòng)作執(zhí)行。例如，當(dāng)網(wǎng)絡(luò)處于第6個(gè)狀態(tài)時(shí)，一個(gè)新用戶到達(dá)后將接入到CDMA系統(tǒng)中；當(dāng)網(wǎng)絡(luò)處于第12個(gè)狀態(tài)時(shí)，用戶接入到WLAN網(wǎng)絡(luò)中；當(dāng)網(wǎng)絡(luò)處于第7個(gè)狀態(tài)時(shí)，新用戶的請(qǐng)求被拒絕。根據(jù)該Q表可以實(shí)現(xiàn)CDMA和WLAN異構(gòu)網(wǎng)絡(luò)接入控制，不僅能夠降低系統(tǒng)對(duì)用戶的阻塞率，還能夠簡(jiǎn)單明了得從Q值表中即可實(shí)現(xiàn)最佳的接入控制。這樣可以根據(jù)該Q值表決定用戶接入到某一個(gè)網(wǎng)絡(luò)中或者拒絕用戶請(qǐng)求，從而實(shí)現(xiàn)CDMA/WLAN異構(gòu)網(wǎng)絡(luò)的智能接入控制。

4　結(jié) 語(yǔ)

針對(duì)CDMA和WLAN異構(gòu)網(wǎng)絡(luò)接入控制策略的不足以及Q學(xué)習(xí)的優(yōu)勢(shì)，提出了基于Q學(xué)習(xí)的接入控制算法。根據(jù)網(wǎng)絡(luò)中的用戶數(shù)分別對(duì)兩個(gè)網(wǎng)絡(luò)的狀態(tài)進(jìn)行離散化處理，并根據(jù)用戶的業(yè)務(wù)類型和用戶收益定義智能體選擇動(dòng)作所獲得的即時(shí)回報(bào)。通過(guò)對(duì)Q學(xué)習(xí)算法進(jìn)行仿真迭代，降低了系統(tǒng)阻塞率、提高了用戶的累積回報(bào)值和系統(tǒng)資源利用效率，同時(shí)得到了一定用戶到達(dá)率下的網(wǎng)絡(luò)狀態(tài)-動(dòng)作Q表，根據(jù)該表可以實(shí)現(xiàn)對(duì)CDMA/WLAN異構(gòu)網(wǎng)絡(luò)的智能接入控制。

[1] 3rd Generation Partnership Project(3GPP),3GPP System to Wireless Local Area Network(WLAN) Interworking System Description,Release 6,TS 23.234 V6.10.0[S].2006.

[2] Yilmaz O, Furuskar A, Pettersson J, et al.Access Selection in WCDMA and WLAN Muti-access Networks[C].IEEE VTC Spring,2005:2220-2224.

[3] Gordon J. Pareto Process as a Model of Self-simiar Packet Traffic[C].IEEE GLOBECOM,1995(03):2232-2236.

[4] Pei X, Jiang T, Qu D, et al. Radio Resource Management and Access-Control Mechanism based on a Novel Economic Model in Heterogeneous Wireless Networks[J]. IEEE Trans. Veh. Technol.,2010,59(06):3047-3056.

[5] Chen Y, Chang C, Ren F. Q-learning-Based Multirate Transmission Control Scheme for RRM in Multimedia WCDMA Systems[J].IEEE Trans. Veh. Technol.,2004,53(01):38-48.

[6] Chen Y, Chang C, Huang C. Fuzzy Q-Learning Admission Control for WCDMA/WLAN Heterogeneous Networks with Multimedia Traffic[J].IEEE Trans. Mob. Computing,2009,8(11):1469-1479.

[7] 張永靖,馮志勇,張平.基于Q學(xué)習(xí)的自主聯(lián)合無(wú)線資源管理算法[J].電子與信息學(xué)報(bào),2008,3(03):676-680. ZHANG Yong-jing, FENG Zhi-yong, ZHANG Ping. A Q-learning Based Autonomic Joint Radio Resource Management Algorithm[J].Journal of Electronics & Information Technology, 2008,3(03):676-680.

[8] 趙彥清,朱琦.基于Q學(xué)習(xí)的異構(gòu)網(wǎng)絡(luò)選擇新算法[J].計(jì)算機(jī)應(yīng)用,2011,31(06):1641-1644. ZHAO Yan-qing, ZHU Qi. New Q-learning based Heterogeneous Network Selection Algorithm [J].Journal of Computer Applications. 2011,31 (06): 1641-1644.

[9] Lundin E, Gunnarsson F, Gustafsson. Uplink Load Estimation in WCDMA[C].IEEE Conference Wireless Communications and Networking, 2003:1669-1674.

[10] Zhai H, Chen X, Fang Y. How Well Can the IEEE 802.11 Wireless LAN Support Quality of Service?[J]. IEEE Trans. Wireless Commun.,2005,4(06):3084-3094.

[11] Kaelbling L, Littman M, Wang X, et al. Reinforcement Learning: A Survey[J]. Journal of Artificial Intelligence Research, 1996, 4(02): 237-285.

劉惠茹（1977—），女，碩士，高級(jí)工程師，主要研究方向?yàn)閷拵б苿?dòng)通信；

馬琳（1980—），男，博士，副教授，博士生導(dǎo)師，主要研究方向?yàn)閷拵б苿?dòng)通信、室內(nèi)定位技術(shù)；

徐玉濱（1954—），男，博士，教授，博士生導(dǎo)師，主要研究方向?yàn)閷拵б苿?dòng)通信、室內(nèi)定位技術(shù)。

Q Learning-based Access-Control Algorithm for CDMA/WLAN Heterogeneous Networks

LIU Hui-ru1, MA Lin2, XU Yu-bin2
(1.Beijing Research Institute of Mechanical & Electrical Technology, Beijing 100074, China; 2.Communication Research Center of Harbin University of Technology, Harbin Heilongjiang 150080, China)

in heterogeneous CDMA and WLAN scenario, aiming at the problem of low system-resource utilization and the high blocking probability, a Q learning-based smart access-control algorithm for CDMA/WLAN heterogeneous networks is proposed. By introducing the Q learning method the proposed algorithm, this smart access-control algorithm could thus implement discrete processing of the network states, and based on the states of various networks, make the networks choose proper users for themselves, and via this enhance the system-resource utilization ratio. Simulation results show that by using Q learning to the online study, the proposed algorithm could globally reduce the blocking probability and maximizes the circulative rewards for the users in the two networks, and acquire the system state-action Q learning table for smart access-control.

heterogeneous network; Q learning; access-control; CDMA; WLAN

0　引言

異構(gòu)網(wǎng)絡(luò)的融合能夠?yàn)橛脩籼峁┎煌瑯I(yè)務(wù)需求、滿足不同的服務(wù)質(zhì)量（Quality of Service，QoS）要求。鑒于CDMA和WLAN[1]網(wǎng)絡(luò)的互補(bǔ)特性、重疊網(wǎng)絡(luò)覆蓋及業(yè)務(wù)的多樣性，使得二者的融合成為必然。松耦合和緊耦合模式為網(wǎng)絡(luò)互聯(lián)奠定了基礎(chǔ)。網(wǎng)絡(luò)接入選擇作為異構(gòu)網(wǎng)絡(luò)融合的關(guān)鍵技術(shù)之一，是實(shí)現(xiàn)CDMA和WLAN異構(gòu)網(wǎng)絡(luò)間無(wú)縫連接的關(guān)鍵。

National Natural Science Foundation of China （No.61571162）；Science and Technology Project of Ministry of Public Security Foundation （No.2015GABJC38）；Major National Science and Technology Project（No.2015ZX03004002-004）

TN925.93

1002-0802(2016)-08-01017-06

10.3969/j.issn.1002-0802.2016.08.012

2016-04-24;

2016-07-25

date:2016-04-24;Revised date:2016-07-25

國(guó)家自然科學(xué)基金（No.61571162）；公安部科技強(qiáng)警基礎(chǔ)工作專項(xiàng)（No.2015GABJC38）；國(guó)家科技重大專項(xiàng)子課題（No.2015ZX03004002-004）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于Q學(xué)習(xí)的CDMA/WLAN異構(gòu)網(wǎng)絡(luò)接入控制算法*

1 系統(tǒng)模型

2 Q學(xué)習(xí)算法設(shè)計(jì)

3 仿真與分析

4 結(jié) 語(yǔ)

0 引 言

1　系統(tǒng)模型

2　Q學(xué)習(xí)算法設(shè)計(jì)

3　仿真與分析

4　結(jié) 語(yǔ)

0　引言