国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向RFID 動(dòng)態(tài)幀時(shí)隙ALOHA 協(xié)議的幀長(zhǎng)優(yōu)化

2021-07-22 17:02何金棟卜艷玲石聰聰
計(jì)算機(jī)與生活 2021年7期
關(guān)鍵詞:時(shí)隙閱讀器個(gè)數(shù)

何金棟,卜艷玲,石聰聰,謝 磊

1.國(guó)網(wǎng)福建省電力有限公司電力科學(xué)研究院,福州 350007

2.南京大學(xué) 計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,南京 210023

3.全球能源互聯(lián)網(wǎng)研究院有限公司 信息網(wǎng)絡(luò)安全實(shí)驗(yàn)室,南京 210023

近年來,為了實(shí)現(xiàn)電力系統(tǒng)的萬物互聯(lián)與優(yōu)化管理,國(guó)家電網(wǎng)充分運(yùn)用多種信息技術(shù)和通信技術(shù),積極建設(shè)泛在電力物聯(lián)網(wǎng)。其中,射頻識(shí)別技術(shù)(radio frequency identification,RFID)是泛在電力物聯(lián)網(wǎng)建設(shè)的核心技術(shù)。憑借價(jià)格低廉、無需電源、非視距通信、遠(yuǎn)距離通信等特點(diǎn),RFID 被廣泛應(yīng)用于電力倉儲(chǔ)物資管理、電力巡檢等場(chǎng)景,以監(jiān)控物品的存儲(chǔ)、出入等[1-5]。由于在實(shí)際倉庫中,貼有標(biāo)簽的電力設(shè)備的數(shù)量動(dòng)態(tài)變化,需要時(shí)常盤點(diǎn)標(biāo)簽,而不能僅根據(jù)列表檢測(cè)缺失標(biāo)簽[6-10]。由于倉庫中往往存在大量標(biāo)簽,通信過程容易出現(xiàn)標(biāo)簽信號(hào)沖突。為了提高標(biāo)簽識(shí)別效率,需要設(shè)計(jì)良好的防沖突算法來減少標(biāo)簽沖突,實(shí)現(xiàn)快速盤點(diǎn)。同時(shí),由于信號(hào)衰減等因素,閱讀器與標(biāo)簽的通信過程存在包丟失或者篡改的可能性,導(dǎo)致通信失敗,而這種不確定性為標(biāo)簽的快速盤點(diǎn)增加了難度。

由于基于ALOHA 的防沖突算法[11-21]簡(jiǎn)單公平、性能良好,目前商用RFID 系統(tǒng)所采用的EPC C1G2標(biāo)準(zhǔn)[21]便是遵循基于時(shí)隙的ALOHA 算法來管理標(biāo)簽響應(yīng)。以往的ALOHA 研究工作主要聚焦于優(yōu)化ALOHA 模型參數(shù)來調(diào)整幀長(zhǎng),但是它們僅考慮了通信失敗概率為零的理想情況,而實(shí)際由于信號(hào)衰減、環(huán)境干擾等因素,這些方案無法滿足應(yīng)用需求。商用RFID 系統(tǒng)中采用Q 算法來動(dòng)態(tài)調(diào)整幀長(zhǎng),穩(wěn)定性強(qiáng)、吞吐率高,但是提前結(jié)束幀的機(jī)制使得閱讀器需要不斷發(fā)送詢問命令,增加了傳輸數(shù)據(jù)量。

本文提出了基于QN-learning 的幀時(shí)隙ALOHA幀長(zhǎng)優(yōu)化算法,通過結(jié)合Q-learning 和神經(jīng)網(wǎng)絡(luò),能夠在實(shí)際存在多種不確定因素的情況下確定最優(yōu)幀長(zhǎng),有效識(shí)別標(biāo)簽。基本思想是讓閱讀器自主學(xué)習(xí)在不同的標(biāo)簽響應(yīng)狀態(tài)下如何選擇最優(yōu)幀長(zhǎng),最大化標(biāo)簽識(shí)別效率。動(dòng)態(tài)調(diào)整幀長(zhǎng)的過程本質(zhì)上是強(qiáng)化學(xué)習(xí)中的馬爾可夫決策過程[11-13,22],在環(huán)境中標(biāo)簽數(shù)未知、閱讀器和標(biāo)簽之間通信失敗概率未知的情況下,閱讀器根據(jù)觀察到的標(biāo)簽響應(yīng)狀態(tài),如空時(shí)隙數(shù)、單時(shí)隙數(shù)和沖突時(shí)隙數(shù),來學(xué)習(xí)如何選擇最優(yōu)幀長(zhǎng),使得系統(tǒng)能夠消耗最少的時(shí)隙總數(shù)來識(shí)別所有標(biāo)簽。為了得到幀長(zhǎng)選擇的策略,本文基于Q-learning的思想計(jì)算值函數(shù)并作為幀長(zhǎng)選擇的標(biāo)準(zhǔn)。值函數(shù)的輸入為閱讀器觀察到的某一幀中標(biāo)簽的響應(yīng)狀態(tài),即不同種類時(shí)隙的個(gè)數(shù),輸出為使得最終消耗時(shí)隙總數(shù)最少的幀長(zhǎng)。由于狀態(tài)空間稀疏而龐大,傳統(tǒng)的基于表格的值函數(shù)無法滿足應(yīng)用需求,本文提出利用神經(jīng)網(wǎng)絡(luò)來近似值函數(shù),通過值函數(shù)網(wǎng)絡(luò)來近似值函數(shù)的真值表示。另外,為了減少計(jì)算量,本文提出通過利用神經(jīng)網(wǎng)絡(luò)來估算標(biāo)簽數(shù)以縮小最優(yōu)幀長(zhǎng)的選擇范圍。在標(biāo)簽數(shù)估計(jì)方面,前人工作通常沒有考慮通信失敗概率等不確定因素,而本文將標(biāo)簽數(shù)估計(jì)問題轉(zhuǎn)化為回歸問題,輸入為不同種類時(shí)隙的個(gè)數(shù),真實(shí)值為實(shí)際標(biāo)簽數(shù),通過訓(xùn)練網(wǎng)絡(luò)來估算標(biāo)簽數(shù),從而確定最優(yōu)幀長(zhǎng)區(qū)間,減小搜索范圍。

本文主要有以下三個(gè)貢獻(xiàn):(1)將基于幀時(shí)隙的ALOHA 算法中的動(dòng)態(tài)幀長(zhǎng)調(diào)整問題轉(zhuǎn)化為強(qiáng)化學(xué)習(xí)中的馬爾可夫決策過程,在標(biāo)簽數(shù)未知且存在不確定的通信失敗概率的情況下,能夠較好地調(diào)整幀長(zhǎng),減少時(shí)隙沖突,魯棒而高效地識(shí)別標(biāo)簽。同時(shí),兼容C1G2標(biāo)準(zhǔn),易于部署到當(dāng)前的商用系統(tǒng)中。(2)提出了QN-learning 算法來訓(xùn)練值函數(shù)網(wǎng)絡(luò),能夠根據(jù)不同種類時(shí)隙的個(gè)數(shù)指導(dǎo)選擇最優(yōu)幀長(zhǎng)。通過將Qlearning 算法和神經(jīng)網(wǎng)絡(luò)相結(jié)合,利用神經(jīng)網(wǎng)絡(luò)來模擬Q-learning 算法中的值函數(shù),能夠隱式地學(xué)習(xí)到環(huán)境中的通信失敗概率,從而在值函數(shù)網(wǎng)絡(luò)的基礎(chǔ)上,結(jié)合實(shí)時(shí)的標(biāo)簽響應(yīng)狀態(tài),確定最優(yōu)幀長(zhǎng)。本文也提出了利用神經(jīng)網(wǎng)絡(luò)來估計(jì)標(biāo)簽數(shù),以縮小幀長(zhǎng)搜索范圍,減少計(jì)算量。(3)通過仿真實(shí)驗(yàn)評(píng)估了QNlearning 算法的性能。實(shí)驗(yàn)表明,基于QN-learning 訓(xùn)練得到的值函數(shù)網(wǎng)絡(luò)在指導(dǎo)最優(yōu)幀長(zhǎng)選擇方面表現(xiàn)優(yōu)異,能夠在保障高吞吐率的同時(shí)控制數(shù)據(jù)傳輸量。

1 相關(guān)工作

為了實(shí)現(xiàn)標(biāo)簽的快速識(shí)別,如果已有標(biāo)簽列表,則僅需檢測(cè)缺失標(biāo)簽來實(shí)現(xiàn)快速盤點(diǎn)。一般而言,通信過程要盡可能避免信號(hào)沖突,但對(duì)缺失標(biāo)簽檢測(cè)而言,研究者們卻偏好沖突時(shí)隙,當(dāng)原本的沖突時(shí)隙不發(fā)生沖突或者原本的單時(shí)隙變成空時(shí)隙時(shí),通過查詢標(biāo)簽列表即可快速檢測(cè)缺失標(biāo)簽[6-10]。例如,文獻(xiàn)[6]提出通過哈希將多個(gè)標(biāo)簽分配到同一個(gè)時(shí)隙中,批量檢測(cè)這些標(biāo)簽是否缺失。但是文獻(xiàn)[6]的方法不兼容C1G2標(biāo)準(zhǔn),無法被部署在當(dāng)前的商用RFID 系統(tǒng)之上。此外,對(duì)于流動(dòng)性較大的倉庫,不僅存在標(biāo)簽的流出,還有新標(biāo)簽的流入,要維持詳盡的標(biāo)簽列表困難較大,因而無法采用缺失標(biāo)簽識(shí)別的方法清點(diǎn)標(biāo)簽,必須對(duì)全部標(biāo)簽進(jìn)行盤點(diǎn)。

在基于時(shí)隙ALOHA 算法[11-21]中,當(dāng)標(biāo)簽列表未知時(shí),設(shè)置合適的幀長(zhǎng)是提高識(shí)別效率的關(guān)鍵,常見的動(dòng)態(tài)幀長(zhǎng)調(diào)整算法有:一種是目前商用系統(tǒng)中采用的Q 算法[12,20-21];另一種是基于不同種類的時(shí)隙數(shù)來優(yōu)化模型選擇幀長(zhǎng)[15-19]。Q 算法在遇到過多空時(shí)隙或者沖突時(shí)隙時(shí)會(huì)提前結(jié)束幀,調(diào)整幀長(zhǎng)以開啟新的一幀進(jìn)行詢問,這種方法穩(wěn)定性強(qiáng)、吞吐率高,但是要求閱讀器不斷發(fā)送詢問命令,因此輪詢過程傳輸?shù)臄?shù)據(jù)量較大。而對(duì)于基于不同時(shí)隙種類的方法,Q 算法的缺點(diǎn)并不成立,但是由于它不會(huì)提前結(jié)束幀,對(duì)幀長(zhǎng)的設(shè)置更為敏感。文獻(xiàn)[2]指出,當(dāng)幀長(zhǎng)設(shè)置與標(biāo)簽數(shù)相同時(shí),時(shí)隙利用率最高,因此學(xué)者們針對(duì)如何利用不同種類的時(shí)隙數(shù)估計(jì)標(biāo)簽數(shù)做了大量的研究[17-18],但是他們的工作大部分建立在通信失敗概率為零的基礎(chǔ)上,因而他們提出的方案并不適用于實(shí)際場(chǎng)景。文獻(xiàn)[19]考慮了通信失敗造成標(biāo)簽丟失的情況。在通信失敗概率已知的基礎(chǔ)上,他們提出了利用概率模型來確定最優(yōu)幀長(zhǎng)。但是在實(shí)際中,通信失敗概率往往也是未知的,這為標(biāo)簽數(shù)的估算又增加了難度。

與前人工作相比,本文方法基于幀時(shí)隙ALOHA算法,兼容C1G2 標(biāo)準(zhǔn),易于在已有的RFID 系統(tǒng)中進(jìn)行部署。同時(shí),本文考慮了標(biāo)簽數(shù)未知且不確定的通信失敗概率,注意到單次的最佳識(shí)別效率并不意味著識(shí)別完所有標(biāo)簽的最佳效率,因此通過強(qiáng)化學(xué)習(xí)來確定全局最優(yōu)的幀長(zhǎng)選擇策略,以更貼合實(shí)際應(yīng)用需求,有效識(shí)別標(biāo)簽,在保障高吞吐率的同時(shí)控制詢問次數(shù),減少數(shù)據(jù)傳輸量。

2 背景知識(shí)

在基于幀時(shí)隙的ALOHA(framed slotted ALOHA,F(xiàn)SA)防沖突算法中,每一幀由若干時(shí)隙組成,閱讀器以幀為單位對(duì)標(biāo)簽進(jìn)行詢問。在詢問開始的時(shí)候,閱讀器廣播幀長(zhǎng)f,通知標(biāo)簽即將開始的幀中包含的時(shí)隙個(gè)數(shù)。標(biāo)簽在收到幀長(zhǎng)之后隨機(jī)選擇時(shí)隙,等到輪到該時(shí)隙時(shí)作出響應(yīng)。若被成功識(shí)別,標(biāo)簽不再響應(yīng),否則繼續(xù)參與下一幀的詢問。按照時(shí)隙中響應(yīng)標(biāo)簽的個(gè)數(shù),時(shí)隙可以分為空時(shí)隙、單時(shí)隙和沖突時(shí)隙三類。當(dāng)且僅當(dāng)閱讀器接收到單時(shí)隙時(shí),閱讀器有機(jī)會(huì)解碼標(biāo)簽。理論上,當(dāng)幀長(zhǎng)等于閱讀器掃描范圍內(nèi)未響應(yīng)標(biāo)簽個(gè)數(shù)時(shí),識(shí)別性能最佳,吞吐率可達(dá)36.8%。但在實(shí)際中,標(biāo)簽個(gè)數(shù)往往是未知的,并且通信過程存在一定的通信失敗概率。通信失敗主要出現(xiàn)在三個(gè)階段:

標(biāo)簽激活階段:由于Query/QueryAdjust/QueryRep收發(fā)的失敗可能性,并非所有標(biāo)簽都能被激活。

標(biāo)簽響應(yīng)階段:由于RN16 收發(fā)的失敗可能性,在閱讀器端接收到的時(shí)隙狀態(tài)不一定為原來的時(shí)隙狀態(tài),包括原單時(shí)隙變成空時(shí)隙,原沖突時(shí)隙變成單時(shí)隙、空時(shí)隙。

閱讀器解碼階段:由于確認(rèn)命令(acknowledgement,ACK)收發(fā)的失敗可能性,閱讀器不一定能解碼出標(biāo)簽信息。

為了獲得最佳性能,需要?jiǎng)討B(tài)調(diào)整幀長(zhǎng)。因此,在標(biāo)簽數(shù)不確定且存在未知通信失敗概率的情況下,如何根據(jù)不同類型的時(shí)隙數(shù)來確定最優(yōu)幀長(zhǎng)是提高時(shí)隙吞吐率的關(guān)鍵所在。

3 基于QN-learning 的FSA 算法

3.1 馬爾可夫決策過程

動(dòng)態(tài)調(diào)整幀長(zhǎng)的過程可以看作一個(gè)馬爾可夫決策過程(Markov decision process,MDP),如圖1 所示。具體而言,閱讀器處于環(huán)境E中,狀態(tài)空間為S,其中狀態(tài)s∈S為閱讀器觀察到的上一幀中不同種類時(shí)隙的個(gè)數(shù),包括空時(shí)隙數(shù)、單時(shí)隙數(shù)、沖突時(shí)隙數(shù),分別記作ne、ns、nc;動(dòng)作空間為A,其中動(dòng)作a∈A為閱讀器可以選擇的幀長(zhǎng)。在根據(jù)狀態(tài)s執(zhí)行動(dòng)作a之后,閱讀器將得到環(huán)境新反饋的狀態(tài),即新一幀中不同種類時(shí)隙的個(gè)數(shù),并根據(jù)獎(jiǎng)賞函數(shù)R得到這一輪的獎(jiǎng)賞r,如當(dāng)前幀的吞吐率(被成功識(shí)別的標(biāo)簽數(shù)與幀長(zhǎng)的比值)。圖1 中的箭頭表示狀態(tài)的轉(zhuǎn)移,可見下一時(shí)刻的狀態(tài)只與當(dāng)前時(shí)刻的狀態(tài)有關(guān),而不依賴于之前的任何狀態(tài)。根據(jù)轉(zhuǎn)移函數(shù)P,從一個(gè)狀態(tài)到另一個(gè)狀態(tài)按照一定的概率發(fā)生轉(zhuǎn)移。綜上,動(dòng)態(tài)幀長(zhǎng)調(diào)整問題可以描述為四元組E=。

Fig.1 Markov decision process for dynamic frame size adjustment圖1 動(dòng)態(tài)幀長(zhǎng)調(diào)整的馬爾可夫決策過程

閱讀器所要做的就是通過不斷嘗試來學(xué)習(xí)一個(gè)策略π,決定在狀態(tài)s時(shí)所要選擇的最優(yōu)幀長(zhǎng)a=π(s)。在動(dòng)態(tài)幀長(zhǎng)調(diào)整過程中,為了最大化整體的標(biāo)簽識(shí)別效率,不僅需要考慮即時(shí)獎(jiǎng)賞,還要考慮未來獎(jiǎng)賞,學(xué)習(xí)目標(biāo)是消耗最少的時(shí)隙總數(shù)來識(shí)別環(huán)境中的所有標(biāo)簽。注意到,在當(dāng)前狀態(tài)執(zhí)行的動(dòng)作對(duì)下一時(shí)刻的獎(jiǎng)賞影響最大,隨著時(shí)間的推移,對(duì)未來獎(jiǎng)賞的影響逐步減小,因此不妨采用“γ折扣累積獎(jiǎng)賞”來計(jì)算長(zhǎng)期累積獎(jiǎng)賞,如式(1)所示。

其中,Rt表示從時(shí)刻t開始的累積獎(jiǎng)賞,rt表示時(shí)刻t的即時(shí)獎(jiǎng)賞,γ為折扣因子并且γ∈[]0,1 。實(shí)際上,在動(dòng)態(tài)幀長(zhǎng)調(diào)整問題的四元組中,狀態(tài)函數(shù)P和獎(jiǎng)賞函數(shù)R都無法用模型進(jìn)行刻畫。因此,一種可行方案是采用Q-learning 實(shí)現(xiàn)“無模型學(xué)習(xí)”。

3.2 基于神經(jīng)網(wǎng)絡(luò)的Q-learning:QN-learning

在Q-learning中,策略的評(píng)估標(biāo)準(zhǔn)為值函數(shù)Q(s,a),表示在狀態(tài)s時(shí)執(zhí)行動(dòng)作a之后到該輪學(xué)習(xí)結(jié)束所能獲得的最大累積獎(jiǎng)賞,類似于獎(jiǎng)賞函數(shù)。從而在狀態(tài)s時(shí),選擇使值函數(shù)最大的動(dòng)作,即:

值函數(shù)與當(dāng)前動(dòng)作、狀態(tài)、當(dāng)前獎(jiǎng)賞和下一狀態(tài)有關(guān),記為,類似式(1),值函數(shù)可以迭代表示為:

Q-learning 的基本思想是通過不斷迭代更新值函數(shù),獲得可靠的策略評(píng)估標(biāo)準(zhǔn)。在學(xué)習(xí)初期,值函數(shù)可能存在較大誤差,但是隨著迭代計(jì)算的推進(jìn),值函數(shù)會(huì)逐漸趨向于真值,指導(dǎo)閱讀器執(zhí)行最優(yōu)幀長(zhǎng)。

在一般的Q-learning 中,值函數(shù)可以用一個(gè)“狀態(tài)-動(dòng)作”表格來表示,但是在動(dòng)態(tài)幀長(zhǎng)調(diào)整問題中,狀態(tài)空間稀疏而龐大,無法列舉所有的可能組合,因此不妨采用函數(shù)來模擬Q值的變化,一種可行的方法是利用神經(jīng)網(wǎng)絡(luò)來近似值函數(shù),問題即轉(zhuǎn)化為“QN-learning”,其中的“N”指代神經(jīng)網(wǎng)絡(luò)。如圖2 所示,輸入為狀態(tài)和動(dòng)作,輸出為Q值,學(xué)習(xí)過程則是為了訓(xùn)練中間的神經(jīng)網(wǎng)絡(luò)。由于該神經(jīng)網(wǎng)絡(luò)是用來模擬值函數(shù)的,將這個(gè)網(wǎng)絡(luò)稱為“值函數(shù)網(wǎng)絡(luò)”。

Fig.2 Structure of QN-learning圖2 QN-learning 的基本結(jié)構(gòu)

網(wǎng)絡(luò)的訓(xùn)練實(shí)質(zhì)上可以看作一個(gè)回歸任務(wù),使得目標(biāo)值與預(yù)測(cè)值無限接近,其損失函數(shù)為:

3.3 經(jīng)驗(yàn)重放

在Q-learning 中,機(jī)器每執(zhí)行一個(gè)動(dòng)作,值函數(shù)更新一次,當(dāng)前的不再參與后續(xù)訓(xùn)練,這可能會(huì)導(dǎo)致網(wǎng)絡(luò)訓(xùn)練無法收斂。為解決這個(gè)問題,常用的方法是經(jīng)驗(yàn)重放。在學(xué)習(xí)過程中,將一段時(shí)間內(nèi)的經(jīng)驗(yàn)都存儲(chǔ)在記憶庫中,當(dāng)訓(xùn)練網(wǎng)絡(luò)時(shí),從記憶庫中隨機(jī)采樣迷你數(shù)據(jù)集以更新值函數(shù)網(wǎng)絡(luò)。通過隨機(jī)采樣,可以打破相鄰經(jīng)驗(yàn)的關(guān)聯(lián)性,使得值函數(shù)網(wǎng)絡(luò)更趨近于真值。

圖3 展示了基于經(jīng)驗(yàn)重放的QN-learning 的示意圖。首先,機(jī)器與環(huán)境進(jìn)行交互,從環(huán)境中獲得狀態(tài)s和獎(jiǎng)賞r;然后,機(jī)器將經(jīng)驗(yàn)存儲(chǔ)到記憶庫中,每隔一定周期更新值函數(shù)網(wǎng)絡(luò);機(jī)器根據(jù)策略選擇動(dòng)作,在環(huán)境中執(zhí)行動(dòng)作之后,觀察新的狀態(tài)和獎(jiǎng)賞。如此循環(huán),最后得到策略和值函數(shù)網(wǎng)絡(luò)。

Fig.3 Diagram of QN-learning with experience replay圖3 基于經(jīng)驗(yàn)重放的QN-learning 示意圖

3.4 ?-貪心策略

為了獲得較好的值函數(shù),需要采樣不同的狀態(tài)和動(dòng)作,累積多種形式的經(jīng)驗(yàn)。如果策略是一定的,即對(duì)于某個(gè)狀態(tài)只有一種確定的動(dòng)作,那么可能會(huì)錯(cuò)過最優(yōu)動(dòng)作,因此采用?-貪心法來選擇策略。

此時(shí),在選擇策略時(shí)能夠兼顧探索與利用:每次以概率?進(jìn)行探索,從動(dòng)作空間A中均勻地隨機(jī)選取一個(gè)動(dòng)作;并以概率1-?進(jìn)行利用,選擇使值函數(shù)最大的動(dòng)作,如式(2)所示。采用?-貪心策略,對(duì)于同一狀態(tài),所有的動(dòng)作都有機(jī)會(huì)被選擇,可以獲得不同的采樣數(shù)據(jù),使得值函數(shù)的估計(jì)更加精確。

3.5 值函數(shù)網(wǎng)絡(luò)訓(xùn)練

綜合以上分析,針對(duì)動(dòng)態(tài)幀長(zhǎng)調(diào)整問題,其基于經(jīng)驗(yàn)重放的QN-learning 算法流程如圖4 所示。整個(gè)流程主要包括五個(gè)功能模塊:選擇動(dòng)作、執(zhí)行動(dòng)作、存儲(chǔ)經(jīng)驗(yàn)、更新網(wǎng)絡(luò)、更新動(dòng)作空間。在達(dá)到學(xué)習(xí)次數(shù)之前,重復(fù)執(zhí)行不斷學(xué)習(xí)。

結(jié)合圖4 的算法流程,算法1 展示了基于經(jīng)驗(yàn)重放的QN-learning 算法的偽代碼,具體實(shí)現(xiàn)如下。

算法1基于經(jīng)驗(yàn)重放的QN-learning 算法

Fig.4 Flow of QN-learning with experience replay圖4 基于經(jīng)驗(yàn)重放的QN-learning 算法流程

步驟1初始化。初始化具有一定存儲(chǔ)能力的記憶庫D;初始化值函數(shù)網(wǎng)絡(luò),隨機(jī)確定網(wǎng)絡(luò)的參數(shù);初始化其他參數(shù)值,包括學(xué)習(xí)輪數(shù)、貪心策略中的?、折扣因子γ等。

步驟2判斷是否達(dá)到規(guī)定的學(xué)習(xí)輪數(shù)。在動(dòng)態(tài)幀長(zhǎng)調(diào)整問題中,一輪學(xué)習(xí)指的是所有標(biāo)簽被成功識(shí)別,當(dāng)不再有標(biāo)簽響應(yīng)時(shí),說明本輪學(xué)習(xí)結(jié)束,所有標(biāo)簽等待新一輪的識(shí)別,開始新一輪學(xué)習(xí)過程。如果達(dá)到規(guī)定的學(xué)習(xí)輪數(shù),結(jié)束學(xué)習(xí)過程,輸出值函數(shù)網(wǎng)絡(luò),否則繼續(xù)學(xué)習(xí)。

步驟3判斷當(dāng)前一輪的學(xué)習(xí)是否結(jié)束。如果所有標(biāo)簽被識(shí)別,本輪學(xué)習(xí)結(jié)束,否則繼續(xù)學(xué)習(xí)。判斷結(jié)束的方法可以為:在連續(xù)觀察到的狀態(tài)中,只有空時(shí)隙,沒有得到任何標(biāo)簽的響應(yīng)。

步驟4選擇動(dòng)作。在動(dòng)態(tài)幀長(zhǎng)調(diào)整問題中,狀態(tài)對(duì)應(yīng)于不同種類時(shí)隙的個(gè)數(shù)s=(ne,ns,nc),動(dòng)作對(duì)應(yīng)于幀長(zhǎng)a=f。在首次學(xué)習(xí)時(shí),由于欠缺觀察狀態(tài),隨機(jī)選擇幀長(zhǎng),否則采用?-貪心策略來確定幀長(zhǎng),以保障采樣數(shù)據(jù)的多樣性。具體而言,先生成隨機(jī)數(shù)μ∈[0,1],如果μ≥?,從動(dòng)作空間中選擇使值函數(shù)最大的幀長(zhǎng),否則,從動(dòng)作空間中均勻采樣一個(gè)幀長(zhǎng),如算法1 中的6~11 所示。理論上,動(dòng)作空間為任意幀長(zhǎng)的集合,但為了減小搜索空間,不妨根據(jù)當(dāng)前未讀標(biāo)簽數(shù)確定幀長(zhǎng)范圍,例如按照未讀標(biāo)簽數(shù)的±30%來搜索幀長(zhǎng),約束動(dòng)作空間。

步驟5執(zhí)行動(dòng)作。根據(jù)選定的幀長(zhǎng),發(fā)送時(shí)隙對(duì)標(biāo)簽進(jìn)行詢問,記錄新的狀態(tài),包括空時(shí)隙、單時(shí)隙和沖突時(shí)隙的個(gè)數(shù)。由于系統(tǒng)目標(biāo)是為了最大化吞吐率,即利用最少的時(shí)隙來識(shí)別所有標(biāo)簽,令即時(shí)獎(jiǎng)賞的計(jì)算方式為,按照公式計(jì)算即時(shí)獎(jiǎng)賞。

步驟6存儲(chǔ)經(jīng)驗(yàn)。將經(jīng)驗(yàn)存儲(chǔ)到記憶庫D中。經(jīng)驗(yàn)四元組表示在時(shí)刻t狀態(tài)st時(shí)執(zhí)行動(dòng)作at之后得到即時(shí)獎(jiǎng)賞rt和觀察到新狀態(tài)st+1。

步驟7更新網(wǎng)絡(luò)。每隔一段時(shí)間需要更新值函數(shù)網(wǎng)絡(luò),若無需更新,跳到下一步驟,否則更新表示值函數(shù)的神經(jīng)網(wǎng)絡(luò)的參數(shù),如算法1 中的18~22 所示,包括采樣迷你數(shù)據(jù)集、計(jì)算目標(biāo)值、訓(xùn)練網(wǎng)絡(luò)三個(gè)子步驟。(1)采樣迷你數(shù)據(jù)集:從記憶庫中隨機(jī)采樣迷你數(shù)據(jù)集Dmini,隨機(jī)采樣是為了消除訓(xùn)練數(shù)據(jù)之間的關(guān)聯(lián)性。(2)計(jì)算目標(biāo)值:根據(jù)式(3),對(duì)采樣的每條經(jīng)驗(yàn)計(jì)算目標(biāo)值yj,以此作為網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)的標(biāo)記“l(fā)abel”。特別的,當(dāng)下一時(shí)刻狀態(tài)為最終狀態(tài)時(shí),不存在未來累積獎(jiǎng)賞,因此yj為即時(shí)獎(jiǎng)勵(lì)。而在動(dòng)態(tài)幀長(zhǎng)調(diào)整問題中,最終狀態(tài)就是指已識(shí)別所有標(biāo)簽。(3)訓(xùn)練網(wǎng)絡(luò):將{(sj,aj)}作為值函數(shù)網(wǎng)絡(luò)的輸入,{yj}作為訓(xùn)練數(shù)據(jù)的標(biāo)記,此時(shí)網(wǎng)絡(luò)的訓(xùn)練相當(dāng)于回歸任務(wù),因此以式(4)為損失函數(shù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練,更新網(wǎng)絡(luò)參數(shù)。

步驟8更新動(dòng)作空間。計(jì)算當(dāng)前未讀標(biāo)簽數(shù),更新幀長(zhǎng)搜索范圍。在訓(xùn)練時(shí),可以根據(jù)初始標(biāo)簽個(gè)數(shù)和每一次詢問中成功響應(yīng)的標(biāo)簽個(gè)數(shù)來計(jì)算未讀標(biāo)簽數(shù)。

步驟9跳到步驟2,重復(fù)以上學(xué)習(xí)過程,直到學(xué)習(xí)結(jié)束,輸出值函數(shù)網(wǎng)絡(luò)。

在值函數(shù)網(wǎng)絡(luò)訓(xùn)練完成之后,可以根據(jù)值函數(shù)網(wǎng)絡(luò)來動(dòng)態(tài)調(diào)整幀長(zhǎng)。由此,可以實(shí)現(xiàn)初始標(biāo)簽數(shù)未知且存在通信失敗可能性時(shí)標(biāo)簽的高效識(shí)別。

3.6 基于值函數(shù)網(wǎng)絡(luò)的標(biāo)簽識(shí)別

在實(shí)際情況下,由于初始標(biāo)簽數(shù)未知,無法根據(jù)成功響應(yīng)的標(biāo)簽個(gè)數(shù)來推斷每次詢問時(shí)的未讀標(biāo)簽數(shù),確定幀長(zhǎng)搜索范圍。對(duì)此,本文提前訓(xùn)練標(biāo)簽數(shù)估計(jì)網(wǎng)絡(luò),根據(jù)不同種類時(shí)隙的個(gè)數(shù)來估算當(dāng)前參與詢問的標(biāo)簽個(gè)數(shù)。這是一個(gè)簡(jiǎn)單的基于神經(jīng)網(wǎng)絡(luò)的回歸任務(wù),輸入為空時(shí)隙數(shù)、單時(shí)隙數(shù)和沖突時(shí)隙數(shù),標(biāo)記為真實(shí)標(biāo)簽數(shù),訓(xùn)練過程在此不再贅述。使用時(shí),即可根據(jù)輸入的各時(shí)隙數(shù)輸出標(biāo)簽數(shù)估算值。由此,基于標(biāo)簽數(shù)估算網(wǎng)絡(luò)就能在實(shí)際初始標(biāo)簽數(shù)未知的情況下估算標(biāo)簽數(shù),確定幀長(zhǎng)搜索范圍。在獲得標(biāo)簽數(shù)估計(jì)網(wǎng)絡(luò)和值函數(shù)網(wǎng)絡(luò)之后,可以根據(jù)實(shí)時(shí)觀察到的不同種類時(shí)隙的個(gè)數(shù)來動(dòng)態(tài)調(diào)整幀長(zhǎng),具體流程如算法2 所示。

算法2基于值函數(shù)網(wǎng)絡(luò)的動(dòng)態(tài)幀長(zhǎng)調(diào)整算法

在詢問標(biāo)簽時(shí),如算法2 中3~7 所示,首先根據(jù)未讀標(biāo)簽數(shù)確定幀長(zhǎng)搜索范圍,從中選擇使值函數(shù)網(wǎng)絡(luò)最大的動(dòng)作作為幀長(zhǎng)f;然后按照幀長(zhǎng)f進(jìn)行詢問,收集標(biāo)簽反射信號(hào),統(tǒng)計(jì)空時(shí)隙、單時(shí)隙、沖突時(shí)隙的個(gè)數(shù)以及成功響應(yīng)的標(biāo)簽個(gè)數(shù);最后為了確定下一次詢問時(shí)的幀長(zhǎng)搜索范圍,估計(jì)當(dāng)前未讀標(biāo)簽數(shù)nunread=nall-nread,其中nall為基于各時(shí)隙個(gè)數(shù)利用標(biāo)簽數(shù)估計(jì)網(wǎng)絡(luò)估算的當(dāng)前標(biāo)簽總數(shù),nread為本次詢問中成功響應(yīng)的標(biāo)簽數(shù),通過作差即得當(dāng)前未讀標(biāo)簽數(shù)。如果連續(xù)多次詢問都沒有標(biāo)簽響應(yīng),即收到的時(shí)隙只有空時(shí)隙,那么認(rèn)為所有標(biāo)簽都已經(jīng)被成功識(shí)別,結(jié)束識(shí)別;否則,重復(fù)詢問過程,直到所有標(biāo)簽被識(shí)別。

3.7 小結(jié)

針對(duì)動(dòng)態(tài)幀時(shí)隙ALOHA 的幀長(zhǎng)選擇問題,本文將動(dòng)態(tài)幀長(zhǎng)選擇看作強(qiáng)化學(xué)習(xí)中的馬爾可夫決策過程,能夠在標(biāo)簽數(shù)未知、通信失敗概率未知的情況下,讓閱讀器自主根據(jù)標(biāo)簽響應(yīng)來選擇最優(yōu)幀長(zhǎng),提高標(biāo)簽識(shí)別效率。具體而言,為了克服“狀態(tài)-動(dòng)作”空間過大的問題,本文基于少量數(shù)據(jù)來訓(xùn)練值函數(shù)網(wǎng)絡(luò),隱式地學(xué)習(xí)實(shí)際環(huán)境中的不確定因素,進(jìn)而指導(dǎo)幀長(zhǎng)的選擇。同時(shí)為了減少計(jì)算量,本文利用神經(jīng)網(wǎng)絡(luò)來估計(jì)標(biāo)簽數(shù),縮小幀長(zhǎng)搜索范圍。通過優(yōu)化幀長(zhǎng),能夠在控制空時(shí)隙比例的前提下降低沖突時(shí)隙發(fā)生的概率,從而最大化信道利用率。由于本文方法僅是提供最優(yōu)幀長(zhǎng),未對(duì)現(xiàn)有通信協(xié)議做物理層修改,因此兼容現(xiàn)行的C1G2 標(biāo)準(zhǔn),能夠方便地部署到現(xiàn)有的RFID 系統(tǒng)之中。本文方法考慮了實(shí)際情況,能夠充分利用信道,有效識(shí)別標(biāo)簽,具有良好的可行性。

4 性能評(píng)估

4.1 實(shí)驗(yàn)設(shè)置

本文在Matlab 中進(jìn)行了仿真實(shí)驗(yàn)。標(biāo)簽總數(shù)默認(rèn)為10 000 個(gè),實(shí)際個(gè)數(shù)在5 000~10 000 之間??紤]到實(shí)際情況下閱讀器和標(biāo)簽可能通信失敗,設(shè)通信失敗概率為15%。在值函數(shù)網(wǎng)絡(luò)訓(xùn)練時(shí),根據(jù)經(jīng)驗(yàn),設(shè)貪心策略中的?為0.1,累積獎(jiǎng)賞的折扣因子γ為0.1,利用Matlab 提供的feedforwardnet 函數(shù)來模擬值函數(shù)網(wǎng)絡(luò),隱藏層大小默認(rèn)為15,學(xué)習(xí)輪數(shù)默認(rèn)為20,一輪學(xué)習(xí)要求成功識(shí)別所有標(biāo)簽。標(biāo)簽數(shù)估計(jì)網(wǎng)絡(luò)同樣采用feedforwardnet 函數(shù)來進(jìn)行訓(xùn)練。在測(cè)試時(shí),基于估算的當(dāng)前未讀標(biāo)簽數(shù),在以標(biāo)簽數(shù)為中心的±30%標(biāo)簽數(shù)范圍內(nèi)搜索最佳幀長(zhǎng)。對(duì)于不同的實(shí)驗(yàn)設(shè)置,分別采集100 組測(cè)試數(shù)據(jù)。

系統(tǒng)性能采用兩個(gè)指標(biāo)來進(jìn)行評(píng)估,分別為吞吐率和詢問次數(shù)。反映了標(biāo)簽識(shí)別效率;詢問次數(shù)指的是閱讀器通過發(fā)起新幀或修改幀長(zhǎng)對(duì)標(biāo)簽進(jìn)行詢問的次數(shù),詢問次數(shù)越多,傳輸數(shù)據(jù)越多。

4.2 不同算法的性能比較

在當(dāng)前商用RFID 系統(tǒng)中,幀長(zhǎng)調(diào)整一般采用Q算法。在Q 算法中,當(dāng)遇到空時(shí)隙或者沖突時(shí)隙時(shí),以步長(zhǎng)C微調(diào)Q值。例如,遇到空時(shí)隙,Q值減去常量C(取值區(qū)間在0.1~0.5),最小為0;遇到?jīng)_突時(shí)隙,Q值增加C,最大為15[1]??紤]到默認(rèn)標(biāo)簽數(shù)為10 000 個(gè),Q值初始值設(shè)為14,步長(zhǎng)C根據(jù)Q值自適應(yīng)調(diào)整[20]C=為了驗(yàn)證基于值函數(shù)網(wǎng)絡(luò)進(jìn)行幀長(zhǎng)調(diào)整方法的性能,下面從“吞吐率”和“詢問次數(shù)”兩方面將其與Q 算法進(jìn)行比較。因?yàn)閹L(zhǎng)調(diào)整策略會(huì)影響Q 算法的性能,本文比較了三種不同幀長(zhǎng)調(diào)整策略的基于Q 算法的方法。一是傳統(tǒng)的對(duì)Q值取整后進(jìn)行判斷[21],當(dāng)取整后Q值變化時(shí)調(diào)整幀長(zhǎng)。二是文獻(xiàn)[20]中提出的對(duì)2Q進(jìn)行判斷,當(dāng)2Q變化到一定程度時(shí)對(duì)幀長(zhǎng)進(jìn)行調(diào)整,門限由以下公式確定,Q′為Q按照步長(zhǎng)微調(diào)后的數(shù)值,由于實(shí)驗(yàn)中標(biāo)簽數(shù)較多,參數(shù)a和b分別近似為0.8 和1.5。三是自定義地對(duì)Q值進(jìn)行判斷,當(dāng)Q值發(fā)生變化時(shí)重新發(fā)送詢問命令。這些方法分別記為“QN-learning”(本文方法)、“傳統(tǒng)Q算法”[21]、“改進(jìn)Q算法1”[20]、“改進(jìn)Q算法2”,實(shí)驗(yàn)結(jié)果如圖5和圖6所示。

Fig.5 Throughput of different algorithms圖5 不同算法的吞吐率

Fig.6 Number of queries of different algorithms圖6 不同算法的詢問次數(shù)

就吞吐率而言,當(dāng)實(shí)際標(biāo)簽數(shù)與默認(rèn)標(biāo)簽數(shù)相差不超過35%時(shí),基于值函數(shù)網(wǎng)絡(luò)動(dòng)態(tài)調(diào)整幀長(zhǎng)方案的吞吐率高于Q 算法。圖5 繪制了不同標(biāo)簽數(shù)時(shí)基于值函數(shù)網(wǎng)絡(luò)和Q 算法的吞吐率。注意到本文引入了通信失敗概率,因此吞吐率會(huì)受到一定的影響。從圖5 可以發(fā)現(xiàn),三種基于Q 算法的方法都具有較穩(wěn)定的吞吐率,其中“改進(jìn)Q 算法2”的平均吞吐率最高,約為30.2%。這里的穩(wěn)定性得益于Q 算法遇到空時(shí)隙或者沖突時(shí)隙時(shí)提前結(jié)束幀的機(jī)制,因此Q 算法對(duì)于不同實(shí)際標(biāo)簽數(shù)均有魯棒的識(shí)別效率。因?yàn)閹L(zhǎng)變化的判斷標(biāo)準(zhǔn)不同,三種基于Q 算法方法的幀長(zhǎng)調(diào)整靈活度為Q 算法<改進(jìn)Q 算法1<改進(jìn)Q 算法2,靈活度越高,提前結(jié)束幀的概率越高,時(shí)隙浪費(fèi)越少,因此“改進(jìn)Q 算法2”得到了最高的吞吐率。同時(shí),根據(jù)圖5,本文提出的基于值函數(shù)網(wǎng)絡(luò)的方法的吞吐率隨著標(biāo)簽數(shù)的增加整體上呈小幅增長(zhǎng)趨勢(shì),尤其當(dāng)標(biāo)簽數(shù)從5 000 增加到6 500 的過程中,吞吐率增長(zhǎng)明顯,這個(gè)現(xiàn)象主要是在初始識(shí)別時(shí)按照默認(rèn)標(biāo)簽數(shù)來搜索幀長(zhǎng)的緣故。當(dāng)標(biāo)簽數(shù)高于6 500時(shí),QN-learning 的平均吞吐率約為30.9%;隨著實(shí)際標(biāo)簽數(shù)接近于默認(rèn)標(biāo)簽數(shù),QN-learning 的優(yōu)勢(shì)逐漸擴(kuò)大,當(dāng)標(biāo)簽數(shù)大于9 000 時(shí),QN-learning 的吞吐率比“改進(jìn)Q 算法2”高1%左右。QN-learning 之所以能夠獲得更高的吞吐率,是因?yàn)樵诨赒 算法的方法中,Q 值的調(diào)整是一個(gè)逐漸逼近最優(yōu)值的過程,而本文基于值函數(shù)網(wǎng)絡(luò)能夠快速地根據(jù)標(biāo)簽響應(yīng)選擇最優(yōu)幀長(zhǎng),省去了中間逐步調(diào)整的過程,減少了由調(diào)整帶來的時(shí)隙浪費(fèi),從而提高了時(shí)隙吞吐率。雖然QNlearning 的優(yōu)化幅度看似不大,但是考慮到Q 算法本身是一個(gè)成熟的商用算法,在其基礎(chǔ)上進(jìn)行改進(jìn)具有較大的挑戰(zhàn)性,因此認(rèn)為QN-learning 帶來的改進(jìn)依舊是令人欣慰、值得肯定的。

就詢問次數(shù)而言,QN-learning 的發(fā)送詢問次數(shù)遠(yuǎn)小于基于Q 算法的方法,意味著QN-learning 所需的數(shù)據(jù)傳輸量較小。如圖6 所示,四種方法的詢問次數(shù)都隨著標(biāo)簽數(shù)的增大而增大,但它們的數(shù)值在不同的量級(jí)之上。當(dāng)標(biāo)簽數(shù)從5 000 上升到10 000 時(shí),QN-learning 的平均詢問次數(shù)僅從26.8 上漲到31.7,而基于Q 算法的方法的詢問次數(shù)在千次以上。對(duì)于QN-learning 而言,它并不會(huì)提前結(jié)束幀,雖然在實(shí)際標(biāo)簽數(shù)與默認(rèn)標(biāo)簽數(shù)差距較大時(shí)會(huì)損失一定的吞吐率,但其每次詢問都能成功讀取大量標(biāo)簽,因此詢問次數(shù)少。相反的,對(duì)于基于Q 算法的方法而言,Q 算法遇到過多的空時(shí)隙或者沖突時(shí)隙時(shí)會(huì)提前結(jié)束幀,這樣的做法增加了閱讀器向標(biāo)簽發(fā)送詢問命令或者詢問調(diào)整命令的次數(shù),進(jìn)而將導(dǎo)致數(shù)據(jù)傳輸量的顯著提升。同時(shí),因?yàn)椤案倪M(jìn)Q 算法2”具有最靈敏的幀長(zhǎng)調(diào)整策略,所以它調(diào)整幀長(zhǎng)最為頻繁,向標(biāo)簽發(fā)送詢問的次數(shù)相應(yīng)最多。

總體而言,利用QN-learning 訓(xùn)練得到的值函數(shù)網(wǎng)絡(luò)在動(dòng)態(tài)調(diào)整幀長(zhǎng)方面可以取得優(yōu)異的性能。當(dāng)實(shí)際標(biāo)簽數(shù)與默認(rèn)標(biāo)簽數(shù)相差不多時(shí),QN-learning能夠比基于Q 算法的方法獲得更高的吞吐率,并且QN-learning 發(fā)送的詢問次數(shù)遠(yuǎn)小于基于Q 算法的方法,將節(jié)省大量的數(shù)據(jù)傳輸開銷。

4.3 不同網(wǎng)絡(luò)設(shè)置對(duì)QN-learning算法的影響

在訓(xùn)練值函數(shù)網(wǎng)絡(luò)時(shí),不同的參數(shù)設(shè)置會(huì)影響QN-learning 的性能,因此下面探索神經(jīng)網(wǎng)絡(luò)隱藏層大小和學(xué)習(xí)輪數(shù)帶來的影響。由于詢問次數(shù)主要與標(biāo)簽數(shù)有關(guān),這里只使用吞吐量作為評(píng)價(jià)指標(biāo)。

圖7 展示了不同隱藏層大小對(duì)吞吐率的影響??梢园l(fā)現(xiàn),當(dāng)隱藏層大小適中時(shí),即隱藏層個(gè)數(shù)在6~18 時(shí),吞吐率較高,在31%附近波動(dòng)。當(dāng)隱藏層過大或者過小時(shí),吞吐率下降明顯,小于29.7%。這是由于當(dāng)隱藏層過小時(shí),神經(jīng)網(wǎng)絡(luò)無法充分近似值函數(shù)網(wǎng)絡(luò),存在“欠擬合”問題。當(dāng)隱藏層過大時(shí),則導(dǎo)致了“過擬合”現(xiàn)象,因此需要設(shè)置合適的隱藏層大小。根據(jù)實(shí)驗(yàn)結(jié)果,當(dāng)隱藏層大小為15 時(shí),平均吞吐率最大,為31.3%,因此將15 作為默認(rèn)值。

Fig.7 Effect of different hidden layer sizes on throughput圖7 不同隱藏層大小對(duì)吞吐率的影響

Fig.8 Effect of different training rounds on throughput圖8 不同學(xué)習(xí)輪數(shù)對(duì)吞吐率的影響

圖8 展示了不同學(xué)習(xí)輪數(shù)對(duì)吞吐率的影響??梢园l(fā)現(xiàn),當(dāng)學(xué)習(xí)輪數(shù)從5 增加到20,吞吐率從29.8%上漲到31.3%,而當(dāng)學(xué)習(xí)輪數(shù)繼續(xù)增加時(shí),吞吐率趨于穩(wěn)定??紤]到學(xué)習(xí)輪數(shù)越多,訓(xùn)練時(shí)間越長(zhǎng),并容易導(dǎo)致過擬合。根據(jù)實(shí)驗(yàn)結(jié)果,當(dāng)學(xué)習(xí)輪數(shù)為20 時(shí)吞吐率最高,因此將20 作為默認(rèn)學(xué)習(xí)輪數(shù)。

5 結(jié)束語

針對(duì)實(shí)際中標(biāo)簽數(shù)未知且存在通信失敗可能性情況下標(biāo)簽快速盤點(diǎn)的問題,本文提出了兼容EPC C1G2 標(biāo)準(zhǔn)的基于QN-learning 的動(dòng)態(tài)幀時(shí)隙ALOHA沖突算法。通過將動(dòng)態(tài)幀長(zhǎng)選擇問題轉(zhuǎn)為馬爾可夫決策過程,基于Q-learning 和神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)幀長(zhǎng)選擇策略。仿真實(shí)驗(yàn)表明,本文方法能夠有效識(shí)別標(biāo)簽,在保障高吞吐率的同時(shí)控制詢問次數(shù),減少數(shù)據(jù)傳輸。與商用Q 算法相比,本文方法吞吐率高,詢問次數(shù)少,但需要提前采集數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練,當(dāng)環(huán)境發(fā)生變化,如通信概率改變時(shí),需要重新訓(xùn)練網(wǎng)絡(luò),但是環(huán)境中的通信概率一般是較為穩(wěn)定的,只需偶爾更新網(wǎng)絡(luò)。當(dāng)前本文采用了估計(jì)標(biāo)簽數(shù)的方法來縮小動(dòng)作空間,在未來工作中,將進(jìn)一步考慮改進(jìn)值函數(shù)網(wǎng)絡(luò),將動(dòng)作空間的限制嵌入到值函數(shù)網(wǎng)絡(luò)中,從而簡(jiǎn)化流程,提高標(biāo)簽識(shí)別效率。

猜你喜歡
時(shí)隙閱讀器個(gè)數(shù)
基于陣列天線的數(shù)據(jù)時(shí)隙資源比例公平動(dòng)態(tài)分配方案設(shè)計(jì)
The Magna Carta
Winner Takes All
最強(qiáng)大腦
Link—16中繼時(shí)隙自適應(yīng)調(diào)整分配技術(shù)研究
一種車載網(wǎng)絡(luò)的簇間碰撞避免MAC協(xié)議
一種車載網(wǎng)絡(luò)中基于簇的時(shí)隙碰撞解決方法
想一想
亞馬遜推出全新Kindle Paperwhite電子書閱讀器
認(rèn)識(shí)頻數(shù)分布直方圖
顺昌县| 贡山| 闻喜县| 泗水县| 双流县| 遵义县| 承德县| 竹溪县| 华亭县| 和林格尔县| 山东省| 贡嘎县| 大英县| 赫章县| 德保县| 封丘县| 安丘市| 丹江口市| 孝感市| 五大连池市| 余干县| 乐亭县| 蒲城县| 凌海市| 黄大仙区| 平顶山市| 探索| 辽宁省| 汶上县| 桐梓县| 盘锦市| 宁阳县| 中西区| 广平县| 孟连| 竹北市| 喀喇沁旗| 镇江市| 宽城| 嘉鱼县| 侯马市|