強(qiáng)化學(xué)習(xí)在協(xié)作頻譜感知中的應(yīng)用

2024-09-19 00:00:00劉春玲許軍郭楷文

無(wú)線電工程 2024年6期

摘要：針對(duì)隨著節(jié)點(diǎn)數(shù)量的增多，多節(jié)點(diǎn)協(xié)作頻譜感知（ＣｏｏｐｅｒａｔｉｖｅＳｐｅｃｔｒｕｍＳｅｎｓｉｎｇ，ＣＳＳ）會(huì)產(chǎn)生大量本地?cái)?shù)據(jù)，導(dǎo)致能耗變高和全局決策延遲的問(wèn)題，提出節(jié)點(diǎn)評(píng)估與選擇（ＮｏｄｅＥｖａｌｕａｔｉｏｎＳｅｌｅｃｔｉｏｎ，ＮＥＳ）和網(wǎng)格搜索（ＧｒｉｄＳｅａｒｃｈ，ＧＳ）的強(qiáng)化學(xué)習(xí)（ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ，ＲＬ）算法。通過(guò)ＮＥＳ算法在融合中心（ＦｕｓｉｏｎＣｅｎｔｅｒ，ＦＣ）實(shí)時(shí)更新協(xié)作用戶的信任值，對(duì)信任值大小進(jìn)行排序，根據(jù)設(shè)定的閾值，阻止惡意用戶（ＭａｌｉｃｉｏｕｓＵｓｅｒｓ，ＭＵ）參與ＣＳＳ。通過(guò)基于ＧＳ的ＲＬ機(jī)制對(duì)處理后的數(shù)據(jù)進(jìn)行標(biāo)記，把信噪比（ＳｉｇｎａｌｔｏＮｏｉｓｅＲａｔｉｏ，ＳＮＲ）和信任值作為輸入?yún)?shù)，搜索出所有可能的參數(shù)組合。在相同環(huán)境參數(shù)時(shí)，ＦＣ可以直接調(diào)用該環(huán)境下的節(jié)點(diǎn)，不需要再重新進(jìn)行感知操作，如果有新用戶加入時(shí)通過(guò)改變參數(shù)的范圍重新搜索，新用戶可以模仿其他用戶ＲＬ的經(jīng)驗(yàn)，從而獲得更加快速的信道占用情況。仿真結(jié)果表明，該方法與其他算法相比，在提高檢測(cè)概率的同時(shí)，降低了能耗，減少重復(fù)計(jì)算的時(shí)間，解決了全局決策延遲的問(wèn)題。

關(guān)鍵詞：協(xié)作頻譜感知；認(rèn)知無(wú)線網(wǎng)絡(luò)；融合中心；網(wǎng)格搜索；強(qiáng)化學(xué)習(xí)

中圖分類(lèi)號(hào)：ＴＮ９２５文獻(xiàn)標(biāo)志碼：Ａ開(kāi)放科學(xué)（資源服務(wù)）標(biāo)識(shí)碼（ＯＳＩＤ）：

文章編號(hào)：１００３－３１０６（２０２４）０６－１３４６－０９

０引言

隨著５Ｇ進(jìn)入商業(yè)階段，云計(jì)算、網(wǎng)絡(luò)功能虛擬化和軟件定義網(wǎng)絡(luò)概念的快速革命［１］，人們已經(jīng)開(kāi)始６Ｇ［２］移動(dòng)通信的研究，在６Ｇ網(wǎng)絡(luò)中不再局限于傳統(tǒng)的地面蜂窩架構(gòu)，正在向地面－水下－空中－空間混合網(wǎng)絡(luò)發(fā)展。６Ｇ的頻譜研究將集中在擴(kuò)展頻譜資源、頻譜共享與動(dòng)態(tài)分配、智能頻譜管理等方面，以滿足未來(lái)移動(dòng)通信的需求，并提供更快速、可靠和高效的連接體驗(yàn)。認(rèn)知無(wú)線電（ＣｏｇｎｉｔｉｖｅＲａｄｉｏ，ＣＲ）系統(tǒng)是針對(duì)射頻環(huán)境中頻譜稀缺［３］問(wèn)題提出的一種解決方案，主要提高頻譜的整體利用率。頻譜感知是通信期間，次用戶（ＳｅｃｏｎｄａｒｙＵｓｅｒ，ＳＵ）利用未使用的主用戶（ＰｒｉｍａｒｙＵｓｅｒ，ＰＵ）頻譜［４］，實(shí)現(xiàn)頻譜共享、頻譜動(dòng)態(tài)分配和干擾檢測(cè)等功能。由于地理位置對(duì)頻譜感知的影響，單節(jié)點(diǎn)的感知精度低，而多節(jié)點(diǎn)協(xié)作頻譜感知（ＣｏｏｐｅｒａｔｉｖｅＳｐｅｃｔｒｕｍＳｅｎｓｉｎｇ，ＣＳＳ）可以克服由于多徑衰落和陰影導(dǎo)致的頻譜感知性能下降的問(wèn)題。因此，在認(rèn)知無(wú)線電網(wǎng)絡(luò)（ＣｏｇｎｉｔｉｖｅＲａｄｉｏＮｅｔｗｏｒｋ，ＣＲＮ）中，ＣＳＳ是一種被廣泛使用的感知技術(shù)，可以成功地提高感知精度［５］。但隨著感知節(jié)點(diǎn)數(shù)量的增加，ＣＲＮ中全局決策實(shí)時(shí)性降低且能量消耗也隨之增加。

在ＣＳＳ中，一些惡意節(jié)點(diǎn)可能會(huì)參與到頻譜感知中，從而混淆檢測(cè)系統(tǒng)，也可能因?yàn)閭鞲性O(shè)備錯(cuò)誤或信道噪聲，一些節(jié)點(diǎn)會(huì)向融合中心（ＦｕｓｉｏｎＣｅｎｔｅｒ，ＦＣ）發(fā)送不正確的結(jié)果，這些節(jié)點(diǎn)會(huì)干擾ＣＳＳ。為了實(shí)現(xiàn)高效的頻譜感知，檢測(cè)惡意用戶（ＭａｌｉｃｉｏｕｓＵｓｅｒｓ，ＭＵ）是一個(gè)具有挑戰(zhàn)性的問(wèn)題，許多研究人員一直在研究這個(gè)問(wèn)題［６］。文獻(xiàn)［７］設(shè)計(jì)了一種以信譽(yù)值為基礎(chǔ)的拍賣(mài)算法，用于分配感知收益。該算法不僅確保感知收益公平分配，降低了算法復(fù)雜度，還可以促進(jìn)更多群智感知（ＣｒｏｗｄＳｅｎｓｏｒｓ）參與感知任務(wù)。利用區(qū)塊鏈的去中心化和去信任化特性，提高了頻譜感知的穩(wěn)定性和可靠性。然而，該算法在考慮報(bào)價(jià)策略時(shí)沒(méi)有考慮到環(huán)境的變化以及ＣｒｏｗｄＳｅｎｓｏｒｓ在能量消耗方面的影響。文獻(xiàn)［８］提出了一種雙自適應(yīng)閾值技術(shù)，以增強(qiáng)其信譽(yù)計(jì)算算法的魯棒性。該技術(shù)計(jì)算每個(gè)用戶的信譽(yù)分?jǐn)?shù)，并計(jì)算一組可疑用戶，利用自適應(yīng)閾值對(duì)這組可疑用戶執(zhí)行第二信譽(yù)計(jì)算。未通過(guò)此雙重檢查的可疑用戶將被歸類(lèi)為最終ＭＵ，同時(shí)在感知用戶數(shù)增多時(shí)整個(gè)感知過(guò)程計(jì)算量也在變大。文獻(xiàn)［９］提出了一種稱為頻譜感知策略選擇的新算法，以協(xié)作或獨(dú)立的方式選擇更好的感知策略。為了推導(dǎo)節(jié)點(diǎn)頻譜狀態(tài)的最大后驗(yàn)估計(jì)，通過(guò)基于圖割的ＣＳＳ方法構(gòu)建了拓?fù)湫畔⒊杀竞瘮?shù)和感知結(jié)果成本函數(shù)。把信譽(yù)值應(yīng)用于評(píng)估ＣＳＳ和獨(dú)立感知的性能，以最大限度地降低選擇性能較差的感知方式的概率。文獻(xiàn)［１０］提出了一種基于強(qiáng)化學(xué)習(xí)（Ｒｅｉｎ-ｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ，ＲＬ）的協(xié)同頻譜感知方案，用于ＳＵ確定信道掃描順序和選擇合作伙伴進(jìn)行協(xié)同頻譜感知。通過(guò)Ｑ-ｌｅａｒｎｉｎｇ方法，每個(gè)ＳＵ學(xué)習(xí)主要通道的占用模式，以生成動(dòng)態(tài)的掃描優(yōu)先列表，從而降低掃描成本并減少訪問(wèn)延遲。然而沒(méi)有考慮阻止置信度低的用戶參與協(xié)作感知，使其能耗偏高。文獻(xiàn)［１１］提出的混合方案將差分進(jìn)化（ＤｉｆｆｅｒｅｎｔｉａｌＥ-ｖｏｌｕｔｉｏｎ，ＤＥ）優(yōu)化方案與基于機(jī)器學(xué)習(xí)的增強(qiáng)樹(shù)算法相結(jié)合以減輕ＭＵ在ＣＳＳ系統(tǒng)中的影響，根據(jù)使用ＤＥ的ＳＵ確定優(yōu)化閾值和系數(shù)向量用于訓(xùn)練增強(qiáng)樹(shù)算法，從而獲得可靠的感知結(jié)果。雖然檢測(cè)概率得到了提高，但感知時(shí)間和能量消耗的成本也在變大。在文獻(xiàn)［１２］中，ＦＣ根據(jù)從所有ＳＵ接收到的硬二進(jìn)制決策進(jìn)行全局決策。遺傳算法（ＧｅｎｅｔｉｃＡｌｇｏｒｉｔｈｍ，ＧＡ）采用一對(duì)多鄰居距離和ｚ-ｓｃｏｒｅ作為適應(yīng)度函數(shù)，在有ＭＵ的情況下通過(guò)選擇和交叉來(lái)識(shí)別最佳感知結(jié)果，該方案能夠在不識(shí)別ＭＵ的情況下避免ＭＵ在ＣＳＳ中的影響，但整個(gè)網(wǎng)絡(luò)的能量消耗也在增高。

針對(duì)以上問(wèn)題，提出了節(jié)點(diǎn)評(píng)估與選擇（ＮｏｄｅＥｖａｌｕａｔｉｏｎＳｅｌｅｃｔｉｏｎ，ＮＥＳ）算法剔除信任值低的節(jié)點(diǎn)（ＭＵ），選擇信任值高的節(jié)點(diǎn)（可靠節(jié)點(diǎn)）參與ＣＳＳ，從而在保證檢測(cè)性能的情況下減少了能量的消耗。提出基于網(wǎng)格搜索（ＧｒｉｄＳｅａｒｃｈ，ＧＳ）的ＲＬ，在出現(xiàn)相同環(huán)境參數(shù)時(shí)，ＦＣ可以直接調(diào)用當(dāng)前節(jié)點(diǎn)，而無(wú)需再次進(jìn)行感知操作，從而減少數(shù)據(jù)的處理，提高全局決策的實(shí)時(shí)性。

１系統(tǒng)模型

１．１ＣＳＳ模型

建立了由一個(gè)ＰＵ和若干個(gè)ＳＵ組成的模擬ＣＲ模型，各節(jié)點(diǎn)通過(guò)ＦＣ通信，ＦＣ通過(guò)各節(jié)點(diǎn)信息判斷ＰＵ通道是否空閑。ＣＲＮ模型如圖１所示。

１．２能量檢測(cè)模型

在頻譜感知中，每個(gè)ＳＵ獨(dú)立執(zhí)行一個(gè)能量檢測(cè)［１３］過(guò)程。這是因?yàn)槟芰繖z測(cè)操作簡(jiǎn)單，且不需要ＰＵ的先驗(yàn)信息。第ｊ個(gè)ＳＵ接收到的信號(hào)確定如下：

式中：ｑｎｊ是前一感知周期中第ｊ個(gè)節(jié)點(diǎn)的信任值，ｑｎ＋１ｊ是第ｊ個(gè)結(jié)點(diǎn)的當(dāng)前信任值，ｖ是前一周期的綜合返回值，τｎｊ是前一個(gè)周期的綜合校正系數(shù)，Φ 是加權(quán)因子，值?。?或０。Φ 的值?。?的次數(shù)越多時(shí)，能量利用效率越高。反之，表明需要調(diào)整感知節(jié)點(diǎn)以提高感知性能和能耗指數(shù)。

調(diào)整感知節(jié)點(diǎn)的數(shù)量，再調(diào)用信任值大于閾值的節(jié)點(diǎn)參與ＣＳＳ，這里的閾值設(shè)置為信任值的平均值，當(dāng)信任值大于等于平均值時(shí)節(jié)點(diǎn)是可靠的，當(dāng)信任值小于平均值時(shí)節(jié)點(diǎn)是不可靠的，公式為：

ｑａｖｅ＝ｑｍａｘ＋ｑｍｉｎ／２。（２０）

ＮＥＳ算法流程如算法１所示。

３基于ＧＳ的ＲＬ

３．１ＧＳ

ＧＳ［１５］是指事先在給定的超參數(shù)空間中定義一組候選超參數(shù)，然后進(jìn)行排列組合，形成一個(gè)超參數(shù)的“網(wǎng)格”，按照“網(wǎng)格”依次搜索超參數(shù)空間中的各個(gè)組合。ＧＳ的好處是能夠?qū)λ锌赡艿膮?shù)組合進(jìn)行搜索?？梢允褂盟阉鱽?lái)獲得信任值可靠的節(jié)點(diǎn)ｑｊ，為了提高搜索效率，進(jìn)行了ＧＳ。訓(xùn)練搜索后的參數(shù)包括ＳＮＲ和信任值，其中設(shè)置ＳＮＲ ∈（－２０，－１０）ｄＢ，ｑｊ ∈（０．５，１）。通過(guò)搜索把這些信息作為先驗(yàn)知識(shí)保存到知識(shí)庫(kù)中。ＧＳ的過(guò)程如下：

① 當(dāng)ηｉ出現(xiàn)時(shí)，ＦＣ將進(jìn)行實(shí)時(shí)搜索，從而獲得ｑｊ，并得到對(duì)應(yīng)的Ｐｄ。其中ηｉ是第ｉ（正整數(shù)）個(gè)出現(xiàn)的ＳＮＲ，如果ＳＮＲ是新出現(xiàn)的，就設(shè)置新的參數(shù)重新搜索。最后搜索的結(jié)果將在Ｐｄ和ｑｊ返回時(shí)輸出。此外，ｑｊ和ηｉ將成為ＦＣ搜索的先驗(yàn)知識(shí)，搜索得到的數(shù)據(jù)存儲(chǔ)庫(kù)Ω 為：

Ω ＝ｆ（ｑｊ，ηｉ），（２１）

式中：ｆ是一個(gè)搜索函數(shù)。

② 當(dāng)ηｉ不是新出現(xiàn)時(shí)，ＦＣ將利用學(xué)習(xí)的知識(shí)直接選擇ｑｊ：

ｑｉ＝ｆ－１（ηｉ，Ω）。（２２）

③ 在ηｉ下，形成ｉ×ｊ的網(wǎng)格，ｉ是所設(shè)的ＳＮＲ的步長(zhǎng)，ｊ是節(jié)點(diǎn)數(shù)，步長(zhǎng)都為１。

④ Ｐｄ，ｊ是第ｊ個(gè)網(wǎng)格的節(jié)點(diǎn)檢測(cè)概率，一直增加到所參與的協(xié)作的節(jié)點(diǎn)數(shù)，或當(dāng)Ｐｄ，ｊ＝１時(shí)停止搜索時(shí)；否則將繼續(xù)搜索。

⑤ 當(dāng)實(shí)時(shí)搜索完成時(shí)，會(huì)得到概率Ｐｄ的集合和相應(yīng)的ｑｊ：

３．２ＲＬ的過(guò)程

ＲＬ［１６］是一種機(jī)器學(xué)習(xí)方法，主要包括環(huán)境和智能體（ａｇｅｎｔ）兩部分。而Ｑ-ｌｅａｒｎｉｎｇ在ＲＬ方法中經(jīng)常被使用，其中處于狀態(tài)ｓ的智能體通過(guò)采取動(dòng)作ａ來(lái)與環(huán)境交互，目的是從行動(dòng)的結(jié)果中學(xué)習(xí)環(huán)境。根據(jù)結(jié)果，智能體獲得獎(jiǎng)勵(lì)值ｒ（ｓ，ａ），并更新Ｑ值。在每個(gè)時(shí)間點(diǎn)ｔ，智能體可能處于特定的狀態(tài)ｓ，并且可以根據(jù)其在之前迭代中的學(xué)習(xí)選擇一個(gè)動(dòng)作。Ｑ-ｌｅａｒｎｉｎｇ的歷史可以用狀態(tài)－動(dòng)作獎(jiǎng)勵(lì)序列表示：＜ｓ０，ａ０，ｒ１，ｓ１，ａ１，ｒ２，ｓ２，ａ２，ｒ３，ｓ３，ａ３，ｒ４，ｓ４，ｓ４，… ＞，智能體在狀態(tài)ｓ０時(shí)采取行動(dòng)ａ０，并獲得獎(jiǎng)勵(lì)值ｒ１。之后，進(jìn)入狀態(tài)ｓ１，以此類(lèi)推。智能體從狀態(tài)－行動(dòng)－獎(jiǎng)勵(lì)歷史中學(xué)習(xí)。一種狀態(tài)－行動(dòng)－獎(jiǎng)勵(lì)的經(jīng)驗(yàn)（＜ｓ，ａ，ｒ，ｓ′＞）獲得回報(bào)值Ｑ（ｓ，ａ），同時(shí)按照貝爾曼最優(yōu)化準(zhǔn)則進(jìn)行Ｑ值的更新來(lái)選擇下一步動(dòng)作，表達(dá)式為：

Ｑｔ＋１（ｓ，ａ）＝（１－ α）Ｑｔ（ｓ，ａ）＋α｛ｒｔ（ｓ，ａ）＋ ξｍａｘ［Ｑｔ＋１（ｓ′，ａ′）］｝，（２４）

式中：學(xué)習(xí)因子α 和折損因子ξ 取值都為（０，１），當(dāng)α 接近于０時(shí)，智能體從狀態(tài)－行動(dòng)－獎(jiǎng)勵(lì)過(guò)程中學(xué)到的很少，歷史占主導(dǎo)地位。如果環(huán)境是確定的，則α 的最優(yōu)值為１。

在ＧＳ后將ＲＬ的理論運(yùn)用ＳＵ的狀態(tài)和環(huán)境的學(xué)習(xí)。將ＳＵ比作ＲＬ中的智能體［１７］學(xué)習(xí)信道占用的模式，ｓｔ表示信道的狀態(tài)，在ｔ時(shí)刻信道是否被ＰＵ占用。當(dāng)ＳＵｊ出現(xiàn)時(shí)，通過(guò)掃描信道（ｃｉ）來(lái)采取行動(dòng)。使用Ｑ學(xué)習(xí)方法，獲得獎(jiǎng)勵(lì)值ｒｊｔ（ｓｔ，ｃｉ）在時(shí)間ｔ下信道的狀態(tài)：

式中：ｓｊ（ｃｉ）＝１表示信道空閑，ｓｊ（ｃｉ）＝０表示信道繁忙，ωｊｔ（ｃｉ）與式（７）一致表示權(quán)重。于是節(jié)點(diǎn)ｊ在信道狀態(tài)ｃｉ時(shí)Ｑ值的更新為：

Ｑｊ（ｓｔ＋１，ｃｉ）← （１－ α）·Ｑｊ（ｓｔ，ｃｉ）＋α·｛ｒｊ（ｓｉ，ｃｉ）－ ξ（ｅ－τｍ）｝，（２６）

式中：τ 表示（０，１）的常數(shù)，ｍ表示ＳＵ第ｍ次掃描信道。信息融合與前面的Ｅｚ一致，信道的判決結(jié)果如下所示：

在融合階段結(jié)束時(shí)，得出ｍ個(gè)協(xié)作用戶的測(cè)量值，將測(cè)量值存放于矩陣Ｚ中。當(dāng)ＣＲ環(huán)境與存儲(chǔ)矩陣Ｚ的數(shù)據(jù)一致時(shí)，ＲＬ采用直接從動(dòng)作空間Ａ中選擇適當(dāng)?shù)膭?dòng)作來(lái)更新函數(shù)值，通過(guò)持續(xù)的迭代更新獲得最優(yōu)動(dòng)作ａ* ，從而選出參與協(xié)作感知的用戶。如果有新用戶加入到ＣＲ環(huán)境中，就需要重新設(shè)置網(wǎng)ＧＳ的參數(shù)，在原來(lái)的矩陣擴(kuò)充第ｍ＋１維數(shù)，協(xié)作結(jié)束時(shí)，將協(xié)作結(jié)果廣播到所有協(xié)作用戶。在矩陣Ｚ中的第一列表示信任值可靠的節(jié)點(diǎn)Ｑｊ，第二列表示ＳＮＲ的值。每行表示通過(guò)在特定無(wú)線電環(huán)境中執(zhí)行ＧＳ的ＲＬ算法找到參與協(xié)作的節(jié)點(diǎn)。

在ＦＣ完成ＧＳ的ＲＬ后，獲得的矩陣Ｚ表示如下：

算法結(jié)構(gòu)框圖如圖２所示。

４算法仿真及分析

通過(guò)蒙特卡洛模擬進(jìn)行實(shí)驗(yàn)，在ＣＲＮ中所有節(jié)點(diǎn)的仿真結(jié)果都超過(guò)了２０００次迭代，建模的ＣＲＮ中有８個(gè)輔助節(jié)點(diǎn)［１８］和３０個(gè)感知節(jié)點(diǎn)。在加性高斯白噪聲（ＡｄｄｉｔｉｖｅＷｈｉｔｅＧａｕｓｓｉａｎＮｏｉｓｅ，ＡＷＧＮ）的信道下，感知場(chǎng)景范圍為２００ｍ，節(jié)點(diǎn)隨機(jī)分布，ＰＵ在場(chǎng)景的邊緣，所需的節(jié)點(diǎn)總數(shù)為３０（每１０個(gè)節(jié)點(diǎn)為ＳＮＲ＝－１２、－１０、－８ｄＢ），８個(gè)輔助節(jié)點(diǎn)（ＳＮＲ＝－８ｄＢ），ＢＰＳＫ信號(hào)功率為１００ｍＷ，帶寬為１００ｋＨｚ。在此仿真環(huán)境中，ＭＵ在２種不同情況下進(jìn)行設(shè)置：第一種情況，如果有５個(gè)ＭＵ，其中在ＳＮＲ＝－１２ｄＢ下有２個(gè)；第二種情況，如果有９個(gè)ＭＵ，在ＳＮＲ＝－１０ｄＢ下有４個(gè)ＭＵ。為了驗(yàn)證本文算法的性能，將其與ＤＥ和ＧＡ進(jìn)行比較。在考慮ＮＥＳ時(shí)，設(shè)置９個(gè)惡意節(jié)點(diǎn)，在其他２種算法中，設(shè)置５個(gè)惡意節(jié)點(diǎn)，其他參數(shù)都相同。仿真場(chǎng)景如圖３所示。ＮＥＳ與其他２種算法感知性能比較如圖４所示。檢測(cè)概率隨協(xié)作用戶數(shù)變化曲線如圖５所示。

從圖４可以看出，在ＳＮＲ低于－１２ｄＢ時(shí)，ＮＥＳ算法的檢測(cè)概率高于ＤＥ和ＧＡ算法，這是因?yàn)椋危牛铀惴紤]了ＣＲＮ中ＭＵ的存在，并阻止了ＭＵ參與ＣＳＳ，所以使整個(gè)網(wǎng)絡(luò)具有更強(qiáng)的可靠性。當(dāng)ＳＮＲ為－１５ｄＢ時(shí)，ＮＥＳ算法比ＧＡ算法檢測(cè)概率高０．４６。通過(guò)圖５可以發(fā)現(xiàn)，隨著協(xié)作用戶數(shù)的增加，３種算法的檢測(cè)概率都呈現(xiàn)增加的趨勢(shì)，在Ｍ＜７０時(shí)，ＮＥＳ算法檢測(cè)概率比ＧＡ和ＤＥ算法檢測(cè)概率高，這是因?yàn)椋危牛?算法剔除了ＭＵ，參與協(xié)作感知的都是可靠用戶。

ＮＥＳ算法與ＧＡ和ＤＥ算法在相同條件下的能耗對(duì)比，其他仿真實(shí)驗(yàn)參數(shù)與上實(shí)驗(yàn)相同，感知周期與能耗的變化曲線如圖６所示。從圖６結(jié)果可以看出，ｍ＜６０時(shí)隨著感知周期數(shù)的增加三者能耗都在增加，但ＮＥＳ算法效果比ＧＡ和ＤＥ算法優(yōu)益，但當(dāng)感知周期數(shù)ｍ＞６０時(shí)，三者能耗基本趨于穩(wěn)定，此時(shí)ＮＥＳ算法與ＧＡ算法能耗接近，但整個(gè)周期中ＮＥＳ算法比ＧＡ算法節(jié)能效果好。

在ＮＥＳ后，加入ＧＳ算法與隨機(jī)搜索算法［１９］和固定－雙閾值算法［２０］作比較，如圖７所示。由圖可以看出，相同的ＳＮＲ下，ＧＳ算法的檢測(cè)概率比隨機(jī)搜索和固定－雙閾值算法都要高，在－１７ｄＢ時(shí)ＧＳ算法比隨機(jī)搜索檢測(cè)概率高了０．１，比固定—雙閾值算法檢測(cè)概率高了０．１６。這是因?yàn)椋牵?算法可以在遍歷指定的參數(shù)組合時(shí)，保證在任何環(huán)境下可以找到最優(yōu)的參數(shù)，而隨機(jī)搜索和固定－雙閾值會(huì)出現(xiàn)無(wú)效或者冗余取值的情況。

獎(jiǎng)勵(lì)值隨協(xié)作用戶的數(shù)量變化曲線如圖８所示?？梢钥闯?，隨著協(xié)作用戶的增加獎(jiǎng)勵(lì)值也在增加，在達(dá)到一定用戶數(shù)時(shí)收斂于１，這也符合協(xié)作感知的規(guī)律；協(xié)作用戶Ｍ＜６０時(shí)，ＧＳ算法后的ＲＬ獎(jiǎng)勵(lì)值高于單獨(dú)ＲＬ下的值，這是因?yàn)椋牵?算法得到了最優(yōu)的協(xié)作用戶。圖９顯示了ＰＵ在頻帶使用率不同時(shí)，Ｑ值隨著時(shí)間的變化，ＰＵ占用的頻帶越低Ｑ值通常較高。此外，在感知期間隨著時(shí)間的推移Ｑ值在減小，并在某個(gè)時(shí)間趨于穩(wěn)定。不同ＳＮＲ下感知時(shí)間比較如圖１０所示?？梢钥闯?，在相同ＳＮＲ情況下，基于ＧＳ算法的ＲＬ比沒(méi)有ＲＬ加入時(shí)感知時(shí)間更短，因此，提高了全局決策的實(shí)時(shí)性。如果沒(méi)有使用ＲＬ，那么每個(gè)頻譜感知過(guò)程都需要使用ＧＳ算法來(lái)查找可靠的節(jié)點(diǎn)，這將導(dǎo)致感知時(shí)間增加。當(dāng)ＳＮＲ增加時(shí)，感知時(shí)間減少，這是因?yàn)殡S著ＳＮＲ的提高，存儲(chǔ)的信息更少，更容易做出判斷。

５結(jié)束語(yǔ)

提出了一種基于ＲＬ的ＣＳＳ算法。利用ＮＥＳ算法解決了ＣＲＮ中可能存在ＭＵ參與ＣＳＳ導(dǎo)致能量消耗高和感知精度低的問(wèn)題；通過(guò)ＧＳ的ＲＬ算法解決了在相同ＣＲ環(huán)境下重復(fù)計(jì)算的時(shí)間，減少了計(jì)算量，縮短了感知時(shí)間，提高了頻譜感知速度，為全局決策的實(shí)時(shí)性提供了保障，使頻譜動(dòng)態(tài)分配成為可能。后續(xù)在此基礎(chǔ)上評(píng)估網(wǎng)絡(luò)的平均生存周期，根據(jù)仿真結(jié)果，對(duì)網(wǎng)絡(luò)模型和頻譜感知算法進(jìn)行優(yōu)化改進(jìn)。

參考文獻(xiàn)

［１］ＪＡＧＡＤＥＥＳＡＮＮＡ，ＮＡＣＨＩＫＥＴＨＡＳＢ．ＳｏｆｔｗａｒｅｄｅｆｉｎｅｄＮｅｔｗｏｒｋｉｎｇＰａｒａｄｉｇｍｓｉｎＷｉｒｅｌｅｓｓＮｅｔｗｏｒｋｓ：ＡＳｕｒｖｅｙ［Ｊ］．ＡＣＭＣｏｍｐｕｔｉｎｇＳｕｒｖｅｙｓ，２０１４，４７（２）：１－１１．

［２］ＪＩＡＮＧＷ，ＨＡＮＢ，ＨＡＢＩＢＩＭＡ，ｅｔａｌ．ＴｈｅＲｏａｄＴｏｗａｒｄｓ６Ｇ：ＡＣｏｍｐｒｅｈｅｎｓｉｖｅＳｕｒｖｅｙ［Ｊ］．ＩＥＥＥＯｐｅｎＪｏｕｒｎａｌｏｆｔｈｅＣｏｍｍｕｎｉｃａｔｉｏｎｓＳｏｃｉｅｔｙ，２０２１，２：３３４－３６６．

［３］ＳＡＡＶＥＤＲＡＥ，ＭＡＳＣＡＲＡＱＵＥＬ，ＣＡＬＤＥＲＯＮＧ，ｅｔａｌ．ＡＵｎｉｖｅｒｓａｌＴｅｓｔｂｅｄｆｏｒＩｏＴＷｉｒｅｌｅｓｓＴｅｃｈｎｏｌｏｇｉｅｓ：ＡｂｓｔｒａｃｔｉｎｇＬａｔｅｎｃｙ，ＥｒｒｏｒＲａｔｅａｎｄＳｔａｂｉｌｉｔｙｆｒｏｍｔｈｅＩｏＴＰｒｏｔｏｃｏｌａｎｄＨａｒｄｗａｒｅＰｌａｔｆｏｒｍ［Ｊ］．Ｓｅｎｓｏｒｓ，２０２２，２２（１１）：４１５９．

［４］ＰＥＲＡＲＡＳＩＴ，ＮＡＧＡＲＡＪＡＩＮＧ，ＧＡＹＡＴＨＲＩＲ，ｅｔａｌ．ＥｖａｌｕａｔｉｏｎｏｆＣｏｏｐｅｒａｔｉｖｅＳｐｅｃｔｒｕｍＳｅｎｓｉｎｇｗｉｔｈＦｉｌｔｅｒｅｄＢａｎｋＭｕｌｔｉＣａｒｒｉｅｒＵｔｉｌｉｚｅｄｆｏｒＤｅｔｅｃｔｉｎｇｉｎＣｏｇｎｉｔｉｖｅＲａｄｉｏＮｅｔｗｏｒｋ［Ｊ］．ＴｒａｎｓａｃｔｉｏｎｓｏｎＥｍｅｒｇｉｎｇＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＴｅｃｈｎｏｌｏｇｉｅｓ，２０２２，３３（７）：ｅ４４７８．

［５］李葉．基于單節(jié)點(diǎn)及多節(jié)點(diǎn)頻譜感知的認(rèn)知無(wú)線電網(wǎng)絡(luò)資源分配研究［Ｄ］．成都：西南交通大學(xué)，２０２１．

［６］ＨＷＡＮＧＪ，ＫＩＭＪ，ＳＵＮＧＩ，ｅｔａｌ．ＦａｓｔａｎｄＡｃｃｕｒａｔｅＤｅｔｅｃｔｉｏｎｏｆＭａｌｉｃｉｏｕｓＵｓｅｒｓｉｎＣｏｏｐｅｒａｔｉｖｅＳｐｅｃｔｒｕｍＳｅｎｓｉｎｇＮｅｔｗｏｒｋ［Ｊ］．ＷｉｒｅｌｅｓｓＰｅｒｓｏｎａｌＣｏｍｍｕｎｉｃａｔｉｏｎｓ，２０２１，１１８（２）：１７０９－１７３１．

［７］呂培，趙杭生，張建照．一種基于信譽(yù)值拍賣(mài)的區(qū)塊鏈下的感知收益分配機(jī)制［Ｊ］．電訊技術(shù)，２０２１，６１（１）：１－７．

［８］ＪＩＢＲＡＮＭ，ＫＩＭＪ，ＫＯＯＪ，ｅｔａｌ．ＡＤｏｕｂｌｅＡｄａｐｔｉｖｅＡｐｐｒｏａｃｈｔｏＴａｃｋｌｅＭａｌｉｃｉｏｕｓＵｓｅｒｓｉｎＣｏｇｎｉｔｉｖｅＲａｄｉｏＮｅｔｗｏｒｋｓ［Ｊ］．ＷｉｒｅｌｅｓｓＣｏｍｍｕｎｉｃａｔｉｏｎｓａｎｄＭｏｂｉｌｅＣｏｍｐｕｔｉｎｇ，２０１９，２０１９：２２１４－２２２３．

［９］ＳＵＮＺＧ，ＸＵＺＹ，ＣＨＥＮＺＭ，ｅｔａｌ．ＲｅｐｕｔａｔｉｏｎｂａｓｅｄＳｐｅｃｔｒｕｍＳｅｎｓｉｎｇＳｔｒａｔｅｇｙＳｅｌｅｃｔｉｏｎｉｎＣｏｇｎｉｔｉｖｅＲａｄｉｏＡｄＨｏｃＮｅｔｗｏｒｋｓ［Ｊ］．Ｓｅｎｓｏｒｓ，２０１８，１８（１２）：４３７７．

［１０］ＮＩＮＧＷＬ，ＨＵＡＮＧＸＹ，ＹＡＮＧＫ，ｅｔａｌ．ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇＥｎａｂｌｅｄＣｏｏｐｅｒａｔｉｖｅＳｐｅｃｔｒｕｍＳｅｎｓｉｎｇｉｎＣｏｇｎｉｔｉｖｅＲａｄｉｏＮｅｔｗｏｒｋｓ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｏｍｍｕｎｉｃａｔｉｏｎｓａｎｄＮｅｔｗｏｒｋｓ，２０２０，２２（１）：１２－２２．

［１１］ＧＵＬＮ，ＫＩＭＳＭ，ＡＨＭＥＤＳ，ｅｔａｌ．ＤｉｆｆｅｒｅｎｔｉａｌＥｖｏｌｕｔｉｏｎＢａｓｅｄＭａｃｈｉｎｅＬｅａｒｎｉｎｇＳｃｈｅｍｅｆｏｒＳｅｃｕｒｅＣｏｏｐｅｒａｔｉｖｅＳｐｅｃｔｒｕＳｅｎｓｉｎｇＳｙｓｔｅｍ［Ｊ］．Ｅｌｅｃｔｒｏｎｉｃｓ，２０２１，１０（１４）：１６８７．

［１２］ＧＵＬＮ，ＱＵＲＥＳＨＩＩＭ，ＥＬＡＨＩＡ，ｅｔａｌ．ＤｅｆｅｎｓｅＡｇａｉｎｓｔＭａｌｉｃｉｏｕｓＵｓｅｒｓｉｎＣｏｏｐｅｒａｔｉｖｅＳｐｅｃｔｒｕｍＳｅｎｓｉｎｇＵｓｉｎｇＧｅｎｅｔｉｃＡｌｇｏｒｉｔｈｍ［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＡｎｔｅｎｎａｓａｎｄＰｒｏｐａｇａｔｉｏｎ，２０１８，２０１８：１－１１．

［１３］王聰，劉雄厚，孫超，等．基于頻率著色的被動(dòng)聲吶寬帶能量檢測(cè)方法［Ｊ］．哈爾濱工程大學(xué)學(xué)報(bào)，２０２１，４２（４）：４５６－４６２．

［１４］ＰＡＧＥＥＬ，ＰＥＩＧＮ？Ｍ，ＰＨＡＭＤＣ．ＣｅｎｔｒａｌＬｉｍｉｔＴｈｅｏｒｅｍｆｏｒａＣｒｉｔｉｃａｌＭｕｌｔｉｔｙｐｅＢｒａｎｃｈｉｎｇＰｒｏｃｅｓｓｉｎＲａｎｄｏｍＥｎｖｉｒｏｎｍｅｎｔｓ［Ｊ］．ＴｕｎｉｓｉａｎＪｏｕｒｎａｌｏｆＭａｔｈｅｍａｔｉｃｓ，２０２１，３（４）：８０１－８４２．

［１５］ＦＡＹＥＤＨＡ，ＡＴＩＹＡＡＦ．ＳｐｅｅｄｕｐＧｒｉｄｓｅａｒｃｈｆｏｒＰａｒａｍｅｔｅｒＳｅｌｅｃｔｉｏｎｏｆＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓ［Ｊ］．ＡｐｐｌｉｅｄＳｏｆｔＣｏｍｐｕｔｉｎｇ，２０１９，８０：２０２－２１０．

［１６］ＨＡＮＫ，ＹＥＣＹ．ＰｏｗｅｒＣｏｎｔｒｏｌＲｅｓｅａｒｃｈｆｏｒＤｅｖｉｃｅｔｏＤｅｖｉｃｅＷｉｒｅｌｅｓｓＮｅｔｗｏｒｋＵｎｄｅｒｌｙｉｎｇＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ［Ｃ］∥ ＧｌｏｂａｌＣｏｎｆｅｒｅｎｃｅｏｎＲｏｂｏｔｉｃｓ，ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅａｎｄＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ．Ｃｈｉｃａｇｏ：ＩＥＥＥ，２０２２：３５１－３５４．

［１７］李冠雄，李桂林．基于強(qiáng)化學(xué)習(xí)的合作頻譜分配算法［Ｊ］．電波科學(xué)學(xué)報(bào)，２０２２，３７（１）：８－１４．

［１８］曹龍，趙杭生，鮑麗娜，等．基于輔助節(jié)點(diǎn)的安全協(xié)作頻譜感知［Ｊ］．計(jì)算機(jī)工程，２０１４，４０（２）：１２３－１２７．

［１９］ＫＯＳＴＥＮＶＡ，ＳＥＬＥＺＥＮＥＶＬＥ．ＲａｎｄｏｍＳｅａｒｃｈＡｌｇｏｒｉｔｈｍｗｉｔｈＳｅｌｆｌｅａｒｎｉｎｇｆｏｒＮｅｕｒａｌＮｅｔｗｏｒｋＴｒａｉｎｉｎｇ［Ｊ］．ＯｐｔｉｃａｌＭｅｍｏｒｙａｎｄＮｅｕｒａｌＮｅｔｗｏｒｋｓ，２０２１，３０（２）：１８０－１８６．

［２０］ＨＵＡＮＧＴ，ＹＩＮＸＤ，ＣＡＯＱＪ．ＡＮｅｗＡｌｇｏｒｉｔｈｍｆｏｒＣｏｎｓｉｄｅｒｉｎｇＧｒｅｅｎＣｏｍｍｕｎｉｃａｔｉｏｎａｎｄＥｘｃｅｌｌｅｎｔＳｅｎｓｉｎｇＰｅｒｆｏｒｍａｎｃｅｉｎＣｏｇｎｉｔｉｖｅＲａｄｉｏＮｅｔｗｏｒｋｓ［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＤｉｓｔｒｉｂｕｔｅｄＳｅｎｓｏｒＮｅｔｗｏｒｋｓ，２０２０，１６（６）：６４５－６４９．

作者簡(jiǎn)介

劉春玲女，（１９７１—），博士，教授，碩士生導(dǎo)師，ＣＣＦ會(huì)員。主要研究方向：信號(hào)檢測(cè)與信號(hào)處理。

許軍男，（１９９６—），碩士研究生。主要研究方向：認(rèn)知無(wú)線電與壓縮感知。

郭楷文男，（１９９７—），碩士研究生。主要研究方向：機(jī)器人路徑規(guī)劃。

基金項(xiàng)目：遼寧省教育廳面上基金項(xiàng)目（ＬＪＫＺ１１８４）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

強(qiáng)化學(xué)習(xí)在協(xié)作頻譜感知中的應(yīng)用