賈云峰,邱 琳,魏鴻浩
基于k最近鄰回歸的頻譜占用度預測*
賈云峰,邱 琳**,魏鴻浩
(北京航空航天大學電子信息工程學院,北京 100191)
認知無線電技術可以在授權用戶和非授權用戶間進行頻譜分配,預測模型的建立可幫助非授權用戶推斷頻譜空洞是否可用,不僅能提升頻譜利用率而且還能降低沖突率。采用理論分析、監(jiān)測實驗、數(shù)學建模、數(shù)據(jù)實證等方法,對頻譜占用度建模理論進行了研究。針對頻譜的可預測性問題,通過對數(shù)據(jù)集的分析,使用k最近鄰(kNN)回歸模型預測頻譜的信道-場強值?;谟^測數(shù)據(jù)呈現(xiàn)出的周期性,提出了一種針對周期性數(shù)據(jù)進行優(yōu)化的kNN模型,并用其進行預測。比較了原始kNN回歸模型和優(yōu)化后的周期性kNN模型在測試數(shù)據(jù)上的預測精度,結果表明優(yōu)化后的模型比原始的kNN模型有著更好的預測精度。
認知無線電;頻譜分配;頻譜占用度;場強預測;k最近鄰回歸
傳統(tǒng)上電磁環(huán)境監(jiān)測中頻譜占用度分析主要是基于監(jiān)測設備和人工經(jīng)驗相結合的方法,即通過使用監(jiān)測接收機對特定的頻段進行掃描,或者用頻譜分析儀對之前設定的信道進行監(jiān)測,獲取特定無線電頻段(典型為30 MHz~3 GHz)范圍內頻譜場強與時間的對應數(shù)據(jù)集,通過人工選取電磁背景噪聲電平值,記錄任何高于噪聲電平或預設門限電平的信號[1]。這種以測量、搜集、記錄和顯示為主的頻譜占用度測量方法缺乏定量數(shù)學模型的支撐,無法深入描述頻譜歷史使用數(shù)據(jù)的統(tǒng)計規(guī)律,不能精確預測頻譜未來狀態(tài)和波動信息。因此,傳統(tǒng)頻譜占用度測量和分析模式越來越無法適應當前頻譜資源精確和動態(tài)共享的發(fā)展需求。
近年來,國內外學者對頻譜占用度進行了研究。文獻[2-4]提出用馬爾科夫鏈建立頻譜占用度時域統(tǒng)計模型,并通過多節(jié)點同時檢測實驗表明主用戶發(fā)射信號場強在空域服從高斯分布。文獻[5-7]通過對大量電磁環(huán)境的測試,采用指數(shù)分布和幾何分布函數(shù)來擬合頻譜占用度時變特性,并基于隨機場理論建立頻譜利用空域分布模型。上述研究進展對于認識無線電監(jiān)測頻譜的時變統(tǒng)計規(guī)律以及量化表征方法具有重要意義。文獻[8]提出了頻譜占用度的測量與分析方法,獲得了監(jiān)測點的現(xiàn)場實測數(shù)據(jù),并經(jīng)過分析得到了相應的時間-頻率-占用度對照圖,其研究相對比較淺顯,未能對頻譜的統(tǒng)計特性進行進一步分析。文獻[9]通過遞歸圖和遞歸定量分析,定性和定量研究了基于某GSM基站流量的時間序列可預測性特征,但缺乏對模型的具體構建。本文對頻譜進行分析與預測,為之后的異常檢測提供依據(jù)。
由于傳統(tǒng)電磁環(huán)境監(jiān)測中頻譜占用度分析無法精確預測頻譜未來狀態(tài),同時,從監(jiān)測到的頻譜數(shù)據(jù)來看,數(shù)據(jù)分布并不滿足正態(tài)性,甚至不同頻段的信號分布形狀之間差異非常大。因此,本文首先根據(jù)其數(shù)據(jù)特征選擇k最近鄰(k-Nearest Neighbour,kNN)回歸算法對頻譜場強值進行預測;然后,根據(jù)頻譜數(shù)據(jù)呈現(xiàn)出的周期性對模型進行改進;最后,根據(jù)國際電聯(lián)的ITU-R建議S M.1536——頻道占用度測量,得到頻譜占用度。
2.1認知無線電中的頻譜預測技術
頻譜預測技術即對頻譜的歷史數(shù)據(jù)進行預測。在實際頻譜中,不同的無線頻段分配給不同的服務,導致其頻譜使用狀態(tài)呈現(xiàn)一定的相關特性,即在一個授權頻段內,頻譜使用呈現(xiàn)有規(guī)律的特征。因此,可以利用這些規(guī)律、特性對頻譜未來的使用情況進行預測。通過頻譜預測可以減小對主用戶的干擾的同時尋找到更多的頻譜接入機會,保證主用戶及認知用戶QoS的同時提高了認知用戶的吞吐量。
對于頻譜預測,需要做的工作主要分為三步:一是采集頻譜資料;二是對頻譜數(shù)據(jù)進行分析;最后是根據(jù)相應的預測方法對頻譜進行預測。
2.2頻譜數(shù)據(jù)的采集
本研究中的監(jiān)測數(shù)據(jù)來自對北京市海淀區(qū)北京航空航天大學校園內進行連續(xù)約64 h(2015年3月13日9時52分~2015年3月16日1時55分)頻段為88~108 MHz,即FM廣播業(yè)務的實地頻譜監(jiān)測。監(jiān)測設備包括Agilent N9340B頻譜分析儀、數(shù)據(jù)記錄和存儲計算機以及CS-AOS30-3000V有源全向天線。該實驗系統(tǒng)能滿足本研究工作的需要。
數(shù)據(jù)采集軟件采用北京航空航天大學電磁兼容研究所開發(fā)的電磁環(huán)境監(jiān)測系統(tǒng)V1.0,監(jiān)測頻段設置為30~3 000 MHz,頻率掃描分辨率為50 kHz,每次掃描采樣的頻率點數(shù)為144 360個,在監(jiān)測時間內連續(xù)測量得到64個時間點的“頻譜-場強”數(shù)據(jù)樣本。由于在該監(jiān)測系統(tǒng)中每一次掃描頻譜數(shù)據(jù)被記錄為一個文本文件,因此原始數(shù)據(jù)存儲格式為64個文本文件。除了第一個小時的數(shù)據(jù)包含361個數(shù)據(jù)集外,其余63個小時中每一個小時都包含了360個數(shù)據(jù)集。將該數(shù)據(jù)集進行三維(頻率-時間-場強)可視化處理得到如圖1所示的監(jiān)測數(shù)據(jù)分布圖。在頻譜占用度統(tǒng)計和分析中,可以根據(jù)實際需求抽取不同的無線電業(yè)務頻段或信道頻率,從而得到相應的監(jiān)測頻譜場強值。
圖1 頻譜監(jiān)測數(shù)據(jù)頻率-時間-場強分布圖Fig.1 Frequency-time-field intensity distribution of spectrum monitoring data
2.3數(shù)據(jù)的預處理
本文使用R(版本號:3.2.2)做數(shù)據(jù)分析和建模。原始數(shù)據(jù)為63個文本文件,每個文本記錄了400個信道(88~108 MHz)在1 h中每10 s測量一次的觀測值。一次典型的觀測值如圖2所示,此數(shù)據(jù)來自于第2個小時中的第5次測量。把63個記錄封裝成矩陣,最終得到維數(shù)為22 680×401的矩陣。
圖2 第2個小時中的第5次測量得到的400個信道的觀測值Fig.2 Observed value of 400 channels during the fifth time measurement in the 2nd hour
2.4模型優(yōu)劣的評價指標
本文選取擬合優(yōu)度和均方誤差作為信道-場強預測的評價指標。
擬合優(yōu)度Rsquared被定義為
式中:SST、SSE、SSR分別是離差平方和、殘差平方和和回歸平方和。擬合優(yōu)度越大,說明數(shù)據(jù)相似度越好。
均方誤差(Mean Squared Error,MSE)是衡量“平均誤差”的一種較為簡便的方法,它可用來評價數(shù)據(jù)的變化程度。數(shù)學定義如下:
在本研究中,我們分別用Rsquared和MSE來評價兩條曲線的相似度。
數(shù)據(jù)挖掘技術是一個內容廣泛的理論體系和算法集。數(shù)據(jù)挖掘所發(fā)現(xiàn)的知識主要包括廣義知識、關聯(lián)知識、分類知識、預測性知識和偏差型知識等。采用數(shù)據(jù)挖掘等理論和方法分析處理頻譜監(jiān)測數(shù)據(jù),求解設定參數(shù)和目標函數(shù),獲取有價值的頻譜資源使用信息和知識是當前對頻譜監(jiān)測和頻譜占用度數(shù)據(jù)研究的重點方向。
3.1kNN最近鄰分類算法
kNN方法是指從訓練集找出k個最接近測試對象的訓練對象,再從這k個訓練對象中找出居于主導的類別,將其賦值給測試對象。從普遍意義上來說,kNN是一種基于實例的學習方法[10],同時,kNN也是一種惰性學習方法。
kNN分類方法很容易理解和實現(xiàn),而且在許多情況下表現(xiàn)良好。雖然數(shù)據(jù)在每個小周期內很有規(guī)律,但是在一個小時內,變化很復雜,很難寫出簡單的函數(shù)表達式,所以普通的回歸類型的方法都無法使用。改進后的kNN回歸是基于局部數(shù)據(jù)點的,而這個“局部”在時間上是不連續(xù)的,所以選擇kNN方法能達到較好的預測效果。
kNN方法需要考慮幾個關鍵要素:一是用于決策一個測試對象類別的已被標記對象集合;二是用來計算對象間鄰近程度的距離或其他相似性指標;三是最近鄰的個數(shù)k;四是基于k個最近鄰及其類別來判定目標對象類別的方法。
算法1是最近鄰算法的高層描述。對于測試樣例z=(x′,y′),算法計算它和所有訓練樣例(x′,y′)∈D之間的距離,以確定其最近鄰列表Dz。
算法1 k-最近鄰分類算法
(1)令k是最近鄰數(shù)目,D是訓練樣例的集合;
(2)for循環(huán)每一個測試樣例z=(x′,y′)do;
(3)計算z和每個樣例(x′,y′)∈D之間的距離d(x′,x);
(4)選擇離z最近的k個訓練樣例的集合Dz?D;
(6)end for。
一旦得到最近鄰列表,測試樣例就會根據(jù)最近鄰中的多數(shù)類進行分類:
式中:v是類標號;yi是一個最近鄰的類變換;I(·)是指示函數(shù),當參數(shù)為真時,返回1;為假,返回0。
以上kNN算法針對的是分類問題,目標值是離散變量,而我們需要的是測量值,是一個連續(xù)的變量,所以要用到kNN回歸。
kNN回歸的思想是找到離待測樣本最近的k個已知樣本,將它們的均值作為待測樣本的值。例如:設a1,a2,…,ak分別是x的k個最近鄰樣本,它們的值為v1,v2,…,vk,則目標x的值是
圖3和圖4表明每小時的均值和每分鐘的均值有明顯的周期性,所以為了預測未來的某一個時間t的值,可以根據(jù)歷史數(shù)據(jù)中跟t處在相同周期位置的那些值來預測,因此我們將不同周期中相同位置附近的值也作為“鄰居”。由此,我們提出改進的kNN模型。
圖3 每分鐘的均值Fig.3 Mean value per minute
圖4 每小時的均值Fig.4 Mean value per hour
3.2優(yōu)化的kNN回歸模型
優(yōu)化的kNN回歸模型主要針對周期性數(shù)據(jù)而修改。
設:待測樣本X,所在的時間是T,由于周期性的存在,總的來說,最接近T的值是跟它相差24 h的整數(shù)倍的那些時間點Xi的值Vi。找到這些值之后,使用kNN算法:選擇時間上最近的k的觀測值求均值來得出每一個待測點的值。算法2是對優(yōu)化的kNN的描述。
算法2 優(yōu)化的k-最近鄰分類算法
(1)通過待測點X的時間T,找到x1,x2,…,xm,這些點是與X在時間上距離24 h的整數(shù)倍的點;
(2)計算x1,x2,…,xm這些點對應的觀測值xv1,xv2,…,xvm;
(3)對于每一個xi,計算出xi的k個最近鄰的均值vi,得到m個均值v1,v2,…,vm;
圖5是以Rsquared作為評價實際數(shù)據(jù)值和預測數(shù)據(jù)值的相似度的標準,使用優(yōu)化的kNN回歸模型的信道-場強預測結果,從直方圖上看,預測的正確率大約在88%以上。
圖5 優(yōu)化的kNN算法對頻譜預測準確率的直方圖Fig.5 Spectrum prediction accuracy histogram based on the optimized kNN algorithm
由于用Rsquared考察頻譜預測準確率會出現(xiàn)不同小時之間兩兩的相似度很接近于0的情況,所以我們用均方誤差直接比較預測值和真實值在絕對值上的差異。
將3月13日10:52:19~3月15日02:54:10之間采集的數(shù)據(jù)集作為基礎,通過它們預測剩余時間上的數(shù)據(jù)值,測試了原始kNN(ori_kNN)和改進kNN(m_kNN)的結果。討論k=2和k=3時的預測MSE值,如表1所列:第2、3列是k=2的情況下MSE值,第4、5列是k=3的情況下MSE值;第2、4列是ori_kNN預測誤差列,第3、5列是m_kNN預測誤差列。從數(shù)值上看,取k=3較好。在k=3時,比較ori_kNN和m_kNN的誤差大小可以發(fā)現(xiàn),m_kNN誤差更小的情況出現(xiàn)了15次,ori_kNN誤差更小的情況出現(xiàn)了8次。所以,改進的kNN回歸模型在預測上有更高的精度。
表1 原始kNN回歸與改進的kNN回歸在23個測試樣本上的誤差Tab.1 The original kNN regression and the improved kNN regression on the error of the 23 test samples
電磁環(huán)境監(jiān)測和頻譜感知是頻譜管理部門和用戶獲取空中無線電波信息的基本手段,衡量一定無線電業(yè)務或特定無線電信道利用程度的物理量稱為頻譜占用度,它是頻譜管理部門掌握頻譜資源利用情況、預測頻譜資源變化趨勢以及高效配置頻譜資源的基本依據(jù),也是認知無線電用戶確定動態(tài)頻譜接入策略的必備條件。
頻道占用度是頻譜占用度的一種[8],它能度量和描述頻譜資源的使用情況。頻道占用度被定義為占用時間與總測量時間的百分比。判定占用與否的標準是接收信號是否大于門限電平:當接收信號大于門限電平時判為占用,否則為不占用。
圖6為對測量的數(shù)據(jù)經(jīng)過合并周期,占用度、門限計算得到的頻率-占用度二維圖。圖內顯示的是一天內各頻點的總體占用度值。橫軸代表的是被測頻段的頻率88~108 MHz,包含400個信道;縱軸代表的是時間占用度,它是信道門限值之上的數(shù)目除以該信道總的數(shù)目,用百分比表示。圖中選擇的判決門限值是-80 dBmV/m。
圖6 頻道占用度Fig.6 Channel occupancy rate
從圖6中能看到一些未被使用的空白頻譜,而且被占用頻段集中在88~98 MHz;在98~108 MHz范圍內,頻道占用度較低,即頻譜的實際利用不高。由此看來,我國分配的FM廣播業(yè)務頻段仍有較大的使用空間。
頻譜占用度信息是認知無線電系統(tǒng)的重要構成要素,準確的頻譜占用度信息能為認知無線電用戶提供頻譜接入的最佳時機和方式,為其科學動態(tài)選頻和系統(tǒng)間電磁兼容提供關鍵數(shù)據(jù)支持。電磁頻譜高效利用的需求日趨緊迫,可靠的頻譜預測有利于提高頻譜利用率。
本文構建了基于kNN回歸的頻譜占用度預測模型。因數(shù)據(jù)集展現(xiàn)出明顯的周期性,因此,我們在傳統(tǒng)的kNN算法上進行適當?shù)母倪M。當以Rsquared作為評價實際數(shù)據(jù)值和預測數(shù)據(jù)值的相似度的標準時,得出改進的kNN回歸預測準確率在88%以上。在誤差度量方法為均方誤差(MSE)的條件下,比較不同k取值的原始kNN回歸(ori_ kNN)和改進后的kNN回歸(m_kNN)的預測結果,得出m_kNN比ori_kNN在預測效果上更好的結論。最后通過分析,獲得頻道占用度。通過對不同時間的信道占用度的區(qū)別進行統(tǒng)計監(jiān)測來得出無線電監(jiān)測中的頻譜異常,是下一步的研究方向。
[1] 周鴻順.頻譜監(jiān)測手冊[M].北京:人民郵電出版社,2006:9-10.
ZHOU Hongshun.Spectrum monitoring handbook[M]. Beijing:The People's Posts and Telecommunications Press,2006:9-10.(in Chinese)
[2] LOPEZ-BENITEZ M,CASADEVALL F.Empirical timedimension model of spectrum use based on a discretetime Markov chain with deterministic and stochastic duty cycle models[J].IEEE Transactions on Vehicular Technology,2011,60(6):2519-2533.
[3] LOPEZ-BENITEZ M,CASADEVALL F.Discrete-time spectrum occupancy model based on Markov chain and duty cycle models[C]//Proceedings of 2011 IEEE Symposium on New Frontiers in Dynamic Spectrum Access Networks(DySPAN).Aachen,Germany:IEEE,2011:90-99.
[4] LOPEZ-BENITEZ M,CASADEVALL F.Spatial duty cycle model for cognitive[C]//Proceedings of 2010 IEEE 21st International Symposium on Personal Indoor and Mobile Radio Communications(PIMRC).Instanbul,Turkey:IEEE,2010:1631-1636.
[5] WELLENS M,RIIHIJARVI J,MAEHOENEN P.Spatial statistics of spectrum usage:from measurements to spectrum models[C]//Proceedings of 2009 IEEE Interna-tional Conference on Communications.Dresden,Germany:IEEE,2009:1-6.
[6] WELLENS M,RIIHIJARVI J,MAEHOENEN P.Evaluation of cooperative spectrum sensing based on large scale measurements[C]//Proceedings of 3rd IEEE Symposium on New Frontiers in Dynamic Spectrum Access Networks. Chicago,IL:IEEE,2008:1-12.
[7] WELLENS M,RIIHIJARVI J,MAEHOENEN P.Empirical time and frequency domain models of spectrum use[J].Physical Communication,2009,10(4):10-32.
[8] 王江舟,李軍芳,范若璐,等.頻譜占用度測量與分析[J].西安郵電大學學報,2014,19(5):10-15.
WANG Jiangzhou,LI Junfang,F(xiàn)AN Ruolu,et al.Measurements and analysis of spectrum occupancy[J].Journal of Xi′an University of Posts and Telecommunications,2014,19(5):10-15.(in Chinese)
[9] 李紅巖.認知無線電系統(tǒng)中頻譜可預測性的遞歸定量分析[J].電訊技術,2015,55(2):124-128.
LI Hongyan.Recurrence quantification analysis of spectrum predictability in cognitive radio system[J].Telecommunication Engineering,2015,55(2):124-128.(in Chinese)
[10] AHA D W,KIBLER D,ALBERT M K.Instance-based learning algorithms[J].Machine Learning,1991,6(1):37-66.
賈云峰(1975—),男,湖北人,2002年于國防科技大學獲博士學位,現(xiàn)為副教授、碩士生導師,主要研究方向為微波電磁場、電磁兼容技術與直升機系統(tǒng)級電磁兼容設計;
JIA Yunfeng was born in Hubei Province,in 1975.He received the Ph.D.degree from National University of Defense Technology in 2002. He is now an associate professor and also the instructor of graduate students.His research concerns microwave electromagnetic field,electromagnetic compatibility technology and the helicopter system-level electromagnetic compatibility design.
邱 琳(1993—),女,江西人,碩士研究生,主要研究方向為電磁場與電磁兼容;
QIU Lin was born in Jiangxi Province,in 1993.She is now a graduate student.Her research concerns electromagnetic field and electromagnetic compatibility.
Email:qiulin@buaa.edu.cn
魏鴻浩(1991—),男,遼寧人,碩士研究生,主要研究方向為電磁場與電磁兼容。
WEI Honghao was born in Liaoning Province,in 1991.He is now a graduate student.His research concerns electromagnetic field and electromagnetic compatibility.
Spectrum Occupancy Prediction Based on k-Nearest Neighbor Regression
JIA Yunfeng,QIU Lin,WEI Honghao
(School of Electronic and Information Engineering,Beijing University of Aeronautics and Astronautics,Beijing 100191,China)
Cognitive radio technology can conduct spectrum allocation between the authorized users and secondary users.The establishment of predication model can help secondary users infer whether the spectrum hole is available,which can both improve spectral efficiency and reduce collision rate.By means of theoretical analysis,experiment monitoring,mathematical modeling and data demonstration,spectrum occupation modeling theory is researched.For the predictable problems of spectrum,through the analysis of data group,k-Nearest Neighbour(kNN)regression model is used to predict the channel-field value of spectrum.At the same time,based on the periodicity shown by the observation data,a kNN model is proposed to optimize periodical data and offers predication.Then the predication accuracy is compared in test data of original kNN regression model and optimized periodical kNN.The result shows the optimized model is of better predication accuracy than the original kNN model.
cognitive radio;spectrum allocation;spectrum occupancy;field strength prediction;kNN regression
頻譜占用度是描述電磁頻譜使用規(guī)律和利用程度的重要物理量,是無線電監(jiān)測中用來衡量無線電業(yè)務頻段擁擠程度和信道可利用性的主要統(tǒng)計量。頻譜占用度建模研究,是在一定時段內覆蓋特定頻段的電磁環(huán)境監(jiān)測數(shù)據(jù)支持下,研究不同無線電業(yè)務頻段和信道占用度的統(tǒng)計規(guī)律,建立能夠準確表征頻譜占用度數(shù)學特性的理論模型。頻譜占用度能夠綜合反映電磁頻譜的頻域-時域變化規(guī)律,定量描述頻譜狀態(tài)變化趨勢,深入揭示頻譜使用行為信息,在戰(zhàn)場電磁環(huán)境評估、頻譜管理工程和認知無線電技術等領域具有重要應用價值。
The National Natural Science Foundation of China(No.61371007)
**通信作者:qiulin@buaa.edu.cn qiulin@buaa.edu.cn
TN98
A
1001-893X(2016)08-0844-06
10.3969/j.issn.1001-893x.2016.08.003
2015-12-30;
2016-03-28
date:2015-12-30;Revised date:2016-03-28
國家自然科學基金資助項目(61371007)
引用格式:賈云峰,邱琳,魏鴻浩.基于k最近鄰回歸的頻譜占用度預測[J].電訊技術,2016,56(8):844-849.[JIA Yunfeng,QIU Lin,WEI Honghao. Spectrum occupancy prediction based on k-nearest neighbor regression[J].Telecommunication Engineering,2016,56(8):844-849.]