朱家鵬 段宇帥
摘 要:傳統(tǒng)的無(wú)線傳播模型通常需要根據(jù)經(jīng)驗(yàn)?zāi)P蛯?duì)傳播場(chǎng)景進(jìn)行劃分。為了解決其在實(shí)際應(yīng)用中不夠精確的問(wèn)題,通過(guò)在大量工程參數(shù)中設(shè)計(jì)并選用合適的特征參數(shù)作為模型輸入,構(gòu)建基于機(jī)器學(xué)習(xí)方法XGBoost的無(wú)線傳播預(yù)測(cè)模型,實(shí)現(xiàn)新環(huán)境下無(wú)線信號(hào)覆蓋強(qiáng)度的準(zhǔn)確預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,該模型相較于基于長(zhǎng)短記憶網(wǎng)絡(luò)(LSTM)、線性回歸方法,預(yù)測(cè)均方根誤差最小,為9.101。該方法在預(yù)測(cè)精度和模型魯棒性上都較好,對(duì)在不同場(chǎng)景下的信道傳播路徑損耗進(jìn)行準(zhǔn)確預(yù)測(cè)具有重要意義。
關(guān)鍵詞:集成學(xué)習(xí);無(wú)線傳播模型;數(shù)據(jù)分析;特征工程
DOI:10. 11907/rjdk. 192477 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
中圖分類號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2020)008-0035-05
Abstract:Traditional wireless propagation models usually need to divide propagation scenarios based on empirical models. In order to solve the problem that it is not accurate enough in practical application, this paper designs and selects the appropriate feature parameters as input to the model through a large number of engineering parameters. The wireless propagation model based on machine learning XGBoost can accurately predict the wireless signal coverage in the new environment. The experimental results show that compared with the long-short memory network (LSTM) and linear regression method, the predicted root mean square error is 9.101, and the error is the smallest. The method of this paper is good in the accuracy of prediction and the robustness of the model. It is of great significance to accurately predict the channel propagation path loss in different scenarios.
Key Words: integrated learning; wireless propagation model; data analysis; feature engineering
0 引言
隨著5G技術(shù)的長(zhǎng)足發(fā)展與逐步普及,高效的網(wǎng)絡(luò)估算以及合理的基站站址選擇,在運(yùn)營(yíng)商部署5G網(wǎng)絡(luò)中具有非常重要的意義。無(wú)線傳播模型正是通過(guò)對(duì)目標(biāo)通信覆蓋區(qū)域內(nèi)的無(wú)線電波傳播特性進(jìn)行預(yù)測(cè),使得小區(qū)覆蓋范圍、小區(qū)間網(wǎng)絡(luò)干擾以及通信速率等指標(biāo)估算成為可能。由于無(wú)線電傳播環(huán)境復(fù)雜、會(huì)受到傳播路徑上各種因素的干擾,如建筑物、湖泊、平原等,使電磁波不再以單一方式和路徑傳播而產(chǎn)生復(fù)雜的折射、散射、透射,因此難以建立一個(gè)模型實(shí)現(xiàn)對(duì)不同場(chǎng)景下特定地理位置的實(shí)際平均信號(hào)接收功率(RSRP)進(jìn)行準(zhǔn)確預(yù)測(cè)。
針對(duì)不同頻段選擇合適的無(wú)線傳播模型,有助于5G通信系統(tǒng)的空口規(guī)劃和硬件選型,使工程師預(yù)測(cè)特定站址在實(shí)際環(huán)境下的傳播損耗,為網(wǎng)絡(luò)規(guī)劃及優(yōu)化奠定基礎(chǔ)[1]。在無(wú)線網(wǎng)絡(luò)規(guī)劃工程中, 傳播模型預(yù)測(cè)傳播損耗的準(zhǔn)確性從根本上決定了無(wú)線網(wǎng)絡(luò)規(guī)劃的合理性[2-3]?,F(xiàn)有無(wú)線傳播模型一般可分為:經(jīng)驗(yàn)?zāi)P汀⒗碚撃P秃透倪M(jìn)型經(jīng)驗(yàn)?zāi)P蚚4]。經(jīng)驗(yàn)?zāi)P涂蓮慕?jīng)驗(yàn)數(shù)據(jù)中獲取固定的擬合公式,典型模型有Cost 231-Hata[5-6]、Okumura[7]等。理論模型主要根據(jù)電磁波傳播理論,考慮電磁波在空間中的反射、繞射、折射等進(jìn)行損耗計(jì)算,比較有代表性的是Volcano模型[8]。改進(jìn)型經(jīng)驗(yàn)?zāi)P屯ㄟ^(guò)在擬合公式中引入更多參數(shù)從而為更細(xì)分類的場(chǎng)景提供計(jì)算模型,典型的有Standard Propagation Model(SPM)[9]。
經(jīng)典計(jì)算方法在處理復(fù)雜數(shù)據(jù)和捕獲特征之間的內(nèi)在聯(lián)系方面還存在困難。近年來(lái),隨著機(jī)器學(xué)習(xí)的發(fā)展,大數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)技術(shù)獲得了長(zhǎng)足進(jìn)步,并且在語(yǔ)音識(shí)別[10]、圖形圖像處理[11-13]、自然語(yǔ)言處理[14]和模式識(shí)別 [15-16]領(lǐng)域獲得了不錯(cuò)效果。正是因?yàn)樵趹?yīng)用過(guò)程中的高實(shí)用性以及低復(fù)雜性使其與無(wú)線通信的緊密結(jié)合成為可能。
為了快速準(zhǔn)確實(shí)現(xiàn)無(wú)線傳播模型的預(yù)測(cè)效果,提高新環(huán)境下RSRP精度的準(zhǔn)確預(yù)測(cè),本文構(gòu)建了一種基于集成學(xué)習(xí)方法極端梯度提升(XGBoost)的無(wú)線信號(hào)預(yù)測(cè)模型。本文運(yùn)用數(shù)據(jù)清洗、特征設(shè)計(jì)和選擇方法獲取約38萬(wàn)條數(shù)據(jù)進(jìn)行模型訓(xùn)練,選取10個(gè)相關(guān)指標(biāo)作為參數(shù)特征。然后通過(guò)對(duì)特征的編碼、歸一化操作,將特征融合到XGBoost模型中進(jìn)行訓(xùn)練。該模型采用5折交叉驗(yàn)證對(duì)模型評(píng)估并優(yōu)化參數(shù),最后調(diào)用模型參數(shù)預(yù)測(cè)新小區(qū)下的RSRP。在相同數(shù)據(jù)集下,與線性回歸方法、長(zhǎng)短記憶網(wǎng)絡(luò)(LSTM)方法相比,該模型的擬合效果和預(yù)測(cè)性能整體較好,魯棒性更強(qiáng)。
1 集成學(xué)習(xí)方法XGBoost
由集成學(xué)習(xí)方法可以推廣出XGBoost的預(yù)測(cè)模型[17],如式(1)所示。
2.2 特征工程
本文選擇決策樹搜索算法用于特征產(chǎn)生過(guò)程[18],主要步驟如下:首先構(gòu)建根節(jié)點(diǎn),將從原始數(shù)據(jù)集提取出的所有特征放在根節(jié)點(diǎn),選出一個(gè)最優(yōu)特征;然后根據(jù)選中的特征將原始數(shù)據(jù)集分成子集,使得每一個(gè)子集得到最好的結(jié)果。此時(shí),如果在子集中能夠獲得較好結(jié)果,就將子集分到相應(yīng)的葉子節(jié)點(diǎn)上去。本文選擇的特征參數(shù)如表1所示。
對(duì)原始數(shù)據(jù)集進(jìn)行異常值清洗,本文通過(guò)柵格(X,Y)上的地物類型索引(Clutter Index)與柵格(X,Y)上的建筑物高度(Building Height)的相互關(guān)系進(jìn)行第一步初步處理。表2中列舉了一部分異常數(shù)據(jù)值,小區(qū)發(fā)射機(jī)的一些屬性字段省略,例如當(dāng)?shù)匚锼饕秊?0時(shí),其對(duì)應(yīng)的建筑物高度應(yīng)該大于60m,則小于或等于60m的數(shù)據(jù)即為異常數(shù)據(jù)。
數(shù)據(jù)處理除上述方法外,本文通過(guò)觀察數(shù)據(jù)集發(fā)現(xiàn)同一個(gè)小區(qū)的發(fā)射機(jī)相關(guān)屬性信息大體一致,因此可以根據(jù)Altitude、Building Height、Clutter Index 3個(gè)特征先實(shí)現(xiàn)分組再進(jìn)行數(shù)據(jù)合并,同時(shí)對(duì)相應(yīng)的RSRP與Distance取其均值。本文將加粗標(biāo)示的數(shù)據(jù)進(jìn)行合并操作,如表3所示。
2.3 模型框架與構(gòu)建
在無(wú)線信號(hào)傳播過(guò)程中,站點(diǎn)工程參數(shù)和目標(biāo)地理環(huán)境等因素對(duì)信號(hào)接收強(qiáng)弱有很大影響。為了更好地?cái)M合不同特征參數(shù)與RSRP之間的關(guān)系,尋找設(shè)計(jì)合理的特征預(yù)測(cè)新環(huán)境下的RSRP,本文搭建了基于XGBoost的算法模型。該算法在每一輪訓(xùn)練結(jié)束后,會(huì)降低被正確分類的訓(xùn)練樣本權(quán)重,增大分類錯(cuò)誤的樣本權(quán)重。多次訓(xùn)練后,一些被錯(cuò)誤分類的訓(xùn)練樣本會(huì)獲得更多關(guān)注,而正確的訓(xùn)練樣本權(quán)重趨近于0,得到多個(gè)簡(jiǎn)單的分類器,通過(guò)對(duì)這些分類器進(jìn)行組合,得到一個(gè)最終模型。
考慮到輸入特征數(shù)據(jù)的度量標(biāo)準(zhǔn)不統(tǒng)一,本文使用最大—最小標(biāo)準(zhǔn)化對(duì)原始數(shù)據(jù)進(jìn)行線性變換,如式(12)所示。
其中,minA和maxA分別是屬性A的最大值、最小值,x是A的一個(gè)原始值,通過(guò)最大—最小標(biāo)準(zhǔn)化映射到區(qū)間[0, 1]的值為[x]。
本文算法流程如圖2所示。首先根據(jù)地物類型名稱編號(hào)的含義清洗掉200萬(wàn)條數(shù)據(jù),再通過(guò)對(duì)格柵上的海拔高度(Alitude)、小區(qū)站點(diǎn)格柵的地物類索引(Clutter_Index)、格柵上建筑物高度(Building_Height)3個(gè)條件進(jìn)行分組合并數(shù)據(jù),從而得到最終訓(xùn)練數(shù)據(jù)集38萬(wàn)條。然后選取工程參數(shù)、地圖數(shù)據(jù)和兩者計(jì)算的距離共8個(gè)指標(biāo)作為特征,將兩個(gè)地物類型索引進(jìn)行單熱編碼后融合所有特征放入XGBoost模型進(jìn)行訓(xùn)練預(yù)測(cè)。并且,使用5折交叉驗(yàn)證優(yōu)化模型參數(shù):先選擇較高的學(xué)習(xí)速率(Learning Rate),再選擇對(duì)應(yīng)于此學(xué)習(xí)速率的理想決策樹數(shù)量。XGBoost有一個(gè)很有用的函數(shù)“cv”,該函數(shù)可以在每一次迭代中使用交叉驗(yàn)證,并返回理想的決策樹數(shù)量。對(duì)于給定的學(xué)習(xí)速率和決策樹數(shù)量,進(jìn)行決策樹特定參數(shù)調(diào)優(yōu)(max_depth, min_child_weight, gamma, subsample, colsample_bytree)。在確定一棵樹的過(guò)程中,可以選擇不同參數(shù),進(jìn)行xgboost的正則化參數(shù)調(diào)優(yōu)(lambda, alpha)。這些參數(shù)可以降低模型復(fù)雜度,從而提高模型表現(xiàn),最后降低學(xué)習(xí)速率,確定理想?yún)?shù)。最終參數(shù)為樹的深度、學(xué)習(xí)速率、迭代次數(shù)和損失函數(shù)(max_depth=6,learning_rate=0.01,n_estimators=160,objective=“reg:logistic”)。在新的小區(qū)環(huán)境下可以調(diào)用保存的模型直接預(yù)測(cè)RSRP值。
2.4 實(shí)驗(yàn)結(jié)果與分析
本文數(shù)據(jù)集需要先自行處理和劃分,然后將其應(yīng)用于算法模型訓(xùn)練及預(yù)測(cè)。最終清洗得到38萬(wàn)條數(shù)據(jù),對(duì)其進(jìn)行可視化,結(jié)果如表4所示??梢钥闯?,距離的標(biāo)準(zhǔn)差最大,距離值震蕩最大。每個(gè)小區(qū)內(nèi)的參數(shù)大多數(shù)都相同,不同小區(qū)數(shù)據(jù)集之間才會(huì)有很大差異,因此通過(guò)觀察這些參數(shù)特征,直觀上距離是主要影響因素。本文將在兩個(gè)新的小區(qū)112501和115001預(yù)測(cè)RSRP,編號(hào)112501小區(qū)測(cè)試集有4 548個(gè)樣本,編號(hào)115001小區(qū)測(cè)試集4 463個(gè)樣本。
本文基于XGBoost算法模型的特征提取如圖3所示。圖中f0~f9代表依次輸入到表中的特征參數(shù)(如表4所示),條形圖上的數(shù)據(jù)代表重要特征個(gè)數(shù)。由圖3可以看出,距離(Distance)是影響RSRP預(yù)測(cè)的主要因素,這與當(dāng)初預(yù)想的相同。此外,兩個(gè)小區(qū)預(yù)測(cè)后表現(xiàn)的特征重要性先后順序沒(méi)變,可以看出本文模型較穩(wěn)定,不會(huì)劇烈變化,由此可以推斷該模型泛化能力和準(zhǔn)確率均較好。
為驗(yàn)證基于XGBoost的無(wú)線信號(hào)預(yù)測(cè)模型有更好的泛化性能和在預(yù)測(cè)結(jié)果上的優(yōu)勢(shì),本文采用線性回歸[19]和基于LSTM方法[20]進(jìn)行對(duì)比。線性回歸就是擬合一個(gè)線性函數(shù),傳統(tǒng)的線性回歸會(huì)受因子多樣性和不確定性影響,大量數(shù)據(jù)下表現(xiàn)不佳。而LSTM可以模擬數(shù)據(jù)之間的依賴關(guān)系,本文特征之間沒(méi)有特別的時(shí)序關(guān)系,故效果會(huì)存在局限。本文在清洗出的相同數(shù)據(jù)集上進(jìn)行訓(xùn)練測(cè)試,在表4中對(duì)比了LSTM、線性回歸、本文使用的XGBoost模型3種方法的RMSE。結(jié)果表明,本文使用的XGBoost在不同交叉驗(yàn)證迭代上的訓(xùn)練集的RMSE均最優(yōu)。本文XGBoost在所有網(wǎng)絡(luò)結(jié)構(gòu)中表現(xiàn)最好,因?yàn)楸疚木W(wǎng)絡(luò)結(jié)構(gòu)能夠更好地決策出比較重要的特征,懲罰選取的相對(duì)次要的特征參數(shù)。
3 結(jié)語(yǔ)
不同環(huán)境因素下信號(hào)會(huì)受到相應(yīng)干擾,本文算法模型能夠合理利用選擇的特征預(yù)測(cè)RSRP并減少干擾,所使用的特征和輸出數(shù)據(jù)有一定可靠性。并且,本文構(gòu)建的基于XGBoost的無(wú)線信號(hào)預(yù)測(cè)模型,在與LSTM和線性回歸方法的比較中表現(xiàn)最優(yōu)。通過(guò)對(duì)數(shù)據(jù)可視化和實(shí)驗(yàn)結(jié)果的特征重要性分析發(fā)現(xiàn),該模型能夠較為精準(zhǔn)并穩(wěn)定地預(yù)測(cè)出各小區(qū)的RSRP。同時(shí),本文研究還存在一些不足和改進(jìn)空間:數(shù)據(jù)合并時(shí)對(duì)Distance和RSRP取均值可能影響差值較大的數(shù)據(jù);模型還能進(jìn)一步優(yōu)化,模型融合和距離單調(diào)性都是需要探索的方向,因此未來(lái)可考慮融合規(guī)則和特征的特性。
參考文獻(xiàn):
[1] 楊光, 陳錦浩. 5G移動(dòng)通信系統(tǒng)的傳播模型研究[J]. 移動(dòng)通信, 2018, 42(10): 32-37.
[2] 韋再雪,張濤,楊大成. 一種無(wú)線網(wǎng)絡(luò)規(guī)劃中的雙斜率傳播模型校正算法[J]. 電子與信息學(xué)報(bào), 2007, 29(10): 132-135.
[3] 朱江,王婷婷,宋永輝,等. 無(wú)線網(wǎng)絡(luò)中基于深度Q學(xué)習(xí)的傳輸調(diào)度方案[J]. 通信學(xué)報(bào),2018(4):35-44.
[4] 劉欣. 基于GSM無(wú)線網(wǎng)絡(luò)傳播模型的基站發(fā)射功率開場(chǎng)測(cè)試研究[J]. 中國(guó)無(wú)線電, 2014(10): 54-55.
[5] VERMA R, SAINI G. Statistical tuning of Cost-231 Hata model at 1.8 GHz over dense urban areas of Ghaziabad[C]. New Delhi: International Conference on Computing for Sustainable Global Development,2016.
[6] WU H, ZHANG N, WEI Z, et al. Content-aware cooperative transmission in HetNets with consideration of base station height[J]. IEEE Transactions on Vehicular Technology, 2018,67(7): 6048-6062.
[7] 張延華, 段占云, 沈蘭蓀, 等. Okumura-Hata傳播預(yù)測(cè)模型的可視化仿真研究[J].電波科學(xué)學(xué)報(bào), 2001,16(1): 89-92.
[8] 方明. Vlcano模型的分析及應(yīng)用[D].上海:復(fù)旦大學(xué), 2008.
[9] LI H, WEI F, FENG X, et al. On improvement to the Shock Propagation Model (SPM) applied to interplanetary shock transit time forecasting[J]. Journal of Geophysical Research Space Physics, 2008, 113(A9):A09101.
[10] HOSHIMI M, NIYADA K. Method and apparatus for speech recognition[J]. Journal of the Acoustical Society of America,2018,109(3): 864.
[11] 白琮, 黃玲, 陳佳楠, 等. 面向大規(guī)模圖像分類的深度卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化[J].軟件學(xué)報(bào),2018,29(4):137-146.
[12] 高如新, 李雪穎. 雙邊濾波的改進(jìn)高光去除[J].中國(guó)圖象圖形學(xué)報(bào),2018, 23(1):9-17.
[13] PASQUINI C, BOATO G, BOHME R. Teaching digital signal processing with a challenge on image forensics [SP Education][J]. IEEE Signal Processing Magazine, 2019, 36(2): 101-109.
[14] ONE K,KJELL K,GARCIA D, et al. Semantic measures: Using natural language processing to measure, differentiate, and describe psychological constructs[J]. Psychological Methods, 2018, 24(1): 92-115.
[15] SELVACHANDRAN G, GARG H, ALAROUD M, et al. Similarity measure of complex vague soft sets and its application to pattern recognition[J]. International Journal of Fuzzy Systems,2018, 20(6): 1901-1914.
[16] 聶棟棟, 賀悅悅, 馬勤勇. 基于PCA_LDA和協(xié)同表示分類的人臉識(shí)別算法[J]. 燕山大學(xué)學(xué)報(bào), 2019,43(2):86-91.
[17] CHEN T, HE T, BENESTY M. XGBoost: extreme gradient boosting[R]. Package Version 0.4-2,2015,.
[18] 陳輝林, 夏道勛. 基于CART決策樹數(shù)據(jù)挖掘算法的應(yīng)用研究[J]. 煤炭技術(shù), 2011, 30(10): 164-166.
[19] 喻一凡, 曾道建, 李峰, 等. 線性回歸的渡船精準(zhǔn)定位方法研究[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2018, 39(7): 234-241.
[20] HOCHREITER S,SCHMIDHUBER J. Long short-term memory[J]. Neural computation, 1997, 9(8): 1735-1780.
(責(zé)任編輯:孫 娟)