孫天宇 周婷
摘要:使用來自于江蘇移動的實時網(wǎng)絡側(cè)數(shù)據(jù)來分析大氣波導干擾(ADI)的特征,同時結(jié)合網(wǎng)絡側(cè)數(shù)據(jù)與氣象數(shù)據(jù),使用兩種機器學習方法對ADI強度進行預測,并相互比較。仿真結(jié)果表明:使用機器學習可以獲得不錯的ADI預測效果,當訓練樣本達到40 000條時,準確率與召回率分別可以達到72%與75%以上。
關鍵詞: 時分復用長期演進(TD-LTE);大氣波導;機器學習;干擾預測
Abstract: In this paper, the big data of network-side from the current operated network of China Mobile is used to analyze the characteristics of atmospheric duct interference (ADI). Combining network side data with meteorological data, two machine learning methods are used to predict the ADI intensity, and are compared with each other. The simulation results show that machine learning can achieve good ADI prediction effect. When the training sample reaches 40 000, the accuracy and recall rate can reach 72% and 75% respectively.
Key words: time division-long term evolution (TD-LTE); atmospheric ducts; machine learning; interference prediction
大氣波導是一種發(fā)生在低層大氣中的物理現(xiàn)象,在大氣波導中電磁波反射系數(shù)隨高度呈現(xiàn)負梯度,使得電磁信號被約束在大氣波導層內(nèi)傳播,并比在非波導層中經(jīng)歷更少的衰減。1963年,BEAN和DUTTON [1]首先設定了大氣電磁反射率的公式并證明了大氣波導的存在。
文獻[2]中作者指出波導層可能導致一系列的影響,比如:傳輸?shù)膿p失、探空雷達的高度誤差等。在雷達系統(tǒng)中,波導層的存在會減少探測范圍[3]。表面波導會導致氣象雷達自動降雨率計算的錯誤[4]。在文獻[5]中,ORAIZI和HOSSEINZADEH研究了大氣波導對于正交頻分復用(OFDM)數(shù)字廣播系統(tǒng)的影響,他們論證了大氣波導會增加電磁波的強度從而產(chǎn)生干擾并且降低頻率復用距離。
一些跡象表明:大氣波導會在現(xiàn)行的大規(guī)模時分雙工(TDD)網(wǎng)絡中造成干擾,譬如時分同步碼分多址(TD-SCDMA)、時分復用長期演進(TD-LTE)甚至5G的TDD網(wǎng)絡。這是因為對于TDD系統(tǒng)而言,上行和下行傳輸使用的是相同的頻率。來自其他基站的下行信號可能對本地的上行信號產(chǎn)生同頻干擾(CCI),也就是所謂的上下行干擾。所以,TDD網(wǎng)絡必須在上下行信號轉(zhuǎn)換之間設計出一段空白時隙作為保護時隙(GP)來避免上下行干擾。但是在大氣波導發(fā)生的情況下,來自遠端基站的下行信號傳播時較正常情況下會經(jīng)歷很少的衰減,從而干擾本地的上行信號。我們用ADI來表示這種大氣波導干擾。目前在業(yè)界CCI消除技術已經(jīng)被廣泛的研究,而最廣泛使用的技術就是小區(qū)內(nèi)干擾消除協(xié)調(diào)(ICIC)。文獻[6]中作者提出了一種基于時域ICIC的功率控制方法。文獻[7]中作者提出一種機制,可以有效消除全球微波互聯(lián)接入(WiMAX)系統(tǒng)中小區(qū)邊界用戶的CCI。但上述這些方法大都側(cè)重于用戶側(cè)的CCI消除,并不適用于ADI的場景。TDD系統(tǒng)中的大氣波導干擾吸引了來自學術和工業(yè)界的大量關注。通過來自中國移動的實時網(wǎng)絡側(cè)數(shù)據(jù),我們發(fā)現(xiàn)在江蘇省徐州市,ADI干擾最嚴重的情況下,高達27.6%的小區(qū)收到的上行干擾大于-90 dBm,此時干擾完全淹沒了有用信號導致小區(qū)內(nèi)無法正常通信。ADI嚴重影響了TD-LTE系統(tǒng)的性能,因此ADI問題亟需被分析與解決。
目前業(yè)界存在2種主流的方法來檢測與估計大氣波導:(1)使用探空雷達測量溫度、氣壓等物理量并根據(jù)公式來計算修正后的大氣電磁折射率[2];(2)使用海面雜波雷達預測海洋電磁折射扇區(qū)面[8]。方法1測量難度大而且花費較高,而方法2只適用于海洋場景。此外,這些方法只關注了大氣波導本身,一些對于ADI關鍵問題的解答,譬如ADI的發(fā)生時間或如何鑒別及預測ADI,依舊沒有被解答或被深入研究。除了對干擾的分析,對于運營商來說,預測ADI的發(fā)生以提高網(wǎng)絡性能是十分重要的。
在這篇文章中,我們創(chuàng)造性地使用來自運營商的實時網(wǎng)絡側(cè)數(shù)據(jù)來進行ADI預測。由于ADI產(chǎn)生的隨機性,我們無法從幀結(jié)構(gòu)上解決。因此,成功地預測ADI的發(fā)生是解決大氣波導干擾的關鍵。ADI干擾產(chǎn)生的原因復雜繁多,傳統(tǒng)的建模方法并不適用。所以,我們結(jié)合了網(wǎng)絡側(cè)數(shù)據(jù)與氣象數(shù)據(jù)來進行預測,并使用了支持向量機(SVM),通過將干擾問題轉(zhuǎn)化為一個分類問題實現(xiàn)預測。此外,考慮到關聯(lián)特征與預測結(jié)果之間的相關性,我們還使用因子分解機(FM)算法,將干擾問題轉(zhuǎn)化為一個線性加二階組合特征的回歸問題。該工作填補了大規(guī)模TDD網(wǎng)絡中ADI研究的空白,且?guī)椭苿舆\營商在大氣波導場景下提高網(wǎng)絡性能。
1 ADI的概述
1.1 大氣波導現(xiàn)象
圖1展示了幾種異常的大氣狀況。
1.2 ADI對TD-LTE網(wǎng)絡的影響
在ADI的場景下,信號的傳播會經(jīng)歷更少的衰減。從而,來自于超過GP最大保護距離外基站的信號有可能對本地的上行信號造成同頻干擾。目前,業(yè)界對于TDD系統(tǒng)同頻干擾的研究大都集中在用戶側(cè)的下行同頻干擾消除。這些技術是建立在準確的信道估計或鄰近基站的協(xié)同的基礎上,并不適用于ADI的場景。同時,在無線傳感網(wǎng)中廣泛使用的定位技術[9]也不適用于ADI場景,這是因為TDD系統(tǒng)無法將遠端基站與本地用戶的信號分離開來,從而我們就無法根據(jù)接收信號的強度來確定干擾源。
圖2展示了大氣波導存在時上下行信號的碰撞情況,來自遠端基站的下行信號傳輸超過了GP對應的最大距離從而有部分與本地的上行信號形成重疊,產(chǎn)生同頻干擾。ADI對大規(guī)模組網(wǎng)的TD-LTE網(wǎng)絡會造成嚴重的影響。根據(jù)中國移動的報告,在2016年8月25日,在江蘇省徐州市,高達27.6%的小區(qū)就曾受到了功率大于-90 dBm的ADI干擾,在這種情況下有用信號完全被干擾淹沒,小區(qū)的正常通信受到阻礙。因此,有效地預測ADI的發(fā)生具有很高的研究價值。
1.3 TD-LTE網(wǎng)絡中大氣波導干擾的 特征
我們使用來自江蘇移動2016年5月16日的網(wǎng)絡側(cè)數(shù)據(jù)繪制了干擾地圖。圖3的a)、b)、c)和d)分別展示1:00 am、7:00 am、13:00 pm和19:00 pm時刻全江蘇省的ADI干擾情況。
在圖3a)中,同頻干擾正在逐漸增強,并在圖3b)中達到最強,之后在圖3c)、d)中干擾水平持續(xù)降低,并保持穩(wěn)定,低于-90 dBm。這些跡象都表明在1:00 am~7:00 am這段時間內(nèi),ADI干擾現(xiàn)象很有可能發(fā)生。從氣象學上可以解釋為:在 午夜至清晨的這段時間內(nèi),地面的溫度下降較快,地表的低層大氣容易產(chǎn)生一個逆溫層,即隨著高度的上升大氣溫度也是上升的。根據(jù)公式(1),修正折射率[M]會在該范圍內(nèi)具有一個負梯度,從而導致大氣波導層的產(chǎn)生。
此外在圖3b)中的中北部受到的干擾強度會大于南部??紤]到江蘇省的實際地理情況,中北部農(nóng)村較多,地勢開闊平坦,利于波導層的展開;而在城市之中,高樓較多,干擾信號易被阻斷,從而干擾的水平會降低。由此我們可以得出:ADI具有隨時間變化的特點,而且易于發(fā)生在凌晨到清晨這段時間;鄉(xiāng)村地區(qū)通常有更大的概率受到ADI影響。
圖4展示的是2016年5月16日2:00 am的干擾情況。我們可以清楚發(fā)現(xiàn)1、2和3號區(qū)域的干擾都很強。與1:00 am時的情況相比,這3個地區(qū)的干擾明顯都同時增強了。此外圖5給出了這3個地區(qū)的受干擾的基站數(shù)量在基站扇區(qū)角上的分布。我們可以明顯發(fā)現(xiàn):區(qū)域1的干擾來自于120°和240°的方向,120°正好分別指向區(qū)域2和區(qū)域3;而區(qū)域2和區(qū)域3的干擾主要來自240°方向,恰好是區(qū)域1的方向。至于區(qū)域1來自于240°方向的干擾,極有可能來源于江蘇省的西北方向的省份,譬如安徽與河南。圖4和圖5說明了ADI的方向特性以及互易性質(zhì)。
上述的種種現(xiàn)象表明:ADI干擾的發(fā)生與氣象數(shù)據(jù)和網(wǎng)絡側(cè)數(shù)據(jù)是存在著關聯(lián)性的,因此我們也可以使用這些數(shù)據(jù)來對ADI的發(fā)生進行有效預測。
2 基于機器學習的ADI 預測方法
2.1 基于SVM的分類器訓練
SVM是一種二分類的機器學習算法[10]。分類器意味著當待分類數(shù)據(jù)輸入時,我們可以自動判別它屬于哪一類。在我們的問題中,輸入是處理過的基站側(cè)數(shù)據(jù)與氣象數(shù)據(jù);而輸出是1或者-1,分別代表基站是否會被ADI影響。SVM的主要思想是在樣本空間中尋找一個魯棒性最好的劃分超平面,使得正負樣本間的距離最大。劃分超平面可以用[ωTx+b=0]表示。假設我們有訓練樣本集[D=x1,y1,x2,y2,…xN,yN]。其中,[yi∈1,-1]是我們訓練樣本的標簽。在實際中我們根據(jù)運營商的需求設定閾值,將干擾大于閾值的樣本標記為1,代表此基站受到ADI的影響;將干擾小于閾值的樣本標記為-1,代表正常的基站。[xi]是樣本的特征,它由基站側(cè)數(shù)據(jù)與氣象數(shù)據(jù)通過處理生成。我們使用訓練數(shù)據(jù)集訓練出[ω]和[b],從而獲得一個線性分類器:[fx=signωTx+b]。
其中,[C]是常數(shù),[Ci=1mmax1-yiωTxi+b,02]是正則項,我們使用它來避免過擬合與線性不可分的情況。公式(3)是一個二次規(guī)劃的優(yōu)化問題,求解它的時間復雜度是[On2],當訓練樣本量過大時會消耗大量的訓練時間。文獻[11]中,作者提出了一種最小序列優(yōu)化的方法,避免了對海森矩陣求逆;但該方法側(cè)重于減少空間復雜度,對時間復雜度的優(yōu)化效果不大。利用文獻[12]中提出的乘子交替法(ADMM)框架可以分布式訓練,我們可以將時間復雜度降低為[On2k2],其中k為訓練數(shù)據(jù)的分區(qū)數(shù)。
2.2 基于因子分解機的回歸預測
SVM是一種廣義線性模型。顯然,在線性模型下,樣本中的特征分別單獨對最后的標簽形成影響,相互之間并不形成關聯(lián)。而由公式(1)、(2)我們可以發(fā)現(xiàn):ADI的形成受多種氣象特征相互影響,即關聯(lián)特征與標簽之間是存在正相相關性的。因此,引入兩個特征的組合是非常有意義的。
目前主要有2種手段得到組合特征:(1)通過數(shù)據(jù)分析加人工構(gòu)造來進行人工特征工程;(2)通過模型做組合特征的學習。方法1需要專家知識,在我們的問題中并不適用;而方法2常用的模型有因子分解機(FM)、神經(jīng)網(wǎng)絡等。
然而在ADI問題中,存在著許多類別變量,如基站扇區(qū)角、天線下傾角等。這些一維的特征經(jīng)過One-Hot編碼后維數(shù)會大大增加,使得訓練數(shù)據(jù)變得稀疏。在這種情況下,只有當[xixj]同時不為0才能有效,從而學習到的[ωij]不是充分統(tǒng)計量結(jié)果,會導致[ωij]不準確。
這相當于對我們使用[k]個描述特征的因子[vi=vi,1,…,vi,k],來表示每一維特征分量[xi]。這樣做的好處是:所有滿足存在某個[j≠i],使得[xixj≠0]的樣本都可以用來學習隱向量[vi],在很大程度上避免了數(shù)據(jù)稀疏造成參數(shù)估計不準確的影響。
3 仿真結(jié)果
3.1 仿真環(huán)境
我們通過仿真來驗證和比較兩種機器學習預測算法的性能,仿真環(huán)境配置見表1。
3.2 預測結(jié)果
仿真在不同大小的訓練集下進行,樣本數(shù)分別設為2 000、4 000、10 000、20 000、40 000。每次訓練完,我們按照訓練集20%的大小選取測試集進行測試。我們使用了K-近鄰[14](KNN)算法作為比較基準。在KNN算法中,測試樣本的標簽由樣本空間中離它最近的k個樣本投票決定。顯然KNN是一種懶惰的方法,它沒有任何的學習過程,只是存儲數(shù)據(jù)并查找。當我們不使用任何學習策略的時候,這顯然是一種最為本能的預估方法。
其中,[nall]表示總測試樣本數(shù),[n1all]表示標記為1,也就是被干擾的測試樣本數(shù)。[ncorrect]和[n1correct]分別表示總測試樣本和標記為1的樣本中被判斷正確的樣本數(shù)。召回率反映了有多少被干擾的基站會被成功預測出來,對于運營商提高用戶體驗來說,是一個重要的指標。
圖6a)、b)分別展示了3種方法在準確率與召回率上的仿真結(jié)果。當樣本數(shù)較少時,KNN的性能要大大好于SVM與FM,這是因為訓練數(shù)據(jù)集不充分導致SVM與FM學習不充分。而隨著訓練樣本數(shù)的提升,SVM與FM性能提升迅速,因為它們充分學習了訓練數(shù)據(jù)中的特征;而KNN因為本身不具備學習能力,性能增長放緩。我們可以發(fā)現(xiàn):當訓練樣本數(shù)大于18 000,F(xiàn)M、SVM的性能都要大大優(yōu)于KNN。其次,F(xiàn)M的性能一直優(yōu)于SVM,這正是由于FM使用了關聯(lián)特征,提高了自身的泛化性能。
4 結(jié)束語
在本文中,我們分析與預測了大規(guī)模組網(wǎng)TD-LTE系統(tǒng)中的ADI問題。不同于傳統(tǒng)氣象學中大氣波導的檢測方法,我們使用了機器學習并結(jié)合運營商提供的實時網(wǎng)絡側(cè)數(shù)據(jù)。同時,我們也給出了ADI在物理幀結(jié)構(gòu)上的成因,并利用干擾地圖等分析手段得出了ADI在發(fā)生時段與空間分布上的一些特征。
我們首先提出了一種基于SVM二元分類器的ADI預測方法,創(chuàng)新性地結(jié)合了實時網(wǎng)絡側(cè)大數(shù)據(jù)與氣象數(shù)據(jù)。仿真結(jié)果表明:隨著訓練樣本數(shù)的增長,準確率與召回率都會增長。當訓練樣本數(shù)到達40 000時,SVM的準確率與召回率分別達到72%與75.5%,均顯著好于KNN。
在此基礎上,我們提出了一種基于FM回歸預測ADI強度的方法。在線性回歸的基礎上引入了關聯(lián)特征,從而提高泛化性能。仿真結(jié)果表明:當訓練樣本數(shù)到達40 000時,F(xiàn)M的準確率與召回率分別達到73.6%與76.4%,要優(yōu)于SVM。
我們將這篇文章作為ADI研究的一個出發(fā)點。在未來的工作中仍然有很多的問題亟待解決:(1)ADI的統(tǒng)計特征與如何對它建模值得研究;(2)如何精確定位ADI的干擾源?目前來自于運營商的數(shù)據(jù)在扇區(qū)角方面還比較粗糙,只包含3個方向的信息,通過場地測量可以獲得更為精確的扇區(qū)角信息從而幫助進行ADI干擾源的定位。
致謝
本文的研究工作和完稿得到了江蘇移動研究中心的龔淑蕾和上海無線通信研究中心的張武雄與許暉的幫助和支持,我們表示衷心感謝。
參考文獻
[1] BEAN B R, DUTTON E, FRANK V, et al. A Radio-Meteorological Study[C]// Antennas and Propagation Society International Symposium. USA:IEEE, 1963:56-61
[2] MENTES S S, KAYMAZ Z. Investigation of Surface Duct Conditions over Istanbul, Turkey [J]. Journal of Applied Meteorology and Climatology, 2007, 46(3): 318-337.DOI: 10.1175/JAM2452.1
[3] ANDERSON K D. Radar Detection of Low-Altitude Targets in a Maritime Environment[J]. IEEE Transactions on Antennas and Propagation,1995, 43(6): 609-613.DOI: 10.1109/8.387177
[4] GERSTOFT P, ROGERS L T, HODGKISS W S, et al. Refractivity from Clutter Using Global Environmental Parameters[C]//IEEE 2001 International Geoscience and Remote Sensing Symposium. USA:IEEE, 2001,6:2746-2748
[5] ORAIZI H, HOSSEINZADEH S. The Effect of Atmospheric Ducton Modern OFDM-Based Digital Broadcasting Systems[C]//33rdEuropean Microwave Conference.USA:IEEE, 2003: 747-750. DOI: 10.1109/EUMA.2003.341061
[6] LU W, FAN Q, LI Z, et al. Power Control Based Time-Domain Inter-Cell Interference Coordination Scheme in DSCNs[C]//IEEE International Conference on Communications (ICC). IEEE: USA, 2016.DOI: 10.1109/ICC.2016.7511467
[7] XU W, SEZGINER S. Co-channel Interference Cancellation in Reuse-1 Deployments of WiMAX System[C]//IEEE Wireless Communications and Networking Conference (WCNC). USA: IEEE, 2012:342-346
[8] LI X H, HE Z S, HE J X, et al. Design of an Ocean Atmospheric Duct Signal Processor[C]// International Symposium on Intelligent Signal Processing and Communication Systems. USA:IEEE, 2010:1-4
[9] MAO G, ANDERSON B D O, FIDAN B. Path Loss Exponent Estimation for Wireless Sensor Network Localization[J].Computer Networks, 2007, 51(10): 2467-2483.DOI: 10.1016/j.comnet.2006.11.007
[10] BURGES S, VANDENBERGHE L.A Tutorial on Support Vector Machines for Pattern Recognition[J]. Data Mining and Knowledge Discovery, 1998, 2(1):121-167
[11] PLATT J. A Fast Algorithm for Training Support Vector Machines[J]. Journal of Information Technology, 1998, 2(5):1-28
[12] BOYD S, PARIKH N, CHU E, et al. Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers[J]. Foundations and Trends in Machine Learning, 2011, 3(1): 1-122
[13] RENDLE S. Factorization Machines with libFM[J]. Acm Transactions on Intelligent Systems & Technology, 2012, 3(3):1-22.DOI: 10.1145/2168752.2168771
[14] LAROSE D T. Discovering Knowledge in Data: An Introduction to Data Mining[M]. USA: Wiley-Interscience, 2004