李婷婷,辛雨桐,冉 鵬,曹 彪,楊 陽
(北京郵電大學(xué) 人工智能學(xué)院,北京 100876)
大規(guī)模天線技術(shù)是未來無線通信系統(tǒng)中的關(guān)鍵技術(shù)之一,具有高頻譜效率以及大容量鏈路等優(yōu)勢[1]。獲得這些優(yōu)勢的前提是具有向基站(BS)反饋較高的信道狀態(tài)信息(CSI)質(zhì)量。然而,大規(guī)模天線系統(tǒng)中由于天線數(shù)量很多,形成了龐大的CSI矩陣,導(dǎo)致無法在信道容量受限的條件下完整反饋CSI。
為了突破CSI反饋中的這一技術(shù)瓶頸,近年來基于深度學(xué)習(xí)的自編碼器獲得了廣泛關(guān)注[2-12]。東南大學(xué)金石教授團隊[2]最先提出CsiNet,驗證了其與傳統(tǒng)壓縮感知(Compress Sensing,CS)方案之間的巨大優(yōu)勢。以此為基礎(chǔ),該團隊又提出了CsiNet+并加入了信道傳輸量化的考量[3]?;贑siNet[2],大多數(shù)基于深度學(xué)習(xí)的后續(xù)方法利用更強大的深度學(xué)習(xí)塊構(gòu)建,以犧牲計算開銷來獲得更好的性能。CsiNet-LSTM[4]和Attention-CSI[5]引入了LSTM[6],顯著增加了計算開銷;DS-NLCsiNet[7]采用非本地阻塞提高其捕獲長程相關(guān)性的效率;CsiNet+[3]和DS-NLCsiNet[7]的計算開銷約比CsiNet[2]分別高6和2.5倍。近年來,一些降低復(fù)雜度的方法開始出現(xiàn),如JCNet[8]和BcsiNet[9],但它們的性能也有所下降。文獻[10]利用深度循環(huán)網(wǎng)絡(luò)來開發(fā)通道相關(guān)性。之后,CRNet[11]在網(wǎng)絡(luò)中使用了多分辨率架構(gòu),并強調(diào)了訓(xùn)練方案的重要性。此外,文獻[12]提出了ConvCsiNet,其中網(wǎng)絡(luò)基于卷積,同時也提出了ShuffleCsiNet,以使編碼器部分輕量化。然而,上述模型的性能還可以進一步提高,尤其是在戶外場景中。此外,在實際部署中,還需要考慮模型的參數(shù)量和泛化能力。
本文設(shè)計了一個名為Asy-CSINet的自編碼器網(wǎng)絡(luò),深入研究了解碼器的部分,并使用非對稱卷積塊[13]來進一步提高網(wǎng)絡(luò)性能。此外,使用深度可分離卷積來減輕編碼器端,從而保留網(wǎng)絡(luò)的基本結(jié)構(gòu)。在實際部署中,不同的壓縮比和不同的場景對應(yīng)不同的神經(jīng)網(wǎng)絡(luò)。還探索了多模型綜合集成的可能性,以進一步減少需要存儲在用戶設(shè)備中的參數(shù)數(shù)量。
本文的主要貢獻包括三方面:首先,提出了自編碼器框架Asy-CSINet。由于更深的解碼器端和非對稱卷積模塊的使用,戶外場景的性能得到了極大的提升。其次,在Asy-CSINet的基礎(chǔ)上,引入了一個算法裁剪模型Asy-CSINet-l,其性能雖然略有下降,但更適合用戶端。第三,討論了多速率融合方案和多場景融合方案,大大提高了網(wǎng)絡(luò)的泛化能力。
(1)
(2)
(3)
通過上述方法,雖然矩陣H的規(guī)模大大減小,但其傳輸開銷仍然很大,可以進一步壓縮。傳統(tǒng)的基于CS的方法在H是稀疏的假設(shè)下壓縮H。然而,該假設(shè)僅在發(fā)射天線數(shù)Nt→∞時成立,這在實際系統(tǒng)中是不可實現(xiàn)的。假設(shè)與實際系統(tǒng)之間的差距導(dǎo)致了性能問題。如果沒有這樣的假設(shè),基于深度學(xué)習(xí)的框架可以更好地工作。
本文忽略了CSI估計的過程,假設(shè)可以得到完美的CSI矩陣。一旦在用戶估計CSI矩陣H編碼器將H壓縮為長度為M的碼字,然后壓縮比可以表示為:
本節(jié)提出了一個名為Asy-CSINet的自動編碼器框架。此外,還提出了一種簡單的算法剪裁解決方案。最后介紹了多速率多模型集成策略。
深度學(xué)習(xí)在計算機視覺任務(wù)中顯示出巨大潛力。幸運的是,CSI矩陣可以看作是具有實部和虛部的兩通道圖像。基于此,提出的Asy-CSINet如圖1所示。所有方形卷積核的大小為3×3。在每個卷積層之后使用LeakyRelu和批量歸一化。與現(xiàn)有的基于深度學(xué)習(xí)的網(wǎng)絡(luò)相比,Asy-CSINet有兩個主要特點,如下所述。
2.1.1 非對稱卷積模塊的使用
Asy-CSINet的基本結(jié)構(gòu)由編碼器端和解碼器端的多個卷積層組成,同時避免使用全連接層。最直觀的想法是,如果可以加強卷積層的性能,整個網(wǎng)絡(luò)的性能就會得到相應(yīng)的提升。因此,提出了編碼非對稱卷積模塊(Encoding Asymmetric Convolution Block,EACB)和解碼非對稱卷積模塊(Decoding Asymmetric Convolution Block ,DACB)。每個EACB由一個非對稱卷積模塊和隨后的平均池化層組成,而每個DACB由一個上采樣層和一個隨后的非對稱卷積模塊組成。非對稱卷積模塊的主要思想是通過添加兩個條紋卷積來增強方形卷積核。如圖1所示,非對稱卷積模塊層的輸出是3個路徑的總和。在功能上,非對稱卷積模塊中的條帶卷積是為了加強整體網(wǎng)絡(luò)框架,一些實驗已經(jīng)驗證了其在計算機視覺任務(wù)中的優(yōu)越性[13],此處在無線通信領(lǐng)域使用EACB。
非對稱卷積模塊的另一個優(yōu)點是它只增加了訓(xùn)練階段的參數(shù)數(shù)量,在部署階段,它可以等效地轉(zhuǎn)換為標準的卷積結(jié)構(gòu),這意味著可以使用非對稱卷積模塊而不需要額外的開銷。從非對稱卷積模塊到標準卷積的轉(zhuǎn)換依賴于卷積的可加性。對于以I∈RU×V×C作為輸入和O∈RR×T×D作為輸出的卷積運算,需要D個卷積核F∈RH×W×C。那么O的第j個通道是:
(4)
(5)
式中,X表示對應(yīng)位置的滑動窗口。式(5)說明了卷積的一個重要性質(zhì):如果多個卷積核共享同一個滑動窗口X,當它們以相同的步幅應(yīng)用于相同的輸入以生成具有相同分辨率的輸出時,它們的輸出之和等于單個卷積算子使用內(nèi)核的總和,即便使用的內(nèi)核大小不同,如等式所示:
I*F(1)+I*F(2)=I*[F(1)⊕F(2)]。
(6)
非對稱卷積模塊中的3個并行卷積核共享同一個滑動窗口,這意味著它可以通過式(6)進行轉(zhuǎn)換。更多的轉(zhuǎn)換細節(jié)可以在文獻[13]中找到。
2.1.2 加深的網(wǎng)絡(luò)編碼器結(jié)構(gòu)
在室內(nèi)場景中,CSI矩陣的非零點很少,而在室外場景中,由于非零點變得分散和模糊,CSI矩陣更加復(fù)雜。一般來說,更多的特征總是需要更大的網(wǎng)絡(luò)來豐富計算機視覺領(lǐng)域的表達能力。但是在編碼器端,參數(shù)太多是不可接受的,難以部署;解碼端存儲在具有足夠計算能力的基站中。遷移計算機視覺領(lǐng)域的經(jīng)驗,增加了ConvCsiNet解碼端的深度。本文使用了5個DACB,輸出通道分別為512、512、256、128、8。值得注意的是,DACB中包含的上采樣操作會使特征圖的大小增大一倍,因此在第4個DACB之后運行了一個額外的平均池化層。此外,還將Refine-Block中卷積層的輸出通道更改為8、16、16、8,以便將更多有用的信息傳遞給后續(xù)層。
雖然本文提出的Asy-CSINet可以處理CSI壓縮和解壓縮問題,但實際部署必須考慮參數(shù)的量。在無線通信系統(tǒng)中,移動通信得到了廣泛的應(yīng)用,這意味著編碼器不能包含太多的參數(shù)。本文采用了一種簡潔的算法裁剪方法Asy-CSINet-l,受 MobileNet[14]的啟發(fā),使用深度可分離卷積來使編碼器更加輕量化。通過將EACB的非對稱卷積模塊替換為深度可分離卷積,編碼器端的參數(shù)數(shù)量顯著減少,同時保留了原始結(jié)構(gòu)。
本文也嘗試直接使用MobileNet來裁剪ACCsiNet的編碼器結(jié)構(gòu),即形成MobileNet-en。Asy-CSINet-l使用平均池化層來減小特征圖的大小,而對于MobileNet-en,使用步長為2的深度可分離卷積來達到相同的效果。
在實際的通信系統(tǒng)中,壓縮率可能會隨著環(huán)境的變化而變化。實驗中使用的壓縮率是16、32、64,這意味著用戶端需要為3個不同的壓縮率存儲3個不同的編碼器網(wǎng)絡(luò),導(dǎo)致實際中難以實現(xiàn)。為了處理這樣的問題,本文提出了一個名為Asy-CSINet-mr的多速率網(wǎng)絡(luò)。Asy-CSINet-l僅包含卷積層,前一個卷積將特征提取到高維通道,而最后一個卷積層根據(jù)壓縮率減少輸出維度。所以本文讓不同壓縮率的編碼器網(wǎng)絡(luò)共享前面卷積層的參數(shù),只有最后一個卷積層是分開的。該模型如圖2所示,3個并行輸出卷積層對應(yīng)3個壓縮率(16,32,64)。經(jīng)過網(wǎng)絡(luò)的公共部分后,進行壓縮率選擇,選擇某個輸出層。在基站端,由于其存儲空間大,不同的壓縮率對應(yīng)不同的解碼器網(wǎng)絡(luò),因此基站中可以存儲3個解碼器。
圖2 多速率集成模型架構(gòu)
在許多計算機視覺的任務(wù)中,一個深度神經(jīng)網(wǎng)絡(luò)可以同時處理多個數(shù)據(jù)。同樣,CSI矩陣在實際應(yīng)用中會隨著環(huán)境不斷變化,因此需要不斷切換壓縮和重構(gòu)模型,進一步地,探索了多場景集成的可能性。
為了公平地比較實驗結(jié)果,本文使用與CsiNet相同的數(shù)據(jù)集。所有通道矩陣均由COST 2100[15]生成。考慮2種典型場景,包括5.3 GHz的室內(nèi)場景和300 MHz的室外場景。在基站端,采用了Nt=32和Nc=1 024的均勻線性陣列模型。轉(zhuǎn)換為角延遲域后,僅保留前Nc=32行。實驗中使用的壓縮率為16、32和64。總共150 000個生成的CSI矩陣被分為訓(xùn)練、驗證和測試數(shù)據(jù)集,分別由100 000、30 000和20 000個樣本組成。
在訓(xùn)練階段,使用自適應(yīng)矩陣估計優(yōu)化器來更新可訓(xùn)練參數(shù)。均方誤差(Mean Squared Error,MSE)被計算為損失函數(shù)??傆?xùn)練輪次和每次的批次大小分別設(shè)置為500和200。受CRNet[5]啟發(fā),使用余弦退火學(xué)習(xí)率(Learning Rate,LR)和預(yù)熱來加速參數(shù)收斂。不同的是每批次而不是每個時期都改變LR,那么LR可以表示為:
(7)
其中,ηmax,ηmin分別代表初始的LR和最終的LR;i、Nw和Ns分別是當前步數(shù)、預(yù)熱步數(shù)和總步數(shù)。在預(yù)熱階段,根據(jù)余弦退火函數(shù),LR線性增加到ηmax,然后LR非線性減小到ηmin。在訓(xùn)練階段之后,學(xué)習(xí)到的超參數(shù)可以集成到方核卷積中,從而消除非對稱卷積模塊帶來的開銷。
對于評估指標,使用歸一化均方誤差(Normalized Mean Squared Error,NMSE)和余弦相似度ρ來表示重建誤差。
(8)
為了與之前的模型進行比較,還計算了余弦相似度ρ:
(9)
將Asy-CSINet與一些基于深度學(xué)習(xí)的方法進行比較,例如CsiNet[2]等。為了探索影響模型性能的因素,將Asy-CSINet中的非對稱卷積模塊替換為卷積層,其NMSE性能對比結(jié)果顯示如圖3和圖4。
圖3 不同壓縮率下NMSE性能對比(室內(nèi))
圖4 不同壓縮率下NMSE性能對比(室外)
對于戶外場景,與之前的研究相比,性能提升相當可觀。Asy-CSINet-conv和ConvCsiNet的區(qū)別在于解碼器端的更深層。室內(nèi)場景的CSI矩陣比較簡單,因此較大的模型并不能大大提高性能。對于室外CSI矩陣,特征點更加復(fù)雜和分散,使用更深的網(wǎng)絡(luò)可以豐富表達能力,從而獲得更高的性能。此外,還使用了帶有不同濾波器的DACB層,添加更多濾波器時性能會提高,但解碼器端的參數(shù)數(shù)量也會大大增加。在實驗中,選擇添加一個具有512層輸出的額外DACB,以平衡性能和參數(shù)數(shù)量。
使用非對稱卷積模塊后的結(jié)果顯示在“Asy-CSINet”中,這表明使用非對稱卷積模塊可以進一步提高性能。非對稱卷積模塊通過添加2個帶狀卷積更好地關(guān)注水平和垂直特征。正如文獻[13]所解釋的,卷積核的骨架是核心部分,2個額外的帶狀卷積顯著增強了骨架,從而在訓(xùn)練階段豐富了特征空間。值得注意的是,Asy-CSINet對Asy-CSINet-conv的性能提升在室內(nèi)場景下較小。實驗現(xiàn)象表明,改進還取決于CSI矩陣的復(fù)雜性。室內(nèi)性能主要受壓縮率限制,而室外性能可以通過使用更強大的工作模塊來提高。
此外,Asy-CSINet的余弦相似度對比結(jié)果如圖5所示,可以看出,同圖3和圖4類似,模型在戶外場景中的性能提升比較大。值得注意的是,在傳統(tǒng)的CRNet中,一般通過使用不同的核大小來提供多分辨率的能力,而在Asy-CSINet-conv中,為了發(fā)現(xiàn)各種尺度的特征,特征圖的大小逐漸改變并使用固定大小的核進行提取??梢钥闯觯瑵u進式特征提取使Asy-CSINet-conv的性能優(yōu)于CRNet。
圖5 不同模型的余弦相似度對比
ShuffleCsiNet[6]使用Shuffle Network (SN)來減少ConvCsiNet的參數(shù),本文使用一種更簡潔的方法來裁剪編碼器網(wǎng)絡(luò)。為了保留原始神經(jīng)網(wǎng)絡(luò)的優(yōu)越性,利用深度可分離卷積來替換EACB中的非對稱卷積模塊,即Asy-CSINet-l。結(jié)果如圖6和圖7所示。
圖6 不同編碼器的參數(shù)量對比
圖7 不同編碼器的浮點數(shù)對比
由于保留了原始網(wǎng)絡(luò)結(jié)構(gòu),Asy-CSINet-l 的性能在室內(nèi)和室外場景中都只略有下降。但是,部署階段的參數(shù)和浮點運算(FLOPs)的數(shù)量大幅減少,這對UE的存儲非常有利。MobileNet-en的實驗結(jié)果也如圖3所示,這表明用深度可分離卷積替換非對稱卷積模塊優(yōu)于用MobileNet替換整個編碼器,原因是深度可分離卷積更適合替代固定網(wǎng)絡(luò)結(jié)構(gòu)中的標準卷積層。
為了提高泛化能力,本文在Asy-CSINet-l的基礎(chǔ)上提出了Asy-CSINet-mr,其編碼器的最后一個卷積層是獨立的,前面的所有層都是通用的,從而大大減少了多速率下的參數(shù)數(shù)量。在訓(xùn)練階段,編碼器的輸出是3個壓縮率的組合,解碼器端的3個唯一網(wǎng)絡(luò)對應(yīng)3個壓縮率。以端到端的方式訓(xùn)練網(wǎng)絡(luò),總損失是3個壓縮率的總和。很明顯,高壓縮率的網(wǎng)絡(luò)損失更大,為了平衡影響,在每個損失前面乘以一個加權(quán)項,可以表示為:
LT(θ)=c16L16(θ16)+c32L32(θ32)+c64L64(θ64),
(10)
其中,LN和θN是壓縮率為N的均方誤差損失和網(wǎng)絡(luò)參數(shù),cN是乘法權(quán)重。在實驗中,設(shè)置c16=5.5、c32=2和c64=1。歸一化均方誤差性能結(jié)果如表1所示。
表1 不同模型的性能對比
此外,通過融合不同室內(nèi)外場景的模型,Asy-CSINet-ms被提出??梢钥吹紸sy-CSINet-ms 仍然與Asy-CSINet保持接近最優(yōu),而存儲在編碼器和解碼器端的參數(shù)量顯著下降到原始的一半。在壓縮率較低的室內(nèi)場景中,Asy-CSINet-ms的性能損失更為明顯。但是,整體性能損失并不是很大。
進一步將Asy-CSINet-mr和Asy-CSINet-ms集成到一個模型中,即Asy-CSINet-mrs。Asy-CSINet-mrs的結(jié)果與Asy-CSINet-ms的結(jié)果非常接近??梢缘贸鼋Y(jié)論,影響Asy-CSINet-mrs性能的主要原因是多個場景的集成。
考慮3個壓縮率不同的室內(nèi)外場景,用戶端需要存儲的參數(shù)總數(shù)如圖8所示。通過使用深度可分離卷積,Asy-CSINet-l的參數(shù)數(shù)量比ACCsiNet減少了83%。對于 Asy-CSINet和Asy-CSINet-l,總共需要集成6個編碼器模型。對于 Asy-CSINet-mr,集成了多速率模型,因此只需要2個編碼器模型即可處理2種場景,因此與Asy-CSINet-l和Asy-CSINet相比,參數(shù)數(shù)量分別減少了約45%和90%。最后,Asy-CSINet-mrs集成了多場景模型,使用Asy-CSINet-mrs時只需要一個模型。
圖8 各模型參數(shù)量對比
該實驗為實際部署提供了指導(dǎo),多速率集成方案可以大大減少參數(shù),同時幾乎沒有性能損失。如果存儲空間需要進一步壓縮,可以考慮多場景集成方案。
本文提出了使用Asy-CSINet來處理 CSI 反饋問題,通過使用非對稱卷積模塊和深度可分離卷積,不僅增強了網(wǎng)絡(luò)的特征提取能力,而且大大減輕了編碼器端的重量。然后,進一步提出多模型綜合集成方案,以增強網(wǎng)絡(luò)的泛化能力。實驗結(jié)果表明,所提出的Asy-CSINet極大地提高了歸一化均方誤差和ρ性能,特別是對于戶外場景。最后,結(jié)果驗證了算法剪裁和多模型綜合集成方案都可以達到所提出Asy-CSINet的最優(yōu)性能,同時減少了83%和90%以上的參數(shù)量。