張振國(guó)/ZHANG Zhenguo,楊倩倩/YANG Qianqian,賀詩(shī)波/HE Shibo
( 浙江大學(xué),中國(guó) 杭州 310058)
當(dāng)前,中國(guó)正大力發(fā)展信息產(chǎn)業(yè)。無(wú)線通信技術(shù)的快速發(fā)展為智慧城市、高清視頻、自動(dòng)駕駛、遠(yuǎn)程醫(yī)療等帶來(lái)產(chǎn)業(yè)變革?;谖锫?lián)網(wǎng)的智能感知網(wǎng)絡(luò)迅速發(fā)展,在提供便利的同時(shí)也帶來(lái)了龐大的無(wú)線通信數(shù)據(jù)[1]。數(shù)據(jù)通信方式不再受限于人?人通信,而是轉(zhuǎn)變?yōu)橐阅繕?biāo)為導(dǎo)向的通信方式[2]。隨著人工智能的快速發(fā)展,基于深度學(xué)習(xí)的通信為克服傳統(tǒng)通信困難提供新思路?;谏疃葘W(xué)習(xí)的架構(gòu)在通信系統(tǒng)中取得了顯著成果,達(dá)到甚至超過(guò)傳統(tǒng)方案的性能?;谙戕r(nóng)定理的1G 到5G 技術(shù)已經(jīng)無(wú)法滿足當(dāng)前的通信需求,基于深度學(xué)習(xí)的語(yǔ)義通信為下一代無(wú)線通信技術(shù)帶來(lái)更多可能[3-5]。深度學(xué)習(xí)已被用于優(yōu)化基于分離模塊設(shè)計(jì)的傳統(tǒng)通信,如信源編解碼器、信道編解碼器和調(diào)制解調(diào)模塊[6-8]。文獻(xiàn)[9]建立端到端(E2E)的信源信道聯(lián)合編碼(JSCC)通信系統(tǒng),該系統(tǒng)能夠有效應(yīng)對(duì)傳統(tǒng)通信系統(tǒng)中的瓶頸問(wèn)題。E2E通信系統(tǒng)的發(fā)射器和接收器由深度神經(jīng)網(wǎng)絡(luò)(DNN)組成。編碼器學(xué)習(xí)輸入數(shù)據(jù)的特征向量,并通過(guò)無(wú)線信道將復(fù)數(shù)符號(hào)發(fā)送到解碼器進(jìn)行目標(biāo)重建。
與傳統(tǒng)通信相比,語(yǔ)義通信側(cè)重于傳遞信息的含義,而不是符號(hào)的精確傳輸。區(qū)別于傳統(tǒng)通信系統(tǒng)利用誤碼率(BER)或符號(hào)錯(cuò)誤率(SER)評(píng)估通信結(jié)果,語(yǔ)義通信系統(tǒng)通過(guò)最小化輸入和重建信息之間的語(yǔ)義損失,來(lái)恢復(fù)接收器處的信源信息[9]?,F(xiàn)有的語(yǔ)義通信系統(tǒng)聯(lián)合設(shè)計(jì)發(fā)射器和接收器,以實(shí)現(xiàn)更好的傳輸效率和魯棒性[10]。深度學(xué)習(xí)在語(yǔ)義通信模型中得到廣泛的應(yīng)用,具有良好的特征提取和學(xué)習(xí)能力,能夠?qū)π旁窗恼Z(yǔ)義信息進(jìn)行提取和傳輸[11]。相較于數(shù)字通信通信模型,基于深度學(xué)習(xí)的通信模型不會(huì)出現(xiàn)“懸崖效應(yīng)”。當(dāng)前,語(yǔ)義通信主要基于深度學(xué)習(xí)進(jìn)行開發(fā)和探索,并且已經(jīng)取得一定的效果[12]?;谏疃葘W(xué)習(xí)的語(yǔ)義通信系統(tǒng)顯示出巨大的潛力,能夠有效傳輸不同類型的信息。隨著物聯(lián)網(wǎng)設(shè)備的大量部署,以目標(biāo)為導(dǎo)向的通信方式[2](如人-機(jī)、機(jī)-機(jī))不斷涌現(xiàn),這給邊緣設(shè)備帶來(lái)巨大的通信壓力。語(yǔ)義通信只傳輸目標(biāo)需要的信息,大大減少數(shù)據(jù)通信量,提高通信效率。語(yǔ)義通信將成為下一代物聯(lián)網(wǎng)無(wú)線通信技術(shù)的重要組成部分。
信道噪聲干擾是影響無(wú)線通信系統(tǒng)性能的主要因素之一,因此提高通信系統(tǒng)應(yīng)對(duì)噪聲環(huán)境的魯棒性是傳統(tǒng)通信和語(yǔ)義通信的共同目標(biāo)。數(shù)字通信方案通過(guò)增加信道編碼量來(lái)提高系統(tǒng)的抗噪能力,使通信量急劇增加。當(dāng)前,基于深度學(xué)習(xí)的通信系統(tǒng)通過(guò)DNN 緩解噪聲對(duì)系統(tǒng)的干擾,同時(shí)平衡系統(tǒng)的通信量。文獻(xiàn)[13]提出了一種用于通用無(wú)線信道的基于深度學(xué)習(xí)的端到端通信系統(tǒng),其中信源編碼、信道編碼、調(diào)制解調(diào)等傳統(tǒng)模塊被DNN 所取代。該端到端系統(tǒng)以數(shù)據(jù)驅(qū)動(dòng)的方式成功地利用各種相關(guān)性,獲得較好的結(jié)果。文獻(xiàn)[14]提出了一種基于強(qiáng)化學(xué)習(xí)的方法,在不知道信道傳遞函數(shù)或信道狀態(tài)信息(CSI)的情況下優(yōu)化發(fā)送端DNN。在實(shí)際系統(tǒng)中,由于存在信令和檢測(cè)方案的損傷、硬件缺陷、變化的信道條件等情況,經(jīng)過(guò)訓(xùn)練的網(wǎng)絡(luò)所得到的信道與用于訓(xùn)練網(wǎng)絡(luò)的信道顯著不同。文獻(xiàn)[15]使用隨機(jī)擾動(dòng)方法設(shè)計(jì)了一個(gè)無(wú)信道模型的端到端通信框架。該模型在真實(shí)信道中訓(xùn)練基于深度學(xué)習(xí)的通信系統(tǒng),不需要對(duì)信道模型進(jìn)行任何假設(shè)。文獻(xiàn)[16]開發(fā)了一種基于條件對(duì)抗生成網(wǎng)絡(luò)(StyleGAN)的方法,用于構(gòu)建端到端通信系統(tǒng),其中StyleGAN 用于構(gòu)建信道效應(yīng)模型。該模型將與導(dǎo)頻數(shù)據(jù)相對(duì)應(yīng)的接收信號(hào)作為調(diào)節(jié)信息的一部分,在接收機(jī)處獲得信道狀態(tài)信息,并將其用于信號(hào)檢測(cè)。
近年來(lái),研究人員提出了多種基于深度學(xué)習(xí)的語(yǔ)義通信系統(tǒng),旨在提高在噪聲信道上自然語(yǔ)言傳輸?shù)男阅堋N墨I(xiàn)[17]提出了一種用于自然語(yǔ)言的JSCC系統(tǒng),通過(guò)最小化E2E失真,實(shí)現(xiàn)比傳統(tǒng)方法更好的通信性能。文獻(xiàn)[18]提出了兩種方案來(lái)處理有限的數(shù)據(jù)速率問(wèn)題:自適應(yīng)傳輸方案和廣義數(shù)據(jù)表示方案。其中,自適應(yīng)傳輸方案可以在不同信道條件下以均方誤差(MSE)約束最大化數(shù)據(jù)速率;廣義數(shù)據(jù)表示方案取代了one-hot表示,以獲得更高的數(shù)據(jù)速率。文獻(xiàn)[19]則提出了一種新型語(yǔ)義通信系統(tǒng),通過(guò)信道估計(jì)輔助訓(xùn)練實(shí)現(xiàn)文本重建。與文本語(yǔ)義通信系統(tǒng)相比,語(yǔ)音信號(hào)難以提取和表示基本的語(yǔ)義特征。研究人員使用多種方法來(lái)開發(fā)用于語(yǔ)音信號(hào)傳輸?shù)恼Z(yǔ)義通信系統(tǒng),文獻(xiàn)[20]提出了一種基于深度學(xué)習(xí)的語(yǔ)音通信系統(tǒng)。該系統(tǒng)通過(guò)聯(lián)合訓(xùn)練語(yǔ)義和信道編解碼器,學(xué)習(xí)和提取語(yǔ)音特征,同時(shí)利用注意力機(jī)制減輕實(shí)際通信場(chǎng)景中的信道失真和衰減,使系統(tǒng)獲得更好的通信性能。文獻(xiàn)[21]采用波向量(wav2vec)來(lái)提取音頻語(yǔ)義特征,并通過(guò)強(qiáng)化學(xué)習(xí)(RL)提高特征提取的準(zhǔn)確性。
針對(duì)圖像信息的壓縮和傳輸問(wèn)題,基于深度學(xué)習(xí)的圖像壓縮技術(shù)已經(jīng)成為研究熱點(diǎn)。一系列的圖像無(wú)線信號(hào)通信系統(tǒng)相繼產(chǎn)生。文獻(xiàn)[22]提出了一種基于深度學(xué)習(xí)的無(wú)線圖像傳輸系統(tǒng),實(shí)現(xiàn)基于E2E 的JSCC,使用峰值信噪比(PSNR)和結(jié)構(gòu)相似性指數(shù)(SSIM)測(cè)量重建圖像的質(zhì)量。在JSCC 的基礎(chǔ)上,另一種具有信道反饋的圖像重建方案DeepJSCC-f,通過(guò)接收來(lái)自接收器的信道反饋,進(jìn)一步提高圖像重建精度[23]。文獻(xiàn)[24]提出了基于正交頻分復(fù)用(OFDM)數(shù)據(jù)路徑的JSCC 方案,用于多路徑衰落信道的無(wú)線圖像傳輸。該通信方案通過(guò)整合專家知識(shí)實(shí)現(xiàn)了更好的性能。文獻(xiàn)[25]開展了物聯(lián)網(wǎng)(IoT)設(shè)備用于圖像傳輸?shù)难芯?,通過(guò)將兩個(gè)DNN 的聯(lián)合傳輸識(shí)別方案部署在設(shè)備端,在識(shí)別精度上比傳統(tǒng)方案更好。文獻(xiàn)[26]提出了聯(lián)合特征壓縮和傳輸系統(tǒng),以處理邊緣服務(wù)器上有限的計(jì)算資源。該方案不僅提高了E2E 的可靠性,而且降低了計(jì)算復(fù)雜度。此外,M. JANKOWSKI等提出了基于自編碼器嚴(yán)格約束的設(shè)備邊緣通信系統(tǒng),在有限的計(jì)算能力下實(shí)現(xiàn)了更好的分類精度[27]。文獻(xiàn)[28]提出了一種新的航空?qǐng)D像傳輸范式,在無(wú)人機(jī)端部署一個(gè)輕量級(jí)模型,用于感知圖像和信道條件的語(yǔ)義傳輸模塊,在接收端通過(guò)計(jì)算能力更強(qiáng)的基站對(duì)收到的信息進(jìn)一步處理,提高分類精度。文獻(xiàn)[29]提出了基于深度學(xué)習(xí)的用于傳輸單模態(tài)和多模態(tài)數(shù)據(jù)的多用戶語(yǔ)義通信系統(tǒng),通過(guò)在編碼器和解碼器層之間添加連接來(lái)融合多模態(tài)數(shù)據(jù),實(shí)現(xiàn)圖像檢索和視覺(jué)問(wèn)答等功能。然而,當(dāng)前仍缺乏對(duì)于圖像語(yǔ)義的評(píng)估準(zhǔn)則,導(dǎo)致語(yǔ)義通信系統(tǒng)的圖像恢復(fù)仍需要使用傳統(tǒng)的圖像重建準(zhǔn)則來(lái)衡量系統(tǒng)性能。
語(yǔ)義通信作為下一代通信技術(shù)的重要組成部分,為新一代的通信變革提供新方法。目前,語(yǔ)義通信發(fā)展仍處于探索階段。作為下一代通信技術(shù)的重要組成部分,語(yǔ)義需要理論和技術(shù)的雙重發(fā)展。目前,語(yǔ)義通信在數(shù)學(xué)理論證明方面仍未得到普遍認(rèn)可,在技術(shù)方面深度學(xué)習(xí)的機(jī)理和可解釋性仍然有待研究。本文是在技術(shù)層面對(duì)圖像語(yǔ)義通信的一次探索,通過(guò)簡(jiǎn)單的通信環(huán)境假設(shè),驗(yàn)證通信系統(tǒng)的可行性;通過(guò)基于深度學(xué)習(xí)的圖像信息挖掘,探索信息內(nèi)容的語(yǔ)義性對(duì)信息傳遞的影響。實(shí)驗(yàn)結(jié)果表明,本文所提出的語(yǔ)義通信系統(tǒng)具有較好的魯棒性,特別是在有限帶寬條件下更具優(yōu)勢(shì)。這表明高級(jí)語(yǔ)義信息在圖像傳輸中具有優(yōu)勢(shì)。
圖像語(yǔ)義通信模型的一般框架如圖1所示。與傳統(tǒng)通信系統(tǒng)相同,語(yǔ)義通信系統(tǒng)包含發(fā)送端、無(wú)線信道和接收端3個(gè)部分。兩者的主要區(qū)別在于語(yǔ)義通信系統(tǒng)所采用的編解碼方式。語(yǔ)義通信系統(tǒng)將信源信道的編解碼作為一個(gè)整體。信道編解碼在應(yīng)對(duì)噪聲的同時(shí)對(duì)信源編碼信息的重要程度進(jìn)行衡量,為其中重要的信息分配更多的符號(hào)位以進(jìn)行編碼。針對(duì)信源中的語(yǔ)義內(nèi)容,語(yǔ)義編碼對(duì)有含義的信息進(jìn)行編碼表達(dá),其過(guò)程實(shí)際就是對(duì)信源中語(yǔ)義概念的高度抽象與壓縮。為提高圖像無(wú)線通信的高效性和準(zhǔn)確性,本文提出一種面向語(yǔ)義的圖像通信系統(tǒng),該系統(tǒng)通過(guò)聯(lián)合信源語(yǔ)義編解碼和信道編解碼的方式,提高系統(tǒng)的通信效率和魯棒性。
▲圖1 圖像語(yǔ)義通信系統(tǒng)
編碼器由兩部分構(gòu)成:語(yǔ)義特征提取器和聯(lián)合語(yǔ)義信道編碼器。具體過(guò)程為:首先,編碼器的輸入圖像S由歸一化層預(yù)處理,使得每個(gè)元素都在[0,1]范圍內(nèi);其次,通過(guò)多個(gè)基于神經(jīng)網(wǎng)絡(luò)的多級(jí)語(yǔ)義特征提取器提取輸入圖像的不同語(yǔ)義特征;最后,利用聯(lián)合語(yǔ)義信道編碼器將語(yǔ)義特征編碼為符號(hào),通過(guò)物理通道傳輸?shù)浇邮掌?,傳輸向量x:
其中,Tα(?)為多級(jí)語(yǔ)義特征提取網(wǎng)絡(luò),網(wǎng)絡(luò)參數(shù)為α;Tβ(?)為聯(lián)合語(yǔ)義信道編碼器,網(wǎng)絡(luò)參數(shù)為β。
本文所提方案在一個(gè)廣泛使用的物理信道——加性白高斯噪聲(AWGN)信道上進(jìn)行模型測(cè)試。則解碼器上接收到的信號(hào)y為:
其中,w 為圓對(duì)稱高斯分布的獨(dú)立同分布向量,w~CN(0,σ2I),σ2為信道的平均噪聲功率,I為單位矩陣。
解碼器也由兩部分組成:聯(lián)合語(yǔ)義信道解碼器和圖像重建模塊。聯(lián)合語(yǔ)義信道解碼器減輕信號(hào)在AWGN 信道的噪聲干擾,并恢復(fù)多級(jí)語(yǔ)義特征。圖像重建模塊融合不同層次的語(yǔ)義信息并重建目標(biāo)圖像。反歸一化層將每個(gè)元素重新縮放為圖像像素值(0~255)。聯(lián)合語(yǔ)義信道解碼器和圖像重建模塊的參數(shù)為ξ和η,接收器重建圖像為:
其中,Rξ(?)和Rη(?)分別為聯(lián)合語(yǔ)義信道編碼器和圖像重建模塊,y為從信道接收到的信號(hào)。
本文提出一種基于深度學(xué)習(xí)的無(wú)線圖像傳輸語(yǔ)義通信系統(tǒng),如圖2所示。其中,多級(jí)語(yǔ)義特征提取器用于提取不同級(jí)別的語(yǔ)義特征。高級(jí)語(yǔ)義信息包含圖像的抽象性和通用性指標(biāo),低級(jí)語(yǔ)義信息包含圖像的局部細(xì)節(jié)語(yǔ)義信息[30]。該系統(tǒng)通過(guò)基于深度學(xué)習(xí)的特征提取器提取信源特征,并通過(guò)與語(yǔ)義信道的聯(lián)合訓(xùn)練給不同的信息賦予不同的權(quán)重。語(yǔ)義信道編碼器和解碼器聯(lián)合在接收器處成功恢復(fù)這些語(yǔ)義特征,并通過(guò)圖像重建模塊對(duì)多級(jí)語(yǔ)義信息進(jìn)行融合并重構(gòu)目標(biāo)圖像。
▲圖2 圖像語(yǔ)義通信系統(tǒng)的整體架構(gòu)
對(duì)于輸入圖像S ∈?b×h×w×3,首先通過(guò)歸一化層將像素值映射到[0,1]范圍,其中b、h和w分別為圖像的批數(shù)量、高和寬,3表示圖像對(duì)應(yīng)的圖像通道數(shù)。一個(gè)批次的圖像數(shù)據(jù)會(huì)被送入多級(jí)語(yǔ)義特征提取器。該提取器包含3個(gè)模塊:語(yǔ)義特征模塊、分割特征模塊和低級(jí)特征模塊。不同模塊分別提取不同層級(jí)和不同形式的圖像語(yǔ)義信息。語(yǔ)義特征模塊包含一個(gè)預(yù)訓(xùn)練的圖像字幕模型,該模型由ResNet-152 模型[31]和長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)[32]層組成,用于提取圖像文本形式的高級(jí)語(yǔ)義信息,其中t 為下采樣因子。文本形式語(yǔ)義特征是帶有圖像紋理信息的文本嵌入信息。為了方便理解,本文稱這些特征為“文本形式”。分割特征模塊通過(guò)預(yù)訓(xùn)練的圖像分割[33]模型獲取圖像分割形式的高級(jí)語(yǔ)義信息a ∈?b×h×w×1。低級(jí)特征模塊由兩部分組成:聯(lián)合部分和直取部分。其中,聯(lián)合部分通過(guò)concatenate按通道維度將歸一化圖像和分割特征相結(jié)合,并輸出f ∈?b×h×w×1;直取部分為直接輸入歸一化后的圖像特征。低級(jí)特征模塊主要用于圖像細(xì)節(jié)特征的提取,為高級(jí)語(yǔ)義信息做細(xì)節(jié)補(bǔ)充,實(shí)現(xiàn)更豐富的信息重構(gòu)。超參數(shù)l控制低級(jí)特征傳輸信息量,該參數(shù)決定通信量和目標(biāo)信息的重建質(zhì)量。
通過(guò)多級(jí)語(yǔ)義特征提取器可獲得4種類型的目標(biāo)語(yǔ)義信息特征:文本形式特征p、圖像分割特征a、聯(lián)合特征f和圖像歸一化低級(jí)特征。語(yǔ)義特征p首先通過(guò)全連接層進(jìn)行維度壓縮,進(jìn)而通過(guò)整形層和編碼模塊輸出,其中×1表示維度信息。語(yǔ)義特征a和f分別輸入兩個(gè)獨(dú)立的編碼器模塊,并輸出不同的特征維度信息和。c3和cl除了最后一層的輸出通道數(shù)不同外,其他結(jié)構(gòu)均相同。編碼器模型cl獲取圖像細(xì)節(jié)信息特征。聯(lián)合層將獲取的不同內(nèi)容的特征c1,…,cl進(jìn)行聯(lián)合和壓縮,并輸出進(jìn)而通過(guò)功率歸一化層生成k 個(gè)數(shù)傳輸符號(hào)x,同時(shí)這些符號(hào)的發(fā)射功率低于給定值,其中信道帶寬壓縮比為,該值可根據(jù)信道環(huán)境自適應(yīng)調(diào)整。高級(jí)語(yǔ)義信息是目標(biāo)重建的增強(qiáng)信息。 當(dāng)e = 1 時(shí), 聯(lián)合語(yǔ)義信道編碼輸出為
接收端的重塑層將接收到的信號(hào)重組為qi,i = 1,…,l個(gè)語(yǔ)義特征,其尺寸為。當(dāng)連接接收到的符號(hào)的實(shí)部和虛部時(shí),最后一個(gè)維度加倍,如。同樣,qi使用第3i ?1 和3i + 1 元素的最后一個(gè)維度,。每個(gè)qi,i = 1,…,l 都輸入到解碼器模塊,其具有相同的卷積核尺寸(m=3),如圖3所示。每個(gè)解碼器的輸出語(yǔ)義特征為其中o為輸出通道數(shù)。卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)由m × m × o/st參數(shù)構(gòu)成,其中m、o 和st 分別是卷積核尺寸、通道輸出數(shù)量和步長(zhǎng)。每個(gè)卷積層之后為廣義的歸一化變換層(包括廣義除數(shù)歸一化(GDN)和逆GDN(IGDN))。
▲圖3 編碼器模塊、解碼器模塊結(jié)構(gòu)示意圖
圖像重建模塊需要融合不同形式和內(nèi)容的語(yǔ)義特征,完成不同語(yǔ)義內(nèi)容之間的相互補(bǔ)充,通過(guò)注意力機(jī)制深度挖掘融合信息,進(jìn)而將融合特征重建為目標(biāo)圖像。首先借助雙特征融合模塊對(duì)兩種形式的高級(jí)語(yǔ)義特征進(jìn)行融合,即雙特征融合模塊通過(guò)交叉結(jié)構(gòu)和通道注意力機(jī)制(CA)學(xué)習(xí)輸入特征;然后通過(guò)像素上采樣模塊對(duì)特征信息升維,其中像素上采樣模塊由卷積層和像素上采樣層構(gòu)成;最后將相同維度的高級(jí)語(yǔ)義信息和低級(jí)細(xì)節(jié)補(bǔ)充信息進(jìn)行級(jí)聯(lián)操作,通過(guò)殘差網(wǎng)絡(luò)對(duì)融合后的信息進(jìn)行提取并重建目標(biāo)圖像。殘差網(wǎng)絡(luò)由反卷積層和PReLU 激活函數(shù)構(gòu)成(最后一層為sigmoid 激活函數(shù)),其網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。在圖像重建模塊中,不同形式特征生成的粗糙圖像含有不同的成分,例如比較平滑的低頻信息和充滿邊緣、紋理的高頻信息。同時(shí),卷積層的每個(gè)過(guò)濾器都包含一個(gè)局部感受野,其輸出無(wú)法利用局部信息之外的上下文信息。因此,通過(guò)通道注意力機(jī)制改變特征權(quán)重,能夠提高重要信息的權(quán)重占比。通道注意力機(jī)制的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
▲圖4 圖像重建模塊結(jié)構(gòu)示意圖
▲圖5 通道注意力機(jī)制網(wǎng)絡(luò)結(jié)構(gòu)示意圖
根據(jù)設(shè)計(jì)模型特點(diǎn),需要使用具有多類型標(biāo)簽的數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練。本文使用MSCOCO[34]和ADE20K[35]數(shù)據(jù)集訓(xùn)練和評(píng)估所提出的系統(tǒng)。MSCOCO 數(shù)據(jù)集包含123 287 張圖像(82 783 張用于訓(xùn)練,40 504 張用于測(cè)試),每張圖像都包含5 個(gè)不同的字幕標(biāo)題。ADE20K 數(shù)據(jù)集包含27 574 張圖像、150 個(gè)語(yǔ)義標(biāo)簽,圖像高度和寬度至少為512 像素。訓(xùn)練模型時(shí),每個(gè)圖像都被裁剪為固定大?。篽 = 128,w =128。對(duì)于文本形式特征,本文使用帶有文本標(biāo)簽的MSCOCO 數(shù)據(jù)集來(lái)訓(xùn)練語(yǔ)義特征模塊CaptionNet[24-25],并使用帶有分割標(biāo)簽的ADE20K數(shù)據(jù)集來(lái)訓(xùn)練系統(tǒng)的其余部分(凍結(jié)語(yǔ)義特征模塊)。最后,本文在Kodak[36]圖像數(shù)據(jù)集上測(cè)試所提出的圖像無(wú)線通信系統(tǒng)。Kodak數(shù)據(jù)集總共包含24張固定尺寸768×512的圖像。
所提模型在Pytorch[37]中實(shí)現(xiàn)。并使用Adam算法[38]進(jìn)行優(yōu)化。學(xué)習(xí)率設(shè)置為0.000 1,批次大小設(shè)置為32,下采樣因子t = 8。本文采用現(xiàn)有的基于深度學(xué)習(xí)的方法(DeepJSCC 和Aided Deep-JSCC[39]),以及傳統(tǒng)的基于分離的數(shù)字傳輸方案(JPEG)作為基準(zhǔn)進(jìn)行比較,并使用PSNR 和SSIM 指標(biāo)來(lái)評(píng)估性能。PSNR 表示信號(hào)最大可能功率和影響其表示精度的破壞性噪聲功率的比值,,其中d(x,y) 為均值誤差,MAX 表示圖像點(diǎn)顏色的最大數(shù)值。SSIM 使用3 個(gè)標(biāo)準(zhǔn)度量圖 像 : 亮 度 、 對(duì) 比 度 和 結(jié) 構(gòu) 。 SSIM =,其中μ 為亮度,σ 為對(duì)比度,C1和C2為常數(shù)。Aided Deep-JSCC是一種用于無(wú)線傳感器網(wǎng)絡(luò)的分布式語(yǔ)義通信方案。其中,每個(gè)傳感器觀察并編碼一個(gè)公共圖像,并通過(guò)無(wú)線信道獨(dú)自將其發(fā)送給接收器。接收器融合來(lái)自不同傳感器的信息并重建原始圖像。該方案類似于本文所提方案,即從原始圖像中提取多個(gè)版本的語(yǔ)義信息,并將其發(fā)送給接收者以用于信源信息的重建。根據(jù)香農(nóng)分離定理,傳輸速率必須降低信道容量,通過(guò)物理信道傳輸?shù)男旁葱畔⑿枰獫M足,其中R 為信源信息的傳輸速率,log2(1 + SNR)為信道容量,k 為信道維度,n為圖像維度。信源信息在物理信道上可靠傳輸?shù)淖畲笏俾蕿镽max。傳統(tǒng)的圖像壓縮方案具有最小壓縮碼率Rmin,這是接收端重建目標(biāo)圖像的極限。如果Rmin> Rmax,則接收器無(wú)法重建輸入圖像。為信噪比,其中Ps為信號(hào)功率,Pn為噪聲功率。
圖6 對(duì)比了不同壓縮比下圖像重建PSNR 的性能表現(xiàn)??梢钥闯觯疚乃崴惴▋?yōu)于其他深度學(xué)習(xí)方案和傳統(tǒng)方案。同時(shí),基于深度學(xué)習(xí)的圖像通信系統(tǒng)不會(huì)因“懸崖效應(yīng)”(信道條件低于某個(gè)閾值,接收器無(wú)法恢復(fù)傳輸?shù)膱D像)而遭受大幅的性能下降。數(shù)字傳輸方案在較差的信道環(huán)境中(SNR<10 dB)和低壓縮比(k/n < 1/10)條件下引發(fā)系統(tǒng)崩潰,而基于深度學(xué)習(xí)的系統(tǒng)仍然可以完成目標(biāo)信息的重建。本文所提方案中的聯(lián)合語(yǔ)義信道編解碼方案能夠均衡分配信源信息編碼和抗噪編碼字符數(shù),使得在信號(hào)壓縮和重建過(guò)程中能夠更好地表達(dá)語(yǔ)義信息。在低壓縮比信道情況較好的環(huán)境中,本文所提方案性能與DeepJSCC模型相近。這是由于:在低壓縮比下,發(fā)射端沒(méi)有足夠的帶寬來(lái)傳達(dá)更詳細(xì)的圖像細(xì)節(jié)信息,導(dǎo)致系統(tǒng)重建目標(biāo)在細(xì)節(jié)信息的刻畫上不足。隨著壓縮比的增大,本文所提算法性能與其他方案之間的差距逐漸拉大。這進(jìn)一步體現(xiàn)出所提模型在抗噪和信息恢復(fù)上的優(yōu)勢(shì)。
▲圖6 AWGN信道上具有不同壓縮比的PSNR和SSIM性能比較
圖6 同時(shí)展示了不同方法在SSIM 評(píng)估標(biāo)準(zhǔn)下的性能比較。SSIM 從圖像結(jié)構(gòu)方面反映了原始圖像和重建圖像之間的相似性。本文所提方案在低壓縮比及較差的信道條件下(例如,SNR=0)的性能顯著優(yōu)于其他方案。Aided Deep-JSCC 系統(tǒng)將SSIM 和MSE 作為損失函數(shù),在SSIM 指標(biāo)上具有更好的性能。本文所提方法的圖像重建模塊對(duì)高級(jí)語(yǔ)義信息進(jìn)行深度挖掘,并利用殘差網(wǎng)絡(luò)對(duì)融合后的多級(jí)信息進(jìn)行學(xué)習(xí),進(jìn)而提高圖像重建質(zhì)量;在低壓縮比信道環(huán)境較好的情況下,依然能夠達(dá)到與Aided Deep-JSCC 方案相同的性能(本文所提方案中并未使用SSIM 作為損失函數(shù))。在高壓縮比情況下,Aided Deep-JSCC 的重建質(zhì)量最差。這是由于:Aided Deep-JSCC 方案中的每個(gè)傳感器都獨(dú)立于圖像進(jìn)行編碼,在不同編碼器之間引入了語(yǔ)義信息冗余,造成不必要的帶寬浪費(fèi)。而本文所提出的方案以聯(lián)合的方式提取多級(jí)語(yǔ)義信息,強(qiáng)制不同編碼器獲得的語(yǔ)義信息不同,相對(duì)提高了不同壓縮比在較差物理信道情況下(SNR<10 dB)SSIM 的評(píng)分,進(jìn)一步證明了所提方案在帶寬有限、信道條件惡劣情況下的優(yōu)勢(shì)。
圖7比較了本文所提方案和基準(zhǔn)方法在Kodak 數(shù)據(jù)集上的PSNR 性能表現(xiàn)。在AWGN 信道環(huán)境下壓縮比k/n 設(shè)置為1/16,數(shù)字通信方案信源編解碼采用JPEG,信道編解碼為低密度奇偶檢查碼(LDPC),使用4 符號(hào)正交幅度調(diào)制(QAM)數(shù)字調(diào)制方案。如圖7 所示,本文所提方案優(yōu)于其他基于深度學(xué)習(xí)的方法,表現(xiàn)出多級(jí)語(yǔ)義信息在無(wú)線圖像傳輸上的優(yōu)勢(shì)。同時(shí),采用數(shù)字通信方案的圖像傳輸質(zhì)量遠(yuǎn)低于基于深度學(xué)習(xí)的方法。造成該現(xiàn)象的主要原因是傳統(tǒng)方案對(duì)信道變化引起的信道錯(cuò)誤率比較敏感。由于可用于壓縮的位數(shù)是固定的,當(dāng)信道環(huán)境達(dá)到一定閾值后,數(shù)字通信方案圖像重建質(zhì)量不會(huì)再提高。在SNRtest< SNRtrain的情況下,本文所提系統(tǒng)不會(huì)受到數(shù)字傳輸方案中的“懸崖效應(yīng)”的影響。相反,本文所提方案隨著信噪比值的降低,性能平滑地下降,其能夠平衡壓縮比和魯棒性之間的重要層度。如果模型以高SNR 值訓(xùn)練,則系統(tǒng)的PSNR性能主要由帶寬壓縮比決定,反之亦然。本文所提方法的PSNR性能,比Deep JSCC高1.37~1.96 dB,比Aided Deep-JSCC高3.37~7.39 dB,比傳統(tǒng)方法高6.8~9.06 dB。相較于Aided Deep-JSCC的指標(biāo)波動(dòng)性,本文所提方法在面對(duì)不同信道環(huán)境時(shí)具有更平滑的性能表現(xiàn)。如圖8所示,相比于靜態(tài)信道環(huán)境,本文所提方案的圖像重建質(zhì)量仍具有較好表現(xiàn),這說(shuō)明網(wǎng)絡(luò)具有估計(jì)信道狀態(tài)的能力。
▲圖7 不同圖像無(wú)線傳輸方案在Kodak數(shù)據(jù)集上PSNR的性能比較
▲圖8 在SNR=13 dB和壓縮比為1/16的情況下不同方法的可視化比較
本文提出了一種基于深度學(xué)習(xí)的無(wú)線圖像傳輸語(yǔ)義通信系統(tǒng),與其他基于深度學(xué)習(xí)和基于分離的數(shù)字傳輸方案相比,性能表現(xiàn)優(yōu)異。仿真結(jié)果表明,所提出的語(yǔ)義通信系統(tǒng)的有效性和魯棒性均優(yōu)于其他方案。
隨著無(wú)線通信技術(shù)的快速發(fā)展,未來(lái)6G 高效、智能的通信方式,將給工業(yè)生產(chǎn)和大眾生活帶來(lái)顛覆性的變革。語(yǔ)義通信作為新一代通信方式,將助力6G 發(fā)展。然而,有關(guān)語(yǔ)義通信的關(guān)鍵技術(shù)和理論基礎(chǔ)仍需要進(jìn)一步發(fā)展和完善。本文僅作為語(yǔ)義通信的一次嘗試和探索。語(yǔ)義通信技術(shù)的發(fā)展還需要更多的專家學(xué)者共同推進(jìn)。