涂勇峰,陳文
(上海交通大學電子信息與電氣工程學院,上海 200240)
近年來,通信技術發(fā)展迅猛,但面臨著巨大挑戰(zhàn)。從1G發(fā)展到5G,移動通信技術幾乎每十年更新一代,通信速率越來越快,已在智慧城市、高清視頻、自動駕駛、遠程醫(yī)療等領域發(fā)揮著重要的作用。然而,全球數(shù)據(jù)流量始終在無休止增長。國際電信聯(lián)盟(ITU)預測,按照目前的趨勢來看,直到2030年,全球移動數(shù)據(jù)流量每年增長速率將會達到55%,全球移動數(shù)據(jù)流量將會提升100倍之多,遠超5G的體量。另外,以更高的容量、可靠性與更低的時延為目標的技術進步會帶來頻譜資源的巨大耗費以及通信能耗的急劇增長。為了滿足日益增長的通信需求,6G技術需要做出一些改變。
語義通信是一種智能通信方式,契合6G時代的智能體交互需求。6G通信技術在智能化背景下誕生,在將來,多種多樣的智能體充斥于生活中,智能體之間的通信不可忽視[1]。智能體之間的通信是面向目的的通信,關鍵是使接收方正確理解發(fā)送方的信息內(nèi)容,從而降低接收方對信息的不確定性。當前通信技術大多以香農(nóng)的信息論為基礎,即保證每個傳輸比特的正確接收,而并不關注信息中承載的含義,這種方式會產(chǎn)生大量數(shù)據(jù)的冗余,造成不必要的通信資源的耗費[2]。語義通信引入語義層次的信息,關注信息內(nèi)容而非編碼符號,迎合了智能體通信的特性需求,符合6G的發(fā)展需要。
人工智能算法的不斷發(fā)展推動著語義通信的發(fā)展。新興的人工智能算法和計算使語義表示成為可能,而這也是語義通信的基礎。特別是NLP(Natural Language Processing,自然語言處理)所探討的用計算機代替人工來處理大規(guī)模的自然語言信息,通過人類所定義的算法進行加工、計算等系列操作模擬人類對自然語言的理解,其根本就是提取與利用語義信息的問題,與語義通信的需求吻合。LSTM(Long Short-Term Memory,長短期記憶網(wǎng)絡)[3]模型能夠捕捉序列中的廣范圍的依賴關系,Transformer[4]模型關注輸入的特定部分,通過并行運算實現(xiàn)序列到序列的映射。人工智能算法是解決語義通信中一些關鍵問題的有效方法。
本文探究一種基于深度學習的語義通信系統(tǒng),以文本為傳輸內(nèi)容,通過NLP中的Transformer模型進行語義編解碼,從而仿真語義通信系統(tǒng)的基本架構。對于文本,傳統(tǒng)的編解碼方式簡單直接地將其轉(zhuǎn)化為無意義的通信符號序列進行傳輸,而忽略了其中蘊含著豐富的語義信息。本文將語義通信系統(tǒng)構建成一個深度神經(jīng)網(wǎng)絡,以Transformer模型為基礎,利用文本中詞與詞之間的巨大關聯(lián)進行語義挖掘與特征提取,并加入信道編解碼層、信道層與量化層,聯(lián)合組成一個語義通信系統(tǒng)網(wǎng)絡。
Shannon與Weaver[5]將通信的問題分為三個層面:
(1)技術層面:通訊符號如何準確地加以傳輸?
(2)語義層面:傳輸?shù)姆柸绾尉_地傳達含義?
(3)效用層面:收到的含義如何以期望的方式有效地影響行為?
考慮技術層面的問題,Shannon建立了通信的數(shù)學理論基礎,將通信定義為發(fā)送端的信息在接收端的精確復現(xiàn)。在此基礎上,通信技術的發(fā)展不斷追求更精確的數(shù)據(jù)傳輸,同時以更高的容量、可靠性以及更低的時延為目標。顯而易見,隨著數(shù)據(jù)量的爆炸式增長,帶寬需求的急劇增加,將會有越來越多的頻譜資源被占用,這對未來通信的發(fā)展帶來了巨大挑戰(zhàn)。
當前通信技術的發(fā)展以準確傳輸數(shù)據(jù)為目標,卻忽視了數(shù)據(jù)中承載的信息含義,而這正是語義層面的問題。通信網(wǎng)絡的發(fā)展趨向智能化,追求有效性和可持續(xù)性,此時將語義視為不相關不再合理。關注傳輸內(nèi)容中承載的含義,即語義信息,利用語義信息進行編碼,去除冗余數(shù)據(jù),減少傳輸數(shù)據(jù)量,這種通信方式即為語義通信。
Carnap等人[6]基于內(nèi)容的邏輯概率,首次引入語義信息論(SIT)的概念。J. Bao等[7]將SIT進行了擴展,提出了語義通信的一般模型(GMSC),定義了語義噪聲和語義信道的概念。文獻[8]基于GMSC提出了一種無損語義數(shù)據(jù)壓縮理論,驗證了從語義層面上進行數(shù)據(jù)壓縮,從而顯著減少傳輸數(shù)據(jù)的可能。這些工作為語義通信的發(fā)展提供了一些方向和意見,但仍有許多問題有待探討。
語義通信模型的一般框架如圖1所示,與傳統(tǒng)通信系統(tǒng)相同,語義通信系統(tǒng)包含發(fā)送端、信道與接收端三個部分,主要區(qū)別在于語義通信系統(tǒng)所采用的編解碼方式。語義通信系統(tǒng)的發(fā)送端包含語義編碼與信道編碼部分,接收端包含信道解碼與語義解碼部分。
圖1 語義通信模型的一般框架
在傳統(tǒng)通信系統(tǒng)中,編碼以數(shù)據(jù)壓縮形式進行,編碼結果只記錄符號的標識,并沒有記錄符號的含義信息。而語義編碼是針對信源中的語義內(nèi)容,對有含義的信息進行編碼表達,其過程實際就是對信源中的語義概念的高度抽象與壓縮。語義解碼是編碼逆過程,通過解碼過程還原的語義信息要與發(fā)送端相同。整體而言,語義編碼在知識庫的指導下,對語義源中蘊含的語義信息本身進行編碼獲得語義碼,之后再通過信道編碼方式發(fā)送。接收端對接收到的信息先進行信道解碼獲得語義碼,再經(jīng)由語義解碼獲得恢復后的信息。
在已有的工作中,文獻[9]將深度學習與聯(lián)合信源信道編碼結合,通過語義信息的傳遞在接收端恢復文本信息。文獻[10]將聯(lián)合信源信道編碼用于圖像的傳輸中,并取得了較好的效果。文獻[11]提出了內(nèi)容為語音的語義通信方式,驗證了語義通信對語音的有效性。
本文提出一個基于深度學習的語義通信系統(tǒng)模型,將文本作為傳輸內(nèi)容,實現(xiàn)從發(fā)送端到接收端的傳輸。采用Transformer模型作為語義編解碼的核心部分,用于語義信息的提取與理解。
如圖2所示,網(wǎng)絡的整體結構包含編碼器、信道、解碼器三部分。將待傳輸?shù)木渥佑洖閟= [w1,w2, … ,wn],其中wi表示句子中的第i個單詞。編碼器的作用表示為函數(shù)α,輸入s經(jīng)編碼器編碼后得到比特序列B=α(s)。比特序列B通過信道傳輸,在接收端得到R,解碼器的作用表示為函數(shù)β,經(jīng)解碼器解碼恢復的句子記為s' =β(R)。下面分別對每部分進行詳細介紹。
圖2 基于深度學習的語義通信系統(tǒng)架構
編碼器先在輸入句子s后添加句尾標識符,再將其中的每個單詞映射為D維的表示向量,轉(zhuǎn)化后的E=[e1,e2, …,en,e]包含輸入句子中的n+1個表示向量。表示向量由向量嵌入與位置嵌入兩部分組成。向量嵌入將單詞映射到高維度以表示特征,位置嵌入與單詞在句子中的位置相關,可以給模型提供位置上的信息。
編碼分為語義編碼與信道編碼兩步,先進行語義編碼再進行信道編碼。本模型將兩個Transformer編碼塊連接實現(xiàn)語義編碼,將E通過編碼映射為Es,Es表示提取語義信息后的抽象語義,蘊含了整句話的語義信息。Transformer編碼塊由多個注意力層疊加,注意力公式表示為:
Q、K、V均由輸入進行線性變換得到,dk為調(diào)節(jié)因子。其本質(zhì)是去計算句子中的每個詞與句中所有詞的關聯(lián)性以及重要度,再利用這些相互關系調(diào)整權重以獲得每個詞新的表達。將多個不同的注意力層進行拼接,使模型可以專注于不同語義特征的提取。最后的輸出Es蘊含了該詞本身以及與其他詞的關系,是一個針對整句話的全局表達,蘊含了整句話的語義信息。
信道編碼由兩個隱藏單元數(shù)不同的全連接層組成,隱藏單元數(shù)逐層遞減以進行數(shù)據(jù)壓縮。第一層的激活函數(shù)采用Relu函數(shù),第二層的激活函數(shù)采用tanh函數(shù),編碼后的輸出記為Ec,可表示為:
W1,W2為全連接層的權重矩陣,b1,b2為全連接層的偏置。
為實現(xiàn)編碼器與解碼器的聯(lián)合訓練,將信道作為網(wǎng)絡模型中的一層。本模型選擇AWGN信道作為信道層,對輸入信號B加入高斯白噪聲,輸出記為R。噪聲的加入可表示為:
其中N代表噪聲,服從均值為0,方差為σ2的高斯分布。
經(jīng)由噪聲干擾后的信號R進入解碼器后,先進行信道解碼。信道解碼層為兩個隱藏單元數(shù)逐漸增大的全連接層,最后一層的隱藏單元數(shù)設為D以確保維度一致,信道解碼的輸出記為Rc,可表示為:
W3,W4為全連接層的權重矩陣,b3,b4為全連接層的偏置。
語義解碼層的由兩個Transformer解碼塊連接組成。Transformer解碼塊包含兩級不同的注意力層。第一級注意力層的Q、K、V均由前一層解碼塊的輸出得到,第二級注意力層的Q來自于前一級注意力層的輸出,而K、V通過編碼塊的輸出得到。
語義解碼層的輸入分為兩部分,一部分是信道解碼的輸出Rc,一部分是已知的解碼結果,通過兩部分的輸入共同推測下一個解碼結果。如圖2所示,語義解碼層首先把句首標識符作為輸入,與Rc結合推測出第一個輸出w1',之后將與w1'合并作為第二次輸入,再結合Rc推測出第二個輸出w2',以此循環(huán),直到接收到句尾標識符,獲得完整的輸出s'。在訓練時,將待解碼的結果直接設置為語義解碼層的輸入,從而加快訓練速度,在測試時,采用上述的解碼方式逐詞預測得到輸出s'。
將輸入句子s與輸出句子s'的交叉熵作為網(wǎng)絡訓練的損失函數(shù),可表示為:
其中,q(wi)表示輸入句子s中第i個詞為wi的真實概率,p(wi)表示輸出句子s'中第i個詞為wi的預測概率。
采用詞準確率作為評估模型表現(xiàn)的標準,可表示為:
Equal函數(shù)判斷s中第i個詞wi與s'中第i個詞wi'是否相等,相等返回1,不等返回0。n為s中包含的單詞總數(shù)。
為了驗證算法的有效性,將本文提出基于深度學習的模型與傳統(tǒng)的信源信道編解碼模型在AWGN信道下的表現(xiàn)進行了對比,比較了在傳輸比特數(shù)有限的情況下不同模型的效果。
采用歐洲議會語料庫[12]作為文本數(shù)據(jù)集,其中包含220萬個句子以及5 300萬個單詞。對數(shù)據(jù)集進行預處理,選擇長度為4~30個單詞的句子并分為訓練集與測試集。處理后的訓練集包含116萬個句子,測試集包含1.2萬個句子。
網(wǎng)絡參數(shù)的設置如表1所示,模型維度D設置為512,編碼器包含兩個8頭的transformer編碼塊以及兩個全連接層,解碼器包含兩個全連接層以及兩個8頭的transformer解碼塊。
表1 網(wǎng)絡參數(shù)值
用于對比的傳統(tǒng)模型采用哈夫曼編碼與5 bit定長編碼作為信源編碼方式,信道編碼統(tǒng)一采用RS(7, 5)編碼,調(diào)制解調(diào)方式為2PSK。在傳輸比特數(shù)有限時,優(yōu)先保證已編碼部分的準確率直至達到比特數(shù)限制。
圖3比較了在平均每單詞比特數(shù)一定時,本文提出的基于深度神經(jīng)網(wǎng)絡的語義通信模型與兩種傳統(tǒng)通信模型在不同信噪比下的詞準確率??梢钥闯?,在平均每單詞比特數(shù)為16 bits/詞時,5 bit定長編碼的效果最差,哈夫曼編碼略優(yōu)于5 bit定長編碼,本文所提模型在全部信噪比環(huán)境下均優(yōu)于兩種傳統(tǒng)模型。在較高信噪比時,本文所提模型的效果更好。兩種傳統(tǒng)模型在信噪比較高時的詞準確率均無法隨信噪比增大而提升,其原因是平均每單詞比特數(shù)有限且無法滿足該方式下的編碼需求,有部分句子中的單詞無法被編碼。
圖3 平均每單詞比特數(shù)為16 bits/詞,語義通信模型和其他模型在不同信噪比下的準確率
圖4比較了在信噪比為9 dB時,本文提出的模型與兩種傳統(tǒng)通信模型在平均每單詞比特數(shù)不同時的詞準確率。當給定平均每單詞比特數(shù)較高時,所有模型均可達到很高的準確率。當給定的單詞比特數(shù)很少,如8 bits/詞時,三種模型的準確率均較低,語義通信模型的準確率更低一些,其原因是在仿真時,語義通信模型對所有單詞分配相同的編碼比特數(shù),而傳統(tǒng)模型利用有限的比特數(shù)優(yōu)先保證已編碼部分內(nèi)容的準確傳輸。當平均每單詞比特數(shù)適中,在12~24 bits/詞時,哈夫曼編碼的效果略優(yōu)于5 bit定長編碼,本文所提模型明顯優(yōu)于兩種傳統(tǒng)模型。總體而言,本文所提模型能夠利用有限的平均每單詞比特數(shù)進行編碼,并取得比傳統(tǒng)通信模型更高的準確率。
圖4 信噪比為9 dB時,語義通信模型和其他模型在不同平均每單詞比特數(shù)下的準確率
本文提出一種以文本為傳輸內(nèi)容的語義通信系統(tǒng),利用內(nèi)容的語義信息進行編碼傳輸。仿真驗證表明,在AWGN信道下,相較于傳統(tǒng)通信方式,本文所提模型的傳輸數(shù)據(jù)更少,準確率更高。結果驗證了語義通信的方式能夠有效減少傳輸數(shù)據(jù),降低通信耗費,符合6G時代的智能通信需求,是未來通信技術的發(fā)展方向。