徐大專,劉 甜
(南京航空航天大學(xué)電子信息工程學(xué)院,南京 211106)
率失真函數(shù)是信源編碼的理論下界,已成為信源數(shù)據(jù)壓縮的理論基礎(chǔ)。率失真的思想最早來(lái)源于香農(nóng)在1948年發(fā)表的經(jīng)典論文[1]。不久后,前蘇聯(lián)的Kolmogorov[2]在1956年開始發(fā)展率失真理論。Shannon于1959年系統(tǒng)地闡述了率失真理論[3],并證明了第一率失真定理。對(duì)于更一般的信源,Berg?er[4?5]完善了信息率失真理論和限失真的信源編碼定理。1972年,Blahut[6]將計(jì)算信道容量的迭代算法成功地用于計(jì)算離散信源的率失真函數(shù)。
隨著通信網(wǎng)絡(luò)、特別是移動(dòng)通信技術(shù)的進(jìn)步,率失真理論也在向網(wǎng)絡(luò)化方向發(fā)展。在分布式信源編碼方面,最經(jīng)典的結(jié)果是Berger[7]和Tung[8]給出的內(nèi)界。盡管Berger?Tung問(wèn)題到目前為止仍然維持開放,但其中部分問(wèn)題已經(jīng)得到解決。在漢明失真條件下,Slepian和Wolf[9]、Ahlswede和Korner[10]、Wyner[11]給出不同情形下的可達(dá)碼率區(qū)域。Berger和Yeung[12]則給出更一般的解。
針對(duì)均方失真條件下的高斯信源,Oohama[13]給出帶邊信息的率失真區(qū)域。針對(duì)Berger等提出的編碼器不能直接觀測(cè)到信源,而只能觀測(cè)受到噪聲干擾信源的CEO(Chief executive officer)問(wèn)題,Prab?hakaran等[14]、Oohama[15]分別獨(dú)立地得到高斯CEO問(wèn)題的率失真區(qū)域。Wagner等[16]進(jìn)一步解決了帶邊信息的CEO問(wèn)題,從而,最終完全解決了高斯Berger?Tung問(wèn)題。東南大學(xué)的徐寅飛[17]在其博士論文中解決了跡失真約束下的向量高斯CEO問(wèn)題。
目前,關(guān)于限失真信源編碼的率失真函數(shù)理論尚存在一些問(wèn)題沒有解決。首先,率失真函數(shù)本質(zhì)上是一個(gè)約束變分問(wèn)題,求解本身較為復(fù)雜,目前只有為數(shù)不多的信源可求得率失真函數(shù)的閉式解。均勻分布是最常見的信源,商用的模數(shù)變換器都是針對(duì)均勻分布信源設(shè)計(jì)的,但其率失真函數(shù)尚不可知。其次,對(duì)給定信源采用何種失真準(zhǔn)則并無(wú)定論,比如高斯分布信源通常采用均方失真準(zhǔn)則,那么,能否采用絕對(duì)值失真準(zhǔn)則呢。在多維情況下,失真函數(shù)問(wèn)題更加復(fù)雜,比如,既有矩陣失真準(zhǔn)則,也有跡失真準(zhǔn)則等不同形式。
率失真函數(shù)都是在編碼側(cè)定義的,但一個(gè)有趣的現(xiàn)象是,實(shí)際信源編碼器設(shè)計(jì)往往從譯碼側(cè)出發(fā),比如著名的Lloyd算法就是基于譯碼器平均失真最小化設(shè)計(jì)的。這種從譯碼側(cè)定義失真度的思想與作者在空間信息論中提出的熵誤差[18]概念不謀而合,參數(shù)估計(jì)方法的性能就是用后驗(yàn)熵或后驗(yàn)熵誤差評(píng)價(jià)的。本文以譯碼器的條件微分熵作為不確定度準(zhǔn)則,提出信息率?微分熵函數(shù)的概念,以下簡(jiǎn)稱率熵函數(shù)。雖然率熵函數(shù)定義為互信息的約束變分問(wèn)題,但可以通過(guò)構(gòu)造變分問(wèn)題的特解求率熵函數(shù)的閉式解。
本文提出了構(gòu)造變分問(wèn)題特解的4種方法,即熵不變準(zhǔn)則、獨(dú)立誤差準(zhǔn)則、再生性準(zhǔn)則和弱再生性準(zhǔn)則。據(jù)此得到目前常見概率分布的率熵函數(shù)閉合表達(dá)式,包括均勻分布、具有再生性的概率分布、向量高斯分布以及存在特征函數(shù)和熵函數(shù)的分布。
率熵函數(shù)中的不確定度H不滿足非負(fù)性,因此,不確定度并不滿足失真函數(shù)的定義。將不確定度通過(guò)冪指數(shù)的形式映射成非負(fù)實(shí)數(shù)D(H),可以得到廣義失真測(cè)度。這種廣義失真測(cè)度具有明顯的優(yōu)越性,高斯信源的廣義失真測(cè)度自適應(yīng)于均方失真準(zhǔn)則,而拉普拉斯信源的廣義失真測(cè)度自適應(yīng)于絕對(duì)值失真準(zhǔn)則。針對(duì)向量高斯信源,廣義失真測(cè)度則自適應(yīng)于誤差協(xié)方差矩陣的行列式,既不同于矩陣失真測(cè)度,也不同于跡失真測(cè)度。
設(shè)連續(xù)信源X的概率密度函數(shù)(Probability density function,PDF)為p(x),描述編碼器的條件信道為編碼輸出信宿的PDF為?之間的失真函數(shù)為非負(fù)實(shí)數(shù),平均失真為dˉ=平均失真滿足的所有試驗(yàn)信道集合為則信息率失真函數(shù),或率失真函數(shù)定義為
式中inf(?)表示下確界。失真函數(shù)的具體形式由實(shí)際應(yīng)用場(chǎng)景確定,常見的失真函數(shù)采用平方失真對(duì)應(yīng)的平均失真度分別稱為均方失真準(zhǔn)則和絕對(duì)失真準(zhǔn)則。
率失真函數(shù)定義為互信息的約束變分問(wèn)題,下確界的求解十分復(fù)雜,目前只有高斯分布等少數(shù)幾類信源的率失真函數(shù)存在閉式解?;蚪^對(duì)值失真
信息率熵函數(shù)(下稱率熵函數(shù))與率失真函數(shù)的不同主要表現(xiàn)在如下兩方面:
(1)率失真函數(shù)從編碼側(cè)定義,而率熵函數(shù)是從譯碼側(cè)定義的。
求解變分問(wèn)題,而是試圖構(gòu)造譯宿分布的特解滿足式(4),且達(dá)到下確界。
定理1指出,求率熵函數(shù)不一定非求變分不可,只要在集合GH中尋找達(dá)到下確界的特解。下面的推論進(jìn)一步縮小求解的范圍。
推論1.1的條件是譯碼器的不確定度處處相等,而與信宿無(wú)關(guān)。
考慮率熵函數(shù)R(H)的定義域。由互信息的非負(fù)性,必有H≤h(X)。由于譯碼器的微分熵有可能為負(fù)值,故H∈(-∞,h(X)]??梢宰C明率熵函數(shù)R(H)有以下性質(zhì):
(1)非負(fù)性R(H)≥0,等號(hào)成立當(dāng)且僅當(dāng)X?和X相互獨(dú)立;
(2)R(H)是H的單調(diào)下降函數(shù)。
均勻分布是最常見的概率分布,然而,均勻分布信源的率失真函數(shù)至今尚不清楚。設(shè)均勻分布信源的PDF為
式中H=log2Δ。如果用Δ=2H表示失真度,那么,均勻分布信源的率失真函數(shù)為
這里失真度Δ=2H既不是均方失真,也不是絕對(duì)失真,而只是譯碼器微分熵的指數(shù)函數(shù)。這就是傳統(tǒng)方法無(wú)法求解率失真函數(shù)的原因。
率失真函數(shù)R(Δ)與傳統(tǒng)率失真函數(shù)有類似的特性,比如
(1)定義域?yàn)棣ぁ?0,2h(X)],當(dāng)Δ→0,R(Δ)→∞;當(dāng)Δ=2h(X),R(Δ)=0。
(2)R(Δ)是Δ的單調(diào)下降函數(shù)。
具有再生性的概率分布有很多,如高斯分布和柯西分布等,本文稱概率分布具有再生性的信源為再生信源。再生信源的率熵函數(shù)和率失真函數(shù)存在簡(jiǎn)單的求解方法。
推論2.1設(shè)信源X的概率分布p(x)具有再生性,則X的率熵函數(shù)為R(H)=h(X)-H。
式中:失真度D僅僅是與微分熵對(duì)應(yīng)的一個(gè)參數(shù),在推導(dǎo)過(guò)程中并未定義率失真函數(shù)的具體形式。
算例2柯西分布信源的率失真函數(shù)
設(shè)柯西信源的概率分布p(x)服從柯西分布,即
由于柯西分布不存在一階及以上統(tǒng)計(jì)量,因此,這里的熵冪失真度既不是絕對(duì)失真,也不是均方失真,而僅僅反映柯西分布的尺度參數(shù)。
柯西分布的率失真函數(shù)如圖1所示,它的定義域?yàn)?0,λ],圖為λ=6的情況。當(dāng)D→0時(shí),信息率趨于無(wú)窮,這與連續(xù)信源的絕對(duì)不確定性為無(wú)窮大一致。隨著熵冪失真度增加,信息率呈指數(shù)下降。當(dāng)D→λ時(shí),信息率等于零,這表明當(dāng)熵失真度足夠大時(shí),不需要傳輸任何信息量。
圖1 柯西信源的R(D)函數(shù)曲線Fig.1 R(D)function of Cauchy source
算例3向量高斯信源的率失真函數(shù)
設(shè)N維向量高斯信源的PDF為
式中Σ為滿秩協(xié)方差矩陣。信源的微分熵為
表1 再生信源的率熵函數(shù)Table 1 Rate entropy functions of regenerative sources
再生信源只有少數(shù)幾種,絕大多數(shù)信源不滿足再生性條件。為此,放寬再生性條件為
設(shè)拉普拉斯信源(后簡(jiǎn)稱拉氏信源)的PDF為
式中δ(x)為單位沖激函數(shù)。
X?的PDF在0點(diǎn)出現(xiàn)單位沖激函數(shù)是由于拉氏分布在0點(diǎn)不光滑導(dǎo)致。雖然?的PDF含有沖激函數(shù),但X?的概率分布函數(shù)
由定理1,拉氏信源的率失真函數(shù)
式中D即為拉氏信源的熵冪失真度。
由于拉氏信源不是再生信源,譯碼器仍然采用弱再生性假設(shè)比較生硬,信宿中出現(xiàn)沖激函數(shù)可以看成是對(duì)這一處理方法的抗議。由弱再生假設(shè)得到的僅僅是譯宿分布的一組特解,有可能存在其他性質(zhì)更好的解。
特征函數(shù)的逆變換也是傅里葉變換,存在的充要條件是特征函數(shù)φΘ?(t)滿足Dirichlet條件:
(1)φΘ?(t)絕對(duì)可積;
(2)φΘ?(t)具有有限個(gè)極值點(diǎn);
(3)φΘ?(t)連續(xù)或具有有限個(gè)第一類間斷點(diǎn)。
由于貝塞爾函數(shù)是連續(xù)的,因此,φX?(t)滿足Dirichlet條件(3)。由于I|t|(D)函數(shù)非負(fù),因此,對(duì)任意給定的變量,特征函數(shù)φX?(t)<∞是有界的。另外,當(dāng)D≤κ時(shí)
故特征函數(shù)滿足Dirichlet條件(2)。雖然不知道φX?(t)是否滿足絕對(duì)可和條件,但如果允許其逆傅里葉存在沖激函數(shù),那么,雖然還不能得到
馮·米塞斯分布的微分熵有閉合表達(dá)式,即
表2給出幾種常見概率分布的特征函數(shù)和微分熵,表3給出幾種常見概率分布的率失真函數(shù)。
表2 幾種常見概率分布的特征函數(shù)和微分熵Table 2 Characteristic functions and differential entropy of several common probability distributions
表3 幾種常見信源的率失真函數(shù)Table 3 Rate distortion functions for several common sources
本文從譯碼側(cè)提出了率熵函數(shù)的概念,并給出嚴(yán)格定義,其中熵失真度也是一種平均失真。為求解信源的率熵函數(shù),提出了構(gòu)造變分問(wèn)題特解的4種方法,并得到了包括均勻分布在內(nèi)的常見概率分布的率熵函數(shù)閉合表達(dá)式。為解決熵失真度不滿足非負(fù)性問(wèn)題,提出了熵冪失真度的概念,此失真度能更好地反映信源的統(tǒng)計(jì)特征,如,對(duì)于正態(tài)分布信源,熵冪失真度等于均方誤差(二階統(tǒng)計(jì)量),對(duì)于指數(shù)分布信源則等于絕對(duì)值誤差(一階統(tǒng)計(jì)量)。對(duì)于柯西分布,由于它不存在一階及以上統(tǒng)計(jì)量,因此,絕對(duì)失真度和均方失真度都不存在。本文中柯西分布的熵冪失真度就是其尺度參數(shù),從而避免了傳統(tǒng)率失真函數(shù)定義問(wèn)題。
本文是關(guān)于率熵函數(shù)的第一篇論文,率熵函數(shù)與率失真函數(shù)之間的關(guān)系尚未得到充分研究。率熵函數(shù)在分布式信源編碼、多終端信源編碼和多層描述編碼等領(lǐng)域的研究工作未及展開,一系列重要理論問(wèn)題有待進(jìn)一步研究,期望得到信息論學(xué)界的高度關(guān)注。