自適應(yīng)語音壓縮感知方法

2012-09-17 06:57:22羅武駿陶文鳳左加闊

東南大學(xué)學(xué)報(bào)（自然科學(xué)版） 2012年6期

關(guān)鍵詞：字典重構(gòu)語音

羅武駿陶文鳳左加闊趙力

(東南大學(xué)水聲信號處理教育部重點(diǎn)實(shí)驗(yàn)室，南京 210096)

自適應(yīng)語音壓縮感知方法

羅武駿陶文鳳左加闊趙力

(東南大學(xué)水聲信號處理教育部重點(diǎn)實(shí)驗(yàn)室，南京 210096)

針對固定正交基下語音信號稀疏化程度低、適應(yīng)性差的問題，提出了一種自適應(yīng)的語音稀疏化方法，并將其應(yīng)用到語音壓縮感知理論中.該方法首先采用線性預(yù)測系數(shù)的加權(quán)線性組合對語音信號進(jìn)行線性預(yù)測，并以線性預(yù)測殘差基作為信號基.然后，按照稀疏約束條件訓(xùn)練出稀疏表示的過完備字典，并交替應(yīng)用1-范數(shù)稀疏約束的追蹤和奇異值分解算法，達(dá)到字典與稀疏系數(shù)同步更新.該方法從信號特征入手，學(xué)習(xí)并提取特征或紋理信息，能較好地實(shí)現(xiàn)語音信號的稀疏化，提高語音壓縮感知的重構(gòu)性能.實(shí)驗(yàn)結(jié)果顯示，與其他正交基方法相比，該方法的語音稀疏化程度高.語音質(zhì)量的主客觀評價(jià)結(jié)果顯示，該方法具有良好的重構(gòu)性能.

壓縮感知;稀疏性;語音;線性預(yù)測

2006年，Candes等［1-2］提出了壓縮感知(compressed sensing，CS)理論，在某種程度上突破了奈奎斯特采樣定律的限制.壓縮感知理論在信息采樣上的特性使其具有巨大的吸引力和應(yīng)用前景，其應(yīng)用研究已經(jīng)涉及眾多領(lǐng)域［3］，如CS雷達(dá)、分布壓縮感知理論、無線傳感網(wǎng)絡(luò)、圖像采集設(shè)備的開發(fā)、醫(yī)學(xué)圖像處理、生物傳感、光譜分析、超譜圖像處理及遙感圖像處理等.在CS理論中，找到信號的最佳稀疏表示，是應(yīng)用的基礎(chǔ)和前提.

信號的稀疏性研究是信號與信息處理中的一個(gè)重要課題.稀疏變換是信號稀疏表示的關(guān)鍵技術(shù)，常用的稀疏變換方法有傅里葉變換、小波變換、KL變換以及最近發(fā)展的稀疏字典等.傅里葉變換、離散余弦變換(DCT)以及其他一些域［4-5］的變換中都包含固定的正交基，變換比較簡單.然而，對于具有復(fù)雜結(jié)構(gòu)和特征的信號，例如語音信號(短時(shí)平穩(wěn)，長時(shí)間則不具有穩(wěn)定性)，固定的正交基難以捕獲完整信息以使信號在變換域中足夠稀疏，因此在稀疏表示方面顯現(xiàn)出不足，或者無法很稀疏地表示信號.為了更好地表示變化信號的稀疏性，部分學(xué)者提出采用自適應(yīng)冗余字典的構(gòu)造方法［6-8］，從信號本身的特征出發(fā)，學(xué)習(xí)并提取特征或者紋理信息.

本文針對固定正交基下語音稀疏化效果差的問題，首先在殘差域稀疏的約束條件下對語音信號做線性預(yù)測，并求殘差，從而得到稀疏變換基;然后，采用自適應(yīng)訓(xùn)練字典的方法對語音信號進(jìn)行壓縮;最后，采用范數(shù)約束算法對語音信號進(jìn)行重構(gòu)，并對重構(gòu)語音進(jìn)行主客觀評價(jià).

1 壓縮感知理論

壓縮感知的前提條件是信號必須是稀疏的.已知一維離散信號 x={x(1)，x(2)，…，x(N)}T，變換矩陣Ψ=［φ1，φ2，…，φN］的列向量互相正交，其中φi(i=1，2，…，N)為 N×1的向量，則信號 x可以表示為

式中，α={α1，α2，…，αN}T為原始信號在變換域中的系數(shù).若對于0＜p＜2且R＞0，α滿足，則說明信號x在某種意義下是稀疏的.

如果信號x是L稀疏的，則可以用一個(gè)與正交基Ψ不相關(guān)的觀測矩陣A(A是一個(gè)M×N的矩陣，M?N)對信號x進(jìn)行線性變換，得到觀測向量y(y是一個(gè)M維的列向量)，即

將式(1)代入式(2)，得

令A(yù)Ψ=Θ，則y=Θα.由于y的維數(shù)M 遠(yuǎn)遠(yuǎn)小于x的維數(shù)N，故認(rèn)為觀測信號y已被壓縮.

已知y和A求解x，是一個(gè)病態(tài)問題，即無法直接從測量值y中解出信號x.然而，當(dāng)式(3)中的α是L稀疏的，即僅有L個(gè)非零系數(shù)，且L＜M?N時(shí)，根據(jù)信號稀疏分解理論中已有的稀疏分解算法，可以通過求解式(3)的逆問題得到系數(shù)α，再代入式(1)便可進(jìn)一步得到信號x.最直接的重構(gòu)方法是通過l0-范數(shù)求解式(3)的最優(yōu)化問題，即

從而得到稀疏系數(shù)α的估計(jì).由于式(4)的求解是個(gè)病態(tài)問題，而該最優(yōu)化問題與信號的稀疏分解中求解稀疏的問題十分類似，因此有學(xué)者從信號稀疏分解的相關(guān)理論中尋找到更有效的求解途徑.常用的求解方法有基追蹤法(basic pursuit，BP)［9］、匹配追蹤法(matching pursuit，MP)［10］和正交匹配追蹤法(orthogonal pursuit，OP)等［8］.

2 自適應(yīng)語音稀疏化方法

2.1 基于線性預(yù)測的殘差基

傳統(tǒng)的線性預(yù)測是基于AR模型的，用x中前P個(gè)值的加權(quán)線性組合來預(yù)測x［7］，即

式中，a(k)為預(yù)測系數(shù);e(n)為預(yù)測誤差.通過最小化預(yù)測誤差e(n)的均方值來估計(jì)a(k).考慮到利用預(yù)測誤差的稀疏性，本文采用1-范數(shù)約束預(yù)測誤差.因此，優(yōu)化問題可以描述為

令N1=P+1，N2=N，并且假設(shè)當(dāng)n＜1或n＞N時(shí)x(n)=0，即相當(dāng)于對每幀信號加矩形窗.式(6)可根據(jù)線性規(guī)劃進(jìn)行求解，求出的預(yù)測系數(shù)a使得預(yù)測誤差e(n)具有稀疏性質(zhì).在預(yù)測系數(shù)已知的情況下，預(yù)測誤差可以表示為

式中，B為N×N的矩陣，且由預(yù)測系數(shù)a構(gòu)成.因此，式(7)可以改寫為

式中，H為B的逆矩陣，也被稱之為合成矩陣.矩陣H是將殘差域映射到原始時(shí)域的基.實(shí)際上，H是全極點(diǎn)濾波器的單位脈沖響應(yīng)矩陣［11］，此處不需要計(jì)算B矩陣的逆矩陣，可直接利用H代替.

2.2 自適應(yīng)的完備字典

基于稀疏表示的過完備字典訓(xùn)練方法(KSVD)［8］能夠自適應(yīng)地按照稀疏約束條件訓(xùn)練出稀疏表示的過完備字典.與傳統(tǒng)的完備字典相比，自適應(yīng)的完備字典具有更強(qiáng)的稀疏表示能力.該方法交替應(yīng)用1-范數(shù)稀疏約束的追蹤和奇異值分解算法，實(shí)現(xiàn)字典與稀疏系數(shù)同步更新.

假設(shè)訓(xùn)練信號為矩陣 W=［w1，w2，…，wl］，待訓(xùn)練的字典D=［d1，d2，…，dk］，稀疏系數(shù) Z=［z1，z2，…，zl］，其中 wi表示一幀訓(xùn)練信號.則 K-SVD算法模型可描述為

式中，T0表示稀疏度.

具體的算法步驟如下:

①字典初始化.即將矩陣D賦予初始值，一般情況下，直接將訓(xùn)練信號按照列排列組成比值.

②稀疏編碼.當(dāng)D固定時(shí)，式(9)是一個(gè)優(yōu)化問題，即已知W和D求解稀疏系數(shù)Z，代價(jià)函數(shù)可以改寫成，因此式(9)等價(jià)于

利用基追蹤算法即可計(jì)算稀疏系數(shù)zi.

③字典更新.逐列更新訓(xùn)練字典D，相應(yīng)的稀疏表示矩陣也同步地逐行更新.記字典D的第K列為dK，在Z中相對應(yīng)的稀疏表示系數(shù)即為第K行的zTK，則式(8)中的代價(jià)函數(shù)可以改寫為

式中表示抽取字典的第K列之后的誤差.

在代價(jià)函數(shù)中，將 DZ抽離成2個(gè)部分，即dKzTK以及去掉第K列與第K行相乘的部分.由式(11)可知，EK代表抽取字典中第K列之后的誤差.然后，用奇異值分解的方法分解EK來近似表示dK和 zTK.為保證zTK的稀疏性，定義一個(gè)矩陣ΩK，其大小為且在位置(wK(i)，i)處的元素值為1，其余位置元素值為0.當(dāng)矩陣ΩK作用于zTK和W時(shí)，會(huì)剔除稀疏系數(shù)已經(jīng)為0的信號.

可以利用奇異值分解的方法直接更新字典，本算法中采用字典逐列更新的方式.當(dāng)所有列都已經(jīng)更新一遍后，重復(fù)步驟②，直至迭代結(jié)束［12］.

迭代停止的條件有2種:①限制迭代次數(shù).如在實(shí)驗(yàn)過程中得出的經(jīng)驗(yàn)值是10，則當(dāng)?shù)螖?shù)達(dá)到10時(shí)訓(xùn)練的字典效果已非常明顯.②設(shè)置一個(gè)固定值，當(dāng)稀疏表示誤差達(dá)到該值時(shí)停止迭代.

3 實(shí)驗(yàn)結(jié)果與分析

3.1 稀疏性分析

在語音信號稀疏域的分析實(shí)驗(yàn)中，安靜環(huán)境下錄制中文男生語音，并對信號進(jìn)行采樣，采樣率為8 kHz，每幀包含256個(gè)采樣點(diǎn).自適應(yīng)訓(xùn)練字典在訓(xùn)練時(shí)采用同一個(gè)人的不同語音語料，時(shí)間大約是2 min，即9.6×105個(gè)采樣點(diǎn).稀疏度S0的表達(dá)式為

式中，Q為幀長;x'i為稀疏化后的預(yù)測系數(shù).

為了說明不同稀疏基對語音信號稀疏表示的影響，比較了語音信號在稀疏基DCT，KL和自適應(yīng)訓(xùn)練字典基下的平均稀疏度，實(shí)驗(yàn)結(jié)果見表1.由表可知，DCT變換壓縮性能較好，因此具有較好的稀疏性表示.但是，DCT變換缺乏時(shí)間/空間分辨率，不能有效地提取具有時(shí)頻局部化特性的信號的特征.由于DCT變換中基是固定的，因此DCT變換無法自適應(yīng)地根據(jù)當(dāng)前信號的特點(diǎn)靈活、簡潔地表示稀疏信號.KL變換充分運(yùn)用了當(dāng)前信號的特征，因而相對于DCT變換在稀疏表示方面表現(xiàn)出了較大的優(yōu)勢.KL變換的缺點(diǎn)是，對每一幀信號都需要重新計(jì)算KL變換矩陣，計(jì)算量明顯增加，影響了壓縮感知的實(shí)用性.另外，值得注意的是，語音信號分為濁音和清音，濁音具有明顯的周期性，清音則類似于白噪聲，KL變換對于濁音具有可觀的稀疏性，但在清音段卻沒有稀疏性;語音信號中大部分能量是集中在濁音段的，因此，KL變換對信號恢復(fù)的影響不是很大.本文方法與前2種方法最明顯的區(qū)別在于，前者在稀疏化后絕大部分稀疏值都為0，只有少數(shù)幾個(gè)點(diǎn)有較大值，因而滿足絕對稀疏的條件.本文方法最大的優(yōu)點(diǎn)是信號重構(gòu)時(shí)誤差較小，與其他稀疏基相比，訓(xùn)練字典的稀疏性表示效果最好，但付出的代價(jià)是訓(xùn)練時(shí)間較長.

表1 不同稀疏基下一幀語音的平均稀疏度比較

綜上所述，對比各種不同稀疏域的效果，計(jì)算復(fù)雜度與稀疏性似乎總存在矛盾.采用固定的正交基對信號進(jìn)行稀疏表示是快速簡單的方法，但在稀疏表示方面不夠靈活，自適應(yīng)的殘差域和訓(xùn)練的字典能夠靈活地捕捉到信號的變化情況，因此能夠較好地表示變化的稀疏信號，但同時(shí)也導(dǎo)致計(jì)算量明顯增加.因此，在實(shí)際應(yīng)用中，還需根據(jù)具體需求選擇稀疏基.例如，實(shí)時(shí)系統(tǒng)對計(jì)算復(fù)雜度有嚴(yán)格的要求，合適的固定正交基是首選;后期處理系統(tǒng)對計(jì)算精度要求較高，應(yīng)將自適應(yīng)的字典作為首選.

3.2 重構(gòu)性能分析

實(shí)驗(yàn)環(huán)境是安靜的.對2個(gè)說話人的語音進(jìn)行采樣，采樣頻率為8 kHz.每個(gè)說話人各錄音5 min普通話，而后進(jìn)行分幀處理(速率為30 ms/幀).稀疏基選取的是線性殘差域，重構(gòu)算法是1-范數(shù)約束算法.實(shí)驗(yàn)中對男聲和女聲的語音信號分別進(jìn)行壓縮和重構(gòu).為了評估重構(gòu)算法的性能，采用語音質(zhì)量評價(jià)中常用的客觀評價(jià)方法和主觀評價(jià)方法，分別定義如下:

1)主觀評價(jià)方法.分值算法用于對語音通信系統(tǒng)質(zhì)量和語音整體滿意度進(jìn)行評價(jià).語音質(zhì)量的感性評價(jià)(PESQ)方法可以根據(jù)一些感知標(biāo)準(zhǔn)來客觀地評價(jià)語音信號的質(zhì)量，從而提供可以完全量化的語音質(zhì)量衡量準(zhǔn)則［13］.

2)客觀評價(jià)方法.信噪比(SNR)是一種簡單的時(shí)域客觀評價(jià)失真測度.實(shí)驗(yàn)中采用幀平均信噪比來衡量重構(gòu)誤差，其定義如下［14］:

式中，Nf表示總幀數(shù);qm表示語音信號;m表示重構(gòu)的語音信號.顯然，幀平均信噪比越高，重構(gòu)的效果越好.

表2給出了不同壓縮比下男聲和女聲語音信號的MOS值和信噪比.由表可知，壓縮感知的重構(gòu)性能與壓縮比成正比.因此，可以通過適當(dāng)?shù)靥岣邏嚎s比來增強(qiáng)語音的重構(gòu)效果.

表2 不同壓縮比下MOS值和信噪比比較

4 結(jié)語

壓縮感知理論通常涉及觀測矩陣選取、稀疏基構(gòu)造以及重構(gòu)算法構(gòu)建3個(gè)問題.本文對稀疏基的構(gòu)建進(jìn)行了分析和改進(jìn)，通過實(shí)驗(yàn)說明了壓縮感知算法在不同稀疏基下對信號稀疏表示的影響.針對固定正交基下語音信號稀疏化程度低、適應(yīng)性差的問題，提出了一種自適應(yīng)的語音稀疏化方法，并將其應(yīng)用到語音壓縮感知理論中.該方法從信號特征入手，學(xué)習(xí)并提取特征或紋理信息，能較好地實(shí)現(xiàn)語音信號的稀疏化，提高語音壓縮感知的重構(gòu)性能.實(shí)驗(yàn)結(jié)果證明該方法具有良好的重構(gòu)性能.

［1］ Candes E J，Tao T.Near-optimal signal recovery from random projections:universal encoding strategies?［J］.IEEE Transactions on Information Theory，2006，52(12):5406-5425.

［2］ Donoho D L.Compressed sensing［J］.IEEE Transactions on Information Theory，2006，52(4):1289-1306.

［3］石光明，劉丹華，高大化，等.壓縮感知理論及其研究進(jìn)展［J］.電子學(xué)報(bào)，2009，37(5):1070-1081.

Shi Guangming，Liu Danhua，Gao Dahua，et al.Advances in theory and application of compressed sensing［J］.Acta Electronica Sinica，2009，37(5):1070-1081.

［4］ Davies M E，Daudet L.Sparse audio representations using the MCLT［J］.Signal Processing，2006，86(3):457-470.

［5］梁瑞宇，鄒采榮，趙力，等.語音壓縮感知及其重構(gòu)算法［J］.東南大學(xué)學(xué)報(bào):自然科學(xué)版，2011，41(1):1-5.

Liang Ruiyu，Zou Cairong，Zhao Li，et al.Compressed sensing in speech and its reconstruction algorithm［J］.Journal of Southeast University:Natural Science Edition，

2011，41(1):1-5.

［6］ Candes E J，Eldar Y C，Needell D，et al.Compressed sensing with coherent and redundant dictionaries［J］.Applied and Computational Harmonic Analysis，2011，31(1):59-73.

［7］Giacobello D，Christensen M G，Murthi M N，et al.Retrieving sparse patterns using a compressed sensing framework:applications to speech coding based on sparse linear prediction［J］.IEEE Signal Processing Letters，2010，17(1):103-106.

［8］ Aharon M，Elad M A，Bruckstein.K-SVD:an algorithm for designing overcomplete dictionaries for sparse representation［J］.IEEE Transactions on Signal Processing，2006，54(11):4311-4322.

［9］ Chen S S，Donoho D L，Saunders M A.Atomic decomposition by basis pursuit［J］.SIAM Review，2001，43(1):129-159.

［10］Goodwin M M，Vetterli M.Matching pursuit and atomic signal models based on recursive filter banks［J］.IEEE Transactions on Signal Processing，1999，47(7):1890-1902.

［11］ Giacobello D，Christensen M G，Murthi M N，et al.

Sparse linear prediction and its applications to speech processing［J］.IEEE Transactions on Audio，Speech，and Language Processing，2012，20(5):1644-1657.［12］ Elad M，Bruckstein A M.A generalized uncertainty principle and sparse representation in pairs of bases［J］.IEEE Transactions on Information Theory，2002，48(9):2558-2567.

［13］Cristobal E，F(xiàn)lavian C，Guinaliu M.Perceived e-service quality(PeSQ):measurement validation and effects on consumer satisfaction and web site loyalty［J］.Managing Service Quality，2007，17(3):317-340.

［14］ Emiya V，Vincent E N，Harlander，et al.Subjective and objective quality assessment of audio source separation［J］.IEEE Transactions on Audio，Speech，and Language Processing，2011，19(5):2046-2057.

Adaptive compressed sensing method for speech

La Vu Tuan Dao Van Phuong Zuo Jiakuo Zhao Li

(Key Laboratory of Underwater Acoustic Signal Processing of Ministry of Education，Southeast University，Nanjing 210096，China)

To overcome the problem that the method of sparsification for speech signal based on fixed orthogonal base has a low sparsity and is not adaptive，a new adaptive sparsification algorithm is developed for speech signal compression.First，speech signal is predicted by linear predication using weighted linear combination of linear predictive coefficients，and the linear prediction residual are used as the signal bases.Then，the adaptive training dictionary is trained under the sparsity constraint，and the dictionary and sparsity coefficients are updated by alternatively using 1-norm sparsity constraint pursuit and singular value decomposition(SVD)algorithm.By analyzing the feature of speech signals，the new scheme can exactly extract essential feature or texture feature，and can obtain better sparsification performance and reconstruction performance for speech signal.The experimental results show that compared with other orthogonal base algorithms，the sparsity of speech signals with the proposed method is obviously improved.The subjective and objective evaluation results of speech quality also show that the proposed method exhibits a good reconstruction performance in speech signal.

compressed sensing;sparsity;speech;linear prediction

TN912

1001－0505(2012)06-1027-04

10.3969/j.issn.1001 －0505.2012.06.001

2012-04-05.

羅武駿(1985—)，男，博士生;趙力(聯(lián)系人)，男，博士，教授，博士生導(dǎo)師，zhaoli@seu.edu.cn.

國家自然科學(xué)基金資助項(xiàng)目(51075068，61201326，61231002，61273266)、教育部博士點(diǎn)基金資助項(xiàng)目(20110092130004)、江蘇省高校自然科學(xué)研究基金資助項(xiàng)目(12KJB510021).

羅武駿，陶文鳳，左加闊，等.自適應(yīng)語音壓縮感知方法［J］.東南大學(xué)學(xué)報(bào):自然科學(xué)版，2012，42(6):1027-1030.［doi:10.3969/j.issn.1001 －0505.2012.06.001］

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

自適應(yīng)語音壓縮感知方法

1 壓縮感知理論

2 自適應(yīng)語音稀疏化方法

2.1 基于線性預(yù)測的殘差基

2.2 自適應(yīng)的完備字典

3 實(shí)驗(yàn)結(jié)果與分析

3.1 稀疏性分析

3.2 重構(gòu)性能分析

4 結(jié)語