淺述基于壓縮感知的語音流媒體信號的丟包恢復(fù)

2018-01-01 00:00:00杜佳夢陳儀榮澤成

現(xiàn)代信息科技 2018年6期

摘要：本研究的目的是為了引入一種基于壓縮采樣技術(shù)的新方案，用于重構(gòu)多媒體流中丟失的數(shù)據(jù)。通過使用交織技術(shù)將語音流媒體信號封裝在發(fā)送方的不同分組中。壓縮采樣技術(shù)用于在接收端丟失數(shù)據(jù)包的情況下恢復(fù)音頻信息。本文為語音音頻信號提供實驗結(jié)果，說明提出的方法具有可行性。

關(guān)鍵詞：壓縮感知；丟包恢復(fù)；交織技術(shù)；VoIP

中圖分類號：TN912.3 文獻標識碼：A 文章編號：2096-4706（2018）06-0067-03

Abstract：The aim of this study is to introduce a new scheme，based on a compressive sampling technique，for the reconstruction of lost data in multimedia streaming. The audio streaming data are encapsulated indifferent packets，at the sender，by using an interleaving technique. The compressive sampling technique is used to recover audio information in case of lost packets，at the receiver. Experimental results are presented for speech and musical audio signals which illustrate the performances and the capabilities of the proposed methodology.

Keywords：compressed sensing；packet loss recovery；interleaving technology；VoIP

0 引言

流媒體技術(shù)和接入網(wǎng)絡(luò)帶寬的增加促進了互聯(lián)網(wǎng)上多媒體內(nèi)容的傳輸。這項新服務(wù)為互聯(lián)網(wǎng)電視或音頻/視頻服務(wù)提供了可能，例如互聯(lián)網(wǎng)電視或音頻/視頻服務(wù)。用戶越來越多地轉(zhuǎn)向這種類型的服務(wù)，提供商試圖提供更好的質(zhì)量來滿足這種需求。這項技術(shù)的主要局限是需要穩(wěn)定的傳輸條件來保證一定程度的服務(wù)質(zhì)量。在過去幾年中，已經(jīng)引入了新的可擴展音頻和視頻流應(yīng)用類別，但在大多數(shù)情況下，多媒體內(nèi)容的質(zhì)量受到數(shù)據(jù)包丟失、延遲和網(wǎng)絡(luò)擁塞的影響。最近，已經(jīng)研究并提出了幾種用于從丟包中恢復(fù)多媒體內(nèi)容的方法，例如，互聯(lián)網(wǎng)協(xié)議語音（VoIP）系統(tǒng)已經(jīng)成為現(xiàn)代互聯(lián)網(wǎng)電話的基本工具，然而，很高的數(shù)據(jù)包丟失率往往使語音無法完全讓用戶理解。出于這個原因，VoIP應(yīng)用通常包含丟包恢復(fù)或隱藏機制（數(shù)據(jù)包丟失隱藏（PLC））。本文提出了一種用于音頻流中的數(shù)據(jù)丟失重建的新方案（稱為基于壓縮傳感的包丟失恢復(fù)（PLRCS））。在流式傳輸模型中，音頻數(shù)據(jù)在發(fā)送端使用交織技術(shù)封裝在不同的數(shù)據(jù)包中，在接收端，丟失分組的信息通過壓縮采樣技術(shù)進行重建。

1 實時傳輸協(xié)議和交織技術(shù)

多媒體應(yīng)用所需的服務(wù)與標準大不相同，這些應(yīng)用對端到端的延遲特別敏感，它們只能偶爾丟失數(shù)據(jù)。通常，實時應(yīng)用（例如VoIP）使用實時傳輸協(xié)議，該協(xié)議能夠支持IP組播和數(shù)據(jù)分發(fā)到一組接收器。RTP本身并沒有提供按時發(fā)送機制或其它服務(wù)質(zhì)量（QoS）保證，它依賴于低層服務(wù)去實現(xiàn)這一過程。

交織技術(shù)可以顯著提高我們感知音頻流的質(zhì)量。例如，在過去幾年中，它廣泛用于降低突發(fā)性丟包，特別是在VoIP流式傳輸中。在交錯階段，音頻信號的幀在傳輸之前按照分組進行排序，特別是原來相鄰的幀在發(fā)送的流中被分開，并在接收端恢復(fù)到它們原來的順序，這種機制重新分配了數(shù)據(jù)包丟失的影響。例如，如果幀長度為5ms，數(shù)據(jù)包長度為20ms（即4幀/數(shù)據(jù)包），則第一個數(shù)據(jù)包將包含單位1，5，9，13；第二單元2，6，10，14。我們注意到，從交織流中丟失單個分組不會像在非交織流中那樣產(chǎn)生單個大間隙，而是在重構(gòu)流中產(chǎn)生多個小間隙，這對音頻信號尤其有用，其中傳輸?shù)臄?shù)據(jù)包的長度通常與人類語音中的音素類似。然而交織技術(shù)增加了延遲，其主要優(yōu)勢在于它不會增加流信號的帶寬需求。

2 VoIP技術(shù)構(gòu)架和壓縮感知

2.1 VoIP技術(shù)構(gòu)架

IP語音（VoIP）是指使用一組技術(shù)來傳輸語音，同時也傳輸視頻信號，就像數(shù)據(jù)包通過IP網(wǎng)絡(luò)一樣。VoIP正在替代傳統(tǒng)的PBX和PSTN技術(shù)，逐漸變成公司和公共電訊的主流。幾個VoIP架構(gòu)被各種標準團體和發(fā)展商基于不同的信令協(xié)議棧發(fā)展，也就是H.323、SIP和MGCP/MEGACO/H.248。

2.2 壓縮感知（CS）原理

壓縮傳感理論主要包括信號的稀疏表示、編碼測量和重構(gòu)算法等三個方面。信號的稀疏表示是將信號投影到正交變換基時，絕大部分變換系數(shù)的絕對值很小，所得到的變換向量是稀疏或者近似稀疏的，可以將其看作原始信號的一種簡潔表達，這是壓縮傳感的先驗條件，即信號必須在某種變換下可以稀疏表示。通常變換基可以根據(jù)信號本身的特點靈活選取，常用的有離散余弦變換基、快速傅里葉變換基、離散小波變換基、Curvelet基、Gabor基以及冗余字典等。在編碼測量中，首先選擇穩(wěn)定的投影矩陣，為了確保信號的線性投影能夠保持信號的原始結(jié)構(gòu)，投影矩陣必須滿足約束等距性（Restricted isometry property，RIP）條件，然后通過原始信號與測量矩陣的乘積獲得原始信號的線性投影測量。最后運用重構(gòu)算法，由測量值及投影矩陣重構(gòu)原始信號。信號重構(gòu)過程一般轉(zhuǎn)換為一個最小范數(shù)的優(yōu)化問題，求解方法主要有最小l1范數(shù)法、匹配追蹤系列算法、最小全變分方法和迭代閾值算法等。

2.3 壓縮感知過程

考慮以下的觀測模型（編碼過程）：

其中T是由已知非零元位置組成的集合（例如小波域中，信號逼近系數(shù)往往是非零的，逼近系數(shù)的位置可以組成集合T），T c表示集合T的補，而是由向量中位置包含在T c中的元素組成的子向量。

3 實驗結(jié)果

用壓縮感知的方法重構(gòu)語音信號，采用PCM編碼技術(shù)（8000HZ的采樣頻率和8bit量化）。原語音信號采用英文閱讀新聞的女性聲音，語音時長為6.25s。每20ms收集一次流數(shù)據(jù)，從而獲得由160個字節(jié)（或160個樣本）組成的四個數(shù)據(jù)包，如圖1所示。在本實驗中，整體記錄的持續(xù)時間是不相關(guān)的，因為重構(gòu)是在接收端對有效接收信息進行的，并不考慮其他時間信息，如圖2所示。結(jié)果對重構(gòu)信息與原始信息進行了比較，如圖3所示。

4 結(jié) 論

本文介紹了一種基于壓縮感知的語音流媒體丟包恢復(fù)的方案，語音數(shù)據(jù)在發(fā)送端通過交織技術(shù)封裝在不同的分組中，又在接收端通過壓縮采樣技術(shù)恢復(fù)分組中丟失的信息。語音信號用數(shù)據(jù)封包在IP數(shù)據(jù)網(wǎng)絡(luò)上實時傳輸，所以要求VoIP有很高的語音質(zhì)量。壓縮感知理論對信號的采樣與壓縮發(fā)生在同一個步驟，利用信號的稀疏性，以遠低于Nyquist采樣率的速率對信號進行壓縮采樣，并且可以幾乎無失真地恢復(fù)原信號。壓縮感知能大幅度降低信號的采樣速率以及數(shù)據(jù)存儲和傳輸?shù)拇鷥r。

參考文獻：

[1] Candès E.，Romberg J.and Tao T. Robust uncertainty principles：Exact signal reconstruction from highly incomplete frequency information [J].IEEE Trans. Inf. Theory，2006，52（2）：489-509.

[2] Donoho D. Compressed sensing [J].IEEE Trans. Inf. Theory，2006，52（4）：1289-1306.

[3] Garrigues P. and Ghaoui L. E. An homotopy algorithm for the lasso with online observations [J].Adv. Neural Inf. Process. Syst.，2008，21：489-496.

[4] Asif M. S. and Romberg J. Dynamic updating for sparse time varying signals [J].Conference on Information Sciences Systems，2009：3-8.

[5] Asif M. S. and Romberg J. Dynamic updating for L1 minimization [J].IEEE Journal of Selected Topics in Signal Processing，2009，4（2）：421-434.

[6] Asif M. S. and Romberg J. Sparse signal recovery and dynamic update of the underdetermined system [J].Conference Record of the Forty Fourth Asilomar Conference on Signals，Systems and Computers，2010：798-802.

[7] GH Golub Loan.Matrix Computations [J].Mathematical Gazette，1996，47（5 Series II）：392-396.

[8] Kailath T.，Sayed A. H. and Hassibi B. Linear Estimation. Upper Saddle River，NJ，USA：Prentice-Hall，2000.

[9] Needell D.，Tropp J. CoSaMP：Iterative signal recovery from incomplete and inaccurate samples [J].Appl. Comput. Harmon. Anal.，2008，26（6）：301-321.

[10] Carmi A.，Gurfil P. and Kanevsky D. Methods for sparse signal recovery using Kalman filtering pseudo-measurement norms and quasinorms [J].IEEE Trans. Signal Process.，2010，58（4）：2405-2409.

[11] Xiang K.，Hu R. An improved packet loss concealment method for mobile audio coding [J]. Open Automation Control Systems Journal，2014，6（1）：188-193.

[12] Schulzrinne H.，Canser S.，F(xiàn)rederick R.，et al. RTP：a transport protocol for real-time applications [J].IETF Audio/Video Transport WG，RFC 1889，1996（1）.

作者簡介：杜佳夢，女，漢族，河北石家莊人，碩士研究生在讀。研究方向：電子與通信工程。

現(xiàn)代信息科技2018年6期

現(xiàn)代信息科技的其它文章: LoRa與NB—IoT技術(shù)開啟物聯(lián)網(wǎng)新格局; 基于RFID技術(shù)的圖書館建設(shè)研究; 區(qū)塊鏈技術(shù)在農(nóng)產(chǎn)品溯源系統(tǒng)中的應(yīng)用研究; 智能視頻監(jiān)控技術(shù)在智能住宅安防中的應(yīng)用及發(fā)展; 家用3D食品打印產(chǎn)品設(shè)計研究; 基于物聯(lián)網(wǎng)的智能家居遙控操作技術(shù)研究

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

淺述基于壓縮感知的語音流媒體信號的丟包恢復(fù)