肖明,高峰,孫功憲,謝勝利
(1. 廣東石油化工學院 廣東省石化裝備故障診斷重點實驗室,廣東 茂名 525000;2. 華南理工大學 電子與信息學院,廣東 廣州 510640)
欠定盲信號分離的特征是混疊信號個數(shù)少于源信號個數(shù),解決欠定盲信號分離的基本策略是基于稀疏表示的兩步法[1~9]。兩步法分為矩陣估計和源估計2個步驟。矩陣估計最具有代表性的算法有DUET[5]、TIFROM[6]和 MRISSI[7],源估計最具代表性的算法有最短路徑法[3]、l0-范數(shù)解[8]、l1-范數(shù)解[9]和DUET算法[5]。其中,二進制時頻掩碼方法是欠定系統(tǒng)解混的重要方法,它與最短路徑法、l1-范數(shù)解、l0-范數(shù)解有明顯的區(qū)別:它要求源信號相互不重疊,即在時頻域的每個頻率點都僅有一個源信號。雖然實際混疊并不能保證該條件,但是可以近似地視為源信號相互不重疊。DUET算法正是利用了二進制時頻掩碼,取得了很好的分離效果。在非完全稀疏的情況下,改善源信號恢復性能,一直是一個挑戰(zhàn)性問題,DUET算法也需要進一步地改善。
本文針對上述問題,融合DUET算法和非完全稀疏信號的盲提取算法[10,11],提出了基于時頻掩碼的盲提取算法。該算法先通過時域盲提取方法形成2個新的混疊信號,再經(jīng)時頻掩碼方法提取源信號,以此類推,逐一提取每個源信號。最后,用幾個語音信號的實驗來驗證算法的性能和實用性。
在無噪聲和回波的時候,所接收到的n個混疊信號x(t)為
其中,矩陣A是線性混疊矩陣,s(t)是m個源信號的矢量。本文僅考慮 2個混疊信號的情況( 2n= ),混疊信號矢量為混疊矩陣為
式中角度θk表示第k個源方向的方向角,而源方向為矩陣A的列矢量 ak=[cosθks in θk]T( k = 1 ,2,… ,m ),符號 [· ]T表示矩陣的轉置。
根據(jù)非完全稀疏情況下的盲提取算法[10],提取第j個源信號,需要先確定源方向 aj的法矢量:
則 bjaj=0,用法矢量 bj乘以混疊信號矢量可得到不包含第j個源的新混疊信號:
又設
則信號x0(t)含有第j個源信號,并存在其他源的干擾。于是引入系數(shù)λ,設即用信號y1(t)來降低干擾?,F(xiàn)計算信號y2(t)的平均功率:
其中,E[·]是數(shù)學期望。在式(7)中,為了希望y2(t)中的干擾最小,必須使其功率最小,即
易得:
將式(9)代入式(6)得
再將式(4)、式(5)代入式(10)得
式中jw是源信號的提取矢量。這里的最小干擾是在源信號保持源信號完好不變的情況下的最小干擾,所以y2(t)仍然包含較大的干擾。
將jb和jw組成了非奇異矩陣對混疊信號和混疊矩陣進行線性變換。線性變換后,混疊信號變?yōu)?y (t) = [y1( t) y2( t )]T,混疊矩陣變?yōu)?/p>
更新后的混疊信號和疊矩陣所具有的特征:①第j個源信號為提取源,在2個混疊信號中,前一個混疊信號不含提取源,后一個混疊信號的提取源成分非常強,非提取源的干擾已經(jīng)被抑制。②非提取源的散落點已經(jīng)遠離提取的源信號方向T[0 1];③更新是一個線性變換,源信號僅僅按比例被縮小或放大,其波形沒有變化。
以上3個特征將確保后續(xù)的時頻掩碼方法有更好的源提取效果。同時,從式(12)可知,提取矢量與源信號幅度強弱有關,在不等幅的情況下,混疊信號的更新能夠更加有效地抑制非提取源的干擾。
下面以SiSEC2008[11]提供的混疊矩陣和源信號為例,觀察混疊矩陣和混疊信號更新后的變化情況。SiSEC2008提供的源方向角度分別為70°、50°、37.5°和 22.5°,源方向用實線在圖 1中標注。因為相鄰2個源方向的角平分線是確定時頻掩碼的分界線,所以作它們的角平分線,角度分別60°、43.75°、30.0°和-53.75°,用虛線表示。SiSEC2008提供的源信號為4個女講話聲,在實驗1中,4個女聲的功率相同,在實驗2中,縮小第2、3個源信號的幅度為實驗1中的0.3倍。根據(jù)式(3)和式(12),計算法矢量jb和提取矢量jw,然后更新混疊矩陣和混疊信號。4個源信號有4個提取矢量,需4次更新混疊矩陣和混疊信號。
圖1 4個源方向
觀測2組實驗中源方向的變換情況,對比圖2和圖 3可知,因為源信號強度不同,所以更新后的源方向發(fā)生了變化,其角度變化參見表 1。同樣,對比圖4和圖5中信號的實部和虛部的散落圖可知,源方向的變化與源信號的強度有密切關系。
圖2 實驗1中4次更新后的源方向
表1 源方向角(°)的比較
圖3 實驗2中4次更新后的源方向
圖4 實驗1中4次更新后的源方向和散落圖(Re表示復數(shù)的實部)
在圖4中,散落點沿4個源方向較均勻分布;在圖5中,散落點主要集中在第1、4個源方向附近。
在文獻[10]中,不完全稀疏性的盲提取算法,僅依賴自己的源方向,在本文中,源提取的前提是在混疊矩陣已經(jīng)被估計。
經(jīng)上述變換更新混疊信號和混疊矩陣,最后還需要經(jīng)時頻掩碼方法逐一提取源信號。下面引入二進制時頻掩碼方法提取源信號的方法。
圖5 實驗2中4次更新后的源方向和散落圖
本節(jié)介紹二進制時頻掩碼盲提取方法,其時頻掩碼方法的詳細理論參見文獻[5]。
在時頻域中,其混疊模型為
其中,X(k,τ)是在時頻域更新后的混疊信號,S ( k,τ)是在時頻域的源信號,更新后的混疊矩陣的第j個源方向為 aj=[0 1]T。如果將混疊矩陣A以列 ai表示,式(16)可為
其中, ai=[cosφis in φi]T, Si( k,τ)是S(k,τ)的第i個元素。
信號在時頻域的稀疏性含義:在很多時頻點上,僅有一個源信號非零,其他源信號為0或較小,稀疏性也稱為不重疊性。
根據(jù)經(jīng)時頻掩碼解混的DUET算法[5],源信號必須是不重疊或近似不重疊,即在任意時頻點(k,τ),僅僅存在一個源信號是非零,其他源是零或很小。假定第j個源在時頻點(k,τ)上滿足該條件,則從式(17)可得
于是第j個源為
從式(19)可知,DUET算法中源的估計為接收信號矢量在源方向的投影。
對于非完全稀疏的情況,在一些時頻點上,存在2個或多個源信號是非零,則混疊信號矢量與源方向不一致,僅僅是靠近源方向。此時,DUET算法先檢查每個時頻點的混疊信號矢量最靠近哪一個源方向,以確定哪一個源信號為非零。
確定源信號的時頻掩碼是采用混疊信號矢量在每個源方向的投影。設在ja上投影值最大的時頻點的集合即其中符號表示復數(shù)的模。因此,確定第j個源信號的時頻掩碼:
源信號的估計:
則第j 個提取源的估計:
該算法是以計算提取矢量和確立時頻掩碼方法為核心,故稱之為經(jīng)時頻掩碼的盲提?。˙E-TFMask, blind extraction via time-frequency mask)。BE-TFMask算法概括如下:
1) 估計混疊矩陣;
2) for j=1:n
按式(3)和式(12)計算提取源的法矢量 bj和提取矢量 wj;
按式(14)和式(15),更新混疊信號和混疊矩陣;
按式(20),確定提取源的時頻掩碼的集合Ωj;
按式(22),提取第j個源信號。
end
源信號估計性能的評價采用 E. Vincent所提出的方法。該方法已經(jīng)作為SiSEC2010年語音分離的評價方法[11~13]。E. Vincent將估計信號與源信號 sj( t)的誤差投影成了目標成分干擾成分和人造成分即
并利用最小方差投影設計一個FIR濾波器(詳見文獻[11,12]),得到信號與失真的比率 (SDR,signal to distortion ratio)、信號與干擾的比率(SIR,signal to interference ratio)和信號與人造成分的比率(SAR, signal to artifacts ratio),即
在實驗中,直接調(diào)用 SiSEC2008提供的MATLAB函數(shù)bss_eval_sources.m。
源信號(4個女聲語音、4男聲語音信號)和混疊矩陣都來自SiSEC2008,混疊矩陣為
源方向角度分別為 70°、50°、37.5°和 22.5°。在混疊矩陣的估計中,實驗使用 MRISSI算法[7],混疊矩陣估計的角度偏差分別為0.017°、0.015 6°、0.211 7°和 0.121 2°。
在源信號的估計中,實驗進行了 DUET和BE-TFMask算法仿真,其性能指標列于表2中。從表2的結果可知,BE-TFMask算法的SDR和SAR 2項指標有明顯的改進,表明BE-TFMask算法的性能果優(yōu)于DUET算法。
本節(jié)中的源信號和混疊矩陣與實驗1中相同,混疊信號的波形如圖6所示,源信號與估計信號的波形如圖7所示。
圖6 混疊信號波形
圖7 源信號與估計信號波形
在混疊信號中,第 2、3個源信號的幅度縮小為原幅度的 0.3倍?;殳B矩陣的估計采用 MRISSI算法[7],它的角度偏差分別為0.133 9°、0.073 2°、0.034 7°和 0.078 9°。
表2 在實驗1中DUET和BE-TFMask算法的SDR、SIR和SAR
表3 在實驗2中的DUET和BE-TFMask算法的SDR、SIR和SAR
在源信號的估計中,實驗進行 DUET和BE-TFMask算法仿真,其性能指標列在表3中。從表3的結果可知,在SDR和SAR 2項指標有明顯的改進,它表明BE-TFMask算法的性能優(yōu)于DUET算法,也體現(xiàn)了 BE-TFMask算法在源信號不等幅度的情況下有更優(yōu)越的性能。
本文討論了非完全稀疏信號的源恢復問題,提出了一個基于時頻掩碼的盲提取算法。算法吸取了盲提取算法和時頻掩碼的優(yōu)點,用線性變換更新了混疊信號和混疊矩陣,改進了盲提取算法和時頻掩碼方法。實驗仿真的結果證實了 BE-TFMask算法的性能和實用性。
[1] LEE T W, LEWICKI M S, GIROLAMI M, et al. Blind source separation of more sources than mixtures using overcomplete representations[J]. IEEE Signal Processing Letter, 1999,6(4): 87-90.
[2] ZIBULEVSKY M, PEARLMUTTER B A. Blind source separation by sparse decomposition in a signal dictionary[J]. Neural Computation,2001,13(4): 863-882.
[3] BOFILL P, ZIBULEVSKY M. Underdetermined blind source separation using sparse representations[J]. Signal Processing. 2001, 81(11):2353-2362.
[4] DELGADO K K, MURRAY J F, ENGAN K, et al. Dictionary learning algorithms for sparse representation[J]. Neural Computation, 2003,15(2): 349-396.
[5] YILMAZ O, RICKARD S. Blind separation of speech mixtures via time-frequency masking[J]. IEEE Tran on Signal Processing. 2004,52(7):1830-1847.
[6] ABRARD F, DEVILLE Y A. Time-frequency blind signal separation method applicable to underdetermined mixtures of dependent sources[J]. Signal Processing , 2005, 85(7):1389-1403.
[7] 肖明,謝勝利,傅予力. 基于頻域單源區(qū)間的具有延遲的欠定盲分離[J].電子學報,2007,35(12):2279-2283.XIAO M, XIE S L, FU Y L. Underdetermined blind delayed source separation based on single source intervals in frequency domain[J].Acta Electronica Sinica, 2007, 35(12): 2279-2283.
[8] VINCENT E. Complex nonconvex LP norm minimization for underdetermined source separation[A]. Proc Int Conf on Independent Component Analysis and Blind Source Separation (ICA)[C]. Madrid, Spain,2007.430-437.
[9] LI Y, AMARI S, CICHOCKI A, et al. Underdetermined blind source separation based on sparse representation[J]. IEEE Transactions on Signal Processing, 2006, 54(2): 423-437.
[10] 謝勝利, 孫功憲, 肖明等. 欠定和非完全稀疏性的盲信號提取[J].電子學報,2010, 38 (5): 1028-1031.XIE S L, SUN G X, XIAO M, et al. Underdetermined and incompletely sparse blind signal extraction[J]. Acta Electronica Sinica, 2010,38 (5): 1028-1031.
[11] VINCENT E, ARAKI S, BOFILL P. The 2008 signal separation evaluation campaign: a community-based approach to large-scale evaluation[A]. Proc ICA[C]. Paraty, Brazil, 2009. 734-741.
[12] EMIYA V, VINCENT E, HARLANDER N, et al. Subjective and objective quality assessment of audio source separation[J]. IEEE Trans on Audio, Speech and Language Processing. 2011, 19(7): 2046-2057.
[13] SHOKO A, ALEXEY O, VIKRHAM G. The 2010 signal separation evaluation campaign (SiSEC2010): audio source separation[A]. Proc ICA Latent Variable Analysis and Signal Separation[C]. Saint-Malo Cedex, France, 2010. 114-122.