黃均安 詹毅
摘 要:在無線電偵聽領(lǐng)域,偵聽數(shù)據(jù)中常常含有純噪音、誤判為語音的定頻數(shù)字調(diào)制信號等非語音信號段,造成偵聽人員工作效率下降。針對該問題,提出一種基于子帶能量分析的語音段識別算法。考慮到偵聽數(shù)據(jù)在時域上存在幅度跳變現(xiàn)象,首先利用直方圖分析對偵聽數(shù)據(jù)進(jìn)行分段,得到若干個子數(shù)據(jù)段,然后對每個子數(shù)據(jù)段進(jìn)行子帶能量分析,最后提取特征參數(shù)實(shí)現(xiàn)對語音段的識別。仿真結(jié)果表明,該方法能夠準(zhǔn)確地對偵聽數(shù)據(jù)進(jìn)行分段,并識別出其中的語音段。
關(guān)鍵詞:純噪音;定頻數(shù)字調(diào)制信號;子帶能量;語音段識別;無線電偵聽
DOI:10. 11907/rjdk. 181707
中圖分類號:TP319文獻(xiàn)標(biāo)識碼:A文章編號:1672-7800(2019)001-0162-04
Abstract: The intercepted data contains pure noise, frequency-fixed with erroneous judgement of speech as well as others non-speech signal sections in the field of radio interception. Hence, it causes a decline in staff's efficiency. Aiming at this problem, a speech recognition algorithm based on the sub-band energy analysis is proposed. In view of the fact that a phenomenon of intercepted data that exists range hop on the time domain. Firstly, the histogram analysis is made to get sub-data segments. Secondly, each sub-data segment is analyzed by means of sub-band energy analysis. Finally, to pick up the characteristic parameter is to achieve recognition of speech signal segments. As the simulation result shows that the method can not only section interception data with much accuracy, but also recognize speech segments.
0 引言
信息在當(dāng)今社會中扮演著重要角色,電磁頻譜作為信息的載體,對電磁頻譜的監(jiān)測與偵聽是軍事及民用領(lǐng)域獲取信息的一種重要手段。民用領(lǐng)域?qū)﹄姶挪ǖ谋O(jiān)測與偵聽有利于開展安防工作,軍事領(lǐng)域?qū)﹄姶挪ǖ谋O(jiān)測與偵聽是收集情報(bào)的一種重要手段,可為有關(guān)部門提供決策參考。偵聽接收機(jī)在電磁頻譜的監(jiān)測與偵聽中起著關(guān)鍵作用。電磁頻譜的監(jiān)測與偵聽對象具有頻段寬、信號種類多、通信環(huán)境復(fù)雜、先驗(yàn)知識少等特點(diǎn)[1]?;趥鹘y(tǒng)結(jié)構(gòu)的偵聽接收機(jī)體積龐大、處理能力有限、可重構(gòu)能力差,無法滿足當(dāng)前偵聽工作的需求。軟件無線電[2-3]技術(shù)具有多種類、可同時獲取多頻段數(shù)據(jù)等特點(diǎn),符合偵聽接收機(jī)的技術(shù)要求。軟件無線電的基本思想是以一個通用、標(biāo)準(zhǔn)、模塊化的硬件平臺為依托,通過軟件編程實(shí)現(xiàn)無線電臺的各種功能[3]。因此,目前國內(nèi)多采用此類偵聽接收機(jī)對電磁頻譜進(jìn)行監(jiān)測與偵聽。由偵聽接收機(jī)采集的數(shù)據(jù)經(jīng)過人工復(fù)聽便可完成信息收集工作。由于偵聽接收機(jī)的特點(diǎn),通過軟件無線電偵察接收機(jī)采集的偵聽數(shù)據(jù)中通常存在純噪音[4],以及誤判為語音的定頻數(shù)字調(diào)制信號等大量非語音信號,嚴(yán)重影響了偵聽人員工作效率。
因此,為了提高人員工作效率,需剔除偵聽數(shù)據(jù)中所有的純噪音段與定頻數(shù)字調(diào)制信號段。單獨(dú)使用任何一種調(diào)制識別方法都無法很好地識別所有調(diào)制方式,因此采用多級調(diào)制識別系統(tǒng)[5-7]是十分必要的。在多級調(diào)制識別中,第一級識別只需對調(diào)制信號進(jìn)行粗略劃分,第二級識別再對調(diào)制信號進(jìn)行詳細(xì)劃分。對于第一級調(diào)制方式識別,一般是將信號分為模擬調(diào)制信號與數(shù)字調(diào)制信號。目前針對模擬與數(shù)字調(diào)制方式的識別,多采用碼元速率估計(jì)方法[8-10]。其基本理論依據(jù)是:模擬調(diào)制信號沒有碼元速率,其估計(jì)結(jié)果為任意無規(guī)律值,而數(shù)字調(diào)制信號有碼元速率,其估計(jì)結(jié)果為一定值。參考文獻(xiàn)[8]提出基于包絡(luò)平方譜的模擬與數(shù)字調(diào)制方式自動識別算法,該算法計(jì)算簡單,對數(shù)字調(diào)制信號的滾降系數(shù)不敏感;參考文獻(xiàn)[11]通過對零中頻信號進(jìn)行非線性處理,得到含有符號速率的離散譜線,再利用四階累積量方法在抑制高斯背景噪聲的同時,提取符號速率的基頻分量。該算法運(yùn)算簡單,適應(yīng)性強(qiáng);參考文獻(xiàn)[12]提出采用非線性變換與小波變換相結(jié)合的方法估計(jì)碼元速率,無需設(shè)置判決門限即可實(shí)現(xiàn)模擬與數(shù)字調(diào)制方式的分類,但上述算法識別對象均為相位信息完整的信號。目前針對純噪音的研究相對較少,針對信號與AWGN(Additive White Gaussian Noise)區(qū)分的研究較多,其基本理論依據(jù)是:AWGN頻譜包絡(luò)是平坦的,但信號譜表現(xiàn)不同,有明顯的共振峰[13]。參考文獻(xiàn)[13]提出AWGN因子用于信號與AWGN的區(qū)分,但該算法對于非AWGN的純噪音并不適用。本文針對上述問題,提出一種基于子帶能量分析的語音段識別方法。仿真結(jié)果表明,該算法能夠在識別對象相位信息不完整的情況下,實(shí)現(xiàn)語音段與純噪音段、定頻數(shù)字調(diào)制信號段的分離。
1 算法描述
1.1 整體算法描述
算法框圖如圖1所示,包括數(shù)據(jù)分段、子帶能量分析,以及語音段、純噪音段與定頻數(shù)字調(diào)制信號段識別3個階段。通過直方圖分析算法對輸入的采集數(shù)據(jù)進(jìn)行幅度分段,得到若干不同幅度等級的子數(shù)據(jù)段,對每個子數(shù)據(jù)段進(jìn)行子帶能量分析并計(jì)算特征參數(shù),并將特征參數(shù)與統(tǒng)計(jì)觀察得到的閾值進(jìn)行比較,從而實(shí)現(xiàn)語音段、純噪音段及定頻數(shù)字調(diào)制信號段的分離。
1.2 數(shù)據(jù)分段
偵聽數(shù)據(jù)中存在幅度跳變現(xiàn)象,根據(jù)帕斯瓦爾定理[14],幅值大小會影響子帶能量分布。為了降低幅值對子帶能量分布的影響,首先對偵聽數(shù)據(jù)按照幅度等級進(jìn)行分段,得到子數(shù)據(jù)段。直方圖是展示連續(xù)分布最常用的工具,其本質(zhì)上是對密度函數(shù)的一種估計(jì)[15]。通過對語音信號統(tǒng)計(jì)特性的研究表明,對于語音信號振幅分布概率密度有兩種逼近方法,一種是修正伽瑪分布概率密度函數(shù),另一種是拉普拉斯分布概率密度函數(shù)[16]。根據(jù)長期統(tǒng)計(jì)來看,用拉普拉斯分布描述語音信號統(tǒng)計(jì)特性的精確性低于采用伽瑪分布進(jìn)行描述,但其函數(shù)式更加簡單,也可采用高斯分布(Gaussian)進(jìn)行近似描述[16]。以上3種概率密度函數(shù)均為單峰分布,而存在幅度跳變的偵聽數(shù)據(jù)振幅直方圖呈多峰分布,且幅度跳變處出現(xiàn)在振幅直方圖的谷點(diǎn)處。因此,需選擇合適的統(tǒng)計(jì)量對偵聽數(shù)據(jù)進(jìn)行直方圖統(tǒng)計(jì),若呈單峰分布,則該偵聽數(shù)據(jù)中不存在幅度跳變;若呈多峰分布,則該偵聽數(shù)據(jù)中存在幅度跳變,然后提取直方圖分布中的極小值點(diǎn)作為分段閾值實(shí)現(xiàn)幅度分段。本文選擇局部幅度絕對值作為統(tǒng)計(jì)量進(jìn)行直方圖統(tǒng)計(jì),局部幅度絕對值的最大值為最大次序統(tǒng)計(jì)量[17],可以對語音信號幅度分布進(jìn)行有效簡化,并突出幅度跳變特性,具體表示為:
對局部極小值點(diǎn)進(jìn)行模糊處理,可得到作為幅度分段閾值的局部極小值點(diǎn)。局部極小值僅表明幅度跳變可能分布在其中,由于實(shí)際信號局部極小值情況的復(fù)雜性,僅以局部極小值為門限作為檢測幅度跳變與幅度分段的依據(jù),常常會出現(xiàn)兩類錯誤:一類是錯誤檢測幅度跳變,即實(shí)際沒有幅度跳變,但誤判為存在幅度跳變。研究發(fā)現(xiàn),對于實(shí)際的正常語音信號,盡管沒有幅度跳變,但直方圖中仍然存在局部極小值,比例不小于某一門限,所以可以設(shè)置一個合理門限,以避免此類錯誤;另一類是存在幅度跳變,但選取幅度跳變的門限不準(zhǔn)確,也即是說,以直方圖分布的局部極小值作為門限,會造成幅度跳變檢測結(jié)果不準(zhǔn)確。研究發(fā)現(xiàn),在此類情況下局部極小值的附近值都很接近,以局部極小值對應(yīng)的幅值作為門限并不能真實(shí)反映實(shí)際情況,通過對局部極小值附近直方圖作進(jìn)一步估計(jì),可以有效改善上述問題。
1.3 子帶能量分析
由于語音信號段、純噪音段以及定頻數(shù)字調(diào)制信號段相互之間存在幅度差異,因此分段得到的每個子數(shù)據(jù)段的屬性具有唯一性,可以通過子帶能量分析對每個子數(shù)據(jù)段屬性進(jìn)行判斷。純噪音段與定頻數(shù)字調(diào)制信號段的頻譜能量在一段時間內(nèi)是平坦的,而語音信號段含有共振峰頻率,其頻譜能量在一段時間內(nèi)是非平坦的,起伏較大,所以將子數(shù)據(jù)段分幀后,求取該子數(shù)據(jù)段中每幀數(shù)據(jù)的能量。選擇的濾波器組為Mel-scale濾波器組,Mel倒譜系數(shù)由于很好地描述了人耳的聽覺感知特性,因而取得了較其它特征參數(shù)更好的識別效果,是目前最常用的特征參數(shù)[18],可以表示為:
1.4 算法實(shí)現(xiàn)
(1)對子數(shù)段進(jìn)行分幀處理。設(shè)一個子數(shù)據(jù)段為[s(n)],分幀后得到幀信號段[si(n)],語音信號為時變信號,頻譜隨時間不斷變化,但在短時間內(nèi)(1幀,時間長度為20~40ms)可以認(rèn)為頻譜是不變的,故幀長選擇20~40ms,幀移為幀長的0~1/2。本文偵聽數(shù)據(jù)的采樣率為64kHz,幀長選擇32ms(0.032*64 000=2 048樣本點(diǎn)),幀移為16ms(1 024樣本點(diǎn))。
(2)計(jì)算每幀信號的能量并歸一化。計(jì)算每幀信號的離散傅立葉變換(DFT),可以表示為:
1.5 特征參數(shù)提取
得到子數(shù)據(jù)段每幀信號的子帶能量后,可以通過提取特征參數(shù),實(shí)現(xiàn)語音段、純噪音段及定頻數(shù)字調(diào)制信號段的分離。語音信號含有共振峰頻率,相鄰幀同一子帶間的能量變化較大,而純噪音與定頻數(shù)字調(diào)制信號相鄰幀同一子帶間的能量變化很小。特征參數(shù)R定義為5個子帶能量方差的極差,如式(7)所示。
2 算法仿真與分析
為了驗(yàn)證算法性能,本文利用MATLAB進(jìn)行仿真,仿真數(shù)據(jù)來源于某單位的偵聽數(shù)據(jù)。圖2、圖3分別展示了存在幅度跳變現(xiàn)象與無幅度跳變現(xiàn)象數(shù)據(jù)的時域圖及統(tǒng)計(jì)量的[yabsmax(n0)]直方圖。其中,若偵聽數(shù)據(jù)中存在幅度跳變現(xiàn)象,則在時域圖中用黑色方框標(biāo)識出幅度跳變段。由圖2可以看出,偵聽數(shù)據(jù)時域圖中存在明顯的幅度跳變現(xiàn)象,其統(tǒng)計(jì)量[yabsmax(n0)]的直方圖分布整體呈多峰形狀,且分布中存在明顯的局部極小值點(diǎn)。因此,局部極小值點(diǎn)即為幅度分段的閾值。故在極小值處即為幅度跳變點(diǎn)的情況下,本文提出的基于直方圖分析的數(shù)據(jù)分段算法可以準(zhǔn)確標(biāo)記出偵聽數(shù)據(jù)中的幅度跳變段。由圖3可以看出,偵聽數(shù)據(jù)的時域圖中不存在幅度跳變現(xiàn)象,其統(tǒng)計(jì)量[yabsmax(n0)]的直方圖分布整體呈單峰形狀,但存在局部極小值點(diǎn),若直接將局部極小值作為分段閾值進(jìn)行處理,則會造成錯誤分段。本文通過1.2節(jié)提出的方法對局部極小值進(jìn)行模糊處理,有效解決了該問題。
圖4、圖5分別是語音信號與純噪音的時域圖及對應(yīng)的子帶能量分布圖。在子帶能量分布圖中,橫軸為偵聽數(shù)據(jù)分幀后幀信號的編號,縱軸為每幀信號5個梅爾刻度的子帶能量,顏色明暗代表子帶能量大小,顏色越亮代表子帶能量越大。圖4為語音信號時域圖及對應(yīng)的子帶能量分布圖,可以看出,由于語音信號中共振峰的存在,不同幀同一子帶的能量變化很大,圖中顯示每行的顏色變化無固定規(guī)律,顏色明暗隨機(jī)分布;圖5為一段純噪音的時域圖及對應(yīng)的子帶能量分布圖,可以看出,由于純噪音與定頻數(shù)字調(diào)制信號頻譜包絡(luò)是平坦的,故子帶能量分布圖中每行的顏色變化存在一定規(guī)律,顏色明暗要么基本保持不變,要么逐漸變亮或變暗。圖5屬于每一行顏色逐漸變亮的類型,這是由于時域中數(shù)據(jù)振幅與時間呈正比關(guān)系,根據(jù)帕斯瓦爾定理,則頻域中數(shù)據(jù)功率與頻率也呈正比關(guān)系。高斯白噪聲則屬于每一行顏色基本保持不變的類型。
圖6展示了59個語音段、69個純噪音段或定頻數(shù)字調(diào)制信號段特征參數(shù)R的分布情況。其中顏色較淺的點(diǎn)代表語音信號段,顏色較深的點(diǎn)代表純噪音段及定頻數(shù)字調(diào)制信號段??梢钥闯?,語音信號特征參數(shù)R的數(shù)值與純噪音及定頻數(shù)字調(diào)制信號特征參數(shù)R的數(shù)值在分布上存在明顯的聚類現(xiàn)象。通過觀察特征參數(shù)R的分布尋找合適的閾值,可以實(shí)現(xiàn)語音信號段、純噪音段及定頻數(shù)字調(diào)制信號段的分離。本文設(shè)置閾值為4.5(圖6中黑色直線所示)。
3 結(jié)語
本文在相位信息未知的情況下,提出一種基于子帶能量分析的語音段識別方法。該方法首先利用直方圖分析對存在幅度跳變的偵聽數(shù)據(jù)進(jìn)行幅度分段,得到子數(shù)據(jù)段,然后對每個子數(shù)據(jù)段進(jìn)行子帶能量分析,最后提取子帶能量特征參數(shù)實(shí)現(xiàn)對語音段的識別。該方法可以擴(kuò)展到對任意幾個頻譜分布存在差異信號的分離。仿真結(jié)果表明,本文算法簡單、可靠,可以有效去除偵聽數(shù)據(jù)中的非語音信號段,大大提高了偵聽人員的工作效率。
參考文獻(xiàn):
[1] 許軍, 汪芙平, 王贊基. 基于軟件無線電的數(shù)字偵聽接收機(jī)研究[J]. 電子技術(shù)應(yīng)用, 2007(8): 110-112.
[2] 楊小牛,樓才義, 徐建良. 軟件無線電原理與應(yīng)用[M]. 北京: 電子工業(yè)出版社,2002.
[3] 吳丹,顧學(xué)邁,吳芝路. 基于軟件無線電的數(shù)字化接收機(jī)的研究[J]. 電子技術(shù)應(yīng)用, 2005(9): 50-52.
[4] 彭設(shè)強(qiáng), 潘浩,周瑞. 偵聽系統(tǒng)中純噪音辨析模塊的設(shè)計(jì)與實(shí)現(xiàn)[J]. 軟件導(dǎo)刊,2009,8(11): 96-97.
[5] 戴威,王有政,王京. 基于AR模型的調(diào)制盲識別方法[J]. 電子學(xué)報(bào),2001(S1):1890-1892.
[6] NANDI A K, AZZOUZ E E. Algorithms for automatic recognition of communication signals[J]. Biulleten Eksperimentalno? Biologii I Meditsiny, 1998, 37(7): 23-35.
[7] HSUE S Z, SOLIMAN S S. Automatic modulation classification using zero crossing[J]. Radar & Signal Processing IEEE Proceedings, 1990, 137(6): 459-464.
[8] 包錫銳, 吳瑛. 基于譜特征的模擬與數(shù)字調(diào)制方式識別方法[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2008(14): 3569-3571,3576.
[9] TAIRA S, MURAKAMI E. Automatic classification of analogue modulation signals by statistical parameters[J]. IEEE Signal Processing Magazine,1999(1): 202-207.
[10] 姚亞峰,陳建文,黃載祿. 模擬與數(shù)字調(diào)制方式的非線性變換識別方法[J]. 電訊技術(shù),2005(1): 23-26.
[11] 張海瑛,袁超偉. 采用非線性變換的MPSK/MQAM符號速率盲估計(jì)[J]. 電子科技大學(xué)學(xué)報(bào), 2010, 39(6): 820-825.
[12] 王蘭勛,張瑞華. 模擬與數(shù)字調(diào)制信號的識別方法[J]. 通信技術(shù),2008(3): 46-48.
[13] 楊志俊, 范海波, 曹志剛. 基于譜分析的通信信號調(diào)制方式自動識別[J]. 無線通信技術(shù), 2003(2): 30-33.
[14] 趙道利, 梁武科, 羅興锜, 等. 水電機(jī)組振動信號的子帶能量特征提取方法研究[J]. 水力發(fā)電學(xué)報(bào), 2004(6): 116-119,115.
[15] 謝益輝. 現(xiàn)代統(tǒng)計(jì)圖形[EB/OL]. https://yihui.name/cn/publication/.
[16] 趙力. 語音信號處理[M].第3版.北京: 機(jī)械工業(yè)出版社, 2016.
[17] 茆詩松. 高等數(shù)理統(tǒng)計(jì)[M]. 北京: 北京大學(xué)出版社, 2007.
[18] 項(xiàng)要杰, 楊俊安, 李晉徽, 等. 一種適用于說話人識別的改進(jìn)Mel濾波器[J]. 計(jì)算機(jī)工程, 2013, 39(11): 214-217,222.
[19] 梁紅波, 司景萍, 高志鷹, 等. 基于子帶能量法的發(fā)動機(jī)振動信號分析研究[J]. 噪聲與振動控制, 2010, 30(1): 72-77.
[20] 田野, 王作英, 陸大. 基于子帶能量線性映射的噪聲中端點(diǎn)檢測算法[J]. 清華大學(xué)學(xué)報(bào):自然科學(xué)版, 2002(7): 953-956.
(責(zé)任編輯:黃 ?。?/p>