張璐琳
(中國人民解放軍91404部隊,河北 秦皇島 066001)
?
隨機森林在通信干擾效果客觀評價中的應用
張璐琳
(中國人民解放軍91404部隊,河北 秦皇島 066001)
在通信干擾效果客觀評價中,一般采用美爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)、線性預測倒譜系數(shù)(Linear Predictin Cepstrum Coefficient,LPCC)等客觀測度表示通信受干擾程度,但存在各種測度魯棒性差的問題,即在某些條件下一種客觀測度有效,而在某些條件下可能完全失效。針對這一特點,采用隨機森林(Random Forest,RF)對性能較好的多種客觀測度進行融合,形成新的評價系統(tǒng),以與主觀評價擬合的一致性為標準,衡量評價系統(tǒng)的性能優(yōu)劣。用超短波語音通信干擾的實測數(shù)據(jù)對新的評價系統(tǒng)進行驗證,結果表明其具有比單一客觀測度更好的性能,并可以通過隨機選擇訓練樣本以及隨機選擇每一個樣本的特征維,有效避免過擬合現(xiàn)象。
隨機森林;通信干擾效果;客觀評價
多年來,通信干擾效果的評估延用以人為主體的主觀評價方式,利用主觀感覺的清晰度或可懂度為主要指標給聽到的語音打分[1],從而評價語音通信受干擾的程度,形成的軍用標準或行業(yè)標準包括GJB2763-1996《通信設備話音質(zhì)量等級標準與評測方法》、SJ 2077l-2000《軍用通信系統(tǒng)音質(zhì)的MOS評價法》和DJBZ2006-9l《電話通信設備話音質(zhì)量主觀測試方法》等。
隨著語音信號數(shù)字處理技術的發(fā)展,以模擬人聽覺或發(fā)音的數(shù)學模型應用于語音通信干擾效果的評價,常用模型有MFCC、LPCC和小波變換等,這些數(shù)學模型是否適用取決于其與主觀聽覺一致的程度[2]。實驗表明,每種模型僅對在特定條件下錄取的干擾語音表現(xiàn)出優(yōu)越的性能,特定條件包括通信距離、干擾距離、干擾樣式和工作頻率等。希望找到提高語音通信干擾效果客觀評價頑健性的方法,擴大其適用范圍,增強其實用價值。本文首先對在語音通信干擾效果客觀評價中性能較好的客觀測度模型進行優(yōu)化,然后通過隨機森林將多種客觀測度進行融合,建立RF回歸模型這一新的評價系統(tǒng),使得在低信噪比情況下,改善單一模型性能不穩(wěn)定并且一致性差的問題,提高客觀評價的頑健性。
RF回歸模型評價系統(tǒng)框架如圖1所示。整體流程如下:標準語音文件(發(fā)送端語音文件)和試驗語音文件(接收端語音文件)首先進行主觀測度標定;同時送入時間同步環(huán)節(jié)進行時間同步,同步之后的2個信號,用不同的客觀測度模型進行客觀測度估計,并采用隨機森林將客觀測度模型進行融合。
圖1 RF回歸模型評價系統(tǒng)框架
1.1低信噪比下的主觀測度
這里采用平均主觀誤字率作為主觀衡量接收端信號質(zhì)量好壞的標準。其計算公式如下:
(1)
式中,Wij為第i個評測人對第j個文件的主觀識別出正確的字數(shù),Hj為第j個文件中包含的字數(shù),而N為參與評測的人數(shù),借鑒語音質(zhì)量評估中MOS得分的計算要求,這里N的數(shù)值取為40。
1.2時間同步處理
由于傳輸系統(tǒng)的延時以及編解碼算法的延時等,發(fā)送端的起始點和接收到的信號起始點并不相同,這里需要同步環(huán)節(jié)對收發(fā)兩端的信號進行對齊[3]。構建本采集系統(tǒng)的硬件具有GPS模塊,這里時間同步處理采用GPS對齊策略,將發(fā)送信號和接收信號打上時間戳,根據(jù)標定的時間戳進行對齊完成時間同步[4]。
如圖1所示,這里客觀模型選取MFCC客觀測度和LPCC客觀測度和小波客觀測度,3種方法。其中MFCC客觀測度是從聽覺角度考慮,LPCC客觀測度是從語音產(chǎn)生模型角度考慮。如果把語音通信過程看作一個系統(tǒng),那LPCC模型就是發(fā)送端(聲道)的信號建模,而MFCC模型則是接收端(耳朵)的信號建模,另外的小波客觀測度是考慮不同頻帶的統(tǒng)計特征。
2.1MFCC客觀測度模型
MFCC特征目前仍然是語音信號處理的主流特征,無論是在語音識別系統(tǒng)還是說話人識別系統(tǒng)中,均有廣泛的應用[4]。這里采用標準的MFCC提取流程,即信號經(jīng)過預加重、分幀、傅里葉變換、Mel濾波器濾波、對數(shù)能量獲取及DCT變換到倒譜域[2];在標準MFCC基礎上,為使客觀測度更適合低信噪比條件,在計算出的特征基礎上作如下處理:
① 倒譜提升
(2)
② 倒譜均值減
倒譜均值減是最簡單有效的去除信道噪聲的一種方法,針對低信噪比情況下的語音通信,這里采用倒譜均值減,針對噪聲頻譜相對獨立以及語音信號的隨機性的特點,利用長時間內(nèi)倒譜均值應該為零的特點,對倒譜特征進行補償,旨在在一定程度上消除信道干擾對信號的影響[5]。具體實現(xiàn)如下:
(3)
式中,T為一個語音文件的幀數(shù)。
③ 動態(tài)特征
語音的動態(tài)特征體現(xiàn)的是特征動態(tài)變化特性,其隨信號靜態(tài)大小變化的部分可以忽略,因此在識別系統(tǒng)中加入動態(tài)特征可以在一定程度上提高系統(tǒng)識別性能。本文借鑒MFCC動態(tài)特征在語音識別中的成功應用,在這里直接刨除靜態(tài)特征,只采用如下動態(tài)特征作為MFCC客觀測度特征,其中動態(tài)特征計算如下[1]:
(4)
2.2LPCC客觀測度模型
LPCC客觀測度是利用全極點模型對聲道進行建模,用聲道的模型參數(shù)作為語音的特征[3]。這里類似于MFCC客觀測度,在得到傳統(tǒng)的12階LPCC特征基礎上,用倒譜提升、倒譜均值[1]減,以及在此基礎上的動態(tài)特征作為最后的LPCC特征參數(shù)計算客觀測度。
2.3小波客觀測度模型
小波變換在多分辨分析方面具有傳統(tǒng)傅里葉變換無法比擬的優(yōu)點,這里采用DB4小波變換,對語音信號進行多尺度分析,在每一個子帶上分別計算如下的統(tǒng)計特性,作為一幀語音信號的特征[6]:
子帶能量:
(5)
質(zhì)心:
(6)
帶寬:
(7)
式中,j為子帶索引,i為在相應子帶中小波系數(shù)的索引,I為子帶中小波系數(shù)的個數(shù)。
隨機森林最早由Leo Breiman和Adele Cutler提出,隨機森林是一個決策樹的集合[7]。通過對訓練數(shù)據(jù)的隨機采樣,隨機的構建一片森林,這片森林中的每棵樹就是一個決策樹。而每一棵決策樹都是互相獨立的。當森林構建完畢以后,則由每棵樹都對進來的一個輸入樣本進行判斷,分析它應該屬于哪一類。最終所有的樹進行表決,結合所有的結果來預測這個樣本屬于哪一類。隨機森林以其對于實現(xiàn)未知數(shù)據(jù)的高度準確性而引起研究人員的關注[7]。它將弱分類向強分類轉(zhuǎn)化的能力廣泛應用于分類任務,并且在回歸領域的表現(xiàn)也有很大的進步,特別是醫(yī)學圖像研究[8],如圖2所示。但對客觀測度融合中還很少出現(xiàn),本文將其用于主客觀擬合,并實現(xiàn)多客觀測度融合[9]。
圖2 隨機森林里的訓練和預測
3.1RF回歸模型訓練
隨機森林訓練是一個雙隨機的過程,即樣本點選擇是隨機,并且樣本參與訓練的特征維也是一個隨機過程。建立森林的過程是獨立地建立每一個一顆樹,而每一顆樹的參數(shù)即是在每一個節(jié)點的分支選擇[10]。每一個節(jié)點的訓練過程如圖2右圖所示。數(shù)據(jù)流Sj經(jīng)過節(jié)點j分成左右兩個分支,其節(jié)點參數(shù)τj的選擇依據(jù)是使得該節(jié)點的信息熵達到最大[11],即:
(8)
其中
(9)
H(S)=-∑c∈Cp(c)log2p(c),
(10)
式中,p(c)表示子集中任意樣本屬于回歸值c的概率。
3.2RF回歸模型預測
隨機森林回歸預測如圖2左圖所示。根據(jù)節(jié)點訓練階段得到的參數(shù),依次從根節(jié)點開始,判斷數(shù)據(jù)經(jīng)過每一個中間節(jié)點的走向,即走向左分支還是右分支,如式(11)所示,一直到葉子節(jié)點為止,葉子節(jié)點對應的數(shù)值即為預測的主觀測度。最后對每一棵樹的預測值取平均,作為最后回歸模型的預測值[11],如式(12)所示。
h(v,θj):RN×=τ→{0,1},
(11)
(12)
式中,T為隨機森林中決策樹的個數(shù)。
4.1試驗數(shù)據(jù)
本次試驗的數(shù)據(jù)來源于實際超短波通信干擾系統(tǒng)試驗。其中干擾類型為噪聲調(diào)頻,干擾強度按照主觀誤字率分成5個等級,即平均主觀誤字率低于30%、平均誤字率在30%~50%之間、平均誤字率在50%~70%之間,以及平均誤字率在70%~90%之間和平均誤字率大于90%等幾個等級。
采集的數(shù)據(jù)每個級別包括至少10組數(shù)據(jù),其中70%的數(shù)據(jù)組成訓練集,其余30%作為測試集。
4.2試驗結果分析
試驗結果性能驗證采用實際主觀測度和預測主觀測度之間的Pearson系數(shù)表示,其越接近于1,說明其預測性能越好。其中Pearson系數(shù)計算公式如下:
(13)
表1 訓練集和測試集上各客觀測度以及RF融合測度的性能
表1中,每一種單獨的客觀測度的Pearson系數(shù)是在最小二乘方法和主觀測度擬合得到的結果。對比3種客觀測度,可以看出小波統(tǒng)計特性的客觀測度的性能優(yōu)于MFCC客觀測度和LPCC客觀測度,這是由于在低信噪比條件下,統(tǒng)計特性的穩(wěn)定性要優(yōu)于單純的特征表示。對比MFCC客觀測度和LPCC客觀測度,可以發(fā)現(xiàn)MFCC客觀測度在訓練集和測試集性能均優(yōu)于LPCC客觀測度。將3種客觀測度進行隨機森林融合,并對應主觀測度進行回歸分析可以發(fā)現(xiàn),其性能最優(yōu),在訓練集上其Pearson系數(shù)可以達到0.91以上,對應測試集,其性能也接近0.90。
進一步對比各種測度在訓練集和測試集的性能可以發(fā)現(xiàn),訓練集的性能普遍優(yōu)于測試集的性能。對比3種單獨的客觀測度在訓練集和測試集的性能可以發(fā)現(xiàn),其Pearson系數(shù)基本下降4%左右,而對于RF融合回歸方法,其性能僅下降1%左右。這說明通過雙隨機訓練得到的隨機森林模型,其普適性較強,并且這種雙隨機選擇訓練數(shù)據(jù)的過程可以有效避免過擬合現(xiàn)象。
本文主要將隨機森林用于語音通信干擾效果評價系統(tǒng)中。針對各種客觀測度在不同干擾條件下的一致性差的問題,通過隨機森林模型在完成回歸預測的同時,對多種客觀測度進行融合。在實際的超短波通信干擾系數(shù)數(shù)據(jù)的基礎上,通過試驗驗證了隨機森林在多客觀測度融合回歸的正確性和有效性。
[1]譚曉衡,許可,秦基偉.基于聽覺感知特性的語音質(zhì)量客觀評價方法[J].西南交通大學學報,2013,48(4):756-760.
[2]江亮亮,楊付正,等.利用兩級時域聯(lián)合的包層語音質(zhì)量評價模型[J].西安電子科技大學學報:自然科學版,2013,40(3):14-19.
[3]劉曉東.基于組合策略的隨機森林方法研究[D].遼寧:大連理工大學,2007,38(4):23-28.
[4]Criminisi A,Shotton J.Decision Forests for Computer Vision and Medical Image Analysis[M].London:Springer London Ltd,2013:211-295.
[5]Breiman L.Random forests[J].Machine learning,2001,45(1):5-32.
[6]韓慧,王繼祥.一種提高語音干擾效果評估準確度的方法[J].無線電工程,2011,41(3):17-19.
[7]陳兵,尹曼.基于DHMM的語音識別算法及DSP實現(xiàn)[J].無線電工程,2015,45(8):35-38.
[8]劉敏,郎榮玲,曹永斌.隨機森林中數(shù)的數(shù)量[J].計算機工程與應用,2015,41(05):13-16.
[9]刑峰.基于小波變換的音頻特征提取與分類研究[D].重慶:重慶郵電大學,2007,38(4):23-28.
[10]Bosch A,Zisserman A,Munoz X.Image Classification using Random Forests and Ferns[C]//IEEE International Conference on Computer Vision,Brazil,2007:4-9.
[11]史明泉.基于DSP的語音錄放系統(tǒng)的設計[J].無線電工程,2011,41(12):53-55.
Application of Random Forest on Objective Evaluation of Communication Jamming Effect
ZHANG Lu-lin
(Unit 91404,PLA,Qinhuangdao Hebei 066001,China)
In the objective evaluation of communication jamming effect,the objective measures such as Mel frequency cepstrum coefficient and linear prediction cepstrum coefficient are used to express the interference degree for communications.But there is poor robustness of every measure,that is to say,one kind of objective measurement may fully lose effectiveness in one case while it is with good performance in other cases.In order to address this problem,this paper uses random forest to fuse multiple objective measures to form novel evaluation system and assess the performance of evaluation system based on the consistency with subjective evaluation.The novel evaluation system is demonstrated based on the data from real V/UHF interference system.The results show that this system has better performance compared with single objective measure,and can effectively avoid the over fitting by randomly selecting training samples and dimensions for one sample.
random forest;communication jamming effect;objective evaluation
10.3969/j.issn.1003-3114.2016.05.22
引用格式:張璐琳.隨機森林在通信干擾效果客觀評價中的應用[J].無線電通信技術,2016,42(5):88-91.
2016-06-16
張璐琳(1972—),女,高級工程師,主要研究方向:通信對抗。
TN978
A
1003-3114(2016)05-88-4