陳 晨,胡貝貝
(1.空軍裝備部重點型號部,北京100843;2.空軍駐714廠軍事代表室,南京210002)
短波通信是我國戰(zhàn)機(jī)的重要通信手段。但是受發(fā)射功率、天線增益等因素的影響,遠(yuǎn)距離通信能力的不足是對傳統(tǒng)短波通信體制的一個重大挑戰(zhàn)。同時,短波通信頻道較窄、信道擁擠,容易受敵方和非敵方干擾,在戰(zhàn)時復(fù)雜電磁環(huán)境下,短波通信的可靠性難以得到保障。因而,如何為機(jī)載短波通信系統(tǒng)提供應(yīng)急通信能力成為了行業(yè)內(nèi)的研究熱點。
專家學(xué)者針對上面提出的問題開展了廣泛的研究,文獻(xiàn)[1]提出了一種以小衛(wèi)星為中繼的遠(yuǎn)程通信方案;文獻(xiàn)[2]介紹了短波通信的抗干擾方法和應(yīng)用,以及短波通信抗干擾技術(shù)的發(fā)展趨勢。本文從分析目前短波通信系統(tǒng)存在的問題入手,通過使用語音識別技術(shù),設(shè)計出基于語音識別技術(shù)的機(jī)載短波應(yīng)急通信方法,并細(xì)分析了實現(xiàn)該方法的關(guān)鍵技術(shù)。該方法對短波信道的要求低,從而可以極大地提高短波通信的通信距離和抗干擾能力。
我國在南海最南端的領(lǐng)土曾母暗沙距離我國大陸約兩千公里,菲律賓最南端的島嶼棉蘭老島距離我國大陸約2 000 km。我國目前的三代戰(zhàn)機(jī)的作戰(zhàn)半徑可以達(dá)到1 500~2 000 km以上,但是作為這些機(jī)型遠(yuǎn)程通信唯一手段的短波電臺的通信距離已經(jīng)不能覆蓋載機(jī)的作戰(zhàn)半徑,當(dāng)前正在研發(fā)的新一代戰(zhàn)機(jī)對短波電臺的通信距離要求成倍提高,但同時其中的一些關(guān)鍵指標(biāo)如發(fā)射功率、天線增益等并未提高甚至受飛機(jī)氣動外形影響有所降低,在這種條件下要保證飛機(jī)的遠(yuǎn)距通信能力,傳統(tǒng)的通信體制面臨很大的挑戰(zhàn)。
由于短波通信頻段較窄、信道擁擠,受環(huán)境影響嚴(yán)重,通信存在質(zhì)量較差、不穩(wěn)定、干擾嚴(yán)重等不利因素,在平時的正常使用中短波電臺的通信難以百分之百聯(lián)通,對于戰(zhàn)時電子戰(zhàn)帶來的復(fù)雜電磁環(huán)境,短波通信的可用性將更加難以保證。對于跳頻抗干擾,由于現(xiàn)役機(jī)載短波電臺跳速過低,在每一頻點駐留時間過長,而干擾設(shè)備從偵察頻率到引導(dǎo)干擾的反應(yīng)時間越來越短,同時由于短波信道擁擠的狀況和戰(zhàn)時敵我雙方大量的電子戰(zhàn)裝備對短波信道的干擾,幾乎不可能找到?jīng)]有干擾的信道,現(xiàn)有的跳頻抗干擾方式將很難發(fā)揮作用。以美國、韓國、我國臺灣地區(qū)等普遍裝備的典型車載短波通信干擾設(shè)備AN/TLQ-17(20世紀(jì)90年代海灣戰(zhàn)爭時產(chǎn)品)為基準(zhǔn)進(jìn)行計算,我現(xiàn)役機(jī)載短波電臺的通信能力難以得到有效保證。表1是美軍幾種典型的通信干擾裝備及其指標(biāo)。
表1 美軍幾種典型的通信干擾裝備Table1 Typical communication jamming equipment of US military forces
綜上所述,作為機(jī)載遠(yuǎn)距通信主要手段的短波電臺目前無論是在抗干擾能力還是通信距離方面都存在嚴(yán)峻挑戰(zhàn),需要增加一種應(yīng)急通信手段,當(dāng)常規(guī)短波通信在距離或干擾等極限條件下無法連通時作為常規(guī)短波通信的補(bǔ)充,保障飛行員的最低通信需求。
短波電臺的通信距離和抗干擾能力與短波電臺的發(fā)射功率、天線尺寸以及接收機(jī)的信號處理能力有密切關(guān)系。由于機(jī)載平臺的能耗以及尺寸等因素的限制,發(fā)射功率和天線增益提高的空間都不大,唯一具有較大改進(jìn)潛力的地方就是電臺的接收處理性能。
根據(jù)香農(nóng)定理我們知道,接收機(jī)處理的信號信噪比同傳輸速率相關(guān),在信道帶寬固定的情況下,信道速率越低,需要的信噪比越低,同時其接收靈敏度也就越高,傳輸距離越大。也就是說,在其他條件相同時,如果要高保真的語音或高速的數(shù)據(jù)通信,那么對信道的信噪比要求就越高,通信的距離就越近,抗干擾能力就越差。
當(dāng)前的通信技術(shù)中大量采用聲碼話技術(shù)將傳統(tǒng)的模擬語音轉(zhuǎn)化成數(shù)字語音進(jìn)行壓縮傳輸,一般的正常數(shù)字語音速率為64 kb/s(傳統(tǒng)電話)。在無線通信中,通常采用降低采樣率以及壓縮編碼的方式進(jìn)行傳輸,在保證話音質(zhì)量的同時降低傳輸速率。
實際上,正常語音包含有豐富的信息,包括頻譜特征、聲紋、語氣以及語義信息等,其中的很多信息并不是我們所必需的。圖1是“任務(wù)已經(jīng)完成”這段2 s話音的時間-頻率-幅度三維采樣波形,其對話音正常采樣時占用接近7 kHz的帶寬。圖2所示的是加了300 Hz的帶通濾波器后的采樣波形,其在占用300 Hz帶寬時仍舊能夠把“任務(wù)已完成”這句話的意思表述清楚,前后兩者的數(shù)據(jù)量和數(shù)據(jù)率相差幾十倍,圖2所示的就是低速聲碼話的基本工作原理。
圖1 占用7 kHz帶寬的語音信號Fig.1 Speech signal of 7 kHz bandwidth
圖2 占用300 Hz帶寬的語音信號Fig.2 Speech signal of 300 Hz bandwidth
那么,最低可接受的語音通話是什么水平?通話中真正關(guān)注的是語音本身還是其語義?兩者對通信帶寬以及信噪比的要求有巨大的差別。例如:飛行員以正常的語速回復(fù)“明白”這句話音,以1 200 b/s的聲碼話傳輸需要1 200 b的數(shù)據(jù)量,而其中的語義用6 b的數(shù)據(jù)就可以表達(dá)清楚。當(dāng)指揮員和飛行戰(zhàn)斗人員在強(qiáng)干擾導(dǎo)致的所有正常通信手段失效時,需要的可能僅僅是執(zhí)行或取消、完成或失敗這樣一個6 b的語義信息。
語音識別是一個模式匹配的過程,將語音信號轉(zhuǎn)化為文本。通常在貝葉斯統(tǒng)計建??蚣芟录右越鉀Q。如果認(rèn)為語音可以通過特征提取轉(zhuǎn)換為具有區(qū)分度的特征序列 O={o1,o2,o3,…,oT},那么語音識別的任務(wù)就是在所有的詞序列空間中搜索最優(yōu)的詞序列
其中,W表示特征序列O對應(yīng)的詞序列,P(O|W)被稱為聲學(xué)模型概率,P(W)被稱為語言模型概率。語音識別的任務(wù)就是找到一個最優(yōu)的詞序列,使后驗概率最大化。
一個典型的語音識別系統(tǒng)如圖3所示,由前端特征提取模塊、聲學(xué)模型、語言模型和解碼器等部分構(gòu)成。
圖3 語音識別系統(tǒng)的基本組成Fig.3 Basic structure of speech recognition system
基于統(tǒng)計建??蚣艿恼Z音識別需要將原始的語音時域信號參數(shù)化,轉(zhuǎn)換為具有區(qū)分度的、易于計算機(jī)存儲和處理的特征矢量。目前主流的語音識別系統(tǒng)都采用短時傅立葉變換、線性預(yù)測分析和倒譜分析等信號處理手段。
聲學(xué)模型要解決的問題是語音特征和建模單元之間的匹配性和區(qū)分性的問題。當(dāng)前主流的語音識別系統(tǒng)絕大多數(shù)采用隱馬爾科夫模型(Hidden Markov Model,HMM)來對聲學(xué)模型進(jìn)行建模[3-4]。一個典型的用于語音識別聲學(xué)建模的HMM如圖4所示。
圖4 用于語音識別的典型HMM結(jié)構(gòu)Fig.4 Typical structure of HMM for speech recognition
HMM的每個狀態(tài)通常采用高斯混合模型(Gausssian Mixture Model,GMM)進(jìn)行描述,一個GMM的定義如下:
其中,csm是狀態(tài)s中第m個混合高斯分量的權(quán)重,D是語音特征向量的維數(shù),μsm和sm分別為第m個高斯分量的均值向量和協(xié)方差矩陣。
解碼器的任務(wù)是在由聲學(xué)模型、發(fā)音詞典、命令集等知識源組成的搜索空間中搜索出最佳詞序列(命令)。在語音識別中,解碼器所用到的空間異常巨大,必須借助一系列方法對搜索空間進(jìn)行壓縮。
近20年來,語音識別技術(shù)開始走向市場,并且在一些領(lǐng)域取得了較好的使用效果,典型的例子如蘋果iphone4S手機(jī)中的“語音助手(Siri)”、科大訊飛公司的“訊飛口訊”軟件(語音識別效果如圖5所示)。在軍用航空電子領(lǐng)域中,美、法、英、瑞典等先后開展了將語音識別技術(shù)應(yīng)用到機(jī)載平臺的嘗試。歐洲的“臺風(fēng)”戰(zhàn)斗機(jī)率先引入了語音識別技術(shù)用于語音控制,能夠準(zhǔn)確識別200多種控制命令,對飛機(jī)航電系統(tǒng)的26種功能進(jìn)行控制,其識別準(zhǔn)確率超過95%。美軍的F35也引入了該項技術(shù),可以識別100條指令,識別準(zhǔn)確率達(dá)到98%,美軍正在考慮將該技術(shù)運(yùn)用到F-22“猛禽”戰(zhàn)斗機(jī)上。據(jù)此可見,語音識別技術(shù)的成熟度已經(jīng)達(dá)到應(yīng)用于軍用航空電子設(shè)備的水平。
圖5 訊飛軟件語音識別效果圖Fig.5 The impression drawing of iFLY's speech recognition software
基于上述分析,本文提出一種綜合的解決方案,主要思路是在短波電臺中引入語音識別及極低速率實時通信兩種先進(jìn)技術(shù),通過語音識別技術(shù)提取話音中的語義信息,再將語義信息以極低速實時通信模式進(jìn)行傳遞,最大程度減少不必要的通信數(shù)據(jù)量,以此降低對信道的要求。同時,在接收端將話音含義信息通過語音合成技術(shù)生成人工語音,保持短波電臺輸入輸出語音的接口不變,既不改變飛行員的使用習(xí)慣,也不改變與短波電臺交聯(lián)的其他航電設(shè)備,從而在大幅提高短波電臺的通信距離和抗干擾能力的同時,減小項目的規(guī)模和成本。
圖6為系統(tǒng)原理框圖,在不影響短波電臺其他功能和性能的條件下,在電臺收發(fā)信機(jī)單元里增加一路可選的最低限度通信通道。當(dāng)正常話音因為干擾或距離過遠(yuǎn)等原因完全中斷時調(diào)用其功能實現(xiàn)話音通信。其硬件包括語音識別模塊、語音合成模塊、控制模塊以及極低速波形調(diào)制解調(diào)模塊,其中語音識別和語音合成模塊分別與電臺的語音輸入輸出接口相交聯(lián),極低速波形調(diào)制解調(diào)模塊與電臺內(nèi)部的信道模塊的中頻接口相交聯(lián)。
圖6 基于語音識別技術(shù)的機(jī)載應(yīng)急通信系統(tǒng)原理框圖Fig.6 Functional block diagram of the proposed scheme
當(dāng)該通道用于發(fā)話時,語音識別模塊對飛行員的話音進(jìn)行識別,提取語義信息轉(zhuǎn)化為對應(yīng)的數(shù)據(jù),傳遞至極低速波形調(diào)制解調(diào)模塊,調(diào)制產(chǎn)生中頻模擬信號經(jīng)電臺內(nèi)部的信道單元變頻后發(fā)射;當(dāng)該通道用于收話時,接收來自電臺信道單元的經(jīng)極低速調(diào)制的中頻信號,解調(diào)出數(shù)據(jù)信息,傳遞至語音合成模塊生成人工語音傳遞至飛行員。
該方案在理論上對短波信道的要求最低,從而能極大地提高短波通信的通信距離和抗干擾能力,其優(yōu)勢是增加該通道后的短波電臺不需要改變與機(jī)上外部航電系統(tǒng)的交聯(lián)及接口關(guān)系,基本不改變飛行員的使用習(xí)慣,經(jīng)驗證成功后,可以在新研短波電臺中將此功能模塊集成到電臺原有的主控模塊中,研發(fā)過程相對簡單,研發(fā)成本很低。
語音識別技術(shù)是把高速率的語音信號轉(zhuǎn)換為極低速率的語義數(shù)據(jù)的關(guān)鍵,采用計算資源要求較低的命令詞語音識別系統(tǒng)較為合適。為了在嵌入式系統(tǒng)的低計算資源條件下完成語音識別功能,需要對系統(tǒng)進(jìn)行高度優(yōu)化。第一,聲學(xué)模型使用在嵌入式系統(tǒng)之前,需要進(jìn)行合理地裁剪、壓縮;第二,指令集構(gòu)成的解碼搜索空間需要進(jìn)行狀態(tài)合并等技術(shù)進(jìn)行優(yōu)化;第三,解碼器需要使用高斯選擇等技術(shù)優(yōu)化搜索算法,以減少計算量。
每一套系統(tǒng)提供給飛機(jī)所在部隊的飛行員使用,因此,可以通過對聲學(xué)模型進(jìn)行說話人自適應(yīng)來提高系統(tǒng)的識別率。通過采集飛行員常用任務(wù)對話建立數(shù)據(jù)庫,作為先驗數(shù)據(jù),采用最大似然線性回歸(Maximum Likelihood Linear Regression,MLLR)算法[5]或最大后驗概率(Maximum A Posteriori,MAP)算法[6]對聲學(xué)模型進(jìn)行說話人自適應(yīng),提高系統(tǒng)對相關(guān)說話人的識別性能。
MLLR算法通過說話人相關(guān)、識別環(huán)境相關(guān)的語音數(shù)據(jù)對背景聲學(xué)模型的高斯均值和方差進(jìn)行線性變化,使自適應(yīng)后的模型能夠更好地擬合實際識別的語音。線性變化的參數(shù)在最大似然準(zhǔn)則下通過EM算法訓(xùn)練得到。MLLR假設(shè)自適應(yīng)后的模型參數(shù)與已有背景模型參數(shù)存在如下線性變化關(guān)系:
其中,μ、Σ分別是均值矢量和協(xié)方差矩陣。
MAP自適應(yīng)利用貝葉斯理論,將模型先驗信息與帶噪語音數(shù)據(jù)信息相結(jié)合實現(xiàn)自適應(yīng)。新模型的參數(shù)通過最大化帶噪語音數(shù)據(jù)x的后驗分布來估計:
飛機(jī)平臺上的背景噪聲較大,只有解決了噪聲魯棒性問題,該項技術(shù)才能真正實用。語音識別的噪聲魯棒性是指在輸入語音受噪聲影響、質(zhì)量較差、語音的音素特性或聲學(xué)特性在訓(xùn)練和測試不匹配時,語音識別系統(tǒng)仍然保持較高的識別精度的性質(zhì)。噪聲魯棒性語音識別的研究目的就是要消除或減小這種不匹配帶來的影響??梢酝ㄟ^映射f來描述這種不匹配性:
其中,s是一個識別單元模型;用e來表示一個特定的聲學(xué)環(huán)境,qe(s)表示在聲學(xué)環(huán)境e下對s的度量;映射f代表一種最小化環(huán)境α和β下的度量轉(zhuǎn)換。可以考慮采用修改解碼過程中所使用的聲學(xué)模型,即模型域方法,或采用特征域方法來提高系統(tǒng)在機(jī)載噪聲條件下的性能。這兩大類變換方法如圖7所示。
圖7 語音識別噪聲魯棒性方法Fig.7 Methods of noise robustness speech recognition
(1)模型域魯棒性技術(shù)分析
模型域魯棒性技術(shù)主要通過修改訓(xùn)練模型的參數(shù),使其適應(yīng)測試語音。前面提到的聲學(xué)模型自適應(yīng)技術(shù)也可以用于提高系統(tǒng)的噪聲魯棒性。通過采集飛行員話筒傳入的機(jī)艙內(nèi)噪聲數(shù)據(jù)使用MLLR或者M(jìn)AP對聲學(xué)模型進(jìn)行修正,可以較好地解決噪聲魯棒性問題。
(2)特征域魯棒性技術(shù)分析
前端特征域魯棒性技術(shù)的目標(biāo)是對原始語音信號進(jìn)行處理,提取和訓(xùn)練數(shù)據(jù)“近似”的聲學(xué)特征,提供給解碼器使用。常見的特征域魯棒性技術(shù)有特征規(guī)整技術(shù)和魯棒性特征技術(shù)兩類。
可以考慮使用均值方差規(guī)整技術(shù)(Mean and Variance Normalization,MVN)對特征進(jìn)行處理。語音信號o(t)是由原始發(fā)音信號s(t)經(jīng)過傳播函數(shù)h(t)表征的傳輸信道得到的,在時域上表示為o(t)=s(t)*h(t),頻域上則表示為O(f)=S(f)H(f)。對O(f)取倒譜則得到
通常,同一個信道的傳輸函數(shù)H(f)是較為穩(wěn)定,減去這一信道倒譜的均值,能在一定程度上排除信道帶來的影響。對語音特征的方差進(jìn)行規(guī)整,能進(jìn)一步地抑制加性噪聲。設(shè)O(t)為第t幀語音信號倒譜,語音信號的長度為T,那么經(jīng)過MVN后的O'(t)為
魯棒性特征提取方法試圖獲取抗噪能力強(qiáng)的特征參數(shù)。梅爾頻率倒譜系數(shù)和感知線性預(yù)測系數(shù)是目前主流語音識別系統(tǒng)使用的特征。基于人耳聽感知機(jī)理和子帶能量規(guī)整特征(Auditory-Based Subband Power Normalized Features,ABSPNF)[7]使用實時在線的子帶能量規(guī)整,融入感知線性預(yù)測系數(shù)中的等響度預(yù)加重和強(qiáng)度-響度冪次法則,在噪聲環(huán)境下有較好的識別性能。采用ABSPNF作為語音識別的輸入特征,可以進(jìn)一步地提高系統(tǒng)在機(jī)載噪聲下的識別精度。
本文分析了現(xiàn)有短波通信在抗干擾和通信距離上存在的欠缺,提出了一種基于語音識別技術(shù)的機(jī)載短波應(yīng)急通信方法。該方法通過語音識別技術(shù)提取語音信號的語義信息進(jìn)行傳輸。針對這種特定的環(huán)境,本文就嵌入式命令詞語音識別系統(tǒng)、說話人自適應(yīng)技術(shù)、噪聲魯棒性語音識別技術(shù)進(jìn)行了分析,采用這些技術(shù)提高了語音識別的性能,保證了基于語音識別技術(shù)的機(jī)載短波應(yīng)急通信方法的實現(xiàn)。
本文提出的基于語音識別技術(shù)的機(jī)載短波應(yīng)急通信方法降低了對短波信道的要求,可極大地提高短波通信的通信距離和抗干擾能力,為機(jī)載平臺提供了一種常規(guī)短波通信完全失效時的應(yīng)急通信手段,保障飛行員的最低通信需求。今后的工作方向之一是研究新的聲學(xué)模型建模技術(shù)和魯棒性語音識別技術(shù),進(jìn)一步提高系統(tǒng)的穩(wěn)定性和可靠性。
[1]吳昊,陳樹新,張衡陽.基于小衛(wèi)星中繼的遠(yuǎn)程通信方案[J].電訊技術(shù),2012,52(4):452-455.WU Hao,CHEN Shu-xin,ZHANG Heng-yang.A Remote Communication Scheme Based on Small Satellite Relay[J].Telecommunication Engineering,2012,52(4):452-455.(in Chinese)
[2]王磊,李鶴,周音,等.信息化條件下短波通信抗干擾技術(shù)與應(yīng)用[J].艦船電子工程,2012,32(2):69-72.WANG Lei,LI He,ZHOU Yin,et al.Technology and Application Research of HF Communication Anti-jamming under the Informatization Condition [J].Ship Electronic Engineering,2012,32(2):69-72.(in Chinese)
[3]Levinson S,Rabiner L,Sondhi M.An introduction to the application of the theory of probabilistic functions of a markov process to automatic speech recognition[J].Bell System Technical Journal,1983,62(4):1035-1074.
[4]Rabiner L.A tutorial on hidden markov models and selected applications in speech recognition[J].Proceedings of the IEEE,1989,77(2):257-286.
[5]Leggetter C,Woodland P.Maximum likelihood linear regression for speaker adaptation of continuous density hidden markov models[J].Computer Speech and Language,1995,9(2):171-185.
[6]Gauvain J,Lee C.Maximum a posteriori estimation for multivariate gaussian mixture observations of markov chains[J].IEEE Transactions on Speech and Audio Processing,1994,2(2):291-298.
[7]蔡尚.自動語音識別中的噪聲魯棒性特征提取方法研究[D].北京:中國科學(xué)院聲學(xué)研究所,2012.CAI Shang.Noise Robust Feature Extraction Methods for Automatic Speech Recognition[D].Beijing:Institute of A-coustics,Chinese Academy of Sciences,2012.(in Chinese)