許開淳 孟令鑫 余彥龍 張博
摘 要:伴隨著當(dāng)下航空產(chǎn)業(yè)蓬勃發(fā)展、民航空域日益緊張、飛機日益增多,空中交通管制人員的責(zé)任也愈發(fā)重大。而陸空通話不僅是空中交通管制員在日常工作崗位上使用的標(biāo)準(zhǔn)用語,其熟練與否還是評價管制員能力的指標(biāo)之一,同時也是航空院校學(xué)生平日訓(xùn)練用語以及日后考取執(zhí)照從業(yè)上崗的基礎(chǔ)。一線空管人員在使用陸空通話時的一字一句都關(guān)系到航空安全,因此相關(guān)航空產(chǎn)業(yè)人員需要勤加訓(xùn)練并提高陸空通話能力。本文研究了陸空通話語音識別方法,可作為開發(fā)陸空通話手機APP訓(xùn)練軟件的基礎(chǔ),使從業(yè)管制人員以及相關(guān)專業(yè)在校大學(xué)生、航空愛好者能夠隨時隨地的方便得到標(biāo)準(zhǔn)的陸空通話語音訓(xùn)練。
關(guān)鍵詞:空中交通管理; 陸空通話 ;語音識別 ;DTW算法
1 背景與意義
陸空通話是空中交通管制員從業(yè)上崗的基礎(chǔ),也是在日常工作中時刻使用的標(biāo)準(zhǔn)語言。管制員通過陸空通話與飛行員直接聯(lián)系,做出明確的指示,引導(dǎo)飛機安全飛行。因此,無論管制能力有多強,若陸空通話發(fā)音不標(biāo)準(zhǔn),特別是英語發(fā)音不標(biāo)準(zhǔn),外籍飛行員聽不懂管制員的指令,后果將不堪設(shè)想;近年來,國內(nèi)飛行員由于發(fā)音不標(biāo)準(zhǔn),與外籍管制員之間的尷尬對話屢有被曝光,也值得我們深省。因此,陸空通話對于管制員和飛行員都是十分重要的,其使用是否標(biāo)準(zhǔn)將直接影響空中交通安全。各類專業(yè)人員需要不斷訓(xùn)練,提高陸空通話能力。
從學(xué)校培養(yǎng)人才的角度來講,空管學(xué)院每年有將近400名畢業(yè)生走向全國各個一線管制崗位。在大學(xué)期間的培養(yǎng)過程,只有在相應(yīng)的管制課程中才會得到教師的指導(dǎo),訓(xùn)練和提高自身的陸空通話水平。而平時絕大部分學(xué)生在這一方面的投入時間很少,發(fā)音沒有經(jīng)過矯正,距離工作崗位要求有很大的差距。而恰恰這一重要的技能需要在平時不斷訓(xùn)練,因此急需專門的輔導(dǎo)軟件,使學(xué)生在日常生活中就能自學(xué)自練。
從單位對于人才的需求來講,各個一線管制單位招聘管制專業(yè)的學(xué)生后,還要進行一段時間的崗位培訓(xùn)。而從長期的反饋來看,我們培養(yǎng)的學(xué)生大多數(shù)陸空通話發(fā)音不標(biāo)準(zhǔn),少數(shù)學(xué)生經(jīng)過短期培訓(xùn)就能勝任管制工作。因此單位對于學(xué)校的培養(yǎng)也提出了更加明確的要求,希望能夠在大學(xué)期間提高學(xué)生的陸空通話水平,縮短單位培訓(xùn)時間,達到盡快上崗的目的。
從社會對于行業(yè)的了解來講,近年來各種媒體對于民航及空管行業(yè)的關(guān)注越來越多。管制員正在逐漸由幕后走向臺前,越來越多的普通人希望獲得更多的管制知識。本文以及后續(xù)的軟件成果,可以為各類人群提供認識和學(xué)習(xí)管制知識的工具,提升社會對于管制工作的認同感。
基于以上目的,本文研究了陸空通話英語語音識別的方法,可作為開發(fā)陸空通話訓(xùn)練軟件的基礎(chǔ),學(xué)生通過手機便能夠在課余時間隨時隨地得到標(biāo)準(zhǔn)的英語通話訓(xùn)練,可以有效提高自身的陸空通話水平、調(diào)節(jié)標(biāo)準(zhǔn)發(fā)音,具有很強的實用價值和推廣意義。
2 實現(xiàn)方法
本文主要研究的問題主要在于陸空通話語音識別與標(biāo)準(zhǔn)化。陸空通話具有標(biāo)準(zhǔn)的發(fā)音,區(qū)別于日常用語,具有明顯的行業(yè)特點,如字母 A 的發(fā)音不是/ei/而是/a:lf/,針對性非常強,因此需要在系統(tǒng)內(nèi)制作成標(biāo)準(zhǔn)的模板,同時針對個體發(fā)音需要進行語音識別與比對,測量其標(biāo)準(zhǔn)性。
針對研究的問題,本文的解決方案是擬采用動態(tài)時間規(guī)整模型(Dynamic Time Warping,DTW)方法進行語音識別與標(biāo)準(zhǔn)化。
首先,DTW是目前主要使用的語音識別算法,由于陸空通話的標(biāo)準(zhǔn)性,可以比較準(zhǔn)確的建立標(biāo)準(zhǔn)語音模型;其次,通過多年的教學(xué)積累,空管學(xué)院積累了大量陸空通話音頻資料,與各地區(qū)空管局有著密切的合作,為模型的建立和訓(xùn)練提供了堅實的基礎(chǔ)。
若把測試模板的各個幀號n=1~N在一個二維直角坐標(biāo)系中的橫軸上標(biāo)出,把參考模板的各幀號m=1~M在縱軸上標(biāo)出,通過這些表示幀號的整數(shù)坐標(biāo)畫出一些縱橫線即可形成一個網(wǎng)絡(luò),網(wǎng)絡(luò)中的每一個交叉點(in,im)表示測試模式中某一幀的交匯點。動態(tài)時間規(guī)整(DTW)是把時間規(guī)整和距離測度計算結(jié)合起來的一種非線性規(guī)整技術(shù),它尋找一個規(guī)整函數(shù)im =φ(in),將測試矢量的時間軸 n 非線性地映射到參考模板的時間軸 m 上,并使該函數(shù)滿足:
D 為處于最優(yōu)時間規(guī)整情況下兩矢量的距離,d為兩矢量匹配時距離,T(n)為第n幀語音信號特征參數(shù)矢量,R(m)為第m幀語音信號特征參數(shù)矢量,im =φ(in),N為匹配終點。由于 DTW不斷地計算兩矢量的距離以尋找最優(yōu)的匹配路徑, 所以得到的是兩矢量匹配時累積距離最小所對應(yīng)的規(guī)整函數(shù), 這就保證了它們之間存在的最大聲學(xué)相似性。DTW 算法的實質(zhì)就是運用動態(tài)規(guī)劃的思想,利用局部最佳化的處理來自動尋找一條路徑,沿著這條路徑,兩個特征矢量之間的累積失真量最小,從而避免由于時長不同而可能引入的誤差。
為保證動態(tài)路徑搜索問題具有實際意義,需要對規(guī)整函數(shù)做約束。規(guī)整函數(shù)滿足如下約束條件:
①邊界限制:待測語音已完成信號端點檢測,規(guī)整將發(fā)生在信號起始幀數(shù)和信號結(jié)束幀數(shù)間,規(guī)整函數(shù)滿足如下關(guān)系
②因為信號在時域上表現(xiàn)為有順序性,所以規(guī)整函數(shù)在時間上應(yīng)該滿足單調(diào)性的限制。
③通過規(guī)定規(guī)整函數(shù)不允許跳過任何一點的語音,來保證語音信息的損失量降到最低。
將語音信號特征參數(shù)信號幀數(shù)n=1~N在二維的坐標(biāo)系橫軸逐一標(biāo)出,將用于語音識別的信號幀數(shù)m=1~M在縱軸上逐一標(biāo)出這樣便組成一個網(wǎng)格。其中,每個交叉點(ti,rj)表示待測語音信號特征參數(shù)中某幀信號和識別模板某幀數(shù)信號相交。
3 DTW算法計算步驟
然后從點(1,1)出發(fā)搜尋,反復(fù)執(zhí)行上述操作,直到到達終點(N,M)便可計算出最佳匹配路徑。D(N,M)即最佳的距離。在識別時,只需待測的信號特征參數(shù)和全部的識別參考模板的特征參數(shù)進行比較,計算出最小匹配距離Dmin(N,M)對應(yīng)的參考模板即為識別結(jié)果。
4 發(fā)音模板設(shè)計
因為陸空通話發(fā)音模板不同于日常發(fā)音,所以需要研究設(shè)計一個語音參考模板庫。通過采集語音數(shù)據(jù),計算該語音信號的特征參數(shù)即梅爾倒譜系數(shù),并將語音信號的特征參數(shù)——梅爾倒譜系數(shù)用文件保存。再將保存特征參數(shù)所對應(yīng)文件名路徑用數(shù)據(jù)庫保存。每次讀入一段語音信號時,會把該待測語言信號的特征參數(shù)——梅爾倒譜系數(shù)和模板庫的數(shù)據(jù)進行比對,用 DTW求待測信號和模板的距離。找出距離最小的對應(yīng)的參考模板所對應(yīng)的信息即識別的結(jié)果。通過錄音,然后進行特征參數(shù)訓(xùn)練形成參考模板,然后再次錄音進行 DTW 識別。
5 實驗結(jié)果與對比
6 結(jié)語與展望
本文的研究方法以及可能的后續(xù)開發(fā)軟件為航空院校學(xué)生以及空管愛好者提供了陸空通話自學(xué)工具,使其可以隨時隨地地進行陸空通話訓(xùn)練,鍛煉和提高英語通話水平。作為院校課堂教學(xué)輔助工具,它可以減輕教師輔導(dǎo)壓力,提高教學(xué)質(zhì)量;作為課后自學(xué)工具,可使學(xué)生完成自我獨立訓(xùn)練,提高陸空通話能力。既可以自動對學(xué)生發(fā)音進行評判,促進發(fā)音矯正,還可以模擬簡單的雷達管制環(huán)境,通過語音識別自動改變飛機狀態(tài),使學(xué)生獨立練習(xí)管制訓(xùn)練有效降低專業(yè)教師輔導(dǎo)的時間成本,同時大大提高學(xué)習(xí)效率。
仍有待改進的地方在于軟件只是針對小詞匯量、孤立詞的語音識別,對于連續(xù)詞匯的大詞匯量識別還有很多問題需要解決,特別是合理建立參考模板這些都是需要解決的問題。