王雪寶 湯永濤 王青波 唐文龍
摘要:文章介紹了人工智能語音識別技術在國外軍事領域中控制裝備、語義理解和信息甄別等場景的應用現(xiàn)狀,指出了該技術在各場景下的應用思路,總結了人工智能語音識別技術在國外軍事領域中的應用有利于提高人員工作效率,增強裝備智能化程度和拓寬信息維度等特點,并展望了人工智能語音識別技術在軍事領域的應用發(fā)展方向:提高識別率、增強穩(wěn)定性和推廣實用性。
關鍵詞:人工智能;語音識別;軍事領域;應用分析
中圖分類號:TP311 文獻標識碼:A
文章編號:1009-3044(2024)05-0021-03
0 引言
人工智能語音識別技術建立在人工智能算法和語音識別算法的基礎上,其基本原理是將人工智能算法用于語音識別領域,以提高語音識別的準確率、穩(wěn)健性和交互性。語音識別是將人的語音轉化為機器能夠識別的語音或者指令,且機器能夠根據(jù)指令自動做出預期的響應。從最初的字詞識別,到現(xiàn)在的人機交互,隨著該技術的不斷發(fā)展和應用,人工智能語音識別不僅給民用各領域帶來了便利,例如智能家居、智能手機、安防、教育和醫(yī)療等,同時也對軍事領域產(chǎn)生了巨大影響[1-3]。
1 人工智能語音識別技術在國外軍事領域的應用現(xiàn)狀
1.1 語音識別控制裝備
人工智能算法的發(fā)展推動了語音識別技術在各行各業(yè)的應用,尤其在智能家居領域,人可以隨意通過語音控制家居的運轉。人工智能語音識別技術實現(xiàn)了將語音轉化為控制目標運行的指令,省去了人機械性的控制行為。在軍事領域通過語音控制裝備最為經(jīng)典的案例當屬機載語音識別控制系統(tǒng)。如表1所示,早在20世紀80至90年代,美國、法國等西方國家就已經(jīng)將語音識別技術運用于“F-16”“陣風”“臺風”等系列飛機上[4]。飛行員通過語音可以控制火控雷達瞄準目標、武器攻擊目標、電子對抗裝備抗擊目標等措施自動執(zhí)行,把雙手從執(zhí)行戰(zhàn)術動作中解放出來,能夠更加專心地集中精神操縱飛機,有效提高了自身的作戰(zhàn)效能。近年來,隨著人工智能技術的不斷推廣,語音識別技術也相應得到提升,例如集成語音識別等多功能的戰(zhàn)斗機飛行員智能頭盔受到大家青睞,典型代表英國BAE Striker Ⅱ頭盔、巴基斯坦引進的殲—10CE等[5]。當然,還有艦船裝備、坦克裝備和單兵裝備等,都存在利用人工智能語音識別技術的情況。其主要思想是通過語音代替復雜流程和復雜環(huán)境中人的執(zhí)行行為和動作,提高人的效率和準確度。
1.2 語音識別語義理解
語音識別控制裝備僅需完成語音和機器指令的映射關系,識別模塊不需要理解語音的內(nèi)在含義,傳統(tǒng)的語音識別更加傾向于模式識別。如圖1所示,為語音識別的基本流程,其中固定不變的是語音采集和預處理部分,編碼中的特征提取方法和解碼中的聲學模型、語音模型、詞典會隨著語音識別算法不同而變化。隨著人工智能算法的引入,語音識別中語義推理和理解成為研究熱點問題,典型代表為語音翻譯。語音翻譯不僅要求將語音轉化為對應文字,還要求文字形成的語句準確表達出其中意思[6-8]。在軍事領域,外軍常常會截獲到潛在對手的語音通話等信息,由于語言的隔閡無法快速知曉其中的內(nèi)容,語音翻譯系統(tǒng)較好地解決了這一問題。人機互動的前提是機器較為準確地理解人的語音包含的意思,進而實現(xiàn)與人較為順暢的對話。目前,通過對大量語言文本的學習和遷移,人機交互系統(tǒng)可以實現(xiàn)簡單背景下的人機交流。在軍事訓練過程中,外軍嘗試利用人機交互系統(tǒng)實現(xiàn)對士兵各種專業(yè)技能的交流考核,提高了訓練的效率[9-10]。語音識別中的語義理解更加強調(diào)對語音內(nèi)容識別后的連貫性和可讀性。
1.3 語音識別信息甄別
語音信號中除了包含語義信息以外,還隱含著說話人的信息。如圖2所示,為語音識別中的信息甄別利用。由于人身體構造的原因,每個人的聲帶存在著差異,不同人對同一句話的表述的結果,在語音信號上存在區(qū)別,也就是“聲紋”。理想情況下,每個人說話的“聲紋”特征具有穩(wěn)定性,通過提取聲紋可以識別出特定說話人。美國將這一重要價值信息應用于軍事斗爭中,通過采集“聲紋”特征識別說話人個體身份,進而獲得有價值的情報。在軍事情報偵察過程中,通過不同的飛機或衛(wèi)星平臺裝載的通信偵察設備截獲海量語音信息,基于對關鍵人物“聲紋”的學習,從海量語音信息中尋找到特定人物,繼而采取相應的措施,包括持續(xù)性的情報搜集、目的性的火力打擊等行動[11]。語音識別中的信息甄別不僅關注語音的內(nèi)容,而且擴展到發(fā)出的語音中包含了特定人的細微特征。在確定特定人身份的情況下,再對該特定人的語音內(nèi)容進行分析和處理,或者在重點的語音內(nèi)容中搜尋特定人物,以實現(xiàn)相應的軍事目的。傳統(tǒng)條件下需要人通過自身聽覺來辨別,人工智能語音識別技術實現(xiàn)了該過程的自動化。
2 人工智能語音識別技術在國外軍事領域的應用特點
2.1 提高人員工作效率
人工智能語音識別技術在軍事領域中的應用最明顯的特點之一:實現(xiàn)了由“人動”到“自動”的轉變。無論是戰(zhàn)斗機飛行員的語音識別頭盔、人機交互軍事訓練系統(tǒng),還是“聲紋”特征甄別特定人,都是將人的行為動作轉化為通過語音控制裝設備自動運行。具備了語音識別功能,上述場景中裝備和設備需要的操作流程將簡潔化。以通過“聲紋”特征甄別特定人為例,工作人員利用傳統(tǒng)方式時將花費更長的時間在聽辨和分析海量語音數(shù)據(jù)上,且其效果也不一定令人滿意。然而,智能化語音識別手段的引入則可以有效解決這一問題,工作人員可以不用花費過多的精力在識別上,而是集中精力在獲取信息后的決策上。從操作裝備和設備的步驟來看,人工智能語音識別技術的引入可以簡化操作流程;從操作裝備和設備的人員來看,人工智能語音識別技術的引入應對多崗位裝備和設備時可以減少崗位人數(shù)。因此,人工智能語音識別技術未來在軍事裝備中的應用將使得單人能夠以簡潔的操作流程實現(xiàn)對多崗位裝備的指揮和控制,提高操作人員的工作效率。
2.2 增強智能化程度
傳統(tǒng)的語音識別技術聚焦于語音包含的表面意思,僅完成聲音到文字的轉換,少字錯字對識別結果有較大影響,容錯率較低。基于簡單的單音節(jié)或多音節(jié)字詞學習訓練完成語音信號的識別,忽視了上下文之間的內(nèi)在邏輯聯(lián)系。人工智能算法的發(fā)展使得語音識別逐步關注語音內(nèi)容的局部整體性,在某些音節(jié)不清楚和受噪聲影響較大時,通過語音信號之間的關聯(lián)性可以識別和推理出說話者要表達的意思。以人機交互為例,它實現(xiàn)了人與機器之間存在的交流機會。機器不僅僅需要識別說話人語音包含的內(nèi)容是什么,還要理解內(nèi)容表達的引申意思是什么,這樣機器才能在后續(xù)做出正確有效的回應,交互的過程才能持續(xù)保持下去。交互語音中能否恰當表達出情感是衡量機器智能化程度的重要指標之一,這里面不再是簡單的識別,還包含了深層次的推理?;谏疃葘W習、遷移學習和強化學習等算法,語音識別的智能化程度將得到強化。人工智能與語音識別技術相結合并在軍事裝備中運用,必然能使智能化程度將進一步得到提高。
2.3 拓寬信息維度
對于軍事裝備而言,語音識別在其中應用的基本目的是識別出語音信號中傳遞的內(nèi)容,并根據(jù)內(nèi)容做出對應的響應。這是從單一信息維度上思考語音信號的價值。在語音識別技術智能化不斷提高的基礎上,語音識別系統(tǒng)具備了學習和推理能力,對信息挖掘的深度得到增強,同時對信息處理的速度也得到提高。在人機進行語音交互過程中,語音識別系統(tǒng)通過學習推理能夠獲得對話上下文的邏輯關系,進而做出正確的回答。通過學習算法擴展學習維度,從中獲取語音表達的內(nèi)在聯(lián)系,未來機器交流甚至和普通人沒有區(qū)別[12-13]?!奥暭y”識別技術利用提取的細微語音特征,能夠?qū)崿F(xiàn)對發(fā)聲個體的精確識別;該思想已經(jīng)在特征域進行拓維,超越了語音信息本身,更加關注語音信號的特點。兩者存在共同特點:在完成語音識別任務過程中,通過挖掘語音信號的深層次特征,拓寬語音信號中包含的信息維度,以此地實現(xiàn)語音識別中特定的目標,并達到預期效果。在軍事裝備中拓寬接收信息維度,提高處理信息速度,對于發(fā)揮裝備的效能有重大的影響。
3 人工智能語音識別技術在軍事領域的應用展望
3.1 提高識別準確率是基礎
人工智能語音識別技術應用目的是使機器能夠聽懂人類的語音,并根據(jù)語音的內(nèi)容做出正確有效的響應??梢钥闯?,機器做出正確有效響應的前提條件是對人類語音內(nèi)容的識別準確。因此,提高人工智能語音識別技術的識別準確率是其發(fā)展的基本目標,在一定場景下語音識別系統(tǒng)的正確識別率大小是衡量該語音識別系統(tǒng)優(yōu)劣的核心因素之一。提高系統(tǒng)的正確識別率的措施主要集中在兩個方面:一是語音信號預處理算法的改進,通過濾波去噪、加窗處理和端點檢測等方法促使語音信號更加純凈,去除不同場景下噪聲等干擾的影響,利于后續(xù)顯著特征的提?。欢钦Z音模型和識別模型的改進,通過對語音模型的優(yōu)化,例如HMM-GMM等模型,采用卷積神經(jīng)網(wǎng)絡、長短時記憶網(wǎng)絡等深度學習網(wǎng)絡,基于大樣本的學習訓練,能夠有效提高語音識別系統(tǒng)的準確率。除此之外,當前流行的語音大模型,例如Whisper 和Audio?PaLM等,利用增強語音內(nèi)容上下文學習的能力和多任務同一表示的方法,采用多任務多模態(tài)的手段提升語音識別系統(tǒng)的正確識別率。
3.2 增強算法穩(wěn)健性是關鍵
一般而言,人工智能語音識別算法的準確率需要給定相應的場景,就當前技術而言難以找到適合所有場景的語音識別算法。對于語音識別系統(tǒng),語音識別算法的穩(wěn)健性決定了系統(tǒng)適應當前環(huán)境的狀態(tài)。其中包括兩個層面,一是輸入對象的語音可能會存在變化,二是輸入語音的背景可能存在不同程度的干擾影響。在背景環(huán)境一定的條件下,輸入語音的變化會對識別結果產(chǎn)生影響。尤其是在軍事領域,不同個人的發(fā)音方式、口音,同一人在正常和喉嚨嘶啞時都會影響語音輸入的結果或質(zhì)量,進而影響識別的結果。當輸入語音正常時,背景環(huán)境的干擾因素對最終的識別效果也存在較大影響。因此,在改進人工智能語音識別算法時應考慮這些層面因素。采用深度學習等算法時,構建的大樣本訓練需要添加特殊條件下的語音信號樣本,既包括輸入語音對象的狀態(tài),也包括輸入語音的背景,以增強算法的泛化性,從而實現(xiàn)系統(tǒng)的穩(wěn)健識別[14-15]。只有多方面考慮語音識別算法可能遇到的情況,并在此基礎上加以改進,才能更好地增強算法的穩(wěn)健性。
3.3 推廣技術實用性是趨勢
人工智能語音識別技術在民用領域的廣泛成功運用給世界各國軍事裝備專家以重要的啟示。雖然人工智能語音識別技術比較成熟,但是在軍事領域中找到合適的應用場景也非常重要。軍事領域?qū)ρb備的有效性和可靠性要求較高,裝備的實用性決定了語音識別技術在軍事領域的推廣程度。在將人工智能語音識別技術運用于軍事領域時,應充分考慮其使用需求,論證該技術在特定背景下的實用性程度。主要把握以下幾個方面:一是人工智能語音識別技術應用到裝備能否提高軍事領域作戰(zhàn)人員的工作效率,以及新作戰(zhàn)裝備的使用效能;二是人工智能語音識別技術應用到裝備是否會影響原有裝備各模塊的正常使用,或者性能發(fā)揮;三是人工智能語音識別技術應用到裝備后是否容易操作,以及維護保養(yǎng)。只有理清這些問題,人工智能語音識別技術與裝備結合的實用性才能得以明曉。如此,人工智能語音識別技術才能在軍事裝備領域得到廣泛的應用。
4 結束語
隨著人工智能語音識別技術的不斷進步和發(fā)展,未來語音識別系統(tǒng)在識別率、穩(wěn)定性和實用性等方面將進一步得到提升和改善。智能語音識別系統(tǒng)在軍事領域中的引入必定會給新裝備的性能發(fā)揮帶來巨大影響。世界各國在軍事裝備領域的更新?lián)Q代應當把握住技術革命帶來的發(fā)展機遇,加快高精尖裝備、技術補充和替代傳統(tǒng)裝備、技術的進程,提高軍事裝備各領域各部分的作戰(zhàn)力量,充分發(fā)揮高新技術給軍事裝備帶來的明顯優(yōu)勢。
參考文獻:
[1] 王為頌,陳健.語音識別技術在艦載指控系統(tǒng)中的應用[J].艦船科學技術,2002,24(2):55-56,62.
[2] 柏財通,高志強,李愛,等.基于門控網(wǎng)絡的軍事裝備控制指令語音識別研究[J].計算機工程,2021,47(7):301-306.
[3] 鄧福元,王建新,陳天賜.基于語音識別技術的軍事標圖系統(tǒng)設計與實現(xiàn)[J].企業(yè)技術開發(fā),2008,27(11):10-12.
[4] 趙軍輝,匡鏡明,謝湘.應用于軍事指揮中的魯棒性語音識別系統(tǒng)[J].兵工學報,2004,25(4):509-512.
[5] 陳阿磊,劉振,周暢,等.國外典型智能化網(wǎng)電軍事裝備發(fā)展研究[J].艦船電子對抗,2023,46(1):14-21.
[6] 蔡靜平.語音信號數(shù)字處理技術及其軍事應用[J].國防科技,2007,28(9):27-33.
[7] 鹿哲源,牛小明,康林,等.人機交互語音識別發(fā)展及軍事應用分析[J].兵工自動化,2023,42(4):21-25.
[8] 李雪林.基于人機互動的語音識別技術綜述[J].電子世界,2018(21):105.
[9] 齊季.軍事上的聲紋識別技術[J].百科知識,2011(4):63-64.
[10] 張鳳,高航.自然語言處理技術在西方國家軍事領域的應用現(xiàn)狀[J].國防科技,2014,35(6):75-82.
[11] 席倩,謝忠沂,孫超群,等.一種基于人臉與語音識別的智慧教室控制系統(tǒng)設計與實現(xiàn)[J].淮陰師范學院學報(自然科學版),2023,22(4):316-320.
[12] 姚鑫.基于語音識別的多模態(tài)人機交互系統(tǒng)關鍵技術研究[J].自動化與儀器儀表,2023(11):222-225.
[13] 李可.面向語言對話場景的智能語音交互關鍵技術研究[J]. 自動化與儀器儀表,2023(8):295-299.
[14] 劉育坤,鄭霖,黎塔,等.多聲學場景下端到端語音識別聲學編碼器的自適應[J].聲學學報,2023,48(6):1260-1268.
[15] 王麗,涂冰花,王偉,等.長短期記憶循環(huán)神經(jīng)網(wǎng)絡在自動語音識別中的應用[J].單片機與嵌入式系統(tǒng)應用,2023,23(10):49-52,56.
【通聯(lián)編輯:朱寶貴】