基于人機交互的智能電臺系統(tǒng)的設(shè)計與實現(xiàn)

2022-10-20 09:08:46王欣崔佩璋陶杰

電子技術(shù)應(yīng)用 2022年10期

王欣，崔佩璋，陶杰

(陸軍工程大學(xué) 石家莊校區(qū)，河北石家莊 050003)

0 引言

在信息化戰(zhàn)場中，面對高速、快捷的戰(zhàn)場態(tài)勢的變化，人機交互是信息化裝備向智能化發(fā)展的必然趨勢。這種快節(jié)奏的戰(zhàn)爭作戰(zhàn)體系下，指揮控制作為戰(zhàn)場的“神經(jīng)中樞”，其無線通信裝備之一——電臺的參數(shù)修改、接口類型轉(zhuǎn)換、身份識別等方面操作可以用人機交互的語音識別代替鍵盤、旋鈕和按鍵等傳統(tǒng)方式，更能適應(yīng)現(xiàn)代戰(zhàn)爭的需求。

1 總體設(shè)計

語音識別模塊獲取語音并進行識別，發(fā)送到主控芯片，根據(jù)不同的指令[1]發(fā)送不同的協(xié)議來控制電臺的不同操作。與此同時，為了便于測試，將主控芯片識別的語音芯片通過串口發(fā)送至上位機，用于觀察發(fā)送的正確與否，總體設(shè)計如圖1 所示。根據(jù)語音識別的基本原理，咪頭采集的語音流通過語音識別模塊進行頻譜分析、特征提取，與語音庫中已經(jīng)訓(xùn)練好的語音進行模板匹配，主控芯片得到識別結(jié)果，去控制電臺的操作，在實驗中可通過串口調(diào)試助手觀察是否收到正確的指令，以便調(diào)試。

2 硬件設(shè)計

硬件設(shè)計主要包括語音識別系統(tǒng)載體和LD3320 語音識別芯片兩個組成部分，其中語音識別系統(tǒng)載體為STM32F4 開發(fā)板，并承載主控芯片負(fù)責(zé)控制語音識別芯片與PC 用戶終端之間的信息傳遞[2]。用戶首先需要通過LD3320 語音識別芯片上的MIC 接口輸入一個可以識別的模擬語音信號。緊接著系統(tǒng)裝置將模擬語音信號和數(shù)字語音數(shù)字信號通過模數(shù)轉(zhuǎn)換器和數(shù)模轉(zhuǎn)換器進行相應(yīng)轉(zhuǎn)換，并最終由PC 終端通過主控芯片對LD3320 進行一系列操控從而實現(xiàn)語音識別功能[3]。

2.1 STM32F407 主控芯片模塊

內(nèi)核采用32 位高性能ARM Cortex-M4 處理器，時鐘高達168 MHz，實際還可以超屏，支持FPU(浮點運算)和DSP 指令。I/O 口采用STM32F407ZGT6，具有144 引腳、114 個I/O，大部分I/O 口(模擬通道除外)都耐5 V，且支持SWD 和JTAG調(diào)試，SWD 只要2 根數(shù)據(jù)線。存儲器為1 024 KB Flash、192 KB SRAM。

2.2 LD3320 語音識別模塊

LD3320 芯片是一種基于非特定人語音識別(Speaker-Independent Automatic Speech Recognition，SI-ASR)技術(shù)的語音識別芯片。LD3320 芯片內(nèi)部集成了高精度的A/D和D/A 接口，不用外接存儲器就可以實現(xiàn)人機交互，在語音識別的過程中，識別的關(guān)鍵詞語列表是以字符串的形式存儲在芯片中，并且可以動態(tài)編輯[4]。

為了與主控芯片有效地通信，LD3320 語言識別芯片外圍電路如圖2 所示。引腳連接：RST-PB15，CS-PA4，IRQ-PB12，WR-PB13，MISO-PA6，MOSI-PA7，SCK-PA5。

其中RSTB 為LD3320 芯片上的復(fù)位引腳，其與主控芯片上的Pin15 引腳相連接，采取“高-低-高”的設(shè)置使得LD3320 語音芯片復(fù)位。LD3320 上的CS 引腳與主控芯片上的Pin4 引腳相連，表示是否可以對LD3320 語音芯片進行操作，其中0 表示可以操作，1 表示不可以操作。

3 軟件設(shè)計

電臺交互采用語音識別技術(shù)，其本質(zhì)就是將語音序列轉(zhuǎn)換為文本[5]，首先是預(yù)處理，將輸入的語音信號濾波、端點檢測、語音分幀以及預(yù)加重等[6]；然后進行特征提取，對語音聲學(xué)參數(shù)特征提取并計算，降低維數(shù)便于后續(xù)處理；訓(xùn)練階段是經(jīng)過特征提取后建立參考模型庫；最后將輸入語音的特征矢量參數(shù)與模型庫參數(shù)比較，作為識別的結(jié)果[7]，其基本的框圖如圖3 所示。

3.1 添加關(guān)鍵詞到LD3320 芯片中

STM32F4 控制芯片可將要識別的語音內(nèi)容以拼音的方式存儲到LD3320 芯片中，每個拼音對應(yīng)一個識別碼，用來區(qū)分不同的指令，不同的識別碼對應(yīng)不同的編號，以便于計算機進行識別[8]。語音識別時，根據(jù)咪頭采集到的語音，與存儲在LD3320 中的語音進行比對，如果與某個字符串相同，則找到對應(yīng)的編碼，進而用主控芯片控制相應(yīng)的電臺操作。關(guān)鍵詞列表見表1。

表1 關(guān)鍵詞列表

3.2 語音識別過程

在識別過程中，有聲音輸入則進入語音識別中斷，如果指令有效，與存儲的語音列表內(nèi)容進行匹配識別；如果沒有聲音，不進行語音識別，如圖4 所示。

在進入語音識別中斷時，如圖5 所示，先將檢查語音識別是否空閑，并且是否為正常的一次中斷，如果兩個條件都滿足，即可進入語音識別，與語音識別列表匹配。在匹配過程中進行打分，根據(jù)不同得分得到語音識別(ASR 識別)候選，將最高分作為最優(yōu)識別結(jié)果，因此為了提高識別率，在語音識別添加關(guān)鍵詞列表時，差別盡量大，這樣會降低識別差錯。如果為方言或英語，可通過相似的普通話拼音列表作為關(guān)鍵詞列表。其進入語音中斷，關(guān)鍵程序如下：

3.3 不同識別方式

采取循環(huán)識別的方式進行語音識別，即在整個識別過程中一直檢測是否有聲音輸入，如果有聲音輸入，則進入語音識別流程。這勢必會出現(xiàn)誤識別的問題，可能在進行其他交流時，也會誤認(rèn)為語音識別指令，導(dǎo)致識別率降低。為了提高識別率，采用按鍵或指令觸發(fā)的方式開啟識別，如圖6 和圖7 所示，這兩種識別方式區(qū)別僅在于其不同的觸發(fā)方式[9-11]。

如果有按鍵按下，則進入中斷，之后消抖，確認(rèn)是按下按鍵，語音識別標(biāo)記Flag 置1，確定開始語音識別，之后進入圖4 識別流程圖。在識別的過程中，開啟定時，在5 s 內(nèi)完成語音識別，如果按下按鍵不說話則為無效識別，因此按下按鍵或發(fā)出指令后間隔時間不能超過5 s，若超過5 s 再發(fā)出聲音，則視為無效語音，直接結(jié)束。

3.4 指令控制電臺操作

當(dāng)語音識別完成后，主控芯片根據(jù)識別到的指令發(fā)送不同的指令協(xié)議，電臺接收到后即可執(zhí)行相應(yīng)的操作。如發(fā)送數(shù)組buf1={0xaa，0x01，0x11}為打開電臺的協(xié)議，當(dāng)電臺接收到此協(xié)議后，就立刻打開電臺。同樣地，電臺收到改信道等協(xié)議，即可更改信道。主要關(guān)鍵程序如下：

4 實驗分析

本系統(tǒng)為非特定人的語音識別系統(tǒng)，根據(jù)自己所需要識別的指令分別選用了簡單的短語和短句兩種不同類型的文字內(nèi)容,并進行了識別和實驗,從而檢測出該識別系統(tǒng)在其認(rèn)知過程中的識別準(zhǔn)確度。為此，本文對不同語音識別指令文本進行了實驗，指令庫如表2 所示，并以這些命令為識別指令進行之后的其他實驗。

表2 指令庫

在安靜環(huán)境下以循環(huán)識別、按鍵識別和指令觸發(fā)識別的方式分別進行測試，識別率非常高，均為97%。但在有噪聲或外界有語音等干擾的情況下，再分別進行測試，測試表如表3 所示。

表3 不同識別系統(tǒng)的識別率 (%)

從表3 中可以看出，按鍵方式識別率最高，這是因為只有按鍵觸發(fā)了，才開始識別，被外界干擾的概率較??；而循環(huán)方式識別，系統(tǒng)則在不斷地識別，不管是不是有效指令，都在作為有聲音輸入，再進行判斷，并且有外界輸入語音的話，識別到相似的指令，則認(rèn)為是指定的識別指令，在內(nèi)部進行評分判斷時得到較高的識別分值，導(dǎo)致其誤識別，從而造成識別率降低；指令識別識別率也較高，在交互方式較多的場合應(yīng)用較廣，但是在軍用場合，操作并不是太多，為了更好地識別，按下按鍵開始識別有更高的識別率。

本系統(tǒng)采用按鍵識別的方式進行非特定人語音識別，指令可以通過串口調(diào)試助手進行實驗效果的觀察。具體測試情況如圖8 所示。

5 結(jié)論

本文推出的基于人機交互的智能電臺系統(tǒng)是以STM32F4 為主控芯片[12-15]，用于讀取語音識別模塊LD3320所獲取的語音指令，并根據(jù)不同的指令發(fā)送不同的協(xié)議，從而控制電臺狀態(tài)的改變。通過在安靜環(huán)境和有外界干擾的環(huán)境中分別以循環(huán)方式、按鍵方式和指令觸發(fā)方式進行人機交互，發(fā)現(xiàn)交互識別準(zhǔn)確率最高的為按鍵方式，指令觸發(fā)方式適合于民用的交互次數(shù)較多的場合，但是為了得到更高的識別率，在交互次數(shù)較少的軍用近場語音識別中，采用按鍵觸發(fā)識別的方式具有更好的識別效果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡