張晗 昝鷺鷥
摘 要:隨著科技的進步,我們身邊的機器、設(shè)備都得到了極大的發(fā)展。以我們身邊的家電為例,以前我們的降溫方式大多是通過電風(fēng)扇,而現(xiàn)在家家都使用空調(diào)來降溫,生活條件得到了極大的改善。隨著時間的推移,那些智能設(shè)備的控制方式也有了很大的發(fā)展。從起初單一的手動開關(guān)到現(xiàn)在的紅外遙控、藍牙控制、手機控制、遠程控制以及語音控制等實現(xiàn)了多種控制方式。而說到語音控制,它有一個關(guān)鍵的問題,那就是降低發(fā)生語音誤識別的概率。
關(guān)鍵詞:語音控制,語音誤識別
語音控制是我們現(xiàn)在使用的控制方式的一種。語音控制的關(guān)鍵模塊為語音模塊,它可以接收語音信息,將接收到的語音信息轉(zhuǎn)換為電信號,并將轉(zhuǎn)換好的電信號輸出給單片機等主控板。通過主控板對這些電信號進行處理,最后給執(zhí)行元件的驅(qū)動裝置下達指令,然后驅(qū)動裝置將控制執(zhí)行元件運動,以實現(xiàn)預(yù)定的動作?,F(xiàn)在我們使用的語音模塊大多是可以再編輯程序的,也就是說我們可以通過向語音模塊寫入指令關(guān)鍵字,以實現(xiàn)用戶說出相應(yīng)的關(guān)鍵字就可以讓機器執(zhí)行相應(yīng)的動作。但是,語音模塊在使用的過程中,通常會有語音誤識別事件的發(fā)生,所謂的語音誤識別是指,當(dāng)我們沒有說出指令關(guān)鍵字時,機器卻執(zhí)行某個指令的動作。出現(xiàn)誤識別現(xiàn)象的原因為:語音模塊將我們說出的非指令關(guān)鍵字誤識別為指令的關(guān)鍵字,導(dǎo)致機器執(zhí)行了某個指令的動作。在語音誤識別中,那些讓語音模塊誤識別的非指令關(guān)鍵字稱為“垃圾詞匯”。如果某設(shè)備要求使用語音控制,那么我們需要解決的關(guān)鍵問題為在控制成本的要求下,盡量降低語音誤識別的發(fā)生概率。
現(xiàn)將降低發(fā)生語音誤識別概率的方法總結(jié)為兩種。一個方法是在語音模塊中編寫垃圾詞匯庫,具體的實施方法是將上述提到的垃圾詞匯組合起來,組成一個垃圾詞匯庫,當(dāng)使用者說出垃圾詞匯庫中的詞匯時,通過程序設(shè)置,將這些詞匯置空。也就是說當(dāng)使用者說出垃圾詞匯庫中的垃圾詞匯時,語音模塊雖然識別了這些詞匯,但是卻不向主控板發(fā)出任何信號。這種方法從根本上解決了語音誤識別的發(fā)生,但是具體實現(xiàn)困難,原因之一是實際應(yīng)用場景復(fù)雜,垃圾詞匯不可能被完全考慮到,所以還不能解決語音誤識別的發(fā)生,只能一定程度上降低語音誤識別的發(fā)生概率。換句話來說,語音模塊中垃圾詞匯庫越豐富,發(fā)生語音誤識別的概率就會越低;原因之二為語音模塊程序中的垃圾詞匯庫還受到語音模塊容量大小的限制。故這種方法在理論上是可以實現(xiàn)的,但是在實際中還需要研發(fā)人員不斷去發(fā)掘垃圾詞匯,這也是一項具有很大工作量的工作。
降低語音模塊發(fā)生語音誤識別的概率的第二種方法是通過減少語音模塊的工作時間來降低語音模塊發(fā)生語音誤識別的概率。實現(xiàn)的具體方式為:使語音模塊只有在用戶使用語音輸入時,才處于工作狀態(tài),即語音模塊開始接收并傳遞使用者的語音執(zhí)行指令,當(dāng)用戶不使用時,語音模塊處于待機狀態(tài),既不接收也不傳遞使用者的語音執(zhí)行指令。在這種方法中,我們把語音指令分成兩種,第一種指令是語音開關(guān)指令,這種指令即為語音工作狀態(tài)的控制指令。它共有兩個指令,其中一個指令是“開機”指令,開機指令的作用是使語音模塊從待機狀態(tài)轉(zhuǎn)變?yōu)楣ぷ鳡顟B(tài);另一個指令就是“待機”指令,待機指令的作用就是使語音模塊從工作狀態(tài)轉(zhuǎn)變?yōu)榇龣C狀態(tài)。第二種指令為語音執(zhí)行指令。語音執(zhí)行指令的作用是控制機器動作的執(zhí)行。具體的使用方式如下:當(dāng)使用者使用機器時,先說出“開機”,語音模塊處于工作狀態(tài),即整個機器處工作狀態(tài)。之后使用者可依次說出語音執(zhí)行指令,使整個機器作出相應(yīng)的動作。當(dāng)使用者不使用機器的時候,說出“待機”,使語音模塊從工作狀態(tài)轉(zhuǎn)變?yōu)榇龣C狀態(tài),不再接收語音執(zhí)行指令,即整個機器處于待機狀態(tài)。這樣就大大降低了語音模塊的工作時間,也就降低了有效工作時間內(nèi)發(fā)生語音誤識別的概率。
綜上,這兩種方法都可以使語音模塊發(fā)生語音誤識別的概率降低,相互結(jié)合使用,效果會更好。
參考文獻:
[1].程鋼, 殷轔, 梁富廣,等. 一種基于語音辨識的收視率統(tǒng)計系統(tǒng)及方法:, CN102984559A[P]. 2013.
[2].李玉萍, 樸春俊, 韓永成. 一種改進的語音信號端點檢測方法研究[J]. 國外電子測量技術(shù), 2008, 27(1):7-9.
[3].吳亮春, 潘世永. 一種語音信號端點檢測方法的研究[J]. 計算機與信息技術(shù), 2009(3):17-18+21.