岳雅婷,孫文清,張雅婷,朱雨情,張 琦
(安徽三聯(lián)學(xué)院,安徽 合肥 230601)
智能小耳主要利用智能喚醒的功能,完成使用者的指令,對(duì)耳機(jī)做出的一系列的創(chuàng)新都是更好地為使用者提供服務(wù),在生活中給使用者有很大的幫助。 智能小耳的喚醒功能幫助使用者順利完成操作,來電、去電的語音與文字互轉(zhuǎn)顯示功能可以輕松方便的接收發(fā)送信息。
“智能小耳”設(shè)備開啟后能自動(dòng)加載內(nèi)部資源,這時(shí)設(shè)備處于休眠狀態(tài)。 當(dāng)用戶說出原先設(shè)定的特定喚醒詞后,設(shè)備就會(huì)被喚醒,此時(shí)設(shè)備解除休眠狀態(tài)進(jìn)入工作狀態(tài),等待用戶下一步的指令。 在此過程中,用戶不需要?jiǎng)邮植僮?直接憑借聲音說出特定喚醒詞再用語音進(jìn)行后續(xù)操作,利用語音喚醒的功能,設(shè)備不用時(shí)刻處于工作的狀態(tài),可以很大程度節(jié)省能耗,全程不需要?jiǎng)邮植僮魍耆珣{借語音,所以十分便捷[1-3]。
語音喚醒技術(shù)的實(shí)現(xiàn)主要是依賴語音喚醒模型,它是整個(gè)語音喚醒系統(tǒng)的核心。 語音喚醒模型主要功能是在聽到喚醒詞后就能立刻從休眠狀態(tài)轉(zhuǎn)換為工作狀態(tài),所以必須實(shí)時(shí)監(jiān)測(cè),才可以在聽到喚醒詞后做到立刻反饋。 即使處于不聯(lián)網(wǎng)狀態(tài),也可以做出及時(shí)響應(yīng)。
語音識(shí)別流程主要是輸入、前端處理(預(yù)處理)、特征處理、識(shí)別過程、文本后處理。
1.2.1 輸入
輸入是指音頻信號(hào)。
1.2.2 前端處理(預(yù)處理)
當(dāng)需要被識(shí)別的音頻信號(hào)輸入后,需要對(duì)音頻進(jìn)行一些優(yōu)化處理。 例如,音頻中有一段靜音,需要切掉靜音部分,這就是靜音檢測(cè)(Voice Activity Detection,VAD)技術(shù),也叫端點(diǎn)檢測(cè)。 靜音檢測(cè)用于檢測(cè)出含有聲音信息的音頻,切除靜音的部分。 靜音檢測(cè)可以設(shè)置靜音檢測(cè)時(shí)長(zhǎng),根據(jù)時(shí)長(zhǎng)判斷是否是靜音,從什么時(shí)間開始切除。 部分音頻中含有噪聲,需要對(duì)其進(jìn)行降噪處理,這樣可以更好地進(jìn)入后續(xù)的任務(wù)流程。 還有一些語音的預(yù)處理過程例如分幀、加窗、預(yù)加重[4-8]。
1.2.3 特征提取
在預(yù)處理完成之后,需要對(duì)音頻進(jìn)行聲學(xué)特征參數(shù)提取,這些特征提取主要是通過參數(shù)的方式獲取音頻的特征,將音頻的特征變成計(jì)算機(jī)能夠處理的語音特征向量,方便計(jì)算機(jī)理解、記錄和對(duì)比。 每段音頻的特征參數(shù)基本上都是不一樣的,同樣一段話的不同音色的音頻特征可能更接近一些。
1.2.4 模型生成
當(dāng)特征提取成功后,根據(jù)這些參數(shù)特征生成模型,稱為聲學(xué)模型,聲學(xué)模型主要是用于生成音素。 在中文中,音素指拼音的聲母韻母。
1.2.5 模型匹配
將提取的特征參數(shù)與聲學(xué)模型和語言模型進(jìn)行匹配。 與聲學(xué)模型對(duì)比給出對(duì)應(yīng)音素的概率,從而判斷具體的音素。 和語音模型對(duì)比給出漢字或者詞語的概率。
1.2.6 生成文字
通過語言模型的對(duì)比,生成漢字,也根據(jù)上下文的句子優(yōu)化識(shí)別出來的文字。
1.2.7 數(shù)字歸一化
在識(shí)別的音頻中如果出現(xiàn)數(shù)字時(shí),識(shí)別出來剛開始時(shí)是漢字。 例如,“123”會(huì)被識(shí)別成“一二三”。 為了便于用戶的理解,提高用戶體驗(yàn),則需要將數(shù)字歸一化,把漢字轉(zhuǎn)化為阿拉伯?dāng)?shù)字。
語音識(shí)別技術(shù)在整個(gè)語音交互中是一個(gè)不可或缺的技術(shù),但是有一些瓶頸問題。 比如,在轉(zhuǎn)換過程中容易出現(xiàn)差錯(cuò)。 現(xiàn)如今的技術(shù)可以做到盡可能將識(shí)別錯(cuò)誤率降在一個(gè)容錯(cuò)的范圍內(nèi),少量的錯(cuò)誤并不會(huì)對(duì)整段話的理解產(chǎn)生影響,智能行業(yè)的發(fā)展伴隨著這種技術(shù),是相輔相成的[9-10]。
本套系統(tǒng)采用了智能喚醒技術(shù)、語音文字互轉(zhuǎn)技術(shù)、語音播報(bào)和語音識(shí)別技術(shù)。 利用藍(lán)牙技術(shù)將智能耳機(jī)與手機(jī)相匹配連接,做到下達(dá)指令并準(zhǔn)確完成以及語音文字互轉(zhuǎn)顯示。 系統(tǒng)分為信息采集模塊、信息處理模塊和人機(jī)交互模塊3 個(gè)部分,如圖1 所示。 這套系統(tǒng)為老人提供了很多方便,無論是老年機(jī)還是智能機(jī)都可以與智能小耳通過藍(lán)牙連接,連接上之后可以通過小耳的特殊功能—智能喚醒和來電、去電的語音與文字互轉(zhuǎn)顯示等功能,來實(shí)現(xiàn)與別人聯(lián)系溝通。這款產(chǎn)品利用自身的特殊功能完成老人們的需求,給使用者更好的使用感。
圖1 智能無線耳機(jī)的系統(tǒng)模塊化結(jié)構(gòu)
開啟耳機(jī)與手機(jī)藍(lán)牙,將手機(jī)與耳機(jī)進(jìn)行匹配,匹配成功后,利用智能喚醒功能喚醒耳機(jī)的智能助理。再對(duì)智能助理下達(dá)命令,智能助理接收命令后,根據(jù)命令的內(nèi)容對(duì)手機(jī)進(jìn)行相應(yīng)的控制,如使用者收到消息時(shí),聽到消息的提示音,讓小耳提取消息,根據(jù)使用者的需求,利用來電去電的語音與文字互轉(zhuǎn)功能。 當(dāng)使用者需要消息以語音的形式呈現(xiàn)時(shí),如果消息是語音則不改變形式,如果消息是文字則利用此功能轉(zhuǎn)換為語音。 使用者需要消息以文字的形式呈現(xiàn)時(shí),如果消息是文字則不改變形式,如果消息是語音則利用此功能轉(zhuǎn)換為文字,最后將結(jié)果反饋給使用者。 智能無線耳機(jī)的功能流程,如圖2 所示。
圖2 智能無線耳機(jī)的功能流程
2.1.1 信息采集模塊
信息采集模塊主要包括使用者指令采集技術(shù)來檢測(cè)信息,完成使用者命令。 使用者指令采集用于采集使用者所發(fā)出的指令,利用語音文字轉(zhuǎn)換器實(shí)現(xiàn)語音文字互轉(zhuǎn)功能,這款軟件具有操作簡(jiǎn)單、實(shí)時(shí)高效、轉(zhuǎn)字準(zhǔn)確的特點(diǎn),從而達(dá)到信息采集的目的。
2.1.2 信息處理模塊
進(jìn)行信息采集后,選用合適的單片機(jī)來接收和存儲(chǔ)數(shù)據(jù)。 將采集到的信息與使用者命令相匹配,在使用者的允許下完成指令的內(nèi)容。 在使用的過程中,使用者將耳機(jī)與手機(jī)利用藍(lán)牙相連接,從而實(shí)現(xiàn)耳機(jī)控制手機(jī)這一功能。
2.1.3 人機(jī)交互模塊
系統(tǒng)主要為老人提供服務(wù),人機(jī)交互帶來更加便捷、人性化的服務(wù)體驗(yàn)。 耳機(jī)開機(jī)后通過藍(lán)牙自動(dòng)與手機(jī)連接,此時(shí),使用者給智能小耳下達(dá)語音指令,系統(tǒng)識(shí)別人聲后搜索相關(guān)字,將其轉(zhuǎn)化為機(jī)器語言進(jìn)行編碼、譯碼處理。 系統(tǒng)會(huì)結(jié)合數(shù)據(jù)庫完成指令的內(nèi)容,最后通過語音或文字的形式呈現(xiàn)給使用者。
市場(chǎng)上的耳機(jī)功能單一,并且只能進(jìn)行簡(jiǎn)單的語音通話,不能通過語音操控耳機(jī)和手機(jī)。 智能小耳則能通過智能喚醒、來電與去電的語音與文字互轉(zhuǎn)顯示等功能來滿足老年人的需求,以創(chuàng)新的功能和方便易攜的小巧機(jī)身吸引老年人群,以豐富實(shí)用的功能滿足消費(fèi)者。 因此,本產(chǎn)品實(shí)用性很強(qiáng),具有新穎性、先進(jìn)性、獨(dú)特性的特點(diǎn),并帶有特色功能,使用也是十分方便簡(jiǎn)單,能靠指令實(shí)現(xiàn)很多功能,給予客戶一種新的體驗(yàn)。
文章著手于解決老年人的精神上與生活上的需求。 助力小耳智能喚醒功能可以幫助使用者更方便地完成操作,在使用者下達(dá)命令之后,能夠快速準(zhǔn)確的完成指令。