趙邦宇
摘要
隨著科學(xué)技術(shù)的發(fā)展和計(jì)算機(jī)研究力度的不斷增大,人機(jī)語(yǔ)言通信技術(shù)成為目前最受關(guān)注的一項(xiàng)關(guān)鍵技術(shù),隨著語(yǔ)音技術(shù)研究力度的增強(qiáng)和快速發(fā)展,其對(duì)人們的日常生活還有計(jì)算機(jī)發(fā)展都產(chǎn)生了一定的影響作用,同時(shí)因?yàn)檎Z(yǔ)音技術(shù)而研發(fā)出的各種產(chǎn)品也廣泛應(yīng)用到各個(gè)領(lǐng)域當(dāng)中,例如軍事監(jiān)控、電話交換、信息網(wǎng)絡(luò)查詢(xún)、語(yǔ)音撥號(hào)系統(tǒng)、語(yǔ)音通信系統(tǒng)、家庭服務(wù)以及信息檢索等等,可以說(shuō)已經(jīng)滲入到每一個(gè)行業(yè)當(dāng)中。該項(xiàng)技術(shù)也可以很好地促進(jìn)人機(jī)交互之間的自然友好關(guān)系,是未來(lái)人機(jī)交互領(lǐng)域的主要發(fā)展方向。
【關(guān)鍵詞】機(jī)器人 語(yǔ)音 交互系統(tǒng) 研究 設(shè)計(jì)
1 智能機(jī)器人語(yǔ)音交互系統(tǒng)設(shè)計(jì)
我國(guó)當(dāng)前對(duì)機(jī)器人語(yǔ)音交互系統(tǒng)的主要研究?jī)?nèi)容集中在對(duì)單獨(dú)使用電腦相關(guān)硬件或者軟件的語(yǔ)音交互載體,目前已經(jīng)實(shí)現(xiàn)了語(yǔ)音交互的有效控制,但是在實(shí)際應(yīng)用過(guò)程中仍然還是存在一定的局限性,只是能夠滿足已經(jīng)下載好的幾個(gè)系統(tǒng)功能,想要實(shí)現(xiàn)進(jìn)一步擴(kuò)展就存在一定的障礙。以下將對(duì)智能機(jī)器人語(yǔ)音控制系統(tǒng)最為例子對(duì)離線語(yǔ)音的識(shí)別以及云在線語(yǔ)音識(shí)別兩項(xiàng)內(nèi)容進(jìn)行一定的分析和研究。
在計(jì)算機(jī)各種類(lèi)型當(dāng)中,RaspberryPI是一種新型的種類(lèi),其具有很好的音頻和視頻處理功能,這種類(lèi)型的計(jì)算機(jī)配備了ARM的微型電腦主板,SD/MicroSD卡內(nèi)存硬盤(pán),4.14個(gè)USB接口,802.11nWi-Fi,一個(gè)10/100以太網(wǎng)接口,藍(lán)牙還有網(wǎng)線和鼠標(biāo)等,并且實(shí)現(xiàn)了HDMI高清視頻輸出接口和視頻模擬信號(hào)的電視輸出接口的同步擁有。和其他的單片機(jī)相比較而言,其具有一套非常完整的操作系統(tǒng),而且自身攜帶有接口,可以利用相應(yīng)的程序編程來(lái)實(shí)現(xiàn)對(duì)各種軟件的有效應(yīng)用。利用聯(lián)網(wǎng)就可以實(shí)現(xiàn)對(duì)云開(kāi)放識(shí)別技術(shù)和簡(jiǎn)單開(kāi)關(guān)的智能語(yǔ)音交互,進(jìn)一步實(shí)現(xiàn)對(duì)語(yǔ)音交互各種軟件和硬件的有效控制,同時(shí)還有效實(shí)現(xiàn)了在線和離線的有效結(jié)合。
在具體操作過(guò)程中主要分為以下幾個(gè)步驟:
(1)利用互聯(lián)網(wǎng)語(yǔ)音識(shí)別、離線語(yǔ)音識(shí)別以及云開(kāi)放語(yǔ)音識(shí)別等多個(gè)接口的有效連接對(duì)外界的語(yǔ)音信息還有一些比較簡(jiǎn)單的動(dòng)作信息進(jìn)行有效的采集,并將其傳送到主板上進(jìn)行一定的處理;
(2)經(jīng)過(guò)處理之后的信息輸出之后,利用簡(jiǎn)單的開(kāi)關(guān)和揚(yáng)聲器對(duì)這些信息做出一定的反饋和互動(dòng),然后再次利用開(kāi)關(guān)設(shè)備和聯(lián)網(wǎng)連接實(shí)現(xiàn)對(duì)無(wú)線開(kāi)關(guān)的有效控制。2離線語(yǔ)音識(shí)別
在離線語(yǔ)音識(shí)別系統(tǒng)當(dāng)中主要采用的語(yǔ)音識(shí)別模塊,另外還采用了Raspberry控制板一定的架構(gòu)方案,并利用LD3320語(yǔ)音識(shí)別模塊對(duì)語(yǔ)音進(jìn)行有效的識(shí)別。在具體操作過(guò)程中可以利用相關(guān)的軟件系統(tǒng)對(duì)關(guān)鍵字信息進(jìn)行有效的識(shí)別。在工作過(guò)程中,該模塊通常情況下只要捕捉到一些語(yǔ)音信息就會(huì)及時(shí)發(fā)出相應(yīng)的字節(jié),然后可以Raspberry嵌入控制面板來(lái)獲取相應(yīng)的字節(jié)來(lái)對(duì)其做出反應(yīng),例如可以讓語(yǔ)音模塊來(lái)播放相應(yīng)的聲音或者是做出相應(yīng)的動(dòng)作,以此來(lái)對(duì)機(jī)器人語(yǔ)音識(shí)別功能進(jìn)行有效的體現(xiàn),離線語(yǔ)音識(shí)別系統(tǒng)的框架如圖2所示。
3 云在線語(yǔ)音識(shí)別
云在線語(yǔ)音識(shí)別一般情況下都是利用百度識(shí)別系統(tǒng)、百度云語(yǔ)音合成還有云聊天機(jī)器人三個(gè)主要的系統(tǒng)共同所組成。在機(jī)器人和人之前進(jìn)行語(yǔ)音交互的過(guò)程中,機(jī)器人首先會(huì)利用麥克風(fēng)對(duì)語(yǔ)音交互相關(guān)信息進(jìn)行采集,然后利用PyAudio對(duì)其進(jìn)行組件操作,同時(shí)也就提供了Python語(yǔ)言,最后在利用Python程序?qū)ζ溥M(jìn)行視頻和音頻的播放,并利用互聯(lián)網(wǎng)將這些識(shí)別之后的文件傳輸?shù)桨俣日Z(yǔ)音服務(wù)器上。
百度云語(yǔ)音服務(wù)器在對(duì)這些文件進(jìn)行有效的識(shí)別之后,就可以將其轉(zhuǎn)換成相應(yīng)的文本形式,然后再次利用互聯(lián)網(wǎng)將其發(fā)送到智能機(jī)器人的相關(guān)模塊。這種百度云語(yǔ)音識(shí)別系統(tǒng)在使用過(guò)程中具有以下的特點(diǎn):整個(gè)平添都采用的RESTAPI,而且為開(kāi)發(fā)者提供了語(yǔ)音模型和頂級(jí)聲學(xué)模型,這種模型可以適用于任何一個(gè)平臺(tái)對(duì)語(yǔ)音的識(shí)別和控制,就我國(guó)目前的情況來(lái)看已經(jīng)達(dá)到了35個(gè)左右的理解和定制,更好地滿足用戶的實(shí)際需求。
文本別有效的識(shí)別之后,就可以利用互聯(lián)網(wǎng)將其發(fā)送到云在線聊天機(jī)器人,智能機(jī)器人就可以充分結(jié)合其前后語(yǔ)境對(duì)文本的內(nèi)容進(jìn)行很好地識(shí)別,然后在整個(gè)數(shù)據(jù)庫(kù)當(dāng)中找到與之最為相匹配的資料。圖靈機(jī)器人是現(xiàn)如今最為高端的一種機(jī)器人大腦,在全球都是一種非常領(lǐng)先的計(jì)算和認(rèn)知平臺(tái),其對(duì)中文語(yǔ)句的意思理解幾乎可以達(dá)到90%以上的準(zhǔn)確率,不但可以實(shí)現(xiàn)對(duì)中文語(yǔ)義和自然語(yǔ)言的分析和理解,而且還可以實(shí)現(xiàn)智能深度問(wèn)答服務(wù)。在接受到云在線聊天機(jī)器人的問(wèn)題之后,就可以及時(shí)在百度云語(yǔ)音系統(tǒng)當(dāng)中搜索到與之相適應(yīng)的文本數(shù)據(jù)或者是語(yǔ)音數(shù)據(jù),然后以語(yǔ)音的格式發(fā)送給智能機(jī)器人,智能機(jī)器人就可以對(duì)這些語(yǔ)音進(jìn)行播放。
總而言之,語(yǔ)音識(shí)別其實(shí)就是機(jī)器人利用自身的硬件或者是軟件系統(tǒng)對(duì)所接受的信息進(jìn)行有效的處理之后形成相應(yīng)的語(yǔ)音或者是文件的一種高級(jí)技術(shù),經(jīng)過(guò)幾十年的發(fā)展之后,證明其具有很大的潛在市場(chǎng),在人機(jī)交互實(shí)現(xiàn)過(guò)程中體現(xiàn)出十分重要的意義,是網(wǎng)絡(luò)時(shí)代最為方便的一種交流工具。本文主要對(duì)機(jī)器人交互語(yǔ)音交互系統(tǒng)進(jìn)行了一定的分析和研究。
參考文獻(xiàn)
[1]陳天雪.論我國(guó)智能語(yǔ)音機(jī)器人專(zhuān)利保護(hù)[D].廣西師范大學(xué),2016.