續(xù)珩
摘要:隨著現(xiàn)代信息技術(shù)的飛速發(fā)展,語(yǔ)音識(shí)別技術(shù)在人們的實(shí)際生活中得到了更加廣泛的應(yīng)用,而語(yǔ)音識(shí)別也開(kāi)始進(jìn)入到普通人的視野之內(nèi),借助于其準(zhǔn)確的識(shí)別率以及較強(qiáng)的實(shí)用性,受到了越來(lái)越多用戶的青睞。現(xiàn)階段,智能語(yǔ)音識(shí)別在家居、汽車等多種設(shè)備中得以普遍應(yīng)用,也成為了人機(jī)交互的關(guān)鍵性設(shè)備。本文主要探討了基于深度學(xué)習(xí)技術(shù)的智能語(yǔ)音識(shí)別的應(yīng)用。
關(guān)鍵詞:深度學(xué)習(xí);智能語(yǔ)音識(shí)別;應(yīng)用
智能語(yǔ)音識(shí)別屬于人工智能中的重要性技術(shù)之一,目前在智能家居、智能穿戴以及智能車載中得到了十分普遍的應(yīng)用。智能語(yǔ)音技術(shù)基于深度學(xué)習(xí)算法,結(jié)合大數(shù)據(jù)技術(shù)、高性能運(yùn)算技術(shù)等,不但能夠?qū)崿F(xiàn)準(zhǔn)確“偵聽(tīng)”人類語(yǔ)言,同時(shí)更能夠“聽(tīng)懂”人類語(yǔ)言,甚至可以達(dá)到“回答”人類的能力。
1基于深度學(xué)習(xí)的語(yǔ)音識(shí)別方法
深度學(xué)習(xí)屬于人工職能中得以飛速發(fā)展的重要領(lǐng)域,能夠輔助計(jì)算機(jī)理解更多圖像、聲音以及文本形式的數(shù)據(jù)。借助于多元化的神經(jīng)網(wǎng)絡(luò),目前的計(jì)算機(jī)能夠類似于人類一樣進(jìn)行觀察和學(xué)習(xí),同時(shí)做出相應(yīng)反應(yīng),甚至比人類更敏捷迅速。如此一來(lái)就能夠帶來(lái)一種有效的識(shí)別方式,用于分析數(shù)據(jù)信息[1]。下圖1為基本的智能語(yǔ)音識(shí)別流程。
1.1語(yǔ)音拾取
語(yǔ)音拾取主要是采樣以及端點(diǎn)檢測(cè)。所謂采樣即是利用聲卡將語(yǔ)音信息進(jìn)行采集,同時(shí)把語(yǔ)音信息數(shù)字化;而端點(diǎn)檢測(cè)即是從語(yǔ)音信息中確定其起點(diǎn)以及終點(diǎn),屬于預(yù)處理中的關(guān)鍵性內(nèi)容,端點(diǎn)檢測(cè)一般來(lái)說(shuō)是采用能量與過(guò)零率結(jié)合的算法。
1.2特征提取
特征提取屬于語(yǔ)音識(shí)別中非常重要的技術(shù),有效的特征可以非常準(zhǔn)確的體現(xiàn)出語(yǔ)音包含的有價(jià)值信息,從而摒棄其他無(wú)價(jià)值的內(nèi)容。
1.3模擬訓(xùn)練和語(yǔ)音識(shí)別判決
模擬訓(xùn)練與語(yǔ)音識(shí)別判決包含兩個(gè)步驟,首先是訓(xùn)練,即使用一種識(shí)別策略,通過(guò)訓(xùn)練和聚類的途徑獲得該字的語(yǔ)音參數(shù),并將其當(dāng)成為模板進(jìn)行存儲(chǔ),在識(shí)別系統(tǒng)內(nèi)部存儲(chǔ)所有需要識(shí)別的參考模板,構(gòu)建參考模板庫(kù);其次是識(shí)別判決,把等待識(shí)別的語(yǔ)音樣本和參考模板中的信息進(jìn)行分析對(duì)比,以相似程度最大的作為最終判斷。
2人工智能語(yǔ)音識(shí)別的應(yīng)用
對(duì)于電話以及通信系統(tǒng)來(lái)說(shuō),智能語(yǔ)音識(shí)別逐漸把電話機(jī)從單純的服務(wù)工具轉(zhuǎn)變?yōu)榉?wù)的提供者以及人們智能生活的伙伴;借助于電話以及互聯(lián)網(wǎng),現(xiàn)代人能夠依靠語(yǔ)音命令就可以從遠(yuǎn)端數(shù)據(jù)庫(kù)中調(diào)取和查詢相應(yīng)的內(nèi)容;現(xiàn)代科技的發(fā)展讓計(jì)算機(jī)趨于小型化發(fā)展,鍵盤開(kāi)始變?yōu)橐苿?dòng)平臺(tái)的阻礙,比如手表式手機(jī),再借助于鍵盤實(shí)施撥號(hào)就會(huì)變?yōu)樘旆揭棺T。因此,智能語(yǔ)音識(shí)別已經(jīng)開(kāi)始轉(zhuǎn)變?yōu)楝F(xiàn)代信息技術(shù)中人機(jī)交互的重要節(jié)點(diǎn),語(yǔ)音識(shí)別和語(yǔ)音合成讓現(xiàn)代人逐漸開(kāi)始丟棄鍵盤,借助于語(yǔ)音實(shí)施操作,其實(shí)際應(yīng)用也開(kāi)始發(fā)展為一個(gè)具備更高競(jìng)爭(zhēng)性的產(chǎn)業(yè)。
當(dāng)前智能語(yǔ)音識(shí)別技術(shù)持續(xù)發(fā)展,尤其是中小詞匯量非特定語(yǔ)音識(shí)別系統(tǒng)的最大精確程度已經(jīng)超過(guò)98%,對(duì)普通人群語(yǔ)音識(shí)別的精確度必然更高,這類技術(shù)逐漸可以滿足人們的日常需求。而進(jìn)入新時(shí)代之后大規(guī)模集成電路的發(fā)展,讓很多較為復(fù)雜的智能語(yǔ)音識(shí)別系統(tǒng)依舊能夠制作為專門的芯片。目前,已經(jīng)有非常多的語(yǔ)音識(shí)別產(chǎn)品投入到市場(chǎng)中來(lái),部分電話以及智能手機(jī)都可以提供語(yǔ)音識(shí)別撥號(hào)服務(wù),同時(shí)還具備語(yǔ)音筆記本、智能軟件等功能。人們能夠借助于語(yǔ)音來(lái)識(shí)別機(jī)票、旅游以及銀行信息,從而獲得更加便捷的服務(wù)體驗(yàn)。
3人工智能語(yǔ)音識(shí)別發(fā)展趨勢(shì)
深度學(xué)習(xí)技術(shù)應(yīng)用的主要目標(biāo)是構(gòu)建模擬人腦實(shí)施分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),隨后依靠計(jì)算機(jī)模擬人腦來(lái)對(duì)數(shù)據(jù)進(jìn)行分析,例如分析圖像、文本等。換句話說(shuō),深度學(xué)習(xí)技術(shù)在大數(shù)據(jù)中的表現(xiàn)相對(duì)于其他學(xué)習(xí)策略更優(yōu),它更加符合無(wú)標(biāo)記數(shù)據(jù),所以不單單是以實(shí)體識(shí)別為主的自然語(yǔ)言(NLP)領(lǐng)域。根據(jù)現(xiàn)階段的語(yǔ)音識(shí)別而言,主要識(shí)別途徑包含了語(yǔ)音拾取以及特征拾取等,依靠語(yǔ)音來(lái)分析人們實(shí)際工作與生活中可能遇到的問(wèn)題。但從另一方面而言,智能語(yǔ)音識(shí)別關(guān)系到語(yǔ)音學(xué)、心理學(xué)以及數(shù)據(jù)統(tǒng)計(jì)等專業(yè)理論知識(shí),對(duì)研究人員的要求較高,在對(duì)這一技術(shù)實(shí)施研究的過(guò)程中要求對(duì)各方面知識(shí)都有所涉及[2]。
當(dāng)前深度學(xué)習(xí)技術(shù)屬于最為熱門的技術(shù)之一,正越來(lái)越普遍的應(yīng)用到實(shí)踐中,智能語(yǔ)音屬于未來(lái)人機(jī)交互的重要窗口,在很大程度上關(guān)系到用戶實(shí)際體驗(yàn)。將深度學(xué)習(xí)技術(shù)和智能語(yǔ)音識(shí)別聯(lián)系起來(lái),不但智能語(yǔ)音識(shí)別技術(shù)所獲取的數(shù)據(jù)信息能夠訓(xùn)練出更加強(qiáng)大的深度學(xué)習(xí)網(wǎng)絡(luò),同時(shí)深度學(xué)習(xí)技術(shù)能夠支持智能語(yǔ)音識(shí)別系統(tǒng)進(jìn)行更加精確完整的操作。
4結(jié)束語(yǔ)
總而言之,隨著現(xiàn)代社會(huì)的發(fā)展,智能語(yǔ)音識(shí)別技術(shù)必然會(huì)得到更為普遍的應(yīng)用,深度學(xué)習(xí)技術(shù)可能并非是智能語(yǔ)音識(shí)別中最有效的應(yīng)用,但實(shí)踐證明其對(duì)于智能語(yǔ)音識(shí)別而言能夠發(fā)揮出非常積極的作用,可以幫助現(xiàn)代人在實(shí)際生活和工作中處理好相應(yīng)的問(wèn)題,實(shí)現(xiàn)有效的人機(jī)交互,更好的滿足人們工作和生活所需。
參考文獻(xiàn):
[1]蔣久松,熊富強(qiáng),毛文奇,張超峰.智能語(yǔ)音識(shí)別方法在電力移動(dòng)作業(yè)平臺(tái)中的應(yīng)用[J].自動(dòng)化應(yīng)用,2017 (11):124-127.
[2]鄧逸鈺,王垚.智能化語(yǔ)境下的數(shù)字出版領(lǐng)域知識(shí)服務(wù)生態(tài)構(gòu)建[J].出版發(fā)行研究,2017 (06):34-36.