王順利 夏長春 付嘉銘
摘 要 語音識別技術(shù)是一個(gè)涉及多種學(xué)科的集成技術(shù),目前已在工業(yè)、軍事和醫(yī)療部門,產(chǎn)品檢驗(yàn)和人機(jī)語音通信等領(lǐng)域取得了廣泛的實(shí)際應(yīng)用。語音識別技術(shù)長期以來一直是研究熱點(diǎn),但現(xiàn)有的語音識別系統(tǒng)運(yùn)行緩慢,成本高,不方便使用。這些缺點(diǎn)影響了語音識別的速度,系統(tǒng)的硬件實(shí)現(xiàn)和應(yīng)用。特別是在吵鬧的環(huán)境中應(yīng)用智能機(jī)器人語音識別更是非常困難。用于識別的工業(yè)智能機(jī)器人技術(shù)研究也越來越受到人們的關(guān)注。
關(guān)鍵詞 機(jī)器人 語音識別 聲學(xué)模型 語音特征參數(shù)
中圖分類號:TP242 文獻(xiàn)標(biāo)識碼:A
1語音識別技術(shù)的研究意義
人們使用的聲音語言是一種人在特定高度思維和意識活動下的產(chǎn)品。語言是人類最直接以及最理想的交流方式,也是人機(jī)通信是最方便的方式。在機(jī)器人發(fā)展的高級發(fā)展階段中,機(jī)器人的智能語音識別與人類的活動是密切相關(guān)的,有聲語言的人機(jī)交互信息成為重要的手段。例如,語音識別獲取外界信息很自然,沒有特殊的訓(xùn)練方法,隨著機(jī)器人技術(shù)的發(fā)展和廣泛應(yīng)用,有越來越多的機(jī)會來接觸人類和機(jī)器人,所以人們希望通過語音識別和機(jī)器人去處理,不管誰能能準(zhǔn)確安全,方便地操縱機(jī)器人。機(jī)器人和人類之間的信息交互,表現(xiàn)在兩個(gè)方面,一是對更高層次的機(jī)器人操作,方便軟件的設(shè)計(jì)開發(fā),這種多為教學(xué)機(jī)器人,另一種是在實(shí)際操作的要求下完成信息交互任務(wù)的機(jī)器人。智能機(jī)器人作為機(jī)器人技術(shù)發(fā)展的高級階段,其發(fā)展趨勢是:不僅要求機(jī)器人具有高度的自治能力,還要使機(jī)器人和人類之間的協(xié)調(diào)也具有一定的智能性。這就要求機(jī)器人具有不同的高性能主動做事能力,而不是被動地接受任務(wù),為了實(shí)現(xiàn)這一目標(biāo),自然語言作為人機(jī)信息交換將發(fā)揮越來越重要的作用。目前,智能機(jī)器人已成為機(jī)器人研究領(lǐng)域的一個(gè)熱點(diǎn)。工業(yè)機(jī)器人是智能機(jī)器人的一個(gè)重要研究領(lǐng)域。當(dāng)今,工業(yè)機(jī)器人的發(fā)展方興未艾,巨大的市場潛力,使真正的工業(yè)機(jī)器人的已經(jīng)在市場上嶄露頭角,以滿足人們?nèi)找嬖鲩L的需求,我們不能沒有一個(gè)高性能的語音識別系統(tǒng)。由于工業(yè)機(jī)器人是面向生產(chǎn)實(shí)際的需要,最好的工作方式是讓機(jī)器人能顧聽懂最常見的人類語言,完成指定的工作,并能與人交流。機(jī)器人語音識別是機(jī)器人研究領(lǐng)域中的語音識別應(yīng)用,最終的目標(biāo)是讓機(jī)器人了解人們的口頭語言,然后按照人們的命令來行動或反應(yīng),從而形成一個(gè)良好的人機(jī)對話系統(tǒng)。為了能夠進(jìn)一步推動智能機(jī)器人的開發(fā)應(yīng)用,因此,在語音識別機(jī)器人的研究領(lǐng)域中,機(jī)器人語音識別系統(tǒng)是工業(yè)機(jī)器人的實(shí)際推廣應(yīng)用,具有重要的意義。
語音識別技術(shù)在智能機(jī)器人中的應(yīng)用已經(jīng)有很多年的歷史,作為智能機(jī)器人的一個(gè)分支,工業(yè)機(jī)器人得到了迅速發(fā)展,工業(yè)機(jī)器人通過語音識別從工業(yè)噪聲中提取有效的語音命令。為了實(shí)現(xiàn)機(jī)器人在一些特殊工業(yè)環(huán)境中工作的目的,機(jī)器人要能夠識別命令意圖。語音識別技術(shù),可以實(shí)現(xiàn)人機(jī)對話,從而讓機(jī)器能模仿人類完成所有工作的分配,使其在各行各業(yè)中能夠得以應(yīng)用。目前所面臨的實(shí)際問題是:噪聲和干擾環(huán)境下對大型工業(yè)機(jī)器人的語音識別有嚴(yán)重的影響。在機(jī)器人識別領(lǐng)域,工業(yè)環(huán)境中的實(shí)時(shí)性是一個(gè)非常重要的任務(wù)。機(jī)器人在工業(yè)環(huán)境下應(yīng)用的聽覺識別是使智能機(jī)器人發(fā)展速率低的瓶頸。
2語音識別系統(tǒng)的發(fā)展
2.1語音識別系統(tǒng)的發(fā)展方向
語音識別系統(tǒng)是基于一套應(yīng)用軟件系統(tǒng)的硬件平臺和操作系統(tǒng)的一些。語音識別一般分為兩個(gè)步驟。第一步是學(xué)習(xí)或培訓(xùn)。這一階段的任務(wù)是建立基本單元的聲學(xué)模型來進(jìn)行識別和模型的語音語法分析等。第二步是識別或測試。根據(jù)識別系統(tǒng)的類型可以滿足一個(gè)識別方法的要求,使用語音分析的方法來分析語音特征參數(shù),并建立了比較和測量系統(tǒng)模型,根據(jù)一定的標(biāo)準(zhǔn),鑒定結(jié)果。
語音識別系統(tǒng)的應(yīng)用可分為兩個(gè)發(fā)展方向,其中一個(gè)是大詞匯連續(xù)語音識別系統(tǒng),主要應(yīng)用于計(jì)算機(jī)的聽寫機(jī),以及結(jié)合電話網(wǎng)或互聯(lián)網(wǎng)的語音信息服務(wù)系統(tǒng),這些系統(tǒng)是在計(jì)算機(jī)平臺上的一個(gè)重要發(fā)展方向。其次是應(yīng)用的小型化,便攜式音頻產(chǎn)品,如無線移動電話的撥號,語音控制車載設(shè)備,智能玩具,家用電器和其他方面的應(yīng)用的遠(yuǎn)程控制,這些應(yīng)用系統(tǒng)大多采用特殊的硬件系統(tǒng)來實(shí)現(xiàn),特別是語音信號處理芯片和語音識別芯片,最近幾年快速發(fā)展,為其廣泛應(yīng)用創(chuàng)造了極為有利的條件。
2.2語音識別系統(tǒng)的模型與模式
語音識別系統(tǒng)的核心是聲學(xué)模型和模式分類。首先通過學(xué)習(xí)算法,訓(xùn)練語音聲學(xué)模型的特點(diǎn)是通過學(xué)習(xí)過程來生成聲學(xué)模型,這是識別潛在的模型的前提,是最關(guān)鍵的語音識別系統(tǒng)的一部分。聲學(xué)模型的目的是提供一種有效的方法來計(jì)算特征向量的聲音序列和每個(gè)發(fā)音模板之間的距離。人的發(fā)音在每一刻發(fā)音之前和之后都會受到影響。
為了模仿自然連續(xù)的協(xié)同發(fā)音和識別不同的發(fā)音,通常需要使用復(fù)雜的聲學(xué)模型。聲學(xué)模型和語言的發(fā)音特點(diǎn)的設(shè)計(jì)是密切相關(guān)的。聲學(xué)模型單元大小與單詞發(fā)音,音節(jié)模式和音位語音訓(xùn)練數(shù)據(jù)大小有關(guān),故要求其系統(tǒng)識別具有很大的靈活性。大詞匯量語音識別系統(tǒng),通常采用較小的單元和少量的計(jì)算,該模型只有較小的存儲容量,減少訓(xùn)練數(shù)據(jù)的數(shù)量,但相應(yīng)的聲音定位和分割問題就顯得更加困難,規(guī)則識別模型變得越來越復(fù)雜。通常大型模型中識別單元包括協(xié)同發(fā)音,這有利于提高系統(tǒng)的識別率,但訓(xùn)練數(shù)據(jù)也相對增加。必須根據(jù)不同語言的特點(diǎn)來識別詞匯,詞匯量大小決定單位大小。
參考文獻(xiàn)
[1] 李昌祿,蘇寒松.?基于單片機(jī)平臺下語音識別技術(shù)的應(yīng)用方式[J].實(shí)驗(yàn)室科學(xué),2009(06).
[2] 薛同澤,陳書旺.?語音識別的智能門控系統(tǒng)設(shè)計(jì)[J].微計(jì)算機(jī)信息,2008(14).