王順利 付嘉銘 洪強
摘 要 目標聲音識別逐漸將會在實際的日常生活中得以應用。在實驗室環(huán)境下,對目標聲音識別系統(tǒng)大多數(shù)識別性能也達到了一定的要求,但在實際噪聲環(huán)境下的識別系統(tǒng)效果將大大降低。因此,在抗噪聲語音識別的研究目標是非常重要的。研究發(fā)現(xiàn),人耳具有良好的抗噪聲能力,因此基于語音識別技術的聽覺系統(tǒng)是一個很有前途的研究課題。
關鍵詞 語音識別技術 聽覺系統(tǒng) 仿生學 智能 機器人
中圖分類號:TN912.34 文獻標識碼:A
1語音識別技術
1.1語音識別技術簡介
語音識別技術主要分為兩類,一是語音意義的識別,一種是目標聲識別。第一個被稱為語音識別,它是根據(jù)聲音的成詞特點對聲音進一步分析,主要應用在人工智能,人機對話和快速輸入等領域。通過訪問聲音的特征,從目標語音中進行提取,該項技術可以區(qū)分多目標語音的種類,確定目標,主要用于戰(zhàn)場目標識別領域,海上偵察系統(tǒng),預警系統(tǒng),軍事聲納識別,車輛聲音識別,火車預警系統(tǒng),動物個體的語音識別和家庭安全系統(tǒng)等。
科技研究人員通過對語音信號處理技術進行深入的研究,結果發(fā)現(xiàn):人的聽覺系統(tǒng)的聲音配合具有獨特的優(yōu)勢,它能準確地提取目標的聲音特征,準確地辨別聲音的方向和內容分類,所以基于仿生聽覺系統(tǒng)的目標聲識別技術備受現(xiàn)代前沿科技的關注。針對目標聲音識別系統(tǒng)的研究工作成為了現(xiàn)代語音識別技術研究的一個熱門方向,不少科技研究人員正在積極探索先進可行的仿生學理論,特征提取技術和語音識別技術。
1.2語音識別技術的研究現(xiàn)狀
語音識別技術主要是通過對監(jiān)測數(shù)據(jù)的聲音特性分析,得到聲音特性的樣本文件。語音識別技術是一種非接觸技術,用戶可以很自然地接受。但語音識別技術和其他行為識別技術具有共同的缺點,即輸入樣本的變化太大,所以很難完成一些精確的匹配,聲音也會伴隨著速度,音質的變化而影響到信號的采集和結果的比較。
在語音識別中,語音識別是最早也是比較成熟的領域。隨著越來越多的應用需求,識別聲音并不局限于語音識別,人們開始深入研究目標識別技術的非語音識別,該項技術已經參照了成熟的語音識別技術的一部分,但由于各自的應用環(huán)境和實際的音頻特征之間的差異,該技術還存在一些差異。
1.3語音識別技術的實際應用
在民用方面,目標聲音識別系統(tǒng)可以應用于門禁系統(tǒng),網絡安全,認證,智能機器人,動物語音識別,電子商務和智能交通等領域。在智能交通領域,利用來自車輛識別模型的運動音頻信號,可以實現(xiàn)交通信息的智能化管理。在智能機器人領域,機器人目標聲音識別系統(tǒng)可以作為機器人的耳朵,通過環(huán)境聲音識別并確定聲音的方位,然后再反應外界的聲音,因此可以將其當作家庭自動化服務系統(tǒng)和安全系統(tǒng)。在動物的語音識別領域,可以根據(jù)害蟲聲特征來區(qū)分害蟲種類,根據(jù)不同的害蟲采取不同的措施。在網絡應用領域,在關于各種在線服務支持的語音識別技術新項目開發(fā)中,可以提高網絡的服務質量,給人們的生活帶來方便?,F(xiàn)在,美國,德國和日本都開了電話銀行,語音代替原來的密碼和使用印章,簡化了工作服務流程,提高工作效率。
在軍事上,目標聲音識別技術來自于第二次世界大戰(zhàn),在探測敵人的炮火和潛艇時,起著重要的識別和定位作用。但由于計算機技術,信號處理技術,光電檢測和雷達檢測技術快速的發(fā)展,使聲探測技術發(fā)展得十分緩慢。直到現(xiàn)代的戰(zhàn)爭,研發(fā)了使用于戰(zhàn)爭中的三維信息,全方位定向,反欺詐、欺騙、干擾和反偵察、監(jiān)視,在隱身與反隱身的現(xiàn)代戰(zhàn)爭中為國家的國防事業(yè)做出了不可磨滅的杰出貢獻。通過電,磁,光學和雷達探測技術和主動檢測技術來完成偵察任務已經不能滿足現(xiàn)代戰(zhàn)爭的需求。在武裝直升機技術成熟的當代,隱形轟炸機和其他高科技武器都有了反射功率,抗電磁干擾,反輻射的功能,特別是快速發(fā)展的數(shù)字技術和計算機技術,迫使各國為了實現(xiàn)對目標的定位跟蹤和噪聲識別而重新開始研究被動聲探測技術,關注聲檢測技術。在未來戰(zhàn)爭中,武器裝備發(fā)展的一個重要趨勢是智能化、小型化,一個重要的特點是具備目標識別的能力,并根據(jù)不同的對象使用不同的攻擊方法。
2聽覺系統(tǒng)
為了設計一個更精確的目標聲音識別系統(tǒng),越來越多的學者開始深入研究仿生學領域。通過研究發(fā)現(xiàn),人類的聽覺系統(tǒng)在聲音的物理方面具有獨特的優(yōu)勢,聲音特征可以準確提取目標識別中聲音的方向,種類和含量,而且還可以提高抗噪聲能力,所以基于人基于語音識別技術的聽覺系統(tǒng)已經成為目前的研究熱點。
人類聽覺仿生學是模仿人耳的聽覺系統(tǒng)和生理功能,并通過建立數(shù)學模型,根據(jù)數(shù)學分析原理得到的聽覺系統(tǒng)。它涉及聲學,生理學,信號處理,模式識別和人工智能等學科,是一個跨學科研究領域的綜合應用。該技術已在軍事,交通,銀行,醫(yī)療治療的許多方面取得了重要應用,是人類實現(xiàn)智能生命的重要研究課題之一。
人類聽覺系統(tǒng)的處理能力大大超過目前的聲音信號處理水平。從人類聽覺系統(tǒng)的心理和生理特點視角,許多研究人員對接聽過程中的語音識別進行深入的研究。目前,許多學者提出了不同的聽覺模型,這些模型大多是一些基于語音識別和語音質量評價系統(tǒng)的聽覺模型,模擬人耳聽覺功能的生理結構,這些應用處理方法大大提高了系統(tǒng)的性能。
參考文獻
[1] 甄斌,吳璽宏,劉志敏,遲惠生.語音識別和說話人識別中各倒譜分量的相對重要性[J]. 北京大學學報(自然科學版). 2001(03).
[2] 趙力,鄒采榮,吳鎮(zhèn)揚.漢語連續(xù)語音識別中語音處理和語言處理統(tǒng)合方法的研究[J]. 聲學學報. 2001(01).