国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于人機(jī)互動的語音識別技術(shù)綜述

2018-04-18 02:13:27江蘇旅游職業(yè)學(xué)院
電子世界 2018年21期
關(guān)鍵詞:檢索

江蘇旅游職業(yè)學(xué)院

江蘇大學(xué)電氣信息工程學(xué)院 李雪林

1 引言

語言是人類進(jìn)行交往最基礎(chǔ)的一種方式。伴隨AI人工智能的突飛猛進(jìn),計算機(jī)已經(jīng)能夠具備與人進(jìn)行言語溝通的能力,語音識別技術(shù)成為實(shí)現(xiàn)人機(jī)交往的核心技術(shù)。自動語音識別技術(shù),本質(zhì)就是利用計算機(jī)將語音信號自動轉(zhuǎn)換為文本的一項技術(shù)。

語音識別是涉及多種類交叉學(xué)科的高新技術(shù),應(yīng)用到發(fā)聲機(jī)理和聽覺機(jī)理、人工智能、信號處理、模式識別、概率論和信息論等等。其應(yīng)用領(lǐng)域廣泛,在現(xiàn)代自動化解耦控制系統(tǒng)和第三產(chǎn)業(yè)都應(yīng)用到語音識別系統(tǒng),在信息化發(fā)展的大潮中,語音識別技術(shù)越來越凸顯出重要作用。

2.語音識別技術(shù)的發(fā)展歷史

語音識別技術(shù)的發(fā)展歷史可以追溯到1952年,在美國的貝爾實(shí)驗室,戴維斯等科研人員首創(chuàng)了能對10個英文字母發(fā)音的識別系統(tǒng)。英國科學(xué)家丹尼斯等人研制了基于計算機(jī)運(yùn)用的語音識別系統(tǒng)。上世紀(jì)70年代以后由于電腦的普及,語音識別研究突飛猛進(jìn),并取得了在短語、單詞的識別方面實(shí)質(zhì)性的重大突破。到了1980年以后,多詞匯、連續(xù)語句、非指定人連續(xù)語音的識別成為語音識別研究的重點(diǎn)領(lǐng)域。并且,語音識別技術(shù)在研究發(fā)展方向上也發(fā)生了重要轉(zhuǎn)向,由匹配模式研究方向開始轉(zhuǎn)為統(tǒng)計模型的研究方向。

上世紀(jì)末,語音識別系統(tǒng)在研究的宏觀方面并沒有什么實(shí)質(zhì)性進(jìn)展。不過,基于語音識別技術(shù)的而發(fā)明的產(chǎn)品已經(jīng)開始應(yīng)用。

語音識別系統(tǒng)技術(shù)研究在我國發(fā)展起始于1958年,中國科學(xué)院聲學(xué)所利用電子管電路制造出能夠識別10個元音的語音識別系統(tǒng)。中國科學(xué)院聲學(xué)所在1973年正式開始基于計算機(jī)技術(shù)進(jìn)行語音識別研究。上世紀(jì)改革開放以來,計算機(jī)應(yīng)用技術(shù)和應(yīng)用電子技術(shù)在我國不斷發(fā)展,國內(nèi)許多科研院所都開始了語音技術(shù)的研究。我國對語音識別技術(shù)高度重視,在1986年把語音識別作為“863”計劃列為研究課題。并且以此為契機(jī),每隔兩年召開一次關(guān)于語音識別技術(shù)系統(tǒng)方面的專題國際交流會議。由此標(biāo)志著,我國科研機(jī)構(gòu)關(guān)于語音識別技術(shù)的研究進(jìn)入了一個嶄新的發(fā)展階段。

3.語音識別系統(tǒng)的結(jié)構(gòu)

語音識別系統(tǒng)主要組成包括語音信號采樣模塊、語音信號前期處理模塊、語音信號特征參數(shù)提取模塊、語音信號識別核心模塊、語音信號識別后期處理模塊。

模式識別匹配是語音識別的主要過程。首先對人的語音進(jìn)行分析,提取特點(diǎn)建立針對性的語音模型,通過語音模型建立語音識別所需的模式。利用語音識別的整體模型,在語音識別過程中將得到的語音信號的特征與前期建立的語音模式進(jìn)行匹配比較,通過預(yù)設(shè)的搜索策略和匹配策略,可以得出最好的且與輸入的語音信號相匹配的模式。最后,根據(jù)定義,通過一系列查表就可以輕松得出計算機(jī)輸出的識別結(jié)果。

4.語音識別系統(tǒng)的類別

語音識別的目標(biāo)決定了語音識別系統(tǒng)的類別,語音識別系統(tǒng)的類別主要分為三大類,孤立詞檢索(isolated word recognition),關(guān)鍵詞檢索(keyword spotting)和連續(xù)單詞檢索。

孤立詞檢索的方式是將知道的孤立的單詞檢索識別出來,如“人機(jī)”、“智能”等;關(guān)鍵詞檢索的目標(biāo)是連續(xù)語音,但它并不識別所有的文字,只是檢測已知的關(guān)鍵詞有沒有出現(xiàn)和在哪里出現(xiàn),例如在一段語句中檢索“電腦”、“應(yīng)用”這兩個詞;連續(xù)單詞檢索的目標(biāo)則是檢索任意的連續(xù)的語音,檢索整個句子或一大段話。

5.語音識別技術(shù)類型

目前應(yīng)用最多的語音識別技術(shù)類型主要包括幾種:

5.1 動態(tài)時間規(guī)整算法(DynamicTime Warping,DTW),在一定的時間序列中,目標(biāo)要比較和檢索的兩段相似性的時間序列,由于隨機(jī)性它們的長度不可能完全相等,表現(xiàn)在語音識別領(lǐng)域則是不同人的說的同一段語音但語速不同。并且可能相同的單詞發(fā)音速度也會出現(xiàn)差別,比如有的人會把“A”這個音發(fā)音很短,有的人而把“B”發(fā)音很長。面對這些隨機(jī)的復(fù)雜情況下,以往的歐幾里得距離方法已經(jīng)無法有效地算出兩個隨機(jī)時間序列之間的距離(即相似性),這時候利用DTW方法可以把時間序列根據(jù)需要進(jìn)行動態(tài)的延伸或者縮短,這樣就可以對兩個時間序列性之間的相似性進(jìn)行分析比較計算。

5.2 隱馬爾可夫模型(HMM),通過觀測向量序列可以間接的觀察到HMM的狀態(tài),HMM的狀態(tài)是由觀測向量的概率密度分布決定的,任意一個觀測向量對應(yīng)著一個特定的概率密度分布所代表的狀態(tài)序列。HMM模式庫是反復(fù)訓(xùn)練樣本形成的。HMM模型參數(shù)是由訓(xùn)練輸出的吻合概率最大的信號建立,并非已經(jīng)儲存好的模型參數(shù),在語音識別識別過程中將需要識別的語音序列與HMM模型參數(shù)之間進(jìn)行分析計算,將相似概率比較后得到的最大值所對應(yīng)的狀態(tài)序列作為最佳語音識別然后輸出,因此HMM是一種優(yōu)秀可靠的算法。

5.3 矢量量化算法(VectorQuantization),矢量是由標(biāo)量數(shù)據(jù)組構(gòu)成的,通過整體量化,在不損失太多信息的前提下大幅度壓縮數(shù)據(jù)。矢量量化應(yīng)用在孤立詞檢索、短句的語音識別中。方法是將提取的特征參數(shù)或語音信號波形作為標(biāo)量數(shù)據(jù)組成一個矢量然后進(jìn)行整體量化。把矢量空間分割成一些小區(qū)域,每個小區(qū)域由一個矢量代表,量化時分到小區(qū)域的矢量就用這個指定矢量代替??蒲腥藛T還發(fā)明了其他降低復(fù)雜度的方法,包括無記憶的、有記憶的、模糊的矢量量化方法。

5.4 人工神經(jīng)網(wǎng)絡(luò)(ANN)是一種比較新的語音識別方法。人工神經(jīng)網(wǎng)絡(luò)是由大量處理單元互聯(lián)組成的非線性、自適應(yīng)信息處理系統(tǒng),ANN的特點(diǎn)是輸入—輸出映射能力和分類能力強(qiáng)大,非常適合在語音識別中應(yīng)用。通過對人腦思維機(jī)制模仿,具有強(qiáng)大的分類決策能力和對不確定信息的描述能力。

5.5 支持向量機(jī)(Supportvector machine),結(jié)構(gòu)風(fēng)險最小原理和VC維理論是其理論基礎(chǔ),在有限的樣本信息在復(fù)雜性和學(xué)習(xí)能力之間尋優(yōu),從而達(dá)到最好的尋優(yōu)能力,有效克服了傳統(tǒng)經(jīng)驗風(fēng)險最小化方法的缺點(diǎn)。在非線性及高維模式、小樣本識別領(lǐng)域展現(xiàn)了高超的技能,現(xiàn)已大規(guī)模的應(yīng)用到模式識別系統(tǒng)領(lǐng)域。

6.小結(jié)

移動互聯(lián)技術(shù)的日新月異,人工智能的飛速發(fā)展,基于人機(jī)互動的語音識別技術(shù)成為人機(jī)交互的重要手段之一。語音識別算法模型不斷改進(jìn)、AI技術(shù)不斷的加強(qiáng),在不久的未來,基于人機(jī)互動的語音識別技術(shù)將成為人類生活不可或缺的組成部分。

猜你喜歡
檢索
The effective transfection of a low dose of negatively charged drugloaded DNA-nanocarriers into cancer cells via scavenger receptors
瑞典專利數(shù)據(jù)庫的檢索技巧
一種基于Python的音樂檢索方法的研究
電子制作(2019年14期)2019-08-20 05:43:48
2019年第4-6期便捷檢索目錄
基于多尺度投影的相似顱骨檢索
供求速遞
《國外醫(yī)藥抗生素分冊》第37卷1~6期(2016年)目次檢索
專利檢索中“語義”的表現(xiàn)
專利代理(2016年1期)2016-05-17 06:14:36
基于改進(jìn)的GHSOM聚類算法的圖像檢索
基于改進(jìn)的GHSOM聚類算法的圖像檢索
滦平县| 汉中市| 明溪县| 鄂州市| 长丰县| 左云县| 高碑店市| 彰化县| 邵东县| 明水县| 云阳县| 河北区| 绍兴市| 南宁市| 宽甸| 屏山县| 广灵县| 南丰县| 宣威市| 凤山市| 叶城县| 吕梁市| 河北省| 河北区| 延边| 岚皋县| 大渡口区| 布拖县| 昌宁县| 河源市| 莲花县| 塔城市| 丹棱县| 阳谷县| 汉阴县| 伊金霍洛旗| 新和县| 梅河口市| 长沙县| 桂东县| 夹江县|