基于多臺攝像機的視聽雙模語音識別技術(shù)

2014-12-18 09:35

汽車文摘 2014年3期

視聽雙模語音識別（AVSR）為視覺唇讀與傳統(tǒng)聲學(xué)語音識別的組合系統(tǒng)。影響駕駛安全的一個主要問題是持續(xù)增加的車載導(dǎo)航和其它操作系統(tǒng)復(fù)雜性。通過提供基于語音控制，以減少分心并替代手動控制，即利用語音識別技術(shù)可以為車載系統(tǒng)的運行提供解決方案。在嘈雜的環(huán)境中（如汽車駕駛室）應(yīng)用語音識別技術(shù)需要進行方法改進。本文提出一個基于已有視聽語音識別系統(tǒng)的拓展系統(tǒng)，即通過提供語音發(fā)出者的正臉或接近正臉獲取多個視圖，通過對4個攝像頭AVICAR汽車影音語音庫使用4數(shù)據(jù)流的視覺同步隱馬爾可夫模型（SHMM）進行可視語音識別的一系列試驗。重點研究了側(cè)面和中央的攝像頭改善視覺語音識別準確性的能力。結(jié)合4種視覺形式和1個5數(shù)據(jù)流SHMM的音頻形式，證明了AVSR方法與單一語音識別方法相比，在AVICAR數(shù)據(jù)庫的嘈雜環(huán)境聲中單詞識別精度提高了56%。

刊名：Computer Speech& Language（英）

刊期：2013年第27期

作者：Rajitha Navarathna

編譯：李曉娜

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于多臺攝像機的視聽雙模語音識別技術(shù)