基于多臺攝像機的視聽雙模語音識別技術(shù)
視聽雙模語音識別(AVSR)為視覺唇讀與傳統(tǒng)聲學(xué)語音識別的組合系統(tǒng)。影響駕駛安全的一個主要問題是持續(xù)增加的車載導(dǎo)航和其它操作系統(tǒng)復(fù)雜性。通過提供基于語音控制,以減少分心并替代手動控制,即利用語音識別技術(shù)可以為車載系統(tǒng)的運行提供解決方案。在嘈雜的環(huán)境中(如汽車駕駛室)應(yīng)用語音識別技術(shù)需要進行方法改進。本文提出一個基于已有視聽語音識別系統(tǒng)的拓展系統(tǒng),即通過提供語音發(fā)出者的正臉或接近正臉獲取多個視圖,通過對4個攝像頭AVICAR汽車影音語音庫使用4數(shù)據(jù)流的視覺同步隱馬爾可夫模型(SHMM)進行可視語音識別的一系列試驗。重點研究了側(cè)面和中央的攝像頭改善視覺語音識別準確性的能力。結(jié)合4種視覺形式和1個5數(shù)據(jù)流SHMM的音頻形式,證明了AVSR方法與單一語音識別方法相比,在AVICAR數(shù)據(jù)庫的嘈雜環(huán)境聲中單詞識別精度提高了56%。
刊名:Computer Speech& Language(英)
刊期:2013年第27期
作者:Rajitha Navarathna
編譯:李曉娜