摘要:通過唇讀獲得的視覺信息可提高語音識別的識別率,而一個完整的唇讀系統(tǒng)由口唇定位,口唇運動特征提取和口型訓(xùn)練,識別三部分組成??诖蕉ㄎ皇谴阶x系統(tǒng)的首個環(huán)節(jié),它的定位準(zhǔn)確與否對口唇運動特征提取、口型識別的影響很大,該文采用了一種改進的全局閾值分割法能夠準(zhǔn)確地提取唇部。
關(guān)鍵詞:改進的全局閾值;口唇提取
中圖分類號:TP311 文獻標(biāo)識碼:A 文章編號:1009-3044(2013)12-2855-02
1 概述
在嘈雜環(huán)境下(汽車內(nèi)、機場、展館及公共場所等),語音信道被噪聲污染,而視覺信道不受噪聲的干擾,能夠提供非常好的信息補充,從而提高噪聲環(huán)境下的語音識別率?;蛘邔τ谟新犃φ系K的人,語音的作用不明顯,視覺信息成為他們辨別說話者內(nèi)容的主要信息來源,鑒于以上原因,唇讀技術(shù)越來越成為被關(guān)注的研究對象,成為人工智能研究的一個新方向。而一個完整的唇讀系統(tǒng)由口唇提取,口唇運動特征提取和口型訓(xùn)練,識別三部分組成。口唇定位是唇讀系統(tǒng)的首個環(huán)節(jié),它的定位準(zhǔn)確與否對唇動特征提取,口型識別的影響很大,故提出一個準(zhǔn)確提取唇部的方法很重要。
2 算法理論基礎(chǔ)
2.1相關(guān)算法介紹
先前的唇部提取方法有很多,主要的有排紅法【1】(Red Exclusion)和基于Lab空間a分量的唇部提取方法[2]等。排紅法是一種有效的唇部提取方法,由于膚色和唇色都包含大量的紅色分量,故該方法使用RGB空間中的G和B分量來反映唇色和膚色的差異,但這種方法僅對白種人效果較好。因此,針對黃色人種的唇部提取方法被提出,如文獻[3]基于色度的方法通過分析唇部和膚色的色度分布和色度特征提取唇部區(qū)域,但只對某一種膚色,如白色或黃色。而基于Lab空間a分量的唇部提取方法是通過分析唇色和膚色在色度空間的聚類性,得知在Lab空間的a分量中唇色具有較好的聚類性且和膚色有較好的分離性,然而該方法中閾值提取采用了整個唇部區(qū)域的均值和協(xié)方差之和,考慮到系統(tǒng)的普遍性,采集的每幅圖像中的唇部區(qū)域中膚色和唇色比例不同,使用全局的閾值分割法會使得效果變差?;谝陨显?,該文提出了一種改進的全局閾值的唇部提取方法。
2.2嘴唇區(qū)域定位
首先采用基于haar-like特征的adaboost分類器檢測出人臉區(qū)域,由于唇讀過程中唇形會發(fā)生各種各樣的變化,所以不宜直接采用分類器檢測嘴唇區(qū)域,根據(jù)五官在人臉區(qū)域中的分布確定嘴唇區(qū)域,文獻【4】中提出利用眼睛的位置定位嘴唇的位置,由于受眼鏡等的影響可能會導(dǎo)致利用眼睛的位置進行定位不準(zhǔn)確,故本文中采用鼻子位置來定位嘴唇,根據(jù)鼻子、嘴在人臉中的分布確定出嘴唇區(qū)域,如圖1所示,在該嘴唇區(qū)域中僅有唇色和膚色,便于以下進行準(zhǔn)確的口唇提取。
圖1 嘴唇定位
2.3口唇提取
由于在上述提取出的嘴唇區(qū)域中,每幅圖像的唇色和膚色所占面積不同,若像文獻【2】中所述利用均值作為閾值進行分割,針對嘴唇區(qū)域占面積較小的區(qū)域,采用的閾值會偏大,導(dǎo)致提取的唇部不完整;相反,針對嘴唇區(qū)域相對面積較大的區(qū)域,采用的閾值會偏小,或許會提取到部分膚色區(qū)域。因此本文采用一種改進的全局閾值分割法。
閾值分割法分為全局閾值分割法和局部閾值分割法,局部閾值分割是閾值分割法的方法之一,即原圖像劃分為幾個子圖像,并對每個子圖像選取相應(yīng)的閾值,全局閾值分割方法在圖像處理中應(yīng)用比較多,它在整幅圖像內(nèi)采用固定的閾值分割圖像。該文的基本思想即將上述定位的嘴唇區(qū)域劃分為16個子區(qū)域,求取每一個子區(qū)域的灰度值均值,之后對每一個子窗口加權(quán)求值得到整幅圖像的分割閾值。
具體步驟如下:
1) 將嘴唇區(qū)域劃分為16個子區(qū)域,區(qū)域越多,獲得的分割閾值更準(zhǔn)確,但是區(qū)域越多,定位嘴唇的時間也越長,所以選取的區(qū)域為16個;求取每個子區(qū)域的均值,由于一些子區(qū)域中僅有膚色或唇色,另一些中可能唇色和膚色混合,故每個子區(qū)域的權(quán)值不同。
2) 求每個權(quán)值;文獻【2】得知,唇色與膚色在Lab色度空間中的a分量上具有良好的可分離性,故本文從確定嘴唇區(qū)域的二分之一寬處的一條直線上從上往下查找第一個灰度值變化較大的點,將該點作為唇色灰度值,為保險起見,該文選用該點以下的第五個像素值作為唇色灰度值。將(1)得到的每個均值與該灰度值求絕對值差,差值越大,則代表該區(qū)域包含的唇色面積相對較小,故對全局分割閾值的貢獻越小,則得到較小的權(quán)值。為了實現(xiàn)以絕對值差作為進行權(quán)值大小的衡量,將求得的絕對值差求倒數(shù),再將16個子區(qū)域的絕對值差的倒數(shù)求和,則權(quán)值為每個子區(qū)域絕對值的倒數(shù)除以16個子區(qū)域絕對值的倒數(shù)和。
3) 利用上述每個子區(qū)域的閾值加權(quán)和作為分割閾值提取出口唇區(qū)域。
3實驗結(jié)果
實驗中分別采用了排紅法圖2、基于Lab空間的a分量的唇部提取法圖3和本文方法圖4,從實驗結(jié)果可以很好得看出本文方法還是具有一定的可取性的。
參考文獻:
[1] Lewis T W, David M W. Lip Feature Extraction Using Red Exclusion[C] 2000.
[2] 梁亞玲,杜明輝.基于Lab色度空間a分量的唇部提取方法[J].計算機工程,2011(3).
[3] 張志文,沈海斌.基于色度分布差異性的唇部檢測算法[J].浙江大學(xué)學(xué)報(工學(xué)版),2008,42(8):1355-1359.
[4] Stiefelhagen R,Yang J. Real Time lip Tracking for Lip-reading. 2003.