国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

注意力機制的唇動序列數(shù)字驗證碼識別方法

2021-04-11 14:56:48廣東工業(yè)大學(xué)自動化學(xué)院馮省城
電子世界 2021年6期
關(guān)鍵詞:唇語注意力維度

廣東工業(yè)大學(xué)自動化學(xué)院 馮省城

當前的人臉識別算法發(fā)展迅速,已經(jīng)能夠以極高準確率進行人臉驗證。但是使用照片也可以有效地通過人臉驗證,所以還需要進行人臉活體檢測進行驗證是否為真人。我們可以讓人說出所提供的數(shù)字驗證碼,通過唇動序列識別出所說的數(shù)字驗證碼,然后進行正確性的驗證,進而進行活體檢測。基于CNN+LSTM+CTC的傳統(tǒng)方法對于數(shù)據(jù)量小的數(shù)據(jù)集會出現(xiàn)難以收斂,并且準確率不高。本文使用注意力機制對不同位的數(shù)字進行分別的分類,這樣就把多分類簡化為一個10分類問題。實驗表明,本文提出的基于CNN+GRU+ATTENTION的方法,對于小數(shù)據(jù)量的數(shù)據(jù)集能夠更好的收斂,并且有更高的準確率。

唇語識別技術(shù)能通過唇動視頻序列來理解人說話內(nèi)容的一種技術(shù)。當處于噪聲環(huán)境之下時,語音識別的準確率會有很大的下降,唇動序列能夠幫助我們理解人的說話內(nèi)容。所以唇語識別技術(shù)結(jié)合基于聲學(xué)模型的語音識別技術(shù),能夠解決噪聲的問題。同時對于人臉活體檢測的問題,我們也能夠通過人臉識別技術(shù)和唇語識別技術(shù)相結(jié)合來解決。人臉識別技術(shù)用于識別進行視頻中人的身份認證,唇語識別技術(shù)用于進行視頻中人的真實性驗證,所以一個高效并且高精度的唇語識別算法是至關(guān)重要的。

最先進的單個詞匯唇語識別方法由一個3D卷積層,接著是一個18層殘差網(wǎng)絡(luò)(ResNet),一個雙向門控復(fù)發(fā)單元(BGRU)網(wǎng)絡(luò)和一個softmax層。它在LRW和LRW1000數(shù)據(jù)集實現(xiàn)了最好的性能。而我們的數(shù)字驗證碼唇語識別是無法使用這種方法進行識別的,需要使用基于句子級別的唇語識別,但是句子級別的唇語識別模型因為需要強大的前后語意,需要較為龐大模型參數(shù),對于數(shù)字驗證碼識別唇語識別的應(yīng)用場景,我們需要一個模型更加小的方法。其中基于CNN+LSTM+CTC的方法是一種可行方法,但是基于數(shù)字驗證碼是固定的特性,本文設(shè)計出一種基于注意力機制的唇動序列數(shù)字驗證碼識別方法,有更好的精度和效率。

1 注意力機制模塊

注意力機制是一種模仿人類視覺機制的方法,在人類根據(jù)所看到的圖像里,快速掃描全局圖像,然后會根據(jù)自己的重點選擇性關(guān)注對自己有用的信息,忽略其他無用的信息。也就是說注意力機制就是對某一區(qū)域給與更大的關(guān)注,從而獲得關(guān)鍵點更多有用的信息,抑制其他區(qū)域無用的信息。從人類進化角度來說,這使得人類極大的提高了視覺處理上的高效性和準確性。注意力機制已經(jīng)成功的運用在許多領(lǐng)域,如自然語言處理,計算機視覺等。那么在網(wǎng)絡(luò)中,注意力機制本質(zhì)上關(guān)注的是什么呢。注意力機制我們分為通道注意力機制和空間注意力機制。通道注意力機制是通過對卷積的特征維度通道進行一個權(quán)重的計算,因為特征維度通道代表的是各個特征的信息,所以通道注意力機制是篩選出對于結(jié)果有用的特征通道,忽略其他無用的特征通道??臻g注意力機制顧名思義就是關(guān)注空間中重要的信息,忽略空間中無用的信息。兩種注意力機制沒有本質(zhì)的區(qū)別,只是關(guān)注的維度不同而已。這里我們根據(jù)我們的唇動序列提出一個注意力機制網(wǎng)絡(luò),用于關(guān)注唇動序列中哪些序列屬于有用信息,哪些序列屬于無用信息。如圖1所示,輸入為經(jīng)過卷積提取的圖像序列特征,維度為N×C,通過兩個全連接層FC提取出權(quán)重信息,維度為N×1,然后把這個權(quán)重信息和輸入相乘,從而調(diào)整N這個維度的注意重點。因為N這個維度是唇動序列維度,也就是通過注意力機制提取出相對有用的唇動序列信息。

圖1 注意力模塊結(jié)構(gòu)圖

2 基于注意力機制的唇動序列數(shù)字驗證碼識別方法

在基于CNN+LSTM+CTC的傳統(tǒng)方法中,我們使用CNN卷積網(wǎng)絡(luò)對每一幀嘴唇圖像進行空間特征的提取,然后使用LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)提取唇動序列之間的時間信息特征,最后用CTC-Loss對每一幀回歸到每一個數(shù)字標簽,從而實現(xiàn)唇動序列數(shù)字驗證碼的識別。本文在此方法的基礎(chǔ)上提出了基于注意力機制的唇動序列數(shù)字驗證碼識別方法。首先,我們?nèi)匀皇褂靡粯拥目臻g和時間的特征提取網(wǎng)絡(luò)進行唇動序列的空間時間特征的提取,然后我們使用多個注意力機制模塊,對提取出來的特征進行不同幀間的權(quán)重改變,使得不同位數(shù)的驗證碼注意力集中在其對應(yīng)的圖像幀上,同時使用損失函數(shù)回歸每一個數(shù)字驗證碼位,從而實現(xiàn)唇動序列數(shù)字驗證碼識別。

網(wǎng)絡(luò)基本框架如圖2所示,我們使用resnet18作為圖像特征的提取,因為嘴唇特征相對簡單,所以我們使用層數(shù)相對較淺的特征提取網(wǎng)絡(luò)就能夠滿足性能要求。使用GRU循環(huán)神經(jīng)網(wǎng)絡(luò)進行時序特征的提取,GRU相對于LSTM,更加容易收斂,不容易過擬合。我們假設(shè)我們的驗證碼位數(shù)是4位,所以使用了四個注意力模塊,讓不同位置的驗證碼關(guān)注不同的視頻幀,從而實現(xiàn)4個位驗證碼的分類。同時我們使用arcloss損失函數(shù)替代一般的交叉熵損失函數(shù),使得不同類的特征間距更加的大,最終獲得四位數(shù)字驗證碼結(jié)果。

圖2 網(wǎng)絡(luò)框架

通常訓(xùn)練的模型往往會過度擬合數(shù)據(jù)集場景,目標詞總是在其中心位置。在這種有偏差的環(huán)境下訓(xùn)練的模型可以記住這些偏差,并對輸入的微小變化變得敏感。例如,簡單地從輸入序列中刪除一個隨機幀會導(dǎo)致性能顯著下降。所以為了避免這種數(shù)據(jù)集的偏差,我們提出了一種方法,即對每個輸入訓(xùn)練序列在目標詞邊界之前和之后的一個隨機點進行隨機裁剪。雖然這種變化不會直接改善現(xiàn)有的基準,但我們認為它產(chǎn)生了更健壯的模型。

3 實驗結(jié)果與分析

本文是基于數(shù)字驗證碼來做唇語識別的實驗,并且在實際應(yīng)用中是可以通過手機攝像頭獲得清晰的唇動序列,所以綜合考慮下,使用OuluVs2數(shù)據(jù)集作為本文的實驗數(shù)據(jù)集。OuluVs2數(shù)據(jù)集具有多個視角的唇動序列,并且也有關(guān)于數(shù)字驗證碼的相關(guān)唇動序列樣本,所以我們使用該數(shù)據(jù)集的正面視角中的數(shù)字驗證碼部分作為實驗數(shù)據(jù)。該數(shù)據(jù)集是在實驗室環(huán)境下采集,樣本中總共有52個人,每個人說出30個不同的數(shù)字驗證碼,總共有1560個樣本,通過隨機分配成1400個訓(xùn)練集,160個作為測試集。

我們使用相同的數(shù)據(jù)集對不同的算法進行性能測試,一種是基于CNN+LSTM+CTC的傳統(tǒng)方法,一種是我們提出的基于CNN+GRU+Attention的方法。使用的評測指標為精確度,其中對于一個樣本所有數(shù)字驗證碼的位數(shù)都對就認為是正確的,有一個數(shù)字識別錯誤了就認為是錯誤的。

表1 實驗結(jié)果

實驗結(jié)果如表1所示,在同樣的實驗設(shè)置下,本文方法在精確度上比傳統(tǒng)方法提高了5個百分點的精度??梢钥闯觯覀兊姆椒ň哂幸欢ǖ膬?yōu)越性。

猜你喜歡
唇語注意力維度
讓注意力“飛”回來
淺論詩中“史”識的四個維度
中華詩詞(2019年7期)2019-11-25 01:43:00
碰撞:“唇語”應(yīng)對媒體vs志愿者自責(zé)哭泣
唇語
文學(xué)港(2019年5期)2019-05-24 14:19:42
親情助力,90后“唇語女博士”名震清華
搜狗推出“唇語識別”技術(shù)
“揚眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
A Beautiful Way Of Looking At Things
光的維度
燈與照明(2016年4期)2016-06-05 09:01:45
“五個維度”解有機化學(xué)推斷題
临城县| 河北区| 天长市| 确山县| 丰台区| 梧州市| 金溪县| 交口县| 田东县| 巴里| 新乐市| 旺苍县| 佛学| 肇东市| 饶平县| 江油市| 渝中区| 曲阳县| 岢岚县| 赤城县| 邮箱| 莎车县| 平南县| 永新县| 东辽县| 静海县| 那坡县| 东乡| 苍梧县| 沂源县| 隆尧县| 重庆市| 曲周县| 惠州市| 布尔津县| 民勤县| 高安市| 炎陵县| 民县| 成武县| 苏尼特左旗|