(北方工業(yè)大學 信息與通信工程學院,北京 100144)
人類視覺感知與記憶、注意和其他視覺感知通道緊密交互,形成人類視覺感知神經(jīng)機制[1]。人類的視覺注意力是指在觀察場景時,通過全局觀察,將注意力集中在重點想要關注的區(qū)域,對這一區(qū)域進行更多的視覺感知處理,得到所需要關注的細節(jié)信息,不重要的信息不做細節(jié)觀察。模擬人類的視覺感知機制搭建神經(jīng)網(wǎng)絡模型,在圖像分類、物體檢測、語音識別等領域有重要研究意義。
以往視覺注意力的研究一般基于低級的圖像特征和自底向上的過程[2],應用生成顯著圖像算法,對一幅輸入圖像提取顏色、亮度、方向等特征,然后在每個特征上生成關注圖,最終融合這些關注圖為顯著圖[3]?;陲@著圖的方法會對圖像的每一個像素點設置顯著值,從而對顯著值高的點更加關注,抑制顯著值低的點。該方法在圖像發(fā)生旋轉,平移或者尺度等變化時,顯著圖也隨之改變,因此在旋轉、平移變化下沒有很好的魯棒性。
本文將人類視覺注意力處理過程當成一個策略控制任務,經(jīng)過循環(huán)神經(jīng)網(wǎng)絡無監(jiān)督訓練,不斷的尋求聚集點,動態(tài)輸出全部的局部ROI圖像,基于這些ROI圖像進行特征提取并分類輸出?;谧⒁饬C制循環(huán)神經(jīng)網(wǎng)絡模型的手背靜脈識別方法,在每一時刻依次輸入不同的聚焦點的局部ROI手背靜脈圖像,同時以該區(qū)域為中心,截取不同尺度的手背靜脈區(qū)域,完成從局部到整體的手背靜脈信息表達。應用強化學習中的策略學習機制[4]對網(wǎng)絡進行訓練。循環(huán)神經(jīng)網(wǎng)絡中每一時刻的輸入不僅與當前輸入的局部區(qū)域有關,也與上一時刻輸出有關,保證了手背靜脈紋理的關聯(lián)性。該方法下的手背靜脈特征識別,有效抑制圖像對旋轉、平移、尺度敏感問題,實驗驗證該方法下的手背靜脈身份研究在旋轉、平移變化下有很好的魯棒性。
本文采用近紅外手背靜脈圖像采集設備,由光源部分,采集部分以及外圍部分組成,其中,光源部分由近紅外濾光片,LED陣列和均光片等組成,外觀及內部結構圖如圖1所示。本文研究在旋轉、平移變化下的手背靜脈識別,允許被采集者在采集過程中手背有輕微的移動變化,對被采集者的采集姿勢,采集角度和采集區(qū)域不做約束,所采集到的圖像與正常的手背靜脈圖像相比,會產(chǎn)生尺度、平移、旋轉等差異。在該條件下,本文建立了多形態(tài)變化的手背靜脈數(shù)據(jù)庫。50位受采集者,分別在不同的時間段采集手背靜脈圖像,采集時允許有旋轉,平移等變化,同時在不同時間進行采集,光照,對比度也會產(chǎn)生細微差異,在該情況下,本文建立弱約束多形態(tài)的手背靜脈數(shù)據(jù)庫,采集的手背靜脈原始圖像如圖2(a)所示。對該原始數(shù)據(jù)進行預處理及紋理分割,建立了多形態(tài)的手背靜脈圖像數(shù)據(jù)庫,如圖2(b)所示。
本文以時間序列輸入不同聚焦點的手背靜脈局部ROI區(qū)域,并增量地組合以往的局部關注信息,建立整個手背圖像的動態(tài)內部表示,最終完成序列化的手背局部區(qū)域表達[5]。不同時刻的ROI區(qū)域由循環(huán)神經(jīng)網(wǎng)絡隱藏層決策,根據(jù)當前隱藏層的狀態(tài)產(chǎn)生概率分布,為下一時刻提供決策,同時該隱藏層循環(huán)作為下一時刻隱藏層的輸入,最后隱藏層的輸出經(jīng)過softmax概率計算,分類輸出。訓練過程中對當前的決策給出相應的獎勵,使用反向傳播算法優(yōu)化神經(jīng)網(wǎng)絡的參數(shù),用強化學習中的策略梯度尋求使獎勵值最高的策略,模型結構如圖3所示。
圖3 循環(huán)注意力網(wǎng)絡模型
該模型包含局部ROI的生成模塊,注意力傳感器網(wǎng)絡模塊,循環(huán)神經(jīng)網(wǎng)絡模塊,聚焦點決策模塊,獎勵機制模塊。具體過程如下。
步驟1:局部ROI的生成。該模塊以聚焦點坐標為中心,以不同的帶寬采集子圖,得到多尺度的手背靜脈區(qū)域圖像[6],通過下采樣對尺度歸一化處理,獲得相同尺度的局部手背靜脈圖像,生成一組的觀測區(qū)域圖像ρ(xt,lt),如圖4所示。其中初始位置坐標(l0)通過ROI區(qū)域質心法選取,坐標為ROI區(qū)域中心位置,下一時刻位置lt由網(wǎng)絡循環(huán)決策產(chǎn)生。
圖4 生成局部ROI圖像
圖5 注意力傳感器網(wǎng)絡的特征提取過程
步驟3:循環(huán)神經(jīng)網(wǎng)絡。該模型的輸入由注意力傳感器網(wǎng)絡輸出的特征向量fg(θg)和上一時刻隱藏層的輸出ht-1共同決定,對圖像及聚焦點位置特征進行提取。隱藏單元通過式(1)對網(wǎng)絡進行迭代更新,θh為隱藏層ht的線性回歸計算。在t時刻對隱藏層節(jié)點ht進行強化學習策略決策,同時作為下一時刻的輸入,傳遞給循環(huán)神經(jīng)網(wǎng)絡的隱藏單元,結構圖如6所示。
ht=fh(ht-1,fg(t-1);θh)
(1)
圖6 循環(huán)神經(jīng)網(wǎng)絡模型
步驟4:聚焦點決策過程。循環(huán)神經(jīng)網(wǎng)絡在t時刻,將隱藏層的輸出ht向圖像坐標空間映射,得到ht與位置坐標lt的線性回歸模型fl(ht;θlt),在該模型條件下,對位置進行采樣,lt服從l~p(l|fl(ht;θlt))的條件分布,輸出最大概率的即為t+1時刻的位置lt+1,如圖7所示。
圖7 位置決策過程
步驟5:獎勵機制。為強化學習的訓練過程,循環(huán)注意力網(wǎng)絡尋找到最后時刻的位置后,網(wǎng)絡輸出層進行概率計算,輸出分類結果,同時將預測結果與真實值進行計算,得到一個獎勵信號rt。在時刻t,當分類正確則獎勵值加1,分類的最終目標就是使獎勵信號的總和最大化,公式如(2)所示。本文的循環(huán)注意力網(wǎng)絡是馬爾可夫決策的過程,通過對位置和動作在時間序列上的策略學習,將歷史時刻與環(huán)境交互的過程映射成關于當前位置決策的概率分布,通過反向傳播算法,結合策略梯度下降算法進行參數(shù)更新,使網(wǎng)絡更新的方向更加接近正向的獎勵。
(2)
聚焦點的位置決定了局部手背靜脈圖像的截取位置,因此聚焦點的選取集中在手背靜脈ROI區(qū)域,聚焦到ROI區(qū)域外會降低識別率[7]。
由于條件分布決策下的聚焦點沒有考慮到樣本的隨機性,不同位置的局部手背靜脈圖像差異明顯,所以本文針對手背靜脈圖像對聚焦點決策過程進行優(yōu)化,通過增加正態(tài)分布的噪聲對決策位置lt+1進行調整,以決策位置lt+1為初始值,噪聲服從均值μ=0,標準差參數(shù)σ2的高斯分布,采樣結果為噪聲微調后的決策位置lt+1,公式如(3)所示。
(3)
循環(huán)神經(jīng)網(wǎng)絡的每次循環(huán)會決策出下一時刻的聚焦點,該聚焦點作為下一時刻的輸入進行網(wǎng)絡的循環(huán)。因此,循環(huán)神經(jīng)網(wǎng)絡的循環(huán)次數(shù)決定了網(wǎng)絡的聚焦點個數(shù)[8]。聚集點過少不能完全的顯示手背靜脈的ROI區(qū)域,聚焦點過多,網(wǎng)絡訓練會產(chǎn)生過擬合現(xiàn)象。因此,本文通過實驗對聚焦點的個數(shù)進行選取,結果見3.2小節(jié)。
在確定聚焦點后,以聚焦點為中心,截取多尺度的局部ROI區(qū)域,將該區(qū)域作為循環(huán)神經(jīng)網(wǎng)絡的輸入進行訓練。截取的ROI區(qū)域應該包含不同尺度下的手背靜脈的局部紋理信息[9]。在手背靜脈圖像中,截取三個不同尺度的ROI區(qū)域。第一個尺度為小尺度,該尺度下截取的為局部細節(jié)紋理區(qū)域,對細節(jié)特征進行描述。第二個尺度進行21放大,對關聯(lián)的局部紋理信息進行描述。第三個尺度進行22放大,描述更多的局部紋理信息。通過三個尺度截取的ROI區(qū)域,循環(huán)神經(jīng)網(wǎng)絡訓練不同聚焦點的局部ROI區(qū)域之間的序列關聯(lián)性,完成了手背靜脈從局部細節(jié)到整體圖像的ROI區(qū)域描述。
本文中的循環(huán)注意力網(wǎng)絡對t時刻隱藏層的輸出進行獎勵值計算,根據(jù)獎勵值進行網(wǎng)絡參數(shù)更新,反向傳播時對位置決策進行梯度更新,而位置決策的過程不可導,找到目標函數(shù)無法進行求導,所以引入了強化學習對位置決策的過程進行梯度計算,樣本的梯度逼近如下(4)所示。
(4)
其中:p(s1:T;θ)為當前環(huán)境狀態(tài)下決策序列s1:T的分布,R為獎勵值函數(shù)。
為使獎勵值R最大化,需要找到最優(yōu)參數(shù)θ,使得樣本梯度J(θ)最大化。樣本梯度函數(shù)▽(J(θ))含有連續(xù)的決策序列s1:T,本文采用強化學習樣本近似的方法來逼近梯度,如式(5)所示。
(5)
通過反向傳播算法計算網(wǎng)絡梯度,調整網(wǎng)絡的參數(shù)θ,使得能夠提升獎勵值的決策概率變大。
本文的手背靜脈身份識別屬于分類識別任務,神經(jīng)網(wǎng)絡的輸出層采用softmax激活函數(shù),輸出概率最大值為當前分類結果的預測值。采用交叉熵損失函數(shù)對預測值進行誤差估計。在本文中我們不僅將真實值與網(wǎng)絡預測值進行誤差計算,同時將網(wǎng)絡決策的位置和獎勵值進行誤差計算,式(6)為網(wǎng)絡優(yōu)化的交叉熵損失函數(shù)。
C=-∑i(yilnαi+Rilnli)
(6)
式中,yi表示分類的真實值,αi為網(wǎng)絡的預測值;Ri為網(wǎng)絡決策下的累積獎勵值,li為網(wǎng)絡的位置決策。
C′=-∑i(yilnai+(Ri-b)lnli)
(7)
本文采用最優(yōu)化的交叉熵損失函數(shù)進行反向傳播算法,優(yōu)化循環(huán)神經(jīng)網(wǎng)絡和局部圖像特征提取網(wǎng)絡的參數(shù),網(wǎng)絡決策尋求聚焦點的過程由式(5)所示的強化學習梯度更新策略。
在循環(huán)神經(jīng)網(wǎng)絡中,每一時刻輸入一個位置,該位置為注意力機制中的聚焦點。本文通過增加正態(tài)分布的噪聲對位置進行調整,正態(tài)分布服從均值μ=0,標準差為σ2。本文在迭代次數(shù)為370的情況下,對不加噪聲和加正態(tài)分布噪聲進行實驗,將不同實驗決策的聚焦點作為循環(huán)神經(jīng)網(wǎng)絡的輸入,進行訓練分類,得到的獎勵值的實驗結果如表1所示。
表1 不同標準差的手背靜脈獎勵值(均值μ=0)
由實驗結果可知,當聚焦點不加噪聲時,不同時刻的聚焦點之間的距離差異不明顯,不能聚焦到完全的手背靜脈圖像,所以獎勵值較低,結果為0.89;加入標準差后,獎勵值增大。當標準差為0.20時,獎勵值最大,為0.95。當標準差大于0.22時,各聚焦點之間的距離過大,導致最后的聚焦點溢出手背靜脈圖像,從而導致獎勵值下降。因此本文的聚焦點服從均值μ=0,標準差為0.20的正態(tài)分布,該參數(shù)下的網(wǎng)絡獎勵值達到0.95。
我們在不同時刻尋找不同的注意力聚焦點,聚焦點的個數(shù)由網(wǎng)絡循環(huán)的層數(shù)決定。網(wǎng)絡每一時刻的循環(huán)會決策出下一時刻的聚焦點,因此,網(wǎng)絡循環(huán)的層數(shù)就是注意力機制中聚焦點的個數(shù)。本文在加均值μ=0,標準差為0.20正態(tài)分布噪聲的情況下,對網(wǎng)絡層數(shù)進行設定,不同層數(shù)的實驗結果如表2所示。
表2 不同聚焦點個數(shù)的手背靜脈獎勵值
由實驗可知,隨著隱藏層層數(shù)增加,網(wǎng)絡的獎勵值增大。當隱藏層層數(shù)小于6時,網(wǎng)絡決策的聚焦點減少,過少的聚焦點不能完全的顯示出手背靜脈的整體信息。當隱藏層層數(shù)為6時,獎勵值最大,為0.97。當隱藏層數(shù)大于6時,網(wǎng)絡決策的聚焦點過多,各聚焦點之間的差異不明顯,不能很好的學習到局部手背靜脈圖像之間的紋理聯(lián)系。文本選擇在隱藏層層數(shù)為6的情況下,對聚焦點進行決策,網(wǎng)絡決策出6個完整描述手背靜脈局部紋理的聚焦點。
本文以當前時刻的聚焦點為中心,按不同尺度截取3個矩形區(qū)域。定義第一個區(qū)域的圖像大小為ω*ω,第K(1 表3 不同尺度下的手背靜脈獎勵值 由實驗結果可知,當網(wǎng)絡決策到聚焦點位置后,以該位置進行局部區(qū)域的截取。當截取的區(qū)域小時,提取到的信息不足,降低了網(wǎng)絡的獎勵值。當截取的區(qū)域過大或者包含全部手背靜脈圖像時,截取不同區(qū)域的圖像差別不大,循環(huán)神經(jīng)網(wǎng)絡訓練的序列關聯(lián)性較小,因此代價值不穩(wěn)定。因此,本文選定區(qū)域大小為24*24,48*48,96*96,該情況下,獎勵值最大,因此選擇該組帶寬截取局部區(qū)域圖像。 文本從每類數(shù)據(jù)中選擇1500張作為訓練數(shù)據(jù)集,300張作為測試數(shù)據(jù)集進行實驗。手背靜脈圖像大小為128*128,.jpg格式的灰度圖像。 本文設定初始學習率為0.001,指數(shù)型衰減學習率。采用Adam優(yōu)化器對網(wǎng)絡的損失函數(shù)衰減優(yōu)化,將本文定義的交叉熵損失函數(shù)C和最優(yōu)化交叉熵損失函數(shù)進行對比,不同迭代次數(shù)epoch和代價值cost的關系如圖8所示。 圖8 不同迭代次數(shù)下的代價值 如圖8可知,最優(yōu)化的交叉熵損失函數(shù)下,代價值收斂較快,當?shù)螖?shù)為370時,網(wǎng)絡的代價值平緩且趨于0,因此本文實驗選擇最優(yōu)化的交叉熵損失函數(shù),迭代次數(shù)確定為370,進行訓練。 本文在選取6個聚焦點,并服從均值,標準差為0.20正態(tài)分布噪聲,局部ROI區(qū)域的三個尺度分別為24*24,48*48,96*96的情況下在測試集進行驗證,并且與傳統(tǒng)算子進行對比,如LBP算子,SIFT特征描述子,識別率如表4所示。 表4 不同算法的手背靜脈識別率 傳統(tǒng)LBP算子用來描述圖像局部紋理特征,具有旋轉不變性。但當圖像發(fā)生平移變化時,局部紋理發(fā)生改變。對各局部紋理特征之間的關系沒有描述,因此該方法下的識別率不高。SIFT特征描述子描述的是圖像的局部特征,對圖像上的每個像素進行提取,增加了計算的復雜度和工作量[10]。并且提取的特征不具有平移不變性,在手背靜脈旋轉平移的情況下沒有很好的魯棒性。 在旋轉、平移變化的情況下,對手背靜脈的局部紋理特征進行提取。應用強化學習的方法不斷的尋求聚焦點,以聚焦點為中心提取圖像的局部紋理信息。應用循環(huán)神經(jīng)網(wǎng)絡訓練各局部區(qū)域之間的序列關系,決策下一時刻的聚焦點。該方法下的手背靜脈識別方法,各局部信息的紋理和位置關系具有不變性,因此在發(fā)生旋轉和平移變化時,要優(yōu)于傳統(tǒng)局部特征的提取算法,在多形態(tài)數(shù)據(jù)集下驗證,手背靜脈圖像的識別率高達99.3%。 本文針對手背靜脈圖像對旋轉和平移變換識別率不高的問題,提出了基于循環(huán)神經(jīng)網(wǎng)絡的注意力模型。該模型下,手背靜脈圖像作為序列化的輸入送入循環(huán)神經(jīng)網(wǎng)絡中,以時間序列輸入不同聚焦點的局部手背靜脈ROI圖像,循環(huán)神經(jīng)網(wǎng)絡對不同時刻的局部特征進行訓練,從而完成從局部到整體的手背靜脈特征描述。在聚焦點的選取中,本文加入了正太分布的噪聲,使得聚焦點的選取更加完整的描述手背靜脈圖像。對循環(huán)神經(jīng)網(wǎng)絡的層數(shù)進行了參數(shù)確定,從而確定了決策聚焦點的個數(shù)。在局部ROI區(qū)域截取時,對局部區(qū)域進行了三種尺度的約束,從而完成了從局部到整體的局部ROI區(qū)域的描述。應用強化學習中的策略梯度下降法和最優(yōu)化的無偏估計交叉熵損失函數(shù)對網(wǎng)絡進行訓練,使得該方法下的網(wǎng)絡代價值下降最快,并且趨于穩(wěn)定。該方法下的手背靜脈身份識別,在圖像發(fā)生旋轉和平移變化時,聚焦點提取的局部紋理信息不會隨之改變,并且通過循環(huán)神經(jīng)網(wǎng)絡訓練各局部圖像之間的序列關系,對旋轉、平移變化不敏感。本文提出的基于循環(huán)神經(jīng)網(wǎng)絡的注意力模型,在多形態(tài)手背靜脈數(shù)據(jù)集上進行實驗,識別率高達99.3%,驗證了本文方法對手背靜脈圖像的旋轉和平移變化具有很好的魯棒性。3.4 交叉熵損失函數(shù)更新
3.5 對比實驗
4 總結