霍 光,林大為,劉元寧,朱曉冬,袁 夢
(1.東北電力大學(xué) 計算機(jī)學(xué)院,吉林 吉林 132012; 2.吉林大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,長春 130012; 3.吉林大學(xué) 符號計算與知識工程教育部重點(diǎn)實(shí)驗(yàn)室,長春 130012)
虹膜識別可用于安防、國防和電子商務(wù)等領(lǐng)域[1],具有方便、穩(wěn)定、獨(dú)特等特點(diǎn).虹膜識別系統(tǒng)包括虹膜圖像采集、預(yù)處理、虹膜分割、虹膜歸一化、虹膜特征提取和虹膜匹配驗(yàn)證[2].虹膜分割的精度直接影響虹膜圖像識別的準(zhǔn)確率.目前虹膜分割方法主要分為傳統(tǒng)的分割方法和基于卷積神經(jīng)網(wǎng)絡(luò)的分割方法.
傳統(tǒng)的虹膜分割方法主要包括基于Hough變換的算法[3]和基于梯度微分的算法[4].許多后續(xù)的傳統(tǒng)算法都使用微積分算子變體[5]和Hough變換變體[6]定位虹膜邊界.傳統(tǒng)方法不需要大量的圖像樣本訓(xùn)練模型參數(shù),但在非理想的拍攝條件下,采集的虹膜圖像可能包含了光斑、睫毛遮擋、眼瞼遮擋等噪聲,這些噪聲會嚴(yán)重影響虹膜識別的準(zhǔn)確率.
為解決傳統(tǒng)方法的不足,虹膜分割領(lǐng)域開始結(jié)合卷積神經(jīng)網(wǎng)絡(luò)方法,并取得了較好的成果.目前,大部分虹膜分割模型使用FCN(fully convolutional networks)[7]和UNet(U-shaped networks)[8]作為基準(zhǔn)網(wǎng)絡(luò).為提高模型的魯棒性,Chen等[1]提出了一種基于FCN和密集連接塊相結(jié)合的架構(gòu),雖然該模型有效降低了無關(guān)噪聲對模型的干擾,但該模型的可訓(xùn)練參數(shù)高達(dá)142.5×106.隨著神經(jīng)網(wǎng)絡(luò)的加深,需要學(xué)習(xí)的參數(shù)也會隨之增加.當(dāng)數(shù)據(jù)集較小時,過多的參數(shù)會擬合數(shù)據(jù)集的所有特點(diǎn),并非數(shù)據(jù)之間的共性,從而導(dǎo)致過擬合現(xiàn)象.因此,復(fù)雜的虹膜分割算法無法在小樣本數(shù)據(jù)庫上最大限度地發(fā)揮卷積神經(jīng)網(wǎng)絡(luò)的性能.
目前解決小樣本學(xué)習(xí)主要通過數(shù)據(jù)增強(qiáng)和減少網(wǎng)絡(luò)參數(shù)兩種方法.數(shù)據(jù)增強(qiáng)是對原始數(shù)據(jù)采用縮放、裁剪、平移等方式增加訓(xùn)練集的數(shù)量.該方法應(yīng)用于深度學(xué)習(xí)中的各領(lǐng)域.但在虹膜分割領(lǐng)域,使用數(shù)據(jù)增強(qiáng)后的數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò)不僅不能提升模型的擬合能力,還會大幅度增加模型的訓(xùn)練時間.因此,減少網(wǎng)絡(luò)參數(shù)已成為解決小樣本虹膜分割的主要方法.Huo等[2]和周銳燁等[9]通過使用輕量級網(wǎng)絡(luò)替換傳統(tǒng)卷積的方法減少網(wǎng)絡(luò)參數(shù),雖然該方法可明顯減少網(wǎng)絡(luò)的參數(shù)量,但這些分割模型的可訓(xùn)練參數(shù)仍超過2×106.因此,如何在少量數(shù)據(jù)庫上訓(xùn)練好模型的參數(shù),是小樣本虹膜分割面臨的挑戰(zhàn).基于此,本文提出一個適用于小樣本數(shù)據(jù)集的虹膜分割模型.
圖1 本文模型的整體網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Overall network structure of proposed model
本文網(wǎng)絡(luò)模型的整體結(jié)構(gòu)如圖1所示,模型的實(shí)現(xiàn)細(xì)節(jié)列于表1.網(wǎng)絡(luò)模型由編碼器、解碼器和注意力機(jī)制組成.編碼器用于提取虹膜圖像的特征信息,解碼器用于將特征信息轉(zhuǎn)化為語義信息.
表1 本文模型結(jié)構(gòu)實(shí)現(xiàn)細(xì)節(jié)
1.1.1 編碼器
輸入圖像首先經(jīng)過4×4卷積層,其卷積核的數(shù)量為16,步長為4.在網(wǎng)絡(luò)下采樣后期階段使用傳統(tǒng)的3×3卷積層和5×5卷積層會引入大量的模型參數(shù).深度可分離卷積通過采用逐通道卷積和逐點(diǎn)卷積執(zhí)行卷積運(yùn)算.在網(wǎng)絡(luò)中使用深度可分離卷積能在保證特征提取能力的前提下,大幅度降低網(wǎng)絡(luò)的可訓(xùn)練參數(shù).本文基于深度分離卷積設(shè)計3個特征提取模塊: 特征提取模塊1~3.特征提取模塊結(jié)構(gòu)如圖2所示.模塊1由兩個深度可分離卷積層和兩個1×1卷積層組成.其中第一個1×1卷積層用于減少特征圖的通道數(shù),第二個深度可分離卷積層用于縮小特征圖的寬和高為原來的1/2.因?yàn)槟K2輸出特征圖的維度與輸入特征圖的維度一致,所以輸入特征圖與輸出特征圖通過相加操作進(jìn)行融合.通過這種連接可有效減少梯度消失問題.模塊3輸出的特征圖維度在高度和寬度方向保持不變,深度方向增加.通過增加網(wǎng)絡(luò)的深度可學(xué)習(xí)到更豐富的特征信息.網(wǎng)絡(luò)通過兩次下采樣操作將特征圖變?yōu)樵瓉淼?/16.
圖2 特征提取模塊的設(shè)計Fig.2 Design of feature extraction module
1.1.2 注意力機(jī)制
注意力機(jī)制由空間注意力機(jī)制和通道注意力機(jī)制組成.空間注意力機(jī)制用于增加模型的感受野,提取更豐富的上下文特征信息; 通道注意力機(jī)制用于增加模型對虹膜區(qū)域通道的學(xué)習(xí)能力,降低對無關(guān)噪聲的響應(yīng)能力.
1.1.3 解碼器 特征圖通過一系列的卷積層和轉(zhuǎn)置卷積層逐步恢復(fù)到原始尺寸.3×3卷積層用于將提取到的特征信息轉(zhuǎn)化為語義信息,轉(zhuǎn)置卷積用于增大特征圖的寬和高為原來的2倍.為減少特征信息丟失,編碼器通過跳躍連接與解碼器相連.預(yù)測的分割圖為二值圖像,其中1表示虹膜區(qū)域,0表示非虹膜區(qū)域.
在非理想條件下拍攝的虹膜圖像可能會包含大量無關(guān)噪聲.隨著下采樣次數(shù)的增加,虹膜圖像的空間特征信息會逐漸丟失.這些都會影響虹膜分割的準(zhǔn)確率.為解決上述問題,本文在編碼器和解碼器之間加入了通道和空間注意力機(jī)制,該模塊的結(jié)構(gòu)如圖3所示.輸入模塊的特征圖維度為H×W×C,其中H,W,C分別表示特征圖的寬、高和通道數(shù).
圖3 注意力機(jī)制模塊結(jié)構(gòu)Fig.3 Attention mechanism module structure
空間注意力機(jī)制: 先輸入特征圖通過1×1卷積層將特征圖的通道數(shù)壓縮到1; 然后輸出的特征圖通過Sigmoid激活函數(shù)得到空間注意力圖; 最后將空間注意力圖與輸入特征圖相乘完成空間信息的校準(zhǔn).
通道注意力機(jī)制: 先輸入特征圖通過全局平均池化得到維度為1×1×C的特征圖.使用全局平均池化可幫助模型捕獲全局信息,通過兩個1×1卷積層對特征圖進(jìn)行信息處理,最終得到維度為1×1×C的特征圖; 然后特征圖通過Sigmoid激活函數(shù)進(jìn)行歸一化,對通道賦予不同的權(quán)重; 最后與輸入特征圖相乘,得到經(jīng)過加權(quán)的特征圖.
空間注意力機(jī)制輸出的特征圖與通道注意力機(jī)制輸出的特征圖通過相加操作實(shí)現(xiàn)信息融合.該注意力機(jī)制不僅考慮了通道和空間信息,還考慮了方向和位置信息.該模塊在不明顯增加參數(shù)量的條件下,將網(wǎng)絡(luò)模型的注意力更多關(guān)注于虹膜區(qū)域.
實(shí)驗(yàn)在虹膜數(shù)據(jù)庫UBIRIS.V2[10]上進(jìn)行.UBIRIS.V2數(shù)據(jù)庫中虹膜圖像是在非合作條件下拍攝的.因?yàn)樵摂?shù)據(jù)庫中的大量虹膜圖像包含各種無關(guān)噪聲,所以是最具有挑戰(zhàn)性的公共虹膜數(shù)據(jù)庫之一.本文將數(shù)據(jù)庫按7∶1∶2分為訓(xùn)練集、驗(yàn)證集和測試集三部分.其中: 小樣本數(shù)據(jù)庫1中訓(xùn)練集的數(shù)量為280張,驗(yàn)證集的數(shù)量為40張,測試集的數(shù)量為80張; 小樣本數(shù)據(jù)庫2中訓(xùn)練集的數(shù)量為560張,驗(yàn)證集的數(shù)量為80張,測試集的數(shù)量為160張; 大樣本數(shù)據(jù)庫中訓(xùn)練集的數(shù)量為1 575張,驗(yàn)證集的數(shù)量為225張,測試集的數(shù)量為450張.
本文實(shí)驗(yàn)環(huán)境基于Pytorch深度學(xué)習(xí)框架.硬件設(shè)備為NVIDIA 1080Ti GPU,11 GB顯存.采用Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)為0.01,第一次衰減率設(shè)為0.9,第二次衰減率設(shè)為0.999.每次訓(xùn)練從訓(xùn)練集中取16個樣本進(jìn)行訓(xùn)練,選擇Dice損失函數(shù)[11]訓(xùn)練網(wǎng)絡(luò).
本文通過參數(shù)量衡量模型的復(fù)雜程度.參數(shù)量即模型的可訓(xùn)練參數(shù),模型的參數(shù)量越大,訓(xùn)練模型所需的數(shù)據(jù)量就越大.為衡量模型的分割精度,本文選擇平均交并比(mean intersection over union,MIOU)和F1得分(F1)作為評價指標(biāo),計算公式如下:
(1)
(2)
其中TP表示真陽性樣本的數(shù)量,FP表示假陽性樣本的數(shù)量,FN表示假陰性樣本的數(shù)量,TN表示真陰性樣本的數(shù)量.MIOU和F1值介于0~1之間,MIOU和F1值越接近于1表示模型的分割精度越高.
在UBIRIS.V2數(shù)據(jù)庫上,將本文算法與傳統(tǒng)算法Caht[12],Ifpp[13],Wahet[14],Osiris[15],IFPP[16]和基于卷積神經(jīng)網(wǎng)絡(luò)的算法Linknet[17],PI-Unet[9],DMS-UNet[2]性能進(jìn)行對比,結(jié)果分別列于表2和表3.基于神經(jīng)網(wǎng)絡(luò)的分割方法在3個數(shù)據(jù)庫上的損失衰減曲線如圖4所示.為更好觀察算法的性能,本文可視化了所提方法與基于神經(jīng)網(wǎng)絡(luò)方法在小樣本數(shù)據(jù)庫1上的分割結(jié)果,對比結(jié)果如圖5所示.
表2 本文算法與傳統(tǒng)算法的對比結(jié)果
表3 本文算法與基于深度學(xué)習(xí)算法的對比結(jié)果
本文所選數(shù)據(jù)庫是在非合作環(huán)境下拍攝的,因此虹膜圖像中包含了大量無關(guān)噪聲.實(shí)驗(yàn)結(jié)果表明,傳統(tǒng)算法在非理想虹膜數(shù)據(jù)集上的表現(xiàn)較差,難以準(zhǔn)確分割出虹膜邊界.相比于傳統(tǒng)算法,本文模型大幅度提高了分割精度.
損失表示模型在訓(xùn)練集上的預(yù)測結(jié)果與真實(shí)標(biāo)簽之間的誤差.不同算法在小樣本數(shù)據(jù)庫上損失和準(zhǔn)確率的變化曲線如圖4所示.由圖4可見,相比于其他算法,本文算法的損失曲線隨著迭代次數(shù)的增加而快速收斂,曲線穩(wěn)定,沒有明顯震蕩,表明本文算法在小樣本數(shù)據(jù)集上有效地學(xué)習(xí)了虹膜圖像的特征,未發(fā)生過擬合現(xiàn)象.
圖4 不同算法在小樣本數(shù)據(jù)庫上損失和準(zhǔn)確率的變化曲線Fig.4 Variation curves of loss and accuracy of different algorithms on small sample database
圖5 不同算法在小樣本數(shù)據(jù)庫1上的分割結(jié)果Fig.5 Segmentation results of different algorithms on small sample database 1
由圖5可見,其他虹膜分割算法未準(zhǔn)確分割出瞳孔區(qū)域.這是因?yàn)樵诰W(wǎng)絡(luò)執(zhí)行下采樣操作中,瞳孔區(qū)域特征隨之丟失.因?yàn)楸疚乃惴▋H采用兩次下采樣操作,并且加入了空間注意力機(jī)制關(guān)注虹膜區(qū)域,因此該算法可準(zhǔn)確地分割出瞳孔區(qū)域.本文算法分割出的虹膜內(nèi)外邊界更平滑、像素錯分率更低、分割結(jié)果更接近于真實(shí)標(biāo)簽.
在小樣本數(shù)據(jù)庫1上的結(jié)果表明,與最新的輕量級虹膜分割模型PI-Unet相比,本文算法的MIOU和F1分別提高了3.81%和2.13%; 與高性能的虹膜分割模型DMS-UNet相比,本文算法的MIOU和F1分別提高了3.65%和2.06%.本文網(wǎng)絡(luò)在小樣本數(shù)據(jù)庫2上的虹膜分割精度均優(yōu)于其他分割方法.
在大樣本數(shù)據(jù)庫上的結(jié)果表明,本文網(wǎng)絡(luò)的分割精度略低于DMS-UNet和PI-Unet.與PI-Unet相比,本文網(wǎng)絡(luò)的參數(shù)量下降了96.49%; 與DMS-UNet相比,本文網(wǎng)絡(luò)的參數(shù)量下降了98.31%.DMS-UNet和PI-Unet具有更深的網(wǎng)絡(luò)深度和更多的卷積核數(shù)量,因此這些網(wǎng)絡(luò)具有更多的可訓(xùn)練參數(shù).額外的網(wǎng)絡(luò)參數(shù)量能存儲更豐富的特征信息以增加網(wǎng)絡(luò)的分割精度.
不同網(wǎng)絡(luò)方法在小樣本數(shù)據(jù)庫和大樣本數(shù)據(jù)庫上的對比結(jié)果如圖6所示.由圖6可見,隨著訓(xùn)練樣本數(shù)量的增加,網(wǎng)絡(luò)的分割精度也隨之增加,這是因?yàn)榫W(wǎng)絡(luò)參數(shù)在大樣本數(shù)據(jù)庫下可得到更充分的訓(xùn)練.本文網(wǎng)絡(luò)在小樣本數(shù)據(jù)庫上的分割精度優(yōu)于其他方法,在大樣本數(shù)據(jù)庫上取得了較好的虹膜分割精度.
為驗(yàn)證注意力機(jī)制的有效性,本文將通道注意力機(jī)制模塊(squeeze and expand,SE)[18]、通道-空間注意力機(jī)制模塊(convolutional block attention module,CBAM)[19]、空間注意力機(jī)制模塊(coordinate attention,CA)[20]與本文的注意力機(jī)制模塊進(jìn)行對比,其中基準(zhǔn)網(wǎng)絡(luò)不加任何注意力機(jī)制模塊.為進(jìn)行公平的比較,其他注意力機(jī)制模塊與本文模塊都在分割網(wǎng)絡(luò)的編碼器和解碼器之間引入,不同注意力機(jī)制的對比實(shí)驗(yàn)結(jié)果列于表4.
表4 不同注意力機(jī)制對網(wǎng)絡(luò)性能的影響
由表4可見,在基準(zhǔn)網(wǎng)絡(luò)中加入SE模塊和CA模塊使基準(zhǔn)網(wǎng)絡(luò)的MIOU值分別提高了0.64%和0.76%,在分割網(wǎng)絡(luò)中加入CBAM模塊未提高網(wǎng)絡(luò)的分割精度.相比于使用SE模塊和CA模塊,本文網(wǎng)絡(luò)的MIOU值分別提高了2.13%和2.01%.實(shí)驗(yàn)結(jié)果表明,本文網(wǎng)絡(luò)的注意力機(jī)制可有效提高網(wǎng)絡(luò)的分割精度.
為驗(yàn)證注意力機(jī)制融合方式的有效性,本文設(shè)計4種不同的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行消融實(shí)驗(yàn),其中基準(zhǔn)網(wǎng)絡(luò)中不含注意力機(jī)制.本文對空間-通道注意力機(jī)制采用串聯(lián)和并聯(lián)兩種方式融合,其中串聯(lián)方式有兩種: 通道注意力機(jī)制在前,空間注意力機(jī)制在后; 空間注意力機(jī)制在前,通道注意力機(jī)制在后.注意力機(jī)制不同融合方式消融實(shí)驗(yàn)的結(jié)果列于表5.
表5 注意力機(jī)制不同融合方式的實(shí)驗(yàn)結(jié)果
由表5可見,注意力機(jī)制采用串聯(lián)的融合方式并不會增加網(wǎng)絡(luò)的分割精度.這是因?yàn)椴磺‘?dāng)?shù)娜诤戏绞綍绊懱卣鲌D的數(shù)據(jù)分布,干擾特征圖中有效信息的表達(dá).相比于兩種串聯(lián)方式的分割精度,使用并聯(lián)方式的MIOU值分別提高了3.74%和3.13%.因此本文采用并聯(lián)的方式融合兩種注意力機(jī)制輸出的特征圖.
為驗(yàn)證本文算法的各模塊在提高虹膜分割性能方面的有效性,設(shè)計4種不同的網(wǎng)絡(luò)進(jìn)行消融實(shí)驗(yàn),其中基準(zhǔn)網(wǎng)絡(luò)中不含注意力機(jī)制.4種網(wǎng)絡(luò)在相同測試集上的分割精度列于表6,分割結(jié)果如圖7所示.由表6可見,相比于基準(zhǔn)網(wǎng)絡(luò),加入注意力機(jī)制網(wǎng)絡(luò)的MIOU分別提高了2.12%和1.70%.在雙注意力機(jī)制的作用下,本文算法獲得了最高的分割精度.在不明顯提升參數(shù)量的前提下,本文算法的分割精度相比于基準(zhǔn)網(wǎng)絡(luò)分別提升了2.78%和1.55%.
表6 不同模型的消融實(shí)驗(yàn)結(jié)果
不同模型基于不同模塊的分割結(jié)果如圖7所示.由圖7可見,基準(zhǔn)網(wǎng)絡(luò)無法準(zhǔn)確分割出瞳孔區(qū)域.實(shí)驗(yàn)結(jié)果表明,加入注意力機(jī)制可在很大程度上解決上述缺陷.基于空間注意力機(jī)制的模型雖然可分割出瞳孔區(qū)域,但預(yù)測的分割圖中包含許多無關(guān)噪聲.加入通道注意力機(jī)制可在訓(xùn)練階段學(xué)習(xí)通道之間的相關(guān)性,抑制光斑和遮擋等無關(guān)噪聲的干擾,加強(qiáng)虹膜區(qū)域的權(quán)重.
圖7 不同模型基于不同模塊的分割結(jié)果Fig.7 Segmentation results of different models based on different modules
綜上所述,針對復(fù)雜網(wǎng)絡(luò)在小樣本數(shù)據(jù)集上訓(xùn)練易發(fā)生過擬合的現(xiàn)象,本文提出了一個適用于小樣本數(shù)據(jù)庫的輕量級虹膜分割模型.在編解碼結(jié)構(gòu)的基礎(chǔ)上,設(shè)計了一個高效的特征提取網(wǎng)絡(luò); 空間注意力機(jī)制模塊用于關(guān)注虹膜區(qū)域和提取豐富的上下文特征信息; 通道注意力機(jī)制模塊用于提高模型對無關(guān)噪聲的抗噪能力.消融實(shí)驗(yàn)結(jié)果表明了本文使用不同模塊的有效性.對比實(shí)驗(yàn)結(jié)果表明,本文模型在小樣本虹膜數(shù)據(jù)集上不僅取得了最優(yōu)的分割精度,而且需要更少的模型參數(shù).在分割結(jié)果上,本文算法能在含有噪聲的虹膜圖像中分割出更多的邊緣細(xì)節(jié),分割的圖像更接近于真實(shí)標(biāo)簽.因此,本文模型在小樣本虹膜數(shù)據(jù)庫上具有良好的應(yīng)用價值.