王 娜,李勁松,姚明海
(渤海大學 信息科學與技術(shù)學院,遼寧 錦州 121013)
生物認證方法就是指智能系統(tǒng)通過人體自身具有唯一性的生物或行為特征來驗證人的身份。由于人體生物特征具有唯一、可靠、安全的特點,已經(jīng)受到廣大科研人員的廣泛關(guān)注。利用人體特征進行身份識別的方法已經(jīng)成為了社會安全和網(wǎng)絡(luò)安全等領(lǐng)域進行身份識別的重要手段之一?;谌梭w生物特征的身份識別在社會醫(yī)療、案件偵破、金融服務(wù)、網(wǎng)絡(luò)銷售、公司考勤等領(lǐng)域都有廣泛應(yīng)用[1]。但隨著圖像處理技術(shù)的快速發(fā)展,數(shù)據(jù)樣本的采集也變得非常便捷,但是數(shù)字圖像技術(shù)的發(fā)展也使得采集的數(shù)據(jù)樣本的維度會非常高,高維樣本數(shù)據(jù)在運算中很容易產(chǎn)生維數(shù)災(zāi)難[2]。
特征選擇方法就是從采集到的數(shù)據(jù)樣本中挑選出少量且具有代表性的數(shù)據(jù),實現(xiàn)原始數(shù)據(jù)維數(shù)的縮減,去掉冗余和干擾信息,提高預測準確率,進而加強對學習結(jié)果的理解等。近年來,特征選擇方法在模式識別[3]、生物認證[4]、數(shù)字圖像處理[5]等領(lǐng)域受到廣大科研工作者的廣泛關(guān)注。近年來,國內(nèi)外學者提出各種特征選擇方法,大致可分過濾式、封裝式和啟發(fā)嵌入式[6]。過濾式方法通過對特征重要性打分來進行特征選擇,方法簡單、快速與學習算法無關(guān)。但是這種方法忽視了特征間的相關(guān)性。封裝式方法通過訓練和測試選定的分類器尋找特征子集,這種方法考慮了特征子集和分類器間的相互作用,但也需要付出較高的計算代價,容易出現(xiàn)過擬合。啟發(fā)嵌入式方法將特征選擇方法融入到學習模型構(gòu)建過程中。因為封裝式方法和嵌入式方法考慮到了和分類器的交互,因此在準確率上普遍優(yōu)于過濾式方法,但過濾式方法具有簡單、計算快速等特點,所以過濾式方法在特征選擇中也占有很重要的位置。
通過對大量文獻的分析和總結(jié),在眾多學者研究結(jié)果的基礎(chǔ)上,提出基于特征子集與區(qū)分度的特征選擇方法。首先利用隨機子空間(random subspace method,RSM)和Fisher得分方法計算出特征排序,然后對其融合獲得新的特征排序,最后根據(jù)順序前向搜索方法篩選能夠代表樣本數(shù)據(jù)原始表達的特征子集。該方法既具備過濾式特征選擇方法的簡單、快速的特點,又具有封裝式特征選擇識別率高的特點;同時還考慮不同方法對特征進行打分后的融合策略。
基于隨機判別理論的隨機子空間方法[7]采用隨機抽樣方式從原始特征數(shù)據(jù)空間中獲得特征子集,被廣泛應(yīng)用到聚類分析、特征選擇、降維等領(lǐng)域。RSM通過隨機構(gòu)建特征子空間,在構(gòu)建的結(jié)果中發(fā)現(xiàn)最優(yōu)結(jié)果。
初始化:i←0,t←0,C←01×D,th,T
doi←i+1
計算子空間fi的預測準確率si
如果si>th并且fi,j=1
則Cj←Cj+1,t←t+1,直到i=T
Cj←Cj/t
算法結(jié)束
輸出:特征權(quán)重向量C
輸出結(jié)果C表示隨機子空間算法得到的特征權(quán)重向量,Cj越大說明該特征被選擇的頻率越高。
基于Fisher得分的算法是一種發(fā)現(xiàn)具備最好區(qū)分度的特征子集的有監(jiān)督選擇方法[8],其定義如式(1)所示:
(1)
順序前向搜索算法(sequential forward search,SFS)[9]是一個前向搜索算法,其核心思想是每次增加一個能使識別率得到提升的特征,直到識別率不再發(fā)生改變。
該文提出的特征選擇方法,分別利用隨機子空間RSM和Fisher得分方法給出兩個不同的特征排序。然后對特征數(shù)據(jù)被選中的頻率和特征數(shù)據(jù)的Fisher得分進行有效融合,產(chǎn)生一個新的特征數(shù)據(jù)的排序,最后利用SFS方法選出最終的特征子集。
算法流程如圖1所示。
圖1 算法流程
融合公式如式(2)所示:
(2)
經(jīng)過了融合后,每一個特征都會擁有一個權(quán)重,根據(jù)權(quán)重可以得到一個初步的排序結(jié)果。權(quán)重越高說明該特征越重要,但是這些高權(quán)重的特征也有可能含有冗余信息,因此采用順序搜索方法來剔除數(shù)據(jù)中的冗余信息,獲得維度低、預測準確率高的特征。原始順序搜索方法理論上也能夠獲得最優(yōu)特征,但是原始順序搜索算法的計算效率相對較低,不易實現(xiàn)。該文通過對特征先預排序,在此基礎(chǔ)上采用順序前向搜索算法可以明顯地提高算法的搜索效率。
為了驗證文中方法的有效性,實驗中的數(shù)據(jù)采用生物認證領(lǐng)域中常用于算法驗證的五個生物識別數(shù)據(jù)庫,并在實驗前數(shù)據(jù)庫數(shù)據(jù)進行預處理。實驗中將文中提出的方法同多種特征選擇方法在選擇出的維度最高不超過200維的前提下進行對比。為了驗證特征選擇方法的實際使用效果,采用K-nn分類算法來驗證。使用樣本預測的準確率(predictive accuracy,PR)作為評價算法有效性的標準,具體計算方法如式(3)所示。為滿足統(tǒng)計規(guī)律中覆蓋樣本數(shù)量的要求,全部實驗中都采用10次隨機取樣的方法對算法有效性的驗證。每次的測試都使用50%的樣本用于訓練分類模型,剩余的50%樣本作為測試樣本進行分類模型的測試。經(jīng)實驗統(tǒng)計10次的隨機采樣已經(jīng)基本覆蓋了99%的實驗數(shù)據(jù)都參與了分類模型的訓練和測試過程,計算獲得的平均PR為最后結(jié)果。
(3)
其中,Num為測試樣本個數(shù),RP為正確識別的樣本個數(shù)。
FERET數(shù)據(jù)庫[10]是由美國國防部發(fā)起的人臉識別項目(face recognition technology,簡稱FERET)數(shù)據(jù)庫,在1993年到19997年創(chuàng)建,是生物認證領(lǐng)域普遍使用的算法驗證數(shù)據(jù)庫之一。FERET庫共有1 428個采集樣本的14 051幅面部灰度圖像。對比實驗中選擇了來自72個人的432幅圖像,每個人選取了6幅不同姿態(tài)的圖像,實驗前對這432幅圖像進行了預處理,將圖像大小調(diào)整為32×32像素。圖2展示了部分實驗用圖。
圖2 FERET庫中的部分人臉圖像數(shù)據(jù)
由表1可以看出,文中提出的IFS方法在維數(shù)僅為100的前提下識別準確率就達到了80.4%,明顯高于其他方法。
ORL數(shù)據(jù)庫[11]中包含了400幅人臉圖像,這400幅圖像是來自于40個人的不同面部表情圖像。ORL庫中的圖像具有表情和輕微的姿態(tài)變化,是人臉識別算法驗證實驗中經(jīng)常使用的標準數(shù)據(jù)庫。對比實驗中將ORL庫中的圖像進行了預處理,實驗中將數(shù)據(jù)庫中的人臉圖像進行處理,圖像大小調(diào)整為44×36像素,圖3展示了部分實驗用圖。
表1 在FERET數(shù)據(jù)庫上的實驗對比結(jié)果
圖3 ORL庫中的部分人臉圖像數(shù)據(jù)
由表2可以看出,文中提出的IFS在維數(shù)僅為100時就具有較好的預測準確率。雖然其他方法也取得了較高的預測準確率,但是在維度選擇上IFS方法要明顯低于其他方法。
表2 在ORL數(shù)據(jù)庫上的實驗對比結(jié)果
CMU PIE數(shù)據(jù)庫[12]中包含了41 368幅人臉圖像,這些圖像是來自于68個人的不同面部表情圖像。CMU PIE數(shù)據(jù)庫中的圖像包括了在不同姿態(tài)、光照和表情的輕微改變,是生物認證研究領(lǐng)域非常重要的測試數(shù)據(jù)庫。文中采用文獻[13]的方法對數(shù)據(jù)進行預處理,每個樣本選取相同姿勢、相同表情和有差異性光照的21幅進行實驗,實驗前對這些圖像進行了預處理,將圖像大小調(diào)整為32×32像素,圖4展示了部分實驗用圖。
圖4 CMU PIE 庫中的部分人臉圖像數(shù)據(jù)
分析實驗結(jié)果可以看出,所有方法的實驗效果都很好,這是由于該數(shù)據(jù)庫中人臉圖像自身的問題,全部特征選擇方法的識別率均達到了90%以上,個別算法達到100%。但文中提出的特征選擇方法在選取維數(shù)相對較少時就取得了較好的實驗效果(見表3)。
表3 在CUMPIE數(shù)據(jù)庫上的實驗對比結(jié)果
擴展的YaleB庫[14]中共有38人的2 432幅人臉圖像,平均每個樣本約64幅圖像,擴展的YaleB庫中的圖像也包括面部表情差異和光照差異。實驗前對這些圖像進行了預處理,將圖像大小調(diào)整為32×32像素。圖5展示了部分實驗用圖。
圖5 擴展的YaleB庫中的部分人臉圖像數(shù)據(jù)
表4列出了不同方法的最高平均準確率,可以看到文中提出的特征選擇方法在維數(shù)相對較低時就具有最高的識別準確率。
表4 在擴展YaleB數(shù)據(jù)庫上的實驗對比結(jié)果
CASIA虹膜庫是由中國自主創(chuàng)建的用于生物識別驗證的數(shù)據(jù)庫,CASIA虹膜庫包含了108只眼睛的756幅虹膜圖像,圖6展示了部分實驗用圖。CASIA虹膜庫是生物認證領(lǐng)域應(yīng)用最廣泛的全公開數(shù)據(jù)庫,已有全球800多家科研機構(gòu)申請使用該數(shù)據(jù)庫,近些年CASIA虹膜庫已成為世界生物認證領(lǐng)域重要的數(shù)據(jù)支撐。對比實驗中采用文獻[15]中的數(shù)據(jù)處理方法對數(shù)據(jù)庫中的圖像進行了處理,提取了感興趣的區(qū)域來驗證實驗效果。
圖6 CASIA 庫中的部分人臉圖像數(shù)據(jù)
通過表5的實驗可以看出,所有方法在選取200維特征數(shù)據(jù)的前提下識別率都不是很高。出現(xiàn)這一情況的主要原因在于實驗前虹膜圖像的系列預處理,這些預處理操作包括了在圖像中定義感興趣區(qū)域、壓縮圖像比例等,數(shù)據(jù)維數(shù)變?yōu)榱嗽瓉淼?/75。由于數(shù)據(jù)預處理的效果較好,圖像中的噪聲數(shù)據(jù)和冗余數(shù)據(jù)已經(jīng)基本被去除,這使得其他方法出現(xiàn)過收斂現(xiàn)象。即使這樣文中方法與其他方法相比仍然取得了較好的實驗效果。
表5 在CASIA數(shù)據(jù)庫上的實驗對比結(jié)果
續(xù)表5
通過對比實驗可以看出,提出的基于特征子集與特征區(qū)分度的生物認證方法適用于不同類型的數(shù)據(jù)庫,并且在所有的對比實驗中都在較低維數(shù)下取得了非常好的預測準確率。但在實際應(yīng)用中還應(yīng)當針對不同的實際問題進行詳細分析。在該方法中特征權(quán)重的計算采用的是Fisher得分法,在今后的研究工作中應(yīng)該對特征選擇采用自適應(yīng)的評價算法,相信會進一步提高算法的預測效果。