林克正++鐘巖++程衛(wèi)月
摘要:針對已有的局部保留投影(locality preserving projections,LPP)算法可能將相似的類別誤投影到一起,導致正確識別率降低的問題.在局部保留投影算法的基礎上,提出了一種基于代價敏感學習的稀疏局部保留投影算法(cost-sensitive sparse locality preserving projections,CSLPP).該算法將代價敏感學習引入到人臉識別中,首先對樣本進行代價敏感思考,然后再將樣本稀疏化,最后求得最優(yōu)投影向量.通過在YALE人臉庫和FERET人臉庫上實驗,結果表明CSLPP算法在投影之前將代價考慮進去,有效的避免了高風險,該算法在最近鄰分類器上的的識別率明顯高出其它算法的識別率.
關鍵詞:局部保留投影;人臉識別;代價敏感;稀疏化
DOI: 10.15938/j.jhust.2015.03.009
中圖分類號:TP391.4
文獻標志碼:A
文章編號:1007-2683(2015)03-0045-06
O 引 言
在自動化智能化程度日益提高、通訊高度發(fā)達的信息社會里,信息安全受到了空前的重視,身份識別已經成為人們日常生活中不可或缺的重要手段.隨著信息安全技術的迅速發(fā)展,生物特征識別中的人臉識別技術漸漸取代了傳統(tǒng)的身份識別技術,人臉識別因其方式友好并且最接近人類視覺認知同時采集十分方便而受到廣泛的關注,近幾年,人臉識別是生物特征識別技術領域比較熱的研究課題.
在過去的一段時間,稀疏編碼技術已經在信號處理、圖像識別等領域得到廣泛的應用.稀疏表示可以用較少的數據來充分表示出圖像的重要信息,結合LPP,一種新的線性降維方法——稀疏保留投影(sparse preserving projections,SPP)算法被提出來,人臉識別的魯棒性問題也已經被該算法很好地解決.
近年來,代價敏感學習方法成為機器學習和模式識別領域的一個研究熱點.其主要考慮在分類中,當不同的分類錯誤會導致不同的懲罰力度時如何訓練分類器.在實際現實中,不同的錯誤分類往往會帶來不同的錯分損失.例如基于人臉識別的門禁系統(tǒng),將入侵者錯分成合法者的損失要大于將合法者錯分成入侵者的損失,而將合法者錯分成入侵者的損失又要大于將合法者錯分成其他合法者的損失,因此,代價敏感學習更應該應用到人臉識別中,
因此,本文在稀疏保持投影( sparse preservingprojections,SPP)的基礎上,提出了代價敏感學習的稀疏局部保留投影(cost - sensitive sparse localitypreserving projections,CSLPP)算法.這種方法不但繼承了局部保持的含義——使那些原本離目標樣本近的樣本在投影后還是保持離目標樣本較近,而且對樣本進行代價敏感思考,有效的避免高風險.將該算法應用到人臉識別領域,有較好的表現.
1 代價敏感學習算法
常用的代價敏感學習方法主要有3類:
第一類,構造一個代價敏感的學習模型,包括決策樹、Boosting、神經網絡、代價敏感的支持向量機分類算法等,
第二類,按照傳統(tǒng)的學習方法進行學習,然后對其分類,結果利用貝葉斯理論進行調整,減少損失.
第三類,學習原始的數據,通過學習,改變原始的樣本分布,得到新的代價敏感模型.
給定數據集 表示第i類樣本的總數,數據集D是均衡的當且僅當 ,否則稱D為不均衡的.
代價(cost)是指某一事情的完成結果對這個事情所引起的風險,假設有c類樣本,將第i類樣本劃分正確的可能性為1%,劃分成第c類的可能性為99%.所以將第i類樣本錯誤分類為第c類的可能性要大許多,或者將第c類樣本錯分成第i類樣本的可能性要小許多,但是這兩種情況的代價是不同的,為了降低風險,我們在分類時需要將代價考慮進去,代價敏感學習能有效地提高稀有類的識別率,很多時候,稀有類是識別的重點,正確識別出稀有類樣本更有價值.
將表1中的數學符號做如下說明,設:
1)觀察x是d維隨機向量 ,其中 為一維隨機變量.
2)c個自然狀態(tài)組成了狀態(tài)空間,狀態(tài)空間由c個 組成.
3)a個決策 組成了決策空間,這里a和c不同,是由于除了對c個類別有c種不同的決策外,還允許采取其他決策,如采取“拒絕”的決策時,這時就有a=c+1.
4)損失函數為 表示當真實狀態(tài)為 而采取的決策為 時所帶來的損失.
2基于代價敏感學習的稀疏局部保留投影
2.1理論基礎
局部保留投影算法和稀疏保留投影算法僅僅是追求最低的識別錯誤率,因此這兩種算法在對樣本進行分類的過程中都假設了錯分代價是相同的,然而這種假設應用到人臉識別中往往是不成立的,人臉識別是一種代價敏感問題.
相比于LPP算法,SPP通過稀疏重構處理,不僅兼顧了樣本的全局和局部屬性,并且保留了樣本的稀疏重構關系,能夠獲得相對穩(wěn)定的投影,SPP算法是一種無監(jiān)督的方法.
SPP算法尋找最優(yōu)的投影向量,使原始圖像在投影向量上的投影與稀疏重構后樣本在向量上的投影的差值最小.假設樣本集 ,其中xi是已經對原始圖像進行過列向量化的,首先將二維圖像轉化為一維圖像,然后對轉化后的一維向量列向量化,就得到了 ,對某個訓練樣本,利用剩余樣本對其稀疏表示, ,求得稀疏表示稀疏si,其最優(yōu)投影方向w計算如下:
記 為n維的單位向量且第i個元素為1,其余為0,則式(2)等效為:
則式(1)可以優(yōu)化成如下問題:
為方便起見將式(3)轉化成求最大投影向量的問題:
其中 對式(4)應用拉格朗日算法求解,式(4)可以轉化為:
最后所求的SPP的最優(yōu)投影向量 的d個最大特征值所對應的特征向量,所以SPP首先通過構建稀疏權值矩陣s,再計算投影矩陣w,SPP在實際中很容易使用,因此也為基于代價敏感學習的稀疏局部保留投影算法提供了基礎.
2.2算法的設計
CSLPP是在SPP的基礎上提出來的,SPP通過稀疏重構處理,保持了樣本的內在局部信息,CSLPP繼承了SPP算法的優(yōu)點,又將樣本進行代價敏感思考,所以,可以有效的避免高風險. 存在數據集 是此樣本集中的第i個樣本,將xi稀疏重構之后得到樣本集 ,其中, 的定義如下:
將SPP的目標函數進行優(yōu)化,得到CSLLPP的目標函數:
其中A表示稀疏系數:
其中: 表示把第i類樣本誤分為第J類樣本的代價;I為樣本所含類別總數;N為訓練集中樣本的總數; 為類別 中的樣本總數; 。為規(guī)范化因子,用來保證修改后的樣本權重總和仍然等于N; 為最優(yōu)投影方向;x為訓練樣本集.S是無監(jiān)督的近鄰圖,其表示如下:
Sij和兩近鄰樣本的距離變化圖為圖1,Sij的數值由小變大,表示在近鄰樣本中,當兩者的距離較近時,稀疏較大,當兩者的距離較遠時,稀疏較小.
代價敏感學習主要考慮將樣本錯誤分類時需要付出的代價,為了表示分類的不平衡問題,先用一個代價矩陣來表示,表2是兩類代價矩陣表:
根據代價矩陣的定義, .可得:
D為對角陣, 是Laplacian矩陣 是來衡量Yi重要性, 越大相對應的Yi越重要,填加式子(11)作為約束條件:
問題轉化為式(12)此最小化問題可以轉化為求解如下特征方程的特征值問題,式(13)最小解即為最小特征值相應的特征向量:
CSLPP算法的設計流程圖如圖2:
3 實驗結果與分析
3.1不同分類器的識別結果
本實驗選擇在模糊k近鄰分類器、神經網絡與貝葉斯分類器、最近鄰分類器、支持向量機分類器4種分類器下,對4種算法的識別率進行了比較,圖3為將樣本代價敏感稀疏表示后樣本標簽和稀疏系數之間的關系.
為了尋找最優(yōu)分類器,觀察表4、表5、表6、表7,可以發(fā)現YALE人臉庫的識別率普遍比FERET人臉庫的識別率高,原因是YALE人臉庫的圖片比FERET人臉庫的圖片簡單.在識別率方面,CSLPP算法的識別率最高,LPP、SPP、概率距離判據的特征提取算法和歐式測量的特征提取算法的識別率偏低.其中LPP只考慮樣本的局部,忽略了一些全局的特征,同樣的,SPP算法考慮的是全局特征,忽略了局部的一些局部的特征,相同實驗設置下,CSLPP算法的識別率更高一些,由下面4個表可以看出,各種算法在使用最近鄰分類器的情況下識別效果最好,
3.2不同人臉庫的實驗
根據3.1的實驗結果,在接下來的實驗中選擇最近鄰分類器.圖4為5種特征提取方法在FE-RET人臉庫上,不同維數的情況下的識別效果,圖4中a代表代價敏感學習的稀疏局部保留投影b表示稀疏局部保留算法c表示局部保留投影算法,圖4中d表示按概率距離判據的特征提取算法的識別效果,e表示按歐式測量的特征提取的識別效果.
圖5為5種特征提取算法在YALE人臉庫上的識別效果.圖6為5種特征提取算法在JAFFE人臉庫上的識別效果.圖中橫坐標表示特征維數,縱坐標表示識別率,兩個人臉庫下由圖可以看出,本文所提出的代價敏感學習的局部保留投影的識別率比其他4種特征提取算法平均高出15%,并且在YALE和FERET人臉庫上最高識別率已經超過95%,大約可以到達98%上下,在JAFFE表情庫上也比其它3種算法高出10%左右的識別率,這些數據表明代價敏感學習是值得與人臉識別技術聯(lián)系在一起的.
由于YALE人臉庫的圖片較少,接下來的實驗的可行性比較高,考慮在YALE人臉庫中,不同訓練樣本集下,各算法的識別性能,采用隨機選擇訓練樣本,每一個類隨機地選擇Z個樣本作為訓練樣本,剩余(II—l)個為測試樣本,獨立地訓練10次,求取平均識別率.m為特征維數,設置近鄰數k=2.表8中a、b、c、d、e分別代表5種算法,表8表示在選取不同個數訓練樣本集的情況下,各算法的最高識別率及相應的特征維數的比較.可以看出隨著樣本數的不斷增加,同時各算法的識別率也在增加,不難發(fā)現,樣本數量越多越有利于分類,并且算法a的優(yōu)勢十分明顯.
從以上的實驗數據可以看出,CSLPP算法在YALE人臉庫和FERET人臉庫上,比較與其他4種算法,有著不可超越的高識別率,
4 結 語
本文提出了一種新的特征提取算法——代價敏感學習的稀疏局部保留投影(CSLPP)算法.CSLPP算法引入了代價敏感學習,使其一方面保持了樣本稀疏重構后的全局和局部屬性,另一方面,該算法將錯分代價融入SPP模型中,使算法滿足錯分代價最小化準則,降低了樣本的錯分風險.同時,該算法在維數較低的情況下就有著與其他算法相比較高的識別率.在YALE和FERET人臉數據庫上的試驗結果表明了CSLPP算法的可行性和有效性,