林樹(shù)青 李蓉
摘 要: 支持向量機(jī)在處理樣本類(lèi)別不平衡時(shí),對(duì)樣本數(shù)量少的類(lèi)別,其分類(lèi)誤差大,針對(duì)這一問(wèn)題提出了一種多核心的加權(quán)向量機(jī)。將紙幣的RGB色彩空間轉(zhuǎn)換到Y(jié)IQ色彩空間,使用直方圖對(duì)樣本進(jìn)行特征的提取。在特征空間使用邊界區(qū)間處理分類(lèi)問(wèn)題,加入最小化小樣本誤識(shí)率的機(jī)制,使用一種改進(jìn)的加權(quán)支持向量機(jī)來(lái)識(shí)別樣本。對(duì)樣本的不同區(qū)域使用不同的核函數(shù)。實(shí)驗(yàn)表明本算法可行、可靠。
關(guān)鍵詞: 多核學(xué)習(xí); 加權(quán)支持向量機(jī); 紙幣識(shí)別; 懲罰因子; 加權(quán)值
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2013)02-34-04
Recognition of counterfeit money based on improved weighted support vector machines
Lin Shuqing, Li Rong
(ZengCheng college of South China Normal University, Guangzhou, Guangdong 511363, China)
Abstract: To deal with the unbalanced problem in classification, a multi-kernel Support Vector Machines is presented in this paper. RGB color space of note is transformed to the YIQ color space and the characteristics are extracted by using histogram. The classification problem is dealt with by using the boundary interval in eigen-space, and an improved weighted support vector machines are added to minimize the false alarm rate of the small sample. The different kernel functions are used in different regions of the sample. Simulation results show that this algorithm is feasible and reliable.
Key words: multi-kernel learning; weighted support vector machines; recognition of the paper money; penalty factors; weighted value
0 引言
紙幣的防偽技術(shù)是世界各國(guó)金融系統(tǒng)所面臨的十分重要又棘手問(wèn)題。目前主要依靠全息磁性安全線(xiàn)磁碼、紫外光、紅外投射檢偽。但在高端產(chǎn)品中僅靠以上技術(shù)識(shí)偽是不夠的,特別是現(xiàn)在很多是使用清分機(jī)對(duì)高仿紙幣的識(shí)別。因此國(guó)外很多學(xué)者不斷地研究探索智能識(shí)別系統(tǒng),如Takeda等人利用神經(jīng)網(wǎng)絡(luò)系統(tǒng)去分析、識(shí)別紙幣的特征信號(hào)[1,2];Omatu等人利用遺傳算法分析、識(shí)別紙幣的特征信號(hào)[3];He等人將紙幣切割成m×n個(gè)等分區(qū)域,使用GA算法進(jìn)行識(shí)別[4];近年來(lái)Jae-Kang等人[5]和Ahmadi等人[6]也進(jìn)行了相應(yīng)的研究。
本文使用多核心加權(quán)向量機(jī)來(lái)識(shí)別紙幣,將紙幣圖像分割成m×n個(gè)區(qū)域,然后使用改進(jìn)的加權(quán)向量機(jī)進(jìn)行識(shí)別。對(duì)每個(gè)區(qū)域構(gòu)建多核心的核矩陣。實(shí)驗(yàn)結(jié)果證明該算法的計(jì)算精確度高,魯棒性好。
1 特征提取
假鈔與真鈔的顏色對(duì)假幣識(shí)別用處不大,針對(duì)假鈔與真鈔在色度分布上的差異,我們將RGB色彩空間轉(zhuǎn)換到Y(jié)IQ色彩空間。其關(guān)系方程式為:
⑴
其中Y分量代表圖像的亮度信息,即圖像的灰度值(Gray value),人民幣圖像的每一個(gè)像素以一個(gè)位元組表示其Y值。
為了降低輸入樣本的維度,我們把樣本圖像轉(zhuǎn)換成直方圖。以百元人民幣為例。假幣使用編號(hào)HD90系列。由于取整張鈔票圖像來(lái)識(shí)別容易損失個(gè)別區(qū)域的不同圖像特征所反映在色度分布上的信息,于是我們將鈔票分割成m×n個(gè)區(qū)域,如圖1所示。
圖1 分割成3×2方式的百元真幣
再將每個(gè)區(qū)域轉(zhuǎn)換成Y值的直方圖作為特征。結(jié)果一張鈔票圖像分為m×n個(gè)256維度的樣本。分割后真、假人民幣的直方圖分別如圖2、圖3所示。
(a) (b)
(c) (d)
(e) (f)
圖2 切割成3×2方式百元真人民幣直方圖
(a) (b)
(c) (d)
(e) (f)
圖3 切割成3×2方式的百元假人民幣直方圖
2 加權(quán)支持向量機(jī)
2.1 C-SVM模型
C-SVM原始問(wèn)題的數(shù)學(xué)描述為:
⑵
ω是超平面的法向量,b是超平面偏值,C是懲罰參數(shù),為松弛變量。xi∈Xl為訓(xùn)練點(diǎn),yi∈{-1,1}為每個(gè)訓(xùn)練點(diǎn)的正確分類(lèi)。當(dāng)訓(xùn)練集為非線(xiàn)性時(shí),通過(guò)一個(gè)非線(xiàn)性映射φ(xi)把訓(xùn)練數(shù)據(jù)xi映射到一個(gè)高維線(xiàn)性特征空間。
利用Lagrange優(yōu)化方法可得到其對(duì)偶問(wèn)題:
⑶
⑷
ai為拉格朗日乘子。最優(yōu)化求解ai中,只有ai≠0所對(duì)應(yīng)的訓(xùn)練樣本稱(chēng)為支持向量。ai=C所對(duì)應(yīng)的xi稱(chēng)為邊界支持向量,實(shí)際上是錯(cuò)分的訓(xùn)練樣本點(diǎn)。分類(lèi)函數(shù)為:
⑸
用NBSV+、NBSV-分別表示正類(lèi)的邊界支持向量數(shù)、負(fù)類(lèi)的邊界支持向量數(shù),用NSV+、NSV-分別表示正類(lèi)總的支持向量數(shù)、負(fù)類(lèi)總的支持向量數(shù),用l+、l-分別表示正、負(fù)類(lèi)別樣本數(shù)目。
由約束式⑷通過(guò)變換[7]可得到:
⑹
其中:。
從上式可看出,如果兩類(lèi)別樣本數(shù)目不等,即l+≠l-,則對(duì)于樣本數(shù)目大的類(lèi)別,其錯(cuò)誤分類(lèi)率小,對(duì)樣本數(shù)目小的類(lèi)別,其錯(cuò)誤分類(lèi)率大。事實(shí)上我們?cè)谌嗣駧抛R(shí)別時(shí)真鈔的數(shù)量遠(yuǎn)遠(yuǎn)大于假鈔數(shù)量。因此,我們對(duì)C-SVM加以改進(jìn),使樣本數(shù)目小的類(lèi)別,其錯(cuò)誤分類(lèi)率小。
2.2 改進(jìn)的加權(quán)支持向量機(jī)
對(duì)于相同樣本,一種情況是將其中一張真鈔誤識(shí)為假鈔,其余都正確,另一種將其中一張假鈔誤識(shí)為真鈔,其余識(shí)別都正確,雖兩種情況的識(shí)別率相同,但造成的結(jié)果完全不同。
在一般情況下,學(xué)習(xí)機(jī)對(duì)所有的訓(xùn)練樣本是一視同仁的,最佳的超平面與正類(lèi)別及負(fù)類(lèi)別具有相同大小的邊界。我們重點(diǎn)考慮的不是把真鈔誤識(shí)為假鈔,而是把假鈔誤識(shí)為真鈔的問(wèn)題。希望能將假鈔被誤識(shí)為真鈔的可能性降至最小。
先把訓(xùn)練樣本的真鈔標(biāo)識(shí)為正類(lèi)別,假鈔標(biāo)識(shí)為負(fù)類(lèi)別。通過(guò)調(diào)高假鈔被分類(lèi)錯(cuò)誤是的懲罰值,讓最佳的超平面往正的類(lèi)別靠近,希望負(fù)類(lèi)別的區(qū)間大于正類(lèi)別的區(qū)間,降低假鈔被誤判為真鈔的機(jī)率。提出了一種改進(jìn)的加權(quán)向量機(jī):
⑺
其中:c為常數(shù),l+為真鈔的數(shù)量,l-為假鈔的數(shù)量,βi為對(duì)各樣本的加權(quán),滿(mǎn)足0≤βi≤1,對(duì)要舍去的樣本點(diǎn),其權(quán)值取接近為零的數(shù),而最重要的樣本點(diǎn),其權(quán)值取為1,這樣就可以克服算法對(duì)各類(lèi)別樣本數(shù)不均衡引起的缺陷。φ(xi)為樣本的特征映射函數(shù)。
在假鈔識(shí)別時(shí)l+>l-(遠(yuǎn)遠(yuǎn)大于),所以負(fù)類(lèi)別的懲罰參數(shù)大于正類(lèi)別。當(dāng)正負(fù)類(lèi)別的樣本數(shù)差異越大時(shí),樣本數(shù)少的類(lèi)別會(huì)受到更大的懲罰值。
其對(duì)偶問(wèn)題如下:
⑻
寫(xiě)成矩陣的表示方式:
⑼
其中,
G(K)=diag(y)Kdiag(y)是一個(gè)半正定矩陣。分類(lèi)判別函數(shù)為:
(10)
使用與C-SVM算法相同的分析方法,可得到下式:
(11)
在假幣識(shí)別時(shí),設(shè)真幣(正類(lèi))βi=β+,假幣(負(fù)類(lèi))βi=β-。則上面不等式可寫(xiě)成:
(12)
我們希望能將假鈔被誤識(shí)為真鈔的可能性降至最小,也就是要求將樣本數(shù)目小的類(lèi)別的錯(cuò)誤分類(lèi)率降至最低。因此我們令:,即:
(13)
這種方法以犧牲總樣本的精度為代價(jià)來(lái)提高小樣本類(lèi)的精度。在人民幣識(shí)別中,實(shí)際上當(dāng)使用驗(yàn)鈔機(jī)檢驗(yàn)錢(qián)時(shí)通常驗(yàn)鈔機(jī)檢測(cè)出問(wèn)題鈔票之后會(huì)由人工再進(jìn)行檢查。所以對(duì)最終的結(jié)果影響不大。
圖4顯示了當(dāng)正類(lèi)別樣本與負(fù)類(lèi)別樣本的數(shù)量比例為6:1時(shí)決策邊界的變化,由于我們的方法強(qiáng)調(diào)負(fù)類(lèi)別樣本的懲罰值,使得負(fù)類(lèi)別仍然可以保持較大的區(qū)間而不容易受到正類(lèi)別樣本數(shù)量增加的影響。但必須犧牲的是,正類(lèi)別樣本被錯(cuò)誤分類(lèi)的數(shù)量也可能會(huì)增加。
圖4 本文算法與C-SVM在樣本數(shù)量不同時(shí)決
3 核函數(shù)的選取
應(yīng)用SVM過(guò)程中所面臨的一個(gè)問(wèn)題是如何確定其分類(lèi)訓(xùn)練參數(shù)。使用不同類(lèi)型的核函數(shù)、不同的核函數(shù)參數(shù)、不同的誤差參數(shù)都會(huì)影響到最終的識(shí)別結(jié)果。核函數(shù)類(lèi)型的選取目前仍然依賴(lài)經(jīng)驗(yàn)。本文采用了一種多核方法[8,9]。
使用樣本來(lái)訓(xùn)練多核支持向量機(jī),鈔票圖像分割成m×n區(qū)域,每個(gè)區(qū)域的特征用來(lái)訓(xùn)練出一組核矩陣,其中每組核矩陣為M核矩陣的線(xiàn)性組合,個(gè)別的核矩陣是由對(duì)應(yīng)區(qū)域的圖像特征經(jīng)過(guò)不同的核心函數(shù)的內(nèi)積構(gòu)成。形式如下:
(14)
s.t. trace(K)=c=M×l, Ki?0, μj≥0
μ1,…,μM×m×n為每塊的權(quán)重,l為樣本數(shù)量。在半定規(guī)劃搜索最佳的μ1,…,μM×m×n組合,μ值越高的區(qū)域表示其用來(lái)識(shí)別真假的鑒別能力越高。因我們不知道哪個(gè)區(qū)域的鑒別能力較高,而不同區(qū)域的圖像特征分布情況也不一樣。所以每個(gè)區(qū)域塊給出M個(gè)核心函數(shù)。核心函數(shù)使用RBF函數(shù),表達(dá)式為k(xi,x)=。
4 實(shí)驗(yàn)結(jié)果與分析
為了驗(yàn)證本算法的可行性及優(yōu)越性,我們選用2005年版的百元幣,假幣選用市面上仿真度高的HD90系列。其中訓(xùn)練樣本為400張真幣及10張假幣。實(shí)驗(yàn)中取C=1。為了數(shù)據(jù)的準(zhǔn)確性,我們對(duì)每組實(shí)驗(yàn)進(jìn)行10次,結(jié)果取平均數(shù),F(xiàn)P為把假鈔識(shí)別為真鈔的數(shù)量,F(xiàn)N為把真鈔識(shí)別為假幣的數(shù)量。
我們定義識(shí)別率為:
(15)
其中:TP(truce positive)為真鈔被識(shí)別為真鈔的數(shù)量、TN(true negative)為假鈔被識(shí)為假鈔的數(shù)量、l+為真鈔的數(shù)量,l-為假鈔的數(shù)量。
表1是使用5個(gè)RBF核心的結(jié)果,σ-2分別為0.01,0.05,0.1,0.5,1。從表1可發(fā)現(xiàn)3×2的分割方式的效果比其他方式好,可以用來(lái)識(shí)別假幣。這時(shí)百元紙幣的核心函數(shù)的權(quán)重分布為μ1=0,μ2=0.020,μ3=0.119,μ4=0.304,μ5=0.105,μ6=0.452。
表1 切割方式與5個(gè)RBF核心結(jié)果
[分割方式\&標(biāo)準(zhǔn)svm\&本文算法\&準(zhǔn)確率\&FP;\&FN;\&時(shí)間\&準(zhǔn)確率\&FP;\&FN;\&時(shí)間\&2×2\&100\&0\&0\&12.045\&100\&0\&0\&10.815\&2×3\&82.258\&0\&54.5\&13.4344\&82.652\&0\&54.2\&12.622\&2×4\&85.862\&0\&36.8\&19.998\&86.564\&0\&42.6\&18.986\&2×8\&92.576\&1\&36.6\&26.6684\&93.546\&0\&19.5\&25.856\&3×2\&98.624\&0\&8.6\&12.04\&100\&0\&5.4\&11.028\&3×3\&97.546\&0\&26.4\&20.3744\&98.542\&0\&36.5\&19.562\&3×4\&90.526\&0\&21.3\&23.548\&89.523\&0\&36.4\&22.536\&3×8\&86.356\&2\&20.9\&28.3804\&96.387\&0\&27.2\&27.568\&4×2\&93.656\&0\&18.5\&19.794\&95.684\&0\&18.1\&18.782\&4×3\&90.582\&0\&19.2\&24.6444\&93.567\&0\&16.5\&23.832\&4×4\&88.567\&0\&20.2\&26.664\&86.579\&0\&15.2\&25.652\&4×8\&90.846\&3\&20.4\&54.2014\&83.872\&1\&14.6\&53.389\&8×2\&98.108\&0\&23.5\&27.177\&87.265\&0\&15.3\&26.165\&8×3\&89.258\&0\&16.2\&30.3304\&90.256\&0\&12.2\&29.518\&8×8\&92.457\&5\&18.2\&133.836\&93.584\&4\&13.4\&132.824\&]
5 結(jié)束語(yǔ)
紙幣的鑒別真?zhèn)蔚倪^(guò)程實(shí)質(zhì)上就是一個(gè)模式識(shí)別的過(guò)程,把這種模式識(shí)別的技術(shù)應(yīng)用到驗(yàn)鈔系統(tǒng)中,實(shí)驗(yàn)證明在一定程度上提高了鑒偽的準(zhǔn)確性。我們的目的是在軟件方面,通過(guò)研究建立—個(gè)鈔票實(shí)時(shí)處理系統(tǒng),由軟件算法中的相應(yīng)結(jié)論改善硬件設(shè)備的構(gòu)造,接下來(lái)的工作是研究怎樣與硬件設(shè)備結(jié)合使用。
參考文獻(xiàn):
[1] F.Takeda, T.Nishikage, and S.Omatu,Banknote recognition bymeans of optimized masks, neural network and genetic algorithms[J].engineering Applications of Artificial Intelligence,1999.12(2):175-184
[2] F. Takeda, S. Omatu, A neuro-money recognition using optimized masks by GA[J]. Lecture Notes in Computer Science,1995.1011:190-201
[3] F.Omatu,S.Systems,Man and CybernetiCS, A neuro—papercurrency recognition method USing optimized masks by genetiC algorithm Takeda[J].IEEE International Conference on,1995.5:4367-437l
[4] C.He, M.Girolami, and G.Ross, Employing Optimized Combinations of One-Class Classifiers for Automated Currency Validation[J].Pattern Recognition,2004.37(6): 1085-1096
[5] L.Jae-Kang, K.Il-Hwan, New recognition algorithm for various
kinds of Euro banknotes[C] //proceedings of the 29th Annual Conference of the IEEE Industrial Electronics Society, USA,2003.3:2266-2270
[6] A.Ahmadi, S.Omatu, M.Yoshioka, Implementing a reliableneuron-classifier for paper currency using PCA algorithm[C] //Proceedings of the 41st SICE Annual Conference of the Society of Instrument and Control Engineers, Japan,2002.4:2466-2468
[7] 劉爽,賈傳熒,陳鵬.一種自動(dòng)選擇參數(shù)的加權(quán)支持向量機(jī)算法[J].計(jì)算機(jī)工程與應(yīng)用,2006.42(2):64-66
[8] R. Tomioka, T. Suzuki, M. Sugiyama, Optimization algorithms forsparse regularization and multiple kernel learning and their applications to CV/PR[C] //IEICE Technical Report, Japanese,2009:43-48
[9] Mingqing Hu, Yiqiang Chen, James Tin-Yau, Building sparsemultiple-kernel SVM classifiers[J].IEEE Transactions on Neural Networks,2009.20(5):827-839