衛(wèi)小強(qiáng)
摘要:該文研究了小樣本統(tǒng)計(jì)學(xué)習(xí)在生物識(shí)別中的數(shù)學(xué)模型估計(jì)問(wèn)題,并探討了先驗(yàn)風(fēng)險(xiǎn)優(yōu)化替代實(shí)際風(fēng)險(xiǎn)優(yōu)化的可行性以及機(jī)器學(xué)習(xí)的深度與廣度的矛盾性,最后在小樣本采集,識(shí)別,建立樣本數(shù)據(jù)庫(kù)等方面進(jìn)行了分析研究。
關(guān)鍵詞:統(tǒng)計(jì)學(xué)習(xí);學(xué)習(xí)深度;SVM;小樣本采樣
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)18-0178-02
人臉的識(shí)別與重建是一個(gè)系統(tǒng)辨識(shí)的課題。人臉特征是維度非常高的復(fù)雜特征模式,即使通過(guò)PCA處理,相應(yīng)維數(shù)也多至40-60維,但這些特點(diǎn)使得在實(shí)踐中去采集相當(dāng)數(shù)量的人臉圖像是不可行的,所以人臉?lè)诸愹?yàn)證是一個(gè)小樣本統(tǒng)計(jì)學(xué)習(xí)問(wèn)題。樣本之間的聚類,辨別及驗(yàn)證實(shí)質(zhì)上是樣本間的分界面數(shù)學(xué)模型的選擇問(wèn)題。人臉的特征提取過(guò)程中不僅維度高,還受到如膚色,頭發(fā),陽(yáng)光,環(huán)境,眼鏡,帽子等諸多因素的影響。這些因素使得建模很難實(shí)現(xiàn),求解也過(guò)于復(fù)雜,是以統(tǒng)計(jì)學(xué)習(xí)法成為新興的有效可行手段。然而經(jīng)典統(tǒng)計(jì)分析理論大多構(gòu)建于大樣本條件下,大樣本的一致性,無(wú)偏性等理論是統(tǒng)計(jì)分析的前提和基礎(chǔ)。另一方面如神經(jīng)網(wǎng)絡(luò),遺傳算法等新興智能學(xué)習(xí)方法在系統(tǒng)辨識(shí)方面有選擇網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),局部最優(yōu),過(guò)學(xué)習(xí)與欠學(xué)習(xí)等弊端。所以有限小樣本的機(jī)器學(xué)習(xí)理論即統(tǒng)計(jì)學(xué)習(xí)理論在現(xiàn)實(shí)中有著無(wú)可比擬的優(yōu)勢(shì)。
1統(tǒng)計(jì)學(xué)習(xí)問(wèn)題的實(shí)質(zhì)即函數(shù)模型構(gòu)成
3學(xué)習(xí)深度與適應(yīng)性的矛盾
人工神經(jīng)網(wǎng)絡(luò)研究中,為追求Remp(a)的最小,通過(guò)多次迭代使誤差變小,在某些情況下,由此帶來(lái)人工學(xué)習(xí)機(jī)器對(duì)未來(lái)輸出進(jìn)行正確預(yù)測(cè)能力的柔性下降,即適用的場(chǎng)合范圍下降即過(guò)學(xué)習(xí)的問(wèn)題。因此在實(shí)際應(yīng)用中出現(xiàn)使用的分類器相對(duì)比較簡(jiǎn)單如線性分類器,卻比神經(jīng)網(wǎng)絡(luò)分類器適用性更廣。
之所以出現(xiàn)過(guò)學(xué)習(xí)原因:一是因?yàn)閷W(xué)習(xí)樣本畢竟有限而非全面,提取樣本時(shí)不具同一性。二是學(xué)習(xí)機(jī)器總體設(shè)計(jì)不完備。兩者有關(guān)聯(lián),但首要原因是主要矛盾方面。試圖用一個(gè)復(fù)雜模型去擬合有限不具有獨(dú)立同一性的樣本,結(jié)果反而喪失其應(yīng)當(dāng)具備的適應(yīng)性或可移植性。如神經(jīng)網(wǎng)絡(luò)中對(duì)于有限樣本,其網(wǎng)絡(luò)學(xué)習(xí)能力過(guò)強(qiáng),在此基礎(chǔ)上經(jīng)驗(yàn)風(fēng)險(xiǎn)很小幾乎收斂為零。但對(duì)一些未出現(xiàn)的新的同類樣本,該網(wǎng)絡(luò)則出現(xiàn)拒絕而非合并的結(jié)果。從而形成了學(xué)習(xí)深刻性與模型適用性之間的柔性矛盾。由此可得出下面的結(jié)論:(1)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小并不總是與期望風(fēng)險(xiǎn)最小具有一致性。(2)學(xué)習(xí)機(jī)器的深度不但與所構(gòu)建的系統(tǒng)相關(guān),而且與有限的學(xué)習(xí)樣本獲得密切相關(guān)。因此我們研究了相應(yīng)彌補(bǔ)方法,如訓(xùn)練中對(duì)學(xué)習(xí)函數(shù)矩陣復(fù)雜性進(jìn)行修正,或通過(guò)交叉驗(yàn)證等進(jìn)行模式選擇以控制復(fù)雜度等。但以上方法終究只是相應(yīng)對(duì)矛盾進(jìn)行調(diào)整或緩解,真正需要修正的是對(duì)有限樣本進(jìn)行科學(xué)及合理的采集和選擇。
4小樣本統(tǒng)計(jì)學(xué)習(xí)的生物識(shí)別抽樣分類
小樣本統(tǒng)計(jì)學(xué)習(xí)的訓(xùn)練原則,首先使用一個(gè)人臉典型樣本集合A來(lái)訓(xùn)練SVM,接著應(yīng)確保該SVM對(duì)所有的訓(xùn)練樣本完全分類正確即學(xué)習(xí)修正過(guò)程,接著使用修正過(guò)的SVM來(lái)驗(yàn)證人臉。對(duì)于驗(yàn)證失敗樣本,將其在充實(shí)到人臉樣本集A中,再進(jìn)行SVM迭代訓(xùn)練。通過(guò)學(xué)習(xí)→錯(cuò)誤修正→樣本集整合→再學(xué)習(xí)的迭代運(yùn)算,以提高改善SVM性能并且更需要保持所獲樣本的普遍性和典型性。但不管如何選取樣本圖像以及選取的圖像范圍有多廣泛,都無(wú)法保證所選的樣本圖像有足夠典型性和普遍性,也不能夠保證所選的圖像樣本涵蓋了全部樣本范圍。這一點(diǎn)在非人臉樣本的選取中已得到證實(shí)。是以選取盡可能多的人臉圖像,使人臉樣本分布盡可能遍布整個(gè)范圍。在整個(gè)圖像空間之中所有人臉樣本為其中一子空間集合,這個(gè)子空間要小得多且易聚類。與其說(shuō)盡可能多的人臉樣本,不如盡可能拓寬該子空間的外圍分界面函數(shù),這些間接可改善分類器性能,但受實(shí)際條件限制。人臉樣本圖像獲取數(shù)量也是有限的,另一方面人臉樣本和非人臉樣本具有復(fù)雜多樣性,無(wú)法一開始就搜集到足夠多并且足夠普遍的樣本,并且訓(xùn)練樣本集的選擇也缺乏合理正確理論指導(dǎo),實(shí)際上還沒(méi)有相應(yīng)理論來(lái)指導(dǎo)選擇訓(xùn)練樣本,也沒(méi)有給出明確相關(guān)參數(shù),用來(lái)度量訓(xùn)練樣本集普遍性和典型性。正是由于系統(tǒng)性能受到訓(xùn)練樣本的極大制約,甚至可以說(shuō)缺乏樣本選擇理論的指導(dǎo),已經(jīng)成為限制系統(tǒng)性能的一個(gè)瓶頸。針對(duì)于此可采用一種再學(xué)習(xí)機(jī)制解決這一問(wèn)題促使系統(tǒng)的性能得以完善。
所謂再學(xué)習(xí)機(jī)制,是指人臉驗(yàn)證系統(tǒng)首先具有一定人臉先驗(yàn)知識(shí),即在人臉驗(yàn)證中如存在錯(cuò)分現(xiàn)象則將這一新的錯(cuò)分樣本賦于較大訓(xùn)練權(quán)值并添加到樣本系統(tǒng),另一方面若出現(xiàn)新的未知人臉將其處理歸類添加入數(shù)據(jù)庫(kù),接著再對(duì)人臉驗(yàn)證系統(tǒng)進(jìn)行再學(xué)習(xí),來(lái)調(diào)整網(wǎng)絡(luò)的支撐向量和相關(guān)權(quán)值,從而使其對(duì)新的添加樣本具有新的適應(yīng)性。正是通過(guò)這樣的過(guò)程對(duì)于一個(gè)初始的,具有不完整的樣本庫(kù)的系統(tǒng),經(jīng)過(guò)不斷再學(xué)習(xí)循環(huán),再添加再擴(kuò)充的過(guò)程,可使得該系統(tǒng)不斷的完善修正。
樣本庫(kù)中的每個(gè)人包含多幅圖像既有不同的偏移角度又有不同表情,如每個(gè)人臉共20幅圖像,選其16幅圖像作為訓(xùn)練樣本,剩余4幅作為測(cè)試圖像,通過(guò)獨(dú)立同分布的選取,要使得訓(xùn)練樣本和測(cè)試樣本同時(shí)具備較大的差異性或典型性,也要使樣本盡可能具有普遍性。是以訓(xùn)練圖像分別為免冠正面,各種偏轉(zhuǎn)角度,而且表情各異。測(cè)試樣本可選正面,左偏20度,上偏5度或下偏5度,帶說(shuō)話表情變化。
為保持系統(tǒng)有高辨識(shí)精度的要求,且保證系統(tǒng)實(shí)時(shí)性。我們不是對(duì)每個(gè)人所有樣本進(jìn)行主成份分析,而是以人臉樣本的共性聚類特征為依據(jù),以人體測(cè)量學(xué)生物識(shí)別的分類方法為基礎(chǔ),選取形態(tài)面指數(shù)和顴下頜寬指數(shù)這兩個(gè)面型參數(shù)作為臉型的一級(jí)粗分類,需檢測(cè)測(cè)點(diǎn)包括鼻根點(diǎn),左右顴點(diǎn),左右下頜角點(diǎn)及頦下點(diǎn),進(jìn)而得到面寬,下頜間寬,形態(tài)面高這三個(gè)測(cè)量數(shù)據(jù)。在實(shí)際中人臉可能會(huì)發(fā)生各種角度偏轉(zhuǎn),這會(huì)產(chǎn)生相應(yīng)的測(cè)量誤差。為了避免此類平面內(nèi)旋轉(zhuǎn),通常采用兩點(diǎn)間歐氏距離取代水平或垂直距離已達(dá)到幾何不變性。
形態(tài)面指數(shù)=(形態(tài)面高/面寬)*100%
顴下頜寬指數(shù)=(下頜間寬/面寬)*100% (5)
其中,形態(tài)面指數(shù)用來(lái)區(qū)分大致的臉型特征。指數(shù)越大則面部越瘦長(zhǎng),反之面部寬短;而顴下頜寬指數(shù)用來(lái)區(qū)分面部輪廓,即可按參照值大小分為方下巴,橢圓下巴,尖下巴等。通過(guò)上述計(jì)算可將人臉大致分為圓型,橢圓型,方型,三角型或其他臉型5個(gè)大的一級(jí)子類。在對(duì)每一個(gè)一級(jí)子類通過(guò)相應(yīng)特征等間隔細(xì)分類分成若干第二級(jí)子類。任一級(jí)子類都要對(duì)其進(jìn)行PCA分析,以至到第N級(jí)子類。以保證每個(gè)人臉都可通過(guò)一系列相應(yīng)特征臉的投映特征來(lái)表征,將人臉對(duì)應(yīng)的相應(yīng)n維向量作為訓(xùn)練樣本,來(lái)對(duì)多個(gè)支撐向量基組成的矩陣進(jìn)行訓(xùn)練,這些訓(xùn)練矩陣可實(shí)現(xiàn)對(duì)人臉的準(zhǔn)確實(shí)時(shí)歸類。
當(dāng)進(jìn)行人臉圖像識(shí)別時(shí),先將測(cè)試樣本與第一級(jí)子類進(jìn)行歐氏距離閾值自適應(yīng)歸類,自動(dòng)歸入距離最小的一類,并確定相應(yīng)類別。以此類推,再對(duì)第二級(jí)以至到第n集的子類進(jìn)行閾值自適應(yīng)歸類。當(dāng)?shù)搅说趎級(jí)的子類中每一個(gè)人臉特征數(shù)據(jù),在閾值之內(nèi)就可確認(rèn)進(jìn)行了適當(dāng)分類,即測(cè)試獲的樣本數(shù)據(jù)若為數(shù)據(jù)庫(kù)已存在的人臉數(shù)據(jù),若無(wú)相關(guān)人臉數(shù)據(jù),則確定為新的人臉數(shù)據(jù),在其計(jì)算數(shù)據(jù)最接近的子類,歸入該類成為數(shù)據(jù)庫(kù)新的人臉數(shù)據(jù)。
5結(jié)束語(yǔ)
該文深入探討了統(tǒng)計(jì)學(xué)習(xí)理論在人臉識(shí)別中的可行性,從采樣學(xué)理論上合理地解決廣義上樣本的無(wú)窮性與實(shí)際樣本的有限性之間的矛盾,在闡述樣本采樣的重要性的基礎(chǔ)上,論述了一些科學(xué)采樣的方式與方法,對(duì)人臉檢測(cè)定位和識(shí)別以及為今后收集樣本保證樣本的普遍性和典型性提供了依據(jù)。endprint