張桐瑞 劉俊男
摘 要 支持向量機(jī)(Support Vector Machine, SVM)是Vapnik教授等人在根據(jù)多年研究統(tǒng)計學(xué)理論基礎(chǔ)上提出的一種基于統(tǒng)計學(xué)原理的VC維理論和結(jié)構(gòu)風(fēng)險最小化理論用以解決線性不可分這樣的分類問題的理論的機(jī)器學(xué)習(xí)方法,對于高維度、非線性、低樣本量訓(xùn)練集的特征空間具有很好的泛化性能。醫(yī)學(xué)圖像特征提取和分割是圖像處理在醫(yī)學(xué)圖像領(lǐng)域兩個重要的課題:本文基于二分類支持向量機(jī)原理建立多分類支持向量機(jī)模型,應(yīng)用于生物眼部瞳孔、晶狀體及眼白等不同眼部結(jié)構(gòu)的特征提取,并對實驗結(jié)果進(jìn)行分析。本文建立的數(shù)學(xué)模型和提出的實驗方法能夠為臨床實驗提供思路。
關(guān)鍵詞 醫(yī)學(xué)特征提取 眼部結(jié)構(gòu) 圖像處理 機(jī)器學(xué)習(xí) 二分類支持向量機(jī) 多分類支持向量機(jī)
中圖分類號:TP391文獻(xiàn)標(biāo)識碼:A
1支持向量機(jī)概述
支持向量機(jī)理論最初用來解決處理數(shù)據(jù)的分類問題,因此SVM的基本思想是根據(jù)訓(xùn)練集運算出一個滿足要求的分割平面,使此平面兩側(cè)的分類點間隔盡可能最大。后來,把尋找最優(yōu)分類平面等效為求解一個凸規(guī)劃問題:基于Mercer核定理進(jìn)行展開,并通過構(gòu)造一個非線性映射,把不可分的非線性樣本空間映射到一個高維乃至無窮維的特征空間,使之在新特征空間中可以使用線性理論方法解決原始樣本空間中高維非線性分類和回歸等問題。
SVM分類器是一種基于嚴(yán)格的理論推導(dǎo)的機(jī)器學(xué)習(xí)的方法,它已經(jīng)成為計算機(jī)學(xué)習(xí)、模式識別、智能計算、預(yù)測預(yù)報等領(lǐng)域的熱點應(yīng)用,在國內(nèi)外受到廣泛關(guān)注。
2支持向量機(jī)函數(shù)模型
支持向量機(jī)的模型主要由兩部分組成:SVM訓(xùn)練過程和SVM分類過程。相比而言,二者之間更重要的是訓(xùn)練過程,其不同的參數(shù)輸入直接決定了最終生成的支持向量機(jī)的精度與性能。
2.1訓(xùn)練函數(shù)模型
模型的訓(xùn)練所依據(jù)的是二分類支持向量機(jī)的變形。
(1)已知訓(xùn)練集:,,,為特征向量。
(2)選取適當(dāng)?shù)暮撕瘮?shù)和適當(dāng)?shù)膮?shù),構(gòu)造并求解最優(yōu)化問題:
上式是一個二次規(guī)劃問題,根據(jù)輸入?yún)?shù)的不同可以使用不同的求解方法。通常采用二次規(guī)劃(Quadratic Programming)、序列最小化最優(yōu)化(Sequential Minimal Optimization)、最小二乘法(Least-Squares)。
由上得到最優(yōu)解。
(3)選取的一個正分量,并根據(jù)此計算閾值:。
(4)構(gòu)造決策函數(shù):。
2.2核函數(shù)的選取
關(guān)于核函數(shù)的選取,可以分為現(xiàn)有核函數(shù)和推導(dǎo)核函數(shù)兩類?,F(xiàn)有的核函數(shù)有線性核函數(shù)(Linear kernel)、二次核函數(shù)(Quadratic kernel)、高斯徑向基核函數(shù)(RBF kernel)、多項式核函數(shù)(Polynomial kernel)和多層感知器核函數(shù)(Multilayer Perceptron kernel)。
在本文的驗證過程,使用的是二次多項式核函數(shù),具體形式為:。根據(jù)不同領(lǐng)域的特性,也可以實用自定義的核函數(shù)完成特定的任務(wù)。
3多分類支持向量機(jī)
直接應(yīng)用上面的兩分類支持向量機(jī)只能解決兩分類問題,現(xiàn)實中面臨的很多問題都是多分類問題,這時為了解決多分類問題就需要構(gòu)造一些列兩分類支持向量機(jī)。
本節(jié)介紹構(gòu)造多分類支持向量機(jī)的方法:設(shè)已知訓(xùn)練集,,其中,,。
首先對所有的進(jìn)行下列運算:
(1)基于這些樣本點組成一個訓(xùn)練集。
(2)用求解兩分類問題的支持向量機(jī)求得實函數(shù)和判定屬于第類和第類的分類機(jī):
然后在需要對給定的一個測試輸入推斷它屬于的第幾類時,考慮上述所有的分類機(jī)對所屬類別的意見:一個分類機(jī)判定屬于第類就意味著第類獲得一票。得票數(shù)最多的類別就是最終判定所屬的類別。
另外一種方法是一類對余類構(gòu)造支持向量機(jī)的方法:對于訓(xùn)練集,在訓(xùn)練支持向量機(jī)時,可以將所有相等的歸為一類,剩下的歸為一類,這樣訓(xùn)練好的支持向量機(jī)就可以識別類了。按照上述的方法一共可以構(gòu)造個支持向量機(jī),其中每個支持向量機(jī)負(fù)責(zé)識別相應(yīng)的第類。
4實驗與分析
實驗分析主要過程:用設(shè)計的多分類器對隨機(jī)產(chǎn)生的4類數(shù)據(jù)進(jìn)行分類的效果測試。測試數(shù)據(jù)集的數(shù)據(jù)量從30個數(shù)據(jù)增長到900個數(shù)據(jù)。實驗結(jié)果表明:在測試數(shù)據(jù)集數(shù)據(jù)量很大的情況下,核函數(shù)的選擇尤為重要。本實驗的經(jīng)過大量實驗數(shù)據(jù)測試對比,在同等條件下,控制變量使核函數(shù)變化,徑向基核函數(shù)(RBF)分類效果明顯優(yōu)于線性核函數(shù),更優(yōu)于d階多項式核函數(shù)、Sigmoid核函數(shù),因此在本文中主要徑向基核函數(shù)。
900個數(shù)據(jù)樣本情況下,設(shè)計的分類器分類效果良好。但是,對于訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)量較少的情況小,需要驗證其訓(xùn)練結(jié)果是否能代替模型完整的樣本集,因此需要將所設(shè)計的分類器進(jìn)行回歸效果測試。根據(jù)測試結(jié)果得出以下結(jié)論:在小樣本情況下,SVM分類器可以很好進(jìn)行預(yù)測,也即使用小樣本數(shù)據(jù)訓(xùn)練的效果接近于完整數(shù)據(jù)樣本訓(xùn)練的效;且對比于訓(xùn)練速度近似的BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),預(yù)測結(jié)果好于BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。SVM分類器的均方誤差和均方誤差相關(guān)系數(shù)為:0.0032052和0.98815;BP結(jié)果分類器的均方誤差和均方誤差相關(guān)系數(shù)為0.01495和0.94217。
然后對部分人眼部模型進(jìn)行晶狀體特征提取的效果驗證:
根據(jù)眼部模型A建立分類器的訓(xùn)練數(shù)據(jù)集對分類器進(jìn)行訓(xùn)練,然后將眼部模型A載入訓(xùn)練數(shù)據(jù)集訓(xùn)練的分類器,觀察效果:
由上圖可知,除晶狀體以外,部分背景仍有殘留。對訓(xùn)練數(shù)據(jù)集進(jìn)行補(bǔ)充,再次訓(xùn)練分類器,多次對訓(xùn)練數(shù)據(jù)集進(jìn)行補(bǔ)充。
進(jìn)行四次反復(fù)訓(xùn)練與測試之后,就可得到對模型A晶狀體區(qū)域提取效果較好的分類器。接下來將此分類器對模型B進(jìn)行測試驗證。
將模型B載入分類器,第一次提取效果如下圖所示,同樣將模型B部分背景數(shù)據(jù)補(bǔ)充到訓(xùn)練數(shù)據(jù)集中,最后得出效果良好的分類器。將根據(jù)模型A、B訓(xùn)練的分類器對不同模型進(jìn)行測試驗證,如下圖所示:
由以上測試結(jié)果可以看出:
模型A建立的測試數(shù)據(jù)集可以視為小樣本情況,根據(jù)小樣本數(shù)據(jù)訓(xùn)練的分類器對模型A進(jìn)行晶狀體特征提取,效果良好。對于模型B的晶狀體特征提取有部分區(qū)域沒有被剔除,因此補(bǔ)充部分?jǐn)?shù)據(jù)對B模型進(jìn)行測試,同樣得到滿意的效果。使用訓(xùn)練好的分類器提取其余模型,均得到效果良好的提取效果。因此,隨著訓(xùn)練樣本的增加,對不同角度,不同類型的晶狀體同樣會有令人滿意的效果。
5結(jié)論
經(jīng)過試驗得知,基于SVM建立的多分類器效果分類效果明顯,而且通過對比得出使用RBF核函數(shù)進(jìn)行多分類效果最優(yōu)的經(jīng)驗,因此在后續(xù)測試使用RBF核函數(shù)。對于小樣本訓(xùn)練,訓(xùn)練器的回歸性能在很大程度上決定了對于測試集測試的結(jié)果,因此需要對分類器的回歸性能進(jìn)行驗證,并與神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)分類器進(jìn)行比較,更直觀得出結(jié)論。性能測試后,對于一般圖像進(jìn)行目標(biāo)物提取,進(jìn)行實際情況測試。測試發(fā)現(xiàn),對于目標(biāo)物提取效果良好,但對于特殊的背景點需要單獨添加進(jìn)訓(xùn)練集。最后對于眼部模型進(jìn)行針對性訓(xùn)練,使用AB模型作為訓(xùn)練集,對兩個模型進(jìn)行交叉測試,特征提取良好??偟膩碚f,采用高效、準(zhǔn)確的分類方法,并針對具體的應(yīng)用,充分利用算法的優(yōu)勢,實現(xiàn)了眼部晶狀體區(qū)域特征自動提取,具有一定的實用價值。
參考文獻(xiàn)
[1] Chang CC CC&Lin C CC.A Library for Support Vector Machines[J].2011.
[2] 龍伶敏.基于Adaboost的人臉檢測方法及眼睛定位算法研究[D].成都:電子科技大學(xué),2008.
[3] 劉祥樓,張明,鄧艷茹.一種人臉對象的區(qū)域分割方法[J].科學(xué)技術(shù)與工程,2011,11(12):2686-2690.