張飛飛 周 濤,* 陸惠玲 梁蒙蒙 楊 健
1(寧夏醫(yī)科大學(xué)公共衛(wèi)生與管理學(xué)院 寧夏 銀川 750000) 2(寧夏醫(yī)科大學(xué)理學(xué)院 寧夏 銀川 750000)
圖像融合按照不同的層次劃分為像素級融合、特征級融合和決策級融合,其中特征級融合屬于中間層次的融合。首先對原圖像進(jìn)行歸一化、幾何變化等預(yù)處理,其次根據(jù)不同模態(tài)圖像的特點(diǎn)提取特征構(gòu)造原始特征空間,最后對特征信息進(jìn)行綜合處理。其目的是實(shí)現(xiàn)不同模態(tài)圖像的分類、匯集和綜合。
特征級融合方法主要包括特征變換和特征選擇兩種,特征變換是將數(shù)據(jù)從原始特征空間映射到較低維數(shù)的特征空間中,降低數(shù)據(jù)特征空間的維數(shù)、消除特征相互之間的相關(guān)性,減少冗余和不相關(guān)的特征[1]。特征選擇是從原始特征空間中選擇出一定數(shù)量的具有代表性的特征,達(dá)到降低數(shù)據(jù)集維度的目的,包括特征子集的生成、評價(jià)特征子集、停止準(zhǔn)則的判斷、驗(yàn)證方法四個(gè)步驟。圖像特征級融合作為信息融合的重要分支,廣泛應(yīng)用于臨床醫(yī)療診斷、遙感技術(shù)、計(jì)算機(jī)視覺以及軍事檢測等領(lǐng)域。其中在醫(yī)學(xué)圖像處理領(lǐng)域主要應(yīng)用于計(jì)算機(jī)輔助診斷,減輕臨床醫(yī)生的工作負(fù)擔(dān),減少漏診和誤診。如Zhu等[2]將特征不對稱度量納入目標(biāo)函數(shù)的正則化項(xiàng),提出減少超聲圖像斑點(diǎn)的優(yōu)化方法,有效區(qū)分特征和斑點(diǎn)噪聲,有助于超聲在臨床診斷和治療中的應(yīng)用;任亞平[3]提出核獨(dú)立成分分析用于醫(yī)學(xué)圖像去噪,可以保留圖像細(xì)節(jié)信息提高圖像質(zhì)量,降低計(jì)算復(fù)雜度;Li等[4]提出了一種基于監(jiān)督正交線性局部切線空間排列算法和最優(yōu)監(jiān)督模糊C均值聚類算法,用于生命等級的識別,提高了模式識別效率,避免了局部最小化。
雖然特征級融合方法應(yīng)用廣泛,但其基礎(chǔ)理論和結(jié)構(gòu)體系還不完整,技術(shù)劃分不是很明確。特征級融合的主要問題是提取何種特征構(gòu)造原始特征空間以及如何獲取分類性能較好的特征子集,即特征的變換和選擇,同時(shí)面向具體的應(yīng)用時(shí),選取何種融合算法也是應(yīng)該考慮的重要因素。因此,本文從特征變換和特征選擇兩個(gè)維度對特征級融合方法進(jìn)行分類總結(jié),從理論層面對改進(jìn)的方法進(jìn)行匯總,并簡單介紹其在醫(yī)學(xué)圖像處理領(lǐng)域的應(yīng)用。
圖像特征級融合分為圖像獲取、預(yù)處理、提取特征構(gòu)造原始特征空間、通過特征變換或特征選擇進(jìn)行特征融合達(dá)到降低維度的目的,最后進(jìn)行決策識別。隨著計(jì)算機(jī)技術(shù)的發(fā)展,學(xué)者們根據(jù)實(shí)際情況提出了很多特征級融合方法,分為特征變換和特征選擇。特征變換是將原始特征空間映射到低維空間中[1],減少特征空間維數(shù),減少相關(guān)性或冗余性較強(qiáng)的特征,壓縮數(shù)據(jù)量和結(jié)構(gòu),特征變換方法按照是否線性可分分為線性和非線性兩大類。特征選擇是從原始特征空間中選擇最有代表性的特征以降低數(shù)據(jù)集維度,包括候選特征子集的生成、子集評價(jià)、停止準(zhǔn)則、驗(yàn)證方法四個(gè)步驟。如圖1所示,以醫(yī)學(xué)圖像為例,給出了特征級融合流程圖。
圖1 圖像特征級融合流程圖(以醫(yī)學(xué)圖像為例)
在圖像處理領(lǐng)域,專家學(xué)者們根據(jù)實(shí)際應(yīng)用提出了很多特征變換算法,本節(jié)對特征變換算法及其在醫(yī)學(xué)圖像中的應(yīng)用進(jìn)行梳理總結(jié),按照是否線性可分(線性方法和非線性方法)和是否有監(jiān)督(監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí))兩個(gè)維度進(jìn)行分類總結(jié),歸納其發(fā)展現(xiàn)狀和方向。線性方法和非線性方法具有各自獨(dú)特的優(yōu)勢,應(yīng)根據(jù)所需處理的數(shù)據(jù)特點(diǎn),選擇合適的方法。
線性特征變換方法是數(shù)據(jù)降維算法的一個(gè)重要分支,是一種比較簡單、成熟的降維方法。該方法要求數(shù)據(jù)集滿足全局線性結(jié)構(gòu)并且各變量之間保持獨(dú)立無關(guān)聯(lián)。線性方法的核心是采用線性變換的方式從高維數(shù)據(jù)中提取最能夠體現(xiàn)樣本差異的成分,得到的數(shù)據(jù)特征能夠盡可能反映原始高維樣本數(shù)據(jù)的特征。圖2為線性特征變換算法分類圖,在醫(yī)學(xué)圖像特征級融合領(lǐng)域,專家學(xué)者提出了很多線性特征變換方法,如判別分析法[5]、多維尺度法[6]、Fisher鑒別分析[7]、K鄰近法[8]、樸素貝葉斯算法[9]、主成分分析法[10]、半監(jiān)督鑒別分析法[11]、保持投影法[12]、獨(dú)立成分分析法[13]、局部特征分析法[14]、典型相關(guān)分析法[15]等,這些方法在很多文獻(xiàn)中都進(jìn)行了總結(jié)闡述,下面重點(diǎn)介紹奇異值分解法和非負(fù)矩陣分解法及其改進(jìn)算法,介紹其在特征級融合過程中的應(yīng)用現(xiàn)狀、分析優(yōu)缺點(diǎn),并闡述其發(fā)展方向。
圖2 線性特征變換方法分類圖
2.1.1 奇異值分解
奇異值分解SVD(Singular Value Decomposition)方法是1873年由Beltrami首次提出的,是一種有效的代數(shù)特征變換方法,具有穩(wěn)定性、比例和旋轉(zhuǎn)不變性等性質(zhì),在醫(yī)學(xué)圖像處理領(lǐng)域的應(yīng)用包括圖像增強(qiáng)、壓縮、復(fù)原、降噪等。如Chen等[16]提出了一種對稱SVD表示方法,并將其應(yīng)用于人臉識別;Zhang等[17]提出一種高階SVD方法,用于磁共振圖像中噪聲的消除,該方法顯著減少了條紋偽影,提高了降噪質(zhì)量;Tai等[18]提出了一種用于面部識別的學(xué)習(xí)判別SVD方法,該方法在處理照明、遮擋、偽影等方面具有良好的效果;Chen等[19]提出了一種廣度截?cái)郤VD方法,與現(xiàn)有的時(shí)域法相比具有更高的精度、適應(yīng)性和抗躁等優(yōu)點(diǎn)。雖然SVD具有全局意義上的數(shù)據(jù)處理能力,但仍存在不足,如算法的可解釋性不強(qiáng),對噪聲數(shù)據(jù)的處理能力不穩(wěn)定等。特別是當(dāng)處理數(shù)據(jù)是高維海量時(shí),SVD分解的速度和精度會(huì)成為其發(fā)展的瓶頸。
2.1.2 非負(fù)矩陣分解
非負(fù)矩陣分解NMF(Non-negative matrix factorization)是1999年D.D.Lee和H.S.Seung首次提出的,其應(yīng)用前提是矩陣中的元素均為非負(fù)數(shù)據(jù),具有實(shí)現(xiàn)簡單方便,存儲(chǔ)空間占用少的特點(diǎn),在實(shí)際生活中的應(yīng)用越來越廣泛,如圖像處理、語音分析、文本分析、數(shù)據(jù)挖掘、模式識別等。很多專家學(xué)者在經(jīng)典NMF的基礎(chǔ)上提出了很多改進(jìn)算法,主要分為約束NMF、結(jié)構(gòu)化NMF和泛化NMF三種。如楊永生等[20]提出利用多核NMF對原始數(shù)據(jù)進(jìn)行約簡,多核SVM進(jìn)行分類識別,實(shí)驗(yàn)證明該方法可有效降低原始數(shù)據(jù)的維數(shù),提高分類識別的效率;Gao等[21]提出了一種空間加權(quán)NMF,并結(jié)合分層交替最小二乘法用于圖像、視頻等視覺信號的處理;Shu等[22]提出了一種無參數(shù)自動(dòng)加權(quán)多重圖形正則化NMF,證明其具有良好的性能。目前,NMF的主要問題是容易早熟收斂、收斂速度慢,后續(xù)研究一方面要解決收斂速度和唯一解問題,另一方面也要拓寬NMF在實(shí)際中的應(yīng)用。
雖然線性特征變換方法簡單易于實(shí)現(xiàn),但是現(xiàn)實(shí)中大多數(shù)數(shù)據(jù)具有“高維數(shù)、非結(jié)構(gòu)化”的特點(diǎn),此時(shí)傳統(tǒng)的線性特征變換方法就不能得到期望的約簡效果。因此,近年來許多非線性特征變換方法在理論和應(yīng)用層面都得到了很大的發(fā)展,如核Fisher鑒別分析[23]、拉普拉斯特征映射[24]、隨機(jī)領(lǐng)域嵌入[25]、核獨(dú)立成分分析[26]、局部線性嵌入[27]、等距映射[28]、核主成分分析[29]、局部切空間排列[4]、最大方差展開[30]、證據(jù)理論[31]等。圖3為非線性特征變換算法分類圖,其中,神經(jīng)網(wǎng)絡(luò)、模糊集、支持向量機(jī)應(yīng)用最為廣泛,因此對這三種方法及其改進(jìn)算法進(jìn)行梳理總結(jié)。
圖3 非線性特征變換方法分類圖
2.2.1 人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)ANN(Artificial neural network)是對人腦神經(jīng)元網(wǎng)絡(luò)的一種抽象表達(dá),由大量處理單元按照不同的方式互聯(lián)組成,對于處理含糊性和不確定性的圖像問題具有很好的效果。隨著逐漸深入的研究,ANN的應(yīng)用已經(jīng)越來越廣泛,如模式識別、衛(wèi)生保健、生物醫(yī)學(xué)等。目前,已有大約40種ANN模型,如Kohonen神經(jīng)網(wǎng)絡(luò)、Elman動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)、自組織映射神經(jīng)網(wǎng)絡(luò)、脈沖耦合神經(jīng)網(wǎng)絡(luò)等。ANN在疾病診斷過程中的應(yīng)用廣泛,如文獻(xiàn)[32]使用卷積神經(jīng)網(wǎng)絡(luò)對黑色素瘤進(jìn)行早期診斷,診斷精度高于其他算法;文獻(xiàn)[33]等采用誤差反向傳播算法,從輸入數(shù)據(jù)中提取有價(jià)值的體積和檢測肺結(jié)節(jié)CT圖像子塊來構(gòu)建檢測胸部CT圖像中肺結(jié)節(jié)的CADe系統(tǒng);文獻(xiàn)[34]提出反向傳播神經(jīng)網(wǎng)絡(luò),用于超聲圖像去噪和去模糊處理;文獻(xiàn)[35]使用神經(jīng)網(wǎng)絡(luò)對計(jì)算機(jī)斷層掃描圖像進(jìn)行去噪處理。為提高ANN算法的效率及其魯棒性,與其他方法如模糊系統(tǒng)、遺傳算法、進(jìn)化機(jī)制、混沌理論、小波算法、粗集理論等相結(jié)合是其研究的重要方向,同時(shí)改進(jìn)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)、權(quán)重、激勵(lì)函數(shù)及學(xué)習(xí)規(guī)則也是發(fā)展的一個(gè)方向。
圖4為人工神經(jīng)網(wǎng)絡(luò)方法分類圖。
圖4 人工神經(jīng)網(wǎng)絡(luò)方法分類圖
2.2.2 支持向量機(jī)
支持向量機(jī)SVM(Support vector machine)于1995年被Corinna Cortes和Vapnik等首次提出,該模型的基礎(chǔ)是統(tǒng)計(jì)學(xué)習(xí)和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理。SVM具有泛化能力強(qiáng)、樣本維數(shù)大小不敏感、全局收斂等特點(diǎn),在理論和應(yīng)用方面都取得飛速發(fā)展。目前在理論方面:SVM的理論改進(jìn)主要包括四個(gè)方面:一是SVM本身的改進(jìn),包括光滑SVM、拉格朗日SVM、最小二乘SVM、Robust SVM、單類SVM、小波SVM等;二是核函數(shù)的選擇,常用的核函數(shù)包括多項(xiàng)式核函數(shù)、線性核函數(shù)、Sigmoid核函數(shù)和徑向基核函數(shù)[36];三是參數(shù)的優(yōu)化,群智能算法經(jīng)常被用來優(yōu)化SVM的懲罰因子和核函數(shù)參數(shù),例如蝙蝠算法、螢火蟲算法、人工蜂群算法、果蠅算法、蟻群算法、灰狼算法、人工魚群算法等[37];四是與其他分類算法的結(jié)合使用,包括AdaBoost、K臨近、隱馬爾科夫等。在醫(yī)學(xué)圖像處理領(lǐng)域的應(yīng)用如文獻(xiàn)[38]使用SVM進(jìn)行阿爾茨海默病、輕度認(rèn)知障礙和正常人的分類,明顯提高了精度和性能;文獻(xiàn)[39]使用SVM在肺癌早期診斷的CAD系統(tǒng)中進(jìn)行特征分類;文獻(xiàn)[40]使用SVM進(jìn)行乳腺癌的篩查,提高了敏感性、特異性和準(zhǔn)確性。雖然SVM的理論研究和應(yīng)用已經(jīng)成為數(shù)據(jù)挖掘的熱點(diǎn),但仍存在一定的缺點(diǎn),如當(dāng)數(shù)量較大時(shí),計(jì)算速度大幅度減慢,對噪聲和孤立點(diǎn)數(shù)據(jù)非常敏感。拓寬待解決問題的應(yīng)用領(lǐng)域、與其他機(jī)器學(xué)習(xí)方法進(jìn)行融合、加強(qiáng)訓(xùn)練算法等是今后研究的重要方向。對SVM改進(jìn)算法分類如圖5所示。
圖5 支持向量機(jī)改進(jìn)算法分類圖
2.2.3 模糊集
模糊集(Fuzzy set)理論是L.A.Zadeh在1965年提出的,主要思想是用屬于的程度大小來描述屬性之間的屬于或者不屬于關(guān)系,表達(dá)差異的一種中間過度,是用精確性去逼近模糊性,已經(jīng)成為處理不確定信息和知識的重要數(shù)學(xué)工具。近年來,模糊集在圖像增強(qiáng)、濾波、邊緣檢測等領(lǐng)域不斷擴(kuò)展,在提高信噪比、保留細(xì)節(jié)信息等方面具有很大的優(yōu)越性。為了提高系統(tǒng)在處理不確定性信息方面的能力,對模糊集進(jìn)行不斷擴(kuò)展,提出很多改進(jìn)模型,如n維模糊集、雙極值模糊集、直覺模糊集、Flou模糊集、模糊值模糊集、區(qū)間值模糊集、擾動(dòng)模糊集、粗糙模糊集、猶豫模糊集等。在醫(yī)學(xué)領(lǐng)域的應(yīng)用廣泛,例如Liang等[41]在決策粗糙集理論的基礎(chǔ)上提出了對偶猶豫模糊集,通過緊急血液轉(zhuǎn)運(yùn)評估來驗(yàn)證該模型的有效性;文獻(xiàn)[42]提出一種新的確定直覺模糊集距離度量的方法,用于提高醫(yī)學(xué)圖像診斷的正確性,在真實(shí)的數(shù)據(jù)集上驗(yàn)證了該方法的適用性和有效性。目前,完善模糊集理論、改進(jìn)經(jīng)典算法、與其他優(yōu)化方法相結(jié)合是其發(fā)展的主要方向。如圖6為模糊集及其改進(jìn)方法分類圖。
圖6 模糊集改進(jìn)方法分類
特征選擇也稱候選特征子集的選擇,是指從原始特征數(shù)據(jù)中選擇分類性能較好的特征子集,使選擇后的特征構(gòu)建的模型效果更好。文獻(xiàn)[1]中根據(jù)選擇思想不同分為特征優(yōu)選和特征劣選。特征優(yōu)選是指從原始特征空間中選出分類性能較好的特征子集,特征劣選是指從原始特征中剔除冗余或無關(guān)的特征子集。特征選擇分為特征子集的生成、評價(jià)特征子集、判斷停止準(zhǔn)則、驗(yàn)證方法四個(gè)部分。
特征選擇的關(guān)鍵步驟就是生成候選特征子集,特征子集生成方式取決于不同的搜索策略,主要分為全局最優(yōu)搜索策略、隨機(jī)搜索策略、啟發(fā)式搜索策略和混合搜索策略四類。下面按照四種搜索策略對基本的特征選擇算法進(jìn)行分類總結(jié),主要方法分類如圖7所示。
圖7 按搜索策略劃分特征選擇算法
3.1.1 采用全局最優(yōu)搜索策略特征選擇算法
全局最優(yōu)搜索是一種通過算法的不斷迭代來實(shí)現(xiàn)的窮舉式搜索,可以搜索到所有符合條件的特征子集。常用的全局最優(yōu)搜索方法包括:廣度優(yōu)先搜索、分支界限搜索、定向搜索和最優(yōu)優(yōu)先搜索等。其中廣度優(yōu)先搜索又名寬度優(yōu)先搜索,時(shí)間復(fù)雜度高,實(shí)用性低;定向搜索相比寬搜可以節(jié)省時(shí)間和空間,可以算是啟發(fā)式搜索的一種;最優(yōu)優(yōu)先方法的搜索過程是計(jì)算特征集合評價(jià)函數(shù),再將計(jì)算結(jié)果進(jìn)行排序,選擇代價(jià)最小的路徑繼續(xù)搜索。由于在搜索過程中總是放棄代價(jià)大的路徑,因此最終得到的特征子集就是搜索過程中代價(jià)最小的問題答案。分支界限搜索是使用最廣泛的一種全局最優(yōu)搜索算法,通過剪枝處理來減少搜索時(shí)間,具體原理是將需要解決的原始問題逐步分解成為多個(gè)不能再分解的子問題,通過求解子問題的最優(yōu)解得到原始問題的最優(yōu)解,它的優(yōu)點(diǎn)是在保證特征數(shù)目一定的情況下,搜索到相對而言的最優(yōu)特征子集。
雖然全局最優(yōu)搜索策略劃分的方法能找到全局最優(yōu)解,但隨著特征數(shù)量的增大,計(jì)算時(shí)間和空間大幅增加,因此無法廣泛應(yīng)用。
3.1.2 采用隨機(jī)搜索策略的特征選擇算法
隨機(jī)搜索策略的特征選擇算法首先隨機(jī)產(chǎn)生一個(gè)候選特征子集,再根據(jù)實(shí)際問題的啟發(fā)信息逐步搜索全局最優(yōu)解。常用的方法包括遺傳算法、粒子群算法、免疫算法、禁忌搜索算法、粗糙集、差分進(jìn)化等。遺傳算法和粗糙集的應(yīng)用非常廣泛,下面對這兩種方法進(jìn)行歸納總結(jié)。
(1) 粗糙集。粗糙集RS(rough set)是處理模糊性和不確定性信息的一種數(shù)學(xué)工具,是一種新的軟計(jì)算方法,因其無需先驗(yàn)知識的特性,在機(jī)器學(xué)習(xí)、分析決策、過程控制等領(lǐng)域引起了專家學(xué)者的廣泛關(guān)注,在傳統(tǒng)Pawlak RS的基礎(chǔ)上相繼提出了很多改進(jìn)算法,例如粒度RS、鄰域RS、加權(quán)RS、覆蓋RS、灰色RS、決策RS、模糊RS、優(yōu)勢RS等。其中模糊RS的應(yīng)用最為廣泛,與其他方法相結(jié)合,形成一系列的改進(jìn)模糊RS,例如多粒度模糊RS、F-模糊RS、直覺模糊RS、雙論域模糊RS、穩(wěn)健模糊RS、模糊決策RS等。在醫(yī)學(xué)圖像處理領(lǐng)域,RS廣泛應(yīng)用于圖像濾波、識別、分類、融合、分割;醫(yī)學(xué)數(shù)據(jù)挖掘;疾病預(yù)測、醫(yī)療診斷、疾病分類等。例如Wang等[43]提出首先使用ANN對乳腺癌數(shù)據(jù)進(jìn)行離散化,GA進(jìn)行屬性約簡,最后使用RS從決策表中歸納診斷規(guī)則,相比傳統(tǒng)的CAD系統(tǒng),診斷精度顯著提高;Guo等[44]提出了一種基于模糊RS的特征選擇方法,用于乳腺癌的風(fēng)險(xiǎn)評估,提高了降維效率和分類準(zhǔn)確率;文獻(xiàn)[45]提出了直覺模糊RS模型,用直方圖作為RS的下近似,直覺模糊直方圖作為上近似進(jìn)行腦MR圖像的分割,定量評價(jià)表明,該算法具有一定的優(yōu)越性。雖然RS無需先驗(yàn)知識,但缺乏處理數(shù)據(jù)本身模糊性的能力,且對邊界區(qū)域刻畫過于簡單,與很多實(shí)際問題不符,后續(xù)應(yīng)在這些方面進(jìn)行改進(jìn)。圖8為粗糙集方法分類圖。
圖8 粗糙集改進(jìn)方法分類圖
(2) 遺傳算法。遺傳算法GA(Genetic Algorithm)是根據(jù)生物遺傳的規(guī)律,通過選擇、交叉、變異等遺傳操作達(dá)到提高個(gè)體適應(yīng)性的目的。雖然GA在機(jī)器學(xué)習(xí)、圖形圖像處理、社會(huì)科學(xué)、數(shù)據(jù)挖掘、人工生命等領(lǐng)域取得了卓越的成效,但是仍然存在收斂速度過快和容易陷入局部最小(早熟)的問題。因此,很多專家學(xué)者針對這兩個(gè)問題在理論層面提出了很多改進(jìn)算法。例如,為了保持種群的多樣性,于歆杰等[46]提出了擁擠GA,根據(jù)競爭方式和評價(jià)個(gè)體生存能力的不同,派生出不同類型的擁擠GA,如:限制性錦標(biāo)選擇方法、多小生境擁擠算法和確定性擁擠算法;王聰?shù)萚47]對小生境GA進(jìn)行改進(jìn),提出一種新的混合GA,通過實(shí)驗(yàn)證明該算法具有較好的收斂性和較低的時(shí)間復(fù)雜度。適應(yīng)度函數(shù)改進(jìn)方面,陳果等[48]提出四種新的GA特征選擇適應(yīng)度函數(shù),即基于改進(jìn)的距離判據(jù)適應(yīng)度函數(shù)、基于平均值方差比的適應(yīng)度函數(shù)、基于Fisher準(zhǔn)則的適應(yīng)度函數(shù)和基于最近鄰分類法的適應(yīng)度函數(shù),通過實(shí)驗(yàn)證明不同適應(yīng)度函數(shù)的適用性和有效性;李乃成等[49]為了自適應(yīng)調(diào)整變異概率,提出一種具有對偶適應(yīng)度函數(shù)的GA,通過在不同的函數(shù)上測試,證明該方法具有較好的收斂速度;楊水清等[50]將乘冪變換和線性尺度變換相結(jié)合,提出了一種基于乘冪變換的非線性動(dòng)態(tài)適應(yīng)度函數(shù),在常用的測試函數(shù)上驗(yàn)證算法的有效性與可行性。在遺傳算子方面,楊新武等[51]采用自適應(yīng)比例選擇策略,調(diào)整平衡算法求精和求泛能力,實(shí)驗(yàn)證明該算法可有效克服早熟;李書全等[52]針對不同的編碼方式總結(jié)了常用交叉算子,并從不同的角度提出了相應(yīng)的改進(jìn)算法。同時(shí),也逐步形成了很多混合GA,例如:文化GA、蟻群GA、粒子群GA、模擬退火GA等。GA算法廣泛應(yīng)用于醫(yī)學(xué)圖像處理領(lǐng)域,例如文獻(xiàn)[53]在混合醫(yī)學(xué)圖像檢索系統(tǒng)的設(shè)計(jì)時(shí),采用GA進(jìn)行特征降維,在保證正確率的前提下降低時(shí)間復(fù)雜度,解決維數(shù)災(zāi)難問題;文獻(xiàn)[54]提出一種基于改進(jìn)GA和耦合映像格的混合模型,用于醫(yī)學(xué)圖像的加密,實(shí)驗(yàn)證明該算法不僅能完成加密工作,也能抵御各種典型的攻擊。GA以后研究重點(diǎn)應(yīng)該是與優(yōu)化技術(shù)的融合,對算法本身的改進(jìn)以及新算法的提出,更重要的應(yīng)該是混合GA的研究。GA是對自然進(jìn)化規(guī)則的一個(gè)理論性簡化,缺乏系統(tǒng)的數(shù)學(xué)基礎(chǔ),后續(xù)應(yīng)該不斷完善基礎(chǔ)理論,拓寬應(yīng)用的范圍。從編碼、初始種群構(gòu)建、適應(yīng)度函數(shù)、遺傳算子還有混合算法幾個(gè)方面對GA進(jìn)行總結(jié),如圖9所示。
圖9 遺傳算法改進(jìn)方法分類圖
隨機(jī)搜索策略特征選擇算法可以獲得一個(gè)近似最優(yōu)解,但是,隨著特征維數(shù)的增加,時(shí)間復(fù)雜度也會(huì)嚴(yán)重增加。
3.1.3 采用啟發(fā)式搜索策略的特征選擇算法
為了避免窮舉式搜索帶來的計(jì)算代價(jià),啟發(fā)式搜索特征選擇算法為了有效指導(dǎo)搜索的方向,在搜索過程中加入了與實(shí)際問題有關(guān)的啟發(fā)式信息,以便加速獲得優(yōu)化特征子集的過程。比較典型的搜索算法包括單獨(dú)最優(yōu)特征組合、序列前向選擇、序列后向選擇、增L去R選擇、決策樹、Tabu搜索以及浮動(dòng)搜索等。
3.1.4 采用混合搜索策略的特征選擇算法
綜合上述三種策略優(yōu)點(diǎn)的混合式搜索策略是今后特征子集產(chǎn)生的新研究方向,可以有效避免單獨(dú)一種搜索策略的缺點(diǎn),得到一些在各方面比單獨(dú)策略更優(yōu)的特征選擇方法。每種搜索策略劃分的算法各有優(yōu)缺點(diǎn),在處理實(shí)際問題時(shí),必須綜合考慮問題的時(shí)間復(fù)雜度、空間復(fù)雜度和全局最優(yōu)解,在這些條件之間尋找一個(gè)最佳平衡點(diǎn)。例如當(dāng)原始特征集合維數(shù)較少時(shí),可選用全局最優(yōu)搜索策略方法;若要求時(shí)間復(fù)雜度低,對選擇的子集全局性要求不高時(shí),可選用啟發(fā)式策略方法;若需相對較高性能的特征子集,計(jì)算時(shí)間要求較低時(shí),可采用隨機(jī)搜索策略方法[55]。
評價(jià)函數(shù)是特征子集優(yōu)劣的判斷依據(jù),按特征子集評價(jià)標(biāo)準(zhǔn)和算法劃分結(jié)果如圖10所示。
圖10 按特征集合評價(jià)策略劃分圖
3.2.1 過濾式評價(jià)策略的特征選擇方法
Filter過濾式特征選擇方法使用評價(jià)準(zhǔn)則來加強(qiáng)不同的特征與其所屬類之間的相關(guān)性,達(dá)到減弱特征關(guān)聯(lián)性的目的。通常使用的評價(jià)準(zhǔn)則包括:距離(歐式距離、馬氏距離、平方距離等)、信息(信息增益、互信息、最小描述長度等)、依賴度和一致度等。ReliefF系列算法是最常用的Filter特征選擇算法。它不依賴于確定的學(xué)習(xí)算法,而是根據(jù)數(shù)據(jù)集內(nèi)在的固有特征來評價(jià)不同特征的分類性能,找到最優(yōu)的特征子集,主要通過統(tǒng)計(jì)學(xué)習(xí)的方法檢測變量之間的差異性。Filter算法運(yùn)算的優(yōu)點(diǎn)是速度較快,但是評價(jià)結(jié)果與后續(xù)學(xué)習(xí)算法本身的性能之間存在較大偏差。
3.2.2 封裝式評價(jià)策略的特征選擇方法
Wrapper模型是一種有監(jiān)督學(xué)習(xí)方法,直接使用分類性能的優(yōu)劣作為評價(jià)特征重要性程度的標(biāo)準(zhǔn),它的最終目的是構(gòu)造分類器模型。因此如果在構(gòu)造初始分類器的過程中,直接使用分類性能較高的特征,就可以使得分類器模型取得比較高的性能。Wrapper方法決定特征子集優(yōu)劣的標(biāo)準(zhǔn)是通過在特征選擇流程中嵌入其他的學(xué)習(xí)算法,測試不同算法中特征子集的分類性能來實(shí)現(xiàn)的,而很少去關(guān)注特征子集中單個(gè)特征預(yù)測性能的優(yōu)劣。常用的Wrapper特征選擇算法包括基于分類結(jié)果矩陣和基于互補(bǔ)系數(shù)的方法。Wrapper方法使用后續(xù)嵌入學(xué)習(xí)算法的分類精確度來評價(jià)特征子集的優(yōu)劣,分類的偏差小,但是計(jì)算量大,適合于數(shù)據(jù)量較小的樣本,通用性較弱。
3.2.3 Filter和Wrapper組合式算法
Filter結(jié)果與最終使用的分類器無關(guān),不便于進(jìn)一步優(yōu)化分類器的性能。Wrappe雖然能獲得較高的分類率,但不能標(biāo)記出選擇的屬性與對象之間的相關(guān)性,因此,將Filter和Wrapper兩種互補(bǔ)的模式相結(jié)合將是未來研究的方向。如:陳巖等[56]利用Filter-Wrapper結(jié)合的方法獲取特征變量的屬性,首先使用Filter方法從原始特征集合中選出一定數(shù)量的具有代表意義的特征子集,降低搜索空間的維數(shù)。其次使用Wrapper方法從特征子集中二次選出滿足精確度要求的特征變量,實(shí)驗(yàn)證明該方法的優(yōu)越性。
特征子集評價(jià)完成后要判斷是否符合“停止條件”的要求,如果不滿足設(shè)置的停止條件,搜索過程將進(jìn)入死循環(huán),無限執(zhí)行下去。通常選用的停止條件包括:算法運(yùn)行時(shí)間、評價(jià)的閾值次數(shù)、特征子集的數(shù)量、評價(jià)函數(shù)的閾值以及算法早熟或收斂等。
驗(yàn)證特征子集的優(yōu)劣一般選用人工或真實(shí)的數(shù)據(jù)集,將經(jīng)過特征級融合后的約簡結(jié)果作為分類器的輸入進(jìn)行訓(xùn)練和測試,最后將分類結(jié)果與沒有經(jīng)過特征級融合的原始數(shù)據(jù)集進(jìn)行比較。比較指標(biāo)包括分類的時(shí)間、空間復(fù)雜度以及分類器的精確度等。
特征選擇是特征降維方法中非常重要的分支,隨著研究逐漸深入,已經(jīng)形成了很多成熟的方法,但是,研究過程中同樣也存在很多問題。例如:如何針對不同數(shù)據(jù)量、不同數(shù)據(jù)類型設(shè)計(jì)最適合的特征選擇方法,不同類別特征選擇算法之間的相互融合,算法的進(jìn)一步優(yōu)化與實(shí)際應(yīng)用等。將來的研究應(yīng)該在克服這些問題的基礎(chǔ)上繼續(xù)探索,完善特征選擇算法體系,為特征降維提供良好的技術(shù)支撐。
隨著數(shù)字圖像處理技術(shù)的不斷發(fā)展,相繼提出了很多新的方法和技術(shù)。本文圍繞特征級融合方法,對特征變換和特征選擇方法進(jìn)行了分類總結(jié),通過總結(jié)不同方法的發(fā)展現(xiàn)狀,發(fā)現(xiàn)特征級融合仍存在以下不足和需要繼續(xù)改善的地方:
(1) 雖然特征級融合方法已經(jīng)提出了很多理論和算法,但未形成一個(gè)完善的理論體系,在不同的應(yīng)用中效果仍然無法系統(tǒng)地評價(jià),因此制定一個(gè)比較完善并且客觀的評價(jià)標(biāo)準(zhǔn)勢在必行。
(2) 特征級融合過程中最重要的過程就是特征的提取,當(dāng)特征數(shù)量增加時(shí),融合算法的時(shí)間復(fù)雜度和空間復(fù)雜度會(huì)迅速增加,會(huì)出現(xiàn)維數(shù)災(zāi)難問題,因此優(yōu)化算法降低復(fù)雜度是今后發(fā)展的重要方向。
(3) 盡管特征級融合研究目前已經(jīng)有不少的研究成果,但與現(xiàn)實(shí)要求還存在很大的差距,很多融合算法的運(yùn)行速度、精確度、實(shí)用性以及魯棒性等仍需改進(jìn)。
(4) 特征級融合技術(shù)在實(shí)際應(yīng)用中扮演著越來越重要的角色,提取何種特征以及選擇合適的融合算法等仍是主要的研究問題。
(5) 醫(yī)學(xué)圖像模態(tài)眾多,功能各異,圖像所表現(xiàn)的信息也各不相同,如何針對不同模態(tài)的醫(yī)學(xué)圖像進(jìn)行特征變換和選擇,從而促進(jìn)計(jì)算機(jī)輔助診斷的發(fā)展也是今后發(fā)展的重要方向。
總之,特征級融合相比像素融合和決策級融合有其獨(dú)特的優(yōu)勢,在現(xiàn)實(shí)中的應(yīng)用也越來越廣泛,為信息處理帶來重大的變革,發(fā)揮著不可替代的作用。