張敬尊,張睿哲,徐光美,王金華,何 寧
(北京聯(lián)合大學(xué) 智慧城市學(xué)院,北京 100101)
稀疏表示作為一種新型的數(shù)據(jù)挖掘技術(shù),具有嚴(yán)謹(jǐn)?shù)睦碚撝魏投囝I(lǐng)域的應(yīng)用驗(yàn)證,近年來成為機(jī)器學(xué)習(xí)、模式識別、圖像處理等領(lǐng)域的研究熱點(diǎn)。相較于傳統(tǒng)算法,稀疏表示類算法更善于發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的知識,具有優(yōu)秀的特征發(fā)現(xiàn)和保持能力,同時對于圖像中的噪聲具有魯棒性,受噪聲干擾小。該理論認(rèn)為自然信號可以表示為原子信號的稀疏線性組合,基于特定的基元(Basis)或字典(Dictionary),信號(X)可以通過少量系數(shù)進(jìn)行緊致表示。由于多學(xué)科的研究背景,不同領(lǐng)域?qū)ο∈璞硎镜难芯扛饔袀?cè)重,由此引申出的模型表征也各不相同,自成體系,不利于多領(lǐng)域的應(yīng)用拓展。遙感領(lǐng)域具有數(shù)據(jù)密集、計算密集的特點(diǎn),其應(yīng)用需求與稀疏模型優(yōu)勢相吻合,但由于上述局限,稀疏模型在遙感領(lǐng)域的引入不足,應(yīng)用受限。
鑒于上述分析,該文對統(tǒng)計學(xué)、信號處理、計算機(jī)視覺和機(jī)器學(xué)習(xí)等領(lǐng)域中對稀疏表示的研究進(jìn)行了調(diào)研,以遙感應(yīng)用需求為導(dǎo)向,提出了遙感適用的稀疏表示框架,基于遙感領(lǐng)域應(yīng)用不足的現(xiàn)狀,著眼于高光譜圖稀疏處理,歸納了現(xiàn)有的研究基礎(chǔ)及面臨的問題,以期為稀疏模型遙感應(yīng)用的進(jìn)一步深入提供參考。
稀疏表示起源于生物視覺領(lǐng)域,1959年Hubel和Wiesel兩位生物學(xué)家在研究貓的視覺條紋皮層上細(xì)胞的感受野時首次提出了“稀疏”概念,二人在論文中指出“初級視覺皮層(即V1區(qū))上的細(xì)胞的感受野能夠?qū)σ曈X感知信息產(chǎn)生一種稀疏的響應(yīng),即大部分神經(jīng)元處于靜息狀態(tài),只有少數(shù)的神經(jīng)元處于刺激狀態(tài)”[1]。之后,Barlow等人于1972年給出了“稀疏性和自然環(huán)境的統(tǒng)計特性之間存在著某種相關(guān)性聯(lián)系”的推論[2]。利用該推論,Olshausen和Field于1996年提出了稀疏編碼,驗(yàn)證了自然圖像經(jīng)過稀疏編碼后,學(xué)習(xí)得到的基函數(shù)可以近似描述V1區(qū)上簡單細(xì)胞的感受野的響應(yīng)特性[3]。兩位科學(xué)家于1997年又引入了過完備基(又稱為字典),并提出了基于過完備基的稀疏編碼算法[4]。
在數(shù)學(xué)領(lǐng)域尤其是統(tǒng)計學(xué)領(lǐng)域,法國數(shù)學(xué)家Mallat于1993年基于小波分析提出“信號可以用一個過完備的字典進(jìn)行表示”,繼而開創(chuàng)了該領(lǐng)域稀疏表示的先河[5]。隨后,Rudin[6]、Tibshirani[7]等人圍繞l1范數(shù)對稀疏性應(yīng)用進(jìn)行了理論深入研究。Donoho和Elad于2003年證明只要稀疏界限得到滿足,基于通用字典的稀疏表示唯一解可以通過l1范數(shù)最小化方法獲取[8]。Candes就信號的稀疏性和l1范數(shù)的關(guān)系給出了明確的定理[9],隨后,Donoho[10]及Baraniuk[11]等提出了壓縮感知(Compressive Sensing)的概念,從信號表達(dá)的角度證明了稀疏表達(dá)是高維信號(如音頻、視頻等)在特定基向量(如傅里葉基、小波基等)或者字典(Dictionary)上的一種自然表達(dá),由此發(fā)展的約束化優(yōu)化求解策略為信號的稀疏表達(dá)提供了近似最優(yōu)的可計算模型。針對轉(zhuǎn)換后的l1范數(shù)優(yōu)化問題,斯坦福大學(xué)的Tibshirani教授提出了經(jīng)典了最小絕對收縮和選擇算法LASSO(Least Absolute Shrinkage and Selection Operator)[12],此后,很多學(xué)者又在此基礎(chǔ)上進(jìn)行了深入研究,并提出了Adaptive Lasso[13],F(xiàn)used Lasso[14]等基于LASSO算法的變體。
機(jī)器學(xué)習(xí)領(lǐng)域優(yōu)化理論的發(fā)展為稀疏問題求解提供了強(qiáng)有力的技術(shù)支撐,稀疏表示轉(zhuǎn)化為基于不同范數(shù)約束的目標(biāo)函數(shù)最優(yōu)化問題,在自然圖像處理、人臉識別等子領(lǐng)域中均有非常成功的應(yīng)用。就稀疏編碼問題,發(fā)展出了匹配追蹤算法(Matching Pursuit,MP)[5]和正交匹配追蹤算法(Orthogonal Matching Pursuit,OMP)[15]兩個經(jīng)典求解算法;針對字典學(xué)習(xí)問題,Engan等人提出了MOD算法(Method of Directions)[16],Aharon等人提出了經(jīng)典的K-SVD算法[17],Mairal等人提出了線上字典學(xué)習(xí)算法[18]。
伴隨統(tǒng)計學(xué)領(lǐng)域理論研究的深入,稀疏表示模型在信號處理、計算機(jī)視覺、圖像處理等多個領(lǐng)域取得了很多成功的應(yīng)用,總結(jié)各領(lǐng)域的研究分支如表1所示。
表1 稀疏表示模型領(lǐng)域應(yīng)用總結(jié)
由于多學(xué)科的研究背景,稀疏表示在不同的領(lǐng)域各有研究側(cè)重,由此引申出的關(guān)鍵詞/術(shù)語描述也略有不同,主要包括:稀疏表示(Sparse Representation)、稀疏表達(dá)建模(Sparse Representation Modeling)、稀疏建模(Sparse Modeling)、稀疏機(jī)器學(xué)習(xí)(Sparse Machine Learning)、稀疏啟發(fā)模型(Sparse-inspired Model)、稀疏優(yōu)化(Sparse Optimization)、稀疏估計(Sparse Approximation)、字典學(xué)習(xí)(Dictionary Learning)、稀疏編碼(Sparse Coding)、稀疏分解(Sparse Decomposition)。綜合各關(guān)鍵詞的表達(dá)側(cè)重,基于該文的研究背景和遙感應(yīng)用領(lǐng)域,采用關(guān)鍵詞稀疏表示(Sparse Representation)用以描述挖掘數(shù)據(jù)稀疏性的整體框架,字典學(xué)習(xí)(Dictionary Learning)和稀疏編碼(Sparse Coding)是其中的兩個主要任務(wù)。
稀疏表示的核心是信號擬合問題,對于復(fù)雜的多維信號來說,將每個信號看作為由多個基函數(shù)(基變換)的線性組合,且其中大部分基函數(shù)對應(yīng)的系數(shù)為零,每個基函數(shù)被稱為基元(Basis),所有基元的組合為字典(Dictionary),信號基于字典的系數(shù)是稀疏的。已知字典,求解信號的最優(yōu)稀疏分解系數(shù)或稀疏逼近過程稱為稀疏編碼(Sparse Coding),基于信號尋求其低維最優(yōu)字典的過程稱為字典學(xué)習(xí)(Dictionary Learning)。
已知信號集X=[x1,x2,…,xn]∈Rm×n,基于字典D=[d1,d2,…,dk]∈Rm×k,稀疏編碼的目標(biāo)是從字典中找到最小的基元子集對每個信號xi∈Rm進(jìn)行無噪聲數(shù)據(jù)的精確表示。
(1)
或含噪聲數(shù)據(jù)的近似表達(dá):
(2)
上式等價于:
(3)
(1)l0范數(shù),非零元素的個數(shù),‖α‖0={i:αi≠0}。
(4)lr,p范數(shù),‖A‖r,p=‖(‖A1‖r,…,‖Am‖r)‖p,A∈Rm×n。
其中,(1)~(3)三種誘導(dǎo)函數(shù)適用于各信號間相互獨(dú)立的情況,(4)用以刻畫信號間的結(jié)構(gòu)關(guān)系,即信號間彼此不獨(dú)立,如圖像分類問題中通常假設(shè)相鄰像元屬于同一類別,即相鄰元素的稀疏表達(dá)關(guān)聯(lián)相同組合的字典基元,由此,相鄰像元的多個系數(shù)向量可構(gòu)成行稀疏矩陣。有學(xué)者[19]在特征選擇的具體應(yīng)用中將其稱為Vector-based和Matrix-based。實(shí)際應(yīng)用領(lǐng)域的降維、分類、去噪、目標(biāo)識別等子問題均可看作是上述模型的具體體現(xiàn),不同應(yīng)用背景及領(lǐng)域先驗(yàn)知識前提下,損失函數(shù)有其針對性體現(xiàn)和擴(kuò)展,通過不同的稀疏誘導(dǎo)函數(shù)以獲得問題的最優(yōu)解。針對由不同稀疏誘導(dǎo)函數(shù)構(gòu)建的稀疏編碼模型,統(tǒng)計學(xué)、信號處理、機(jī)器學(xué)習(xí)等領(lǐng)域的學(xué)者提出了諸多優(yōu)化求解算法[20]。依據(jù)稀疏誘導(dǎo)函數(shù)類型,對應(yīng)的稀疏模型和經(jīng)典求解算法如下:
基于l0范數(shù)對應(yīng)的數(shù)學(xué)模型為:
(4)
或
(5)
基于l0范數(shù)的稀疏編碼模型是對數(shù)據(jù)稀疏性的簡單而直觀的描述,實(shí)際應(yīng)用中,由于其非凸性使得目標(biāo)函數(shù)的求解為NP難題,其求解多采用貪婪類算法,即首先確定解向量的支持集,然后直接利用最小二乘優(yōu)化在支持集上求解稀疏系數(shù)α。典型代表算法包括匹配追蹤算法MP[5]和正交匹配追蹤算法OMP[15]。
字典是稀疏表示模型性能的制約因素,通常,根據(jù)字典基元的構(gòu)建方式一般可將字典分為預(yù)定義字典、自適應(yīng)字典和學(xué)習(xí)字典三類。
預(yù)定義字典是稀疏表示中最初的字典形式,通常稱為過完備字典,即字典中基元的個數(shù)超過信號的維數(shù),在過完備字典前提下,任一信號在不同的基元組下都有不同的稀疏表示。過完備字典通過已知的變換基進(jìn)行選取,如傅里葉、離散余弦或小波等[21],一旦完成構(gòu)建則字典保持固定不變且將用于表示所有的信號。這種方法相對簡單易實(shí)施,對特定類型的信號非常有效,而對于其他類型的信號表示效果則可能非常不好。
自適應(yīng)字典在預(yù)定義字典的基礎(chǔ)上通過在特定參數(shù)(連續(xù)或者離散的)控制下生成字典基元[22],其應(yīng)用的泛化能力具有明顯的局限性。
無論是預(yù)定義字典還是自適應(yīng)字典通常都具有較快的變換速度,但兩種字典都不能處理稀疏信號,且其僅適用于特定類型的圖像和信號,無法用于新數(shù)據(jù)。針對上述缺點(diǎn),Olshausen和Field兩位生物學(xué)家摒棄傳統(tǒng)的基于理論的字典構(gòu)建方式[3],從訓(xùn)練樣本中發(fā)掘數(shù)據(jù)中隱藏的知識,并抽取為字典基元,繼多次開拓性實(shí)驗(yàn)后,二人證明了這種方式獲取的字典可以很容易地發(fā)現(xiàn)自然圖像中的底層結(jié)構(gòu),該研究可以看作是學(xué)習(xí)字典的起源,之后,在此基礎(chǔ)上逐漸展開了更為深入的研究。
學(xué)習(xí)字典引入了學(xué)習(xí)機(jī)制,其字典基元通過訓(xùn)練和學(xué)習(xí)大量的與目標(biāo)信號相似的數(shù)據(jù)來獲得,其構(gòu)建過程是動態(tài)的,學(xué)習(xí)所得字典能夠適用于符合稀疏定義的任何類型的信號?;谝阎盘枠?gòu)造字典的過程稱為字典學(xué)習(xí),構(gòu)造的字典可以對指定信號進(jìn)行稀疏表示是基本前提,因此,信號的最優(yōu)稀疏表示是字典學(xué)習(xí)的目標(biāo)。從待表示的數(shù)據(jù)出發(fā),字典學(xué)習(xí)算法尋求與待表示數(shù)據(jù)相關(guān)且完備的字典基元,該類方法通過學(xué)習(xí)樣本可以保持與實(shí)際應(yīng)用的高相關(guān)性[23],具有靈活性大,表示性能好等優(yōu)點(diǎn),但同時該類方法計算量大,需要根據(jù)具體的任務(wù)進(jìn)行學(xué)習(xí)[20]。
字典學(xué)習(xí)問題數(shù)學(xué)模型如下,已知訓(xùn)練樣本X=[x1,x2,…,xn]∈Rm×n,基于一定的先驗(yàn)知識約束,尋求最優(yōu)字典D,以使得樣本集中每個信號在D上具有最優(yōu)稀疏表達(dá)。
(6)
其中,A=[α1,α2,…,αn]∈Rk×n包含了訓(xùn)練樣本的稀疏系數(shù)X=[x1,x2,…,xn],φ:Rk→R是稀疏誘導(dǎo)函數(shù),用以控制系數(shù)稀疏度,實(shí)際應(yīng)用中有各種體現(xiàn)形式,λ為調(diào)節(jié)參數(shù),平衡系數(shù)稀疏性和模型擬合度,通常情況下,λ值越大,則系數(shù)中非零元素越少,但二者之間并非單調(diào)遞減關(guān)系,相關(guān)研究有待深入。C包含了對字典的限制,通常采用如下形式:C={D∈Rm×k|?j‖dj‖2≤1},即將字典D各列元素的值限制在一個l2-ball范圍內(nèi),以防止其過大或過小而導(dǎo)致系數(shù)向量αi各元素值波動劇烈。
與稀疏編碼問題類似,從其他描述角度模型式(6)還有如下三種形式:
(1)約束形式變體形式:
s.t.φ(αi)≤μ
(7)
等價于,
(8)
(2)矩陣分解角度變體形式:
(9)
(3)經(jīng)驗(yàn)風(fēng)險最小化變體形式:
(10)
其中,L:Rm←Rm×n為如下形式損失函數(shù):
(11)
此時,字典學(xué)習(xí)問題轉(zhuǎn)換為經(jīng)驗(yàn)風(fēng)險最小求解問題。部分實(shí)際應(yīng)用中,人們并不關(guān)心經(jīng)驗(yàn)函數(shù)fn(D)的準(zhǔn)確最小值,而是更以其期望最小f(D)為目標(biāo),以此來衡量學(xué)習(xí)到的字典在新數(shù)據(jù)上的有效性。
(12)
字典學(xué)習(xí)算法通常給字典設(shè)定初值,然后基于稀疏表示的結(jié)果對字典基元進(jìn)行更新,算法包括基于字典的樣本表示、字典基元更新兩個主要階段,其中樣本表示階段與上節(jié)的稀疏編碼相對應(yīng),文中總結(jié)的算法均可以用于該階段的問題求解,字典構(gòu)建階段以訓(xùn)練樣本為輸入,學(xué)習(xí)字典為輸出。以應(yīng)用背景為前提的數(shù)學(xué)模型構(gòu)建、編碼策略選擇、字典構(gòu)造方案設(shè)計是字典學(xué)習(xí)的三個關(guān)鍵問題。經(jīng)典的字典學(xué)習(xí)算法包括最優(yōu)方向算法MOD[16]、K-SVD算法[17],兩種算法在許多領(lǐng)域中得到了應(yīng)用,特別是在圖像和音頻處理方面。
Elad等人證明了圖像的稀疏性[24],自此,稀疏模型成為圖像處理領(lǐng)域的研究熱點(diǎn)。遙感圖像由于成像機(jī)理復(fù)雜、數(shù)據(jù)量大等特點(diǎn),稀疏模型的應(yīng)用相對較少。高光譜遙感圖像作為一種典型的超高維數(shù)據(jù),具有譜間高相關(guān)性以及地物空間分布排列的稀疏性特點(diǎn),面臨如何從海量高維數(shù)據(jù)中挖掘出感興趣地物診斷性信息的瓶頸。稀疏表示則恰好可以針對上述高相關(guān)所致的高冗余與感興趣信號的稀疏性進(jìn)行地物信息的有效分析,突破瓶頸,因此,在高光譜圖像的降維[25]、去噪[26]、解混[27]、分類[28]以及目標(biāo)探測[29]等任務(wù)中均有稀疏模型的應(yīng)用研究。該文重點(diǎn)對稀疏降維和稀疏分類展開分析。
有學(xué)者研究發(fā)現(xiàn),在不影響解譯精度的前提下,90%的光譜波段是冗余的[30],在保證解譯性能的前提下發(fā)現(xiàn)更具判別性的特征是高光譜降維任務(wù)的目標(biāo),不僅可以提高地物分類和探測的效果,同時也可以降低數(shù)據(jù)處理的復(fù)雜度,提高計算效率。特征選擇類降維方法從原始波段空間選擇更具表征性的子集,相對于原始冗余的光譜波段信息而言,目標(biāo)波段子集是稀疏的,設(shè)定合理的目標(biāo)函數(shù)以便于盡量多地保留原始數(shù)據(jù)的主要光譜特征,算法本質(zhì)上是組合優(yōu)化問題。該類方法可以有效保證光譜波段的物理意義,但盡量“多”的特征與盡量“少”的冗余兩個目標(biāo)之間是相互制約的,目前國內(nèi)外研究較少[31]。特征提取類算法首先將原始的高光譜特征進(jìn)行映射,之后在映射后的特征中進(jìn)行分量選擇。有學(xué)者研究了組稀疏逐層變換進(jìn)行高光譜降維[32],此外稀疏保持投影算法SPP(Sparse Preservation Projection)在高光譜降維中研究也較集中[33],但上述方法均需利用已知的樣本信息作為先驗(yàn),利用稀疏模型尋求高維信號在低維子空間的映射,算法屬于監(jiān)督降維,樣本標(biāo)記代價高。近期,有學(xué)者開展半監(jiān)督稀疏降維[25],削弱了模型對訓(xùn)練樣本的依賴。利用稀疏性驅(qū)動進(jìn)行高光譜圖像維數(shù)約簡研究,已經(jīng)成為業(yè)內(nèi)的研究熱點(diǎn)問題,非監(jiān)督類稀疏降維以及算法時空復(fù)雜度的進(jìn)一步降低亦有待開拓性研究。
另一方面,基于稀疏表達(dá)的高光譜圖像分類也越來越受到關(guān)注,針對高光譜數(shù)據(jù)冗余性,將高維信息表達(dá)為稀疏字典與其系數(shù)的線性組合,采用稀疏表達(dá)對高光譜圖像進(jìn)行處理,能夠簡化分類模型中參數(shù)估計的病態(tài)問題[34],可以看作稀疏模型用于高光譜圖像分類任務(wù)的開創(chuàng)性研究,論文中選取所有的訓(xùn)練集作為字典并基于該字典對所有待分類像元進(jìn)行稀疏表達(dá),同時通過鄰域空間拉普拉斯算子對相鄰像元間的空間關(guān)系進(jìn)行刻畫并對稀疏表達(dá)的結(jié)果作后驗(yàn)修正。其實(shí)驗(yàn)結(jié)果表明,基于稀疏表達(dá)的算法相較于其他傳統(tǒng)算法性能有明顯提升,不足之處在于存在過平滑現(xiàn)象,同時,算法中使用的字典為預(yù)設(shè)的固定字典,未對訓(xùn)練集數(shù)據(jù)的特征保持度、訓(xùn)練集數(shù)量敏感度作針對性學(xué)習(xí)。此后,為緩解過平滑現(xiàn)象,有學(xué)者將非局部空間相關(guān)性[35],結(jié)構(gòu)形狀先驗(yàn)[36]對稀疏表示模型進(jìn)行擴(kuò)展,此外,還有學(xué)者將核化算法引入到稀疏表示模型中用以求解高光譜信號的非線性可分問題[37]。基于稀疏表示的高光譜圖像分類成為高光譜領(lǐng)域的另一研究熱點(diǎn),受制于高光譜圖像中同物異譜、異物同譜現(xiàn)象嚴(yán)重,地物分布復(fù)雜,空間尺度差異大,有標(biāo)記樣本少,噪聲類型復(fù)雜多樣等情況,當(dāng)前的圖像分類研究僅能同時應(yīng)對其中的部分問題,還難以自動化完成大面積地物識別的任務(wù)[38]。同時,為充分發(fā)揮稀疏表示模型的優(yōu)勢,相較于上述研究中所使用的固定字典而言,基于訓(xùn)練集的字典學(xué)習(xí)研究也成為必然需求。
綜上,作為一種典型的超高維數(shù)據(jù),高光譜信號處理面臨如何從海量高維數(shù)據(jù)中挖掘出感興趣地物診斷性信息的瓶頸。傳統(tǒng)圖像處理平臺和信息提取方式在面對體量巨大的高維原始數(shù)據(jù)時難以滿足目標(biāo)信息快速獲取的需求。稀疏學(xué)習(xí)可以利用海量高維數(shù)據(jù)的高冗余性與感興趣信號的稀疏性,能夠有效提取出高光譜地物信息,該技術(shù)在高光譜圖像的恢復(fù)、重建以及分析等任務(wù)中的應(yīng)用研究逐漸開展,但相對于機(jī)器學(xué)習(xí)、計算機(jī)視覺等領(lǐng)域而言,高光譜領(lǐng)域的應(yīng)用在深度上有待進(jìn)一步深入,仍存在較大的研究難點(diǎn)和潛力[39],具體如下:
(1)最優(yōu)稀疏學(xué)習(xí)方法或模式的選擇非常困難,解決問題的角度選取以及恰當(dāng)?shù)南∈枵T導(dǎo)函數(shù)選擇都沒有標(biāo)準(zhǔn)可以參照。
(2)學(xué)習(xí)字典相對于固定字典的優(yōu)勢明顯,但盡管各領(lǐng)域?qū)τ谧值鋵W(xué)習(xí)已有較為詳細(xì)的研究及成果,但在具體應(yīng)用時需要結(jié)合應(yīng)用背景進(jìn)行針對性模型構(gòu)建,模型中先驗(yàn)知識的刻畫以及字典基元數(shù)量與學(xué)習(xí)過程中的數(shù)值計算,內(nèi)存消耗以及與信號表達(dá)的有效性之間的關(guān)系均需作針對性的分析。
(3)結(jié)合高光譜遙感圖像獨(dú)有的特性,對圖像的上下文、形態(tài)特征等先驗(yàn)知識進(jìn)行合理刻畫并與稀疏表示框架結(jié)合,將稠密數(shù)據(jù)轉(zhuǎn)為稀疏數(shù)據(jù),從而提升算法性能仍有很多問題需要解決。
(4)海量數(shù)據(jù)下,樣本標(biāo)記代價非常高,亟需無監(jiān)督類稀疏模型的開拓性研究。
(5)當(dāng)處理高維遙感數(shù)據(jù)時,所需的訓(xùn)練樣本量和相應(yīng)的計算負(fù)荷增加,同時兼顧算法的性能和速度面臨挑戰(zhàn),亟需高性能解決方案。
稀疏表示的本質(zhì)是用盡可能少的資源表示盡可能多的知識,這種表示方法的有利之處在于既可以節(jié)約數(shù)據(jù)的存儲空間,又能提高計算速度。伴隨稀疏表示在高光譜圖像處理領(lǐng)域應(yīng)用的逐漸深入,稀疏表示框架的優(yōu)勢逐漸被認(rèn)知和推崇,除高光譜外其他類遙感圖像處理任務(wù)中對該框架的引入以及適用性亦有待進(jìn)一步探究。同時,在大數(shù)據(jù)量背景下,在保證圖像處理算法性能的同時,進(jìn)一步降低算法的空間占用和計算復(fù)雜度,基于高性能的遙感數(shù)字圖像處理亦成為當(dāng)前及未來遙感應(yīng)用的迫切需求。