侯 璨,李志飛
(1. 上海飛未信息技術(shù)有限公司湖南分公司,湖南 長沙 410005;2. 湖南星圖空間信息技術(shù)有限公司,湖南 長沙 410004)
高光譜遙感是用很窄而連續(xù)的光譜通道對地物持續(xù)遙感成像的技術(shù)。在可見光到短波紅外波段其光譜分辨率高達納米數(shù)量級,通常具有波段多的特點,光譜通道數(shù)多達數(shù)十甚至數(shù)百個以上,而且各光譜通道間往往是連續(xù)的[1]。目前高光譜遙感已經(jīng)在自然資源、農(nóng)業(yè)、林業(yè)等領(lǐng)域得到廣泛應(yīng)用,與高光譜有關(guān)的處理技術(shù)也迅猛發(fā)展。由于高光譜影像空間分辨率相對較低,在影像中普遍存在混合像元,混合像元的存在嚴(yán)重影響遙感分類和面積計算精度。為提高高光譜遙感應(yīng)用的精度,首先需要解決混合像元分解的問題?;旌舷裨纸獾年P(guān)鍵問題有2 個:①如何準(zhǔn)確地估計端元的數(shù)目;②如何更有效地尋找出端元[2-3]。目前端元數(shù)目估計算法根據(jù)原理可以大致分為2 類:第①類是基于信息理論準(zhǔn)則法,包括Akaike 信息準(zhǔn)則(AIC,akaike’s information criterion)、最小描述長度(MDL, minimum description length)、貝葉斯信息準(zhǔn)則(BIC,bayesian information criterion)等。第②類是基于特征值閾值法,常用的有HFC 算法(Harsanyi-Farrand-Chang)、噪聲白化HFC 法(NWHFC,Noise whitened HFC)[4]、基于最小誤差的高光譜信號識別算法(hyperspectral signal identification by minimum error,HySime)[5]等。AIC、MDL、BIC 算法都建立在似然函數(shù)對數(shù)的基礎(chǔ)上,主要缺點之一是它們基于高斯噪聲的假設(shè)。眾所周知,高光譜遙感圖像中的噪聲一般不是高斯分布的。HFC、NWHFC 算法來源于涅曼皮爾森的探測理論,通過計算得到的相關(guān)特征值和協(xié)方差特征值分別表示由樣本相關(guān)矩陣和樣本協(xié)方差矩陣產(chǎn)生的特征值,HFC和NWHFC算法由于受誤警率設(shè)置的影響,不同的誤警率會導(dǎo)致不同的端元個數(shù)估計值。如何設(shè)定合適的誤警率通常是算法的關(guān)鍵,基于高光譜數(shù)據(jù)的先驗知識難以獲取,因此我們很難確定合適的誤警率。HySime 算法的自適應(yīng)性強,不需要輸入任何參數(shù),因此廣泛應(yīng)用于估計端元個數(shù)。
本文采用HySime 算法對不同信噪比的高斯白噪聲、高斯有色噪聲模擬高光譜數(shù)據(jù)以及馬蹄灣村真實高光譜數(shù)據(jù)的端元個數(shù)進行估計,科學(xué)評估算法的有效性、穩(wěn)健性,為真實高光譜遙感影像端元個數(shù)估計提供參考依據(jù)。
HySime 算法首先是Bioucas-Dias 和Nascimento 提出來的,其基本原理是使用多元線性回歸估計信號和噪聲的相關(guān)矩陣。算法采用信號相關(guān)矩陣的特征向量子集來代替信號子空間,通過最小化投影誤差功率之和與噪聲功率來推斷子空間,即通過增加或減少子空間的維數(shù)來估計端元個數(shù)。因此,如果子空間維數(shù)估計過高,噪聲占支配因素;反之如果子空間維數(shù)估計過低,投影誤差占支配因素。該算法的優(yōu)點是計算效率高、非監(jiān)督及全自動化。HySime算法主要包括噪聲估計(Noise Estimation)和信號子空間估計(Signal Subspace Estimation)2個部分。
在數(shù)據(jù)分析特別是高光譜遙感數(shù)據(jù)處理中,噪聲估計是一個常見的典型問題。移動差值法(Shift Difference)是最簡單的噪聲估計法,也被稱為鄰近像素差值法(nearest neighbor difference[6],NND)。該方法首先假設(shè)鄰近像素之間的噪聲獨立并且具有相同的統(tǒng)計量,同時其光譜信息也假定基本相同。為了獲取有效的噪聲估計值,移動差分法必須采用均質(zhì)區(qū)域而不是整個影像區(qū)域。該方法存在2 種不足:①該方法假定鄰近像素間有相同的信號信息,而在高光譜數(shù)據(jù)中該假設(shè)不一定滿足;②為了改善噪聲估計效果,必須采用監(jiān)督方法選擇均質(zhì)區(qū)域。
HySime算法中噪聲估計采用多重回歸理論(multiple regression theory)。首先假設(shè)Y為N個L維光譜觀測向量,定義Z=YT,zi=[Z]:,i,其中[Z]:,i為矩陣Z的第i列(zi為第i個波段的所有圖像像素數(shù)據(jù))。假定zi為其余L-1波段的線性組合,即
式中,Z?i=[z1,…,zi-1,zi+1,…,zL] ?RN×(L-1);βi?RL-1為回歸向量;εi?RN為模型誤差;利用最小二乘法求得βi的估計值[7]:
噪聲估計值為:
噪聲相差矩陣。為了減小計算量,經(jīng)過推導(dǎo)發(fā)現(xiàn) 可以通過去掉(ZTZ)-1的第i行、第i列后經(jīng)過變換得到。具體算法如下:
1)輸入高光譜數(shù)據(jù)Y=[y1,y2,…,yN] ;
2)令Z=YT,?=ZTZ;
3)令;
4)for i=1:L
5)輸出。
信號子空間估計是HySime 算法的核心。首先根據(jù)前節(jié)提到的噪聲估計法確定信號空間的正交方向子集,然后通過尋找原始信號x和由y=x+n得到的x的噪聲投影兩者之間的最小均方根誤差確定子集。假設(shè)噪聲服從均值為零,協(xié)方差為的高斯分布,即。假定信號樣本相關(guān)矩陣為,特征分解為:
式中,E=[e1,…,eL] 為的特征向量按特征值大小排列的特征向量矩陣。將空間RL分解為由Ek=[ei1,…,eik] 確定的k維子空間和由確定的子空間。假定為投影矩陣,經(jīng)過推導(dǎo)可知子空間參數(shù)k的計算公式為[7]:
具體算法如下:
1)輸入高光譜圖像數(shù)據(jù)Y=[y1,y2,…,yN] ,并計算R?y=(YYT)/N;
3)計算估計的信號相關(guān)矩陣;
4)計算;
5)計算k=argmin。
為了更好地評價算法有效性,實驗采用模擬數(shù)據(jù)和真實高光譜數(shù)據(jù)2種數(shù)據(jù)。模擬數(shù)據(jù)采用USGS光譜庫[8]中明礬石、水銨長石、方解石、高嶺石、云母5種光譜作為端元構(gòu)建大小200×200 共224 個波段的模擬圖像,光譜范圍0.38~2.5 μm,光譜分辨率為10 nm ,其光譜曲線如圖1所示。模擬圖像的背影為5種光譜的均值,并構(gòu)建25個模塊,每一列的模塊有相同的尺寸,如圖2所示[9]。
圖1 5種光譜曲線
圖2 25個模塊
真實數(shù)據(jù)為雄安(馬蹄灣村)高光譜數(shù)據(jù)集,該數(shù)據(jù)由中國科學(xué)院上海技術(shù)物理研究所研制的高分專項航空系統(tǒng)全譜段多模態(tài)成像光譜儀采集,光譜范圍為400~1000 nm,波段數(shù)為256 個,影像大小為3750×1580,空間分辨率為0.5 m,數(shù)據(jù)的真彩色影像如圖3所示。
圖3 馬蹄灣村高光譜數(shù)據(jù)真彩色影像
考慮到算法的隨機性,本次實驗共分為5 組,每組實驗采用HySime 算法分別對不同信噪比的高斯白噪聲(η=0)和高斯有色噪聲(η=1/18)高光譜影像進行端元個數(shù)估計,實驗結(jié)果如圖4所示。
圖4 模擬數(shù)據(jù)實驗結(jié)果
采用HySime 算法估計高斯白噪聲(η=0)高光譜模擬影像的端元個數(shù),5 組實驗估計端元個數(shù)的結(jié)果均相同,當(dāng)信噪比SNR=2 dB時,估計端元個數(shù)為1;當(dāng)信噪比SNR=4 dB時,估計端元個數(shù)為2;當(dāng)信噪比SNR=6 dB 時,估計端元個數(shù)為3;當(dāng)信噪比SNR=8、10、12 dB 時,估計端元個數(shù)為4;當(dāng)信噪比SNR≥14 dB 時,估計端元個數(shù)為5。采用HySime 算法估計高斯有色噪聲(η=1/18)高光譜模擬影像的端元個數(shù),除第4組實驗信噪比SNR=4 dB時估計的端元個數(shù)為3 外,其余估計的結(jié)果均相同,即當(dāng)信噪比SNR=2 dB 時,估計端元個數(shù)為2;當(dāng)信噪比SNR=4、6、8、10、12、14 dB 時,估計端元個數(shù)為4;當(dāng)信噪比SNR≥16 dB時,估計端元個數(shù)為5。
綜上所述,當(dāng)信噪比SNR≥16 dB時,HySime算法能很好地估計法出端元個數(shù),當(dāng)信噪比低于16 dB時,HySime 算法估計的端元個數(shù)略低于實際端元個數(shù)。通過實驗表明在高信噪比高光譜遙感數(shù)據(jù)中該算法可靠性高、穩(wěn)定性好。
經(jīng)過實地考察發(fā)現(xiàn),該地區(qū)存在地物類別共計19 類,包括水稻茬、草地、榆樹、白蠟、國槐、菜地、楊樹、大豆、刺槐、水稻、水體、柳樹、復(fù)葉槭、欒樹、桃樹、玉米、梨樹、荷葉、建筑。為了科學(xué)評價HySime算法,本次實驗分別采用HFC、NWHFC、HySime 算法對真實數(shù)據(jù)進行端元個數(shù)估計,并通過計算信號分量投影在信號子空間的相對功率來評價算法的精度,計算式為e=1-PE/PN,其中PE為信號分量投影在信號子空間的功率,PN為總功率。其端元估計的實驗結(jié)果如表1所示,HySime算法的均方誤差分布如圖5所示。
表1 雄安(馬蹄灣村)數(shù)據(jù)端元個數(shù)估計結(jié)果
圖5 端元個數(shù)估計均方誤差分布圖
在誤警率為10-3條件下,HFC 和NWHFC 算法估算的端元個數(shù)分別為16、17;在誤警率為10-4條件下,HFC 和NWHFC 算法估算的端元個數(shù)分別為15、17;在誤警率為10-5條件下,HFC 和NWHFC 算法估算的端元個數(shù)均為14;通過表1的實驗結(jié)果分析可知,HFC 和NWHFC 算法由于受誤警率設(shè)置的影響,不同的誤警率會導(dǎo)致不同的端元個數(shù)估計值。其整體趨勢為正相關(guān),即誤警率越小,端元個數(shù)的估計值越少。而使用HySime 算法不受誤警率設(shè)置影響,該實驗所得的端元個數(shù)估計值為19。估算的端元個數(shù)與實地考察結(jié)果基本一致。通過相關(guān)學(xué)者的進一步研究發(fā)現(xiàn),端元個數(shù)的差異會嚴(yán)重影響高光譜遙感影像地物分類精度,嚴(yán)重影響地物和光譜特征間的精確數(shù)量關(guān)系模型,在地物識別方面容易忽略微小地物等問題。
綜上所述,由于HySime 算法適應(yīng)性強,穩(wěn)定性好,不需要輸入任何參數(shù)等特點,通常采用此算法估算真實高光譜遙感影像估算端元個數(shù)。
HySime算法首先使用多元回歸估計信號和噪聲相關(guān)矩陣,然后使用信號相關(guān)矩陣的特征向量子集來表示信號子空間。該子空間是通過最小化投影誤差功率與噪聲功率之和來推斷的,它們分別是子空間維度的遞減函數(shù)和遞增函數(shù)。因此,如果子空間維度被高估,則噪聲功率項占主導(dǎo)地位;如果子空間維度被低估,則投影誤差功率項占主導(dǎo)地位。通過一系列模擬數(shù)據(jù)及真實高光譜數(shù)據(jù)進行的實驗結(jié)果表明該算法自適應(yīng)性強,穩(wěn)定性好,不需要輸入任何參數(shù),是一種準(zhǔn)確估計高光譜影像的端元個數(shù)的算法。通過相關(guān)學(xué)者對HySime 算法進一步的研究,我們可以了解Hy-Sime算法對弱端元的探測能力較差,算法過程中容易忽略弱端元。但是,由于高光譜數(shù)據(jù)的空間分辨率較低,采用高光譜數(shù)據(jù)通常是基于宏觀上的分析研究,而忽視弱端元的存在對精度影響較小,基本能夠滿足需求,因此在端元個數(shù)不清楚的地區(qū)通常使用此算法估計端元的個數(shù)。