基于波段加權(quán)K均值聚類的高光譜影像分類

2020-10-28 07:14:02趙泉華

無線電工程 2020年11期

李玉，甄暢，石雪，趙泉華

(1.遼寧工程技術(shù)大學(xué) 測(cè)繪與地理科學(xué)學(xué)院遙感科學(xué)與應(yīng)用研究院，遼寧阜新 123000；2.桂林理工大學(xué) 測(cè)繪地理信息學(xué)院，廣西桂林 541000)

0 引言

由于高光譜遙感自身的特點(diǎn)，使得其一直是遙感領(lǐng)域的研究熱點(diǎn)之一[1-2]。高光譜遙感影像在眾多領(lǐng)域中具有廣泛的應(yīng)用，包括農(nóng)業(yè)、林業(yè)、海洋、礦石及大氣成分研究等領(lǐng)域[3-8]。由于高光譜影像內(nèi)包含了比較豐富的光譜信息，對(duì)地物目標(biāo)的精細(xì)、精準(zhǔn)分類及提取、理化、生物參數(shù)的反演提供了數(shù)據(jù)支撐和保障，所以其是定量對(duì)地觀測(cè)最具潛力的新一代數(shù)據(jù)源[9-10]。然而，由于高光譜影像包含眾多的波段，將波段看作特征，在解譯時(shí)會(huì)有休斯現(xiàn)象，從而導(dǎo)致“維數(shù)災(zāi)難”，如何充分合理利用光譜特征是亟待解決的問題[11]。

近年來，有效利用高光譜影像內(nèi)光譜特征信息的方式分為2種：第一種方式為直接采用所有光譜特征，這種方式是將所有特征看作一個(gè)整體，最具代表性的算法是光譜角分類法，該方式對(duì)于特征的冗余問題無法避免[12-14]；第二種方式為通過處理運(yùn)用部分光譜特征，這種方式包括降維和波段選擇兩大類。對(duì)于降維方法，經(jīng)典的有主成分分析法、獨(dú)立成分分析法及線性判別分析等，該類方法無法確定具體運(yùn)用原始特征空間的哪一部分[15-20]。對(duì)于波段選擇方法，有學(xué)者提出了利用人工蜂群進(jìn)行波段選擇及基于流形波段選擇方法等，該類方法只能硬性選擇出一部分波段運(yùn)用到后續(xù)的工作中，其他波段的信息都無法利用[21-24]。因此，本文將特征加權(quán)思想引入K均值算法以有效地利用波段信息，通過構(gòu)建不同的權(quán)重以表達(dá)出高光譜影像各波段的重要性[25]。

1 算法描述

1.1 分類模型

設(shè)高光譜影像為z= {zn，n= 1，2，…，N} = {z(d)，d= 1，2，…，D}，其中，n為像素索引；N為總像素?cái)?shù)；d為波段索引；D為總波段數(shù)；zn=(znd，d= 1，2，…，D)T為像素n的光譜測(cè)度矢量，znd為像素n在d波段的光譜測(cè)度；z(d)= {znd，n= 1，2，…，N}為d波段的光譜測(cè)度集合；T為矩陣的轉(zhuǎn)置符號(hào)。

在采用K均值算法進(jìn)行影像分類時(shí)，通常影像各波段對(duì)分類結(jié)果起到的作用一致且波段間獨(dú)立[26-27]。由于高光譜影像的休斯現(xiàn)象十分明顯，所以對(duì)高光譜影像直接運(yùn)用K均值算法不能避免維數(shù)災(zāi)難現(xiàn)象。對(duì)于高光譜影像，需要考慮各波段含有信息量及波段間的相關(guān)性等因素。為此，通過對(duì)各波段賦予不同的權(quán)重以有效地利用各波段的光譜特征，進(jìn)而解決高光譜影像的分類問題。

建立具體目標(biāo)函數(shù)為：

(1)

受成像條件的影響，高光譜影像有少部分波段不益于影像分類，所以該部分波段的波段權(quán)重應(yīng)為0。可以通過各波段影像直方圖的分布情況來確定這部分波段[28]。設(shè)各波段影像的直方圖中頻率非0數(shù)的集合為h= {hd，d= 1，2，…，D}，其中，hd= # {osd≠ 0，s∈{0，1，…，255}}，osd= # {n，znd=s}。給定閾值T，當(dāng)hd

對(duì)于剩余波段，由于各波段信息量及波段間相關(guān)關(guān)系都對(duì)分類結(jié)果產(chǎn)生影響，所以這兩個(gè)因素決定剩余波段的波段權(quán)重，以表達(dá)其對(duì)聚類的重要性。

在影像中，熵信息是對(duì)影像不確定性即信息量的度量。因此，提出算法采用熵值的大小表示高光譜影像內(nèi)各波段的信息量度量[29-31]。定義波段d熵值表示為：

(2)

式中，令熵值矢量表示為E=(Ed，d= 1，2，…，D)；pg表示灰度值為g且頻率不為0的概率：

(3)

在待分類影像中，均值表示了影像內(nèi)像素光譜測(cè)度的平均水平，標(biāo)準(zhǔn)差表示了影像內(nèi)像素光譜測(cè)度的離散程度。為了避免于標(biāo)準(zhǔn)差中所包含的平均水平的影響，采用均值與標(biāo)準(zhǔn)差的比值表示影像內(nèi)像素光譜測(cè)度關(guān)于離散程度上的信息量[32]。將波段d的像素光譜測(cè)度標(biāo)準(zhǔn)差表示為：

(4)

式中，令各波段內(nèi)像素光譜測(cè)度標(biāo)準(zhǔn)差的集合表示為σ= {σd，d= 1，2，…，D}，令u={ud，d=1，2，…，D}表示為各波段像素光譜測(cè)度均值的集合，ud為波段d內(nèi)像素光譜測(cè)度的均值，可表示為：

(5)

在高光譜影像中，通常采用互信息來表示影像內(nèi)2個(gè)波段內(nèi)像素之間的相關(guān)關(guān)系[33-34]。設(shè)高光譜影像的互信息矩陣為R，設(shè)d波段影像z(d)，其與d±1波段的互信息分別為Rd，d+1，Rd，d-1，其中：

Rd，d±1=Ed+Ed±1-Ed，d±1，

(6)

式中，Ed，d±1為波段d與d+1及d與d-1的聯(lián)合熵：

(7)

綜上，定義波段權(quán)重wd為：

(8)

式中，A，B為調(diào)節(jié)參數(shù)，分式上方和下方分別為信息量函數(shù)和相關(guān)性函數(shù)。提出算法中將調(diào)節(jié)參數(shù)A，B分別取大于0，以保證w與信息量函數(shù)呈正相關(guān)，與相關(guān)性函數(shù)呈負(fù)相關(guān)。若B取值越大，則波段權(quán)重的變化范圍受波段信息量的影響越大，而對(duì)影像分類起主要作用的波段數(shù)量則越少。當(dāng)B=7時(shí)，僅存在少數(shù)波段的權(quán)重值較大，導(dǎo)致分類結(jié)果精度較低。為了提高對(duì)影像分類起主要作用波段的數(shù)量，選取參數(shù)B的取值范圍為(0，7]。參數(shù)A的取值大小反映了波段之間相關(guān)性對(duì)波段權(quán)重的影響，若數(shù)值越小則相關(guān)性對(duì)波段權(quán)重的影響程度越大。為了增大各波段之間波段權(quán)重的差異，選取參數(shù)A的取值范圍為(0，4]。

(9)

式中，

(10)

得到amd的取值范圍為amd∈[0.000 3，1]。

1.2 模型求解

為了實(shí)現(xiàn)高光譜影像分類，最小化目標(biāo)函數(shù)J以局部?jī)?yōu)化r，x，a，獲得各參數(shù)的估計(jì)值，即：

(11)

參數(shù)求解過程描述如下：

① 求解r。像素隸屬于各類別的非相似性測(cè)度越小為1，表示該像素隸屬于對(duì)應(yīng)的類別，因此將r的表達(dá)式定義為：

(12)

② 求解x。利用函數(shù)J對(duì)xmd求偏導(dǎo)，令其為0，通過求解可得到x的表達(dá)式，具體過程為：

(13)

則xmd的具體表達(dá)式為：

(14)

③ 求解a。利用拉格朗日乘數(shù)法求解amd。已知z，x，r，w和λ，構(gòu)建帶有約束條件的新目標(biāo)函數(shù)，表示為：

(15)

式中，vm為拉格朗日因子。利用函數(shù)L對(duì)amd求偏導(dǎo)，并令其為0，根據(jù)其自身的約束條件可求得amd的具體表達(dá)式為：

(16)

總結(jié)提出的波段加權(quán)K均值聚類影像分類算法的實(shí)現(xiàn)過程：

① 設(shè)置閾值T，ε1>0，ε2>0以及當(dāng)循環(huán)次數(shù)達(dá)到LOOP時(shí)停止迭代；設(shè)置初始聚類中心矢量集x(0)和波段-類別權(quán)重矢量集a(0)；

② 根據(jù)式(2)、式(4)和式(5)分別計(jì)算各波段的熵值E、標(biāo)準(zhǔn)差σ及均值u；

③ 根據(jù)式(6)計(jì)算互信息矩陣R；

④ 根據(jù)式(8)確定波段權(quán)重矢量w；

⑤ 根據(jù)式(12)計(jì)算聚類隸屬矢量集r(t+1)；

⑥ 根據(jù)式(14)計(jì)算聚類中心矢量集x(t+1)

⑦ 根據(jù)式(9)和式(10)計(jì)算規(guī)則化項(xiàng)λ(t+1)；

⑧ 根據(jù)式(16)計(jì)算波段-類別權(quán)重矢量集a(t+1)；

⑨ 如果|xmd(t+1)-xmd(t)|<ε1且|amd(t+1)-amd(t)|<ε2或t=LOOP，則停止迭代；否則迭代次數(shù)增加，并轉(zhuǎn)⑤。

2 高光譜影像的分類實(shí)驗(yàn)和討論

為了驗(yàn)證提出算法對(duì)高光譜影像分類的有效性，利用MATLAB軟件編程以實(shí)現(xiàn)高光譜影像分類。實(shí)驗(yàn)選用了AVIRIS數(shù)據(jù)，影像內(nèi)呈現(xiàn)的是Salinas地區(qū)，空間分辨率為3.7 m，尺寸為512 pixel×217 pixel，光譜測(cè)量范圍為400～2 500 nm，實(shí)驗(yàn)中去除水吸收波段共20個(gè)，采用204個(gè)波段進(jìn)行實(shí)驗(yàn)，利用34，18，11波段填充紅、綠、藍(lán)波段構(gòu)成真彩色影像，如圖1(a)，圖像中包括16類地物目標(biāo)，如表1所示。圖1(b)為高光譜影像的標(biāo)準(zhǔn)分類圖。

圖1 Salinas真彩色影像與標(biāo)準(zhǔn)分類圖Fig.1 True color display image and standard classification image of Salinas

表1 高光譜影像的類別標(biāo)號(hào)和地物名稱Tab.1 Labels and ground features of hyperspectral images

由于本文中類別為16，則選擇閾值T為15。對(duì)于本文使用的高光譜影像來說，采用控制變量法來確定A和B最合適的取值。根據(jù)總精度變化情況，本文取A為2，B為2.5最合適。

采用對(duì)比算法和提出算法對(duì)高光譜影像進(jìn)行分類得到的結(jié)果如圖2所示。其中，圖2(a)為K均值算法獲得的高光譜影像分類結(jié)果，圖2(b)為提出算法獲得的高光譜影像分類結(jié)果。

圖2 高光譜影像分類結(jié)果Fig.2 Classification results of hyperspectral images

從視覺上看，K均值算法將C1和C2類分成了一類，將C10和C11類分成了一類，C8和C15類區(qū)域錯(cuò)分成了4個(gè)類別。本文算法將C1和C2類部分區(qū)域分開，將C10和C11類分開，將C3類的大部分區(qū)域分了出來。

對(duì)比算法和提出算法分類結(jié)果的精度如表2所示，以定量評(píng)價(jià)提出算法的分類效果。通過比較各分類算法的結(jié)果影像與標(biāo)準(zhǔn)分類影像可得到關(guān)于各類別地物的混淆矩陣，并以此可以計(jì)算出分類結(jié)果的各個(gè)精度值。結(jié)合分類精度和分類結(jié)果可知，導(dǎo)致分類精度比較低的原因是影像中存在同物異譜和異物同譜現(xiàn)象，主要代表類別為C3，C8，C15類，尤其是C8和C15類之間，其異物同譜及同物異譜現(xiàn)象十分明顯；C3類中，上半部分與C5類異物同譜，下半部分與C12類異物同譜。由于本文方法是根據(jù)光譜進(jìn)行分類，所以這種光譜相近的類別很難分開。在實(shí)驗(yàn)中，對(duì)高光譜影像分別運(yùn)用K均值算法、本文算法以及將本文算法中求得的w取倒數(shù)進(jìn)行分類，對(duì)應(yīng)的總精度分別為54.73%，78.08%，47.77%，由此可見引入w的有效性。

表2 高光譜影像分類結(jié)果精度評(píng)價(jià)

3 結(jié)束語

本文提出了一種融合波段加權(quán)的高光譜影像分類算法，提出算法為了有效地利用高光譜影像的波段信息，將特征加權(quán)思想引入到K均值算法中，該思想提供了一種數(shù)據(jù)變換的方式，同時(shí)通過特征權(quán)重的定義提供將對(duì)地物目標(biāo)的認(rèn)知融入算法模型的途徑。該方法也算是提供了一種新的降維方式，打破了傳統(tǒng)硬性的波段選擇方式，通過波段權(quán)重來定義波段的重要性。在未來的工作中，需要考慮如何根據(jù)具體的任務(wù)對(duì)特征加權(quán)。