孫幫勇, 喻夢瑩, 姚 其
1. 西安理工大學(xué)印刷包裝與數(shù)字媒體學(xué)院, 陜西 西安 710054
2. 復(fù)旦大學(xué)工程與應(yīng)用技術(shù)研究院, 上海 200433
光譜圖像以數(shù)據(jù)立方體形式表達(dá)特定場景的空間和光譜信息, 譜段數(shù)為幾個到幾百個之間, 因此與三通道RGB圖像相比, 光譜圖像蘊(yùn)含更為豐富的光譜特征, 常被用于航空航天、 醫(yī)療診斷以及軍事遙感等挑戰(zhàn)性領(lǐng)域。 然而, 光譜成像設(shè)備結(jié)構(gòu)復(fù)雜、 數(shù)據(jù)處理難度大, 導(dǎo)致其成本較高、 應(yīng)用范圍不廣。 近年來, 在信息控制、 人工智能等理論快速發(fā)展背景下, 學(xué)者們提出了一系列RGB圖像光譜重建方法, 即在彩色RGB圖像基礎(chǔ)上利用特定數(shù)學(xué)模型計(jì)算出每個像素的高維光譜信息, 并達(dá)到一定的光譜重建精度, 從而極大提升了光譜圖像的應(yīng)用領(lǐng)域。
理論上, 由三維RGB圖像重建高維光譜數(shù)據(jù)是一個病態(tài)的數(shù)學(xué)逆問題, 特別是較高維度光譜重建(例如30譜段以上)的求解難度一直較大, 所以RGB圖像光譜重建已成為光學(xué)、 數(shù)學(xué)、 計(jì)算機(jī)視覺等領(lǐng)域的挑戰(zhàn)性研究熱點(diǎn)之一。 為解決該任務(wù), 一些學(xué)者通過稀疏編碼[1-3]、 維納估計(jì)[4]、 核偏最小二乘[5]、 相機(jī)響應(yīng)值擴(kuò)展[6-7]、 非線性降維[8]、 加權(quán)線性回歸[9]等方法恢復(fù)光譜數(shù)據(jù)立方體。 但是這些傳統(tǒng)光譜重建方法多是針對單張RGB圖像或單個RGB像素值建立三維到高維的映射關(guān)系, 忽略了單張圖像各像素間的空間信息相關(guān)性或者沒有考慮多張圖像間的共性光譜特征問題, 導(dǎo)致光譜重建精度偏低、 模型泛化性能不高。
近年來, 隨著深度學(xué)習(xí)理論的快速發(fā)展, 人們提出了一系列基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的光譜重建方法, 并獲得了較高的重建精度。 例如Yan等[10]通過聯(lián)合編碼RGB圖像局部和非局部相似性進(jìn)一步提高了光譜重建精度; 李勇[11]等提出了基于改進(jìn)殘差密集網(wǎng)絡(luò)的重建算法。 另外, Xiong等[12]針對光譜重建提出HSCNN的網(wǎng)絡(luò)框架去生成高光譜圖像; Nathan等[13]基于注意機(jī)制殘差密集模型提出了一種輕量級網(wǎng)絡(luò); Zhao等[14]提出使用像素重排列來減少像素信息的丟失, 從而提高光譜圖像的重建質(zhì)量; 劉鵬飛等[15]通過端到端的對抗生成網(wǎng)絡(luò)去恢復(fù)光譜圖像; Li等[16]提出了一種新的自適應(yīng)加權(quán)注意網(wǎng)絡(luò), 通過描述中間特征和上下文信息之間的相互依賴關(guān)系實(shí)現(xiàn)光譜重建。
研究發(fā)現(xiàn), 以上基于深度學(xué)習(xí)的光譜重建方法在一定程度上彌補(bǔ)了傳統(tǒng)重建方法的缺陷, 提高了光譜重建精度。 但是, 其深度網(wǎng)絡(luò)模型在高稀疏性光譜重建任務(wù)中的學(xué)習(xí)能力仍不足, 特別是三維RGB重建30譜段以上高光譜任務(wù)。 因此, 針對高維度的RGB圖像光譜重建任務(wù), 從提升各通道信息的特征提取能力和不同特征層之間信息融合能力出發(fā), 提出了一種基于雙重注意力機(jī)制的光譜重建網(wǎng)絡(luò), 其在提高重建網(wǎng)絡(luò)學(xué)習(xí)機(jī)制方面的工作和貢獻(xiàn)如下: (1)在提取單層次特征時, 構(gòu)建了有效多頻率通道注意力塊來計(jì)算多頻率通道信息, 同時采用一維卷積生成無降維的通道權(quán)重值, 從而準(zhǔn)確地獲取各通道之間的相互關(guān)系; (2)在提取多層次特征時, 引入層特征加權(quán)融合注意力塊學(xué)習(xí)不同深度特征層之間的關(guān)系, 優(yōu)化提取各特征層的關(guān)鍵信息。
實(shí)驗(yàn)采用IEEE光譜重建挑戰(zhàn)賽NTIRE 2020和美國Columbia大學(xué)CAVE兩個數(shù)據(jù)集進(jìn)行訓(xùn)練或測試。 NTIRE 2020數(shù)據(jù)集是由Specim IQ高光譜相機(jī)采集, 包含450張訓(xùn)練圖像、 10張驗(yàn)證圖像、 20張測試圖像, 每張圖像的空間分辨率為482×512, 光譜波段數(shù)為31, 光譜范圍為400~700 nm。 CAVE數(shù)據(jù)集是由Apogee Alta U260光譜相機(jī)采集的32張室內(nèi)圖像組成, 空間分辨率為512×512, 每張圖像31個波段, 光譜范圍為400~700 nm, 采樣間隔為10 nm。 本工作采用NTIRE 2020數(shù)據(jù)集的450張訓(xùn)練圖像作為訓(xùn)練集, 并將這些圖像在訓(xùn)練前按照步長64裁剪成128×128圖像塊以提高模型穩(wěn)定性, 測試集則選用NTIRE 2020的官方驗(yàn)證圖像集以及CAVE數(shù)據(jù)集的全部圖像。
本工作所提出的光譜重建網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示, 主要由淺層特征提取、 高光譜特征生成以及光譜重建三個模塊組成。 首先, 淺層特征提取模塊對輸入RGB圖像的淺層特征信息進(jìn)行提取, 選擇參數(shù)少、 特征提取效率高的3×3卷積進(jìn)行操作; 然后, 高光譜特征生成模塊對前端淺層特征進(jìn)行深度處理, 利用跳躍連接、 通道注意力和加權(quán)融合等機(jī)制生成信息豐富的高光譜特征; 最后, 重建模塊將已生成的高光譜特征轉(zhuǎn)換為指定維度的高光譜圖像。
圖1 所提算法的網(wǎng)絡(luò)結(jié)構(gòu)圖
可以看出, 高光譜特征生成模塊是所提重建網(wǎng)絡(luò)的關(guān)鍵, 其在網(wǎng)絡(luò)結(jié)構(gòu)上主要由M個殘差組(residual group, RG)堆疊而成, 這些RG通過跳躍機(jī)制進(jìn)行連接, 并利用層特征加權(quán)融合注意力機(jī)制進(jìn)行融合。 每一個RG內(nèi)部包含多個殘差頻率通道注意塊(residual frequency channel attention blocks, RFCAB), 為最大化提取各通道的有效信息, 并在RFCAB中引入了多頻率通道注意力機(jī)制來計(jì)算通道的最優(yōu)權(quán)重系數(shù)。 如圖1, 所構(gòu)建高光譜特征生成模塊的關(guān)鍵是, 在特征提取和學(xué)習(xí)過程中引入有效多頻率通道注意力機(jī)制(effective multi-frequency channel attention, EMFCA)和層特征加權(quán)融合注意力機(jī)制(layer feature weighted fusion attention, LFWFA), 這種雙重注意力機(jī)制分別從優(yōu)化計(jì)算多通道權(quán)重系數(shù)和多特征層之間的信息融合兩方面提升了光譜重建網(wǎng)絡(luò)的學(xué)習(xí)能力。 與常用的通過學(xué)習(xí)通道和空間權(quán)重系數(shù)去提高特征表達(dá)能力的通道-空間混合注意力機(jī)制相比, 本文所提雙重注意力機(jī)制重點(diǎn)在改進(jìn)傳統(tǒng)通道注意力的基礎(chǔ)上進(jìn)行有效的各通道特征提取, 同時利用LFWFA機(jī)制加權(quán)融合網(wǎng)絡(luò)學(xué)習(xí)的不同深度特征信息, 從而在特征提取和融合信息方面進(jìn)行光譜重建精度的提高。 以下對該雙重注意力機(jī)制在所提光譜重建網(wǎng)絡(luò)中的特征提取機(jī)理和對光譜重建精度的影響進(jìn)行闡述。
1.2.1 有效多頻率通道注意力機(jī)制
各通道注意力機(jī)制通過學(xué)習(xí)特征圖中不同通道的權(quán)重來優(yōu)化新分配特征信息, 應(yīng)用到光譜重建網(wǎng)絡(luò)中能夠一定程度提升光譜重建質(zhì)量。 如圖2(a), 傳統(tǒng)通道注意力機(jī)制的基本原理是, 通過全局平均池化壓縮空間信息再計(jì)算出一個標(biāo)量代表通道的分配權(quán)重, 其運(yùn)算簡單但易造成關(guān)鍵細(xì)節(jié)信息的丟失。 另外, 傳統(tǒng)通道注意力機(jī)制采用兩個非線性全連接層以先降維再升維的方式來計(jì)算通道權(quán)重系數(shù), 在降維中通道與權(quán)重系數(shù)不直接對應(yīng), 導(dǎo)致各通道的權(quán)重系數(shù)計(jì)算不夠準(zhǔn)確。
圖2 (a)通道注意力; (b)有效多頻率通道注意力
針對傳統(tǒng)通道注意力機(jī)制的缺陷, 本工作在光譜重建網(wǎng)絡(luò)中引入EMFCA以提高多通道特征提取精度。 EMFCA的學(xué)習(xí)過程如圖2(b)所示, 對于給定尺寸為C×H×W的輸入特征圖, 首先將其沿通道方向平均分為S部分, 其中C1=C2=…=CS=C/S,S為可被C整除的整數(shù)。 這些S均分的特征圖, 根據(jù)頻率分量計(jì)算方法[17], 都對應(yīng)特定的離散余弦變換(discrete cosine transform, DCT)頻率分量。 然后經(jīng)過DCT處理, S個DCT頻率分量與分離出來的S個特征圖對應(yīng)元素相乘, 再使用一維卷積快速生成通道權(quán)重系數(shù), 并將該權(quán)重系數(shù)與輸入特征相乘, 最后經(jīng)過殘差跳躍連接與輸入特征相加。 可以看出, 有效多頻率通道注意力與傳統(tǒng)通道注意力相比, 采用了DCT替代通道注意力中的全局平均池化壓縮信息策略, 并利用多個頻率分量來表示通道信息, 解決了使用全局平均池化壓縮時造成的信息丟失問題, 因?yàn)榇藭r全局平均池化壓縮相當(dāng)于DCT一個分量壓縮的結(jié)果。 另外, 有效多頻率通道注意力采用一維卷積去生成權(quán)重能夠避免維度縮減問題, 獲得了更為準(zhǔn)確的通道權(quán)重系數(shù), 同時也實(shí)現(xiàn)了通道間信息的有效交互。
1.2.2 層特征加權(quán)融合注意力機(jī)制
高光譜圖像的每個譜段對應(yīng)不同的成像波長, 所成像物體在每個成像波長的響應(yīng)是不同的, 若將高光譜圖像投影成三維RGB圖像, 各譜段圖像在形成R、 G、 B每個通道圖像時的貢獻(xiàn)會存在較大差異。 因此, 由RGB三通道圖像重建高維光譜圖像時, 所設(shè)計(jì)的高光譜特征生成模塊在計(jì)算不同的光譜特征層時, 應(yīng)該學(xué)習(xí)RGB圖像和高光譜圖像之間的依賴關(guān)系, 為各特征層本身以及不同層之間的相關(guān)性分配最優(yōu)的權(quán)重系數(shù)。 考慮到LFWFA在計(jì)算不同層權(quán)重、 獲取特征層關(guān)鍵信息方面的優(yōu)勢, 在光譜重建網(wǎng)絡(luò)中引入LFWFA來融合不同層的特征信息, 獲取它們之間的最優(yōu)依賴關(guān)系, 從而進(jìn)一步提高網(wǎng)絡(luò)的表達(dá)能力。
層特征加權(quán)融合注意力機(jī)制(LFWFA)的結(jié)構(gòu)如圖3所示, 該模塊的輸入是M個殘差組(RG)提取的中間特征層, 其維數(shù)為M×C×H×W, 利用層特征加權(quán)融合注意力機(jī)制計(jì)算各個殘差組的權(quán)重, 可實(shí)現(xiàn)所有殘差組特征信息的優(yōu)化融合, 最終輸出維數(shù)為MC×H×W。 在所提出的光譜重建網(wǎng)絡(luò)中, 首先將殘差組輸入特征轉(zhuǎn)換為M×CHW的矩陣, 通過對該矩陣及其轉(zhuǎn)置進(jìn)行矩陣相乘運(yùn)算, 并使用softmax函數(shù)可計(jì)算出不同層之間的特征相關(guān)系數(shù); 然后利用相關(guān)系數(shù)與M×CHW矩陣進(jìn)行相乘, 同時將矩陣相乘運(yùn)算結(jié)果的維數(shù)轉(zhuǎn)換為M×C×H×W, 便于跳躍連接中與輸入特征相加; 最后對輸出特征進(jìn)行維度變換為MC×H×W。
圖3 層特征加權(quán)融合注意力
為了進(jìn)一步提高光譜重建質(zhì)量, 本工作基于高光譜圖像三維投影成RGB的先驗(yàn)知識, 在LMRAE(平均相對絕對誤差)的基礎(chǔ)上引入了RGB圖像損失函數(shù)LRGB, 以此提高光譜精度并同時增加視覺感受質(zhì)量。 由于NTIRE 2020數(shù)據(jù)集中的RGB圖像是通過CIE 1964顏色匹配函數(shù)將高光譜圖像轉(zhuǎn)換所得, 所以在計(jì)算LRGB損失函數(shù)時, 首先利用該顏色匹配函數(shù)將重建的光譜圖像轉(zhuǎn)換成RGB圖像, 然后與原始輸入RGB圖像進(jìn)行對比來計(jì)算LRGB損失。 因此, 損失函數(shù)可表示為
L=LMRAE+λLRGB
(1)
式(1)中,λ是調(diào)制參數(shù), 兩個損失函數(shù)被分別定義為
(2)
(3)
將python3.7作為編譯環(huán)境, 使用pytorch1.2作為深度學(xué)習(xí)模型框架。 由表1可知, 訓(xùn)練中設(shè)置殘差頻率通道注意力塊(RFCAB)個數(shù)P=5, 殘差組(RG)個數(shù)M=4,LRGB損失調(diào)制參數(shù)λ=3。 訓(xùn)練模型的批數(shù)量設(shè)置為4, 優(yōu)化器選擇Adam(β1=0.9、β2=0.999、ε=10-8), 初始學(xué)習(xí)率設(shè)置為0.000 1, 并采用多項(xiàng)式函數(shù)設(shè)置為power=1.5的衰減策略, 迭代次數(shù)設(shè)置為100。
表1 訓(xùn)練中RFCAB的數(shù)量P, RG的數(shù)量M和λ的數(shù)量對網(wǎng)絡(luò)的影響
采用四種客觀評價指標(biāo)來測試所提光譜重建方法的有效性, 分別為均方根誤差(RRMSE)、 峰值信噪比(RPSNR)、 光譜角映射器(RSAM)以及無量綱相對全局誤差 (RERGAS)。 其RSAM、RERGAS的計(jì)算方法分別為
(4)
(5)
四個評價指標(biāo)中,RRMSE越小或RPSNR越大, 重建的高光譜圖像與真實(shí)高光譜圖像的誤差就越小, 也就越接近于真實(shí)值; 而RSAM和RERGAS越小, 光譜畸變即失真程度就越小, 對應(yīng)光譜重建的質(zhì)量就越高。
為了驗(yàn)證所提光譜重建方法的有效性, 將其與現(xiàn)有的7種主流方法進(jìn)行對比, 分別為Arad[2], A+[3], Galliani[18], Yan[10], Nathan[13], HRNet[14]和AWAN[16]等重建模型。 圖4和圖5分別為NTIRE 2020數(shù)據(jù)集和CAVE數(shù)據(jù)集所選代表性測試圖像在5個波段上的重建誤差圖, 所選5個波段為470、 520、 570、 630和680 nm, 其對應(yīng)的波段排列順序是圖中的第一行到第五行。 而誤差熱圖是通過計(jì)算真實(shí)高光譜圖像和重建高光譜圖像之間像素絕對誤差獲得, 在該誤差圖中, 熱圖顯示的顏色越藍(lán), 代表重建的誤差越小, 即所重建的光譜質(zhì)量越高。
圖5 CAVE數(shù)據(jù)集中一個高光譜圖像在5個波段上的重建誤差圖
如圖4和圖5所示, 與其他7種方法相比, 所提光譜重建方法在5個波段的誤差都相對較小, 證明該方法更具有先進(jìn)性。 具體分析, Arad是一種基于稀疏恢復(fù)的光譜重建方法, 其誤差在所有波段都比較大, 特別是470和520 nm波段更為明顯, 這主要是因?yàn)樵摲椒ㄒ蕾囎值溥x取導(dǎo)致重建精度不高。 A+是在Arad的稀疏編碼方法上進(jìn)行改進(jìn)的算法, 雖然在一定程度上提高了Arad的重建性能, 但其在470和520 nm波段的誤差仍然較大, 這是由于該模型單獨(dú)對RGB矢量進(jìn)行處理, 沒有充分考慮圖像的空間上下文信息。 Galliani和Yan是基于CNN的早期光譜重建方法, 網(wǎng)絡(luò)結(jié)構(gòu)簡單, 其在470、 520和680 nm的重建精度不高, 主要由于特征提取和學(xué)習(xí)能力不高所造成的。 Nathan是一個基于輕量級的殘差密集注意力網(wǎng)絡(luò), 涉及參數(shù)的數(shù)量個數(shù)很少, 其重建能力在所有5個波段表現(xiàn)比較均衡, 但都存在一定的誤差。 HRNet使用像素重排列和殘差密集塊去重構(gòu)高光譜圖像, 雖然能夠保留原始像素信息, 但是不能夠有效地去除偽影, 導(dǎo)致其重建效果不理想, 尤其是在680 nm波段處重建的圖像, 對應(yīng)較大的光譜誤差。 AWAN利用自適應(yīng)加權(quán)注意網(wǎng)絡(luò)挑選出空間域和通道域的有用特征信息, 從而獲得了高質(zhì)量的高光譜圖像, 其在5個波段的重建性能整體上優(yōu)于前6種。 而本工作通過引入EMFCA和LFWFA學(xué)習(xí)機(jī)制, 優(yōu)化了通道權(quán)重分配過程并提取到最優(yōu)的特征信息, 在5個波段的重建誤差最小, 從而證明其在以上所列出對比模型中的光譜重建性能是最優(yōu)的。
表2和表3進(jìn)一步對所有模型在NTIRE 2020和CAVE數(shù)據(jù)集上的表現(xiàn)進(jìn)行定量分析。 可以看出, 在NTIRE 2020數(shù)據(jù)集上, 所提方法與目前已有文獻(xiàn)中重建性能較好的AWAN方法相比, 在RRMSE、RSAM、RERGAS指標(biāo)上分別降低了18.9%、 16.6%、 22.2%, 而RPSNR指標(biāo)提高了4.5%。 在CAVE數(shù)據(jù)集上, 與其他7種方法相比, 所提方法在RRMSE、RPSNR指標(biāo)上表現(xiàn)最好, 而在RSAM、RERGAS指標(biāo)上雖然不是最高但依然排在前列。 所以, 通過綜合分析兩個測試集上的四種客觀量化指標(biāo)表現(xiàn), 也證明所提方法優(yōu)于其對比的7種同類方法。
表2 NTIRE 2020數(shù)據(jù)集的定量結(jié)果
表3 CAVE數(shù)據(jù)集的定量結(jié)果
為驗(yàn)證EMFCA和LFWFA模塊表現(xiàn), 本文在NTIRE 2020數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn), 結(jié)果如表4所示。 a代表大量普通卷積層堆疊而成的基準(zhǔn)網(wǎng)絡(luò), b代表在a的基礎(chǔ)上附加LFWFA模塊, 以通過加權(quán)融合不同層的特征信息來獲得網(wǎng)絡(luò)不同深度特征信息的依賴性, 與a相比, b的結(jié)果使RRMSE指標(biāo)降低了13.8%。 c代表在a的基礎(chǔ)上, 僅引入EMFCA模塊, 其在RRMSE指標(biāo)上比a降低了22.7%, 主要原因是EMFCA模塊有效地提取到了通道間相關(guān)聯(lián)特征信息, 增強(qiáng)了網(wǎng)絡(luò)的特征表達(dá)能力。 d為本文所提出方法, 其結(jié)合EMFCA和LFWFA模塊進(jìn)一步加強(qiáng)了網(wǎng)絡(luò)的學(xué)習(xí)能力, 實(shí)驗(yàn)結(jié)果表明, 同時使用這兩個模塊獲得了最優(yōu)的性能。
表4 NTIRE 2020消融研究的對比結(jié)果
現(xiàn)有基于深度學(xué)習(xí)的RGB圖像光譜重建方法仍存在一定缺陷, 特別是重建圖像的結(jié)構(gòu)細(xì)節(jié)丟失以及光譜精度不夠高。 研究發(fā)現(xiàn), 該缺陷主要源于圖像重建網(wǎng)絡(luò)中的特征提取和融合方法存在不足, 為此提出了一種基于雙重注意力機(jī)制的RGB圖像光譜重建方法。 所建立的光譜重建網(wǎng)絡(luò)通過引入EMFCA和LFWFA, 實(shí)現(xiàn)了對有效通道特征的關(guān)注以及網(wǎng)絡(luò)不同深度特征的加權(quán)融合, 從而提高了光譜重建模型的精度。 在NTIRE 2020和CAVE兩個數(shù)據(jù)集上對所提算法和7種對比算法進(jìn)行試驗(yàn)驗(yàn)證, 結(jié)果表明, 本工作設(shè)計(jì)的網(wǎng)絡(luò)模型在主觀和客觀指標(biāo)方面均獲得了最優(yōu)重建效果, 其為進(jìn)一步擴(kuò)大高光譜圖像的應(yīng)用范圍提供了理論支持。 此外, EMFCA和LFWFA模塊一致性較強(qiáng), 可用于空間超分、 圖像分類、 壓縮光譜成像等其他領(lǐng)域。