国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于卷積神經(jīng)網(wǎng)絡(luò)的紅外光譜建模分析綜述

2021-08-31 00:57劉池池孔松濤
紅外技術(shù) 2021年8期
關(guān)鍵詞:光譜卷積神經(jīng)網(wǎng)絡(luò)

王 堃,史 勇,劉池池,謝 義,蔡 萍,孔松濤

〈綜述與評論〉

基于卷積神經(jīng)網(wǎng)絡(luò)的紅外光譜建模分析綜述

王 堃,史 勇,劉池池,謝 義,蔡 萍,孔松濤

(重慶科技學(xué)院 機械與動力工程學(xué)院,重慶 401331)

紅外光譜技術(shù)存在著數(shù)據(jù)預(yù)處理復(fù)雜、預(yù)測精度不高,且難以處理大量非線性數(shù)據(jù)的問題,適于用卷積神經(jīng)網(wǎng)絡(luò)進行處理。本文首先分析了卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在紅外光譜上的優(yōu)點,并對卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)組成進行簡單的概述。然后針對卷積神經(jīng)網(wǎng)絡(luò)在光譜分析建模中的輸入數(shù)據(jù)維度問題進行詳細闡述;針對模型設(shè)計中卷積核參數(shù)的影響、多任務(wù)處理模型以及訓(xùn)練過程中的優(yōu)化方法進行綜述。最后分析了該研究的優(yōu)點與不足,并展望了未來的發(fā)展趨勢。

紅外光譜;卷積神經(jīng)網(wǎng)絡(luò);維度;建模

0 引言

隨著化學(xué)計量學(xué)和儀器測量技術(shù)的發(fā)展,紅外光譜學(xué)已經(jīng)可以同時分析多個參數(shù),儀器設(shè)備也在向小型化升級,從而實現(xiàn)合并到單一平臺分析數(shù)據(jù)[1-5]。光譜學(xué)如今對化學(xué)領(lǐng)域中的質(zhì)量控制與產(chǎn)品分析具有重要作用。在石油化工、農(nóng)業(yè)、醫(yī)藥、煙草、食品、環(huán)境監(jiān)測、航空航天等領(lǐng)域得到了廣泛的應(yīng)用[6]。例如天津港東科技公司利用紅外光譜法檢測新冠肺炎防護口罩的質(zhì)量,對口罩產(chǎn)品進行輔助評價[7]。然而,由于光譜信息變量與要處理的各種變量之間存在共線性關(guān)系,因此,測定產(chǎn)品中特定的化學(xué)成分的濃度是很困難的[8]。

紅外光譜學(xué)在數(shù)據(jù)分析過程中主要包括數(shù)據(jù)預(yù)處理與建立模型兩個步驟。光譜預(yù)處理主要有基線校正、散射校正、平滑和歸一化等4個步驟,每個步驟又有若干種方法[9]。一方面通過試錯法選擇預(yù)處理方法會增加復(fù)雜度。另一方面,采集光譜數(shù)據(jù)不穩(wěn)定,影響因素較多,環(huán)境、產(chǎn)源、設(shè)備等因素發(fā)生變化時,光譜信號的噪聲也會發(fā)生改變,以至于預(yù)處理方法產(chǎn)生不適應(yīng)性,導(dǎo)致模型預(yù)測能力的下降。在對光譜數(shù)據(jù)建立模型時所用的各種方法,如支持向量機[10],人工神經(jīng)網(wǎng)絡(luò)[11],隨機森林[12],立體派回歸樹,偏最小二乘回歸[13]等,都是在探索處理大量輸入變量的能力。

以上模型的性能取決于光譜預(yù)處理技術(shù)的使用。如何選擇一種良好的數(shù)據(jù)預(yù)處理方法仍是主要關(guān)注的問題[14]。而機器學(xué)習(xí)學(xué)界則提出一個更為直接的解決方案,即對數(shù)據(jù)進行學(xué)習(xí),從而識別并挖掘數(shù)據(jù)中隱藏的潛在信息[15]。隨著對機器學(xué)習(xí)不斷地研究與發(fā)展,它相比傳統(tǒng)的方法具有以下優(yōu)勢:①具有非線性建模能力;②具有良好的泛化能力;③對預(yù)處理的要求較少。

卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)是近年來備受關(guān)注的深度學(xué)習(xí)的一個子集,在計算機視覺領(lǐng)域有著重要的作用[16]。在光譜學(xué)的應(yīng)用中,卷積神經(jīng)網(wǎng)絡(luò)作為一種端到端的模型,可以采取較少的數(shù)據(jù)預(yù)處理甚至不進行數(shù)據(jù)預(yù)處理,直接對光譜信號進行采集、訓(xùn)練、驗證、測試,可避免需要掌握過多的專業(yè)知識,降低了操作難度。例如卷積核函數(shù)不僅可以提取近紅外光譜的抽象特征,還可以選擇特征最明顯的波長,并消除沒有信息的波長。Chen Yuanyuan[17]等人研究發(fā)現(xiàn)直接將采集到的全部原始光譜信息作為輸入,不對紅外光譜進行波長選擇時,建立一個基于卷積神經(jīng)網(wǎng)絡(luò)的近紅外光譜端到端的定量分析模型,并以玉米近紅外數(shù)據(jù)集為實驗,驗證了該方法的有效性。且廣義性能更優(yōu)于基于波長選擇的傳統(tǒng)方法。Ni C.[18]等人也建立了一個一維變權(quán)卷積神經(jīng)網(wǎng)絡(luò),可以自動將網(wǎng)絡(luò)注意力集中到重要的光譜波長上,對馬尾松幼苗葉片氮含量進行了預(yù)測,結(jié)果證明模型的泛化能力得到了提高。

卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用使紅外光譜技術(shù)得到了提升,本文針對卷積神經(jīng)網(wǎng)絡(luò)在紅外光譜技術(shù)上的應(yīng)用方法以及影響因素進行了綜述,并詳細分析了該方法的優(yōu)點和局限性,以及未來的發(fā)展趨勢。

1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

Le Cun[19]等人在1989年首先提出了卷積神經(jīng)網(wǎng)絡(luò)的概念,并在1998年對其實現(xiàn)了改進,該架構(gòu)被命名為LeNet-5,其網(wǎng)絡(luò)模型如圖1所示。一個典型的CNN模型有一個輸入層、幾個隱藏層(卷積層、池化和全連接)和一個輸出層。隨后Hinton和Alex Krizhevsky在2012年設(shè)計出了AlexNet[20],首次在CNN中成功應(yīng)用了ReLU、Dropout和LRN等Trick,大大提高了CNN的性能。卷積神經(jīng)網(wǎng)絡(luò)是一個多層非全連接的神經(jīng)網(wǎng)絡(luò),在正向傳播過程中利用卷積層和池化層相互交替學(xué)習(xí),提取原始光譜數(shù)據(jù)的特征;反向傳播過程中利用梯度下降算法最小化誤差函數(shù)來調(diào)整參數(shù),完成權(quán)值更新[21]。

1.1 輸入層

輸入層用于接收待處理的多維原始光譜數(shù)據(jù)。針對紅外光譜,輸入層通常需要指定寬度、高度通道。如果輸入的數(shù)據(jù)是光譜圖,那么通道的數(shù)量通常設(shè)置為3個,以說明通道的顏色(紅色、綠色和藍色)。如果輸入數(shù)據(jù)是一維光譜信號,則通道數(shù)設(shè)置為1。

圖1 LeNet-5網(wǎng)絡(luò)模型示意圖[19]

1.2 卷積層

在卷積層中,對輸入的光譜信息進行特征提取,由一個在輸入端滑動的卷積核組成。在公式上,卷積層可以表示為:

式中:xy分別是第個輸入映射和第個輸出映射;k是特征圖和之間的卷積核;*表示卷積;b是第個特征圖的偏置參數(shù)。一個單獨的卷積層能夠識別簡單的特征,當(dāng)增加更多的層時,網(wǎng)絡(luò)能夠提取更加復(fù)雜和抽象的特征[22]。對光譜信號做卷積運算時,需考慮光譜信號的維度與卷積核的維度的適應(yīng)性,具體方法將在第3章中介紹。

1.3 激活函數(shù)

激活函數(shù)可以在復(fù)雜的學(xué)習(xí)模式中做出決策,使學(xué)習(xí)過程更快。卷積特征圖的激活函數(shù)定義式:

T=A(F) (2)

式中:F是卷積運算的輸出,傳遞給激活層;A()會通過非線性函數(shù)運算返回第層輸出T。通常使用的幾個非線性組合激活函數(shù),如sigmoid,tanh,maxout,ReLU和ReLU的變體如leaky ReLU、ELU和PReLU[23-27]。光譜信號包含非常多的非線性數(shù)據(jù),因此激活函數(shù)的存在可以使光譜數(shù)據(jù)有更好的非線性表達。

1.4 池化層

池化層用于降低特征圖的維數(shù),同時保留輸入的特征信息。它通過減少參數(shù)數(shù)量和防止過擬合來降低計算成本,從而提高了網(wǎng)絡(luò)的通用性和準確性。池化層的計算過程可表示為:

=pool(-1) (3)

式中:-1和分別是第-1層、第層輸出特征上相應(yīng)的值;pool為所選擇的池化方式,包括最大值池化、平均池化、L2、重疊和空間金字塔合并等[28-29]。

1.5 批次歸一化

批次歸一化用于解決與特征圖中內(nèi)部協(xié)方差平移有關(guān)的問題。公式(4)表示對變換后的特征圖T的批次歸一化。

式中:N表示歸一化特征圖;F是輸入特征圖;B和B2分別表示小批次特征圖的均值和方差。批次歸一化通過將特征圖值設(shè)為零均值和單位方差來統(tǒng)一其分布[30]。

1.6 Dropout

Dropout在網(wǎng)絡(luò)中引入了正則化,通過隨機跳過某些單元或以一定概率跳過某些連接,從而提高網(wǎng)絡(luò)的泛化性[31]。某些單元或連接的隨機丟棄會產(chǎn)生若干稀疏的網(wǎng)絡(luò)結(jié)構(gòu),最后以較小的權(quán)值選出一個具有代表性的網(wǎng)絡(luò),視其為所有擬議網(wǎng)絡(luò)的近似值[32]。

1.7 全連接層

CNN在經(jīng)過卷積與池化過后,與全連接層相連接。全連接層通常用于網(wǎng)絡(luò)末端的分類任務(wù)[33]。與卷積與池化不同,它從前一層獲取輸入后,從全局分析特征[34]。然后將特征進行非線性組合,進行數(shù)據(jù)分類[35]。全連接層如圖2所示。

圖2 全連接層示意圖

2 維度轉(zhuǎn)換

現(xiàn)在,世界上有很多流行的免費開源深度學(xué)習(xí)框架,例如Caffe、Tensorflow、Torch和MatConv。默認情況下,這些框架的輸入信號是二維(2D)或三維(3D)圖像,在對圖像的處理上有很強的能力。光譜信號是一維信號圖,不能直接使用上述模型。所以為了更好地利用CNN模型,需要對數(shù)據(jù)或模型進行維度轉(zhuǎn)換。

2.1 光譜信號轉(zhuǎn)變?yōu)楣庾V圖

由于CNN模型適用于二維信號輸入,將光譜轉(zhuǎn)變?yōu)楣庾V圖的二維表示,從而實現(xiàn)CNN的適用。早在1974年,Potter等人[36]就得到了聲譜圖,使人們可以看到聲音。聲譜圖是二維空間中信號的一種表示,其中信號的大小由像素的值表示。而光譜圖通常是通過將信號分解成重疊的片段,并對其進行短時快速傅里葉變換來生成[37]。將生成的光譜圖應(yīng)用在二維卷積神經(jīng)網(wǎng)絡(luò)模型中,進而對光譜圖上的信息進行預(yù)測。

J. Padarian等人[38]在研究使用深度學(xué)習(xí)預(yù)測土壤屬性中,使用了Hann窗口[39],片段長度為100,有50個重疊的觀測值,采樣頻率為1。生成光譜圖后,將其轉(zhuǎn)換為對數(shù)刻度,從而生成了一個2D頻譜,成功地從長度為4200的向量轉(zhuǎn)換為51×83的矩陣(頻率波長),如圖3所示,從而利用CNN對一維光譜信號進行建模。Ng Wartini[40]采用J. Padarian提出的方法,轉(zhuǎn)換成光譜圖,同樣實現(xiàn)了CNN的應(yīng)用,且CNN模型表現(xiàn)優(yōu)于Cubist和PLSR模型,這與Padarian等人發(fā)現(xiàn)的結(jié)果一致。此外,在Padarian等人的研究基礎(chǔ)上又測試了一維光譜作為輸入的性能,并對二者進行比較,結(jié)果發(fā)現(xiàn)將一維光譜輸入到CNN模型比將光譜轉(zhuǎn)換為二維光譜圖作為輸入性能更優(yōu)秀。

Qibin Wang等人[41]利用L. Wen[42]等人提出的一種將一維信號轉(zhuǎn)換為二維圖像以滿足二維CNN輸入要求的信號轉(zhuǎn)換方法,從而提出了一種二維深度卷積神經(jīng)網(wǎng)絡(luò),用于快速評估可靠性和預(yù)測軸承使用壽命。結(jié)果顯示在軸承可靠性評估和可靠性預(yù)測方面具有良好的準確性和快速計算能力,特別是在時間消耗方面比其他深度學(xué)習(xí)網(wǎng)絡(luò)要短。

2.2 光譜信號轉(zhuǎn)變?yōu)楣庾V信息矩陣

一維的光譜信息之間的相關(guān)性很難被CNN模型發(fā)現(xiàn),而二維光譜信息矩陣可以求取數(shù)據(jù)之間的自相關(guān),對光譜數(shù)據(jù)之間的空間信息與原始光譜特征都可以實現(xiàn)特征提取。二維光譜信息矩陣的輸入也可以適應(yīng)卷積層的操作要求,增強了模型的表達能力[43]。

設(shè)為某一樣本的光譜數(shù)據(jù)向量,且為列向量形式,則該樣本的二維光譜信息矩陣為:

=T(5)

假設(shè)是三維光譜數(shù)據(jù)列向量,則一個典型的二維光譜信息矩陣為:

在統(tǒng)計學(xué)中,該方陣即為原光譜數(shù)據(jù)的信息矩陣。信息矩陣的特性就是能夠囊括原始數(shù)據(jù)中的所有信息,并且能夠充分體現(xiàn)數(shù)據(jù)方差和協(xié)方差的相對大小。該方法較一維光譜信息輸入一維卷積模型而言,對原始光譜信息有著更全面的表達,且符合CNN模型的數(shù)據(jù)處理要求。在光譜分析研究方面,二維光譜信息矩陣與二維相關(guān)光譜等高圖相似,其特性是能夠從一定程度反映光譜數(shù)據(jù)的波動情況。更有利于CNN學(xué)習(xí)光譜數(shù)據(jù)的內(nèi)部結(jié)構(gòu),取得更好的模型表達效果。王璨[44]等人在預(yù)測土壤含水率時、溫馨[45]在檢測水果糖度時,都使用該方法使一維光譜信號成功適用于二維CNN模型上,通過訓(xùn)練模型取得了較好的預(yù)測結(jié)果。

2.3 構(gòu)建一維卷積網(wǎng)絡(luò)

二維卷積神經(jīng)網(wǎng)絡(luò)在圖像上的特征提取有著獨到的優(yōu)勢,1D-CNN同2D-CNN不同,輸入數(shù)據(jù)不需要對光譜信號進行處理,在維度上更具適用性;此外,1D-CNN模型結(jié)構(gòu)更加緊湊,在硬件上的要求更低,使成套配置實時高效、低成本成為可能;值得注意的是,卷積神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)集的大小有著較高的要求,而一維數(shù)據(jù)由于維度上的特點,在訓(xùn)練中可以降低對樣本數(shù)量的要求也可實現(xiàn)較好的擬合。1D-CNN的關(guān)鍵就是構(gòu)建一維卷積核,體現(xiàn)在卷積核大小參數(shù)上的設(shè)置為×1。離散信號(),()的定義如下:

式中:為信號()的長度;()為卷積結(jié)果序列,長度為len(())+len(())-1。

Serkan Kiranyaz[46]綜述了緊湊一維CNN的主要信號處理應(yīng)用,包括心電圖監(jiān)測的應(yīng)用、振動信號的應(yīng)用、電力機械和電路的應(yīng)用、復(fù)雜度分析的計算。并表明采用適當(dāng)?shù)南到y(tǒng)方法,壓縮一維CNN可以在計算復(fù)雜度最小的情況下獲得最優(yōu)的性能。Salim Malek[7]等人在研究用于光譜信號回歸的一維卷積神經(jīng)網(wǎng)絡(luò)中,提出了一種利用一維CNN進行化學(xué)計量數(shù)據(jù)分析的新方法??紤]輸入數(shù)據(jù)為一維數(shù)據(jù),在卷積層上應(yīng)用了一維卷積核,在訓(xùn)練階段修改正向傳播和反向傳播的方程,從而使2D-CNN適應(yīng)了光譜數(shù)據(jù)的單維性質(zhì)。Chen Yuanyuan[17]等人在研究基于集成卷積神經(jīng)網(wǎng)絡(luò)的紅外光譜定量分析建模中,為了解決一維數(shù)據(jù)在CNN上的不適應(yīng)性,做了如下轉(zhuǎn)換:假設(shè)1D的近紅外信號是一個特殊的2D圖像,即圖像只包含一行(或一列)。相應(yīng)地,設(shè)計了一維卷積核函數(shù)來匹配輸入的近紅外光譜信號。Chen Yuanyuan[47]等人又使用同樣的方法使數(shù)據(jù)適用,提出了一種新的基于卷積神經(jīng)網(wǎng)絡(luò)的近紅外光譜端到端定量分析建模方法。Liujinchao[48]等人在利用卷積神經(jīng)網(wǎng)絡(luò)識別拉曼光譜的研究中,同樣在CNN中訓(xùn)練了一維卷積核,也成功實現(xiàn)了拉曼光譜一維數(shù)據(jù)應(yīng)用在二維CNN上。魯夢瑤[49]在使用CNN對近紅外光譜分類中,將網(wǎng)絡(luò)中方形矩陣卷積核改為一維向量卷積核,使之適用于近紅外光譜數(shù)據(jù)。

綜上,盡管近紅外光譜信號作為一維信號與二維CNN具有不適應(yīng)性,但是可以將光譜信號轉(zhuǎn)換為光譜圖、構(gòu)建光譜信息矩陣或構(gòu)建一維卷積核,訓(xùn)練一維CNN,使CNN應(yīng)用在光譜信號的分析上成為可能。在研究GoogLe Net和VGG神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的時候,他們在某些層中都設(shè)置了大小為1×1的卷積核,這可以增加網(wǎng)絡(luò)的深度,增加非線性。可以發(fā)現(xiàn),一維CNN模型在光譜信號上的預(yù)測效果要優(yōu)于二維CNN模型,但他們的性能都優(yōu)于傳統(tǒng)的方法。值得注意的是一維卷積是針對單方向信息的特征提取,而信息矩陣的構(gòu)建可以在一維卷積核的基礎(chǔ)上,包含更多的空間信息,可以反應(yīng)信號的波動情況。

3 模型設(shè)計

設(shè)計CNN是一個需要頻繁重復(fù)的過程,它包括對各個參數(shù)的選定,如使用層的數(shù)量和類型,以及學(xué)習(xí)率。在建立模型時,各類參數(shù)對模型有著較為重要的影響,需要對其進行分析。模型的訓(xùn)練與優(yōu)化關(guān)系著模型的預(yù)測性能,針對不同的目的需要對方法進行綜合考慮。本章對模型中結(jié)構(gòu)參數(shù)的影響進行了討論,分析了多任務(wù)網(wǎng)絡(luò)模型的優(yōu)點,討論了訓(xùn)練過程中存在的一些問題以及解決辦法。

3.1 卷積核參數(shù)的影響

原始近紅外光譜與卷積核函數(shù)卷積運算的模式如圖5所示可以明顯發(fā)現(xiàn),當(dāng)卷積核函數(shù)在整個紅外光譜范圍內(nèi)移動時,卷積核函數(shù)會自動提取每個紅外光譜窗口的局部特征。有兩個問題需要關(guān)注,首先,卷積核函數(shù)的實際形式可能不是高斯分布,它對紅外原始數(shù)據(jù)有自己獨特的識別方式,并能提取出抽象的特征;其次,如圖4所示,移動步長與核大小的關(guān)系會影響卷積運算的結(jié)果。如果移動步長小于核尺寸(圖4(a)),說明在整個近紅外光譜范圍內(nèi)存在一定的重疊區(qū)域;如果移動步長等于核尺寸(圖4(b)),則意味著整個近紅外光譜范圍被平均劃分為若干個與間隔PLS(iPLS)方法相似的區(qū)間;如果移動步長大于內(nèi)核大小(圖4(c)),則會丟失一些有用的信息;因此,參數(shù)設(shè)定過程中應(yīng)盡量避免這種情況。

圖4 一維卷積核提取原始紅外光譜局部特征模式圖[46]

魯夢瑤[49]在利用一維近紅外光譜CNN模型對煙葉進行產(chǎn)區(qū)分類時,檢驗了卷積核尺寸對模型性能的影響,得到模型分類正確率隨卷積核尺寸變化的曲線如圖5所示,從而得出卷積核尺寸對模型的判別結(jié)果影響不大的結(jié)論。Wartini Ng[40]指出卷積核是用于特征檢測的權(quán)重矩陣,對于輸出特征圖的大小有著決定作用。Chen Yuanyuan[47]等人則認為隨著卷積核大小的增加,定量模型的預(yù)測性能會提高。這是因為,如果卷積核太小,就很難在每個內(nèi)核窗口中提取有效的信息。同時指出卷積核數(shù)對模型性能的影響很小,因此我們可以將其設(shè)置為一個較小的值,以減少計算量,并驗證了步長大小的變換對預(yù)測能力的影響很小。

圖5 不同卷積核尺寸的 NIR-CNN 模型判別結(jié)果[49]

綜上所述,模型中的參數(shù)直接影響了模型的最終性能。在進行模型參數(shù)的設(shè)置時,要注意避免卷積核移動步長大于卷積核尺寸,從而導(dǎo)致部分信息的缺失。此外,在卷積核的尺寸的設(shè)置既不能太小,因其無法獲取數(shù)據(jù)間隱藏的有效信息特征;也不能太大,因其光譜信息上的局部特征可能會丟失。卷積核的最佳尺寸需要在測試中不斷驗證,找到最合適的范圍值。

3.2 多任務(wù)網(wǎng)絡(luò)

CNN具有在單一網(wǎng)絡(luò)和訓(xùn)練過程中預(yù)測多種特性的能力,并且這種能力十分切合光譜學(xué)在分析物質(zhì)中的應(yīng)用。并且Ruder[50]指出,雖然當(dāng)一個模型專注于一個單一任務(wù)時可以獲得普遍可接受的性能,但是共享相關(guān)任務(wù)的信息可能會改進模型,使用多任務(wù)模型可以降低過度擬合的風(fēng)險。更值得注意的是,準確性隨著任務(wù)數(shù)量的增加而不斷增加[51]。多任務(wù)模型的使用已經(jīng)得到廣泛的研究,并得到了良好的效果。

J. Padarian[38]等人提出了一種多任務(wù)網(wǎng)絡(luò)來預(yù)測不同的土壤屬性。架構(gòu)有一系列的4個共享卷積層,每個屬性隨后有一系列的一個卷積核和一個全連接層,如圖6。網(wǎng)絡(luò)的頭部(“公共層”)是一系列卷積層和最大池化層。網(wǎng)絡(luò)的這一部分由所有目標土壤屬性共享,能夠了解光譜圖的結(jié)構(gòu)。在“共層”提取光譜圖數(shù)據(jù)的一般表示之后,信息被定向到6個不同的分支,每個分支對應(yīng)一個目標土壤屬性。發(fā)現(xiàn)結(jié)果同Ramsundar等人[52]在他們的藥物研究中所描述的相同,即準確性隨著任務(wù)數(shù)量的不斷增加而提高,這使得使用同一個模型同時從單一光譜中預(yù)測多種特性成為可能。

其中,“公共層”表示由所有預(yù)測屬性共享的層。每個分支對應(yīng)一個預(yù)測土壤性質(zhì),對應(yīng)一個卷積層(BN:瓶頸層,降低數(shù)據(jù)的維度)和一個大小為1的全連通層,對應(yīng)最終預(yù)測。

圖6 多任務(wù)網(wǎng)絡(luò)的體系結(jié)構(gòu)[41]

為多個輸出預(yù)測創(chuàng)建多個模型不是最優(yōu)的,因為從輸入中提取的數(shù)據(jù)可能是冗余的,并且輸入之間的相關(guān)性可能不會被保留。多任務(wù)學(xué)習(xí)可以通過在神經(jīng)網(wǎng)絡(luò)中擁有一些共享層和保持幾個非共享的特定于任務(wù)的輸出層來實現(xiàn)。這在簡單性和計算時間方面有重要的意義,而且還具有實現(xiàn)協(xié)同的能力。Ramsundar等人[51]和Padarian等人[38]都發(fā)現(xiàn),與單任務(wù)設(shè)置相比,多任務(wù)分配時模型性能顯著提高。但是Padarian等人發(fā)現(xiàn)多任務(wù)CNN在較小的數(shù)據(jù)集上并不有效,甚至表現(xiàn)出比傳統(tǒng)的模型更差的性能。所以數(shù)據(jù)集的大小對于深度學(xué)習(xí)多任務(wù)網(wǎng)絡(luò)有著很重要的影響。

Wartini Ng[40]在通過多任務(wù)模型研究土壤性質(zhì)相關(guān)性中,發(fā)現(xiàn)無論輸入光譜數(shù)據(jù)的類型如何,多任務(wù)CNN被發(fā)現(xiàn)在保持數(shù)據(jù)集的相關(guān)系數(shù)值方面效果最好,這些值由最低的絕對差異顯示。而傳統(tǒng)的PLSR和Cubist模型分別對每種土壤特性進行了預(yù)測,結(jié)果顯示土壤特性之間沒有保持相關(guān)性。雖然多任務(wù)CNN在學(xué)習(xí)過程中并沒有明確的使用輸出的相關(guān)結(jié)構(gòu),但是多任務(wù)優(yōu)化了所有的輸出變量,從而間接地保持了相關(guān)性。保持輸出相關(guān)性是多任務(wù)建模的目標之一[51]。

3.3 訓(xùn)練

在訓(xùn)練過程中,為了找到網(wǎng)絡(luò)的最優(yōu)權(quán)值,需要使用數(shù)據(jù)集對網(wǎng)絡(luò)進行多次訓(xùn)練。通常,在使用CNN時,數(shù)據(jù)是成批處理的,這就使得整個大型數(shù)據(jù)集可以在同一批次內(nèi)完成訓(xùn)練,而完成整個數(shù)據(jù)集的一次訓(xùn)練稱為一次迭代。魯夢瑤[49]與DU Jian[53]都驗證了隨著迭代次數(shù)的增加,模型預(yù)測性能逐漸提高,迭代次數(shù)到達一定次數(shù)時,性能基本不發(fā)生改變,這表示模型性能已達到最佳。

機器學(xué)習(xí),尤其是深度學(xué)習(xí),是一種受數(shù)據(jù)集規(guī)模大小影響較大的方法。模型的訓(xùn)練依賴于數(shù)據(jù)集。在訓(xùn)練過程中,數(shù)據(jù)集分為訓(xùn)練集、驗證集和測試集,訓(xùn)練集用于擬合或訓(xùn)練模型;驗證集用于參數(shù)選擇的預(yù)測誤差;測試集用于對模型的誤差進行評估。

在光譜數(shù)據(jù)的獲取上,目前仍是復(fù)雜且不穩(wěn)定的,訓(xùn)練樣本較少會使模型的訓(xùn)練更加容易過擬合,使得預(yù)測能力較差,所以對數(shù)據(jù)集進行數(shù)據(jù)增強是有必要的。

Jinchao Liu[48]為了減少數(shù)據(jù)量的需求,使用了擴增,這是增加CNN訓(xùn)練集大小的一種非常常見的方法。提出以下的數(shù)據(jù)擴充程序:①將每個頻譜向左或向右隨機移動幾個波數(shù);②加入隨機噪聲,與每個波數(shù)的大小成比例;③對于具有多個光譜的物質(zhì),將屬于同一物質(zhì)的所有光譜的線性組合作為增廣數(shù)據(jù)。

魯夢瑤[49]則討論了采樣間隔對模型訓(xùn)練的影響,這是針對存在較多光譜數(shù)據(jù)點時,要考慮分析選擇合適的采樣間隔,采樣間隔過大,準確率會下降;采樣間隔過小,則會增加網(wǎng)絡(luò)參數(shù),增加每次迭代的時間。Salim Malek[8]等人為克服訓(xùn)練樣本數(shù)量有限而導(dǎo)致的過擬合問題,引入了粒子群優(yōu)化算法來估計一維CNN的不同參數(shù)(權(quán)值),以代替標準的反向傳播算法。

Du Jian[53]等人為了改善光譜數(shù)據(jù)維度較高與訓(xùn)練樣本較少之間的不平衡,在模型中采用ReLU(Rectified Linear Unit)和Dropout方法。ReLU用來增強模型表達能力并加速收斂。Dropout適用于光譜數(shù)據(jù)高維輸入的特征,可以提高整個模型的魯棒性。并在訓(xùn)練結(jié)果中發(fā)現(xiàn)神經(jīng)元較少時,模型收斂速度較慢,隨著神經(jīng)元個數(shù)的增加,收斂速度明顯加快,但同時訓(xùn)練時間也明顯增加,訓(xùn)練誤差曲線波動較大。

在訓(xùn)練中,根據(jù)基于梯度的優(yōu)化方法調(diào)整權(quán)重,即對參數(shù)相對于誤差的偏導(dǎo)數(shù)進行評估并將參數(shù)調(diào)整到最小誤差值。參數(shù)沿誤差梯度的變化率由學(xué)習(xí)率控制。如果學(xué)習(xí)率太高,權(quán)重會隨著每次迭代變化過多,這將使參數(shù)在最優(yōu)解附近波動,或者只是發(fā)散;如果學(xué)習(xí)率太低,參數(shù)可能永遠不會收斂。Jinchao Liu[48]等人在訓(xùn)練CNN模型時,使用了Adam的訓(xùn)練算法[54],一種隨機梯度算法的變種,實現(xiàn)了較好的權(quán)重調(diào)整。

Chen Yuanyuan[47]等人在建模過程中,提出了使用自舉隨機抽樣機制,能夠保證定量分析模型的穩(wěn)定性(也稱“魯棒性”)優(yōu)于傳統(tǒng)方法。并且將L1范數(shù)正則化優(yōu)化算法與BP神經(jīng)網(wǎng)絡(luò)結(jié)合,分別建立每個數(shù)據(jù)集的定量分析模型后,發(fā)現(xiàn)CNN模型的廣義性能比基于波長選擇的模型性能要好,這證明CNN模型經(jīng)過較好的訓(xùn)練后,具有更好的波長選擇能力。

4 總結(jié)

在光譜學(xué)分析領(lǐng)域,深度學(xué)習(xí)方法具有非常大的應(yīng)用潛力[55]。本文針對卷積神經(jīng)網(wǎng)絡(luò)在光譜分析建模中的應(yīng)用進行綜述。很多研究都已驗證過CNN模型在光譜分析上的性能要優(yōu)于傳統(tǒng)的建模方法。此外,傳統(tǒng)的建模方法需要對數(shù)據(jù)進行各種數(shù)據(jù)預(yù)處理,這不僅會影響到模型的性能還需要人們掌握更多的專業(yè)知識,增加分析難度。但目前的研究已證明不經(jīng)過數(shù)據(jù)預(yù)處理的CNN模型也可以很好地實現(xiàn)預(yù)測能力甚至更優(yōu)于傳統(tǒng)方法。

CNN模型應(yīng)用到紅外光譜中的好處包括:1)多任務(wù)學(xué)習(xí)能力,該模型可以同時預(yù)測多個輸出,同時保持所有輸出之間的相關(guān)性,并對組成特性做出準確的估計;2)多維輸入利用率:該模型可以合并不同維度的多個輸入通道;3)更高的性能:與其他回歸模型如三次回歸、偏最小二乘回歸等相比,CNN模型具有更高的精度性能。但是CNN模型也有其局限性:1)深度學(xué)習(xí)需要大量的數(shù)據(jù)集,否則很容易過擬合;2)CNN模型所使用的參數(shù)數(shù)量較大,微調(diào)過程會很困難;3)由于需要訓(xùn)練許多參數(shù),因此對硬件的要求較高。

綜上所述,卷積神經(jīng)網(wǎng)絡(luò)在光譜分析上的應(yīng)用是值得肯定的,并且已經(jīng)取得較為理想的發(fā)展,但是仍然存在一些問題和困難,例如:光譜數(shù)據(jù)的最佳輸入方式、模型的最佳優(yōu)化算法、光譜數(shù)據(jù)集的限制,以及網(wǎng)絡(luò)模型結(jié)構(gòu)的功能性創(chuàng)新等都值得我們做更多的研究與探索。

[1] Gente R, Busch S F, Eva-Maria Stübling, et al. Quality control of sugar beet seeds with THz time-domain spectroscopy[J]., 2016, 6(5):754-756.

[2] Przybylek P. A new method for indirect measurement of water content in fibrous electro-insulating materials using near-infrared spectroscopy[J]., 2016, 23(3):1798-1804.

[3] Hiroaki I, Toyonori N, Eiji T. Measurement of pesticide residues in food based on diffuse reflectance IR spectroscopy[J]., 2002, 51(5): 886-890.

[4] Mignani A G, Ciaccheri L, Mencaglia A A, et al. Spectroscopy AS a “green” technique for food quality and safety applications[C]//, 2013: 1-2.

[5] Nishizawa S, Morita H, Iwamoto T, et al. Terahertz time-domain spectroscopy applied to nondestructive evaluation of pharmaceutical products[C]//2011,,, 2011: 1-2.

[6] ZOU Xiaobo, ZHAO Jiewen, Povey M J W, et al. Variables selection methods in near-infrared spectroscopy[J]., 2010, 667(1-2): 14-32.

[7] 周宣. 基于新型冠狀病毒肺炎防護的醫(yī)用口罩分類與使用[J].醫(yī)療裝備, 2020(15): 10-12.

ZHOU Xuan. Classification and use of medical masks based on new Coronavirus pneumonia protection[J]., 2020(15): 10-12.

[8] Malek S, Melgani F, Bazi Y. One-dimensional convolutional neural networks for spectroscopic signal regression[J]., 2017: e2977.

[9] LIU Xuemei, ZHANG Hailiang, SUN Xudong, et al. NIR sensitive wavelength selection based on different methods[C]//2010, 2010: 26-28.

[10] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//, 2012: 1097-1105.

[11] Devos O, Ruckebusch C, Durand A, et al. Support vector machines (SVM) in near infrared (NIR) spectroscopy: focus on parameters optimization and model interpretation[J]., 2009, 96(1): 27-33.

[12] Demeulemeester J, Smeets D, Barradas N P, et al. Artificial neural networks for instantaneous analysis of real-time rutherford backscattering spectra[J]., 2010, 268(10): 1676-1681.

[13] Lee S, Choi H, Cha K, et al. Random forest as a potential multivariate method for near-infrared (NIR) spectroscopic analysis of complex mixture samples: Gasoline and naphtha[J]., 2013, 110: 739-748.

[14] McCarty G W, Reeves J B, Reeves V B, et al. Mid-infrared and near‐infrared diffuse reflectance spectroscopy for soil carbon measurement[J]., 2002, 66(2): 640-646.

[15] Gerretzen J, Szyman?ska E, Jansen J J, et al. Simple and effective way for data preprocessing selection based on design of experiments[J]., 2015, 87(24): 12096-12103.

[16] Hubel D H, Wiesel T N. Receptive fields and functional architecture of monkey striate cortex[J]., 1968, 195(1): 215-243.

[17] CHEN Yuanyuan, WANG Zhibin. Quantitative analysis modeling of infrared spectroscopy based on ensemble convolutional neural networks[J]., 2018, 181: 1-10.

[18] NI C, WANG D, TAO Y. Variable weighted convolutional neural network for the nitrogen content quantization of Masson pine seedling leaves with near-infrared spectroscopy[J]., 2019, 209: 32-39.

[19] LeCun Y. The MNIST database of handwritten digits[EB/OL]. http://yann. lecun. com/exdb/mnist/, 1998.

[20] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]//, 2012:1097-1105.

[21] CHENG G, ZHOU P, HAN J. Learning rotation-invariant convolutional neural networks for object detection in VHR optical remote sensing images[J]., 2016, 54(12): 7405-7415.

[22] LeCun Y, Boser B E, Denker J S, et al. Handwritten digit recognition with a back-propagation network[C]//, 1990: 396-404.

[23] GU J, WANG Z, Kuen J, et al. Recent advances in convolutional neural networks[J]., 2018, 77: 354-377.

[24] WANG T, WU D J, Coates A, et al. End-to-end text recognition with convolutional neural networks[C]//21(ICPR2012), 2012: 3304-3308.

[25] XU B, WANG N, CHEN T, et al. Empirical evaluation of rectified activations in convolutional network[J/OL].:1505.00853, 2015.

[26] LeCun Y A, Bottou L, Orr G B, et al.[M]//Neural Networks: Tricks of the Trade, Springer, 2012: 9-48.

[27] Nwankpa C, Ijomah W, Gachagan A, et al. Activation functions: Comparison of trends in practice and research for deep learning[J/OL].:1811.03378, 2018.

[28] HE K, ZHANG X, REN S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]., 2015, 37(9): 1904-1916.

[29] Boureau Y L, Ponce J, LeCun Y. A theoretical analysis of feature pooling in visual recognition[C]//27(ICML-10). 2010: 111-118.

[30] Ioffe S, Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift[J/OL].:1502.03167, 2015.

[31] Hinton G E, Srivastava N, Krizhevsky A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J/OL].:1207.0580, 2012.

[32] Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]., 2014, 15(1): 1929-1958.

[33] Khan A, Sohail A, Zahoora U, et al. A survey of the recent architectures of deep convolutional neural networks[J]., 2020, 53(8): 5455-5516.

[34] LIN M, CHEN Q, YAN S. Network in network[J/OL]. arXiv preprint arXiv:1312.4400, 2013.

[35] Rawat W, WANG Z. Deep convolutional neural networks for image classification: a comprehensive review[J]., 2017, 29(1): 2352-2449.

[36] Potter R K, Kopp G A, Green H C. Visible Speech, New York, 1947[J]., 1962(8): 39.

[37] Griffin D, Lim J. Signal estimation from modified short-time Fourier transform[J].,,, 1984, 32(2): 236-243.

[38] Padarian J, Minasny B, McBratney A B. Using deep learning to predict soil properties from regional spectral data[J]., 2019, 16: e00198.

[39] Blackman R B, Tukey J W. The measurement of power spectra from the point of view of communications engineering[J]., 1958, 37(1): 185-282.

[40] Ng W, Minasny B, Montazerolghaem M, et al. Convolutional neural network for simultaneous prediction of several soil properties using visible/near-infrared, mid-infrared, and their combined spectra[J]., 2019, 352: 251-267.

[41] WANG Q, BO Z, MA H , et al. A method for rapidly evaluating reliability and predicting remaining useful life using two-dimensional convolutional neural network with signal conversion[J]., 2019, 33(6): 2561-2571.

[42] WEN L, LI X, GAO L, et al. A new convolutional neural network-based data-driven fault diagnosis method[J]., 2017, 65(7): 5990-5998.

[43] 謝麗娟. 轉(zhuǎn)基因番茄的可見/近紅外光譜快速無損檢測方法[D]. 杭州: 浙江大學(xué), 2009.

XIE Lijuan. Rapid non-destructive detection of Transgenic tomatoes by visible/near-infrared Spectroscopy[D]. Hangzhou: Zhejiang University, 2009.

[44] 王璨, 武新慧, 李戀卿, 等. 卷積神經(jīng)網(wǎng)絡(luò)用于近紅外光譜預(yù)測土壤含水率[J]. 光譜學(xué)與光譜分析, 2018, 38(1): 42-47.

WANG Can, WU Xinhui, LI Xiangqing, et al. Application of convolutional neural network in near infrared spectroscopy to predict soil moisture content[J]., 2018, 38(1): 42-47.

[45] 溫馨. 基于深度學(xué)習(xí)的水果糖度可見/近紅外光譜無損檢測方法研究[D]. 北京: 北京交通大學(xué), 2018.

WEN Xin. A Nondestructive Testing Method forvisible/near-infrared spectra of fruit Sugar Based on Deep learning [D]. Beijing: Beijing Jiaotong University, 2018.

[46] Kiranyaz S, Ince T, Abdeljaber O, et al. 1-d convolutional neural networks for signal processing applications[C]//2019(ICASSP), 2019: 8360-8364.

[47] CHEN Y Y, WANG Z B. End-to-end quantitative analysis modeling of near‐infrared spectroscopy based on convolutional neural network[J]., 2019, 33(5): e3122.

[48] LIU J, Osadchy M, Ashton L, et al. Deep convolutional neural networks for Raman spectrum recognition: a unified solution[J]., 2017, 142(21): 4067-4074.

[49] 魯夢瑤, 楊凱, 宋鵬飛, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)的煙葉近紅外光譜分類建模方法研究[J]. 光譜學(xué)與光譜分析, 2018, 38(12):78-82.

LU M Y, YANG K, SONG P F, et al. The study of classification modeling method for near infrared spectroscopy of tobacco leaves based on convolution neural network[J]., 2018, 38(12):78-82.

[50] Ruder S. An overview of multi-task learning in deep neural networks [J/OL]. arXiv preprint arXiv:1706.05098, 2017.

[51] ZHANG Y, YANG Q. A survey on multi-task learning[J/OL]. arXiv preprint arXiv:1707.08114, 2017.

[52] Ramsundar B, Kearnes S, Riley P, et al. Massively multitask networks for drug discovery[J/OL]. arXiv preprint arXiv:1502.02072, 2015.

[53] DU Jian, HU Bingliang, LIU Yongzheng, et al. Study on quality identification of macadamia nut based on convolutional neural networks and spectral features[J]., 2018, 38(5): 1514-1519.

[54] Kingma D P, Ba J Adam: a method for stochastic optimization[J/OL]. arXiv preprint arXiv:1412.6980, 2014.

[55] Acquarelli J, van Laarhoven T, Gerretzen J, et al. Convolutional neural networks for vibrational spectroscopic data analysis[J]., 2017, 954: 22-31.

A Review of Infrared Spectrum Modeling Based on Convolutional Neural Networks

WANG Kun,SHI Yong,LIU Chichi,XIE Yi,CAI Ping,KONG Songtao

(,,401331,)

Convolutional neural networks are used to solve problems such as complex data preprocessing, low prediction accuracy, and difficulty in dealing with a large amount of nonlinear data in infrared spectroscopy. Moreover, owing to their strong feature extraction ability and good nonlinear expression ability, the application of convolutional neural networks in the modeling of infrared spectrum analysis has attracted attention. In this study, the advantages of the application of a convolutional neural network for the infrared spectrum are analyzed, and the structure and composition of the convolutional neural network are briefly summarized. Then, the dimension problem of the input data in the spectral analysis modeling of the convolutional neural network is described in detail. This paper reviews the influence of convolution kernel parameters in the model design, multi-task processing model, and optimization methods in the training process. Finally, the advantages and disadvantages of this research are analyzed, and future development trends are discussed.

infrared spectroscopy, convolutional neural network, dimension, modeling

O657.33

A

1001-8891(2021)08-0757-09

2020-08-16;

2020-10-26.

王堃(1980-),男,博士研究生,主要研究方向為傳熱反問題,E-mail:3938630@qq.com。

孔松濤(1969-),男,四川人,教授,研究生導(dǎo)師,博士。研究方向:流體流動與傳熱、工業(yè)大數(shù)據(jù)分析及鉆井與石油裝備,E-mail:kst@tom.com。

猜你喜歡
光譜卷積神經(jīng)網(wǎng)絡(luò)
基于三維Saab變換的高光譜圖像壓縮方法
基于遞歸模糊神經(jīng)網(wǎng)絡(luò)的風(fēng)電平滑控制策略
基于3D-CNN的高光譜遙感圖像分類算法
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
高光譜遙感成像技術(shù)的發(fā)展與展望
卷積神經(jīng)網(wǎng)絡(luò)的分析與設(shè)計
神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
從濾波器理解卷積
基于神經(jīng)網(wǎng)絡(luò)的中小學(xué)生情感分析
基于傅里葉域卷積表示的目標跟蹤算法