基于WGAN的不均衡太赫茲光譜識別

2021-02-03 08:03朱榮盛劉英莉崔向偉

光譜學(xué)與光譜分析 2021年2期

朱榮盛，沈韜*，劉英莉，朱艷，崔向偉

1.昆明理工大學(xué)信息工程與自動化學(xué)院，云南昆明 650504 2.昆明理工大學(xué)云南省計算機技術(shù)應(yīng)用重點實驗室，云南昆明 650504

引言

太赫茲(Terahertz，THz)波是指頻率在0.1～10 THz之間的電磁波，在電磁波譜中位于微波和紅外輻射之間[1]。近年來，隨著太赫茲激發(fā)及探測技術(shù)的不斷發(fā)展，目前已有一部分太赫茲產(chǎn)品在實際生活中得到運用，并展現(xiàn)出極高的使用價值及廣闊的應(yīng)用前景[2-3]。由于許多有機分子的振動、轉(zhuǎn)動光譜以及分子間相互作用力落在太赫茲頻率波段，可將其作為“指紋譜”實現(xiàn)對物質(zhì)的定量定性分析[4-6]；同時由于太赫茲所具有的瞬態(tài)性、低能性和相干性等特征，使其在光譜識別[7,8]和成像領(lǐng)域[9-10]得到飛速發(fā)展。

通過實驗獲取到的太赫茲光譜數(shù)據(jù)庫存在數(shù)據(jù)規(guī)模不匹配問題，而標(biāo)準機器學(xué)習(xí)方法在不均衡數(shù)據(jù)集中表現(xiàn)不佳，影響太赫茲光譜數(shù)據(jù)的識別準確率[11]。2014年，劉進軍[12]提出基于懲罰機制的PFKSVM方法來克服K-SVM在最佳分類表面附近易于分類錯誤，并使用UCI公共數(shù)據(jù)集進行實驗驗證其方法在處理不均衡數(shù)據(jù)集中的優(yōu)勢。2019年，Tao等[13]提出了一種過采樣技術(shù)，該技術(shù)使用實值否定選擇(RNS)來生成人為的少數(shù)類數(shù)據(jù)，并將生成的少數(shù)類數(shù)據(jù)與多數(shù)類組合作為輸出。但是，這些方法在太赫茲領(lǐng)域解決數(shù)據(jù)不均衡問題時并未考慮太赫茲光譜所反映材料的物理和化學(xué)性質(zhì)。針對這一問題，本文提出了一種基于WGAN的不均衡太赫茲光譜識別方法來解決太赫茲光譜數(shù)據(jù)不均衡問題。

Wasserstein GAN是Arjovsky等[14]在2017年提出的一種改進GAN模型的新框架，該方法通過生成器與判別器的相互博弈產(chǎn)生以假亂真的數(shù)據(jù)，生成數(shù)據(jù)符合真實數(shù)據(jù)分布，并且能有效增加數(shù)據(jù)量。針對目前太赫茲光譜數(shù)據(jù)庫中各物質(zhì)數(shù)據(jù)量不均衡問題，本文提出一種基于WGAN的不均衡太赫茲光譜識別方法。首先利用生成對抗網(wǎng)絡(luò)學(xué)習(xí)真實太赫茲光譜數(shù)據(jù)分布，在WGAN達到納什均衡后用生成數(shù)據(jù)擴展太赫茲光譜數(shù)據(jù)集，使之達到類別均衡，最后采用多分類支持向量機對太赫茲光譜數(shù)據(jù)進行分類識別。

1 基于WGAN的太赫茲光譜識別方法

1.1 基礎(chǔ)理論

太赫茲光譜數(shù)據(jù)為實數(shù)值，采用GAN訓(xùn)練數(shù)據(jù)，模型會出現(xiàn)梯度不穩(wěn)定和多樣性不足等問題[14]。針對這些問題，將Wasserstein距離作為生成對抗網(wǎng)絡(luò)的衡量指標(biāo)，定義如式(1)

(1)

通過Kantorovich-Rubinstein對偶原理可得變換公式

W(P1,P2)=sup‖f‖L≤1Ex～P1[f(x)]-Ex～P2[(f(x))]

(2)

1.2 模型結(jié)構(gòu)

生成對抗網(wǎng)絡(luò)(generative adversarial network，GAN)是Goodfellow等[15]在2014年提出的一種概率生成模型，通過對抗過程估計生成模型的新框架。生成對抗網(wǎng)絡(luò)由兩個模型構(gòu)成，生成模型G和判別模型D，隨機噪聲z通過生成模型G生成盡量服從真實數(shù)據(jù)分布pdata(x)的樣本G(z)。

判別模型D是一個判別式網(wǎng)絡(luò)，判定接收到的樣本是否是來自pdata(x)，因此有

Ex～pdata(x)[log(D(x))]

(3)

其中E指代期望，通過根據(jù)正類(即判別出x屬于真實數(shù)據(jù)data)的對數(shù)函數(shù)構(gòu)建。

生成器D通過訓(xùn)練不斷提高欺騙判別器的概率，通過根據(jù)負類的對數(shù)函數(shù)構(gòu)建，即

Ez～pz(z)[log(1-D(G(z)))]

(4)

生成對抗網(wǎng)絡(luò)的本質(zhì)是二元零和博弈問題，即通過生成器不斷優(yōu)化生成函數(shù)與判別器不斷優(yōu)化判別網(wǎng)絡(luò)來達到最優(yōu)狀態(tài)，即

Ez～pz(z)[log(1-D(G(z)))]

(5)

生成對抗網(wǎng)絡(luò)給出了一種生成數(shù)據(jù)的新形式，即可通過對抗性學(xué)習(xí)模擬真實數(shù)據(jù)分布。而物質(zhì)的太赫茲光譜數(shù)據(jù)為實數(shù)值，將JS散度作為衡量值并不能很好的評估距離，因此通過使用Wasserstein距離來衡量生成部分和真實數(shù)據(jù)分布之間的距離，解決了生成對抗網(wǎng)絡(luò)在生成太赫茲光譜數(shù)據(jù)時訓(xùn)練過程不穩(wěn)定，模型優(yōu)化困難等問題。

2 實驗部分

實驗以麥芽三糖(Maltotriose)、麥芽六糖(Malthexaose)和麥芽七糖(Maltoheptaose)在0.9～6 THz內(nèi)的太赫茲透射光譜為例。首先通過S-G濾波對光譜數(shù)據(jù)進行濾波處理，然后通過三次樣條插值獲得相同的數(shù)據(jù)點。隨機選擇三種物質(zhì)預(yù)處理后的各一條太赫茲光譜數(shù)據(jù)曲線，如圖1所示。

圖1 三種物質(zhì)的太赫茲光譜Fig.1 Terahertz spectra of three substances

為了驗證該方法的有效性，我們首先使用WGAN生成數(shù)據(jù)，將物質(zhì)的光譜數(shù)據(jù)輸入到WGAN模型中。其次，生成模型G根據(jù)輸入數(shù)據(jù)的維度輸出與測試數(shù)據(jù)相同維度的隨機數(shù)。最后，判別模型D判別接收到的數(shù)據(jù)是否為太赫茲頻譜數(shù)據(jù)。當(dāng)判別模型D無法識別接收到的數(shù)據(jù)是真實數(shù)據(jù)還是生成數(shù)據(jù)時，該模型達到納什均衡。以Maltotriose為例，根據(jù)真實太赫茲光譜數(shù)據(jù)生成數(shù)據(jù)。在實驗設(shè)置中，設(shè)置最大迭代次數(shù)300 000次，每迭代1 000次模型保存一次數(shù)據(jù)。隨機選取5種不同迭代次數(shù)圖，如圖2所示。當(dāng)?shù)螖?shù)為1 000輪和5 000輪時，生成的數(shù)據(jù)僅為隨機噪聲。隨著迭代次數(shù)的增加，生成器不斷學(xué)習(xí)。當(dāng)模型迭代次數(shù)達到100 000輪時，生成數(shù)據(jù)逐漸類似于真實數(shù)據(jù)分布，當(dāng)達到200 000輪時，WGAN模型所輸出的生成數(shù)據(jù)分布基本符合真實Maltotriose數(shù)據(jù)分布。在對Maltotriose進行擴展數(shù)據(jù)時，選取迭代200 000輪后的生成數(shù)據(jù)。

圖2 不同迭代次數(shù)下WGAN的生成數(shù)據(jù)圖(a)：原始數(shù)據(jù)；(b)，(c)，(d)，(e)，(f)分別代表迭代1 000輪，5 000輪、10 000輪、100 000輪和200 000輪后的生成數(shù)據(jù)Fig.2 WGAN generated data graphs under different iterations(a) is the original data；(b),(c),(d),(e),and (f) respectively represent the generated data after 1 000 iterations,5 000 rounds,10 000 rounds,100 000 rounds,and 200 000 rounds

為了驗證WGAN處理不均衡數(shù)據(jù)集的效果，將三種不均衡物質(zhì)的數(shù)據(jù)組成數(shù)據(jù)集Database1，經(jīng)WGAN擴展后的均衡數(shù)據(jù)集為Database2。數(shù)據(jù)集中各物質(zhì)光譜數(shù)據(jù)如下：(1)Database1：在數(shù)據(jù)庫中隨機抽100條Maltotriose數(shù)據(jù)、900條Malthexaose數(shù)據(jù)和8100條Maltoheptaose數(shù)據(jù)。(2)Database2：使用WGAN生成的數(shù)據(jù)將Database1中每種物質(zhì)的數(shù)據(jù)補充為8 100條。在數(shù)據(jù)庫中隨機抽取每種物質(zhì)2 700條數(shù)據(jù)作為測試集。

3 結(jié)果與討論

數(shù)據(jù)集不均衡會對傳統(tǒng)的機器學(xué)習(xí)模型系統(tǒng)產(chǎn)生負面影響。為了緩解此問題，將WGAN用于生成太赫茲光譜數(shù)據(jù)，以便使太赫茲光譜數(shù)據(jù)集達到類別均衡。實驗證明，使用WGAN生成數(shù)據(jù)并擴展數(shù)據(jù)集，能夠有效解決小樣本數(shù)據(jù)偏向大樣本數(shù)據(jù)問題。表1和表2分別為SVM模型在Dataset1和Dataset2數(shù)據(jù)集下訓(xùn)練后測試集的混淆矩陣。

表1 使用Database1訓(xùn)練模型后測試集的混淆矩陣Table 1 Confusion matrix of test database after training model with Database1

從表1可以看出，Maltotriose和Malthexaose都出現(xiàn)被預(yù)測為Maltoheptaose的現(xiàn)象，其中Maltotriose最為明顯。但是沒有大量Maltoheptaose被預(yù)測為其他兩種數(shù)據(jù)的現(xiàn)象。

表2相比于表1，在數(shù)據(jù)預(yù)測偏向上得到改善，每種數(shù)據(jù)的偏向現(xiàn)象并不明顯，其中，Maltotriose和Malthexaose并沒有大規(guī)模偏向Maltoheptaose。根據(jù)表1，使用Dataset1進行SVM訓(xùn)練的模型測試集的預(yù)測準確性僅為65.69%。但是，當(dāng)使用Database2訓(xùn)練SVM時，模型精度提高到91.54%，均衡數(shù)據(jù)集上SVM的識別準確率比不均衡數(shù)據(jù)集提高25.85%。為了證明WGAN在處理不均衡太赫茲光譜數(shù)據(jù)上的優(yōu)越性，將WGAN與其他處理不均衡數(shù)據(jù)集的方法進行了比較，并以驗證集的準確性作為度量。表3為不同不均衡數(shù)據(jù)集處理方法的準確率對比。

表2 使用Database2訓(xùn)練模型后測試集的混淆矩陣Table 2 Confusion matrix of test database after training model with Database2

表3 不同算法下數(shù)據(jù)集的準確性對比Table 3 Comparison of the accuracy of the dataset under different algorithms

由表3可知，4種分類算法在dataset-1數(shù)據(jù)集上的訓(xùn)練集及驗證集的準確率都能達到80%以上。雖然未采用擴展數(shù)據(jù)的SVM模型能在訓(xùn)練集和驗證集上得到良好的識別準確率，但是在測試集上由于不均衡數(shù)據(jù)固有的缺點，導(dǎo)致識別準確率很差。SVM-COPY和FWSVM的測試集準確率都在85%左右，這兩種方式是現(xiàn)階段比較流行的處理不均衡數(shù)據(jù)集的方法，但是由于并沒有在數(shù)據(jù)集中增加有效的太赫茲光譜數(shù)據(jù)，所以測試集上的識別效果不是太理想。因此，利用WGAN模型能夠有效的生成太赫茲光譜數(shù)據(jù)，同時又能保證模型識別準確率。

不均衡度也是影響不均衡數(shù)據(jù)分類識別準確率的因素之一，為了驗證WGAN在不同不均衡度下的有效性，將不均衡度為16，81和256的數(shù)據(jù)集分別組成Imbalance1，Imbalance2和Imbalance3數(shù)據(jù)集，通過WGAN擴展后的數(shù)據(jù)集為Imbalance1_WGAN，Imbalance2_WGAN和Imbalance3_WGAN數(shù)據(jù)集。實驗結(jié)果表明，不均衡度對測試集影響較大，隨著不均衡度的增加，測試集整體識別率呈現(xiàn)下降趨勢。通過使用WGAN擴展數(shù)據(jù)集后，可以有效改善這一現(xiàn)象。表4為不同不均衡度下的識別率對比。

表4 不同不平衡度下訓(xùn)練集和測試集的準確率對比Table 4 Compares the accuracy of the training set and test set of the dataset under different unbalance

4 結(jié) 論

針對太赫茲光譜數(shù)據(jù)庫中不均衡數(shù)據(jù)的分類問題，提出一種基于WGAN的太赫茲光譜識別方法。利用生成對抗網(wǎng)絡(luò)生成符合真實太赫茲光譜數(shù)據(jù)分布的生成數(shù)據(jù)，擴充太赫茲數(shù)據(jù)集，解決類別不均衡問題。相比于傳統(tǒng)方法，該方法能自動從真實數(shù)據(jù)中學(xué)習(xí)數(shù)據(jù)分布并生成數(shù)據(jù)。不僅能有效擴充太赫茲光譜數(shù)據(jù)庫，并且有較高的識別率。由于基于生成對抗網(wǎng)絡(luò)的太赫茲光譜識別方法可與多種機器學(xué)習(xí)方法相結(jié)合，并能適應(yīng)不同不均衡度的要求，所以在未來實際應(yīng)用中有廣闊的前景。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡