朱榮盛,沈 韜*,劉英莉,朱 艷,崔向偉
1.昆明理工大學(xué)信息工程與自動化學(xué)院,云南 昆明 650504 2.昆明理工大學(xué)云南省計算機技術(shù)應(yīng)用重點實驗室,云南 昆明 650504
太赫茲(Terahertz,THz)波是指頻率在0.1~10 THz之間的電磁波,在電磁波譜中位于微波和紅外輻射之間[1]。近年來,隨著太赫茲激發(fā)及探測技術(shù)的不斷發(fā)展,目前已有一部分太赫茲產(chǎn)品在實際生活中得到運用,并展現(xiàn)出極高的使用價值及廣闊的應(yīng)用前景[2-3]。由于許多有機分子的振動、轉(zhuǎn)動光譜以及分子間相互作用力落在太赫茲頻率波段,可將其作為“指紋譜”實現(xiàn)對物質(zhì)的定量定性分析[4-6];同時由于太赫茲所具有的瞬態(tài)性、低能性和相干性等特征,使其在光譜識別[7,8]和成像領(lǐng)域[9-10]得到飛速發(fā)展。
通過實驗獲取到的太赫茲光譜數(shù)據(jù)庫存在數(shù)據(jù)規(guī)模不匹配問題,而標(biāo)準機器學(xué)習(xí)方法在不均衡數(shù)據(jù)集中表現(xiàn)不佳,影響太赫茲光譜數(shù)據(jù)的識別準確率[11]。2014年,劉進軍[12]提出基于懲罰機制的PFKSVM方法來克服K-SVM在最佳分類表面附近易于分類錯誤,并使用UCI公共數(shù)據(jù)集進行實驗驗證其方法在處理不均衡數(shù)據(jù)集中的優(yōu)勢。2019年,Tao等[13]提出了一種過采樣技術(shù),該技術(shù)使用實值否定選擇(RNS)來生成人為的少數(shù)類數(shù)據(jù),并將生成的少數(shù)類數(shù)據(jù)與多數(shù)類組合作為輸出。但是,這些方法在太赫茲領(lǐng)域解決數(shù)據(jù)不均衡問題時并未考慮太赫茲光譜所反映材料的物理和化學(xué)性質(zhì)。針對這一問題,本文提出了一種基于WGAN的不均衡太赫茲光譜識別方法來解決太赫茲光譜數(shù)據(jù)不均衡問題。
Wasserstein GAN是Arjovsky等[14]在2017年提出的一種改進GAN模型的新框架,該方法通過生成器與判別器的相互博弈產(chǎn)生以假亂真的數(shù)據(jù),生成數(shù)據(jù)符合真實數(shù)據(jù)分布,并且能有效增加數(shù)據(jù)量。針對目前太赫茲光譜數(shù)據(jù)庫中各物質(zhì)數(shù)據(jù)量不均衡問題,本文提出一種基于WGAN的不均衡太赫茲光譜識別方法。首先利用生成對抗網(wǎng)絡(luò)學(xué)習(xí)真實太赫茲光譜數(shù)據(jù)分布,在WGAN達到納什均衡后用生成數(shù)據(jù)擴展太赫茲光譜數(shù)據(jù)集,使之達到類別均衡,最后采用多分類支持向量機對太赫茲光譜數(shù)據(jù)進行分類識別。
太赫茲光譜數(shù)據(jù)為實數(shù)值,采用GAN訓(xùn)練數(shù)據(jù),模型會出現(xiàn)梯度不穩(wěn)定和多樣性不足等問題[14]。針對這些問題,將Wasserstein距離作為生成對抗網(wǎng)絡(luò)的衡量指標(biāo),定義如式(1)
(1)
通過Kantorovich-Rubinstein對偶原理可得變換公式
W(P1,P2)=sup‖f‖L≤1Ex~P1[f(x)]-Ex~P2[(f(x))]
(2)
生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)是Goodfellow等[15]在2014年提出的一種概率生成模型,通過對抗過程估計生成模型的新框架。生成對抗網(wǎng)絡(luò)由兩個模型構(gòu)成,生成模型G和判別模型D,隨機噪聲z通過生成模型G生成盡量服從真實數(shù)據(jù)分布pdata(x)的樣本G(z)。
判別模型D是一個判別式網(wǎng)絡(luò),判定接收到的樣本是否是來自pdata(x),因此有
Ex~pdata(x)[log(D(x))]
(3)
其中E指代期望,通過根據(jù)正類(即判別出x屬于真實數(shù)據(jù)data)的對數(shù)函數(shù)構(gòu)建。
生成器D通過訓(xùn)練不斷提高欺騙判別器的概率,通過根據(jù)負類的對數(shù)函數(shù)構(gòu)建,即
Ez~pz(z)[log(1-D(G(z)))]
(4)
生成對抗網(wǎng)絡(luò)的本質(zhì)是二元零和博弈問題,即通過生成器不斷優(yōu)化生成函數(shù)與判別器不斷優(yōu)化判別網(wǎng)絡(luò)來達到最優(yōu)狀態(tài),即
Ez~pz(z)[log(1-D(G(z)))]
(5)
生成對抗網(wǎng)絡(luò)給出了一種生成數(shù)據(jù)的新形式,即可通過對抗性學(xué)習(xí)模擬真實數(shù)據(jù)分布。而物質(zhì)的太赫茲光譜數(shù)據(jù)為實數(shù)值,將JS散度作為衡量值并不能很好的評估距離,因此通過使用Wasserstein距離來衡量生成部分和真實數(shù)據(jù)分布之間的距離,解決了生成對抗網(wǎng)絡(luò)在生成太赫茲光譜數(shù)據(jù)時訓(xùn)練過程不穩(wěn)定,模型優(yōu)化困難等問題。
實驗以麥芽三糖(Maltotriose)、麥芽六糖(Malthexaose)和麥芽七糖(Maltoheptaose)在0.9~6 THz內(nèi)的太赫茲透射光譜為例。首先通過S-G濾波對光譜數(shù)據(jù)進行濾波處理,然后通過三次樣條插值獲得相同的數(shù)據(jù)點。隨機選擇三種物質(zhì)預(yù)處理后的各一條太赫茲光譜數(shù)據(jù)曲線,如圖1所示。
圖1 三種物質(zhì)的太赫茲光譜Fig.1 Terahertz spectra of three substances
為了驗證該方法的有效性,我們首先使用WGAN生成數(shù)據(jù),將物質(zhì)的光譜數(shù)據(jù)輸入到WGAN模型中。其次,生成模型G根據(jù)輸入數(shù)據(jù)的維度輸出與測試數(shù)據(jù)相同維度的隨機數(shù)。最后,判別模型D判別接收到的數(shù)據(jù)是否為太赫茲頻譜數(shù)據(jù)。當(dāng)判別模型D無法識別接收到的數(shù)據(jù)是真實數(shù)據(jù)還是生成數(shù)據(jù)時,該模型達到納什均衡。以Maltotriose為例,根據(jù)真實太赫茲光譜數(shù)據(jù)生成數(shù)據(jù)。在實驗設(shè)置中,設(shè)置最大迭代次數(shù)300 000次,每迭代1 000次模型保存一次數(shù)據(jù)。隨機選取5種不同迭代次數(shù)圖,如圖2所示。當(dāng)?shù)螖?shù)為1 000輪和5 000輪時,生成的數(shù)據(jù)僅為隨機噪聲。隨著迭代次數(shù)的增加,生成器不斷學(xué)習(xí)。當(dāng)模型迭代次數(shù)達到100 000輪時,生成數(shù)據(jù)逐漸類似于真實數(shù)據(jù)分布,當(dāng)達到200 000輪時,WGAN模型所輸出的生成數(shù)據(jù)分布基本符合真實Maltotriose數(shù)據(jù)分布。在對Maltotriose進行擴展數(shù)據(jù)時,選取迭代200 000輪后的生成數(shù)據(jù)。
圖2 不同迭代次數(shù)下WGAN的生成數(shù)據(jù)圖(a):原始數(shù)據(jù);(b),(c),(d),(e),(f)分別代表迭代1 000輪,5 000輪、10 000輪、100 000輪和200 000輪后的生成數(shù)據(jù)Fig.2 WGAN generated data graphs under different iterations(a) is the original data;(b),(c),(d),(e),and (f) respectively represent the generated data after 1 000 iterations,5 000 rounds,10 000 rounds,100 000 rounds,and 200 000 rounds
為了驗證WGAN處理不均衡數(shù)據(jù)集的效果,將三種不均衡物質(zhì)的數(shù)據(jù)組成數(shù)據(jù)集Database1,經(jīng)WGAN擴展后的均衡數(shù)據(jù)集為Database2。數(shù)據(jù)集中各物質(zhì)光譜數(shù)據(jù)如下:(1)Database1:在數(shù)據(jù)庫中隨機抽100條Maltotriose數(shù)據(jù)、900條Malthexaose數(shù)據(jù)和8100條Maltoheptaose數(shù)據(jù)。(2)Database2:使用WGAN生成的數(shù)據(jù)將Database1中每種物質(zhì)的數(shù)據(jù)補充為8 100條。在數(shù)據(jù)庫中隨機抽取每種物質(zhì)2 700條數(shù)據(jù)作為測試集。
數(shù)據(jù)集不均衡會對傳統(tǒng)的機器學(xué)習(xí)模型系統(tǒng)產(chǎn)生負面影響。為了緩解此問題,將WGAN用于生成太赫茲光譜數(shù)據(jù),以便使太赫茲光譜數(shù)據(jù)集達到類別均衡。實驗證明,使用WGAN生成數(shù)據(jù)并擴展數(shù)據(jù)集,能夠有效解決小樣本數(shù)據(jù)偏向大樣本數(shù)據(jù)問題。表1和表2分別為SVM模型在Dataset1和Dataset2數(shù)據(jù)集下訓(xùn)練后測試集的混淆矩陣。
表1 使用Database1訓(xùn)練模型后測試集的混淆矩陣Table 1 Confusion matrix of test database after training model with Database1
從表1可以看出,Maltotriose和Malthexaose都出現(xiàn)被預(yù)測為Maltoheptaose的現(xiàn)象,其中Maltotriose最為明顯。但是沒有大量Maltoheptaose被預(yù)測為其他兩種數(shù)據(jù)的現(xiàn)象。
表2相比于表1,在數(shù)據(jù)預(yù)測偏向上得到改善,每種數(shù)據(jù)的偏向現(xiàn)象并不明顯,其中,Maltotriose和Malthexaose并沒有大規(guī)模偏向Maltoheptaose。根據(jù)表1,使用Dataset1進行SVM訓(xùn)練的模型測試集的預(yù)測準確性僅為65.69%。但是,當(dāng)使用Database2訓(xùn)練SVM時,模型精度提高到91.54%,均衡數(shù)據(jù)集上SVM的識別準確率比不均衡數(shù)據(jù)集提高25.85%。為了證明WGAN在處理不均衡太赫茲光譜數(shù)據(jù)上的優(yōu)越性,將WGAN與其他處理不均衡數(shù)據(jù)集的方法進行了比較,并以驗證集的準確性作為度量。表3為不同不均衡數(shù)據(jù)集處理方法的準確率對比。
表2 使用Database2訓(xùn)練模型后測試集的混淆矩陣Table 2 Confusion matrix of test database after training model with Database2
表3 不同算法下數(shù)據(jù)集的準確性對比Table 3 Comparison of the accuracy of the dataset under different algorithms
由表3可知,4種分類算法在dataset-1數(shù)據(jù)集上的訓(xùn)練集及驗證集的準確率都能達到80%以上。雖然未采用擴展數(shù)據(jù)的SVM模型能在訓(xùn)練集和驗證集上得到良好的識別準確率,但是在測試集上由于不均衡數(shù)據(jù)固有的缺點,導(dǎo)致識別準確率很差。SVM-COPY和FWSVM的測試集準確率都在85%左右,這兩種方式是現(xiàn)階段比較流行的處理不均衡數(shù)據(jù)集的方法,但是由于并沒有在數(shù)據(jù)集中增加有效的太赫茲光譜數(shù)據(jù),所以測試集上的識別效果不是太理想。因此,利用WGAN模型能夠有效的生成太赫茲光譜數(shù)據(jù),同時又能保證模型識別準確率。
不均衡度也是影響不均衡數(shù)據(jù)分類識別準確率的因素之一,為了驗證WGAN在不同不均衡度下的有效性,將不均衡度為16,81和256的數(shù)據(jù)集分別組成Imbalance1,Imbalance2和Imbalance3數(shù)據(jù)集,通過WGAN擴展后的數(shù)據(jù)集為Imbalance1_WGAN,Imbalance2_WGAN和Imbalance3_WGAN數(shù)據(jù)集。實驗結(jié)果表明,不均衡度對測試集影響較大,隨著不均衡度的增加,測試集整體識別率呈現(xiàn)下降趨勢。通過使用WGAN擴展數(shù)據(jù)集后,可以有效改善這一現(xiàn)象。表4為不同不均衡度下的識別率對比。
表4 不同不平衡度下訓(xùn)練集和測試集的準確率對比Table 4 Compares the accuracy of the training set and test set of the dataset under different unbalance
針對太赫茲光譜數(shù)據(jù)庫中不均衡數(shù)據(jù)的分類問題,提出一種基于WGAN的太赫茲光譜識別方法。利用生成對抗網(wǎng)絡(luò)生成符合真實太赫茲光譜數(shù)據(jù)分布的生成數(shù)據(jù),擴充太赫茲數(shù)據(jù)集,解決類別不均衡問題。相比于傳統(tǒng)方法,該方法能自動從真實數(shù)據(jù)中學(xué)習(xí)數(shù)據(jù)分布并生成數(shù)據(jù)。不僅能有效擴充太赫茲光譜數(shù)據(jù)庫,并且有較高的識別率。由于基于生成對抗網(wǎng)絡(luò)的太赫茲光譜識別方法可與多種機器學(xué)習(xí)方法相結(jié)合,并能適應(yīng)不同不均衡度的要求,所以在未來實際應(yīng)用中有廣闊的前景。