李 理 李向欣 殷敬偉
(哈爾濱工程大學水聲技術(shù)重點實驗室 哈爾濱 150001)
(哈爾濱工程大學海洋信息獲取與安全工信部重點實驗室 哈爾濱 150001)
(哈爾濱工程大學水聲工程學院 哈爾濱 150001)
在水聲信號處理領域中,艦船目標識別是一項重要的研究內(nèi)容。過去幾十年,艦船目標識別很大程度上依賴于受專業(yè)訓練的聲吶操作員來實現(xiàn),這個過程與人心理和情緒等狀態(tài)有關(guān),對識別結(jié)果有很大影響。隨著機器學習的發(fā)展,越來越多的算法被應用于目標識別領域,文獻[1]指出使用機器學習算法進行目標識別往往需要大量數(shù)據(jù)作為支撐。由于水聲領域的特殊性,目標數(shù)據(jù)的獲取往往代價昂貴,導致實際獲取的樣本較為稀少,從而使得目標識別算法效果不佳,因此需要進行數(shù)據(jù)增強,以提高算法的泛化能力。
近年來,深度神經(jīng)網(wǎng)絡迅速發(fā)展,已經(jīng)對許多領域產(chǎn)生了重要影響,如計算機視覺、機器翻譯等領域。該方法通過對大量原始數(shù)據(jù)進行訓練,能夠?qū)崿F(xiàn)對上百萬參數(shù)的模型進行優(yōu)化,最終得到高性能模型。但是,隨著計算能力和相應的加速算法的快速發(fā)展,訓練樣本逐漸成為分類和識別的瓶頸。傳統(tǒng)的數(shù)據(jù)增強方法包括對原始數(shù)據(jù)進行幾何變換、頻率域變換、添加噪聲等,以及基于少量樣本進行合成的SMOTE(Synthetic Minority Oversampling TEchnique)算法[2]。該算法通過對附近的幾個樣本進行合并來生成新的樣本,從而緩解數(shù)據(jù)不平衡帶來的影響,其本質(zhì)是使用插值法來生成新樣本,數(shù)據(jù)的多樣性并未得到提升,難以提高算法的泛化性能。近年來使用較多的還有谷歌公司提出的AutoAugment算法[3],用增強學習從數(shù)據(jù)本身尋找最佳的圖像變換策略。
生成對抗網(wǎng)絡(Generative Adversarial Network,GAN)自2014年Goodfellow等人[4]提出后迅猛發(fā)展,其基本思想是通過對抗學習的方法來學習真實數(shù)據(jù)的概率分布,在此基礎上進行隨機采樣得到的生成數(shù)據(jù)與原始數(shù)據(jù)有著十分接近的分布,與此同時還能夠保持生成數(shù)據(jù)的多樣性,這一優(yōu)良特性對于數(shù)據(jù)增強十分重要。GAN自提出后迅速發(fā)展,已經(jīng)有上百種變體。近年來許多研究者將生成技術(shù)應用于信號的生成中,Gao等人[5]使用DCGAN和Dense-Net構(gòu)建了數(shù)據(jù)增強和性能評估框架,以生成高質(zhì)量特征圖,Liu等人[6]提出一種聯(lián)合色譜和條件生成對抗網(wǎng)絡的水聲測距方法,該方法對聲源測距有一定的改進,Yang等人[7]使用CGAN來生成多尺度水下圖像,使得生成結(jié)果更先進真實和自然,實驗證明該方法優(yōu)于目前最先進的水下圖像增強方法。
本文提出了一種基于深度卷積生成對抗網(wǎng)絡(Deep Convolutional Generative Adversarial Network, DCGAN)的艦船輻射噪聲數(shù)據(jù)增強算法。首先對艦船輻射噪聲數(shù)據(jù)進行特征提取,獲得了能夠反映艦船物理特性的DEMON調(diào)制譜,然后搭建基于條件生成的DCGAN來對艦船輻射噪聲數(shù)據(jù)進行對抗生成,并分析了其在樣本不平衡條件下以及小容量條件下對于偏置類別以及總體分類結(jié)果的影響。
研究表明,艦船輻射噪聲由機械噪聲、螺旋槳噪聲和水動力噪聲3部分組成,其中水動力噪聲在時間上是平穩(wěn)的,表現(xiàn)為連續(xù)譜。而空調(diào)機、通風機和泵等機械部件運行時產(chǎn)生的機械噪聲都表現(xiàn)為線譜。周期性的機械運動和齒輪的運轉(zhuǎn)是船舶輻射噪聲的主要來源。
通常對艦船輻射噪聲提取特征的方法包括文獻[8]中對信號進行短時傅里葉變換(Short-Time Fourier Transform, STFT)得到的LOFAR譜、文獻[9]中使用到的離散小波變換(Discrete Wavelet Transformation, DWT)以及文獻[10]中對信號進行寬帶解調(diào)得到其調(diào)制包絡的DEMON譜分析法。由于DEMON譜具有明確的物理意義,可以獲得艦船螺旋槳轉(zhuǎn)速和槳葉數(shù)等艦船物理特性,對于目標識別有十分重要的意義,韓雪等人[11]提出了節(jié)拍響度變化量特征,分析了艦船輻射噪聲在不同調(diào)制方式下的識別準確率,陳雪峰等人[12]利用DEMON譜處理技術(shù)提取了目標軸頻特征和槳葉數(shù)特征并使用海上實測數(shù)據(jù)進行了實驗驗證。
由于艦船的離散線譜分量相比于海洋的環(huán)境噪聲來說較小,被其蓋過的可能性較大,而通過對較高頻的信號進行包絡解調(diào),可以獲取到艦船噪聲的調(diào)制譜,從而可以得到關(guān)于槳葉轉(zhuǎn)速等許多信息。DEMON譜提取方法流程如圖1所示。
圖1 DEMON譜解調(diào)方法
比較常用的兩種檢波方法分別為絕對值解調(diào)和平方解調(diào)。在絕對值解調(diào)方法中,首先是將信號通過帶通濾波器濾除低頻段的海洋環(huán)境噪聲,然后對得到的輸出信號計算其絕對值以提取包絡,再將信號通過低通濾波器,最后得到包絡時域信號再執(zhí)行FFT運算,即可提取出DEMON譜。
GAN能夠不依賴先驗假設來對學習數(shù)據(jù)的高維分布,這一強大能力具有比以往生成模型更加強大的表征能力,文獻[13]中指出GAN及其變體已在圖像、音頻等領域取得了十分顯著的成果,GAN一般包含生成器、判別器兩個主要模塊,如圖2所示。
圖2 GAN基本結(jié)構(gòu)
GAN最初的想法來源于博弈論中兩個人進行零和博弈,其中生成器(G)和判別器(D)被視為在博弈中的兩個進行對抗的玩家。在GAN模型的訓練過程中的生成器和判別器會分別對自己的參數(shù)進行更新以使得相應的損失函數(shù)達到最小,經(jīng)過多次的迭代優(yōu)化,最后模型達到納什均衡的狀態(tài),此時得到的GAN模型即為最優(yōu)模型。GAN目標函數(shù)定義為
其中,G表示生成器,D表示判別器,x表示真實樣本,z表示隨機噪聲。
最初的GAN訓練非常不穩(wěn)定,存在許多問題,其中模式崩潰和梯度消失的問題嚴重限制了生成模型的訓練穩(wěn)定性。之后研究人員對原始GAN提出了許多改進,文獻[14]提出了基于條件生成的CGAN(Conditional Generative Adversarial Network),以及加入了卷積運算的DCGAN(Deep Conditional Generative Adversarial Network)等多種變體。
DCGAN對GAN的發(fā)展有著巨大的推動作用,其將卷積算法引入到GAN中,使生成數(shù)據(jù)的質(zhì)量有了質(zhì)的提高,自提出后得到許多領域的廣泛應用。在文獻中作者提出了一系列措施來提高訓練的穩(wěn)定性,在實際使用中通常能夠有較為穩(wěn)定和有效的表現(xiàn),因此本文將構(gòu)建基于條件生成的DCGAN對艦船輻射噪聲進行數(shù)據(jù)增強。
本文設計了基于條件DCGAN的數(shù)據(jù)增強及分類評估模型,模型整體分為3部分,分別為特征提取部分,用于條件生成數(shù)據(jù)的DCGAN訓練網(wǎng)絡以及將生成對抗網(wǎng)絡中判別器的末級輸出由原來的全連接層改為有利于小樣本分類的集成分類器,下面將對數(shù)據(jù)增強和分類評估兩部分結(jié)構(gòu)進行詳細說明。模型整體結(jié)構(gòu)如圖3所示。
圖3 模型整體框架
生成網(wǎng)絡部分輸入為128維的隨機向量和2個維度的標簽編碼的拼接,用以控制生成樣本的類別,后面是兩個連續(xù)的卷積層,卷積核數(shù)目均為16,寬度為3,輸出特征圖再經(jīng)過兩個全連接層將特征尺寸降維到150維作為輸出的生成樣本。判別器有兩個輸入,分別為生成樣本以及來自真實樣本提取的譜特征,兩者尺寸相同,然后經(jīng)過1個卷積層和2個全連接層實現(xiàn)樣本特征的2次提取進而完成后面的域判別及類別輸出,通常在DCGAN的訓練過程中判別網(wǎng)絡除了能夠輸出訓練數(shù)據(jù)的判別域,還能夠通過1個全連接層(Full Connection, FC)直接輸出分類的結(jié)果,而由于水聲領域的樣本量較少,神經(jīng)網(wǎng)絡分類器在數(shù)據(jù)量較少時往往結(jié)果不佳,本文將傳統(tǒng)生成對抗網(wǎng)絡的用于分類的判別器末級改為有利于小樣本分類的集成分類器,以提高分類器的泛化性能。
DCGAN的對抗訓練實質(zhì)上是一個交替進行的過程。當對生成網(wǎng)絡進行訓練時,固定判別器D的網(wǎng)絡參數(shù),更新生成網(wǎng)絡G的參數(shù)。生成器的目標就是希望通過G生成的數(shù)據(jù)被判別器D識別為真實數(shù)據(jù),故其目標函數(shù)為最大化 ,即
生成器G的能力往往會受到判別器D的影響,所以一般在訓練過程中,每訓練生成網(wǎng)絡3次,訓練判別網(wǎng)絡1次。如此,可以使生成器訓練足夠多的次數(shù),不斷更新?lián)p失值,從而更快地將損失函數(shù)降低到合理值,生成器和判別器的交替訓練結(jié)構(gòu)如圖4所示。
圖4 DCGAN訓練過程
判別器末級的分類器使用文獻[15]提出的基于Stacking結(jié)構(gòu)的集成分類器,近年來,集成算法在各種數(shù)據(jù)科學競賽中大放異彩,將多種學習算法通過一定方式組合到一起來獲得更好的模型表現(xiàn),往往比單一模型能夠取得更好的效果。Stacking是一種異構(gòu)集成算法,文獻[16]中提出可以將不同分類器進行Stacking集成,從而使分類結(jié)果融合多個分類器的優(yōu)點。本文構(gòu)建了使用K近鄰(KNN)、隨機森林(RF)、支持向量機(SVM)作為基分類器的集成分類器對數(shù)據(jù)進行綜合評估,分類器結(jié)構(gòu)如圖5所示。
圖5 分類器結(jié)構(gòu)
在對數(shù)據(jù)進行分類評估時,分為Stage1和Stage2兩個階段,第1階段將訓練數(shù)據(jù)分別經(jīng)過3個基分類器進行訓練,然后將輸出結(jié)果以及標簽作為Stage2的輸入,在Stage2中為了避免過擬合通常采用弱分類器,這里使用Logistic作為元模型,從而獲得更具代表性的分類結(jié)果。
本文使用的艦船噪聲數(shù)據(jù)來自西班牙維戈大學的Santos-Dominguez等人[17]于2016年發(fā)表在Applied Acoustics期刊采集的Shipsear數(shù)據(jù)集。該團隊在大西洋的沿岸并且位于西北部的多個地區(qū)采集了過往的許多船只的噪聲數(shù)據(jù)。該團隊使用自容式水聽器來對過往船只的噪聲信號進行采集,采集頻率為52734 Hz。水聽器的布放如圖6所示。
圖6 水聽器布放圖
其中,H1, H2, H3為水聽器布放深度,由于ShipsEar數(shù)據(jù)集中一些船只噪聲樣本的數(shù)量有限,因此將其剔除。本文選取了其中時常達到5 min以上的船只作為實驗數(shù)據(jù),并制作數(shù)據(jù)集。
實驗選取了其中4種不同的客船作為目標。由于水聽器在位于H2處位置時采集的信號較好,因此本實驗均選取位置為H2處采集的音頻數(shù)據(jù),根據(jù)vesselfinder網(wǎng)站提供的數(shù)據(jù),4種船只的長寬分別為16/6, 27/10, 19/6, 24/8 m,本文將對4種船只提取能夠反映艦船物理特性的DEMON譜進行數(shù)據(jù)增強及分類實驗。實驗選取的船只如圖7所示。
圖7 艦船目標類型
艦船噪聲信號采樣頻率為52734 Hz,為了盡可能保留其頻率分辨率,這里選取每0.5 s時長為1個樣本,對應頻率分辨率為2 Hz,每段信號點數(shù)為15820。最終得到每類樣本數(shù)240個,樣本總數(shù)為960個。將數(shù)據(jù)集混合并隨即打亂順序,選取720個樣本作為訓練集,其余240個樣本作為測試集。
聲信號在水下傳播過程中,相對于低頻成分,高頻成分會衰減得更快,一般對于目標來說低頻分量要明顯高于高頻分量,使得采集得到的信號在高頻處相比于低頻處會有一定的缺失。為了使信號盡可能包含更多信息,一般要對信號進行預加重,避免信號中低頻分量過大從而抑制了高頻分量。一般使用FIR濾波器對采集的信號進行預加重。這里FIR濾波器使用的傳輸函數(shù)為
其中,a為 預加重系數(shù),一般取0.9~1.0,在實驗中取0.97。
由于不同信號所處的接收距離跨度較大,在模型進行反向傳播計算時會影響梯度值,不利于模型的收斂,故對數(shù)據(jù)進行歸一化操作將其范圍控制在[0,1]。
對本文選取的4種艦船輻射噪聲樣本進行DEMON提取,其中帶通濾波器的通頻帶為1~4 kHz,低通濾波器的通頻帶為0~200 Hz,得到4種艦船的DEMON譜圖如圖8所示。
圖8可以看出4種船只均包含有低頻的包絡調(diào)制線譜,基本都分布在200 Hz以下,并且其調(diào)制譜的組成都不相同,便于后續(xù)的數(shù)據(jù)增強以及分類識別。
圖8 DEMON譜提取結(jié)果
經(jīng)過上文提取的DEMON譜為150維,在輸入到網(wǎng)絡之前先進行歸一化操作,之后將數(shù)據(jù)按照小批次輸入到網(wǎng)絡中,每個批次的數(shù)據(jù)個數(shù)為10。生成網(wǎng)絡輸入設置為維度100的隨機向量,經(jīng)過卷積和上采樣逐漸向原始數(shù)據(jù)的尺度進行變換;經(jīng)過實驗發(fā)現(xiàn)判別器網(wǎng)絡結(jié)構(gòu)不能過于復雜,否則由于判別器分類能力遠遠強于生成器會造成網(wǎng)絡難以收斂,因此判別器網(wǎng)絡相比生成網(wǎng)絡在結(jié)構(gòu)上要進行一定的輕量化,網(wǎng)絡的優(yōu)化器均使用學習率為0.001的Adam優(yōu)化器。
經(jīng)過生成器和判別器的20000次對抗訓練后,將模型進行保存并進行樣本生成, 4種艦船原始信號的DEMON譜、生成器生成樣本的對比如圖9所示。
圖9 原始數(shù)據(jù)與生成數(shù)據(jù)對比
從圖9得出由生成對抗網(wǎng)絡訓練生成的DEMON譜相比原始的DEMON譜,對噪聲有明顯的抑制作用,信號的峰值相比噪聲更加突出。下面使用文獻[18]中的t-SNE算法將4類生成數(shù)據(jù)壓縮至3維空間,以了解4種船只DEMON譜特征在特征空間分布的差異性,得到結(jié)果如圖10所示。
由圖10可以看出在對數(shù)據(jù)壓縮至3維空間后4種樣本都具有自己的聚類中心,彼此的重合度較小。為了驗證改進條件DCGAN生成樣本與原始樣本的分布相似度,使用同樣方法將生成樣本和原始樣本的所有特征降至3維,并分別以50%的比例進行混合,然后執(zhí)行t-SNE算法,得到可視化結(jié)果如圖11所示。
圖10 生成的4種樣本特征空間分布對比
圖11中原始數(shù)據(jù)與生成數(shù)據(jù)在壓縮后的3維空間中聚類存在顯著的重合區(qū)域,說明文本的條件DCGAN很好地學習了原始數(shù)據(jù)的特征,而由生成器生成的不同類別樣本間也存在著明顯的區(qū)分度,潛在說明在原始樣本間摻入人工生成的樣本有利于提升分類模型的表現(xiàn)。
圖11 4類艦船數(shù)據(jù)真實樣本與生成樣本分布對比
為了驗證在樣本數(shù)量不均衡狀態(tài)下生成數(shù)據(jù)的數(shù)據(jù)增強作用,本文設計了4組對照實驗,第1組實驗構(gòu)建了樣本不平衡的樣本集,其中前3類樣本數(shù)分別為120個,第4類樣本僅設置40個來模擬樣本不均衡的情況,分類結(jié)果如表1所示;第2組實驗在第1組實驗的基礎上,對第4類樣本使用生成對抗網(wǎng)絡進行數(shù)據(jù)增強,使各個類別樣本數(shù)一致,直接采用判別器加全連接層來進行分類,得到結(jié)果如表2所示;第3組實驗使用經(jīng)典的SMOTE算法對第4類樣本進行擴充,使每類樣本數(shù)一致,利用上面構(gòu)建的Stacking集成分類器得到的分類結(jié)果如表3所示;第4組實驗對于前3類樣本依舊保持120個樣本數(shù)不變,但第4類樣本由40個真實樣本和80個由改進后的條件DCGAN生成的樣本組成,從而使第4類樣本的數(shù)據(jù)與其他3類相同,此外訓練樣本與測試樣本完全獨立,用于測試的樣本均為原始樣本,不包含生成樣本及訓練樣本。
表1 樣本不均衡下分類結(jié)果(第4類樣本不足)
表2 使用常規(guī)DCGAN網(wǎng)絡分類結(jié)果
表3 使用SMOTE算法擴充樣本+Stacking分類結(jié)果
本文使用查準率(precision, pr)、查全率(recall,re)以及F1分數(shù)作為分類評價指標,公式為其中,查準率被預測為正類的實例中有多少為真正的正例,而查全率表示樣本中的正例有多少被預測為正例,其中TP表示預測為真,實際也為真;TN表示預測為假,實際也為假;FP表示預測為真,而實際為假;FN表示預測為假而實際為真。
在本次實驗中設置KNN的近鄰數(shù)量為5;對于隨機森林使用基尼指數(shù)作為分類決策標準,隨機森林中決策樹的數(shù)量固定為10;對于支持向量機,經(jīng)過實驗證明使用高斯徑向基(RBF)核函數(shù)的分類效果要好于其他核函數(shù),故本實驗的支持向量機使用的均為RBF核函數(shù),gamma值設置為0.1?;赟tacking結(jié)構(gòu)的集成分類器將上述3種分類器的輸出進行組合,使用logistics回歸作為最頂層輸出,從而得到更加具有代表性的結(jié)果,分類器訓練測試結(jié)果如下。
通過表1和表2-表4的對比,在樣本不均衡時,即第4類的樣本數(shù)量遠小于其他幾類時,總體的分類準確率有明顯下降,并且對于數(shù)量較少的類別F1分數(shù)會大幅下降,說明在樣本量較少時難以形成獨立的聚類空間,導致分類的表現(xiàn)不佳。在使用生成對抗網(wǎng)絡進行數(shù)據(jù)增強后(表2),第4類的樣本的F1分數(shù)提高了0.25,有效提高了不均衡樣本的分類準確率。但同時也應該注意到,C2的查全出現(xiàn)了顯著的下滑而查準并沒有顯著變化,說明C4數(shù)據(jù)量擴充導致歸類為C2的樣本大幅減少(同時包括FP樣本和FN樣本),而C3的查準相比于表1略微降低,也說明由于C4數(shù)據(jù)量的增加干擾了分類器對于C3的判斷,說明在當前數(shù)據(jù)量下,只使用全連層作為分類器的性能存在瓶頸。與表4的結(jié)果比較更說明了這一點,通過比較可以看出,在數(shù)據(jù)增強算法相同的情況下,相比于使用全連層輸出分類結(jié)果,使用了條件DCGAN網(wǎng)絡連接stacking分類器進行分類不僅使得C4的分類精度大幅提升,同時也促進了C2和C3的F1分數(shù)的提升,因此最終取得了整體分類性能最優(yōu)的結(jié)果。表3中第3組實驗使用經(jīng)典的基于人工合成樣本的SMOTE算法對不平衡樣本進行擴充后有效提高了該類別的各項識別分數(shù),由表3和表4的對比,第4組實驗使用生成對抗網(wǎng)絡對第4類樣本進行擴充后與實驗3中使用的SMOTE算法相比,4類樣本的F1分數(shù)均有進一步提升,并且查全率和查準率更加均衡。表5將4組實驗的平均分類精度進行了對比,說明了基于本文的改進條件DCGAN來對樣本擴充在一定程度上可以改善樣本不均衡情況下的分類效果,并且綜合效果要優(yōu)于傳統(tǒng)的SMOTE算法進行數(shù)據(jù)增強以及使用常規(guī)DCGAN進行分類識別。
表4 使用改進的條件DCGAN分類結(jié)果
表5 分類結(jié)果總體對比
為了衡量生成對抗網(wǎng)絡在小樣本容量下對于數(shù)據(jù)增強的效果,本節(jié)設置了3組實驗,其中第1組4類樣本數(shù)量均為75個,第2組在第1組的數(shù)據(jù)的基礎上使用SMOTE算法對每個類別生成75個樣本并加入到訓練樣本中,第3組使用生成對抗網(wǎng)絡對每個類別數(shù)據(jù)進行擴充,訓練樣本總數(shù)為400個。分類器依舊使用Stacking模型來對KNN, RF, SVM的分類結(jié)果進行組合,經(jīng)過對分類器進行網(wǎng)格搜索得到分類器的最優(yōu)參數(shù),第1組實驗分類結(jié)果如表6所示。
表6 原始小樣本數(shù)據(jù)集分類結(jié)果
從表中4種分類器結(jié)果的對比可知F1分數(shù)最高的分類器為SVM,其余兩種基分類器的效果較為一般,查準率和查全率指標此消彼長,而集成后的Stacking分類器融合了多個模型的優(yōu)點,查全率和查準率較為均衡,使用集成后的Stacking分類器對4類樣本進行分類得到混淆矩陣并按行進行歸一化得到結(jié)果如圖12所示。
從圖12可以看出在樣本容量較小時,對應類別4種樣本的分類結(jié)果有較大差異。原因可能是在小樣本容量下,某些類別的聚類中心與其他類較為接近,從而造成分類效果不佳,使用SMOTE方法對訓練樣本進行擴充后得到4種分類器的分類結(jié)果如表7所示。
表7 使用SMOTE對數(shù)據(jù)擴充后分類結(jié)果
得到混淆矩陣如圖13所示。
通過圖12與圖13對比,使用SMOTE方法對原始數(shù)據(jù)進行擴充后,有效提高了第1類、第3類以及第4類樣本的分類準確率,但第2類樣本的準確率反而下降了13%,說明基于原始樣本進行數(shù)據(jù)合成無法有效豐富特征空間,導致分類器在訓練數(shù)據(jù)上過擬合,而在測試集上有可能出現(xiàn)表現(xiàn)不佳的情況。表8是使用本文構(gòu)建的條件卷積生成對抗網(wǎng)絡生成的樣本對數(shù)據(jù)集進行擴充后的分類結(jié)果。
圖12 小樣本下分類混淆矩陣
圖13 使用SMOTE對數(shù)據(jù)擴充后混淆矩陣
從表8實驗結(jié)果看出在使用改進DCGAN對小樣本數(shù)據(jù)集進行擴充后,4種分類器的分類效果均有明顯提高,并且查準和查全指標均為均衡,從而得到較高的F1分數(shù)。其中使用Stacking模型對4類樣本進行分類得到的混淆矩陣如圖14所示。
表8 使用改進條件DCGAN對數(shù)據(jù)擴充后分類結(jié)果
由圖14可知,第3組實驗在使用生成數(shù)據(jù)對第1組實驗數(shù)據(jù)進行擴充后,對應每種類別的查準結(jié)果均有一定提升,對于第1、第3和第4類樣本的提升尤為明顯,并且相比于圖13中SMOTE算法的分類結(jié)果,本文提出的條件DCGAN生成樣本在分類中的效果更加穩(wěn)定。以上實驗說明生成對抗網(wǎng)絡對于小樣本容量的數(shù)據(jù)集能夠有效對進行數(shù)據(jù)增強,從而提高水聲目標識別精度。
圖14 使用改進條件DCGAN擴充數(shù)據(jù)后混淆矩陣
針對水聲領域數(shù)據(jù)量較少且難以獲取的問題,本文提出了一種基于改進條件卷積生成對抗網(wǎng)絡進行數(shù)據(jù)增強的方法,通過對抗訓練來學習原始數(shù)據(jù)的分布,生成與真實數(shù)據(jù)在特征空間分布相近的數(shù)據(jù)。為綜合評價生成數(shù)據(jù)的質(zhì)量,本文評估了該方法在樣本不均衡條件下以及對于小樣本容量下的數(shù)據(jù)增強效果,實驗證明了本文提出的改進的條件DCGAN在樣本量較小時能夠有效提高分類器的表現(xiàn),并豐富了數(shù)據(jù)的多樣性,綜合效果要優(yōu)于傳統(tǒng)的SMOTE算法以及原始生成對抗網(wǎng)絡,為生成對抗網(wǎng)絡在水聲領域的數(shù)據(jù)增強提供了一定的參考。