裴莉莉,孫朝云,孫靜,2,李偉,張赫
(1. 長安大學信息工程學院,陜西西安,710064;2. 石河子大學計算機網(wǎng)絡中心,新疆石河子,832003;3. 西安翔騰微電子科技有限公司,陜西西安,710068)
目前國內大批公路都已進入大中型公路改建、擴建和待養(yǎng)護的階段,養(yǎng)護任務也不斷增加[1?2]。在所有出現(xiàn)的路面病害中,裂縫一般最先出現(xiàn),并會逐步加重或演變成其他病害[3]。隨著人工智能技術的快速發(fā)展,深度學習方法在路面檢測分割等方面都取得了巨大進步[4]。
深度學習是最先進的像素級目標檢測方法,但是它依靠大量的樣本數(shù)據(jù)才能實現(xiàn)準確網(wǎng)絡訓練。若數(shù)據(jù)集規(guī)模較小,則容易發(fā)生過擬合現(xiàn)象,這讓深度學習框架的可行性受到限制。生成式模型能按照所要求的目標數(shù)據(jù)分布生成結果[5?6]。GOODFELLOW等[7]提出了生成式對抗網(wǎng)絡,該網(wǎng)絡能夠學習到樣本的特征分布,最終生成高質量逼真圖像。
在生成式對抗網(wǎng)絡(generative adversarial networks,GAN)網(wǎng)絡的改進方面,國外的研究起步較早,已出現(xiàn)多種變體[8?9],ARJOVSKY 等[10]針對原始生成對抗網(wǎng)絡訓練困難、損失函數(shù)無法指導模型訓練過程、生成樣本多樣性差等問題,通過引入Wasserstein 距離來改進GAN 模型,從而提升圖像生成效果。SHABAN 等[11]提出了一種基于生成對抗網(wǎng)絡的新模型StainGAN,不僅消除了原始生成對抗網(wǎng)絡對樣本圖像的依賴,而且實現(xiàn)了與目標域的高度相似性。在應用領域方面,生成式對抗網(wǎng)絡作為一種流行的數(shù)據(jù)集增廣[12?13]和生成[14]的手段,已廣泛應用于醫(yī)療[15?16]、農(nóng)業(yè)生產(chǎn)[17]等眾多領域[18?21]。CHOI 等[22]為擴充假指紋數(shù)據(jù),提出了一種驗證DCGAN生成的假指紋與真實的假指紋相似的方法,實驗證明DCGAN生成的假指紋在4個相似度指標上與真實的假指紋相似,可以用來增強假指紋數(shù)據(jù)。陳俊周等[23]提出了基于級聯(lián)GAN 的人類面部圖像修復方法,最終修復后的面部圖像具有更加豐富細節(jié)特征。
目前該圖像生成技術在道路領域的應用中還比較少,李良福等[24]針對橋梁上寬度很小的裂縫分割難度大的問題,將分割網(wǎng)絡結構加入到GAN 的判別器中,形成了一個同時具有超分辨率重建和分割的綜合性模型。ZHANG 等[25]基于生成式對抗網(wǎng)絡學習裂縫特征,將裂縫和較大尺寸的裂紋共同輸入網(wǎng)絡進行背景圖像轉換,克服了圖像生成過程中的“全黑”問題。由以上研究可以看出,GAN 網(wǎng)絡能夠生成特定屬性的圖像,這對于受損圖像的恢復和小樣本數(shù)據(jù)集的增廣都具有重要的研究意義和應用價值。
生成式對抗網(wǎng)絡雖然得到大幅提升,但還是存在一些問題,例如該網(wǎng)絡在公開數(shù)據(jù)集上需要訓練上萬張真實圖片來生成更加豐富的樣本,但在實際工程應用中,尤其是針對特定問題或特定環(huán)境下的圖像集增廣問題的應用還比較少。在公路智能檢測方面,目前國內還處于探索階段,檢測車采集的道路圖片往往背景復雜且受光線影響嚴重,裂縫等病害經(jīng)常難以分辨,深度學習技術尤其是生成式對抗網(wǎng)絡在智慧道路領域的應用還有限。DCGAN 模型是近年來一種對GAN 改進比較成功的模型,因此,本文選擇該網(wǎng)絡對自主采集小樣本裂縫圖像數(shù)據(jù)進行訓練,生成瀝青路面裂縫圖像,解決利用深度學習進行路面病害檢測工作時訓練樣本緊缺和豐富性不足的問題,提高后期裂縫檢測網(wǎng)絡的精度。
本文實驗采集的圖像是瀝青路面的橫縫和縱縫圖像,采集方式主要通過車載運動相機拍攝和人工手機拍攝相結合的方式,采集區(qū)域主要包括城市道路和校區(qū)內道路,最終采集到瀝青路面橫縱縫圖片共4 146幅,圖像采集過程如圖1所示。
圖1 裂縫圖像采集Fig.1 Crack image acquisition
由于裂縫圖像由不同設備采集且采自多個路段,因此,圖像大小和特點不一,同時背景及路況復雜。在沒有將原始裂縫圖像進行灰度化處理時,生成式對抗網(wǎng)絡會學習到原圖大量的彩色信息,導致生成的裂縫圖像嚴重失真。為解決該問題,需要對圖像進行灰度化處理。同時,運動相機采集的裂縫圖像受采集設備自身震動干擾的影響嚴重,需要使用濾波的方式對路面圖像進行去噪。去噪后,為了使網(wǎng)絡能夠更好地學習到圖像的細節(jié)特征,采用直方圖均衡化和伽馬變換的方法增強路面裂縫圖像,變換效果如圖2所示。
從圖2可見:經(jīng)過均衡化和伽馬變換后路面裂縫特征明顯增強,但圖像背景噪聲再次出現(xiàn),為了去除圖中小面積噪點,需要對圖片進行二次濾波。處理后路面背景顏色與裂縫顏色差距更加明顯,使得生成式對抗網(wǎng)絡更容易學習裂縫圖像的特征信息。全部預處理流程如圖3所示。
圖2 裂縫圖像增強處理前后效果對比Fig.2 Crack image contrast enhancement before and after effect comparison
圖3 裂縫圖像處理流程圖Fig.3 Flow chart of crack image processing
分別對生成網(wǎng)絡和判別網(wǎng)絡進行建模,網(wǎng)絡結構如圖4所示。
1)DCGAN 生成器網(wǎng)絡結構。由圖4(a)可以看出:本文采用的生成器網(wǎng)絡總共有5層,其中卷積層為4 層,全連接層為1 層。將1 個100 維的且服從(0,1)均勻分布的隨機變量作為生成器的輸入。首先,該圖像通過1 個全連接層得到1 個4×4×1 024 的圖像;其次,經(jīng)過4 個轉置卷積層,不斷擴大圖像;最后,得到生成器輸出的裂縫圖像。
圖4 DCGAN網(wǎng)絡結構Fig.4 DCGAN network structure
2)DCGAN判別器網(wǎng)絡結構。判別器的輸入為生成的裂縫圖像和真實裂縫圖像,輸出是1個判斷真?zhèn)蔚母怕?,即這個概率可以判別出輸入圖像的真?zhèn)?。由圖4(b)可見:輸入圖像首先通過4次連續(xù)的采樣,逐漸縮小圖像,最后,經(jīng)過全連接層得到1個代表輸入圖像真?zhèn)蔚母怕省?/p>
該模型對原始生成式對抗網(wǎng)絡模型的改進主要有:
1)生成器和判別器結構都沒有繼續(xù)采用卷積神經(jīng)網(wǎng)絡的池化層,但判別器延續(xù)卷積神經(jīng)網(wǎng)絡的整體架構,而生成器用反卷積層代替卷積層。
2)將批量標準化層(BN,batchnorm)應用在判別器和生成器的每一層。
3)利用1×1卷積層替換所有的全連接層。
4) 在生成器的最后1 層使用Tanh 函數(shù),其他層均采取Relu函數(shù)。
5)在判別器的最后1 層使用sigmoid 函數(shù),其他層均采取leakyrelu函數(shù)。
在深度學習網(wǎng)絡中,復雜網(wǎng)絡的輸出結果與網(wǎng)絡參數(shù)的設置有很強的相關性,這些參數(shù)及其組合方式的評估標準是使損失函數(shù)降到最低[26]。具體過程為:假設有n個樣本,網(wǎng)絡真實輸出結果見式(1),其理想輸出結果見式(2),網(wǎng)絡的訓練過程即尋找能夠使損失函數(shù)L(y, )y? 降為最低的網(wǎng)絡參數(shù)的過程。
式中:n為樣本總個數(shù);y為網(wǎng)絡真實輸出結果;yn為第n個樣本的真實輸出結果;y?為網(wǎng)絡理想輸出結果;y?n為第n個樣本的理想輸出結果。
每個訓練批次的損失函數(shù)是第j批次數(shù)據(jù)的實際值,yj是模型的預測概率。模型的損失函數(shù)是由每批次的損失函數(shù)求和后再取平均得到,如式(3)所示:
為了找到能夠使損失函數(shù)降到最小權重w和偏置b,一般采用梯度下降法更新每個網(wǎng)絡層中權重w及偏置b,如式(4)~(5)所示。
式中:η為學習速率;l表示網(wǎng)絡中不同層間某一連接部分;L為式(3)計算得到的損失函數(shù);ω'為更新后的權重;b'為更新后的偏置。
由于同一類訓練樣本一般是類似的,因此,每個小批次的梯度會近似等于整個訓練數(shù)據(jù)的梯度。計算每個小批次的梯度時,在每步過程中都隨機抽取一些數(shù)據(jù)進行計算,而不是計算所有訓練樣本的梯度。把整個訓練數(shù)據(jù)隨機劃分為若干小批次樣本輸入網(wǎng)絡進行訓練,可以有效縮短模型的收斂時間。小批次梯度的選取也存在著最優(yōu)解,當梯度越小時,模型的收斂速度越低;而當梯度越大時,計算每個批次梯度所需要的時間就越長。因此,需要分析訓練樣本中目標和背景特征以及圖像尺寸來確定小批次所包括的最合適圖像數(shù)量。在每次完全訓練結尾時,計算并對比驗證集的損失函數(shù),確定能夠最小化損失函數(shù)的網(wǎng)絡為最優(yōu)網(wǎng)絡。
分割預處理之后的裂縫圖像,將得到效果較好的1 159張橫縫和1 159張縱縫作為網(wǎng)絡的輸入,按照表1中參數(shù)對裂縫圖像生成模型進行訓練。
表1 改進后DCGAN網(wǎng)絡模型參數(shù)設置Table 1 Parameters settings of improved DCGAN network model parameters
結合數(shù)據(jù)集的特點和模型的訓練時間選擇合適的優(yōu)化器,從而不斷更新網(wǎng)絡參數(shù),使得輸出結果在一定程度上盡可能達到最優(yōu)。選擇常用的SGD,Adam 和RMSprop 這3 種優(yōu)化器對模型進行優(yōu)化,發(fā)現(xiàn)對參數(shù)進行一次更新時,SGD;Adam和RMSprop所需的訓練時間分別為45,32和37 s。同時,Adam是以RMSprop為基礎的優(yōu)化器,增加了糾偏和動量機制,在梯度逐漸稀疏時,Adam優(yōu)化效果更佳。因此,選用Adam 作為模型的優(yōu)化器。
圖5所示為不同迭代次數(shù)下DCGAN生成的瀝青路面裂縫圖像。為更加全面展示不同迭代次數(shù)的生成效果,在每組實驗生成的圖片中,隨機選取3張?zhí)摂M生成圖片作為代表進行展示。由圖5 可見:模型在迭代次數(shù)為100次時能夠生成裂縫圖像,但此時生成的裂縫圖像網(wǎng)格化程度深且嚴重失真;在迭代次數(shù)為200次時生成的裂縫圖像網(wǎng)格化得到很好改善;在迭代次數(shù)為300次時生成的裂縫輪廓已經(jīng)開始顯現(xiàn),但清晰度不夠;在迭代次數(shù)為400次時生成的裂縫圖像背景略微模糊,但裂縫輪廓已經(jīng)接近真實了;在迭代次數(shù)為500次和600次時生成的裂縫圖像已經(jīng)十分接近真實圖像。
圖5 DCGAN生成的路面裂縫圖像Fig.5 DCGAN generated pavement crack image
對GAN 網(wǎng)絡生成的圖像質量評價中還沒有固定客觀的指標[27]。為了客觀評價模型的生成效果,本文選用Inception Score 評價指標對CIFAR-10 公共數(shù)據(jù)集和本文采用的裂縫數(shù)據(jù)集進行測試,并對生成路面裂縫圖像的質量進行定量評價。
經(jīng)過計算,發(fā)現(xiàn)CIFAR-10 公共數(shù)據(jù)集真實圖像的I得分(Inception Score 得分)為11.24±0.12,生成圖像的I得分為6.64±0.14;本文裂縫圖像集真實圖像的I得分為10.56±0.09,生成圖像的I得分為5.34±0.15。生成圖像的I得分與真實數(shù)據(jù)集有一定區(qū)別但相差不大,可以在一定程度上表征生成的裂縫與真實圖像集之間具有良好的相似性和多樣性。
為了更直觀驗證本文工作的有效性和意義,選擇Faster R-CNN[28]檢測模型作為生成式對抗網(wǎng)絡生成的路面裂縫圖像質量的評價模型。設計不同訓練集驗證提出的方法對裂縫檢測的實際效果,其中常規(guī)增廣方式是指圖像翻轉、平移和鏡像的增廣方式。
檢測平均精度(average precision,AP)是評價深度學習網(wǎng)絡對目標檢測效果最常用的量化指標,不同訓練集訓練的精度如表2 所示,由表2 可見:基于DCGAN網(wǎng)絡增廣的裂縫圖像與常規(guī)圖像增廣方法得到的裂縫圖像相比,其擴充的數(shù)據(jù)集質量更好。這2種增廣方法都能夠明顯提升裂縫檢測精度,但是對比實驗7 中3 000 張真實裂縫圖像的結果,可以發(fā)現(xiàn)訓練精度較高。
表2 Faster R-CNN驗證實驗訓練集設計Table 2 Faster R-CNN experiment design
利用DCGAN增廣后路面裂縫圖像數(shù)據(jù)集訓練的Faster R-CNN 模型對橫向裂縫和縱向裂縫的檢測效果分別如圖6所示。
圖6 裂縫檢測結果Fig.6 Crack detection results
1) 對DCGAN 模型的多輪迭代訓練和模型優(yōu)化,能夠學習到裂縫有效特征,生成較逼真的路面裂縫圖像。
2)通過檢測模型對原始圖像集、常規(guī)增廣后圖像集以及本文提出的裂縫圖像生成模型增廣后的圖像集分別進行訓練,發(fā)現(xiàn)在同等訓練集情況下,由本文提出的生成模型增廣得到的圖像集訓練檢測模型的效果最優(yōu)。本文提出的方法可以用于路面裂縫圖像數(shù)據(jù)集的增廣。