甄 珍 趙志鵬
(1、南京信息工程大學(xué),江蘇 南京210044 2、合肥工業(yè)大學(xué),安徽 合肥230009)
城市管網(wǎng)就像城市的“血管”,是城市設(shè)施的基礎(chǔ),與生活息息相關(guān)。當(dāng)管道出現(xiàn)堵塞、破裂,不但會(huì)造成局部地區(qū)的內(nèi)澇,還會(huì)污染周邊環(huán)境,所以對(duì)地下管網(wǎng)進(jìn)行檢測(cè)具有重要的意義。目前國(guó)內(nèi)外排水管道檢測(cè)方法主要有管道CCTV、管道QV 等,不同的檢測(cè)技術(shù)雖然各有優(yōu)勢(shì)[1],但是這些技術(shù)都需工作人員對(duì)管道是否有缺陷進(jìn)行人工判斷[2],具有主觀性較強(qiáng)、耗時(shí)費(fèi)力等缺點(diǎn),導(dǎo)致管道缺陷檢測(cè)的準(zhǔn)確率不高。因此迫切需要使用更智能的計(jì)算機(jī)代替人工對(duì)該領(lǐng)域的缺陷進(jìn)行分類,來(lái)提高排水管道檢測(cè)的效率和準(zhǔn)確率。本文使用VGG16 卷積神經(jīng)網(wǎng)絡(luò)模型,對(duì)城市地下管網(wǎng)的圖像進(jìn)行分類,識(shí)別有缺陷的圖像。該深度學(xué)習(xí)方法實(shí)現(xiàn)了對(duì)排水管道缺陷和完好兩類圖像的自動(dòng)分類,加快了排水管道缺陷檢測(cè)的智能化進(jìn)程。
神經(jīng)網(wǎng)絡(luò)是一種模仿人腦神經(jīng)系統(tǒng)的算法,包括輸入單元、隱藏單元和輸出單元[3],它模仿的是大腦神經(jīng)系統(tǒng)中神經(jīng)元之間傳遞和處理信息的一種方式。每個(gè)單元包含大量的節(jié)點(diǎn),節(jié)點(diǎn)與節(jié)點(diǎn)之間有一個(gè)權(quán)重,每個(gè)節(jié)點(diǎn)都有一個(gè)激勵(lì)函數(shù)。
而卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是一種帶有前向結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò)。一般CNN 分為輸入層、中間層和輸出層,通常情況下輸入層用于接收?qǐng)D像,由卷積層構(gòu)成。中間層包含卷積層、全連接層和池化層,其中卷積層用來(lái)提取圖片的特征,全連接層用來(lái)接收所有特征,池化層是為了壓縮圖像的特征,既能保存主要的特征又能降低網(wǎng)絡(luò)計(jì)算的復(fù)雜度。輸出層一般由全連接層構(gòu)成,用于生成一個(gè)分類器,對(duì)輸出值進(jìn)行分類。近年來(lái),CNN 的準(zhǔn)確率已通過(guò)ImageNet[4]之類的大規(guī)模圖像數(shù)據(jù)集進(jìn)行測(cè)試,該圖像數(shù)據(jù)集包含超過(guò)10000 萬(wàn)張圖像。新的CNN 如Alexnet[5]、VGG、GoogLeNet[6]和ResNet[7]在圖像分類方面表現(xiàn)的越來(lái)越好。并且在人臉識(shí)別[8]、車(chē)牌識(shí)別[9]、手寫(xiě)字識(shí)別[10]等方面取得不錯(cuò)成績(jī)。deepID2+模型在人臉識(shí)別領(lǐng)域的識(shí)別率達(dá)到了99.47%,遠(yuǎn)遠(yuǎn)超越人眼識(shí)別能力[11]。在本文中,通過(guò)CNN 來(lái)提取排水管道的特征,用所提取特征給出圖像分類的概率,其訓(xùn)練過(guò)程如圖1 所示。
圖1 CNN 的訓(xùn)練過(guò)程
自從深度學(xué)習(xí)普及以來(lái),出現(xiàn)越來(lái)越多的網(wǎng)絡(luò)模型用于分類,1994 年誕生了最早的卷積神經(jīng)網(wǎng)絡(luò)LeNet,之后又先后出現(xiàn)了AlexNet、Overfeat、VGG、網(wǎng)絡(luò)網(wǎng)模型(Network in network;NIN)、GoogLeNet 以及衍生的Inception 進(jìn)化結(jié)構(gòu)、殘差網(wǎng)絡(luò)ResNet 等,這些網(wǎng)絡(luò)的分類精度逐漸提高,錯(cuò)誤率也逐漸的控制在了很低的范圍內(nèi)??紤]到網(wǎng)絡(luò)模型對(duì)排水管道圖像分類任務(wù)的適用性,本文主要使用VGG16 模型,由13 層卷積層和3 層全連接層組成,該網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。首先輸入大小為224×224×3 的彩色圖像,其中3 代表通道數(shù),224 代表圖像的長(zhǎng)和寬均為224。實(shí)線立方體部分為卷積層,初始卷積核的大小為3×3×3,步幅stride 的大小為1,有效填充padding 的大小為1。虛線立方體部分為池化層,池化層pooling 采用2×2 的最大池化數(shù)max pooling 的方式。模型首先經(jīng)歷兩次64 個(gè)卷積核的卷積處理,接著進(jìn)行一次最大池化層max pooling,然后又經(jīng)歷兩次128 個(gè)卷積核的卷積處理,并進(jìn)行一次最大池化層max pooling,再經(jīng)歷三次256 個(gè)卷積核的卷積處理之后,采用一次最大池化層max pooling,最后再重復(fù)經(jīng)歷兩次三個(gè)512 個(gè)卷積核的卷積處理,并且進(jìn)行一次最大池化層max pooling。以上部分完成之后,是三次全連接層,其中箭頭圖形部分為全連接層,節(jié)點(diǎn)個(gè)數(shù)分別為4096、4096 和2,最后輸出為每個(gè)類別的概率。每層卷積層進(jìn)行卷積后都采用修正線性單元(ReLU)作為激活函數(shù),VGG16 是公認(rèn)的具有良好生成能力的CNN。
圖2 VGG16 模型結(jié)構(gòu)
實(shí)驗(yàn)對(duì)地下排水管道圖像進(jìn)行分類,采用的數(shù)據(jù)集來(lái)源于南京市的地下管網(wǎng)檢測(cè)項(xiàng)目,運(yùn)用CCTV 檢測(cè)手段現(xiàn)場(chǎng)采集視頻,將拍攝的視頻截取為一幀一幀的圖片,如圖3 所示,最后對(duì)圖片進(jìn)行篩選分類。本文用到的數(shù)據(jù)集包括完好和缺陷兩類管道圖片,完好類圖片有1700 幅,缺陷類圖片有4000 幅,圖片格式為jpg 格式。由于不均衡數(shù)據(jù)會(huì)導(dǎo)致網(wǎng)絡(luò)在訓(xùn)練過(guò)程中出現(xiàn)過(guò)擬合或欠擬合現(xiàn)象,因此為了得到較好的排水管道缺陷識(shí)別效果,本文采用將圖片進(jìn)行旋轉(zhuǎn)、平移角度、改變方向等操作,增加完好類圖片數(shù)量至4000 幅,有效地解決了不均衡數(shù)據(jù)造成實(shí)驗(yàn)性能差的問(wèn)題。除此之外,統(tǒng)一將每一幅圖像的尺寸大小都轉(zhuǎn)換為為224×224 的RGB 圖像,并且全部歸一化。
圖3 管道內(nèi)部情況的例子
對(duì)于VGG16 模型而言,訓(xùn)練集樣本數(shù)量越多、數(shù)據(jù)集越均衡,測(cè)試準(zhǔn)確率越高。本文將樣本擴(kuò)充前與樣本擴(kuò)充后的實(shí)驗(yàn)準(zhǔn)確率進(jìn)行了對(duì)比,擴(kuò)充前樣本數(shù)量為5700,擴(kuò)充后的樣本數(shù)量為8000 張,為了充分訓(xùn)練網(wǎng)絡(luò)并測(cè)試網(wǎng)絡(luò)的準(zhǔn)確性,將每個(gè)類中70%的原始數(shù)據(jù)作為訓(xùn)練集訓(xùn)練VGG16 網(wǎng)絡(luò),15%作為驗(yàn)證集,將余下的15%作為測(cè)試集測(cè)試網(wǎng)絡(luò)性能。分別在這兩個(gè)數(shù)據(jù)集上采用了VGG16 模型對(duì)其訓(xùn)練,對(duì)訓(xùn)練后的模型再進(jìn)行測(cè)試驗(yàn)證。在VGG16 模型中加入了EarlyStopping,學(xué)習(xí)率的取值為0.0001,batch_size 為16,其中batch_size 為一次迭代更新參數(shù)的樣本量。擴(kuò)充前和擴(kuò)充后的樣本訓(xùn)練集在實(shí)驗(yàn)?zāi)P蜕系臄M合均接近了100%,擴(kuò)充前的樣本在實(shí)驗(yàn)?zāi)P蜕系臏y(cè)試準(zhǔn)確率為84.7%,AUC 為0.856;經(jīng)過(guò)翻轉(zhuǎn)、順時(shí)針旋轉(zhuǎn)90 度后的樣本在實(shí)驗(yàn)?zāi)P蜕系臏y(cè)試準(zhǔn)確率為94.3%,AUC 為0.931,如表1所示。其中AUC 是衡量分類模型的一種性能指標(biāo),取值在0 到1 之間,當(dāng)AUC 大于0.85 時(shí),說(shuō)明預(yù)測(cè)模型的效果很好。由此可見(jiàn),適當(dāng)?shù)臄U(kuò)充訓(xùn)練樣本數(shù)量及使用均衡樣本有利于提高網(wǎng)絡(luò)的泛化能力,模型的精度明顯高于工作人員肉眼識(shí)別的精度,證明VGG16 模型對(duì)識(shí)別地下管道缺陷十分有效。
表1 樣本擴(kuò)充前后對(duì)比實(shí)驗(yàn)
本文提出了一種基于VGG16 卷積神經(jīng)網(wǎng)絡(luò)的地下管道缺陷圖像分類方法,主要用機(jī)器代替人工解決傳統(tǒng)檢測(cè)方法速度慢、精確度低的問(wèn)題。通過(guò)不斷地測(cè)試及調(diào)解模型參數(shù),發(fā)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)對(duì)樣本的依賴性較大,樣本數(shù)量較大且均衡的情況下,能夠得到更加精確的分類結(jié)果??梢?jiàn)在利用CNN 解決分類問(wèn)題時(shí),選取合適的數(shù)據(jù)集顯得異常重要。擴(kuò)充后的均衡樣本在實(shí)驗(yàn)?zāi)P蜕系木_率達(dá)到94.3%,遠(yuǎn)遠(yuǎn)超過(guò)人眼的分類精度。在未來(lái)的工作中,將獲得數(shù)量更多、種類更廣的排水管道缺陷圖像,進(jìn)一步提升模型的泛化能力。
科學(xué)技術(shù)創(chuàng)新2021年7期