解相志,劉 彤,李諾舟
(大連海事大學(xué)航海學(xué)院,遼寧 大連 116026)
我國(guó)的滾裝客船發(fā)展起始于上世紀(jì)60年代,其主要運(yùn)輸對(duì)象為貨物、人員和車(chē)輛,承擔(dān)著大量的內(nèi)河、湖泊和近海一帶的中短距運(yùn)輸工作。我國(guó)在渤海灣、瓊州海峽、臺(tái)灣海峽和長(zhǎng)江三峽等許多地區(qū)開(kāi)辟了多個(gè)客滾船運(yùn)輸市場(chǎng),客滾船運(yùn)輸為我國(guó)的經(jīng)濟(jì)社會(huì)發(fā)展做出了重大貢獻(xiàn)[1]。因?yàn)榭蜐L船承載著大量的旅客,在運(yùn)輸過(guò)程中一旦發(fā)生火災(zāi)、有毒物質(zhì)泄漏等事故會(huì)造成非常大的生命財(cái)產(chǎn)損失,所以客滾船的危險(xiǎn)品監(jiān)管工作一直是海事監(jiān)管工作中的重中之重。隨著經(jīng)濟(jì)的發(fā)展,客滾船也逐漸趨于大型化,更大的客流量帶來(lái)了更多的安檢任務(wù),給監(jiān)管部門(mén)的危險(xiǎn)品查堵工作帶來(lái)了更大的挑戰(zhàn)[2]。
傳統(tǒng)的危險(xiǎn)品檢查主要為人工識(shí)別車(chē)廂安檢圖像,再對(duì)發(fā)現(xiàn)的可疑目標(biāo)進(jìn)行開(kāi)廂復(fù)檢。但是實(shí)際工作中,港口客運(yùn)部門(mén)對(duì)檢查人員的培訓(xùn)各有不同,存在部分檢查人員專(zhuān)業(yè)素質(zhì)不高的問(wèn)題,同時(shí)滾裝車(chē)輛運(yùn)輸?shù)呢浳锓N類(lèi)繁多,對(duì)可疑目標(biāo)的鑒別難度大,長(zhǎng)時(shí)間工作會(huì)消耗檢查人員大量的精力,為危險(xiǎn)品查堵工作留下隱患[3]。采用深度學(xué)習(xí)分類(lèi)模型替代人工可以減少人力成本,同時(shí)在長(zhǎng)時(shí)間的工作中可以一直保持檢測(cè)的準(zhǔn)確性,為客滾船車(chē)載危險(xiǎn)品查堵提供了一種新的手段。
作為機(jī)器學(xué)習(xí)的一個(gè)重要分支,深度學(xué)習(xí)能夠在對(duì)數(shù)據(jù)的學(xué)習(xí)過(guò)程中發(fā)現(xiàn)數(shù)據(jù)集合內(nèi)各樣本之間的內(nèi)在聯(lián)系,并根據(jù)分析得到的相關(guān)信息對(duì)聲音、文字、圖像等數(shù)據(jù)進(jìn)行解釋?zhuān)罱K使機(jī)器獲得像人一樣擁有學(xué)習(xí)分析任務(wù)的能力[4]。
相較于傳統(tǒng)的機(jī)器學(xué)習(xí)算法,深度學(xué)習(xí)不需要復(fù)雜的特征工程就可以實(shí)現(xiàn)良好的性能。同時(shí)深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,深度和寬度均很大,理論上可以實(shí)現(xiàn)到任意函數(shù)的映射,所以深度學(xué)習(xí)更容易地適應(yīng)不同的領(lǐng)域和應(yīng)用場(chǎng)景。當(dāng)數(shù)據(jù)量足夠時(shí)深度學(xué)習(xí)表現(xiàn)出了強(qiáng)大的性能,在圖像分類(lèi)、語(yǔ)義分割、自然語(yǔ)言處理等部分任務(wù)中甚至取得了超過(guò)人類(lèi)的表現(xiàn)[5]。
深度學(xué)習(xí)根據(jù)研究?jī)?nèi)容主要分為:堆棧自編碼網(wǎng)絡(luò)(Stacked Auto-Encoder Network,SAE)、深度置信網(wǎng)絡(luò)(Deep Belief Networks,DBN)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)。其中卷積神經(jīng)網(wǎng)絡(luò)具有感知局部信息能力出眾和權(quán)值共享2個(gè)特點(diǎn)[6],可以在高效地提取樣本特征的同時(shí)降低網(wǎng)絡(luò)模型的復(fù)雜度,在圖像分類(lèi)任務(wù)上表現(xiàn)不俗。因此本文使用卷積神經(jīng)網(wǎng)絡(luò)搭建客滾船車(chē)載危險(xiǎn)品檢測(cè)模型,具體設(shè)計(jì)思路如圖1所示。
圖1 模型設(shè)計(jì)思路
近年來(lái)隨著研究的深入和計(jì)算機(jī)性能的提升,深度學(xué)習(xí)進(jìn)入爆發(fā)階段,出現(xiàn)了一大批非常經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)模型,例如AlexNet網(wǎng)絡(luò)、VGG網(wǎng)絡(luò)、GoogLeNet網(wǎng)絡(luò)、ResNet網(wǎng)絡(luò)等CNN網(wǎng)絡(luò)在各種計(jì)算機(jī)視覺(jué)領(lǐng)域的比賽中均獲得了優(yōu)秀的成績(jī)。AlexNet網(wǎng)絡(luò)在訓(xùn)練過(guò)程中參數(shù)較多訓(xùn)練量大,但由于深度不夠很難提取到高層特征。VGG網(wǎng)絡(luò)由于網(wǎng)絡(luò)深度進(jìn)一步增加,訓(xùn)練時(shí)間極長(zhǎng),且權(quán)重太多導(dǎo)致文件體積極大,內(nèi)嵌幾乎不可能。GoogLeNet使用更深的網(wǎng)絡(luò),這會(huì)導(dǎo)致需要計(jì)算的參數(shù)太多,很容易產(chǎn)生過(guò)擬合,同時(shí)伴隨著網(wǎng)絡(luò)的加深,容易出現(xiàn)梯度消失問(wèn)題,難以優(yōu)化模型[7]。從AlexNet,VGG,GoogLeNet的發(fā)展過(guò)程來(lái)看,網(wǎng)絡(luò)的深度對(duì)模型的性能至關(guān)重要,但是深網(wǎng)絡(luò)也伴隨著網(wǎng)絡(luò)退化的問(wèn)題,致使網(wǎng)絡(luò)深度加深到一定程度時(shí)難以訓(xùn)練。ResNet網(wǎng)絡(luò)使用殘差學(xué)習(xí)單元(見(jiàn)圖2)解決了這一難題,通過(guò)構(gòu)建恒定映射通道(identity mapping)使得當(dāng)輸入為X時(shí)即使網(wǎng)絡(luò)學(xué)到的殘差F(X)為0堆積層,也可以通過(guò)恒等映射機(jī)制保證網(wǎng)絡(luò)性能不會(huì)下降。同時(shí)在梯度反向傳播的過(guò)程中殘差學(xué)習(xí)單元所提供的短路機(jī)制可以無(wú)損的傳播梯度,解決了深層網(wǎng)絡(luò)梯度消失的問(wèn)題[8]。因此本文CNN網(wǎng)絡(luò)以ResNet網(wǎng)絡(luò)為基礎(chǔ),并進(jìn)行一定改進(jìn)以適應(yīng)實(shí)際的應(yīng)用場(chǎng)景。
圖2 殘差學(xué)習(xí)單元
構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)首先搭建殘差學(xué)習(xí)單元,殘差學(xué)習(xí)單元正向通道含有2個(gè)卷積核尺寸為3×3的卷積層,采用多個(gè)小卷積核代替大卷積核,保持感受野范圍不變的同時(shí)減少網(wǎng)絡(luò)參數(shù)減小運(yùn)算量,并且增加了非線性變換的操作使模型的泛化性能得到提升。將經(jīng)過(guò)卷積操作得到的信息進(jìn)行批歸一化操作(Batch Normalization,BN),BN通過(guò)線性變換和規(guī)范化使每層網(wǎng)絡(luò)的輸入數(shù)據(jù)均值及方差都分布在一定范圍內(nèi),大大地減小了深層網(wǎng)絡(luò)對(duì)淺層網(wǎng)絡(luò)輸入的依賴,加快了模型的學(xué)習(xí)速度。在訓(xùn)練過(guò)程中每個(gè)Batch樣本的方差和均值都有所不同,這相當(dāng)于在網(wǎng)絡(luò)訓(xùn)練的過(guò)程中隨機(jī)加入了噪聲,使得BN操作具備一定的正則化效果,提升了網(wǎng)絡(luò)的泛化性能。然后使用激活函數(shù)處理前端網(wǎng)絡(luò)得到的參數(shù),為網(wǎng)絡(luò)加入非線性因素,增強(qiáng)模型對(duì)樣本的描述能力。因sigmoid函數(shù)、tanh函數(shù)在輸入值過(guò)大或過(guò)小時(shí),導(dǎo)數(shù)容易接近0造成梯度消失,所以本文采用Relu函數(shù)作為激活函數(shù),相較于前兩者Relu函數(shù)的導(dǎo)數(shù)更好求,在防止梯度消失的同時(shí)可以加快網(wǎng)絡(luò)的訓(xùn)練速度。恒等映射通道采用卷積核尺寸為1×1的卷積層加BN層組成,實(shí)現(xiàn)特征升維和降維的功能,保證恒等映射通道的輸出與正向通道的輸出維度一致。
本文CNN網(wǎng)絡(luò)首先由一個(gè)卷積核尺寸為7×7的卷積層對(duì)輸入的圖像信息進(jìn)行初步提取,然后經(jīng)過(guò)池化層對(duì)提取到的信息進(jìn)行下采樣,減少參數(shù)量。因?yàn)槠骄鼗╩ean-pooling)提取全局信息,最大池化(max-pooling)對(duì)紋理特征敏感,所以根據(jù)任務(wù)需求采用最大池化方法處理獲得的信息。信息處理好之后經(jīng)由8個(gè)殘差學(xué)習(xí)單元對(duì)圖像信息進(jìn)行進(jìn)一步學(xué)習(xí),最終將得到的數(shù)據(jù)傳遞給均值池化層進(jìn)行全局的信息提取然后使用全連接層對(duì)結(jié)果進(jìn)行預(yù)測(cè)。由于在實(shí)際的客滾船車(chē)載危險(xiǎn)品檢查工作中車(chē)輛大小各不相同,獲得的掃描圖像尺寸也有所差異,原始的ResNet網(wǎng)絡(luò)很難適應(yīng)不同尺寸的輸入圖像,因此本文采用自適應(yīng)平均池化(AdaptiveAvgPool)替代全連接層(Fully Connected Layers,F(xiàn)C)前原有的池化層,使本文設(shè)計(jì)的CNN網(wǎng)絡(luò)可以匹配任意尺寸的輸入圖片,滿足實(shí)際工作場(chǎng)景的需要。最終網(wǎng)絡(luò)結(jié)構(gòu)如表1所示:
表1 CNN網(wǎng)絡(luò)結(jié)構(gòu)
在深度學(xué)習(xí)中一般使用損失函數(shù)來(lái)衡量網(wǎng)絡(luò)預(yù)測(cè)與真實(shí)情況之間的不一致程度,一般情況下它是一個(gè)非負(fù)函數(shù),并且損失函數(shù)越小,模型的穩(wěn)健性越好。在分類(lèi)任務(wù)中,圖像經(jīng)過(guò)全連接層后給出的預(yù)測(cè)值都會(huì)加上一個(gè)softmax函數(shù),計(jì)算公式為:
式中:Pc為某一類(lèi)別預(yù)測(cè)值,Pi為每個(gè)類(lèi)別的預(yù)測(cè)值,為預(yù)測(cè)正確的概率。這樣輸出的預(yù)測(cè)值就轉(zhuǎn)換成了概率值,所有類(lèi)的概率和為100%。
交叉熵函數(shù)作為分類(lèi)任務(wù)中常使用的一種損失函數(shù),計(jì)算公式為:
對(duì)Loss求Pi的偏導(dǎo)數(shù)可以得到:
從這個(gè)結(jié)果可以看出,使用交叉熵函數(shù)作為損失函數(shù)時(shí),求得的偏導(dǎo)數(shù)非常簡(jiǎn)潔,在網(wǎng)絡(luò)訓(xùn)練中利用Loss對(duì)預(yù)測(cè)值的梯度非常重要,簡(jiǎn)潔的梯度會(huì)讓訓(xùn)練變得更加簡(jiǎn)單,因此對(duì)經(jīng)過(guò)softmax函數(shù)得到的輸出來(lái)說(shuō),交叉熵函數(shù)是最適合的損失函數(shù)。
為了能使模型的性能達(dá)到最優(yōu)的狀態(tài),各種神經(jīng)網(wǎng)絡(luò)模型都會(huì)使用優(yōu)化算法對(duì)模型中的參數(shù)進(jìn)行不斷地更新。常用的優(yōu)化算法一般分為一階優(yōu)化算法,如梯度下降法、Mini-Batch梯度下降法、隨機(jī)梯度下降法等;二階優(yōu)化算法,如牛頓法、擬牛頓法、共軛梯度法等。由于二階算法存在的計(jì)算量大訓(xùn)練極慢和對(duì)數(shù)據(jù)本身精度要求高穩(wěn)定性差等問(wèn)題,目前梯度下降法是最常用的優(yōu)化方法[9]。
對(duì)比多個(gè)使用梯度下降思想的優(yōu)化算法,隨機(jī)梯度下降法(SGD)選擇合適的學(xué)習(xí)率較難梯度下降速度慢,并且在某些情況下容易被困在鞍點(diǎn),在局部形成已經(jīng)求得最優(yōu)解的假象[10]。Adam算法在實(shí)際使用過(guò)程中,隨著訓(xùn)練的加深可能會(huì)造成學(xué)習(xí)率無(wú)法穩(wěn)定導(dǎo)致網(wǎng)絡(luò)沒(méi)辦法收斂,同時(shí)Adam算法可能會(huì)錯(cuò)過(guò)全局最優(yōu)解。所以本文采用SGD+Momentum優(yōu)化算法更新模型權(quán)值,Momentum是來(lái)自物理學(xué)中的動(dòng)量概念,在這里Momentum就是積攢的歷史梯度。如果當(dāng)前時(shí)刻與歷史時(shí)刻梯度方向相似,那么就加強(qiáng)這種趨勢(shì),否則就減弱這種趨勢(shì),通過(guò)引入動(dòng)量因子加入到SGD算法中可以有效地抑制震蕩加速收斂,并且容易跳過(guò)局部最優(yōu)值,找到全局最優(yōu)解。
深度學(xué)習(xí)網(wǎng)絡(luò)的性能除了受網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)優(yōu)劣的影響,在很大程度上也十分依賴數(shù)據(jù)樣本的質(zhì)量。通常情況下訓(xùn)練數(shù)據(jù)集過(guò)少會(huì)導(dǎo)致設(shè)計(jì)復(fù)雜的模型無(wú)法擬合,而網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單的模型又容易產(chǎn)生過(guò)擬合。因此充足的數(shù)據(jù)樣本對(duì)網(wǎng)絡(luò)的訓(xùn)練至關(guān)重要。
為了貼合研究實(shí)際,構(gòu)建符合實(shí)驗(yàn)需求的安檢圖像數(shù)據(jù)集,本文主要的數(shù)據(jù)來(lái)源為港口安檢站實(shí)際工作中所積累的滾裝車(chē)輛車(chē)廂X光圖像。經(jīng)過(guò)多次實(shí)地調(diào)研共取得旅順新港安檢站半年內(nèi)的X光安檢圖像7132張,經(jīng)過(guò)人工挑選,去除其中的不良樣本和空白圖片共獲得高質(zhì)量樣本4322張。
為使網(wǎng)絡(luò)獲得更好的訓(xùn)練效果,防止過(guò)擬合,采用數(shù)據(jù)增強(qiáng)的方法進(jìn)一步擴(kuò)充樣本。第一種增強(qiáng)方法為向原始數(shù)據(jù)中增加噪聲,創(chuàng)建具有不同噪聲的樣本數(shù)據(jù)擴(kuò)充樣本多樣性,增加網(wǎng)絡(luò)學(xué)習(xí)的難度,防止過(guò)擬合。第二種方法是使用隨機(jī)裁剪和平移變換等方法增加樣本數(shù)量,更多的樣本數(shù)量給算法提供了更多機(jī)會(huì)理解輸入到輸出的映射關(guān)系,從而獲得性能更好的模型。最后將進(jìn)行數(shù)據(jù)增強(qiáng)后數(shù)據(jù)打上標(biāo)簽組成訓(xùn)練所需的滾裝車(chē)輛車(chē)廂掃描圖像數(shù)據(jù)集,數(shù)據(jù)集分為安全圖像數(shù)據(jù)和風(fēng)險(xiǎn)圖像數(shù)據(jù)2類(lèi),共計(jì)13862張。
實(shí)驗(yàn)采用PyTorch深度學(xué)習(xí)框架構(gòu)建網(wǎng)絡(luò)模型。訓(xùn)練使用的計(jì)算機(jī)配置為:圖形處理器(GPU)——NVIDIAGeForceGTX 960M,2G顯存,CUDA10.0.1;中央處理器(CPU)——IntelCorei5-6300HQ,內(nèi)存:8G。
從滾裝車(chē)輛車(chē)廂掃描圖像數(shù)據(jù)集中隨機(jī)抽取90%組成訓(xùn)練集,剩余10%作為驗(yàn)證集進(jìn)行數(shù)據(jù)預(yù)處理后傳入網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。實(shí)驗(yàn)過(guò)程中訓(xùn)練集上的損失值變化如圖3所示,在驗(yàn)證集取得的預(yù)測(cè)準(zhǔn)確率,如圖4所示。
圖3 訓(xùn)練集損失值
圖4 驗(yàn)證集準(zhǔn)確率
通過(guò)實(shí)驗(yàn)結(jié)果可以看出,經(jīng)過(guò)10000輪次的迭代模型已經(jīng)高度收斂,損失值已經(jīng)穩(wěn)定在0.1以下且震動(dòng)幅度也在不斷減小,模型性能趨于穩(wěn)定。最終在驗(yàn)證集上的準(zhǔn)確率達(dá)到了96.7%,性能比較可靠。
為在實(shí)際工作環(huán)境中更好應(yīng)用本文設(shè)計(jì)的模型進(jìn)行客滾船危險(xiǎn)品檢測(cè),本文使用PyQT設(shè)計(jì)并搭建了如圖5所示的滾裝車(chē)輛貨物檢測(cè)平臺(tái)。
圖5 貨物檢測(cè)平臺(tái)
執(zhí)法人員按照現(xiàn)有的工作方法檢查一輛車(chē)的安檢信息需要十幾分鐘,使用此平臺(tái)自動(dòng)識(shí)別圖像信息可以將識(shí)別時(shí)間縮短至幾秒鐘,極大地提升了安檢效率。同時(shí)使用信息化技術(shù),不會(huì)受到疲勞等因素的影響,保證了安檢工作的準(zhǔn)確率。
本文提出了以深度學(xué)習(xí)網(wǎng)絡(luò)代替人工對(duì)滾裝車(chē)輛安檢圖像進(jìn)行檢測(cè)的設(shè)想,經(jīng)過(guò)數(shù)次實(shí)地調(diào)研,自行采集滾裝車(chē)輛X光掃描圖像組建了安檢圖像數(shù)據(jù)集,并在ResNet網(wǎng)絡(luò)的基礎(chǔ)上改良了網(wǎng)絡(luò)結(jié)構(gòu)使其能夠適應(yīng)實(shí)際的工作需求。經(jīng)過(guò)長(zhǎng)時(shí)間的網(wǎng)絡(luò)訓(xùn)練,本文設(shè)計(jì)的模型在風(fēng)險(xiǎn)安檢圖像的識(shí)別上取得了較為理想的效果,論證了使用深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行客滾船車(chē)載危險(xiǎn)品檢測(cè)的可行性,增加了客滾船危險(xiǎn)品查堵的手段。本文還設(shè)計(jì)了滾裝車(chē)輛的貨物檢測(cè)平臺(tái),能夠有效提升安檢效率和準(zhǔn)確率,對(duì)解決日漸增長(zhǎng)的客流量所帶來(lái)的人力不足、效率低下等問(wèn)題具有重大意義。