国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度卷積特征的水下目標智能識別方法

2019-07-16 06:16:16廖泓舟
水下無人系統(tǒng)學(xué)報 2019年3期
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)領(lǐng)域

杜 雪,廖泓舟,張 勛

(哈爾濱工程大學(xué) 海洋裝置與控制技術(shù)研究所,黑龍江 哈爾濱,150001)

0 引言

水下無人航行器(unmanned undersea vehicle,UUV)作為各種水下任務(wù)的輔助手段,可避免作業(yè)人員在較危險的水下環(huán)境中工作,且能很好的適應(yīng)水下環(huán)境和開展水下任務(wù)[1-2]。在民用領(lǐng)域,其可用于水下電纜鋪設(shè)、水下管道質(zhì)量檢測、水下設(shè)備的維護與維修、漁場監(jiān)測等,例如美國Ocean Seaver公司生產(chǎn)的Iver2 UUV已經(jīng)被廣泛用于環(huán)境監(jiān)測和海洋勘探等領(lǐng)域[3];在軍用領(lǐng)域則可用于偵察、布雷、滅雷和援潛救生等,比如美國海軍著名的先進無人搜索系統(tǒng)(advanced unmanned search system,AUSS)能潛入海底6 100 m,自動搜索水下目標并通過水下攝像機進行拍照,實現(xiàn)對水下軍事目標的搜索和跟蹤任務(wù)[4]。這些都是依據(jù)UUV對水下目標的識別而完成的。

目前水下目標的識別主要可以通過聲視覺和光視覺 2種方式。其中,聲視覺系統(tǒng)在遠距離目標識別跟蹤上占有絕對優(yōu)勢,但由于受到聲波的盲區(qū)和多通道效應(yīng)的影響,在近距離目標識別領(lǐng)域的發(fā)展受到限制;相反,UUV可通過光視覺充分利用人工智能技術(shù)進行水下目標的探測和描述,逐漸成為近距離水下目標識別跟蹤的主要研究方向[5]。傳統(tǒng)的水下目標識別主要分為被識別信號獲取、信號特征提取、目標識別 3個過程[6]。其中的特征提取是一個既費時費力又需大量經(jīng)驗的繁瑣處理過程,整個水下目標識別系統(tǒng)屬于一個半自動化過程,并于近年向全自動識別方向發(fā)展[7]。基于此,對水下智能目標識別方法的研究具有重要意義。借助于人工智能技術(shù)的蓬勃發(fā)展,將基于深度學(xué)習(xí)的圖像識別技術(shù)引入水下,構(gòu)建水下端到端的通用圖像智能識別技術(shù),提高UUV在“看”方面的智能化水平,使UUV學(xué)會“看得更多,看得更準”,將對UUV的智能化發(fā)展有著重大意義,同時在軍民融合的時代背景下,能夠進一步促進UUV的多用途化。

近幾年,國內(nèi)外學(xué)者開始將深度學(xué)習(xí)技術(shù)引入水下進行目標智能識別。國外的公開研究主要是將深度學(xué)習(xí)技術(shù)用于水下聲吶圖像識別,如Kim等[8]提出了將深度卷積神經(jīng)網(wǎng)絡(luò)用于前視聲吶圖像,對聲吶圖像中的遙控水下航行器(remotely operated vehicle,ROV)進行識別跟蹤,顯著提高了識別準確度;Matias[9]也將深度卷積神經(jīng)網(wǎng)絡(luò)用于前視聲吶中多種目標物的檢測和分類,從而達到水下多目標檢測分類的最好水平。

國內(nèi)的研究主要是海洋科學(xué)領(lǐng)域,比如漁場監(jiān)控任務(wù),通過視頻采集技術(shù)借助深度學(xué)習(xí)理論對海洋生態(tài)系統(tǒng)進行無干擾監(jiān)控和測量。Li等[10-11]利用深度卷積神經(jīng)網(wǎng)絡(luò)對水下自由游動的魚類進行了準確的檢測與分類,實現(xiàn)了無干擾情況下對海洋生態(tài)的監(jiān)測與調(diào)查研究,但其使用的網(wǎng)絡(luò)結(jié)構(gòu)并非真正意義上的深度網(wǎng)絡(luò),此外可用的數(shù)據(jù)量需足夠大。同時,國內(nèi)對聲吶圖像進行深度識別也在嘗試中,Zhu等[12]利用深度卷積神經(jīng)網(wǎng)絡(luò)對聲吶圖像進行特征提取,再通過支持向量機(support vector machine,SVM)進行分類任務(wù),試驗結(jié)果表明效果優(yōu)于傳統(tǒng)方向梯度直方圖(his togram of oriented gradient,HOG)方法。王強等[13]將卷積神經(jīng)網(wǎng)絡(luò)用于水下3類實測目標噪聲數(shù)據(jù)的分類識別,并與傳統(tǒng)的SVM方法對比,可知2種方法所得結(jié)果比較接近。但以上研究存在以下問題:一是將深度學(xué)習(xí)用于水下目標識別方法尚不成熟,國內(nèi)外的研究都是將其作為應(yīng)用于水下的一種新嘗試,尚無完整的框架或理論;二是國內(nèi)外在聲目標方面研究較多,但相關(guān)水下光視覺圖像的深度學(xué)習(xí)智能識別算法研究較少。針對以上問題,文中從水下光視覺圖像出發(fā),提出了一套水下光視覺圖像智能識別框架并進行了仿真驗證,結(jié)果表明,在特定測試集下提出的水下目標智能識別方法在識別效果與自動化程度方面相比傳統(tǒng)識別算法具有明顯優(yōu)勢。

1 水下圖像預(yù)處理

1.1 圖像濾波去噪

水下光學(xué)圖像相比水上光學(xué)圖像具有更高的椒鹽噪聲,文中先使用基于空域的中值濾波(median filter)進行圖像去噪處理,該方法對于非線性信號的處理有很好的效果,運算快,效率高,中值濾波去噪原理如下。

1)中值輸出:假定數(shù)組x1,x2,…,xn,并從大到小將這n個數(shù)值依次排列

數(shù)組x1,x2,…,xn的中值為

2)濾波窗口:一維情況下可直接用y代替濾波窗口的中心值。但因圖像為二維,故需將窗口擴展到二維,用二維數(shù)組來表示數(shù)字圖像中各點的灰度值,因此濾波窗口為二維的中值濾波定義為

3)窗口尺寸:對于實際問題,不同的圖像常常需要使用不同形狀和大小的窗口來處理。二維中值濾波的窗口形狀有很多種,根據(jù)圖像的不同,窗口形狀也大相徑庭。經(jīng)過多次試驗發(fā)現(xiàn),文中窗口尺寸選擇為5×5比較合適。

1.2 圖像局部增強

水下拍攝時,光的散射會對水下圖像產(chǎn)生很大影響,此外湍流、氣泡和浮游生物等隨機因素也會影響水下圖像的質(zhì)量。水下圖像局部增強是指通過提高圖像對比度、亮度及清晰度等,增加圖像視覺效果,增強圖像質(zhì)量。對比度有限的自適應(yīng)直方圖均衡(contrast limited adaptive histogram equalization,CLAHE)算法[14]是直方圖均衡化(HE)算法和自適應(yīng)直方圖均衡(AHE)算法的集成與改進,水下圖像局部增強效果較好,因此,文中使用CLAHE算法對圖像進行局部增強處理,為后續(xù)的智能識別做鋪墊。

2 水下目標智能識別方法

2.1 水下圖像智能識別原理

水下圖像智能識別的核心是深度學(xué)習(xí)算法,文中使用的是深度卷積神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)已在陸上圖像識別領(lǐng)域快速發(fā)展,各種人工智能(artificial intelligence,AI)應(yīng)用紛紛落地,技術(shù)的快速發(fā)展既取決于深度學(xué)習(xí)理論的不斷發(fā)展,也得益于各個領(lǐng)域數(shù)據(jù)的常年積累,出現(xiàn)了各種各樣的大數(shù)據(jù)集。目前大部分 AI在某種層面上可以說是一種數(shù)據(jù)驅(qū)動型算法。而水下圖像雖然種類多,但單一圖像數(shù)據(jù)量少,普遍存在數(shù)據(jù)集不足的情況。為了解決這一問題,提出使用遷移學(xué)習(xí)(transfer learning,TL)和數(shù)據(jù)增強技術(shù)防止產(chǎn)生少量數(shù)據(jù)集過擬合效應(yīng)。其中,TL的目標是將從一個環(huán)境中學(xué)到的知識用來幫助新環(huán)境中的學(xué)習(xí)任務(wù)[15-16],其提供了一種解決數(shù)據(jù)不足問題的新方法,允許遷移已有的知識來解決目標領(lǐng)域中僅有少量已標注樣本數(shù)據(jù)的學(xué)習(xí)問題,也就是運用已有的知識對不同但相關(guān)領(lǐng)域問題進行求解。遷移學(xué)習(xí)可以定義為:給定一個源領(lǐng)域DS和學(xué)習(xí)任務(wù)TS,一個目標領(lǐng)域DT和學(xué)習(xí)任務(wù)TT,其中DS≠DT和TS≠TT,遷移學(xué)習(xí)的目的是使用DS和TS中的已有知識,幫助提高目標領(lǐng)域DT中目標預(yù)測函數(shù)fT(.)的學(xué)習(xí)[17-18]。數(shù)據(jù)增強是對數(shù)據(jù)進行隨機上下左右翻轉(zhuǎn)、顏色、光照變換和多尺度變換,可以有效增加水下數(shù)據(jù)集的數(shù)量。

2.2 水下圖像智能識別框架

水下識別框架分為 2個部分,一是 Cifar-10數(shù)據(jù)集訓(xùn)練設(shè)計好的深度卷積神經(jīng)網(wǎng)絡(luò);二是權(quán)值遷移,增加一個全連接層并按分類結(jié)果改變輸出神經(jīng)元個數(shù),進行水下圖像二次訓(xùn)練并識別。水下圖像智能識別框架如圖1所示。

圖1 水下圖像智能識別框架Fig.1 Intelligent recognition framework of underwater images

2.3 深度卷積神經(jīng)網(wǎng)絡(luò)設(shè)計方法

水下深度神經(jīng)網(wǎng)絡(luò)框架使用 TensorFlow進行設(shè)計,TensorFlow是一種采用數(shù)據(jù)流圖用于數(shù)值計算的開源庫,其計算通過“節(jié)點”和“線”來描述。

深度神經(jīng)網(wǎng)絡(luò)最顯著的特點在于網(wǎng)絡(luò)中可用于學(xué)習(xí)的參數(shù)量相比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)成倍劇增,更多的參數(shù)意味著更強的學(xué)習(xí)能力,也意味著更大的學(xué)習(xí)量。水下深度神經(jīng)網(wǎng)絡(luò)的設(shè)計思想借鑒牛津大學(xué)視覺幾何組網(wǎng)絡(luò)(visual geometry group net,VGGNet)。因此,硬件計算能力和網(wǎng)絡(luò)學(xué)習(xí)所需樣本量也成倍劇增達到與之相匹配的程度,在深度網(wǎng)絡(luò)中樣本不足會導(dǎo)致明顯的過擬合效應(yīng)。對于特征提取能力強的卷積網(wǎng)絡(luò),網(wǎng)絡(luò)深度的增加體現(xiàn)在卷積核的驟增,而實際操作中可以在某一層上增加卷積核個數(shù)即增加網(wǎng)絡(luò)寬度,也可以通過增加網(wǎng)絡(luò)層數(shù)來增加卷積核個數(shù),即增加網(wǎng)絡(luò)深度。由于卷積核按照局部感受野提取特征,一個卷積核提取一種相應(yīng)特征,增加網(wǎng)絡(luò)寬度能在一定程度上提高特征提取的能力,但只在寬度上進行擴展,特征量雖多但是比較具體,如點、線和邊等具體特征,而卷積層之間的映射相當(dāng)于特征之間的融合,隨著深度的擴展,底層特征經(jīng)過逐層映射,特征越來越抽象,更利于目標的識別。因此,深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural networks,DCNN)的設(shè)計原則應(yīng)遵循深度擴展優(yōu)于寬度擴展,同時增加每層寬度的原則。

卷積核大小的增加只是深度卷積的一個方面,卷積核的尺寸對網(wǎng)絡(luò)的特征提取能力也有著重要的影響,傳統(tǒng)DCNN中常用的卷積尺寸有5×5、7×7等,不同尺寸的卷積核在不同的問題上有不一樣的識別效果。隨著網(wǎng)絡(luò)深度和卷積核個數(shù)的增加,小尺寸卷積核更適用于深度網(wǎng)絡(luò),因為 1個5×5的感受野等于2個3×3感受野,如圖2所示。因此,1個5×5的卷積層可以被2個3×3的卷積層替代,網(wǎng)絡(luò)信息傳遞一樣的情況下網(wǎng)絡(luò)的非線性得到增強,同時降低了網(wǎng)絡(luò)參數(shù),類似的7×7的卷積層可以被3個3×3的卷積層代替。

圖2 感受野等價圖Fig.2 Equivalent graphs of receptive field

DCNN的另一個特殊結(jié)構(gòu)是池化層,其作用主要是降低特征圖大小來簡化網(wǎng)絡(luò)計算復(fù)雜度和進行特征壓縮來提取主要特征。實際工程經(jīng)驗表明,池化層緊跟卷積層效果比較好,平均池化和最大值池化最常用,二者無顯著差別。

DCNN在數(shù)據(jù)量不匹配時容易出現(xiàn)過擬合效應(yīng),采用Dropout策略和L1、L2正則化能在一定程度上降低深度網(wǎng)絡(luò)的過擬合效應(yīng)。此外,DCNN由于網(wǎng)絡(luò)參數(shù)的驟增和樣本分布的差異性易導(dǎo)致網(wǎng)絡(luò)難以訓(xùn)練,采用批歸一化(batch normalization,BN)方法能加快網(wǎng)絡(luò)的收斂性。

綜上所述,水下深度神經(jīng)網(wǎng)絡(luò)的設(shè)計過程遵循優(yōu)先進行深度擴展,即增加卷積核的層數(shù),其次進行寬度擴展,即增加各層的卷積核個數(shù)。卷積核尺寸優(yōu)先選擇小尺寸,如 3×3。數(shù)據(jù)集足夠的情況下可以考慮增加 1×1卷積核來增強網(wǎng)絡(luò)的非線性,以便獲得更好的學(xué)習(xí)特征。深度網(wǎng)絡(luò)設(shè)計的優(yōu)劣以網(wǎng)絡(luò)深度增加過程中一次訓(xùn)練識別率的高低為基準,然后進行二次遷移學(xué)習(xí),以最終的目標識別率為評價標準。

2.4 試驗驗證

采用 Cifar-10作為源領(lǐng)域數(shù)據(jù)集,共 60 000張32×32彩色圖片,分為10個類別,其中50 000張訓(xùn)練圖片,10 000張測試圖片,如圖3所示。目標領(lǐng)域數(shù)據(jù)集是5類不同水下魚類資源實時視頻,分別是鼻魚、豆娘魚、蝴蝶魚、刺尾鯛和立旗鯛,資源來自于臺灣魚類資料庫,實際過程將視頻按幀截取為靜態(tài)圖片,為了保持樣本平衡,每一類截取300張訓(xùn)練圖片,100張測試圖片,訓(xùn)練圖片經(jīng)過隨機翻轉(zhuǎn)、縮放及對比度增強等數(shù)據(jù)增強手段得到大量擴充。原始采集的視頻圖像如圖4所示。

圖3 源領(lǐng)域數(shù)據(jù)集(Cifar-10)Fig.3 Dataset in source domain(Cifar-10)

首先對上述目標領(lǐng)域數(shù)據(jù)集進行圖像濾波和局部增強預(yù)處理,將其作為二次遷移訓(xùn)練的輸入數(shù)據(jù)。按照3.3節(jié)的設(shè)計原則進行網(wǎng)絡(luò)設(shè)計,同時水下目標識別初始模型應(yīng)該與Cifar-10數(shù)據(jù)集相匹配,隨著網(wǎng)絡(luò)層數(shù)的遞增,Cifar-10訓(xùn)練集準確率逐漸增加,當(dāng)超過網(wǎng)絡(luò)10層后訓(xùn)練準確率達到100%,并不再變動,出現(xiàn)了過擬合現(xiàn)象。為了防止過擬合,水下目標識別初始模型層數(shù)設(shè)計為10層。一次訓(xùn)練過程中DCNN結(jié)構(gòu)如表1所示。

圖4 目標領(lǐng)域數(shù)據(jù)集(5類)Fig.4 Dataset in target domain(five categories)

表1 深度卷積神經(jīng)網(wǎng)絡(luò)參數(shù)列表Table 1 Parameter list of deep convolution neural network (DCNN)

使用源領(lǐng)域數(shù)據(jù)集訓(xùn)練10層DCNN,實際操作中迭代次數(shù)越長效果越好,使用Relu激活函數(shù)收斂性最快,但是效果不一定最好,相反傳統(tǒng)的Tanh激活函數(shù)在更長的迭代次數(shù)下訓(xùn)練效果更好但不容易收斂,二者各有優(yōu)勢。試驗中迭代次數(shù)為 1萬次時損失值不再顯著變化終止訓(xùn)練,預(yù)訓(xùn)練完成,將網(wǎng)絡(luò)權(quán)重和模型進行遷移,增加一個全連接層用于目標識別,根據(jù)識別目標種類的多少將輸出神經(jīng)元由10個改為5個,目標領(lǐng)域訓(xùn)練集按批進行數(shù)據(jù)增強后輸入DCNN進行訓(xùn)練。為了加快訓(xùn)練速度,訓(xùn)練過程中每迭代 100次進行 1次日志記錄,訓(xùn)練過程中部分可視化結(jié)果如圖5~圖7所示。圖中,最大值和最小值分別指網(wǎng)絡(luò)中間層的最大和最小輸出值。

圖5 訓(xùn)練過程誤差損失函數(shù)變化曲線Fig.5 Curves of error loss function in training process

圖6 訓(xùn)練過程卷積層3最大輸出值變化量Fig.6 Maximum output value change of convolution layer 3 in training process

圖7 訓(xùn)練過程卷積層3最小輸出值變化量Fig.7 Minimum output value change of convolution layer 3 in training process

圖 5是訓(xùn)練過程中誤差損失函數(shù)變化趨勢,圖6和圖7是訓(xùn)練過程中任意選擇的網(wǎng)絡(luò)層(試驗隨機選擇為第3層)的最大權(quán)重和最小權(quán)重的變化過程,由圖 5~圖 7可發(fā)現(xiàn),隨著迭代次數(shù)的增加,訓(xùn)練集和測試集的損失函數(shù)都呈現(xiàn)明顯的下降趨勢并且損失值在5 000步左右開始穩(wěn)定,證明網(wǎng)絡(luò)訓(xùn)練效果好,同時隨機抽取的第 3層網(wǎng)絡(luò)的最大輸出值趨于波動上升中,證明權(quán)重得到有效更新,進一步佐證了網(wǎng)絡(luò)訓(xùn)練的有效性,同時由于網(wǎng)絡(luò)使用了relu激活函數(shù),最小輸出值一直維持為0。為驗證識別效果,同時將提出的水下圖像智能識別方法與傳統(tǒng) HOG、尺度不變特征轉(zhuǎn)換(scaleinvariant feature transform,SIFT)算法進行粗略比較,HOG在60%左右,SIFT在62%左右,水下圖像智能識別方法準確率在 78%左右,準確率明顯提高,可見基于深度卷積特征的智能識別方法在識別效果與自動化程度方面都具有明顯的優(yōu)勢。

3 結(jié)束語

采用深度學(xué)習(xí)方法對水下圖像進行智能識別,提高了UUV在“看”方面的智能化水平,對UUV的智能化發(fā)展有著重大的意義,同時在軍民融合的時代背景下,促進了UUV的多用途化。

文中針對水下圖像高噪聲、低對比度的特點,先進行水下圖像預(yù)處理,面對水下數(shù)據(jù)集不足的情況,提出了遷移學(xué)習(xí)與數(shù)據(jù)增強方法,試驗驗證了水下智能識別方法的有效性,在一定程度上優(yōu)于傳統(tǒng)的水下圖像識別算法,但是提出的識別方法在準確率上還有很大上升空間,這是一次水下圖像智能識別的嶄新嘗試,而尋求更長的訓(xùn)練時間,更多的水下數(shù)據(jù),更加平衡的樣本都將在工程意義上提高水下智能識別方法的準確率,這也是未來研究的主要目標。

猜你喜歡
卷積神經(jīng)網(wǎng)絡(luò)領(lǐng)域
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
電子制作(2019年19期)2019-11-23 08:42:00
領(lǐng)域·對峙
青年生活(2019年23期)2019-09-10 12:55:43
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標跟蹤算法
基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
重型機械(2016年1期)2016-03-01 03:42:04
復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
新常態(tài)下推動多層次多領(lǐng)域依法治理初探
基于支持向量機回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
孟州市| 凉城县| 利辛县| 塔城市| 赣州市| 洪泽县| 桃园市| 英山县| 阿拉善盟| 屏东县| 新兴县| 大港区| 阿拉善右旗| 清河县| 广水市| 梁河县| 乌海市| 淮滨县| 松潘县| 革吉县| 加查县| 邛崃市| 宜阳县| 石台县| 原平市| 竹北市| 西安市| 珠海市| 赣州市| 伽师县| 泸西县| 乌拉特后旗| 杂多县| 广德县| 潮安县| 齐齐哈尔市| 侯马市| 义马市| 中方县| 平原县| 德清县|