方 磊
(廣東省地質(zhì)測(cè)繪院,廣東 廣州 510800)
在人工智能技術(shù)發(fā)展中,深度學(xué)習(xí)算法的應(yīng)用越來(lái)越廣泛。遙感影像數(shù)據(jù)所具備的特點(diǎn)主要為海量、多維以及多樣等,在這一數(shù)據(jù)處理中,深度學(xué)習(xí)算法具有天然優(yōu)勢(shì),可以實(shí)現(xiàn)對(duì)復(fù)雜對(duì)象抽象特征的自動(dòng)及多層次提取,進(jìn)而實(shí)現(xiàn)在海量數(shù)據(jù)中得到地物目標(biāo)的高層語(yǔ)義特征,顯著提升遙感影像目標(biāo)特征提取的精度[1,2],目前,深度學(xué)習(xí)方法已經(jīng)廣泛應(yīng)用在圖像識(shí)別處理中,并取得了較好的效果,因此可將該方法推廣在遙感影像目標(biāo)識(shí)別中應(yīng)用,所以需在深度學(xué)習(xí)算法的應(yīng)用下實(shí)現(xiàn)對(duì)遙感影像目標(biāo)的識(shí)別,不但可以顯著提升遙感影像圖像識(shí)別精度,同時(shí)也可以有效滿足現(xiàn)代高效快速以及自動(dòng)化檢測(cè)的實(shí)際需求,為遙感影像目標(biāo)識(shí)別提供新的智能化及自動(dòng)化方法。
深度學(xué)習(xí)屬于是機(jī)器學(xué)習(xí)方法之一,傳統(tǒng)方法中具有較高的先驗(yàn)知識(shí)要求,另外,也存在有模型泛化能力不足等[3]。深度學(xué)習(xí)算法下的遙感影像目標(biāo)識(shí)別方法在應(yīng)用中,針對(duì)感興趣區(qū)域可以通過(guò)滑動(dòng)窗口提取,且在網(wǎng)絡(luò)提取特征的應(yīng)用下實(shí)現(xiàn)目標(biāo)檢測(cè),因此在實(shí)際中得到了廣泛應(yīng)用。
卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測(cè)中也有所應(yīng)用,作為人工神經(jīng)網(wǎng)絡(luò)之一,建立在多層監(jiān)督學(xué)習(xí)基礎(chǔ)上,存在有良好容錯(cuò)性以及自適應(yīng)性,能夠?qū)崿F(xiàn)權(quán)值共享等,因此在圖像識(shí)別、語(yǔ)義分割以及物體檢測(cè)等方面均得到了廣泛應(yīng)用。當(dāng)前卷積神經(jīng)網(wǎng)絡(luò)中的檢測(cè)框架有Faster R-CNN、RFCN、SSD,在以上3種檢測(cè)中,F(xiàn)aster R-CNN的精度最高,但是相對(duì)來(lái)講效率最低;Inception Resnet的網(wǎng)絡(luò)復(fù)雜度最高,與之相應(yīng)的有助于顯著提升精度。在訓(xùn)練中,要加強(qiáng)對(duì)訓(xùn)練情況觀察和分析,進(jìn)而實(shí)現(xiàn)對(duì)batch和學(xué)習(xí)率的優(yōu)化,以能夠進(jìn)一步降低隨機(jī)梯度,且對(duì)其實(shí)施持續(xù)性收斂。在此基礎(chǔ)上,結(jié)合遙感影像數(shù)據(jù)目標(biāo)檢測(cè)模型實(shí)際需求,實(shí)現(xiàn)對(duì)訓(xùn)練參數(shù)的合理選擇。在數(shù)據(jù)增強(qiáng)操作的應(yīng)用下,進(jìn)一步提升訓(xùn)練樣本的多樣性,為能夠防范因?yàn)闃颖緮?shù)量不足,引發(fā)出現(xiàn)過(guò)擬合,在分析過(guò)程中也需要提升模型的魯棒性。在強(qiáng)化遙感影像數(shù)據(jù)中,所采用的方法主要為5種,分別為圖像亮度、飽和度以及色調(diào)變換;裁切操作圖像;圖像旋轉(zhuǎn)及傾斜;圖像去冗余;提升高斯噪聲。
SSD算法屬于是目標(biāo)檢測(cè)算法之一,在當(dāng)前應(yīng)用較為廣泛,F(xiàn)ater R-CNN算法相比,這一算法具有較快檢測(cè)速度;和YOLO算法相比,這一算法的檢測(cè)精度比較高。這一算法是基于VGG-16基礎(chǔ)上,設(shè)置輔助卷積、池化層等結(jié)構(gòu),獲取的多尺度特征圖可以實(shí)現(xiàn)對(duì)目標(biāo)檢測(cè),較大特征圖能夠?qū)崿F(xiàn)對(duì)相對(duì)較小目標(biāo)檢測(cè),較小特征圖主要是用來(lái)實(shí)施大目標(biāo)檢測(cè)。SSD算法是基于YOLO算法上的一體化檢測(cè)方法,然而與之有所差異,YOLO算法實(shí)施的是全連接層預(yù)測(cè),SSD算法是在卷積下檢測(cè)分析不同尺度特征圖,另外,在參考Fater R-CNN中anchor的基礎(chǔ)上,針對(duì)目標(biāo)預(yù)測(cè)可以實(shí)現(xiàn)對(duì)目標(biāo)框的偏差計(jì)算,基于此有助于顯著降低訓(xùn)練難度。SSD算法在預(yù)測(cè)中采用的是多尺度預(yù)測(cè),然而不同尺度特征之間具有獨(dú)立性,特征位置越低信息質(zhì)量越好,相對(duì)分類精度偏差。這一算法是基于VGG-16網(wǎng)絡(luò)中偏后的cinv4_3卷積層,其實(shí)現(xiàn)對(duì)多尺度特征圖的建構(gòu),在小目標(biāo)檢測(cè)中相對(duì)性能較差。另外,SSD算法檢測(cè)過(guò)程中的輸入圖像尺寸偏小,通常為300pixel×300 pixel,雖然小尺寸圖像有助于提高目標(biāo)檢測(cè)速度,然而在遙感圖像自動(dòng)化檢測(cè)任務(wù)中,如果是檢測(cè)圖像固定至小尺寸圖像,容易丟失目標(biāo)特征信息。為能夠取得良好的檢測(cè)性能,則需要針對(duì)SSD算法實(shí)施改進(jìn)。
在大范圍內(nèi)針對(duì)相關(guān)目標(biāo)實(shí)施檢測(cè)和識(shí)別中,可以在格網(wǎng)方式的應(yīng)用下實(shí)現(xiàn)對(duì)目標(biāo)區(qū)域的劃分,將其分割成多個(gè)小區(qū)域,之后針對(duì)各個(gè)小區(qū)域?qū)嵤┭h(huán)加載,以此即可以針對(duì)目標(biāo)實(shí)施檢測(cè)。在大范圍影像數(shù)據(jù)分析過(guò)程中,想要確保所有目標(biāo)均被檢測(cè),需確保小區(qū)域中的長(zhǎng)寬比例與客戶端長(zhǎng)短比例相同。大范圍目標(biāo)檢測(cè)劃分網(wǎng)格中,可能會(huì)導(dǎo)致在多個(gè)小區(qū)域中存在有影像的單個(gè)小目標(biāo),在這一情況下實(shí)施檢測(cè)容易發(fā)生遺漏。所以網(wǎng)絡(luò)劃分中需要確保相鄰網(wǎng)格具有一定的重疊率。首先,在系統(tǒng)中將所需檢測(cè)及識(shí)別目標(biāo)范圍繪制出來(lái),結(jié)合目標(biāo)大小實(shí)現(xiàn)對(duì)影像目標(biāo)的合理縮放,確保檢測(cè)圖像可以達(dá)到一定的級(jí)別規(guī)模。之后結(jié)合地圖容器大小實(shí)現(xiàn)對(duì)大區(qū)域的網(wǎng)格動(dòng)態(tài)劃分。最后,針對(duì)各個(gè)網(wǎng)格,可以在系統(tǒng)下循環(huán)調(diào)用單張圖像,進(jìn)而對(duì)實(shí)現(xiàn)目標(biāo)檢測(cè)操作[4]。在這一過(guò)程中,提升重疊有助于提高格網(wǎng)總數(shù)量,對(duì)于數(shù)據(jù)處理量有提升作用,對(duì)于檢測(cè)效率具有不良影響。所以重疊率設(shè)置過(guò)程中一定要結(jié)合實(shí)際需求。在設(shè)置重疊率的時(shí)候,其中部分影像在檢測(cè)中可能會(huì)被重復(fù),檢測(cè)后也需要實(shí)施檢測(cè)結(jié)果的空間分析,將重復(fù)檢測(cè)的目標(biāo)全部刪除,系統(tǒng)運(yùn)行過(guò)程中以上操作可以實(shí)現(xiàn)半自動(dòng)化處理,例如,針對(duì)系統(tǒng)中要素重疊實(shí)施分析中,如果分析的要素類型以及位置相同,即為重疊要素可自動(dòng)標(biāo)注,這一類要素通常為同一目標(biāo),還需要實(shí)施一定的人工干預(yù),以能夠確保將重疊檢測(cè)內(nèi)容均刪除。
本次實(shí)驗(yàn)過(guò)程中,針對(duì)目標(biāo)檢測(cè)及識(shí)別,選擇的數(shù)據(jù)集分別為:ImageNet數(shù)據(jù)集,在這一數(shù)據(jù)集中存在140萬(wàn)張標(biāo)記圖片,圖片類型大小不一,類型也比較多?;谶@一數(shù)據(jù)集實(shí)施目標(biāo)識(shí)別的模型預(yù)訓(xùn)練,不但可以提高模型的泛化能力,在分析過(guò)程中也可以提高遷移速度;DOTA數(shù)據(jù)集,其中,包括有2806張航空影像,拍攝方法主要為Google Earth遙感、JL-1衛(wèi)星以及JL-2衛(wèi)星,影像幅度都非常大,大概為800×800~4000×4000,圖像中的物體主要為大型場(chǎng)地及可移動(dòng)物體。因?yàn)檫@些圖像在拍攝中的高度比較高,因此圖片中出現(xiàn)的可移動(dòng)物體均屬于是中小目標(biāo)。
因此本次所選取的兩個(gè)數(shù)據(jù)集,圖像原始尺寸存在差異,針對(duì)原始數(shù)據(jù)先要進(jìn)行尺寸統(tǒng)一,裁剪處理為512×512圖像,隨后數(shù)據(jù)增強(qiáng)處理過(guò)程中,采用的方法為隨機(jī)擾動(dòng)、隨機(jī)縮放等。數(shù)據(jù)集在訓(xùn)練過(guò)程中主要為訓(xùn)練集及測(cè)試集,在這一過(guò)程中前者數(shù)據(jù)量和后者相比之間的比例為9∶1。
2.2.1 實(shí)驗(yàn)環(huán)境
本次實(shí)驗(yàn)分析中,環(huán)境設(shè)置詳情(如表1所示):
表1 環(huán)境設(shè)置
2.2.2 精度評(píng)定方法
針對(duì)本次實(shí)驗(yàn)訓(xùn)練中的目標(biāo)檢測(cè)模型,采用平均精度(average_precision,AP)實(shí)施評(píng)估,計(jì)算方法如式(1)所示:
式(1)中的AP為P-R曲線和坐標(biāo)軸所共同圍合形成區(qū)域的面積;P為訓(xùn)練精準(zhǔn)率;R為訓(xùn)練召回率,計(jì)算過(guò)程如式(2)、式(3)所示:
式(2)、式(3)中,TP、FP分別為正確和錯(cuò)誤識(shí)別標(biāo)簽?zāi)繕?biāo)數(shù)量,式(3)中的FN為錯(cuò)誤識(shí)別非標(biāo)簽?zāi)繕?biāo)數(shù)量。
2.2.3 速度評(píng)定方法
在每秒幀速(Frame Per Second,FPS)方法的應(yīng)用下實(shí)現(xiàn)速度評(píng)定,即為每秒鐘的影像處理數(shù)量,在評(píng)定中FPS值越大即為影像處理速度越快。相應(yīng)的計(jì)算方法如式(4)所示:
式(4)中,F(xiàn)為影像處理數(shù)量;S為影像處理時(shí)間;單位為s。
2.2.4 超參數(shù)評(píng)定
本次實(shí)驗(yàn)研究中的學(xué)習(xí)率策略為Warm Up,在初始設(shè)置中,學(xué)習(xí)率為0.01、epoch為400以及batchsize為2。
2.3.1 模型與訓(xùn)練及遷移學(xué)習(xí)
在卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用下,實(shí)現(xiàn)對(duì)特征的分層提取,其中,在遷移學(xué)習(xí)方法的應(yīng)用下實(shí)現(xiàn)特征提取網(wǎng)絡(luò)預(yù)訓(xùn)練,這一方法有助于減少訓(xùn)練時(shí)間。首先針對(duì)ImageNet數(shù)據(jù)集實(shí)施與訓(xùn)練,所得到的預(yù)訓(xùn)練基礎(chǔ)網(wǎng)絡(luò),圖像特征提取能力比較強(qiáng),之后將其在整體目標(biāo)檢測(cè)結(jié)構(gòu)中嵌入,且將其作為是遷移訓(xùn)練的初始模型參數(shù),在分析過(guò)程中DOTA數(shù)據(jù)集迭代回歸Δcx、Δcy、Δw以及Δh參數(shù)變量,在影像圖像分析中實(shí)現(xiàn)目標(biāo)檢測(cè)及識(shí)別。
遷移訓(xùn)練中損失函數(shù)分別為位置損失函數(shù)Lloc,即為精確定位想要檢測(cè)的目標(biāo);置信度損失Lconf,即為判定預(yù)測(cè)框分類概率。以上兩者加權(quán)平均和即為代價(jià)函,相應(yīng)的計(jì)算公式如式(5)所示:
式(5)中,N為正樣本數(shù)量;λ為權(quán)重,如果在這一分析過(guò)程中N為0,即可以得到損失為0,另外在公式中c為默認(rèn)框標(biāo)簽,如果針對(duì)數(shù)據(jù)匹配中第i個(gè)默認(rèn)框?qū)崿F(xiàn)和j個(gè)標(biāo)簽框的匹配,所得結(jié)果即為xij=1,反之即為0。其中,定位損失Lloc在計(jì)算過(guò)程中,即為L(zhǎng)1平滑損失,相應(yīng)的計(jì)算公式如式(6)所示:
式(6)中,g為真實(shí)標(biāo)簽框;l為預(yù)測(cè)礦;d為默認(rèn)框,w及h為矩形框?qū)捀?;(cx,cy)分別為矩形框中心點(diǎn)坐標(biāo);剩余指標(biāo)為參數(shù)偏移量。在多個(gè)不同置信度下的softmax損失即為置信度損失,表示為L(zhǎng)conf;c為某種一個(gè)類別目標(biāo)及非目標(biāo)的、置信度,相應(yīng)的計(jì)算公式如式(7)所示:
2.3.2 修改SSD網(wǎng)絡(luò)架構(gòu)
SSD網(wǎng)絡(luò)架構(gòu)過(guò)程中,也就是在提取不同尺度特征后,針對(duì)所得特征實(shí)施分類回歸,在此過(guò)程中也就可以實(shí)現(xiàn)檢測(cè)范圍內(nèi)的不同目標(biāo)識(shí)別。原始SSD網(wǎng)絡(luò)架構(gòu)是基于VGG-16基礎(chǔ)網(wǎng)絡(luò),在將其全連接層截?cái)嗪?,還需要繼續(xù)在這一條件下 添 加Conv6、Conv7、Conv8_2、Conv9_2、Conv10_2以 及Conv11_2卷積層,在卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用下實(shí)現(xiàn)對(duì)特征提取。在此過(guò)程中檢測(cè)層即為以上提出卷積層,因此在遙感影像檢測(cè)中,受到較多層級(jí)卷積結(jié)構(gòu)的影響,部分小目標(biāo)占比比較小,在此目標(biāo)檢測(cè)中容易出現(xiàn)部分特征信息流失,所以要改進(jìn)原始SSD目標(biāo)檢測(cè)網(wǎng)絡(luò),并不能夠只是將Conv4_3作為檢測(cè)層,改進(jìn)后新增Conv3_2作為檢測(cè)層,有助于提升系統(tǒng)的檢測(cè)能力[5,6]。其中改進(jìn)后網(wǎng)絡(luò)架構(gòu)(如圖1所示):
圖1 改進(jìn)后SSD網(wǎng)絡(luò)架構(gòu)
本次實(shí)驗(yàn)為兩組數(shù)據(jù)檢測(cè),A為原始SSD算法,B組為改進(jìn)SSD算法,在對(duì)DOTA數(shù)據(jù)集實(shí)施檢測(cè)發(fā)現(xiàn):A組檢測(cè)結(jié)果為AP=7.06×10-1,B組檢測(cè)結(jié)果為AP=7.53×10-1。通過(guò)這一研究結(jié)果可以看出,B組算法得到了更好的訓(xùn)練效果,由此可見(jiàn),卷積神經(jīng)網(wǎng)絡(luò)針對(duì)圖像特征實(shí)施逐層提取效果顯著,也驗(yàn)證了遷移學(xué)習(xí)具有重要應(yīng)用價(jià)值。
其中,改進(jìn)后SSD算法在DOTA數(shù)據(jù)集上的檢測(cè)結(jié)果(如圖2所示):基于此能夠發(fā)現(xiàn)在此應(yīng)用中可以實(shí)現(xiàn)對(duì)飛機(jī)、船舶等小目標(biāo)的識(shí)別,具有一定檢測(cè)精度。但是飛機(jī)目標(biāo)檢測(cè)精度和船舶目標(biāo)相比明顯偏高,因?yàn)榇澳繕?biāo)和背景有所類似,所以檢測(cè)難度大。
圖2 改進(jìn)SSD算法檢測(cè)結(jié)果
本次研究得出以下2點(diǎn)結(jié)論:
(1)針對(duì)原始SSD算法實(shí)施模型預(yù)訓(xùn)練,逐層提取圖像特征,且對(duì)其實(shí)施遷移訓(xùn)練,有助于提升檢測(cè)精度及檢測(cè)速度;
(2)針對(duì)原始SSD算法實(shí)施改進(jìn),可以實(shí)現(xiàn)對(duì)遙感影像中小目標(biāo)的識(shí)別,檢測(cè)精度明顯高于原始SSD算法。