溫劍鋒 覃一海
摘? 要:視覺目標(biāo)定位是計(jì)算機(jī)視覺研究的重要方向之一,準(zhǔn)確度高、穩(wěn)定性好、速度快是視覺目標(biāo)定位算法追求的目標(biāo),針對當(dāng)前基于卷積神經(jīng)網(wǎng)絡(luò)的視覺目標(biāo)定位算法在訓(xùn)練模型時(shí)需要持續(xù)訓(xùn)練和更新,導(dǎo)致計(jì)算量非常大、定位精度低、成功率低等不足,提出基于雙卷積通道的卷積神經(jīng)網(wǎng)絡(luò)模型,通過與目前主流的定位算法進(jìn)行比較,結(jié)果表明該算法具有較高的定位精度和成功率。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);目標(biāo)定位;圖像檢測
中圖分類號:TP391.41;TP183 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號:2096-4706(2020)22-0113-03
Research on Visual Target Location Based on Convolution Neural Network
WEN Jianfeng,QIN Yihai
(Department of Information Engineering,Guangxi Polytechnic of Construction,Nanning? 530007,China)
Abstract:Visual target localization is one of the important directions of computer vision research. High accuracy,good stability and high speed are the goals of visual target localization algorithm. In view of the shortcomings of the current visual target localization algorithm based on convolution neural network,which needs continuous training and updating in training model,resulting in large amount of calculation,low positioning accuracy and low success rate. In this paper,a convolution neural network model based on double convolution channels is proposed. Compared with the current mainstream positioning algorithms,the results show that the algorithm has higher positioning accuracy and success rate.
Keywords:convolution neural network;target location;image detection
0? 引? 言
當(dāng)今信息技術(shù)已經(jīng)應(yīng)用在生活的方方面面,人們對基于人工智能技術(shù)的智能設(shè)備有了更高的期待。而視覺目標(biāo)作為機(jī)器獲取信息最直接的手段,已經(jīng)成為學(xué)者研究的焦點(diǎn)。視覺研究對象可分為圖像目標(biāo)和視頻目標(biāo),通過技術(shù)手段從它們包含的信息中獲取重要的信息,更好地為人類服務(wù)。然而,想從圖像或視頻目標(biāo)中提取所需信息,是一項(xiàng)非常復(fù)雜的工程。并行技術(shù)和深度學(xué)習(xí)技術(shù)的出現(xiàn),為視覺目標(biāo)的識(shí)別與定位的研究與發(fā)展提供了可能。卷積神經(jīng)網(wǎng)絡(luò)是近年發(fā)展起來可用于研究視覺目標(biāo)定位的模型,它在目標(biāo)檢測、人臉識(shí)別等領(lǐng)域取得了豐富的成果[1]?;谏疃染矸e神經(jīng)網(wǎng)絡(luò)的目標(biāo)識(shí)別、目標(biāo)檢測算法準(zhǔn)確率大幅提升,甚至超越了人工識(shí)別的準(zhǔn)確率[2]。然而,由于可用于視覺目標(biāo)定位的訓(xùn)練數(shù)據(jù)集過少,導(dǎo)致模型難以訓(xùn)練出端到端的卷積神經(jīng)網(wǎng)絡(luò)模型。有學(xué)者嘗試將大規(guī)模圖像識(shí)別的數(shù)據(jù)集訓(xùn)練得到的卷積網(wǎng)絡(luò)模型遷移到視覺目標(biāo)定位中,但是這種方法計(jì)算量巨大且減弱了卷積神經(jīng)網(wǎng)絡(luò)的表征能力。
筆者基于廣西高校中青年教師科研基礎(chǔ)能力提升項(xiàng)目,對視覺目標(biāo)定位算法及并行技術(shù)展開深入研究。針對上述問題,筆者提出一種基于雙卷積通道的卷積神經(jīng)網(wǎng)絡(luò)的視覺目標(biāo)定位算法。傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)通過單卷積通道來獲取目標(biāo)信息,對于復(fù)雜的目標(biāo)經(jīng)常出現(xiàn)定位不準(zhǔn)或者定位時(shí)間過長等不足。本文的卷積神經(jīng)網(wǎng)絡(luò)通過構(gòu)造雙卷積通道的方式提高定位效率。根據(jù)提取目標(biāo)不同,第一卷積通道專門用于獲取定位目標(biāo)信息,第二卷積通道專門用于獲取檢索圖像的特征信息,再使用一個(gè)全連接層將前兩個(gè)卷積通道獲取的特征信息組合在一起,進(jìn)而得到目標(biāo)熱圖,最后實(shí)現(xiàn)目標(biāo)定位。本文提出的算法有以下特點(diǎn):
(1)算法可以使用離線模式實(shí)現(xiàn)目標(biāo)定位。
(2)本文的卷積網(wǎng)絡(luò)模型只學(xué)習(xí)一次便可以在后續(xù)的目標(biāo)定位中繼續(xù)使用。
本文的算法運(yùn)行效率優(yōu)于其他定位算法,而且對目標(biāo)的表征能力更加出色。
1? 雙卷積通道的卷積神經(jīng)網(wǎng)絡(luò)模型
根據(jù)目標(biāo)圖像的特點(diǎn),本文首先訓(xùn)練一個(gè)分類器,通過判斷備選圖像與目標(biāo)圖像的相似度來確定目標(biāo)圖像的位置。通過該分類器判斷的不同目標(biāo)不需要持續(xù)的在線更新,能大大減少反復(fù)在線更新與學(xué)習(xí)造成的計(jì)算壓力。接著,我們設(shè)計(jì)了一個(gè)改進(jìn)的卷積神經(jīng)網(wǎng)模型,該模型只需兩種圖像塊作為輸入,一種圖像塊作為目標(biāo)圖像塊,另一種圖像塊作為檢索圖像塊,模型的主要工作是計(jì)算這兩個(gè)圖像塊的相似度,通過相似度的值實(shí)現(xiàn)目標(biāo)定位。在模型中,我們設(shè)計(jì)的雙卷積通道用于提取圖像特征信息,第一層卷積通道用于提取目標(biāo)圖像信息,第二層卷積通道則用于提取檢索圖像信息,最后用全連接層連接前兩個(gè)卷積核的特征信息。整個(gè)模型的結(jié)構(gòu)設(shè)計(jì)如圖1所示。
需要使用損失函數(shù)對上述模型進(jìn)行訓(xùn)練,在訓(xùn)練中不斷降低損失函數(shù)的值,使訓(xùn)練模型更加接近預(yù)測值。使用的函數(shù)為:
其中,M為模型的輸出響應(yīng)圖,W為權(quán)重函數(shù),T為指截?cái)嗪瘮?shù),L為損失函數(shù)。通過損失函數(shù),可以減少計(jì)算樣本不均衡引發(fā)的缺陷,并提高算法的穩(wěn)定性。
2? 模型訓(xùn)練
為了提高卷積神經(jīng)網(wǎng)絡(luò)對視覺目標(biāo)的定位效率,需要訓(xùn)練足夠多的模型。然而,在現(xiàn)有的視覺目標(biāo)訓(xùn)練領(lǐng)域,只有極少數(shù)可用于測試的圖像數(shù)據(jù),而且這些數(shù)據(jù)較為單一,不適合本文的模型訓(xùn)練。因此,本文擬采用大規(guī)模圖像數(shù)據(jù)集來訓(xùn)練本文提出的模型。大規(guī)模圖像數(shù)據(jù)集中有大量可用于訓(xùn)練的高清圖像,并且這些圖像都已經(jīng)做好相應(yīng)的標(biāo)記。在大規(guī)模圖像數(shù)據(jù)集中,我們選擇單幅標(biāo)注圖像來訓(xùn)練本文的模型。訓(xùn)練示意圖如圖2所示,圖2(a)表示可用于訓(xùn)練的單幅標(biāo)記原始圖。圖2(b)表示檢索到與目標(biāo)相似的圖像,圖2(c)表示從檢索圖像中獲取到目標(biāo)位置生成的標(biāo)記圖??紤]到實(shí)際的圖像存在光照變化、遮擋、變形、快速運(yùn)動(dòng)、消失、背景混亂、低分辨率、尺度變化等現(xiàn)象,本文還采用了數(shù)據(jù)增廣技術(shù),提高訓(xùn)練模型的多樣性,進(jìn)而提高模型的定位的精確性。通過上述訓(xùn)練模型,即使目標(biāo)圖像存在干擾,也不會(huì)影響模型的定位效果。
由于檢測的目標(biāo)存在光照變化、遮擋、變形、快速運(yùn)動(dòng)、消失、背景混亂、低分辨率、尺度變化等現(xiàn)象,會(huì)給目標(biāo)定位帶來更大的挑戰(zhàn)。因此,本模型每次輸入圖像塊時(shí),都通過隨機(jī)選擇相似度較高的圖像作為輸入,而且這些圖片經(jīng)過了可信度預(yù)測并已經(jīng)做了特征標(biāo)記。圖像的可信度預(yù)測越大,說明與目標(biāo)相似度越大??赏ㄟ^式(2)、式(3)計(jì)算得到可信度預(yù)測值:
其中,Mk為最終目標(biāo)預(yù)測圖,Y為輸出的二維預(yù)測圖,cai為預(yù)測可信度,oai為隨機(jī)選擇得到的目標(biāo)圖像塊,sk為搜索圖像塊,N為圖像塊序號,ck為預(yù)測可信度,ai為圖像幀號,k為圖像幀號。
每一張檢索到的圖像都設(shè)定一個(gè)可信度閾值,如果可信度預(yù)測值小于閾值的圖像就會(huì)被丟棄,不再作為圖像輸入。
3? 實(shí)驗(yàn)結(jié)果與分析
本文使用的實(shí)驗(yàn)環(huán)境為Windows 10操作系統(tǒng)、Tesla k20顯卡、Intel Xeon E3 CPU,編程語言為Python,開發(fā)工具為TensorFlow。將上述的模型使用兩個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)測試,這兩個(gè)數(shù)據(jù)集分別是OTB2013[3]、OTB2015[3],這兩個(gè)數(shù)據(jù)集包含了大量的測試樣本,對本文的算法驗(yàn)證有很強(qiáng)的說服力。
將本文的算法與目前3個(gè)主流的定位算法(ECO[4]、MCCT[5]、STRCF[6])進(jìn)行對比,首先計(jì)算本文算法在OTB 2013、OTB2015數(shù)據(jù)集上的定位精度,結(jié)果如表1所示,從表可知,本文算法在兩個(gè)數(shù)據(jù)集上都取得較好的精度,在OTB2013數(shù)據(jù)集中僅與ECO算法相差0.2%,在OTB2015數(shù)據(jù)集中僅與MCCT相差0.9%。
接著計(jì)算本文算法在OTB2013、OTB2015數(shù)據(jù)集上的定位成功率,結(jié)果如表2所示,本文算法在兩個(gè)數(shù)據(jù)集上都取得較理想的成功率。總之,本文的算法不管在定位精度,還是定位成功率方面,都能取得很不錯(cuò)的效果。
接著用本文算法研究在不同干擾因素下的定位精度,表3、表4表示本文的算法與3個(gè)較新算法在不同數(shù)據(jù)集下的定位精度對比情況。表中的IV、OCC、DEF、FM、OV、BC、LR、SV分別光照變化、遮擋、變形、快速運(yùn)動(dòng)、消失、背景混亂、低分辨率、尺度變化。從實(shí)驗(yàn)結(jié)果看,本文的算法能適應(yīng)不同干擾因素的準(zhǔn)確定位,且定位精度比當(dāng)前某些主流算法還要好。
4? 算法分析
本文提出的卷積神經(jīng)網(wǎng)絡(luò)算法在進(jìn)行目標(biāo)定位時(shí),不需要持續(xù)地訓(xùn)練和更新,減少了程序在持續(xù)訓(xùn)練時(shí)的運(yùn)算時(shí)間,提高了算法的運(yùn)行效率,而且保持了良好的穩(wěn)定性。之所以能比部分定位算法更優(yōu),主要是因?yàn)楸疚脑O(shè)計(jì)了雙卷積通道進(jìn)行特征提取,并進(jìn)行了明確的分工,避免了圖像的重復(fù)計(jì)算。但由于本文只選了三個(gè)主流定位算法作對比,故本文的模型說服力還不夠強(qiáng)。
5? 結(jié)? 論
本文提出一種雙卷積通道的卷積神經(jīng)網(wǎng)模型,分為目標(biāo)圖像塊通道和檢測圖像塊通道,通過將目標(biāo)圖像與備選圖像的相似度進(jìn)行對比,從而實(shí)現(xiàn)目標(biāo)定位。模型避免了定位過程中頻繁地訓(xùn)練與更新,在減少算法的計(jì)算時(shí)間的同時(shí),能獲得良好的穩(wěn)定性和精確度。雖然算法的計(jì)算速度與當(dāng)前主流的一些卷積神經(jīng)網(wǎng)算法仍存在差距,但是本文的算法仍是很值得研究和探索的。
參考文獻(xiàn):
[1] 張純純,馮創(chuàng)意,高統(tǒng)林.基于機(jī)器視覺的目標(biāo)識(shí)別與抓取研究 [J].農(nóng)業(yè)裝備與車輛工程,2019,57(12):93-96.
[2] 陳凱.基于深度學(xué)習(xí)和回歸模型的視覺目標(biāo)跟蹤算法研究 [D].武漢:華中科技大學(xué),2018.
[3] 尹寬.復(fù)雜情況下目標(biāo)跟蹤算法研究 [D].成都:四川師范大學(xué),2020.
[4] DANELLJAN M,BHAT G,KHAN F S,et al. ECO:Efficient Convolution Operators for Tracking [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Honolulu:IEEE,2017:6931-6939.
[5] WANG N,ZHOU W G,TIAN Q,et al. Multi-Cue Correlation Filters for Robust Visual Tracking [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Salt Lake City:IEEE,2018:4844-4853.
[6] LI F,TIAN C,ZUO W M,et al. Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Salt Lake City:IEEE,2018:4904-4913.
作者簡介:溫劍鋒(1979.12—),男,漢族,廣西貴港人,系
主任,副教授,碩士,研究方向:人工智能;覃一海(1986.10—),
男,漢族,廣西北流人,專任教師,講師,碩士,研究方向:人工智能。