国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合深度及邊界信息的圖像目標識別

2017-04-24 10:24:59原彧鑫周向東
計算機應用與軟件 2017年4期
關(guān)鍵詞:邊界物體深度

原彧鑫 周向東

(復旦大學計算機科學技術(shù)學院 上海 200433)

融合深度及邊界信息的圖像目標識別

原彧鑫 周向東

(復旦大學計算機科學技術(shù)學院 上海 200433)

為精確定位候選目標,提高目標識別效果,提出一種融合圖像邊界信息和深度信息的目標識別方法,該方法可以產(chǎn)生數(shù)量更少、定位更準確的圖像候選目標。然后提取深度學習特征,通過支持向量機分類模型,實現(xiàn)目標識別。在兩個常用數(shù)據(jù)集上進行對比實驗顯示,與Baseline和選擇性搜索等方法相比,該方法顯著地提高了目標識別的性能。

目標識別 區(qū)域融合 深度信息 深度學習 支持向量機

0 引 言

目標識別技術(shù)在安全監(jiān)控、人機交互、醫(yī)學、國防及公共安全領域具有十分重要的應用價值和發(fā)展前景。圖像目標識別,旨在從二維圖像或視頻中精準地定位目標對象的位置,并自動賦予類別標簽。

目標識別的過程主要包括提取候選目標和對目標進行分類。其中,如何準確地定位目標物體是目標識別技術(shù)的重要組成部分?;谔荻确较蛑狈綀D(HOG)的行人檢測[1]以及基于形變部件模型(DPM)[2]的目標檢測都采用了滑動窗口檢測方式,其本質(zhì)是通過窮舉檢索提取候選集。但滑動窗口方法產(chǎn)生的候選目標集過大,影響目標識別的效率和性能。特別是目前最受關(guān)注的深度學習特征的提取往往具有較大的時間開銷,因此,利用深度特征的目標識別更進一步要求目標候選區(qū)域的選取更加精簡、準確。

“選擇性搜索”[3]縮減了候選目標集的大小,取得了較好的目標定位效果,但目標區(qū)域的選取依然不夠準確,會產(chǎn)生較多的錯誤檢測。為此,文獻[4]首先通過一次粗糙的分割得到候選目標集,然后對這些候選集上的檢測結(jié)果使用監(jiān)督下降方法進行一次自上而下的搜索,進而獲得更準確的目標定位;而文獻[5]使用貝葉斯優(yōu)化調(diào)整選擇性搜索方法得到的候選集的位置,得到更準確的候選集。然而,上述方法仍然是根據(jù)圖像外觀特征,對原始候選集進行位置調(diào)整,忽略了圖像是3D世界的二維投影等問題。圖像蘊含的3D信息,可以幫助我們進行更加準確的目標定位與識別。

本文在發(fā)掘圖像蘊含的3D信息的基礎上提出了一種新目標識別方法,即首先基于“超像素”融合的思想,根據(jù)圖像邊界信息和深度信息以及傳統(tǒng)的顏色、紋理特征,對“超像素”進行更準確的融合,產(chǎn)生候選目標集。為了避免或消除圖像的“過分割”狀態(tài),本文方法利用顏色、紋理特征進行二次融合。然后,提取深度特征并訓練支持向量機分類模型。在PASCAL VOC及ImageNet數(shù)據(jù)集上的實驗結(jié)果表明,本文方法產(chǎn)生的候選目標數(shù)量遠少于選擇性搜索方法,而且獲得了更好的目標定位效果,在整體上較為明顯地提升了目標識別的性能。

1 相關(guān)工作

在圖像中直接搜索目標物體的方法是窮舉搜索。雖然窮舉搜索可以很好地找到目標的位置,但隨著圖像數(shù)量及圖像分辨率地提升,其候選窗口的數(shù)量將成倍地增加,如此一來窮舉搜索的計算代價十分巨大并且非常低效。因此,如果能過濾掉一些無用的候選區(qū)域,不但能提升識別速度,而且對分類準確率也會產(chǎn)生積極的影響。

因此,早期的目標識別研究采用規(guī)則網(wǎng)格、固定尺寸和固定長寬比的滑動窗口來減少搜索空間,但候選集的質(zhì)量會差很多。為此,文獻[6]提出用多尺度掃描窗口對圖像進行搜索,提出候選目標,但該方法搜索空間依然很大。

雖然滑動窗口效果較好,但其計算量大、速度慢,并且沒有考慮圖像本身所包含的信息。因此,根據(jù)圖像的信息,將圖像分割成有意義的若干個連通區(qū)域,各個區(qū)域有其獨特的性質(zhì),然后從中提取出感興趣的目標區(qū)域,這就是基于圖像分割進行目標提取的基本思路。但是,如何定義圖像區(qū)域間的邊界卻是一個十分復雜的問題。通常的算法[7-10]都是依賴于圖像的亮度、灰度、顏色、紋理等特征的相似性將圖像像素聚類成多個區(qū)域,各個區(qū)域內(nèi)部有其特定的一致性,區(qū)域之間卻存在著一定的差異性。例如,文獻[10]提出的一種基于圖表示的圖像分割方法,使用RGB顏色的距離來衡量兩點的相似性,并建立了一個自適應閾值的算法來確定相鄰區(qū)域是否合并。該算法實現(xiàn)簡單,速度較快,但是容易產(chǎn)生過分割,所以一般不直接將其作為分割結(jié)果,而需進一步處理。

基于分割的目標提取方法,使用圖像自身的特征、結(jié)構(gòu)來指導分割過程,盡可能地將目標區(qū)域分割出來,但分割結(jié)果往往表現(xiàn)為過分割或欠分割,無法對應到真實的目標區(qū)域,造成分割不夠精確。受到從細節(jié)到整體的分割方式的啟發(fā),文獻[3]綜合了分割與窮舉檢索的思想,提出了選擇性搜索的方法。該方法大幅降低候選目標數(shù)量,提高了程序效率:先利用文獻[10]提出的分割算法生成初始的候選目標區(qū)域位置;同時結(jié)合窮舉檢索,將初始分割得到的目標區(qū)域不斷融合,盡可能地獲得候選目標的位置。而且,該方法與目標類別無關(guān),僅與圖像自身有關(guān)。

2 融合3D信息的圖像目標識別

在圖像目標提取方法中,選擇性搜索方法速度快、效果較好,近幾年在目標識別領域被廣泛應用。但是,實際圖像中的物體是3D世界中的實體的投影,僅僅通過顏色、尺寸、紋理等圖像外觀特征往往難以很好地劃分目標區(qū)域。因此,本文提出利用3D信息,如通過引入邊界及深度信息,在區(qū)域融合時,使區(qū)域的優(yōu)先融合更符合目標的真實情況,產(chǎn)生更高質(zhì)量的候選目標集。本文進行目標識別的流程如圖1所示。

圖1 本文目標識別流程圖

2.1 目標提取

現(xiàn)實世界映射到圖像平面時產(chǎn)生的一個重要結(jié)果就是物體之間的遮擋邊界:當物體遮擋住位于它后面的物體時,兩物體之間產(chǎn)生的分界線。其本質(zhì)上是由三維信息中的深度信息造成的,即物體的深度不一致造成的。因此邊界特征與深度信息對于圖像目標識別與場景理解都是十分重要的。

2.1.1 圖像3D信息

1) 邊界信息

一般情況下,圖像中較長的平滑邊界很可能是物體之間的邊界。所以,圖像的邊界本身就包含很多的信息。

(1) 邊界長度,這里是相對長度,與邊界分隔的兩個區(qū)域中周長較短的區(qū)域進行比較:

Bl=L/min(Ci,Cj)

(1)

其中,L為邊界長度,Ci、Cj分別為該邊界兩邊區(qū)域的周長。該特征描述了邊界與區(qū)域之間包圍的程度。

(2) 邊界方向,即邊界兩端點之間夾角。

(3) 邊界平滑度,其本質(zhì)上就是計算邊界曲線的平滑度,計算公式如下:

(2)

其中, (x1,x2)、(y1,y2)為邊界端點坐標。

(4) 邊界連續(xù)性,計算與其相鄰邊界夾角的最小值。

此外,還使用了文獻[11]提出的平均邊界概率值作為邊界特征的一部分。這些信息組合在一起,構(gòu)成圖像中一條邊的邊界特征。

2) 深度信息

通過深度信息可以更好地判斷兩個相鄰區(qū)域是否屬于一個物體,例如,如果可以確定相鄰區(qū)域在深度上差距較大,則這個邊界更有可能是真正的邊界。雖然僅僅從單幅圖像中,無法得到圖像的絕對深度信息,但通過很多算法可以估算出圖像的相對深度。

T-junction被廣泛用于基于圖像的深度恢復技術(shù)中,T-junction是由三條邊界組成的“T”型節(jié)點,是三條邊界和其對應的三個區(qū)域交界的點。如圖2 所示。

圖2 T-junction示意圖

T-junction描述了相鄰物體邊界線之間的相交關(guān)系。一個理想的T-junction就是一個標準的“T”字形,即有兩條邊界構(gòu)成180度夾角,標志著這兩條邊之間的區(qū)域在最前面,另兩個區(qū)域在后面(如圖2中A區(qū)域,由邊e1和e3所構(gòu)成的夾角接近180度,表明A區(qū)域在B區(qū)域和C區(qū)域的前面)。

結(jié)合其他特征,獲得相鄰區(qū)域的前景/背景標簽后,可以確定邊界的方向(確定準則:邊界左側(cè)為前景)[12]。這樣在T-junction中,若其為物體的邊界,則其方向不可能是任意的,至少有一個出junction的方向及一個進junction的方向,否則作為物體的邊界,就會出現(xiàn)矛盾。

2.1.2 融合3D信息的候選目標定位

根據(jù)邊界特征、深度信息以及區(qū)域的顏色、紋理等外觀特征,本文采用文獻[12]的條件隨機場模型,使得邊界和外觀標簽[13]取得一致性,公式如下:

(3)

這里φj表示junction因子,γe表示外觀因子;Nj表示junction數(shù)目,Ne表示圖中邊的數(shù)目。對于無效的junctions(如:沒有邊界出junction),給其較大的懲罰;同樣對于屬于不同外觀類別的兩個區(qū)域,邊界卻屬于“虛邊界”的(即要將兩個不同外觀類別的區(qū)域融合的)給予其較大的懲罰。

這樣可以確定初始分割中真正的邊界,將“虛邊界”去除,即區(qū)域融合。直至所有的邊界都是真正邊界后,圖像分割完成,獲得圖像初始候選目標集。

在經(jīng)過上述基于邊界信息與深度信息的融合之后,得到區(qū)域目標候選集。但此時依然存在“過分割”的情況,如圖3所示。

圖3 融合邊界與深度信息的圖像分割情況

這時為了獲得更好的候選目標,本文采用顏色、紋理這兩種外觀特征作為區(qū)域相似性評價標準,進行區(qū)域融合,獲得更加準確的候選目標集。

相對于RGB顏色空間,HSV空間更接近于人類對顏色的主觀認識,所以本文采用HSV顏色空間對圖像顏色特征進行描述。紋理特征方面,本文選取局部二值模式(LBP)作為紋理特征,該特征具有旋轉(zhuǎn)不變性和灰度不變性等顯著的優(yōu)點,并且計算簡便高效,能夠有效地描述圖像局部紋理。

在獲得各個區(qū)域的顏色及紋理特征直方圖后,先將特征向量進行L1歸一化,然后使用χ2距離:

(4)

計算相鄰區(qū)域的顏色直方圖及紋理直方圖的距離。則相鄰區(qū)域ri和rj的相似度計算公式為:

(5)

這樣,在上一步候選集的基礎上,每次將最相似的兩個區(qū)域合并,形成一個新的候選目標區(qū)域,不停地融合,直至整幅圖像融合成一個區(qū)域為止。

2.2 特征提取與目標分類

本文通過Caffe[14]框架提取圖像的深度學習特征作為候選目標圖像的描述符,使用SVM模型進行分類任務。

Caffe是一個深度學習的開發(fā)框架,具有輕便性、易用性和速度快的優(yōu)勢。深度學習可以逐層提取圖像的特征,通過組合低層特征形成更加抽象的高層特征,語義從低到高,對圖像的扭曲、偏移、縮放等形變更加適應。近年來,深度學習發(fā)展迅猛,在圖像的各個領域都取得了不錯的成績,為圖像特征描述提供了新的思路。

SVM是一種監(jiān)督學習模型,被廣泛地應用于機器學習分類和回歸任務中。SVM的決策函數(shù)來源于線性分類模型的決策函數(shù):

f(x)=(ωTx+b)≥1

(6)

帶有松弛變量的軟間隔SVM模型目標函數(shù)為:

(7)

s.t.

yi(ωTxi+b)≥1-ξ,ξi≥0 i=1,2,…,n

(8)

3 實驗及分析

3.1 實驗數(shù)據(jù)集

3.1.1PASCALVOC

PASCALVOC數(shù)據(jù)集是計算機視覺分類、識別和檢測的一個基準測試,提供了標準圖像注釋數(shù)據(jù)集。該數(shù)據(jù)集要求研究者僅通過圖像內(nèi)容將其分類并識別目標物體。

本實驗從PASCALVOC2007數(shù)據(jù)集中隨機抽取了aeroplane、bird、bottle、car、cow、dog、motorbike、sheep、sofa、train等10個類共1 161幅圖像作為實驗數(shù)據(jù)集一。其中訓練圖像583幅,測試圖像578幅。

3.1.2ImageNet

ImageNet是目前世界上最大的圖像識別數(shù)據(jù)庫,是根據(jù)詞匯層次結(jié)構(gòu)組織的圖像數(shù)據(jù)庫。詞匯網(wǎng)中的每個有意義的概念可能被多個單詞或詞組表述,即“同義詞集合”。在ImageNet數(shù)據(jù)集中,每個“同義詞集合”通過多幅圖像來對其進行描述,其中,每幅圖像都是經(jīng)過篩選及人工標注的。

本實驗從ImageNet數(shù)據(jù)集中隨機抽取了10個類別圖像:antelope、bus、cucumber、guitar、lion、monkey、winebottle、hairdryer、refrigerator、Mushroom等10個類共2 091幅圖像作為本實驗數(shù)據(jù)集二,其中訓練圖像1 046幅,測試圖像1 045幅。

3.2 實驗結(jié)果

目標檢測不但要求正確識別出物體的類別,而且需要較好地定位目標的位置。PASCALVOC定義目標定位的標準是重合度(Overlap),要求候選目標區(qū)域與真實目標之間要有最大重合度,公式如下:

(9)

即候選目標Bp與groundtruthBgt的重合區(qū)域與兩者全部區(qū)域的面積之比。PASCALVOC評價標準要求只有當目標區(qū)域Bp與groundtruth的重合率超過50%時,才能認為是正確的檢測。

本文利用F1綜合評價目標分類的效果,公式為:

F1=2PR/(P+R)

(10)

其中,P是準確率(precision),R是召回率(recall)。

表1與表2分別比較了本文方法與采用滑動窗口的基準(Baseline)方法、選擇性搜索[3]方法在兩個數(shù)據(jù)集上的分類結(jié)果(三種方法均使用deepfeature特征和SVM分類器)。

表1 數(shù)據(jù)集一F1

表2 數(shù)據(jù)集二F1

3.3 實驗分析

通過實驗結(jié)果對比,本文方法相比于選擇性搜索在目標識別的效果上有很大提高。在數(shù)據(jù)集一中,Baseline的平均F1為0.29,選擇性搜索方法為0.44,而本文的方法達到0.51,并且大部分類別的識別效果都好于Baseline與選擇性搜索方法。在數(shù)據(jù)集二上也得到了一樣的結(jié)果(Baseline為0.40,選擇性搜索方法為0.54,而本文方法為0.63)。本文方法可以取得更好的分類效果,根本原因在于,本文方法可以更準確地定位目標。如圖4中所示,本文方法的定位效果更加準確,尤其在對白馬的目標定位。

圖4 實驗效果圖1

因為初始分割方法[10]只根據(jù)顏色特征將圖像分為上百塊“超像素”,而選擇性搜索只根據(jù)外觀特征進行融合,這樣很容易將屬于白馬的區(qū)域與旁邊欄桿的白色區(qū)域先行融合,對后續(xù)的融合產(chǎn)生連鎖影響,造成目標定位不準確。相比于選擇性搜索,本文加入深度信息與邊界信息,使區(qū)域的融合更加符合物體在三維空間上的定義,而不僅僅是外觀上的相似性,進而獲得更加準確的目標定位,改善了最后分類的效果。更多實驗效果如圖5所示。

圖5 實驗效果圖2

4 結(jié) 語

針對目標識別中的目標提取過程,本文通過融入深度信息與邊界特征,獲得了更加準確的候選目標集,最后利用圖像的深度學習特征訓練SVM模型對候選目標進行分類。通過在PASCAL VOC和ImageNet數(shù)據(jù)集上的實驗驗證了本文方法的效果。下一步將研究如何避免或解決邊界錯誤定義產(chǎn)生的問題。

[1] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Computer Vision and Pattern Recognition,2005 IEEE Computer Society Conference on.IEEE,2005:886-893.

[2] Felzenszwalb P F,Girshick R B,McAllester D,et al.Object detection with discriminatively trained part-based models[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(9):1627-1645.

[3] Uijlings J R R,Sande K E A V D,Gevers T,et al.Selective search for object recognition[J].International Journal of Computer Vision,2013,104(2):154-171.

[4] Long C,Wang X,Hua G,et al.Accurate object detection with location relaxation and regionlets re-localization[C]//12th Asian Conference on Computer Vision.Springer International Publishing,2014:260-275.

[5] Zhang Y,Sohn K,Villegas R,et al.Improving object detection with deep convolutional networks via Bayesian optimization and structured prediction[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition,2015:249-258.

[6] Viola P,Jones M J.Robust real-time face detection[J].International Journal of Computer Vision,2004,57(2):137-154.

[7] Shi J,Malik J.Normalized cuts and image segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(8):888-905.

[8] Martin D,Fowlkes C,Tal D,et al.A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics[C]//Computer Vision,2001 8th IEEE International Conference on.IEEE,2001:416-423.

[9] Ren X,Malik J.Learning a classification model for segmentation[C]//Computer Vision,2003 9th IEEE International Conference on.IEEE,2003:10-17.

[10] Felzenszwalb P F,Huttenlocher D P.Efficient graph-based image segmentation[J].International Journal of Computer Vision,2004,59(2):167-181.

[11] Martin D,Fowlkes C,Malik J.Learning to find brightness and texture boundaries in natural images[C]//Advances in Neural Information Processing Systems,2002.

[12] Hoiem D,Stein A N,Efros A A,et al.Recovering occlusion boundaries from a single image[C]//Computer Vision,2007.ICCV 2007.IEEE 11th International Conference on.IEEE,2007:1-8.

[13] Hoiem D,Efros A A,Hebert M.Recovering surface layout from an image[J].International Journal of Computer Vision,2007,75(1):151-172.

[14] Donahue J,Jia Y,Vinyals O,et al.DeCAF:A deep convolutional activation feature for generic visual recognition[J].Computer Science,2013,50(1):815-830.

OBJECT RECOGNITION COMBINED WITH DEPTH AND BOUNDARY INFORMATION

Yuan Yuxin Zhou Xiangdong

(SchoolofComputerScienceandTechnology,FudanUniversity,Shanghai200433,China)

In order to locate the candidate object accurately and improve the target recognition effect, an object recognition method combined with depth and boundary information is proposed. The proposed method can generate less but better object candidates with more accurate location. Then the depth learning feature is extracted, and the SVM classification model is used to realize the target recognition. Experimental results on two common data sets show that compared with Baseline and selective search, this method improves the performance of object recognition significantly.

Object recognition Region merge Depth information Deep learning SVM

2016-03-18。國家自然科學基金項目(61370157)。原彧鑫,碩士生,主研領域:計算機視覺。周向東,教授。

TP3

A

10.3969/j.issn.1000-386x.2017.04.031

猜你喜歡
邊界物體深度
拓展閱讀的邊界
深度理解一元一次方程
深刻理解物體的平衡
深度觀察
深度觀察
我們是怎樣看到物體的
論中立的幫助行為之可罰邊界
深度觀察
為什么同一物體在世界各地重量不一樣?
“偽翻譯”:“翻譯”之邊界行走者
外語學刊(2014年6期)2014-04-18 09:11:49
富宁县| 台北市| 辰溪县| 常州市| 天峨县| 儋州市| 柏乡县| 安塞县| 沐川县| 济源市| 云林县| 西昌市| 日喀则市| 锦屏县| 新民市| 光泽县| 延川县| 河源市| 阿勒泰市| 会同县| 溧水县| 房产| 麻栗坡县| 河北区| 柞水县| 哈密市| 呈贡县| 珲春市| 黑山县| 洛扎县| 佛教| 沅陵县| 夏河县| 桑植县| 古交市| 汉川市| 子长县| 阳城县| 东山县| 嘉鱼县| 始兴县|