劉彩玲 岳荷荷
摘 要:基于P-SIFT和P-SURF描述算子來研究雜草種子圖像的自動(dòng)識(shí)別性能,其中每個(gè)圖像分片均使用多層次的描述算子細(xì)節(jié)表示,這些層次依據(jù)局部空間合并分辨率定義。在特征提取部分采用三種編碼技術(shù),即BOW模型,Locality-Constrained Linear Coding算法和Fisher Vector模型來提高分類性能;在分類部分采用Sparse Representation Classifier (SRC),Label Consistent K-SVD (LC-KSVD)和SVM分類器,其中SVM使用RBF和Histogram Intersection Kernel核函數(shù)。P-SIFT和P-SURF描述算子在使用三層空間金字塔和三層特征金字塔時(shí)取得了最高89.7%和86.2%的識(shí)別率,與SIFT和SURF描述算子相比較識(shí)別率有了很大提高。實(shí)驗(yàn)結(jié)果表明,在傳統(tǒng)的局部描述算子基礎(chǔ)上,基于特征金字塔描述算子來提取特征和基于空間金字塔來合并特征可以提高分類性能。
關(guān)鍵詞:種子識(shí)別;分類;多分辨率金字塔;編碼技術(shù);描述算子;識(shí)別率
中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2095-1302(2019)11-00-03
0 引 言
由計(jì)算機(jī)代替專業(yè)人員對(duì)雜草種子進(jìn)行識(shí)別現(xiàn)在已經(jīng)成為熱門課題,這樣可以加快識(shí)別速率并減少人工識(shí)別中的主觀性。自動(dòng)識(shí)別系統(tǒng)基于種子圖像,從圖像中提取全局特征和局部特征作為分類特征進(jìn)行識(shí)別。
對(duì)于雜草種子的自動(dòng)識(shí)別,前人已經(jīng)做了很多工作。Chtioui等人提出了從彩色種子圖像中提取大小、形狀以及紋理特征進(jìn)行識(shí)別,其中將三種參數(shù)相結(jié)合的識(shí)別率達(dá)到99%,但是該研究?jī)H對(duì)4類種子進(jìn)行了識(shí)別[1]。Granitto等人提出了基于機(jī)器視覺的大樣本集的雜草種子識(shí)別方法,并且提取了6個(gè)形態(tài)特征參數(shù)、4個(gè)顏色特征參數(shù)和2個(gè)紋理特征參數(shù)進(jìn)行識(shí)別[2]。Color PCA方法在傳統(tǒng)PCA方法上增加了顏色參數(shù),采用3D顏色張量特征形成向量空間,而Color PCA方法用于將高維空間向低維空間映射和特征提取[3]。Wafy等人從與小麥籽粒樣本混合的臭薺、黑麥草和土荊芥樣本圖片中提取SIFT特征用于種子分類,該方法雖然獲得了較好的識(shí)別率,但是使用的樣本種類較少[4]。Scale-Invariant Feature Transform(SIFT)[5],Speed Up Robust Feature (SURF)[6]和Fast Retina Keypoint (FREAK)[7]均采用單一水平的描述算子細(xì)節(jié)表示圖像。本文的數(shù)據(jù)集包含9 192幅圖片,屬于211個(gè)不同類別,基于P-SIFT和P-SURF描述算子提取分類特征來進(jìn)行雜草種子的識(shí)別。
雜草種子圖像如圖1所示。
1 分類特征
1.1 圖像標(biāo)準(zhǔn)化
本文的數(shù)據(jù)集包含9 192幅圖片,屬于211個(gè)不同類別,每張圖片的大小為150×100像素,圖1所示為該數(shù)據(jù)集中部分雜草種子的圖像。在該數(shù)據(jù)集中,屬于同一類別的原始種子大小和方向不同,這些不同會(huì)增加種子分類的困難。本文首先采用PCA方法將圖像進(jìn)行標(biāo)準(zhǔn)化,以提高分類性能,使用PCA方法找出圖像前兩個(gè)主成分方向,并且將原始圖像沿著第一主成分方向和y軸方向的夾角旋轉(zhuǎn)。圖像標(biāo)準(zhǔn)化后調(diào)整圖像使其大小保持一致。
1.2 金字塔特征
在規(guī)則采樣的圖像I中,對(duì)于大小為S×S的圖像分片,將N2大小合并區(qū)域中心的相對(duì)中心使用笛卡爾積R=C×C定義,其中:
對(duì)于特征點(diǎn)s,局部合并中心點(diǎn)Rs={s+c|c∈R},使用特征點(diǎn)位置s和公式(1)中定義的偏移量計(jì)算。
金字塔描述算子通過改變合并分辨率N構(gòu)造,N定義了用于計(jì)算直方圖的每個(gè)子區(qū)域的大小[8]。圖2表示3個(gè)不同分辨率的描述算子:N=2(圖2(a))時(shí),無(wú)法識(shí)別圓形邊緣;N=4(圖2(b))時(shí),圓形結(jié)構(gòu)開始顯現(xiàn);N=6(圖2(c))時(shí),圓形結(jié)構(gòu)明顯。
假設(shè)圖像I由局部特征X表示:
式中每個(gè)局部特征是由L個(gè)不同分辨率下金字塔描述算子提取的特征組成:
式中xil是在第l∈{1, 2, ..., L}個(gè)分辨率下提取的特征。
由SPM算法[9]得出,不同分辨率下提取到的特征區(qū)分力不同,為了提高分類的性能,需對(duì)不同分辨率下的特征進(jìn)行加權(quán)。假設(shè)L個(gè)描述算子根據(jù)分辨率的升序排列,將分辨率l下的描述算子加權(quán)wl=2l-L,則每個(gè)局部特征可以表示為:
2 編碼技術(shù)
2.1 BOW模型
假設(shè)V={v1, v2, ..., vD}是BOW模型的視覺詞匯,在BOW模型中,每個(gè)特征被量化為一個(gè)|D|的二進(jìn)制向量μ(x)=[μ1(x), μ2(x), ..., μD(x)]T[10-11]。BOW模型認(rèn)為特征x與其最相近的視覺詞匯vi關(guān)聯(lián),因此在二進(jìn)制向量中,如果特征x與視覺詞匯vi關(guān)聯(lián),則μi(x)=1,否則μi(x)=0。
本文為不同描述算子提取到的特征分別定義視覺字典項(xiàng),分辨率水平為l,如果特征xl與視覺詞匯vil關(guān)聯(lián),則μil(xl)=1,否則μil(xl)=0。為了提高分類性能,對(duì)不同描述算子下提取的特征進(jìn)行加權(quán),最終BOW模型用于表示圖像的二進(jìn)制向量為μ(x)=[w1μ1(x1), w2μ2(x2), ..., wLμL(xL)]T,其中對(duì)于不同的分辨率層次l,μl(x)=[μ1l(x), μ2l(x), ..., μlDl(x)]T。
2.2 金字塔特征的局部約束編碼
Locality-constrained Linear Coding(LLC)使用完備的字典項(xiàng)對(duì)局部特征進(jìn)行稀疏編碼,并使用最大值合并方法來提高分類性能[12]。LLC算法約束每個(gè)特征僅僅使用與該特征相關(guān)的k個(gè)字典項(xiàng)構(gòu)建。LLC編碼為下列表達(dá)式的最優(yōu)解:
式中Bx,k是由字典V中與特征x最相關(guān)的k個(gè)視覺詞匯構(gòu)成的。假設(shè)特征x從圖像X中提?。?/p>
LLC算法對(duì)不同分辨率下的特征進(jìn)行分別編碼和加權(quán),因此對(duì)圖像的最終編碼結(jié)果為c(X)=[w1c(X1), w2c(X2), ..., wLc(XL)],其中對(duì)任意分辨率l有c(Xl)=max(c(x1l), c(x2l), ..., c(xil), ...)。
2.3 金字塔特征的Fisher Vector
Fisher Vector(FV)將每個(gè)圖像表示為特征屬于每個(gè)概率模型的梯度向量[13]。FV使用概率密度函數(shù)μλ對(duì)圖像特征的生成過程模型化,將圖像X和Y之間的Fisher核定義如下:
式中:Fλ為μλ的Fisher信息矩陣;GλX是X的對(duì)數(shù)似然函數(shù)的梯度;λ是梯度模型的參數(shù)。
定義gλX=LλGλX和分解式Fλ-1=LλTLλ,因此式(7)可以改寫為內(nèi)積的形式:
圖像X在分辨率l的FV結(jié)果是每個(gè)描述算子xl的標(biāo)準(zhǔn)梯度核,其中xl∈Xl,λl是梯度模型的參數(shù):
3 分類結(jié)果
本文采用SRC,LC-KSVD和SVM分類器對(duì)雜草種子分類。SRC將分類問題轉(zhuǎn)換為以所有訓(xùn)練樣本為基向量的稀疏編碼過程[14]。LC-KSVD為使用完備字典稀疏編碼的過程[15]。SVM分類器是尋找將樣本分離的最佳分類平面過程,該平面與樣本類有最大間距[16],SVM共采用了兩種核函數(shù),即徑向基函數(shù)和直方圖相交核[17]對(duì)訓(xùn)練樣本映射。
本文在每類中隨機(jī)選擇80%的種子作為訓(xùn)練集,其余20%作為測(cè)試集,每個(gè)結(jié)果都是10次獨(dú)立實(shí)驗(yàn)的平均值。本文基于三種分辨率2×2,4×4和6×6提取特征,在不同的分辨率下,P-SIFT提取的特征分別為32,128和288維,視覺詞匯為400,500和550個(gè);P-SURF分別為16,64和144維,視覺詞匯為300,400和450個(gè),分辨率4×4對(duì)應(yīng)于SIFT和SURF。本文采用金字塔1×1,2×2和4×4分割圖像,SP0表示不分割圖像;SP1表示使用前兩層的金字塔分割圖像;SP2表示使用了所有的金字塔。
表1列出了基于P-SIFT和三種空間金字塔在雜草種子中提取特征和LLC編碼方法在LC-KSVD分類器下的分類性能,結(jié)果表明中等分辨率下的特征分類性能最好,而較粗和較細(xì)分辨率的性能較弱,因?yàn)檩^粗分辨率下的特征區(qū)分力不夠,而較細(xì)分辨率下的特征區(qū)分力太強(qiáng)。表2和表3列出了基于P-SIFT,P-SURF和空間金字塔SP0,SP2,將局部特征與編碼技術(shù)BOW,LLC和FV相結(jié)合在不同分類器下的分類結(jié)果。表2和表3列出的結(jié)果表明金字塔描述算子和空間金字塔可以提高分類性能。
4 結(jié) 語(yǔ)
本文基于P-SIFT和P-SURF提取分類特征來研究雜草種子的分類性能,并且分類性能最高分別達(dá)到89.7%和86.%。與Granitto和Verdes等人提出在彩色雜草種子圖像上的識(shí)別率相比,本文的識(shí)別率低4%,但與SIFT和SURF相比,分類性能有較大提高。下一步可以提取更多的局部特征,并加入空間和特征金字塔,或?qū)⒕植刻卣骱腿痔卣飨嘟Y(jié)合來提高分類性能。本文使用的對(duì)局部特征進(jìn)行編碼的編碼方法中的字典項(xiàng)是固定的,我們也可以通過不斷更新編碼過程中使用的字典來提高雜草種子的識(shí)別率。
參 考 文 獻(xiàn)
[1] CHTIOUI Y,BERTRAND D.Identification of seeds by colour imaging: comparison of discriminant analysis and artificial neural network [J]. Journal of the science of food and agriculture,1996,71(4):433-441.
[2] GRANITTO PM,VERDES PF,CECCATTO HA.Large-scale investigation of weed seed identification by machine vision [J]. Computers and electronics in agriculture,2005,47(1):15-24.
[3] ZHAO F,CAI C,ZHU J.Weed seeds recognition using color PCA [J]. International symposium on knowledge acquisition and modeling,2009(1):375-378.
[4] WAFY M,IBRAHIM H,KAMEL E.Identification of weed seeds species in mixed sample with wheat grains using SIFT algorithm [C]// International Computer Engineering Conference,2013:11-14.
[5] LOWE DG. Distinctive image features from scale-Invariant keypoints [J]. International journal of computer vision,2004,60(2):91-110.
[6] BAY H,ESS A.Surf:speeded-up robust features [J]. Computer vision and image understanding,2006(1):404-417.
[7] ALAHI A,ORTIZ R,VANDERGHEYNST P.FREAK:fast retina keypoint [C]// IEEE Conference on Computer Vision and pattern recognition,2012:570-517.
[8] SEIDENARI L,SERRA G,BAGDANOV AD. Local pyramidal descriptors for image recognition [J]. IEEE transactions on pattern analysis and machine intelligence,2014,36(5):1033-1040.
[9] LAZEBNIK S,SCHMID C,PONCE J.Beyond bags of features: Spatial pyramid matching for recognition natural scene categories [C]// IEEE Conference on Computer Vision and pattern recognition,2006:2169-2178.
[10] SIVIC JS,ZISSERMAN A.Video google: a text retrieval approach to object matching in videos [C]// IEEE International Conference on Computer Vision,2003,2:1470-1477.
[11] CSURKA G,DANCE C,F(xiàn)AN L.Visual categorization with bags ofkeypoints [C]// Europeon Conference on Computer Vision Workshop on Statistical Learning for Computer Vision,2004.
[12] WANG J,YANG J,YU K.Locality-constrained linear coding for image classification [C]// IEEE Conference on Computer Vision and Pattern Recognition,2010:3360-3367.
[13] CSURKA G,PERRONNIN F.Fisher vectors: beyond bag-of-visual-words image representations [J]. Communications in computer and information science,2011,229:28-42.
[14] WRIGHT J,YANG AY,GANESH A.Robust face recognition via sparse representation [J]. IEEE transactions on pattern analysis and machine intelligence,2009,31(2):210-217.
[15] JIANG Z,LIN Z,DAVIS LS.Label consistent K-SVD:learning a discriminative dictionary for recognition [J]. IEEE transactions on pattern analysis and machine intelligence,2013,35(11):2651-2664.
[16] CHEN J,JIAO L.Classification mechanism of support vector machines [C]// International Conference On Signal Processing Proceedings,2000:1556-1559.
[17] MAJI S,BERG AC,MALIK J.Classification using intersection kernel support vector machines is efficient [C]// IEEE Conference on Computer Vision and Pattern Recognition,2008:1-8.