張曉瑞
信息時(shí)代,圖像已經(jīng)成為一種傳達(dá)信息的媒介以及載體,并在各個(gè)領(lǐng)域中廣泛應(yīng)用.實(shí)現(xiàn)信息時(shí)代海量數(shù)字圖像的快速、準(zhǔn)確分類,是當(dāng)下圖像應(yīng)用領(lǐng)域的主要研究內(nèi)容[1-2];一張圖像中,會(huì)存在多種類型差異的物體,遮擋、重疊、光照等原因均會(huì)導(dǎo)致多標(biāo)簽圖像的識別分類難度較高,在海量的數(shù)字圖像中,如何高效準(zhǔn)確完成多標(biāo)簽圖像的分類識別,成為重點(diǎn)研究方向[3].卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是一種實(shí)現(xiàn)深度學(xué)習(xí)的典型算法,其具備深度結(jié)構(gòu),學(xué)習(xí)表征能力較好,在計(jì)算機(jī)視覺等領(lǐng)域得到了廣泛應(yīng)用.
國內(nèi)外學(xué)者對多標(biāo)簽圖像分類識別技術(shù)關(guān)注度很高,目前國外學(xué)者多使用貝葉斯鏈分類器進(jìn)行分類,也有結(jié)合CC算法的,在該技術(shù)上的發(fā)展較國內(nèi)成熟,但是差距不大.國內(nèi)學(xué)者肖琳等[4]提出基于標(biāo)簽語義注意力的多標(biāo)簽文本分類的方法,依賴于文檔的文本和對應(yīng)的標(biāo)簽,使用雙向長短時(shí)記憶獲取每個(gè)單詞的隱表示,通過使用標(biāo)簽語義注意力機(jī)制獲得文檔中每個(gè)單詞的權(quán)重,另標(biāo)簽在語義空間里往往是相互關(guān)聯(lián)的.張永等[5]提出基于類屬特征和實(shí)例相關(guān)性的多標(biāo)簽分類算法,不僅考慮標(biāo)簽相關(guān)性還考慮實(shí)例特征的相關(guān)性,通過構(gòu)建相似性圖,學(xué)習(xí)實(shí)例特征空間的相似性.牟甲鵬等[6]提出一種基于標(biāo)簽相關(guān)性的類屬屬性多標(biāo)簽分類算法,該算法使用標(biāo)簽距離度量標(biāo)簽之間的相關(guān)性,通過在類屬屬性空間附加相關(guān)標(biāo)簽的方式完成標(biāo)簽相關(guān)性的引入,以達(dá)到提升分類性能的目的.但是上述方法在識別過程中,運(yùn)算耗時(shí)較長,且收斂速度相對較慢.
本文針對此問題,展開基于卷積神經(jīng)網(wǎng)絡(luò)的多標(biāo)簽圖像分類識別研究,不同于傳統(tǒng)方法之處在于利用卷積進(jìn)行圖像特征提取,CNN作為依據(jù),通過對CNN實(shí)行優(yōu)化后,提升其分類識別能力,保證多標(biāo)簽圖像準(zhǔn)確、高效地分類識別.
為準(zhǔn)確識別多標(biāo)簽圖像信息,采用四元數(shù)Gabor濾波卷積算法提取該圖像特征,卷積算法包括兩層,一層為特征提取層,一層為特征映射層,本文采用卷積算法的基礎(chǔ)特征提取層.純四元數(shù)用q表示,且q=[s,υ];兩個(gè)四元 數(shù) 相 乘 為qaqb=[sa,υa][sb,υb];如 果qc=[sc,υc]=qaqb,則qc=qaqb=[sa,υa][sb,υb].如 果 待處理圖像為qb,qc=[sasb-υa·υb,saυa+sbυa+υa×υb],因?yàn)?,圖像的描述通過四元數(shù)完成,實(shí)部等于零,則qb=[0,υb],qc=[ -υa·υb,saυb+υa×υb].算法的詳細(xì)步驟為:
步驟1:設(shè)Gi表示算子,其由虛部構(gòu)成,且屬于四元數(shù)Gabor;Ii(M*N)表示矩陣,由圖像三基色構(gòu)成,維數(shù)為M*N*3,得到圖像分類識別模型為:
步驟2:設(shè)Gr表示算子,其由實(shí)部構(gòu)成,且屬于四元數(shù)Gabor,則采用卷積操作對圖像實(shí)行處理,且在3個(gè)通道完成,其公式為:
步驟3:求解上一幅圖像的各個(gè)像素,且以qc=[ -υa·υb,saυb+υa×υb]為依據(jù),求解公式為:
式中:gi表示最大值,位于Gi中;pi表示向量,呈三維,分量是其組成內(nèi)容,均屬于三基色,且位于相同像素點(diǎn)內(nèi),則:
步驟4:獲取紋理特征圖像為:
多標(biāo)簽圖像特征提取流程如下所述:
①輸入處理圖像,獲取其不同尺度和方向的特征圖像.
②計(jì)算全部圖像的Tamura紋理特征,包括特征圖像原圖像;并確定兩張圖像之間相似度最高的圖像,其數(shù)量為3張.
③對獲取相似圖片實(shí)行驗(yàn)證,判斷其各自的尺度和方向是否均呈現(xiàn)差異性[7],如果是,進(jìn)入下一步;反之,返回步驟②.
④通過提取Tamura的紋理特征,得到每個(gè)通道的相似度,最后得到了12維特征矢量.
1.2.1 圖像識別
采用CNN模型完成多標(biāo)簽圖像識別,模型包含輸入層、隱含層和輸出層,其中,隱含層作為模型中的神經(jīng)元結(jié)構(gòu)層,包含卷積、池化,以及單層感知器,該層主要實(shí)現(xiàn)圖像識別[8].
將1.2.1小節(jié)獲取的特征向量作為CNN模型的輸入樣本,數(shù)量為m,其構(gòu)成的樣本集共包含n個(gè)類別,以樣本x(i)為參照,其對應(yīng)類別標(biāo)簽用j表示,則網(wǎng)絡(luò)模型的基礎(chǔ)代價(jià)函數(shù)計(jì)算公式為:
式中:權(quán)值用W表示,用于連接各個(gè)層;偏置項(xiàng)用b表示;hW,b(x(i))表示輸出結(jié)果,且為模型最后識別結(jié)果.
模型的訓(xùn)練目的是獲取φ(W,b)的最小值,以W和b兩個(gè)參數(shù)為參照[9].優(yōu)化目標(biāo)函數(shù),其通過梯度下降法完成,則迭代方程為:
式中:學(xué)習(xí)速率用α表示.求解公式(7)和公式(8)的偏導(dǎo)數(shù),hW,b(x(i))的獲取通過前向傳播算法完成,該值與實(shí)際值的差距用表示,求解,nl表示模型輸出層;模型的各層殘差的求解以nl的殘差為基礎(chǔ),實(shí)行求解得出,完成公式(7)和公式(8)的偏導(dǎo)數(shù)求解.
網(wǎng)絡(luò)最后一層的殘差求解公式為:
1.2.2 模型優(yōu)化
CNN模型在識別過程中,單層感知器的全連接過程決定模型的識別輸出結(jié)果[10],因此,為提升模型的識別效果,提升模型的收斂效率,對其實(shí)行雙重優(yōu)化.
k和limg×limg分 別 表 示 數(shù) 量 和 尺 寸,分 別對應(yīng)卷積層和卷積核;且該尺寸為輸入圖像尺寸;nin和nout均表示圖像數(shù)量,分別對應(yīng)輸入和輸出;采用迭代手段對目標(biāo)函數(shù)取值最小的特征矩陣S實(shí)行處理,得出Mat1矩陣,卷積核優(yōu)化通過卷積系數(shù)完成,對卷積結(jié)果實(shí)行分析,利用二分法完成[11];建立函數(shù)表達(dá)式,以插值原理為依據(jù)完成[12];μ表示系數(shù),屬于動(dòng)態(tài)卷積,其計(jì)算公式為:
式中:校正誤差項(xiàng)用θ1表示.參數(shù)數(shù)量的求解公式用公式(11)表示,且為輸入和輸出的數(shù)據(jù),均對應(yīng)于卷積核,其公式為:
優(yōu)化后的卷積核計(jì)算用公式(12)表示,且為初始化:
式中:卷積核參數(shù)矩陣用Mat2表示,且為優(yōu)化后.
設(shè)ρ表示優(yōu)化系數(shù),采用其完成全連接參數(shù)的優(yōu)化,其公式為:
式中:γ表示因子,其對優(yōu)化系數(shù)存在關(guān)聯(lián).如果θ2表示校正誤差項(xiàng),則:
優(yōu)化后的全連接層參數(shù)公式為:
基于上述優(yōu)化步驟,得出模型的優(yōu)化系數(shù)η的計(jì)算公式為:
對公式(15)實(shí)行更新和求解:
多標(biāo)簽圖像的準(zhǔn)確分類,需準(zhǔn)確區(qū)分圖像中不同類別對象的差異性.因此,本文采用實(shí)例差異化算法結(jié)合卷積算法,完成多標(biāo)簽圖像的分類[13].該方法的主要目的是將識別出的多標(biāo)簽圖像實(shí)行包的轉(zhuǎn)換,并刻畫描述圖像中每一個(gè)對象差異性,通過多實(shí)例多標(biāo)簽學(xué)習(xí)器對其實(shí)行學(xué)習(xí)分類[14].
求解全部樣本圖像特征的平均值,且包含標(biāo)簽用j表示,將平均值結(jié)果用于描述原型向量vj,且屬于j;以vj為依據(jù),對識別后的多標(biāo)簽圖像實(shí)行轉(zhuǎn)換處理,使其變成實(shí)例包,其公式為:
轉(zhuǎn)換包的大小與樣本包的類別數(shù)量n相等.
數(shù)據(jù)集用(Bin,tin),i=1,2,…,2m表示,且為轉(zhuǎn)換處理后;通過第一層和第二層分類策略完成(Bin,tin),i=1,2,…,2m的學(xué)習(xí)和分類.在第一層分類學(xué)習(xí)中,為獲取不相交子集[15],且數(shù)量為u,通過聚類算法完成,其公式為:
式中:i表示數(shù)量,為訓(xùn)練樣本,且位于各個(gè)子集中;Ul表示聚類子集;{U1,U2,...,Uu}表示數(shù)量為u的包的集合,且該集合表示簇中心,且屬于Ul;Ul對應(yīng)的中心用Ql表示,兩者之間需滿足公式(21)的標(biāo)準(zhǔn):
式中:dH(E,F)表示距離,且為兩種計(jì)算包之間,即E和F.
設(shè)W=[ωlj]u×q表示權(quán)值矩陣,其與第二層相對應(yīng);ωlj表示權(quán)值,屬于Ql和,后者表示輸出.第二層分類策略采用最小化誤差函數(shù)計(jì)算W=[ωlj]u×q,其公式為:
表示給定待分類樣本,完成模型訓(xùn)練后,獲取的實(shí)例包采用公式(23)完成多標(biāo)簽分類:
實(shí)驗(yàn)平臺為MATLAB軟件,選取VOC2007數(shù)據(jù)集作為本文方法的測試對象,該測試集中用于訓(xùn)練和測試的圖像數(shù)量分別為2 501和4 952張,特征數(shù)分別為301和597,標(biāo)簽數(shù)為18和25,共有圖像種類20種,所有圖像中物體標(biāo)簽均超過一種,設(shè)定優(yōu)化前后的學(xué)習(xí)效率一致.
為衡量本文方法對于圖像特征提取的性能,采用粗糙度、對比度和方向度作為衡量所提特征的效果,以此判斷本文方法提取性能的優(yōu)劣.測試時(shí)隨機(jī)選取數(shù)據(jù)集中具有特征代表性的五種圖像特征紋理完成測試,分別為垂直紋理、圓形紋理、水平紋理、動(dòng)物紋理以及植物紋理,測試本文方法提取后5種圖像紋理的結(jié)果.設(shè)定兩色通道(黑色、白色)分別表示圖像中所含顏色區(qū)域的大小.其中粗糙度值越低、對比度越高、方向度越高則表示提取的特征越好、方法的提取性能越好.其公式分別為:
式中:σ表示峰值,?V表示水平方向的梯度,?H表示豎直方向的梯度.
根據(jù)公式(24)計(jì)算5種圖像紋理的結(jié)果,用表1描述.
表1 五種圖像特征紋理的提取結(jié)果
根據(jù)表1測試結(jié)果可知:本文方法在對不同類型圖像紋理特征實(shí)行提取時(shí),在兩種通道下所提取特征的粗糙度都在60 μm以下,并且每個(gè)通道里上下浮動(dòng)非常低,最大相差1.715 μm,對比度在30%以上,其中圓形紋理最高達(dá)到34.494%,最小也有34.106%,方向度最大值為0.991%,最小值為0.862%,其值均較為接近,其中垂直圖像和水平圖像紋理較為單一,其余幾種圖像紋理較為復(fù)雜,并且紋理的呈現(xiàn)方向差異較大,但是,所提取的特征結(jié)果差距較小,表明文本方法提取特征性能較好,可完成不同程度圖像紋理特征提取.
方法的收斂性能決定方法的識別效率.測試本文方法優(yōu)化前、后,基于圖像類別數(shù)量差異完成全部數(shù)據(jù)集圖像識別所需的迭代次數(shù),以此衡量本文方法優(yōu)化前后的收斂性能.并且,獲取本文方法優(yōu)化前后,在測試集上,不同迭代次數(shù)下的識別均方根誤差,用來衡量本文方法優(yōu)化前后的識別性能.同時(shí),設(shè)置對比實(shí)驗(yàn),對照組的算法分別為文獻(xiàn)[4]算法和文獻(xiàn)[5]算法,用圖1和圖2描述.
圖1 收斂性能測試結(jié)果
圖2 識別性能測試結(jié)果
根據(jù)圖1測試結(jié)果可知:圖像類別數(shù)量增加,迭代次數(shù)也隨之增加,本文方法優(yōu)化前當(dāng)類別數(shù)量為2類時(shí),其完成識別所需的迭代次數(shù)為101次,優(yōu)化后為45次,對比方法卻為60次和78次,遠(yuǎn)高于本文方法;當(dāng)類別數(shù)量為20類時(shí),優(yōu)化前需192次完成識別,優(yōu)化后為95次,其他算法為143次和160次.該結(jié)果表明本文方法優(yōu)化后的收斂性能優(yōu)于優(yōu)化前,可更快完成圖像識別.
根據(jù)圖2測試結(jié)果可知:本文方法優(yōu)化前,迭代次數(shù)增加,均方根誤差則隨之降低,優(yōu)化前當(dāng)?shù)_(dá)到120次時(shí),該誤差呈現(xiàn)穩(wěn)定狀態(tài),其值為0.29;優(yōu)化后,當(dāng)?shù)螖?shù)達(dá)到63次時(shí),該誤差趨于平穩(wěn),均在0.1以下,文獻(xiàn)[4]算法在迭代達(dá)到79次時(shí),誤差呈現(xiàn)穩(wěn)定,其值為0.27,文獻(xiàn)[5]算法在迭代達(dá)到112次時(shí),呈現(xiàn)穩(wěn)定,其值為0.2,本文算法的誤差均低于文獻(xiàn)算法,并且不到其值的一半,表明優(yōu)化后方法的識別精度更佳.
隨機(jī)選取一組動(dòng)物圖像、一組植物圖像和一組人的圖像,采用本文方法對其實(shí)行測試,分析本文方法的圖像識別效果,結(jié)果用圖3描述.三組不同多標(biāo)簽圖像中,框內(nèi)標(biāo)記處均為待識別標(biāo)簽.圖中實(shí)線內(nèi)表示本文方法識別出的結(jié)果,虛線表示未識別出的結(jié)果.
根據(jù)圖3測試結(jié)果可知:本文方法對三組圖像實(shí)行識別后,植物圖像和人物圖像均可按照識別需求完成多標(biāo)簽圖像中的目標(biāo)識別;只有動(dòng)物圖像的識別結(jié)果中,存在一處未識別出的標(biāo)簽.該結(jié)果表明本文方法的識別效果較好,可較為準(zhǔn)確完成多標(biāo)簽圖像中的目標(biāo)識別.
圖3 多目標(biāo)圖像識別結(jié)果
為分析本文方法的分類效果,采用Kappa系數(shù)作為衡量標(biāo)準(zhǔn),系數(shù)值越高表示分類精度越好,其計(jì)算公式為:
式中:實(shí)際準(zhǔn)確率和理論準(zhǔn)確值分別用Accuracy和Pe表示.依據(jù)公式(25)測試本文方法的Kappa系數(shù),結(jié)果用圖4描述.
圖4 Kappa系數(shù)測試結(jié)果
依據(jù)圖4測試結(jié)果可知:本文方法優(yōu)化后,分類效果良好,Kappa系數(shù)均在0.8以上,優(yōu)化前Kappa系數(shù)均低于0.7.表明本文優(yōu)化后,可更好完成多標(biāo)簽圖像分類.
多標(biāo)簽圖像的應(yīng)用越來越普遍,各個(gè)領(lǐng)域均有廣泛應(yīng)用,但是該類圖像的識別受到背景復(fù)雜等因素的影響會(huì)導(dǎo)致識別效果較差,基于此,本文研究多標(biāo)簽圖像分類識別算法,基于卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),高效、準(zhǔn)確完成圖像識別.測試結(jié)果表明:本文方法可有效獲取復(fù)雜紋理圖像特征,且圖像的識別效果良好,可完成多標(biāo)簽圖像的準(zhǔn)確識別和分類.
由于實(shí)驗(yàn)部分采用的測試對象均為圖片,下一步的研究內(nèi)容則將本文方法用于視頻中多標(biāo)簽?zāi)繕?biāo)的識別和分類,并且針對學(xué)習(xí)率進(jìn)行研究.