侯 青,楊榮新,張英杰,李 偉
(1.陜西中醫(yī)藥大學(xué) 科技處,陜西 咸陽(yáng) 712046;2.長(zhǎng)安大學(xué) 信息工程學(xué)院,陜西 西安 710064)
現(xiàn)階段利用深度學(xué)習(xí)相關(guān)技術(shù)實(shí)現(xiàn)圖像分類的任務(wù)往往是有監(jiān)督學(xué)習(xí)的范疇,在對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練之前首先需要對(duì)輸入的圖片數(shù)據(jù)集進(jìn)行人工標(biāo)注,打上屬于某一類的“標(biāo)簽”。所以基于這種方式的圖像分類方法很大程度上都依賴于數(shù)據(jù)集的容量和標(biāo)簽的質(zhì)量,這也在無(wú)形中對(duì)人工標(biāo)注的質(zhì)量和精度提出了更高的要求。所以減少對(duì)標(biāo)簽信息的依賴程度實(shí)現(xiàn)對(duì)圖像數(shù)據(jù)的分類任務(wù),也成了進(jìn)一步的研究目標(biāo),這也是無(wú)監(jiān)督圖像分類的發(fā)展方向。傳統(tǒng)的無(wú)監(jiān)督圖像分類算法主要是基于統(tǒng)計(jì)特征或基于規(guī)則特征進(jìn)行分類,這種方法不能直接對(duì)原始圖像數(shù)據(jù)進(jìn)行處理,必須首先對(duì)原始圖像數(shù)據(jù)進(jìn)行特征提取,然后構(gòu)造合適的分類模型。在特征提取方面,主要包括紋理、顏色、形狀等底層視覺特征,尺度不變特征變換、局部二值模式、方向梯度直方圖等局部不變性特征,這些人工設(shè)計(jì)的特征缺乏良好的泛化性能,且依賴于設(shè)計(jì)者的先驗(yàn)知識(shí),因此這種無(wú)監(jiān)督學(xué)習(xí)方法對(duì)于圖片分類的普遍適用性不高而且分類的準(zhǔn)確率較低?;谏疃葘W(xué)習(xí)大致可以分為兩種研究方向,一是將聚類算法與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合,依靠神經(jīng)網(wǎng)絡(luò)提取特征,通過(guò)聚類算法對(duì)提取到的特征進(jìn)行無(wú)監(jiān)督圖像分類。Yang B等人將降維(DR)和聚類兩個(gè)任務(wù)相結(jié)合,提出一種聯(lián)合DR和Kmeans的聚類方法。降維通過(guò)DNN來(lái)實(shí)現(xiàn),并在低維空間實(shí)現(xiàn)聚類,同時(shí)以重構(gòu)的方式來(lái)優(yōu)化DNN的降維損失。Caron M等人提出一種DeepCluster無(wú)監(jiān)督聚類網(wǎng)絡(luò),利用Kmeans對(duì)特征聚類生成偽標(biāo)簽,并利用該偽標(biāo)簽以監(jiān)督方式訓(xùn)練分類器。為了彌補(bǔ)特征提取的缺陷,謝娟英等人在深度卷積嵌入網(wǎng)絡(luò)中加入了兩個(gè)全連接層作為特征過(guò)渡層,同時(shí)在編碼層中加入下采樣結(jié)構(gòu),減少模型參數(shù),解碼層加入上采樣層還原下采樣導(dǎo)致的細(xì)節(jié)損失,提出了一種深度卷積自編碼圖像聚類算法,并驗(yàn)證了改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)越性。二是提出改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)模型,通過(guò)對(duì)輸入圖像進(jìn)行數(shù)據(jù)集變換和對(duì)比學(xué)習(xí),實(shí)現(xiàn)有語(yǔ)義過(guò)濾的特征級(jí)別無(wú)監(jiān)督分類。Chang J等人提出一種DAC算法,將圖像聚類問(wèn)題視為二元成對(duì)分類任務(wù),判斷圖像對(duì)是否屬于同一類別,并通過(guò)引入聚類約束,將網(wǎng)絡(luò)學(xué)習(xí)到的標(biāo)簽特征趨近于一個(gè)one-hot向量,可以被直接用于聚類圖像。Ji X等人通過(guò)將輸入數(shù)據(jù)集進(jìn)行變換得到成對(duì)圖像,以最大化圖像對(duì)之間的互信息為目標(biāo),提出一種IIC網(wǎng)絡(luò),使模型在這些成對(duì)圖像中挖掘出較好的聚類模式。Wouter Van Gansbeke等人基于對(duì)比學(xué)習(xí),通過(guò)利用特征相似性來(lái)挖掘每張圖像的初始最近鄰,并利用最可信樣本對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào),最大化圖像與其最近鄰之間的點(diǎn)積,實(shí)現(xiàn)無(wú)監(jiān)督圖像聚類。任雪婷等人將成對(duì)學(xué)習(xí)和圖像聚類進(jìn)行聯(lián)合,提出一種無(wú)監(jiān)督肺癌亞型識(shí)別方法,將CNN不同層的輸出特征進(jìn)行融合,構(gòu)建了一個(gè)高效的CNN特征提取框架,并利用成對(duì)學(xué)習(xí)的方式在每次聚類迭代結(jié)果中選取一定的相同聚簇和不同聚簇的CT影像圖像對(duì),結(jié)合對(duì)比損失函數(shù)對(duì)特征學(xué)習(xí)和聚類表示進(jìn)行更新訓(xùn)練,增強(qiáng)了肺癌亞型識(shí)別的準(zhǔn)確率。深度學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)算法融合起來(lái)自適應(yīng)對(duì)圖像數(shù)據(jù)進(jìn)行處理,進(jìn)而減少甚至去掉數(shù)據(jù)標(biāo)注的任務(wù),這將給一系列基于神經(jīng)網(wǎng)絡(luò)的有監(jiān)督任務(wù)帶來(lái)重要的意義,并且在無(wú)監(jiān)督視覺特征學(xué)習(xí)任務(wù)上也是一個(gè)重大的突破。
基于此,該文提出一種融合卷積神經(jīng)網(wǎng)絡(luò)和聚類分析的自適應(yīng)圖像聚類算法。首先對(duì)特征提取網(wǎng)絡(luò)AlexNet進(jìn)行結(jié)構(gòu)優(yōu)化,加入WN歸一化層;其次在快速峰值聚類算法中,引入高斯函數(shù)對(duì)數(shù)據(jù)點(diǎn)的局部密度進(jìn)行度量,利用非聚類中心到聚類中心存在明顯非線性變化來(lái)自適應(yīng)確定聚類中心;最后將特征提取網(wǎng)絡(luò)和改進(jìn)的快速峰值聚類算法融合起來(lái),實(shí)現(xiàn)了端到端的無(wú)監(jiān)督圖像分類目標(biāo),并在常見公開圖像數(shù)據(jù)集上展示了優(yōu)異的分類性能。
圖1 WN權(quán)值歸一化示意圖
WN的過(guò)程也可表示為:
(1)
為了驗(yàn)證WN層的加入是否可以起到優(yōu)化模型性能的目的,本節(jié)對(duì)無(wú)WN層以及有WN層時(shí)的模型以同樣的圖像數(shù)據(jù)進(jìn)行實(shí)驗(yàn),訓(xùn)練過(guò)程中得到的準(zhǔn)確率變化趨勢(shì)如圖2所示。
由圖2可知,對(duì)加入WN歸一化層的模型的準(zhǔn)確率較未加入WN層的模型的準(zhǔn)確率有了明顯提升,模型最終收斂時(shí)的準(zhǔn)確率較無(wú)歸一化層的模型的準(zhǔn)確率最終提升了將近4個(gè)百分點(diǎn)。從參數(shù)角度來(lái)說(shuō),對(duì)比LRN層,WN層可以實(shí)現(xiàn)利用更少的參數(shù)對(duì)網(wǎng)絡(luò)的權(quán)重進(jìn)行更新,這不僅減少了模型的復(fù)雜度從而使模型更快地收斂,也在一定程度上提升了模型的分類準(zhǔn)確率,達(dá)到了對(duì)AlexNet的模型結(jié)構(gòu)進(jìn)行優(yōu)化的目的。
圖2 有無(wú)WN層的準(zhǔn)確率對(duì)比
為了解決快速峰值聚類算法必須由人為設(shè)定截止距離和手動(dòng)設(shè)置聚類中心的問(wèn)題,本節(jié)引入高斯函數(shù)對(duì)數(shù)據(jù)點(diǎn)的局部密度進(jìn)行度量,具體的計(jì)算方法如式(2)所示。
(2)
令I
={1,2,…,N
},則數(shù)據(jù)點(diǎn)與高密度點(diǎn)的距離計(jì)算公式如式(3)所示。(3)
另外,快速峰值算法中在一定程度上僅僅依照經(jīng)驗(yàn)值人為主觀地實(shí)現(xiàn)距離參數(shù)d
的選取,使得算法主觀性較強(qiáng)的同時(shí)穩(wěn)定性較差,算法的性能也在較大程度上受到了限制。本節(jié)將參數(shù)d
的自適應(yīng)選取轉(zhuǎn)化為求解一個(gè)最優(yōu)化問(wèn)題。利用上述經(jīng)過(guò)重新定義的局部密度,可以構(gòu)造局部密度信息熵,如式(4)所示。(4)
γ
≤γ
≤…≤γ
(6)
(7)
(8)
式中,ε
為近似于0的正常數(shù)。在找出可能的聚類中心點(diǎn)后,算法需要從這些點(diǎn)的集合選取出真正的聚類中心,運(yùn)行時(shí)每次只向后遞推一個(gè)數(shù)據(jù),組成包含2m
+1個(gè)γ
值的新的一組,當(dāng)?shù)谝淮纬霈F(xiàn)某一組中的2m
+1個(gè)γ
值產(chǎn)生躍變時(shí),此時(shí)的γ
+2被選擇為聚類中心的閾值,并且將γ
≥γ
+2的數(shù)據(jù)選為聚類中心,即聚類中心點(diǎn)的集合表示如式(9)所示。x
:I
={k
∈I
|γ
≥γ
+2}(9)
在自動(dòng)確定聚類中心之后,非聚類中心點(diǎn)的分配方式仍然是按照定義的距離計(jì)算方法將各個(gè)非聚類中心點(diǎn)分配到與其距離最近的高密度點(diǎn)所在的類,直到把所有的點(diǎn)全部分配完為止,至此完成了該自適應(yīng)快速峰值算法的所有步驟。
該文將改進(jìn)型的自適應(yīng)快速峰值聚類算法與調(diào)整過(guò)的AlexNet網(wǎng)絡(luò)進(jìn)行結(jié)合,結(jié)合過(guò)程的核心思想是對(duì)卷積網(wǎng)絡(luò)學(xué)習(xí)到的深層特征進(jìn)行迭代地聚類,并以聚類結(jié)果為依據(jù)對(duì)卷積網(wǎng)絡(luò)的參數(shù)進(jìn)行更新。模型整體框架和工作的流程圖分別如圖3和圖4所示。
圖3 基于AlexNet的無(wú)監(jiān)督學(xué)習(xí)模型框架
用f
表示卷積網(wǎng)絡(luò)AlexNet從原始圖像到固定維度向量空間的映射,其中θ
是對(duì)應(yīng)的參數(shù)集。將這個(gè)映射應(yīng)用到無(wú)標(biāo)簽圖像數(shù)據(jù)集上,可以得到對(duì)圖像信息進(jìn)行表征的特征向量。對(duì)于訓(xùn)練集X
={x
,x
,…,x
}中的N個(gè)圖像,希望找到一個(gè)參數(shù)θ
,以便映射f
產(chǎn)生良好的通用特性。這些參數(shù)傳統(tǒng)上是通過(guò)監(jiān)督來(lái)學(xué)習(xí)的,即每個(gè)圖像x
都與{0,1}中的標(biāo)簽y
相關(guān)聯(lián)。然后參數(shù)化分類器g
會(huì)根據(jù)特征f
(x
)預(yù)測(cè)該圖像隸屬的正確的標(biāo)簽。則此時(shí)的損失函數(shù)如式(10)和式(11)所示。圖4 無(wú)監(jiān)督圖像分類流程
(10)
(11)
由AlexNet網(wǎng)絡(luò)產(chǎn)生的特征f
(x
)即為聚類算法的輸入,聚類算法根據(jù)相應(yīng)的幾何準(zhǔn)則把它們劃分成k
類。更簡(jiǎn)單地說(shuō),算法以式(12)的最小化為手段,共同學(xué)習(xí)聚類中心矩陣×和每幅圖像n
的聚類結(jié)果y
。(12)
(13)
利用預(yù)訓(xùn)練的ImageNet圖像分類模型的參數(shù)對(duì)網(wǎng)絡(luò)權(quán)重的一般參數(shù)進(jìn)行初始化設(shè)計(jì)。利用訓(xùn)練過(guò)大型數(shù)據(jù)集的網(wǎng)絡(luò)參數(shù)進(jìn)行初始化有兩點(diǎn)好處:(1)經(jīng)過(guò)大量數(shù)據(jù)的訓(xùn)練,網(wǎng)絡(luò)學(xué)習(xí)到了提取圖像特征的基本方法;(2)以在大型數(shù)據(jù)集上學(xué)習(xí)到的參數(shù)進(jìn)行初始化賦值能加快模型的收斂,并且往往也能達(dá)到提高模型準(zhǔn)確率的效果。在控制其他各個(gè)條件一致的情況下,預(yù)訓(xùn)練參數(shù)和隨機(jī)初始化參數(shù)的網(wǎng)絡(luò)性能對(duì)比如圖5所示。
由圖5可以看出,基于預(yù)訓(xùn)練參數(shù)的一般參數(shù)初始化比基于隨機(jī)參數(shù)初始化的模型更快地收斂,這兩種模型收斂后的圖像分類效果也有著直觀可見的差異,并且使用預(yù)訓(xùn)練參數(shù)的模型在最終性能上有了較大程度的提升。
圖5 基于預(yù)訓(xùn)練參數(shù)和隨機(jī)初始化參數(shù)的 模型性能對(duì)比
模型訓(xùn)練過(guò)程采用GPU模式,并選取小批量梯度下降(MBGD)算法作為損失函數(shù)的優(yōu)化器,具體的訓(xùn)練流程如圖6所示。
圖6 無(wú)監(jiān)督模型訓(xùn)練過(guò)程
提出的無(wú)監(jiān)督圖像分類模型是依賴聚類算法對(duì)圖像進(jìn)行分類的,所以采用準(zhǔn)確率(ACC)和歸一化互信息(NMI)來(lái)度量聚類結(jié)果對(duì)無(wú)監(jiān)督圖像分類的適用程度。
設(shè)數(shù)據(jù)集的總數(shù)量為N
,每個(gè)數(shù)據(jù)對(duì)應(yīng)的真實(shí)標(biāo)簽為h
,每個(gè)數(shù)據(jù)利用無(wú)監(jiān)督模型分得的類標(biāo)簽表示為g
,那么可以得到無(wú)監(jiān)督學(xué)習(xí)得來(lái)的類標(biāo)簽映射到真實(shí)標(biāo)簽的函數(shù)map(g
),則定義ACC如式(14)所示。(14)
式中,δ
是計(jì)算h
和map(g
)匹配度的一個(gè)函數(shù),表達(dá)式見式(15)。(15)
另外,本節(jié)通過(guò)標(biāo)準(zhǔn)化互信息(NMI)來(lái)衡量同一數(shù)據(jù)的兩個(gè)不同賦值A
和B
之間共享的信息,該信息定義如式(16)所示。(16)
式中,I
表示互信息,H
表示熵。此度量可應(yīng)用于來(lái)自集群或真實(shí)標(biāo)簽的任何分配。NMI值的變動(dòng)范圍在0到1之間,如果兩個(gè)集群A
和B
是完全獨(dú)立的,則NMI等于0,NMI的值越大,代表兩個(gè)集群的相似度越高。以四個(gè)常見的公開圖像數(shù)據(jù)集為代表,分析所提出的融合卷積神經(jīng)網(wǎng)絡(luò)和聚類分析的無(wú)監(jiān)督網(wǎng)絡(luò)在各個(gè)圖像數(shù)據(jù)集上的表現(xiàn),并以ACC和NMI兩種評(píng)價(jià)指標(biāo)來(lái)對(duì)網(wǎng)絡(luò)模型的性能進(jìn)行評(píng)價(jià)。選取了100個(gè)epoch迭代過(guò)程之后的收斂過(guò)程進(jìn)行了可視化,分類結(jié)果的ACC評(píng)價(jià)指標(biāo)如圖7所示,分類結(jié)果的NMI評(píng)價(jià)指標(biāo)如圖8所示。
圖7 四個(gè)數(shù)據(jù)集在ACC下的分類結(jié)果
對(duì)圖7和圖8進(jìn)行比較分析,可以看出四個(gè)數(shù)據(jù)集在兩種模型下訓(xùn)練的NMI和ACC值基本上呈現(xiàn)出相同的變化趨勢(shì),這兩個(gè)性能指標(biāo)都是在訓(xùn)練過(guò)程中逐漸提升并且最終達(dá)到收斂狀態(tài),但是網(wǎng)絡(luò)在相同數(shù)據(jù)集訓(xùn)練下達(dá)到收斂時(shí)的NMI值都比ACC高。也證明了文中提出的網(wǎng)絡(luò)模型在無(wú)監(jiān)督圖像分類任務(wù)中的合理性和可行性。
圖8 四個(gè)數(shù)據(jù)集在NMI下的分類結(jié)果
同時(shí),為了驗(yàn)證文中提出的無(wú)監(jiān)督分類模型的性能優(yōu)劣,本節(jié)也選取了近年來(lái)表現(xiàn)相對(duì)優(yōu)越的5種無(wú)監(jiān)督學(xué)習(xí)算法分別對(duì)這幾種公開數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),并將結(jié)果進(jìn)行了橫向?qū)Ρ?。不同的無(wú)監(jiān)督算法對(duì)四種數(shù)據(jù)集在ACC指標(biāo)下的分類結(jié)果對(duì)比如表1所示,不同的無(wú)監(jiān)督算法對(duì)四種數(shù)據(jù)集在NMI指標(biāo)下的分類結(jié)果對(duì)比如表2所示。
表1 ACC指標(biāo)下不同無(wú)監(jiān)督算法的分類結(jié)果
表2 NMI指標(biāo)下不同無(wú)監(jiān)督算法的分類結(jié)果
由表1和表2可以看出,文中提出的改進(jìn)型無(wú)監(jiān)督圖像分類模型的結(jié)果是最優(yōu)的,評(píng)價(jià)指標(biāo)ACC和NMI值在每類數(shù)據(jù)下都較現(xiàn)有算法有了較大的提升,特別是在CUB數(shù)據(jù)集上相較于Chang J等人提出的算法在ACC評(píng)價(jià)指標(biāo)上的性能提升了將近7.4%,在NMI評(píng)價(jià)指標(biāo)上的性能比Wouter等人的算法的性能提升了將近11%,這也證明了文中提出的無(wú)監(jiān)督模型在不同數(shù)據(jù)集上進(jìn)行無(wú)監(jiān)督分類的可行性和有效性。
從理論角度進(jìn)行分析,對(duì)比的五種模型中針對(duì)無(wú)監(jiān)督條件下的圖像特征提取主要圍繞兩種方式展開。一是基于編碼和解碼重構(gòu)的學(xué)習(xí)方式,即先構(gòu)建編碼器對(duì)輸入圖像進(jìn)行特征提取得到隱變量,然后對(duì)隱變量特征進(jìn)行解碼重構(gòu),以最大化原始圖像和重構(gòu)圖像之間的相似度來(lái)保證所提取隱變量特征的有效性,最后通過(guò)隱變量特征完成圖像分類。這種方式雖然能夠?qū)崿F(xiàn)對(duì)圖像特征的有效提取,但就圖像分類任務(wù)而言,重構(gòu)的限制太過(guò)于嚴(yán)格,往往不同類別對(duì)象間僅依靠某些特定的細(xì)節(jié)特征就可以分類。二是基于數(shù)據(jù)集變換的學(xué)習(xí)方式,即對(duì)輸入圖像進(jìn)行隨機(jī)變換,然后以雙輸入通道的方式,對(duì)比網(wǎng)絡(luò)輸出的原始圖像特征表示和變換圖像特征表示之間的相似性,達(dá)到對(duì)同一類別圖像的特征學(xué)習(xí)的目的。這種方法能夠誘導(dǎo)網(wǎng)絡(luò)的輸出不因?qū)ο笪恢米兓a(chǎn)生差異,可以在一定程度上提高分類的準(zhǔn)確性,但是數(shù)據(jù)集變換方法是有限的,無(wú)法完全滿足輸入圖像的各種狀態(tài),且隨著數(shù)據(jù)集變換方式的增多,網(wǎng)絡(luò)復(fù)雜度會(huì)大幅度上升。
文中所提出的無(wú)監(jiān)督分類模型將卷積神經(jīng)網(wǎng)絡(luò)AlexNet和聚類分析相融合,一方面聚類的結(jié)果可作為偽標(biāo)簽指導(dǎo)網(wǎng)絡(luò)的迭代過(guò)程,另一方面更新的網(wǎng)絡(luò)可以重新進(jìn)行聚類。隨著batch批次的不斷迭代,聚類產(chǎn)生的偽標(biāo)簽不斷向著正確類別逼近,同時(shí)也能更好地提升網(wǎng)絡(luò)的特征提取能力。這兩個(gè)過(guò)程動(dòng)態(tài)化進(jìn)行,能夠充分發(fā)揮卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力和聚類算法的聚簇能力,且模型設(shè)計(jì)簡(jiǎn)單、巧妙,實(shí)現(xiàn)了聚類中心的自動(dòng)選取和整個(gè)無(wú)監(jiān)督圖像分類過(guò)程的自動(dòng)化。
該文設(shè)計(jì)了一種融合改進(jìn)型AlexNet網(wǎng)絡(luò)與自適應(yīng)快速峰值聚類算法的無(wú)監(jiān)督學(xué)習(xí)模型,在對(duì)卷積網(wǎng)絡(luò)學(xué)習(xí)特征進(jìn)行聚類的同時(shí)以此為依據(jù)對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行更新,兩個(gè)過(guò)程迭代進(jìn)行,以實(shí)現(xiàn)對(duì)圖像的無(wú)監(jiān)督分類。為了驗(yàn)證該無(wú)監(jiān)督分類模型的可行性和有效性,使用了四個(gè)公開的圖像數(shù)據(jù)集進(jìn)行基準(zhǔn)測(cè)試,并將最后的分類結(jié)果按ACC和NMI兩個(gè)評(píng)價(jià)指標(biāo)進(jìn)行了展示。另外,引入目前現(xiàn)有的幾種無(wú)監(jiān)督分類算法完成同樣的分類任務(wù),結(jié)果也證明了改進(jìn)后無(wú)監(jiān)督圖像分類模型相較目前比較出色的幾種無(wú)監(jiān)督算法的優(yōu)越性。然而,在實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn),提出的無(wú)監(jiān)督圖像分類模型不適應(yīng)于數(shù)據(jù)特征維度較高的情況,在輸入到聚類網(wǎng)絡(luò)之前需要借助降維手段進(jìn)行處理。分析原因可能是特征維度較高時(shí),基于距離度量的快速峰值聚類算法會(huì)失效。如何將網(wǎng)絡(luò)提取到的高維特征直接運(yùn)用到聚類算法還有待進(jìn)一步研究。