秦瑩華,李菲菲,陳 虬
(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)
近年來,隨著互聯(lián)網(wǎng)的快速發(fā)展和移動(dòng)設(shè)備的不斷普及,海量的圖像數(shù)據(jù)每天由各類數(shù)碼產(chǎn)品制作,并快速在網(wǎng)絡(luò)上傳播。如何有效管理和檢索這些數(shù)據(jù)成為一項(xiàng)亟需解決的問題。
自動(dòng)圖像標(biāo)注是圖像檢索領(lǐng)域一項(xiàng)基本和富有挑戰(zhàn)性的任務(wù)。它利用已標(biāo)注圖像集或其他可獲得的信息自動(dòng)學(xué)習(xí)語義概念空間與視覺特征空間的關(guān)系模型,并用此模型標(biāo)注未知語義的圖像,即它試圖在圖像的高層語義信息和底層特征之間建立一種映射關(guān)系,因此在一定程度上可以解決“語義鴻溝”問題。自動(dòng)圖像標(biāo)注本質(zhì)上是一個(gè)多標(biāo)簽學(xué)習(xí)問題,不同于單標(biāo)簽圖像分類。圖像分類中每張圖像只含有一個(gè)標(biāo)簽,這與現(xiàn)實(shí)世界中事物不符。
過去很多方法致力于人工提取圖像視覺特征來改善圖像標(biāo)注性能[1-2]。卷積神經(jīng)網(wǎng)絡(luò)在2012年大規(guī)模視覺識(shí)別挑戰(zhàn)中取得了突破性成果[3],然而該方法僅考慮單標(biāo)簽分類。為了更自然地描述圖像,采用卷積神經(jīng)網(wǎng)絡(luò)處理多標(biāo)簽圖像就尤為重要??紤]到卷積神經(jīng)網(wǎng)絡(luò)需要大量的訓(xùn)練圖像和收集大規(guī)模有標(biāo)簽數(shù)據(jù)集的困難,采用遷移學(xué)習(xí)的方法從ImageNet[4]分類任務(wù)中遷移已經(jīng)訓(xùn)練好的中層參數(shù)到其他視覺識(shí)別任務(wù)中,例如Caltech256圖像分類[5],場(chǎng)景識(shí)別[6]和Pascal VOC對(duì)象和場(chǎng)景分類任務(wù)[7]。
文獻(xiàn)[3]的CNNs結(jié)構(gòu)包含超過六千萬個(gè)參數(shù),直接從幾千張圖像中學(xué)習(xí)這些參數(shù)是很困難的。本文的主要思想是將CNNs的中間層作為一個(gè)中級(jí)圖像特征的通用提取器,它可以在源任務(wù)(ImageNet分類)中訓(xùn)練然后應(yīng)用到目標(biāo)任務(wù)(Corel5K圖像標(biāo)注),模型結(jié)構(gòu)如圖1所示。
圖1 模型結(jié)構(gòu)
圖1采用文獻(xiàn)[3]中AlexNet網(wǎng)絡(luò)結(jié)構(gòu),其中C1-C2-C3-C4-C5表示前5層卷積層,fc6, fc7, fc8表示后三層全連接層。網(wǎng)絡(luò)首先在源任務(wù)上訓(xùn)練,將訓(xùn)練得到的C1-fc7層參數(shù)遷移至目標(biāo)任務(wù)。fc7層的輸出為4096維向量,對(duì)于目標(biāo)任務(wù),該向量即為遷移得到的參數(shù)提取的中級(jí)圖像特征。將fc7層輸出的特征輸入到fc8層,該層輸出維度為260維,即對(duì)應(yīng)Corel5K的260個(gè)標(biāo)簽。最后一層用多標(biāo)簽損失函數(shù)取代AlexNet中Softmax 損失,它用來評(píng)估預(yù)測(cè)值與真實(shí)值的誤差,并通過反向傳播降低誤差以獲得更好的分類效果。
文中采用兩種損失函數(shù),第一種是Sigmoid交叉熵?fù)p失,第二種是多標(biāo)簽鉸鏈損失。
(1)Sigmoid交叉熵?fù)p失。Sigmoid函數(shù)形式如下
(1)
預(yù)測(cè)值和真實(shí)概率之間的交叉熵如下
(2)
其中yi∈{0,1}。
對(duì)該損失函數(shù)加入一個(gè)權(quán)重懲罰項(xiàng),將該函數(shù)轉(zhuǎn)化為一個(gè)嚴(yán)格凸函數(shù),它能確保收斂并且獲得全局最優(yōu)解。
(2)多標(biāo)簽鉸鏈損失。由SVM的原理可知,一個(gè)全連接層加上一個(gè)鉸鏈損失等價(jià)于一個(gè)線性SVM。鉸鏈損失本身是處理多分類問題,本文采用鉸鏈損失處理多標(biāo)簽問題,將多標(biāo)簽學(xué)習(xí)轉(zhuǎn)化為每個(gè)標(biāo)簽訓(xùn)練一個(gè)分類器的多個(gè)標(biāo)簽分類問題。
線性SVM可以寫成如下形式
(3)
s.t.yi(wTxi+b)≥1-ξi
(4)
ξi≥0,i=1,2,…,m
(5)
這個(gè)二次規(guī)劃問題可以轉(zhuǎn)化為無約束優(yōu)化問題,即求鉸鏈損失函數(shù)最小化
(6)
Corel5K[8]是一個(gè)常見的多標(biāo)簽圖像標(biāo)注數(shù)據(jù)集,現(xiàn)已成為圖像標(biāo)注領(lǐng)域的基準(zhǔn)數(shù)據(jù)集。該數(shù)據(jù)集共4 999張192 168的彩色圖像,每張圖像被人工標(biāo)注為1至5個(gè)標(biāo)簽,平均為3.4個(gè)標(biāo)簽。該數(shù)據(jù)集共260個(gè)標(biāo)簽,每個(gè)標(biāo)簽包含圖像數(shù)平均為58.6個(gè),最多為1 004個(gè)。一般常用4 500張圖像用于訓(xùn)練,余下499張圖像用于測(cè)試。
(1)準(zhǔn)確率和召回率。為了分析標(biāo)注性能,本文計(jì)算測(cè)試集中每一個(gè)標(biāo)簽的準(zhǔn)確率和召回率。若一個(gè)標(biāo)簽實(shí)際包含n1張圖像,在測(cè)試集中預(yù)測(cè)出圖像數(shù)為n2其中預(yù)測(cè)正確的數(shù)量為n3(n3≤n2和n3≤n1),則
(7)
對(duì)測(cè)試集中每一個(gè)標(biāo)簽求平均值得到平均準(zhǔn)確率,平均召回率;
(2)F1值。由準(zhǔn)確率和召回率,得到F1
(8)
F1為準(zhǔn)確率和召回率的調(diào)和平均數(shù),其值越大,圖像標(biāo)注性能越好;
(3)標(biāo)簽多樣性值N+。N+是指至少被一個(gè)測(cè)試圖像所正確標(biāo)注的標(biāo)簽數(shù),即召回率大于零的標(biāo)簽數(shù)量。N+值越大,圖像標(biāo)注性能越好。
代碼的實(shí)現(xiàn)主要基于CAFFE(Convolutional Architecture for Fast Feature Embedding)框架[9],這套基于BSD許可包含C++庫的框架是目前為止較好的卷積神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)。它含有Python和Matlab接口,并且能夠調(diào)用GPU實(shí)現(xiàn)加速。由于該框架只支持單標(biāo)簽格式,需要改變?cè)创a來實(shí)現(xiàn)多標(biāo)簽格式輸入。
預(yù)訓(xùn)練模型是文獻(xiàn)[3]中AlexNet模型結(jié)構(gòu)的實(shí)現(xiàn),但有一些區(qū)別。首先,網(wǎng)絡(luò)的輸入尺寸為227 227 RGB圖像而不是224 224。其次,網(wǎng)絡(luò)采用單個(gè)GPU運(yùn)算而不是采用兩個(gè)并行GPU方式。它沒有采用數(shù)據(jù)擴(kuò)增并且將非0偏置初始化為0.1而不是1。該模型得到的校驗(yàn)集top-1精度為57.1%,top-5精度為80.2%。
Corel5K圖像標(biāo)注中使用的網(wǎng)絡(luò)結(jié)構(gòu)與預(yù)訓(xùn)練模型相同。將源任務(wù)中訓(xùn)練得到的C1…C5, fc6和fc7層參數(shù)遷移至目標(biāo)任務(wù)然后固定,只訓(xùn)練fc8層。將fc8全連接層的權(quán)值采用高斯分布方式初始化,偏置初始化為0。fc8層權(quán)值和偏置的學(xué)習(xí)率分別設(shè)置為10和20。與其他方法相同,采用4500張圖像用于訓(xùn)練,499張用于測(cè)試。為了判斷學(xué)習(xí)狀態(tài),從訓(xùn)練集中隨機(jī)選擇500張圖像作為校驗(yàn)集。將圖像大小先調(diào)整為256 256然后裁剪成227 227圖像塊輸入至CNNs。實(shí)驗(yàn)時(shí)采用一塊12 GB內(nèi)存的Nvidia Tesla K40c GPU。訓(xùn)練過程采用小批量梯度下降法(Mini-batch Gradient Descent),batch_size設(shè)置為10,初始學(xué)習(xí)率設(shè)置為0.0001,訓(xùn)練迭代9 000次(即20epoches),再將學(xué)習(xí)率降低10倍迭代4 500次(10epoches)。訓(xùn)練過程中訓(xùn)練集校驗(yàn)集損失函數(shù)變化趨勢(shì)如下。
圖2 Sigmoid交叉熵?fù)p失變化曲線
圖3 多標(biāo)簽鉸鏈損失變化曲線
圖2表示以Sigmoid交叉熵?fù)p失作為損失函數(shù)的模型訓(xùn)練過程,圖3表示以多標(biāo)簽鉸鏈損失作為損失函數(shù)的模型訓(xùn)練過程。從圖中可以看出訓(xùn)練開始時(shí)損失急劇下降而后緩慢下降,這是由于初始時(shí)學(xué)習(xí)率較大,參數(shù)很快趨于最優(yōu)值。
用訓(xùn)練得到的模型對(duì)測(cè)試集進(jìn)行預(yù)測(cè),提取fc8層輸出值作為預(yù)測(cè)值。與其他方法相同,將測(cè)試集中預(yù)測(cè)值最高的前5個(gè)詞作為標(biāo)注詞并且計(jì)算所有標(biāo)簽的平均準(zhǔn)確率(P)、平均召回率(R)和F1值。將Sigmoid交叉熵?fù)p失(Cross-entropy loss)作為損失函數(shù)的方法命名為CNNs+SCEL, 將多標(biāo)簽鉸鏈損失(Multi-label hinge loss)作為損失函數(shù)的方法命名為CNNs+MHL。將本文方法與一些經(jīng)典方法和近兩年表現(xiàn)優(yōu)秀的方法對(duì)比如表1所示。
表1 Corel5K數(shù)據(jù)庫方法對(duì)比
本文提出的CNNs+SCEL的方法平均準(zhǔn)確率、平均召回率、F1值分別為0.46、0.64、0.531,CNNs+MHL的方法分別為0.45、0.61、0.515。從實(shí)驗(yàn)結(jié)果可以看出,本文得出的平均準(zhǔn)確率、平均召回率、F1值均高于其他方法,但是標(biāo)注多樣性N+卻不是很理想。這表明采用遷移學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)的方法作為特征提取器,將多標(biāo)簽學(xué)習(xí)轉(zhuǎn)化為針對(duì)每一個(gè)標(biāo)簽訓(xùn)練一個(gè)分類器的多個(gè)標(biāo)簽的分類問題的方法是可行的。平均準(zhǔn)確率、平均召回率和F1值比較高說明對(duì)于訓(xùn)練集中圖像數(shù)量較多的標(biāo)簽,模型幾乎都能正確標(biāo)注,標(biāo)注多樣性N+比較低說明對(duì)于訓(xùn)練集中圖像數(shù)量少的標(biāo)簽則不能正確標(biāo)注。這是由于Corel5K標(biāo)簽集不平衡,而卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要大量的數(shù)據(jù)才能得到較好的結(jié)果。針對(duì)本文兩種方法中CNNs+SCEL的結(jié)果要優(yōu)于CNNs+MHL,這是由于Corel5K數(shù)據(jù)集的標(biāo)簽信息并不完全正確,異常點(diǎn)較多,模型的線性可分性不強(qiáng)。鉸鏈損失的方法即線性SVM只考慮支持向量去學(xué)習(xí)分類器,而Sigmoid交叉熵?fù)p失即邏輯回歸通過非線性映射,大大減小了離分類平面較遠(yuǎn)的點(diǎn)的權(quán)重,相對(duì)提升了與分類最相關(guān)的數(shù)據(jù)點(diǎn)的權(quán)重。所以若異常點(diǎn)較多的情況下, 首先采用Sigmoid交叉熵?fù)p失,該損失每個(gè)樣本都有貢獻(xiàn),最大似然后會(huì)自動(dòng)壓制異常的貢獻(xiàn),線性SVM訓(xùn)練只需要支持向量,對(duì)異常比較敏感。
本文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習(xí)的多標(biāo)簽圖像標(biāo)注算法。模型采用從ImageNet分類任務(wù)中遷移得到的參數(shù)。實(shí)驗(yàn)結(jié)果表明利用遷移學(xué)習(xí)的方法將卷積神經(jīng)網(wǎng)絡(luò)的中間層作為一個(gè)通用特征提取器的思想是可行的。實(shí)驗(yàn)采用兩種多標(biāo)簽損失函數(shù),與其他方法相比取得了不錯(cuò)的標(biāo)注結(jié)果,說明將多標(biāo)簽學(xué)習(xí)轉(zhuǎn)化為多個(gè)標(biāo)簽的分類問題是一種簡(jiǎn)單高效的處理方法。然而,仍然有一些方面值得改進(jìn)與研究:
(1)使用更大規(guī)模的數(shù)據(jù)集。更大規(guī)模的數(shù)據(jù)集可以訓(xùn)練得到更好的參數(shù)并且不容易過擬合。由于卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練需要大量數(shù)據(jù),直接從ImageNet分類任務(wù)中遷移得到的參數(shù)并不一定最好地表達(dá)目標(biāo)任務(wù),因此更大規(guī)模的數(shù)據(jù)集更能夠發(fā)揮神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì);
(2)選擇更好的損失函數(shù)。本文使用的方法是將多標(biāo)簽學(xué)習(xí)轉(zhuǎn)化為多個(gè)標(biāo)簽的分類問題,該方法優(yōu)點(diǎn)是簡(jiǎn)單高效,但是忽略了標(biāo)簽相關(guān)性;
(3)采用半監(jiān)督或無監(jiān)督方法。由于有標(biāo)簽圖像資源有限,手工標(biāo)注圖像需要耗費(fèi)大量人力物力,引進(jìn)半監(jiān)督或無監(jiān)督方法只需要小部分的有標(biāo)簽圖像就能獲得很好的標(biāo)注結(jié)果。