楊國亮, 曾建尤, 王志元
(江西理工大學(xué) 電氣工程與自動(dòng)化學(xué)院, 江西 贛州 341000)
近年來, 計(jì)算機(jī)視覺領(lǐng)域中的圖像美感度評估越來越受人們關(guān)注[1-3]. 由于人的視覺系統(tǒng)難于分析, 且人的視覺美感不能用簡單的數(shù)學(xué)公式計(jì)算, 利用計(jì)算機(jī)判斷圖像的美感度成為一項(xiàng)極有挑戰(zhàn)性的任務(wù). 其本質(zhì)是通過計(jì)算機(jī)從圖片中學(xué)習(xí)特征, 最終將圖片評價(jià)為低美感或高美感. 早期, 研究者們通過提取圖像中易被計(jì)算的美學(xué)特征, 采用傳統(tǒng)的分類器對圖像進(jìn)行分類. 比如, Nishiyama等[4]通過提取圖像顏色和諧度和反映圖片美感模糊、 邊緣與顯著性的美學(xué)特征, 來進(jìn)行圖片質(zhì)量的分類. Dhar等[5]利用三種層次的圖像屬性, 分別是位置、 內(nèi)容和光照屬性來進(jìn)行圖像美感度分類. Donovan等[6]采用提取圖片規(guī)則的方法, 例如, 三分法、黃金比例等實(shí)現(xiàn)圖像美感度分類. 由于傳統(tǒng)算法很難抽象出一種完整的美學(xué)特征, 導(dǎo)致早期研究在美感度分類上效果較差.
近年來, 卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺領(lǐng)域上取得了更大突破, 如圖像分類、目標(biāo)識別、人臉識別等. 研究者開始思考用深度卷積神經(jīng)網(wǎng)絡(luò)算法對圖像美感度進(jìn)行識別. 如Guo等[7]認(rèn)為手工提取的美學(xué)特征只適應(yīng)特別數(shù)據(jù)集, 并行深度卷積網(wǎng)絡(luò)能解決學(xué)習(xí)的美學(xué)特征不完整問題. Dong等[8]則提出利用卷積神經(jīng)網(wǎng)絡(luò)“理解”圖像美學(xué)特征, 然后提取網(wǎng)絡(luò)模型的最后一層美學(xué)特征, 進(jìn)而用機(jī)器學(xué)習(xí)方法進(jìn)行分類. 王偉凝等[9]先對AlexNet網(wǎng)絡(luò)模型優(yōu)化, 然后采用基于優(yōu)化后的并行深度卷積網(wǎng)絡(luò)進(jìn)行美感度分類.
目前用于圖像美感度分類的深度卷積神經(jīng)網(wǎng)絡(luò)橫向?qū)訑?shù)相對較淺, 提取的特征區(qū)分度不強(qiáng), 不能對復(fù)雜的美學(xué)特征進(jìn)行很好的學(xué)習(xí), 如王偉凝等[9]和 Dong 等[8]分別在橫向上應(yīng)用7和5層網(wǎng)絡(luò)結(jié)構(gòu), 但準(zhǔn)確率上僅達(dá)到77%和83.52%. 這些方法在特征描述上有限, 影響了網(wǎng)絡(luò)的識別效果和收斂速度. 而文獻(xiàn)[10-11]分別在Imagenet數(shù)據(jù)集上使用22層和50層, 識別效果有了一定提高. 因此, 為了增強(qiáng)算法對圖像美感特征的學(xué)習(xí)能力, 提高分類準(zhǔn)確率. 本文在殘差網(wǎng)絡(luò)[5]的基礎(chǔ)上探索出適應(yīng)圖像美感度分類的方法, 提出了一種基于深層卷積神經(jīng)網(wǎng)絡(luò)的圖像美感度分類算法, 并在AVA數(shù)據(jù)庫和CUHKPQ數(shù)據(jù)庫進(jìn)行實(shí)驗(yàn)分析.
本文采用深層卷積神經(jīng)網(wǎng)絡(luò)對圖像美感進(jìn)行提取. 美感的特征提取過程是從底層到高層語義空間的抽象映射. 在進(jìn)行卷積運(yùn)算前, 需對數(shù)據(jù)進(jìn)行增強(qiáng)處理. 對于卷積神經(jīng)網(wǎng)絡(luò)第l-1層的輸出特征進(jìn)行卷積濾波得到第l層第k組的特征映射X(l,k),X(l,k)可表示為
(1)
式中:W(l,k,p)為特征映射所需的濾波器;k和p分別表示第l層第k組、第l-1層第p組. 第l層的每一組特征映射都需要nl-1個(gè)濾波器以及一個(gè)偏置項(xiàng)b.
為了提升網(wǎng)絡(luò)訓(xùn)練速度, 減少網(wǎng)絡(luò)對初始化的依賴, 卷積層可以加入BN歸一化層(Batch Normalization), 其本質(zhì)是將數(shù)據(jù)規(guī)范化. 對于某層的d維輸入X=(x(1),…,x(d)), 將每一維歸一化為
(2)
深層卷積網(wǎng)絡(luò)的層數(shù)在簡單的堆疊后會(huì)形成巨大的計(jì)算量. 因此, 通過添加池化層的方式來減少特征的維數(shù). 假定通過卷積層得的特征映射為X(l), 可以將X(l)劃分為區(qū)域Rk,k=1,…,K, 池化函數(shù)可以定義為
X(x+1)=f(w(l+1),down(Rk)+b(l+1)),
(3)
卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)隨誤差反向傳播不斷地在線更新, 本文采用隨機(jī)梯度的方式進(jìn)行參數(shù)調(diào)整. 隨機(jī)梯度樣本可以使用小規(guī)模的樣本近似估計(jì). 假設(shè)從訓(xùn)練集中抽出小批量樣本. 可表示為z={x(1),…,x(m′)}, 梯度的估計(jì)可表示為
(4)
在進(jìn)行梯度運(yùn)算時(shí), 網(wǎng)絡(luò)對上億個(gè)訓(xùn)練樣本進(jìn)行訓(xùn)練, 而每次更新計(jì)算只用到幾百個(gè)樣本. 對于隨機(jī)梯度下降算法使用如下的梯度下降估計(jì)
θ←θ-εg.
(5)
在美感特征映射到線性空間之后, 輸出層可對美感度進(jìn)行評估計(jì)算. 輸出層主要使用softmax函數(shù)對圖片信息進(jìn)行分類. softmax函數(shù)是將多個(gè)標(biāo)量映射為一個(gè)概率分布, 設(shè)有k個(gè)標(biāo)量x1,…,xk. 則softmax分類器輸出可由式(6)求出.
(6)
如圖 1 所示, 本文提出的深層卷積神經(jīng)網(wǎng)絡(luò)模型由A類層、B類層、C類層、損失層、輸出層構(gòu)成. 其中, A類層共有49層, B類層共有16層, C類層2層, 全連接層共3層, 損失層1層, 輸出層1層. 考慮到網(wǎng)絡(luò)層的重要性和復(fù)雜度兩種因素, 本文設(shè)計(jì)的深層卷積網(wǎng)絡(luò)層數(shù)由A類層、全連接層、損失層、輸出層決定, 深層卷積網(wǎng)絡(luò)模型共有55層. 本文提出的模型中構(gòu)造了多個(gè)全連接層, 增加了網(wǎng)絡(luò)深度, 并有效提高在遷移學(xué)習(xí)下的圖像美感度分類效果. 當(dāng)輸入圖像美感圖片后, 通過該模型可獲得高和低兩種美感度判別信息.
深層卷積網(wǎng)絡(luò)模型具體構(gòu)建如下: A類層主要包括卷積層、BN歸一化層、Relu激活層. 其中, A類層中的第一層卷積層有64個(gè)卷積核, 大小為7×7. 所有B類層中間夾的三層卷積層從左到右依次為64個(gè)卷積核(大小為1×1)、64個(gè)卷積核(大小為1×1)、256個(gè)卷積核(大小為1×1), 同時(shí), B類層還包括Eletwise層和Relu激活層. C類層為池化層. 最后5層則是輸出層、損失層、3個(gè)全連接層(Full Connection). 由于輸出層發(fā)生在測試階段, 圖 1 中未給出. FC1層是有2個(gè)輸出的全連接層, FC2層由一個(gè)swish激活層和一個(gè)512個(gè)輸出的全連層構(gòu)成, FC3包括一個(gè)swish激活層和一個(gè)2 048個(gè)輸出的全連接層.
本文深層卷積神經(jīng)網(wǎng)絡(luò)模型在卷積層后采用relu函數(shù), 同時(shí)配合使用BN歸一層并設(shè)置縮放參數(shù)(scale parameter), 達(dá)到更好的訓(xùn)練效果. 而在全連接層配合使用swish函數(shù), 其在x<0時(shí)具有軟飽和性能, 提升了噪聲魯棒性. relu函數(shù)和swish函數(shù)兩種函數(shù)公式為
總而言之,城市道路交通工程施工作為一項(xiàng)基礎(chǔ)性工程,城市道路交通工程施工的質(zhì)量會(huì)直接影響到整個(gè)城市的可持續(xù)健康發(fā)展,那么,施工企業(yè)必須要加強(qiáng)對于工程施工質(zhì)量的控制力度,通過對工程施工進(jìn)行嚴(yán)格管理,才能更好的推進(jìn)我國城市道路交通工程的可持續(xù)健康發(fā)展。
f(x)=max(0,x),
(7)
(8)
式中:α=1. 曲線如圖 2 所示.
網(wǎng)絡(luò)模型成功將遷移學(xué)習(xí)和全連接層、swish函數(shù)結(jié)合起來(函數(shù)曲線圖 2 所示). 同時(shí)最后全連接層的權(quán)值均使用式(9)初始化.
(9)
式中:W為權(quán)值;nj為第j層神經(jīng)元的個(gè)數(shù). 網(wǎng)絡(luò)中增加了線性空間的計(jì)算, 提高了網(wǎng)絡(luò)復(fù)雜度. 如式(10)所示. 在后續(xù)的實(shí)驗(yàn)中, 可以證明訓(xùn)練時(shí)的遷移能力變得更加突出.
y=Wx,
(10)
式中:x為輸出層輸入信號, 其維度為d, 輸出層輸出為y, 其維度為v,W為權(quán)值矩陣.
(11)
z(l)=W(l)·fl(z(l-1))+b(l),
(12)
式中:z(l)表示l層的神經(jīng)元的狀態(tài), 而W(l)表示l-1 層到l層的權(quán)重矩陣.
遷移學(xué)習(xí)是利用設(shè)定中學(xué)到的內(nèi)容去改善設(shè)定中的泛化情況. 對于一種全新網(wǎng)絡(luò)層直接隨機(jī)初始化, 重新開始訓(xùn)練, 將導(dǎo)致模型收斂困難且分類性能下降[12]. 遷移學(xué)習(xí)使網(wǎng)絡(luò)模型有不同數(shù)據(jù)類型, 可以學(xué)習(xí)更出色的底層規(guī)則, 得到更好的網(wǎng)絡(luò)模型. 本文采用了遷移學(xué)習(xí)的微調(diào)方法進(jìn)行網(wǎng)絡(luò)的訓(xùn)練. 微調(diào)是將學(xué)習(xí)好的網(wǎng)絡(luò)底層和高層的參數(shù)用于自己的數(shù)據(jù), 然后訓(xùn)練出最優(yōu)的模型. 其減少了網(wǎng)絡(luò)學(xué)習(xí)美感特征的時(shí)間, 同時(shí)避免因輸入數(shù)據(jù)少帶來的分類準(zhǔn)確率低的問題.
如圖 3 所示, 微調(diào)過程發(fā)生在網(wǎng)絡(luò)訓(xùn)練的中間階段. 訓(xùn)練時(shí), 本文所提模型首先在ImageNet上進(jìn)行預(yù)先訓(xùn)練, 得到初始模型, 再采用CUHKPQ和AVA數(shù)據(jù)庫對網(wǎng)絡(luò)進(jìn)行微調(diào). 在微調(diào)過程中, 由于采用的不同場景的數(shù)據(jù)庫和較復(fù)雜數(shù)據(jù)庫更強(qiáng)調(diào)圖片的整體美感, 而ImageNet的數(shù)據(jù)庫更多突出圖片物體, 降低了對背景重視程度, 故兩種圖片相似度一般. 因此, 本文網(wǎng)絡(luò)的底層和高層的網(wǎng)絡(luò)參數(shù)遷移復(fù)用后再進(jìn)行重新學(xué)習(xí).
圖 3 網(wǎng)絡(luò)訓(xùn)練流程圖Fig.3 The chart of training network
本實(shí)驗(yàn)采用caffe框架來實(shí)現(xiàn)圖像美感度分類,在linux系統(tǒng)下采用python語言來進(jìn)行編程. 計(jì)算機(jī)的內(nèi)存和顯卡分別為16 G、Nvidia GeForce GT750M GPU.
AVA數(shù)據(jù)庫是大規(guī)模圖片集, 每張圖都有美感度評分. 評分由平均210個(gè)用戶打出, 每人評分在1~10分之間. 本實(shí)驗(yàn)用每張圖片評分的加權(quán)平均作為AVA數(shù)據(jù)庫中每張圖片的標(biāo)簽. 共收集到255 508張AVA數(shù)據(jù)庫的圖片. 為了增加對比性, 本文參考文獻(xiàn)[13], 把采集到的AVA數(shù)據(jù)庫分為A0數(shù)據(jù)集和A1數(shù)據(jù)集. 對于A0, 先對數(shù)據(jù)庫中每張圖片評分做加權(quán)平均, 然后根據(jù)評分從大到小排序. 各選取圖片庫中的前后10%高分圖片和低分圖片作為高美感圖片和低美感圖片. 對于A1, 在已經(jīng)排序好的圖片庫中分高美感和低美感圖, 以加權(quán)平均5分為分界線將圖片分為高美感和低美感圖片. CUHKPQ是包含1 767幅來自專業(yè)攝影網(wǎng)站的數(shù)據(jù)庫, 且由animal,plant,static,architecture,landscape,human和night場景構(gòu)成. 本文參照了文獻(xiàn)[8]的方法, 將每個(gè)場景中一半高美感圖片和一半低美感圖片作為訓(xùn)練集, 其他作為測試集. 在以上兩種數(shù)據(jù)中, 由于每張圖片大小不同, 而網(wǎng)絡(luò)訓(xùn)練模型在遷移學(xué)習(xí)時(shí)對輸入圖片大小有要求. 因此, 本文首先將圖片縮放為256×256, 再剪裁為224×224, 然后鏡像翻轉(zhuǎn). 圖 4 是兩種數(shù)據(jù)庫中高美感和低美感圖像示例.
圖 4 AVA數(shù)據(jù)庫和CUHKPQ數(shù)據(jù)庫圖像示例Fig.4 Image examples of AVA dataset and CUHKPQ dataset
本文做了大量對比實(shí)驗(yàn), 利用不同算法將美感圖像分為高美感和低美感兩種類別.
為了驗(yàn)證本文提出基于卷積神經(jīng)網(wǎng)絡(luò)的圖像美感度分類算法優(yōu)越性, 分別在A0和A1圖片集上做了3種不同情況下的實(shí)驗(yàn), 同時(shí)將殘差網(wǎng)絡(luò)[11]用于圖像美感度分類. 由圖 5 可知, 在A0數(shù)據(jù)集下, 本文算法的準(zhǔn)確率明顯高于殘差網(wǎng)絡(luò). 而在圖 6 中, 相比殘差網(wǎng)絡(luò)和本文方法在沒有遷移學(xué)習(xí)的情況, 本文所提算法基本保持優(yōu)勢. 當(dāng)?shù)?0 000次時(shí)可以達(dá)到80%的準(zhǔn)確率, 且識別率依舊保持向上增長的趨勢, 而殘差網(wǎng)絡(luò)算法識別率已經(jīng)趨于平穩(wěn). 此外, 本文算法在10 000次達(dá)到的準(zhǔn)確率, 殘差網(wǎng)絡(luò)需14 000次才能達(dá)到效果. 這主要得益于改進(jìn)后網(wǎng)絡(luò)增加了線性空間計(jì)算, 使得softmax分類器更容易對輸入的圖像美感信息分類.
圖 5 A0數(shù)據(jù)集上準(zhǔn)確率對比圖Fig.5 Accuracy comparison chart on A0 dataset
圖 6 A1數(shù)據(jù)集上準(zhǔn)確率對比圖Fig.6 Accuracy comparison chart on A1 dataset
表 1 列出了本文算法在CUHKPQ數(shù)據(jù)庫的7種場景下高低美感度分類測試結(jié)果, 表中所示, 該算法分別與4種方法進(jìn)行了對比. 實(shí)驗(yàn)表明,本文算法在6個(gè)場景的識別率有明顯的優(yōu)勢, 而在Landscape場景上稍稍低于All features in[14]. 其中, architecture場景上高約2%, human場景上高約2.5%, night場景上高約2%, static場景上高約3% plant場景高2.31%. 而其他4種方法在7種場景中的少數(shù)場景上有較小的準(zhǔn)確率優(yōu)勢.
表 1 每種場景下本文方法與其他方法對比Tab.1 Comparison of proposed method and other method
另外, 算法在圖片特征較復(fù)雜的AVA數(shù)據(jù)集下進(jìn)行了實(shí)驗(yàn)對比. 表 2 表示在數(shù)據(jù)集A0下高低美感度分類準(zhǔn)確率對比, 明顯可以看出, 本文方法比Ke等[2]、Marchesotti等[15]、 DCNN_Aesth_SP等[8]所提算法準(zhǔn)確率高.
從表 2 可以看出, 王偉凝等[9]算法在A0數(shù)據(jù)集下美感度分類準(zhǔn)確率可達(dá)85%, 但相比之下, 本文算法準(zhǔn)確率仍高于2.1%. 表 3 為在A1的數(shù)據(jù)集下, 與其他兩個(gè)深度學(xué)習(xí)方法對比, 本文算法分類準(zhǔn)確率比王偉凝等[9]算法高約3.1%.
表 2 A0數(shù)據(jù)庫實(shí)驗(yàn)結(jié)果與現(xiàn)有方法對比Tab.2 Comparison of the experiment results of the A0 datasets with existing methods
表 3 A1數(shù)據(jù)庫實(shí)驗(yàn)結(jié)果與現(xiàn)有方法對比Tab.3 Comparison of the experiment results of the A1 datasets with existing methods
最后, 在A1數(shù)據(jù)集測試完后, 本文對訓(xùn)練后的模型進(jìn)行了單張圖片的可視化測試, 結(jié)果如圖 7 所示. 在圖 7 中, 第1行到第4行分別代表第1,4,13,25卷積層的特征圖. 由圖7可知, 網(wǎng)絡(luò)達(dá)到25層后, 其已經(jīng)具有了高級美感特征. 通過不同層的對比可知, 4種層之間分別相差3,9,12層卷積層, 第4層和第13層的特征依舊可看清物體輪廓, 可證明第4層和第13層之間存在更細(xì)致的美感特征.
圖 7 某張美感圖片的部分特征圖Fig.7 Part feature picture of a aesthetic image
本文提出了一種基于深層卷積神經(jīng)網(wǎng)絡(luò)的圖像美感度分類法. 通過對網(wǎng)絡(luò)模型的優(yōu)化, 然后利用本文深層卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行遷移學(xué)習(xí). 實(shí)驗(yàn)表明, 該網(wǎng)絡(luò)模型在AVA數(shù)據(jù)庫和CUHKPQ數(shù)據(jù)集學(xué)習(xí)能力更強(qiáng), 在圖像美感的分類準(zhǔn)確率上, 具有較好的效果. 當(dāng)然, 利用深度學(xué)習(xí)方法解決圖像美感的評估問題還處在初期, 有許多問題值得進(jìn)一步研究. 比如, 建立可視化網(wǎng)絡(luò)模型, 然后研究可視化的美感特征, 給出一個(gè)更深更有針對性的網(wǎng)絡(luò)模型來提高分類的準(zhǔn)確率; 可以將圖像美感評估問題作為回歸問題來解決, 對于圖像美感的回歸問題研究更有現(xiàn)實(shí)意義.