陳玉紅,劉曉靜
(青海大學(xué) 計(jì)算機(jī)技術(shù)與應(yīng)用系,青海 西寧 811601)
唐卡是用顏料或其他材料涂在彩色絲綢上的宗教卷軸畫。它是一種具有地方特色的繪畫形式[1],也是中國重要的非物質(zhì)文化遺產(chǎn)之一。唐卡內(nèi)容豐富,包括建筑物、醫(yī)藥學(xué)、天文歷算、傳奇故事等[2]。由于唐卡生產(chǎn)材料、涂料、地理環(huán)境、自然環(huán)境和宗教文化的特殊性,僅存在于少數(shù)地區(qū)且現(xiàn)存數(shù)量較少。此外,唐卡內(nèi)容廣泛,色澤鮮艷,整個畫面層次分明,前景和背景區(qū)分不明顯,構(gòu)圖復(fù)雜,結(jié)構(gòu)嚴(yán)謹(jǐn),一幅唐卡畫像首先按照造像量度標(biāo)準(zhǔn)起稿,面部五官、頭、胸、腰等各個部位都有嚴(yán)格的要求。唐卡畫家通常需要多年的實(shí)踐才能繪制出真正的唐卡[3],并且唐卡畫像保存有一定的難度,難以處理受潮、水漬、霉斑、臟化等問題,因此數(shù)量較少。以上兩個主要原因加上唐卡是中國的非物質(zhì)文化遺產(chǎn),要加大力度研究唐卡的數(shù)字化保護(hù),為保護(hù)唐卡貢獻(xiàn)自己的一份力量。
分類時較其他類型圖像存在的挑戰(zhàn):
(1)唐卡圖像和一般圖像相比,內(nèi)容豐富,構(gòu)圖復(fù)雜。如圖1(b)所示,同一幅唐卡圖像中,各個尊像的手勢、坐姿、服裝都有不同之處,人物之外的地方,細(xì)節(jié)精細(xì),構(gòu)圖元素非常復(fù)雜且背景干擾大。在唐卡圖像當(dāng)中,背景復(fù)雜,構(gòu)圖元素極多,對唐卡尊像分類干擾較大,這使得分類難度加大。
(2)類內(nèi)差大,即同一類的物體表觀特征差別比較大。如圖1(c)、(d)所示,從唐卡分類規(guī)則得知,手拿寶劍的都是文殊菩薩,但是外觀卻差別很大。
(3)類間模糊性大,即不是同一類物體的實(shí)例具有一定的相似性。如圖1(e)、(f)所示,分別為黃財(cái)神、財(cái)寶天王,但相似性較大。
圖1 不同的唐卡尊像圖像
該文首次構(gòu)建了一個有關(guān)唐卡尊像的數(shù)據(jù)集,首次應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)對唐卡尊像圖像進(jìn)行分類。在唐卡專業(yè)分類知識的前提下,通過設(shè)計(jì)的CNN網(wǎng)絡(luò)模型,根據(jù)內(nèi)容對唐卡尊像進(jìn)行分類,為研究人員提供了便利,讓越來越多的人理解和保護(hù)唐卡。
該文的主要貢獻(xiàn)在于:構(gòu)建了尊像唐卡分類數(shù)據(jù)集,并提出了一個淺層的CNN模型進(jìn)行唐卡尊像分類,該CNN模型結(jié)合了AlexNet[4]、VGG16[5]、ResNet[6]模型的優(yōu)點(diǎn)。最后,在同一個唐卡數(shù)據(jù)集上將優(yōu)化的模型和其他典型分類模型進(jìn)行了比較。
圖像分類分為基于特征學(xué)習(xí)和深度學(xué)習(xí)的圖像分類方法,但對唐卡圖像的研究較少。下面將分別介紹傳統(tǒng)常見的圖像分類方法、基于深度學(xué)習(xí)的圖像分類方法和對唐卡圖像的研究。
周依蓮提出一種特征選擇策略,在得到最優(yōu)特征集的同時也可以約束不相關(guān)特征,從而實(shí)現(xiàn)了CT圖像的不同類型肺癌分類,準(zhǔn)確率達(dá)到86%左右[7];李奇峰提出在遙感影像分類中采用不同的方式進(jìn)行紋理特征提取,然后和光譜特征相結(jié)合,并利用支持向量機(jī)(support vector machine,SVM)分類器進(jìn)行遙感影像分類的方法,分類精度提升10%[8];黃萬繼將尺度不變特征變換(scale-invariant feature transform,SIFT)和SVM相結(jié)合應(yīng)用到場景識別方面,與其他傳統(tǒng)方法相比,分類準(zhǔn)確率達(dá)85.12%[9];晉遠(yuǎn)等人用貝葉斯分類器進(jìn)行家電設(shè)備識別,對每個設(shè)備類別的條件概率估計(jì),最終識別正確率達(dá)91%[10]。
除此以外,圖像分類還包括電器標(biāo)簽分類[11]、交通標(biāo)志分類[12-13]、花卉圖像分類[14]、果蔬圖像分類[15-16]等方面,但近幾年,應(yīng)用深度學(xué)習(xí)進(jìn)行圖像分類的研究也愈發(fā)增多,尤其是在CNN基礎(chǔ)上進(jìn)行分類研究的[17-18]。
在零售情況未知的情況下,用架構(gòu)相同,但是矩陣權(quán)重不同的兩個九層卷積神經(jīng)網(wǎng)絡(luò)對水果進(jìn)行分類,兩個網(wǎng)絡(luò)分別分類水果類別和區(qū)分水果品種,最終對于同一品種的水果分類準(zhǔn)確度達(dá)到99.78%[19];童浩然將ImageNet數(shù)據(jù)集和MNIST數(shù)據(jù)集用于改進(jìn)和優(yōu)化CNN,在使用Inception結(jié)構(gòu)時分別使用了Dropout和Adam算法,最終識別率得到提高,達(dá)96.53%[20];謝瀟雨提出卷積神經(jīng)網(wǎng)絡(luò)模型的批量歸一化處理,之后經(jīng)過全連接層的傳遞,并通過輸出層獲得最終的分類結(jié)果,從而提高了入侵檢測系統(tǒng)的準(zhǔn)確率和檢出率[21];任飛凱通過局部二值模式(local binary patterns,LBP)特征臉作為CNN的輸入,同時采用Adam算法優(yōu)化模型,融入Nesterov動量思想并通過改進(jìn)二階估計(jì)偏差修正來使學(xué)習(xí)率呈現(xiàn)單調(diào)遞減的狀態(tài),實(shí)驗(yàn)結(jié)果顯示優(yōu)化后的模型收斂性更好,人臉識別效果更佳,準(zhǔn)確率高達(dá)91.05%[22];江白華在CNN模型結(jié)構(gòu)中引入DenseNet稠密連接結(jié)構(gòu),并使用批歸一化與Dropout層,選擇Adam優(yōu)化網(wǎng)絡(luò)參數(shù),Relu作為激活函數(shù),實(shí)現(xiàn)了人臉在線識別,并通過與VGG16、ResNet14模型對比,驗(yàn)證該模型的性能優(yōu)異,在線識別準(zhǔn)確率達(dá)92.5%[23];黃雪麗等人用SMOTE技術(shù)擴(kuò)增數(shù)據(jù),將數(shù)據(jù)直接輸入到CNN模型中,國畫圖像的分類方法是基于Relu和Sigmoid激活函數(shù)的組合,準(zhǔn)確率達(dá)91.55%[24];朱等人改進(jìn)CNN,將全連接的層數(shù)減少一層,并用具有七個缺陷標(biāo)簽的Softmax分類層替換了Softmax分類器。卷積層和池化層的權(quán)重參數(shù)在預(yù)訓(xùn)練模型中共享,此模型對于水泥混凝土橋梁表面缺陷的分類準(zhǔn)確率有98.96%[25]。
卷積神經(jīng)網(wǎng)絡(luò)有較多改進(jìn)版本,主要方法就是采用Adam算法優(yōu)化模型,通過批歸一化與Dropout改善網(wǎng)絡(luò),緩解過擬合,不同作者有不同的網(wǎng)絡(luò)模型,但是在唐卡方面的工作并不是很多。國內(nèi)主要是對破損唐卡進(jìn)行修復(fù)[26],提出的修復(fù)方法主要適用于對稱性唐卡;再者就是唐卡圖像的檢索以及局部圖像的識別[27],李曉杰將局部累加直方圖和傳統(tǒng)局部累加圖進(jìn)行對比,研究發(fā)現(xiàn)基于HSV空間的局部累加直方圖方法更適用于唐卡圖像的檢索[28];王鐵君等人提出一種融合Hu矩和局部二進(jìn)制模式的圖像特征提取方法, 在此基礎(chǔ)上,提出了一種基于距離密度的改進(jìn)的K近鄰分類算法,待識別唐卡法器所屬的種類與周圍鄰居點(diǎn)的距離越近,相關(guān)度越高[29];王鐵君等人基于改進(jìn)的SVM分類方法,根據(jù)主題對唐卡圖像進(jìn)行分類,然后從兩個層次上標(biāo)記唐卡中數(shù)量最多的圣像類唐卡,根據(jù)監(jiān)督學(xué)習(xí)算法實(shí)現(xiàn)自動識別與標(biāo)注唐卡中的法器、頭飾和手勢,得到標(biāo)注關(guān)鍵詞,與已建立的推理規(guī)則進(jìn)行查詢推理,實(shí)現(xiàn)唐卡圖像的全局二次標(biāo)注[30-31]。謝輝和其他人僅用了簡單的分類規(guī)則,他們將唐卡分為四類,一種是基于不同的背景:紅色、金色、黑色和彩色; 另一個是根據(jù)內(nèi)容來判斷,將唐卡分為佛、菩薩、宗師等,沒有更詳細(xì)的分類[32]。劉華明等人將唐卡頭飾通過自我編碼進(jìn)行監(jiān)督學(xué)習(xí),然后在卷積池化操作過程之后輸入標(biāo)記的訓(xùn)練樣本以訓(xùn)練Softmax分類器,此論文方法在唐卡頭飾分類方面具有較好的分類性能[33]。
解輝等人僅對尊像類唐卡根據(jù)內(nèi)容進(jìn)行了簡單的分類,并沒有更詳細(xì)的分類,因此,該文在此基礎(chǔ)上對尊像類唐卡進(jìn)行了更詳盡的分類,并建立了分類數(shù)據(jù)集。從唐卡的復(fù)原,目標(biāo)識別與檢索的研究角度來看,尚無關(guān)于尊像唐卡圖像分類與識別的研究。因此,該文提出了一種改進(jìn)的CNN模型,用于對唐卡人像進(jìn)行分類。實(shí)驗(yàn)證明,該模型在唐卡尊像圖像分類中具有比典型模型更好的效果。該實(shí)驗(yàn)為唐卡研究人員提供了便利,使越來越多的人了解唐卡,并加入保護(hù)唐卡的行列。越來越多的人可以理解、探索和研究唐卡文化和藝術(shù)的真正價(jià)值,繼承和發(fā)揚(yáng)唐卡文化的優(yōu)良傳統(tǒng),更有利于對這一非物質(zhì)文化遺產(chǎn)進(jìn)行數(shù)字保護(hù)。
根據(jù)唐卡相關(guān)書籍《世界最美唐卡—三界故事》、《中國唐卡》學(xué)習(xí)得到的圣像類唐卡相關(guān)知識,將唐卡根據(jù)主尊的類別進(jìn)行分類,根據(jù)有關(guān)書籍分類知識的總結(jié)歸納一共將唐卡分為六大類,其中每一類別又可以具體細(xì)分。
在實(shí)驗(yàn)當(dāng)中,一共選取了13個小類進(jìn)行實(shí)驗(yàn),其中,如圖2(a)所示,釋迦牟尼佛為黃色身,發(fā)髻高聳,身披袈裟,結(jié)痂跌坐于法臺上;圖2(b)為四臂觀音,共有四只手,一般中間兩手合掌于胸前,右上手持水晶念珠,左手持蓮花;圖2(c)為白度母,主要形象特征是身體為白色,面有三目,上身袒露,左右手手心中各有一眼,左手于胸前執(zhí)蓮花;圖2(d)為藥師佛,雖然和釋迦牟尼佛很相似,但是也有不同之處,藥師佛身體一般為藍(lán)色,右手膝前執(zhí)一果樹枝,左手臍前捧佛缽。根據(jù)前述圣像類唐卡人物的分類知識以及其他尊像分類的知識,將圖2所示的唐卡人物等進(jìn)行分類。
圖2 不同的唐卡尊像圖像
唐卡圖像通過多種渠道獲取,途徑一:通過爬蟲技術(shù)從網(wǎng)上下載唐卡圖像,然后手動篩選,將不是唐卡圖像、圖像不完整,殘缺較多的圖像剔除;途徑二:將唐卡相關(guān)書籍《故宮唐卡圖典》、《西藏唐卡(精)》、《熱貢年都乎唐卡藝術(shù)》上的唐卡圖像用掃描儀進(jìn)行掃描得到;途徑三:通過走訪唐卡繪制大師,了解唐卡相關(guān)知識,并征得同意后進(jìn)行唐卡圖像的拍攝;整個數(shù)據(jù)集的收集花費(fèi)時間較長。
由于唐卡圖像數(shù)量有限且不均勻,難以滿足神經(jīng)網(wǎng)絡(luò)模型需要大量數(shù)據(jù)的要求,因此對數(shù)量比較少的圖像進(jìn)行數(shù)據(jù)增強(qiáng),通過鏡像翻轉(zhuǎn)、亮度增強(qiáng)、顏色增強(qiáng)、對比度增強(qiáng)、添加高斯噪聲、椒鹽噪聲等操作擴(kuò)充數(shù)據(jù)集,使測試集在數(shù)量擴(kuò)大的同時大致均勻,其中,鏡像翻轉(zhuǎn)操作包括上下翻轉(zhuǎn)和左右翻轉(zhuǎn);亮度增強(qiáng)包括使圖片變亮和變暗,分別取原來圖片明暗度的1.5倍和0.6倍;顏色增強(qiáng)取值為原來顏色的1.8倍,對比度增強(qiáng)是原來圖片的1.5倍;在原來的RGB圖像中加入均值為0,方差為0.006的高斯噪聲;椒鹽噪聲即在RGB圖像中加入的噪聲密度為0.008。擴(kuò)增后的數(shù)據(jù)集數(shù)量是擴(kuò)增前的8倍。整個數(shù)據(jù)集包含19 895張?zhí)瓶▓D像。整個數(shù)據(jù)集共有13個類別,其中藥師佛、釋迦牟尼佛和蓮花生大師占很大的比例,其余的分布均勻,圖像大小均為(100,100)。
CNN是一種前饋神經(jīng)網(wǎng)絡(luò),包括卷積運(yùn)算,具有深層的網(wǎng)絡(luò)結(jié)構(gòu)[34]。它用于圖像領(lǐng)域的監(jiān)督學(xué)習(xí)中,并在圖像識別[35]、圖像檢測[36-37]等方面有許多應(yīng)用。 CNN的基本結(jié)構(gòu)包括輸入層、卷積層、池化層和完整連接層。
卷積層主要負(fù)責(zé)提取圖像中的局部特征,主要通過卷積核的過濾提取出圖片中的局部特征,卷積層的計(jì)算過程為用卷積核掃描整個圖片,卷積操作利用共享權(quán)值和偏置值的特點(diǎn)來進(jìn)行卷積操作從而提取得到數(shù)據(jù)的抽象特征。
池化層經(jīng)常出現(xiàn)在兩個卷積層之間,以減小尺寸,有效減小矩陣的大小以實(shí)現(xiàn)下采樣,減少輸入到最后一個全連接層的參數(shù),并減少數(shù)據(jù)操作量,避免數(shù)據(jù)的過擬合[38]。
全連接層類似于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的一部分,用于輸出所需的結(jié)果。卷積層和池化層處理的數(shù)據(jù)可以輸入到全連接層,輸出結(jié)果是將所有數(shù)據(jù)組合成全局特征以獲得最終的分類結(jié)果。
激活函數(shù)用于提供網(wǎng)絡(luò)的非線性建模功能,將非線性元素引入神經(jīng)網(wǎng)絡(luò),使神經(jīng)網(wǎng)絡(luò)能夠完成非線性映射,并允許深度神經(jīng)網(wǎng)絡(luò)具有學(xué)習(xí)非線性的能力[39],因此在深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過程中加入激活函數(shù)非常重要。常見的激活函數(shù)有Sigmoid、Elu、Tanh以及Relu等[40],該文采用Relu函數(shù),如公式(1)所示:
f(x)=max(0,x)
(1)
Relu函數(shù)的運(yùn)算極其簡單,直接取0和x的最大值即可,提升機(jī)器運(yùn)行效率。
直接輸入圖像作為CNN的輸入。在進(jìn)行平均、歸一化和其他操作之后,將圖像信息轉(zhuǎn)換為像素級信息,然后輸入到卷積層。通過局部感知和權(quán)重共享來減少大量計(jì)算參數(shù),使用Relu激活函數(shù)來加快收斂速度;使用最大池化層,即使用激活層輸出的樣本的最大值作為樣本值;最后,在完全連接操作之后,將多組信號依次組合為一組信號,然后輸出結(jié)果。
該文的網(wǎng)絡(luò)模型基于CNN的基本模型,并結(jié)合了其他模型的優(yōu)點(diǎn)。卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)包括輸入層、卷積層、激活層、池化層和完全連接層。主要介紹以下部分:
(1)Dropout層。AlexNet模型引入了Relu激活功能和Dropout層。隨機(jī)丟棄會阻止某些權(quán)重被更新。這是一種正則化技術(shù)通過在訓(xùn)練過程中防止神經(jīng)元節(jié)點(diǎn)之間的關(guān)節(jié)適應(yīng)來減少過度擬合。
(2)BatchNorm[41]。GoogleNet模型首次引入BatchNorm,以批量標(biāo)準(zhǔn)化每個池化層處理的數(shù)據(jù),加快訓(xùn)練數(shù)據(jù)的收斂速度并減少不同批次之間的抖動,從而提高訓(xùn)練速度。
(3)512維全連接層。 VGG16模型引入了提到的512維全連接層。
(4)損失功能。損失函數(shù)使用交叉熵?fù)p失函數(shù)。此功能通常用于分類問題,它將其與激活函數(shù)softmax結(jié)合使用以獲得損耗值。計(jì)算公式如下:
(2)
(5)優(yōu)化函數(shù)。該文使用Adam算法來提高模型質(zhì)量并減少計(jì)算量。基于損失函數(shù)和圖像的準(zhǔn)確性來判斷是否達(dá)到準(zhǔn)確性比率的最佳值。
網(wǎng)絡(luò)模型如圖3所示,其中Conv為卷積層,Relu為激活函數(shù),BN為批量歸一化層,Pooling為池化層,F(xiàn)C指的是全連接層,softmax函數(shù)保證歸一化和為1,在分類場景中應(yīng)用較多。
圖3 卷積神經(jīng)網(wǎng)絡(luò)模型
唐卡人物分類的流程主要包括圖像預(yù)處理、模型構(gòu)建以及模型預(yù)測。
步驟一:唐卡尊像圖像預(yù)處理。
(1)將樣本集中的所有圖像進(jìn)行鏡像翻轉(zhuǎn)、亮度增強(qiáng)、亮度減弱、顏色增強(qiáng)、添加高斯噪聲、椒鹽噪聲等圖像增強(qiáng)的預(yù)處理操作;
(2)生成對應(yīng)的數(shù)據(jù)列表,對圖片進(jìn)行縮放,裁剪為100×100的尺寸,即圖片維度為(3,100,100)。然后將圖片數(shù)組進(jìn)行歸一化處理,得到0與1之間的數(shù)值;
(3)將所有的圣像類唐卡圖像樣本輸入,并隨機(jī)抽取每個小類里的十分之一的樣本作為測試集圖像,其他部分作為訓(xùn)練集樣本。
步驟二:構(gòu)建CNN基本模型。
(1)所構(gòu)建的CNN基本網(wǎng)絡(luò)結(jié)構(gòu)主要包括三組卷積層、池化層和完全連接層;
(2)將學(xué)習(xí)率初始化為0.01,Batch size大小設(shè)定為128進(jìn)行實(shí)驗(yàn),若準(zhǔn)確率不再提高,則將學(xué)習(xí)率每次降低10倍,Batch size大小根據(jù)2n進(jìn)行調(diào)整,得到一個基本的網(wǎng)絡(luò)模型,最終學(xué)習(xí)率設(shè)為0.000 1,batch size設(shè)為64,經(jīng)過一段時間的訓(xùn)練,最終損失函數(shù)收斂較快,準(zhǔn)確率不斷處于上升階段;
(3)加入BatchNorm層和Dropout層進(jìn)行進(jìn)一步的實(shí)驗(yàn),手動調(diào)整學(xué)習(xí)率以及Batch size的數(shù)值,并用驗(yàn)證集對訓(xùn)練進(jìn)行評估,不斷優(yōu)化,保存好訓(xùn)練的模型,然后將卷積池化層的可調(diào)參數(shù)進(jìn)行實(shí)驗(yàn)。
步驟三:模型預(yù)測。
(1)配置好預(yù)測的模型,準(zhǔn)備好要預(yù)測的圖片;
(2)加載之前訓(xùn)練好的預(yù)測模型;
(3)把圖片放入預(yù)測模型,輸出最終預(yù)測結(jié)果。
該實(shí)驗(yàn)主要在配備8線程CPU,NVIDIA V100 GPU,16 GB顯存,100 GB磁盤和32 GB RAM的服務(wù)器上運(yùn)行,并且訓(xùn)練測試過程是使用python實(shí)現(xiàn)的。
首先在訓(xùn)練集上進(jìn)行實(shí)驗(yàn)以最大程度地提高訓(xùn)練集的準(zhǔn)確性,然后在測試集上進(jìn)行測試以獲得最終的準(zhǔn)確率。要在選定的訓(xùn)練集上進(jìn)行訓(xùn)練,首先在基礎(chǔ)上調(diào)整學(xué)習(xí)率和Batch size,然后調(diào)整池化層的相關(guān)參數(shù),以下是實(shí)驗(yàn)數(shù)據(jù)。
經(jīng)過不斷測試,最終學(xué)習(xí)率選擇0.000 1比較合適,一共訓(xùn)練30輪。首先暫定濾波器大小為3,池化層大小為2,池化層步長為2,Batch size選擇64,激活類型選擇Relu函數(shù)。
為了測試濾波器大小、池化層大小、池化層步長以及Batch大小對于圣像類唐卡人物分類的準(zhǔn)確率的影響,進(jìn)行了以下幾個實(shí)驗(yàn),實(shí)驗(yàn)主要采用單一變量法進(jìn)行,即進(jìn)行其中一項(xiàng)對最終分類結(jié)果的影響,設(shè)定其他項(xiàng)保持不變:
首先測試濾波器大小對實(shí)驗(yàn)結(jié)果的影響,保持池化層大小、池化層步長為2,Batch大小為64,改變?yōu)V波器大小,對比分類準(zhǔn)確率。
由表1可以看出,在池化層大小、池化層步長以及Batch大小保持不變的情況下,濾波器大小設(shè)置為2準(zhǔn)確率更高,所以當(dāng)filter_size=2時,保持池化層步長不變,測試池化層大小對實(shí)驗(yàn)結(jié)果的影響。
表1 濾波器大小對實(shí)驗(yàn)結(jié)果的影響
如圖4所示,當(dāng)濾波器大小,池化層步長和批次大小保持不變時,池化層大小將用作變量。實(shí)驗(yàn)結(jié)果表明,當(dāng)池化層大小為1時,分類準(zhǔn)確率最高,達(dá)到94.81%。
圖4 池化層大小對分類準(zhǔn)確率的影響
從圖5中可以看出,當(dāng)濾波器大小為2時,池化層大小為1,將池化層步長設(shè)置為1,則精度最高,達(dá)到96.76%。
圖5 池化步長對分類準(zhǔn)確率的影響
此外,批次值的大小也會影響最終分類結(jié)果的準(zhǔn)確性和效率。在實(shí)際訓(xùn)練中,將所有訓(xùn)練集劃分為相同的訓(xùn)練集,然后在第二次訓(xùn)練期間,將所有分割的批次訓(xùn)練集依次放入網(wǎng)絡(luò)中,直到完成所有批次訓(xùn)練集的訓(xùn)練為止,然后執(zhí)行下一輪迭代。通過實(shí)驗(yàn)數(shù)據(jù)總結(jié)批次的大小和準(zhǔn)確性之間的關(guān)系,以進(jìn)行更好的訓(xùn)練。 實(shí)驗(yàn)數(shù)據(jù)如表2所示。
表2 Batch大小對實(shí)驗(yàn)結(jié)果的影響
由表2可知:當(dāng)Batch的值小于50時,準(zhǔn)確率只有81.21%,并且在訓(xùn)練過程中花費(fèi)的時間明顯比其他Batch值的時候更長,當(dāng)Batch在50及以上時,基本保持不變,Batch越大,訓(xùn)練所花費(fèi)時間越多,所以最終實(shí)驗(yàn)中采用Batch為64比較合理。
在訓(xùn)練集上調(diào)整各類參數(shù),使最終的訓(xùn)練精度達(dá)到最高以后,在測試集上進(jìn)行測試。如上所述,文章當(dāng)中采用每一類當(dāng)中的十分之一作為最終測試集的數(shù)據(jù)。
具體的分類結(jié)果如圖6所示。
圖6 部分分類結(jié)果展示
根據(jù)最終的預(yù)測結(jié)果,獲得模型的準(zhǔn)確性、召回率、精確度,對于采集的樣本,可以直接知道實(shí)際情況下哪些數(shù)據(jù)為正,哪些數(shù)據(jù)為負(fù)。通過使用樣本數(shù)據(jù)運(yùn)行分類模型結(jié)果,還可以知道模型認(rèn)為哪些數(shù)據(jù)是正數(shù)據(jù),哪些數(shù)據(jù)是負(fù)數(shù)據(jù),下面是四個基本指標(biāo):
(1)真實(shí)值為正,并且模型認(rèn)為該數(shù)字為正(True Positive =TP);
(2)真實(shí)值為正,但模型認(rèn)為該數(shù)字為負(fù)(False Negative=FN);
(3)真實(shí)值為負(fù),但模型認(rèn)為該數(shù)字為正(False Positive=FP);
(4)真實(shí)值為負(fù),并且模型認(rèn)為該數(shù)字為負(fù)(True Negative=TN);
(3)
準(zhǔn)確率的計(jì)算公式見公式(3),精確度和召回率的計(jì)算公式見公式(4)和公式(5):
(4)
(5)
在多分類問題中,在計(jì)算召回率和準(zhǔn)確率時,將要為每個類別計(jì)算的類別視為正類別,而將其余類別視為負(fù)類別。 各個類別的召回率、準(zhǔn)確率和精確度如表3所示。
表3 各類別的召回率、精確度和準(zhǔn)確率
由性能評價(jià)指標(biāo)Accuracy可得:大威德金剛的得分高達(dá)99.5%,而四臂觀音的得分最低,為88.6%,主要原因是大威德金剛的圖像在色彩以及構(gòu)造上是最復(fù)雜的,與其他類別的差別較大,比較容易區(qū)分;但是四臂觀音的造像和普賢菩薩比較相似,面部表情、頭飾以及手勢比較相似,所以分類錯誤的圖像較多。另外,由于整個訓(xùn)練集當(dāng)中每個類別的數(shù)量不均勻,釋迦牟尼佛的數(shù)量最多,因此,其他類別當(dāng)中也有較多的圖像被分類為釋迦牟尼佛。
為了驗(yàn)證文中提出方法的性能,在最佳參數(shù)條件下,將該方法與其他典型的圖像分類方法進(jìn)行了比較,如圖7所示。實(shí)驗(yàn)結(jié)果表明:在相同數(shù)據(jù)集下,該方法的準(zhǔn)確率比其他幾種方法高約3%,分類效果更好。
圖7 文中方法與其他典型方法準(zhǔn)確率的比較
該文主要研究基于卷積神經(jīng)網(wǎng)絡(luò)模型的唐卡人像自動分類方法,首先構(gòu)建一個唐卡尊像分類數(shù)據(jù)集,然后在此基礎(chǔ)上進(jìn)行基于卷積神經(jīng)網(wǎng)絡(luò)模型的唐卡尊像圖像分類實(shí)驗(yàn)。實(shí)驗(yàn)證明,在唐卡尊像圖像分類中,提出模型的準(zhǔn)確率提高了3%以上,更適合于唐卡尊像圖像分類。減少分類所花費(fèi)的人力和物力,對唐卡非物質(zhì)文化遺產(chǎn)進(jìn)行數(shù)字保護(hù),使更多人參與唐卡的保護(hù)。
該方法的優(yōu)點(diǎn)是使用了相對較新的卷積神經(jīng)網(wǎng)絡(luò)來重組網(wǎng)絡(luò)結(jié)構(gòu)層,實(shí)現(xiàn)了較淺的網(wǎng)絡(luò)結(jié)構(gòu)分類模型的構(gòu)建,并且在自己構(gòu)建的數(shù)據(jù)集上進(jìn)行測試。然而該方法也存在一定的缺陷,即訓(xùn)練模型花費(fèi)時間太久,系統(tǒng)界面功能單一。在以后的工作當(dāng)中,將以提高訓(xùn)練效率為重點(diǎn),并在此次實(shí)驗(yàn)的基礎(chǔ)上繼續(xù)進(jìn)行唐卡人物的檢測,將其他神經(jīng)網(wǎng)絡(luò)模型(如yolov3、SSD等)進(jìn)行改進(jìn)并應(yīng)用到唐卡人物的分類及人物、法器、頭飾等的檢測當(dāng)中,為唐卡這種非物質(zhì)文化遺產(chǎn)的數(shù)字化保護(hù)貢獻(xiàn)一份力量。