施雨 于瓅 吳明祥 胡夢龍
摘? 要:古錢幣是我國重要的文化遺產(chǎn),具有較高的文化和藝術(shù)價值,為了加強(qiáng)對古錢幣的保護(hù),需要對其進(jìn)行識別和檢索。針對古錢幣圖像的檢索問題,該文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)和二進(jìn)制編碼的方法,該方法的基本思想是在卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)中增加編碼層,同時學(xué)習(xí)古錢幣圖像的特征表示和編碼。使用卷積神經(jīng)網(wǎng)絡(luò)提取古錢幣圖像的特征,隨后對提取的特征進(jìn)行激活和閾值化處理,離散化為二進(jìn)制編碼,隨后待檢索的古錢幣圖像輸入該框架得到二進(jìn)制編碼,從而可以在海明空間中完成古錢幣圖像的有效檢索。在數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,利用該文方法的檢索性能優(yōu)于傳統(tǒng)檢索方法。
關(guān)鍵詞:圖像檢索? 卷積神經(jīng)網(wǎng)絡(luò)? 特征表示? 二進(jìn)制編碼
中國是世界上最早使用貨幣的國家之一,從秦代方孔圓錢,到清末機(jī)制幣,數(shù)以萬種千姿百態(tài)的錢幣構(gòu)成了當(dāng)今錢幣收藏領(lǐng)域中最為龐大的收藏門類[1]。經(jīng)過五千年的發(fā)展,我國形成了獨(dú)特且璀璨的錢幣文化,古錢幣作為中國歷史文化的載體,具有較高文化價值和藝術(shù)價值。雖然古錢幣數(shù)量和種類較多,但是近些年由于網(wǎng)絡(luò)的發(fā)展,借助網(wǎng)絡(luò)渠道進(jìn)行非法交易和偷盜的非法行為正在逐漸加速文物的流失。因此,出于對文物的保護(hù),需要對文物進(jìn)行識別、追蹤和檢索;另一方面,為了滿足廣大收藏愛好者對收藏文物的需要,對于古錢幣的識別和檢索的需求十分迫切。
圖像檢索技術(shù)早期是基于文本的圖像檢索(Text-Based Image Retrieval, TBIR),現(xiàn)已逐步發(fā)展為基于內(nèi)容的圖像檢索(Content-Based Image Retrieval, CBIR)。CBIR技術(shù)以圖像視覺特征或與圖像相似的草圖作為用戶查詢和系統(tǒng)檢索的依據(jù)[2]。圖像的視覺特征包括SIFT[3] (Scale-Invariant Feature Transform)、HOG[4](Histogram of Orientated Gradients)等。與傳統(tǒng)的手動提取特征的方法相比,深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNNs)能更好地提取圖像的內(nèi)在特征,并且在歷屆ILSVRC的目標(biāo)檢測、圖像分類、圖像分割各個比賽中都取得不錯的效果。
卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)研究領(lǐng)域的一種架構(gòu),1990年,LeCun等提出了現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)的原始版本LeNet,隨后于1998年提出基于梯度學(xué)習(xí)的LeNet-5模型[5]。因受限于數(shù)據(jù)量大小和計算速度的不足,當(dāng)時的網(wǎng)絡(luò)在分類任務(wù)中的表現(xiàn)不佳。2012年,Krizhevsky等餓[6]提出AlexNet架構(gòu),奪得ILSVRC2012的圖像分類任務(wù)的冠軍,對比傳統(tǒng)機(jī)器學(xué)習(xí)方法,其表現(xiàn)已相當(dāng)出色。該文將采用卷積神經(jīng)網(wǎng)絡(luò)對古錢幣數(shù)據(jù)集的圖片進(jìn)行二進(jìn)制編碼,得到每張古錢幣圖像的二進(jìn)制編碼,可用該二進(jìn)制編碼用于圖像檢索。
1? 該文方法
模型的輸入為古錢幣圖像及其類別標(biāo)簽信息,主要包括3個部分:(1)卷積子網(wǎng)絡(luò),用來學(xué)習(xí)表示古錢幣圖像的特征;(2)編碼層,將第二個全連接層輸出的特征向量激活、閾值化處理并生成二進(jìn)制編碼;(3)損失層,采用Softmax損失函數(shù)。首先輸入古錢幣圖像,進(jìn)入卷積子網(wǎng)絡(luò)得到圖像的特征向量;其次進(jìn)入編碼層,將特征向量轉(zhuǎn)換為二進(jìn)制編碼;最后進(jìn)入損失層計算損失函數(shù),優(yōu)化損失函數(shù)得到模型的參數(shù)。
1.1 卷積子網(wǎng)絡(luò)
卷積子網(wǎng)絡(luò)用于學(xué)習(xí)圖像的特征表示,輸入圖像經(jīng)過一系列卷積、池化等操作后們可以得到圖像的特征向量。該文采用AlexNet[6]模型作為基本架構(gòu),其中包括5個卷積層、3個最大池化層和2個全連接層。輸入圖片大小為224×224,經(jīng)過核大小為11×11、步長為4的卷積層處理后輸出55×55×96的向量,隨后進(jìn)行LRN(Local Response Normalization,局部響應(yīng)歸一化)處理,接著經(jīng)過3×3、步長為2的最大池化操作,輸出27×27×96的向量。與此類似,經(jīng)過一系列卷積、池化操作后,進(jìn)入全連接層6和全連接層7,最終輸出4096×1用來表示圖像特征的特征向量。
1.2 編碼層和損失層
圖像經(jīng)過全連接層7后產(chǎn)生特征向量x之后,將進(jìn)入編碼層。首先對x進(jìn)行sigmoid函數(shù)處理,將一維向x量映射為[0,1]之間的數(shù)值,得到激活層輸出向量s。假設(shè)特征向量x的維數(shù)為n,則輸出向量s維數(shù)也為n,該過程表示為:
經(jīng)過激活層得到的向量s隨即進(jìn)入閾值化層,閾值化層主要將激活層映射到[0,1]之間的連續(xù)值離散化為0和1,將大于閾值的值處理為1,小于閾值的值處理為0,這里選取閾值為0.5,該過程表示為:
經(jīng)過閾值化層處理后,得到圖像對應(yīng)的二進(jìn)制編碼。損失層函數(shù)采用Softmax損失函數(shù),閾值化層得到的編碼進(jìn)入Softmax分類器進(jìn)行分類,通過優(yōu)化Softmax損失函數(shù)來獲得模型的參數(shù)。
2? 實(shí)驗(yàn)結(jié)果分析
2.1 實(shí)驗(yàn)設(shè)置
為了驗(yàn)證該文方法的有效性,在手動采集的古錢幣數(shù)據(jù)集上進(jìn)行模型實(shí)驗(yàn)。該數(shù)據(jù)集包含10000張大小為224×224的古錢幣彩色圖片,包含康熙年間的10類錢幣樣式,現(xiàn)從每個類別中隨機(jī)選取9000張圖像作為訓(xùn)練集和1000張圖像作為測試集。
該文采用MAP、海明距離2以內(nèi)的準(zhǔn)確率曲線以及top-k準(zhǔn)確率曲線這3個參數(shù)進(jìn)行評估。其中,MAP即圖像平均檢索精度(mean average precision, MAP),MAP即為幾次檢索結(jié)果AP的平均值,AP為不同召回率上的正確率的平均值。海明距離2以內(nèi)的準(zhǔn)確率曲線是與檢索圖像漢明距離小于2的圖像中與檢索圖像類別一致的結(jié)果所占比例。top-k準(zhǔn)確率是與檢索圖像距離最小的k張圖像中與檢索圖像類別一致的結(jié)果所占比例。
2.2 實(shí)驗(yàn)結(jié)果分析
將該文采用的方法記為CNNC,表1給出在數(shù)據(jù)集上該文算法與其他算法MAP值的比較結(jié)果。從表1中可以看出,該文算法的MAP值遠(yuǎn)遠(yuǎn)高于手工提取的特征與哈希方法結(jié)合的算法KSH和ITQ,因?yàn)樵撐牟捎玫纳疃染矸e神經(jīng)網(wǎng)絡(luò)可以能有效地表示圖像的特征。
3? 結(jié)語
該文提出了一種卷積神經(jīng)網(wǎng)絡(luò)模型,可以有效地對古錢幣圖像進(jìn)行特征的表示并且生成二進(jìn)制編碼。模型生成的二進(jìn)制編碼能夠在有效表示圖像的同時保證圖像檢索的精度,并且實(shí)驗(yàn)結(jié)果表明:該文采用的方法與其他結(jié)合手工提取特征和哈希的方法相比有更好的檢索精度。
參考文獻(xiàn)
[1] 古錢幣在古玩界成為新寵[J].文物鑒定與鑒賞,2019(5):164-165.
[2] 杭燕,楊育彬,陳兆乾.基于內(nèi)容的圖像檢索綜述[J].計算機(jī)應(yīng)用研究,2002(9):9-13,29.
[3] LOWE DG. Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[4] Dalal N,Triggs B.Histograms of oriented gradients for human detection[A].2005 IEEE Computer Society Conference Computer Vision and Pattern Recognition[C].2005:886-893.
[5] Lecun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.
[6] Krizhevsky A,Sutskever I,Hinton G.ImageNet Classification with Deep Convolutional Neural Networks[J].Communications of the ACM,2017,60(6):84-90.
[7] Yunchao Gong,Lazebnik S.Iterative quantization:A procrustean approach to learning binary codes[A].2011 IEEE Conference on Computer Vision and Pattern Recongnition[C].2011:817-824.