基于神經(jīng)網(wǎng)絡(luò)的古錢幣圖像檢索研究

2020-05-11 06:21施雨于瓅吳明祥胡夢龍

科技資訊 2020年7期

施雨于瓅吳明祥胡夢龍

摘? 要：古錢幣是我國重要的文化遺產(chǎn)，具有較高的文化和藝術(shù)價值，為了加強(qiáng)對古錢幣的保護(hù)，需要對其進(jìn)行識別和檢索。針對古錢幣圖像的檢索問題，該文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)和二進(jìn)制編碼的方法，該方法的基本思想是在卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)中增加編碼層，同時學(xué)習(xí)古錢幣圖像的特征表示和編碼。使用卷積神經(jīng)網(wǎng)絡(luò)提取古錢幣圖像的特征，隨后對提取的特征進(jìn)行激活和閾值化處理，離散化為二進(jìn)制編碼，隨后待檢索的古錢幣圖像輸入該框架得到二進(jìn)制編碼，從而可以在海明空間中完成古錢幣圖像的有效檢索。在數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，利用該文方法的檢索性能優(yōu)于傳統(tǒng)檢索方法。

關(guān)鍵詞：圖像檢索? 卷積神經(jīng)網(wǎng)絡(luò)? 特征表示? 二進(jìn)制編碼

中國是世界上最早使用貨幣的國家之一，從秦代方孔圓錢，到清末機(jī)制幣，數(shù)以萬種千姿百態(tài)的錢幣構(gòu)成了當(dāng)今錢幣收藏領(lǐng)域中最為龐大的收藏門類[1]。經(jīng)過五千年的發(fā)展，我國形成了獨(dú)特且璀璨的錢幣文化，古錢幣作為中國歷史文化的載體，具有較高文化價值和藝術(shù)價值。雖然古錢幣數(shù)量和種類較多，但是近些年由于網(wǎng)絡(luò)的發(fā)展，借助網(wǎng)絡(luò)渠道進(jìn)行非法交易和偷盜的非法行為正在逐漸加速文物的流失。因此，出于對文物的保護(hù)，需要對文物進(jìn)行識別、追蹤和檢索;另一方面，為了滿足廣大收藏愛好者對收藏文物的需要，對于古錢幣的識別和檢索的需求十分迫切。

圖像檢索技術(shù)早期是基于文本的圖像檢索（Text-Based Image Retrieval， TBIR），現(xiàn)已逐步發(fā)展為基于內(nèi)容的圖像檢索（Content-Based Image Retrieval， CBIR）。CBIR技術(shù)以圖像視覺特征或與圖像相似的草圖作為用戶查詢和系統(tǒng)檢索的依據(jù)[2]。圖像的視覺特征包括SIFT[3] （Scale-Invariant Feature Transform）、HOG[4]（Histogram of Orientated Gradients）等。與傳統(tǒng)的手動提取特征的方法相比，深度卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks， CNNs）能更好地提取圖像的內(nèi)在特征，并且在歷屆ILSVRC的目標(biāo)檢測、圖像分類、圖像分割各個比賽中都取得不錯的效果。

卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)研究領(lǐng)域的一種架構(gòu)，1990年，LeCun等提出了現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)的原始版本LeNet，隨后于1998年提出基于梯度學(xué)習(xí)的LeNet-5模型[5]。因受限于數(shù)據(jù)量大小和計算速度的不足，當(dāng)時的網(wǎng)絡(luò)在分類任務(wù)中的表現(xiàn)不佳。2012年，Krizhevsky等餓[6]提出AlexNet架構(gòu)，奪得ILSVRC2012的圖像分類任務(wù)的冠軍，對比傳統(tǒng)機(jī)器學(xué)習(xí)方法，其表現(xiàn)已相當(dāng)出色。該文將采用卷積神經(jīng)網(wǎng)絡(luò)對古錢幣數(shù)據(jù)集的圖片進(jìn)行二進(jìn)制編碼，得到每張古錢幣圖像的二進(jìn)制編碼，可用該二進(jìn)制編碼用于圖像檢索。

1? 該文方法

模型的輸入為古錢幣圖像及其類別標(biāo)簽信息，主要包括3個部分：（1）卷積子網(wǎng)絡(luò)，用來學(xué)習(xí)表示古錢幣圖像的特征;（2）編碼層，將第二個全連接層輸出的特征向量激活、閾值化處理并生成二進(jìn)制編碼;（3）損失層，采用Softmax損失函數(shù)。首先輸入古錢幣圖像，進(jìn)入卷積子網(wǎng)絡(luò)得到圖像的特征向量;其次進(jìn)入編碼層，將特征向量轉(zhuǎn)換為二進(jìn)制編碼;最后進(jìn)入損失層計算損失函數(shù)，優(yōu)化損失函數(shù)得到模型的參數(shù)。

1.1 卷積子網(wǎng)絡(luò)

卷積子網(wǎng)絡(luò)用于學(xué)習(xí)圖像的特征表示，輸入圖像經(jīng)過一系列卷積、池化等操作后們可以得到圖像的特征向量。該文采用AlexNet[6]模型作為基本架構(gòu)，其中包括5個卷積層、3個最大池化層和2個全連接層。輸入圖片大小為224×224，經(jīng)過核大小為11×11、步長為4的卷積層處理后輸出55×55×96的向量，隨后進(jìn)行LRN（Local Response Normalization，局部響應(yīng)歸一化）處理，接著經(jīng)過3×3、步長為2的最大池化操作，輸出27×27×96的向量。與此類似，經(jīng)過一系列卷積、池化操作后，進(jìn)入全連接層6和全連接層7，最終輸出4096×1用來表示圖像特征的特征向量。

1.2 編碼層和損失層

圖像經(jīng)過全連接層7后產(chǎn)生特征向量x之后，將進(jìn)入編碼層。首先對x進(jìn)行sigmoid函數(shù)處理，將一維向x量映射為[0，1]之間的數(shù)值，得到激活層輸出向量s。假設(shè)特征向量x的維數(shù)為n，則輸出向量s維數(shù)也為n，該過程表示為：

經(jīng)過激活層得到的向量s隨即進(jìn)入閾值化層，閾值化層主要將激活層映射到[0，1]之間的連續(xù)值離散化為0和1，將大于閾值的值處理為1，小于閾值的值處理為0，這里選取閾值為0.5，該過程表示為：

經(jīng)過閾值化層處理后，得到圖像對應(yīng)的二進(jìn)制編碼。損失層函數(shù)采用Softmax損失函數(shù)，閾值化層得到的編碼進(jìn)入Softmax分類器進(jìn)行分類，通過優(yōu)化Softmax損失函數(shù)來獲得模型的參數(shù)。

2? 實(shí)驗(yàn)結(jié)果分析

2.1 實(shí)驗(yàn)設(shè)置

為了驗(yàn)證該文方法的有效性，在手動采集的古錢幣數(shù)據(jù)集上進(jìn)行模型實(shí)驗(yàn)。該數(shù)據(jù)集包含10000張大小為224×224的古錢幣彩色圖片，包含康熙年間的10類錢幣樣式，現(xiàn)從每個類別中隨機(jī)選取9000張圖像作為訓(xùn)練集和1000張圖像作為測試集。

該文采用MAP、海明距離2以內(nèi)的準(zhǔn)確率曲線以及top-k準(zhǔn)確率曲線這3個參數(shù)進(jìn)行評估。其中，MAP即圖像平均檢索精度（mean average precision， MAP），MAP即為幾次檢索結(jié)果AP的平均值，AP為不同召回率上的正確率的平均值。海明距離2以內(nèi)的準(zhǔn)確率曲線是與檢索圖像漢明距離小于2的圖像中與檢索圖像類別一致的結(jié)果所占比例。top-k準(zhǔn)確率是與檢索圖像距離最小的k張圖像中與檢索圖像類別一致的結(jié)果所占比例。

2.2 實(shí)驗(yàn)結(jié)果分析

將該文采用的方法記為CNNC，表1給出在數(shù)據(jù)集上該文算法與其他算法MAP值的比較結(jié)果。從表1中可以看出，該文算法的MAP值遠(yuǎn)遠(yuǎn)高于手工提取的特征與哈希方法結(jié)合的算法KSH和ITQ，因?yàn)樵撐牟捎玫纳疃染矸e神經(jīng)網(wǎng)絡(luò)可以能有效地表示圖像的特征。

3? 結(jié)語

該文提出了一種卷積神經(jīng)網(wǎng)絡(luò)模型，可以有效地對古錢幣圖像進(jìn)行特征的表示并且生成二進(jìn)制編碼。模型生成的二進(jìn)制編碼能夠在有效表示圖像的同時保證圖像檢索的精度，并且實(shí)驗(yàn)結(jié)果表明：該文采用的方法與其他結(jié)合手工提取特征和哈希的方法相比有更好的檢索精度。

參考文獻(xiàn)

[1] 古錢幣在古玩界成為新寵[J].文物鑒定與鑒賞，2019（5）：164-165.

[2] 杭燕，楊育彬，陳兆乾.基于內(nèi)容的圖像檢索綜述[J].計算機(jī)應(yīng)用研究，2002（9）：9-13，29.

[3] LOWE DG. Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision，2004，60（2）：91-110.

[4] Dalal N，Triggs B.Histograms of oriented gradients for human detection[A].2005 IEEE Computer Society Conference Computer Vision and Pattern Recognition[C].2005：886-893.

[5] Lecun Y，Bottou L，Bengio Y，et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE，1998，86（11）：2278-2324.

[6] Krizhevsky A，Sutskever I，Hinton G.ImageNet Classification with Deep Convolutional Neural Networks[J].Communications of the ACM，2017，60（6）：84-90.

[7] Yunchao Gong，Lazebnik S.Iterative quantization：A procrustean approach to learning binary codes[A].2011 IEEE Conference on Computer Vision and Pattern Recongnition[C].2011：817-824.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于神經(jīng)網(wǎng)絡(luò)的古錢幣圖像檢索研究