基于深度學(xué)習(xí)的青藏高原畜牧業(yè)多目標(biāo)動物圖像檢索研究

2020-12-24 08:01:42更藏卓瑪安見才讓

軟件 2020年7期

關(guān)鍵詞：卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)

更藏卓瑪安見才讓

摘? 要：深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一大重要分支，近年來在圖像處理與自然語言處理領(lǐng)域應(yīng)用極為廣泛，隨著深度學(xué)習(xí)被應(yīng)用于各行各業(yè)，越來越多復(fù)雜的問題也隨之簡化。本文利用深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行研究，采用當(dāng)下較為流行的YOLO框架，設(shè)計并實現(xiàn)了一套實用于青藏高原畜牧業(yè)動物圖像檢索的系統(tǒng)，該系統(tǒng)可根據(jù)相應(yīng)需求檢索單目標(biāo)和多目標(biāo)圖像，在多次實驗結(jié)果反饋中正確率較高，可在一定范圍內(nèi)滿足實際應(yīng)用。

關(guān)鍵詞：深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);圖像檢索系統(tǒng)

中圖分類號： TP391.4 ???文獻(xiàn)標(biāo)識碼： A??? DOI：10.3969/j.issn.1003-6970.2020.07.025

本文著錄格式：更藏卓瑪，安見才讓. 基于深度學(xué)習(xí)的青藏高原畜牧業(yè)多目標(biāo)動物圖像檢索研究[J]. 軟件，2020，41（07）：126-131

Research on Multi-objective Animal Image Retrieval of Animal Husbandryin Qinghai Tibet Plateau Based on Deep Learning

GENG ZANG Zhuo-ma， AN JIAN Cai-rang

（Qinghai Nationalities University， qinghai 810000）

【Abstract】： As an important branch of machine learning， deep learning has been widely used in the field of image processing and natural language processing in recent years. With the application of deep learning in all walks of life， more and more complex problems are also simplified. In this paper， the convolution neural network model in deep learning is used for research， and a set of practical animal image retrieval system is designed and implemented based on the current popular yo framework. The system can retrieve single target and multi-target images according to the corresponding needs. The accuracy of the system is high in multiple experimental results feedback， and it can meet the practical application in a certain range.

【Key words】： Deep learning; Convolutional neural network; Image retrieval system

0? 引言

目前，在國內(nèi)有很多動物圖像檢索方面的研究，并取得了突破性的成績。但都是在研究基于養(yǎng)殖場環(huán)境下的動物圖像檢索，而且是單目標(biāo)的圖像檢索。在養(yǎng)殖場環(huán)境下光線較穩(wěn)定，這有利于圖像特征提取。在國內(nèi)目前很少有基于青藏高原自然環(huán)境下并且是多目標(biāo)的圖像檢索的研究，青藏高原畜牧業(yè)動物圖像中動物對象的形式又是各種各樣的，所以需要研究出各種狀態(tài)下的動物圖像檢索方法具有一定的意義。

在深度學(xué)習(xí)中，卷積神經(jīng)網(wǎng)絡(luò)由于其相對簡單高效地提取特征方法使得其成為了目前最常用的一項技術(shù)。深度學(xué)習(xí)模型，特別是深度卷積神經(jīng)網(wǎng)絡(luò)模型，在不同的視覺任務(wù)比如圖像分類、注釋、檢索和目標(biāo)檢測方面由于其強(qiáng)大的表達(dá)學(xué)習(xí)能力取得了巨大的成功。國內(nèi)一些研究人員開始對基于CNNs的算法在圖像檢索方面進(jìn)行了探索并取得了一定的成果。

國內(nèi)學(xué)者高姍^[1]等在文獻(xiàn)中提出了一種基于多目標(biāo)區(qū)域的圖像檢索模型，并實現(xiàn)了一款高效的檢索算法。該方法先使用某些目標(biāo)檢測算法找出并定位出圖像中的目標(biāo)，接著使用卷積神經(jīng)網(wǎng)絡(luò)（CNN）提取到各個目標(biāo)的像素特征，同時提出了一種新的多目標(biāo)區(qū)域相似度測量方法使得多目標(biāo)檢測。文獻(xiàn)所提出的新算法在PASCAL VOC2007^[2]圖像庫中使用后平均查準(zhǔn)率達(dá)到43.47%。在PASCAL VOC2012圖像庫中使用后平均查準(zhǔn)率達(dá)到44.85%。相比于傳統(tǒng)算法在檢索的準(zhǔn)確性上得到了一個大的提升。隨著發(fā)展，越來越多優(yōu)秀并且成熟的模型不斷的橫空出世，進(jìn)入到大眾視野，比如模型準(zhǔn)確率較高的R-CNN^[3]系算法，適合處理實時問題的YOLO^[4]算法等等，都可以處理多目標(biāo)圖像的檢索問題，采用合適的框架進(jìn)行訓(xùn)練模型，經(jīng)過合適的調(diào)節(jié)參數(shù)，模型可以達(dá)到很高的正確率，能夠應(yīng)用到實際生產(chǎn)生活中。

基于以上所述，本文根據(jù)YOLO算法的計算速度快，誤檢測率低，準(zhǔn)確率高等的優(yōu)勢特點，采用YOLO模型作為本文的網(wǎng)絡(luò)模型，并結(jié)合新提出的方法—G-Method，實現(xiàn)了一款較實用的青藏高原畜牧業(yè)多目標(biāo)動物圖像檢索系統(tǒng)，并檢索結(jié)果用藏文進(jìn)行表示。

1 ?多目標(biāo)區(qū)域檢索架構(gòu)

為了完成多目標(biāo)區(qū)域檢索系統(tǒng)，需要將目標(biāo)從目標(biāo)源中提取并分割。提取目標(biāo)源將使用YOLO模型，YOLO模型能夠給出目標(biāo)的特征與相對位置，但是YOLO模型給出的特征與相對位置在一般情況下都是含有噪聲，也就是說目標(biāo)特征與目標(biāo)位置信息是存在偏差，為了降低這種偏差使得特征與目標(biāo)位置更加精準(zhǔn)，本文建立G-Method方法：

（1）在一般情況下，YOLO模型的精準(zhǔn)度容易受到訓(xùn)練樣本數(shù)量與質(zhì)量的影響，為了降低最終輸出的噪聲，G-Method將從訓(xùn)練樣本入手。首先將訓(xùn)練樣本送入預(yù)訓(xùn)練好的VGG模型，獲得樣本集比較好的Embedding 權(quán)重參數(shù)向量，即各個CNN層的參數(shù)向量。

（2）在CNN層訓(xùn)練完畢之后，將在CNN層后加上一個K維的全連接層，記為G-Layer。G-Layer使用多分類損失函數(shù)，并且以Softmax作為激活函數(shù)。當(dāng)模型訓(xùn)練完畢之后，將每一個樣本送入G-Layer模型，最終每一個訓(xùn)練樣本將產(chǎn)生一個K維的Embedding向量，這個Embedding向量包含了訓(xùn)練樣本的所有有效特征信息。

（3）將所有K維的Embedding向量存入Faiss數(shù)據(jù)庫中，等待與預(yù)測結(jié)果向量做內(nèi)積，這里所有的向量均為單位向量。

（4）使用YOLO模型的輸出的分類與位置信息將原始輸入特征向量分割，分別送往Faiss中與其做內(nèi)積，并設(shè)定內(nèi)積結(jié)果閾值，如果結(jié)果內(nèi)積值高于閾值，那么認(rèn)為此結(jié)果可信，并且是與現(xiàn)有數(shù)據(jù)樣本非常接近的結(jié)果。

流程圖如下。

2 ?多目標(biāo)區(qū)域定位

YOLO算法中的核心思想是會將輸入的圖像切割成S*S的網(wǎng)格（cell）。每一個網(wǎng)格都需要預(yù)測B個邊框值（bounding box），邊框值包括目標(biāo)的中心坐標(biāo)（x，y），它是相對于每個單元格來計算的，并且經(jīng)過了歸一化的處理，設(shè)該單元格的坐標(biāo)為（x_col，y_row），該圖片的長、寬的坐標(biāo)設(shè)為（x_c，y_c），則具體的計算公式為：

其中x為網(wǎng)格的橫坐標(biāo)，y為網(wǎng)格的縱坐標(biāo)。w為網(wǎng)格的寬度，h為網(wǎng)格的高度。邊框的長和寬（w，h），同理也是相對于整張圖片計算得到的，設(shè)預(yù)測的邊界框的寬和高分別表示為，即計算公式為：

同時每個邊界框需要預(yù)測出一個置信度（confidence score），置信度主要分為兩個部分，一是判斷網(wǎng)格中是否有目標(biāo)值，二是邊框值的準(zhǔn)確度，表示為：

公式中的IOU為非極大抑制輸出結(jié)果，若網(wǎng)格中含有目標(biāo)值，則，此時置信度的值就為IOU的值，文章后續(xù)將會對IOU展開進(jìn)行解釋說明。若網(wǎng)格中不包含目標(biāo)值，則，此時置信度的值為0。綜上所述，每個網(wǎng)格都需要預(yù)測B*（4+1）個值，假設(shè)每個網(wǎng)格需要預(yù)測C個類別，則每個網(wǎng)格都對應(yīng)一個S*S*（B*5+C）維的向量。

3 ?多目標(biāo)特征提取

在計算置信區(qū)間時提出了IOU的概念，它反應(yīng)的是邊界框與真實的框之間的重合程度，值越大，說明預(yù)測的位置更加接近于真實的位置，預(yù)測結(jié)果更加準(zhǔn)確。IOU可以表示為：預(yù)測邊界框面積交集比上預(yù)測邊框面積的并集，即：

IOU=預(yù)測邊框的交集/預(yù)測邊框的并集??? （4）

IOU用于測量真實和預(yù)測之間的相關(guān)度，相關(guān)度的程度越高，該值越高，也就越能代表預(yù)測的目標(biāo)區(qū)域越準(zhǔn)確。

另外在多目標(biāo)的預(yù)測過程中，YOLO算法中主要通過NMS（non maximum supperssion），非極大限制抑制來進(jìn)行對結(jié)果的預(yù)測。它的核心思想是選擇高分輸出，與輸出重疊的目標(biāo)去掉，并且不斷重復(fù)該過程。每個網(wǎng)格中，設(shè)ci為第i個邊界框分?jǐn)?shù)（score）。即score=p（ci|obfect）?confidence。設(shè)置閾值為0.5，過濾掉置信度較低得分的邊界框，從而保證留下來的邊界框是置信度較高的預(yù)測區(qū)域。

詳細(xì)算法如下：

根據(jù)候選框的類別分類概率做一個排序：a1< a2

（1）首先標(biāo)記最大概率矩形框a6是要保留下來的;

（2）從最大概率矩形框a6作為開始，分別判斷a1-a5與a6的IOU是否大于某個預(yù)先設(shè)定的閾值，假設(shè)a2、a4與a6的IOU超過預(yù)先設(shè)定的閾值，那么就剔除a2、a4;

（3）從剩下的矩形框a1、a3、a5中，選擇概率最大矩形框，將其標(biāo)記為需要保留下來的矩形邊框，然后判讀a5與a1、a3的IOU，剔除超過閾值的矩形邊框。

4? 損失函數(shù)的計算

YOLO的損失函數(shù)包含三部分：位置誤差、置信度誤差和分類誤差。

損失函數(shù)的計算就是為了計算坐標(biāo)的、置信度和分類結(jié)果這三個方面達(dá)到平衡，其中有寶蓋帽子符號為預(yù)測值，無帽子的為訓(xùn)練標(biāo)記值。表示物體落入格子i的第j個邊界框內(nèi)。如果某個網(wǎng)格內(nèi)沒有目標(biāo)，就不對分類誤差進(jìn)行反向傳播。

5? 檢索性能評價指標(biāo)

實驗采用查準(zhǔn)率-查全率曲線（Precision—Recall curve）和平均查準(zhǔn)率（mean Average Precision， mAP）作為性能評價標(biāo)準(zhǔn)，公式如下：

其中TP是真正例，FP是假正例，FN是假負(fù)例。通過precision和recall的結(jié)果，就可以來計算AP，AP就是表示由precision和recall組成曲線的下方面積。

由于在一般情況下曲線下方的面積是無法計算的，所以VOC大賽采取11點[5]的原則：

AP的計算是以11個點作為基礎(chǔ)進(jìn)行代替計算，然后將11個點的AP進(jìn)行一個平均即可得到mAP：

6 ?實驗與分析

基于YOLO本文采用了Darknet框架，它是由C語言和CUDA實現(xiàn)的，對GPU的利用率相比與CPU要高一些，并且易移植到其他平臺。其中yolo層和upsample層在YOLO-V1中使用。yolo層主要

指定邊界框等信息，計算當(dāng)中的損失函數(shù)等。它自身具有很多優(yōu)點，相比于其他框架，易于安裝，沒有其他的依賴項，可以不用依賴任何庫。即使Darknet框架是有C語言程序編寫的，但也提供了友好的python接口，YOLO采用多尺度預(yù)測，每一種尺度預(yù)測2個邊界框，并且使用的是多個Logistic分類器代替softmax分類器，這樣準(zhǔn)確率不會下降，從而提高模型的擬合程度。最后經(jīng)過YOLO模型訓(xùn)練所獲得的分類與位置信息將原始輸入特征向量分割分別送往Faiss數(shù)據(jù)庫中。并結(jié)合本章新提出的G-Method流程，所產(chǎn)生的k維向量存入到Faiss數(shù)據(jù)庫中，與預(yù)測結(jié)果向量做內(nèi)積，并設(shè)定內(nèi)積結(jié)果閾值，如果結(jié)果內(nèi)積值高于閾值，那么認(rèn)為現(xiàn)有的數(shù)據(jù)樣本非常接近預(yù)測結(jié)果。

①在有限的訓(xùn)練成本和訓(xùn)練時間的條件下，上圖是對于yak的多目標(biāo)檢測，可以看到，不同位置的yak已經(jīng)能夠被檢測出來，yak后面的部分表示模型給出該類別下的置信度，由上到下分別為0.6，0.88，0.49。此時模型已經(jīng)不再像單。

目標(biāo)搜索只能檢測出單一的物體，而是能夠識別途中所有的目標(biāo)類別以及其對應(yīng)的位置。圖中也有一個小yak并沒有被檢測出來，這是因為在給定的置信度與NMS下，這個位置的預(yù)測結(jié)果在候選區(qū)中被剔除了，因為對于應(yīng)用方面需要的結(jié)果是可? 信的、可靠的，而不是為了求全而獲排列出所有的結(jié)果。

②對于最下方的yak而言，可以發(fā)現(xiàn)雖然這個對象最大，但是它的姿勢或者說像素點的排列并沒有在訓(xùn)練樣本中大量的出現(xiàn)，從而導(dǎo)致置信度偏低，可以揣測，模型只“看到了”耗牛角（因為在單目標(biāo)中，耗牛角也是模型學(xué)習(xí)到的一部分內(nèi)容），導(dǎo)致模型可以相信這個地方的類別是耗牛，但是不愿意給出較高的置信度，因為耗牛身體并不是訓(xùn)練集中常常出現(xiàn)的像素排列。圖3為牦牛多目標(biāo)檢索結(jié)果。

圖4檢測目標(biāo)為sheep，在sheep的檢測過程中，大部分的sheep已經(jīng)被檢測出來，但是可以發(fā)現(xiàn)檢測結(jié)果中出現(xiàn)了一個錯誤的目標(biāo)，即右側(cè)將sheep識別為yak，但錯誤目標(biāo)對象極度模糊，也就是使用肉眼觀察都需要相對仔細(xì)才能觀察到。而模型卻能將位置精確的找到，將類別識別錯誤，并且置信度也比較低。這說明模型在一定程度上是比肉眼初步觀察更加優(yōu)秀。對于檢測目標(biāo)的前面兩個sheep而言，置信度都相對比較低，這是因為：

第一，受到了圖片分辨率的影響，由于低分辨率導(dǎo)致像素排列不緊密，模型無法較好的預(yù)測像素排列結(jié)果。

第二，依然和yak的檢測結(jié)果類似，模型實際上只能夠識別sheep的臉部區(qū)域，無法通過其他卷積層學(xué)得的身體相關(guān)部分給出更加高的置信度值。

上圖為horse的檢測結(jié)果，在檢測的結(jié)果中可以發(fā)現(xiàn)，雖然目標(biāo)是horse但是模型也檢測出了yak。

實際上在更一般的情況下，多目標(biāo)檢測更多的用于一張圖片中含有多個不同的類，需要找出各個類別以及相應(yīng)的位置，那么下面來看看混合型的情況。

（4）混合型（Mixture）

上圖顯示的就是在一般情況下的檢索，檢索的目標(biāo)對象基本正確，其中可以發(fā)現(xiàn)檢測過程中有2個誤差。分別是將sheep識別為yak，以及將sheep識別為horse。但是仔細(xì)觀察可以發(fā)現(xiàn)，雖然將類別識別錯誤，但是識別的位置卻是正確的。

（5）檢索性能分析

本章實驗在圖像數(shù)據(jù)集中隨機(jī)選擇了3000幅圖像作為查詢圖像，檢索的平均查準(zhǔn)率如表1所示。

表1可得，閾值為0.5時，yak的Map是最高的，但是不管是哪一個類，隨著閾值的增大查準(zhǔn)率就降低了。雖然更高的閾值表示更加精準(zhǔn)的輸出，那么有些結(jié)果雖然是正確的，但是由于不滿足精度需求也會過濾掉。

圖9、圖10和圖11分別展示了模型在三個類的圖像數(shù)據(jù)集上的PR曲線圖，從圖中可以看到，模型在yak類數(shù)據(jù)集上的查準(zhǔn)率明顯優(yōu)于其他兩種數(shù)據(jù)集上查準(zhǔn)率。

7 ?總結(jié)

本文為畜牧業(yè)動物圖像檢索建立了一個基于深度學(xué)習(xí)的網(wǎng)頁端系統(tǒng)。利用卷積神經(jīng)網(wǎng)絡(luò)，單目標(biāo)圖像檢索，多目標(biāo)圖像檢索等基礎(chǔ)理論，構(gòu)造了一個由網(wǎng)頁端可以實現(xiàn)對畜牧業(yè)動物進(jìn)行分類預(yù)測的圖像檢索系統(tǒng)，無論是對簡單的圖像目標(biāo)還是對于繁瑣目標(biāo)的圖像，模型都可以以較高的準(zhǔn)確率來判斷出圖像中目標(biāo)的類別，并給出準(zhǔn)確度。對于較小目標(biāo)的圖像，模型依舊存在誤判，但并不影響實際

應(yīng)用。采用的YOLO模型框架在實現(xiàn)的過程中表現(xiàn)的效果符合預(yù)期想要達(dá)到的目標(biāo)，經(jīng)過相關(guān)參數(shù)的調(diào)試后，最終確定為本文圖像檢索系統(tǒng)中采用的模型。實驗結(jié)果證明，采用YOLO框架的模型擬合程度較高。

參考文獻(xiàn)

高珊，李秀華，張峰，宋立明. 基于多目標(biāo)區(qū)域的圖像檢索[J]. 電視技術(shù)， 2018， 42（4）： 55-61.
M. Everingham， L. Van Gool， C. K. I. williams， J. Winn， and A. Zis-Serman. The PASCAL Visual Object Classes Challenge[J]. Int J comput vis， 2010， 88： 303-338.
Girshick R， Donahue J， Darrell T， et al. Rich feature hierarchies for accurate object detection and semantic segmentation[J]. Computer Vision and Pattern Recognition， 2013， 1（April）： 580-587.
Joseph Redmon， Santosh Divvala， Ross Girshick. You Only Look Once： Unified， Real-Time Object Detection[J]. Computer Vision and Pattern Recognition， 2016.
葉虎，趙一凡. 最完整的檢測模型評估指標(biāo)mAP計算指南[DB/OL]. https：//blog.csdn. net/l7H9JA4/article/details/80745028. 2018， 06， 19.
王曉華. OpenCV+TensorFlow深度學(xué)習(xí)與計算機(jī)視覺實戰(zhàn)[M]. 清華大學(xué)出版社， 2019， 2月，第-版.
朱嘯天. 基于深度學(xué)習(xí)的動物圖像檢索算法研究[D]. 學(xué)位論文，沈陽理工大學(xué)， 2015.
猿輔導(dǎo)研究團(tuán)隊. 深度學(xué)習(xí)核心技術(shù)與實踐[M]. 北京：電子工業(yè)出版社， 2018.
李釗，蘆葦，邢薇薇. CNN視覺特征的圖像檢索[J]. 北京郵電大學(xué)學(xué)報， 2015， 38（b06）： 103-106.
海林鵬，文運(yùn)平. 基于圖像分塊目標(biāo)區(qū)域的檢索技術(shù)研究[J]. 河南理工大學(xué)學(xué)報（自然科學(xué)版）， 2013， 32（1）： 73-75.
侯貴洋，趙桂杰，王璐瑤. 草莓采摘機(jī)器人圖像識別系統(tǒng)研究[J]. 軟件， 2018， 39（6）： 184-188.
張傳棟，徐漢飛，陳弘毅，等. 基于超紅圖像與輪廓曲率的蘋果目標(biāo)識別與定位方法研究[J]. 軟件， 2015， 36（8）： 30-35.
王聰興，劉寶亮. 一種基于圖像處理的表面故障裂紋檢測系統(tǒng)[J]. 軟件， 2018， 39（5）： 144-150.
彭云聰，任心晴，石浩森. 基于核加權(quán)KNN和多目標(biāo)優(yōu)化的眾包平臺定價系統(tǒng)設(shè)計[J]. 軟件， 2018， 39（6）： 150-154.
王浩，楊德宏，滿亞洲. 基于 GIS 技術(shù)的動物物種管理及保護(hù)[J]. 軟件， 2018， 39（12）： 111-115.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于深度學(xué)習(xí)的青藏高原畜牧業(yè)多目標(biāo)動物圖像檢索研究