国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于輕量型卷積神經(jīng)網(wǎng)絡(luò)的菜品圖像識(shí)別

2021-10-09 07:31姚華瑩彭亞雄
軟件工程 2021年10期
關(guān)鍵詞:注意力機(jī)制卷積神經(jīng)網(wǎng)絡(luò)輕量化

姚華瑩 彭亞雄

摘? 要:使用卷積神經(jīng)網(wǎng)絡(luò)分析研究識(shí)別菜品,能夠幫助人們了解食物,根據(jù)不同的需求選擇適合的菜品;同時(shí)也能被使用在自助餐廳結(jié)算系統(tǒng)中,提高結(jié)算效率。由于卷積神經(jīng)網(wǎng)絡(luò)有大量的卷積計(jì)算,大量參數(shù)致使卷積模型體積龐大,不利于將模型嵌入移動(dòng)設(shè)備中,因此設(shè)計(jì)了一種輕量型卷積神經(jīng)網(wǎng)絡(luò)MobileNetV2-pro分類菜品。通過引入通道混洗、注意力機(jī)制提高網(wǎng)絡(luò)的檢測(cè)能力;利用隨機(jī)擦除等圖像預(yù)處理技術(shù)對(duì)菜品圖像進(jìn)行處理,提高系統(tǒng)的泛化能力。實(shí)驗(yàn)結(jié)果表明,該新結(jié)構(gòu)網(wǎng)絡(luò)能顯著提高菜品分類準(zhǔn)確率。

關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);輕量化;菜品分類;注意力機(jī)制

中圖分類號(hào):TP391.41? ? ?文獻(xiàn)標(biāo)識(shí)碼:A

Dishes Image Recognition based on Lightweight Convolutional Neural Network

YAO Huaying, PENG Yaxiong

(College of Big Data and Information Engineering, Guizhou University, Guiyang 550025, China)

huayingyao97@163.com; 515154900@qq.com

Abstract: Convolutional neural network can be used to analyze and recognize dishes, helping people know about food and choose suitable dishes according to different needs. At the same time, it can also be used in cafeteria settlement system to improve settlement efficiency. A large number of convolution calculations and parameters in the convolutional neural network make the convolution model bulky, which is not conducive to embedding the model in a mobile device. This paper proposes to design a lightweight convolutional neural network MobileNetV2-pro to classify dishes. Channel shuffling and attention mechanism are introduced to improve the detection ability of the network. Image preprocessing techniques such as random erasure are used to process the image of dishes to improve the generalization ability of the system. Experimental results show that the new structure network can significantly improve the accuracy of dish classification.

Keywords: convolutional neural network; lightweight; dishes classification; attention mechanism

1? ?引言(Introduction)

隨著人們生活質(zhì)量的提高,菜品種類變多,利用卷積神經(jīng)網(wǎng)絡(luò)能高效地實(shí)現(xiàn)菜品的分類。首次應(yīng)用了卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Networks, CNN)的AlexNet[1]在ImageNet圖像分類競(jìng)賽中取得了優(yōu)異的成績(jī),由此卷積神經(jīng)網(wǎng)絡(luò)得到研究人員的廣泛關(guān)注,并衍生出新的網(wǎng)絡(luò)結(jié)構(gòu)(如GoogLeNet[2]、VGG[3]、ResNet[4]等)。雖然這些網(wǎng)絡(luò)在圖像分類上的精度不斷提高,但是新的問題是卷積網(wǎng)絡(luò)結(jié)構(gòu)大多使用卷積層與全連接層的組合,用來提取圖片特征,全連接層訓(xùn)練的網(wǎng)絡(luò)模型內(nèi)存占用高,大量卷積層導(dǎo)致計(jì)算量巨大。近幾年,一些學(xué)者提出了輕量神經(jīng)網(wǎng)絡(luò)(Lightweight Neural Network),如MobileNet[5]采用深度可分離卷積減少卷積運(yùn)算量;ShuffleNet[6]提出通道混洗,打亂原有的通道順序并重新分組,有效地提高了特征的提取。類似的輕量神經(jīng)網(wǎng)絡(luò)模型還有SqueezeNet[7]、Xception[8]等。輕量神經(jīng)網(wǎng)絡(luò)模型是專門針對(duì)嵌入式視覺應(yīng)用終端設(shè)計(jì)的輕量且高效的神經(jīng)網(wǎng)絡(luò)模型[9],這類模型具有計(jì)算資源需求少,模型簡(jiǎn)單的優(yōu)點(diǎn),能夠有效提高計(jì)算機(jī)視覺的性能。

本文提出一種新輕量化神經(jīng)網(wǎng)絡(luò)模型,體積更小,運(yùn)算量更少,易于應(yīng)用在各類移動(dòng)端用于識(shí)別菜品。該網(wǎng)絡(luò)基于MobileNetV2[5]基礎(chǔ)模型,結(jié)合ShuffleNet[6]提出的通道混洗思想,引入通道注意力機(jī)制加強(qiáng)特征學(xué)習(xí)能力,在訓(xùn)練網(wǎng)絡(luò)時(shí)利用隨機(jī)擦除技術(shù)對(duì)圖片部分像素進(jìn)行擦除,多方面對(duì)基礎(chǔ)模型進(jìn)行改進(jìn),提高了模型在菜品分類上的準(zhǔn)確率。

2? ?相關(guān)工作(Related work)

2.1? ?深度可分離逆殘差卷積塊

本文為盡可能減少卷積過程中的運(yùn)算量,采用了深度可分離卷積(Depthwise Sparable Convolution)替代傳統(tǒng)卷積,用一個(gè)深度卷積和一個(gè)點(diǎn)卷積替換標(biāo)準(zhǔn)卷積,有效減少了卷積運(yùn)算量。首先進(jìn)行深度卷積,即對(duì)每個(gè)輸入的通道各自用單個(gè)卷積核進(jìn)行對(duì)應(yīng)的卷積運(yùn)算,每個(gè)通道各自得到的卷積結(jié)果則為深度卷積的最終結(jié)果;然后是一個(gè)1×1卷積,即點(diǎn)卷積,負(fù)責(zé)將深度卷積過程輸出的卷積結(jié)果線性組合,構(gòu)建新的特征[10]。如果不考慮偏置參數(shù),深度分離后的卷積參數(shù)運(yùn)算量為:

(1)

標(biāo)準(zhǔn)卷積計(jì)算量為:

(2)

其中,為卷積核尺寸,為輸入圖像尺寸,和分別是輸入通道數(shù)量和輸出通道數(shù)量。圖1中對(duì)比了深度可分離卷積和傳統(tǒng)卷積過程。

傳統(tǒng)卷積的計(jì)算量是深度可分離卷積的() 倍,當(dāng)卷積核大小為3×3時(shí),計(jì)算量相比傳統(tǒng)卷積減少了九倍多。

在新的模型中,采用殘差模塊提高特征提取能力,淺層網(wǎng)絡(luò)與深層網(wǎng)絡(luò)所包含的特征量不同,通過“特征映射”和跳躍式的連接形式,可以融合不同分辨率的特征。

圖2使用了一種“逆殘差結(jié)構(gòu)”,對(duì)輸入特征通道先擴(kuò)充后縮減,用1×1卷積核代替3×3卷積核,減少計(jì)算量。由于1×1卷積核得到的信息少于3×3卷積核,模型準(zhǔn)確度受到了一定程度的影響,因此,使用逆殘差結(jié)構(gòu)用來保證得到的特征量足夠至不影響模型精度[11]。表1為逆殘差結(jié)構(gòu)的卷積實(shí)現(xiàn)架構(gòu)。

2.2? ?通道混洗卷積

依據(jù)卷積過程中數(shù)據(jù)僅在固定通道之間流動(dòng)這一特點(diǎn),在本文的新網(wǎng)絡(luò)結(jié)構(gòu)中引入通道混洗[6](Channel Shuffle),它是基于通道分組卷積實(shí)現(xiàn)的通道混合卷積。通道混洗基于分組卷積技術(shù),將輸入通道分為g組,每組分別與對(duì)應(yīng)的1 個(gè)卷積核卷積,這樣做使計(jì)算量降低為普通卷積的1/g,對(duì)每組通道進(jìn)行打亂重組,原本封閉固定的通道經(jīng)過打亂重組后特征得到交流,解決了由于分組固定導(dǎo)致特征融合效果差的問題。圖3(a)為普通分組卷積,分組固定,特征無法交流;圖3(b)表示對(duì)每個(gè)組內(nèi)通道再次分組;圖3(c)為通道混洗,將圖3(b)中的每一小組通道組合起來。

2.3? ?通道注意力機(jī)制

注意力機(jī)制類似人眼,將重點(diǎn)關(guān)注特征明顯的區(qū)域,運(yùn)用在卷積過程中,能將不重要的背景因素剔除,本文使用了通道注意力機(jī)制,更多地關(guān)注菜品的特征部分。通道注意力機(jī)制[12]關(guān)注通道間的聯(lián)系,有一個(gè)SE塊由壓縮(Squeeze)和激發(fā)(Excitation)兩個(gè)部分構(gòu)成。經(jīng)過SE塊后的特征被賦予不同的權(quán)重,表示出特征之間不同的重要程度,引入了注意力機(jī)制的網(wǎng)絡(luò)能提高學(xué)習(xí)特征的能力,進(jìn)一步提高識(shí)別的準(zhǔn)確率[13]。

圖4為本文使用了注意力機(jī)制和未使用注意力機(jī)制的MobileNet的菜品特征圖,可以明顯看出,本文的網(wǎng)絡(luò)處理的圖片白色亮點(diǎn)區(qū)域更多,說明提取到圖片特征點(diǎn)更多。通過對(duì)網(wǎng)絡(luò)部分卷積特征層的可視化,不同的卷積層的注意力響應(yīng)程度不一,可以看到在conv_4后的高層卷積,都對(duì)菜品中雞蛋的部位響應(yīng)更加強(qiáng)烈,而對(duì)碗這種與菜品關(guān)系弱的部分響應(yīng)較弱。

2.4? ?菜品識(shí)別網(wǎng)絡(luò)模型

本文新模型的架構(gòu)針對(duì)輸入的特征圖會(huì)首先進(jìn)行一次通道注意力機(jī)制處理,此操作能夠?qū)斎氲耐ǖ肋M(jìn)行加權(quán)處理,得到不同通道中特征的重要程度。

如圖5(a)所示,新的殘差結(jié)構(gòu)在步距S=1時(shí),在模塊最后增加了一個(gè)Channel Shuffle層,加強(qiáng)通道間的特征交流;如圖5(b)所示,由于在步距S=2階段沒有殘差結(jié)構(gòu),遂不經(jīng)進(jìn)行混洗操作。最后將得到的菜品特征信息通過全連接層進(jìn)行分類。

表2顯示了MobileNetV2-pro模型每層的輸出形狀和參數(shù)量。多次疊加使用深度可分離逆殘差卷積塊減少卷積計(jì)算量;在淺層卷積塊中使用注意力機(jī)制快速確定菜品位置和特征點(diǎn),有效降低了自然環(huán)境中背景對(duì)菜品定位的影響;深層卷積層利用通道混洗技術(shù)提高數(shù)據(jù)之間的匯通融合能力,在深層的特征圖中最大限度地學(xué)習(xí)菜品特征。

3? 實(shí)驗(yàn)結(jié)果與分析(Experimental results and analysis)

3.1? ?實(shí)驗(yàn)評(píng)估

為了驗(yàn)證本文提出的新型網(wǎng)絡(luò)在菜品分類上的有效性,使用數(shù)據(jù)集進(jìn)行驗(yàn)證。FOOD-101是包含101 種菜品的圖像數(shù)據(jù)集,包含101,000 張圖像,每類菜品包含250 張驗(yàn)證集和750 張訓(xùn)練集,圖片最大邊長(zhǎng)為512 像素。圖6為數(shù)據(jù)集中的部分菜品圖像。

3.2? ?實(shí)驗(yàn)環(huán)境

使用NVIDIA Geforce RTX 1060、pytorch 1.5,在Windows 10環(huán)境下訓(xùn)練網(wǎng)絡(luò)。Batchsize為64,共設(shè)置200 個(gè)epoch,初始學(xué)習(xí)率為0.001,在epoch分別達(dá)到50、80時(shí)調(diào)整學(xué)習(xí)率為上一階段的一半。

3.3? ?參數(shù)分析

對(duì)訓(xùn)練圖像做預(yù)處理,將輸入網(wǎng)絡(luò)的圖片隨機(jī)翻轉(zhuǎn)和裁剪為224×224大小,使用不同的擦除概率討論最優(yōu)值,用于訓(xùn)練網(wǎng)絡(luò)。

本文利用隨機(jī)擦除對(duì)圖像做預(yù)處理,對(duì)圖片中的部分像素進(jìn)行擦除,模擬自然環(huán)境中的遮擋情況,在此過程中將生成擦除面積不同的圖片,能夠增加數(shù)據(jù)集訓(xùn)練數(shù)據(jù)。通過預(yù)處理后,網(wǎng)絡(luò)具有更高的魯棒性。隨機(jī)擦除的實(shí)現(xiàn)步驟如下:

(1)設(shè)置擦除的概率,則不被擦除的概率為,假設(shè)圖片大小為:

(3)

(2)設(shè)置擦除矩形區(qū)域的參數(shù),可以得到擦除的面積為:

(4)

和是設(shè)置的最小擦除面積和最大擦除面積,隨機(jī)擦除矩形長(zhǎng)寬比為,此值隨機(jī)產(chǎn)生。隨機(jī)擦除的矩形高和寬為:

(5)

(3)在圖像中隨機(jī)選擇一個(gè)點(diǎn),被擦除的區(qū)域?yàn)?,?duì)選擇的區(qū)域隨機(jī)賦值,其中點(diǎn)A需滿足:

(6)

隨機(jī)擦除效果如圖7所示,分別是未進(jìn)行擦除的原圖及最大擦除概率為0.2、0.4的效果圖。隨機(jī)在原圖像中生成同原尺寸比例為0.2或0.4的矩形塊,模擬遮擋情況和提高模型的泛化能力。

對(duì)菜品進(jìn)行隨機(jī)擦除,模擬自然環(huán)境下被遮擋的情況,被遮擋部分在學(xué)習(xí)過程中卷積計(jì)算值為零,減少了卷積運(yùn)算量。從圖8可以明顯看出,在數(shù)據(jù)集FOOD-101上,隨著隨機(jī)擦除比例的改變,模型分類準(zhǔn)確率逐步上升,我們把隨機(jī)擦除概率設(shè)置為0.4時(shí),模型在食物數(shù)據(jù)集上的分類準(zhǔn)確率最高。

本文通過分類準(zhǔn)確率和檢測(cè)速度衡量模型性能,通過對(duì)基礎(chǔ)網(wǎng)絡(luò)增加通道混洗、注意力機(jī)制和隨機(jī)擦除的數(shù)據(jù)增強(qiáng),可以看出網(wǎng)絡(luò)對(duì)菜品的分類準(zhǔn)確率都有不同程度的提升。從表3中能看出,本文提出的模型相比基礎(chǔ)網(wǎng)絡(luò),在模型體積上減少18.2%,參數(shù)和浮點(diǎn)計(jì)算都有相應(yīng)的減少,在檢測(cè)時(shí)間大致相同的情況下,準(zhǔn)確率提高0.84%。本文的模型(Ours)準(zhǔn)確率均高于其他網(wǎng)絡(luò),通過在數(shù)據(jù)集FOOD-101上訓(xùn)練和測(cè)試,對(duì)比其他網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果,可以得出本文提出的網(wǎng)絡(luò)模型具有更好的效果。

4? ?結(jié)論(Conclusion)

為了幫助人們?cè)谧匀画h(huán)境下更方便地分辨菜品,對(duì)菜品圖像使用隨機(jī)擦除方法,提高網(wǎng)絡(luò)的特征提取能力。新的模型引入了通道混洗及注意力機(jī)制,縮減了網(wǎng)絡(luò)的卷積層,將其命名為MobileNetV2-pro,新的網(wǎng)絡(luò)體積更小。實(shí)驗(yàn)表明,本文網(wǎng)絡(luò)能更快地提取特征,在菜品分類中表現(xiàn)更好。下一步工作將圍繞網(wǎng)絡(luò)處理更多種類菜品,以增強(qiáng)特征提取能力,提高準(zhǔn)確率為主,對(duì)網(wǎng)絡(luò)做進(jìn)一步改進(jìn)。

參考文獻(xiàn)(References)

[1] KRIZHEVSKY A, SUTSKEVER I, HINTON G. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6):84-90.

[2] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]// CVPR Organizing Committee. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE Computer Society, 2015:1-9.

[3] KAREN S, ANDREW Z. Very deep convolutional networks for large-scale image recognition[J]. Computer Science, 2014, 6(1):1-14.

[4] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// CVPR Organizing Committee. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE Computer Society, 2016:770-778.

[5] SANDLER M, HOWARD A, ZHU M, et al. MobileNetV2: Inverted residuals and linear bottlenecks[C]// CVPR Organizing Committee. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE Computer Society, 2018:4510-4520.

[6] ZHANG X, ZHOU X, LIN M, et al. ShuffleNet: An extremely efficient convolutional neural network for mobile devices[C]// CVPR Organizing Committee. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE Computer Society, 2018:6848-6856.

[7] IANDOLA F, HAN S, MOSKEWICZ M, et al. SqueezeNet: Alexnet-level accuracy with 50x fewer parameters and<0.5 mbmodel size[C]// ICLR Organizing Committee. ICLR' 17 Conference Proceedings. Toulon: International Conference on Learning Representations, 2017:207-212.

[8] CHOLLET F. Xception: Deep learning with depthwise separable convolutions[C]// CVPR Organizing Committee. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE Computer Society, 2017:1251-1258.

[9] 梁峰,董名,田志超,等.面向輕量化神經(jīng)網(wǎng)絡(luò)的模型壓縮與結(jié)構(gòu)搜索[J].西安交通大學(xué)學(xué)報(bào),2020,54(11):106-112.

[10] 王韋祥,周欣,何小海,等.基于改進(jìn)MobileNet網(wǎng)絡(luò)的人臉表情識(shí)別[J].計(jì)算機(jī)應(yīng)用與軟件,2020,37(04):137-144.

[11] 程越,劉志剛.基于輕量型卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志識(shí)別方法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2020,29(02):198-204.

[12] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// CVPR Organizing Committee. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE Computer Society, 2018:7232-7241.

[13] 張翔,史志才,陳良.引入注意力機(jī)制和中心損失的表情識(shí)別算法[J].傳感器與微系統(tǒng),2020,39(11):148-151.

作者簡(jiǎn)介:

姚華瑩(1997-),女,碩士生.研究領(lǐng)域:深度學(xué)習(xí).本文通訊作者.

彭亞雄(1963-),男,本科,副教授.研究領(lǐng)域:通信系統(tǒng).

猜你喜歡
注意力機(jī)制卷積神經(jīng)網(wǎng)絡(luò)輕量化
汽車輕量化集成制造專題主編
基于深度學(xué)習(xí)的問題回答技術(shù)研究
一種輕量化自卸半掛車結(jié)構(gòu)設(shè)計(jì)
一種輕量化自卸半掛車結(jié)構(gòu)設(shè)計(jì)
基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
基于注意力機(jī)制的雙向LSTM模型在中文商品評(píng)論情感分類中的研究
InsunKBQA:一個(gè)基于知識(shí)庫的問答系統(tǒng)
基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
阜阳市| 南川市| 麻江县| 阿合奇县| 凤山县| 昌黎县| 高密市| 东城区| 博爱县| 郯城县| 富宁县| 轮台县| 定州市| 梨树县| 祁阳县| 云和县| 石林| 雅安市| 松潘县| 上杭县| 柯坪县| 荥经县| 宿迁市| 嵩明县| 汝阳县| 陇南市| 连云港市| 安塞县| 开封县| 阜新市| 广东省| 墨江| 沁源县| 天长市| 宁阳县| 昭通市| 梧州市| 潼南县| 梅州市| 罗源县| 泽库县|