国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于注意力機制的食物識別與定位算法

2022-11-25 02:56劉寧鐘
計算機技術(shù)與發(fā)展 2022年11期
關(guān)鍵詞:特征提取定位特征

彭 耿,劉寧鐘

(南京航空航天大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 南京 211106)

0 引 言

隨著生活水平的不斷提高,人們對食物的加工、處理以及食用再到后續(xù)的營養(yǎng)健康問題,變得越來越關(guān)注。食物的研究涉及到健康、文化、農(nóng)業(yè)、醫(yī)學(xué)、生物學(xué)等方方面面。并且食物的研究能用于支持現(xiàn)代生活的多種應(yīng)用和服務(wù),如指導(dǎo)人類行為、改善人類健康、了解飲食文化等。目前食物的自動化分析[1-2]已經(jīng)成為一個研究的熱點,主要有三個層次的原因。一個是健康問題。不良的飲食習(xí)慣給人們的健康帶來了極大的問題,如肥胖、糖尿病等。人們開始更關(guān)注自己的飲食,對能夠跟蹤身體活動和營養(yǎng)習(xí)慣的應(yīng)用程序的需求正在迅速增加。健康監(jiān)測[3]和卡路里攝入管理可以通過食物消費報告進行了解。在這個領(lǐng)域,食品圖像的自動分析發(fā)揮著重要作用。第二個是信息化、智能化時代的推進,食物從加工到售賣智能化已經(jīng)成為一種必然的趨勢。以自助餐廳為例,自動食品分析對于加快服務(wù)速度也很有意義,從而幫助解決收銀員在高需求時產(chǎn)生的瓶頸問題。第三個是今天人們的文化生活越來越豐富,食物相關(guān)的分析能幫助人們豐富生活[4]。比如,可以按照用戶的飲食習(xí)慣,給予顧客更健康的飲食推薦。食物的自動化分析能很好地幫助解決這些問題,高效的食物識別與定位算法成為一種需求。

食物的分析有著巨大的應(yīng)用潛力,但食物的分析定位和識別仍然是一項極具挑戰(zhàn)性的事情。主要來自三個方面:

(1)缺乏用于食物識別和定位的標(biāo)注數(shù)據(jù)集。現(xiàn)有的工作主要是針對食物的識別,例如,Xin Chen等人[5]介紹了一種具有挑戰(zhàn)性的中國菜品數(shù)據(jù)集,主要包括食譜圖片和真實菜肴。這些數(shù)據(jù)集沒有給出位置信息,不能用于更復(fù)雜的定位問題。

(2)食物數(shù)據(jù)具有細(xì)粒度的圖像特征。由于食物種類眾多,有些食物類間差異小、類內(nèi)差異大,導(dǎo)致食物有效特征提取困難。此外,食物經(jīng)過烹飪等處理過程后,通常會發(fā)生形變,紋理特征更加模糊,加大了食物識別的難度。并且食物的混合,也會導(dǎo)致定位困難。

(3)食物的定位和識別對模型的魯棒性要求高。當(dāng)實驗室模型轉(zhuǎn)移到真實食堂環(huán)境時,真實環(huán)境中有陰影和燈光的變化,會造成視覺上的變化。這也會影響模型的性能,給食物識別的實際應(yīng)用帶來了挑戰(zhàn)。

目前在一張圖像中多種食物的識別與定位研究中,準(zhǔn)確率一直不高。該文在目前效果比較好的端到端目標(biāo)檢測算法YOLOv4的基礎(chǔ)上進行改進,結(jié)合注意力機制,提高網(wǎng)絡(luò)的特征提取能力,幫助解決細(xì)粒度圖像識別困難的問題。訓(xùn)練中使用了Mosaic增強,能大大提高食物識別與定位網(wǎng)絡(luò)的魯棒性。最后在公開數(shù)據(jù)集UNIMIB2016上進行了實驗,結(jié)果顯示該方法在準(zhǔn)確率上表現(xiàn)優(yōu)異。

1 相關(guān)工作

隨著深度學(xué)習(xí)技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)在圖像分類、目標(biāo)檢測及目標(biāo)分割等圖像處理領(lǐng)域取得了突破性的進展,大大提高了這些任務(wù)的準(zhǔn)確率。而食物也是一種特殊的目標(biāo),所以食物的定位和識別可以當(dāng)作一個目標(biāo)檢測問題。在目標(biāo)檢測領(lǐng)域,經(jīng)典的算法Faster R-CNN[6]、YOLO[7]相比傳統(tǒng)的方法呈現(xiàn)碾壓式的優(yōu)勢。所以目前針對食物的識別和定位問題也主要是采用深度學(xué)習(xí)進行解決[8]。

深度學(xué)習(xí)技術(shù)有三大基石:數(shù)據(jù)、算法和算力。針對食物的識別問題,已經(jīng)提出了不少數(shù)據(jù)庫。例如,Ciocca等人[9]在食堂環(huán)境中將不同的食物放在托盤上進行拍攝,建立了一個食物數(shù)據(jù)集UNIMIB2016。使用基于卷積神經(jīng)網(wǎng)絡(luò)提取特征,實現(xiàn)了約79%的食物和托盤識別準(zhǔn)確度。并且作者也對食物位置進行了標(biāo)注,可以用于食物的定位。但目前適用于定位的數(shù)據(jù)集還比較缺乏。

針對相比單獨識別更復(fù)雜的食物識別和定位問題,目前主要還是借助目標(biāo)檢測的方法解決。例如,文獻[10-11]直接套用了目標(biāo)檢測算法Faster R-CNN[6]用于解決食物的識別和定位問題。這是一種兩階段的算法,在速度上相對較慢。并且沒有根據(jù)食物的特性進行針對性地探索,效果還有待提高。Aguilar等人[12]提出了一種卷積神經(jīng)網(wǎng)絡(luò)的食品語義檢測方法,該方法將食物定位、食物識別和分割整合到同一個框架中,最終實現(xiàn)了食物的定位和識別。在公共數(shù)據(jù)集UNIMIB2016上,大大提高了食物檢測水平,在F-score測度方面達到了約90%,從而為餐廳環(huán)境中的自動計費提供了重要的技術(shù)支持。其框架主要在YOLOv2的基礎(chǔ)上進行實現(xiàn),結(jié)果還不足以支撐現(xiàn)實任務(wù)中的收費問題。該文同樣是在UNIMIB2016上進行探索,進一步提高食物檢測的速度和精度。在此,以YOLOv4為基礎(chǔ)進行進一步研究。針對其基礎(chǔ)特征提取網(wǎng)絡(luò)得到的特征圖表征能力不足,在應(yīng)對食物這種類間差異小、類內(nèi)差異大的目標(biāo)時,識別效果不佳。并且其模型過大,很難應(yīng)用到實際的食物應(yīng)用場景中。該文主要針對以上兩個問題進行研究,探索一種特征提取能力強且比較輕量級的模型。

2 模型和方法

2.1 網(wǎng)絡(luò)整體框架

本章提出了一種有競爭力的食物識別與定位算法FFAM。該方法是以YOLOv4[7]算法為基礎(chǔ),受到相關(guān)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計思想啟發(fā),如CSPNet[13]、EfficientDet D1/D7[14]、SENet[15]等,最終實現(xiàn)多食物圖像的識別與定位算法FFAM的研究。所提算法FFAM可以實現(xiàn)真實場景下的一張圖片多種食物的定位和識別。相比目前的一些目標(biāo)檢測方法,在保證模型大小以及較快的檢測速度的基礎(chǔ)上,實現(xiàn)了更高精度的食物檢測。并且在該方法中,食物檢測不再是檢測是否包含食物[16],而是輸出食物的類別以及位置信息。

FFAM的整體網(wǎng)絡(luò)架構(gòu)如圖1所示。采用多階段、不同分辨率的特征圖融合得到的不同尺寸的特征圖進行預(yù)測,可以實現(xiàn)多目標(biāo)、多尺度(不同長寬比)的食物目標(biāo)識別與定位。該文結(jié)合注意力機制,同時參考CSDarknet53的設(shè)計思想,提出了主干網(wǎng)絡(luò)CSSEnet53,作為基礎(chǔ)特征提取網(wǎng)絡(luò)。此外,通過對特征融合模塊的研究,在主干網(wǎng)絡(luò)后添加改進的多尺度特征融合模塊BiFPN進行進一步特征的提取及利用,最終實現(xiàn)對于不同層次不同尺度的特征圖的有效利用,從而識別與定位不同尺度的食物目標(biāo)。

2.2 主干網(wǎng)絡(luò)設(shè)計

主干網(wǎng)主要是對目標(biāo)進行特征提取,這對食物識別與定位精度影響很大。而食物種類多,并且具有細(xì)粒度特性,所以需要設(shè)計一個特征提取比較好的網(wǎng)絡(luò)。在CSPNet中,通過拆分和融合特征圖的方式,增加了梯度路徑的數(shù)量。特征圖被拆分之后,每條路徑操作的通道數(shù)量是原來的一半,可以有效地降低算力開銷。注意力機制類似于人在觀察時通常注意更有特點更重要的局部區(qū)域。在卷積神經(jīng)網(wǎng)絡(luò)中,對每一層輸出的特征圖,每個通道的重要程度肯定也是不同的,有的通道相對比較重要,而有的通道作用不大。在神經(jīng)網(wǎng)絡(luò)中加入注意力機制,也能使得網(wǎng)絡(luò)像人的大腦一樣工作。Squeeze-and-Excitation (SE)模塊是注意力機制中一種很重要的方法,經(jīng)過不斷的驗證,其在很多任務(wù)中都表現(xiàn)突出,從而得到了很多應(yīng)用。在SE模塊中,首先通過全局平均池化進行squeeze操作,將特征圖的W和H壓縮為1×1,得到一個全局特征。然后進行excitation操作,在這里首先會進行通道壓縮,然后進行通道的擴張,學(xué)習(xí)到通道間的關(guān)系,進而得到不同通道的權(quán)重,最后和原來的特征圖相乘得到最終的特征圖。在結(jié)合注意力機制后,網(wǎng)絡(luò)會更注意那些信息含量比較多的通道,進而達到抑制那些對食物識別與定位不重要的通道的效果。

該文參考CSDarknet53的設(shè)計思想,在主干網(wǎng)絡(luò)中,保留其網(wǎng)絡(luò)中CPS的思想,即通過拆分和融合的方式,增加梯度路徑數(shù)量,降低算力。同時加入注意力模塊,設(shè)計了一個全新的block模塊,提出了自己的主干網(wǎng)絡(luò)。在注意力模塊中,原論文中降維系數(shù)是16,即64維應(yīng)該被降為4維,但在該網(wǎng)絡(luò)中,把維度降為原來的4倍效果更好。

由圖2所示,該架構(gòu)的主干網(wǎng)絡(luò)共包含Stage 0~Stage 4五個階段,因此,與YOLO的五階段特征提取網(wǎng)絡(luò)進行特征提取相同,F(xiàn)FAM構(gòu)架以前五個階段的卷積神經(jīng)網(wǎng)絡(luò)特征提取為基準(zhǔn),將其作為該架構(gòu)的基礎(chǔ)特征提取網(wǎng)絡(luò)。同時,為充分進行特征提取,獲得更為豐富的高級語義信息,在Stage 4之后,設(shè)計加入一個改進的三層的BiFPN模塊進行相應(yīng)的特征融合,更好地利用不同階段的特征。

2.3 特征融合

早期的目標(biāo)檢測算法,都是使用主干網(wǎng)絡(luò)最后一層提取得到的特征圖,然后緊接檢測頭完成目標(biāo)檢測任務(wù)。在這種方式下,基礎(chǔ)特征提取網(wǎng)絡(luò)在最后的一個階段總的stride通常是32,這樣的網(wǎng)絡(luò)輸出的特征圖的尺寸應(yīng)該是輸入圖像的1/32,如果僅僅使用這個單一且較小的特征圖不利于目標(biāo)檢測。所以,通常的做法是用stride為1的卷積代替stride為2的卷積進行操作或?qū)⒆詈笠粋€階段的最大池化層去掉,從而增大最后一個階段輸出特征圖的分辨率。隨著研究發(fā)現(xiàn),單階段的目標(biāo)檢測還有一個問題,就是特征圖的尺寸單一,不能有效地表征不同尺度的目標(biāo)。因此,目前效果比較好的目標(biāo)檢測方法都會選擇利用不同階段的特征圖,形成特征金字塔網(wǎng)絡(luò),來表征不同大小的目標(biāo),然后再基于特征金字塔進行目標(biāo)檢測。

文獻[17]提出了FPN(Feature Pyramid Networks)結(jié)構(gòu),將高層特征進行上采樣然后與淺層特征進行融合,指出不同階段大小不同的特征融合的重要性,如圖3(a)所示。FPN是一條自頂向下的路徑,雖然能通過高層語義信息和低層特征綜合給出預(yù)測,但高層的語義信息會缺少底層的紋理信息,導(dǎo)致準(zhǔn)確率受限。而在YOLOv4中使用了PANet[18],它做到了自頂向下和自底向上的兩條路徑,模型準(zhǔn)確率得到很大提升,但是速度不盡如人意。BiFPN是在PANet上進行的創(chuàng)新,從而解決了PANet計算量過大的問題。在BiFPN[14]中同樣做到了自頂向下和自底向上的兩條路徑。

文中方法對BiFPN進行改進,僅僅使用了四個不同階段的特征圖,同時使用三層的BiFPN結(jié)構(gòu)進行堆疊,如圖3(b)所示。除此之外,參考YOLOv4中使用PAN結(jié)構(gòu)的融合方式,改進原BiFPN的融合方式,把特征圖相加的方式改為特征圖通道堆積的方式。對于輸入大小為416×416的圖像,經(jīng)過Stage 0至Stage 4共五個階段的卷積操作,每個階段所得到的特征圖的大小分別為 208×208、104×104、52×52、26×26以及13×13。隨后,利用了后四個階段的特征圖進行特征融合,進一步提高模型精度,然后輸出52×52、26×26以及13×13的特征圖,最后進行分類和回歸。

3 實驗結(jié)果與分析

3.1 實驗環(huán)境與設(shè)置

在本實驗中,訓(xùn)練步長為30 000,初始的學(xué)習(xí)率設(shè)為0.001,分別在步長20 000和25 000時乘以0.1,設(shè)置momentum和weight decay分別為0.949和0.000 5,還設(shè)置1.5倍的色彩飽和度數(shù)據(jù)增強以及1.5倍的曝光量數(shù)據(jù)增強。訓(xùn)練是在一塊英偉達的GPU上進行,采用多尺度訓(xùn)練,batch size設(shè)置為64。網(wǎng)絡(luò)的輸入尺寸為416×416,采用多尺度訓(xùn)練方式主要是為了增強模型的泛化能力。同時使用Mosaic數(shù)據(jù)增強,即對訓(xùn)練集中四張圖片采用拼接的方式,同時調(diào)整圖片中目標(biāo)框在增強后的圖片上的位置,然后將圖片和對應(yīng)的目標(biāo)信息送入網(wǎng)絡(luò)進行訓(xùn)練。

3.2 數(shù)據(jù)集描述

為了驗證文中方法在食物識別與定位上的效果,選擇了一個食物的經(jīng)典數(shù)據(jù)集:UNIMIB2016食品圖像數(shù)據(jù)集[9]。該數(shù)據(jù)集包含了73種不同食物,共有3 616個食物實例。這個數(shù)據(jù)集類別較多,并且很難定位。因為餐墊和盤子一樣是白色的。并且很多食物種類都有非常相似的外觀,例如有四種不同的“Pasta al sugo”,每一種都添加了不同的配料(如魚、蔬菜或肉)。此外,圖像的采集是在半受控的環(huán)境下進行的,因此圖像呈現(xiàn)視覺畸變以及由于陰影導(dǎo)致的光照變化。這些特征使得該數(shù)據(jù)集對任何食品自動分析任務(wù)都具有挑戰(zhàn)性。為了確保能夠與UNIMIB2016數(shù)據(jù)集的作者提供的基線結(jié)果相比較,該文按照作者的建議對數(shù)據(jù)集進行了預(yù)處理:刪除包含少于4個實例的食物類,留下65個類,并將數(shù)據(jù)集分為訓(xùn)練集和測試集:前者包含約64%的圖像,而后者包含約36%的圖像。圖4顯示了UNIMIB2016數(shù)據(jù)集的圖像樣本。

3.3 結(jié)果對比分析

本實驗中對于食物識別與定位使用的評價指標(biāo)為精確率(Precision)、召回率(Recall)以及綜合評價指標(biāo)mAP和MAA。

精確率又稱精度,指結(jié)果中被正確檢測到的目標(biāo)個數(shù)占總個數(shù)的比例,其公式如下:

召回率是正樣本被實際檢測為正樣本的比例,其公式如下:

其中,TP代表正樣本被正確預(yù)測的個數(shù),F(xiàn)P代表正樣本被錯誤預(yù)測的個數(shù),F(xiàn)N代表負(fù)樣本預(yù)測為正樣本的個數(shù),P代表正樣本數(shù)。

mAP的定義如下:

MAA是食物識別中經(jīng)常使用的一個指標(biāo),表示正確分類食品的比例,并且考慮到數(shù)據(jù)集的類不平衡,計算公式如下:

其中,C是類別數(shù),TPc是正確分類的c類食物的數(shù)量,NPc是c類食物的總數(shù)。

表1 改進前后對比

首先和改進前的方法YOLOv4進行了對比,結(jié)果如表1所示。在這里該文使用了目標(biāo)檢測常用的評價指標(biāo),實驗結(jié)果顯示文中方法在各項指標(biāo)上都有提升。在Rec、mAP和MAA上提高了0.1左右。并且模型減小了將近一倍,是一種比YOLOv4更輕量級的端到端食物檢測方法。

表2 UNIMIB2016上不同方法的對比

與目前在公開數(shù)據(jù)集UNIMIB2016進行實驗的各種方法進行了對比,結(jié)果如表2所示。目前許多方法的評價指標(biāo)不是很完善,結(jié)果具有片面性,同時一些方法提出自己的評價指標(biāo),從而來突出自己方法的優(yōu)越性。在這里該文選用了目標(biāo)檢測和食物檢測常用的評價指標(biāo)。文獻[9]是UNIMIB2016食品圖像數(shù)據(jù)集的作者的基線結(jié)果。文中方法相比基線結(jié)果在Rec和MAA提高了0.061和0.226。而Aguilar等人[12]提出的方法是目前在UNIMIB2016上實驗評估指標(biāo)比較完善的一個。文中方法相比文獻[12]在各個指標(biāo)上都有一個明顯的提升,在Pre和MAA上更是提高了0.039和0.061。文獻[19-20]是在UNIMIB2016上得到的Rec,相對來說評價指標(biāo)不完善。相比之下文中方法得到的結(jié)果仍然很優(yōu)秀。文獻[21]給出了在目標(biāo)檢測中最常用的評價指標(biāo)mAP。文中方法與之相比有明顯的提高,并且文獻[21]使用的是兩階段算法Mask R-CNN,這個算法在推理速度上有一個共識就是推理速度不如一階段方法,所以文中模型在準(zhǔn)確率和推理速度有一個雙向的提高。最終,文中方法的mAP達到了0.941。圖5展示了一些識別與定位結(jié)果的示例。

4 結(jié)束語

針對食物種類多,類間差異大、類內(nèi)差異小、多尺度等特點導(dǎo)致的食物識別和定位準(zhǔn)確率一直不高的問題,結(jié)合注意力機制進行多尺度特征融合,提出了一個輕量級的端到端食物檢測算法FFAM。算法在食物識別和定位的準(zhǔn)確率上和目前的很多方法相比更優(yōu)異。此外,食物的識別和定位的使用場景基本都是在移動端或嵌入式設(shè)備中,端設(shè)備算力和內(nèi)存都是非常有限的。而該方法具有更輕量級的特性,能很好地匹配端設(shè)備的性能。并且在速度和精度上都很不錯,能很好地應(yīng)對食物推薦、食物卡路里分析等實際任務(wù)。在未來,需要進一步提高食物識別和定位的準(zhǔn)確率,同時和食物推薦、卡路里分析等實際需求相結(jié)合,用于解決現(xiàn)實問題。

猜你喜歡
特征提取定位特征
離散型隨機變量的分布列與數(shù)字特征
《導(dǎo)航定位與授時》征稿簡則
銀行業(yè)對外開放再定位
空間目標(biāo)的ISAR成像及輪廓特征提取
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
基于特征提取的繪本閱讀機器人設(shè)計方案
抓特征解方程組
不忠誠的四個特征
微動目標(biāo)雷達特征提取、成像與識別研究進展
少兒智能定位鞋服成新寵
习水县| 靖远县| 临泉县| 夹江县| 威远县| 牙克石市| 中阳县| 庄浪县| 瓦房店市| 平昌县| 保亭| 柳林县| 长泰县| 平远县| 舒兰市| 鹿邑县| 韶关市| 类乌齐县| 读书| 黔东| 建水县| 四会市| 宁海县| 建湖县| 承德县| 沙雅县| 康定县| 依安县| 云南省| 朔州市| 海丰县| 大同市| 长沙市| 水富县| 黎城县| 漳州市| 蓬安县| 德令哈市| 水城县| 当阳市| 河津市|