文章編號1000-5269(2024)06-0085-06
DOI:10.15958/j.cnki.gdxbzrb.2024.06.13
摘要:為實(shí)現(xiàn)智能家居環(huán)境下多菜品的智能識別,提出了基于改進(jìn)YOLOv7的輕量級多菜品識別方法(lightweight multi-dish recognition method based on improved YOLOv7,LMDRMIYOLO)。首先,構(gòu)建中式菜品檢測數(shù)據(jù)集CNF228作為細(xì)粒度菜品識別研究對象;其次,針對菜品數(shù)據(jù)集樣本少、多樣性不足導(dǎo)致的模型性能上限過低的難題,使用多種數(shù)據(jù)增強(qiáng)方法以正則化數(shù)據(jù)、提高模型泛化性;再次,針對菜品識別對精度和實(shí)時(shí)性的平衡需求,提出基于簡單聚合層和混合卷積注意力機(jī)制的輕量級骨干網(wǎng)絡(luò)ECNet;最后,在CNF228數(shù)據(jù)集上測試表明,LMDRMIYOLO的mAP@0.5:0.95、識別速度和參數(shù)量分別為82.8%、164FPS、27.5M。相比YOLOv7的82.6%、133FPS、37.7M而言,所提模型實(shí)時(shí)性提升、參數(shù)量減少且提升了平均精度。本文方法為自動(dòng)感知居民日常飲食記錄提供了智能方法。
關(guān)鍵詞:菜品識別;深度學(xué)習(xí);目標(biāo)檢測;YOLO
中圖分類號:TP18
文獻(xiàn)標(biāo)志碼:A
最近,食物計(jì)算[1]成為一個(gè)熱點(diǎn)研究方向。菜品識別屬于食物計(jì)算中的重要研究內(nèi)容,具有重要的應(yīng)用價(jià)值。圍繞單一菜品識別,郝然[2]在基于密集連接的卷積神經(jīng)網(wǎng)絡(luò)Densenet上搭建,他采用注意力機(jī)制改進(jìn)特征提取網(wǎng)絡(luò),重點(diǎn)關(guān)注菜品的關(guān)鍵區(qū)域特征以增強(qiáng)特征顯著性。劉林虎[3]提出一種改進(jìn)的CNN網(wǎng)絡(luò),通過級聯(lián)多尺度和多視角的豐富特征以提高細(xì)粒度識別精度。葉靈楓[4]提出了通過孿生網(wǎng)絡(luò)改進(jìn)的YOLO-SiamV2,在少樣本菜品分類數(shù)據(jù)集FewFood-50達(dá)到了41.75%的準(zhǔn)確率、12.8FPS。單一菜品識別的研究固然可以為菜品特征提取提供技術(shù)支撐,但是無法完成多識別對象的菜品識別任務(wù)。
對于多菜品識別任務(wù),需要先定位實(shí)例再進(jìn)行分類。因此,多菜品識別有兩種實(shí)現(xiàn)路徑:采用多階段識別方法(圖像分割+圖像分類)和端到端識別方法(目標(biāo)檢測)。
1)多階段識別方法。鑒于中餐食品檢測數(shù)據(jù)集的匱乏,許多研究人員選擇研究多階段識別方法。蘇國煬[5]構(gòu)建了162張圖像的小型多菜品分割數(shù)據(jù)集、50類校內(nèi)食堂菜品的分類數(shù)據(jù)集,提出一種菜品分割算法以裁剪出菜品區(qū)域圖像、將多菜品識別轉(zhuǎn)換為單目標(biāo)菜品識別問題,然后采用基于雙線性結(jié)構(gòu)和跨流連接方法構(gòu)建的菜品分類模型進(jìn)行單目標(biāo)菜品識別。王長冬[6]構(gòu)建了20類中式主食分類數(shù)據(jù)集,提出一種自適應(yīng)閾值的邊緣檢測方法以進(jìn)行圖像分割,再使用Inception v3網(wǎng)絡(luò)進(jìn)行單目標(biāo)菜品識別。多階段識別方法的優(yōu)勢是構(gòu)建數(shù)據(jù)集較為容易,但在識別速度上要慢于端到端識別方法。
2)端到端識別方法。AGUILAR等[7]在73類西式菜品檢測數(shù)據(jù)集UNIMIB 2016上,微調(diào)目標(biāo)檢測算法YOLOv2來進(jìn)行多種食物檢測和識別。該方法實(shí)時(shí)性相較于以往的方法大幅提升,已成功應(yīng)用于可穿戴設(shè)備上。郝然[2]在已有數(shù)據(jù)集上構(gòu)建了10類中餐檢測數(shù)據(jù)集,以MaskR-CNN作為基礎(chǔ)網(wǎng)絡(luò),引入改進(jìn)DenseNet-169代替原有骨干網(wǎng)絡(luò),提高了檢測效率,并提出一種新的卷積方法以減少計(jì)算量,達(dá)到了89.1%、56.4%的mAP@0.5、mAP@0.5:0.95,識別速度平均為0.6FPS,識別速度有較大提升空間。JIANG等[8]在日式菜品檢測數(shù)據(jù)集UEC-FOOD100和UEC-FOOD256上進(jìn)行研究,他采用感興趣區(qū)域(region of interest,ROI)策略改進(jìn)Faster R-CNN模型,在這兩個(gè)數(shù)據(jù)集分別達(dá)到了17.5%和10.5%的mAP@0.5,識別精度有較大提升空間。LI等[9]構(gòu)建了34種中式食物類別的檢測數(shù)據(jù)集,基于目標(biāo)檢測算法YOLOv5進(jìn)行菜品檢測,達(dá)到了94.8%的mAP@0.5、87.1%的mAP@0.5:0.95、21.8FPS。目前的多目標(biāo)中餐菜品識別方法雖然取了不錯(cuò)成果,但可識別的類別較少,較少考慮菜品類間差異小的特點(diǎn),難以應(yīng)對復(fù)雜的實(shí)際情況。此外,已有多菜品識別方法大多實(shí)時(shí)性比較差,難以滿足應(yīng)用對識別速度的要求。
為了實(shí)現(xiàn)智能家居環(huán)境下多菜品的智能識別,本文提出了基于改進(jìn)YOLOv7的輕量級多菜品識別方法(lightweight multi-dish recognition method based on improved YOLOv7,LMDRMIYOLO)。
1YOLOv7目標(biāo)檢測算法
YOLOv7[10]是目前先進(jìn)的實(shí)時(shí)目標(biāo)檢測模型,它不僅在推理速度上保持領(lǐng)先地位,在精度上也有著不俗的表現(xiàn)。YOLO系列模型得到了廣泛的應(yīng)用[11-12]。YOLOv7網(wǎng)絡(luò)結(jié)構(gòu)主要分為兩個(gè)部分:骨干網(wǎng)絡(luò)(backbone)和輸出頭(head)。
骨干網(wǎng)絡(luò)部分主要由ELAN和MC-1單元組成:ELAN(efficient layer aggregation networks)單元基于群卷積和跨連拼接方法來擴(kuò)展計(jì)算塊的通道數(shù),以獲得更多樣化的特征;MC-1單元進(jìn)行最大值池化以及特征拼接。
輸出頭部分:SPPCSPC單元是將輸入特征矩陣分為兩支,一支經(jīng)過3個(gè)CBS單元和不同大小的池化核進(jìn)行池化拼接,另一支經(jīng)過1個(gè)CBS單元,進(jìn)行通道融合;Upsample單元?jiǎng)t實(shí)現(xiàn)雙線性插值上采樣;ELAN-W單元與ELAN單元相似,但匯入通道融合單元的通道數(shù)更多。
在YOLOv7基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上,利用縮放法則對模塊進(jìn)行不同程度的擴(kuò)展,得到Y(jié)OLOv7-W6、 YOLOv7-E6 、YOLOv7-D6。
2基于改進(jìn)YOLOv7的輕量級多菜品識別方法
2.1算法設(shè)計(jì)
為了有效識別類別較多、類間差異小的中式菜品,提出基于改進(jìn)YOLOv7的輕量級多菜品識別方法。算法訓(xùn)練過程的主體流程如算法1。
算法1LMDRMIYOLO偽代碼
輸入菜品訓(xùn)練數(shù)據(jù)集F = {f1, f2,…,fn},其中,n為數(shù)據(jù)集樣本總數(shù)。
輸出多菜品識別訓(xùn)練模型M。
步驟1初始化超參數(shù),統(tǒng)一輸入圖片大小。
步驟2讀取菜品訓(xùn)練數(shù)據(jù)集F = {f1, f2,…,fn}以及數(shù)據(jù)增強(qiáng)策略集S = {None, Mixup, Copy paste, Mosaic}。
步驟3對于任意數(shù)據(jù)增強(qiáng)策略s∈S,將策略s與數(shù)據(jù)集F融合,獲得數(shù)據(jù)增強(qiáng)訓(xùn)練集Ci ={C1,C2,…,Cn}。
步驟4將各數(shù)據(jù)集Ci∈C輸入LMDRMIYOLO算法訓(xùn)練,對比獲取訓(xùn)練效果最佳的數(shù)據(jù)增強(qiáng)策略,確保擴(kuò)增后的數(shù)據(jù)集泛化能力更強(qiáng),數(shù)據(jù)增強(qiáng)對比結(jié)論見3.4.2節(jié)。
步驟5將各圖像c∈Ci輸入骨干網(wǎng)絡(luò),得到提取后的菜品特征圖,骨干網(wǎng)絡(luò)的結(jié)構(gòu)見2.2節(jié)。
步驟6將菜品特征圖輸入Head部分的PANet特征金字塔進(jìn)行特征融合,最終將獲得的3個(gè)特征圖輸出得到預(yù)測值Prediction。
步驟7計(jì)算預(yù)測框和真實(shí)框之間的損失,根據(jù)損失再進(jìn)行反向傳播,更新迭代模型參數(shù)。
步驟8輸出多菜品識別訓(xùn)練模型LMDRMIYOLO。
步驟3中,利用引入的數(shù)據(jù)增強(qiáng)策略對圖像和標(biāo)簽進(jìn)行同樣的變換,將變換后的圖像和標(biāo)簽作為模型的輸入來增加訓(xùn)練集的多樣性和規(guī)模,以提高模型的泛化性。引入的3種數(shù)據(jù)增強(qiáng)方法包含Mosaic方法[13]、Mixup方法[14]、Copy-paste方法[15]數(shù)據(jù)增強(qiáng)策略,通過實(shí)驗(yàn)選出最適合的數(shù)據(jù)增強(qiáng)策略,后文的測試模型采用具有最優(yōu)表現(xiàn)的數(shù)據(jù)增強(qiáng)方法。
步驟6中,先利用4個(gè)CBS單元進(jìn)行多級卷積運(yùn)算,其次通過2.2節(jié)中的骨干網(wǎng)絡(luò)ECNet(expansion and compression network)的3個(gè)節(jié)點(diǎn)分別得到輸入Head部分的第一級、第二級和第三級特征圖。
LMDRMIYOLO整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
2.2骨干網(wǎng)絡(luò)ECNet設(shè)計(jì)
由于高效的特征提取策略可以使模型在多菜品識別上具有更好的泛化性,因此,本文提出ECNet骨干網(wǎng)絡(luò)。主要設(shè)計(jì)思想為:先通過SLANet(simple layer aggregation networks)模塊以學(xué)習(xí)豐富的細(xì)粒度特征和上下文特征;再通過MA(mixed attention)模塊利用混合注意力機(jī)制關(guān)注重要特征,從而實(shí)現(xiàn)高效的菜品特征提取。其中,SLANet模塊、MA模塊的結(jié)構(gòu)如圖2。
SLANet模塊基于部分跨階段連接[16]的思想設(shè)計(jì),借鑒了CSP-DarkNet。結(jié)構(gòu)設(shè)計(jì)上,左分支保留淺層特征,而在右分支中采用殘差連接[17]進(jìn)行上下文特征融合,旨在降低計(jì)算量的同時(shí)保留關(guān)鍵上下文信息,避免過多的跨階段連接帶來的通道計(jì)算量增加;模塊設(shè)計(jì)上,多用1×1卷積而非3×3卷積,以更好地提取細(xì)粒度局部特征;最后利用通道升維的1×1卷積對多層級特征進(jìn)行融合,以精細(xì)處理復(fù)雜的細(xì)粒度菜品特征。其中,為了捕獲更豐富的全局特征,SLANet-2相對SLANet-1而言,采用更高倍率的通道升維模塊。
MA模塊則基于注意力機(jī)制的思想設(shè)計(jì),關(guān)注重要的特征,忽略不重要的特征,從而減少冗余計(jì)算量?;旌献⒁饬Πㄏ袼靥卣髯⒁饬屯ǖ雷⒁饬Γ合壤?×2池化核的最大池化以減小特征圖尺寸,關(guān)注顯著像素特征;再利用降維的1×1卷積核以關(guān)注重要的通道信息,忽略不重要的通道信息。
對于一個(gè)標(biāo)準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)單元,假設(shè)其卷積核大小為K,輸入圖像大小為H×W,卷積核數(shù)量為L,輸入通道數(shù)為C,則其浮點(diǎn)運(yùn)算量可用式(1)表示[18]。
xFLOPS=H*W*K2*C*L(1)
由式(1)可知,在輸入圖像大小一定時(shí),卷積核大小、輸入通道數(shù)、卷積核數(shù)量(或輸出通道數(shù))越小,則計(jì)算復(fù)雜度越低。ECNet相比ELANet而言,正是由于在設(shè)計(jì)組卷積結(jié)構(gòu)時(shí),卷積核大小、輸入通道數(shù)、卷積核數(shù)量均具有較小的優(yōu)勢,所以網(wǎng)絡(luò)結(jié)構(gòu)的計(jì)算量大幅降低。
3實(shí)驗(yàn)結(jié)果與分析
3.1數(shù)據(jù)集
實(shí)驗(yàn)所使用的菜品圖像從開源社區(qū)收集而來,其中包含了許多類間差異小的菜品類別,比如大白菜肉末與大白菜肉片,因此該數(shù)據(jù)集的識別屬于細(xì)粒度菜品識別任務(wù)。并在此基礎(chǔ)上進(jìn)行了數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注。數(shù)據(jù)集的比例按7∶2∶1隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集、測試集,最終得到了CNF228數(shù)據(jù)集。此數(shù)據(jù)集共有228類菜品、3 000張圖片、11 296個(gè)實(shí)例。訓(xùn)練數(shù)據(jù)集各類型實(shí)例數(shù)分布情況如圖3。
3.2實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)環(huán)境配置如下:操作系統(tǒng)為Ubuntu20.04;中央處理器(CPU)為Intel(R) Xeon(R) Gold 5318Y;圖形處理器(GPU)為NVIDIA A10(24 GB);系統(tǒng)內(nèi)存為256 GB;編程語言為Python 3.10.0;Pytorch框架為2.0.1;CUDA為11.7;cuDNN為8.5.0。
參數(shù)設(shè)置:本文不使用額外數(shù)據(jù)集來初始化權(quán)重。訓(xùn)練策略使用隨機(jī)梯度下降方法(stochastic gradient descent,SGD),權(quán)重衰減為5e-4,以及Onecycle學(xué)習(xí)率策略。實(shí)驗(yàn)所有輸入的圖像大小均為640×640。測試批處理參數(shù)為1,置信度閾值為0.001,IoU閾值為0.65。
3.3評價(jià)指標(biāo)
為了評價(jià)菜品識別模型的優(yōu)劣,采用常見的目標(biāo)檢測評價(jià)指標(biāo)。主要的評價(jià)指標(biāo)有準(zhǔn)確率(Precision)、召回率(Recall)、mAP@0.5、mAP@0.5:0.95,以及FPS、FLOPS和Param。
Precision表示正確預(yù)測的正例數(shù)據(jù)占預(yù)測為正例數(shù)據(jù)的比例;Recall表示正確預(yù)測的正例數(shù)據(jù)占實(shí)際為正例數(shù)據(jù)的比例;平均精度均值(mean average precision,mAP)為綜合指標(biāo),表示數(shù)據(jù)集所有類別的平均精度;mAP@0.5、mAP@0.5:0.95則表示交并比(intersection over union,IoU)閾值分別為0.5和0.5:0.95時(shí)的mAP;幀率(frames per second,F(xiàn)PS)則表示模型每秒所能識別的圖像數(shù)量,其越大說明模型識別速度越快;FLOPS代表的含義是模型的浮點(diǎn)數(shù)運(yùn)算量(時(shí)間復(fù)雜度);Param代表的是模型的參數(shù)數(shù)量(空間復(fù)雜度)。
3.4實(shí)驗(yàn)結(jié)果與分析
3.4.1數(shù)據(jù)增強(qiáng)策略的消融實(shí)驗(yàn)
為找出最優(yōu)的數(shù)據(jù)增強(qiáng)策略,根據(jù)3.2節(jié)實(shí)驗(yàn)設(shè)置進(jìn)行消融實(shí)驗(yàn),不同數(shù)據(jù)增強(qiáng)方法下LMDRMIYOLO的性能統(tǒng)計(jì)結(jié)果如表1。由表1可知,使用恰當(dāng)?shù)臄?shù)據(jù)增強(qiáng)策略才可大幅提升模型的泛化性。其中,Mosaic數(shù)據(jù)增強(qiáng)策略提升最大,模型的mAP@0.5、mAP@0.5:0.95由50.2%、38.3%提升到了99.3%、82.8%。因此,后續(xù)測試中,LMDRMIYOLO將采用Mosaic方法完成數(shù)據(jù)增強(qiáng)。
3.4.2性能測試結(jié)果與分析
為對比所提方法在精度與實(shí)時(shí)性等方面的性能表現(xiàn),在測試集上將其與其他4種網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行對比。表2是運(yùn)用Mosaic策略在不同網(wǎng)絡(luò)架構(gòu)下的菜品識別性能統(tǒng)計(jì)結(jié)果。
由表2可知,將MA模塊替換YOLOv7骨干網(wǎng)絡(luò)中的MC模塊后,LMDRMIYOLO-MA的識別速度由133FPS大幅提升至156FPS,其綜合指標(biāo)mAP@0.5:0.95同時(shí)提升0.4%,此外浮點(diǎn)運(yùn)算量和參數(shù)量也有較大幅度降低,實(shí)驗(yàn)表明MA模塊發(fā)揮了較優(yōu)秀的作用。當(dāng)SLANet模塊替換YOLOv7骨干網(wǎng)絡(luò)中的ELAN模塊后,LMDRMIYOLO-SLA在識別速度提升、浮點(diǎn)運(yùn)算量和參數(shù)量降低的同時(shí),綜合指標(biāo)mAP@0.5:0.95恰好保持不變,實(shí)驗(yàn)表明SLANet模塊也發(fā)揮了一定的作用。
將MA與SLA兩個(gè)模塊同時(shí)加入骨干網(wǎng)絡(luò),即ECNet時(shí),LMDRMIYOLO達(dá)到最快的實(shí)時(shí)速度。該模型在FPS與FLOPS均表現(xiàn)最佳,且其mAP@0.5:0.95精度指標(biāo)達(dá)到82.8%,優(yōu)于其他模型。相比原始的YOLOv7網(wǎng)絡(luò)模型,本研究方法在總體性能上僅在少量犧牲精度的情況下,擁有最少的參數(shù)量,并且將識別速率提升23.31%,驗(yàn)證了該方法在網(wǎng)絡(luò)輕量化識別方面的有效性。
4結(jié)論
結(jié)合人工智能與傳感器技術(shù)來識別居民日常飲食并感知居民營養(yǎng)攝入量是一種創(chuàng)新性的飲食健康管理方式。為了實(shí)現(xiàn)智能家居環(huán)境下多菜品的智能識別,本文提出了基于改進(jìn)YOLOv7的輕量級多菜品識別方法,在細(xì)粒度菜品識別任務(wù)上的識別精度和識別速度之間達(dá)到了較好的效果。研究表明:數(shù)據(jù)增強(qiáng)方法能夠有效改善菜品識別模型的泛化能力,降低數(shù)據(jù)集構(gòu)建成本;且本文提出的骨干網(wǎng)絡(luò)ECNet相較于ELANet更適用于需要兼具識別速度與精度的菜品識別任務(wù)。考慮到具有良好魯棒性的系統(tǒng)應(yīng)該能應(yīng)對更豐富復(fù)雜的實(shí)際環(huán)境,后續(xù)將使用真實(shí)復(fù)雜場景數(shù)據(jù)進(jìn)行進(jìn)一步的訓(xùn)練和測試。
參考文獻(xiàn):
[1]MIN W Q, JIANG S Q, LIU L H, et al. A survey on food computing[J]. ACM Computing Surveys, 2020,52(5):1-36.
[2] 郝然. 基于深度學(xué)習(xí)的中餐圖像識別的研究與應(yīng)用[D]. 北京: 北京郵電大學(xué), 2021:23-26.
[3] 劉林虎. 基于食材信息的食品圖像識別方法研究[D]. 北京: 中國科學(xué)院大學(xué), 2020:14-19.
[4] 葉靈楓. 基于深度學(xué)習(xí)的食品自動(dòng)識別算法研究[D]. 金華: 浙江師范大學(xué), 2020:20-23.
[5] 蘇國煬. 基于圖像的中餐菜品分割與識別[D]. 杭州: 浙江大學(xué), 2019:25-29.
[6] 王長冬. 基于卷積神經(jīng)網(wǎng)絡(luò)的中餐主食識別技術(shù)研究與實(shí)現(xiàn)[D]. 南京: 南京理工大學(xué), 2020:10-13.
[7] AGUILAR E, REMESEIRO B, BOLANOS M, et al. Grab, pay, and eat: semantic food detection for smart restaurants[J]. IEEE Transactions on Multimedia, 2018,20(12):3266-3275.
[8] JIANG L D, QIU B, LIU X, et al. DeepFood: food image analysis and dietary assessment via deep model[J]. IEEE Access, 2020,8:47477-47489.
[9] LI H Y, YANG G C. Dietary nutritional information autonomous perception method based on machine vision in smart homes[J]. Entropy, 2022,24(7):868-874.
[10]WANG C Y, BOCHKOVSKIY A, HONG-YUAN M L. YOLOv7: trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE, 2023.
[11]陳國棟,林愉翔,趙志峰,等. 基于改進(jìn)YOLO v3的施工升降機(jī)螺栓狀態(tài)檢測研究[J]. 貴州大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,39(6):81-86.
[12]陳國棟,王翠瑜,張神德,等. 基于改進(jìn)YOLO V3的塔式起重機(jī)裂縫檢測研究[J]. 貴州大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,38(3):76-82.
[13]WANG C Y, BOCHKOVSKIY A, LIAO H M. Scaled-YOLOv4: scaling cross stage partial network[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE, 2021.
[14]ZHANG H Y, CISSE M, DAUPHIN Y N, et al. Mixup: beyond empirical risk minimization[C]//2018 International Conference on Learning Representations (ICLR). Washington: ICLR, 2018.
[15]GOLNAZ G, Y C, A S. Simple copy-paste is a strong data augmentation method for instance segmentation[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE, 2021.
[16]WANG C Y, H M, L Y. CSPNet: a new backbone that can enhance learning capability of CNN[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Piscataway: IEEE, 2020.
[17]REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017.
[18]LIMONOVA E, SHESHKUS A, NIKOLAV D. Computational optimization of convolutional neural networks using separated filters architecture[J]. International Journal of Applied Engineering Research.2016,11:7491-7494.
(責(zé)任編輯:曾晶)
Abstract:
In order to realize the intelligent recognition of multi-target dishes in the smart home environment, the lightweight multi-dish recognition method based on improved YOLOv7(LMDRMIYOLO) is proposed. First, CNF228, a Chinese dish detection dataset, is constructed as a fine-grain dish recognition research object; second, to address the problem of low model performance upper limit due to few samples and lack of diversity in the dish dataset, multiple data enhancement methods are used to regularize the data and improve the model generalization; then, to address the balanced demand of accuracy and real-time for dish recognition, a lightweight backbone network ECNet is proposed based on a simple aggregation layer and a hybrid convolutional attention mechanism; finally, tests on the CNF228 dataset show that LMDRMIYOLO’s mAP@0.5:0.95, the recognition speed and the number of parameters are 82.8%, 164FPS, and 27.5M, respectively. Compared to YOLOv7’s 82.6%,133FPS,37.7M, the proposed model has improved real-time performance, reduced the amount of parameters and improved average accuracy. The method provides an intelligent method for automatically perceiving residents’ daily diet information.
Key words:
dish recognition; deep learning; object detection; YOLO
收稿日期:2024-04-23
基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(62163007);貴州省科技計(jì)劃項(xiàng)目(黔科合支撐[2023]一般118,黔科合平臺人才[2020]6007-2)
作者簡介:楊青華(1999—),男,在讀碩士,研究方向:智能系統(tǒng),E-mail:qinghy_gzu@163.com.
*通訊作者:楊觀賜,E-mail:gcyang@gzu.edu.cn.