国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于遷移學習和卷積視覺轉換器的農作物病害識別研究*

2023-09-11 09:22余勝謝莉
中國農機化學報 2023年8期
關鍵詞:查全率查準率集上

余勝,謝莉

(韶關學院信息工程學院,廣東韶關,512005)

0 引言

糧食安全是國家安全的基礎,而農作物疾病的防控是影響糧食安全的一個重要因素,及時準確地識別病害種類可以為農業(yè)生產提供有效的專業(yè)指導,從而提高農作物產量,減少經濟損失[1-2]。

在農作物病害識別中,傳統(tǒng)機器學習方法將識別過程分為圖像預處理、圖像特征提取和分類三個步驟,其中特征提取的結果是整個識別方法的基礎,但特征提取方法往往需要豐富的經驗和反復的試驗,存在一定的主觀性[3-4]。同時農作物病害圖像存在背景復雜、病害目標區(qū)域不明顯等特點,增加了特征提取與分類的難度。因此,基于傳統(tǒng)機器學習的農作物病害疾病識別方法難以處理背景復雜的病害數(shù)據,且泛化能力較弱。

隨著硬件設備計算能力的提升和人工智能技術的飛速發(fā)展,深度學習在各行各業(yè)都取得了非常優(yōu)異的成績,如人臉識別、機器翻譯和行人檢測與識別等方面。在農作物病害識別方面,基于深度學習的識別方法相比于傳統(tǒng)機器學習方法在識別準確率和識別速度上同樣有很大的提升;在圖像分類識別方面,卷積神經網絡(Convolutional neural networks,CNNs)是分類識別效果最佳的深度學習方法之一[5-6];在農作物病害識別方面,CNNs也取得了較好的分類識別效果[7-10]。洪惠群等[7]為了擴大網絡模型的適用場景,將ShuffleNet網絡中的ReLU激活函數(shù)用LeakyReLU激活函數(shù)代替,構建了輕量級神經網絡用于農作物病害的識別。孟亮等[8]則以殘差單元為基本網絡結構設計了輕量級CNNs用于農作物病害識別。Mohanty等[4]構建了基于CNNs的識別模型,在PlantVillage數(shù)據集[9]上的識別準確率達到99.3%。馬浚誠等[10]針對溫室場景下黃瓜病害的卷積神經網絡識別方法的平均準確率為95.7%。

卷積神經網絡強大的特征自主學習能力在農作物病害的識別方面取得了不錯的成績,但也存在卷積神經網絡訓練參數(shù)量大、網絡收斂速度慢、嚴重依賴于訓練樣本數(shù)據量等不足。近年來,遷移學習(Transfer Learning,TL)[11-13]使得網絡模型能快速適應目標學習任務,可以有效緩解過擬合,提升模型性能。趙恒謙等[11]提出遷移學習與分步識別相結合實現(xiàn)對農作物病害種類的識別。張建華等[12]將ImageNet-1K數(shù)據集上預訓練的VGG模型遷移到棉花病害數(shù)據集上,但ImageNet-1K數(shù)據集與棉花病害數(shù)據集相似度不大,遷移學習的知識沒能很好地應用到目標數(shù)據集,最終識別準確率提升不明顯。趙立新等[13]則首先在PlantVillage數(shù)據集上對模型進行預訓練,然后在目標數(shù)據集棉花病害數(shù)據上對參數(shù)進行微調,獲得平均93.5%的識別準確率。王東方等[14]基于遷移學習和殘差網絡提出農作物病害識別模型TL-SE-ResNeXt-101,在真實環(huán)境下病害農作物的識別準確率明顯高于未采用遷移學習的模型。

以上的研究表明基于深度學習的農作物病害的識別準確率和魯棒性方面都要遠遠優(yōu)于傳統(tǒng)機器學習的方法,但當前基于卷積神經網絡的方法大多是在背景單一的圖像數(shù)據集上訓練學習和測試。在真實環(huán)境的農作物病害識別過程中,由于受各種噪聲的干擾,實際的識別準確率會大大降低,難以滿足實際應用的需求。

2017年Google的機器翻譯團隊成員Vaswani等[15]完全拋棄卷積神經網絡和遞歸神經網絡結構,僅采用注意力機制實現(xiàn)機器翻譯任務,并取得當時的最佳效果。受Vaswani[15]的啟發(fā),Dosovitskiy等[16]嘗試將Transformer應用到計算機視覺領域,提出Vision Transformer(ViT)模型。ViT包含輸入圖像分塊、展平成序列、Transformer編碼和分類識別等模塊,不依賴卷積神經網絡結構,對噪聲的干擾有很好的魯棒性,在圖像分類任務上達到了很好的效果,ImageNet-1K上的分類準確率達到88.55%。

針對實際應用場景中包含復雜背景信息的農作物病害識別問題,本文在現(xiàn)有研究基礎上,提出一種遷移學習與卷積視覺轉換器(Convolutional Vision Transformer,CViT)模型相結合的農作物病害識別方法。

1 病害識別模型

1.1 卷積視覺轉換器模型結構

標準的Transformer結構用于自然語言處理,輸入為一維的標記嵌入(token embedding)向量。為有效處理輸入圖像,Dosovitskiy等[16]首先將輸入尺寸為224×224的圖像共劃分為互不重疊的196個16×16大小的圖像塊;然后通過線性投影變換將各圖像塊映射到768維度的一維向量;最后將196×768特征矩陣輸入到Transformer結構。

而在實現(xiàn)農作物病害識別時,不同種類病害的表觀特征往往僅有細微的表觀區(qū)別,有效學習到病害圖像的細粒度特征對農作物病害的識別至關重要。為此,將卷積操作引入到ViT設計了卷積視覺轉換器(Convolutional Vision Transformer,CViT)CViT模型,其整體框圖如圖1所示。對比ViT模型中的線性映像操作,本文設計了一個用卷積層組來實現(xiàn)輸入圖像映射到二維特征矩陣的過程。卷積模塊共包含N層卷積,輸入圖像經過N層卷積操作后將映射到14×14×768的特征空間,并作為Transformer結構的輸入。

圖1 CViT模型的結構框圖

1.2 注意力機制

注意力機制可以描述為將一個查詢和一組鍵值對映射到一個輸出,其中查詢、鍵、值和輸出都是向量。輸出值通過加權總和計算得到,其中分配給每個值的權重由查詢與相應鍵的兼容性函數(shù)計算。根據兼容性函數(shù)的不同,可以設計出不同的注意力機制,本文采用文獻[15]設計的縮放點乘注意機制。縮放點乘注意機制的結構如圖2所示。

圖2 縮放點乘注意機制

(1)

1.3 多頭注意力機制

在實際應用中,根據給定相同的查詢、鍵和值的集合時,模型能基于注意力機制學習到不同的目標特征信息,然后把不同的目標特征信息組合,捕獲圖像內多種信息間的依賴關系,達到提升模型識別性能的目的。傳統(tǒng)注意力機制僅僅關注單一方面的注意力信息,為了從不同角度關注到不同的關鍵特征,Vaswani等[15]提出了多頭注意力機制(Multi-Head Attention,MHA)。多頭注意力機制首先獨立學習得到h組不同的線性投影矩陣來變換查詢、鍵和值;然后將h組變換后的查詢、鍵和值將并行輸入到注意力匯聚模塊;最后將這h個注意力匯聚的輸出串接在一起,并且通過另一個可以學習的線性投影進行變換得到最終的輸出,具體計算過程如圖3所示。

本研究結果顯示,相對于NIPPV單用,納洛酮聯(lián)用NIPPV能顯著增加PO2水平和降低PCO2水平,增加SaO2水平,兩組比較差異均有統(tǒng)計學意義(P<0.01),說明納洛酮聯(lián)用NIPPV能顯著糾正機體酸堿平衡,糾正低氧血癥;其次,住院死亡率和再次有創(chuàng)氣管插管率顯著降低,說明納洛酮能顯著降低NIPPV治療失敗率,同時顯著減少住院時間,有利于減輕患者經濟負擔。用藥期間未發(fā)生嚴重不良反應,患者耐受性好,說明納洛酮聯(lián)用NIPPV安全性較好。

圖3 多頭注意機制

首先通過線性變換將Q、K、V映射到新的子空間,然后使用縮放點乘注意機制進行計算,其中第i個注意力機制的計算結果計為headi。

(2)

然后按式(3)將所有注意力機制的計算結果級聯(lián),同時再次使用線性變換轉回原來的空間。

MultiHead(Q,K,V)=Concat(head1,…,headn)WO

(3)

2 試驗結果與分析

2.1 農作物病害數(shù)據集

本文試驗在PlantVillage[9]和ibean[17]兩個公共數(shù)據集上完成。

1) 公共數(shù)據集PlantVillage。PlantVillage數(shù)據集共收集了14個物種38個分類和1個不包含植物葉片圖像的背景類別共54 306張農作物葉片圖像,各個子類的圖像從275到5 357張不等,存在一定程度的樣本分布不均衡問題。所有圖像都是在實驗室條件下采集,背景單一,圖像分辨率為256像素×256像素。PlantVillage數(shù)據集部分樣本數(shù)據如圖4所示。

圖4 PlantVillage數(shù)據集圖像樣例

2) ibean數(shù)據集。ibean數(shù)據集是由Makerere AI實驗室與負責烏干達農業(yè)研究的國家機構國家作物資源研究所(NaCRRI)合作在烏干達不同地區(qū)實地拍攝的葉子圖像。數(shù)據集包含健康葉子圖像、角斑病和豆銹病3個類別,其中訓練集包含1 035個數(shù)據樣本,驗證集包含133個樣本,測試集包含128個樣本。ibean數(shù)據集是在田間拍攝,包含背景較復雜,符合實際應用環(huán)境,圖5所示為部分樣本數(shù)據。

(a) 角斑病

2.2 試驗平臺

在進行模型的訓練中,試驗的硬件配置情況為Intel Core i5-6600K CPU,TITAN X顯卡,64 G內存。軟件系統(tǒng)為Ubuntu18.04操作系統(tǒng),Tensorflow深度學習平臺,并使用CUDA和cuDNN作為支持。

2.3 評價指標

準確率(Accuracy)常作為分類模型的一個主要評價指標,但當樣本數(shù)據不均衡時,準確率高低主要受占比大的類別影響。因此,本文通過準確率Accuracy、查準率Precision、查全率Recall和F1值四個指標評價模型的性能,各指標定義如式(4)~式(7)所示。

(4)

(5)

(6)

(7)

式中:TP——真實值為正且預測為正的數(shù)目;

FN——真實值為真而預測值為負的數(shù)目;

TN——真實值為負且預測也為負的數(shù)目;

FP——真實值為負但預測為正的數(shù)目。

2.4 卷積層組結構的選擇

卷積層組的主要作用是將圖像轉換為視覺轉換模塊的輸入,同時為對比增加卷積層后與原ViT模型的性能,本文設計的CViT模型的卷積層組最后的特征映射都統(tǒng)一為14×14×756,即與標準ViT模型視覺轉換模塊的輸入維度一樣。表1為本文對比試驗的3種卷積層組結構,表2為不同卷積層結構在PlantVillage和ibean兩個數(shù)據集上采用遷移學習方法所獲得的識別準確率。

表1 卷積層組結構Tab. 1 Architectures of convolutional layer group

表2 不同卷積層組結構的識別準確率Tab. 2 Accuracy of different convolutional architectures

對比3種卷積層組的網絡結構發(fā)現(xiàn),在僅采用1個卷積層的情況下,兩個數(shù)據集上都獲得最高的識別準確率;當增加到3個卷積層時,準確率都有明顯的下降。原因可能是單層16×16卷積核的卷積操完成了圖像塊的非線性映射,同時大尺度的卷積核可以較好地保留了圖像的底層結構特征,這有利于ViT模型在此基礎上實現(xiàn)高層語義特征的抽象。因此,本文設計的CViT模型采用的是單層卷積輸入的結構模型。

2.5 訓練過程中的模型準確率與損失值

將CViT、ResNet-50和EfficientNet-b0三個模型在PlantVillage數(shù)據集上的試驗如圖6所示,各模型都是迭代訓練30個Epoch。在PlantVillage數(shù)據集上,除用ImageNet-1K數(shù)據集預訓練后的Efficient-b0模型在前14個Epoch迭代的準確率和損失值有較多波動外,其他模型的收斂速度都比較快,各模型的準確率最終達到99.50%以上。但CViT模型在采取遷移學習方法后,迭代到第3個Epoch時準確率達到了99.52%,收斂速度要快于其它模型,說明在使用遷移學習后,模型在預訓練過程中學習到了圖像識別的公共特征,然后在目標數(shù)據集中能快速針對具體目標任務學習到對應的特征信息,實現(xiàn)目標數(shù)據集下的識別任務,達到節(jié)約模型的訓練時間、提升識別性能的目的。

(a) 測試集準確率

ibean數(shù)據庫中測試集上的準確率和損失值如圖7所示,除使用采取遷移學習的CViT和ResNet-50兩個模型在迭代到第5個Epoch后達到收斂,其它模型在前30個Epoch的準確率和損失值波動都比較大,沒能達到收斂狀態(tài)。

(a) 測試集準確率

導致該結果的可能有如下3個原因:(1)ibean數(shù)據集是在真實環(huán)境下采集,圖像背景較復雜;(2)ibean數(shù)據集樣本數(shù)目偏少,遠小于PlantVillage數(shù)據集;(3)部分角斑病和銹斑病圖像差距細微,難以辨別。但采取遷移學習后的CViT模型有較好的收斂過程,且達到了最高識別準確率98.12%,這說明設計的CViT模型使用遷移學習的方法后,在樣本量少的情況下也能夠從復雜的背景中學習到目標對象的細微特征信息,從而達到提高識別準確率的目標。

2.6 數(shù)據集中各子類的性能比較

為了解遷移學習過程中CViT模型對各子類的分類情況,試驗中保存訓練過程中訓練好的最佳模型,然后用最佳模型對測試數(shù)據集進行測試,表3為PlantVillage測試集中各子類的查準率、查全率和F1值。

表3 PlantVillage測試集的各子類查準率、查全率、F1值Tab. 3 Precision, recall and F1 value of CViT on PlantVillage dataset for each class

從表3可以看出,各個類別的查準率和查全率以及F1值都比較高,出錯相對較多的是玉米北方葉枯病、玉米灰斑病、番茄早疫病和晚疫病。通過對識錯圖片的比對分析發(fā)現(xiàn),玉米北方葉枯病和灰斑病、番茄早疫病和晚疫病的圖像相似度較高,容易出現(xiàn)誤判的情況。表4為ibean數(shù)據集在測試數(shù)據上的試驗結果,平均查準率為0.946 1,平均查全率為0.945 4,平均F1值為0.945 6。試驗結果表明基于遷移學習的CViT模型在真實環(huán)境下,可以較高效的完成農作物病害的識別工作。

表4 ibean測試集的各分類查確率、查全率、F1值Tab. 4 Precision, recall and F1 value of CViT on ibean dataset for each class

2.7 各模型最佳準確率

為了驗證本文識別方法的有效性,在PlantVillage和ibean兩個數(shù)據集上與當前最佳網絡模型進行對比,試驗結果如表5所示?;谶w移學習的CViT模型在PlantVillage中準確率高于ViT模型0.33%,比ResNet-50模型的準確率高0.28%,也高于Efficient-b7模型0.05%。在ibean數(shù)據集中,本文提出模型的測試準確率高于ViT模型0.46%和Efficient-b7模型0.68%。試驗表明,本文提出的模型在兩個數(shù)據集上都獲得了最高準確率99.91%和98.12%。

表5 PlantVillage和ibean數(shù)據集上不同模型的平均準確率Tab. 5 Average accuracy with previous state-of-the-art methods in PlantVillage and ibean datasets %

3 結論

1) 為提升農作物病害識別系統(tǒng)的性能,本文將遷移學習和ViT模型用于設計農作物的識別模型。為驗證設計方法的有效性,在公共數(shù)據集PlantVillage數(shù)據集和自然環(huán)境下采樣的ibean數(shù)據集完成相應的試驗。在PlantVillage數(shù)據集包含了38個農作物病害類別以及一個背景圖像類別共39個類別,最終達到了99.91%的評價識別準確率,0.999 0的查準率,0.998 2的查全率和0.998 6的F1值。在ibean數(shù)據集中同樣獲得了98.12%的平均識別準確率,以及查準率、查全率和F1值分別為0.946 1、0.945 4、0.945 6。經過對比試驗結果表明,CViT方法在相同情況下具有更高的識別準確率、查全率和查準率,具有很好的魯棒性,能獲得較好的識別性能。

2) 本文提出的基于遷移學習的ViT農作物病害識別方法,可以作為農作物病害診斷系統(tǒng)的預警。相關從業(yè)人員可以根據診斷系統(tǒng)的識別結果,及時對有疾病的農作物采取有效措施。本文算法通過進一步優(yōu)化后可以部署到移動端進行實時識別,提高識別系統(tǒng)的便攜性,為農業(yè)智能化發(fā)展做出貢獻。

猜你喜歡
查全率查準率集上
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
海量圖書館檔案信息的快速檢索方法
基于數(shù)據挖掘技術的網絡信息過濾系統(tǒng)設計
基于詞嵌入語義的精準檢索式構建方法
大數(shù)據環(huán)境下的文本信息挖掘方法
復扇形指標集上的分布混沌
基于深度特征分析的雙線性圖像相似度匹配算法
幾道導數(shù)題引發(fā)的解題思考
基于Web的概念屬性抽取的研究