基于超圖的雙模態(tài)特征融合的作物病害識別算法

2023-09-11 07:48張凈邵文文劉曉梅李賀亮高躍張軒誠

江蘇農(nóng)業(yè)科學(xué) 2023年15期

張凈邵文文劉曉梅李賀亮高躍張軒誠

摘要：農(nóng)作物葉部病害已經(jīng)嚴重影響農(nóng)作物的產(chǎn)量和質(zhì)量，為提高農(nóng)作物葉片病害識別的效果、減少經(jīng)濟損失、提高種植者的收益，提出基于超圖的雙模態(tài)特征融合的農(nóng)作物病害識別算法BimodalFINet。BimodalFINet由文本模態(tài)分支、圖像模態(tài)分支和超圖神經(jīng)網(wǎng)絡(luò)構(gòu)成。首先利用循環(huán)神經(jīng)網(wǎng)絡(luò)和改進的卷積神經(jīng)網(wǎng)絡(luò)構(gòu)造圖像文本雙分支并行結(jié)構(gòu)，提取語義特征信息和富含空間位置信息的特征表示，得到2種模態(tài)特征，然后利用特征融合方法實現(xiàn)各分支特征信息的互補與融合，得到包含更加豐富的病害雙模態(tài)特征信息。最后利用超圖神經(jīng)網(wǎng)絡(luò)將上述融合后的雙模態(tài)特征信息進行編碼以獲得數(shù)據(jù)之間的相關(guān)性和數(shù)據(jù)表示，提升模型識別準確率。結(jié)果表明，BimodalFINet的文本模態(tài)分支TextRNN取得91.28%的識別準確率，圖像模態(tài)分支RexNext50-CA取得89.20%的識別準確率，相比于單個ResNext50模型提高了1.08百分點，聯(lián)合模態(tài)分支取得92.32%的識別準確率，相比于圖像和文本單模態(tài)模型分別提高了3.12百分點和1.04百分點，加入超圖后模型取得94.83%的識別準確率，相比于聯(lián)合模態(tài)模型提高了2.51百分點。嵌入超圖后的模型具有更好的特征提取能力，能夠為田間環(huán)境下農(nóng)作物的病害識別提供有效技術(shù)支持。

關(guān)鍵詞：農(nóng)作物病害；超圖神經(jīng)網(wǎng)絡(luò)；卷積神經(jīng)網(wǎng)絡(luò)；特征融合；雙模態(tài)

中圖分類號：TP391.41 文獻標志碼：A

文章編號：1002-1302（2023）15-0164-09

基金項目：國家重點研發(fā)計劃（編號：2019YFC1606600）。

作者簡介：張凈（1975—），女，江蘇鎮(zhèn)江人，博士，副教授，碩士生導(dǎo)師，研究方向為計算機應(yīng)用。E-mail：jszj08062000@163.com。

通信作者：邵文文，碩士研究生，研究方向為機器視覺。E-mail：355060863@qq.com。

現(xiàn)階段，農(nóng)作物病害已經(jīng)成為我國面臨的重大挑戰(zhàn)之一，隨著農(nóng)業(yè)生產(chǎn)能力的不斷提升，生產(chǎn)環(huán)境隨之復(fù)雜化，在生產(chǎn)過程中遇到病害的情況也越加頻繁，對農(nóng)作物的生長造成了非常嚴重的影響，從而加劇農(nóng)作物食品安全問題［1-2］。隨著計算機技術(shù)的不斷進步，卷積神經(jīng)網(wǎng)絡(luò)在眾多領(lǐng)域如圖像識別方面不斷取得新的突破，現(xiàn)階段眾多專家學(xué)者運用卷積神經(jīng)網(wǎng)絡(luò)提取病害特征，從而幫助農(nóng)業(yè)工作者識別診斷農(nóng)作物病害，及時發(fā)現(xiàn)農(nóng)作物病害的癥狀并作出預(yù)防措施［3-6］。Too等基于PlantVillage數(shù)據(jù)庫對VGG、ResNet、DenseNet和ResNext等卷積神經(jīng)網(wǎng)絡(luò)進行評估，最終DenseNet達到了最佳的分類效果［7-11］。侯志松等提出一種基于集成學(xué)習(xí)的圖像分類模型，該模型平均準確率為96.9%，效果較好［12］。Hou等提出坐標注意力，該機制通過嵌入病害位置信息到通道注意力，在獲取更大范圍的病害信息的同時避免了較大開銷，性能較好［13］。

由于卷積神經(jīng)網(wǎng)絡(luò)的相鄰輸入并無直接相關(guān)性，而語言又具有序列性，所以卷積神經(jīng)網(wǎng)絡(luò)在語言識別領(lǐng)域中效果較差。循環(huán)神經(jīng)網(wǎng)絡(luò)某一時刻v隱藏層的值是由v的輸入和v-1時的輸入所決定的，所以循環(huán)神經(jīng)網(wǎng)絡(luò)適合序列數(shù)據(jù)的建模。Lai等提出一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）的文本分類模型TextRNN，該模型利用RNN捕獲更長的序列信息，從而獲得更佳的識別效果［14］。

圖是不規(guī)則結(jié)構(gòu)且蘊含豐富的信息，卷積神經(jīng)網(wǎng)絡(luò)的卷積操作無法在圖結(jié)構(gòu)上進行有效的計算，而圖神經(jīng)網(wǎng)絡(luò)節(jié)點通過邊相連，將不同樣本（節(jié)點）之間的關(guān)系等信息進行有效和充分的表達，從而圖神經(jīng)網(wǎng)絡(luò)能夠高效地利用樣本（節(jié)點）實例之間的結(jié)構(gòu)性特征，但普通圖網(wǎng)絡(luò)邊的度僅被設(shè)置為2，不能建模數(shù)據(jù)之間的高階關(guān)系，Berge提出超圖理論并全面提出無相超圖理論，同時對普通圖和超圖進行比較：超圖是普通圖的重要擴展，普通圖僅能表現(xiàn)2個節(jié)點之間存在的相關(guān)性，而超圖中的邊即超邊能包含任意數(shù)量的節(jié)點并能表現(xiàn)多個節(jié)點之間存在的某種關(guān)系［15-16］。黃汝激提出有向超圖理論，并解釋分解超圖等概念［17］。Feng等提出超圖神經(jīng)網(wǎng)絡(luò)（HGNN）框架，與普通圖結(jié)構(gòu)邊的度被限制為2不同，超圖神經(jīng)網(wǎng)絡(luò)可以使用無度超邊編碼數(shù)據(jù)之間的相關(guān)性并通過超邊卷積運算處理表示學(xué)習(xí)過程中的數(shù)據(jù)相關(guān)性，從而通過超圖神經(jīng)網(wǎng)絡(luò)有效提升雙模態(tài)融合的效果，進而提升模型識別準確率［18］。

現(xiàn)階段大部分農(nóng)作物病害識別模型都是基于圖像模態(tài)，但在使用圖像單模態(tài)進行農(nóng)作物病害識別時，現(xiàn)有方法未能有效利用農(nóng)作物病害描述文本信息，而人們根據(jù)相關(guān)農(nóng)作物病害圖像作出的文本描述通常含有豐富的語義信息，其與圖像模態(tài)在描述病害信息中存在高度相關(guān)性和互補性，兩者的結(jié)合能融合2種模態(tài)之間的共性和特性，現(xiàn)如今已有相關(guān)學(xué)者對此進行探究，并充分挖掘雙模態(tài)甚至是多模態(tài)的潛力。本研究提出一種基于超圖的雙模態(tài)特征融合的農(nóng)作物病害識別算法，將圖像模態(tài)、文本模態(tài)以及超圖神經(jīng)網(wǎng)絡(luò)進行結(jié)合以改善現(xiàn)有農(nóng)作物病害識別方法識別準確率低的問題。

1 農(nóng)作物病害識別模型

1.1 病害圖像模態(tài)分支

本節(jié)將ResNext50-CA網(wǎng)絡(luò)作為特征提取模塊，模塊包括ResNext50和坐標注意力機制2個部分。ResNext是結(jié)合ResNet與Inception思想設(shè)計的特征提取網(wǎng)絡(luò)，采用殘差結(jié)構(gòu)和多分路卷積，并引入分組卷積以解決Inception網(wǎng)絡(luò)需要專門設(shè)成不同結(jié)構(gòu)導(dǎo)致參數(shù)量增多的問題，相同的構(gòu)造不僅簡化了網(wǎng)絡(luò)，而且增強了模型的特征表達能力。為有效獲取長范圍依賴的信息，使模型更準確地定位并識別目標區(qū)域，本研究在ResNext50網(wǎng)絡(luò)中嵌入坐標注意力，見圖1-a。坐標注意力將通道注意力分為2個一維特征編碼過程，分別沿2個空間方向聚合特征，通過水平與垂直方向注意力圖不僅能捕獲特征的遠程依賴關(guān)系，還可以有效保持精準的位置信息，提高網(wǎng)絡(luò)識別目標的準確率。

圖1-b為嵌入坐標注意力機制前ResNext50網(wǎng)絡(luò)殘差模塊的結(jié)構(gòu)圖，其中圖1-a（除虛線包含的部分）與圖1-b所示網(wǎng)絡(luò)嚴格等價。由圖1-b可知，每個分組結(jié)構(gòu)都是采用1×1和3×3卷積操作組合而成，圖像首先經(jīng)過1×1卷積層降低維度，降低后續(xù)卷積操作的計算量，然后通過3×3卷積層獲得相關(guān)特征信息，其次通過嵌入的坐標注意力機制捕獲特征遠程依賴關(guān)系以及精準的位置信息，再通過1×1卷積層升維，最后對每個分組的輸出進行加權(quán)計算。

如圖2所示，坐標注意力網(wǎng)絡(luò)主要包括2個部分，分別為坐標注意力生成和坐標信息嵌入。首先，對于輸入特征圖X分別設(shè)其長、寬和通道數(shù)為 H、W 和 C，先利用尺寸為（H，1）和（1，W）的平均池化沿著水平和垂直方向?qū)γ?通道進行編碼，得到1對方向感知特征圖，此操作不僅能保存1個空間方向的精確位置信息，還能捕獲到沿著另一個空間方向的長期相關(guān)性，使網(wǎng)絡(luò)更加精準的定位感興趣的目標。然后，將上述生成的特征圖進行級聯(lián)，使用1個共享的1×1卷積層進行變換以對通道進行降維，并通過1個非線性激活層，得到具有垂直和水平方向空間信息的中間特征圖，圖2中r表示下采樣比例，用來控制模塊大小。其次，沿著空間維度將中間特征圖進行切分得到2個單獨的張量，利用2個1×1卷積層將切分的2個單獨張量變換到與輸入特征圖X相同的通道數(shù)，并用Sigmoid激活函數(shù)引入非線性，最后進行輸入-輸出殘差連接操作。

1.2 病害文本模態(tài)分支

TextRNN利用循環(huán)神經(jīng)網(wǎng)絡(luò)的線性序列結(jié)構(gòu)處理數(shù)據(jù)中的序列關(guān)系，但當序列較長時則會存在梯度消失問題，為解決這一問題，本研究選擇使用長短期記憶網(wǎng)絡(luò)（LSTM）對TextRNN中的循環(huán)單元進行改進。LSTM由3個門控（遺忘門、輸入門和輸出門）組成。遺忘門利用Sigmoid函數(shù)決定哪些信息會被遺忘。輸入門主要由Sigmoid層和Tanh層組成，輸入門先通過Sigmoid層決定哪部分數(shù)值需要更新，再通過Tanh層產(chǎn)生新的候選值向量并加入到細胞狀態(tài)當中，從而實現(xiàn)對狀態(tài)的更新。輸出門決定什么信息需要輸出，其主要利用Sigmoid函數(shù)來實現(xiàn)這一目的。然后利用Tanh層對細胞狀態(tài)進行處理，兩者相乘得到最終的輸出信息。由上述可知，LSTM通過其門控結(jié)構(gòu)使得網(wǎng)絡(luò)在計算下一個單詞的輸出時，仍會考慮上一個單詞的輸出，實現(xiàn)有選擇地遺忘不需要的信息，有選擇地輸入輸出需要的信息，從而捕獲更為詳盡的長期與短期的文本特征。

文本模態(tài)分支結(jié)構(gòu)見圖3，TextRNN首先將句子中的詞向量序列作為輸入逐個輸送到雙向LSTM中，該層可以實現(xiàn)信息有選擇地通過，其主要利用LSTM中的Sigmoid函數(shù)和點乘操作，并在單個LSTM基礎(chǔ)上加入1個將信息流反向的LSTM以避免網(wǎng)絡(luò)只關(guān)注數(shù)據(jù)的上文而忽略下文，以此捕捉數(shù)據(jù)長短期時間依賴，捕獲完整的過去和未來的上下文信息。其次，將語句中的詞向量輸送到雙向LSTM層后，在輸出層可以獲得每個時間步長神經(jīng)元的正反雙向信息流的輸出，將二者拼接，形成最終的雙向LSTM的輸出。

1.3 特征融合層

ResNext50-CA網(wǎng)絡(luò)和TextRNN網(wǎng)絡(luò)分別提取圖像和文本特征，并且在特征維度層進行融合，融合方式采用的是Concat方式，即拼接方式，拼接的特征融合方式直接將2種特征在通道數(shù)維度上拼接起來，增加了特征維度，保留所有的完整信息。拼接的融合方式可以讓深度學(xué)習(xí)網(wǎng)絡(luò)自己去學(xué)習(xí)每個信息的重要性，增加信息量的同時也降低了錯誤發(fā)生的概率。

1.4 超圖神經(jīng)網(wǎng)絡(luò)

雙模態(tài)融合網(wǎng)絡(luò)利用模態(tài)之間的互補與融合實現(xiàn)正確分類，從而提升網(wǎng)絡(luò)的識別準確率。超圖神經(jīng)網(wǎng)絡(luò)利用其易于靈活的無度超邊對數(shù)據(jù)之間的相關(guān)性進行建模，提升模態(tài)融合的效果，從而得到更好的識別準確率和穩(wěn)定性，普通圖和超圖分別如圖4、圖5所示，圖中圓圈表示頂點，曲線表示超邊，普通圖中邊的度必須為2，而超圖神經(jīng)網(wǎng)絡(luò)中邊的度為任意非負整數(shù)，同一條超邊可以連接不同的頂點用于表示相連接的頂點之間存在相關(guān)性。

本研究將病害圖像模態(tài)分支與文本模態(tài)分支分別訓(xùn)練并進行特征融合后輸送入超圖神經(jīng)網(wǎng)絡(luò)，如圖6所示。首先，超圖神經(jīng)網(wǎng)絡(luò)利用雙模態(tài)病害數(shù)據(jù)集的復(fù)雜相關(guān)性構(gòu)建相應(yīng)的超邊組H1和H2，并對超邊組進行拼接操作得到關(guān)聯(lián)矩陣H，關(guān)聯(lián)矩陣是描述圖的一種矩陣表示，用以代表超圖神經(jīng)網(wǎng)絡(luò)中頂點和超邊之間的相關(guān)性，關(guān)聯(lián)矩陣見圖7。

除此以外，可以用公式（1）表示關(guān)聯(lián)矩陣，公式如下：

式中：v表示超圖頂點；e表示超邊。如果頂點包含在超邊中，則將關(guān)聯(lián)矩陣中相應(yīng)位置記為1，否則記為0。然后將超圖的關(guān)聯(lián)矩陣和數(shù)據(jù)集中所包含的節(jié)點特征輸送到超邊卷積層中進行卷積操作以學(xué)習(xí)高維數(shù)據(jù)的隱含特征，其中卷積操作可以用公式（2）、公式（3）表示。

式中：X（0）表示經(jīng)兩模態(tài)分支特征融合后的輸入X；σ為非線性激活函數(shù)；X（l）∈RN×C表示超圖神經(jīng)網(wǎng)絡(luò)在l層的信號；Dv和De表示歸一化；θ（l）表示過濾處理矩陣，H表示關(guān)聯(lián)矩陣，W表示各條超邊權(quán)重的對角矩陣。最后輸出病害類別標簽，輸出公式Y(jié)如下所示。

式中：θ表示可訓(xùn)練參數(shù)；Y表示可用于分類任務(wù)的超圖卷積公式以此得到輸出病害類別標簽。

經(jīng)過以上運算可以使超圖更好地細化特性，可以有效處理學(xué)習(xí)過程中出現(xiàn)的復(fù)雜數(shù)據(jù)的相關(guān)性，從而更好地識別出各種農(nóng)作物的病害。

1.5 BimodalFINet網(wǎng)絡(luò)架構(gòu)

BimodalFINet包括圖像模態(tài)分支、文本模態(tài)分支和超圖神經(jīng)網(wǎng)絡(luò)3個部分，BimodalFINet輸入為農(nóng)作物病害圖像-文本對。

BimodalFINet網(wǎng)絡(luò)架構(gòu)見圖8，網(wǎng)絡(luò)由ResNext50-CA、TextRNN以及超圖神經(jīng)網(wǎng)絡(luò)組成，網(wǎng)絡(luò)架構(gòu)圖中各個方塊表示模塊所構(gòu)造的參數(shù)和結(jié)構(gòu)，其中ResNext50-CA架構(gòu)圖中的×3、×4、×6、×3 表示殘差模塊重復(fù)堆疊的數(shù)量，C表示為分組的數(shù)量，CA表示坐標注意力，1×1和3×3等表示卷積核的尺寸，K表示類別數(shù)量。圖像數(shù)據(jù)先輸入進ResNext50-CA模型中，再經(jīng)過多個卷積層，得到的輸出尺寸為7×7，最后輸入到全連接層，得到的輸出尺寸為1×1。經(jīng)過圖像分支后每張圖像最終得到1×1 000的向量。

文本數(shù)據(jù)輸入進TextRNN模型后，經(jīng)過嵌入層與多個LSTM層以捕獲更為詳盡的長期與短期的文本特征，每張圖像對應(yīng)的文字描述最終得到1個 1×1 024的向量。2種模態(tài)通過特征融合得到1個融合的1×2 024特征向量，即超圖神經(jīng)網(wǎng)絡(luò)的輸入。由于真實的圖往往是高維且難以處理的，所以圖神經(jīng)網(wǎng)絡(luò)將高維圖進行編碼成低維向量表示來學(xué)習(xí)高維圖結(jié)構(gòu)信息。超圖神經(jīng)網(wǎng)絡(luò)先將圖中每個節(jié)點映射編碼成對應(yīng)的向量表示，節(jié)點的向量表示保留了圖的結(jié)構(gòu)和節(jié)點之間的連接，超圖神經(jīng)網(wǎng)絡(luò)通過將原始特征映射到各個節(jié)點以及超邊上，這樣在保留特征的同時更可以保留每個特征之間的相關(guān)信息，提高模態(tài)之間的融合度。之后采用2個超邊卷積層提取特征，其中每個超邊卷積層包含16個隱藏節(jié)點，概率為0.5的Dropout層以防止過擬合，激活函數(shù)采用ReLU，最后通過輸出的超圖節(jié)點來預(yù)測得到標簽。

2 農(nóng)作物病害分類試驗設(shè)計

2.1 數(shù)據(jù)集

試驗應(yīng)用的數(shù)據(jù)集為田間實際應(yīng)用場景下拍攝的病害圖像，數(shù)據(jù)集包括5種農(nóng)作物（蘋果、馬鈴薯、辣椒、玉米、番茄）下的7類病害（蘋果黑星病、蘋果銹病、馬鈴薯早疫病、馬鈴薯晚疫病、玉米葉枯病、甜椒葉斑病、番茄早疫?。﹫D像，共包含5 178張圖片（表1），均獲取于Kaggle官方網(wǎng)站（https：//www.kaggle.com），文本數(shù)據(jù)集共包含5 178條數(shù)據(jù)。每種病害所包含的樣本量見表1。本研究抽取數(shù)據(jù)集中80%的圖像作為訓(xùn)練集，其余20%的圖像作為測試集，病害文本數(shù)據(jù)集是由2名農(nóng)業(yè)研究員對照病害文本數(shù)據(jù)集中的圖像進行描述，如表2所示，該數(shù)據(jù)集部分樣本描述。

2.2 數(shù)據(jù)預(yù)處理

預(yù)處理主要將數(shù)據(jù)集中的圖像裁剪為統(tǒng)一標準的224×224，使得在模型輸入維度相同的情況下比較各模型之間的性能。

在病害文本輸入循環(huán)神經(jīng)網(wǎng)絡(luò)前需要進行一系列處理。首先將文本數(shù)據(jù)集通過jieba分詞工具進行中文分詞，去除文本中如“的”“和”等無意義停用詞和相應(yīng)的標點符號，使得在試驗中減少文本數(shù)據(jù)集中的噪聲數(shù)據(jù)，提高分類算法的分類效果。此外，還需要將中文文本進行文本向量化，將文本向量表示后的數(shù)據(jù)作為TextRNN的輸入，對中文文本進行訓(xùn)練。

2.3 試驗環(huán)境及相關(guān)參數(shù)設(shè)置

本試驗于2022年3—7月在江蘇大學(xué)電氣信息工程學(xué)院實驗室完成模型訓(xùn)練和測試過程。本試驗硬件環(huán)境為2個RTX2060s，軟件環(huán)境則采用Ubuntu 16.04操作系統(tǒng)以及Pytorch深度學(xué)習(xí)框架，其CUDA API的版本為9.1，cuDNN的版本為9.0，算法實現(xiàn)語言采用Python 3.6.3版本。

本試驗設(shè)計以及對照試驗過程中參數(shù)設(shè)置：學(xué)習(xí)率為0.000 1，Batch-size設(shè)為32，本試驗采用自適應(yīng)距估計（adaptive moment estimation，Adam）優(yōu)化算法，并設(shè)置參數(shù)β1=0.9，β2=0.999，ε=1×10-8，迭代次數(shù)為100。

3 結(jié)果與分析

3.1 試驗評價指標

本研究將改進后的模型在數(shù)據(jù)集上進行訓(xùn)練和測試，采用準確率（Accuracy）和F1值對改進后的模型性能進行評價，公式如下：

式中：TP表示預(yù)測為正類，真實為正類；TN表示預(yù)測為負類，真實為負類；FP表示真實為負類，預(yù)測為正類；FN表示真實為正類，預(yù)測為負類。

3.2 圖像分支模型對比試驗

相同試驗條件下，采用準確率和F1值作為模型性能的評價指標。由表3所知，對6種圖像識別模型進行比較，結(jié)合各個模型在數(shù)據(jù)集上的表現(xiàn)，選擇最優(yōu)模型，本節(jié)圖像分支模型采用Adam優(yōu)化器，學(xué)習(xí)率為0.000 1，Dropout設(shè)置為0.5。

由表3可知，各個模型平均準確率均在87%以上，平均準確率排名第一的為ResNet18，平均準確率為89.61%，其次是ResNext50，其平均準確率為89.20%，說明深度學(xué)習(xí)模型應(yīng)用于農(nóng)作物病害識別中具有較好的表現(xiàn)。各個模型的F1值也達到82%～88%，F(xiàn)1值排名第一的為ResNet18，其F1值為87.29%，其次是ResNext50，其F1值為86.52%，表明圖像分支對照組中的各模型在不同的類別中的表現(xiàn)差異相對較小，相對均衡。

不同模型的準確率曲線見圖9。ResNet18和ResNext50均達到較高的準確率，分類效果優(yōu)于其他模型。從收斂速度上來看，ResNext 50的收斂速度比較快，能夠在第30次迭代左右趨于收斂，由此可以得出，ResNext50能夠在較短的時間內(nèi)訓(xùn)練出較為優(yōu)秀的模型，其余圖像單模態(tài)分支對照組中的各模型在訓(xùn)練過程中相對穩(wěn)定，表現(xiàn)良好。

3.3 文本分支模型對比試驗

本節(jié)使用TextRCNN、TextRNN、TextRNN_Attention和TextCNN 4種經(jīng)典文本特征提取網(wǎng)絡(luò)選取文本分支最優(yōu)模型［19-21］。文本分支模型采用Adam，學(xué)習(xí)率為0.000 1，Dropout為0.5。由表4可以看出，所有文本分支對照組的測試集結(jié)果中4種網(wǎng)絡(luò)的平均準確率均超過91%，其中TextRCNN的平均準確率最高，為91.72%，其次是TextRNN，其平均準確率為91.28%，各個網(wǎng)絡(luò)的F1 值也均超過88%，其中最高的為TextRCNN，F(xiàn)1值為89.44%，其次是TextRNN，F(xiàn)1 值為88.75%，說明循環(huán)神經(jīng)網(wǎng)絡(luò)的線性序列結(jié)構(gòu)能將之前輸入的整個歷史映射到每個輸出，使得網(wǎng)絡(luò)能夠較為準確地提取農(nóng)作物病害描述文本的特征并對其進行分類。由圖10可知，文本分支各個模型在訓(xùn)練過程中相對穩(wěn)定，由于TextRCNN通過雙向RNN結(jié)構(gòu)取代了TextCNN卷積層的特征提取，即由卷積層+池化層轉(zhuǎn)化為雙向RNN+池化層，所以其在病害文本數(shù)據(jù)集中的效果最優(yōu)。

3.4 聯(lián)合分支模型對比試驗

在病害特征不突出的情況下，卷積神經(jīng)網(wǎng)絡(luò)較難從圖像單模態(tài)中學(xué)習(xí)到足夠的病害特征以實現(xiàn)正確分類。當存在不準確病害描述文本的情況下，僅使用文本進行病害判斷也會導(dǎo)致準確率的下降。本節(jié)采用圖像和文本雙模態(tài)聯(lián)合對農(nóng)作物病害進行識別?？紤]到各模型的準確率以及F1值，選擇圖像分支與文本分支中的部分網(wǎng)絡(luò)進行組合，2個分支分別優(yōu)化以達到最優(yōu)的分類效果。本節(jié)優(yōu)化器采用Adam，學(xué)習(xí)率采用0.000 1。

如表5所示，雙模態(tài)對照組中采用圖像分支中F1值高的4種網(wǎng)絡(luò)分別與文本分支對照組中的不同網(wǎng)絡(luò)進行結(jié)合，其中，采用的4種圖像單模態(tài)分支網(wǎng)絡(luò)分別為ResNet18-CA、VGG16-CA、ResNext50-CA、DenseNet121-CA，采用的聯(lián)合分支對照組如表4中所示模型。

由表5可知，試驗中的聯(lián)合模型均取得了較好的識別準確率和F1值，其中平均準確率最高的為ResNext50-CA+TextRNN，平均準確率為93.22%，F(xiàn)1值為92.07%。但僅利用圖像和文本單模態(tài)時，兩種單模態(tài)模型的平均準確率為89.20%和91.28%，從而表明使用雙模態(tài)聯(lián)合分支模型比使用圖像或文本單分支模型的分類效果更佳，并且從圖11中可以看出，與圖像和文本單分支對照組相比，聯(lián)合分支中各個網(wǎng)絡(luò)模型的平均準確率的上升速度較為明顯。由此說明，2種模態(tài)相互結(jié)合的識別性能比單模態(tài)的要好。

3.5 加入超圖后聯(lián)合分支模型對比試驗

為了更好地提升雙模態(tài)融合效果，本節(jié)將5種網(wǎng)絡(luò)分別輸送入超圖神經(jīng)網(wǎng)絡(luò)，利用超圖神經(jīng)網(wǎng)絡(luò)多元復(fù)雜關(guān)系展示能力提升模態(tài)融合效果，得到更好的識別準確率，本節(jié)優(yōu)化器采用Adam，學(xué)習(xí)率采用0.000 1，Dropout采用0.5，可以防止過擬合。

如表6和圖12所示，聯(lián)合分支對照組中各個模型加入超圖神經(jīng)網(wǎng)絡(luò)后的識別準確率和F1值均有提升，其中5種網(wǎng)絡(luò)加入超圖神經(jīng)網(wǎng)絡(luò)后平均準確率分別提升1.55、1.42、1.03、1.54、1.61百分點。由此說明，超圖神經(jīng)網(wǎng)絡(luò)能夠利用超圖構(gòu)建和相關(guān)超邊卷積計算表示復(fù)雜數(shù)據(jù)之間的相關(guān)性，從而增強圖像和文本模態(tài)結(jié)合的融合度，進而提升網(wǎng)絡(luò)的識別準確率。

3.6 消融試驗

為了驗證各個模塊在BimodalFINet網(wǎng)絡(luò)中的貢獻，本研究在數(shù)據(jù)集上進行消融試驗，各組試驗所得到的平均準確率和F1值見表7。從表7可以看出，ResNext50未加入坐標注意力時，平均準確率為88.12%，嵌入坐標注意力機制后模型平均準確率提升1.08百分點，說明坐標注意力對于模型平均準確率的提升有一定促進作用。在ResNext50-CA基礎(chǔ)上聯(lián)合TextRNN，模型的平均準確率和F1 值進一步提升，分別提升近4.02、5.55百分點，說明雙模態(tài)融合網(wǎng)絡(luò)能有效利用圖像模態(tài)以及根據(jù)病害圖像作出的文本描述所含有的語義信息。在ResNext50聯(lián)合坐標注意力和TextRNN后輸送入超圖神經(jīng)網(wǎng)絡(luò)，模型的識別準確率和F1值進一步提升，分別提升了1.61%、1.92%，說明超圖神經(jīng)網(wǎng)絡(luò)通過構(gòu)建超圖和超邊卷積運算能提升雙模態(tài)之間的融合度，最終達到較高的平均準確率，綜上所述，本模型在數(shù)據(jù)集上表現(xiàn)出了良好的識別效果，能夠有效的對病害進行識別。

4 結(jié)論

本研究提出一種基于超圖神經(jīng)網(wǎng)絡(luò)的雙模態(tài)特征融合的農(nóng)作物病害識別算法（BimodalFINet）用于農(nóng)作物病害識別，從而避免傳統(tǒng)方法依賴于費力且耗時的人工特征設(shè)計，該算法包含ResNext50-CA、TextRNN和超圖神經(jīng)網(wǎng)絡(luò)3個部分，圖像模態(tài)分支采用基于坐標注意力的卷積神經(jīng)網(wǎng)絡(luò)（ResNext50-CA）提取相關(guān)病害特征，坐標注意力機制通過在像素坐標系中的有效定位，使得模型能關(guān)注于感興趣的區(qū)域，從而達到更好的分類效果。文本模態(tài)分支采用TextRNN，為了避免梯度消失等問題，本研究對TextRNN的循環(huán)單元進行改進，嵌入LSTM，使得網(wǎng)絡(luò)能同時考慮到長期和短期的病害文本特征。圖像和文本2種模態(tài)在特征維度層進行融合，并輸送入超圖神經(jīng)網(wǎng)絡(luò)進行分類，超圖神經(jīng)網(wǎng)絡(luò)使用超圖結(jié)構(gòu)進行建模，即利用超圖的無度超邊（超越普通圖的成對連接）編碼數(shù)據(jù)之間的高階關(guān)系，并通過超邊卷積運算學(xué)習(xí)雙模態(tài)之間復(fù)雜的數(shù)據(jù)相關(guān)性，從而超圖神經(jīng)網(wǎng)絡(luò)能充分利用農(nóng)作物病害圖像與農(nóng)作物病害文本描述之間的相關(guān)性，進一步增強網(wǎng)絡(luò)的融合效果，得到更佳的識別準確率。綜上所述，本研究提出的方法能有效改善單模態(tài)模型識別準確率低導(dǎo)致消耗過多人力財力的問題。此外，本研究所提出的模型是一種通用框架，在使用過程中可以使用更為優(yōu)異的卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)以及圖神經(jīng)網(wǎng)絡(luò)以達到最優(yōu)的識別效果。為了進一步提升模型的識別準確率，后期將會對模型進行改進，使得模型能夠更好地應(yīng)用于農(nóng)業(yè)實踐當中。

參考文獻：

［1］王桂榮，王源超，楊光富，等. 農(nóng)業(yè)病蟲害綠色防控基礎(chǔ)的前沿科學(xué)問題［J］. 中國科學(xué)基金，2020，34（4）：374-380.

［2］王景鳳. 農(nóng)作物科學(xué)種植及病蟲害防治技術(shù)［J］. 農(nóng)業(yè)災(zāi)害研究，2021，11（8）：166-167.

［3］張珂，馮曉晗，郭玉榮，等. 圖像分類的深度卷積神經(jīng)網(wǎng)絡(luò)模型綜述［J］. 中國圖象圖形學(xué)報，2021，26（10）：2305-2325.

［4］季長清，高志勇，秦靜，等. 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類算法綜述［J］. 計算機應(yīng)用，2022，42（4）：1044-1049.

［5］陳超，齊峰.卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展及其在計算機視覺領(lǐng)域中的應(yīng)用綜述［J］. 計算機科學(xué)，2019，46（3）：63-73.

［6］李書琴，陳聰，朱彤，等. 基于輕量級殘差網(wǎng)絡(luò)的植物葉片病害識別［J］. 農(nóng)業(yè)機械學(xué)報，2022，53（3）：243-250.

［7］Too E C，Li Y J，Njuki S，et al. A comparative study of fine-tuning deep learning models for plant disease identification［J］. Computers and Electronics in Agriculture，2019，161：272-279.

［8］Simonyan K，Zisserman A.Very deep convolutional networks for large-scale image recognition［EB/OL］. （2014-09-14）［2022-10-05］. https：//arxiv.org/abs/1409.1556.

［9］He K M，Zhang X Y，Ren S Q，et al. Deep residual learning for image recognition［C］//2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Las Vegas：IEEE，2016：770-778.

［10］Huang G，Liu Z，van der Maaten L，et al. Densely connected convolutional networks［C］//2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Honolulu：IEEE，2017：2261-2269.

［11］Xie S N，Girshick R，Dollár P，et al. Aggregated residual transformations for deep neural networks［C］//2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Honolulu：IEEE，2017：5987-5995.

［12］侯志松，冀金泉，李國厚，等. 集成學(xué)習(xí)與遷移學(xué)習(xí)的作物病害圖像識別算法［J］. 中國科技論文，2021，16（7）：708-714.

［13］Hou Q B，Zhou D Q，F(xiàn)eng J S.Coordinate attention for efficient mobile network design［C］//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Nashville：IEEE，2021：13708-13717.

［14］Lai S W，Xu L H，Liu K，et al. Recurrent convolutional neural networks for text classification［C］//Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence. New York：ACM，2015：2267-2273.

［15］Berge C. Graphs and hypergraphs［M］. Amsterdam：North-Holland Pub.Co.，1973.

［16］Berge C. Hypergraphs：combinatorics of finite sets［M］. Amsterdam：North-Holland，1989.

［17］黃汝激. 超網(wǎng)絡(luò)的有向k超樹分析法［J］. 電子科學(xué)學(xué)刊，1987，9（3）：244-255.

［18］Feng Y F，You H X，Zhang Z Z，et al. Hypergraph neural networks［C］//Proceedings of the AAAI Conference on Artificial Intelligence，2019：3558-3565.

［19］Guo B，Zhang C X，Liu J M，et al. Improving text classification with weighted word embeddings via a multi-channel TextCNN model［J］. Neurocomputing，2019，363：366-374.

［20］Amajd M，Kaimuldenov Z，Voronkov I. Text classification with deep neural networks［C］//International Conference on Actual Problems of System and Software Engineering （APSSE）. 2017：364-370.

［21］Yang Z C，Yang D Y，Dyer C，et al. Hierarchical attention networks for document classification［C］//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics：Human Language Technologies.San Diego：Association for Computational Linguistics，2016：1480-1489.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于超圖的雙模態(tài)特征融合的作物病害識別算法