楊國(guó)峰,楊 勇*
(1.中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081;2.農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,北京 100081)
(?通信作者電子郵箱wheatblue@163.com)
農(nóng)業(yè)科技是現(xiàn)在和未來中國(guó)農(nóng)業(yè)增長(zhǎng)的第一驅(qū)動(dòng)力,農(nóng)業(yè)技術(shù)推廣是實(shí)現(xiàn)科技進(jìn)步及農(nóng)業(yè)和農(nóng)村現(xiàn)代化的重要措施[1]。中國(guó)擁有國(guó)際上最大的農(nóng)業(yè)技術(shù)推廣人員隊(duì)伍,然而研究[2]表明,中國(guó)農(nóng)業(yè)技術(shù)推廣體系未能為農(nóng)民提供有效的技術(shù)服務(wù)。當(dāng)前,一大批農(nóng)業(yè)技術(shù)服務(wù)平臺(tái)都在不斷地用人工的方式解決農(nóng)業(yè)生產(chǎn)者在作物種植過程中所遇到的病害問題,而依賴人工解決問題將消耗大量的人力、物力,并且很難及時(shí)地解決農(nóng)業(yè)生產(chǎn)者的問題。隨著人工智能技術(shù)的迅猛發(fā)展,構(gòu)建專業(yè)領(lǐng)域的智能問答系統(tǒng)將能夠?yàn)槿藗兲峁?zhǔn)確的診斷結(jié)果和個(gè)性化的信息服務(wù)[3]。因此,構(gòu)建并應(yīng)用作物病害智能問答系統(tǒng)將為解決以上問題提供解決方案,同時(shí)為中國(guó)作物病害識(shí)別的智能化研究與應(yīng)用提供重要支撐。問答系統(tǒng)主要包括問題分析(問句分類)、信息檢索和答案抽取三個(gè)部分,其中問句分類作為問答系統(tǒng)的關(guān)鍵模塊,也是制約問答系統(tǒng)檢索效率的關(guān)鍵性因素[4]。
關(guān)于問答系統(tǒng)中問句分類的研究,從傳統(tǒng)的支持向量機(jī)、集成學(xué)習(xí)等[5]到基于詞嵌入[6-8],再到神經(jīng)網(wǎng)絡(luò)[9-11]分類算法,均在文本分類任務(wù)的各項(xiàng)性能評(píng)價(jià)指標(biāo)上獲得了極大提升,而預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)語言模型ELMo(Embeddings from Language Models)、OpenAI GPT(Generative Pre-trained Transformer)、BERT(Bidirectional Encoder Representations from Transformers)取得了顯著進(jìn)展[12]。由于農(nóng)業(yè)領(lǐng)域一直缺乏大規(guī)??捎玫恼Z料數(shù)據(jù)庫,因此關(guān)于農(nóng)業(yè)問答系統(tǒng)問句分類的研究還較少。針對(duì)特定農(nóng)業(yè)領(lǐng)域,少數(shù)研究者開展了語言模型在農(nóng)業(yè)問答系統(tǒng)應(yīng)用的相關(guān)研究,但仍處于起步階段。段青玲等[13]重點(diǎn)研究了基于支持向量機(jī)的文本分類,實(shí)現(xiàn)了92.5%的資訊分類準(zhǔn)確率。為了對(duì)飲食文本信息進(jìn)行二分類,趙明等[14]建立了一種基于word2vec 和長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)的分類模型,其分類準(zhǔn)確率為98.08%。趙明等[15]還構(gòu)建了基于word2vec 和雙向門控循環(huán)單元(Bi-Directional Gated Recurrent Unit,BIGRU)神經(jīng)網(wǎng)絡(luò)的番茄病蟲害問句分類模型,對(duì)2 000條番茄病蟲害用戶問句進(jìn)行病害和蟲害的二分類,結(jié)果表明,基于BIGRU 的問句分類模型優(yōu)于卷積神經(jīng)網(wǎng)絡(luò)和K最近鄰等分類算法。針對(duì)傳統(tǒng)的句子相似度算法準(zhǔn)確率較低的問題,梁敬東等[16]通過構(gòu)建基于word2vec 和LSTM 的神經(jīng)網(wǎng)絡(luò)計(jì)算問句相似度,并在水稻常問問題集中的問句上進(jìn)行驗(yàn)證,測(cè)試集準(zhǔn)確率為93.1%。為解決互聯(lián)網(wǎng)農(nóng)技推廣社區(qū)問答數(shù)據(jù)增長(zhǎng)過快的問題,張明岳等[17]構(gòu)建了一種基于卷積神經(jīng)網(wǎng)絡(luò)的農(nóng)業(yè)問答情感極性特征抽取分析模型,針對(duì)測(cè)試集的語性特征抽取準(zhǔn)確率僅為82.7%。
上述研究為神經(jīng)網(wǎng)絡(luò)應(yīng)用于常見作物病害問答系統(tǒng)問句分類提供了參考和依據(jù),但是以上研究主要存在以下兩個(gè)方面的問題:1)基于word2vec 等詞嵌入的文本編碼方式的文本表征模型還存在局限,無法準(zhǔn)確編碼同一詞在不同語境下的詞義;2)盡管構(gòu)建的LSTM、GRU 等神經(jīng)網(wǎng)絡(luò)語言模型以及在其基礎(chǔ)上改進(jìn)的雙向長(zhǎng)短期記憶(Bidirectional-Long Short Term Memory,Bi-LSTM)網(wǎng)絡(luò)、Transformer 等模型能夠利用語境信息進(jìn)行訓(xùn)練,但是相對(duì)于自然語言處理任務(wù)使用的大型語料,以上研究用來學(xué)習(xí)的監(jiān)督數(shù)據(jù)相對(duì)較少,難以學(xué)到復(fù)雜的語境表示。當(dāng)前,關(guān)于基于語境化的詞嵌入[18]利用海量的無監(jiān)督數(shù)據(jù)學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)語言模型,即神經(jīng)網(wǎng)絡(luò)語言模型的預(yù)訓(xùn)練,如ELMo、OpenAI GPT、BERT 等模型相繼出現(xiàn),其中BERT 以及基于BERT 的改進(jìn)預(yù)訓(xùn)練語言模型在多種自然語言任務(wù)上取得了最佳結(jié)果。
針對(duì)常見作物病害問答系統(tǒng)的特點(diǎn)與上述問題,本文研究構(gòu)建基于word2vec 的雙向長(zhǎng)短期記憶自注意力(Bi-LSTM Self-Attention,Bi-LSTM Self-Attention)網(wǎng)絡(luò)分類模型、Transformer 分類模型和基于BERT 的微調(diào)分類模型,分別進(jìn)行常見作物病害問句分類實(shí)驗(yàn),選取能夠高效地對(duì)常見作物病害問句進(jìn)行準(zhǔn)確分類的問句分類模型作為問答系統(tǒng)最終采用模型。
本研究使用Scrapy 爬蟲框架,在多個(gè)百科類與農(nóng)業(yè)類網(wǎng)站爬取44種常見作物病害相關(guān)的農(nóng)業(yè)生產(chǎn)用戶的問句,44種常見作物病害如表1所示。
表1 四十四種常見作物病害Tab.1 Forty-four common crop diseases
參考文獻(xiàn)[19]中對(duì)作物病害的描述信息,對(duì)收集的語料進(jìn)行預(yù)處理(去除重復(fù)數(shù)據(jù),問句轉(zhuǎn)換為陳述句等),從而構(gòu)建常見作物病害問句數(shù)據(jù)集(Common Crop Disease Question Dataset,CCDQD)。預(yù)處理后部分樣本如表2所示。
表2 部分預(yù)處理作物病害問句樣本Tab.2 Some preprocessed samples of crop disease question
本文使用自注意力技術(shù)來生成句子詞嵌入分類模型[20],由Bi-LSTM 和一層全連接Softmax 層構(gòu)成,如圖1 所示。在Bi-LSTM 的基礎(chǔ)上,模型將通過自注意力機(jī)制得到句子的表示輸出到隱藏層,然后通過全連接層進(jìn)行分類。
如圖1所示,向模型輸入一個(gè)含有n個(gè)詞的句子進(jìn)行詞嵌入,得到S=(w1,w2,…,wn),wi表示序列中第i個(gè)標(biāo)記(Token)對(duì)應(yīng)的詞嵌入。h1,h2,…,hn為隱藏層的對(duì)應(yīng)輸出,Bi-LSTM將句子嵌入為M,(m1,m2,…,mr)表示聚焦句子不同的部分,其中注意力權(quán)重為Ai1,Ai2,…,Ain。
圖1 雙向長(zhǎng)短期記憶自注意力網(wǎng)絡(luò)分類模型Fig.1 Bi-LSTM self-attention network classification model
給定訓(xùn)練集{(S(i),yi)|i=1,2,…,N},其中類別標(biāo)簽y(i)∈{1,2,…,K}(K為可能的類別數(shù)目)。為了削弱末級(jí)分類器的復(fù)雜度,強(qiáng)迫模型學(xué)習(xí)到更有效的表示,有助于下游問句分類任務(wù),把從文本S(i)生成的矩陣級(jí)別表示M(i)輸入Softmax層便得到離散類別標(biāo)簽的預(yù)測(cè)概率分布為:
其中:WS為M(i)相應(yīng)的權(quán)重;bS是偏差。
本文將Cross Entropy Loss 損失函數(shù)加上Softmax 層權(quán)值矩陣的Frobenius范數(shù)約束作為訓(xùn)練整個(gè)網(wǎng)絡(luò)的損失函數(shù):
其中:θ表示網(wǎng)絡(luò)中所有參數(shù)為p(i)的第y(i)個(gè)分量;α 是懲罰系數(shù),用來調(diào)節(jié)懲罰項(xiàng)的比重,下標(biāo)F 表示Frobenius范數(shù)。
本文構(gòu)建的Transformer 分類模型基于編碼器(Encoder)結(jié)構(gòu)[21],由于Transformer模型訓(xùn)練參數(shù)較多且模型較為復(fù)雜,因此僅使用了兩個(gè)編碼器,每個(gè)編碼器包含一個(gè)多頭注意力子層和一個(gè)前饋網(wǎng)絡(luò)子層。模型中的所有子層以及嵌入層的輸出尺寸為200。圖2為兩個(gè)編碼器的Transformer分類模型。
句子的詞嵌入(Sentence Embedding)與對(duì)應(yīng)位置詞嵌入(Position Embedding)相加后作為輸入,編碼器第一個(gè)子層是多頭自注意力(Multi-head Attention),輸出表示為sublayer(x),經(jīng)過殘差連接和層規(guī)范(Add&Layer Norm,LN)輸出為:
編碼器第二個(gè)子層是逐項(xiàng)前饋網(wǎng)絡(luò)(Feed Forward Network,F(xiàn)FN),由兩個(gè)線性變換組成,其中每一層的參數(shù)都不同,輸入和輸出的維度為200,內(nèi)部層的維度為2 400。
其中,W1、W2和b1、b2分別為output相應(yīng)線性變換的權(quán)重和偏差。
圖2 Transformer分類模型Fig.2 Transformer classification model
線性變換之后再經(jīng)過殘差連接和層規(guī)范,將最后一個(gè)編碼器第二子層的最終輸出傳遞進(jìn)全連接層并輸出分類結(jié)果。訓(xùn)練過程使用Cross Entropy Loss損失函數(shù)。
借助語言模型來輔助自然語言處理任務(wù)已經(jīng)得到了學(xué)術(shù)界較為廣泛的探討[22],通常有兩種方式:1)基于特征,指利用語言模型的中間結(jié)果(語言模型詞嵌入),將其作為額外的特征,引入到原任務(wù)的模型中,如ELMo 模型[23];2)基于微調(diào),指利用大量語料訓(xùn)練語言模型,并在語言模型基礎(chǔ)上增加少量神經(jīng)網(wǎng)絡(luò)層來完成具體任務(wù),采用有標(biāo)記的語料來有監(jiān)督地訓(xùn)練新模型,這個(gè)過程中語言模型的參數(shù)并不固定,如OpenAI GPT[24]。上述模型的輸入為從左向右輸入一個(gè)文本序列,或?qū)淖笙蛴逸斎牒蛷挠蚁蜃筝斎氲挠?xùn)練結(jié)合起來。然而,BERT 是一種新的預(yù)訓(xùn)練語言模型,即雙向編碼表征Transformer 的模型。相關(guān)研究[12]表明:雙向訓(xùn)練的語言模型對(duì)語境的理解會(huì)比單向的語言模型更深刻,提取語料特征更高效。
由于BERT 可以用于各種自然語言處理的任務(wù)(如分類任務(wù)、問答任務(wù)),且僅需在核心模型的基礎(chǔ)上進(jìn)行簡(jiǎn)單修改,因此本文將構(gòu)建基于BERT的微調(diào)分類模型,如圖3所示。
圖3 基于BERT的微調(diào)分類模型Fig.3 BERT-based fine-tuning classification model
對(duì)于問答系統(tǒng)的問句分類任務(wù),基于BERT 的微調(diào)分類模型在預(yù)訓(xùn)練BERT 模型的輸出結(jié)果后增加一個(gè)分類層(全連接層)進(jìn)行微調(diào)。
把作物病害問句輸入模型后,將被傳遞到詞嵌入層,包括進(jìn)行標(biāo)記詞嵌入、句子詞嵌入和位置詞嵌入。在圖3 和圖4中:Toki表示第i個(gè)Token,隨機(jī)遮擋部分字符;Ei表示第i個(gè)Token的嵌入向量;Ti表示第i個(gè)Token在經(jīng)過BERT處理之后得到的特征向量。
BERT 和可學(xué)習(xí)的權(quán)值矩陣(W)所有參數(shù)都經(jīng)過微調(diào),以最大化正確分類的概率。BERT 根據(jù)[CLS]標(biāo)志生成一組特征向量C,并將其與W相乘,再經(jīng)過Softmax 預(yù)測(cè)各個(gè)類別的概率,其中概率最大的類別為最后輸出的分類類別。
利用預(yù)訓(xùn)練語言模型的參數(shù)權(quán)重對(duì)模型初始化,使用Cross Entropy Loss 損失函數(shù)對(duì)基于BERT 的微調(diào)分類模型進(jìn)行有監(jiān)督的訓(xùn)練。
圖4 BERT的輸入表示Fig.4 Input representation of BERT
本研究收集44 種常見作物病害的問句,為防止數(shù)據(jù)集類別不平衡的影響,使每種作物病害樣本數(shù)相近(60~80 條),同時(shí)將每條病害問句標(biāo)注為對(duì)應(yīng)所屬類別,共得到有3 300條樣本。利用常用的優(yōu)化學(xué)習(xí)Adam 梯度下降算法[25]訓(xùn)練優(yōu)化雙向長(zhǎng)短期記憶自注意力網(wǎng)絡(luò)分類模型、Transformer 分類模型和基于BERT 的微調(diào)分類模型,再根據(jù)損失函數(shù)動(dòng)態(tài)調(diào)整每個(gè)參數(shù)的學(xué)習(xí)率。
將超參數(shù)初始化并調(diào)優(yōu),最終設(shè)置如下:訓(xùn)練批量(batch)大小為16,問句詞嵌入長(zhǎng)度為200,多注意力頭數(shù)(multi-head)為12,初始學(xué)習(xí)率為0.001,最小學(xué)習(xí)率為0.000 01,迭代次數(shù)(epochs)為100。為減輕三種模型在訓(xùn)練過程中過度參數(shù)化、過擬合,以及避免偶然出現(xiàn)的不良局部最小值現(xiàn)象,設(shè)置Dropout 參數(shù)[26]為0.1。同時(shí),為得到可靠穩(wěn)定的模型,采用十折交叉驗(yàn)證(10-fold cross-validation)的方法[27]進(jìn)行訓(xùn)練。
本文研究采用準(zhǔn)確率、精確率和召回率以及綜合指標(biāo)F1值作為問句分類模型的測(cè)評(píng)指標(biāo)[28]。其中:準(zhǔn)確率是指分類正確的問句數(shù)除以整個(gè)數(shù)據(jù)集的問句總數(shù);精確率是指分類器正確判斷為該類的問句數(shù)與分類器判斷屬于該類的問句總數(shù)之比;召回率是指分類器正確判斷為該類的問句數(shù)與屬于該類的問句總數(shù)之比。F1值是精確率和召回率的調(diào)和平均值,最大值為1,最小值為0:
其中:P為精確率;R為召回率。
對(duì)構(gòu)建的雙向長(zhǎng)短期記憶自注意力(Bi-LSTM Self-Attention)網(wǎng)絡(luò)分類模型、Transformer 分類模型和基于BERT的微調(diào)分類模型分別使用預(yù)處理后的同一數(shù)據(jù)集進(jìn)行分類實(shí)驗(yàn)。
由表3 可知,對(duì)于不同的迭代次數(shù),基于BERT 的微調(diào)分類模型與另外兩個(gè)模型相比,其準(zhǔn)確率、精確率和召回率均高幾個(gè)百分點(diǎn)。當(dāng)三個(gè)模型同時(shí)訓(xùn)練100 迭代次數(shù)時(shí),對(duì)于F1值指標(biāo),基于BERT 的微調(diào)分類模型F1值為91.92%,比Transformer 分類模型高2.62 個(gè)百分點(diǎn),比利用雙向長(zhǎng)短期記憶自注意力網(wǎng)絡(luò)分類模型高4.46個(gè)百分點(diǎn),表明:基于BERT的微調(diào)分類模型的問句分類效果最優(yōu),Transformer 分類模型居中,雙向長(zhǎng)短期記憶自注意力網(wǎng)絡(luò)分類模型結(jié)果稍差。
本實(shí)驗(yàn)也證實(shí)了雙向長(zhǎng)短期記憶自注意力網(wǎng)絡(luò)分類模型提取問句語言特征的能力弱于Transformer,盡管雙向長(zhǎng)短期記憶自注意力網(wǎng)絡(luò)分類模型增加了自注意力機(jī)制,但是Transformer 分類模型的準(zhǔn)確率、精確率和召回率以及F1值均超過了雙向長(zhǎng)短期記憶自注意力網(wǎng)絡(luò)分類模型。相較于雙向長(zhǎng)短期記憶自注意力網(wǎng)絡(luò)分類模型和Transformer 分類模型,雖然基于BERT 的微調(diào)分類模型與Transformer 分類模型的網(wǎng)絡(luò)結(jié)構(gòu)有相似的結(jié)構(gòu),但基于BERT 的微調(diào)分類模型在預(yù)訓(xùn)練階段通過無監(jiān)督的方法學(xué)習(xí)具有上下文語義的詞嵌入特征,能更好地表達(dá)語義,在微調(diào)階段再用監(jiān)督的方法訓(xùn)練BERT 模型和全連接層的參數(shù)?;贐ERT 的微調(diào)模型的優(yōu)勢(shì)在于充分利用了具有上下文語義的信息,可基于少量監(jiān)督學(xué)習(xí)樣本,針對(duì)不同下游任務(wù)改造模型實(shí)現(xiàn)目標(biāo)。實(shí)驗(yàn)結(jié)果表明,基于BERT 的微調(diào)分類模型具有結(jié)構(gòu)簡(jiǎn)單、訓(xùn)練參數(shù)少、訓(xùn)練速度快等特點(diǎn),同時(shí)能夠高效地對(duì)常見作物病害問句準(zhǔn)確分類,可以作為問答系統(tǒng)問句分類模型。
表3 問句分類模型的分類結(jié)果Tab.3 Classification results of question classification models
使用基于BERT 的微調(diào)分類模型進(jìn)行作物病害問句分類,正確分類的部分實(shí)例與對(duì)應(yīng)的分類結(jié)果如表4所示。
表4 問句分類結(jié)果的部分實(shí)例Tab.4 Some examples of question classification results
基于上述實(shí)驗(yàn),選擇作物病害問答系統(tǒng)問句分類效果最優(yōu)的基于BERT 的微調(diào)分類模型,對(duì)影響問句分類效果的樣本數(shù)量(訓(xùn)練數(shù)據(jù)集規(guī)模)進(jìn)行研究。在保持模型結(jié)構(gòu)和初始超參數(shù)不變的情況下,改變數(shù)據(jù)集規(guī)模(1 100、2 200、3 300)進(jìn)行實(shí)驗(yàn),迭代次數(shù)均設(shè)置為100次,測(cè)試結(jié)果如表5所示。
表5 不同樣本數(shù)量的模型分類結(jié)果Tab.5 Model classification results under different sample sizes
由表5可得,訓(xùn)練數(shù)據(jù)集的規(guī)模對(duì)基于BERT的微調(diào)分類模型的分類效果有較大影響。鑒于真實(shí)場(chǎng)景下作物病害識(shí)別分類對(duì)準(zhǔn)確率有較高的需求,因此在對(duì)基于BERT 的微調(diào)分類模型進(jìn)行訓(xùn)練時(shí),大量高質(zhì)量的訓(xùn)練數(shù)據(jù)集可以提高整個(gè)作物病害問答系統(tǒng)類別分類的準(zhǔn)確率。
探究基于BERT 的微調(diào)分類模型作為作物病害問答系統(tǒng)問句模型的有效性,并進(jìn)行相關(guān)實(shí)驗(yàn)。在不同樣本數(shù)量的數(shù)據(jù)集下,三種模型的有效性(F1值)如圖5所示。
由圖5可知:BERT模型的F1值在不同數(shù)量的數(shù)據(jù)集上均保持最高;而當(dāng)數(shù)據(jù)集較小時(shí),雙向長(zhǎng)短期記憶自注意力網(wǎng)絡(luò)分類模型F1值比Transformer分類模型的F1值高;隨著數(shù)據(jù)集的增大,Transformer 分類模型的F1值反超雙向長(zhǎng)短期記憶自注意力網(wǎng)絡(luò)分類模型F1值。BERT 模型的預(yù)訓(xùn)練是一個(gè)耗時(shí)的過程,通過使用預(yù)訓(xùn)練好的模型進(jìn)行分類任務(wù)微調(diào)仍然能夠?qū)崿F(xiàn)很好的分類效果,驗(yàn)證了基于BERT 的微調(diào)分類模型作為作物病害問答系統(tǒng)問句模型的有效性。
圖5 不同模型的有效性結(jié)果對(duì)比Fig.5 Validity comparison of different models
本文針對(duì)農(nóng)業(yè)問答系統(tǒng)用戶問句語義信息復(fù)雜、差異大的問題,構(gòu)建了基于BERT 用于問句分類任務(wù)的作物病害問答系統(tǒng)的問句分類模型,證實(shí)了兩階段模型(超大規(guī)模預(yù)訓(xùn)練與具體任務(wù)微調(diào))較強(qiáng)的表征學(xué)習(xí)能力對(duì)問句分類的影響。通過與雙向長(zhǎng)短期記憶自注意力網(wǎng)絡(luò)分類模型和Transformer分類模型進(jìn)行對(duì)比,由實(shí)驗(yàn)結(jié)果可知,基于BERT 的微調(diào)分類模型的準(zhǔn)確率、精確率和召回率以及F1值均高于另外兩種問句分類模型2~5 個(gè)百分點(diǎn),表明基于BERT 的微調(diào)常見作物病害問句分類模型可以高效地提取問句文字的特征,用于后續(xù)的分類實(shí)驗(yàn)。對(duì)三種模型使用不同數(shù)量的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),結(jié)果表明,隨著數(shù)據(jù)集規(guī)模的增加,基于BERT 的微調(diào)分類模型與另外兩種模型相比F1值明顯上升,表明了問句分類模型的選擇和訓(xùn)練數(shù)據(jù)集的規(guī)模對(duì)常見作物病害問答系統(tǒng)問句分類效果具有較大影響。接下來將進(jìn)一步擴(kuò)大作物病害問句類別的覆蓋范圍,滿足更多用戶對(duì)作物病害類別識(shí)別的需求。