国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

農(nóng)業(yè)文本語義理解技術(shù)綜述

2022-06-21 08:20吳華瑞王郝日欽黃素芳
關(guān)鍵詞:圖譜卷積語義

吳華瑞 郭 威 鄧 穎 王郝日欽 韓 笑 黃素芳

(1.國家農(nóng)業(yè)信息化工程技術(shù)研究中心, 北京 100097; 2.北京市農(nóng)林科學(xué)院信息技術(shù)研究中心, 北京 100097;3.農(nóng)業(yè)農(nóng)村部數(shù)字鄉(xiāng)村技術(shù)重點(diǎn)實(shí)驗(yàn)室, 北京 100097; 4.北京市農(nóng)林科學(xué)院智能裝備技術(shù)研究中心, 北京 100097;5.滄州市農(nóng)林科學(xué)院, 滄州 061001)

0 引言

目前互聯(lián)網(wǎng)農(nóng)業(yè)知識資源平臺眾多、信息量巨大且更新迭代快,但涉農(nóng)資源整合程度較低、農(nóng)業(yè)服務(wù)過程的質(zhì)量較差,普遍存在農(nóng)業(yè)專家/知識/技術(shù)進(jìn)村下鄉(xiāng)訪達(dá)不及時(shí)、科技資源匹配不精確、技術(shù)服務(wù)標(biāo)準(zhǔn)不統(tǒng)一的問題,致使農(nóng)民通過信息化手段獲取有效的農(nóng)業(yè)知識困難。為提升農(nóng)業(yè)知識服務(wù)的范圍、質(zhì)量和效率,通過人工智能面向農(nóng)業(yè)賦能是有效的方法之一,特別是隨著計(jì)算機(jī)算力的提升,自然語言處理技術(shù)得到了空前發(fā)展,其中語義理解技術(shù)在知識服務(wù)方面應(yīng)用最為廣泛,目前在法律[1]、醫(yī)學(xué)[2]、旅游[3]、農(nóng)業(yè)等垂直領(lǐng)域主要是通過構(gòu)建領(lǐng)域語料庫并針對具體任務(wù)組合或改進(jìn)通用模型,實(shí)現(xiàn)分析及處理方法的遷移,在局部語料中得到可觀的效果,并以智能問答、知識百科、信息檢索等形式進(jìn)行綜合應(yīng)用,在實(shí)際場景中得到驗(yàn)證。

圖1 農(nóng)業(yè)文本語義理解主要技術(shù)框架Fig.1 Framework of agricultural text semantic major technology

語義理解技術(shù)的發(fā)展分為3個(gè)階段。第一階段是基于規(guī)則的語義理解。主要是根據(jù)語言學(xué)理論建立語義生成的規(guī)則,描述各種語義成分及成分之間的結(jié)構(gòu)關(guān)系和意義關(guān)系。發(fā)展至今,以專家系統(tǒng)為代表在農(nóng)業(yè)知識服務(wù)領(lǐng)域已經(jīng)取得了較顯著成果[4-6],根據(jù)領(lǐng)域?qū)<抑R推理和判斷,模擬人類決策過程,以解決農(nóng)業(yè)生產(chǎn)復(fù)雜問題。但是基于規(guī)則產(chǎn)生的方法對知識需求量極大,增加了成本和復(fù)雜性,且難以根據(jù)知識更新而學(xué)習(xí)。第二階段是基于統(tǒng)計(jì)學(xué)的語義理解。主要利用機(jī)器學(xué)習(xí)的思想通過計(jì)算的手段利用經(jīng)驗(yàn)來改善計(jì)算系統(tǒng)自身性能,先由專家事先根據(jù)任務(wù)目標(biāo)對文本進(jìn)行標(biāo)注,并將這些文本作為訓(xùn)練語料,讓機(jī)器學(xué)習(xí)標(biāo)注特征。其中K近鄰、貝葉斯、支持向量機(jī)[7]、隱馬爾科夫鏈在文本語義分類、命名實(shí)體識別方面取得較好的效果。第三階段是基于神經(jīng)網(wǎng)絡(luò)的語義理解。深度學(xué)習(xí)本質(zhì)上是一種特殊的機(jī)器學(xué)習(xí),主要通過嵌套的概念層次來表示并實(shí)現(xiàn)巨大的功能靈活性,增加了運(yùn)算層數(shù),表現(xiàn)更為抽象,能夠?qū)φZ義數(shù)據(jù)進(jìn)行表征學(xué)習(xí),建立類似人腦的神經(jīng)網(wǎng)絡(luò),模仿人腦的機(jī)制解釋數(shù)據(jù)。特別隨著LSTM[8]、Transformer、BERT等模型相繼提出以及在農(nóng)業(yè)領(lǐng)域的應(yīng)用,加上遷移學(xué)習(xí)、知識蒸餾等學(xué)習(xí)方式與性能優(yōu)化模型的熟化,將基于深度學(xué)習(xí)的語義理解推至一個(gè)新的高度。

在中英文語義理解任務(wù)中,二者最大的區(qū)別在于英文單詞天然存在空格,可以非常容易的進(jìn)行分詞,而中文詞間不存在區(qū)分符,且由多個(gè)字構(gòu)成,所以中文文本的語義理解任務(wù)首先需要將文本進(jìn)行分詞。其次是詞性差異,英文存在冠詞和助動詞,有助于語義的理解,因此,相較于英文,中文語義理解存在更大的難度。

農(nóng)業(yè)領(lǐng)域語料的特殊性決定了面向農(nóng)業(yè)知識時(shí)處理方法的差異,目前有關(guān)學(xué)者針對農(nóng)業(yè)生產(chǎn)、加工、銷售、技術(shù)服務(wù)等環(huán)節(jié)的知識服務(wù)開展了一系列的研究和應(yīng)用,如基于知識圖譜的農(nóng)業(yè)品種、栽培、病蟲害等知識百科,代替農(nóng)業(yè)專家的智能問答機(jī)器人,農(nóng)業(yè)標(biāo)準(zhǔn)化生產(chǎn)輔助決策系統(tǒng)等[9-15]。為了深入分析面向農(nóng)業(yè)文本的語義理解技術(shù)和語義分析服務(wù)在農(nóng)業(yè)領(lǐng)域當(dāng)中的應(yīng)用場景,如圖1所示,本文對農(nóng)業(yè)知識圖譜、農(nóng)業(yè)文本表示、農(nóng)業(yè)文本分類等主要技術(shù)的發(fā)展加以總結(jié)和概括,對農(nóng)業(yè)語料庫、語義理解在農(nóng)業(yè)領(lǐng)域的應(yīng)用進(jìn)行分析與闡述。

1 農(nóng)業(yè)文本語義理解技術(shù)

農(nóng)業(yè)文本語義理解技術(shù)從底層的農(nóng)業(yè)知識存儲、中間層的農(nóng)業(yè)文本表示以及頂層的農(nóng)業(yè)文本分類,實(shí)現(xiàn)了農(nóng)業(yè)文本的人工智能理解全過程。其中,知識圖譜是農(nóng)業(yè)語義知識結(jié)構(gòu)化智能存儲的主要方式,通過對復(fù)雜的農(nóng)業(yè)文本數(shù)據(jù)進(jìn)行知識的抽取、融合、表示、推理,轉(zhuǎn)化為全面表達(dá)領(lǐng)域知識信息的“實(shí)體-關(guān)系-實(shí)體”的三元組,實(shí)現(xiàn)知識的可視化表示。除此之外,還需要對人類的文字轉(zhuǎn)化為計(jì)算機(jī)能夠理解和計(jì)算的數(shù)據(jù)類型,則需要通過文本的表示技術(shù),將文本數(shù)據(jù)通過詞嵌入(Word embedding)方法在文本空間內(nèi)進(jìn)行向量化的表示。形成可計(jì)算的文本向量后,計(jì)算機(jī)將載有文本特征的向量映射到多個(gè)類別上的過程,即為文本分類。

1.1 農(nóng)業(yè)知識圖譜

知識圖譜的本質(zhì)是一種語義網(wǎng)絡(luò),它是一種實(shí)體-關(guān)系-實(shí)體的三元組表示形式,2012年由Google[16]提出,最初是通過其大規(guī)模的知識表達(dá)網(wǎng)絡(luò)來優(yōu)化搜索引擎,提高搜索質(zhì)量以及用戶使用體驗(yàn)。目前,隨著人工智能技術(shù)的發(fā)展,眾多的智能應(yīng)用、智能服務(wù)相繼涌現(xiàn),知識圖譜逐漸開始被應(yīng)用于智能搜索、知識百科、智能問答、個(gè)性化推薦、輔助決策等方面。用戶搜索不再通過簡單的關(guān)鍵詞模糊匹配,而是對用戶搜索內(nèi)容進(jìn)行語義分析理解,推理用戶的實(shí)際意圖,使搜索結(jié)果更具有邏輯層次,更符合用戶的意圖。

農(nóng)業(yè)大數(shù)據(jù)存在多源異構(gòu)的特點(diǎn),數(shù)據(jù)分散無序,知識圖譜能夠有效拼接知識碎片信息(圖2),在農(nóng)業(yè)大數(shù)據(jù)融合中起到關(guān)鍵的作用,但現(xiàn)有的知識圖譜對知識的覆蓋不完整,并且依賴人工進(jìn)行大量數(shù)據(jù)的標(biāo)注,使知識圖譜在農(nóng)業(yè)中的應(yīng)用服務(wù)面臨困難。

圖2 農(nóng)業(yè)知識圖譜表示Fig.2 Demonstration of agricultural knowledge graph

圖3 知識圖譜技術(shù)路線圖Fig.3 Technology roadmap of knowledge graph

如圖3所示,農(nóng)業(yè)知識來源主要包括表格、文本、數(shù)據(jù)庫等。按照數(shù)據(jù)類型分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化的數(shù)據(jù)(表格、數(shù)據(jù)庫等)可以直接用來構(gòu)建知識圖譜。非結(jié)構(gòu)化的數(shù)據(jù)(文本、音頻、視頻、圖像等)、半結(jié)構(gòu)化數(shù)據(jù)則需要預(yù)先進(jìn)行知識抽取,再經(jīng)過知識融合,利用知識表示技術(shù),構(gòu)建可視化的知識圖譜。除此之外,通過知識推理能夠獲得新的知識,對現(xiàn)有的知識圖譜進(jìn)行迭代更新,使知識圖譜更加完善。農(nóng)業(yè)領(lǐng)域知識圖譜的研究主要集中在知識抽取、知識融合、知識表達(dá)、知識推理等方面。

1.1.1知識抽取

知識抽取是從不同來源、不同結(jié)構(gòu)的數(shù)據(jù)中提取知識,形成結(jié)構(gòu)化數(shù)據(jù)存入到知識圖譜的過程。包含實(shí)體抽取、關(guān)系抽取、屬性抽取3方面的內(nèi)容,它可以克服農(nóng)業(yè)領(lǐng)域數(shù)據(jù)存在存儲的分散性和結(jié)構(gòu)的不統(tǒng)一性問題,受到了越來越多的關(guān)注。早期的農(nóng)業(yè)知識抽取[17]是基于規(guī)則的,需要具有專業(yè)知識的專家進(jìn)行人工編寫三要素的抽取規(guī)則,然后通過模式匹配的方式進(jìn)行實(shí)體、關(guān)系、屬性的挖掘,時(shí)間成本和人力成本巨大,且農(nóng)業(yè)領(lǐng)域本體知識眾多,本體之間關(guān)系復(fù)雜,不同時(shí)空條件下相同本體擁有各異的屬性,導(dǎo)致人工編寫實(shí)體抽取規(guī)則的可擴(kuò)展性較差。

針對上述問題,多項(xiàng)研究提出了自動化和半自動化的農(nóng)業(yè)領(lǐng)域知識抽取方法。BiLSTM是目前最主流的知識抽取模型,也是知識抽取冷啟動的基礎(chǔ)模型,加入CRF之后,利用其狀態(tài)轉(zhuǎn)移矩陣來約束錯(cuò)誤的標(biāo)簽,可以使模型的F1值有明顯的提升。宋林鵬等[18]提出基于神經(jīng)網(wǎng)絡(luò)的詞向量+BiLSTM+CRF的農(nóng)業(yè)實(shí)體提取方法,實(shí)驗(yàn)證明該方法具有更好的特征抽象能力和更高的農(nóng)業(yè)實(shí)體識別精度,減少了對人工特征定義的依賴。

BiLSTM模型存在長序列前端語義稀釋導(dǎo)致信息丟失,引入注意力機(jī)制,通過生成不同的語義向量,使注意力集中在問題的關(guān)鍵部位,忽略次要部分,可有效地解決問題。趙鵬飛等[19]提出在BiLSTM+CRF的基礎(chǔ)上,通過注意力機(jī)制(Attention)獲取不同語境下的實(shí)體標(biāo)簽,以構(gòu)建農(nóng)業(yè)實(shí)體識別模型,該研究解決了傳統(tǒng)的農(nóng)業(yè)命名實(shí)體識別方法對人工特征標(biāo)注依賴性強(qiáng)、語義特征信息提取不全、實(shí)體名稱不統(tǒng)一等問題。

BERT是采用Transformers進(jìn)行特征提取的深度雙向預(yù)訓(xùn)練語義理解模型,能進(jìn)一步提升語義模型的效果。袁培森等[20]采用BERT模型對特征向量的訓(xùn)練實(shí)現(xiàn)了對水稻表型7類實(shí)體關(guān)系抽取。李悅[21]、吳賽賽等[22]將BERT與BiLSTM CRF相結(jié)合,進(jìn)行結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的半自動知識抽取、知識融合,并運(yùn)用Neo4j進(jìn)行知識存儲,實(shí)現(xiàn)了農(nóng)業(yè)病蟲害知識的抽取和知識圖譜的可視化表達(dá)。

BERT+BiLSTM+CRF模型在農(nóng)業(yè)知識抽取任務(wù)上取得了巨大的進(jìn)展,但是由于網(wǎng)絡(luò)結(jié)構(gòu)龐大,參數(shù)眾多,模型訓(xùn)練、運(yùn)算耗時(shí)較長。李亮德等[23]結(jié)合知識蒸餾方法,以BERT-ALA+BiLSTM+CRF為教師模型,以BiLSTM+CRF為學(xué)生模型進(jìn)行模型的蒸餾,進(jìn)行農(nóng)業(yè)實(shí)體抽取模型的訓(xùn)練,該方法解決了人工特征標(biāo)注的低精確度問題,減少了深度神經(jīng)網(wǎng)絡(luò)復(fù)雜度和參數(shù)量,實(shí)現(xiàn)了低延遲、高精度的農(nóng)業(yè)實(shí)體識別。

知識抽取對于農(nóng)業(yè)知識圖譜的構(gòu)建具有重要的意義,同時(shí)也面臨著巨大的挑戰(zhàn)。近年來,預(yù)訓(xùn)練語言模型的性能得到很大程度的提升,加上深度遷移學(xué)習(xí)的發(fā)展,預(yù)訓(xùn)練模型到農(nóng)業(yè)領(lǐng)域模型的遷移訓(xùn)練變得更加高效。隨著注意力機(jī)制、Transformer、知識蒸餾等技術(shù)的提出,基于弱監(jiān)督學(xué)習(xí)的農(nóng)業(yè)知識智能抽取技術(shù),得到了快速發(fā)展,已逐漸替代了基于規(guī)則的知識抽取方法,實(shí)現(xiàn)對語義特征、實(shí)體信息的高效提取。

1.1.2知識融合

知識融合是對不同數(shù)據(jù)源進(jìn)行整合,使知識庫、知識圖譜的實(shí)體信息更加全面具體的技術(shù),它包括了本體對齊、實(shí)體對齊、實(shí)體消歧、記錄鏈接、本體匹配,其本質(zhì)都是從多源信息中將相同的本體、實(shí)體進(jìn)行融合。目前,國內(nèi)外研究機(jī)構(gòu)依據(jù)不同農(nóng)產(chǎn)品、不同時(shí)空范圍、不同生產(chǎn)加工流程,構(gòu)建了大量的農(nóng)業(yè)領(lǐng)域相關(guān)的知識圖譜,而因?yàn)閭鹘y(tǒng)知識對齊等工作的人工投入成本巨大,因此始終未能形成統(tǒng)一的大規(guī)模農(nóng)業(yè)知識圖譜,亦未能實(shí)現(xiàn)對數(shù)據(jù)的有效利用。因此,自動、批量化的知識融合研究對于農(nóng)業(yè)大數(shù)據(jù)的整合、數(shù)據(jù)資源的利用、農(nóng)業(yè)決策模型的開發(fā)等具有重要的意義。實(shí)體鏈接是通過實(shí)體識別技術(shù)對文本中的實(shí)體進(jìn)行檢測,將其對應(yīng)信息與知識圖譜中對應(yīng)實(shí)體進(jìn)行鏈接,并加入到已有的知識圖譜/知識庫中,實(shí)現(xiàn)知識圖譜智能融合的技術(shù)。夏迎春[24]在構(gòu)建病蟲害知識圖譜的過程中,提出基于主題模型與實(shí)體鏈接算法(Entity linking algorithm based on topic model and graph, ELTMG),通過構(gòu)建候選實(shí)體集、構(gòu)建實(shí)體相關(guān)圖、計(jì)算最優(yōu)鏈接實(shí)體3個(gè)步驟進(jìn)行知識庫融合,在AGDISTIS算法的基礎(chǔ)上F1值提升了5.2%,獲得了更好的知識庫融合的效果。創(chuàng)建大型知識庫方面尚缺少跨庫融合應(yīng)用,大多研究仍在處理特定的小樣本知識階段。

現(xiàn)階段,隨著NLP技術(shù)的發(fā)展,知識融合在中文、英文等單語言的知識圖譜中已獲得了較好的應(yīng)用成效,但在多語言的知識譜圖融合上還有待研究和探索,成為未來知識融合的一個(gè)重要方向,將世界不同語言不同國家的開源知識庫整合,打通語言限制,實(shí)現(xiàn)知識的世界范圍共享。

1.1.3知識表示

要運(yùn)用知識圖譜中的信息,需要借助知識表示。農(nóng)業(yè)知識表示的內(nèi)容是農(nóng)業(yè)生產(chǎn)經(jīng)驗(yàn)、自然規(guī)律等,以本體為核心,以RDF三元組為框架,表達(dá)實(shí)體、標(biāo)簽、屬性、關(guān)系等多層語義關(guān)系。農(nóng)業(yè)上對知識表示開展了多項(xiàng)研究,主要采用邏輯表示法、框架表示法、語義網(wǎng)等方法進(jìn)行農(nóng)業(yè)知識的描述。

盧山[25]對產(chǎn)生式表示法、邏輯表示法、框架表示法、面向?qū)ο蟊硎痉?、語義網(wǎng)表示法進(jìn)行比對分析,結(jié)合玉米收獲機(jī)割臺設(shè)計(jì)知識的特點(diǎn),采用本體描述語言O(shè)WL進(jìn)行知識表示,實(shí)現(xiàn)了對玉米收割臺知識間復(fù)雜關(guān)系清晰的形式化表達(dá)。張熔[26]通過對各種方法的對比分析,根據(jù)水稻領(lǐng)域知識的復(fù)雜特征,采用框架表示法實(shí)現(xiàn)了基于語義的水稻病蟲害知識表示。苑超[27]通過Hadoop分布式計(jì)算框架運(yùn)行水稻領(lǐng)域知識語義網(wǎng),實(shí)現(xiàn)了云端的語義表達(dá)、查詢和推理,具有快速準(zhǔn)確的優(yōu)勢。

合理優(yōu)化設(shè)計(jì)知識表示方案,能更好地表達(dá)關(guān)系復(fù)雜的多維度農(nóng)業(yè)信息,能決定下游的知識推理和上游的知識獲取的形式和難度。因此,知識表示對農(nóng)業(yè)知識圖譜的構(gòu)建和應(yīng)用都有至關(guān)重要的作用。

1.1.4知識推理

知識推理是通過已有知識推斷出未知知識的過程。知識圖譜中的推理主要針對實(shí)體關(guān)系進(jìn)行推理,能夠輔助推理出新的事實(shí)、新的關(guān)系、新的公理以及新的規(guī)則,并以此對知識圖譜進(jìn)行補(bǔ)全。知識推理主要基于邏輯規(guī)則、圖結(jié)構(gòu)、分布式表示、神經(jīng)網(wǎng)絡(luò)等方法。在農(nóng)業(yè)領(lǐng)域,基于邏輯規(guī)則的農(nóng)業(yè)知識推理研究較為普遍。

李雪梅[28]構(gòu)建了農(nóng)業(yè)科技信息資源本體,借助Jena推理機(jī)和推理規(guī)則,提出農(nóng)業(yè)科技信息資源本體的語義推理框架,實(shí)現(xiàn)了農(nóng)業(yè)信息資源的有效推理。楊金桂[29]通過Cloud-OWL構(gòu)建云本體,對茶園氣象知識進(jìn)行表示,采用語義網(wǎng)規(guī)則語言SWRL構(gòu)建推理規(guī)則,結(jié)合描述邏輯推理和語義推理進(jìn)行農(nóng)業(yè)云本體的語義推理,建立基于云本體農(nóng)業(yè)知識服務(wù),實(shí)現(xiàn)農(nóng)業(yè)領(lǐng)域不確定性知識的高效復(fù)用。

目前,知識推理主要以提升規(guī)則挖掘效率和準(zhǔn)確度為目標(biāo),農(nóng)業(yè)領(lǐng)域大多數(shù)研究都采用基于規(guī)則的推理方法,而人工的規(guī)則制定對專家知識、人力及時(shí)間的消耗巨大,而隨著深度網(wǎng)絡(luò)技術(shù)的日益成熟,神經(jīng)網(wǎng)絡(luò)代替基于規(guī)則和圖的推理將是未來研究的發(fā)展方向。

1.2 農(nóng)業(yè)文本表示

文本表示是自然語言處理中的基礎(chǔ)工作,文本表示的性能直接影響到整個(gè)自然語言處理系統(tǒng)的性能。文本向量化就是將文本表示成一系列能夠表達(dá)文本語義的向量,是文本表示的一種重要方式。傳統(tǒng)方法是通過構(gòu)建語義詞典,比較兩個(gè)詞擁有同義詞或者上位詞集的相似性來判斷語義是否相似,常見的有WordNet[30]、Probase[31]等,但構(gòu)建詞典存在人力物力消耗巨大、覆蓋范圍有限、無法及時(shí)更新的問題,垂直領(lǐng)域構(gòu)建難度過大,應(yīng)用較少;獨(dú)熱表示法(One-hot representation)將單詞表現(xiàn)成一個(gè)與詞典大小一致的特征向量,將只有單詞對應(yīng)的位置設(shè)為1,其他位置均為0,由于該方法本質(zhì)上是一個(gè)詞袋模型,不考慮詞與詞之間的順序,且存在特征離散稀疏問題,對噪聲非常敏感;HARRIS[32]在1954年提出分布假說理論,說明出現(xiàn)在相同上下文的詞語語義相似,并由FIRTH[33]在1957年進(jìn)行了更加明確的闡述,詞的語義由其上下文刻畫,依據(jù)該假說的詞向量表示分為基于矩陣的表示、基于聚類的表示和基于神經(jīng)網(wǎng)絡(luò)的表示。HINTON等[34]在1986年提出分布表示,通過訓(xùn)練將某種語言的每一個(gè)詞映射到一個(gè)固定長度的短向量,根據(jù)詞間距離判斷語法、語義相似度。隨著算力的提升,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)在自然語言處理中逐漸占據(jù)主流,典型的包括C&W模型[35]、CBOW模型[36]、Skip-Gram模型、基于負(fù)采樣的模型等。

在傳統(tǒng)的基于機(jī)器學(xué)習(xí)的文本分類方法中,獨(dú)熱表示法是一種常用的文本表示方法。該方法將文本中的每個(gè)單詞表示為一個(gè)向量,其維度是預(yù)處理后的文本中詞匯的數(shù)量。但是,這種方法有明顯的局限性。一方面,如果整體數(shù)據(jù)較大,詞匯表中包含大量單詞,則文本向量維數(shù)會過高,嚴(yán)重影響計(jì)算效率。另一方面,one-hot忽略了上下文的語義信息,造成了嚴(yán)重的信息丟失。為了克服上述缺陷,HINTON提出了詞嵌入的概念。詞嵌入是一種分布式表示。該方法的主要思想是將單詞從高維空間映射到低維空間,解決了向量稀疏性問題。而映射到低維空間后,不同詞對應(yīng)的詞向量之間的位置關(guān)系反映了它們的語境語義信息。為了更快、更有效地訓(xùn)練詞嵌入,MIKOLOV提出了兩種神經(jīng)網(wǎng)絡(luò)語言模型:CBOW和Skip-Gram。CBOW是根據(jù)上下文預(yù)測當(dāng)前的單詞,而Skip-Gram是根據(jù)當(dāng)前的單詞預(yù)測上下文。2017年,華盛頓大學(xué)團(tuán)隊(duì)開發(fā)了一種基于3層雙向LSTM的語境嵌入模型ELMo,它具備捕獲上下文信息的能力,比Word2Vec效果表現(xiàn)更加優(yōu)秀。2018年,OpenAI開始使用Transformer構(gòu)建嵌入模型,是谷歌開發(fā)的一種新的神經(jīng)網(wǎng)絡(luò)架構(gòu)。Transformer完全基于注意力機(jī)制,大大提高了TPU上大規(guī)模模型訓(xùn)練的效率,第一個(gè)模型稱為GPT。同年,谷歌開發(fā)了基于雙向變壓器的BERT。BERT使用33億個(gè)單詞進(jìn)行訓(xùn)練,是目前最先進(jìn)的嵌入模型。使用更大模型和更多訓(xùn)練數(shù)據(jù)的趨勢仍在繼續(xù)。OpenAI最新的GPT-3模型包含1 700億個(gè)參數(shù),谷歌的GShard包含6 000億個(gè)參數(shù)。

近年,在農(nóng)業(yè)領(lǐng)域常見的文本表示模型有TF-IDF、Word2Vec、BERT等。

1.2.1TF-IDF

詞頻-逆文件頻率(Term frequency-inverse document frequency, TF-IDF)[37]是一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù),也是一種非常有效的特征提取算法。TF-IDF是一種統(tǒng)計(jì)方法,用以評估字詞對于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會隨著它在語料庫中出現(xiàn)的頻率成反比下降。TF-IDF方法可保留文本中具有代表性的低頻詞語,去除區(qū)分度低的高頻詞。

在農(nóng)業(yè)文本處理領(lǐng)域,魏芳芳等[38]利用選擇好的特征詞進(jìn)行 TF-IDF 權(quán)重計(jì)算建立相應(yīng)的文本表示模型,用于衡量該特征詞的重要程度。使用已經(jīng)編號的類別和特征向量,對每個(gè)文檔計(jì)算TF-IDF值,然后通過特征選擇、特征項(xiàng)權(quán)值計(jì)算處理,最后采用SVM 算法獲得農(nóng)業(yè)文本分類器,實(shí)現(xiàn)了中文農(nóng)業(yè)文本的精確自動分類,準(zhǔn)確率達(dá)到了95.6%,召回率達(dá)到了96.4%。杜亞茹等[39]將淺層句法分析等語言學(xué)方法與TF-DIF和C-value等統(tǒng)計(jì)學(xué)方法相結(jié)合進(jìn)行概念抽??;在分類關(guān)系抽取時(shí),基于目標(biāo)本體的已知一個(gè)分支,采用余弦距離計(jì)算概念與已知分支概念的語義距離,并結(jié)合概念之間的共現(xiàn)頻度來確定層次及上下位關(guān)系。與目前中文本體的代表性方法相比,文中提出的方法在查全率和查準(zhǔn)率方面有明顯的提高。鄭麗敏等[40]針對傳統(tǒng)的 TF-IDF 沒有考慮特征詞對類間分布狀況影響的問題,在 TF-IDF 中引入特征選擇效果較好的卡方統(tǒng)計(jì)量(Chi-square, CHI)方法進(jìn)行修正。利用改進(jìn)的特征加權(quán)處理方法提高分類精度,使 FSE_ERE 方法在高質(zhì)量的食品安全事件新聞文本中完成實(shí)體關(guān)系抽取工作。段青玲等[41]將 TF-IDF方法優(yōu)化及改進(jìn),進(jìn)行特征項(xiàng)權(quán)重計(jì)算。該方法不僅考慮特征詞在整個(gè)語料集中的重要程度,而且考慮特征詞在各個(gè)類別之間以及各個(gè)類別內(nèi)的差異性。采用基于信息熵的方法對每個(gè)類別分別提取熱詞候選詞,最后采用基于時(shí)間變化的方法進(jìn)行候選詞熱度計(jì)算,根據(jù)候選詞熱度排序結(jié)果得到熱詞。該方法能夠有效地提取農(nóng)業(yè)熱詞,為不同農(nóng)業(yè)用戶群體發(fā)現(xiàn)和分析產(chǎn)業(yè)熱點(diǎn)提供幫助。

TF-IDF的優(yōu)點(diǎn)是簡單快速,而且容易理解。缺點(diǎn)是有時(shí)候用詞頻來衡量文章中的一個(gè)詞的重要性不夠全面,有時(shí)候重要的詞出現(xiàn)的可能不夠多,而且這種計(jì)算無法體現(xiàn)位置信息,無法體現(xiàn)詞在上下文的重要性。為了體現(xiàn)詞的上下文結(jié)構(gòu),Word2Vec算法應(yīng)運(yùn)而生。

1.2.2Word2Vec

Word2Vec可以提供一個(gè)高效的實(shí)現(xiàn),即架構(gòu)連續(xù)字包(CBOW)和Skip-Gram來計(jì)算字的向量表示,這些表示可以用于語言中的各種任務(wù)處理。CBOW架構(gòu)根據(jù)上下文預(yù)測當(dāng)前單詞,而Skip-Gram架構(gòu)預(yù)測單詞圍繞當(dāng)前給出的單詞。Word2Vec在給定上下文中具有相似含義的單詞顯示出很近的距離,從而理解并向量化文檔中單詞的含義。圖4為MIKOLOV提出的Word2Vec學(xué)習(xí)算法CBOW和Skip-Gram的模型架構(gòu)。由輸入層、投影層和輸出層3部分組成,它們的輸出過程不同。輸入層接收W(t)={W(t-2),W(t-1),W(t+1),W(t+2)}作為參數(shù),其中Wt表示單詞。投影層對應(yīng)于多維向量的數(shù)組,并存儲多個(gè)向量的總和。輸出層對應(yīng)于從投影層輸出向量結(jié)果的層。具體而言,CBOW類似于前饋神經(jīng)網(wǎng)絡(luò)語言模型(NNLM),并預(yù)測來自其他詞向量的輸出詞。CBOW的基本原理是通過分析相鄰單詞來預(yù)測某個(gè)單詞何時(shí)出現(xiàn)。CBOW的投影層將所有單詞投影到同一位置,因此,所有單詞的向量保持平均值并共享所有單詞的位置。CBOW的結(jié)構(gòu)展示了統(tǒng)一組織分布在數(shù)據(jù)集中的信息的優(yōu)勢。相反,Skip-Gram展示了一種從一個(gè)單詞預(yù)測其他單詞向量的結(jié)構(gòu)。Skip-Gram的基本原理是預(yù)測某個(gè)單詞周圍出現(xiàn)的其他單詞。Skip-Gram的投影層插入到輸入層的單詞周圍的相鄰單詞。跳轉(zhuǎn)圖的結(jié)構(gòu)顯示了當(dāng)新單詞出現(xiàn)時(shí)矢量化的優(yōu)勢。根據(jù)MIKOLOV的研究,當(dāng)數(shù)據(jù)量較大時(shí),CBOW比Skip-Gram更快、更適合學(xué)習(xí),而Skip-Gram在學(xué)習(xí)新單詞時(shí)比CBOW表現(xiàn)出更好的性能。然而,其他比較CBOW和Skip-Gram性能的研究表明Skip-Gram的性能超過了CBOW。

圖4 CBOW和Skip-Gram架構(gòu)Fig.4 Framework of CBOW and Skip-Gram

在農(nóng)業(yè)領(lǐng)域,研究者針對農(nóng)業(yè)文本所具有的特性,使用Wod2Vec對農(nóng)業(yè)文本進(jìn)行向量化處理,王郝日欽等[42]根據(jù)水稻文本具備的特征,采用 Word2Vec 方法對文本數(shù)據(jù)進(jìn)行處理與分析,能夠有效地解決文本的高維性和稀疏性問題,并結(jié)合農(nóng)業(yè)分詞詞典對文本數(shù)據(jù)進(jìn)行向量化處理,然后使用注意力機(jī)制和密集連接的卷積神經(jīng)網(wǎng)絡(luò)提取文本特征,解決了農(nóng)業(yè)問答社區(qū)中水稻提問數(shù)據(jù)快速自動分類的問題。趙明等[43]針對問答系統(tǒng)對用戶問句的語義信息有較高要求的特點(diǎn),首先利用Word2Vec 將句子中的詞轉(zhuǎn)換為具有語法、語義信息的詞向量,利用訓(xùn)練得到的詞向量和BIGRU神經(jīng)網(wǎng)絡(luò)進(jìn)行問句分類模型的訓(xùn)練,實(shí)現(xiàn)了對番茄病蟲害問句的快速自動分類。陳瑛等[44]采用Word2Vec中的Skip-Gram模型進(jìn)行訓(xùn)練,得到每個(gè)詞的向量表示,采用Lucene全文檢索架構(gòu)和長短期記憶神經(jīng)網(wǎng)絡(luò)(Long short-term memory,LSTM)構(gòu)建了食品安全自動問答系統(tǒng)。金寧等[45]運(yùn)用TF-IDF算法拓展文本特征,采用 Word2Vec方法的 Skip-Gram 模型訓(xùn)練分詞結(jié)果,將中文詞語轉(zhuǎn)換為低維、連續(xù)的詞向量。為進(jìn)一步突出不同詞語對問句含義的貢獻(xiàn)程度,將詞語的 TF-IDF值與Word2Vec詞向量的乘積作為該詞語的加權(quán)詞向量。然后構(gòu)建混合神經(jīng)網(wǎng)絡(luò)模型進(jìn)行多粒度的特征提取,實(shí)現(xiàn)了農(nóng)業(yè)問答社區(qū)中農(nóng)業(yè)問句的精確快速分類。

1.2.3BERT

Word2Vec產(chǎn)生的詞向量是靜態(tài)的,不考慮上下文信息。而一些詞語往往存在一詞多義的現(xiàn)象,因此在文本向量化過程中需要的不僅僅是一個(gè)詞到向量的映射,而應(yīng)該學(xué)習(xí)一個(gè)考慮上下文的模型,BERT預(yù)訓(xùn)練模型相比于Word2Vec為代表的詞嵌入方法,突出的進(jìn)步就是更動態(tài),能解決一詞多義的現(xiàn)象。

BERT (Bidirectionalencoder representations from transformers)文本預(yù)訓(xùn)練模型作為文本向量化轉(zhuǎn)化工具獲得文本特征表示,既能獲得文本語義特征,又能解決Word2Vec忽略一詞多義的現(xiàn)象。BERT使用Transformer中的編碼器作為特征提取器,這種方法對上下文有很好的利用,不需要像BiLSTM那樣雙向堆疊。配合MLM這樣的降噪目標(biāo)在大規(guī)模語料上進(jìn)行訓(xùn)練,根據(jù)特定領(lǐng)域任務(wù)進(jìn)行微調(diào),具有良好的效果。

BERT是一種遮蔽語言模型,在獲取詞向量的過程中隨機(jī)遮蔽一些詞語,然后在預(yù)訓(xùn)練過程中在原始詞匯的位置進(jìn)行預(yù)測。對于BERT 模型的輸入,每一個(gè)詞語的表示都由詞語向量、段向量和位置向量共同組成, 其中,標(biāo)記[CLS]代表一個(gè)句子的開始,標(biāo)記[SEP]代表一個(gè)句子的結(jié)束。如圖5所示。

圖5 BERT文本輸入示例Fig.5 Demonstration of input text of BERT

在農(nóng)業(yè)文本處理領(lǐng)域,研究者使用BERT模型在農(nóng)業(yè)語料庫上進(jìn)行訓(xùn)練,取得了良好的效果。楊國峰等[46]對問句數(shù)據(jù)集進(jìn)行預(yù)處理,分別構(gòu)建雙向長短期記憶自注意力網(wǎng)絡(luò)分類模型、Transformer 分類模型和基于BERT的微調(diào)分類模型,并利用3種模型提取問句信息,進(jìn)行問句分類模型的訓(xùn)練。實(shí)驗(yàn)結(jié)果表明采用基于 BERT 的微調(diào)常見作物病害問句分類模型,其分類準(zhǔn)確率、精確率、召回率、精確率和召回率加權(quán)調(diào)和平均值分別高于雙向長短期記憶自注意力網(wǎng)絡(luò)模型和 Transformer 分類模型2~5個(gè)百分點(diǎn)。袁培森等[20]獲取水稻表型組學(xué)數(shù)據(jù),并進(jìn)行標(biāo)注和分類;隨后,提取關(guān)系數(shù)據(jù)集中的詞向量、位置向量及句子向量,基于雙向轉(zhuǎn)換編碼表示模型(BERT)構(gòu)建水稻表型組學(xué)關(guān)系抽取模型;最后,將BERT模型與卷積神經(jīng)網(wǎng)絡(luò)模型、分段卷積網(wǎng)絡(luò)模型進(jìn)行結(jié)果比較。結(jié)果表明,在3種關(guān)系抽取模型中,BERT模型表現(xiàn)更佳,精度達(dá)95.11%、F1 值為95.85%。王郝日欽等[47]為了解決問答社區(qū)中相同語義問句文本的快速自動檢測,提出一種基于 BERT 的Attention-DenseBiGRU的農(nóng)業(yè)問句相似度匹配模型。針對農(nóng)業(yè)文本具備的特征,采用12層的中文 BERT 文本預(yù)訓(xùn)練模型對文本數(shù)據(jù)進(jìn)行向量化處理,并與 Word2Vec、Glove、TF-IDF方法進(jìn)行對比分析,得出 BERT 方法能夠有效地解決農(nóng)業(yè)文本的高維性和稀疏性問題,并且解決多義詞在不同語境下具有不同含義的問題。

為減少不必要的算力消耗,擴(kuò)展使用場景,以BERT為基礎(chǔ)的輕量模型應(yīng)運(yùn)而生,包括利用知識蒸餾技術(shù)的DistilBERT[48]、AlBERT[49]和TINYBERT[50],通過減少預(yù)訓(xùn)練模型的參數(shù)降低模型的復(fù)雜度,在文本向量化可達(dá)到顯著提高文本向量化的效果。

1.3 農(nóng)業(yè)文本分類

文本分類主要包括文本特征的提取和分類模型的訓(xùn)練。在基于機(jī)器學(xué)習(xí)的文本分類方法中,特征提取和分類模型是兩個(gè)完全獨(dú)立的過程。傳統(tǒng)的特征提取方法需要人工提取特征,提取過程復(fù)雜,準(zhǔn)確率較低,經(jīng)過優(yōu)化和改進(jìn),研究者在傳統(tǒng)的機(jī)器學(xué)習(xí)農(nóng)業(yè)文本分類上取得了突破。魏芳芳等[38]通過構(gòu)建農(nóng)業(yè)行業(yè)關(guān)鍵詞庫、特征詞選擇和權(quán)重計(jì)算,構(gòu)建SVM農(nóng)業(yè)文本分類模型,模型準(zhǔn)確率達(dá)96.5%。段青玲等[51]基于SVM對自動抓取的農(nóng)業(yè)Web數(shù)據(jù)進(jìn)行文本分類,實(shí)現(xiàn)了農(nóng)業(yè)信息的自動采集和分類,分類準(zhǔn)確率達(dá)到92.5%。杜若鵬等[52]在TF-IDF的基礎(chǔ)上引入卡方檢驗(yàn)值,通過特征詞頻因子修正,利用樸素貝葉斯算法進(jìn)行農(nóng)業(yè)科技文獻(xiàn)文本分類,取得了94%的平均準(zhǔn)確率。而與傳統(tǒng)方法相比,基于深度學(xué)習(xí)的文本分類特征提取是通過多層復(fù)雜的人工神經(jīng)網(wǎng)絡(luò)特征提取得到的,可以達(dá)到更高的準(zhǔn)確率、更快的訓(xùn)練速度和更強(qiáng)的解釋性。

近年來,學(xué)者們已經(jīng)將文本分類的重點(diǎn)從傳統(tǒng)的機(jī)器學(xué)習(xí)轉(zhuǎn)移到人工神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)能夠從復(fù)雜的原始數(shù)據(jù)中提取抽象的層次特征,并具有很強(qiáng)的非線性映射能力。使用神經(jīng)網(wǎng)絡(luò)進(jìn)行文本分類的優(yōu)點(diǎn)之一是不需要在特征提取和選擇上花費(fèi)大量的時(shí)間,并且將單詞的分布式表示作為特征輸入到網(wǎng)絡(luò)中。然后,神經(jīng)網(wǎng)絡(luò)可以自動提取有價(jià)值的信息用于文本分類任務(wù)。目前,基于深度學(xué)習(xí)的文本分類模型有很多,包括基于CNN的文本分類模型、基于RNN的文本分類模型以及基于注意機(jī)制的文本分類模型。

1.3.1基于CNN的文本分類模型

卷積神經(jīng)網(wǎng)絡(luò)是一種多層復(fù)雜的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在圖像識別領(lǐng)域,WANG等[53]提出了基于深度CNN的CAPTCHA識別方法。PAN等[54]提出了一種基于CNN的食物識別算法。此外,PAN等[55]也將CNN與農(nóng)產(chǎn)品相結(jié)合,提出了一種針對農(nóng)產(chǎn)品的疾病監(jiān)測系統(tǒng)。在文本分類領(lǐng)域,KIM[56]將CNN與自然語言相結(jié)合,提出了一種有效的文本分類方法。使用帶有卷積層的CNN進(jìn)行文本分類,并比較了不同的方法,如隨機(jī)初始化、預(yù)處理詞嵌入、靜態(tài)輸入矩陣和動態(tài)輸入矩陣,最后得出靜態(tài)輸入矩陣分類效果最好的結(jié)論。KALCHBRENNER等[57]提出了一個(gè)類似的模型,稱為動態(tài)卷積神經(jīng)網(wǎng)絡(luò)(Dynamic convolutional neural network, DCNN)。與KIM提出的CNN方法不同,DCNN包含5個(gè)卷積層和多個(gè)臨時(shí)k-max池化層,k-max池化層從一系列卷積濾波器中提取k個(gè)頂點(diǎn)值,并確保輸出長度是固定的。HUANG等[58]將字符級卷積網(wǎng)絡(luò)進(jìn)行中文的文本分類實(shí)證研究,證明了字符級卷積網(wǎng)絡(luò)可以達(dá)到具有競爭力的分類效果。由于CNN和RNN在計(jì)算機(jī)視覺領(lǐng)域的結(jié)合已經(jīng)取得了很好的效果,所以XIAO等[59]在句子分類方面將RNN和CNN結(jié)合,使用了一個(gè)5層的卷積網(wǎng)絡(luò)提取高級文本特征,這些高級特征也被用作LSTM的輸入。

在之前的文本分類中,CNN使用了一種簡單的架構(gòu)。由于淺層CNN只能在限制窗口大小的情況下提取局部特征,CONNEAU等[60]提出了一種深度的CNN來提取文本分類中的分層局部特征。它們的卷積層深度達(dá)到了29。該模型在8個(gè)免費(fèi)的大規(guī)模數(shù)據(jù)集上實(shí)現(xiàn)了穩(wěn)定的性能。這是第一次證明深度對卷積神經(jīng)網(wǎng)絡(luò)的性能有提升。類似地,JOHNSON等[61]提出了一種深度金字塔卷積神經(jīng)網(wǎng)絡(luò)(Deep pyramid convolutional neural network,DPCNN),該網(wǎng)絡(luò)細(xì)致研究了單詞級CNN的深度。這種新型的DPCNN結(jié)構(gòu)能夠有效地提取遠(yuǎn)程關(guān)聯(lián)的特征,獲得更多的全局信息。首先,該模型輸入一句話到文本區(qū)域嵌入層,該層使用單詞嵌入為句子中的每個(gè)單詞生成向量表示。接下來是兩個(gè)卷積塊的疊加和一個(gè)快捷方式。他們將特征映射的數(shù)量固定為250個(gè),內(nèi)核大小固定為3個(gè)。利用預(yù)激活的Wσ(x)+b和身份映射的快捷連接使能深度網(wǎng)絡(luò)訓(xùn)練。下采樣可以有效地表示文本中更多的全局信息。在該模型中,下采樣的步長為2。該方法利用無監(jiān)督嵌入訓(xùn)練文本區(qū)域嵌入,提高了文本區(qū)域嵌入的精度,減少了訓(xùn)練時(shí)間。

然而,大多數(shù)基于CNN的方法使用固定的窗口大小,因此無法提取可變的n-gram特征。WANG等[62]提出了一種具有多尺度特征的密集連接CNN,提取可變n-gram特征用于文本分類。密集連接之所以能夠在上下游卷積塊之間創(chuàng)建快捷路徑,是因?yàn)閷⑤^小尺度的特征組合成大尺度的特征,從而產(chǎn)生可變的n-gram特征。雖然基于CNN的方法在提取可變n-gram特征方面發(fā)揮了很大的優(yōu)勢,但它們只關(guān)注局部連續(xù)詞序列,而忽略了語料庫中的全局詞共現(xiàn)信息。此外,CNN提取的局部語義特征也暴露出了其冗余性的缺點(diǎn)。YAO等[63]提出了一種用于文本分類的新型圖卷積網(wǎng)絡(luò)(Graph convolutional network, GCN)。GCN可以捕獲文檔和詞的關(guān)系,以及全局詞共現(xiàn)信息。

在農(nóng)業(yè)領(lǐng)域,研究者們針對農(nóng)業(yè)特定領(lǐng)域研究卷積神經(jīng)網(wǎng)絡(luò)在農(nóng)業(yè)文本分類的應(yīng)用,張明岳等[64]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的農(nóng)業(yè)問答情感極性特征抽取分析模型,結(jié)合農(nóng)業(yè)分詞字典,利用批規(guī)范后的卷積神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)集進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,該方法能夠準(zhǔn)確識別測試樣例集中的冗余隊(duì)列,首次提出了一種農(nóng)業(yè)文本二分類的解決方案。馮帥等[65]根據(jù)上述農(nóng)業(yè)文本二分類的卷積神經(jīng)網(wǎng)絡(luò)模型,對卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了優(yōu)化,提出基于深度卷積神經(jīng)網(wǎng)絡(luò)的水稻知識文本分類方法,采用優(yōu)選出的 4 層殘差模塊結(jié)構(gòu)作為基本結(jié)構(gòu),使用膠囊網(wǎng)絡(luò)(Capsule network,CapsNet)替代其池化層,設(shè)計(jì)了水稻知識文本分類模型,能夠?qū)崿F(xiàn)準(zhǔn)確、高效的水稻知識文本分類。提出了一種水稻文本四分類的解決方案。金寧等[45]為了解決農(nóng)業(yè)文本多分類問題,提出了一種農(nóng)業(yè)文本十二分類的解決方案,利用雙向門控循環(huán)單元神經(jīng)網(wǎng)絡(luò)獲取輸入詞向量的上下文特征信息,構(gòu)建多尺度并行卷積神經(jīng)網(wǎng)絡(luò),進(jìn)行多粒度的特征提取,實(shí)驗(yàn)結(jié)果表明,基于混合神經(jīng)網(wǎng)絡(luò)的短文本分類模型可以優(yōu)化文本表示和文本特征提取,能夠準(zhǔn)確地對用戶提問進(jìn)行自動分類。

1.3.2基于RNN的文本分類模型

遞歸神經(jīng)網(wǎng)絡(luò)(RNN)將雙向遞歸結(jié)構(gòu)引入神經(jīng)網(wǎng)絡(luò),解決了輸入信息之間的相互關(guān)系問題。RNN在對文本序列進(jìn)行順序建模時(shí)具有很大的優(yōu)勢。文本分類的主要應(yīng)用模型是雙向遞歸神經(jīng)網(wǎng)絡(luò)(Bidirectional recursive neural network, BRNN),是由SOCHER等[66]提出的。雙向遞歸結(jié)構(gòu)假設(shè)當(dāng)前輸出與前面的信息和后面的信息相關(guān),這些信息可以捕獲全局的長期依賴關(guān)系。因此,RNN在文本分類方面具有多變量模型。長短期記憶網(wǎng)絡(luò)(LSTM)是RNN的一種改進(jìn),可以解決長期依賴問題。LSTM通過門結(jié)構(gòu)對cell狀態(tài)進(jìn)行刪除或添加信息來更新每一層的隱藏狀態(tài)。TANG等[67]提出了門控循環(huán)網(wǎng)絡(luò)模型來學(xué)習(xí)句子的語義及其上下文關(guān)系,首先通過CNN或LSTM學(xué)習(xí)文本表示,然后利用門控循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),將句子的語義及其關(guān)系編碼成文本表示。LAI等[68]設(shè)計(jì)了更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),提出了一種遞歸卷積神經(jīng)網(wǎng)絡(luò)(RCNN),將RNN與CNN結(jié)合,使用雙向LSTM來獲取每個(gè)單詞的上下文表示。

在農(nóng)業(yè)領(lǐng)域,研究者針對農(nóng)業(yè)特定領(lǐng)域研究循環(huán)神經(jīng)網(wǎng)絡(luò)在農(nóng)業(yè)文本分類的應(yīng)用,趙明等[69]為了對番茄病蟲害智能問答系統(tǒng)用戶問句進(jìn)行高效分類,構(gòu)建了基于Word2Vec和雙向門控循環(huán)單元(Bi-directional gated recurrent unit,BIGRU)神經(jīng)網(wǎng)絡(luò)的番茄病蟲害問句分類模型。針對問答系統(tǒng)對用戶問句的語義信息有較高要求的特點(diǎn),利用訓(xùn)練得到的詞向量和BIGRU神經(jīng)網(wǎng)絡(luò)進(jìn)行問句分類模型的訓(xùn)練。結(jié)果表明,在2 000條番茄病蟲害數(shù)據(jù)集上,采用BIGRU的番茄病蟲害問句分類模型,可以快速準(zhǔn)確的進(jìn)行番茄病害和番茄蟲害的二分類。趙明等[70]為了對飲食文本信息高效分類,相比于上述文獻(xiàn)的數(shù)據(jù)集,構(gòu)建了48 000條飲食文本數(shù)據(jù)集,建立一種基于Word2Vec和長短期記憶網(wǎng)絡(luò)的分類模型。由Word2Vec構(gòu)建文本向量作為LSTM的初始輸入,訓(xùn)練LSTM分類模型,自動提取特征,進(jìn)行飲食宜、忌的文本分類。利用該方法能夠高質(zhì)量地對飲食文本自動分類,幫助人們有效地利用健康飲食信息。梁敬東等[71]構(gòu)建一個(gè)基于Word2Vec和LSTM神經(jīng)網(wǎng)絡(luò),包括輸入層、嵌入層、LSTM 層、全連接層和輸出層的句子相似度模型。構(gòu)建的模型顯著提升了句子相似度計(jì)算的準(zhǔn)確率,基于該模型開發(fā)的水稻 FAQ 問答系統(tǒng),能夠準(zhǔn)確匹配用戶問題和水稻 FAQ 中的問題,幫助農(nóng)戶更好地解決水稻生產(chǎn)中遇到的問題。首次在農(nóng)業(yè)文本領(lǐng)域,將深度學(xué)習(xí)模型與農(nóng)業(yè)文本相似度進(jìn)行結(jié)合。

1.3.3基于注意力機(jī)制的文本分類模型

CNN和RNN在文本分類任務(wù)中可以取得很好的結(jié)果,但它們的缺點(diǎn)是不夠直觀,可解釋性不佳。因此研究者在上述架構(gòu)的基礎(chǔ)上加入了注意力機(jī)制。注意力機(jī)制是自然語言處理領(lǐng)域中常見的長期記憶機(jī)制模型。與CNN和RNN最大的不同是,基于注意力機(jī)制的方法可以直觀地呈現(xiàn)每個(gè)單詞對結(jié)果的貢獻(xiàn)。DU等[72]提出了一種新的注意模式,將RNN和基于CNN的注意模型結(jié)合起來。該方法首先利用卷積運(yùn)算獲得注意力信號,每個(gè)注意力信號代表一個(gè)詞上下文的局部語義信息;然后使用RNN來創(chuàng)建帶有注意力信號的文本。一個(gè)詞的注意力權(quán)重越高,它所包含的信息就越有價(jià)值,在文本構(gòu)建過程中就越重要。ZHOU等[73]也提出了一種基于注意力的雙向長短期記憶網(wǎng)絡(luò)(Att-BLSTM)。該模型最大的優(yōu)點(diǎn)是將神經(jīng)網(wǎng)絡(luò)注意機(jī)制與BILSTM相結(jié)合,捕捉句子中最重要的語義信息。MA等[74]提出了Global-local mutual attention (GLMA)模型,該模型優(yōu)點(diǎn)是能夠有效地捕獲局部語義特征,有效地解決全局長期依賴關(guān)系。相互注意機(jī)制包括局部引導(dǎo)的全局注意和全局引導(dǎo)的局部注意。局部引導(dǎo)的全局注意保留全局長期依賴的有用信息,全局引導(dǎo)的局部注意提取最有用、信息量最大的局部語義特征。YANG等[75]也提出了基于RNN的分層注意網(wǎng)絡(luò)(Hierarchical attention network, HAN)模型,可以解決文本長期依賴的問題。該模型在句子級和文檔級增加了注意機(jī)制,對高度重要的內(nèi)容分別表示不同的權(quán)重。它可以緩解RNN獲取文檔序列信息時(shí)的梯度消失問題。然而,HANs的訓(xùn)練速度要慢得多,因?yàn)樗鼈兝昧薘NN。GAO等[76]提出了一種分層卷積注意力網(wǎng)絡(luò)(Hierarchical convolutional attention network, HCAN),這是一種基于自注意力機(jī)制的結(jié)構(gòu),可以在RNN這樣的長序列中捕獲語義關(guān)系,也可以在文本分類任務(wù)中實(shí)現(xiàn)像CNN那樣的快速和準(zhǔn)確性能。實(shí)驗(yàn)還表明,基于自注意力機(jī)制的模型可以取代基于RNN的模型,在降低準(zhǔn)確率的情況下減少訓(xùn)練時(shí)間。在農(nóng)業(yè)領(lǐng)域,王郝日欽等[42]對卷積神經(jīng)網(wǎng)絡(luò)(CNN)上下游卷積塊之間建立一條稠密的鏈接,并結(jié)合注意力機(jī)制(Attention),使文本中的關(guān)鍵詞特征得以充分體現(xiàn),使文本分類模型具有更好的文本特征提取精度,從而提高了分類精確率。

2 語料庫

語料庫的構(gòu)建是所有語義分析處理的前提,大規(guī)模、高質(zhì)量的語料以及知識庫構(gòu)建結(jié)構(gòu)與可擴(kuò)展性決定著語義理解技術(shù)面向農(nóng)業(yè)領(lǐng)域任務(wù)能否實(shí)現(xiàn)和達(dá)到效果。

2.1 大規(guī)模通用語料庫

通用型語料庫體量龐大,在大型科技公司服務(wù)過程發(fā)揮重要作用,表1收錄了常用的開源通用語料庫信息,如基于知識工程構(gòu)建的FreeBase,谷歌提出的知識圖譜是該知識庫典型應(yīng)用,基于語義網(wǎng)構(gòu)建的DBpedia,融合維基百科和專家知識;國內(nèi)院校及科技公司構(gòu)建了北京大學(xué)CCL語料庫、哈爾濱工業(yè)大學(xué)同義詞林、搜狗互聯(lián)網(wǎng)語料庫SogouT等。由于自然語言的表達(dá)方式相對一致,跨行業(yè)語料處理具有泛化性,在農(nóng)業(yè)語義理解研究過程中,部分處理方式是基于大型語料庫的處理而遷移獲得,如:對農(nóng)業(yè)文本分類、知識抽取等任務(wù)。

表1 自然語言語料信息Tab.1 Natural language corpus information

2.2 農(nóng)業(yè)領(lǐng)域語料庫

由于通用語料庫中垂直領(lǐng)域文本數(shù)據(jù)量有限,針對性不強(qiáng),大部分情況下無法解決農(nóng)業(yè)特定領(lǐng)域的問題,影響語義服務(wù)的精確度。因此,農(nóng)業(yè)科研工作者在問答系統(tǒng)構(gòu)建、模型訓(xùn)練過程中,通常需要針對實(shí)際情況構(gòu)建特定領(lǐng)域語料庫,如表2所示,農(nóng)業(yè)領(lǐng)域目前公開的有農(nóng)作物品種、農(nóng)作物病蟲害、農(nóng)業(yè)技術(shù)服務(wù)等類型的知識庫。

表2 農(nóng)業(yè)垂直領(lǐng)域語料Tab.2 Agricultural vertical corpus

隨著深度學(xué)習(xí)領(lǐng)域的發(fā)展,圖像、文本、視頻等多媒體處理邊界逐漸呈現(xiàn)模糊化的形式,學(xué)習(xí)模型也逐漸呈現(xiàn)多任務(wù)處理的形式,因此語料庫構(gòu)建逐漸從單一類型的語料向多模態(tài)發(fā)展,如圖像-文字語料庫、視頻-文字語料庫。

3 語義理解在農(nóng)業(yè)領(lǐng)域應(yīng)用

3.1 農(nóng)業(yè)智能問答

20世紀(jì)90年代之后,隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)的獲取變得簡單,檢索式的問答技術(shù)快速發(fā)展,基于邏輯推理、模板匹配、機(jī)器學(xué)習(xí)、數(shù)據(jù)冗余性的方法相繼被提出,根據(jù)問句的淺層語義去檢索答案。但是檢索式的問答存在答案和問題需要存在共同關(guān)鍵詞的局限性,隨著百科類網(wǎng)站的興起,高質(zhì)量結(jié)構(gòu)化的數(shù)據(jù)獲取更加方便,大量知識庫被建立起來,加上機(jī)器學(xué)習(xí)技術(shù)的興起,推動了基于知識庫的問答系統(tǒng)研究。在農(nóng)業(yè)領(lǐng)域,智能研究起步較晚,2007年前后,才開始出現(xiàn)基于本體、知識庫的農(nóng)業(yè)智能問答的研究[91]。

知識庫問答(Knowledge base question & answering, KBQA)是以自然語言的形式給出問題,通過對問題進(jìn)行語義理解和解析,進(jìn)而利用知識庫進(jìn)行查詢、推理得出答案?;谥R庫的農(nóng)業(yè)智能問答是充分利用知識庫中的數(shù)據(jù)解決問題的一項(xiàng)重要研究任務(wù),其實(shí)現(xiàn)過程分為問題分析、文本信息檢索、答案生成3個(gè)模塊[92],基本架構(gòu)如圖6所示。

圖6 基于知識庫問答系統(tǒng)基本架構(gòu)Fig.6 Framework of Q&A system based on knowledge base

隨著知識圖譜的提出和普及,越來越多的學(xué)者將注意力放到知識圖譜的農(nóng)業(yè)問答系統(tǒng)研究中,在本體層的基礎(chǔ)上構(gòu)建數(shù)據(jù)層,利用知識圖譜將結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行數(shù)據(jù)抽取、融合,形成一種具有語義的知識庫,更好地表達(dá)實(shí)體之間的關(guān)聯(lián)性,實(shí)現(xiàn)實(shí)體間的上下文會話識別與推理,為智能問答的應(yīng)用提供了新的知識管理途徑。夏迎春[24]構(gòu)建了基于 Neo4j數(shù)據(jù)庫的農(nóng)業(yè)病蟲害知識圖譜,提出基于主題模型與圖的實(shí)體鏈接算法,并設(shè)計(jì)研發(fā)作物病蟲害知識問答系統(tǒng),實(shí)現(xiàn)了農(nóng)業(yè)病蟲害知識問答。為了豐富數(shù)據(jù)源,提高泛化性,吳茜[93]收集了農(nóng)作物數(shù)據(jù)、農(nóng)作物病害數(shù)據(jù)和農(nóng)藥產(chǎn)品數(shù)據(jù),通過 Protégé 工具構(gòu)建了農(nóng)業(yè)知識圖譜,然后提出多特征的條件隨機(jī)場命名實(shí)體識別算法和基于雙向長短期記憶網(wǎng)絡(luò)的屬性鏈接方法,實(shí)現(xiàn)了交互式農(nóng)業(yè)知識問答系統(tǒng)。

農(nóng)業(yè)知識圖譜用于理解問題的深層語義信息,滿足用戶的精細(xì)化需求,對實(shí)現(xiàn)農(nóng)業(yè)知識智能化服務(wù)、農(nóng)業(yè)信息化發(fā)展有一定的意義,但對于語義復(fù)雜、開放性問題則難以準(zhǔn)確回答用戶。研究開放檢索生成式問答方法,通過模型訓(xùn)練最終生成合適的答案,對于農(nóng)業(yè)問答系統(tǒng)的答案自動生成具有重要指導(dǎo)意義。王郝日欽等[47]構(gòu)建的基于BERT-Attention-DenseBiGRU的神經(jīng)網(wǎng)絡(luò),采用中文BERT預(yù)訓(xùn)練模型對3萬對農(nóng)業(yè)問答數(shù)據(jù)進(jìn)行訓(xùn)練,獲得農(nóng)業(yè)問句的向量化表示,并輸入DenseBiGRU和協(xié)同注意力機(jī)制模型,提取不同粒度的農(nóng)業(yè)文本特征,得到適用于農(nóng)業(yè)文本相似度的神經(jīng)網(wǎng)絡(luò)參數(shù),問答匹配精確率達(dá)到了97.2%,實(shí)現(xiàn)農(nóng)業(yè)問句相似度的精確判斷,滿足了農(nóng)業(yè)問答社區(qū)的需求。張明岳等[64]采用卷積神經(jīng)網(wǎng)絡(luò)模型對8 000條農(nóng)業(yè)問句文本信息進(jìn)行特征提取及分類,經(jīng)過不斷迭代的訓(xùn)練之后,得到了用于判斷農(nóng)業(yè)無效問句的神經(jīng)網(wǎng)絡(luò)參數(shù)。實(shí)現(xiàn)了農(nóng)業(yè)問答文本特征抽取的任務(wù),準(zhǔn)確率達(dá)到了82.7%。金寧等[45]對12個(gè)類別的20 000條農(nóng)業(yè)問句進(jìn)行分類,采用TF-IDF與Word2Vec相結(jié)合的方法對農(nóng)業(yè)問句進(jìn)行向量化處理,然后構(gòu)建了基于BiGRU與多尺度并行的卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)一步提取農(nóng)業(yè)問句語義特征,模型準(zhǔn)確率達(dá)到了95.9%,實(shí)現(xiàn)了準(zhǔn)確的農(nóng)業(yè)問句分類,滿足農(nóng)技問答社區(qū)的需求。此外,WANG等[94]采用Albert+Match-LSTM農(nóng)業(yè)問答語義分類匹配方法,通過注意力機(jī)制和卷積核引入使準(zhǔn)確率達(dá)到96.9%,大大降低了模型時(shí)間復(fù)雜度。

3.2 農(nóng)業(yè)語義檢索

搜索引擎在互聯(lián)網(wǎng)信息檢索中發(fā)揮著主導(dǎo)地位,信息檢索已成為從海量信息資源中獲取知識并解決問題的主要途徑。隨著互聯(lián)網(wǎng)上的信息指數(shù)級增長,農(nóng)業(yè)信息也隨之快速膨脹,傳統(tǒng)的關(guān)鍵詞匹配檢索篩選信息不聚焦,搜索結(jié)果查全率低,排序依據(jù)不足。語義分析可以解析用戶意圖,突破關(guān)鍵詞查詢的局限性。因此,基于語義的檢索方法已逐漸成為農(nóng)業(yè)領(lǐng)域檢索研究的熱點(diǎn)。

現(xiàn)階段,農(nóng)業(yè)領(lǐng)域的語義檢索主要是基于本體以及基于用戶行為習(xí)慣兩方面開展研究?;诒倔w的語義檢索[95-99]在構(gòu)建農(nóng)業(yè)垂直領(lǐng)域本體庫的基礎(chǔ)上,標(biāo)注本體信息,確定搜索詞句和本體之間的相似、相關(guān)度,以此為據(jù)對候選搜索結(jié)果進(jìn)行排序;基于用戶行為的語義檢索[100-102]在通過計(jì)算本體相似度的基礎(chǔ)上加入了用戶行為習(xí)慣、時(shí)間遺忘曲線等多維參數(shù),對用戶的搜索意圖進(jìn)行輔助定位,增加檢索的準(zhǔn)確率。特定本體庫的優(yōu)勢在于能清晰表達(dá)領(lǐng)域知識的概念、結(jié)構(gòu)、關(guān)系,形成具有一定結(jié)構(gòu)化的數(shù)據(jù)字典工具,在這樣的工具中進(jìn)行檢索可以使結(jié)果精度更高。要實(shí)現(xiàn)一個(gè)集成度高、覆蓋面廣、綜合性強(qiáng)的農(nóng)業(yè)全域檢索方法或系統(tǒng),需要構(gòu)建一個(gè)大型的本體庫,傳統(tǒng)方法需要投入大量的專家資源進(jìn)行人工標(biāo)注和構(gòu)建,難度較高,目前國內(nèi)外尚未形成此類成果。因此,現(xiàn)階段自動構(gòu)建本體在農(nóng)業(yè)領(lǐng)域成為研究熱點(diǎn),借鑒知識圖譜中知識抽取相似技術(shù),通過基于自然語言規(guī)則的模型,抽取、分析本體概念間的潛在關(guān)系,實(shí)現(xiàn)本體庫的自動構(gòu)建,但現(xiàn)在的研究成果離優(yōu)良的理解性還有很大的差距,隨著研究的不斷深入,知識蒸餾、遷移學(xué)習(xí)、注意力機(jī)制、Transformer等技術(shù)的提出,這種現(xiàn)狀有望得到改善。

3.3 農(nóng)業(yè)管理決策

農(nóng)業(yè)管理決策語義服務(wù)能夠幫助農(nóng)民收集和整合生產(chǎn)所需的信息,通過分析提供最佳的決策方案,為農(nóng)民增收致富提供技術(shù)支持,有利于提高農(nóng)業(yè)生產(chǎn)的產(chǎn)量和質(zhì)量。傳統(tǒng)的決策系統(tǒng)通常是人工錄入條件和決策數(shù)據(jù),將用戶的條件因子與系統(tǒng)數(shù)據(jù)庫中的條件進(jìn)行匹配,選取對應(yīng)最匹配的解決方案,而農(nóng)業(yè)的地區(qū)化、多樣化導(dǎo)致人工錄入的數(shù)據(jù)耗時(shí)耗力,且覆蓋面不全,難以滿足廣大農(nóng)業(yè)生產(chǎn)者的需求。近年來,越來越多的學(xué)者將語義技術(shù)引入農(nóng)業(yè)決策支持系統(tǒng)中,通過語義理解整合互聯(lián)網(wǎng)、物聯(lián)網(wǎng)數(shù)據(jù)以及已有專家系統(tǒng)、書籍中的生產(chǎn)管理信息,智能化匹配用戶需求,生成個(gè)性化的精準(zhǔn)生產(chǎn)管理決策方案。

現(xiàn)階段面向農(nóng)業(yè)管理決策語義服務(wù)的研究主要可以歸納為基于語義網(wǎng)和語義本體兩類。語義網(wǎng)是互聯(lián)網(wǎng)信息實(shí)時(shí)共享的最新發(fā)展,提供了一種通用機(jī)制,允許跨不同應(yīng)用程序、企業(yè)和社區(qū)共享數(shù)據(jù),孫想等[14]、NASEEM等[103]利用農(nóng)業(yè)語義網(wǎng)技術(shù),構(gòu)建農(nóng)業(yè)生產(chǎn)決策系統(tǒng),克服農(nóng)業(yè)多源異構(gòu)數(shù)據(jù)整合困難,解決生成決策方案不準(zhǔn)確的問題。另一方面,王藝等[104]、WANG等[105]、韓樂[106]通過構(gòu)建語義本體,結(jié)合專家知識,利用農(nóng)作物生長信息及氣象因子,為管理人員提供綜合信息服務(wù)和輔助型決策,實(shí)現(xiàn)異構(gòu)、多源農(nóng)業(yè)信息的整合,開發(fā)本地化的農(nóng)業(yè)資源,為個(gè)體農(nóng)戶提供個(gè)性化、主動的信息決策服務(wù),為種植業(yè)、養(yǎng)殖業(yè)等生產(chǎn)過程提供科學(xué)指導(dǎo)依據(jù)。不論是基于語義網(wǎng)還是語義本體,農(nóng)業(yè)智能決策系統(tǒng)通過對農(nóng)業(yè)文本的語義分析,形成適應(yīng)復(fù)雜生產(chǎn)環(huán)境的農(nóng)業(yè)生產(chǎn)管理決策模型,輔助農(nóng)民決策及實(shí)時(shí)診斷調(diào)控,可以減少農(nóng)業(yè)生產(chǎn)成本和環(huán)境污染,提高經(jīng)濟(jì)效益。

4 展望

語義理解技術(shù)已經(jīng)廣泛應(yīng)用到農(nóng)業(yè)知識服務(wù)領(lǐng)域,移動終端的廣泛使用也提升了用戶對農(nóng)業(yè)問題精準(zhǔn)答案的需求。在現(xiàn)有研究成果的基礎(chǔ)上,總結(jié)農(nóng)業(yè)語義理解研究領(lǐng)域的重點(diǎn)問題和發(fā)展趨勢,認(rèn)為該領(lǐng)域還存在如下具有挑戰(zhàn)性的研究內(nèi)容。

(1)針對農(nóng)業(yè)數(shù)據(jù)源標(biāo)準(zhǔn)化程度低的問題,面向互聯(lián)網(wǎng)數(shù)據(jù)、專家知識數(shù)據(jù)、農(nóng)業(yè)百科數(shù)據(jù)等,建立農(nóng)業(yè)語義數(shù)據(jù)表達(dá)方式統(tǒng)一化過濾機(jī)制,構(gòu)建統(tǒng)一標(biāo)準(zhǔn)的知識庫,從而解決數(shù)據(jù)爆炸、存儲濫用等問題。

(2)農(nóng)業(yè)文本信息的標(biāo)注方式仍然以人工輔助標(biāo)注為主,需要大量的監(jiān)督,耗時(shí)費(fèi)力,半監(jiān)督或者無監(jiān)督的模型成為主要發(fā)展方向之一。降低語義理解模型處理的復(fù)雜度,提升模型處理的效率,根據(jù)農(nóng)業(yè)知識服務(wù)應(yīng)用的實(shí)際情況,結(jié)合終端處理性能提供邊緣計(jì)算或者經(jīng)過蒸餾后的模型,提升模型的普適性,近而全面服務(wù)基層農(nóng)業(yè)科技人員和農(nóng)民。

(3)對于多模態(tài)語義處理問題,進(jìn)一步研究集成圖像-文本、視頻-文本以及多模態(tài)組合內(nèi)容的分析機(jī)制,通過統(tǒng)一維度的映射與模型構(gòu)建,完成復(fù)雜語義的處理。

(4)農(nóng)業(yè)知識庫構(gòu)建完畢,面向社會提供全天候?qū)崟r(shí)服務(wù),避免垃圾信息、違規(guī)信息的注入對知識庫數(shù)據(jù)安全提出新的要求,其安全貫穿在模型訓(xùn)練、模型預(yù)測以及服務(wù)整個(gè)過程中,此外,知識的獲取途徑的版權(quán)問題需要同步考慮,通過系統(tǒng)規(guī)則以及法律約束的方式需并行實(shí)施,也可嘗試?yán)脜^(qū)塊鏈等防篡改技術(shù)。

(5)面向農(nóng)業(yè)知識的跨區(qū)域服務(wù),基于人工智能語義的翻譯需求逐年提升,包括我國不同民族間的相互翻譯、國際語言的翻譯,其核心實(shí)現(xiàn)方式是通過系統(tǒng)化工程組合,將任務(wù)處理模型與翻譯模型相互融合。

隨著算力的提升、自然語言處理技術(shù)的發(fā)展及移動網(wǎng)絡(luò)技術(shù)的快速升級,面向農(nóng)業(yè)知識的智能化服務(wù)勢必會有更加廣闊的發(fā)展空間與應(yīng)用價(jià)值。

猜你喜歡
圖譜卷積語義
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測定
真實(shí)場景水下語義分割方法及數(shù)據(jù)集
基于圖對比注意力網(wǎng)絡(luò)的知識圖譜補(bǔ)全
“植物界大熊貓”完整基因組圖譜首次發(fā)布
基于圖像處理與卷積神經(jīng)網(wǎng)絡(luò)的零件識別
一種基于卷積神經(jīng)網(wǎng)絡(luò)的地磁基準(zhǔn)圖構(gòu)建方法
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
圖表
漢語依憑介詞的語義范疇
中國知名官方智庫圖譜