劉 洋,張 釗,夏 旭,韓學(xué)坤
(懷化市農(nóng)業(yè)科學(xué)研究院旱作研究所,湖南 懷化 418000)
我國(guó)是農(nóng)業(yè)大國(guó),也是世界第二大種子需求國(guó),目前良種在農(nóng)業(yè)增產(chǎn)中的貢獻(xiàn)率已經(jīng)超過(guò)了45%,但是與美國(guó)等發(fā)達(dá)國(guó)家60%以上的貢獻(xiàn)率相比,我國(guó)仍有較大的差距[1],一方面是國(guó)外育種工作有先發(fā)優(yōu)勢(shì),另一方面是作物育種工作本身的特點(diǎn)和難點(diǎn):周期長(zhǎng)、難度大、失敗率高且勞動(dòng)強(qiáng)度較高,這些因素導(dǎo)致選育優(yōu)良品種較為艱難?;诰矸e神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別技術(shù)的迅猛發(fā)展,為減輕育種勞動(dòng)強(qiáng)度,提高育種效率提供了良好的解決方案。
育種工作是一項(xiàng)繁瑣且勞動(dòng)重復(fù)率較高的工作。如水稻育種工作中,對(duì)分蘗、株高、穗長(zhǎng)等性狀要在水稻的整個(gè)生長(zhǎng)期間不間斷的測(cè)量記錄,成熟收割后還要對(duì)水稻的穗粒進(jìn)行分類統(tǒng)計(jì)。而識(shí)別統(tǒng)計(jì)恰好是圖像識(shí)別技術(shù)的強(qiáng)項(xiàng),把圖像識(shí)別技術(shù)引入到水稻育種工作中將會(huì)大量減少重復(fù)勞動(dòng),極大提高工作效率。
圖像識(shí)別技術(shù)基本原理是計(jì)算機(jī)把圖片看作一個(gè)三維張量[2],三維分別代表圖片的寬、高以及通道,通道的意思是對(duì)于一張圖片,在計(jì)算機(jī)看來(lái)是由很多個(gè)像素點(diǎn)拼接組成,把圖片在計(jì)算機(jī)上放大很多倍就能看到一個(gè)個(gè)像素點(diǎn),而每一個(gè)像素點(diǎn)的顏色都是由R、G、B 這3 種顏色組成(光的三原色紅、綠、藍(lán),3 種顏色的占比不同就能組成所有顏色),通道代表著R、G、B 這3 種顏色,程序?qū)㈩伾D(zhuǎn)換為數(shù)學(xué)形式進(jìn)行計(jì)算,這是圖像識(shí)別技術(shù)的基礎(chǔ)。
傳統(tǒng)的圖像識(shí)別技術(shù)需要經(jīng)歷圖像處理、特征提取、分類器設(shè)計(jì)等步驟[3],需由專家提取圖像特征、對(duì)圖像識(shí)別分類,這類技術(shù)受參數(shù)需求量大、設(shè)備要求高等局限一直難以得到應(yīng)用,如水稻數(shù)粒儀,如圖1 所示,其使用的是傳統(tǒng)圖像識(shí)別技術(shù),因便攜性低且操作復(fù)雜,一直難以得到普及。隨著基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)圖像識(shí)別技術(shù)的快速發(fā)展,圖像識(shí)別技術(shù)正以更便捷、更準(zhǔn)確的方式應(yīng)用到育種工作中。
圖1 水稻數(shù)粒儀
未來(lái),隨著卷積神經(jīng)網(wǎng)絡(luò)模型的不斷優(yōu)化,圖像識(shí)別技術(shù)的不斷發(fā)展,識(shí)別領(lǐng)域?qū)⒉粩嗤貙?,識(shí)別場(chǎng)景也會(huì)更加多元化,如自動(dòng)識(shí)別植物性狀、區(qū)分不同品種之間的遺傳變異,從而可以更有效地篩選出優(yōu)良品種,為育種工作提供新的思路和方法。圖像識(shí)別技術(shù)還可以借助高清攝像頭以及無(wú)人機(jī)技術(shù)應(yīng)用于大田生產(chǎn),可以幫助農(nóng)業(yè)生產(chǎn)者更有效地鑒別出植物的病害及其特征,從而有效地控制病害,有助于植物的生長(zhǎng)和發(fā)育;也可以幫助農(nóng)業(yè)生產(chǎn)者有效地識(shí)別出植物的葉片及其他生長(zhǎng)特征,從而可以更有效地控制肥料的施用量,減少肥料的浪費(fèi),節(jié)省成本。
卷積神經(jīng)網(wǎng)絡(luò)是一種基于卷積操作提取圖像特征的深度神經(jīng)網(wǎng)絡(luò),廣泛應(yīng)用在圖像分類、圖像檢索、目標(biāo)檢測(cè)、圖像分割、圖像特征遷移等計(jì)算機(jī)視覺(jué)研究中,和傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)相比,具有成本低和分類準(zhǔn)確率高的優(yōu)點(diǎn)。1959 年,HUBEL 等發(fā)現(xiàn)在貓的大腦皮層中用于局部敏感和方向選擇的神經(jīng)元獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu)可以有效地降低反饋神經(jīng)網(wǎng)絡(luò)的復(fù)雜性[4-5],由此受到啟發(fā),日本科學(xué)家 FUKUSHIMA等于1981 年前后提出一種層級(jí)化的多層人工神經(jīng)網(wǎng)絡(luò)——神經(jīng)認(rèn)知機(jī)(neocognitron)[6-7]。神經(jīng)認(rèn)知機(jī)模型由多種類型的細(xì)胞單元組成,其中最重要的2 種細(xì)胞單元稱為“簡(jiǎn)單細(xì)胞(Simple Cells)”和“復(fù)雜細(xì)胞(Complex Cells)”。這2 種細(xì)胞功能上的共同點(diǎn)是每個(gè)細(xì)胞對(duì)特定方向上的條形圖樣的刺激有反應(yīng),而其區(qū)別在于簡(jiǎn)單細(xì)胞用于提取局部特征(如邊緣或角等);復(fù)雜細(xì)胞對(duì)簡(jiǎn)單細(xì)胞的輸入進(jìn)行一些處理,如圖像較小的位移或輕微變形等。1990 年,LECUN 等[8]基于FUKUSHIMA 的神經(jīng)認(rèn)知機(jī),提出了現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)框架的原始版本,之后又對(duì)這個(gè)原始版本進(jìn)行了改進(jìn),于1998 年提出了基于梯度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)模型——LeNet-5[9],并將其成功應(yīng)用于手寫(xiě)數(shù)字字符識(shí)別中,這為卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。
隨著卷積神經(jīng)網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,現(xiàn)在主流的卷積神經(jīng)網(wǎng)絡(luò)模型層級(jí)已基本成型,主要包括輸入層(Input Layer)、卷積層(Convolution Layer)、池化層(Pooling Layer,也稱取樣層)、全連接層及輸出層[10],如圖2 所示。
圖2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
在不同的卷積神經(jīng)網(wǎng)絡(luò)模型中,卷積層和池化層一般都會(huì)有多層,采用的是卷積層和池化層交替連接,即一個(gè)卷積層與一個(gè)池化層連接后,池化層再與另一個(gè)卷積層連接。輸入層主要是將圖片中的R、G、B 的顏色信息數(shù)字化傳遞給卷基層,卷基層主要是提取圖像特征,而池化層則對(duì)卷基層提取的圖像特征進(jìn)一步進(jìn)行抽樣。通常,卷積操作與池化操作要進(jìn)行多次,經(jīng)歷卷積和池化操作后下一步進(jìn)入到輸出層,輸出層包括全連接層和激活函數(shù),全連接層將池化層提取到的特征全部集合,然后給出圖片是某種可能分類的概率。全連接層也會(huì)有一層或者多層,全連接層會(huì)將當(dāng)前層的每一個(gè)神經(jīng)元與上一層中的所有神經(jīng)元連接,表示任意一個(gè)神經(jīng)元都與前后層的所有神經(jīng)元相連接,這樣就能夠保證輸出值是基于圖片整體信息的,最后一個(gè)全連接層的輸出值傳遞給一個(gè)輸出層,經(jīng)計(jì)算最終得到圖片是某種可能分類的概率[11]。
卷積神經(jīng)網(wǎng)絡(luò)具有占用資源少、速度快且識(shí)別率高的特點(diǎn),在手機(jī)性能逐步提升的基礎(chǔ)上,能夠在手機(jī)中部署基于卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用,手機(jī)應(yīng)用讀取到拍攝好的圖像后,經(jīng)過(guò)卷積計(jì)算就能識(shí)別出種子類型和數(shù)量。這種實(shí)現(xiàn)方式為圖像識(shí)別技術(shù)進(jìn)入日常育種工作提供了可能性,現(xiàn)分別就機(jī)器和人工計(jì)量水稻稻粒在計(jì)數(shù)準(zhǔn)確度、速度方面做對(duì)比試驗(yàn)。
試驗(yàn)?zāi)M水稻考種[12],拍攝背景為黑色,采用的稻粒為烘干狀態(tài),且已篩選出空殼和其他混雜物,如圖3 所示。為確保數(shù)據(jù)的真實(shí)有效,更加貼合試驗(yàn)條件,特在實(shí)粒中混雜了少量的半粒、稻梗等混雜物。
圖3 圖像識(shí)別拍攝圖像
用某品牌手機(jī)安裝基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別應(yīng)用后,對(duì)某品種水稻稻粒進(jìn)行識(shí)別計(jì)數(shù),分別用人工和機(jī)器識(shí)別圖3 中稻粒,每種數(shù)量的稻粒由人工和機(jī)器分別識(shí)別3 次,統(tǒng)計(jì)識(shí)別的準(zhǔn)確率與識(shí)別時(shí)間,如表1 所示。
表1 圖像識(shí)別與人工識(shí)別統(tǒng)計(jì)水稻稻粒試驗(yàn)
由表1 可知,在100 顆數(shù)量級(jí)中,人工和機(jī)器的平均識(shí)別準(zhǔn)確率都能達(dá)到100% 以上,而到了1 000 粒級(jí)別以后,人工仍然能夠達(dá)到99.50%,而機(jī)器識(shí)別準(zhǔn)確率卻下降到96.50%。機(jī)器識(shí)別準(zhǔn)確率雖然有所下降,但是在識(shí)別速度上急速增加,在100、500、1 000 數(shù)量級(jí)上,隨著數(shù)量的上升,機(jī)器識(shí)別相對(duì)人工識(shí)別的速度也在快速上升,在1 000 數(shù)量級(jí)時(shí),機(jī)器識(shí)別速度達(dá)到了人工識(shí)別的5 倍。
人工識(shí)別準(zhǔn)確率隨著稻粒數(shù)量的增長(zhǎng)并沒(méi)有顯著變化,而機(jī)器識(shí)別的準(zhǔn)確率卻明顯下降,原因有三點(diǎn):一是圖片噪聲較大,拍攝環(huán)境較差,背景有反光;二是卷積神經(jīng)網(wǎng)絡(luò)模型不匹配,每一個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型都有其擅長(zhǎng)識(shí)別的領(lǐng)域,該模型并沒(méi)有對(duì)識(shí)別稻粒進(jìn)行調(diào)優(yōu),導(dǎo)致準(zhǔn)確率難以達(dá)到理論值;三是訓(xùn)練模型不充分,模型用圖片訓(xùn)練時(shí)選用的稻粒圖片太具代表性,如稻粒顏色、形狀等比較典型,稻粒間粘連情況較少,沒(méi)有考慮實(shí)際工作中稻粒顏色、性狀、大小有細(xì)微的不同,及普遍存在的粘連情況,應(yīng)該考慮到實(shí)際工作中稻粒不同情況。
總之,目前基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別技術(shù)在種粒識(shí)別方面其效率明顯高于人工,通過(guò)網(wǎng)絡(luò)模型的訓(xùn)練,卷積神經(jīng)網(wǎng)絡(luò)也能應(yīng)用到玉米、高粱、大豆等種子的識(shí)別統(tǒng)計(jì)中。目前,卷積神經(jīng)網(wǎng)絡(luò)在農(nóng)業(yè)領(lǐng)域的應(yīng)用還不夠深入,網(wǎng)絡(luò)模型還不成熟,在實(shí)際工作中要注意圖片的拍攝環(huán)境,盡量排除干擾,一次不能識(shí)別太多,以免種子粘連。
1)應(yīng)用圖像識(shí)別技術(shù)進(jìn)行圖像分類需要對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行圖像訓(xùn)練,需要大量的圖像數(shù)據(jù),個(gè)人或機(jī)構(gòu)難以獲取和采集龐大的數(shù)據(jù)集,國(guó)內(nèi)相關(guān)研究起步較晚,圖片數(shù)據(jù)集也不完善,導(dǎo)致大部分圖像識(shí)別網(wǎng)絡(luò)模型只能在國(guó)外大型公共數(shù)據(jù)集上進(jìn)行統(tǒng)計(jì)和評(píng)估,如ImageNet、Labelme 等,針對(duì)特定分類任務(wù)的研究數(shù)據(jù)集樣本較少,尤其是種業(yè)領(lǐng)域。
2)種業(yè)應(yīng)用場(chǎng)景下的圖像分類具有巨大的挑戰(zhàn)性,種業(yè)圖像往往采集于野外,因野外環(huán)境復(fù)雜,導(dǎo)致圖像含有較大噪聲,網(wǎng)絡(luò)難以在日光、地面、作物等其他干擾中準(zhǔn)確分辨出目標(biāo)物體的類別,使得分類準(zhǔn)確率低于實(shí)驗(yàn)室。
3)部分種業(yè)科研人員對(duì)圖像識(shí)別技術(shù)缺乏了解,對(duì)新技術(shù)在科研上的應(yīng)用持懷疑態(tài)度,目前多為計(jì)算機(jī)相關(guān)專業(yè)人才在研究圖像識(shí)別技術(shù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用。
要擴(kuò)大圖像識(shí)別技術(shù)在種業(yè)科研領(lǐng)域的應(yīng)用,一要加大對(duì)國(guó)內(nèi)自有圖像公共數(shù)據(jù)集的支持力度,國(guó)際上較為大型的公共數(shù)據(jù)集通常由高校建立,我國(guó)也要支持高校建立和壯大圖像公共數(shù)據(jù)集;二要研發(fā)農(nóng)業(yè)領(lǐng)域卷積神經(jīng)網(wǎng)絡(luò),農(nóng)業(yè)圖像識(shí)別場(chǎng)景較為復(fù)雜,一般的卷積神經(jīng)網(wǎng)絡(luò)模型難以適配,把其他領(lǐng)域較為成熟的網(wǎng)絡(luò)模型進(jìn)行修改應(yīng)用到種業(yè)領(lǐng)域其效果通常不盡人意,因此要開(kāi)發(fā)種業(yè)領(lǐng)域的網(wǎng)絡(luò)模型;三要做好人才培養(yǎng),卷積神經(jīng)網(wǎng)絡(luò)開(kāi)發(fā)的核心是計(jì)算機(jī)專業(yè)人才,但是種業(yè)應(yīng)用場(chǎng)景及用途的復(fù)雜性又需要一定的專業(yè)背景,要做好人才資源的整合工作,加強(qiáng)種業(yè)人才與計(jì)算機(jī)人才的交流合作,培養(yǎng)既有農(nóng)業(yè)知識(shí)又懂計(jì)算機(jī)的跨專業(yè)人才。