申 冉, 甄 彤, 李智慧, 高 輝
(糧食信息處理與控制重點(diǎn)實(shí)驗(yàn)室;河南工業(yè)大學(xué)信息科學(xué)與工程學(xué)院,鄭州 450001)
在糧食品質(zhì)檢測過程中,常需對糧食的數(shù)量、品種、不完善粒等進(jìn)行統(tǒng)計(jì)識別。傳統(tǒng)識別方法是人眼識別,費(fèi)時(shí)費(fèi)力且極具主觀性。隨著糧食信息化水平的不斷提升,逐漸采用機(jī)器視覺方法進(jìn)行改進(jìn)[1]。由于糧食顆粒較小,密集等,在實(shí)際處理中經(jīng)常出現(xiàn)粘連甚至重疊的現(xiàn)象,為提高不完善顆粒等的識別精度和效率,需要對顆粒進(jìn)行更好的分割。
在采用計(jì)算機(jī)視覺處理粘連籽粒圖像分割問題中,現(xiàn)有文獻(xiàn)多數(shù)基于先驗(yàn)知識進(jìn)行算法改進(jìn),如Shatadal等[2]通過對谷物腐蝕膨脹而后填充空洞區(qū)域?qū)崿F(xiàn)分割。Chaladchai等[3]基于邊緣獲取分離端點(diǎn)繪制分割線實(shí)現(xiàn)分割。少有學(xué)者針對粘連籽粒圖像結(jié)合深度學(xué)習(xí)模型進(jìn)行研究。為確定更適合于粘連顆粒圖像的分割方法,本文梳理和總結(jié)了傳統(tǒng)分割方法的優(yōu)缺點(diǎn),重點(diǎn)闡述分水嶺法和凹點(diǎn)分割在粘連分割中的應(yīng)用,此外還歸納了圖像分割深度學(xué)習(xí)算法的時(shí)間線,重點(diǎn)闡述基于U-Net和Mask R-CNN的方法。最后總結(jié)了用于圖像分割的權(quán)威數(shù)據(jù)集,并對粘連圖像分割面臨的挑戰(zhàn)和未來熱門發(fā)展方向進(jìn)行了展望。
根據(jù)分割方式的不同,將傳統(tǒng)分割方法劃分為基于閾值、邊緣、區(qū)域、圖論、像素聚類、能量泛函、形態(tài)學(xué)的7種分割方法。
基于閾值的分割方法是通過設(shè)置分割閾值,將目標(biāo)和背景分割。常見的有固定閾值法、直方圖雙峰法、迭代閾值法、OTSU(大津法)、最大熵法等。
基于邊緣檢測的分割方法是針對圖像的邊緣像素特點(diǎn)進(jìn)行分割。常用微分算子來確定邊緣,一階微分算子有Canny[4]、Roberts[5]、Prewitt[6]、Sobel[7]算子,二階微分算子有Laplacian[8]、Log[9]算子。
基于圖論分割是將圖像分割問題與圖的最小割問題相關(guān)聯(lián),將圖像映射為帶權(quán)無向圖,將圖劃分為若干子圖而實(shí)現(xiàn)分割。而分割的最優(yōu)原則就是使劃分后的子圖保持內(nèi)部相似性最大,子圖之間相似性最小。目前基于圖論的方法有GraphCut[10]、GrabCut[11]等。
基于像素聚類的圖像分割是根據(jù)聚類結(jié)果得出的類別向其中添加不同灰度值實(shí)現(xiàn)分割,主要方法有MeanShift[12]、K-means[13]?;诔袼氐膱D像分割是把像素級的圖劃分成區(qū)域級的圖,即把具有相似特性的像素聚合,超像素處理方法有Turbopixels[14]、SLIC[15]等。
基于區(qū)域的圖像分割方法根據(jù)同一區(qū)域內(nèi)像素具有的相似性質(zhì)(包括灰度值、紋路、顏色等)來聚集像素點(diǎn),包括區(qū)域生長法、區(qū)域分裂合并法、分水嶺法等。
基于能量泛函的方法主要是活動(dòng)輪廓模型,其思想是定義一個(gè)函數(shù)曲線來表達(dá)目標(biāo)圖像的邊緣,再定義一個(gè)自變量包括邊緣曲線的能量函數(shù),使該能量泛函最小的那條邊緣曲線就是目標(biāo)輪廓的分割線。按照邊緣曲線表達(dá)形式的不同,活動(dòng)輪廓模型可以分為參數(shù)活動(dòng)輪廓模型和幾何活動(dòng)輪廓模型,參數(shù)活動(dòng)輪廓模型中具有代表性的有Snake[16]、ASM[17]、AAM[18]等。
基于數(shù)學(xué)形態(tài)學(xué)方法主要指分割前的一系列預(yù)處理方法,包括腐蝕與膨脹、開運(yùn)算和閉運(yùn)算。腐蝕使目標(biāo)縮小、孔徑增大。膨脹使目標(biāo)增大、孔徑縮小。開運(yùn)算先腐蝕后膨脹去除小塊像素,閉運(yùn)算先膨脹處理再腐蝕處理填補(bǔ)邊緣縫隙。
傳統(tǒng)分割方法對于不同的分割情況具有不同的分割效果,現(xiàn)將7種傳統(tǒng)分割方法進(jìn)行比較,如表1所示。使用程度表示對粘連籽粒分割的適用程度,“+”越多適用性越強(qiáng)。
表1 傳統(tǒng)分割方法的比較
目前,常用于處理粘連分割的方法包括分水嶺法、基于凹點(diǎn)檢測方法。
分水嶺法是將一副灰度圖像看作是地質(zhì)學(xué)表面,圖像中的灰度值代表地形圖中的海拔高度。
分水嶺算法大致步驟為:先將圖像分為不同的梯度,然后通過一定規(guī)則生成注水區(qū)域,然后向注水區(qū)域內(nèi)加水,當(dāng)兩注水區(qū)域即將合并時(shí),記錄下此時(shí)的邊界,當(dāng)圖像邊緣徹底被分割成n個(gè)獨(dú)立區(qū)域時(shí)算法結(jié)束。
分水嶺算法是一種基于區(qū)域的圖像分割算法。分割時(shí)把像素值相近的點(diǎn)和物理位置相近的點(diǎn)相連,形成一個(gè)封閉區(qū)域。然而分水嶺算法會(huì)忽略微弱邊緣。燕紅文等[19]采用大津法對燕麥籽粒進(jìn)行預(yù)處理,分水嶺法分割粘連區(qū)域,消除了過度分割,準(zhǔn)確率達(dá)到98.55%,但隨著燕麥的數(shù)量和重疊區(qū)域的增加,該方法的準(zhǔn)確率大大降低,因此只適用于粘連不太嚴(yán)重的情況。張建華等[20]結(jié)合最小二乘圓理論利用分水嶺法對棉花葉部粘連病斑進(jìn)行分割,準(zhǔn)確率為91.25%,但對于重疊度高的病斑會(huì)存在欠分割的情況。
凹點(diǎn)分割主要部分就是如何確定凹點(diǎn),方法有3種:方向鏈碼法、矢量夾角法和切線法。
在鏈碼法中,針對某個(gè)特定像素周圍的像素點(diǎn),按照水平垂直對角線定義4個(gè)方向,用0、1、2、3分別表示0°、90°、180°和270°4個(gè)方向,也可以定義8個(gè)方向:0、1、2、3、4、5、6、7。如圖1所示。用這種規(guī)則表達(dá)的邊界曲線可以表示為式(1):
由平均鏈碼差代表偏轉(zhuǎn)角度,即曲率,曲率的極值點(diǎn)作為凹點(diǎn)。
圖1 4-鏈碼和8鏈碼示意圖[21]
矢量夾角法是對邊界上的每一個(gè)點(diǎn),尋找與其步長相同的前驅(qū)點(diǎn)和后繼點(diǎn),將該點(diǎn)分別和其前驅(qū)點(diǎn)和后繼點(diǎn)進(jìn)行連線,根據(jù)2個(gè)連線構(gòu)成的夾角的正負(fù)和大小判斷該點(diǎn)是否為凹點(diǎn)。
切線法思想在于通過邊界上某點(diǎn)的切線是否通過連通區(qū)域內(nèi)部來判斷此點(diǎn)是否是凹點(diǎn)。如果凹點(diǎn)的兩側(cè)的點(diǎn)都在區(qū)域外部,則此點(diǎn)為局部凸點(diǎn),如果在區(qū)域內(nèi)部,此點(diǎn)為局部凹點(diǎn),若一條直線與區(qū)域邊界多點(diǎn)相切,那么這些點(diǎn)為該物體最大凸點(diǎn)。
張寶全等[22]研究基于凹點(diǎn)分析的粘連雞體分割,使用大津法和形態(tài)學(xué)處理進(jìn)行預(yù)處理,正方形模板確定凹點(diǎn)位置,平均分割準(zhǔn)確率為92.8%。陳樹越等[23]提出基于凹點(diǎn)檢測的糧倉粘連害蟲圖像分割方法,采用Harris算法計(jì)算角點(diǎn),通過極大值抑制選出凹點(diǎn),分割有效率為92.5%。劉宰豪[24]針對凹點(diǎn)檢測算法存在的凹點(diǎn)判別不準(zhǔn)確和欠分割的問題,提出一種重心輔助凹點(diǎn)匹配的新思路。樊萌萌[25]提出基于3點(diǎn)夾角的凹點(diǎn)檢測算法和具有自適應(yīng)特性的凹點(diǎn)匹配方法,解決2粒大米的分割問題。
分水嶺方法進(jìn)行分割容易造成過度分割的現(xiàn)象,凹點(diǎn)分割中由于容易將噪聲點(diǎn)識別為凹點(diǎn),且凹點(diǎn)的錯(cuò)誤匹配會(huì)導(dǎo)致分割不準(zhǔn)確。因此,更多學(xué)者選擇將兩種方法相結(jié)合克服各自缺點(diǎn)。高星[26]進(jìn)行基于標(biāo)記分水嶺和凹點(diǎn)的粘連大米圖像分割技術(shù)研究,該研究先使用形態(tài)學(xué)方法修正標(biāo)記圖像,再對標(biāo)記圖像使用分水嶺算法抑制過分割現(xiàn)象,最后使用五點(diǎn)夾角法與鏈碼差法進(jìn)行凹點(diǎn)分割。吳淑珍等[27]使用曲率確定凹點(diǎn),利用凹點(diǎn)進(jìn)行前景標(biāo)記,最后利用基于標(biāo)記的分水嶺算法對粘連谷物顆粒進(jìn)行分割。準(zhǔn)確率達(dá)到96.4%。
根據(jù)分割程度不同可將圖像分割分為實(shí)例分割和語義分割。將基于深度學(xué)習(xí)的圖像實(shí)例分割經(jīng)典技術(shù)發(fā)展進(jìn)程進(jìn)行整理,如圖2所示。將基于深度學(xué)習(xí)的圖像語義分割經(jīng)典技術(shù)發(fā)展進(jìn)程進(jìn)行整理,如圖3所示。
圖2 圖像實(shí)例分割技術(shù)進(jìn)展
圖3 圖像語義分割技術(shù)進(jìn)展
深度學(xué)習(xí)方法可以避免傳統(tǒng)分割方法的造成的分割效果不好,提取特征復(fù)雜,識別準(zhǔn)確率低的問題,具有很好的魯棒性和普適性。目前基于深度學(xué)習(xí)的谷物籽粒識別方法分別有基于分類網(wǎng)絡(luò)、目標(biāo)檢測網(wǎng)絡(luò)和語義分割、實(shí)例分割網(wǎng)絡(luò)的研究。
基于分類網(wǎng)絡(luò):劉鵬[28]采集完善粒、蟲蝕粒、生芽粒、生霉粒、破損粒、赤霉病粒和黑胚粒七種小麥粒的高光譜圖像,使用支持向量機(jī)(SVM)方法、卷積神經(jīng)網(wǎng)絡(luò)(CNN)方法、CNN結(jié)合MobileNetV2方法分別進(jìn)行識別,并將3種方法實(shí)驗(yàn)結(jié)果進(jìn)行對比,最終發(fā)現(xiàn),利用CNN結(jié)合MobileNetV2方法識別準(zhǔn)確率最高,達(dá)到97%。劉林[29]通過對VGG網(wǎng)絡(luò),Inception-V3網(wǎng)絡(luò),ResNet-50網(wǎng)絡(luò)進(jìn)行遷移,識別登海518、浚單20和鄭單958三種玉米類型。
基于目標(biāo)檢測:武威[30]使用Faster R-CNN模型進(jìn)行分割不同環(huán)境下的小麥籽粒,克服了傳統(tǒng)分割算法無法適應(yīng)復(fù)雜背景和尺寸變化的缺點(diǎn),相比于SSD模型精度提高0.2。但隨著籽粒數(shù)量增加該模型的運(yùn)行時(shí)間也會(huì)增加。付傳廣[31]使用空洞卷積、擠壓和激勵(lì)模塊對Faster R-CNN模型進(jìn)行改進(jìn),實(shí)現(xiàn)玉米的完好粒、霉變粒和蟲蛀粒的檢測,獲得97.4%的平均檢測精確率。
基于語義分割實(shí)現(xiàn)谷物籽粒識別的常用網(wǎng)絡(luò)模型有U-Net網(wǎng)絡(luò),基于實(shí)例分割的有Mask R-CNN網(wǎng)絡(luò)。
U-Net[32]模型提出的初衷是為了解決醫(yī)學(xué)圖像分割的問題,U-Net模型前半部分是下采樣,擴(kuò)大感受野進(jìn)行特征提??;后半部分是拼接并上采樣,進(jìn)行特征融合,最終將圖片還原為原始尺寸。
如圖4所示,對輸入圖像先卷積,再池化,再卷積,再池化,如此循環(huán)進(jìn)行4次,得到14×14大小的特征圖,再對特征圖進(jìn)行卷積,上采樣,再卷積,再上采樣,如此循環(huán)進(jìn)行4次,最終得到與原始輸入圖像尺寸相同的預(yù)測結(jié)果。此外,在上采樣過程中每次上采樣后都要和下采樣過程中得到的相同尺寸特征圖進(jìn)行拼接。
圖4 U-Net網(wǎng)絡(luò)模型圖[32]
陳進(jìn)等[33]在原始U-Net網(wǎng)絡(luò)模型上加深網(wǎng)絡(luò)深度,引入歸一化層避免過擬合,實(shí)現(xiàn)水稻圖像中的籽粒、莖稈和枝梗的分割,分割準(zhǔn)確度分別達(dá)到99.42%、88.56%、86.84%,但是由于改進(jìn)后層數(shù)加深導(dǎo)致模型處理時(shí)間增加。鄧楊等[34]將U-Net網(wǎng)絡(luò)和MobileNetV2網(wǎng)絡(luò)相結(jié)合提出了一種輕量級網(wǎng)絡(luò)IMUN,實(shí)現(xiàn)對大米堊白部分的分割,進(jìn)一步獲取大米堊白率,分割準(zhǔn)確率達(dá)到94%。Liang等[35]在U-Net模型下采樣部分在1024通道特征圖之后添加金字塔池化模塊,實(shí)現(xiàn)小麥白粉病孢子分割和計(jì)數(shù),與原有的U-Net相比,改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)具有更高的分割精度,miou指標(biāo)達(dá)到91.4%。鄧國強(qiáng)等[36]在U-Net原有網(wǎng)絡(luò)基礎(chǔ)上在下采樣后添加5層dropout和1層連接層,對小麥麥穗圖像進(jìn)行分割,檢測赤霉病穗,解決了過擬合問題,提高模型泛化能力,平均檢測精度為97%,但如果不擴(kuò)充數(shù)據(jù)集,模型本身存在很大的漏檢問題。
目前基于U-Net網(wǎng)絡(luò)模型實(shí)現(xiàn)谷物分割存在的普遍問題包括:目標(biāo)重疊程度較大,顏色相似的情況下,分割準(zhǔn)確率降低;受目標(biāo)所在背景影響較大。可嘗試加深網(wǎng)絡(luò)層數(shù)解決。
Mask R-CNN[37]通過擴(kuò)展Faster R-CNN達(dá)到簡單、快速、靈活的特點(diǎn),分割的準(zhǔn)確率和速率超過以往所有實(shí)例分割結(jié)果。Mask R-CNN包括以下子模塊:骨干網(wǎng)絡(luò),區(qū)域建議網(wǎng)絡(luò)(RPN),RoIAlign層,語義分割網(wǎng)絡(luò),分類和回歸,如圖5所示。Mask R-CNN使用ResNet101作為主干特征提取網(wǎng)絡(luò),提取的特征為原圖像的長寬分別壓縮了2次、3次、4次、5次的結(jié)果,利用這些特征圖構(gòu)造特征金字塔網(wǎng)絡(luò)實(shí)現(xiàn)特征多尺度的融合,最終得到有效特征層。一方面,這些有效特征層作為區(qū)域建議網(wǎng)絡(luò)的輸入,得到建議框。另一方面作為分類器和語義分割網(wǎng)絡(luò)的輸入,分別得到準(zhǔn)確的預(yù)測框和語義分割結(jié)果。
圖5 Mask R-CNN網(wǎng)絡(luò)模型圖[37]
謝元澄等[38]通過修改特征提取網(wǎng)絡(luò)的層數(shù)對Mask R-CNN網(wǎng)絡(luò)進(jìn)行改進(jìn),實(shí)現(xiàn)對單株麥穗中的籽粒進(jìn)行分割,將分割結(jié)果和利用全卷積網(wǎng)路(FCN)方法進(jìn)行的分割結(jié)果進(jìn)行對比,實(shí)驗(yàn)表明利用Mask R-CNN網(wǎng)絡(luò)模型處理速度是FCN的8.5倍。SU等[39]利用Mask R-CNN網(wǎng)絡(luò)檢測小麥麥穗顆粒中是否含有赤霉病粒,檢出率為98%。YANG等[40]提出一種新的合成圖像生成和增強(qiáng)方法,對Mask R-CNN網(wǎng)絡(luò)模型進(jìn)行微調(diào),將掩碼的損失權(quán)重設(shè)置為2,其他損失權(quán)重設(shè)為1,在全連接層添加值為0.5的丟失概率,實(shí)現(xiàn)對大豆顆粒的分割,進(jìn)而塑造大豆的表型數(shù)據(jù)。YU等[41]利用Mask R-CNN網(wǎng)絡(luò)模型,調(diào)整最小檢測置信度為0.5,分別實(shí)現(xiàn)單株水稻穗上的所有水稻顆粒和散落顆粒的檢測,檢測精確度分別達(dá)到82%和97%。
目前基于Mask R-CNN網(wǎng)絡(luò)模型實(shí)現(xiàn)谷物分割存在的普遍問題包括:數(shù)據(jù)量嚴(yán)重影響檢測速度、檢測結(jié)果受像素級標(biāo)注的影響大、存在漏檢情況。
本節(jié)對圖像分割的常用公共數(shù)據(jù)集予以統(tǒng)計(jì),對每個(gè)數(shù)據(jù)集的內(nèi)容、特點(diǎn)等作簡要介紹,如表2所示。
表2 圖像分割常用數(shù)據(jù)集
本文對傳統(tǒng)圖像分割和基于深度學(xué)習(xí)的圖像分割常用方法進(jìn)行簡要總結(jié),著重總結(jié)適用于粘連籽粒圖像的分割方法。傳統(tǒng)的分割方法有分水嶺法,基于凹點(diǎn)的分割方法等,此外,為了彌補(bǔ)分水嶺方法造成的過分割和基于凹點(diǎn)分割不準(zhǔn)確的情況,可將2種方法相結(jié)合?;谏疃葘W(xué)習(xí)的方法常用的有U-Net模型和Mask R-CNN模型。U-Net屬于語義分割范疇,用深層特征進(jìn)行定位,淺層特征進(jìn)行精確分割,可嘗試對較少糧食顆粒樣本進(jìn)行分割。Mask R-CNN屬于實(shí)例分割范疇,既保留了谷物位置信息,又保留了語義信息。兩者都適用于對于邊界模糊、梯度復(fù)雜特點(diǎn)的圖像處理。最后對基于深度學(xué)習(xí)的分割常用的數(shù)據(jù)集進(jìn)行簡要介紹。
目前,粘連籽粒的圖像分割多使用傳統(tǒng)方法,隨著深度學(xué)習(xí)的性能和精度不斷完善,使用基于深度學(xué)習(xí)的方法解決粘連籽粒圖像分割有望成為趨勢。目前所面臨的挑戰(zhàn)有3個(gè)方面:沒有關(guān)于粘連籽粒的圖像完善標(biāo)準(zhǔn)的公共數(shù)據(jù)集,且數(shù)據(jù)集的標(biāo)注是一大項(xiàng)復(fù)雜繁瑣的任務(wù);由于不同籽粒形狀,邊緣特點(diǎn)各有差異,因此任何一種分割算法都不可能適用于各種籽粒,需要針對不同籽粒選擇不同網(wǎng)絡(luò)模型;在實(shí)際分割應(yīng)用場景中,分割性能和準(zhǔn)確率都要兼顧。因此,今后使用深度學(xué)習(xí)方法進(jìn)行粘連顆粒圖像的分割是極具潛力的研究方向。