黃 平,鄭金存,龐 毅
(1.廣西大學 計算機與電子信息學院,廣西南寧 530004;2.玉林師范學院物理與電信工程學院智能信息與通信技術研究中心,廣西玉林 537000)
傳統利用機器視覺研究魚類攝食狀態(tài)的方法主要通過魚類的運動特征、圖像紋理特征等方式對攝食狀態(tài)進行量化[1-7]。此類方法易受光照、水質條件的限制,圖像特征提取過程繁瑣、識別效率低。神經網絡模型通過自主學習實現了對圖像特征的自動提取和識別,提高了識別的效率[8],但其識別效果仍受到圖像預處理質量的影響。為此,采用了結構復雜的網絡模型[9-10]來提高模型識別精度,解決導致模型訓練、部署困難的問題。因此該文利用深度相機及基于距離特征的算法克服環(huán)境因素的影響,提高圖像預處理的質量,簡化了識別模型的結構,解決了模型訓練困難的問題。
采用微軟公司Azure Kinect DK 深度相機為前期圖像處理設備。相機基于光子時間飛躍(Time of Light,TOF)技術,通過測量調制光信號在相機和物體之間的飛行時間來測量距離信息[12],其距離計算公式如式(1):
式中,D是深度相機到被測物的距離,c為光在空氣中傳播速度,Δφ為發(fā)射光信號與接收信號的相位差,f為光的頻率。
將深度相機放置于養(yǎng)育池正上方中心并向下俯拍,調節(jié)深度相機與養(yǎng)育池的水面距離為50 cm,使得深度相機的視野范圍覆蓋整個養(yǎng)育池水面。游泳型魚類(如鯉魚)攝食區(qū)域通常為距離水面深度15 cm的區(qū)域[13]。故設置深度相機水下有效測量范圍為0~15 cm,僅聚集在魚群攝食區(qū)域,排除了其他未進入攝食區(qū)域魚的干擾。鯉魚攝食階段的明顯特征是上浮水面搶食,使得魚群在水體表面深度圖的像素分布增大,水體表面的目標分布可直觀反映魚類的攝食情況,通過編寫的C#程序對獲取的深度圖像的像素點g(x,y)的取值作如下處理:
式中,z(x,y)表示深度圖中坐標為(x,y)點的深度值,深度相機使用16 位二進制形式表示深度圖中像素點的值,深度相機理論測量距離為0~65 535 mm,z(x,y)的取值范圍為深度相機有效測量范圍即500~3 860 mm。根據式(2),當像素點的深度值在距離深度相機平面500~650 mm 范圍內時,此像素點的值設為1,其灰度值為255(顏色為白色);超出此范圍的像素點,其灰度值為0(顏色為黑色),因此深度圖可用黑白色圖來表示。故水面攝食魚群和飼料顆粒的深度圖計算如式(3)所示:
式中,g(x,y,t)表示t時刻深度圖中坐標點(x,y)的像素值,其取值按式(2)處理,取0 或1,深度圖像大小為640×576,故坐標點g(x,y,t)中x和y的取值分別為0~640 和0~576。通過C#程序設定循環(huán)累加求和,f(k,t) 的值即表示在t時刻水面活動的魚群和飼料顆粒的像素點的總和,表征的是魚群的輪廓特征。
當魚群在距離水面15 cm 范圍內活動時,魚群的攝食活動被近紅外相機捕捉。由于近紅外成像不受照明光線的影響,即使在渾濁的水體、昏暗的光照環(huán)境,深度相機對于活動于水體表面附近的魚群也可清晰成像。如圖1 中(a1)、(b1)、(c1)、(d1)分別為水質較為清澈的條件、夜間無光條件、水質較為渾濁的條件、水質清澈條件獲取的RGB 圖,圖1 中(a2)、(b2)、(c2)、(d2)為其對應的深度圖;通過對比這四種類型的深度圖與RGB 圖可知,深度圖不受拍攝光線和水質渾濁度的影響,呈現攝食魚群白色特征輪廓與黑色背景的特點,而未進入攝食區(qū)的魚群深度圖僅為黑色背景圖像,相比于RGB 圖更容易區(qū)別開來,可排除更多的環(huán)境因素干擾。
圖1 不同環(huán)境條件下深度圖與RGB圖
深度圖中魚群圖像均包含深度信息,魚群在攝食區(qū)域的深度信息有助于提高對魚類攝食狀態(tài)的判斷準確度,但其深度信息讀取不易。為了實現將魚群深度信息用顏色表示出來,將魚群的深度距離信息線性轉換為HSV 顏色模型的Hue 值,如下式:
式(4)中的z(x,y)表示按式(2)預處理后深度圖像素點的深度值,z0、z1分別為500 與650,γ是衰減因子,取值為0.67,則魚群在距離水面0~15 cm 的深度運動時,對應的色調Hue 值的取值范圍是0~0.67;利用C#開發(fā)平臺的顏色模型轉換函數將HSV 模型轉換為RGB 模型,其方法如下[14]:
式中,S、V的取值為1,因此得到基于距離信息的32 位偽彩色圖。其顏色按照藍綠紅三種顏色演變,藍色表示魚群目標貼近水面,如圖2 中的A 所示;綠色表示較為接近于水面,如圖2 中的B;紅色表示魚在較深水體的運動,如圖2 中的C。偽彩色圖可反映魚群立體空間位置信息。
圖2 深度偽彩色圖
該次實驗收集了452 組魚群攝食行為圖像,魚群攝食圖像標注參考文獻[15]所提出的分類標準,分別為強攝食、中等攝食、弱攝食、無攝食。構成了魚群攝食狀態(tài)數據集,訓練集圖像44 964 張,驗證集11 242張,測試集2 068 張。
卷積神經網絡(Convolutional Neural Networks,CNN)在目標檢測、圖像分類等領域得到廣泛應用,針對不同領域開發(fā)了多種網絡結構的模型。使用CNN 對于魚類攝食行為圖像識別,模型的識別精度、輕量化、檢測速度成為關注的指標。由于魚類攝食深度圖像的預處理效果較好,該文設計一簡單CNN模型對魚類攝食數據集進行訓練和識別,其結構如圖3 所示。
圖3 SimpleCNN模型結構
其中,網絡輸入層為維度為3,大小為224×224的深度圖,輸入層后為三個隱藏層,其均使用大小為5×5,步長為1 的二維卷積核,均采用Relu 激活函數,卷積核個數分別為32、64、128。每個卷積層后面均使用步長為2 的MaxPooling 層進行下采樣處理,其間使用丟棄率為0.2 的Dropout 層來防止網絡過擬合,最后使用一個平均全局池化層來降低計算參數量,并連接一個四分類的輸出層,其中,輸出層使用Softmax 分類函數預測類別概率,并使交叉熵損失函數優(yōu)化訓練,其式如下所示:
式(6)中,Pi為類別i的最終預測概率,zi為分類模型對類別為i的原始預算輸出;zj為分類模型對類別為j的原始預算輸出,c為類別總數。式(7)中Loss 為交叉熵損失函數,yi為類別i對應的標簽。
該實驗使用準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1 得分(F1 score)作為評價模型的指標,如式(8)-(11):
式中,TP 為真實值為正且預測也為正的樣本數量;FP 為真實值為負但預測為正的樣本數量;FN 為真實值為正但預測為負的樣本數量;TN 為真實值為負且預測也為負的樣本數量。
該實驗使用VGG19、Resnet50、Mobilenet、Densenet201模型對魚群攝食數據集進行遷移學習訓練[16],SimpleCNN 模型采用傳統重新學習的方式。上述各模型參數統一設置如下:使用隨機梯度下降優(yōu)化[17-19]方法;學習率為0.000 1;batch size 設置為2,進行100輪次的訓練。經過100 輪次訓練后各模型的準確率曲線圖、損失值曲線圖如圖4 所示。
圖4 各模型的準確率、損失值曲線
由圖4 可知,在模型收斂速度方面[20-21],由于訓練數據充足,復雜網絡模型使用遷移學習的方法可以加速模型的訓練,在經過40 輪次左右各模型接近收斂,SimpleCNN 模型在訓練40 輪左右收斂,模型能較快地完成訓練。經過100 輪次的訓練后,各模型的性能及參數如表1 所示。
表1 100輪次后各個模型性能及參數
由表1 可知,SimpleCNN 模型在訓練集準確率為99.78%,損失值為0.001,表現優(yōu)于其他模型。Simple CNN 模型使用三個隱藏層來減少模型的復雜度和參數量,使得模型的每輪訓練用時最短、權重空間最小、網絡層數最小,可移植性好。
使用測試集測試的各模型識別效果如表2所示。
表2 不同模型的識別效果對比
由表2 可知,該研究提出的模型,在準確率、精確率、召回率、F1 得分等各項評價指標值均優(yōu)于文獻[8]方法,也優(yōu)于其他模型。其原因主要是深度圖預處理效果較好、特征提取容易,SimpleCNN 模型各個網絡層的結構設置較為合理。其網絡第三卷積層特征提取的可視化結果如圖5 所示。
圖5 深度圖特征提取
由圖5 可知,模型的第三層網絡能很好提取圖像的特征,說明模型針對此類數據集的特征提取效果較好。使用遷移學習方式訓練的VGG19、Resnet50、Densenet201 模型對魚類的數據集識別效果表現不佳,其原因為該次魚類分類任務的數據集與上述模型的源域訓練數據集相似性不高、差異較大。其次遷移學習主要通過預訓練的網絡來對新數據集進行學習和訓練,通常預訓練的骨干網絡處于被凍結狀態(tài),無法根據新數據集的特點進行微調,導致模型的特征提取效果不理想。因此針對不同識別任務要求,設計結構合理的識別模型方可達到最佳的識別效果。
該文研究了一種基于距離特征的圖像預處理方法,該方法可克服復雜養(yǎng)殖環(huán)境中不良因素對圖像成像質量的影響,為識別模型提供良好的訓練素材。利用顏色表征魚類空間深度信息的方法,實現了對魚群空間深度位置的有效定位,獲得了一種二維圖像表征空間信息的方法,為研究魚類攝食狀態(tài)變化規(guī)律提供更多的技術支持。針對魚類攝食行為識別任務,設計一種結構簡單、高效的卷積神經網絡模型,探索了輕量化網絡模型在魚類攝食行為識別中的應用。