周 婧,秦倫明
(上海電力大學 電子與信息工程學院,上海 201306)
近年來廢鋼鐵資源增長迅速,其重要性也與日俱增,然而鋼鐵企業(yè)對廢鋼鐵的科學管理水平仍然較低。實現(xiàn)廢鋼自動分類,有利于提高鋼鐵企業(yè)的管理水平和廢鋼的回收效率。
廢鋼分類屬于細粒度圖像分類(Fine-grained Image Categorization)問題,即判斷圖像屬于同一基類別下的哪個子類的問題。傳統(tǒng)圖像分類主要采用手動設計特征的方法,對于廢鋼分類,人為設計特征的難度很大,因此運用傳統(tǒng)圖像分類方法來進行廢鋼分類十分困難。
卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network)[1]是一種特殊的神經(jīng)網(wǎng)絡,它的結構與特性有利于提取圖像的特征,很適合用于解決廢鋼分類問題。而實現(xiàn)高精度廢鋼分類離不開大量數(shù)據(jù),遷移學習等方法可以用于提高小數(shù)據(jù)集下的識別準確率,彌補廢鋼數(shù)據(jù)的不足。
鐵礦石和廢鋼鐵是鋼鐵企業(yè)開展生產(chǎn)的主要原料,其中廢鋼鐵資源按其來源可分為自產(chǎn)廢鋼、加工廢鋼和折舊廢鋼3類。廢鋼鐵是可再生資源,在生產(chǎn)過程中,對廢鋼資源進行合理管理與利用,提高廢鋼的回收利用率,可以節(jié)省鐵礦石的投入,有效降低資源和能源消耗,減少大量廢氣廢水排放[2]。
隨著鋼鐵工業(yè)的迅速發(fā)展,廢鋼鐵的需求量也在大幅增長[3]。而目前鋼鐵企業(yè)的廢鋼資源管理還存在較多問題,如廢鋼分類回收混亂、利用率較低等。因此,實現(xiàn)廢鋼自動分類對于鋼鐵企業(yè)而言日益重要。
根據(jù)中國廢鋼鐵應用協(xié)會的統(tǒng)計,2018年全國廢鋼鐵資源總產(chǎn)量為2.1億t,同比增漲10%。2019年全國廢鋼總產(chǎn)量為2.4億t,同比增漲9%,廢鋼資源穩(wěn)定增長。
根據(jù)有關數(shù)據(jù)的分析與預測,由于折舊廢鋼量的大增,2025年后廢鋼資源將進一步快速增長[4],廢鋼將成為我國高速發(fā)展的鋼鐵工業(yè)的重要支柱。而這對鋼鐵企業(yè)的廢鋼管理與利用水平提出了更高要求。
目前,國內關于廢鋼分類的研究還很少,僅有裴培等[5]人設計了廢鋼分類計量與管理系統(tǒng),有效提高了廢鋼數(shù)據(jù)信息傳輸效率。廢鋼分類屬于細粒度圖像分類問題,由于細粒度圖像的種類之間差距更小,實現(xiàn)廢鋼分類比一般的圖像分類更具有挑戰(zhàn)性。
傳統(tǒng)的圖像分類方法,如詞包模型[6](Bag of Words),其將圖像特征表示為人工特征描述子,并對測試圖像提取特征描述子后,與特征庫進行匹配得到分類結果。詞包模型使用全局特征來描述圖像,運算簡單快捷,消耗內存小,但難以識別存在背景干擾的復雜圖像。
為了解決上述問題,圖像分類研宄方向轉向了圖像中的局部特征,基于局部特征的尺度不變模型被提出。常用的局部特征描述算子有SIFT特征[7],HOG特征[8],LBP特征[9]等?;诰植刻卣鞯哪P驮谟袕碗s背景的圖像分類上取得了更好的效果,但由于其不能利用圖像的空間位置信息,對于不同視角的同類物體,局部特征模型的泛化能力較差。
近些年,學者又提出了基于語義特征的圖像分類模型。模型首先從圖像中提取出相應特征,并對特征進行處理得到語義信息,然后將特征聚類為一類圖像的語義特征?;谡Z義特征的圖像分類模型更符合人類視覺對圖像的識別過程,但其同樣沒有利用圖像的空間位置信息。
對于廢鋼分類問題,由于細粒度圖像的子類之間特征差異較小,傳統(tǒng)圖像分類模型提取的特征對于子類的分辨能力較弱。因此,傳統(tǒng)圖像分類模型應用于廢鋼分類問題的效果不夠理想。
近年來,深度學習[10]領域卷積神經(jīng)網(wǎng)絡發(fā)展迅速。1998年,Lecun提出了LeNet[11]。LeNet是一個結構簡單的卷積神經(jīng)網(wǎng)絡,但在進行手寫數(shù)字識別時取得了98%以上的準確率,從而引發(fā)了卷積神經(jīng)網(wǎng)絡的研究熱潮。
2012年,AlexNet[12]在ILSVRC(ImageNet Large Scale Visual Recognition Challenge)競賽中獲得冠軍,正確率遠超第二名。AlexNet包含5個卷積層和3個全連接層,采用ReLU(Rectified Linear Units)激活函數(shù)來加速訓練,是第一個真正意義上的深度神經(jīng)網(wǎng)絡。
2014年,牛津大學的Visual Geometry Group提出的VGGNet[13]獲得ILSVRC競賽亞軍。VGGNet在AlexNet的基礎上繼續(xù)發(fā)展,層數(shù)更深,網(wǎng)絡結構更廣。同年,GoogLeNet[14]獲得ILSVRC競賽冠軍,其通過構建和組合多個Inception模塊,使得網(wǎng)絡更深更廣,同時減少了模型的參數(shù)量,解決了過擬合和梯度彌散(Gradient Vanishing)等問題。
2015年,Kaiming He提出的ResNet[15]獲得ILSVRC競賽冠軍。He提出了短路連接機制以解決深層網(wǎng)絡難以訓練的問題,使網(wǎng)絡的層數(shù)得以繼續(xù)加深。同年,Gao Huang等人借鑒ResNet的思想提出了DenseNet[16]。其特點是網(wǎng)絡的任意兩層之間直接連接,使用這種密集連接機制實現(xiàn)了特征重用,減少了參數(shù)量。
2019年,谷歌提出了EfficientNet[17],同時提出了一種新的模型縮放方法,使用一個簡單而高效的復合系數(shù),從深度、廣度和輸入分辨率3個維度縮放網(wǎng)絡,從而同時兼顧模型的運行速度與精度。
隨著卷積神經(jīng)網(wǎng)絡的發(fā)展,其分類速度與精度不斷提高,目前已逐漸成為圖像分類的主流方法。卷積神經(jīng)網(wǎng)絡用于解決廢鋼分類問題具有可行性。
深度神經(jīng)網(wǎng)絡的訓練需要大量圖像數(shù)據(jù),而廢鋼圖像數(shù)據(jù)量非常有限。圖像數(shù)據(jù)的不足將影響模型的分類效果,為了在數(shù)據(jù)有限的前提下取得較高的分類準確率,考慮使用遷移學習等方法彌補數(shù)據(jù)的不足。
遷移學習[18]是將從一個領域中學習到的知識,遷移應用到與之相關的新領域中的方法。深度神經(jīng)網(wǎng)絡有強大的特征提取能力,但其訓練需要大量標注數(shù)據(jù),如數(shù)據(jù)不足很容易陷入過擬合,難以取得理想的分類效果。如先利用大型數(shù)據(jù)集初步訓練深度神經(jīng)網(wǎng)絡,再將網(wǎng)絡習得的知識恰當?shù)剡M行遷移應用,則可解決訓練數(shù)據(jù)不足的問題,克服過擬合現(xiàn)象,同時節(jié)省大量運算成本,縮短訓練時間。
遷移學習應用于圖像分類或識別問題的具體實施方法為,使用在ImageNet數(shù)據(jù)集上訓練的預訓練模型(Pre-trained Model),將其特征提取層的結構和權重進行遷移,構建遷移學習模型并在實際訓練數(shù)據(jù)上進行訓練。ImageNet是一個包含1 500萬張圖片的大型圖像分類數(shù)據(jù)庫,共有2.2萬個分類。預訓練模型擁有在ImageNet上學習到的知識,已學會提取一些低端特征,如輪廓特征、紋理特征等,使用預訓練模型進行遷移學習,可以使網(wǎng)絡更快更好地學習小數(shù)據(jù)集,發(fā)揮深度神經(jīng)網(wǎng)絡特征提取的優(yōu)勢,同時節(jié)省收集更多數(shù)據(jù)的人力物力。目前,遷移學習已廣泛應用于小數(shù)據(jù)集的圖像分類問題中,如朱良寬等[19]人運用遷移學習提高植物葉片分類的準確率,謝小紅等[20]人將遷移學習運用于服裝分類的研究等。
本文總結了近些年廢鋼資源的增長趨勢和利用情況,分析了傳統(tǒng)圖像分類方法不適用于廢鋼分類的原因,并展望了卷積神經(jīng)網(wǎng)絡應用于廢鋼分類的可行性及運用遷移學習等方法來彌補廢鋼圖像數(shù)據(jù)不足的可能性。