裴健 黃進
[摘? ? 要]為了解決社會中的垃圾分類的問題,提出了一種基于卷積神經網絡和群體標準化的垃圾圖像分類方法。不需要輸入復雜的圖像處理,網絡模型可以根據生成算法來提取圖像的特征由集團標準化和網絡模型的每一層之間的合作,克服傳統(tǒng)分類算法的缺點,實現垃圾圖像的準確分類。實驗表明,該方法具有較高的準確率,能夠識別出不可進行回收處理垃圾和可回收垃圾。
[關鍵詞]卷積神經網絡;組規(guī)范化;圖像分類;機器學習
[中圖分類號]TP183 [文獻標志碼]A [文章編號]2095–6487(2020)10–00–04
Research on Garbage image Classification based on Convolutional
Neural Network and Group Normalization
Pei Jian ,Huang Jin
[Abstract]In order to solve the problem of garbage classification in the society, put forward a kind of based on convolutional neural networks and groups standardization of spam image classification method, no need to input the complex image processing, network model can be generated according to the characteristics of the algorithm to extract image by group collaboration between standardization and network model of each layer, overcome traditional classification algorithms shortcomings, realize accurate classification garbage image. Experiments show that this method has high accuracy and can identify non-recyclable and recyclable garbage.
[Keywords]Convolutional neural network; Group normalization; Image classification; Machine learning
垃圾分類是垃圾終端處理設施運轉的基礎,實施生活垃圾分類,可以有效改善城鄉(xiāng)環(huán)境,促進資源回收利用。應在生活垃圾科學合理分類的基礎上,對應開展生活垃圾分類配套體系建設,根據分類品種建立與垃圾分類相配套的收運體系、建立與再生資源利用相協(xié)調的回收體系,完善與垃圾分類相銜接的終端處理設施,以確保分類收運、回收、利用和處理設施相互銜接。只有做好垃圾分類,垃圾回收及處理等配套系統(tǒng)才能更高效地運轉。
近年來,人口老齡化加快,我國出現清潔工招人困難,服務行業(yè)用工成本攀升等問題。包括清潔工在內的服務行業(yè)缺少勞動力成為了行業(yè)普遍面臨的瓶頸問題。少子化也讓更多人不愿做重復枯燥的清潔工等工作。在消費水平提升、需求增長等多方面共同推進下,垃圾清理機器人將會成為機器人領域的熱點,我國的垃圾清理機器人將迎來巨大的機遇和發(fā)展空間。加大垃圾清理機器人的研究可以使得機器人技術更快服務于人類社會。
1 相關深度學習方法
深度學習在圖像進行處理領域的主要通過網絡經濟結構包括:深度神經網絡、深度信念網絡、循環(huán)神經網絡、生成對抗網絡和卷積神經網絡。以垃圾圖像分類為例。在輸入階段,硬件設備通過系統(tǒng)采集垃圾圖像的光學信息,經過預處理、特征提取和分析將馮世華的數據輸入算法進行計算和輸出。卷積神經網絡經過在公安、軍事、農業(yè)等領域的多次應用,在機器視覺領域發(fā)展有著一個非常優(yōu)異的性能,因此已經被應用在各種解決方案中。
1982年福島等人首次提出了深度學習模型,但沒有得到重視。直到2012年,Krizh等人提出了一種新的深度結構和Dropout方法,該方法成功贏得了計算機視覺Imagenet競賽,CNN正式進入人們的視野。神經網絡在 2012 年嶄露頭角,Alex Krizhevsky 憑借它們贏得了那一年的 ImageNet 挑戰(zhàn)賽(大體上相當于計算機視覺的年度奧林匹克),他把分類誤差記錄從 26 % 降到了 15 %,在當時震驚了世界。自那之后,大量公司開始將深度學習用作服務的核心。Facebook 將神經網絡用于自動標注算法、谷歌將它用于圖片搜索、亞馬遜將它用于商品推薦、Pinterest 將它用于個性化主頁推送、Instagram 將它用于搜索架構。
1.1 卷積神經網絡
卷積神經網絡是一種典型的深度學習算法,一種具有深度結構和卷積計算的前饋神經網絡算法。它是多層感知器的一個變體模型。時滯神經系統(tǒng)網絡和Lenet-5是最早的卷積進行神經通過網絡。卷積神經網絡仍然是一個層次網絡,但層次的功能和形式發(fā)生了變化,這是對傳統(tǒng)神經網絡的改進。典型的卷積進行神經系統(tǒng)網絡由輸入層、卷積層、池化層、全連接層和輸出層組成。從本質上講,卷積神經網絡是一種通過輸入-輸出映射。它可以學習輸入和輸出之間的大量映射關系,而無需輸入和輸出之間的精確數學表達式。卷積網絡的思想是將局部接收場、權重分擔和時空二次抽樣三種結構思想結合起來,以獲得一定程度的位移、尺度和變形不變性。卷積神經網絡只要用已知的模式進行訓練,網絡就具有對應輸入和輸出對應的映射學習能力。
1.2 組規(guī)范化
總結來說,Group Normbalization(GN)是一種新的深度學習歸一化方式,可以替代BN。眾所周知,BN是深度學習中常使用的歸一化方法,在提升訓練以及收斂速度上發(fā)揮了重大的作用,是深度學習上里程碑式的工作,但是其仍然存在一些問題,而新提出的GN解決了BN式歸一化對batch size依賴的影響。
BN全名是Batch Normalization,其是一種歸一化方式,而且是以batch的維度做歸一化,那么問題就來了,此歸一化方式對batch是independent的,過小的batch size會導致其性能下降,一般來說每GPU上batch設為32最合適,但是對于一些其他深度學習任務batch size往往只有1~2,比如目標檢測,圖像分割,視頻分類上,輸入的圖像數據很大,較大的batchsize顯存吃不消。導致分組(group)的因素有很多,比如頻率、形狀、亮度和紋理等,HOG特征根據orientation分組,而對神經網絡來講,其提取特征的機制更加復雜,也更加難以描述,變得不那么直觀。另在神經科學領域,一種被廣泛接受的計算模型是對cell的響應做歸一化,此現象存在于淺層視覺皮層和整個視覺系統(tǒng)。如圖1所示。
2 垃圾分類方法設計
卷積神經系統(tǒng)網絡是深度合作學習的代表算法技術之一,是一種發(fā)展具有卷積計算和深度結構的前饋神經通過網絡傳統(tǒng)的卷積神經網絡算法主要由卷積層、匯聚層和全連接層組成。與傳統(tǒng)模型相比,RESNET模型引入了殘差函數的概念,同時通過引入dropout算法來解決過擬合分析問題。我們希望對每個神經元,激勵函數都能盡量區(qū)分出z值變化,這樣每個神經元的表達能力更強,但sigmoid明顯在|z|>4的區(qū)間的梯度就不夠看了,即它的梯度消失了。相比之下,ReLU輸出就很穩(wěn)定,因為他z>0區(qū)間就是一個線性函數!不存在sigmoid的梯度消失的問題。另一個ReLU很給力的地方就是稀疏度問題。就是我們希望每個神經元都能最大化的發(fā)揮它篩選的作用,符合某一個特征的中間值,使勁兒放大;不符合的,一刀切掉。算法流程如圖2所示。
2.1 resnet模型
對于資源網絡模型,引入了殘差元素,加入身份映射,ResNet使用兩種殘差單元。對應的是淺層網絡和深層網絡。對于短路連接,當輸入和輸出維度一致時,可以直接將輸入加到輸出上。但是當維度不一致時(對應的是維度增加一倍),這就不能直接相加。有2種策略:(1)采用zero-padding增加維度,此時一般要先做一個downsamp,可以采用strde=2的pooling,這樣不會增加參數;(2)采用新的映射(projection shortcut),一般采用1×1的卷積,這樣會增加參數,也會增加計算量。短路連接除了直接使用恒等映射,當然都可以采用projection shortcut。也就是說,f(X)=h(X)-x。Resnet更適合于訓練學生深度學習卷積神經系統(tǒng)網絡。由于lamp的增加和訓練樣本較小,會發(fā)生過擬合。為了解決這一問題,采用dropout丟棄算法。
2.2 dropout丟棄算法
由于RESNET可以訓練較深的卷積神經網絡,誤差較小,隨著時間卷積層數量的增加,會出現過擬合分析問題。現在過擬合表: 模型在訓練數據中的損失函數值小,預測精度高。丟棄算法是提高模型泛化能力的一種方法。神經系統(tǒng)網絡單元可以根據企業(yè)一定的概率暫時從網絡中丟棄。但在試驗研究數據中,損失函數值比較大,預測模型精度要求較低。為了減少過擬合現象,bn與Dropout同時引入,在一定影響程度上達到了一個正則化效果,增加了迭代次數。原理是隨機將某些神經元的輸出設置為 0,概率為 0,不參與正向影響傳播,也不參與反向進行傳播。
2.3 特征提取
于己而言,特征是某些突出性質的表現,于他而言,特征是區(qū)分事物的關鍵,所以,當要對事物進行分類或者識別,實際上就是提取‘特征,通過特征的表現進行判斷。卷積神經系統(tǒng)網絡的卷積檢查應該是作為一個學生接受域,使得每個神經元不需要感知全局圖像,只需要感知局部圖像數據區(qū)域。然后,在更高的層次上,結合不同感知區(qū)域的神經元,可以獲得全局信息。2個3×3堆疊卷積層的有限接收場為5×5,三個3×3疊加卷積層的接收場為7×7。因此,小卷積層的疊加分析可以通過提升大卷積層的點,而感知場的大小保持不變。這里,左卷積的核大小是3:3。
2.4 群組歸一化
導致分組(group)的因素有很多,比如頻率、形狀、亮度和紋理等,HOG特征根據orientation分組,而對神經網絡來講,其提取特征的機制更加復雜,也更加難以描述,變得不那么直觀。另在神經科學領域,一種被廣泛接受的計算模型是對cell的響應做歸一化,此現象存在于淺層視覺皮層和整個視覺系統(tǒng)。 Bn有許多學生優(yōu)點,例如,加快進行訓練發(fā)展速度,緩解梯度擴散,等等,但Bn層接近批量大小,如果數量太小會太多的干涉,因為每次計算一批均值和方差時,如果體積太小,則均值和方差的計算不足以表示整個數據分布。可以看出BN對批量大小有很強的依賴性。
2.5 relu激活函數
當將 ReLU 函數引入神經網絡時,也引入了很大的稀疏性。稀疏是指數量少,通常分散在很大的區(qū)域。在神經網絡中,這意味著激活的矩陣含有許多 0。當某個比例(比如 50 %)的激活飽和時,就稱這個神經網絡是稀疏的。這能提升時間和空間復雜度方面的效率——常數值(通常)所需空間更少,計算成本也更低。Yoshua Bengio 等人發(fā)現 ReLU 這種分量實際上能讓神經網絡表現更好,而且還有前面提到的時間和空間方面的效率。
Softmax函數分析又稱歸一化指數進行函數,它是在多分類中促進sigmiod,其目的是以概率的形式表達多分類的結果訓練進行回歸分析模型后,softmax可以同時通過數據輸入任意樣本基本特征的圖來預測輸出類別的概率。在多分類管理過程中,將多個不同神經元的輸出映射到[0,1]區(qū)間,進行多分類。Softmax回歸也是一個單層神經網絡,輸出層相當于全連接層。以預測概率最高的類別作為神經網絡的最終輸出類別,從而實現圖像分類。
3 實驗與結果分析
選擇的圖像數據集是garbage image Collection,它對廚余垃圾、可回收垃圾、不可回收垃圾和其他國家垃圾問題進行分析分類。圖像分為灰度圖像和彩色圖像?;叶葓D像的灰度值為[0,1],彩色圖像用三維張量表示,格式為M×N×3矩陣,M,N為圖像長度和寬度的像素點個數??偣才臄z了2164張訓練圖像,其中219張用于測試,1945張用于訓練。垃圾圖像數據集大小如表1、表2所示。
素點個數。垃圾圖像數據集大小如表所示。
數據庫中可回收垃圾的圖像如圖所示,圖中可以使用的是32×32像素的3通道RGB彩色進行圖像。訓練前,對圖像進行預處理。如圖3所示。
(1)圖像大小歸一化是將圖像大小均勻改變?yōu)?2×32×3的三維張量。
(2)增加圖片的差異性和多樣性,并對圖片進行隨機調整,如平移、旋轉等。
將大小為32×32×3的三維張量輸入網絡,基于2-2層池化的特征提取,得到4×4×32的特征圖。最后通過4×4×120的卷積核,得到一個120的向量并輸入到全連接層。在神經網絡中引入了激活函數和非線性因子,提高了模型的表達能力。第一個樣本選擇可回收垃圾圖像分類,實驗結果如圖,培訓50次,訓練集和測試集的準確性增加更精確的數量的增加,最終的目的是將訓練好的模型部署到真實的環(huán)境中,希望訓練好的模型能夠在真實的數據上得到好的預測效果,換句話說就是希望模型在真實數據上預測的結果誤差越小越好。把模型在真實環(huán)境中的誤差叫做泛化誤差,最終的目的是希望訓練好的模型泛化誤差越低越好。最后,隨著訓練次數的增加,準確率與圖片數量呈正相關,而成本損失函數則呈負相關。
4 結束語
垃圾的大量產出,使環(huán)境與健康問題日益突出。垃圾的隨意丟棄、簡單堆放與處理,會導致很多問題產生,比如破壞良好的生活環(huán)境,污染水源、土壤、空氣等環(huán)境,導致蚊蟲、細菌的大量孳生,增加傳染病發(fā)生的概率等。實行垃圾分類,可以改善我們的生活環(huán)境,可以減少垃圾對環(huán)境的污染,從而有利的保障人們的健康。通過卷積神經網絡在快速訓練神經網絡的同時降低了對硬件的需求,從而可以更好更方便的完成垃圾分類任務
參考文獻
[1] . Instrumentation Research; Study Findings from University of Waterloo Provide New Insights into Instrumentation Research (Deep-learning-based Neural Network Training for State Estimation Enhancement: Application To Attitude Estimation)[J]. Network Weekly News,2020.
[2] . Covid-19 classification by FGCNet with deep feature fusion from graph convolutional network and convolutional neural network.[J]. An international journal on information fusion,2020,67.
[3] . Computers; New Computers Study Results from Georgia Institute of Technology Described (Accelerating Deep Neural Network In-situ Training With Non-volatile and Volatile Memory Based Hybrid Precision Synapses)[J]. Computer Weekly News,2020.
[4] 楊斌,李成華,江小平,等.一種用于提升深度學習分類模型準確率的正則化損失函數[J].中南民族大學學報(自然科學版),2020,39(1):74-78.
[5] 張苗輝,張博,高誠誠.一種多任務的卷積神經網絡目標分類算法[J].激光與光電子學進展,2019,56(23):222-229.
[6] 鄭遠攀,李廣陽,李曄.深度學習在圖像識別中的應用研究綜述[J].計算機工程與應用,2019,55(12):20-36.
[7] 楊真真,匡楠,范露,等.基于卷積神經網絡的圖像分類算法綜述[J].信號處理,2018,34(12):1474-1489.
[8] Yiliu Jiang,Lianghao Ji,Xingcheng Pu,Qun Liu,Marcio Eisencraft. Group Consensus for Discrete-Time Heterogeneous Multiagent Systems with Input and Communication Delays[J]. Complexity,2018.
[9] 張德園,常云翔,張利國,等.SAT-CNN:基于卷積神經網絡的遙感圖像分類算法[J].小型微型計算機系統(tǒng),2018,39(4):859-864.
[10] 劉雨桐,李志清,楊曉玲.改進卷積神經網絡在遙感圖像分類中的應用[J].計算機應用,2018,38(4):949-954.
[11] 朱威,屈景怡,吳仁彪.結合批歸一化的直通卷積神經網絡圖像分類算法[J].計算機輔助設計與圖形學學報,2017,29(9):1650-1657.
[12] 周俊宇,趙艷明.卷積神經網絡在圖像分類和目標檢測應用綜述[J].計算機工程與應用,2017,53(13):34-41.
[13] Evgeny A.Smirnov,Denis M.Timoshenko,Serge N.Andrianov. Comparison of Regularization Methods for ImageNet Classification with Deep Convolutional Neural Networks[A]. Information Engineering Research Institute,USA.Proceedings of 2013 2nd AASRI Conference on Computational Intelligence and Bioinformatics(CIB 2013 V6)[C].Information Engineering Research Institute,USA:智能信息技術應用學會,2013.
[14] Kunihiko Fukushima. Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position[J]. Biological Cybernetics,1980,36(4):193-202.
[15] 王玉,王夢佳,張偉紅.基于CNN和Group Normalization的校園垃圾圖像分類[J].吉林大學學報(信息科學版),2020,38(6):744-750.