魏家豪 姜楠楠
(哈爾濱華德學(xué)院,黑龍江 哈爾濱 150000)
習(xí)近平提出“綠水青山就是金山銀山”。環(huán)保是民生的大課題,而垃圾分類則是環(huán)保的重頭戲,從源頭控制垃圾的產(chǎn)生和歸類,是一個難點亦是一個重點。生活垃圾裸露在空氣中,會釋放出大量有害氣體,粉塵和細小顆粒物隨風(fēng)飛揚,危害周圍大氣環(huán)境。在堆放過程中會產(chǎn)生大量的酸性、堿性等有機污染物,隨雨水滲入地下,造成地下水水體污染。此外,生活垃圾也是病菌滋生地和繁殖場,影響周圍環(huán)境衛(wèi)生,危害人體健康。據(jù)相關(guān)部門統(tǒng)計,人均每天會產(chǎn)生約1.5 公斤的生活垃圾,每年會有接近200 多億元的生活垃圾因分類難度大而被浪費。因此,為了達到更大程度上保護環(huán)境和節(jié)約資源的目的,智能分類垃圾桶便應(yīng)用而生。本文試在學(xué)界相關(guān)研究的基礎(chǔ)上,使用深度學(xué)習(xí)方法中的一種用于圖像分類、Inception-v3 卷積神經(jīng)網(wǎng)絡(luò)模型,設(shè)計一種新型智能化分類垃圾桶。研究旨在有效進行生活垃圾分類,提高垃圾分類效率,盡可能達到資源有效利用和環(huán)境保護的目的。
該智能垃圾桶框架為圓角矩形柱體。桶體高60cm,直徑40cm。內(nèi)部設(shè)有四個規(guī)格相同的長方體垃圾倉,待裝不同種類的垃圾,分別為可回收垃圾、有害垃圾、其它垃圾及廚余垃圾。由于廚余垃圾比較特殊,液體部分會污染垃圾桶,因此,將廚余垃圾提前人工的裝入特制的廚余垃圾袋(應(yīng)用RFID 射頻識別技術(shù),在垃圾袋上貼上制作好的電子標(biāo)簽)。當(dāng)垃圾倉裝滿垃圾后,打包器自動打包并發(fā)出警報聲,以作向人提示。另外,此垃圾桶具有語音識別功能和驅(qū)動系統(tǒng),它能根據(jù)人類說出的指令,自行到達指定位置。結(jié)構(gòu)如圖1、圖2、圖3 所示。
圖1 框架結(jié)構(gòu)圖
圖2 內(nèi)部剖面圖
圖3 俯視結(jié)構(gòu)圖
圖1、2、3 中:1-桶蓋;2-感應(yīng)垃圾窗口;3-桶體;4-桶輪;5-驅(qū)動系統(tǒng);6-機械控制系統(tǒng)及語音識別系統(tǒng);7-樹莓派擴展板及供電系統(tǒng);8-垃圾倉;9-分揀轉(zhuǎn)盤及打包器;10-攝像頭;11-LED 補光燈及RFID 讀寫器;12-垃圾隔板;13-鉸鏈(合頁)。
當(dāng)人手提拎垃圾距垃圾桶約10 厘米時,具有紅外感應(yīng)功能的垃圾窗口自動打開,垃圾進入分揀轉(zhuǎn)盤后LED 補光燈和攝像頭自啟,對垃圾進行多角度全方位拍照。將捕捉拍攝的垃圾圖片傳至CNN 垃圾識別系統(tǒng),識別此垃圾是何種類別,將識別結(jié)果發(fā)送給分揀轉(zhuǎn)盤。轉(zhuǎn)盤根據(jù)對應(yīng)垃圾的種類旋轉(zhuǎn)到對應(yīng)類別的垃圾倉,隨后,轉(zhuǎn)盤上的垃圾隔板打開使垃圾掉入垃圾倉,投放成功。
該智能垃圾桶總體架構(gòu)由識別系統(tǒng)和智能硬件兩大部分組成,在智能硬件上運行識別系統(tǒng),該整體設(shè)計選用計算機程序設(shè)計語言Python。
識別系統(tǒng)主要基于深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)CNN,(百度百科)卷積神經(jīng)網(wǎng)絡(luò)是一類包含卷積計算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Networks),是深度學(xué)習(xí)(Deep Learning)的代表算法之一,具有表征學(xué)習(xí)(Representation Learning)能力。此系統(tǒng)簡要概括為樣本采集和模型訓(xùn)練,在模型訓(xùn)練中使用相關(guān)算法起到優(yōu)化的作用。
3.1.1 樣本采集及處理,將網(wǎng)上爬取或手動拍攝的垃圾圖片,進行Tensorflow 圖像處理[1]。
3.1.1.1 圖像編碼處理:將垃圾圖像還原成一個三維矩陣。三維矩陣重新按照jpeg 格式編碼,從而得到與原始垃圾圖像一致的圖像。
3.1.1.2 圖像色彩調(diào)整:調(diào)整垃圾圖像的亮度、對比度、飽和度、色相,使得訓(xùn)練得到的模型受無關(guān)因素的影響最小。
3.1.1.3 處理標(biāo)注框:截取垃圾圖片上信息含量較多的部分,提高模型的健壯性,使得訓(xùn)練得到模型不受被識別垃圾物體大小的影響。
3.1.2 模型訓(xùn)練,基于卷積神經(jīng)的Inception-v3 模型。
3.1.2.1 卷積神經(jīng)網(wǎng)絡(luò)由5 部分組成[1-2],如圖4,其各部分簡略功能如下:
圖4 用于圖像分類問題的一種卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)圖[1]
(1)輸入層:是整個神經(jīng)網(wǎng)絡(luò)的輸入。
(2)卷積層:(Convolution Layer)將神經(jīng)網(wǎng)絡(luò)中的每一小塊進行深入地分析,從而得到抽象程度更高的特征。卷積過程所用數(shù)學(xué)公式:s(i,j)=(X*W)(i,j)+b=k=∑n_ink=1(XK*WK)(i,j)+b。其中,Xk代表第k 個輸入矩陣。Wk代表卷積核的第k 個子卷積核矩陣。s(i,j)即卷積核W 對應(yīng)的輸出矩陣的對應(yīng)位置元素的值。激活函數(shù)是ReLU,ReLU(x)=max(0,x)。
(3)池化層:(Pooling Layer)縮小全連接層中節(jié)點個數(shù),進而減少整個神經(jīng)網(wǎng)絡(luò)中的參數(shù)。
(4)全連接層:(Fully Connected Layer)具有多層感知機分類器,完成分類任務(wù)。
(5)Softmax 層:用于分類問題,得到當(dāng)前樣例屬于不同種類的概率分布情況。
3.1.2.2 Inception-v3 模型
經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)有識別數(shù)字的LetNet-5 模型,不同卷積通過串聯(lián)的方式連接在一起,而Inception-v3 模型中的Inception 結(jié)構(gòu)是將不同的卷積層通過并聯(lián)的方式結(jié)合在一起。Inception 模塊給出方案,卷積層同時使用邊長為1、3、5 不同尺寸的過濾器,然后再將得到的巨型拼接。如圖5 所示。
圖5 Inception 模塊示意圖[1]
Inception-v3 模型總共有46 層,由11 個Inception 模塊組成,顯示了Inception-v3 模型中的數(shù)據(jù)流向,這是一個帶有許多層的,有著復(fù)雜結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)[3]。如圖6 所示。
圖6 Inception-v3 模型架構(gòu)圖
3.1.3 優(yōu)化過程
訓(xùn)練模型時使用前向傳播算法使優(yōu)化過程。輸入1 個垃圾圖片樣本,CNN 模型的層數(shù)L 和所有隱藏層的類型,對于卷積層,需要定義卷積核的大小K,卷積核子矩陣的維度F,填充大小P,步幅S。對于池化層,需要定義池化區(qū)域大小k 和池化標(biāo)準(MAX 或Average),對于全連接層,需要定義全連接層的激活函數(shù)(輸出層除外)和各層的神經(jīng)元個數(shù)[4]。得到CNN 模型的輸出aL。
3.1.3.1 根據(jù)輸入層的填充大小P,填充原始圖片的邊緣,得到輸入張量a1。
3.1.3.2 初始化所有隱藏層的參數(shù)W,b。
3.1.3.3 for l=2 to L-1:
(1) 如果第l 層是卷積層, 則輸出為:al=ReLU(zl)=ReLU(al-1*Wl+bl)
(2)如果第l 層是池化層,則輸出為al=pool(al-1),pool 是指按照池化區(qū)域大小k 和池化標(biāo)準將輸入張量縮小的過程。
(3)如果第l 層是全連接層,則輸出為:al=σ(zl)=σ(Wlal-1+bl)。
3.1.3.4 對于輸出層第L 層:aL=softmax(zL)=softmax(WLaL-1+bL)
智能硬件基于樹莓派,它是一款基于Linux、信用卡般大小的卡片式計算機[5-6]。在樹莓派硬件上進行相關(guān)的配置以及附屬電子器件。
(1)數(shù)據(jù)信息傳輸需網(wǎng)絡(luò)環(huán)境。通過無線接入點的方式聯(lián)通網(wǎng)絡(luò)。
(2)配備供電系統(tǒng)。
(3)添加與樹莓派兼容的攝像頭。
(4)添加LED 補光燈。為了使拍攝效果更好,建立良好的照明區(qū)域,可以同時從四周和頂部均勻給光(深色圈圈代表LED燈,深色長方形代表攝像頭),如圖7 所示。
圖7 照明區(qū)域
(5)添加機械控制系統(tǒng),使其控制分揀轉(zhuǎn)盤運轉(zhuǎn)。
(6)添加移動驅(qū)動系統(tǒng)。安裝電機驅(qū)動擴展板以及小輪,電機驅(qū)動擴展板是一種安裝在樹莓派頂部的附加硬件,能夠在符合電壓和電流要求的情況下同時為多個電機供電(如:PaspiRobot Board V3),從而為電機提供相應(yīng)的驅(qū)動信號。
(7)添加語音識別系統(tǒng),使智能垃圾桶可以理解人類語音命令后發(fā)起動作,到達人類指定的地點。
語音識別的基本原理如圖8 所示。語音識別包括兩個階段:訓(xùn)練階段和識別階段,需要對輸入語音的信號進行預(yù)處理和提取其特征值。訓(xùn)練階段所做的具體工作是采集許多的語音語料,經(jīng)過不斷地處理和提取后得到特征矢量參數(shù),最后通過特征建立數(shù)學(xué)模型來達到建立訓(xùn)練語音的參考模型庫的目的。而識別階段所做的主要任務(wù)就是將輸入語音的特征矢量參數(shù)和參考模型庫中的參考模型進行類似的度量比較,然后把類似的度最高輸入語音特征矢量作為識別結(jié)果輸出[7]。
圖8 語音識別的基本原理
綜上所述,依據(jù)本設(shè)計核心,可以根據(jù)不同的使用環(huán)境,增加更細致的垃圾分類類別,構(gòu)造出相適應(yīng)環(huán)境的智能分類垃圾桶。其可用于個人家庭、辦公場所、公共場合等。
人類日常生活中,會產(chǎn)生大量的紙屑、飲料瓶、塑料袋、果皮、食物殘渣、廢舊金屬及報廢電池等。垃圾放入該智能分類垃圾桶,經(jīng)內(nèi)部自行操作,從識別到垃圾袋打包再到垃圾倉套袋,整體過程為一體化操作,不需要人為參與(僅提前將垃圾袋安裝到桶內(nèi)的特定位置),在忙碌的生活中,極大的簡化了人工投放的過程,也解決了對于某些垃圾類別不明確的難題,同時也避免了垃圾對環(huán)境的二次污染。
由于不需要再次分揀,因此簡化了垃圾后期再次回收和處理的過程,減小了人力、物力及財力重復(fù)的投入和浪費。通過智能分類垃圾桶將已分類好的垃圾,如紙屑、飲料瓶、金屬等有效分類管理,可直接用于相關(guān)工廠二次生產(chǎn),廚余垃圾可用于發(fā)電或制作肥料。據(jù)中國財經(jīng)觀察網(wǎng)預(yù)測,住建部推進生活垃圾分類,垃圾回收利用率將會高于35%。若使用該智能分類垃圾桶,回收率在此基礎(chǔ)上會有所增加,極大程度上實現(xiàn)了資源的節(jié)約。
本文設(shè)計的智能垃圾桶,在識別系統(tǒng)部分,采用一種用于圖像分類、Inception-v3 卷積神經(jīng)網(wǎng)絡(luò)模型。該系統(tǒng)搭載于樹莓派等智能硬件上,整體為模塊化設(shè)計,實現(xiàn)了垃圾桶自動識別與分揀垃圾的功能。利用語音及傳動技術(shù),賦予智能垃圾桶交互和移動功能。智能化和科技化是社會發(fā)展的必經(jīng)之路,科技與文明共存,用先進的科技手段,努力“建設(shè)資源節(jié)約型、環(huán)境友好型社會”[8]。