王 君,梁文威,麥淳銘,宋澤生,梁薇薇,蒲 磊
(1.中山大學(xué)南方學(xué)院,廣東 廣州 510970;2.廣州恒通智聯(lián)科技有限公司,廣東 廣州 510630;3.南昌大學(xué),江西 南昌 330027;4.重慶郵電大學(xué),重慶 400065)
智能圖像處理技術(shù)緊跟科技前沿,其算法被廣泛應(yīng)用于實(shí)際生產(chǎn)中,帶來了很多的便利和經(jīng)濟(jì)價值,尤其是基于計算機(jī)視覺圖像的識別技術(shù)。由于手機(jī)性能或者手機(jī)壽命等原因,產(chǎn)生了很多的棄用手機(jī),廢棄手機(jī)造成資源的浪費(fèi),污染環(huán)境[1-2]。而對手機(jī)檢測和回收的機(jī)構(gòu)企業(yè)較少,而且手機(jī)檢測和回收的手段和技術(shù)相對落后,人工檢測程度較低,客觀性較差,難以提高檢測回收速率,不能適應(yīng)現(xiàn)代的自動化流水線[3]。
圖像識別飲料瓶智能回收系統(tǒng)以搭載Linux系統(tǒng)的樹莓派3B+作為主控制器,以32位ARMCotex-M3內(nèi)核單片機(jī)為輔助控制器,構(gòu)成具有上下位機(jī)交互的完整系統(tǒng)。上位機(jī)樹莓派3B+主要為系統(tǒng)提供圖像識別技術(shù)功能支持,對放入系統(tǒng)中的物體進(jìn)行圖像識別,判斷其是否為瓶子。下位機(jī)通過分析上位機(jī)所識別的結(jié)果以及識別的數(shù)量進(jìn)行金額換算,進(jìn)而將金額數(shù)據(jù)傳輸?shù)皆茢?shù)據(jù)庫中。用戶在手機(jī)APP端就可以刷新查看到當(dāng)前自己用戶賬號的賬戶金額的變化。
對于可回收再利用資源,應(yīng)加強(qiáng)對其的回收利用?;厥障到y(tǒng)可以降低人工分揀過程的勞動程度,提高整體工作效率,從而降低生產(chǎn)成本。用機(jī)器視覺對流水線上的手機(jī)實(shí)現(xiàn)不同類型的識別分類,用以實(shí)現(xiàn)將海量非智能手機(jī)和智能手機(jī)的分類處理回收,以提取貴重金屬和稀有金屬[4-5],充分利用資源。一般的機(jī)器視覺回收系統(tǒng)會采集回收物圖像,經(jīng)過圖像處理可以得到其形狀和尺寸的數(shù)據(jù),最后按比例算出圖中物體的長度信息并和標(biāo)準(zhǔn)范圍作比對。機(jī)器視覺的手機(jī)識別與回收系統(tǒng)流程設(shè)計如圖1所示。
圖1 機(jī)器視覺的手機(jī)識別與回收系統(tǒng)流程
機(jī)器識別分揀[6],攝像頭的擺放、光照、角度,都會影響檢測的準(zhǔn)確率[7-13]?;跈C(jī)器視覺的手機(jī)識別與回收系統(tǒng),以搭載Linux系統(tǒng)的樹莓派3B+作為主控制器,以32位ARMCotex-M3內(nèi)核單片機(jī)為輔助控制器,構(gòu)成具有上下位機(jī)交互的完整系統(tǒng)。上位機(jī)樹莓派3B+主要為系統(tǒng)提供圖像識別技術(shù)[14],用兩個攝像頭,分別配以輔助補(bǔ)充光源,對放入系統(tǒng)中的物體進(jìn)行正反面的識別,以相似度分類識別手機(jī)[15-17],如圖2所示。
圖2 基于機(jī)器視覺的手機(jī)識別與回收系統(tǒng)位置
樹莓派3B+是基于ARM的微型電腦主板,外形比較小,卻具有電腦的所有基本功能?;谠萍夹g(shù)的數(shù)據(jù)傳輸與存儲功能的設(shè)計,以樹莓派3B+控制攝像頭通Tensorflow來檢測圖像中的物體是否為手機(jī)。隨后將所識別到的圖像數(shù)據(jù)傳輸至OneNET云服務(wù)器上,判斷該物體是否為非智能手機(jī)/智能手機(jī),同時OneNET云服務(wù)器記錄相關(guān)數(shù)據(jù)。流程如圖3所示。
圖3 圖像識別模塊和控制模塊流程圖
圖像預(yù)處理將收集的圖像數(shù)據(jù)灰度化,依據(jù)灰度圖像直方圖,采用自動增強(qiáng)對比度算法進(jìn)行圖像增強(qiáng)。然后,通過閾值分割提取目標(biāo)二值圖像,并通過均值濾波進(jìn)行平滑去噪,對濾波后的目標(biāo)圖像求最小外接矩形,可以得到其形狀和尺寸的數(shù)據(jù)特征和輪廓特征。
卷積神經(jīng)網(wǎng)絡(luò)算法是模仿腦神經(jīng)元連接實(shí)現(xiàn)感性思維。神經(jīng)網(wǎng)絡(luò)是一種模仿動物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。卷積神經(jīng)網(wǎng)絡(luò)是借助卷積核對輸入特征進(jìn)行特征提取(卷積、批標(biāo)準(zhǔn)化、激活、池化、舍棄),再把提取到的特征送入全連接神經(jīng)網(wǎng)絡(luò)進(jìn)行識別預(yù)測。
本研究采集大量手機(jī)圖片(輸入特征,標(biāo)簽)數(shù)據(jù)對構(gòu)成數(shù)據(jù)集→再把數(shù)據(jù)集投入到搭建好的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)→神經(jīng)網(wǎng)絡(luò)通過反向傳播,從后向前逐層求損失函數(shù)對每層神經(jīng)元參數(shù)的偏導(dǎo)數(shù),而迭代優(yōu)化參數(shù)得到模型→模型讀取新輸入的特征→輸出識別結(jié)果,見圖4和圖5。
圖4 手機(jī)圖片識別的神經(jīng)網(wǎng)絡(luò)搭建
圖5 非智能手機(jī)/智能手機(jī)輪廓特征提取圖
通過神經(jīng)元計算模型(MP模型)的全連接網(wǎng)絡(luò),可得輸出結(jié)果y=輸入特征x*權(quán)重w+偏置項(xiàng)b,見圖6。
圖6 簡化的MP模型
運(yùn)用梯度下降法,沿?fù)p失函數(shù)梯度下降的方向?qū)ふ覔p失函數(shù)最小值,得出最優(yōu)參數(shù)權(quán)重w和偏置項(xiàng)b。梯度下降法更新參數(shù)計算公式見式(1)和式(2),其中l(wèi)r為學(xué)習(xí)率,是一個超參數(shù),是損失函數(shù)梯度下降的速度。學(xué)習(xí)率不能設(shè)置的過大或過小,當(dāng)學(xué)習(xí)率設(shè)置的過小時,參數(shù)更新速度會變慢;當(dāng)學(xué)習(xí)率設(shè)置的過大時,參數(shù)更新會跳過最小值。一般先設(shè)置較大的學(xué)習(xí)率,快速得到一個較優(yōu)解,然后逐步減小學(xué)習(xí)率,使得模型在訓(xùn)練的后期趨向于穩(wěn)定。
(1)
(2)
當(dāng)損失函數(shù)最小時,則參數(shù)權(quán)重w和偏置項(xiàng)b會出現(xiàn)最優(yōu)值,使得前向傳播的預(yù)測值和實(shí)際的標(biāo)準(zhǔn)值無限接近,從而得到一個誤差率最小的手機(jī)識別訓(xùn)練模型,提高手機(jī)識別的準(zhǔn)確率。
Tensorflow訓(xùn)練法是比較有效的識別方法。Tensorflow是一種深度學(xué)習(xí)的框架,支持Macos、Ubuntu、Window等多系統(tǒng)運(yùn)作,支持GPU、CPU運(yùn)算。Tensorflow是一個人工智能學(xué)習(xí)系統(tǒng),是用來實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的內(nèi)置框架學(xué)習(xí)軟件庫,該系統(tǒng)被廣泛用于圖片識別等多個領(lǐng)域。
本研究需要收集大量的手機(jī)照片作為輸入數(shù)據(jù)。選取1 000張不同的手機(jī)圖片,分別是非智能手機(jī)500張和智能手機(jī)500張,并且把這1 000張圖片以10∶1的比例分為訓(xùn)練、測試的圖片集。同時在選擇手機(jī)的圖片時,必須要保證所選取的圖片有一定的清晰度并具有多樣性。
使用labelImg軟件對選取的手機(jī)圖片進(jìn)行標(biāo)記。當(dāng)對一張照片完成標(biāo)注時,所標(biāo)注的圖片會生成一個XML文件,圖片和XML文件都是1∶1相對應(yīng)的。XML文件是一種用于標(biāo)記電子文件使其具有結(jié)構(gòu)的標(biāo)記語言,XML記錄了標(biāo)注文件的信息,如長度、寬度和像素等信息,XML文件對于要標(biāo)注的識別物體的信息有非常重要的作用。
識別手機(jī)的類型如圖7所示。
圖7 識別手機(jī)的類型(非智能手機(jī)/智能手機(jī))
如表1所示,經(jīng)過對手機(jī)實(shí)物進(jìn)行實(shí)際識別操作,手機(jī)識別準(zhǔn)確率為90%以上,與預(yù)測值的準(zhǔn)確率較為接近。總體上識別準(zhǔn)確率較高,滿足設(shè)計基本需求。個別手機(jī)識別不出來的原因?yàn)椋菏謾C(jī)圖片輸入進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的特征數(shù)量仍然不夠,可以適量增加訓(xùn)練的樣本,以提高模板庫的特征;但為了滿足單片機(jī)的實(shí)際應(yīng)用要求,也要控制訓(xùn)練樣本的數(shù)量。
表1 非智能手機(jī)與智能手機(jī)的識別準(zhǔn)確率
最后,用STM32單片機(jī)的PWM信號是通過配置占空比來配置脈寬的輸出配置,使能定時器和相關(guān)IO口時鐘,初始化IO口為復(fù)用功能輸出,初始化定時器ARR、PSR等,初始化輸出比較參數(shù),使能定時器TIM,通過不斷改變比較值CCRx,控制占空比效果,從而控制舵機(jī)將識別出的手機(jī)送至回收箱。
以手機(jī)分類識別為例,具體展示了智能圖像處理方法的實(shí)用性和方便性。分類識別中,用Tensorflow算法對手機(jī)的特征信息和標(biāo)準(zhǔn)模板庫作范圍比對,實(shí)現(xiàn)了手機(jī)圖像識別,并以Linux系統(tǒng)的樹莓派3B+作為主控制器,以32位ARMCotex-M3內(nèi)核單片機(jī)為輔助控制器,完成手機(jī)識別與回收。測試證明,該系統(tǒng)穩(wěn)定且手機(jī)識別準(zhǔn)確率較高,識別穩(wěn)定快速。該系統(tǒng)成本低廉,可節(jié)省分類的人力,且可流水作業(yè),便于貴重金屬和稀有金屬的智能化回收利用,減少環(huán)境資源浪費(fèi)。隨著智能圖像處理的廣泛應(yīng)用,必將極大提高生活品質(zhì)。