摘 要:機(jī)器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科,讓機(jī)器模擬人類的學(xué)習(xí)行為。圖像處理是利用計(jì)算機(jī)對(duì)圖像數(shù)據(jù)進(jìn)行變換、預(yù)處理、特征提取與識(shí)別的技術(shù)。將機(jī)器學(xué)習(xí)方法融入到“圖像處理”課程中,有利于實(shí)現(xiàn)“新工科”專業(yè)課程內(nèi)容的更新。以機(jī)器學(xué)習(xí)方法為主線,將深度學(xué)習(xí)滲透到圖像處理課程教學(xué)內(nèi)容中,并與林業(yè)圖像相結(jié)合,制定具體的教學(xué)實(shí)施方式,滿足“新工科”課程建設(shè)的需求。
關(guān)鍵詞:機(jī)器學(xué)習(xí); 圖像處理; 新工科
中圖分類號(hào):G642? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ?文章編號(hào):1006-3315(2021)11-217-002
“新工科”[1]是在第四次工業(yè)革命、工業(yè)4.0等重大戰(zhàn)略下,提出來的工科專業(yè),具有實(shí)用性、綜合性、交叉性等特點(diǎn),產(chǎn)生于傳統(tǒng)專業(yè),又高于傳統(tǒng)專業(yè)。在專業(yè)建設(shè)目標(biāo)、理念、方法、內(nèi)容上,都要體現(xiàn)未來需求驅(qū)動(dòng),創(chuàng)新與交融、協(xié)調(diào)與卓越等思想。新工科專業(yè)主要以智能和互聯(lián)網(wǎng)為主軸,有人工智能、大數(shù)據(jù)、區(qū)塊鏈、5G等相關(guān)工科專業(yè)。利用智能對(duì)傳統(tǒng)專業(yè)進(jìn)行存量更新,實(shí)現(xiàn)信息化、智能化。還有增加新興工科專業(yè),提前布局培養(yǎng)引領(lǐng)未來技術(shù)和產(chǎn)業(yè)的人才。人工智能是新工科的核心技術(shù)之一,主要包括:?jiǎn)栴}表示與解決、自然語(yǔ)言、語(yǔ)音識(shí)別、視覺理解、機(jī)器學(xué)習(xí)與控制等。機(jī)器學(xué)習(xí)屬于人工智能的一部分。
機(jī)器學(xué)習(xí)就是給定一系列數(shù)據(jù)構(gòu)建一個(gè)模型,然后用此模型對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)和判別[2]。可簡(jiǎn)化為:數(shù)據(jù)-模型-屬性。首先要找到大量的數(shù)據(jù),構(gòu)成數(shù)據(jù)集,并找出數(shù)據(jù)的概率分布規(guī)律,確定模型的形式和參數(shù),此步驟稱之為訓(xùn)練。訓(xùn)練好的模型對(duì)新數(shù)據(jù)進(jìn)行概率計(jì)算,得到屬性評(píng)價(jià)。圖像處理是對(duì)圖像數(shù)據(jù)進(jìn)行計(jì)算的技術(shù)。圖像是數(shù)據(jù)最常見的一種形式,因此,機(jī)器學(xué)習(xí)的各種方法都可以應(yīng)用到圖像處理中來[3-4]。
機(jī)器學(xué)習(xí)包括深度學(xué)習(xí),兩者的本質(zhì)區(qū)別在于特征提取環(huán)節(jié),傳統(tǒng)的機(jī)器學(xué)習(xí)提取精確的特征集,此特征能夠區(qū)分不同類別,然后用分類器加以識(shí)別。深度學(xué)習(xí)是多參數(shù)、多層的神經(jīng)網(wǎng)絡(luò)(或稱之為模型),利用多參數(shù)可以提取每一層的特征,沒有必要與具體物理意義對(duì)應(yīng)的特征,更具有通用性、一般性、智能性。以“深度學(xué)習(xí)”為代表的新技術(shù),是“新工科”課程建設(shè)的標(biāo)志之一。本文將機(jī)器學(xué)習(xí)方法應(yīng)用到圖像處理教學(xué)的整個(gè)過程中,實(shí)現(xiàn)教學(xué)內(nèi)容更新,適應(yīng)新時(shí)代需求。
一、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)與圖像處理的關(guān)系
機(jī)器學(xué)習(xí)是人工智能研究的一個(gè)分支,人工智能研究包括專家系統(tǒng)、機(jī)器學(xué)習(xí)、進(jìn)化計(jì)算、模糊邏輯、計(jì)算機(jī)視覺、自然語(yǔ)言處理、推薦系統(tǒng)等。而機(jī)器學(xué)習(xí)是一種實(shí)現(xiàn)人工智能的方法,傳統(tǒng)方法主要有K-均值、K-近鄰(KNN)、決策樹(Decision Tree)、EM(Expectation-Maximization)、自適應(yīng)增強(qiáng)(Adaboost)、支持向量機(jī)(Support Vector Machines, SVM)、貝葉斯分類(Bayesian Classification)、聚類(Clustering)等方法。根據(jù)不同的分類方法有:監(jiān)督學(xué)習(xí)(如分類問題)、無(wú)監(jiān)督學(xué)習(xí)(聚類問題)、弱監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、集成學(xué)習(xí)、深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一部分,本質(zhì)上是一種深度結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),主要有卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)、深度置信網(wǎng)絡(luò)(Deep Belief Networks,DBN)等。主要模擬人的大腦中神經(jīng)元的通信和計(jì)算方法。
人類獲取信息中80%以上為視覺信息,視覺有視頻和圖像,視頻本質(zhì)上是由一張張圖片按時(shí)間軸疊加在一起而形成,因而視頻處理最終還是要?dú)w結(jié)到圖像處理。機(jī)器人通過視覺傳感器獲取圖像,機(jī)器人要進(jìn)行機(jī)器學(xué)習(xí)、理解、分析,并得出有用的結(jié)論和解決方案。深度學(xué)習(xí)是模仿人類大腦的一種機(jī)器學(xué)習(xí)方法,比傳統(tǒng)的機(jī)器學(xué)習(xí)方法學(xué)習(xí)效果更好,同時(shí)計(jì)算成本更大,對(duì)硬件設(shè)備要求高,是一種升級(jí)的新穎的機(jī)器學(xué)習(xí)方法。因此,機(jī)器學(xué)習(xí)及深度學(xué)習(xí)都是一種理論和知識(shí),可用于各種數(shù)據(jù),例如圖像、語(yǔ)音、文本、傳感器數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)等各類數(shù)據(jù),而圖像處理是一門技術(shù)和方法,主要包括:圖像采集、圖像變換、圖像增強(qiáng)和復(fù)原、圖像編碼、圖像分割、圖像特征及描述、圖像分類和識(shí)別等。圖像處理也可以為機(jī)器學(xué)習(xí)提供更多的數(shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試,進(jìn)而獲得更好的數(shù)學(xué)模型和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),使得機(jī)器更加智能化。可以將傳統(tǒng)的機(jī)器學(xué)習(xí)及較新的深度學(xué)習(xí)等理論應(yīng)用到圖像處理的技術(shù)和教學(xué)中去,賦予傳統(tǒng)教學(xué)內(nèi)容的“新工科”特性。
二、機(jī)器學(xué)習(xí)在圖像處理教學(xué)中的應(yīng)用
機(jī)器學(xué)習(xí)分類方法有很多,主要有統(tǒng)計(jì)學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、進(jìn)化學(xué)習(xí)和群體智能等。統(tǒng)計(jì)學(xué)習(xí)主要以概率論為基礎(chǔ),分為參數(shù)學(xué)習(xí)和非參數(shù)學(xué)習(xí)。強(qiáng)化學(xué)習(xí),又稱再勵(lì)學(xué)習(xí)、評(píng)價(jià)學(xué)習(xí)或增強(qiáng)學(xué)習(xí),交互過程中通過學(xué)習(xí)策略以達(dá)成回報(bào)最大化。進(jìn)化學(xué)習(xí)和群體智能主要解決優(yōu)化問題。圖像去噪是將噪聲和目標(biāo)分開,并采用不同的閾值辦法,將噪聲去除,目標(biāo)保留。因此可以利用有監(jiān)督學(xué)習(xí)方法或聚類法實(shí)現(xiàn)目標(biāo)和噪聲的分離。圖像分割是將感興趣的區(qū)域和背景區(qū)分開,本質(zhì)上是像素的分類或聚類問題??梢詫⒈O(jiān)督法、半監(jiān)督、弱監(jiān)督法用于圖像分割,比如SVM和KNN。圖像目標(biāo)檢測(cè)、分類和識(shí)別都可以采用機(jī)器學(xué)習(xí)方法實(shí)現(xiàn),即分類器,包含決策樹、邏輯回歸、樸素貝葉斯、神經(jīng)網(wǎng)絡(luò)等算法。以“進(jìn)化學(xué)習(xí)和群體智能”為例,說明其在圖像處理優(yōu)化問題求解中的應(yīng)用。進(jìn)化計(jì)算最典型原始的算法包括遺傳算法、進(jìn)化策略、進(jìn)化規(guī)劃、遺傳編程等;群體智能包括蟻群算法、微粒群算法、蜂群算法、細(xì)菌覓食算法、細(xì)菌去藥性算法等。利用優(yōu)化算法實(shí)現(xiàn)灰度變換系數(shù)的最優(yōu)求解,實(shí)現(xiàn)圖像增強(qiáng);優(yōu)化算法與各種分割準(zhǔn)則相結(jié)合,得到最佳的單閾值或多閾值,實(shí)現(xiàn)圖像分割;利用優(yōu)化算法得到紋理特征描述,進(jìn)而實(shí)現(xiàn)紋理分割、合成、分類等。對(duì)圖像配準(zhǔn)、圖像特征提取和選擇、分類器、圖像融合中的參數(shù)進(jìn)行優(yōu)化,得到最優(yōu)的圖像處理效果。
三、深度學(xué)習(xí)在圖像處理教學(xué)中的應(yīng)用
深度學(xué)習(xí)是一種基于深度神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法,比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)要深,參數(shù)量大,能刻畫數(shù)據(jù)內(nèi)在的豐富信息,典型的有卷積神經(jīng)網(wǎng)絡(luò)、深度信任網(wǎng)絡(luò)、堆棧自編碼網(wǎng)絡(luò)等[5-6]。深度學(xué)習(xí)可以用于各種類型的大數(shù)據(jù),如文字、聲音、圖像等。用于圖像處理的主要有TensorFlow(Google公司開發(fā),在圖像分類、音頻處理、推薦系統(tǒng)和自然語(yǔ)言處理有廣泛應(yīng)用)和PyTorch(Facebook開發(fā),配置靈活,簡(jiǎn)潔高效)框架,應(yīng)用于圖像分類、圖像目標(biāo)檢測(cè)、圖像分割和圖像生成等。圖像分類有ResNet-18、ResNet-34、ResNet-50、ResNet-101、ResNet-152殘差神經(jīng)網(wǎng)絡(luò)、InceptionNet-V1、InceptionNet-V2、InceptionNet-V3、InceptionNet-V4網(wǎng)絡(luò)。目標(biāo)檢測(cè)有SSD模型,預(yù)測(cè)對(duì)應(yīng)物體的選框和選框?qū)?yīng)物體的種類信息,有SSD300與SSD500兩種。圖像分割包括語(yǔ)義分割、實(shí)例分割、全局分割。全卷積網(wǎng)絡(luò)(Fully convolutional network,F(xiàn)CN),使用最后一層特征進(jìn)行卷積,然后上采樣得到和原來圖像一樣的形狀,通過和原始圖像的Mask進(jìn)行比較來實(shí)現(xiàn)像素級(jí)物體分割;Unet網(wǎng)絡(luò)借鑒了FCN,并增加了殘差鏈接部分,不同層次的特征進(jìn)行組合,實(shí)現(xiàn)上采樣和下采樣結(jié)合,圖像分割更加精確。生成圖像主要采用生成模型,給定一組隨機(jī)數(shù),根據(jù)隨機(jī)數(shù)生成服從訓(xùn)練數(shù)據(jù)分布的圖像。主要有變分自編碼器(VariationalAuto-Encoder, VAE)和生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks, GAN)。VAE采用編碼器和解碼器,編碼器將訓(xùn)練圖像轉(zhuǎn)換成隱含變量,解碼器將輸入的隱含變量轉(zhuǎn)換成圖像。GAN包括生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò),生成網(wǎng)絡(luò)將輸入隱含變量轉(zhuǎn)換成對(duì)應(yīng)圖像,判別網(wǎng)絡(luò)判別測(cè)試圖像是否和生成圖像一致。深度學(xué)習(xí)的核心就是卷積神經(jīng)網(wǎng)絡(luò)模塊,本質(zhì)上是特征提取功能,不需要構(gòu)造具體特征,通過自動(dòng)學(xué)習(xí),獲得模型參數(shù),得到特征值。此外,數(shù)據(jù)集的構(gòu)造和選擇是深度學(xué)習(xí)結(jié)果好壞的重要因素之一。常用的數(shù)據(jù)集分為:小型、中型、大型。小型的有MNIST(來自美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究所,由手寫數(shù)字的圖片和相應(yīng)的標(biāo)簽組成)和CIFAR(由Alex Krizhevsky、Vinod Nair和Geoffrey Hinton收集,CIFAR-10和CIFAR-100);中型的有Pascal VOC(為圖像識(shí)別和分類提供了一整套標(biāo)準(zhǔn)化的優(yōu)秀的數(shù)據(jù)集);大型的有ImageNet(用于視覺對(duì)象識(shí)別軟件研究的大型可視化數(shù)據(jù)庫(kù))和COCO(大型的、豐富的物體檢測(cè),分割和字幕數(shù)據(jù)集)。Torchvision(有圖片分類、語(yǔ)義切分、目標(biāo)識(shí)別、實(shí)例分割、關(guān)鍵點(diǎn)檢測(cè)、視頻分類等工具)提供了數(shù)據(jù)包裝類數(shù)據(jù)集進(jìn)行載入。深度學(xué)習(xí)圖像處理流程為:構(gòu)建和搜集圖像數(shù)據(jù)庫(kù)、選擇深度學(xué)習(xí)模型、模型訓(xùn)練、模型驗(yàn)證及圖像數(shù)據(jù)測(cè)試。利用深度學(xué)習(xí)可以提高圖像處理教學(xué)質(zhì)量。
四、結(jié)語(yǔ)
以“人工智能和深度學(xué)習(xí)”為代表的第四次工業(yè)革命即將到來,論文將機(jī)器學(xué)習(xí)和深度學(xué)習(xí)融入到圖像處理課程教學(xué)當(dāng)中,緊密結(jié)合圖像增強(qiáng)、圖像分割、圖像特征提取、圖像分類及生成等教學(xué)內(nèi)容,突出教學(xué)內(nèi)容的“創(chuàng)新”元素。初步構(gòu)建了“新工科”課程教學(xué)體系,滿足新形勢(shì)下的教學(xué)內(nèi)容更新需求。
基金項(xiàng)目:南京林業(yè)大學(xué)2021教學(xué)質(zhì)量提升工程項(xiàng)目(2021-SXJS-006)
參考文獻(xiàn):
[1]王峰,趙小剛,汪鼎文.新工科背景下案例化教學(xué)在《數(shù)字圖像處理》課程中的研究與實(shí)踐[J]漢江師范學(xué)院學(xué)報(bào),2021,41(03):89-93
[2]萬(wàn)琳,裴小兵,張倩,李軒涯.面向軟件工程專業(yè)的機(jī)器學(xué)習(xí)課程實(shí)踐教學(xué)探究[J]計(jì)算機(jī)教育,2021,{4}(04):155-158
[3]趙雪峰,施珺.面向本科生機(jī)器學(xué)習(xí)課程的教學(xué)探索[J]計(jì)算機(jī)教育,2021,{4}(02):170-174
[4]王永強(qiáng),賈瑞麗,柳明,劉瀚,佟文超.科教結(jié)合的MatLab圖像處理課程教學(xué)模式探索[J]中國(guó)現(xiàn)代教育裝備,2021,{4}(05):111-113
[5]陳舒涵,胡學(xué)龍,姚志均,陳萬(wàn)培.深度學(xué)習(xí)在“數(shù)字圖像處理”課程教學(xué)中的應(yīng)用探討[J]工業(yè)和信息化教育,2019,{4}(02):84-88+94
[6]莫建文,張彤,袁華,歐陽(yáng)寧.深度學(xué)習(xí)在圖像處理技術(shù)課程教學(xué)實(shí)踐中的應(yīng)用探討[J]教育教學(xué)論壇,2016,{4}(09):115-116
作者簡(jiǎn)介:程玉柱,1980年生,男,漢族,江蘇鹽城人,博士,講師,研究方向:林業(yè)圖像分割與識(shí)別研究。