李賽賽
摘要:深度學(xué)習(xí)方法是機(jī)器學(xué)習(xí)的重要分支,近年來,受到了國內(nèi)外研究者的廣泛關(guān)注和青睞。深度學(xué)習(xí)主要是通過模型對特征進(jìn)行共同學(xué)習(xí),然后將學(xué)習(xí)到的淺層特征進(jìn)行高度語義化,當(dāng)模型中的內(nèi)部特征修改時,所有依賴于該特征的其他特征都可以進(jìn)行自適應(yīng)調(diào)整,不需要人為干預(yù)。將深度學(xué)習(xí)思想結(jié)合到三維物體重建的工作中,取得了較好的重建精度。
關(guān)鍵詞:深度學(xué)習(xí);三維物體;重建
中圖分類號:TP3 ? ? ? ?文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2020)31-0213-02
機(jī)器學(xué)習(xí)主要包括:無監(jiān)督學(xué)習(xí)[1]、監(jiān)督學(xué)習(xí)[2]和半監(jiān)督學(xué)習(xí)[3]。以有監(jiān)督學(xué)習(xí)方法為例,機(jī)器學(xué)習(xí)是在預(yù)先定義好的可能性空間中,通過反饋信號的指導(dǎo)找到輸入數(shù)據(jù)之間的有用表示,但往往層與層之間是不連續(xù)的。而,深度學(xué)習(xí)方法可以在連續(xù)的層中進(jìn)行有效學(xué)習(xí),通過連續(xù)的過濾,得到越來越有意義的數(shù)據(jù)表示,對結(jié)果的影響就會越高?;谏疃葘W(xué)習(xí)的方法在語音識別、語音合成、自然語言處理、圖像分類等多個領(lǐng)域均取得了較好發(fā)展。
深度學(xué)習(xí)[4]方法已經(jīng)成為人工智能的熱潮,一方面,深度學(xué)習(xí)可以在海量數(shù)據(jù)中學(xué)習(xí)到一種非線性的網(wǎng)絡(luò)結(jié)構(gòu),可以從數(shù)據(jù)集中得到特征之間的相關(guān)性。另一方面可以在不同數(shù)據(jù)之間學(xué)習(xí)到統(tǒng)一的數(shù)據(jù)表征,從而可以有效提升數(shù)據(jù)模型的性能。深度學(xué)習(xí)的方法已經(jīng)成為當(dāng)下各行各業(yè)最熱門的研究之一。
1 深度學(xué)習(xí)方法的發(fā)展階段
(1)1982年,Hopfield神經(jīng)網(wǎng)絡(luò)被物理學(xué)家約翰 霍普菲爾德所發(fā)明,該網(wǎng)絡(luò)是結(jié)合了存儲系統(tǒng)和二元系統(tǒng),是一種循環(huán)神經(jīng)網(wǎng)絡(luò)。是用來模擬人類的記憶,通過激活函數(shù)的不同,輸出連續(xù)性和離散型,分別用于優(yōu)化計算和聯(lián)想記憶。
(2)1986年,杰佛里 辛頓提出了一種多層感知機(jī)反向傳播算法,即:BP神經(jīng)網(wǎng)絡(luò)算法,該算法在神經(jīng)網(wǎng)絡(luò)正向傳播的基礎(chǔ)上,增加了誤差的反向傳播過程P。該算法解決了非線性的分類問題,引發(fā)了人類的廣泛關(guān)注。
(3)2006年,魯斯蘭 薩拉赫丁諾夫正式提出了深度學(xué)習(xí)的概念,在《Science》上發(fā)表的一篇文章中詳細(xì)解釋了“梯度消失”的問題,通過無監(jiān)督學(xué)習(xí)的方法進(jìn)行逐層訓(xùn)練。
(4)2012年,在ImageNet圖像識別大賽中,AlexNet一舉多得當(dāng)年的圖像識別冠軍,采用ReLU激活函數(shù),在很大程度上解決了梯度消失的問題。
(5)2017年,AlphaGo橫空出世,采用的是一種深度強(qiáng)化學(xué)習(xí)技術(shù),這一年,是深度學(xué)技術(shù)發(fā)展最為迅速的一年。隨著深度學(xué)習(xí)技術(shù)和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,深度學(xué)習(xí)方法已經(jīng)在互聯(lián)網(wǎng)金融、醫(yī)學(xué)醫(yī)療、無人駕駛等多個領(lǐng)域都取得了迅猛進(jìn)展。
2 目前常見的深度學(xué)習(xí)模型
2.1 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[5]是一種多層神經(jīng)網(wǎng)絡(luò),主要由卷積層、池化層、全連接層等組成。CNN可以將低層次的數(shù)據(jù)特征轉(zhuǎn)化為更高層次的精細(xì)特征,卷積層和池化層通過配合的方式,從而可以組合成多個卷積組,逐層對數(shù)據(jù)進(jìn)行特征的提取,最后通過若干個全連接層,從而完成數(shù)據(jù)分類。卷積層是通過局部感受野而設(shè)計的,池化層的目的是降低數(shù)據(jù)的維度。卷積網(wǎng)絡(luò)通過一系列方法,將龐大的數(shù)據(jù)圖像識別問題進(jìn)行不斷降低維度,最后使得模型可以進(jìn)行訓(xùn)練。CNN非常適合處理圖像數(shù)據(jù),對圖像的平移、縮放、傾斜等變形都有高度不變性。經(jīng)典的Alexnet網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
2.2 生成式對抗網(wǎng)絡(luò)
生成式對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)[6]由生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò)組成,生成器可以捕捉真實數(shù)據(jù)樣本的潛在分布,并且可以生成新的樣本;判別器是一個二分類器,它可以判別輸入的是真實樣本,或者是生成器生成的樣本,其中,生成器和判別器是一個極大極小的博弈過程,優(yōu)化的目標(biāo)是達(dá)到納什平衡。訓(xùn)練的時候,兩者可以相互競爭、相互提升。生成式對抗網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2所示。
2.3 循環(huán)神經(jīng)網(wǎng)絡(luò)
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)[7]是一種處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),和其他神經(jīng)網(wǎng)絡(luò)不同的是,RNN更擅長處理序列之間的信息,即認(rèn)準(zhǔn)了輸入前后之間的關(guān)系。經(jīng)典的RNN變形網(wǎng)絡(luò)有長短期記憶神經(jīng)網(wǎng)絡(luò)和門控遞歸單元。典型的循環(huán)神經(jīng)網(wǎng)絡(luò)變體有長短記憶網(wǎng)絡(luò)和門控單元。
3 常見的深度學(xué)習(xí)方法應(yīng)用
3.1 圖像識別
圖像識別是計算機(jī)視覺領(lǐng)域中最基本的應(yīng)用之一。通過對圖像進(jìn)行分類,可以知曉模型對圖像信息特征提取的能力,常見的優(yōu)秀圖像分類模型有:VGGNet、GoogleNet和ResNet等。
3.2 圖像翻譯
圖像翻譯指的是通過一幅圖像到另一幅圖像的轉(zhuǎn)換。通過圖像轉(zhuǎn)換可以實現(xiàn)在給定輸入圖像的情況下,每個輸出像素之間都是相互獨立的。常見的圖像翻譯模型有:pix2pix,pix2pixHD,vid2vid等。Pix2pix原理圖如圖3所示。
3.3 語音識別
語音識別是一門融合多學(xué)科知識的技術(shù),覆蓋了數(shù)學(xué)和統(tǒng)計學(xué)、聲學(xué)與語言學(xué)、計算機(jī)與人工智能等多個學(xué)科,是人機(jī)交互中的關(guān)鍵技術(shù)。隨著深度學(xué)習(xí)的快速發(fā)展,語音識別也成了當(dāng)下比較熱門的研究領(lǐng)域之一。
3.4 自動駕駛
谷歌通過深度學(xué)習(xí)算法將無人駕駛技術(shù)推到了一個全新的高度,可以通過不同的傳感器來提供數(shù)據(jù),然后再通過這些數(shù)據(jù)來進(jìn)行學(xué)習(xí),即使是不會開車的人,也可以通過該技術(shù)進(jìn)行駕駛。
3.5 三維物體重建
深度學(xué)習(xí)方法已經(jīng)在圖像領(lǐng)域大放異彩,近幾年,在三維模型領(lǐng)域,也受到了廣泛關(guān)注,例如:三維物體重建、三維模型分類、識別等,均取得快速的發(fā)展。
4 總結(jié)
本文針對三維模型重建問題,將深度學(xué)習(xí)思想結(jié)合到三維模型的重建工作中,首先,使用卷積神經(jīng)網(wǎng)絡(luò)對圖像進(jìn)行特征提取,得到單幅圖像的特征圖;然后對單幅圖像的特征圖在進(jìn)行解碼,重建出三維模型。實驗結(jié)果表明:深度學(xué)習(xí)技術(shù)能夠自動、高效學(xué)習(xí)到有用的特征表示,取得了較高的重建精度。
參考文獻(xiàn):
[1] 古險峰,馮學(xué)曉.基于深度無監(jiān)督學(xué)習(xí)的圖像分類算法[J].平頂山學(xué)院學(xué)報,2018,33(2):67-70.
[2] 蔣卓人,陳燕,高良才,等一種結(jié)合有監(jiān)督學(xué)習(xí)的動態(tài)主題模型[J].北京大學(xué)學(xué)報(自然科學(xué)版),2015,51(2):367-376.
[3] 劉建偉,劉媛,羅雄麟.半監(jiān)督學(xué)習(xí)方法[J].計算機(jī)學(xué)報,2015,38(8):1592-1617.
[4] SCHMIDHUBER J , rgen. Deep learning in neural networks[M]. Elsevier Science Ltd. 2015.
[5] Krizhevsky A,Sutskever I,Hinton G.ImageNet Classification with Deep Convolutional Neural Networks[J]. Advances in neural information processing systems, 2012, 25(2).
[6] Goodfellow I J , Pouget-Abadie J , Mirza M , et al. Generative Adversarial Networks[J]. Advances in Neural Information Processing Systems, 2014, 3:2672-2680.Graves A , Mohamed A R , Hinton G . Speech Recognition with Deep Recurrent Neural Networks[C]// IEEE International Conference on Acoustics. IEEE, 2013.
[7] Graves A , Mohamed A R , Hinton G . Speech Recognition with Deep Recurrent Neural Networks[C]// IEEE International Conference on Acoustics. IEEE, 2013.
【通聯(lián)編輯:代影】