基于深度學(xué)習(xí)的三維物體重建研究

2020-12-28 11:53:14李賽賽

電腦知識與技術(shù) 2020年31期

李賽賽

摘要：深度學(xué)習(xí)方法是機(jī)器學(xué)習(xí)的重要分支，近年來，受到了國內(nèi)外研究者的廣泛關(guān)注和青睞。深度學(xué)習(xí)主要是通過模型對特征進(jìn)行共同學(xué)習(xí)，然后將學(xué)習(xí)到的淺層特征進(jìn)行高度語義化，當(dāng)模型中的內(nèi)部特征修改時，所有依賴于該特征的其他特征都可以進(jìn)行自適應(yīng)調(diào)整，不需要人為干預(yù)。將深度學(xué)習(xí)思想結(jié)合到三維物體重建的工作中，取得了較好的重建精度。

關(guān)鍵詞：深度學(xué)習(xí);三維物體;重建

中圖分類號：TP3 ? ? ? ?文獻(xiàn)標(biāo)識碼：A

文章編號：1009-3044（2020）31-0213-02

機(jī)器學(xué)習(xí)主要包括：無監(jiān)督學(xué)習(xí)[1]、監(jiān)督學(xué)習(xí)[2]和半監(jiān)督學(xué)習(xí)[3]。以有監(jiān)督學(xué)習(xí)方法為例，機(jī)器學(xué)習(xí)是在預(yù)先定義好的可能性空間中，通過反饋信號的指導(dǎo)找到輸入數(shù)據(jù)之間的有用表示，但往往層與層之間是不連續(xù)的。而，深度學(xué)習(xí)方法可以在連續(xù)的層中進(jìn)行有效學(xué)習(xí)，通過連續(xù)的過濾，得到越來越有意義的數(shù)據(jù)表示，對結(jié)果的影響就會越高?；谏疃葘W(xué)習(xí)的方法在語音識別、語音合成、自然語言處理、圖像分類等多個領(lǐng)域均取得了較好發(fā)展。

深度學(xué)習(xí)[4]方法已經(jīng)成為人工智能的熱潮，一方面，深度學(xué)習(xí)可以在海量數(shù)據(jù)中學(xué)習(xí)到一種非線性的網(wǎng)絡(luò)結(jié)構(gòu)，可以從數(shù)據(jù)集中得到特征之間的相關(guān)性。另一方面可以在不同數(shù)據(jù)之間學(xué)習(xí)到統(tǒng)一的數(shù)據(jù)表征，從而可以有效提升數(shù)據(jù)模型的性能。深度學(xué)習(xí)的方法已經(jīng)成為當(dāng)下各行各業(yè)最熱門的研究之一。

1 深度學(xué)習(xí)方法的發(fā)展階段

（1）1982年，Hopfield神經(jīng)網(wǎng)絡(luò)被物理學(xué)家約翰霍普菲爾德所發(fā)明，該網(wǎng)絡(luò)是結(jié)合了存儲系統(tǒng)和二元系統(tǒng)，是一種循環(huán)神經(jīng)網(wǎng)絡(luò)。是用來模擬人類的記憶，通過激活函數(shù)的不同，輸出連續(xù)性和離散型，分別用于優(yōu)化計算和聯(lián)想記憶。

（2）1986年，杰佛里辛頓提出了一種多層感知機(jī)反向傳播算法，即：BP神經(jīng)網(wǎng)絡(luò)算法，該算法在神經(jīng)網(wǎng)絡(luò)正向傳播的基礎(chǔ)上，增加了誤差的反向傳播過程P。該算法解決了非線性的分類問題，引發(fā)了人類的廣泛關(guān)注。

（3）2006年，魯斯蘭薩拉赫丁諾夫正式提出了深度學(xué)習(xí)的概念，在《Science》上發(fā)表的一篇文章中詳細(xì)解釋了“梯度消失”的問題，通過無監(jiān)督學(xué)習(xí)的方法進(jìn)行逐層訓(xùn)練。

（4）2012年，在ImageNet圖像識別大賽中，AlexNet一舉多得當(dāng)年的圖像識別冠軍，采用ReLU激活函數(shù)，在很大程度上解決了梯度消失的問題。

（5）2017年，AlphaGo橫空出世，采用的是一種深度強(qiáng)化學(xué)習(xí)技術(shù)，這一年，是深度學(xué)技術(shù)發(fā)展最為迅速的一年。隨著深度學(xué)習(xí)技術(shù)和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展，深度學(xué)習(xí)方法已經(jīng)在互聯(lián)網(wǎng)金融、醫(yī)學(xué)醫(yī)療、無人駕駛等多個領(lǐng)域都取得了迅猛進(jìn)展。

2 目前常見的深度學(xué)習(xí)模型

2.1 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural network，CNN）[5]是一種多層神經(jīng)網(wǎng)絡(luò)，主要由卷積層、池化層、全連接層等組成。CNN可以將低層次的數(shù)據(jù)特征轉(zhuǎn)化為更高層次的精細(xì)特征，卷積層和池化層通過配合的方式，從而可以組合成多個卷積組，逐層對數(shù)據(jù)進(jìn)行特征的提取，最后通過若干個全連接層，從而完成數(shù)據(jù)分類。卷積層是通過局部感受野而設(shè)計的，池化層的目的是降低數(shù)據(jù)的維度。卷積網(wǎng)絡(luò)通過一系列方法，將龐大的數(shù)據(jù)圖像識別問題進(jìn)行不斷降低維度，最后使得模型可以進(jìn)行訓(xùn)練。CNN非常適合處理圖像數(shù)據(jù)，對圖像的平移、縮放、傾斜等變形都有高度不變性。經(jīng)典的Alexnet網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

2.2 生成式對抗網(wǎng)絡(luò)

生成式對抗網(wǎng)絡(luò)（Generative Adversarial Networks，GAN）[6]由生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò)組成，生成器可以捕捉真實數(shù)據(jù)樣本的潛在分布，并且可以生成新的樣本;判別器是一個二分類器，它可以判別輸入的是真實樣本，或者是生成器生成的樣本，其中，生成器和判別器是一個極大極小的博弈過程，優(yōu)化的目標(biāo)是達(dá)到納什平衡。訓(xùn)練的時候，兩者可以相互競爭、相互提升。生成式對抗網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2所示。

2.3 循環(huán)神經(jīng)網(wǎng)絡(luò)

循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Networks，RNN）[7]是一種處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)，和其他神經(jīng)網(wǎng)絡(luò)不同的是，RNN更擅長處理序列之間的信息，即認(rèn)準(zhǔn)了輸入前后之間的關(guān)系。經(jīng)典的RNN變形網(wǎng)絡(luò)有長短期記憶神經(jīng)網(wǎng)絡(luò)和門控遞歸單元。典型的循環(huán)神經(jīng)網(wǎng)絡(luò)變體有長短記憶網(wǎng)絡(luò)和門控單元。

3 常見的深度學(xué)習(xí)方法應(yīng)用

3.1 圖像識別

圖像識別是計算機(jī)視覺領(lǐng)域中最基本的應(yīng)用之一。通過對圖像進(jìn)行分類，可以知曉模型對圖像信息特征提取的能力，常見的優(yōu)秀圖像分類模型有：VGGNet、GoogleNet和ResNet等。

3.2 圖像翻譯

圖像翻譯指的是通過一幅圖像到另一幅圖像的轉(zhuǎn)換。通過圖像轉(zhuǎn)換可以實現(xiàn)在給定輸入圖像的情況下，每個輸出像素之間都是相互獨立的。常見的圖像翻譯模型有：pix2pix，pix2pixHD，vid2vid等。Pix2pix原理圖如圖3所示。

3.3 語音識別

語音識別是一門融合多學(xué)科知識的技術(shù)，覆蓋了數(shù)學(xué)和統(tǒng)計學(xué)、聲學(xué)與語言學(xué)、計算機(jī)與人工智能等多個學(xué)科，是人機(jī)交互中的關(guān)鍵技術(shù)。隨著深度學(xué)習(xí)的快速發(fā)展，語音識別也成了當(dāng)下比較熱門的研究領(lǐng)域之一。

3.4 自動駕駛

谷歌通過深度學(xué)習(xí)算法將無人駕駛技術(shù)推到了一個全新的高度，可以通過不同的傳感器來提供數(shù)據(jù)，然后再通過這些數(shù)據(jù)來進(jìn)行學(xué)習(xí)，即使是不會開車的人，也可以通過該技術(shù)進(jìn)行駕駛。

3.5 三維物體重建

深度學(xué)習(xí)方法已經(jīng)在圖像領(lǐng)域大放異彩，近幾年，在三維模型領(lǐng)域，也受到了廣泛關(guān)注，例如：三維物體重建、三維模型分類、識別等，均取得快速的發(fā)展。

4 總結(jié)

本文針對三維模型重建問題，將深度學(xué)習(xí)思想結(jié)合到三維模型的重建工作中，首先，使用卷積神經(jīng)網(wǎng)絡(luò)對圖像進(jìn)行特征提取，得到單幅圖像的特征圖;然后對單幅圖像的特征圖在進(jìn)行解碼，重建出三維模型。實驗結(jié)果表明：深度學(xué)習(xí)技術(shù)能夠自動、高效學(xué)習(xí)到有用的特征表示，取得了較高的重建精度。

參考文獻(xiàn)：

[1] 古險峰，馮學(xué)曉.基于深度無監(jiān)督學(xué)習(xí)的圖像分類算法[J].平頂山學(xué)院學(xué)報，2018，33（2）：67-70.

[2] 蔣卓人，陳燕，高良才，等一種結(jié)合有監(jiān)督學(xué)習(xí)的動態(tài)主題模型[J].北京大學(xué)學(xué)報（自然科學(xué)版），2015，51（2）：367-376.

[3] 劉建偉，劉媛，羅雄麟.半監(jiān)督學(xué)習(xí)方法[J].計算機(jī)學(xué)報，2015，38（8）：1592-1617.

[4] SCHMIDHUBER J ， rgen. Deep learning in neural networks[M]. Elsevier Science Ltd. 2015.

[5] Krizhevsky A，Sutskever I，Hinton G.ImageNet Classification with Deep Convolutional Neural Networks[J]. Advances in neural information processing systems， 2012， 25（2）.

[6] Goodfellow I J ， Pouget-Abadie J ， Mirza M ， et al. Generative Adversarial Networks[J]. Advances in Neural Information Processing Systems， 2014， 3：2672-2680.Graves A ， Mohamed A R ， Hinton G . Speech Recognition with Deep Recurrent Neural Networks[C]// IEEE International Conference on Acoustics. IEEE， 2013.

[7] Graves A ， Mohamed A R ， Hinton G . Speech Recognition with Deep Recurrent Neural Networks[C]// IEEE International Conference on Acoustics. IEEE， 2013.

【通聯(lián)編輯：代影】

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于深度學(xué)習(xí)的三維物體重建研究