3D建模在數(shù)據(jù)增強(qiáng)中的應(yīng)用研究

2018-09-20 11:29范峰曹文馨向征

無(wú)線互聯(lián)科技 2018年15期

范峰曹文馨向征

摘要：在計(jì)算視覺(jué)領(lǐng)域中，訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)往往需要大量的數(shù)據(jù)，網(wǎng)上公開(kāi)的數(shù)據(jù)集，少說(shuō)也有幾十萬(wàn)張，但是在現(xiàn)實(shí)中我們能擁有的數(shù)據(jù)集資源往往沒(méi)有那么多，數(shù)據(jù)量少，這是一方面。在學(xué)術(shù)研究與教學(xué)中，很多算法都有一個(gè)基本假設(shè)，那就是數(shù)據(jù)分布是均勻的，當(dāng)我們把這些算法直接應(yīng)用于實(shí)際數(shù)據(jù)時(shí)，大多數(shù)情況下都無(wú)法取得理想的效果。因?yàn)閷?shí)際數(shù)據(jù)往往分布得很不均勻，都會(huì)存在“長(zhǎng)尾現(xiàn)象”。數(shù)據(jù)分布不均勻，數(shù)據(jù)量少，往往會(huì)造成過(guò)擬合等問(wèn)題，數(shù)據(jù)量少可以通過(guò)擴(kuò)充訓(xùn)練數(shù)據(jù)的方法來(lái)解決，現(xiàn)在有基本的對(duì)圖像的裁剪、翻轉(zhuǎn)、縮放、平移、尺度變換、對(duì)比度變換、噪聲擾動(dòng)、顏色變化等數(shù)據(jù)增強(qiáng)的方法，但是這些方法都是基于原有的數(shù)據(jù)集，雖然能一定程度上解決數(shù)據(jù)集過(guò)少的問(wèn)題，但是對(duì)數(shù)據(jù)分布不均勻并沒(méi)有多大的幫助，文章對(duì)此提出一種易于實(shí)現(xiàn)且對(duì)數(shù)據(jù)分布不均勻具有一定作用的解決方案。

關(guān)鍵詞：3D建模；數(shù)據(jù)增強(qiáng)；卷積神經(jīng)網(wǎng)絡(luò)；計(jì)算機(jī)視覺(jué)

傳統(tǒng)的數(shù)據(jù)增強(qiáng)方法是基于原有的圖像數(shù)據(jù)進(jìn)行各種變換，從這里引出了一個(gè)問(wèn)題，嚴(yán)格地講，任何數(shù)據(jù)集樣本都有分布不均勻的情況，比如說(shuō)貓與狗的正面圖片比較多，而背面或者上方的圖片比較少，那么經(jīng)過(guò)傳統(tǒng)的數(shù)據(jù)增強(qiáng)方法數(shù)據(jù)集的分布一樣沒(méi)有產(chǎn)生變化，訓(xùn)練出來(lái)的模型對(duì)正面的特征識(shí)別的準(zhǔn)確率就比較高，但是背面特征識(shí)別的準(zhǔn)確率就比較低[1]。在文本處理以及其他非圖像數(shù)據(jù)處理領(lǐng)域針對(duì)這一個(gè)問(wèn)題的解決方法目前有采樣、加權(quán)，但是這兩種方法在圖像識(shí)別中是比較難操作的，還有數(shù)據(jù)合成，數(shù)據(jù)合成方法是利用已有樣本生成更多的樣本，這類方法在小數(shù)據(jù)場(chǎng)景下有很多成功的案例，比如醫(yī)學(xué)圖像分析等，但是這個(gè)方法用來(lái)生成識(shí)別圖像數(shù)據(jù)集是明顯行不通的，不過(guò)可以借鑒其合成訓(xùn)練數(shù)據(jù)的思想，如果通過(guò)3D建模技術(shù)創(chuàng)建相應(yīng)的3D模型，再對(duì)3D模型進(jìn)行全方位圖像信息的收集，再添加到數(shù)據(jù)集中進(jìn)行訓(xùn)練，那么效果會(huì)是怎樣，我們針對(duì)這個(gè)猜想開(kāi)始進(jìn)行試驗(yàn)[2]。

1 模型選取及實(shí)驗(yàn)設(shè)計(jì)

創(chuàng)建3D模型的方法有兩種：（1）若數(shù)據(jù)集的圖像像素較高，我們可以直接通過(guò)數(shù)據(jù)集里的目標(biāo)的多方位圖片來(lái)生成模型，現(xiàn)在有眾多的2D圖像轉(zhuǎn)3D模型的技術(shù)及軟件，比較出名的有g(shù)oogle open 3D reconstruction，Autodesk 123D Catch，smart3D等。（2）若數(shù)據(jù)集像素較低，不足以生成高精度的模型，那么我們就需要在其他地方尋找目標(biāo)對(duì)象的3D模型資源了，這個(gè)可比找數(shù)據(jù)集難度低多了。有了模型之后，我們使用3Ds Max 2018中的動(dòng)畫渲染，選擇輸出JPG圖片，來(lái)合成新的數(shù)據(jù)集[3]。

在這次實(shí)驗(yàn)中，我們隨機(jī)選取了著名的貓狗大戰(zhàn)中部分圖片來(lái)進(jìn)行測(cè)試，總樣本數(shù)量為25 000張，用相同的卷積神經(jīng)網(wǎng)絡(luò)分別訓(xùn)練這4 000個(gè)數(shù)據(jù)，以及再加入我們通過(guò)對(duì)模型制作的數(shù)據(jù)。

卷積神經(jīng)網(wǎng)絡(luò)模型的搭建?？紤]到獲取最優(yōu)識(shí)別準(zhǔn)確率不是我們的最終目的，我們搭建了一個(gè)并不是很深的網(wǎng)絡(luò)，避免在這方面浪費(fèi)多余的時(shí)間，卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)為一層輸入層，3層卷積層，并在每層卷積層后加入了dropout（隨機(jī)丟棄一部分神經(jīng)元，降低過(guò)擬合），損失函數(shù)采用常見(jiàn)的分類用的損失函數(shù)對(duì)數(shù)損失函數(shù)，最后輸出預(yù)測(cè)值，我們將這個(gè)算法模型作為控制變量，實(shí)驗(yàn)數(shù)據(jù)作為自變量W。卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。

2 實(shí)驗(yàn)概述

為了驗(yàn)證本文提出的有效性及可行性，實(shí)驗(yàn)主要分為兩個(gè)階段：第一階段，實(shí)驗(yàn)A，將從數(shù)據(jù)集中隨機(jī)選取的4 000個(gè)數(shù)據(jù)，3 000個(gè)作為訓(xùn)練數(shù)據(jù)，1 000個(gè)作為測(cè)試數(shù)據(jù)，然后訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)，迭代10個(gè)epoch，記錄實(shí)驗(yàn)結(jié)果。第二階段，實(shí)驗(yàn)B，將從3D模型獲取到的1 000個(gè)數(shù)據(jù)加載到原有的數(shù)據(jù)中，用同樣結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)以同樣的epoch訓(xùn)練，記錄實(shí)驗(yàn)結(jié)果并對(duì)比[5]。

2.1 實(shí)驗(yàn)階段

2.1.1 實(shí)驗(yàn)數(shù)據(jù)選擇與處理

試驗(yàn)階段一使用的數(shù)據(jù)集為Kaggle官網(wǎng)上下載的catsva dogs的分類數(shù)據(jù)集。此數(shù)據(jù)集一共有25 000個(gè)圖像數(shù)據(jù)，包括各種類型的貓以及各種各種類型的狗在各種環(huán)境下的圖片。

我們選取部分?jǐn)?shù)據(jù)集，將數(shù)據(jù)集按1：4比例隨機(jī)劃分訓(xùn)練集以及測(cè)試集，訓(xùn)練集為4 000個(gè)圖像數(shù)據(jù)測(cè)試集有1 000個(gè)圖像數(shù)據(jù)，接下來(lái)通過(guò)opencv讀取并分別為貓與狗的數(shù)據(jù)打上標(biāo)簽。

圖1為部分制作數(shù)據(jù)集的模型，通過(guò)3D MAX動(dòng)畫對(duì)模型實(shí)現(xiàn)全方位圖像渲染，每個(gè)模型渲染百?gòu)堊笥业膱D片，最后分別加入分類貓和分類狗的數(shù)據(jù)集下，并打上標(biāo)簽，測(cè)試數(shù)據(jù)集并不改變，它用來(lái)作為控制變量。

2.1.2 訓(xùn)練模型

當(dāng)訓(xùn)練數(shù)據(jù)和模型都已經(jīng)準(zhǔn)備好之后，開(kāi)始試驗(yàn)，實(shí)驗(yàn)結(jié)果如圖2所示。

模型經(jīng)過(guò)10個(gè)epoch的訓(xùn)練損失和準(zhǔn)確率的變化情況如圖2所示，loss-A隨著epoch的變化與Loss-B對(duì)比，實(shí)驗(yàn)A的loss比實(shí)驗(yàn)B低，這說(shuō)明實(shí)驗(yàn)B的數(shù)據(jù)比實(shí)驗(yàn)A的樣本之間的平均差異變大了。

圖3中accuracy-A隨epoch變化的曲線與accuracy-B相比較，實(shí)驗(yàn)A的訓(xùn)練準(zhǔn)確率也比實(shí)驗(yàn)B的準(zhǔn)確率高，目前看起來(lái)實(shí)驗(yàn)A的效果比實(shí)驗(yàn)B好，但是，實(shí)驗(yàn)A的訓(xùn)練準(zhǔn)確率有85%，測(cè)試準(zhǔn)確率卻只有73%，這說(shuō)明模型過(guò)擬合比較嚴(yán)重了，然而實(shí)驗(yàn)B的表現(xiàn)則好很多，雖然訓(xùn)練數(shù)據(jù)準(zhǔn)確率只有81%，但是測(cè)試集的準(zhǔn)確率有78%，這說(shuō)明后來(lái)由模型制作的訓(xùn)練數(shù)據(jù)對(duì)模型的過(guò)擬合問(wèn)題起到了良好的糾正作用，當(dāng)然模型還可以繼續(xù)調(diào)優(yōu)，可以達(dá)到95%或者以上，81%也算不上多好的表現(xiàn)，但是我們的目的已經(jīng)實(shí)現(xiàn)了，3D模型制作確實(shí)能一定程度上起到降低過(guò)擬合情況的作用。

2.2 實(shí)驗(yàn)結(jié)論

通過(guò)實(shí)驗(yàn)A的數(shù)據(jù)與實(shí)驗(yàn)B的數(shù)據(jù)對(duì)比，實(shí)驗(yàn)B的模型表現(xiàn)比實(shí)驗(yàn)A的模型表現(xiàn)準(zhǔn)確5個(gè)百分點(diǎn)，證明了3D建模技術(shù)在數(shù)據(jù)增強(qiáng)中確實(shí)有著良好的表現(xiàn)，它不僅能夠改善數(shù)據(jù)集中常見(jiàn)的“長(zhǎng)尾現(xiàn)象”，降低模型的擬合程度，而且它與傳統(tǒng)的數(shù)據(jù)增強(qiáng)方法并不沖突，甚至還可以在它合成的數(shù)據(jù)集上面再進(jìn)行傳統(tǒng)的數(shù)據(jù)增強(qiáng)，能夠最大限度地利用原有的數(shù)據(jù)集的價(jià)值。

3 結(jié)語(yǔ)

在實(shí)驗(yàn)之前我們就猜想，從人的角度出發(fā)，讓一個(gè)人能夠在多種情況下識(shí)別一個(gè)對(duì)象，那么全方位認(rèn)識(shí)該對(duì)象的特征是必須的，而對(duì)于計(jì)算機(jī)視覺(jué)來(lái)說(shuō)，也是同樣的道理，只有全方位的圖片數(shù)據(jù)信息夠多，那么才能訓(xùn)練出對(duì)對(duì)象全方位特征都具有識(shí)別能力的模型[6]。

兩個(gè)階段的實(shí)驗(yàn)有力地證明了建模技術(shù)在提高模型預(yù)測(cè)精度和降低過(guò)擬合程度上有著明顯的效果，而且與原來(lái)的數(shù)據(jù)增強(qiáng)方法并不沖突，可以一起使用，這樣能夠在有限的原始數(shù)據(jù)集獲得更多有價(jià)值的數(shù)據(jù)，最大限度地提取出數(shù)據(jù)的價(jià)值，從而訓(xùn)練出精度更高的算法模型[7]。

未來(lái)計(jì)算機(jī)視覺(jué)任務(wù)發(fā)展面臨的挑戰(zhàn)就有來(lái)自數(shù)據(jù)集因素的，有標(biāo)注的圖像和視頻數(shù)據(jù)較少，機(jī)器在模擬人類智能進(jìn)行認(rèn)知或者感知的過(guò)程中，需要大量有標(biāo)注的圖像或者視頻數(shù)據(jù)指導(dǎo)機(jī)器學(xué)習(xí)其中一般的模式。當(dāng)前，主要依賴人工標(biāo)注海量的圖像視頻數(shù)據(jù)，不僅費(fèi)時(shí)費(fèi)力而且沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)?，F(xiàn)在3D建模技術(shù)越來(lái)越方便快捷以及成本越來(lái)越低，精度也越來(lái)越高，我們推測(cè)以后用3D建模技術(shù)來(lái)制作數(shù)據(jù)集也不是沒(méi)有可能，因?yàn)橥ㄟ^(guò)3D模型來(lái)合成數(shù)據(jù)與傳統(tǒng)的收集圖像數(shù)據(jù)有兩個(gè)比較大的優(yōu)勢(shì)：它能夠迅速制作大量的數(shù)據(jù)；它的制作是人為控制的，可以保證數(shù)據(jù)分布得均勻[8]。在深度學(xué)習(xí)算法的門檻越來(lái)越低，搭建模型越來(lái)越方便，算法模型的調(diào)優(yōu)越來(lái)越簡(jiǎn)單的現(xiàn)在，將來(lái)獲取優(yōu)良的數(shù)據(jù)集將成為一個(gè)算法模型提升重要的因素，通過(guò)3D建模技術(shù)制作優(yōu)良的數(shù)據(jù)集將成為一個(gè)好的選擇。

[參考文獻(xiàn)]

[1]HINTON G E， SALAKHUTDINOV R R.Reducing the dimensionality of data with neural networks[J].Science， 2006（5786）：504-507.

[2]HE K， ZHANG X， REN S， et al.Deep residual learning for image recognition[C].Las Vegas：Computer Vision and PatternRecognition， 2016：770-778.

[3]UGULINO W， CARDADOR D， VEGA K， et al.Wearable computing：accelerometers， data classification of body postures andmovements[C].Curitiba：Brazilian Conference on Advances in Artificial Intelligence， 2012：52-61.

[4]GUYON I.Design of experiments for the NIPS 2003 variable selection benchmark[C].Vancouver：Conference and Workshop on NeuralInformation Processing Systems， 2003.

[5]KINGMA D， BA J. Adam：a method for stochastic optimization[M].San Diego：Computer Science， 2014.

[6]盧宏濤，張秦川.深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)中的應(yīng)用研究綜述[J].數(shù)據(jù)采集與處理，2016（1）：1-17.

[7]倪晨旭.計(jì)算機(jī)視覺(jué)研究綜述[J].電子世界，2018（1）：91.

[8]GREGORY R.Cordelia Schmid：MoCap-guided data augmentation for 3D pose estimation in the wild[C].Barcelona：Conference andWorkshop on Neural Information Processing Systems， 2016.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

3D建模在數(shù)據(jù)增強(qiáng)中的應(yīng)用研究