分析式紋理合成技術(shù)及其在深度學(xué)習(xí)的應(yīng)用

2017-11-20 11:07:09李宏林

計(jì)算機(jī)技術(shù)與發(fā)展 2017年11期

關(guān)鍵詞：權(quán)值紋理像素

李宏林

(日本山梨大學(xué) 大學(xué)院生命情報(bào)系統(tǒng)系，山梨甲府 400-8510)

分析式紋理合成技術(shù)及其在深度學(xué)習(xí)的應(yīng)用

李宏林

(日本山梨大學(xué) 大學(xué)院生命情報(bào)系統(tǒng)系，山梨甲府 400-8510)

當(dāng)前國際主流的非參數(shù)和參數(shù)法分析式紋理生成技術(shù)，對于計(jì)算機(jī)視覺領(lǐng)域的圖像紋理合成具有一定的借鑒意義。在概括總結(jié)與比較分析式紋理生成技術(shù)原理、框架結(jié)構(gòu)、應(yīng)用發(fā)展趨勢及其優(yōu)缺點(diǎn)的基礎(chǔ)上，分析了基于graph cut模型的非參數(shù)法、基于P&S模型的參數(shù)法兩種典型的紋理生成技術(shù)以及廣泛應(yīng)用于圖像處理領(lǐng)域的深度學(xué)習(xí)新技術(shù)—卷積神經(jīng)網(wǎng)絡(luò)(CNN)的結(jié)構(gòu)與原理，進(jìn)一步討論了以基于CNN的Caffe網(wǎng)絡(luò)框架及在2014年ImagNet圖像分類和目標(biāo)識別大賽上取得優(yōu)異成績的VGG模型為基礎(chǔ)的分析式紋理生成模型VGG-19的工作原理及其在人腦視覺分析研究方面的應(yīng)用。分析結(jié)果表明：相對于普通參數(shù)法和基于CNN網(wǎng)絡(luò)模型的參數(shù)法，非參數(shù)法具有更快的處理速度，可生成更高視覺質(zhì)量與更多種類的目標(biāo)紋理圖；參數(shù)法適合作為紋理合成領(lǐng)域的分析研究工具；卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到參數(shù)法中，可大幅縮短特征量設(shè)計(jì)與參數(shù)調(diào)整周期并提高合成效果，進(jìn)一步提升了參數(shù)法作為理論分析和應(yīng)用實(shí)現(xiàn)工具的價(jià)值。

分析式紋理合成法；非參數(shù)法紋理生成；參數(shù)法紋理生成；深度學(xué)習(xí)；卷積神經(jīng)網(wǎng)絡(luò)；VGG-19

1 概述

紋理是圖像的重要特征之一，紋理圖是數(shù)字圖像中的一個(gè)重要類別，分規(guī)則紋理圖和非規(guī)則紋理圖兩類；前者整體圖像的各部分重復(fù)均勻分布，后者圖像各部分總體相似但在大小、方向、顏色等方面隨機(jī)分布。當(dāng)前紋理生成技術(shù)主要有非參數(shù)和普通參數(shù)法兩大類。非參數(shù)法通過建立或改進(jìn)一系列模型、方法和算法生成紋理圖像，主要有基于濾波器采樣的模型、基于像素拷貝的模型以及基于片拷貝的模型三大類?；跒V波器采樣的模型通過對樣本采樣紋理圖的一系列不同分辨率圖像的濾波結(jié)果進(jìn)行采樣分析，生成目標(biāo)紋理圖；基于像素拷貝的模型通過從樣本采樣紋理圖向輸出圖區(qū)域拷貝像素生成目標(biāo)紋理圖；基于片拷貝的模型通過拷貝紋理片生成目標(biāo)紋理圖。普通參數(shù)法通過在一個(gè)緊湊完備(參數(shù)數(shù)量適中并有效，不易發(fā)生過度訓(xùn)練)的參數(shù)模型中建立、調(diào)整參數(shù)信息來描述紋理特征，并基于這些特征描述生成目標(biāo)紋理圖；其參數(shù)類型主要包括基于像素法、基于距離測量以及基于分析法的統(tǒng)計(jì)量?；谙袼胤ㄊ峭ㄟ^建立具有與樣本紋理圖相同的N階統(tǒng)計(jì)量像素生成目標(biāo)紋理圖；基于距離法通過最小化樣本紋理圖和生成紋理圖之間的距離差異特征量生成目標(biāo)紋理圖；基于分析法利用漸進(jìn)式分析方法分析采樣紋理和目標(biāo)紋理，并通過最小化損失函數(shù)等方法逐漸縮小兩者間的差距，進(jìn)而生成最終目標(biāo)紋理圖。非參數(shù)和普通參數(shù)紋理生成法的主要區(qū)別在于：前者目標(biāo)紋理圖的建立源于一系列模型、方法、算法；后者通過對前人研究成果的分析以及對樣本紋理圖特征的觀察和數(shù)學(xué)分析手動建立一系列參數(shù)，形成參數(shù)紋理模型，并利用該模型生成目標(biāo)紋理圖。非參數(shù)法的優(yōu)點(diǎn)在于擁有更快的處理速度并生成更高視覺質(zhì)量與更多種類的目標(biāo)紋理圖；缺點(diǎn)在于無法為紋理圖建立對應(yīng)的特征表達(dá)，而且不適合作為一種分析研究工具。普通參數(shù)法的優(yōu)點(diǎn)在于可以為各類紋理圖建立相應(yīng)的特征表達(dá)進(jìn)行推廣與改進(jìn)，同時(shí)可作為分析研究工具應(yīng)用于多個(gè)領(lǐng)域；缺點(diǎn)在于建立的紋理種類相對有限，某些生成紋理效果并不理想，此外由于參數(shù)是人工分析建立的，設(shè)計(jì)或改進(jìn)參數(shù)周期很長。

深度學(xué)習(xí)(Deep Learning)是近年來興起的新技術(shù)[1]，廣泛應(yīng)用于圖像處理及計(jì)算機(jī)視覺領(lǐng)域；卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neutral Network,CNN)是基于深度學(xué)習(xí)的一項(xiàng)重要應(yīng)用，是一種基于大數(shù)據(jù)自動學(xué)習(xí)的端到端參數(shù)模型。利用CNN自動訓(xùn)練生成的特征表達(dá)可以推廣應(yīng)用到其他各種數(shù)據(jù)集，節(jié)省了人工設(shè)計(jì)特征的時(shí)間周期；同時(shí)，由于其在圖像分類和目標(biāo)識別領(lǐng)域方面的準(zhǔn)確率已經(jīng)大幅超越傳統(tǒng)機(jī)器學(xué)習(xí)方法，因此基于CNN的參數(shù)模型紋理生成方法正逐漸取代普通參數(shù)法，其合成紋理質(zhì)量也正逐步向非參數(shù)法逼近。

為此，在概括總結(jié)并對比分析基于graph cut模型的非參數(shù)法和基于P&S模型的參數(shù)法兩個(gè)典型的國際主流分析式紋理合成技術(shù)以及深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的原理、框架結(jié)構(gòu)、應(yīng)用發(fā)展趨勢和優(yōu)缺點(diǎn)的基礎(chǔ)上，進(jìn)一步討論了結(jié)合基于CNN的Caffe網(wǎng)絡(luò)和VGG結(jié)構(gòu)的VGG-19紋理合成模型，通過對其結(jié)構(gòu)框架、特征量建立與優(yōu)化等過程原理的分析，可以發(fā)現(xiàn)深度學(xué)習(xí)CNN網(wǎng)絡(luò)的引入有助于參數(shù)法紋理合成模型的建立與優(yōu)化，能有效提高參數(shù)法紋理合成效果并縮短改進(jìn)周期。

2 非參數(shù)紋理生成法Graph-cut

Graph-cut是一種著名的非參數(shù)紋理生成方法[2]，基于該方法建立的紋理圖效果迄今依然優(yōu)于大量普通參數(shù)法甚至CNN參數(shù)法。該方法運(yùn)用了片拷貝的紋理生成法，可實(shí)現(xiàn)紋理圖像生成、紋理圖像優(yōu)化、不同種類圖像合成以及視頻合成等多種應(yīng)用；其運(yùn)行過程主要包含兩大核心步驟：選擇片放置位置與獲取優(yōu)化塊。利用隨機(jī)法或匹配法在輸出紋理圖區(qū)域選擇放置采樣紋理片的位置范圍(等于或小于采樣紋理區(qū)域的矩形區(qū)域)；利用Graph-cut算法確定采樣紋理片的優(yōu)化提取塊(一般為小于采樣區(qū)域的不規(guī)則形狀)，拷貝該優(yōu)化塊到目標(biāo)紋理圖的放置區(qū)域。

原理如圖1所示。

圖1 Graph-cut算法紋理合成基本原理

2.1選擇片放置位置

片放置方法主要有隨機(jī)放置和匹配放置。隨機(jī)放置指將整個(gè)輸入采樣紋理片每次隨機(jī)放置在輸出目標(biāo)紋理圖區(qū)域的任意一個(gè)位置，這種方法耗時(shí)最短，主要適用于生成隨機(jī)紋理圖。匹配放置分兩種方式：第一種是整片匹配放置，該方法每次都放入整個(gè)輸入采樣紋理片的最優(yōu)塊(通過計(jì)算重疊區(qū)域的最小代價(jià)生成)，適用于合成規(guī)則性紋理圖；第二種是子片匹配放置，該方法每次放入輸入采樣紋理一個(gè)局部區(qū)域片(遠(yuǎn)小于采樣紋理片)的最優(yōu)塊，適合合成隨機(jī)紋理圖和紋理視頻。

其放置過程分初始化與優(yōu)化兩個(gè)階段。初始化階段主要將采樣紋理片的最優(yōu)塊逐步填充到空的輸出紋理圖區(qū)域中，分三個(gè)步驟：將第一個(gè)采樣紋理片放置在輸入紋理區(qū)的隨機(jī)位置；選擇第二次片放置位置(與上一次放入的部分或全部交疊)，運(yùn)行Graph-cut算法獲取放入片的優(yōu)化塊后放入該交疊位置；重復(fù)上一步直至填滿整個(gè)輸出圖區(qū)域。優(yōu)化階段是對已填充完畢的輸出紋理圖再次填充采樣輸入紋理信息，達(dá)到修正改進(jìn)的目的，分兩步：利用代價(jià)函數(shù)計(jì)算出已填滿的輸出紋理圖的最大誤差塊，在該范圍內(nèi)放入輸入紋理片的優(yōu)化塊區(qū)域；重復(fù)上一步，直至對最終結(jié)果滿意，從而結(jié)束迭代，獲得最終優(yōu)化輸出紋理填充圖。

2.2獲取優(yōu)化塊

獲取優(yōu)化塊的核心方法是運(yùn)用Graph-cut算法，該算法是基于圖的最小代價(jià)路徑切取方法，是在Dynamic program算法[3]上的進(jìn)一步改進(jìn)。Dynamic program算法用于選擇兩個(gè)片的邊界交疊區(qū)域的優(yōu)化塊，原理是利用該區(qū)域的相鄰配對像素點(diǎn)分屬新舊片區(qū)的色差值之和來計(jì)算最小代價(jià)位置，步驟為：對交疊區(qū)域逐行掃描相鄰像素對，計(jì)算像素對屬于新舊區(qū)域時(shí)的色差值的和，記為代價(jià)值；記錄每一行的最小代價(jià)值點(diǎn)位置，繼續(xù)掃描下一行；重復(fù)上一步直至掃描整塊交疊區(qū)域結(jié)束，連接每行的最小代價(jià)值位置點(diǎn)，生成最優(yōu)塊的邊界線。

Graph-cut算法在Dynamic program算法的基礎(chǔ)上從處理兩個(gè)邊界域交疊區(qū)進(jìn)一步擴(kuò)展到處理多個(gè)邊界域或包圍域交疊區(qū)，通過在舊優(yōu)化塊切割線(邊界線)的相鄰像素節(jié)點(diǎn)間插入塊節(jié)點(diǎn)，建立新的連接弧并重新計(jì)算生成最小代價(jià)切割線(優(yōu)化塊邊界線)。該算法的主要步驟是：在舊優(yōu)化塊邊界線的左右相鄰兩像素節(jié)點(diǎn)間插入新的塊節(jié)點(diǎn)；在每個(gè)塊節(jié)點(diǎn)和新片之間建立一條新的連接弧，計(jì)算該塊節(jié)點(diǎn)與相鄰兩像素節(jié)點(diǎn)及新片之間三條連接弧的代價(jià)值；存在三種新的切割方式，分別是從塊節(jié)點(diǎn)與新片區(qū)的連結(jié)弧切入、從三條連接弧以外的區(qū)域切入、從塊節(jié)點(diǎn)與相鄰像素節(jié)點(diǎn)之間切入，分別對應(yīng)保留、取代、移除舊塊切割線。

2.3改進(jìn)與擴(kuò)展應(yīng)用

Graph-cut算法還引入了三種方法優(yōu)化合成效果：運(yùn)用梯度計(jì)算法優(yōu)化代價(jià)函數(shù)以更好地檢測邊緣，運(yùn)用羽化和多分辨率處理法隱藏或移除視覺假象，運(yùn)用快速傅里葉法以加速基于平方差和的交疊區(qū)域代價(jià)計(jì)算算法。此外，該算法還實(shí)現(xiàn)了多種擴(kuò)展應(yīng)用：對輸入采樣紋理進(jìn)行翻轉(zhuǎn)、鏡像、縮放變換處理以增加生成紋理的多樣性，與用戶交互式方法結(jié)合實(shí)現(xiàn)不同種類圖像的合并以及從二維紋理圖像生成擴(kuò)展到三維紋理視頻合成。但是該算法往往難以很好地合成具有明顯邊界結(jié)構(gòu)特征的紋理，尤其是對那些獨(dú)立性很強(qiáng)、排列緊密并具有明顯邊界的色彩模式單元[4]。為了更好地保持紋理的邊界結(jié)構(gòu)特征，國內(nèi)研究人員先后提出了基于邊界圖的紋理合成法[4]、基于不規(guī)則塊的紋理合成法[5]與基于Graph cut的快速紋理合成算法[6]對其加以改進(jìn)，提高合成效果并縮短合成時(shí)間。

3 參數(shù)法P&S模型紋理生成法

基于樣本的紋理合成技術(shù)是一種重要的參數(shù)法紋理生成技術(shù)[7]，它是一種基于給定的小區(qū)域紋理樣本并按照表面的幾何形狀拼合生成整個(gè)圖像紋理的方法，其生成紋理在視覺上是相似而連續(xù)的[8]，代表性模型是P&S模型[9]，該模型迄今仍是普通參數(shù)法紋理生成的重要基礎(chǔ)模型。P&S模型是一種基于分析合成的模型，通過觀察前人設(shè)計(jì)的參數(shù)并運(yùn)用數(shù)學(xué)推理和實(shí)驗(yàn)分析設(shè)計(jì)及改進(jìn)參數(shù)，利用最大熵方法采集樣本圖像像素密度值，運(yùn)用實(shí)踐遍歷性方法(對圖像空間信息取平均值)估算樣本圖像的參數(shù)值，生成可推廣的參數(shù)紋理生成模型。該模型利用一系列小波特征量和它們的相互關(guān)系建立邊緣、系數(shù)相關(guān)性、系數(shù)大小、跨尺度相位四類統(tǒng)計(jì)量參數(shù)，運(yùn)用梯度投影法將這些參數(shù)先后施加在高斯白噪圖上漸進(jìn)式合成紋理，并迭代這一過程直至收斂得到最終紋理圖。其原理如圖2所示。

圖2 P&S模型系統(tǒng)原理

P&S模型參數(shù)對應(yīng)的基礎(chǔ)函數(shù)特征與運(yùn)用順序梯度投影算法合成紋理圖的方法決定了該模型利用可控金字塔濾波器[10]而非高斯濾波器分解圖像特征；可控金字塔濾波器方法具有良好的圖像重建特性、平移不變性和旋轉(zhuǎn)不變性，包含了方向波段和縮放比例(金字塔層次)兩套系數(shù)。P&S模型以小波多分辨率原理為基礎(chǔ)，運(yùn)用可控金字塔濾波器將源樣本紋理圖分解成多個(gè)不同尺度的紋理圖像，進(jìn)而設(shè)計(jì)了四類參數(shù)統(tǒng)計(jì)量：邊緣統(tǒng)計(jì)量包含偏差、峰度、尺寸、像素深度差異等信息；系數(shù)相關(guān)性統(tǒng)計(jì)量對應(yīng)周期性、全局性的方向紋理結(jié)構(gòu)；系數(shù)大小統(tǒng)計(jì)量體現(xiàn)了紋理邊角信息；跨尺度相位統(tǒng)計(jì)量反映了紋理立體陰影細(xì)節(jié)。

但是P&S參數(shù)模型方法具有如下缺點(diǎn)：對于紋理圖，無法區(qū)分直線和曲線輪廓，無法捕捉線條末端粗細(xì)度，無法形成封閉式輪廓，無法區(qū)分某些樣例中的線條與邊緣；對于非紋理圖，只能捕捉到局部結(jié)構(gòu)信息而無法得到圖中不同目標(biāo)的整體空間聯(lián)系；雖然該模型在處理對應(yīng)樣本庫中的數(shù)百種紋理樣本時(shí)，迭代次數(shù)總能控制在50次左右，但理論上還無法確定參數(shù)模型何時(shí)收斂；由于參數(shù)是手動設(shè)計(jì)的，所以無法從理論上驗(yàn)證是否還有更優(yōu)秀的參數(shù)集存在。

P&S參數(shù)模型方法主要適用于單種紋理樣本合成，國內(nèi)研究者后續(xù)提出了基于相關(guān)性原理的多樣圖紋理合成方法以增加生成紋理種類滿足更多需求[11]，以及結(jié)合圖像細(xì)節(jié)特征的全局優(yōu)化紋理合成方法用于更好地解決基于樣本的紋理合成中紋理圖像不連續(xù)、紋理結(jié)構(gòu)或特征容易斷裂等情況[12]。

4 卷積神經(jīng)網(wǎng)絡(luò)

模式識別、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)長期以來廣泛應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域，在2012年基于ImageNet圖像數(shù)據(jù)庫的ILSVRC大賽中，以基于深度學(xué)習(xí)的CNN方法設(shè)計(jì)的AlexNet網(wǎng)在圖像分類比賽上獲得了第一名，其Top-5準(zhǔn)確率(五次選擇有一次正確即納入正確分類)超出了第二名基于傳統(tǒng)機(jī)器學(xué)習(xí)的SVM方法達(dá)10%以上，此后2012年至2015年的圖像分類冠軍均為基于CNN方法的模型。CNN網(wǎng)絡(luò)主要包含卷積層、池化層和全連接層三種層次結(jié)構(gòu)，使用損失函數(shù)評估系統(tǒng)性能，利用梯度下降法優(yōu)化卷積層和全連接層的連接權(quán)值；其所處理的輸入圖像一般具有寬度、高度和通道數(shù)三種屬性，比如ImageNet的224×224×3的標(biāo)準(zhǔn)輸入圖像即指像素寬度、高度均為224以及包含RGB共3個(gè)通道的輸入圖像。

與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比，CNN的不同點(diǎn)在于：主要用途是將輸入的傳感信息轉(zhuǎn)為有效的特征表達(dá)，這些表達(dá)目前在大尺度圖像識別領(lǐng)域已經(jīng)超越了人工特征；用卷積層和池化層代替了大部分全連接層，應(yīng)用局部連接、參數(shù)共享和特征圖方法，在大幅度降低參數(shù)數(shù)量的同時(shí)盡可能保有圖像特征；通過前向卷積與池化進(jìn)程將輸入圖像分解為特征圖表達(dá)，再通過反向傳播進(jìn)程調(diào)用梯度下降法優(yōu)化卷積層和全連接層的連接權(quán)值，迭代前向和反向進(jìn)程直至收斂完成網(wǎng)絡(luò)訓(xùn)練，生成最優(yōu)參數(shù)組合。

與傳統(tǒng)機(jī)器學(xué)習(xí)方法相比，CNN的不同點(diǎn)在于：SVM、KNN、Boosting等傳統(tǒng)機(jī)器學(xué)習(xí)方法都是淺層網(wǎng)絡(luò)結(jié)構(gòu)，網(wǎng)絡(luò)深度遠(yuǎn)低于CNN；傳統(tǒng)機(jī)器學(xué)習(xí)方法一般使用人工設(shè)計(jì)特征，比如用于目標(biāo)檢測的SIFT特征、用于人臉識別的LBP特征與用于行人檢測的HOG特征，其設(shè)計(jì)周期長、效率低，CNN通過自動從大數(shù)據(jù)分析學(xué)習(xí)自動優(yōu)化調(diào)整特征參數(shù)，大大縮短了特征設(shè)計(jì)周期；傳統(tǒng)機(jī)器學(xué)習(xí)方法的特征提取和分類階段是相互獨(dú)立先后進(jìn)行，CNN是一種端到端系統(tǒng)(前向輸入卷積與反向輸出梯度下降優(yōu)化過程迭代進(jìn)行至收斂到最優(yōu))，其特征提取和分類過程相互作用同步優(yōu)化，是全局性的統(tǒng)一過程，兩者不可分割。

4.1卷積層

CNN卷積層處理輸入圖像生成輸出特征圖，其3個(gè)重要特性分別是局部連接、參數(shù)共享與特征圖建立。局部連接原則借鑒了人眼視覺神經(jīng)成像原理，即每個(gè)神經(jīng)關(guān)注的只是圖像的某個(gè)局部位置而非全圖，最后再合成所有神經(jīng)的局部觀察結(jié)果形成最終成像結(jié)果圖；參數(shù)共享原則令多個(gè)神經(jīng)共享一套參數(shù)，該原則適用于有一定規(guī)律的圖像(比如紋理圖)，對非規(guī)則圖像應(yīng)適當(dāng)放寬條件；特征圖建立則是通過增加特征圖數(shù)量增強(qiáng)圖像表達(dá)能力(一張?zhí)卣鲌D對應(yīng)源圖像的某一方面特征)以彌補(bǔ)前兩個(gè)特性造成的圖像信息損失。以神經(jīng)通過3×3的濾波器去觀察6×6分辨率的輸入圖像為例：設(shè)濾波器卷積橫向縱向滑動步長值均為2，共需移動9次方能處理完整幅圖像(即用9個(gè)神經(jīng)方能觀測整幅圖像)：若采用全連接方式觀測，共需6×6×9個(gè)連接權(quán)值(每個(gè)像素對應(yīng)一個(gè)連接權(quán)值)；運(yùn)用局部連接原則，設(shè)每個(gè)神經(jīng)只觀測該圖像的3×3局部區(qū)域，則只需3×3×9個(gè)；運(yùn)用參數(shù)共享原則，令9個(gè)神經(jīng)均使用同一套參數(shù)，則進(jìn)一步縮減為只需3×3×1個(gè)；建立10張?zhí)卣鲌D表達(dá)圖像，則需3×3×10個(gè)；最終參數(shù)數(shù)量(連接權(quán)值數(shù)量)縮減為最初的27.8%，上述特性在處理大尺度分辨率圖像時(shí)，縮減參數(shù)幅度更為明顯。

每個(gè)卷積層包含的參數(shù)數(shù)量由輸入特征圖數(shù)量和輸出特征圖數(shù)量共同決定。假設(shè)某卷積層接收的輸入信息為64張?zhí)卣鲌D，輸出信息是128張?zhí)卣鲌D，使用的是3×3的濾波器(不考慮偏差值時(shí)，則每一套連接權(quán)值參數(shù)為3×3=9個(gè))；每個(gè)濾波器用64套不同參數(shù)對64張輸入特征圖進(jìn)行卷積，每層需128個(gè)濾波器生成128張輸出特征圖，因此該卷積層所包含的連接權(quán)值參數(shù)個(gè)數(shù)一共是64×3×3×128=73 728個(gè)。

4.2池化層和全連接層

池化層采用了基于圖像多分辨率處理原理的金字塔式圖像處理方法，它利用向下采樣技術(shù)縮小輸入特征圖的大小，進(jìn)而減少連接權(quán)值參數(shù)數(shù)量；一般采用2×2大小(3×3及其以上大小的池化層會造成信息損失過大)步長2(不重疊)的池化層，可以將輸入特征圖的寬度和高度分別縮小為原來的二分之一。池化層主要有平均值、最大值、隨機(jī)值池化層三類，目前以最大值池化層使用最為頻繁，2×2大小的最大值池化層就是取池化窗口所套入的鄰域空間的四個(gè)像素值的最大值作為該鄰域空間的輸出值。池化層除了具有縮小特征圖大小的特性以外，還保持了圖像的平移旋轉(zhuǎn)和縮放不變性，其多分辨率處理方式令整個(gè)CNN網(wǎng)絡(luò)能更好地識別圖像的不同區(qū)域。

最大連接層一般置于CNN網(wǎng)絡(luò)的尾部，用于將卷積層和池化層處理分解出的圖像各種特征表達(dá)合并輸出作為最終分類層的輸入信息；但由于CNN網(wǎng)絡(luò)的連接權(quán)值參數(shù)主要產(chǎn)生于全連接層，為了減少計(jì)算代價(jià)，全連接層正逐漸被移除或轉(zhuǎn)換成卷積層。

5 Caffe框架和VGG模型

5.1Caffe框架

Caffe是CNN的重要框架之一[13]，包含了當(dāng)前主流的深度學(xué)習(xí)算法和一系列參考模型(如Alexnet網(wǎng))；該框架將模型表達(dá)和實(shí)際應(yīng)用分離，支持C++和Python語言，廣泛應(yīng)用于圖像分類、目標(biāo)識別、語義特征學(xué)習(xí)等領(lǐng)域。Caffe采用名為Blobs的4維數(shù)組存儲數(shù)據(jù)(圖像坐標(biāo)、權(quán)值和偏差)，利用谷歌協(xié)議緩沖區(qū)存儲CNN網(wǎng)絡(luò)模型，調(diào)用CUDA核進(jìn)行GPU卷積運(yùn)算，包含了前向進(jìn)程(接收輸入數(shù)據(jù)生成輸出數(shù)據(jù))和后向進(jìn)程(利用隨機(jī)梯度下降算法優(yōu)化連接權(quán)值)，并不斷迭代前向后向進(jìn)程直至收斂得到最優(yōu)參數(shù)網(wǎng)絡(luò)。

5.2VGG模型

VGG模型[14]是建立在Caffe框架下的一個(gè)實(shí)用型CNN模型，在2014年ImageNet比賽中的圖像分類和目標(biāo)識別方面分別取得了第二名和第一名。相對于2012年比賽冠軍(11×11濾波器，步長為4)和2013年冠軍(7×7濾波器，步長為2)，VGG網(wǎng)的主要改進(jìn)在于采用了更小的濾波器(3×3濾波器，步長為1)和更深的層數(shù)(19個(gè)權(quán)值層)。由于小型濾波器能夠表達(dá)更多輸入圖像特征進(jìn)而使得決策函數(shù)更具區(qū)分性，同時(shí)還能減少參數(shù)數(shù)量，VGG模型使用3個(gè)堆疊的3×3濾波器卷積層取代1個(gè)7×7濾波器卷積層(其卷積輸出結(jié)果圖像大小相等，缺點(diǎn)是由于層數(shù)增加導(dǎo)致計(jì)算代價(jià)增大)。一共有6個(gè)模型(A-LRN/VGG-11/VGG-13/VGG-16/VGG-16*/VGG-19)參與了研究分析，前四個(gè)主要用于實(shí)驗(yàn)測試對比以及參數(shù)初始化，后兩個(gè)分別用于目標(biāo)識別和圖像分類。VGG-19模型一共包含16個(gè)卷積層、5個(gè)池化層和3個(gè)全連接層以及1個(gè)soft-max分類層，其中含連接權(quán)值的卷積層和全連接層一共19個(gè)(VGG-19名字源于此)，其結(jié)構(gòu)如圖3所示(圖中各層詳細(xì)示意圖標(biāo)注于主框架圖下方)。

圖3 VGG-19網(wǎng)絡(luò)結(jié)構(gòu)圖

由于深層網(wǎng)絡(luò)的梯度具有不穩(wěn)定性，一般先用隨機(jī)連接權(quán)值初始化淺層網(wǎng)絡(luò)，再將訓(xùn)練后的淺層網(wǎng)絡(luò)的各層連接權(quán)值作為深層網(wǎng)絡(luò)對應(yīng)層的初始化權(quán)值(該深層網(wǎng)絡(luò)的其余未賦值層連接權(quán)值使用隨機(jī)初始化值)，最后使用梯度下降法自動迭代訓(xùn)練優(yōu)化連接權(quán)值，得到最終應(yīng)用模型。VGG-19模型的前4層卷積層和后3層全連接層的初始化權(quán)值來自訓(xùn)練后的VGG-11模型的對應(yīng)層，剩余12層則采用隨機(jī)初始化值。利用大數(shù)據(jù)集訓(xùn)練完畢的VGG網(wǎng)絡(luò)除了可直接運(yùn)用于圖像分類和目標(biāo)識別外，還可推廣應(yīng)用到其他小數(shù)據(jù)集建立特征表達(dá)，并結(jié)合傳統(tǒng)機(jī)器學(xué)習(xí)分類器實(shí)現(xiàn)對小數(shù)據(jù)集的圖像分類和目標(biāo)識別。

6 基于VGG-19的紋理生成模型

VGG-19紋理生成模型[15]的結(jié)構(gòu)是在VGG-19模型的基礎(chǔ)上移除最后3個(gè)全連接層以及將5個(gè)最大值池化層轉(zhuǎn)為平均值池化層，其工作原理源于P&S模型，是一個(gè)基于CNN的參數(shù)法紋理生成模型。VGG-19模型建立了一種新型特征表達(dá)(關(guān)系矩陣)來表示紋理，可用于合成紋理圖；此外，該模型在不同卷積層生成的階段性紋理還可用于探測分析人腦視覺成像的不同階段。

上述特征表達(dá)形成步驟原理如圖4所示。

圖4 紋理特征表達(dá)形成步驟原理

VGG-19紋理模型建立的紋理圖的效果比P&S模型及Caffe結(jié)果更好[15]，但依然弱于Graph-cut方法。該模型工作原理類似于人腦視覺成像過程(由低級信息合成中級信息直至最終形成高級成像信息，逐層清晰化)，在每個(gè)層次上合成的紋理圖可以用于探測視覺成像系統(tǒng)，根據(jù)不同信號反饋分析模型和成像系統(tǒng)的層與層之間的聯(lián)系。此外，由于所采用的特征表達(dá)為關(guān)系矩陣集，該模型生成非紋理圖時(shí)，保留了圖像中的目標(biāo)信息，但丟失了相關(guān)目標(biāo)之間的全局聯(lián)系信息。

圖5 VGG-19紋理生成模型

7 結(jié)束語

紋理作為數(shù)字圖像的一個(gè)重要基礎(chǔ)特征廣泛應(yīng)用于計(jì)算機(jī)視覺等圖像處理領(lǐng)域，分析式紋理合成方法是重要的紋理合成技術(shù)之一。以基于Graph-cut模型的非參數(shù)法、基于P&S模型的參數(shù)法和基于CNN的VGG-19網(wǎng)絡(luò)模型為研究對象，綜合回顧并對比分析三者的框架結(jié)構(gòu)、過程原理和實(shí)現(xiàn)步驟，并討論了非參數(shù)法、參數(shù)法的應(yīng)用發(fā)展趨勢和優(yōu)缺點(diǎn)。通過深入剖析VGG-19紋理合成模型原理，得出了引入深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)新興技術(shù)的參數(shù)法能有效縮短參數(shù)設(shè)計(jì)改進(jìn)周期并顯著提高合成效果的結(jié)論。此外，還進(jìn)行了大量合成式紋理主流與新興技術(shù)的調(diào)研，對于計(jì)算機(jī)視覺領(lǐng)域的圖像紋理合成研究工作有一定借鑒意義。下一步將調(diào)研分析信息應(yīng)用于相關(guān)研究課題項(xiàng)目上，并進(jìn)一步論證其在相關(guān)領(lǐng)域方面的實(shí)際功效。

[1] Johnson J,Karpathy A.Convolutional neural networks for visual recognition[EB/OL].2015.http://cs231n.github.io/convolutional-networks.

[2] Kwatra V,Sch?dl A,Essa I,et al.Graphcut textures:image and video synthesis using graph cuts[J].ACM Transactions on Graphics,2003,22(3):277-286.

[3] Efros A A,Freeman W T.Image quilting for texture synthesis and transfer[C]//Proceedings of the 28th annual conference on computer graphics and interactive techniques.[s.l.]:IEEE,2001:341-346.

[4] 楊剛，王文成，吳恩華.基于邊界圖的紋理合成方法[J].計(jì)算機(jī)研究與發(fā)展,2005，42(12)：2118-2125.

[5] 熊昌鎮(zhèn)，黃靜，齊東旭.基于不規(guī)則塊的紋理合成方法[J].計(jì)算機(jī)研究與發(fā)展,2007，44(4)：701-706.

[6] 鄒昆,韓國強(qiáng),李聞,等.基于Graph Cut的快速紋理合成算法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2008，20(5)：652-658.

[7] 朱文浩，魏寶剛.基于樣本的紋理合成技術(shù)綜述[J].中國圖象圖形學(xué)報(bào),2008，13(11)：2063-2069.

[8] 徐曉剛，鮑虎軍，馬利莊.紋理合成技術(shù)研究[J].計(jì)算機(jī)研究與發(fā)展,2002，39(11)：1405-1411.

[9] Portilla J,Simoncelli E P.A parametric texture model based on joint statistics of complex wavelet coefficients[J].International Journal of Computer Vision,2000,40(1):49-70.

[10] Simoncelli E P,Freeman W T.The steerable pyramid:a flexible architecture for multi-scale derivative computation[C]//International conference on image processing.[s.l.]:[s.n.],1995:444-447.

[11] 徐曉剛，鮑虎軍，馬利莊.基于相關(guān)性原理的多樣圖紋理合成方法[J].自然科學(xué)進(jìn)展,2002，12(6)：665-668.

[12] 肖春霞，黃志勇，聶勇偉，等.結(jié)合圖像細(xì)節(jié)特征的全局優(yōu)化紋理合成[J].計(jì)算機(jī)學(xué)報(bào),2009，32(6)：1196-1205.

[13] Ia Y,Shelhamer E,Donahue J,et al.Caffe:convolutional architecture for fast feature embedding[C]//Proceedings of the 22nd ACM international conference on multimedia.[s.l.]:ACM,2014:675-678.

[14] Karen S,Andrew Z.Very deep convolutional networks for large-scale image recognition[EB/OL].2015-04-10.http://www.robots.ox.ac.uk/vgg/research/very_deep/.

[15] Gatys L A,Ecker A S,Bethge M.Texture synthesis using convolutional neural networks[C]//Proceedings of the 28th international conference on neural information processing systems.[s.l.]:[s.n.],2015.

[16] Zhu C,Byrd R H,Lu P,et al.Algorithm 778:L-BFGS-B:fortran subroutines for large-scale bound-constrained optimization[J].ACM Transactions on Mathematical Software,1997,23(4):550-560.

AnalyzedTexture-synthesisTechniquesandTheirApplicationsinDeepLearning

LI Hong-lin

(Life-Information System Course，Graduate-School of Yamanashi University,Kofu 400-8510，Japan)

The state-of-the-art analyzed texture synthesis techniques are divided into non-parametric and parametric methods,which contribute to the current corresponding research on computer vision.By summarizing and comparing their principles,structures,development trends,advantages and disadvantages,a non-parametric method based on graph-cut model and a parametric method based on P&S model are analyzed in detail.In addition,the structures and principles of Convolution Neural Network (CNN) based on deep-learning which are widely applied in image-process filed are also discussed.Finally,a new texture synthesis model VGG-19 is introduced,which is the combination of CNN-based Caffe network with VGG model that obtained high scores in the 2014 ImageNet classification and object detection competence.The VGG-19 model can be also used to analyze human visual process.The analyzed results show the facts as below.Non-parametric methods can synthesize high-quality textures of various kinds with high speed.Parametric methods are appropriate for being used as analysis tools.CNN applied in parametric methods can greatly reduce the time period of designing and adjusting feature representations and parameters and improve the synthesized results synchronously,which is proved to be valuable tools for analyzing theory and realizing applications on texture-synthesis work.

analyzed texture synthesis method；non-parametric texture generation；parametric texture generation；deep learning；convolutional neural network；VGG-19

2016-10-30

2017-02-10 < class="emphasis_bold">網(wǎng)絡(luò)出版時(shí)間

時(shí)間：2017-07-19

李宏林(1979-)，男，講師，博士，研究方向?yàn)橛?jì)算機(jī)視覺、圖像處理、數(shù)據(jù)挖掘等。

http://kns.cnki.net/kcms/detail/61.1450.TP.20170719.1109.032.html

TP37

1673-629X(2017)11-0007-07

10.3969/j.issn.1673-629X.2017.11.002

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

分析式紋理合成技術(shù)及其在深度學(xué)習(xí)的應(yīng)用

1 概 述

2 非參數(shù)紋理生成法Graph-cut

3 參數(shù)法P&S模型紋理生成法

4 卷積神經(jīng)網(wǎng)絡(luò)

5 Caffe框架和VGG模型

6 基于VGG-19的紋理生成模型

7 結(jié)束語

1 概述