基于深度強(qiáng)化學(xué)習(xí)的圖像修復(fù)算法設(shè)計(jì)

2019-07-29 01:12崔小洛欒曉飛

物聯(lián)網(wǎng)技術(shù) 2019年6期

關(guān)鍵詞：機(jī)器學(xué)習(xí)關(guān)聯(lián)性大數(shù)據(jù)

崔小洛欒曉飛

摘要：日前，圖像修復(fù)技術(shù)已經(jīng)越來(lái)越成熟，出現(xiàn)了各種機(jī)器學(xué)習(xí)算法來(lái)填充圖片中缺失信息區(qū)域的紋理和結(jié)構(gòu)。文中將圖像修復(fù)過(guò)程轉(zhuǎn)化為一個(gè)離散的強(qiáng)化學(xué)習(xí)問(wèn)題，并設(shè)計(jì)了一種基于深度強(qiáng)化學(xué)習(xí)的可以漸進(jìn)填充缺失區(qū)域圖像的算法，通過(guò)圖像修復(fù)算法設(shè)計(jì)出一套修復(fù)策略，使得整個(gè)修復(fù)過(guò)程更貼近人類的工作效果。

關(guān)鍵詞：圖像修復(fù);機(jī)器學(xué)習(xí);深度強(qiáng)化學(xué)習(xí);大數(shù)據(jù);自相似;關(guān)聯(lián)性

中圖分類號(hào)：TP39 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：2095-1302（2019）06-00-03

0 引言

大數(shù)據(jù)時(shí)代，人們對(duì)圖像信息的需求越來(lái)越多，同時(shí)也越來(lái)越注重圖像信息的質(zhì)量。通常由于圖像數(shù)據(jù)采集設(shè)備或傳輸設(shè)備的不足，圖像數(shù)據(jù)往往伴隨著大量噪聲。由于圖像儲(chǔ)存設(shè)備技術(shù)存在瑕疵，導(dǎo)致圖像可能出現(xiàn)數(shù)據(jù)丟失等問(wèn)題。去除圖像中存在的噪聲，還原圖像中缺失的部分被稱為圖像修復(fù)。目前，圖像修復(fù)技術(shù)被廣泛用于遙感、天文、軍事以及民用領(lǐng)域[1]，作用不可忽視。隨著圖像數(shù)據(jù)的海量增長(zhǎng)，如何使用快速穩(wěn)定的算法進(jìn)行圖像修復(fù)已成為業(yè)界研究的重點(diǎn)。

通常我們把圖像修復(fù)目標(biāo)定義為在已有圖像上覆蓋一部分區(qū)域Ω，在該部分區(qū)域中的每一個(gè)像素點(diǎn)輸入像素值，由此凸顯了恢復(fù)和修改圖像或視頻工作的重要性。但這也是使用圖像修復(fù)來(lái)理解不同圖像模型有效性的結(jié)果。從圖像模型結(jié)構(gòu)入手，現(xiàn)有的圖像修復(fù)技術(shù)可以分為如下3大類[2]：

（1）當(dāng)圖像中有大量重復(fù)片段時(shí)就可以使用自相似理論。假設(shè)給定一個(gè)像素的空間鄰域亮度值的概率分布獨(dú)立于圖像其余部分，則該紋理被建模，之后利用近鄰劃窗，當(dāng)檢測(cè)到符合之前紋理特征的Ω時(shí)，便進(jìn)行機(jī)械化填充，填充的像素點(diǎn)值會(huì)受填充起止數(shù)值的影響。

（2）在填充區(qū)域Ω時(shí)，考慮圖像色區(qū)空間的相似性，在保證填充區(qū)域與圖像全局空間分布基本一致的前提下進(jìn)行圖像修復(fù)，通過(guò)使用紋理合成技術(shù)以提高色塊填充的精確程度。

（3）第三種則是基于微分方程（PDE）來(lái)觀察圖像紋理的擴(kuò)散規(guī)律，建模與空間信息相關(guān)的變分模型指導(dǎo)圖像修復(fù)工作。這類算法在處理分段圖像和較小Ω時(shí)，效果顯著。

但此類算法都基于人工尋找相應(yīng)的特征來(lái)挑選填充色素。近年來(lái)，隨著深度學(xué)習(xí)技術(shù)的興起，通過(guò)監(jiān)督訓(xùn)練神經(jīng)網(wǎng)絡(luò)來(lái)減小算法生成圖像與原圖像之間的差異，以替代人工特征選擇，效果明顯[3-4]。圖像的重復(fù)信息、空間信息、紋理特征都可以在黑箱中被更好地囊括，甚至可以通過(guò)發(fā)掘深度學(xué)習(xí)算法得到更好的深層特征來(lái)指導(dǎo)圖像修復(fù)工作。生成對(duì)抗網(wǎng)絡(luò)[5]等先進(jìn)的深度學(xué)習(xí)算法都在圖像修復(fù)的問(wèn)題上取得了極好的成果。然而這類算法的生成圖像規(guī)律通過(guò)訓(xùn)練求得，無(wú)法學(xué)習(xí)到一個(gè)完整的圖像修復(fù)過(guò)程，只是單純的端到端學(xué)習(xí)。

本文基于覆蓋區(qū)域Ω與圖像其他完整部分紋理之間存在的關(guān)聯(lián)性圖像修復(fù)理論基礎(chǔ)，考慮構(gòu)建一種基于深度強(qiáng)化學(xué)習(xí)的漸進(jìn)過(guò)程的圖像修補(bǔ)方法，通過(guò)迭代運(yùn)算方法，讓圖像修補(bǔ)過(guò)程成為一個(gè)策略學(xué)習(xí)過(guò)程，智能體可以在每一步修補(bǔ)過(guò)程中進(jìn)行新的修補(bǔ)路徑規(guī)劃。

1 相關(guān)算法

1.1 強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一個(gè)重要分支，強(qiáng)化學(xué)習(xí)智能體的訓(xùn)練基于其自身在環(huán)境中的探索，而非人為提供的訓(xùn)練樣本[6]。環(huán)境返回的回報(bào)信息使得智能體可以不斷優(yōu)化策略，強(qiáng)化學(xué)習(xí)算法的目標(biāo)就是最大化折扣回報(bào)，即：

式中0≤γ≤1為折扣因子。當(dāng)智能體處于狀態(tài)St時(shí)，根據(jù)策略π來(lái)選擇一個(gè)動(dòng)作at，Q學(xué)習(xí)算法是強(qiáng)化學(xué)習(xí)算法的一種，智能體根據(jù)環(huán)境中的狀態(tài)St+1，返還一個(gè)回報(bào)值rt?？梢詫學(xué)習(xí)算法表達(dá)為：

式中α為算法的學(xué)習(xí)率。此算法在強(qiáng)化學(xué)習(xí)的過(guò)程中，被證明可以收斂得到最優(yōu)的值函數(shù)。

1.2 深度強(qiáng)化學(xué)習(xí)DQN更新公式：

2015年Deep mind將Double-Q算法引入深度強(qiáng)化學(xué)習(xí)的策略迭代過(guò)程：

2016年Deep mind提出了DDPG。不同于之前的Double-DQN，DDPG將動(dòng)作選擇從值函數(shù)網(wǎng)絡(luò)的學(xué)習(xí)任務(wù)中脫離出來(lái)，利用ac框架，將動(dòng)作選擇算法由貪心算法轉(zhuǎn)換為輸入為值函數(shù)的期望和，輸出為動(dòng)作值，損失函數(shù)為最大化動(dòng)作回報(bào)的神經(jīng)網(wǎng)絡(luò)。actor網(wǎng)絡(luò)更新梯度為：

Critic網(wǎng)絡(luò)更新梯度為：

在更新兩網(wǎng)絡(luò)參數(shù)時(shí)，使用以τ為參數(shù)的迭代式：

Double-DQN概率引入前第n步的值函數(shù)來(lái)求取最大值，減小了由最大值函數(shù)引起的算法系統(tǒng)誤差。DDPG的網(wǎng)絡(luò)更新則是對(duì)多個(gè)之前的網(wǎng)絡(luò)進(jìn)行加權(quán)，以保證計(jì)算網(wǎng)絡(luò)更新梯度中所用的值函數(shù)為之前所有值函數(shù)的數(shù)學(xué)期望，削弱負(fù)向的更新向量對(duì)網(wǎng)絡(luò)更新的影響。

1.3 圖像差異

為了衡量?jī)蓚€(gè)圖像之間的差異，文中使用kl散度作為衡量?jī)蓚€(gè)圖像之間相似度的方法。定義kl距離為：

2 算法思路

算法思路：將圖像修復(fù)工作轉(zhuǎn)化為一個(gè)強(qiáng)化學(xué)習(xí)任務(wù)，且賦予其相應(yīng)的數(shù)據(jù)處理能力。

學(xué)習(xí)目標(biāo)：智能體處理圖像，改變圖像像素點(diǎn)的顏色，使得最終生成的圖像與目標(biāo)圖像之間的差異逐漸變小。

當(dāng)且僅當(dāng)上述不等式取等且均等于0時(shí)，則認(rèn)為完成了學(xué)習(xí)任務(wù)。由此，我們可以定義強(qiáng)化學(xué)習(xí)回報(bào)公式：

當(dāng)且僅當(dāng)兩者相等時(shí)有最大的回報(bào)。由于智能體將一直在環(huán)境中進(jìn)行修改圖像的探索，所以二者之間總有差值，最后會(huì)在最優(yōu)解上下波動(dòng)，得到最優(yōu)策略。動(dòng)作值見表1所列。

為簡(jiǎn)化強(qiáng)化學(xué)習(xí)任務(wù)，我們選擇按照?qǐng)D像坐標(biāo)遞增的原則，選定用于填充的像素點(diǎn)。選擇VGG16提取圖像特征，經(jīng)典的VGG16即16層卷積神經(jīng)網(wǎng)絡(luò)模型及設(shè)計(jì)流程如圖1所示。

圖像提取出的VGG特征將作為強(qiáng)化學(xué)習(xí)算法的狀態(tài)輸入，以進(jìn)一步簡(jiǎn)化圖像，使智能體更好地分辨狀態(tài)的變化。

經(jīng)智能體策略生成的新像素點(diǎn)值會(huì)改變圖像狀態(tài)，將前后狀態(tài)、回報(bào)和相應(yīng)的像素點(diǎn)變化動(dòng)作存入經(jīng)驗(yàn)緩存區(qū)，歷經(jīng)大量探索后讓智能體進(jìn)行訓(xùn)練，完善AC網(wǎng)絡(luò)參數(shù)，形成相應(yīng)策略后再進(jìn)行新一輪探索，即離線訓(xùn)練。整個(gè)過(guò)程計(jì)算量較大，建議進(jìn)行異步探索，以減少算法對(duì)硬件的壓力和訓(xùn)練時(shí)間。

3 結(jié) 語(yǔ)

本文提出了一種全新的基于強(qiáng)化學(xué)習(xí)的圖像修復(fù)算法思路，通過(guò)定義相應(yīng)的強(qiáng)化學(xué)習(xí)環(huán)境，使智能體按照一定順序遍歷缺失圖片區(qū)域時(shí)可自行補(bǔ)齊相應(yīng)的像素點(diǎn)，修補(bǔ)圖片。與以往算法不同的是，將圖像修復(fù)過(guò)程離散化的修補(bǔ)策略使得算法可以實(shí)時(shí)跟蹤圖像相應(yīng)的狀態(tài)變化，并根據(jù)這些變化實(shí)時(shí)更新圖像補(bǔ)齊策略，解決了傳統(tǒng)修復(fù)算法存在的一步更新，無(wú)法實(shí)時(shí)跟蹤圖像修復(fù)的問(wèn)題。通過(guò)增強(qiáng)圖像修復(fù)算法的智能性，將整個(gè)圖像的修復(fù)過(guò)程精確到像素級(jí)。

參考文獻(xiàn)

[1] BERTALMIO，MARCELO，SAPIRO，et al.Image inpainting[J].Siggraph，2005，4（9）：417-424.

[2] BUGEAU A， BERTALM?O M， CASELLES V， et al.A comprehensive framework for image inpainting[J].IEEE transactions on image processing，2010，19（10）：2634-2645.

[3] ZHU X， QIAN Y， ZHAO X， et al.A deep learning approach to patch-based image inpainting forensics[J].Signal processing image communication，2018，67（9）：90-99.

[4] HSU C， CHEN F， WANG G.High-Resolution Image Inpainting through Multiple Deep Networks[C]// International Conference on Vision， Image and Signal Processing.IEEE，2017：76-81.

[5] WANG W，HUANG Q， YOU S，et al.Shape Inpainting Using 3D Generative Adversarial Network and Recurrent Convolutional Networks[C] //IEEE International Conference on Computer Vision.IEEE，2017：2317-2325.

[6] SUTTON R S，BARTO A G.Reinforcement learning：an introduction[J].Machine learning，1992，8（3-4）：225-227.

[7]支周，屈肅.一種基于遷移極速學(xué)習(xí)機(jī)的人體行為識(shí)別模型[J].物聯(lián)網(wǎng)技術(shù)，2015，5（9）：18-20.

[8]鄧志龍，張琦瑋，曹皓，等.一種基于深度強(qiáng)化學(xué)習(xí)的調(diào)度優(yōu)化方法[J].西北工業(yè)大學(xué)學(xué)報(bào)，2017，35（6）：147-153.

[9]宋海聲，劉岸果，呂耕耕.基于深度學(xué)習(xí)的空間變換情景感知模型研究[J].物聯(lián)網(wǎng)技術(shù)，2017，7（3）：22-24.

[10]姚君延.基于深度增強(qiáng)學(xué)習(xí)的路徑規(guī)劃算法研究[D].成都：電子科技大學(xué)，2018.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于深度強(qiáng)化學(xué)習(xí)的圖像修復(fù)算法設(shè)計(jì)