崔小洛 欒曉飛
摘 要:日前,圖像修復(fù)技術(shù)已經(jīng)越來(lái)越成熟,出現(xiàn)了各種機(jī)器學(xué)習(xí)算法來(lái)填充圖片中缺失信息區(qū)域的紋理和結(jié)構(gòu)。文中將圖像修復(fù)過(guò)程轉(zhuǎn)化為一個(gè)離散的強(qiáng)化學(xué)習(xí)問(wèn)題,并設(shè)計(jì)了一種基于深度強(qiáng)化學(xué)習(xí)的可以漸進(jìn)填充缺失區(qū)域圖像的算法,通過(guò)圖像修復(fù)算法設(shè)計(jì)出一套修復(fù)策略,使得整個(gè)修復(fù)過(guò)程更貼近人類的工作效果。
關(guān)鍵詞:圖像修復(fù);機(jī)器學(xué)習(xí);深度強(qiáng)化學(xué)習(xí);大數(shù)據(jù);自相似;關(guān)聯(lián)性
中圖分類號(hào):TP39 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2019)06-00-03
0 引 言
大數(shù)據(jù)時(shí)代,人們對(duì)圖像信息的需求越來(lái)越多,同時(shí)也越來(lái)越注重圖像信息的質(zhì)量。通常由于圖像數(shù)據(jù)采集設(shè)備或傳輸設(shè)備的不足,圖像數(shù)據(jù)往往伴隨著大量噪聲。由于圖像儲(chǔ)存設(shè)備技術(shù)存在瑕疵,導(dǎo)致圖像可能出現(xiàn)數(shù)據(jù)丟失等問(wèn)題。去除圖像中存在的噪聲,還原圖像中缺失的部分被稱為圖像修復(fù)。目前,圖像修復(fù)技術(shù)被廣泛用于遙感、天文、軍事以及民用領(lǐng)域[1],作用不可忽視。隨著圖像數(shù)據(jù)的海量增長(zhǎng),如何使用快速穩(wěn)定的算法進(jìn)行圖像修復(fù)已成為業(yè)界研究的重點(diǎn)。
通常我們把圖像修復(fù)目標(biāo)定義為在已有圖像上覆蓋一部分區(qū)域Ω,在該部分區(qū)域中的每一個(gè)像素點(diǎn)輸入像素值,由此凸顯了恢復(fù)和修改圖像或視頻工作的重要性。但這也是使用圖像修復(fù)來(lái)理解不同圖像模型有效性的結(jié)果。從圖像模型結(jié)構(gòu)入手,現(xiàn)有的圖像修復(fù)技術(shù)可以分為如下3大類[2]:
(1)當(dāng)圖像中有大量重復(fù)片段時(shí)就可以使用自相似理論。假設(shè)給定一個(gè)像素的空間鄰域亮度值的概率分布獨(dú)立于圖像其余部分,則該紋理被建模,之后利用近鄰劃窗,當(dāng)檢測(cè)到符合之前紋理特征的Ω時(shí),便進(jìn)行機(jī)械化填充,填充的像素點(diǎn)值會(huì)受填充起止數(shù)值的影響。
(2)在填充區(qū)域Ω時(shí),考慮圖像色區(qū)空間的相似性,在保證填充區(qū)域與圖像全局空間分布基本一致的前提下進(jìn)行圖像修復(fù),通過(guò)使用紋理合成技術(shù)以提高色塊填充的精確程度。
(3)第三種則是基于微分方程(PDE)來(lái)觀察圖像紋理的擴(kuò)散規(guī)律,建模與空間信息相關(guān)的變分模型指導(dǎo)圖像修復(fù)工作。這類算法在處理分段圖像和較小Ω時(shí),效果顯著。
但此類算法都基于人工尋找相應(yīng)的特征來(lái)挑選填充色素。近年來(lái),隨著深度學(xué)習(xí)技術(shù)的興起,通過(guò)監(jiān)督訓(xùn)練神經(jīng)網(wǎng)絡(luò)來(lái)減小算法生成圖像與原圖像之間的差異,以替代人工特征選擇,效果明顯[3-4]。圖像的重復(fù)信息、空間信息、紋理特征都可以在黑箱中被更好地囊括,甚至可以通過(guò)發(fā)掘深度學(xué)習(xí)算法得到更好的深層特征來(lái)指導(dǎo)圖像修復(fù)工作。生成對(duì)抗網(wǎng)絡(luò)[5]等先進(jìn)的深度學(xué)習(xí)算法都在圖像修復(fù)的問(wèn)題上取得了極好的成果。然而這類算法的生成圖像規(guī)律通過(guò)訓(xùn)練求得,無(wú)法學(xué)習(xí)到一個(gè)完整的圖像修復(fù)過(guò)程,只是單純的端到端學(xué)習(xí)。
本文基于覆蓋區(qū)域Ω與圖像其他完整部分紋理之間存在的關(guān)聯(lián)性圖像修復(fù)理論基礎(chǔ),考慮構(gòu)建一種基于深度強(qiáng)化學(xué)習(xí)的漸進(jìn)過(guò)程的圖像修補(bǔ)方法,通過(guò)迭代運(yùn)算方法,讓圖像修補(bǔ)過(guò)程成為一個(gè)策略學(xué)習(xí)過(guò)程,智能體可以在每一步修補(bǔ)過(guò)程中進(jìn)行新的修補(bǔ)路徑規(guī)劃。
1 相關(guān)算法
1.1 強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一個(gè)重要分支,強(qiáng)化學(xué)習(xí)智能體的訓(xùn)練基于其自身在環(huán)境中的探索,而非人為提供的訓(xùn)練樣本[6]。環(huán)境返回的回報(bào)信息使得智能體可以不斷優(yōu)化策略,強(qiáng)化學(xué)習(xí)算法的目標(biāo)就是最大化折扣回報(bào),即:
式中0≤γ≤1為折扣因子。當(dāng)智能體處于狀態(tài)St時(shí),根據(jù)策略π來(lái)選擇一個(gè)動(dòng)作at,Q學(xué)習(xí)算法是強(qiáng)化學(xué)習(xí)算法的一種,智能體根據(jù)環(huán)境中的狀態(tài)St+1,返還一個(gè)回報(bào)值rt??梢詫學(xué)習(xí)算法表達(dá)為:
式中α為算法的學(xué)習(xí)率。此算法在強(qiáng)化學(xué)習(xí)的過(guò)程中,被證明可以收斂得到最優(yōu)的值函數(shù)。
1.2 深度強(qiáng)化學(xué)習(xí)DQN更新公式:
2015年Deep mind將Double-Q算法引入深度強(qiáng)化學(xué)習(xí)的策略迭代過(guò)程:
2016年Deep mind提出了DDPG。不同于之前的Double-DQN,DDPG將動(dòng)作選擇從值函數(shù)網(wǎng)絡(luò)的學(xué)習(xí)任務(wù)中脫離出來(lái),利用ac框架,將動(dòng)作選擇算法由貪心算法轉(zhuǎn)換為輸入為值函數(shù)的期望和,輸出為動(dòng)作值,損失函數(shù)為最大化動(dòng)作回報(bào)的神經(jīng)網(wǎng)絡(luò)。actor網(wǎng)絡(luò)更新梯度為:
Critic網(wǎng)絡(luò)更新梯度為:
在更新兩網(wǎng)絡(luò)參數(shù)時(shí),使用以τ為參數(shù)的迭代式:
Double-DQN概率引入前第n步的值函數(shù)來(lái)求取最大值,減小了由最大值函數(shù)引起的算法系統(tǒng)誤差。DDPG的網(wǎng)絡(luò)更新則是對(duì)多個(gè)之前的網(wǎng)絡(luò)進(jìn)行加權(quán),以保證計(jì)算網(wǎng)絡(luò)更新梯度中所用的值函數(shù)為之前所有值函數(shù)的數(shù)學(xué)期望,削弱負(fù)向的更新向量對(duì)網(wǎng)絡(luò)更新的影響。
1.3 圖像差異
為了衡量?jī)蓚€(gè)圖像之間的差異,文中使用kl散度作為衡量?jī)蓚€(gè)圖像之間相似度的方法。定義kl距離為:
2 算法思路
算法思路:將圖像修復(fù)工作轉(zhuǎn)化為一個(gè)強(qiáng)化學(xué)習(xí)任務(wù),且賦予其相應(yīng)的數(shù)據(jù)處理能力。
學(xué)習(xí)目標(biāo):智能體處理圖像,改變圖像像素點(diǎn)的顏色,使得最終生成的圖像與目標(biāo)圖像之間的差異逐漸變小。
當(dāng)且僅當(dāng)上述不等式取等且均等于0時(shí),則認(rèn)為完成了學(xué)習(xí)任務(wù)。由此,我們可以定義強(qiáng)化學(xué)習(xí)回報(bào)公式:
當(dāng)且僅當(dāng)兩者相等時(shí)有最大的回報(bào)。由于智能體將一直在環(huán)境中進(jìn)行修改圖像的探索,所以二者之間總有差值,最后會(huì)在最優(yōu)解上下波動(dòng),得到最優(yōu)策略。動(dòng)作值見表1所列。
為簡(jiǎn)化強(qiáng)化學(xué)習(xí)任務(wù),我們選擇按照?qǐng)D像坐標(biāo)遞增的原則,選定用于填充的像素點(diǎn)。選擇VGG16提取圖像特征,經(jīng)典的VGG16即16層卷積神經(jīng)網(wǎng)絡(luò)模型及設(shè)計(jì)流程如圖1所示。
圖像提取出的VGG特征將作為強(qiáng)化學(xué)習(xí)算法的狀態(tài)輸入,以進(jìn)一步簡(jiǎn)化圖像,使智能體更好地分辨狀態(tài)的變化。
經(jīng)智能體策略生成的新像素點(diǎn)值會(huì)改變圖像狀態(tài),將前后狀態(tài)、回報(bào)和相應(yīng)的像素點(diǎn)變化動(dòng)作存入經(jīng)驗(yàn)緩存區(qū),歷經(jīng)大量探索后讓智能體進(jìn)行訓(xùn)練,完善AC網(wǎng)絡(luò)參數(shù),形成相應(yīng)策略后再進(jìn)行新一輪探索,即離線訓(xùn)練。整個(gè)過(guò)程計(jì)算量較大,建議進(jìn)行異步探索,以減少算法對(duì)硬件的壓力和訓(xùn)練時(shí)間。
3 結(jié) 語(yǔ)
本文提出了一種全新的基于強(qiáng)化學(xué)習(xí)的圖像修復(fù)算法思路,通過(guò)定義相應(yīng)的強(qiáng)化學(xué)習(xí)環(huán)境,使智能體按照一定順序遍歷缺失圖片區(qū)域時(shí)可自行補(bǔ)齊相應(yīng)的像素點(diǎn),修補(bǔ)圖片。與以往算法不同的是,將圖像修復(fù)過(guò)程離散化的修補(bǔ)策略使得算法可以實(shí)時(shí)跟蹤圖像相應(yīng)的狀態(tài)變化,并根據(jù)這些變化實(shí)時(shí)更新圖像補(bǔ)齊策略,解決了傳統(tǒng)修復(fù)算法存在的一步更新,無(wú)法實(shí)時(shí)跟蹤圖像修復(fù)的問(wèn)題。通過(guò)增強(qiáng)圖像修復(fù)算法的智能性,將整個(gè)圖像的修復(fù)過(guò)程精確到像素級(jí)。
參 考 文 獻(xiàn)
[1] BERTALMIO,MARCELO,SAPIRO,et al.Image inpainting[J].Siggraph,2005,4(9):417-424.
[2] BUGEAU A, BERTALM?O M, CASELLES V, et al.A comprehensive framework for image inpainting[J].IEEE transactions on image processing,2010,19(10):2634-2645.
[3] ZHU X, QIAN Y, ZHAO X, et al.A deep learning approach to patch-based image inpainting forensics[J].Signal processing image communication,2018,67(9):90-99.
[4] HSU C, CHEN F, WANG G.High-Resolution Image Inpainting through Multiple Deep Networks[C]// International Conference on Vision, Image and Signal Processing.IEEE,2017:76-81.
[5] WANG W,HUANG Q, YOU S,et al.Shape Inpainting Using 3D Generative Adversarial Network and Recurrent Convolutional Networks[C] //IEEE International Conference on Computer Vision.IEEE,2017:2317-2325.
[6] SUTTON R S,BARTO A G.Reinforcement learning:an introduction[J].Machine learning,1992,8(3-4):225-227.
[7]支周,屈肅.一種基于遷移極速學(xué)習(xí)機(jī)的人體行為識(shí)別模型[J].物聯(lián)網(wǎng)技術(shù),2015,5(9):18-20.
[8]鄧志龍,張琦瑋,曹皓,等.一種基于深度強(qiáng)化學(xué)習(xí)的調(diào)度優(yōu)化方法[J].西北工業(yè)大學(xué)學(xué)報(bào),2017,35(6):147-153.
[9]宋海聲,劉岸果,呂耕耕.基于深度學(xué)習(xí)的空間變換情景感知模型研究[J].物聯(lián)網(wǎng)技術(shù),2017,7(3):22-24.
[10]姚君延.基于深度增強(qiáng)學(xué)習(xí)的路徑規(guī)劃算法研究[D].成都:電子科技大學(xué),2018.