一種恢復(fù)圖像自然色彩的重構(gòu)方法

2019-11-09 03:41陶霖密袁春王浩達(dá)

智能系統(tǒng)學(xué)報 2019年5期

陶霖密，袁春，王浩達(dá)

（清華大學(xué) 計算機科學(xué)與技術(shù)系，北京，100084）

在單傳感器相機成像過程中，彩色圖像傳感器只采集到彩色圖像的三分之一的信號，彩色圖像是基于該原始信號重構(gòu)出來的，該重構(gòu)過程通常稱為去馬賽克。原始圖像信號去馬賽克過程的彩色圖像的質(zhì)量至關(guān)重要，算法性能表現(xiàn)直接決定重構(gòu)圖像的質(zhì)量高低。重構(gòu)過程中引入的噪聲可能造成最終圖像的人工偽色彩、拉鏈效應(yīng)、灰度邊緣等問題，圖像豐富的特征細(xì)節(jié)和自然的色彩過渡往往無法兼得。傳統(tǒng)的去馬賽克算法往往只利用信號在空間和頻譜上的區(qū)域相關(guān)性[1]，速度較快而適應(yīng)性較差。為了克服這一問題，基于壓縮感知[2]、深度學(xué)習(xí)[3]的圖像重構(gòu)算法被提出并得到廣泛應(yīng)用。壓縮感知與深度學(xué)習(xí)相比于預(yù)先定義的先驗?zāi)Ｐ腿缧〔ㄗ儞Q等，針對特定類型的信號學(xué)習(xí)得到的字典集會帶來更好的重構(gòu)效果[4-7]。但問題是這兩者均依賴于從已有的數(shù)據(jù)中學(xué)習(xí)。一般來說，學(xué)習(xí)所需的訓(xùn)練集來源有兩類：1)原始的不完全圖像信號；2)獨立的圖像數(shù)據(jù)集切分成圖像塊(patch)集合。本質(zhì)上原始信號本身已經(jīng)缺失不足以提供更多信息，使用一個獨立但相關(guān)的圖像集訓(xùn)練能得到更好的重構(gòu)結(jié)果。目前廣泛使用的是以柯達(dá)無損圖像數(shù)據(jù)集為代表的經(jīng)由硬插值算法得到的圖像組成的數(shù)據(jù)集。這種圖像由raw格式原始信號經(jīng)由插值算法計算得到，本身引入了重構(gòu)誤差，并非是無損數(shù)據(jù)。例如：常用的柯達(dá)圖像數(shù)據(jù)集，其飽和度低下，在色彩過渡處出現(xiàn)大量由于插值所造成的灰度邊緣，與人眼感知的自然色彩世界有較大出入。這種訓(xùn)練集中天生存在的誤差將會被引入字典中，最終影響重構(gòu)的成像質(zhì)量，從而造成圖像重構(gòu)悖論。

為了打破了深度學(xué)習(xí)、壓縮感知等方法在應(yīng)用時的循環(huán)悖論，使得這些方法能夠真正地重建自然彩色圖像，本文提出了一種新的恢復(fù)自然色彩圖像的重構(gòu)方法，通過挖掘圖像信號在不同字典下的稀疏表示的差異來提升圖像色彩表現(xiàn)。這種基于壓縮感知的圖像重構(gòu)方法的核心貢獻是Sandwich圖像數(shù)據(jù)集，以及構(gòu)建這種數(shù)據(jù)集的方式。通過這些圖像數(shù)據(jù)集訓(xùn)練的字典，重構(gòu)得到的圖像有更好的邊緣色彩表現(xiàn)，而且不出現(xiàn)偽色彩。實驗證明，在峰值信噪比(PSNR)和視覺質(zhì)量方面，該方法優(yōu)于大多數(shù)傳統(tǒng)的去馬賽克算法，包括不限于使用基于Kodak數(shù)據(jù)集字典重構(gòu)的圖像和使用傳統(tǒng)基于壓縮感知方法重構(gòu)得到的圖像。

1 壓縮感知和稀疏編碼

壓縮感知理論的基礎(chǔ)是存在一種變換方法[2]，使得信號變換到某空間后是稀疏的，即很少系數(shù)不為零?，F(xiàn)有的大量研究結(jié)果表明，基于和具體信號無關(guān)的固定的變換，比如小波變換，通常不能使變換后的信號足夠稀疏。針對特定類型的信號學(xué)習(xí)得到的稀疏變換會帶來更好的稀疏性。

基于壓縮感知的圖像去馬賽克(Demosaicing)可被表示成如下問題：

2)其中投影矩陣MD必須滿足一些特定條件，比如有限等距性質(zhì)(restricted isometry property，RIP 性質(zhì))。

RIP性質(zhì)保證了觀測矩陣不會把兩個不同的稀疏信號映射到同一個集合中(保證原空間到稀疏空間的一一映射關(guān)系)，要求從觀測矩陣中抽取的每M個列向量構(gòu)成的矩陣是非奇異的。在具體情況中一般采用固定大小的稀疏矩陣，往往通過構(gòu)造恰當(dāng)?shù)臏y量矩陣使得滿足RIP等約束條件。

稀疏編碼(sparse coding)可被描述為

本文需要解決的問題：

唯一性定理結(jié)合式(1)和式(3)，可以得到：

式(4)也可以被正則化描述成：

在這個求解問題中，字典集與最終信號的稀疏編碼算法同樣重要，其中字典可以是典型的數(shù)學(xué)基，譬如小波、Garbor、傅里葉基等。然而這些數(shù)學(xué)基往往不能很好表達(dá)復(fù)雜的自然圖像。

2 Sandwich圖像數(shù)據(jù)集

目前廣泛的用于測試圖像重建、壓縮、字典學(xué)習(xí)等的圖像數(shù)據(jù)集是Kodak無損圖像數(shù)據(jù)集。Kodak圖像數(shù)據(jù)集中圖像為24位全彩色png格式，由Eastman Kodak公司開放無限制使用。這些圖像采集來源已不可考，由于其廣泛被用于字典學(xué)習(xí)的數(shù)據(jù)來源和不同圖像重構(gòu)算法性能的評價，有必要謹(jǐn)慎考慮。

如圖1所示，Kodak數(shù)據(jù)集中圖像整體飽和度偏低[8]，亮度較現(xiàn)代數(shù)字相片也較暗，與人視覺感知到的圖像色彩有較大的出入，作為benchmark其不太貼合自然世界中圖片的情況。除此之外，良好的數(shù)據(jù)集圖像在色彩轉(zhuǎn)換的邊緣處應(yīng)當(dāng)流暢自然，然而Kodak圖像數(shù)據(jù)中明顯可見在色彩邊緣處出現(xiàn)了大量的灰黑邊。這種情況隱藏在字典學(xué)習(xí)的原始信息中，會引發(fā)一系列的副作用，從而導(dǎo)致最終重構(gòu)的圖像也加上了不自然的黑邊，稱為拉鏈或鋸齒效應(yīng)。作為基準(zhǔn)線測試數(shù)據(jù)集，Kodak數(shù)據(jù)中僅有24幅圖片信息，不能滿足圖像重構(gòu)多字典學(xué)習(xí)的測試要求。

圖1 柯達(dá)圖像數(shù)據(jù)集中存在的灰度邊緣Fig. 1 Gray edges in the Kodak image database

傳統(tǒng)使用的數(shù)字圖像數(shù)據(jù)集基本都是由單感光器經(jīng)過CFA模版采樣[9-11]，然后經(jīng)過計算插值得到的，同樣存在和Kodak數(shù)據(jù)集類似的問題，為彩色圖像的重建引入了多種噪聲[12]。

為了在源頭上避免多余的噪聲和誤差，使用Foveon X3彩色圖像傳感器(圖2)采集了幾百幅圖像作為數(shù)據(jù)集(下文稱Sandwich圖像集)。Foveon X3彩色圖像傳感器具有3層結(jié)構(gòu)，沒有任何CFA模版，每個像素都直接采樣得到RGB三色的信息，無需插值，避免了插值、重構(gòu)等計算帶來的誤差[12]。

圖2 Foveon X3圖像傳感器Fig. 2 Foveon X3 imaging sensor

Sandwich圖像數(shù)據(jù)集中的圖像是2 600×1 800大小的高清彩色圖像，實際應(yīng)用中可裁剪出任意大小的子圖使用。在字典學(xué)習(xí)過程中有足夠充分的圖像信息可供使用，從而使得描述圖像時能得到更好的稀疏性。

圖3展示出了Sandwich圖像數(shù)據(jù)集中的一些樣例。從圖3中可明顯看出，圖像邊緣處色彩過渡自然流暢，不會出現(xiàn)黑/灰色邊緣，即所謂的拉鏈效應(yīng)。在不出現(xiàn)生硬的過渡黑邊的情況下，其圖像結(jié)構(gòu)信息依然保留完好，視覺效果符合人眼視網(wǎng)膜感知自然世界特性。另一方面，在不同的光源情況下體現(xiàn)了不同的亮度與飽和度。

圖3 Sandwich圖像數(shù)據(jù)集Fig. 3 Sandwich image database

圖像數(shù)據(jù)集的評價：圖像數(shù)據(jù)集不能產(chǎn)生明顯的黑邊，支持表達(dá)足夠豐富的應(yīng)用場景，視覺效果評測是檢查圖像數(shù)據(jù)集質(zhì)量的一個重要方面。但是，視覺效果評測并不是一個客觀評價標(biāo)準(zhǔn)，人眼視覺的差異性導(dǎo)致了這個評測的結(jié)構(gòu)難以精確地表達(dá)。從數(shù)據(jù)集學(xué)習(xí)得到的字典，針對不同的圖像處理應(yīng)用領(lǐng)域，譬如灰度圖去噪、彩色圖像去噪、非均勻圖像去噪修復(fù)等進行仿真實驗，比較最終重構(gòu)的圖像PSNR等客觀數(shù)據(jù)。

3 圖像重構(gòu)實驗

基于傳統(tǒng)、廣泛使用的Kodak圖像數(shù)據(jù)集，經(jīng)由K-SVD算法學(xué)習(xí)到的字典[13-14](下文統(tǒng)稱Kodak字典)是完備的，每個字典原子patch大小為8×8×3，總共有192個原子。這些原子中具有明顯的黑灰邊信息(見圖4)，且彩色字典的邊緣幾乎全部都呈現(xiàn)灰色，可見其RGB三通道具有強烈的相關(guān)性。同時，字典的原子飽和度低下，不足以表達(dá)豐富的色彩信息。

圖4 基于柯達(dá)圖像學(xué)習(xí)的字典Fig. 4 Dictionary learned from the Kodak image database

基于Sandwich數(shù)據(jù)集，經(jīng)由K-SVD算法學(xué)習(xí)到的字典(下文統(tǒng)稱Sandwich字典)與Kodak字典相同，Sandwich字典原子patch大小為8×8×3，總共有192個原子，也是完備的。Sandwich字典中，其原子呈現(xiàn)出完全不同的特性(見圖5)。Sandwich字典的色彩過渡自然，未出現(xiàn)不自然、生硬的黑邊現(xiàn)象。由于足夠豐富的場景和光源使得字典飽和度和亮度得到充分的體現(xiàn)。字典原子三通道間的差異較大，沒有強制的正相關(guān)性，符合視覺感知的圖像色彩特性。另外在這種字典中還具有良好的局部不變特征(如角點、斑點等)。

圖5 基于Sandwich圖像學(xué)習(xí)的字典Fig. 5 Dictionary learned from the Sandwich image database

本文采用相同的Sandwich圖片，首先下采樣得到彩色圖像傳感器所獲取的三分之一圖像信息，然后分別基于Kodak字典和Sandwich字典進行恢復(fù)重構(gòu)。圖6分別為從Kodak字典恢復(fù)的重構(gòu)圖像，和Sandwich恢復(fù)圖像。圖6(a)平白增加了原本不存在的黑邊，該黑邊信息從Kodak圖像中引入。

圖6 水果圖圖像重構(gòu)實驗對比Fig. 6 Comparisons of the original and reconstructed fruit image

圖7 分別顯示了從Kodak數(shù)據(jù)中學(xué)習(xí)到的字典造成了重構(gòu)圖像中原本不存在的雜色或偽色彩(圖7(a))，以及Sandwich字典重構(gòu)的圖像就不存在偽色彩(圖7(b))，其原因是Kodak數(shù)據(jù)集中的圖像數(shù)據(jù)飽和度低、三通道間相關(guān)性強、缺失自然色彩信息。廣泛使用的圖像基準(zhǔn)集Kodak圖像數(shù)據(jù)集中在邊緣處存在大量黑邊，在壓縮感知的字典學(xué)習(xí)過程中這種三通道高相關(guān)性天然存在的缺陷將會被引入到最終被重構(gòu)的字典中。這種存在于字典之中的缺陷最終被引入到重構(gòu)的圖像中。最后針對應(yīng)用不同圖像數(shù)據(jù)集字典重構(gòu)的圖像比較PSNR(peak signal to noise ratio，峰值信噪比)，表明基于新的Sandwich數(shù)據(jù)集所重構(gòu)的圖像具有更好的PSNR(見表1)。

圖7 灰磚圖圖像重構(gòu)實驗對比Fig. 7 Comparisons of the original and reconstructed brick image

表1 圖像重構(gòu)實驗結(jié)果PSNR對比Table 1 Comparison of the original and reconstructed of PSNR

4 結(jié)束語

具有正常色彩感知視覺的成年人，其視網(wǎng)膜中紅、綠、藍(lán)三色傳感器在視網(wǎng)膜中隨機分布。人腦感知自然世界的過程本身就是一個不完全信號恢復(fù)過程。但是在基于壓縮感知的圖像重構(gòu)過程中存在的圖像-重構(gòu)-圖像循環(huán)悖論表明，通過新的圖像數(shù)據(jù)庫可以打破該循環(huán)悖論，從而顯著提高重構(gòu)圖像的質(zhì)量。

本文從圖像數(shù)據(jù)庫這一全新的角度研究了圖像重構(gòu)問題，開發(fā)的Sandwich數(shù)據(jù)庫是一種普適的圖像數(shù)據(jù)庫，可以廣泛地用于各種圖像重構(gòu)、圖像質(zhì)量評估等研究。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種恢復(fù)圖像自然色彩的重構(gòu)方法

1 壓縮感知和稀疏編碼

2 Sandwich圖像數(shù)據(jù)集

3 圖像重構(gòu)實驗

4 結(jié)束語