回環(huán)結(jié)構(gòu)與PAM結(jié)合的雙目圖像超分辨率網(wǎng)絡(luò)

2022-09-06 11:09:22張紅英吳亞東廉煒雯

計算機工程與應(yīng)用 2022年17期

李雪，張紅英，吳亞東，廉煒雯

1.西南科技大學(xué) 信息工程學(xué)院，四川綿陽 621010

2.西南科技大學(xué) 特殊環(huán)境機器人技術(shù)四川省重點實驗室，四川綿陽 621010

3.四川輕化工大學(xué) 計算機科學(xué)與工程學(xué)院，四川宜賓 644000

視覺信息是人類獲取萬物信息的主要來源，通過軟件的方法提高原始圖像分辨率的過程稱為圖像超分辨率（super resolution，SR）重建，圖像超分辨率技術(shù)滿足了人們觀感所需，在計算機視覺領(lǐng)域蓬勃發(fā)展。雙目圖像超分辨率旨在由同一場景下不同視角的兩張低分辨率（low resolution，LR）圖像重建出高分辨率（high resolution，HR）圖像，隨著雙攝系統(tǒng)在大眾生活中的出現(xiàn)，雙目圖像超分辨率在計算機視覺領(lǐng)域日益廣泛應(yīng)用。由于輸入為左右視角的兩張LR 圖像，使得輸入圖像之間存在視覺、特征、景深和分辨率等差異，解決這些差異性問題，并充分利用雙目圖像間有效細節(jié)信息優(yōu)勢可以提高超分辨率性能，所以豐富的上下文特征提取與表示研究成為了雙目圖像超分辨率重建的研究重點。

圖像超分辨率的研究從最開始基于插值的方法到現(xiàn)在基于學(xué)習(xí)的方法經(jīng)歷了飛躍性成就，從人工處理到人工智能、從淺層網(wǎng)絡(luò)到深層網(wǎng)絡(luò)、再從深層網(wǎng)絡(luò)到輕量級網(wǎng)絡(luò)，圖像超分辨率技術(shù)為人類科技發(fā)展做出了卓越貢獻。傳統(tǒng)插值方法[1-3]得到的SR 圖像過于平滑，丟失了高頻細節(jié)信息的同時重建出虛假的人工痕跡?；谥貥?gòu)的方法[4-6]研究圖像退化模型，圖像退化的過程本就是SR 成像的病態(tài)逆問題，采樣因子的隨意性也使得重建的SR圖像不能滿足人眼視覺需求?；趯W(xué)習(xí)的方法[7-8]是圖像超分辨率領(lǐng)域的巨大飛躍，近年來，深度學(xué)習(xí)的方法成為圖像處理研究的代表性方法。SRCNN（super resolution convolutional neural network）的問世也給圖像超分辨率研究者奠定了基礎(chǔ)；Dong 等[9-10]在SRCNN 的基礎(chǔ)上改進得到了FSRCNN（accelerating the super-resolution convolutional neural network），F(xiàn)SRCNN 中的擴張塊與收縮塊提升了模型的性能與速度。Shi等[11]在ESPCN（efficient sub-pixel convolutional neural network）中提出的亞像素卷積層廣泛用于超分辨率網(wǎng)絡(luò)的重建部分。Tai 等[12]提出的DRRN（deep recursive residual network）結(jié)合了Resnet[13（]deep residual network）的多重路徑局部殘差學(xué)習(xí)、VDSR[14（]accurate image super-resolution using very deep convolutional networks）的全局殘差學(xué)習(xí)和DRCN[15（]deeply recursive convolutional network for image super-resolution）的多權(quán)重遞歸學(xué)習(xí)，增加網(wǎng)絡(luò)深度的同時減少訓(xùn)練參數(shù)，達到了理想的SR 性能。SRGAN[16（]super-resolution using generative adversarial network）采用無監(jiān)督學(xué)習(xí)方法為LR圖像生成更多具有真實感的細節(jié)。單幅圖像超分辨率在圖像超分辨率領(lǐng)域取得了重要成果，但輸入為單幀圖像也導(dǎo)致重建過程中特征張量缺乏更多的細節(jié)信息。

為解決單幅圖像超分辨率輸入圖像細節(jié)缺乏的問題，雙目圖像超分辨率應(yīng)運而生。雙目圖像超分辨率在網(wǎng)絡(luò)輸入上比單幅圖像超分辨率擁有更多的細節(jié)，由于輸入是同一場景左右目的圖像信息，所以相比視頻超分辨率的多輸入也能夠避免運動模糊和壓縮影響等問題。雙目圖像超分辨率進入深度學(xué)習(xí)時代是由Jeon等[17]提出的StereoSR（enhancing the spatial resolution of stereo images using a parallax prior）開始的，StereoSR 參照立體匹配的思想，也只是圖像像素級別上的位移對齊，并沒有充分利用好左右圖的信息。Wang等[18-19]提出的PASSRnet（learning parallax attention for stereo image super-resolution）采用視差注意力機制，利用對極幾何極線約束提取左右圖的特征，并取得優(yōu)異的成果，次年，他們改進了PASSRnet得到了一個通用的模塊SAM（stereo attention module for stereo image superresolution），將其放入單圖超分辨率的網(wǎng)絡(luò)中，有利于提高單圖SR 性能。PASSRnet 和SAM 使用3 個卷積核為3×3的具有不同膨脹率的卷積來提取特征，能夠很好提取到不同的大特征，當(dāng)特征映射小于或等于采樣率時，3×3卷積核不能很好地捕獲上下文的信息，只有濾波器中心用于特征提取工作。

針對雙目圖像重建網(wǎng)絡(luò)中特征提取不完整問題，本文提出一種基于深度學(xué)習(xí)的回環(huán)結(jié)構(gòu)與PAM相結(jié)合的雙目圖像超分辨率網(wǎng)絡(luò)。該網(wǎng)絡(luò)在特征提取上提出一種MJR-ASPP+（mixed jumping residuals-atrous spatial pyramid pooling+）構(gòu)成的回環(huán)結(jié)構(gòu)，能很好地提取圖像中的高低頻細節(jié)特征，混合跳躍式殘差連接相結(jié)合的首尾呼應(yīng)結(jié)構(gòu)可獲取最小損耗的同時得到較高精度，從不同的深度操作捕獲網(wǎng)絡(luò)多尺度信息；在特征提取與視差注意力模塊中采用擴張殘差（expanded residuals，ERes）網(wǎng)絡(luò)作為過渡塊，用來學(xué)習(xí)雙目立體匹配特征的網(wǎng)絡(luò)能力，以此來緩解其在共享網(wǎng)絡(luò)ERes與MJR-ASPP+塊中的競爭；在雙目立體視覺的四個公開數(shù)據(jù)集中，都取得了優(yōu)異的SR性能，特別是在Middlebury測試集中，×2放大倍數(shù)的PSNR 達到34.67 dB，×4 放大倍數(shù)的PSNR 達到28.75 dB。

1 本文網(wǎng)絡(luò)結(jié)構(gòu)

回環(huán)結(jié)構(gòu)與PAM結(jié)合的雙目圖像超分辨率網(wǎng)絡(luò)由雙目立體視覺LR圖像對作為輸入，并重建出左圖（或右圖）SR圖像。整體網(wǎng)絡(luò)框架如圖1所示，所提網(wǎng)絡(luò)由特征提取、視差注意力機制和超分辨率重建三部分構(gòu)成。首先利用權(quán)值共享的卷積操作初步提取LR 的淺層特征，通過交替級聯(lián)的MJR-ASPP+與擴張殘差Res1 塊進一步提取圖像的深層特征；接著將提取的特征張量輸入PAM 計算視差圖并融合所有特征張量信息；最后利用四個殘差塊對融合后的特征張量進行卷積操作，經(jīng)反卷積處理后得到高維張量并通過卷積映射到RGB 空間，得到最終的SR圖像。整體網(wǎng)絡(luò)框架參數(shù)設(shè)置如表1所示，表中介紹了網(wǎng)絡(luò)中各模塊參數(shù)的設(shè)置及特征張量輸入與輸出的通道變換。下面將對網(wǎng)絡(luò)設(shè)計中的各模塊及損失函數(shù)進行詳細說明。

表1 整體網(wǎng)絡(luò)參數(shù)設(shè)置說明Table 1 Description of overall network parameter setting

圖1 整體網(wǎng)絡(luò)框架Fig.1 Overall network framework

1.1 特征提取

利用權(quán)值共享的卷積網(wǎng)絡(luò)提取輸入LR圖像的淺層特征，獲取圖像中大致概貌和輪廓，得到圖像的近似信息。第一層卷積層與第二層殘差塊的卷積核都為3×3，用每個卷積核去遍歷輸入雙目圖像時，卷積核的大小是固定不變的，每個卷積核都會去掃描整張輸入的LR 圖像，輸入圖像中所有特征都共享了相同的權(quán)值。在卷積神經(jīng)網(wǎng)絡(luò)中，利用權(quán)值共享卷積網(wǎng)絡(luò)不僅可以減少神經(jīng)網(wǎng)絡(luò)中需要訓(xùn)練的參數(shù)個數(shù)，使深度學(xué)習(xí)網(wǎng)絡(luò)運算簡潔高效，也能使網(wǎng)絡(luò)在大規(guī)模的數(shù)據(jù)集上靈活運算。

在淺層特征的基礎(chǔ)上進一步提取輸入圖像的深層特征，得到圖像的邊緣、輪廓和細節(jié)信息。如圖1 整體網(wǎng)絡(luò)框架所示，本文通過交替級聯(lián)的回環(huán)結(jié)構(gòu)MJR-ASPP+與擴張殘差Res1 塊進一步提取圖像的深層特征，輸入特征首先進入回環(huán)結(jié)構(gòu)MJR-ASPP+中以生成多尺度特征，接著，這些多尺度特征經(jīng)過擴張殘差塊Res1進行特征融合，最后，將回環(huán)結(jié)構(gòu)與擴張殘差塊相結(jié)合操作重復(fù)兩次以生成最終左右圖的特征張量。下面對回環(huán)結(jié)構(gòu)進行詳細介紹。

1.1.1 回環(huán)結(jié)構(gòu)MJR-ASPP+

豐富上下文的圖像特征提取與表示對超分辨率任務(wù)有著重大意義，本文在特征提取部分提出一種混合跳躍式殘差空洞空間金字塔池化（mixed jump residualsatrous spatial pyramid pooling+，MJR-ASPP+）的回環(huán)結(jié)構(gòu)用于多尺度特征表達，MJR-ASPP+是將ASPP+采用回環(huán)結(jié)構(gòu)的方式連接而成，如圖2 所示，將三組ASPP+塊使用長短跳躍連接的方式，每一塊的輸出與輸入相連，首尾緊扣，形成回環(huán)式結(jié)構(gòu)。回環(huán)結(jié)構(gòu)能有效捕獲圖像多尺度特征，相比傳統(tǒng)多尺度特征提取網(wǎng)絡(luò)，回環(huán)結(jié)構(gòu)具有以下三個優(yōu)點：第一，回環(huán)結(jié)構(gòu)采用不同卷積核和不同膨脹率的卷積層提取圖片中不同層次細節(jié)特征的同時，采用全局平均池化層可以有效保留圖像背景信息，在整個網(wǎng)絡(luò)結(jié)構(gòu)上做正則化防止過擬合，賦予每個通道實際的類別意義；第二，回環(huán)結(jié)構(gòu)中ASPP+采用殘差連接的方式，加深網(wǎng)絡(luò)深度，使得網(wǎng)絡(luò)每一條通路都有一個感受野，形成不同感受野和不同膨脹率的卷積集合，從而獲取更多細節(jié)紋理信息；第三，在殘差連接網(wǎng)絡(luò)中，采用長跳躍連接，將不同層次的特征拼接在一起，達到增加特征多樣性、加快訓(xùn)練的目的。下面將具體介紹每一模塊的作用。

圖2 MJR-ASPP+模塊Fig.2 MJR-ASPP+ module

（1）改進空間空洞金字塔池化模ASPP+

圖像超分辨率任務(wù)的核心是重建出高頻細節(jié)信息的同時保留低頻細節(jié)信息，DeepLabV3 工作中Chen等[20]對ASPP（atrous spatial pyramid pooling）進行了改進，改進的ASPP 很好地處理特征映射過大或過小的情況，而在所有的超分辨網(wǎng)絡(luò)中，第一步是提取LR圖像特征，本文將改進的ASPP 思路運用在雙目圖像超分辨率特征提取與表示這一步驟中，可以使網(wǎng)絡(luò)獲得多尺度的特征表達。本文所提的MJR-ASPP+模塊中，ASPP+模塊包含一個核為1×1的卷積層、三個核為3×3的卷積層（膨脹率分別為1、4、8）和一個池化層。其中1×1卷積負責(zé)提取大范圍的圖像信息，也能避免因3×3卷積層的膨脹率過大而忽略掉的邊界信息；3 個3×3 的卷積層擁有不同的膨脹因子，能夠擴大感受野提取到多尺度的圖像特征；對特征張量進行自適應(yīng)平均池化后再通過雙線性插值上采樣，是從圖像級特征出發(fā)，獲取圖像的全局特征。將三者信息進行融合，即可提取到圖像的大小局部特征及背景全局特征，也為網(wǎng)絡(luò)下一層傳遞了輸入圖像的高低頻多尺度特征，符合超分辨率重建的初衷，所以將改進的ASPP 運用于雙目圖像超分辨率特征提取部分，在文中消融實驗部分也證明了此方法的有效性。

（2）混合跳躍式殘差連接MJR

在深度學(xué)習(xí)網(wǎng)絡(luò)中，跳躍式連接的方式能很好地解決梯度消失等問題，本文所提的MJR-ASPP+模塊，采用長短跳躍相結(jié)合的混合跳躍式連接方式來獲取圖像的多尺度特征。具體為：將三個ASPP+塊以混合殘差的方式分別級聯(lián)起來，稱為短跳躍式殘差A(yù)SPP+（short jump residual-ASPP+，SJR-ASPP+），根據(jù)梯度鏈式法則，梯度是從最后一層往前逐層傳遞回來的，這種殘差方式的短跳躍連接相當(dāng)于是一個深層網(wǎng)絡(luò)，提取了圖像的深層特征；將輸入與SJR-ASPP+塊的輸出結(jié)果經(jīng)長跳躍式（long jump residual，LJR）連接，得到最后的特征張量圖。這種混合跳躍式的連接方式從不同深度對圖像特征進行處理，根據(jù)圖像的尺度自相似性，長短跳躍連接能夠獲取多尺度的圖像特征，在本文實驗中也證明了混合跳躍式連接使超分辨率網(wǎng)絡(luò)具有更好的SR性能。

（3）擴張殘差模塊ERes

回環(huán)結(jié)構(gòu)MJR-ASPP+提取的特征張量來自不同感受野和膨脹卷積的集合，為融合多尺度特征，本文將傳統(tǒng)的殘差塊替換為擴張殘差ERes塊，與普通殘差相比，ERes 具有更好的特征提取和綜合迭代功能。如圖3 所示，ERes 將第一層卷積的輸出變?yōu)樵瓉硗ǖ赖? 倍，在最后輸出時將通道數(shù)恢復(fù)為原來的通道數(shù)，特征維度的變換有利于圖像去噪和多尺度特征的融合，ERes 與回環(huán)結(jié)構(gòu)交替級聯(lián)使網(wǎng)絡(luò)更加充分地提取與融合圖像從淺層到深層的特征信息。

圖3 擴張殘差模塊Fig.3 Extended residual module

1.1.2 FReLU激活函數(shù)

本文在特征提取模塊提出了一種高效且復(fù)雜的回環(huán)式網(wǎng)絡(luò)用于提取圖像特征，由于網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性，導(dǎo)致常規(guī)卷積無法學(xué)習(xí)類似的精度，面對網(wǎng)絡(luò)模型的復(fù)雜度，本文用FReLU 替換LReLU。FReLU[21]是專門用于視覺任務(wù)的激活函數(shù)，增加空間條件來擴展ReLU和PReLU，增強激活空間的敏感度，顯著提高圖像視覺效果。FReLU 表達式如公式（1）所示，式中T(x)表示高效率的空間上下文提取結(jié)構(gòu)，使用了空間表示信息。FReLU 能自適應(yīng)地獲取ASPP+塊中提取到的特征信息，膨脹卷積層和FReLU 激活函數(shù)層的結(jié)合提高了卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural network，CNN）中捕獲空間相關(guān)性的效率，本文在消融實驗中也對FReLU激活函數(shù)在網(wǎng)絡(luò)中的使用進行了驗證。

1.2 視差注意力模塊PAM

視差注意力模塊（parallax-attention module，PAM）是Wang 等在PASSRnet 中提出的一種沿極線具有全局感受野的視差提取模塊，巧妙運用對極幾何中的極線約束，有效地集成了雙目立體視覺LR圖像對的有用信息，即雙目圖像對之間無遮擋的有效區(qū)域信息。PAM如圖4所示，本文將MJR-ASPP+提取的左右特征張量輸入擴張殘差過渡塊Res2 中，過渡塊用來學(xué)習(xí)雙目立體匹配特征的網(wǎng)絡(luò)能力，以此來緩解其在共享網(wǎng)絡(luò)中擴張殘差塊與MJR-ASPP+塊的競爭。

圖4 視差注意力模塊Fig.4 Parallax-attention module

圖4 中的視差圖ML-R和MR→L描述左右目的相似關(guān)系。圖5給出了視差圖計算的示意圖，其中圖5（a）為左右目相似關(guān)系，（b）為左右目對齊操作。在圖5（a）中，MR→L是一個H×W×C三維特征，MR→L(i,j,k)表示沿著i的維度取出切片MR→L(i,:,:)∈?W×W，將切片MR→L(i,:,:)∈?W×W經(jīng)softmax函數(shù)處理后，水平方向和變?yōu)?，切片(j,k)這一點表示右圖(i.k)這一點對左圖(i,j)的貢獻，在真實三維世界中，期望(j,k)的值為1。視差注意力圖中的值描述了左右圖像素級別的對應(yīng)關(guān)系，利用此對應(yīng)關(guān)系做左右目的對齊操作，稱為幾何已知的矩陣乘（geometry-aware matrix multiplication）。如圖5（b）所示，得到右到左的視差注意力圖MR →L后，做右圖到左圖的對齊操作，從左圖IL∈?H×W×C中沿H維度取出切片IL(i,:,:)∈?W×C，同理視差圖的切片為MR→L(i,:,:)∈?W×W，右圖的切片為IR(i,:,:)∈?W×C，由圖（a）中(j,k)的含義可知，當(dāng)(j,k)為1時，左圖(i,j)點的值對應(yīng)等于右圖的(i.k)點，從亞像素的層面講，當(dāng)(j,k)為0.5 時，是將左右圖兩個像元按50%的貢獻值混合在一起。由于采用矩陣乘的方式得到視差圖，所以不用單獨計算出每點的視差值，左右視差圖就能很好地得到左右目的對應(yīng)關(guān)系。

圖5 視差圖計算Fig.5 Disparity map calculation

1.2.1 一致性

由對極幾何極線約束，左圖中的一點a，在右圖中一定在點a所在的那一行里。左右目圖像進行對齊操作時，假設(shè)ILL與IRR是從低分辨率圖像對中提取出的深層特征，PAM 生成視差注意力圖MR-L和ML-R，理想情況下，左右圖的對應(yīng)關(guān)系可得出如公式（2）所示的左右一致性原理，右到左視差圖MR-L乘以右圖ILR可以得到左圖ILL，同理得到右圖ILR。進而得到循環(huán)一致性如公式（3）所示，其中，ML→R→L表示左圖到右圖再到左圖的視差圖，?表示批次化矩陣乘。

其中：

1.2.2 有效掩碼

視差注意力圖不僅描述左右圖的相對信息，還能描述左右圖之間的遮擋信息。在遮擋范圍內(nèi)，賦予像素極小的權(quán)重值，如公式（5）所示，當(dāng)ML→R(i,j,k)或MR→L(i,j,k)的值小于0.1時，認為像素在對應(yīng)圖中是被遮擋的，本文采用形態(tài)學(xué)的操作來處理遮擋區(qū)域。

1.3 超分辨率重建

如圖1 整體框架圖中③超分辨率重建模塊所示，本文采用四個殘差塊的目的是對融合后的左右圖特征張量進行多卷積操作，得到高維特征張量，有利于反卷積處理；此外，殘差塊除了能減弱梯度消失外，還是一種自適應(yīng)深度操作，多個殘差塊級聯(lián)起到直接信息的傳遞作用。本文在消融實驗部分證明了選用四個殘差塊能更好提升網(wǎng)絡(luò)的整體性能。殘差塊中采用FReLU作為激活函數(shù)，反卷積采用Shi 等[11]的sub-pixel 上采樣對高維特征進行操作，避免上采樣時出現(xiàn)人工痕跡等不真實的信息。最后利用卷積將特征圖映射到RGB 空間，得到最后的超分辨率左圖或右圖。

1.4 損失函數(shù)

為了訓(xùn)練回環(huán)結(jié)構(gòu)與PAM結(jié)合的雙目圖像超分辨率網(wǎng)絡(luò)，本文充分利用雙目圖像對之間的一致性原理，采用公式（6）所示的損失函數(shù)，該損失函數(shù)由超分辨損失LSR、照度損失Lphotometric、平滑損失Lsmooth和循環(huán)一致性損失Lcycle構(gòu)成。

LSR為超分辨率中的均方誤差（mean squared error，MSE）表示，其表達式如公式（7）所示，它衡量原始的HR圖像IHR與重建出的SR圖像ISR間的差異性，其中‖ · ‖2是2范數(shù)。

對圖中的非遮擋區(qū)域引入照度損失Lphotometric，如公式（8）所示，其中p表示具有有效掩碼遮擋值的像素，‖ · ‖1是1 范數(shù)。視差圖MR-L與ML-R反映左右圖與之間的對應(yīng)關(guān)系，采用視差圖計算照度損失可以使其更好地表示左右目圖像之間的左右一致性。公式中可看出，視差注意力圖與右圖（左圖）批次化矩陣乘后方可得到左（右）圖。

為了在無紋理或弱紋理區(qū)域生成準確一致的視差注意力圖，本文在視差圖上采用公式（9）所示的平滑損失Lsmooth。該等式的兩項因式分別代表視差注意力圖中的垂直一致性與水平一致性。

為了使用循環(huán)損失體現(xiàn)視差注意力圖的循環(huán)一致性，本文采用公式（10）所示的循環(huán)一致性損失Lcycle，由該式可知左圖（右圖）經(jīng)過兩次注意力圖的映射后，將得到左（右）圖本身。其中MR-L-R是單位矩陣。

2 實驗結(jié)果與分析

本章將詳細介紹具體實驗操作與實驗結(jié)果，首先介紹實驗的數(shù)據(jù)集與實驗的預(yù)處理細節(jié)，接著通過消融實驗測試本文提出網(wǎng)絡(luò)的有效性，最后將實驗結(jié)果與典型的超分辨率算法比較，進一步驗證本文方法的SR性能。

2.1 數(shù)據(jù)集

為驗證實驗過程的一致性與準確性，本文采用與PASSRnet網(wǎng)絡(luò)同樣的數(shù)據(jù)集。在訓(xùn)練集上使用該團隊收集的Flickr1024數(shù)據(jù)集中的800張訓(xùn)練集和雙目立體視覺公開數(shù)據(jù)集Middlebury 中的60 張訓(xùn)練圖片。將860張HR圖片進行2倍和4倍下采樣，得到本文網(wǎng)絡(luò)最終的訓(xùn)練數(shù)據(jù)集，并將LR 圖像對和相應(yīng)的HR 圖像對送入網(wǎng)絡(luò)進行有監(jiān)督訓(xùn)練?？紤]到測試集的選取要遵循景物的多樣性、視差變化的靈活性、景深的可對比性等必要條件，按照PASSRnet的實驗數(shù)據(jù)準備，本文也相應(yīng)選取了Middlebury 測試集中的5 幅圖像、KITTI2012測試集中的20 幅圖像、KITTI2015 測試集中的20 幅圖像和Flickr1024 測試集中的112 幅圖像作為測試集，同樣對測試集進行2倍或4倍下采樣。

2.2 實施細節(jié)

本文實驗在Nvidia GTX 2060 GPU 上進行，在Pytorch網(wǎng)絡(luò)框架上實現(xiàn)，使用Adam方法對網(wǎng)絡(luò)模型進行優(yōu)化，其中，Bach size設(shè)置為40，初始學(xué)習(xí)率為0.002，每30 個Epochs 后降低一半，訓(xùn)練在90 個Epochs 后結(jié)束，因為更大的Epochs對SR性能影響不大。

在訓(xùn)練階段，首先對雙目HR 圖像進行雙三次插值下采樣，生成對應(yīng)的LR 圖像對；然后對生成的LR 圖像進行預(yù)處理，將其裁剪為30×90 個步長為20 的圖像塊，它們在HR圖像中對應(yīng)的圖像塊也被裁剪出來，水平塊的大小慢慢增加到90 以避免訓(xùn)練集中圖片的大小差異；最后為了增加訓(xùn)練集的樣本數(shù)量，對裁剪出來的圖像塊進行平移和旋轉(zhuǎn)。本文采用峰值信噪比（peak signal-to-noise ratio，PSNR）和結(jié)構(gòu)相似性（structural similarity，SSIM）指標來評價測試圖片的SR性能。

2.3 消融實驗

本節(jié)對消融實驗進行介紹，以證明本文網(wǎng)絡(luò)的設(shè)計與選擇，消融實驗在KITTI2012和Middlebury測試集上實現(xiàn)，采樣因子為4倍，圖6訓(xùn)練曲線顯示了80個Epochs的訓(xùn)練結(jié)果，具體實驗環(huán)節(jié)與實驗結(jié)果如表2、圖6和圖7所示。

表2 消融實驗各環(huán)節(jié)與測試結(jié)果Table 2 Ablation study and test results

圖6 消融實驗訓(xùn)練結(jié)果Fig.6 Ablation study and test results

圖7 網(wǎng)絡(luò)重建部分的殘差塊個數(shù)Fig.7 Number of residual blocks in network reconstruction

表2為消融實驗各環(huán)節(jié)與KITTI2012測試集的實驗結(jié)果，圖6 是消融實驗訓(xùn)練時的Loss 值與PSNR 值。圖6中曲線①是文獻PASSRnet的復(fù)現(xiàn)結(jié)果，曲線②是使用ASPP+后的結(jié)果，從結(jié)果可以看出在原本的ASPP塊中增加了1×1卷積層和池化層后，PSNR提升了0.04 dB，因為本文改進的ASPP+模塊能夠獲取更完整的感受野，達到了豐富的多尺度特征提取與表達的效果。在ASPP+的基礎(chǔ)上，繼續(xù)調(diào)試本文網(wǎng)絡(luò)，首先對殘差A(yù)SPP+添加長跳躍殘差連接，使整個ASPP+模塊通過混合跳躍殘差連接的方式傳遞不同深度的信息，如曲線⑤所示，對比曲線②的實驗結(jié)果，采用混合跳躍式殘差連接的ASPP+塊在最后的網(wǎng)絡(luò)重建結(jié)果優(yōu)于曲線②。接著擴張殘差使用在本文網(wǎng)絡(luò)的特征提取和視差注意力機制上，曲線⑥中PSNR 值比曲線②提高了0.08，是因為擴張殘差可以起到很好處理網(wǎng)絡(luò)中圖像噪聲和平緩網(wǎng)絡(luò)模塊間權(quán)值共享的作用。最后，在本文提出的多尺度特征表示網(wǎng)絡(luò)上進行超參數(shù)的改進，替換ReLU 函數(shù)為FReLU，得到本文最終的SR 重建方法，曲線⑦無論在訓(xùn)練中還是測試中都達到了最優(yōu)的效果。為了證實本文網(wǎng)絡(luò)的有效性，去除PASSRnet 網(wǎng)絡(luò)的ASPP 塊，其他網(wǎng)絡(luò)連接方式都與本文一致，相比曲線③和曲線②可以看出，采用混合跳躍式殘差連接方式和FReLU 函數(shù)對網(wǎng)絡(luò)也有一定幫助。此外，本文還對輸入為兩張一樣的圖像進行實驗，結(jié)果可以看出曲線⑦得到的結(jié)果并不理想。

圖7 是本文在網(wǎng)絡(luò)重建部分使用殘差塊個數(shù)在Middlebury 測試集上的PSNR 結(jié)果，由圖中曲線可以看出殘差塊的個數(shù)越多，圖像的PSNR 值越高，特別是在曲線前半部分，每增加一個殘差塊，PSNR 值就提升0.1 dB左右，但當(dāng)殘差塊的個數(shù)增加到四個之后，PSNR結(jié)果提升只有0.014 dB 左右，根據(jù)網(wǎng)絡(luò)模型大小和SR性能提升綜合考慮，在網(wǎng)絡(luò)重建部分采用四個殘差塊最為適宜，實驗結(jié)果也表明在超分辨率重建部分選取四個殘差塊能提升網(wǎng)絡(luò)的整體性能。

綜上，消融實驗驗證了本文多尺度特征表示的雙目圖像超分辨率重建網(wǎng)絡(luò)設(shè)計與選擇的意義，消融實驗中也看出了MJR-ASPP+塊、混合跳躍式殘差、擴張殘差、FReLU函數(shù)和重建使用四個殘差塊能更好提升網(wǎng)絡(luò)的SR性能。

2.4 本文網(wǎng)絡(luò)參數(shù)規(guī)模分析

本文網(wǎng)絡(luò)參數(shù)模型分別從參數(shù)數(shù)量Params、理論計算量FLOPs（floating point operations）、PSNR 和SSIM四方面來分析，測試結(jié)果在Middlebury 數(shù)據(jù)集中實現(xiàn)，具體分析結(jié)果如表3 所示。首先是對本文網(wǎng)絡(luò)自身的參數(shù)規(guī)模進行分析，去除本文網(wǎng)絡(luò)中的MJR-ASPP+塊和PAM 塊對于本網(wǎng)絡(luò)來說雖然參數(shù)量和計算量降低了，但總體SR性能也跟著降低；然后對比雙目圖像超分辨率重建的兩個典型方法，本文網(wǎng)絡(luò)參數(shù)量比StereoSR降低了0.38×106，計算量降低了0.329 GFLOPs，PSNR增加了2.01 dB，SSIM提高了0.011，取得了優(yōu)異網(wǎng)絡(luò)性能，但對于PASSRnet 結(jié)果，雖然模型的參數(shù)量與計算量相對高一點，但最終也達到了更好的SR 性能。針對模型參數(shù)規(guī)模分析，本文的下一步工作也將沿著輕量級網(wǎng)絡(luò)發(fā)展，在降低模型計算量的同時取得良好的SR性能。

表3 網(wǎng)絡(luò)參數(shù)規(guī)模分析結(jié)果Table 3 Results of network parameter scale analysis

2.5 對比實驗

對比實驗選取Flickr1024、Middlebury、KITTI2012和KITTI2015四個雙目立體圖像公開數(shù)據(jù)集，與代表性單幅和雙目圖像超分辨率重建方法作對比，代表方法有SRCNN、VDSR、DRRN、StereoSR、PASSRnet，實驗結(jié)果如表4所示。表4實驗對比結(jié)果是對四個公開數(shù)據(jù)集圖片結(jié)果進行平均值比較，從表中可以看出MJR-ASPP+在×2 或×4 的采樣因子中都取得了最好的結(jié)果，在Middlebury 數(shù)據(jù)集中，×2 的PSNR 相比PASSRnet 提高了0.62 dB，×4 的PSNR 提高了0.17 dB；在KITTI2015 數(shù)據(jù)集中，×2 的SSIM 相比PASSRnet 提高了0.011，而×4 的SSIM提高了0.015。

表4 數(shù)據(jù)集實驗對比結(jié)果Table 4 Experimental comparison of data sets

圖8 和圖9 的實驗結(jié)果分別為放大4 倍和2 倍的重建結(jié)果，選取Flickr1024 測試集中0031、0089、0107 和Middlebury中的motorcycle圖像，本文MJR-ASPP+網(wǎng)絡(luò)重建出的圖像在評估和視覺效果上都取得了較好的性能，其中，×4放大倍數(shù)的兩幅圖像的PSNR對比PASSRnet 分別提高了0.15 dB 和0.22 dB，×2 放大倍數(shù)的兩幅圖片PSNR分別提高了0.33 dB和0.75 dB。從視覺效果上看，圖片0089 解決了PASSRnet 重建后出現(xiàn)的噪聲，整體細節(jié)輪廓清晰了許多，如左上角白色弧線邊緣恢復(fù)的更連續(xù)，臺階分割線也更加分明，右下三角階梯上的高光和陰影部分也更加接近原始圖像；圖片0107 恢復(fù)的細節(jié)信息更平滑，如左側(cè)蒲公英樹干上的紋理細節(jié)要比幾種典型方法清晰，蒲公英上的絨毛部分PASSRnet和本文方法都恢復(fù)出了根根分明的效果，但本文方法恢復(fù)的絨毛邊緣信息更豐富；圖片0031 中字母和兩邊線條的輪廓信息相對PASSRnet 要更明顯，且恢復(fù)出的色彩信息更接近原始圖像；本文方法在圖片motorcycle中完整地恢復(fù)出了車的凹槽部分，其中在車輪與地面的分界部分，本文方法避免了PASSRnet中產(chǎn)生的噪聲顆粒，在車輪上的細節(jié)紋理部分，本文方法比原有的典型算法恢復(fù)出了更多的細節(jié)信息，特別是左下角磨損部分，也能很好地凸顯車輪的凹凸信息。

圖8 實驗對比結(jié)果（×4）Fig.8 Experimental comparison results（×4）

圖9 實驗對比結(jié)果（×2）Fig.9 Experimental comparison results（×2）

本文網(wǎng)絡(luò)采用回環(huán)結(jié)構(gòu)MJR-ASPP+提取圖像多尺度特征，使圖像在重建后能完整恢復(fù)出物體邊緣輪廓信息，同時也能恢復(fù)出圖像中大部分細節(jié)紋理信息，在計算機視覺領(lǐng)域中，圖像中的輪廓邊緣信息用于區(qū)分物體間的差異，反映物體的位置信息，而圖像中的細節(jié)紋理信息則反映物體的主要信息，這兩種信息為圖像分割、目標檢測、機器視覺和模式識別等任務(wù)奠定基礎(chǔ)。

3 結(jié)束語

雙目圖像超分辨率在計算機視覺領(lǐng)域有著重要的應(yīng)用前景，在超分辨率重建技術(shù)中，輸入為同一場景的兩張圖像相比單幀圖像擁有更多的細節(jié)信息，且相對多輸入的視頻圖像超分辨率可以避免運動模糊和噪聲影響等優(yōu)勢。如何充分利用好雙目圖像左右圖的細節(jié)信息成為雙目圖像超分辨率重建的重難點，針對雙目圖像豐富上下文的特征提取與表示問題，本文提出一種多尺度特征表示的雙目圖像超分辨率重建方法，采用MJRASPP+模塊和擴張殘差對圖像進行特征提取，在整個網(wǎng)絡(luò)框架中使用FReLU 激活函數(shù)，并在比較四個公開數(shù)據(jù)集的實驗結(jié)果中，均達到了最優(yōu)的效果，從而也進一步證實了本文多尺度特征表示網(wǎng)絡(luò)框架的優(yōu)異性能。

本文提出的多尺度特征表示網(wǎng)絡(luò)雖然在輪廓信息重建上取得了很好的效果，但在細節(jié)紋理增強上還需深入研究。在接下來的工作中，將繼續(xù)沿著雙目圖像間信息提取和視差注意力機制方面內(nèi)容，解決雙目圖像細節(jié)紋理恢復(fù)不明顯和視差變化影響大等問題；并進一步輕量化網(wǎng)絡(luò)，使網(wǎng)絡(luò)提高超分辨性能的同時，減輕內(nèi)存消耗。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡