陳健,萬佳澤,林麗,李佐勇
1.福建理工大學電子電氣與物理學院,福州 350118;2.福建省信息處理與智能控制重點實驗室(閩江學院),福州 350121
伴隨著采集設備及相關技術的持續(xù)更新,成像技術得到快速發(fā)展。然而,圖像在采集、處理、傳輸及儲存等各個階段易受外部因素干擾,引入不同類型及程度的失真,從而導致圖像質量下降。因此,圖像質量評價(image quality assessment,IQA)在圖像成像的過程中變得愈加重要。人類是圖像的主要使用者,最為準確的評價方法是以人類視覺系統(tǒng)(human visual system,HVS)為標準的主觀圖像質量評價方法。但主觀圖像質量評價工作量大、耗時長,使用起來很不方便(陳健 等,2022),因此,構建一個合理且接近HVS 的客觀圖像質量評價方法至關重要。根據(jù)參考圖像在質量評價中的作用,圖像質量的客觀評價方法通常分為3 類:全參考圖像質量評價(full-reference image quality assessment,F(xiàn)R-IQA)、部分參考圖像質量評價(reduced-reference image quality assessment,RR-IQA)及無參考圖像質量評價(no-reference image quality assessment,NR-IQA)。其中,NR-IQA 也稱為盲圖像質量評價(blind image quality assessment,BIQA)。因為采用圖像或圖像特征作為參考,大多數(shù)FR-IQA 和RR-IQA 方法可取得令人滿意的結果。但在實際應用中,由于往往得不到有效的參考圖像或圖像特征,BIQA 方法成為主流的研究方向。
高敏娟等人(2020)提出結合全局與局部變化相似度(global and local variation similarity,GLV-SIM)的圖像質量評價算法模擬HVS 感知圖像質量評價過程。陳勇等人(2020)基于像素之間的相關性,提出一種基于差異激勵(differential excitation)的無參考圖像質量評價算法,該方法中引入了支持向量回歸(support vector regression,SVR)。但無論是基于空域或(和)頻域還是基于機器學習的BIQA方法,評價過程均需要提取空域∕頻域特征,因此,評價結果的優(yōu)劣與提取的空域∕頻域特征息息相關(陳健 等,2022)。由于深度學習網(wǎng)絡不僅可以實現(xiàn)圖像特征到質量分數(shù)的映射,也可以實現(xiàn)對圖像特征的提取,實現(xiàn)端到端的評價過程,因此,基于深度學習的IQA方法得到了學者們的廣泛關注,各種基于卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)的評價模型層出不窮。盡管基于機器學習∕深度學習的方法在人工失真(鄢杰斌 等,2022)圖像質量數(shù)據(jù)庫中均取得了不錯的評價結果,但在評價自然失真(鄢杰斌等,2022)圖像時,上述方法的性能仍然不足,評價結果仍有待于進一步提高。自然失真圖像質量評價主要有以下兩個難點:1)與人工失真不同,自然失真情況更為復雜。自然失真圖像不僅包含全局均勻失真(如失焦、高斯噪聲),還在不同程度上受到局部區(qū)域非均勻失真(如過曝、重影)的影響。因此,BIQA 方法如何準確感知失真類型及分布是獲得圖像質量分數(shù)的關鍵。2)圖像內容的變化也是BIQA 的難點之一。常見的人工失真圖像質量數(shù)據(jù)庫(如LIVE(Laboratory for Image &Video Engineering)(Sheikh等,2006)和CSIQ(categorical subjective image quality)(Larson 和Chandler,2010)等)僅包含不超過30 幅的參考圖像,而自然失真圖像質量數(shù)據(jù)庫往往包含多達上千幅的圖像,如LIVEC(LIVE in the Wild Image Quality Challenge)(Ghadiyaram 和Bovik,2016)和KonIQ-10k(Konstanz authentic image quality 10k database)(Hosu 等,2020)分別由1 162 幅和10 073幅內容不同的圖像組成。因此,BIQA 方法需要較高的泛化能力去應對復雜的圖像內容變化。大部分BIQA 方法在面對自然失真圖像時,由于失真類型較多及圖像內容變化較豐富,往往難以提取正確的圖像特征,導致預測分數(shù)與平均主觀得分(mean opinion score,MOS)或平均主觀得分差異(differential mean opinion score,DMOS)的相關性較差。
此外,為了提升網(wǎng)絡的盲圖像質量評價性能,部分學者并不直接將深度卷積神經(jīng)網(wǎng)絡(deep convolutional neural network,DCNN)提取到的語義特征映射到質量分數(shù),而是經(jīng)過后處理后再進行質量分數(shù)的映射(Li 等,2019;Su 等,2020),原因包括以下兩點:1)高層獲得的圖像特征雖然具有豐富的語義信息,但缺乏局部細節(jié)信息,從而導致整個網(wǎng)絡只注重全局失真情況,而忽略了局部失真,但對于多數(shù)自然失真圖像,局部失真占據(jù)更大的比例(Su 等,2020);2)低層的語義特征包含準確的位置信息和邊緣信息,但提取的語義信息較少,不能對圖像信息進行全面地概括和理解。然而,人類對圖像內容變化非常敏感,例如:從人類主觀評價的角度,模糊的天空圖像要比模糊的動物圖像質量更高(Li等,2019)。并且,在HVS 中人類通常首先理解圖像內容,隨后才關注其他相關任務(如IQA)(Su等,2020)。
針對上述問題,本文提出基于圖像特征提取、內容感知、多尺度失真類型感知和多級監(jiān)督回歸的BIQA方法預測圖像質量分數(shù)。
本文的主要貢獻如下:
1)多頭位置注意力(multi-head position attention,MPA)模塊對自注意力(self-attention)模塊進行通道優(yōu)化并添加絕對位置編碼獲得失真位置信息,建立特征圖像素的長距離依賴關系,輔助網(wǎng)絡對圖像內容的理解,提升網(wǎng)絡感知失真類型的性能。
2)自適應特征感知(self-adaptive feature awareness,SFA)模塊結合圖像內容理解,通過多尺度平均池化和特征塊的重新排序,感知圖像的不同失真類型,以捕獲全局失真和局部失真情況。
3)多級監(jiān)督回歸(multi-level supervision regression,MSR)網(wǎng)絡對深監(jiān)督機制進行改進,設置可學習權重,提升網(wǎng)絡對質量分數(shù)預測的準確度。
人工失真又稱為模擬失真,常見的人工失真包括高斯噪聲∕模糊、運動模糊及JPEG 壓縮失真等,即通過人為添加各種降質因素實現(xiàn)圖像質量退化(鄢杰斌 等,2022;Su等,2020)。針對人工失真圖像,傳統(tǒng)基于空域∕頻域∕機器學習的質量評價方法一般結合圖像的空域或(和)頻域特征進行質量評估(Zhang和Roysam,2016;Qureshi 等,2016)。隨著深度學習在計算機視覺任務方面取得成功(Krizhevsky 等,2012;He 等,2016),基于深度學習的圖像質量評價方法被相繼推出。Kang 等人(2014)利用CNN 進行特征提取,并結合回歸網(wǎng)絡進行質量回歸。Bare 等人(2017)構建一個更深層次的DCNN,對圖像質量進行預測。Ren等人(2018)利用生成對抗網(wǎng)絡(generative adversarial network,GAN)獲得參考圖像,提高了預測準確性。李博文等人(2021)利用CNN 提取全局描述子集,并采用稀疏編碼得到全局∕局部描述子碼本,最后通過SVR預測圖像質量。
由于人工失真數(shù)據(jù)庫圖像失真類型較為單一,上述方法在人工失真圖像質量數(shù)據(jù)庫上均取得了優(yōu)異的結果。
自然失真即在圖像采集與處理過程中,由于環(huán)境、設備或人員操作不當?shù)纫蛩厮氲牟煌愋图安煌潭鹊氖д妫ㄛ辰鼙?等,2022;Su 等,2020)。如前所述,雖然基于學習的方法(尤其是基于深度學習的方法)在自然失真圖像質量數(shù)據(jù)庫上取得的結果優(yōu)于基于空域∕頻域的方法,但由于圖像中失真情況復雜及內容變化大等問題,其評價性能仍有待于進一步提升(Zeng等,2017)。相關研究(Li等,2019)表明利用在大型數(shù)據(jù)庫(如ImageNet)取得的預訓練權重進行遷移學習可以提升IQA方法在自然失真圖像質量數(shù)據(jù)庫上的表現(xiàn)。Zhang 等人(2020)采用一種雙網(wǎng)絡架構,利用在人工失真圖像質量數(shù)據(jù)庫和自然失真圖像質量圖像庫上的預訓練權重,預測人工失真和自然失真圖像的質量。Li等人(2019)利用多次重疊裁剪的圖像通過ResNet-50(50 laryer deep residual network)進行圖像質量預測。然而,上述方法只考慮了圖像不同層次的空域特征信息,為了提高圖像質量預測的準確性,捕獲失真圖像的失真類型至關重要。Su 等人(2020)利用結合ResNet-50 的混合框架,加強對局部失真類型的提取。Zhu 等人(2020)通過元學習利用已知失真類型的先驗模型和雙層梯度優(yōu)化方法,在一些失真任務上取得了較好性能。隨后,Zhu 等人(2022)提出一種基于構建合成人工失真和合成自然失真兩個任務集的優(yōu)化元學習方法,在評估未知失真任務上性能有所提升。然而,上述方法并未建立在充分理解圖像內容變化的基礎上,易導致捕獲的失真類型不準確。Pan 等人(2022)利用視覺補償模塊和優(yōu)化的非對稱殘差塊構建畸變圖像與其恢復圖像之間的質量重建關系,提高網(wǎng)絡應對自然失真圖像內容復雜變化的能力。同樣,這種結合重構圖像的質量評價方法無法應對大數(shù)據(jù)庫圖像內容的變化,導致重構后的圖像質量和原圖像質量產(chǎn)生偏差。綜上所述,雖然上述方法在內容變化不大的人工失真數(shù)據(jù)庫取得了理想的評價性能,但在應對大型自然失真數(shù)據(jù)庫時,因圖像內容變化和失真類型多樣性等挑戰(zhàn),方法的泛化性能仍不理想。因此,本文提出了一種新的網(wǎng)絡框架來應對這些挑戰(zhàn)。
為解決大多數(shù)BIQA 方法對圖像內容變化的適應能力及感知局部失真類型性能不足的問題,本文提出一種自適應語義感知網(wǎng)絡(self-adaptive semantic awareness network,SSA-Net),網(wǎng)絡結構如圖1 所示。SSA-Net 能在理解圖像內容的同時感知圖像的不同失真類型,其工作流程包含4 個部分:圖像預處理、特征提取、語義感知和多級監(jiān)督回歸。首先,在圖像預處理階段,方法使用多次隨機裁剪的方式提取固定尺寸的圖像作為輸入。其次,利用在ImageNet數(shù)據(jù)庫上預訓練好的ResNet-50權重提取圖像語義特征,并通過MPA 模塊利用提取到的各層次語義特征實現(xiàn)內容理解。在此基礎上,通過SFA 模塊結合圖像內容信息來感知圖像的不同失真類型。最后,將各級提取的信息送入MSR 網(wǎng)絡中進行質量分數(shù)回歸,通過低層語義特征輔助監(jiān)督來提高預測分數(shù)的準確性。
圖1 本文方法的網(wǎng)絡框架圖Fig.1 Network architecture of the proposed method
來自不同數(shù)據(jù)庫的圖像尺寸并不統(tǒng)一且往往較大,而深度學習網(wǎng)絡則要求固定尺寸的輸入圖像,并且輸入圖像的尺寸受GPU(graphics processing unit)顯存容量的限制,因此,基于深度學習的方法一般需要對原輸入圖像的尺寸進行調整與裁剪。雖然通過對原始圖像進行調整(如縮放)可以較好地保證圖像的全局信息(Pan 等,2022),但會影響原始圖像的質量及最終的評價結果,尤其是壓縮后圖像分辨率很低時。此外,圖像裁剪的方法一般有兩種:中心裁剪和隨機裁剪(Zhang 等,2020;Su 等,2020)。然而上述兩種方法提取的圖像都難以覆蓋整幅圖像,從而導致圖像信息的缺失。
針對上述問題,本文選擇對原始圖像進行多次隨機裁剪后的多幅圖像來表示原始圖像的信息分布。同時,為保證對整幅圖像信息的覆蓋,本文對多次隨機裁剪采取以下兩個方案:1)通過實驗比較,選擇合適的裁剪尺寸及合理的裁剪次數(shù)(見3.4 節(jié)實驗參數(shù)選擇部分);2)當圖像分辨率較高時(如BID(blurred image database)數(shù)據(jù)庫中部分圖像的行或列大于1 000 個像素點),則先將圖像壓縮至一定分辨率,即保證圖像質量的同時再進行多次隨機裁剪,以確保隨機裁剪次數(shù)的有效性。
輸入圖像通過預處理后得到一組部分重疊的圖像塊{I1,I2,…,In},其中n代表隨機裁剪的次數(shù)。為減少網(wǎng)絡的訓練次數(shù),并使得到的語義信息包含豐富的圖像內容,本文使用ResNet-50在ImageNet上取得的預訓練權重進行特征提取,得到的圖像特征計算式為
式中,Sk代表ResNet-50 的第k階段特征層,I表示裁剪后輸入的圖像。
通過上述方法得到的語義信息雖然可以包含豐富的圖像內容,但是得到的語義特征之間難以建立聯(lián)系,尤其是淺層特征卷積次數(shù)少,感受野難以覆蓋整幅圖像,容易導致對圖像內容理解的不足。因此,本文提出了多頭位置注意力(MPA)模塊。不同于傳統(tǒng)的自注意力模塊(Wang 等,2018a),提出的MPA模塊首先引入了瓶頸結構(Sandler 等,2018)的設計原則以提高注意力機制的性能;其次,為減少網(wǎng)絡的計算量進行了適當?shù)耐ǖ纼?yōu)化;最后,在注意力機制中嵌入絕對位置編碼,以獲取固定的失真位置信息,加強對圖像內容的理解,并提高后續(xù)感知失真類型的準確性。如圖2 所示,該結構并不局限于鄰近特征,而是通過構建一個特征圖譜般大小的權重,建立像素的長距離依賴關系,來理解語義特征中的內容信息。首先,對輸入特征進行降維操作,具體為
圖2 多頭位置注意力模塊Fig.2 Multi-head position attention module
式中,輸入特征F∈RH×W×C,H和W分別是輸入特征圖的高和寬,C是通道數(shù)。X∈RH×W×C∕g,g代表降維的比例,f(·)代表1 × 1卷積。
表1 用于對比實驗的7個公開圖像質量評價數(shù)據(jù)庫Table 1 The seven public IQA databases for comparative experiments
然后,通過一組可學習的權重矩陣WQ,WK,WV得到3個包含輸入信息的矩陣。具體為
接著,對上述矩陣進行位置編碼嵌入和信息交互,并將兩者相加得到
式中,WP∈RH×W×C∕g代表位置編碼,AP、AC代表得到的包含固定失真位置信息的相關矩陣和內容信息相關矩陣。
為體現(xiàn)不同內容的重要性,對得到的包含失真位置信息和內容信息的相關矩陣APC進行softmax 函數(shù)歸一化,并與V進行特征聚合。
最后,將聚合后的矩陣進行升維,并與輸入相加以構建包含不同特征的長距離依賴關系,實現(xiàn)對特征圖內容的理解。
上述整個過程可表示為
式中,Y∈RH×W×C代表輸出特征。
在圖像質量較高的時候,HVS 更傾向于圖像的局部失真(Su 等,2020),并且大部分自然失真圖像均由多個失真類型不一的局部失真構成。因此,感受野固定的CNN 模型并不符合HVS 感知圖像質量的方式。受Zhu 等人(2019)的啟發(fā),本文設計了一種更適用于圖像質量評價任務的多尺度感知模塊來應對失真類型多樣性的挑戰(zhàn)。雖然利用不同空洞率的卷積核獲取不同感受野下多尺度信息的空洞空間金字塔池化(atrous spatial pyramid pooling,ASPP)也可以實現(xiàn)相似的功能,從而在一定程度上提高獲取全局失真的性能,但在圖像質量評價任務中,這種間隔像素點采樣的方法容易導致局部信息丟失和信息在長距離上的不相關性(Wang 等,2018b),因此,不利于獲取局部失真類型。針對上述問題,提出了如圖3 所示的自適應特征感知模塊(SFA)以替代傳統(tǒng)的3 × 3卷積運算,即使用不同尺度的池化內核感知失真類型,并采用線性模塊對得到的特征進行重新排布和線性變化,篩選出包含失真信息的最少特征塊,以減少網(wǎng)絡計算量和提升感知失真類型的準確性。
圖3 自適應特征感知模塊Fig.3 Self-adaptive feature-aware module
在理解圖像內容的前提下,SFA 模塊首先將輸入特征X∈RC×H×W輸入到一個1 × 1 卷積中進行通道縮減,以減少計算量。接著,進行多分支平均池化bi(i=1,2,3,4)來捕獲不同失真類型,其中,b1采用全局平均池化,對全局失真類型進行感知。b2,b3,b4分別利用內核大小為3、5、7的平均池化捕獲圖像不同尺度的局部失真類型。隨后,將不同分支獲取的特征圖劃分為多個不重疊的特征塊,沿著通道維度進行疊加,并對疊加的特征塊進行一次線性變換,以獲取不同失真類型。最后,將這些一維向量進行拼接,送入回歸網(wǎng)絡中。整個過程可以表示為
式中,Y∈R1×N代表維度為N的一維向量,Linear(·)代表線性變換,F(xiàn)(·)代表對特征圖的重新排布,Pooli代表內核大小不同的平均池化。
為避免梯度消失并增強網(wǎng)絡的魯棒性,深監(jiān)督網(wǎng)絡(deeply-supervised nets)(Lee 等,2015)提出一種新穎的監(jiān)督機制,在網(wǎng)絡早期的多個階段加入損失函數(shù),以產(chǎn)生輔助的局部映射,提升網(wǎng)絡性能。同樣,CSC-Net(scale and context sensitive network)(Wu等,2021)通過對側面輸出層設置固定的權重來強調不同階段映射出特征的重要性。因此,為了獲取更符合HVS 的分數(shù),本文設計一種多級監(jiān)督回歸(MSR)網(wǎng)絡,其結構如圖1 所示(α,β,γ表示可學習參數(shù))。該網(wǎng)絡通過對輸出層的不同階段設置自適應權重以改進深監(jiān)督機制。
雖然淺層特征感受野較小,但能獲取更多的局部細節(jié)信息,有利于對局部失真信息的獲取。因此,MSR 對ResNet-50 每個階段的輸出均采用兩層的全連接進行回歸,并且不同階段的全連接層使用權重共享的方式避免引入過多的參數(shù)。其次,對淺層特征回歸的分數(shù)分別設置一個可學習權重,使淺層特征輔助監(jiān)督,從而提高預測準確性。整個過程可表示為
式中,xi代表ResNet-50 低層特征階段,λ代表可學習的權重,L(·)代表全連接網(wǎng)絡回歸層,x4代表網(wǎng)絡深層特征。
本文代碼的基礎框架是Pytorch1.8.0,對模型訓練與測試的實驗平臺為GeForce RTX3090,顯存容量為24 GB。特征提取模塊選用ResNet-50,初始化為ImageNet 數(shù)據(jù)庫上預訓練的權重。因此,在訓練和測試期間,對圖像進行25次224 × 224像素的隨機裁剪,損失函數(shù)使用L1損失。其他模塊的卷積與全連接層分別使用Kaiming 初始化(He 等,2015)和正態(tài)分布初始化,梯度下降使用Adam 優(yōu)化器。特征提取模塊的學習率是2 × 10-5,其他模塊的學習率為2 × 10-4,并且每隔5 輪學習率下降為原來的一半,最小批量大小為64,迭代次數(shù)為30輪。
為充分驗證模型的性能,在7 個公開的圖像質量數(shù)據(jù)庫上進行測試,如表1 所示。實驗中,共使用4 個自然失真圖像質量數(shù)據(jù)庫:LIVEC、BID(Ciancio等,2011)、KonIQ-10k 和SPAQ(smartphone photography attribute and quality)(Fang 等,2020),其 中LIVEC 和BID 均來自真實世界不同場景、不同曝光和相機鏡圈產(chǎn)生的圖像,分別包含1 162 幅和586 幅圖像。KonIQ-10k 的圖像來自于YFCC 100m(Yahoo flickr creative commons 100 million)大型公開數(shù)據(jù)庫,包含10 073 幅不同類型的失真圖像。SPAQ 數(shù)據(jù)庫由66 部智能手機在不同的視覺場景下拍攝得到的11 125 幅自然失真圖像組成。
同時,實驗中引入3 個人工失真圖像質量數(shù)據(jù)庫。其中LIVE 和CSIQ 分別由29 幅和30 幅參考圖像產(chǎn)生共779 幅和866 幅不同失真類型的圖像。而Waterloo Exploration 數(shù)據(jù)庫(Ma 等,2016)則是由4 744幅參考圖像生成的94 880幅合成圖像組成。
在方法性能評估方面,采用兩個常用的評價指標:斯皮爾曼等級相關系數(shù)(Spearman rank-order correlation coefficient,SRCC)和皮爾遜線性相關系數(shù)(Pearson linear correlation coefficient,PLCC)來衡量預測分數(shù)的準確性。兩個評價指標的數(shù)值越接近于1,表明方法評價結果越接近主觀評價分數(shù)。SRCC及PLCC分別計算為
式中,N表示數(shù)據(jù)庫中的圖像數(shù)量,di代表第i幅主觀圖像與客觀圖像的秩差。si代表第i幅主觀圖像得分,代表所有si的平均值,fi代表第i幅預測得分,代表所有fi的平均值。
在實驗中,數(shù)據(jù)庫中80%的隨機數(shù)據(jù)作為訓練集,其余20%的數(shù)據(jù)作為測試集。同時,為充分體現(xiàn)方法的性能,每個數(shù)據(jù)庫的實驗重復10 次,最后的結果取10次結果的中值。
3.4.1 裁剪尺寸對網(wǎng)絡性能的影響
對所有輸入圖像進行多次隨機裁剪以表示圖像信息,并用于后續(xù)圖像質量評價值的計算。由于裁剪尺寸會影響網(wǎng)絡的評價性能和運行時間,因此針對裁剪尺寸進行對比實驗,不同的裁剪尺寸在LIVEC 數(shù)據(jù)庫上的結果如表2 所示,其中,不同裁剪尺寸的運行時間通過測試所有輸入圖像并取平均得到。從實驗結果可以看出,當裁剪尺寸小于224 ×224 像素時,網(wǎng)絡性能出現(xiàn)比較明顯的下降,而增加裁剪尺寸對網(wǎng)絡性能的提升并不明顯,但會增加網(wǎng)絡的運行時間。綜合上述因素,本文選取224 × 224像素作為輸入圖像的裁剪尺寸。
表2 不同裁剪尺寸在LIVEC數(shù)據(jù)庫上的測試結果Table 2 Results on LIVEC database for different crop sizes
3.4.2 不同的裁剪次數(shù)對網(wǎng)絡性能的影響
為尋找合適的隨機裁剪次數(shù)以覆蓋整幅圖像信息,實驗中在LIVEC 數(shù)據(jù)庫上使用不同的隨機裁剪次數(shù)n(其中,n=1,5,10,15,20,25,30,35),對比不同裁剪次數(shù)對網(wǎng)絡性能的影響,最終結果如圖4所示。從統(tǒng)計結果可以看出,在裁剪次數(shù)n∈(1,10)時,隨著裁剪次數(shù)增加,覆蓋的信息能力增加,網(wǎng)絡性能大幅度上升。當裁剪次數(shù)n∈(10,25)時,由于裁剪的隨機性,裁剪得到的圖像還不能完整地表示原始圖像信息,導致評價結果上下波動。當裁剪次數(shù)n∈(25,35)時,雖然裁剪仍然具有隨機性,但多次裁剪結果已經(jīng)基本可以完整表述原始圖像信息,評價結果趨于穩(wěn)定??紤]到增加隨機裁剪的次數(shù)會導致運行時間增加,本文對原始圖像進行25 次隨機裁剪。
圖4 裁剪次數(shù)實驗結果對比Fig.4 Comparison of experimental results obtained via different cropping times
3.4.3 MSR模塊加權策略對網(wǎng)絡性能的影響
為驗證MSR 模塊的加權策略對網(wǎng)絡性能的影響,在LIVEC 數(shù)據(jù)庫上設置不同的超參數(shù)λi(數(shù)值從0 開始)進行實驗。相對于不采用加權的方式,通過對不同特征層進行數(shù)值加權,更有利于表征不同層次特征信息對質量評價的貢獻,實驗結果如表3所示,其中,w∕o MSR 表示無MSR 模塊,訓練結果為網(wǎng)絡最后一層線性回歸得出的結果。w MSR 表示有MSR 模塊得到的預測結果。從表3 可以看出,當λi數(shù)值高時(λi=0.7),則更強調對應層次的特征信息。較多的高層信息(λ1=0.7)輔助深層特征網(wǎng)絡回歸時,冗余的深層語義特征對評價效果的提升并不明顯。同樣,當淺層信息較多時(λ3=0.7),過多的邊緣信息會影響深層特征在線性回歸中的作用,因此,網(wǎng)絡性能的提升同樣不明顯。而當λi數(shù)值較均衡時(λ1=0.4,λ2=0.3,λ3=0.3),網(wǎng)絡性能得到了一定程度的提升,但其性能仍不如MSR 模塊表現(xiàn)優(yōu)異(如圖1 所示,當λ1=α,λ2=β,λ3=γ時,參數(shù)均為通過學習得到的數(shù)值)。因此,手動調整λi數(shù)值難以平衡各個階段信息的重要性,導致最后結果出現(xiàn)不同程度的偏差。而設置可學習參數(shù)能使網(wǎng)絡更好地融合不同階段的信息,提升網(wǎng)絡的性能。
表3 MSR模塊中不同加權策略在LIVEC數(shù)據(jù)庫上的性能比較Table 3 Performance comparison of different weighting strategies in the MSR module on LIVEC database
由于使用預訓練ResNet-50 模型作為特征提取網(wǎng)絡,因此,SSA-Net 需要固定輸入圖像的尺寸。考慮到不同數(shù)據(jù)庫中圖像尺寸不一致以及GPU 顯存容量的限制,實驗分別使用中心裁剪圖像、固定尺寸縮放圖像和多次隨機裁剪圖像進行對比實驗。同時,實驗中增加384 × 384 像素這一尺寸進行對比,實驗結果如表4所示。從表4中可以看出,中心裁剪方式由于損失大量圖像信息,導致網(wǎng)絡性能最差,但隨著裁剪尺寸的增加,性能有所提升。固定尺寸縮放方式由于保留了大部分原圖像信息,其效果優(yōu)于中心裁剪方式,且性能隨著縮放尺寸的增大有所提升。多次隨機裁剪方式雖然每幅裁剪后的圖像尺寸較小,但由于經(jīng)過多次裁剪且未對圖像進行縮放(當圖像尺寸較小時),較好地保留了原圖像的信息,其性能明顯優(yōu)于前面兩種方法。
表4 不同圖像表示方法在LIVEC數(shù)據(jù)庫上的結果Table 4 Results of different image representation methods on LIVEC database
為驗證SSA-Net 各個組件的有效性,設計了一系列在LIVEC數(shù)據(jù)庫和LIVE數(shù)據(jù)庫的消融實驗,不同組件的統(tǒng)計結果如表5 所示。其中,Baseline 表示只有ResNet-50的預訓練權重網(wǎng)絡。
表5 LIVEC數(shù)據(jù)庫和LIVE數(shù)據(jù)庫消融研究的統(tǒng)計比較Table 5 Statistical comparison of ablation studies on LIVEC database and LIVE database
首先,將MPA 模塊加入到Baseline 中形成“Baseline+MPA”結構。針對SRCC、PLCC 結果,在LIVEC 數(shù)據(jù)庫上與“Baseline”相比,“Baseline+MPA”的組合將網(wǎng)絡性能從83.1%、85.0%提升至84.9%、86.2%。在LIVE 數(shù)據(jù)庫上,“Baseline+MPA”的組合將SRCC、PLCC 的結果增加了1.4%、1.0%。這表明對圖像內容的理解有助于提升評價性能。
其次,進一步將SFA 模塊嵌入到“Baseline+MPA”中,形成“Baseline+MPA+SFA”結構。從表5可以看出,針對SRCC∕PLCC 結果,添加SFA 后的網(wǎng)絡在LIVEC 數(shù)據(jù)庫上增加了0.6%、1.6%,在LIVE 數(shù)據(jù)庫上增加了0.6%、0.7%。這表明捕獲不同尺度的局部失真位置信息可以提升評價準確性。
最后,為證明MSR 的有效性,將MSR 嵌入網(wǎng)絡中,形成本文所提出的SSA-Net。從表5 的統(tǒng)計結果可以看出,結合了上述3 個模塊的SSA-Net 在LIVEC數(shù)據(jù)庫和LIVE 數(shù)據(jù)庫中均取得了最優(yōu)的結果。這表明利用深監(jiān)督機制,使用低層特征輔助網(wǎng)絡回歸有利于提高網(wǎng)絡的性能。
為凸顯本文方法的優(yōu)越性,實驗中選取了11 種具有代表性且性能良好的BIQA 方法進行比較,包括:BIECON(blind image evaluator based on a convolutional neural network)(Kim 和Lee,2017)、WaDIQaM(weighted average deep image quality measure)(Bosse等,2018)、SFA(NR-IQA method based on semantic feature aggregation)(Li 等,2019)、PQR(probabilistic quality representation approach to deep blind image quality prediction)(Zeng 等,2017)、DB-CNN(deep bilinear convolutional neural network)(Zhang 等,2020)、HyperIQA(self-adaptive hyper network)(Su等,2020)、MetaIQA(meta-learning based image quality assessment)(Zhu 等,2020)、IE-IQA(intelligibility enriched generalizable no-reference image quality assessment)(Song 等,2021)、UNIQUE(uncertaintyaware blind image quality assessment)(Zhang 等,2021)、MetaIQA+(meta-learning-based IQA plus)(Zhu 等,2022)和VCRNet(visual compensation restoration network)(Pan 等,2022)。實驗中對比方法的結果來自于文獻中最優(yōu)的數(shù)據(jù),缺失的部分結果使用作者提供的源代碼與訓練權重進行測試,其中部分論文并未公開源代碼。
3.7.1 不同數(shù)據(jù)庫上的性能比較
為體現(xiàn)方法在不同數(shù)據(jù)庫中的評價性能,將SSA-Net與其他方法在同一個數(shù)據(jù)庫進行性能比較,如表6所示。
表6 不同方法在6個圖像質量評價數(shù)據(jù)庫上的性能比較Table 6 Performance comparison of different methods on six IQA databases
WaDIQaM 和BIECON 實現(xiàn)端到端的圖像質量評價,在自然失真數(shù)據(jù)庫中SRCC 和PLCC 值并不理想。SFA、PQR、DB-CNN、HyperIQA、VCRNet 這5 種方法均利用預訓練權重,在自然失真圖像質量數(shù)據(jù)庫中取得了較好的結果,但性能仍然表現(xiàn)不足。主要原因如下:SFA 的自適應層選擇(adaptive layer selection)忽略了低層特征中豐富的細節(jié)信息,DBCNN 缺少捕獲局部失真的模塊,HyperIQA 的低層特征難以正確理解圖像內容,VCRNet構建的畸變圖像與其恢復圖像之間的質量重建關系依然難以適應自然失真圖像的變化。MetaIQA和MetaIQA+缺少對圖像內容理解作為先驗知識。IE-IQA 的輸入圖像的尺寸為縮放的224 × 224 像素,雖然在訓練速度上有所提升,但是對于原圖像尺寸較大的SPAQ 數(shù)據(jù)庫(常見尺寸為4 000 × 3 000 像素),這種縮放的插值算法會導致新的圖像失真,改變原圖像的圖像質量分布。而本文方法則針對上述問題進行了改進,因此,本文所提出的SSA-Net 在4 個自然失真數(shù)據(jù)庫(LIVEC、BID、SPAQ 和KonIQ-10k)中取得的評價結果均優(yōu)于其他方法。
在人工失真圖像質量數(shù)據(jù)庫中,基于深度學習的方法在這兩個人工失真圖像質量數(shù)據(jù)庫中均獲得了優(yōu)異結果,其中VCRNet 及WaDIQaM 分別在LIVE及CSIQ 數(shù)據(jù)庫上取得了最好的評價結果。而SSANet 雖然沒有添加額外的人工失真權重(如DBCNN)或其他關于人工失真的處理模塊,但在人工失真圖像質量數(shù)據(jù)上的評價結果仍具有一定的優(yōu)勢。其中,在LIVE 數(shù)據(jù)庫上的SRCC 值僅低于VCRNet,在CSIQ數(shù)據(jù)庫的性能也僅次于WaDIQaM。
3.7.2 不同失真類型的性能比較
為體現(xiàn)本文方法在不同失真類型圖像上的性能優(yōu)勢,實驗將SSA-Net 與其他先進方法在LIVE 數(shù)據(jù)庫的5 種失真類型(JP2K、JPEG、WN、GB 和FF)和在CSIQ 數(shù)據(jù)庫的6 種失真類型(WN、JPEG、JP2K、FN、GB 和CC)上分別進行性能比對,實驗結果如表7 所示。與其他BIQA方法相比,本文網(wǎng)絡仍獲得了較為優(yōu)異的性能。尤其在LIVE 數(shù)據(jù)庫的JP2K、WN、GB和CSIQ數(shù)據(jù)庫的各類單一失真類型的人工失真圖像中,本文方法均取得了優(yōu)異的結果。這表明,本文方法提出的在理解圖像內容前提下結合低層語義信息的結構在處理均勻的人工失真圖像時仍具有優(yōu)勢。
表7 在LIVE數(shù)據(jù)庫和CSIQ數(shù)據(jù)庫上的單一失真SRCC結果Table 7 Single distortion SRCC results on LIVE database and CSIQ database
3.7.3 泛化性能比較
為驗證本文提出網(wǎng)絡的泛化性能,本節(jié)采用上述實驗中效果最好的幾個先進方法進行不同失真圖像質量數(shù)據(jù)庫之間的交叉測試??鐢?shù)據(jù)庫測試的SRCC結果如表8和表9所示。結果顯示,SSA-Net在多個自然失真圖像質量數(shù)據(jù)庫測試驗證中取得了理想的結果,尤其是在超大自然失真圖像質量數(shù)據(jù)庫KonIQ-10k中訓練的模型,在LIVEC 數(shù)據(jù)庫和BID 數(shù)據(jù)庫測試中均得到了最高的SRCC 值,這表明SSANet 在大型自然失真圖像質量數(shù)據(jù)庫捕獲豐富的語義信息后,更容易在小型自然失真圖像質量數(shù)據(jù)庫上獲得良好的評價結果。同時,從表9 可以看出,SSA-Net 在人工∕自然圖像質量評價數(shù)據(jù)庫交叉測試中也獲得了良好的評價結果。這表明本文為自然失真圖像質量評價所設計的方法同樣適用于人工失真圖像,并且能取得優(yōu)異的評價結果。
表8 自然失真圖像質量數(shù)據(jù)庫交叉驗證的SRCC值Table 8 SRCC results for cross validation with authentically distorted image databases
表9 不同圖像質量評價數(shù)據(jù)庫交叉驗證的SRCC值Table 9 SRCC results for cross validation with different IQA databases
3.7.4 在Waterloo Exploration 數(shù)據(jù)庫上的性能比較
由于真實世界的失真圖像是不計其數(shù)的,傳統(tǒng)的評價指標在有限的數(shù)據(jù)中評估IQA模型的性能缺乏一定的客觀性。因此,本文利用各個模型在同等條件下獲取CSIQ 數(shù)據(jù)庫中的預訓練模型,得到在Waterloo Exploration 數(shù)據(jù)庫中的預測MOS 值進行gMAD 競賽(Ma 等,2017)。gMAD 通過進攻方IQA模型從防守方IQA模型預測相同等級的圖像中挑選出預測的最大差異圖像來評判兩種模型的魯棒性,實驗結果如圖5 所示。當SSA-Net 作為進攻方IQA模型時,與VCRNet 模型預測的結果相比,同等級圖像差異較大,對高質量和低質量等級圖像的預測分數(shù)更符合主觀評價,這表明SSA-Net 具有更強的魯棒性,如圖5(a)與圖5(b)所示。SSA-Net 作為防守方在圖5(c)中成功抵御VCRNet 的進攻,而在圖5(d)中可以看出,SSA-Net 預測的兩幅圖像并不在一個等級內,這表明由于沒有加入處理人工失真的模塊,SSA-Net對高斯模糊的評價性能仍有所欠缺。從圖6可以看出,SSA-Net在與HyperIQA 的gMAD 競賽中,無論處于進攻方還是防守方均能給出正確的預測結果。
圖5 VCRNet和SSA-Net在Waterloo Exploration 數(shù)據(jù)庫上的gMAD競爭結果Fig.5 gMAD competition results of VCRNet and SSA-Net on Waterloo Exploration database((a)SSA-Net as attacker at the high-quality level;(b)SSA-Net as attacker at the low-quality level;(c)SSA-Net as defender at the high-quality level;(d)SSA-Net as defender at the low-quality level)
圖6 HyperIQA和SSA-Net在Waterloo Exploration 數(shù)據(jù)庫上的gMAD競爭結果Fig.6 gMAD competition results of HyperIQA and SSA-Net on Waterloo Exploration database((a)SSA-Net as attacker at the high-quality level;(b)SSA-Net as attacker at the low-quality level;(c)SSA-Net as defender at the high-quality level;(d)SSA-Net as defender at the low-quality level)
本文提出一種基于自適應語義感知網(wǎng)絡的盲圖像質量評價方法來應對評價自然失真圖像的兩個挑戰(zhàn):圖像內容的變化和圖像失真類型的多樣性。方法模仿人類感知圖像質量的方式,提出多頭位置注意力模塊來幫助網(wǎng)絡理解圖像內容,并在理解圖像內容的基礎上提出自適應感知模塊來捕獲全局及局部圖像的不同失真類型,最后提出多級監(jiān)督回歸得到準確的質量分數(shù)。
在不同圖像質量數(shù)據(jù)庫上的實驗結果和交叉驗證的實驗結果表明,本文方法在真實圖像質量數(shù)據(jù)庫上的評價質量分數(shù)更接近人類主觀評價結果,并且具有更強的泛化能力,進一步提升了BIQA方法在自然失真圖像質量數(shù)據(jù)庫上的評價性能。同時,本文方法也在人工失真圖像質量數(shù)據(jù)庫上取得良好的評價性能。
雖然方法通過結合裁剪尺寸及次數(shù)的方式保證對圖像信息的覆蓋,但仍可能存在極端情況下,即原始圖像中部分信息的缺失與部分圖像信息的過度冗余。同時,多次裁剪圖像的操作增加了方法的計算量。因此,如何保證輸入網(wǎng)絡時圖像信息的完整性及方法的實時性有待于進一步的研究。