史晨陽 林燕丹2)?
1) (復旦大學信息科學與工程學院, 光源與照明工程系, 上海 200433)
2) (復旦大學工程與應用技術研究院, 超越照明研究所, 上海 200433)
圖像質量評價(IQA)方法需要考慮如何從主觀視覺度量結果出發(fā), 設計出符合該結果的客觀圖像質量評價方法, 應用到相關實際問題中. 本文從視覺感知特性出發(fā), 量化色度和結構特征信息, 提出了基于色貌和梯度兩個圖像特征的圖像質量客觀評價模型. 兩個色貌新指標(vividness 和depth)是色度特征信息提取算子;梯度算子用來提取結構特征信息. 其中, vividness 相似圖一方面作為特征提取算子計算失真圖像局部質量分數(shù), 另一方面作為圖像全局權重系數(shù)反應每個像素的重要程度. 為了量化所提模型的主要參數(shù), 根據(jù)通用模型性能評價指標, 使用Taguchi 實驗設計方法進行優(yōu)化. 為了驗證該模型的性能, 使用4 個常用圖像質量數(shù)據(jù)庫中的94 幅參考圖像和4830 幅失真圖像進行對比測試, 從預測精度、計算復雜度和泛化性進行分析. 結果表明, 所提模型的精度PLCC 值在4 給數(shù)據(jù)庫中最低實現(xiàn)0.8455, 最高可以達到0.9640, 綜合性能優(yōu)于10 個典型和近期發(fā)表的圖像質量評估(IQA)模型. 研究結果表明, 所提模型是有效的、可行的, 是一個性能優(yōu)異的IQA 模型.
隨著各種多媒體通信系統(tǒng)中彩色圖像內容和成像設備的迅速發(fā)展, 傳統(tǒng)的灰度傳輸方式被彩色傳輸所取代. 在這種轉變下, 感知圖像質量評估(image quality assessment, IQA)在眾多的視覺數(shù)據(jù)處理應用中發(fā)揮了重要的作用, 特別是針對由于壓縮和傳輸而產(chǎn)生的失真評價, 如模糊、塊效應和白噪聲等[1]. 在過去的幾十年里, 人們設計了多種客觀的IQA 模型來評估圖像質量[2]. 人眼視覺系統(tǒng)(human visual system, HVS)是一種理想的視覺信息接收系統(tǒng), 也是用主觀判斷[3]評價圖像質量最可靠的方法. 通常, 主觀評價的結果由平均意見分數(shù)(mean opinion scores, MOS)和差異意見分數(shù)(differential mean opinion scores, DMOS)表示, 且這兩種主觀評分是圖像質量客觀評價性能的評估依據(jù).
目前, 典型的圖像客觀質量評價方法主要有:1) 基于數(shù)學統(tǒng)計的方法, 如MSE (mean squared error)和PSNR (peak signal to noise ratio)等; 2)基于HVS 感知特性的方法, 如SSIM (structural similarity), IFC (information fidelity criterion),F(xiàn)SIM (feature similarity)等; 3) 基于機器學習的方法[4], 該方法計算精度較高, 但需要長時間樣本訓練, 且計算結果過度依賴訓練樣本, 難以應用到實際問題中. 上述基于數(shù)學統(tǒng)計的方法擁有較好的運行效率, 但準確性較基于HVS 感知特性的方法存在不足. 在基于HVS 感知特性的方法中, 具有代表性的SSIM[5]方法假設人類對于一個場景的視覺感知可以用提取結構信息進行表征, 其主要提取信息包括亮度、對比度和結構. 該方法因其設計思路的新穎性和特征信息的計算方式, 為后續(xù)相關研究提供很多啟發(fā)和思路. 這種基于SSIM 計算方式的圖像質量評價模型也被叫做全參考圖像質量評價模型. Sheikh 和Bovik[6]提出IFC[7]及其衍生方法VIF (visual information fidelity), 這兩個方法通過原始圖像和失真圖像的交互信息保真度進行比較和計算, 雖然其性能較SSIM 有所提升, 但計算效率較差, 難以廣泛應用. 基于SSIM 模型, 其他研究者又提出很多擴展模型. 其中具有代表性的模型有: 加入HVS 多尺度特性的MS-SSIM(multiscale SSIM)方法[8]; 根據(jù)圖像全局信息分布, 通過信息加權的方式得到的IW-SSIM(information content weighted SSIM)方法[9]. Larson 和Chandler[10]基于最明顯失真統(tǒng)計提出MAD(most apparent distortion algorithm)方法, 該方法的不足是計算復雜性較高. Zhang 等[11,12]針對人類視覺系統(tǒng)對圖像的理解主要依賴于圖像的底層特征的特點, 提出了兩種新的基于特征相似度的全參考圖像質量評價指標RFSIM (riesz transforms based feature similarity index)和FSIM (feature similarity). 在FSIM 中, 作者針對灰度圖像將相位一致性(phase congruency)和梯度幅值(gradient magnitude)結合, 并使用權重系數(shù)獲得單位質量分數(shù); 此外, 為解決彩色圖像評價問題, 加入色度算子, 引申出FSIMc模型. 基于梯度結果, Liu 等[13]提出GSM (gradient similarity metric)方法. 上述提到的RFSIM, FSIMc和GSM 方法的精度較好, 但計算泛化性能欠佳.近年, 基于對比度和視覺顯著性, Jia 等[14]提出CVSS (contrast and visual saliency similarity)方法, 該方法評價灰度圖像的性能較好, 但是針對日常生活在的彩色圖像, 性能仍有不足. Yao 等[15]基于圖像內容對比度感知特性, 提出MPCC (IQA model based on the perception of the contrast of image contents)方法.
一般來說, 上述較好的模型在空間和頻率域描述了結構信息、亮度信息、對比度信息和顏色信息.通過上述分析, 可以發(fā)現(xiàn)目前的IQA 模型在設計方法、復雜性和泛化性能仍有不足. 所以, 本文選擇基于HVS 感知特性構建圖像質量客觀評價模型, 以基本物理理論為基礎, 構建具有較高的精度、泛化性和較低計算復雜度模型. 目前常見的全參考模型在進行特征相似計算時(如前文中提到的IW-SSIM, RFSIM, FSIMc, GSM、CVSS 等模型), 多參照SSIM 的計算方式, 本文也是參考SSIM進行相似計算全參考圖像質量評價模型.
通常情況下, 彩色圖像的質量可以通過在單個RGB 通道上使用灰度模型, 然后連接通道分數(shù)來評估. 由于這種方法的精度有限, 因此需要提出更精細的利用顏色感知特性的模型. 此外, 彩色圖像的質量可以用類似于比色法的方法來評估. 均勻的顏色空間(如CIELAB)可以描述成對顏色之間感知到的顏色差異[16,17]. CIELAB 中的圓柱極坐標與刺激的顏色屬性相關. 因此, 利用該公式可以更好地在像素級表征彩色圖像的感知失真. 雖然這些公式對比較均勻色塊很有用, 但需要通過優(yōu)化, 與復雜的真實圖像數(shù)據(jù)保持一致. 隨著人眼對色彩表象的感知能力的不斷提高, 一些新的模型被提出,并利用相似計算公式對這些模型進行修正. Lee 和Plataniotis[18,19]提出了基于正常三通道色貌指標的IQA 方法(即亮度、色調和色度), 從而獲得較好的彩色圖像評價性能. 因為色貌指標可以代表彩色圖像在HVS 感知方式下的顏色偏差, 所以為了獲得與主觀評價更高的一致性, 可以考慮選擇色貌指標評價圖像的色彩信息.
前文已提到多種圖像特征信息, 為了獲得圖像的質量分數(shù), 需要選擇合適的特征. 本文提出了一種新的基于相似性的IQA 模型, 該模型主要提取圖像的色彩信息和結構信息兩個部分. 結合HVS對于色彩感知和圖像輪廓特征的機理, 選擇色貌和梯度兩個指標提取上述兩個特征信息, 并量化得到對應的圖像質量分數(shù). 目前, 彩色圖像已應用于很多領域, 所以色彩信息需要在圖像質量評價時重點考慮. 色貌新指標(vividness 和depth)[20]考慮色度和亮度的同步變化, 更符合人眼視覺感知的機理, 可以體現(xiàn)圖像質量的色彩特征變化. 除此之外,選擇vividness 指標作為所提模型的權重系數(shù), 進一步突出所提模型對于色彩信息的重視. 梯度是目前常用的圖像結構特征的提取算子, 作為補充特征, 可以完善所提模型對于圖像質量的評價. 通過仿真測試, 與其他典型的模型相比, 所提模型具有更低的復雜度和更好的預測效果.
本節(jié)提出基于色貌和梯度相似(color appearance and gradient similarity, CAGS)方法來量化彩色圖像的感知視覺質量. 該模型是具有通用性, 對于常見的彩色和灰度圖像始終表現(xiàn)良好的評價效果. 該模型的輸入圖像是兩個具有相同空間分辨率的RGB 圖像(X和Y), 分別稱為原始圖像和失真圖像. 同時, 它們在尺寸上匹配并且正確對齊.輸出質量評分記為CAGS(X,Y), 其范圍在0 到1 之間(當兩幅圖像完全相同時, 1 表示最佳質量評分).
該模型包含兩個相似圖, 一個是利用CIELAB顏色空間中的色貌相似圖來測量顏色失真, 色貌分布圖可以在像素級上表示兩幅圖像之間的顏色差異, 與HVS 感知更加兼容[20]. 對于結構失真, 由于梯度具有的優(yōu)越性[12,13], 所以可以利用梯度推導出另一個相似圖. 最后, 基于文獻[12,21]提到的權重系數(shù)方法, 將上述兩個相似圖進行合并和池化.
圖1 顏色1 和2 的vividness和depth維度表征, 線段長度定義對應屬性[20]Fig. 1. Dime nsions of vividness, and depth, for colors 1 and 2. Line lengths define each attribute[20].
為了更好地表征HVS 感知到的圖像色貌, 可以將原始的RGB 圖像轉化為更符合人類視覺的顏色空間, 使用CIELAB 色空間. 由于CIELAB色空間和孟塞爾系統(tǒng)之間緊密聯(lián)系, 同時分離成亮度(L*)和色度限制了CIELAB在實際應中描述顏色在明度和色度共變時的有效性, 例如在藝術、設計、比較著色劑效果和彩色圖像評估等領域. 因此, 兩個新的CIELAB 色貌指標被提出, 即vividness 和depth, 來擴展CIELAB作為色貌變量的有效性, 如圖1 所示[20]. 從圖1 中可以發(fā)現(xiàn), 為了區(qū)分兩個顏色, 需要對兩個顏色的對應參數(shù)進行比較, 上述兩個色貌指標除了可以表征亮度和色度特性以外, 還可以作為色貌坐標, 計算顏色差別. 經(jīng)過色空間從RGB 到CIELAB 變換后,X的每個像素包含三個顏色分量: 亮度通道L*、紅綠通道a*和藍黃通道b*, 并通過(1)式和(2)式計算得到vividness圖和depth圖.
為了量化顏色分量中的視覺失真, 使用了兩個色度描述符: vividness 相似圖SV和depth 相似圖SD. 根據(jù)(1)式和(2)式, 原始圖像X和失真圖像Y的局部色貌分布圖由V1和D1,V2和D2表示.圖2 是一個選自LIVE 數(shù)據(jù)庫的例子, 圖2(a)為參考圖像, 圖2(b)為高斯模糊失真后的圖像. 圖2(c)、圖2(d)、圖2(e)和圖2(f)分別是對應參考圖像和失真圖像的V1,V2,D1和D2圖像. 然后, 根據(jù)SSIM相似計算的方式將被比較的兩幅圖像的色貌相似圖定義為
其中KV和KD都是常量, 增加模型的穩(wěn)定性, 保證分母不為0[5]. 將vividness 相似圖SV和depth相似圖SD通過簡單冪函數(shù)相乘的方式結合, 可以得到原始圖像X和失真圖像Y的色貌相似圖SCA,如下式所示:
其中α表征兩個色貌指標在色貌相似計算中的相對權重, 區(qū)間是[0, 1]. 較大的α值, 表示vividness在色貌相似計算中的相對權重越高. 為了說明色貌指標的有效性, 圖2(g)是連接vividness 相似圖和depth 相似圖的色貌相似圖. 圖2(g)中顏色較深的點, 表征該區(qū)域的圖像色彩差別越大. 從圖2(g)中可以清楚地看到, 色貌相似圖可以有效表征失真圖像與參考圖像之間的差別.
圖2 從LIVE 數(shù)據(jù)庫中提取的典型圖像 (a)為參考圖像; (b)為高斯模糊畸變類型的失真圖像; (c)和(e)分別是參考圖像的Vividness 和Depth 圖; (d)和(f)分別是失真圖像的Vividness 和Depth 圖; (g)是色貌相似圖; (h)為梯度相似圖Fig. 2. Typical images extracted from LIVE: (a) The reference image;(b) the distorted vision of it by Gaussian blur distortion type;(c) and (e) are the vividness and depth map of the reference image, respectively; (d) and (f) are the vividness and depth map of the distorted image; (g) the color appearance similarity map by connecting the vividness and depth similarity map; (h) the gradient similarity map.
目前, 有幾種不同的算子可以計算圖像梯度,如Prewitt 算子[22]、Sobel 算子[22]、Roberts 算子[23]和Scharr 算子[23]. 離散域梯度幅值的計算通常是基于上述算子, 并利用差值表示圖像函數(shù). 圖像X的垂直梯度Gy和水平梯度Gx計算方式是利用卷積得到:Gx=hx ?X和Gy=hy ?X(參見(6)式和(7)式), 其中hx和hy分別為水平和垂直梯度算子, *表示卷積. 則梯度的定義是G(x)=在提出的IQA 模型中, 這些計算方式的執(zhí)行效果是相同的. 梯度表征結構信息的原理是通過梯度算子的卷積處理圖像, 保留包含顯著邊緣區(qū)域的信息, 去除平滑區(qū)域的信息.
在本文中, 經(jīng)過前期梯度算子的比較, 發(fā)現(xiàn)Scharr 在本文模型中可以更大程度地提取結構信息, 獲得較好的結果. 因此, Scharr 算子被選擇用來計算參考圖像和失真圖像CIELAB 色空間亮度(L*)通道的梯度(G1和G2). 通過這兩個梯度, 可以得到兩個圖像的梯度相似圖SG, 其計算公式如下所示:
其中參數(shù)KG為控制數(shù)值穩(wěn)定性的常數(shù). 梯度相似圖(SG)在文獻[24-26]中被廣泛應用, 并研究了它在圖像失真測量中的作用. 如圖2(h)所示, 圖中顏色較深的點, 表征該區(qū)域的圖像結構差別越大.因此, 梯度相似圖是對HVS 結構信息的一種有效表征.
根據(jù)前文提取的色貌相似和梯度相似圖, 在IQA 任務中定義一個新的模型—色貌和梯度相似指標(color appearance and gradient Similarity index, CAGS), 其程序代碼請參見https://github.com/AlAlien/CAGS, 計算公式如下所示:
其中Ω表示空間域;Vm(Vm= max (V1,V2))用于表征兩個圖像的局部重要性權重.
人們普遍認為, 不同的位置對HVS 圖像質量的視覺感知有不同的貢獻, 因此, 在得到最終質量分數(shù)時可以考慮視覺系統(tǒng)的注視點. 由于人類視覺皮層對亮度和色度很敏感, 所以某個位置的vividness 值可以反映出它是一個可感知的重要點的權重大小. 由于上述原因, 在提出的模型中選擇色貌分布圖(Vm)來描述局部區(qū)域的視覺重要性. CAGS的計算過程如圖3 所示. 本文所提模型, 以色貌特征為基礎, 結合梯度特征, 表征圖像質量. 色貌特征處理圖像顏色信息差別, 梯度特征計算圖像結構信息的不同, 通過顏色信息和結構信息的綜合計算, 得到圖像的客觀評分.
在本文中,KV,KD,KG均為常數(shù), 可以方便地應用于所有數(shù)據(jù)庫. 此外,α為了應用于所有數(shù)據(jù)庫也需要確定. 在以往的研究中, 試錯法是處理這類問題的一種常用方法, 但在時間和消耗上都不現(xiàn)實. 近年來, Taguchi 等[27]實驗設計方法被廣泛應用于解決多參數(shù)尋優(yōu)問題. 后續(xù), 將使用Taguchi方法優(yōu)化模型中的相關參數(shù).
圖3 本文提出的IQA 模型CAGS 的計算過程Fig. 3. Illustration for the computational process of the proposed IQA model CAGS.
表1 IQA 數(shù)據(jù)庫基本信息Table 1. Benchmark test databases for IQA.
在我們的研究中, 選擇4 個公共數(shù)據(jù)庫進行模型驗證和比較, 即TID2013[28], CSIQ[29], LIVE[30]和IVC[31], 表1 列出了上述每個數(shù)據(jù)庫的基本信息. 這4 個數(shù)據(jù)庫是IQA 研究中最常用的集合, 涵蓋了現(xiàn)實應用中常見的各種失真. 它們用主觀的評價來表征圖像質量(MOS 或DMOS), 可以作為設計的模型進行合理的基準測試. 上述數(shù)據(jù)庫中的失真圖像是從一組原始圖像處理得到的, 這些原始圖像反映了足夠的顏色復雜性和邊緣/紋理細節(jié)的多樣性, 包括人類、自然場景和人造物體的圖片.
為了評估一個模型是否能夠預測人類觀察者的感知, 將使用客觀評價模型計算出的圖像質量分數(shù)與觀察者所評定的值進行擬合. IQA 模型常用的四個評價標準是: Spearman 秩序相關系數(shù)(Spearman rank-order correlation coefficient, SROCC)、Pearson 線性相關系數(shù)(Pearson linear correlation coefficient, PLCC)、Kendall 秩序相關系數(shù)(Kendall rank-order correlation coefficient, KROCC)和均方根誤差(root mean squared error, RMSE)[2,32].
為了計算PLCC 和RMSE 指標, 采用logistic回歸得到與主觀判斷相同的量表值:
其中β1, ···,β5都是擬合參數(shù),s代表原始IQA 分數(shù),p(s)是回歸后的IQA 分數(shù)[30].
Taguchi 方法是Taguchi 和Konishi 共同開發(fā)的一種有效的實驗設計工具[33]. 根據(jù)前文的分析,為了適用于所有數(shù)據(jù)庫,KV,KD,KG和α是CAGS模型優(yōu)化的主要變量參數(shù). 根據(jù)相關研究, 將各影響因素的水準數(shù)及各水準的值選取在適當?shù)姆秶鷥龋?如表2 所列. 對于每個參數(shù), 都選擇了3 個值.兩個色貌相似度對應參數(shù)應該確定相同的水準值,這些值的選擇基于文獻[34]. 為了得到梯度相似圖的最佳相關系數(shù), 可以在[0, 100]中設置KG[26], 因此定義水準值為10, 50 和100. 相對權重參數(shù)α,應該限制在[0, 1], 所以選 擇0.1, 0.5, 1 作 為水準值.
選取參數(shù)和水準后, 在直交表中進行組合實驗, 如表3 所列. 采用試錯法進行實驗需要34次,而利用Taguchi 方法設計實驗只需進行9 次即可,大大減少了實驗時間. 直交表配置為L9(34)型. 選擇IVC 數(shù)據(jù)庫作為優(yōu)化參數(shù)的參考集, 表征量化質量特征的SROCC, RMSE 值及其S/N(signal to noise)值均包含在表3 中. 較大的S/N值表征其對應的水準具有較好評價效果. 對于SROCC 來說, 性能具有望大性, 即數(shù)值越大表征效果越好.因此, SROCC 的S/N值(ε1)可以根據(jù)(11)式計算. 相反, RMSE 應該越少越好. 因此, RMSE 的S/N值(ε2)可以根據(jù)(12)式計算.
表2 變量參數(shù)及其控制水準Table 2. Influence factors and level setting for CAGS.
表3 采用L9(34)直交表的實驗設計及IVC 數(shù)據(jù)庫測試結果Table 3. Design with a L9(34) orthogonal array for IVC database.
其中qi表示與第i次試驗對應的SROCC 和RMSE的值;t為每次試驗的總數(shù).
特定的參數(shù)組合對SROCC 和RMSE 兩個評價標準的影響可以通過計算該特定參數(shù)的水準三次實驗相應的平均S/N值來評估. 不同水準值對應的S/N值可以在圖4 中清晰地識別出來, 其值越高表明該水準對應的評價效果越好.
從圖4 可以得到下述直觀合理的結果. 例如,較小的參數(shù)C值, 可以獲得較大的S/N值; 同時因其對應的S/N值變化幅度最大, 表明其影響程度也是最大的. 對于其他3 個參數(shù), 最佳組合為A2-B2-D1. 對于參數(shù)C, 由于其影響程度最大, 需要將其進一步調整為更合適的值, 以達到更好的擬合程度.
圖4 SROCC 和RMSE 對應的不同水準的S/N 值Fig. 4. S/N ratio of different levels for SROCC and RMSE.
圖5 不同KG 值對模型性能的影響Fig. 5. Performance of different KG values.
使用本文提出的CAGS 方法, 通過計算四種數(shù)據(jù)庫在不同KG下SROCC, PLCC 和KROCC的加權平均值(根據(jù)每個數(shù)據(jù)庫中失真圖像的數(shù)量分配不同的權重)和直接平均值, 確定KG值, 如圖5 所示. 從圖5 中可獲得最佳的KG值, 所以最終CAGS 模型的最佳參數(shù)是KV=KD= 0.02,KG= 50,α= 0.1.
一個理想的IQA 模型應該具有良好的性能,并且在不同類型的失真情況下具有良好的一致性. 本節(jié)將所提出的模型與其他典型的模型進行了比較,包 括SSIM[5], IW-SSIM[9]、IFC[6], VIF[7], MAD[10],RFSIM[11], FSIMc[12]和GSM[13], 以及近年提出的方法CVSS(2018)[14]和MPCC(2020)[15]. 表4 中,4 個數(shù)據(jù)庫中每個評價指標對應最好的3 個結果使用粗體突出顯示. 此外, 根據(jù)Wang 和Li[9], 4 個數(shù)據(jù)庫的SROCC, PLCC 和KROCC 結果的加權和直接平均值也如表4 所列, 以評估整體性能. 每個數(shù)據(jù)庫的權值是根據(jù)數(shù)據(jù)庫中包含的失真圖像的數(shù)量確定的.
從表4 可以看出, 我們提出的模型對所有數(shù)據(jù)庫的性能都較好. 特別是, CAGS 模型在LIVE 和IVC 數(shù)據(jù)庫的排名前三名. 對于TID2013, CAGS模型具有競爭性, 與前三的差距很小. 對于CSIQ,CAGS 模型僅比前三模型表現(xiàn)稍差. 雖然MAD,CVSS 和MPCC 可以從CSIQ 中得到最好的結果,但是它們的性能對其他三個數(shù)據(jù)庫不如我們提出的模型的性能. 此外, CAGS 模型還是三個指標加權和直接平均值的前三名. 綜上, 獲得前三數(shù)量最多的模型是FSIM (16 次), CAGS (15 次)和CVSS(14 次). 而且, 對于所有數(shù)據(jù)庫的SROCC 和PLCC值均大于0.8316, 所以可以認為CAGS 模型既具有較高的性能, 又具有較好的泛化性. 特別的, 由于MPCC 模型代碼未開源, 相關數(shù)據(jù)有所缺失,所以表4 僅提供可查閱的MPCC 相關數(shù)據(jù). 但與MPCC 模型性能的比較中可以發(fā)現(xiàn), CAGS模型與MPCC 模型的性能差距較小, 與當前最新的研究結果相比具有競爭性.
表4 對比不同IQA 模型的4 個數(shù)據(jù)庫性能Table 4. Performance comparison of IQA models on four databases.
為了更好地說明所提出的IQA 模型在不同類型的失真情況下具有更好的性能, 使用TID2013數(shù)據(jù)庫的散點圖進行比較, 如圖6 所示. 從圖6 中可以看出, 與其他模型相比, CAGS 模型的客觀評分與主觀評分之間存在著高度的相關性.
出現(xiàn)上述結果的原因主要有: 1) CAGS 模型結合HVS 特性, 同時提取色度信息和結構信息,并利用權重系數(shù)表征局部重要性, 所以其較其他模型具有較好的性能和泛化性; 2) 在顏色信息提取方面, 考慮亮度和色度的協(xié)同變化, 提高了顏色信息提取的準確性, 更好的表征圖像失真程度.
一個穩(wěn)定IQA 模型需要產(chǎn)生良好的性能, 才能對每種失真類型進行一致的預測. 在本節(jié)中, 對每種失真類型的模型性能進行了對比, 結果如表5所列. 選擇SROCC 作為評價指標, 因為其他指標(PLCC, RMSE 和KROCC)具有類似的效果. 由于IVC 數(shù)據(jù)庫中每種失真類型的失真圖像的數(shù)量太少, 無法用統(tǒng)計的方式表達結果. 因此, 選取了三個主要數(shù)據(jù)庫中的35 組失真圖像. 對于每個數(shù)據(jù)庫和每種失真類型, 排名前三SROCC 值的IQA模型的結果用粗體突出顯示. 進一步, 對于最新MPCC 模型, 與CAGS 對比TID2013 數(shù)據(jù)庫PLCC的結果, 如圖7 所示.
對比分析表5 和圖7 中不同模型對于不同失真類型的失真圖像評價結果, 可得: 1) CAGS 模型與其他典型IQA 模型相比具有明顯的統(tǒng)計優(yōu)勢,總體效果最好. 特別是, CAGS 模型在TID2013和LIVE 數(shù)據(jù)庫的排名前三的數(shù)量較多. 而對于CSIQ, CAGS 模型具有競爭性, 與前三的差距很小. 獲得前三數(shù)量最多的模型是CAGS (21 次),CVSS (19 次)和FSIM (14 次). 2) 對于35 種失真類型, 每個模型的評價結果各有優(yōu)勢, 其中SROCC值大于0.95 的數(shù)量最多模型是CAGS(14 次)和CVSS(14 次). 對于上述兩個模型, 其最小SROCC值分別是0.3711 和0.2614, 且SROCC 值小于0.5都是2 個類型(CTC 和CCS). 所以, CAGS 模型的波動程度更小, 性能更加穩(wěn)定, 具有較好的泛化性. (3)對比CAGS 和MPCC 模型, SROCC 值排名前三次數(shù)分別是21 次和6 次; SROCC 值大于0.95 次數(shù)分別是14 次和9 次; 在TID2013 數(shù)據(jù)庫不同失真類型的PLCC 值, 在24 種失真類型中,CAGS 在15 種失真類型中具有較高的精度; CAGS和MPCC 的最小SROCC 值分別是0.3711 和0.5396; 對比結果表明CAGS 比最新的MPCC 模型具有明顯的精度優(yōu)勢, 而MPCC 具有更好的泛化性. 綜上可以得出結論, 與其他IQA 模型相比,CAGS 模型預測的客觀評分與主觀評價高度相關.
圖6 基于TID2013 數(shù)據(jù)庫的主觀MOS 與IQA 模型計算結果擬合對比 (a) IW-SSIM; (b) IFC; (c) VIF; (d) MAD; (e) RFSIM;(f) FSIMc; (g) GSM; (h) CVSS; (i) CAGSFig. 6. Scatter plots of subjective MOS against scores calculated by IQA models’ prediction for TID2013 databases: (a) IW-SSIM;(b) IFC; (c) VIF; (d) MAD; (e) RFSIM; (f) FSIMc; (g) GSM; (h) CVSS; (i) CAGS.
圖7 CAGS 與MPCC 在TID2013 數(shù)據(jù)庫種不同失真類型PLCC 值對比Fig. 7. PLCC comparison of different distortion types between CAGS and MPCC on TID2013.
通過以上對于不同失真類型的圖像質量評價精度的對比分析, 表明CAGS 模型在不同數(shù)據(jù)庫中和在不同失真類型中都具有較好的精度和泛化性.
表5 IQA 模型的不同失真類型SROCC 值對比Table 5. SROCC values of IQA models for different types of distortions.
IQA 模型的運行效率也是一個重要的考慮因素. 使用2.5 GHz Intel Core i5 CPU 和8 G RAM的型號電腦比較不同模型的運行時間, 軟件平臺為MATLAB R2013b. 表6 列出了每個模型用于比較一對彩色圖像的時間, 分辨率為512 × 512(選自IVC 數(shù)據(jù)庫). 由此表6 結果可知, CGGS 模型具有適中的計算復雜度. 具體來說, 它比一些具有良好預測性能的現(xiàn)代IQA 模型運行得更快, 如IW-SSIM, IFC, VIF 和MAD. 由于CAGS 模型僅包含色度信息和結構信息兩個方面的內容, 即可有效評價圖像質量, 同時無需循環(huán)計算, 所以CAGS模型計算復雜度較低.
表6 計算復雜度對比Table 6. Time cost comparisons.
我們提出了一種新穎且性能良好的IQA 模型,即CAGS 模型. 該模型由色貌相似圖和梯度相似圖組成, 分別表征了顏色失真和結構失真. 其中,色貌相似圖由vividness 和depth 兩部分組成, 這兩部分是表征顏色特征的兩個新指標. 同時, 選取vividness 圖作為權重系數(shù), 定義局部圖像的重要性. 最后, 根據(jù)權重關系將上述兩個相似圖合并得到所提模型. 模型中的主要參數(shù)通過Taguchi 方法確定, 使用該方法可大大減少實驗時間. 為了證明所提出的模型的優(yōu)異性能, 使用4 個常用的IQA 數(shù)據(jù)庫共94 幅參考圖像和4830 幅失真圖像進行測試, 與另外10 個最典型的或被近期發(fā)表的IQA 模型的結果進行了比較. 結果表明, CAGS 模型的精度PLCC 在4 給數(shù)據(jù)庫中最低實現(xiàn)0.8455,最高可以達到0.9640, 綜合性能優(yōu)于其他IQA 模型. 與其他計算復雜度適中的模型相比, CAGS 模型具有更好的預測精度和泛化性. 未來, 我們將進一步優(yōu)化模型, 提升預測精度和泛化性能.