国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

全媒體內(nèi)容質(zhì)量評價研究綜述

2022-07-22 13:36顏成鋼孫垚棋朱晨薇朱尊杰鄭博侖周曉飛
信號處理 2022年6期
關(guān)鍵詞:音頻評估特征

顏成鋼 孫垚棋 鐘 昊 朱晨薇 朱尊杰 鄭博侖 周曉飛

(杭州電子科技大學(xué)自動化學(xué)院,浙江杭州 310018)

1 引言

隨著科技的發(fā)展和時代的進(jìn)步,用來實現(xiàn)信息交互的手段越來越多,從一開始用文字進(jìn)行信息傳遞,再到后來的圖像、音頻、視頻等多種媒體技術(shù)的使用越來越頻繁。早期時候,人們利用報紙、雜志等出版物作為文字的傳播載體,使用廣播來傳遞音頻信息。之后,由于電視的普及,視頻圖像等可視化信息得以大規(guī)模的進(jìn)行傳播。進(jìn)入到21 世紀(jì)后,隨著互聯(lián)網(wǎng)和5G 時代的到來,用戶可以通過智能手機、網(wǎng)絡(luò)電視以及電腦等各種設(shè)備將多種多樣的信息進(jìn)行融合并且傳播。在這樣的大環(huán)境下,有著許多與各種媒體相關(guān)的研究工作,例如,面向圖像視頻取證的相關(guān)方法[1-2]以及對于各種媒體下認(rèn)知安全的研究[3],而“全媒體”也隨之誕生,并且受到了越來越多的研究人員的廣泛關(guān)注。

與“跨媒體”方法不同的是,作為當(dāng)前信息傳遞手段的集成者,“全媒體”并不是對各種信息傳播媒介進(jìn)行簡單的連接,而是指各種媒體間的全方位融合,從而實現(xiàn)其覆蓋面廣、技術(shù)方法多樣、信息傳播媒介全面等特點。

在“全媒體”當(dāng)中,文本、圖像、音頻、視頻等媒介發(fā)揮著重要的作用,成為了“全媒體”技術(shù)發(fā)展中的主力軍。因此,對于信息在以這些方式進(jìn)行傳播的過程當(dāng)中,能否做到很好的保留原始信息,讓用戶在接收信息的過程當(dāng)中有著比較好的體驗,是當(dāng)前技術(shù)發(fā)展需要解決的一個重要問題。

針對這一問題,全媒體質(zhì)量評價技術(shù)起到了關(guān)鍵性的作用,通過對全媒體中的各種媒介進(jìn)行質(zhì)量評價,得到客觀真實的評價結(jié)果,然后根據(jù)該結(jié)果判斷信息在傳輸過程中發(fā)生的損失,以此作為評判標(biāo)準(zhǔn)從而對傳輸過程進(jìn)行改進(jìn),來提高用戶獲取信息的完整程度。

在信息傳播的過程當(dāng)中,不同的媒體的質(zhì)量評價標(biāo)準(zhǔn)各有不同。例如對于文本而言,如果其存在語病或者語義不通順等問題,那么用戶在通過文本獲取信息的難度就會提高;對于圖像、視頻和音頻而言,如果圖像視頻音頻在傳輸過程中收到了損失,從而會導(dǎo)致接收方獲取的圖像視頻音頻出現(xiàn)模糊、失真等問題。因此,也就有了分別針對各種媒體所出現(xiàn)的質(zhì)量評價技術(shù)。

本篇文章將內(nèi)容分為了四個部分,分別從文本、視頻、音頻和圖像這四個角度來介紹關(guān)于全媒體質(zhì)量評價的發(fā)展歷程。同時也將四類質(zhì)量評價領(lǐng)域的方法進(jìn)行貫通,并對每個領(lǐng)域中的傳統(tǒng)方法和基于機器學(xué)習(xí)、深度學(xué)習(xí)的方法做了比較。不論從領(lǐng)域類別的角度上,還是方法類別的角度上來說都更加全面。

2 圖像質(zhì)量評價

圖像是人類視覺信息的一種來源,往往會含有較多的有用信息。在信息的傳播中,圖像可以承載更多的含義,現(xiàn)實生活中,我們常常需要通過獲取、存儲、傳輸圖像等過程進(jìn)行對圖像信息的傳遞,但這些信息傳遞并不總是有效或者及時的,過程中又會存在一些模糊、噪聲、數(shù)據(jù)丟失等干擾因素,從而引起圖像的質(zhì)量變化,比如降質(zhì)或是失真。這又會直接影響到圖片信息量的獲取以及人們對圖片信息最直觀的主觀感受。這里使用了圖像處理的一種基本技術(shù)來衡量圖像質(zhì)量的好壞——圖像質(zhì)量評價(Image quality assessment,IQA),這是一種分析圖像特征,然后評估圖像質(zhì)量,最終實現(xiàn)圖像優(yōu)化的技術(shù),在圖像處理領(lǐng)域占有極其重要的地位。

在圖像質(zhì)量評價任務(wù)中,前常用的合成失真的圖像數(shù)據(jù)庫有PNG 格式的LIVE(Laboratory for im?age &video engineering)數(shù)據(jù)庫[4],CSIQ(Categorical Subjective Image Quality)數(shù) 據(jù) 庫[5],BMP 格 式 的TID2008(Tampere Image Database)數(shù)據(jù)庫[6],以及對TID2008 進(jìn)行改進(jìn)的以Bitmap 格式保存的TID2013數(shù)據(jù)庫[7]等。最近兩年出來的真實失真的數(shù)據(jù)庫都有提供圖像屬性和EXIF(exchangeable image file format)信息,比如在2020年建立的KonIQ-10k(Kon?stanz authentic image quality database)數(shù) 據(jù) 庫[8],SPAQ(smartphone photography attribute and quality)數(shù)據(jù)庫[9]等。

在圖像質(zhì)量評價任務(wù)中,我們主要選擇以下三個主流指標(biāo)作為評估標(biāo)準(zhǔn)。斯皮爾曼秩序相關(guān)系數(shù)(SRCC)。它表示基本事實和預(yù)測分?jǐn)?shù)之間的單調(diào)性;線性相關(guān)系數(shù)(PLCC),用于衡量IQA 指標(biāo)的預(yù)測線性;均方根誤差(RMSE),用于計算映射分?jǐn)?shù)與地面真相之間的誤差。

圖像質(zhì)量評價方法可以分為主觀評價方法和客觀評價方法,而主觀評價又可以根據(jù)有無標(biāo)準(zhǔn)參考的條件可以分為絕對主觀評價和相對主觀評價。主觀質(zhì)量評價的測試結(jié)果可以直接體現(xiàn)出人們對于圖像質(zhì)量的主觀感受。失真圖像的質(zhì)量指標(biāo)一般采用平均主觀得分(Mean opinion score,MOS)或平均主觀得分差異(Differential mean opinion score,DMOS)表示。雖然評價結(jié)果可以真實反映圖像質(zhì)量,但總會受到實驗者的個人主觀因素的影響,加上不能夠通過數(shù)學(xué)模型加以描述,這種方法還需要進(jìn)行多次人工的重復(fù)實驗,可想而知耗費時間較長??陀^評價方法則是由計算機根據(jù)人眼視覺系統(tǒng)算法建立模型來計算得到圖像的質(zhì)量指標(biāo),相比較主觀評價,該方法不會受人為原因影響受到偏差,根據(jù)對于參考圖像的依賴性又可以分為全參考質(zhì)量評價、半?yún)⒖假|(zhì)量評價和無參考質(zhì)量評價等三類評價方法。

全參考圖像質(zhì)量評價方法(Full reference,F(xiàn)R)需要選擇理想的圖像進(jìn)行參考,比對失真圖像之間的差異,從而分析失真圖像的失真情況,這類方法的算法可分為:使用像素誤差統(tǒng)計[10];使用人眼視覺特性[11];使用結(jié)構(gòu)相度等算法。例如2012年提出的梯度相似度GSM[12],該方法利用梯度的特性來提取出所需要的視覺信息,并將其與像素值相結(jié)合得到了良好的實驗結(jié)果,并且加快了算法的計算速度;基于人類視覺系統(tǒng)與其他算法結(jié)合,例如Liu等人[13]提出將結(jié)構(gòu)相似性算法結(jié)合至人類視覺系統(tǒng),利用HVS 的特點將圖像的局部像素和整體的幾何拓?fù)浣Y(jié)構(gòu)相對應(yīng)來評價圖像質(zhì)量。

半?yún)⒖荚u價方法(Reduced reference,RR)只提供參考圖像的部分信息或者從中提取部分特征,所以與圖像整體相比較,該方法用到的數(shù)據(jù)量大大減少,靈活性更強。該方法的關(guān)鍵就是提取參考圖像和失真圖像的部分特征,并將其比較來進(jìn)行圖像質(zhì)量評價。該方法又可以分為通過原始圖像特征[14]、通過DCT域[15]和通過Wavelet域統(tǒng)計模型[16]等多種類型。

如今,無參考圖像質(zhì)量評價方法(No reference,NR)因其不需要使用參考圖像、實用性強、應(yīng)用范圍廣但實現(xiàn)難度大于有參考圖像或特征的方法而成為IQA 領(lǐng)域的熱門話題。本文有關(guān)圖像質(zhì)量評估方法主要介紹NR-IQA,其內(nèi)容框架如圖1所示。

2.1 基于傳統(tǒng)機器學(xué)習(xí)算法的無參考圖像質(zhì)量評價

2.1.1 基于傳統(tǒng)方法的有監(jiān)督NR-IQA模型

有監(jiān)督的,基于傳統(tǒng)機器學(xué)習(xí)無參考圖像質(zhì)量評分模型大致可分為自然場景統(tǒng)計(NSS)方法和基于學(xué)習(xí)的方法,在傳統(tǒng)方法中主要總結(jié)為特征提取,特征表示和特征映射三步驟,其中特征提取尤為關(guān)鍵。

基于自然場景統(tǒng)計方法的提出是一里程碑式的事件,自然場景統(tǒng)計特征指的是服從一定分布規(guī)律的圖像特征,針對于不對類型程度的失真會對其產(chǎn)生相應(yīng)影響的情況,2012 年Mital 等人[17]提出了一個基于自然場景統(tǒng)計特征的NR-IQA 模型,該模型在空間域運行,稱為盲/無參考圖像空間質(zhì)量評估器(Blind/Referenceless image spatial quality evalua?tor,BRISQUE)。該方法如何提取特征向量如下:提取亮度平均對比度歸一化系數(shù)(MSCN),BRISQUE在計算時選取四個不同方向分別計算MSCN,這是由于假設(shè)失真會改變MSCN 的分布情況,然后再將MSCN系數(shù)合成為非對稱廣義高斯分布(AGGD),設(shè)定其特征是經(jīng)過廣義高斯模型擬合之后獲取得到的模型參數(shù),接著再對特征使用多變量高斯模型進(jìn)行進(jìn)一步的描述,然后最后再使用支持向量機(Sup?port vector machine,SVM)進(jìn)行分類。該方法對圖像數(shù)據(jù)只使用了歸一化,使其呈現(xiàn)有規(guī)律的分布,且最后確定圖像質(zhì)量是使用通過判斷比較失真圖像與預(yù)先建立模型的特征參數(shù)距離的方法,模型簡單且計算復(fù)雜度低。

MSCN系數(shù)的計算如下:

I(i,j)表示圖像I在位置(i,j)處的像素值,ω為高斯濾波器(可有效抑制噪聲),μ(i,j)是高斯濾波之后的結(jié)果,σ(i,j)是標(biāo)準(zhǔn)差。

廣義高斯分布(GGD)的計算如下:

其中x表示像素值,Γ表示伽馬函數(shù),σ2表示GDD模型的方差參數(shù),α則為其形狀參數(shù),α值大于0。

但是基于傳統(tǒng)有監(jiān)督自然場景統(tǒng)計的方法只針對于一定的失真有抑制效果,面對現(xiàn)實情況所會出現(xiàn)的各種各樣的噪聲情況,模型的性能還有待提高。

在傳統(tǒng)的基于學(xué)習(xí)的方法中常見算法包括邏輯回歸等,其試圖設(shè)計一個有效的視覺特征表達(dá)方法,而且一般可以使用支持向量機的方法來學(xué)習(xí)從特征空間到質(zhì)量分?jǐn)?shù)之間的映射模型。2014 年董宏平等人[18]提出一種基于自相關(guān)互信息的NR-IQA模型可以對多類失真圖像進(jìn)行客觀質(zhì)量評價,該方法量化圖像鄰近像素間的相關(guān)性,其提取的多尺度特征來源于三種圖輸入:原始圖像、原始圖像對應(yīng)的局部標(biāo)準(zhǔn)差圖和亮度圖,以及等到最后再使用SVM 對該模型進(jìn)行訓(xùn)練。但該方法沒有使用圖像變換,模型的時間復(fù)雜度較低。

更一種常見的傳統(tǒng)的特征提取方法還有基于碼本的框架。2015年Xu等人[19]提出了一種基于局部特征聚合的盲圖像質(zhì)量評價(Blind image quality assessment,BIQA)框架,所提出的方法簡稱為LFA,它所要用到的碼本很小,而且不需要更新碼本。大型碼本包含許多可能干擾圖像質(zhì)量評估的類似碼字。相比之下,LFA 使用更自然和直接的方式來構(gòu)建圖像質(zhì)量感知表示。將局部特征和碼字之間的軟加權(quán)差值進(jìn)行聚合,形成特征向量。整個過程為:將歸一化的原始圖像塊作為局部特征進(jìn)行提取,Kmeans 聚類應(yīng)用于從CSIQ 數(shù)據(jù)庫[5]提取的局部特征,以獲得100個碼字碼本,接著直接計算局部特征和碼字之間的軟加權(quán)差異,以保留最大化的圖像信息。最后選擇標(biāo)準(zhǔn)SVR 學(xué)習(xí)聚合特征和主觀得分之間的映射。

2016 年,Xu 等人[20]在前期研究內(nèi)容的擴(kuò)展上研究如何利用碼本和圖像之間的統(tǒng)計差異提出了一種基于高階統(tǒng)計聚集(High Order Statistics Aggre?gation,HOSA)的BIQA 框架。除了每個聚類的平均值,還計算聚類的維度方差和偏斜,以形成一個詳細(xì)的質(zhì)量感知碼本,以近似低層特征的分布,然后計算局部特征與相應(yīng)聚類之間的軟加權(quán)高階統(tǒng)計量差異,該方法可以應(yīng)用于各種圖像類型,包括自然圖像、屏幕內(nèi)容圖像和文檔圖像。它還可以很好地反映模擬和真實失真對感知質(zhì)量的影響,泛化能力強。且由于使用了更小的碼本,質(zhì)量感知表示計算具有更快的速度,并且具有應(yīng)用于實際應(yīng)用的潛力。

盡管上述有監(jiān)督的NR-IQA 方法可以實現(xiàn)高預(yù)測性能,但是它們需要大量的圖像樣本和昂貴的主觀分?jǐn)?shù)來校準(zhǔn)質(zhì)量預(yù)測模塊。此外,監(jiān)督方法也可能遭受較弱的泛化能力。

2.1.2 基于傳統(tǒng)方法的無監(jiān)督NR-IQA模型

基于傳統(tǒng)機器學(xué)習(xí)的無監(jiān)督學(xué)習(xí)的數(shù)據(jù)并不被特別標(biāo)識,樣本數(shù)據(jù)實現(xiàn)并不需要主觀評分來進(jìn)行訓(xùn)練,而是對原有數(shù)據(jù)上直接建模,那么需要開發(fā)圖像質(zhì)量自身感知內(nèi)容進(jìn)行參考,目前根據(jù)內(nèi)容的不同可以大致分為根據(jù)統(tǒng)計規(guī)律進(jìn)行模型擬合以及根據(jù)失真分類度量進(jìn)行感知質(zhì)量融合這樣兩類。以下主要介紹最近的兩類方法。

利用自然圖像中的統(tǒng)計規(guī)律作為參考對于模型的預(yù)測性能有所提高,2015年Li等人[21]提出了一種新的無監(jiān)督特征選擇方案,即利用非負(fù)譜聚類和冗余分析,進(jìn)行約束冗余的非負(fù)譜分析。該方法可以直接識別最有用和最冗余約束特征的判別子集。開發(fā)非負(fù)譜分析是為了學(xué)習(xí)輸入圖像的更準(zhǔn)確的聚類標(biāo)簽,在此期間同時執(zhí)行特征選擇。集群標(biāo)簽和特征選擇矩陣的聯(lián)合學(xué)習(xí)能夠選擇最具鑒別性的特征。之后該團(tuán)隊又提出了一種新的半監(jiān)督局部特征選擇方法(S2LFS)[22],允許為不同的類選擇不同的特征子集。根據(jù)此方法,通過學(xué)習(xí)分別考慮每個類的特征的重要性來選擇特定于類的特征子集。特別是,所有可用數(shù)據(jù)的類標(biāo)簽都是在對標(biāo)記數(shù)據(jù)的一致約束下共同學(xué)習(xí)的,這使得所提出的方法能夠選擇最具辨別性的特征。2020年Liu等人[23]通過對原始自然圖像中的失真圖像的結(jié)構(gòu)、自然度以及其感知質(zhì)量的度量,建立了一種新的無監(jiān)督圖像質(zhì)量評價方法(SNP-NIQE),通過局部平均相減和對比度歸一化(Mean subtracted contrast normalized,MSCN)系數(shù)和相鄰MSCN系數(shù)對的乘積的分布變化來表征自然度變化。這里首次將感知質(zhì)量度量引入到無監(jiān)督質(zhì)量評價的方法中。設(shè)計并提取三種有效的自然統(tǒng)計(Natural scene statistics,NSS)特征,分別表征結(jié)構(gòu)、自然度和感知質(zhì)量。在特征提取之后,從一組原始圖像中學(xué)習(xí)具有質(zhì)量感知特征的原始MVG模型,作為質(zhì)量預(yù)測的“參考”。問題圖像的MVG 模型和所學(xué)習(xí)的原始MVG 模型之間的距離被定義來測量問題圖像質(zhì)量。

傳統(tǒng)的IQA 度量方法一般為顯式或隱式地對失真圖像與完美質(zhì)量圖像的偏差進(jìn)行測量,以此來預(yù)測圖像質(zhì)量,但Min 等人(2018)[24]提出“偽”參考圖像的概念打破了這一方式,并提出了一種基于優(yōu)先級的NR-IQA 模型。與傳統(tǒng)的參考圖像被認(rèn)為有完美的質(zhì)量不同,PRI是通過失真圖像來生成的,認(rèn)定其失真最大,為了能夠進(jìn)一步地模糊當(dāng)前模糊圖像去獲得PRI,該方法使用了特定的平滑濾波器,同時還將一定強度的噪聲加在了當(dāng)前有噪聲的圖像。該方法開發(fā)了基于優(yōu)先級的特定的質(zhì)量度量來估計塊效應(yīng)、銳度和噪聲。然后,通過失真識別后的兩階段質(zhì)量回歸框架,將基于PRI 的失真特定度量集成到通用BIQA 方法中,其框架如圖2。然而事實是圖像中往往不止一種失真,這就體現(xiàn)了該模型的一個局限性:難以同時有效度量同一圖像中的多種失真。

與之不同的是Zhang 和Chandler(2018)[25]提出了基于使用自然場景統(tǒng)計(NSS)特征預(yù)測失真參數(shù),盲目評估多重失真和單失真圖像的質(zhì)量的方法(MUSIQUE),可面對多個失真,且測量精度更高。首先識別圖像中可能存在的失真類型,然后通過學(xué)習(xí)不同失真類型和組合的不同NSS 特征,使用特定的回歸模型來預(yù)測高斯模糊、JPEG壓縮和白噪聲三個參數(shù),最后根據(jù)質(zhì)量映射曲線和最明顯失真策略,將三個估計的失真參數(shù)值映射并組合成整體質(zhì)量估計。

2.1.3 基于傳統(tǒng)方法的NR-IQA模型性能分析

統(tǒng)計了多篇基于傳統(tǒng)機器學(xué)習(xí)的NR-IQA 方法在LIVE 圖像數(shù)據(jù)集和TID2013 數(shù)據(jù)集上SROCC 和PLCC兩個指標(biāo)數(shù)據(jù),結(jié)果如表1所示。

表1中的前三行是基于有監(jiān)督的傳統(tǒng)機器學(xué)習(xí)的NR-IQA 方法的實驗結(jié)果,后三行則是基于無監(jiān)督的實驗結(jié)果。從中不難看出,在LIVE 數(shù)據(jù)集上這些方法的SROCC 和PLCC 兩個指標(biāo)都在0.90 以上,使用MOS 做監(jiān)督訓(xùn)練的BRISOUE 與無監(jiān)督的SNP-NIQE 實驗結(jié)果相比,各有所長,指標(biāo)性能各有突出,這顯然可以得出基于NSS 的模型可以不用大量數(shù)據(jù)進(jìn)行監(jiān)督訓(xùn)練,基于無監(jiān)督的傳統(tǒng)機器學(xué)習(xí)方法前景廣泛。且HOSA 在TID2013 數(shù)據(jù)集上的表現(xiàn)優(yōu)異可達(dá)到0.95以上,這表明其所提出的特征聚合方案能夠更好地表示不同圖像內(nèi)容和失真類型的圖像質(zhì)量。

表1 基于傳統(tǒng)IQA方法在LIVE、CSIQ和TID2013數(shù)據(jù)集上的性能Tab.1 Performance of traditional IQA methods on LIVE,CSIQ and TID2013 datasets

BPRI 于眾方法中在CISQ 數(shù)據(jù)集上的RMSE指標(biāo)上表現(xiàn)最優(yōu),且與其他方法差距較大。BPRI方法使用的質(zhì)量特征并不局限于自然場景,大多數(shù)NA-IQA 模型在接近常見失真的失真上表現(xiàn)出良好的性能,但在對比度變化等獨特失真方面表現(xiàn)不佳。

但是,除了HOSA 在TID2013 上的優(yōu)異表現(xiàn),其他模型在相比較于其他的數(shù)據(jù)集上,它們在TID2013 上的實驗效果就差了很多。這或許是因為早期的傳統(tǒng)方法是針對于一定的數(shù)據(jù)集來手工設(shè)計相應(yīng)特征,這就導(dǎo)致模型的泛化能力受到了限制,在面對多種失真的情況下,模型學(xué)習(xí)能力有限。

2.2 基于深度學(xué)習(xí)算法的無參考圖像質(zhì)量評價

在基于深度學(xué)習(xí)的算法中,圖像到圖像質(zhì)量的映射這類關(guān)系能夠采用端到端的方式加以學(xué)習(xí),而且此類算法往往會運用卷積神經(jīng)網(wǎng)絡(luò)(Convolu?tional neural network,CNN)的模型。

2.2.1 基于深度學(xué)習(xí)的有監(jiān)督NR-IQA模型

與傳統(tǒng)方法借助手工設(shè)計特征來學(xué)習(xí)的方式不同,基于深度學(xué)習(xí)的有監(jiān)督的BIQA 模型通常需要依靠失真的圖像及借助MOS來學(xué)習(xí),然后進(jìn)行特征映射得到圖像質(zhì)量結(jié)果。

2014年,Kang等[26]使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來學(xué)習(xí)NR-IQA 任務(wù)的判別特征。該方法可以說開啟了IQA 進(jìn)入深度學(xué)習(xí)時代的大門,極大的提高了圖像質(zhì)量評價算法的魯棒性。為了能夠加深網(wǎng)絡(luò)并且提高學(xué)習(xí)能力,在CNN 框架中,該方法使用了特征學(xué)習(xí)和回歸,還可以使用反向傳播來訓(xùn)練整個網(wǎng)絡(luò),能夠更好的改進(jìn)dropout 和糾正線性單元的技術(shù),并更方便的進(jìn)行技術(shù)結(jié)合。2015 年,Kang 等[27]基于IQA-CNN 進(jìn)一步提出一個緊湊的多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(CNN),將NR-IQA 任務(wù)分成多個子任務(wù),可同時估計圖像質(zhì)量和識別失真,通過增加卷積層數(shù)量,修改全連接層,減小濾波器的接受域來提高學(xué)習(xí)能力,獲取更多的信息。

Pan 等人(2018)[28]提出了一個基于深度CNN的NR-IQA模型(BP-SQM),其架構(gòu)如圖3所示,一個基于由卷積神經(jīng)網(wǎng)絡(luò)組成的新框架(FCNN)和一個深度池化網(wǎng)絡(luò)(DPN)來有效模擬人類視覺的屬性數(shù)據(jù)驅(qū)動的系統(tǒng),它可以指引網(wǎng)絡(luò)生成不同的圖像質(zhì)量圖,前提是給定一個相似性的索引圖標(biāo)簽,該模型可以生成一個與人眼視覺相關(guān)的質(zhì)量圖,從而在像素畸變水平上逼近相似性索引圖,用一個主觀評分標(biāo)簽來進(jìn)行指導(dǎo)訓(xùn)練,融合進(jìn)生成的不同類型的質(zhì)量圖,再至DPN中進(jìn)行回歸。

2019 年Yan 等人[29]選擇開發(fā)一種基于CNNs 的方法,并利用基于自然圖像統(tǒng)計方法的優(yōu)勢來提高基于CNNs 方法的泛化能力,由此提出了一種自然場景統(tǒng)計輔助深度神經(jīng)網(wǎng)絡(luò)(NSSADNN)用于NRIQA,該網(wǎng)絡(luò)是通過多任務(wù)學(xué)習(xí)方式設(shè)計的,自然場景統(tǒng)計(NSS)特征預(yù)測任務(wù)和質(zhì)量分?jǐn)?shù)預(yù)測任務(wù)。NSS 特征預(yù)測是一項輔助任務(wù),它有助于質(zhì)量預(yù)測任務(wù)提高表征能力,該模型主要是將NSS 特征預(yù)測任務(wù)集成到基于深度學(xué)習(xí)的圖像質(zhì)量預(yù)測任務(wù)中,以提高表示能力和泛化能力。

上述均為基于深度學(xué)習(xí)的有監(jiān)督的NR-IQA 模型,訓(xùn)練可靠的有監(jiān)督的圖像質(zhì)量評價模型要有較多的人工評分樣本數(shù)據(jù)作為支持,主觀測試來獲得人工感知意見分?jǐn)?shù)的數(shù)據(jù)過程往往耗時且操作繁雜。且這類模型的泛化能力也不強。

2.2.2 基于深度學(xué)習(xí)的無監(jiān)督NR-IQA模型

基于深度學(xué)習(xí)的無監(jiān)督的NR-IQA 模型的訓(xùn)練并不需要人工評分?jǐn)?shù)據(jù)的支持,例2017 年Liu 等人[30]提出一種基于從排序圖像數(shù)據(jù)集中學(xué)習(xí)的NR-IQA 方法(RankIQA),訓(xùn)練一個Siamese 網(wǎng)絡(luò),該方法不依靠含有MOS 的圖像而是通過使用圖像的失真程度來對圖像質(zhì)量的排序,同時還提出了一種有效的反向傳播方法,提高收斂速度。

2018 年,Kim 等人[31]提出深度圖像質(zhì)量評估器DIQA,DIQA的訓(xùn)練過程包括兩個階段:客觀失真部分和人類視覺系統(tǒng)相關(guān)部分。使用兩個獨立的CNN 分支,每個分支分別用于學(xué)習(xí)客觀失真和人類視覺敏感性,視覺敏感度分支通過查看扭曲圖像的三元組、其客觀誤差圖和其基本真實主觀分?jǐn)?shù)來預(yù)測客觀誤差圖的局部視覺權(quán)重第二階段模型學(xué)習(xí)預(yù)測主觀得分??陀^誤差圖和靈敏度圖相乘,得到一個感知誤差圖,可以從HVS的角度解釋失真程度。

在訓(xùn)練的第一階段,目標(biāo)誤差圖被用作代理回歸目標(biāo),以獲得增加數(shù)據(jù)的效果。損失函數(shù)由預(yù)測誤差圖和地面真實誤差圖之間的均方誤差定義,表達(dá)式為:

θ為CNN 參數(shù)為參考圖像的高頻信息圖為畸變圖像的高科技信息圖,P為指標(biāo)參數(shù)。

其中r是紋理和平面部分的重量分布(高頻部分的重量大大增加),α控制可靠性圖的飽和特性。由于模型輸入了畸變圖像的高頻信息,結(jié)合損失函數(shù),該系數(shù)可以消除平坦部分對預(yù)測誤差圖的不利影響。為了標(biāo)準(zhǔn)化可靠性圖,在式中使用了sigmoid函數(shù)的正半部分,以便為具有小值的像素分配足夠大的可靠性值。

為防止可靠性圖直接影響預(yù)測得分,將其除以其平均值,式中為可靠度圖:

其中Hr和Wr是r的高度和寬度。

一旦模型被訓(xùn)練來預(yù)測客觀誤差圖,就進(jìn)入下一個訓(xùn)練階段,為了補償丟失的信息,考慮了兩個額外的手工特征:非標(biāo)準(zhǔn)化可靠性圖μr的平均值和失真圖像的低頻標(biāo)準(zhǔn)差σIdlow。

損失函數(shù)定義為:

其中S是輸入失真圖像的基本真實主觀得分,V是匯集的特征向量。V的定義如下:

其中GAP表示全球平均操作。

不同于Liu 等使用的無標(biāo)簽數(shù)據(jù),2019 年Ma等人[32]提出一個基于多標(biāo)簽學(xué)習(xí)的NR-IQA 模型,由于很多對基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的數(shù)據(jù)驅(qū)動BIQA 模型都是根據(jù)平均意見分?jǐn)?shù)MOS 進(jìn)行訓(xùn)練的,而這些數(shù)據(jù)往往無法訓(xùn)練以百萬計的大量的模型參數(shù)。將若干種人工合成失真添加到高清圖像數(shù)據(jù)中獲取大量的圖像數(shù)據(jù)對,并使用多個IQA注釋器來計算二進(jìn)制標(biāo)簽,指示兩個圖像中哪一個質(zhì)量更高,然后我們訓(xùn)練CNN 使用成對學(xué)習(xí)排序算法計算質(zhì)量分?jǐn)?shù)和相關(guān)的不確定性。每個IQA 注釋器和CNN 參數(shù)的可靠性通過最大化其可能性進(jìn)行聯(lián)合優(yōu)化。由于圖像數(shù)據(jù)不足,IQA 模型很有可能會出現(xiàn)模型的過擬合問題,而該方法對使用的訓(xùn)練圖像數(shù)據(jù)進(jìn)行擴(kuò)增,在很大程度上解決了該問題。

2018 年,Ma 等[33]提出一個基于多任務(wù)學(xué)習(xí)的端到端優(yōu)化的深度神經(jīng)網(wǎng)絡(luò)MEON。這里將BIQA問題分解為兩個子任務(wù):子任務(wù)1 從一組預(yù)定義的類別中將圖像分類為特定的失真類型;子任務(wù)2 利用從子任務(wù)1獲得的失真信息預(yù)測同一圖像的感知質(zhì)量。該方法定義了一個與卷積激活和子任務(wù)1的輸出都不同的層,以保證反向傳播的可行性。在預(yù)訓(xùn)練之后,使用隨機梯度下降法的一種變體對整個網(wǎng)絡(luò)進(jìn)行端到端優(yōu)化,還使用廣義分裂歸一化GDN聯(lián)合非線性作為激活函數(shù),可保持相似的質(zhì)量預(yù)測性能。

以上提到的RankIQA 模型[30]、DIQA 模型[31]、MEON 模型[33]等往往使用最后一層的輸出作為特征表示,使用的模型都很淺。2018年,Gao[34]等人開發(fā)了一個在圖像分類任務(wù)中預(yù)先訓(xùn)練的非常深的DNN 模型用于特征提取,然后使用淺層學(xué)習(xí)技術(shù)進(jìn)行質(zhì)量預(yù)測——BLINDER 模型。在BLINDER 中,該方法在每一層當(dāng)中提取特征向量,并使其得到每一層的質(zhì)量分?jǐn)?shù)并進(jìn)行平均,來得到最后的質(zhì)量。該方法使用支持向量回歸(SVR)來學(xué)習(xí)預(yù)測。

而且其淺層架構(gòu)的網(wǎng)絡(luò)不能很好地處理真實失真,提取的特征會隨著圖像的變化而發(fā)生變化,從而導(dǎo)致預(yù)測結(jié)果偏離真相,但深度模型只學(xué)習(xí)用于分類的全局特征,當(dāng)圖像其余部分顯示極好質(zhì)量時人體視覺系統(tǒng)對局部失真的敏感性也會有所提高,為此2020 年,Su 等人[35]提出了一種基于超網(wǎng)絡(luò)的NR-IQA 模型(Hyper-IQA),該模型能夠自適應(yīng)地調(diào)整質(zhì)量預(yù)測參數(shù),該網(wǎng)絡(luò)以內(nèi)容感知的方式預(yù)測圖像質(zhì)量,即將質(zhì)量預(yù)測與內(nèi)容理解分離,以模擬人類對圖像質(zhì)量的感知,適應(yīng)圖像中的各種失真。

2.2.3 基于深度學(xué)習(xí)的NR-IQA模型性能分析

統(tǒng)計了多篇基于深度學(xué)習(xí)的NR-IQA 方法在LIVE 圖像數(shù)據(jù)集和TID2013 數(shù)據(jù)集上SROCC 和PLCC兩個指標(biāo)數(shù)據(jù),結(jié)果如表2所示。

表2 基于深度學(xué)習(xí)的NR-IQA方法在LIVE-IQA和TID2013數(shù)據(jù)集上的性能Tab.2 Performance of some deep learning-based NR-IQA methods on LIVE-IQA and TID2013 datasets

表2 的前三行是基于有監(jiān)督的方法,可以看出在監(jiān)督下的NSSADNN 在這兩個數(shù)據(jù)集和指標(biāo)下性能更優(yōu),后四行是基于無監(jiān)督的方法。可以從表中看到即使是最早的深度學(xué)習(xí)方法CNN 在LIVE 數(shù)據(jù)集上,SROCC 和PLCC 兩個指標(biāo)都在0.95 以上,展現(xiàn)出深度學(xué)習(xí)的應(yīng)用在該領(lǐng)域的潛力無限。

TID2013 數(shù)據(jù)集包含失真的類型范圍很廣,是一個更具挑戰(zhàn)性的IQA 數(shù)據(jù)庫。隨著近些年的深度學(xué)習(xí)的發(fā)展,在面對失真多樣性的問題上,從表中可以看到后來的深度學(xué)習(xí)方法有很好的得到改善,TID2013 數(shù)據(jù)集下的SROCC 和PLCC 都有所上升。Rank-IQA 對于特定應(yīng)用場景簡單有效,其在LIVE 數(shù)據(jù)集上的兩個指標(biāo)性能都在0.98 以上,但在TID2013數(shù)據(jù)集上可以反應(yīng)其對于不同失真表現(xiàn)的效果欠佳,算法不夠穩(wěn)定。而BLINDER的結(jié)果顯示在不訓(xùn)練特定DNN 模型的情況下學(xué)習(xí)還是非常有效果的。

而作為較新提出的算法NSSADNN 和Hyper-IQA在兩指標(biāo)上表現(xiàn)都很好,Hyper-IQA針對失真內(nèi)容以及失真多樣性的問題采用內(nèi)容理解模塊以及學(xué)習(xí)人類對圖像質(zhì)量的感知規(guī)律,與NSSADNN 最根本的不同則是在于無監(jiān)督下,雖然在該兩指標(biāo)上稍落于NSSADNN,但不需要人工評分?jǐn)?shù)據(jù)的支持,節(jié)省勞力。

隨著深度學(xué)習(xí)的發(fā)展以及在該領(lǐng)域的不斷研究,模型的泛化能力已經(jīng)有很大提升,但在TID2013數(shù)據(jù)集上的總體情況來看,解決失真的多樣性問題方向仍有欠缺。在現(xiàn)實生活中要面對的失真種類復(fù)雜多樣,能應(yīng)對多種失真情況的方法還待更好的去研究。而且伴隨著深度學(xué)習(xí)應(yīng)用的深入,模型結(jié)構(gòu)趨于復(fù)雜化,參數(shù)量的增加也會帶來計算量擴(kuò)增,模型效率降低的問題。但是深度學(xué)習(xí)方法帶來的好的結(jié)果是有目共睹的,其應(yīng)用仍是圖像質(zhì)量評價領(lǐng)域的主流。

3 視頻質(zhì)量評價

在當(dāng)前環(huán)境下,移動互聯(lián)網(wǎng)信息技術(shù)得到了迅猛的發(fā)展,人們使用各種媒體設(shè)備的頻率越來越高,觀看視頻的時間也越來越長,視頻被傳輸和分享的次數(shù)也越來越多。因此對于視頻的質(zhì)量高低與否,也成了人們關(guān)注的問題。但是視頻在壓縮或者傳輸時,容易發(fā)生失真、丟包或者受到一些高斯噪聲的損傷,從而導(dǎo)致視頻質(zhì)量降低。由此可見,對視頻的質(zhì)量做出評估是比較重要的。視頻質(zhì)量評價(video quality assessment,VQA)是視頻服務(wù)系統(tǒng)中的重要技術(shù),該技術(shù)可以對視頻編碼器的性能進(jìn)行評估和測量,同時也能夠?qū)σ曨l的質(zhì)量起到一定程度的監(jiān)測作用,能夠有效的提高視頻的質(zhì)量。視頻質(zhì)量評價分為主觀視頻質(zhì)量評價和客觀視頻質(zhì)量評價。

其中,主觀視頻質(zhì)量評價方法分為質(zhì)量評價和損傷評價兩種方式,用于對視頻質(zhì)量的優(yōu)劣程度進(jìn)行評價,從而確定視頻系統(tǒng)性能的好壞的方法為質(zhì)量評價。損傷評價是指視頻經(jīng)過壓縮、編碼、解碼等多個環(huán)節(jié)后,通過視頻在這些環(huán)節(jié)中受到的損傷,然后再對視頻的質(zhì)量進(jìn)行評估。主觀評價法需要通過評價人員的評估得出評價的結(jié)果,評價人員可以是專業(yè)的人員,也可以是非專業(yè)的人員。雖然對于評價人員的專業(yè)性要求不高,但是對于評價人員的選擇要有比較廣泛的代表性,該評價人員應(yīng)該具備一定的分析判斷能力。同時,為了保證最后得到的評價數(shù)據(jù)有一定的可靠性,應(yīng)該最少要選擇15個評價人員。在評價過程中,評價人員首先要嚴(yán)格按照已經(jīng)規(guī)定好的評價標(biāo)準(zhǔn)再結(jié)合自己的經(jīng)驗對視頻的質(zhì)量進(jìn)行評估;然后綜合所有的評價人員的結(jié)果,將質(zhì)量由高到低分為五個等級。由于該方法的評價標(biāo)準(zhǔn)容易建立,而且實施起來比較方便,所以這種方法是目前常用的視頻圖像質(zhì)量主觀評價方法。

客觀質(zhì)量評價是指讓計算機通過已經(jīng)設(shè)計好的模型和算法來對視頻的質(zhì)量進(jìn)行自動評估??陀^質(zhì)量評價與主觀方法相較而言,具有成本低、速度快、容易實現(xiàn)等優(yōu)點,并且還能對視頻質(zhì)量進(jìn)行實時的監(jiān)控。客觀方法在結(jié)果上要盡量與主觀方法的結(jié)果接近,可以通過評價結(jié)果的一致性、正確率和穩(wěn)定性來判斷客觀質(zhì)量評價方法的優(yōu)劣程度。

視頻的客觀質(zhì)量評價可以分為三種類別:無參考、部分參考和全參考,這種分類是根據(jù)需要評價的視頻在評價過程中對原始視頻的依賴程度來劃分的。因為現(xiàn)實生活當(dāng)中,在進(jìn)行質(zhì)量評價時很難得到用來參考的視頻,所以無參考視頻評價方法有著巨大的研究應(yīng)用價值,該方法也逐漸成為視頻質(zhì)量評價方面的研究熱點。本文有關(guān)視頻質(zhì)量評估方法的內(nèi)容框架如圖4所示。

3.1 主觀視頻質(zhì)量評價

比較常見的主觀視頻質(zhì)量評價方法與圖像方法類似,包括SSM、SSCQE、DSIS、DSCQS等。

主觀評價可能會面臨許多的干擾,比如評價人員所處的環(huán)境變化以及評價的時長和距離,還有評價人員觀看原始視頻和待評價視頻的先后順序,這些因素都可能影響到主觀評價的最后結(jié)果。而且評價人員還可能受到時間掩蔽效應(yīng)[36]的影響,如果評價的視頻當(dāng)中存在幅度比較大的運動時,或者存在比較鮮明突出的事物,觀察者的注意力可能就集中在這些事物上,從而忽略了視頻中其他部分不太明顯的變化,導(dǎo)致最后的評價結(jié)果受到影響。同時主觀視頻質(zhì)量評價需要消耗大量的人力、物力以及資源,所需成本較大,因此更加先進(jìn)的客觀視頻質(zhì)量評價方法的需求越來越大。

3.2 傳統(tǒng)視頻質(zhì)量評價方法

3.2.1 有參考視頻質(zhì)量評價

由于傳統(tǒng)的客觀方法,如MSE 和PSNR[37]等,沒有能夠與人眼的視覺特性相結(jié)合,可能會導(dǎo)致最后的評價結(jié)果和人眼實際的觀測效果不一致,因此基于人眼視覺特性(human visual system,HVS)的算法受到研究者們的廣泛關(guān)注。Seshadrinathan 等人[38]提出了一種利用了人眼的延遲效應(yīng),并將該效應(yīng)通過池化的方式去計算幀級之間的SSIM 值的方法。同時又提出了MOVIE[39]方法,該方法使用了評估動態(tài)視頻保真度的空間光譜局部多尺度框架,此框架對空間和時間方面進(jìn)行失真評估,同時能夠結(jié)合運動信息,展現(xiàn)了比較優(yōu)秀的評價性能,但是需要依賴比較多的參考信息,并且這些信息往往難以收集。之后Park 等人在此基礎(chǔ)上提出了一種自適應(yīng)池化方法VQPooling[40],該方法通過對視頻中每一幀的質(zhì)量進(jìn)行整合來解決評價過程中不同幀之間質(zhì)量變化大的問題,從而改善了整個視頻的全局質(zhì)量。

Chathura 等人[41]提出了基于人類視覺系統(tǒng)(HVS)模型的全參考立體圖像和視頻質(zhì)量指標(biāo),該模型結(jié)合了雙目視覺的重要生理學(xué)發(fā)現(xiàn)。它引入了一種新的HVS 模型,擴(kuò)展了以前的模型,包括雙眼抑制和反復(fù)激發(fā)的現(xiàn)象。最后,引入了優(yōu)化的時間池策略以將評估擴(kuò)展到視頻域。圖像和視頻質(zhì)量指標(biāo)都是通過訓(xùn)練過程獲得的,以建立HVS 模型的主觀分?jǐn)?shù)和客觀評價之間的關(guān)系。之后該團(tuán)隊在2020 年又提出了一種新的HVS 模型[42],其靈感來自生理學(xué)發(fā)現(xiàn),該模型通過估計光流以測量不同尺度和方向的場景速度來表征簡單和復(fù)雜細(xì)胞的行為,它獨特地結(jié)合了非運動敏感和運動敏感的能量項來模擬HVS 的響應(yīng)。其中,運動響應(yīng)加權(quán)客觀分?jǐn)?shù)的計算公式為:關(guān)鍵思想是測量特定類型運動在每一幀中的表現(xiàn)程度,并使用此信息來通知池權(quán)重的選擇。對于給定的感知通道c,t幀的運動支持被定義為具有非零運動響應(yīng)的像素數(shù)。用wh(t)表示運動支持,即第i個目標(biāo)分?jǐn)?shù)隨時間Xi(t)取值的序列,t=1…f被合并成一個單一的運動響應(yīng)加權(quán)客觀分?jǐn)?shù)。

許多評價方法利用結(jié)構(gòu)信息來完成視頻質(zhì)量評價,Wang 等人[43]對參考視頻和測試視頻的對應(yīng)幀進(jìn)行計算,分別得到其SSIM 值,并通過運動信息來對其進(jìn)行加權(quán)平均從而得到最后的質(zhì)量評價。Chen 等人[44]對圖像進(jìn)行處理,并獲取其顯著信息,然后通過該信息使用SSIM算法進(jìn)行信息處理,從而得到對視頻評價的預(yù)測結(jié)果。該方法利用統(tǒng)計方法,對待評價的視頻或者圖像的局部亮度進(jìn)行歸一化處理,根據(jù)處理過后的信息來推測待評價的視頻可能產(chǎn)生了多大程度的失真,之后根據(jù)失真信息來得到最后的評測。

由于基于結(jié)構(gòu)信息的方法大部分只著重處理了在空間維度的信息,而在時間維度的信息并未充分利用,許多研究者在原有的基礎(chǔ)上對時間信息進(jìn)行處理,來完善評價方法。Phong 等人[45]在之前基于圖像的算法(MAD)基礎(chǔ)上進(jìn)行了擴(kuò)展,提出了ST-MAD 方法,該方法對原始視頻和失真視頻進(jìn)行基于時間的切片,這使得人們可以通過使用經(jīng)典的圖像質(zhì)量評估來量化基于運動的失真。Wang 等人[46]對視頻中的結(jié)構(gòu)信息進(jìn)行擴(kuò)展,在考慮空間信息的同時也提取了時間維度的信息,并將三維結(jié)構(gòu)張量作用于空間邊緣特征和時間運動信息的提取。

3.2.2 無參考視頻質(zhì)量評價

在多個視頻處理和計算機視覺應(yīng)用中設(shè)計通用無參考視頻質(zhì)量評估(NR-VQA)模型是一項重要任務(wù)。但是,大多數(shù)現(xiàn)有的NR-VQA 指標(biāo)都是為特定的失真類型設(shè)計的,這些類型在實際應(yīng)用中通常無法察覺。Li 等人[47]提出了一種基于3D 離散余弦變換(3D-DCT)域時空自然視頻統(tǒng)計的新型NRVQA 度量。在所提出的方法中,首先基于3D-DCT系數(shù)的統(tǒng)計分析提取了一組特征,以表征不同視角下視頻的時空統(tǒng)計。這些功能用于通過高效的線性支持向量回歸模型預(yù)測感知的視頻質(zhì)量。

無參考視頻質(zhì)量評價在不依賴于原始視頻的情況下,也常常使用統(tǒng)計的方法將得到的視頻質(zhì)量向期望的真實值進(jìn)行擬合。Mittal 等人[48]提出了基于空間域自然視頻統(tǒng)計(natural video statistic,NVS)的模型,該模型能夠感知時間和空間之間的聯(lián)系,并通過建模來感知相關(guān)的特征。之后其又提出了基于幀差的帶通濾波系數(shù)來提取特征從而預(yù)測視頻質(zhì)量的方法VIIDEO[49],該方法通過幀差來補償其幀與幀之間的失真信息。同樣是對幀進(jìn)行處理,Saad等人[50]提取運動的信息并將其與時空NVS相結(jié)合,提出了一種無參考的評價方法VBLIINDS,該方法是對圖像質(zhì)量評價方法BLIINDS-II 的擴(kuò)展。其原理是對視頻幀進(jìn)行處理,通過將幀與幀之間的變換系數(shù)擬合NIQE 方法和模型提取的特征,之后輸入SVR來映射為最后的視頻質(zhì)量。

3.3 基于深度學(xué)習(xí)的視頻質(zhì)量評價方法

隨著卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn),研究人員發(fā)現(xiàn)使用深度學(xué)習(xí)可以提取出視頻中的更多特征和信息,這些信息使得客觀視頻質(zhì)量評價的結(jié)果更加趨近于主觀評價。Callet 等人[51]首次提出使用卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到客觀視頻質(zhì)量評價上,該方法雖然僅僅解決了對SSCQE 方法的預(yù)測問題,但是開辟了一條從傳統(tǒng)方法通向深度學(xué)習(xí)方法的道路。Kang 等人[26]提出了一種使用CNN 進(jìn)行無參考圖像質(zhì)量評價(image quality assessment,IQA)的方法,這是卷積神經(jīng)網(wǎng)絡(luò)與視頻圖像質(zhì)量評價方向結(jié)合的一大進(jìn)步。

3.3.1 有參考視頻質(zhì)量評價

圖5是使用深度學(xué)習(xí)的全參考評價方法的流程圖。FR-VQA 方法流程大致分為四個步驟:(1)對視頻數(shù)據(jù)進(jìn)行預(yù)處理,(2)對視頻的特征進(jìn)行提取,(3)將提取到的視頻特征進(jìn)行融合,(4)建立回歸模型輸出視頻的質(zhì)量分?jǐn)?shù)。

預(yù)處理指的是對輸入視頻數(shù)據(jù)的時間長度以及每一幀視頻圖像的長和寬進(jìn)行歸一化處理。輸入前要將視頻分解為一幀一幀的圖像或者是連續(xù)幾秒的視頻塊,然后再將其進(jìn)行輸入。然后使用卷積神經(jīng)網(wǎng)絡(luò)對預(yù)處理過后的參考視頻和待評價視頻數(shù)據(jù)分別進(jìn)行特征提取,并獲得其相應(yīng)的時空特征。然后將兩部分的視頻特征進(jìn)行融合,得到融合后的時空特征。接著將融合后的特征和原始參考視頻的主觀評價分值作為輸入,得到回歸模型。最后通過得到的回歸模型輸出失真視頻的質(zhì)量分?jǐn)?shù)。

由于FR-VQA 過于依賴樣本數(shù)據(jù),樣本數(shù)據(jù)不夠充足會對該方法產(chǎn)生的結(jié)果產(chǎn)生較大影響,而就目前而言同時包含失真視頻和原始的參考視頻的數(shù)據(jù)庫中,樣本數(shù)據(jù)的資源非常匱乏,并且已有的樣本還存在分布不平衡、失真程度多樣、標(biāo)簽不夠完善等諸多問題。Zhang 等人[52]針對樣本數(shù)據(jù)不足的問題,使用遷移學(xué)習(xí)框架來提取特征,將待評價的視頻進(jìn)行預(yù)處理,以特征的轉(zhuǎn)換來對失真的樣本進(jìn)行評估。該方法能夠減少在質(zhì)量評價過程當(dāng)中預(yù)測不準(zhǔn)確標(biāo)簽的影響。但是,該方法的模型更具復(fù)雜性。

另一方面,視頻質(zhì)量評價的目的是使得最后的評價結(jié)果能夠更加準(zhǔn)確地與人眼的感知質(zhì)量相貼合。因此,Kim 等人[53]提出了一種名為深度視頻質(zhì)量評估器(DeepVQA)的新型全參考(FR)VQA 框架,該框架如圖6所示,以通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)和卷積神經(jīng)聚合網(wǎng)絡(luò)(CNAN)量化時空視覺感知。該方法加入了“注意力機制”的思想[54-55]。使用了CNAN 的模型相比較未使用該模型的方法而言,展現(xiàn)了更優(yōu)秀的整體預(yù)測性能。

但是,由于2D 卷積容易丟失時域上的信息,為了能夠更好地保留視頻的時域信息,3D卷積被提出用來處理視頻的信息。Liu 等人對圖像質(zhì)量評價的MEON[28]方法進(jìn)行了改進(jìn)提出了視頻多任務(wù)端到端優(yōu)化的深度神經(jīng)網(wǎng)絡(luò)(V-MEON)[56]方法,該方法采用3D 卷積層創(chuàng)建了新的時空特征,從而顯著提高了性能。其將特征提取階段和回歸階段合并為一個階段,其中特征提取器和回歸器聯(lián)合優(yōu)化,可預(yù)測最終的質(zhì)量分?jǐn)?shù)。該方法首先對早期卷積層進(jìn)行預(yù)訓(xùn)練,提取與時空質(zhì)量相關(guān)的特征。然后初始化預(yù)訓(xùn)練的特征提取器,將整個網(wǎng)絡(luò)與兩個子任務(wù)聯(lián)合優(yōu)化。

Xu 等人[57]提出了一種新穎的架構(gòu),即C3DVQA(Convolutional neural network with 3D kernels(C3D)for video quality assessment),該網(wǎng)絡(luò)結(jié)構(gòu)圖如圖7所示,它使用帶有3D 內(nèi)核的卷積神經(jīng)網(wǎng)絡(luò)(C3D)來完成全參考VQA 任務(wù)。C3DVQA 將特征學(xué)習(xí)和分?jǐn)?shù)池結(jié)合到一個時空特征學(xué)習(xí)過程中,并使用2D 卷積層來提取空間特征,使用3D 卷積層來獲得時間上的特征,捕獲視頻的時間掩蔽效應(yīng)。

該方法在失真閾值掩蔽之后使用全局平均池化層來表示感知失真的程度。兩個全連接層用于學(xué)習(xí)感知失真和主觀質(zhì)量之間的非線性關(guān)系。然后,所提出架構(gòu)的目標(biāo)函數(shù)定義為:

其中λ1和λ2是超參數(shù),xn表示失真視頻,yn是主觀質(zhì)量得分,fθ(·)表示參數(shù)為θ的預(yù)測系統(tǒng),L2表示正則化項。

雖然隨著2D卷積神經(jīng)網(wǎng)絡(luò)和3D卷積神經(jīng)網(wǎng)絡(luò)的引入,可以使FR-VQA 方法得到比較滿意的評價結(jié)果,但是由于目前現(xiàn)有的數(shù)據(jù)庫當(dāng)中原始參考視頻的數(shù)量較少,樣本數(shù)據(jù)也面臨一定程度上的短缺,即使2D 卷積神經(jīng)網(wǎng)絡(luò)模型能夠采用遷移學(xué)習(xí)的方法緩解這一問題,但是在遷移學(xué)習(xí)的過程當(dāng)中會引入大量的參數(shù),而且2D 卷積神經(jīng)網(wǎng)絡(luò)也無法充分利用時域信息;而3D 卷積的泛化能力還有待提高,且實際問題中也沒有原始視頻進(jìn)行參考,導(dǎo)致全參考模型并不適用。綜上所述,全參考的評價方法并不適合解決實際問題,因此無參考視頻質(zhì)量評價方法得到了研究者的廣泛關(guān)注,也具有更大的發(fā)展前景。

3.3.2 無參考視頻質(zhì)量評價

NR-VQA是無參考視頻質(zhì)量評價又稱為盲視頻質(zhì)量評價(blind video quality assessment,BVQA),該方法不需要依賴原始參考視頻,只需要提取待評價視頻的特征就可以進(jìn)行質(zhì)量評估。與FR-VQA相比,NR-VQA適用范圍更加廣泛,只需要充分利用好失真視頻的信息便可以進(jìn)行質(zhì)量評估。如圖8是無參考視頻質(zhì)量評價方法的一般框架結(jié)構(gòu)圖。該方法相比較全參考視頻質(zhì)量評價方法,去掉了對參考視頻進(jìn)行操作的部分。

對于無參考視頻質(zhì)量評價的模型,要求其能夠?qū)θ魏问д骖愋投歼m用,并且評價結(jié)果也要盡可能的與人類主觀視覺的感知一致。如Li 等人[58]從NR-IQA 方法中得到啟發(fā),提出了SACONVA(Shear?let and CNN-based NR-VQA)方法,該算法先將待測視頻進(jìn)行分割,使其變?yōu)橐粋€一個的視頻塊,然后將這些分割好的視頻塊進(jìn)行特征的提取,這里提取時空特征的方法用到了三維剪切波變換,因為該方法能夠有效處理時域信息,在提取完時空特征之后,接著使用平均池化方法對得到的特征進(jìn)行處理,最后建立回歸模型對該視頻的質(zhì)量進(jìn)行預(yù)測。不過,雖然該算法能夠有效地貼合人類主觀視覺的感知,但由于樣本數(shù)據(jù)的數(shù)量少和標(biāo)簽亂影響了算法的性能和泛化能力。

由此,Wang 等人[59]提出CNN-MR 框架(如圖9所示),該方法將視頻中的時間和空間特征分開進(jìn)行提取。對于視頻中幀與幀之間的空間質(zhì)量特征,該方法使用了CNN 進(jìn)行提取;而對于視頻中基于時間的運動特征,該方法使用了自然場景統(tǒng)計特性(natural scene statistics,NSS)[60]對其進(jìn)行提取。最后根據(jù)人的主觀視覺感知,將提取出來的時空特征一起輸入并訓(xùn)練一個回歸模型來得到最終的視頻質(zhì)量分?jǐn)?shù)。該方法的性能優(yōu)于當(dāng)時的其他無參考視頻質(zhì)量評價方法。但是該方法在提取時間特征時需要進(jìn)行手工提取,并且該方法要先分別對時間和空間特征進(jìn)行提取,然后再將其進(jìn)行融合,這使得在提取特征時可能會丟失許多的關(guān)鍵信息。之后通過使用遷移學(xué)習(xí)提出了DeepBVQA 方法[61],該方法使用卷積神經(jīng)網(wǎng)絡(luò)提取空間特征,但對于時間特征依然需要進(jìn)行手工提取。Lomotin 等人[62]通過研究無參考圖像質(zhì)量評價方法,提出了一個復(fù)雜的框架來評估圖像和視頻的質(zhì)量。該框架通過圖像質(zhì)量評估來應(yīng)用到短視頻上,以實現(xiàn)短視頻快速穩(wěn)定的逐幀評估。評分過程由幾個并行的收集步驟和最后的分?jǐn)?shù)聚合步驟組成。大多數(shù)評分模型基于深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)。通過添加或刪除這些步驟,可以靈活地擴(kuò)展或減少框架。

由于大多數(shù)的VQA 模型在人為制造的失真視頻上可以實現(xiàn)有效的評估,但在自然的視頻上的評估往往并不是那么理想,訓(xùn)練過程中存在一定的過擬合問題。

基于此問題,Li 等人[63]提出了基于2D CNN 的VSFA 方法,該方法將人類視覺系統(tǒng)的兩個突出效應(yīng)整合到深度神經(jīng)網(wǎng)絡(luò)中,即內(nèi)容依賴效應(yīng)和時間記憶效應(yīng)。對于內(nèi)容依賴效應(yīng),其從預(yù)先訓(xùn)練的圖像分類神經(jīng)網(wǎng)絡(luò)中提取特征,以獲得其固有的內(nèi)容感知屬性。對于時間記憶效應(yīng),比如長期依賴關(guān)系,尤其是時間滯后,其通過門控循環(huán)單元和受主觀啟發(fā)的時間池層集成到網(wǎng)絡(luò)中。

Varga等人[64]引入了長短時記憶網(wǎng)絡(luò)(long short term memory,LSTM),并將其與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,提出了一個深層架構(gòu),架構(gòu)圖如圖10 所示。該方法通過將待測視頻分為一幀一幀的圖像輸入預(yù)訓(xùn)練好的CNN 模型,以此來提取視頻圖像中的深度特征,預(yù)訓(xùn)練的CNN 運行所有連續(xù)的視頻幀以創(chuàng)建d×N序列數(shù)據(jù),其中d代表視頻序列的長度,N是幀級深度特征向量的長度。然后將生成的序列作為LSTM 網(wǎng)絡(luò)的輸入,以此訓(xùn)練LSTM 網(wǎng)絡(luò)來預(yù)測質(zhì)量分?jǐn)?shù)。LSTM 網(wǎng)絡(luò)具有一定的記憶功能,能夠?qū)χ耙曨l質(zhì)量的預(yù)測有一定的保留能力。算法在KoNViD1k[65]視頻數(shù)據(jù)庫上進(jìn)行測試,展現(xiàn)出了不錯的性能。

3.4 面向UGC的視頻質(zhì)量評價方法

最近,社交媒體出現(xiàn)了巨大的增長,大量用戶生成的視頻內(nèi)容(UGC)在各大媒體平臺上分享。由于功能強大并且價格合理的移動設(shè)備和云計算技術(shù)的進(jìn)步,再加上視頻流的發(fā)展,使大多數(shù)消費者能夠輕松地在全球范圍內(nèi)即時創(chuàng)建、分享和查看UGC 圖片/視頻。事實上,UGC 的盛行已經(jīng)開始將視頻質(zhì)量研究的重點從傳統(tǒng)的合成失真數(shù)據(jù)庫轉(zhuǎn)移到更新的、更大規(guī)模的真實UGC 數(shù)據(jù)集,這些數(shù)據(jù)集通常被用來解決UGC-VQA 的問題。UGCVQA 研究通常有著以下特點:

1)所有源內(nèi)容都是用戶生成的,因此存在未知且高度多樣化的損傷;2)它們僅適用于測試和比較無參考模型,因為參考視頻不可用;3)失真的類型是多種多樣的,也有可能是各種情況混合的,包括但不限于捕獲損傷、編輯和處理偽像、壓縮、轉(zhuǎn)碼和傳輸失真。此外,與傳統(tǒng)的VQA 數(shù)據(jù)集和算法不同,壓縮偽影不一定是影響視頻質(zhì)量的主要因素。這些不可預(yù)測的感知退化使得UGC 視頻的感知質(zhì)量預(yù)測非常具有挑戰(zhàn)性。

3.4.1 UGC相關(guān)數(shù)據(jù)集介紹

UGC 視頻的感知質(zhì)量是一個寬泛的概念。除了壓縮偽像,視頻制作過程中引入的失真(如鏡頭模糊和相機抖動)也會影響觀眾的觀看體驗。最近發(fā)布了一些大規(guī)模的UGC 圖像數(shù)據(jù)集[8,66-67],但是UGC的視頻數(shù)據(jù)集仍然十分有限。

第一個包含真實失真的UGC 視頻數(shù)據(jù)集為CVD2014[68],該數(shù)據(jù)集中的視頻并且使用了78個不同的視頻捕獲設(shè)備錄制,之后還提出了相似的LIVE-Qualcomm Mobile In-Capture Database[69].然而,這兩個數(shù)據(jù)庫具有比較大的局限性,它們僅對少量不太多樣化的獨特內(nèi)容進(jìn)行建模(相機)捕獲失真。LIVE 數(shù)據(jù)集[70-72]為傳統(tǒng)的公共視頻質(zhì)量數(shù)據(jù)集,主要用于分析原始數(shù)據(jù)的壓縮失真,同時包含有限的UGC 特征。YouTube-8M[73]和AVA[74]這兩個數(shù)據(jù)集是用來進(jìn)行識別的,它們不提供原始視頻數(shù)據(jù)和相應(yīng)的MOS值,因此它們對質(zhì)量評估的研究作用不大。在過去的幾年里發(fā)布了一系列的大規(guī)模UGC 質(zhì)量數(shù)據(jù)集[75-77],這些數(shù)據(jù)集會提供原始視頻和MOS。在這些數(shù)據(jù)集中,YouTube 的UGC 數(shù)據(jù)集(YT-UGC)[77]是最具代表性的數(shù)據(jù)集之一。該數(shù)據(jù)集中的內(nèi)容標(biāo)簽和MOS 得分如圖11 和圖12 所示。該數(shù)據(jù)集從150 萬個YouTube 視頻中采樣了1500 個視頻,具有共享權(quán)限。然而,雖然YT-UGC的一個主要目標(biāo)是促進(jìn)對視頻壓縮和質(zhì)量評估實際應(yīng)用的研究,但當(dāng)前數(shù)據(jù)集不包含任何視頻壓縮版本和相應(yīng)的差分MOS(DMOS)。此外,提供的粗內(nèi)容類別中的視頻顯示出高質(zhì)量多樣性,很難在內(nèi)容和質(zhì)量之間建立聯(lián)系。

3.4.2 UGC視頻質(zhì)量評價

Tu 等人提出了一種新的基于融合的BVQA算法[78],該算法稱之為VIDeo quality EVALuator(VIDEVAL),它在現(xiàn)有的高效BVQA 模型之上使用了特征集成和選擇程序。通過在統(tǒng)一且可重復(fù)的評估框架內(nèi)對當(dāng)前比較好的視頻質(zhì)量模型進(jìn)行系統(tǒng)評估,證明了用失真感知統(tǒng)計的視頻特征和明確定義的視覺障礙特征能夠以非常合理的計算成本提供最可靠的性能。為了量化使用的數(shù)據(jù)庫在每個定義的特征空間上的覆蓋率和均勻性,從而計算了覆蓋率的相對范圍和均勻性[79],其中相對范圍由下式給出:

其中表示給定特征維度i的數(shù)據(jù)庫k的特征分布,并且max)指定所有數(shù)據(jù)庫中該給定維度的最大值。覆蓋均勻度衡量視頻在每個特征維度中的均勻分布。我們將其計算為每個索引為k的數(shù)據(jù)庫的所有源的的B-bin直方圖的熵:

其中pb是數(shù)據(jù)庫k的特征i處bin b 中源的標(biāo)準(zhǔn)化數(shù)量。統(tǒng)一性越高,數(shù)據(jù)庫就越統(tǒng)一。

之后,該團(tuán)隊在針對處理圖像視頻質(zhì)量的問題上使用回歸還是分類進(jìn)行了討論,并提出了兩種新方法——二元分類和序數(shù)分類[80],這兩種方法可以在較粗略的級別上評估和比較無參考質(zhì)量模型的替代方法,而且在感知優(yōu)化的UGC 轉(zhuǎn)碼或媒體處理平臺上的預(yù)處理方面?zhèn)鬟_(dá)了更實際的意義。緊接著為了加速視頻質(zhì)量的預(yù)測速度,該團(tuán)隊為UGC 內(nèi)容引入了一種有效且高效的視頻質(zhì)量模型,并將其稱為快速準(zhǔn)確的視頻質(zhì)量評估器(RAPIQUE)[81],同時展示了該評估器的性能與最先進(jìn)的模型相當(dāng),但速度要快幾個數(shù)量級運行。

Wang 等人[82]創(chuàng)建了一個大規(guī)模數(shù)據(jù)集來全面研究通用UGC 視頻質(zhì)量的特征。同時還提出了一個基于DNN 的框架,用來詳細(xì)分析內(nèi)容、技術(shù)質(zhì)量和壓縮級別在感知質(zhì)量中的重要性。并且該模型能夠提供質(zhì)量分?jǐn)?shù)以及人性化的質(zhì)量指標(biāo),以彌合低級視頻信號與人類感知質(zhì)量之間的差距。

3.5 視頻質(zhì)量評價方法評估

3.5.1 基于LIVE-VQA數(shù)據(jù)集的分析

本節(jié)選取了上文中提到過的6種視頻質(zhì)量評價方法,并將其作用于LIVE-VQA 數(shù)據(jù)集上,通過實驗結(jié)果對這些方法進(jìn)行比較和分析。如表3 所示,失真類型分為Wireless、IP、MPEG2、H.264和ALL。這些失真類型代表了在各類壓縮失真視頻上的實驗效果。

表3 LIVE-VQA數(shù)據(jù)集上的各種VQA方法的性能Tab.3 Performance of various methods on LIVE-VQA Dataset

由實驗結(jié)果可知,加入了運動信息的全參考方法MOVIE 和ST-MAD 在整個數(shù)據(jù)集上的SROCC 和PLCC 都達(dá)到了0.78 以上,相較之前的傳統(tǒng)方法來說性能得到了提升,其中ST-MAD 尤其擅長處理MPEG-2 壓縮失真視頻,其實驗效果要優(yōu)于其他方法,這就證實了加入運動信息可以使質(zhì)量評價性能得到提升,但是仍然還存在較大的提升空間。而Park 等人提出的在MOVIE 方法上使用自適應(yīng)池化去整合每幀的質(zhì)量,取得了很不錯的效果,該方法的實驗結(jié)果相較于MOVIE方法得到了全面的提升,并且有三項指標(biāo)在比較的實驗方法中達(dá)到了最好的效果。

基于IQA 方法改良的VBLIINDS 算法在PLCC指標(biāo)上得到了十分可觀的結(jié)果,但是在SROCC上卻沒有展現(xiàn)出良好的性能。而且其對應(yīng)的圖像方法在LIVE-IQA 數(shù)據(jù)集上都能達(dá)到0.91 的效果,而作為視頻方法出現(xiàn)了大幅度的下降,這從某種程度上也說明了在視頻質(zhì)量評價當(dāng)中時間維度的信息對于整個視頻質(zhì)量評價有著很重要的影響。

而作為無參考方法的VIIDEO 在各項指標(biāo)上都無法與其他方法進(jìn)行比較,這是由于無參考方法中不依賴原始參考視頻,這也就導(dǎo)致了時間維的變化對實驗結(jié)果造成了無法預(yù)估的誤差,這也是無參考視頻質(zhì)量評價方法的難點所在。Varga 等人的方法通過使用LSTM 來預(yù)測時間維度信息的變化,使誤差得到了減小,相較于VIIDEO 方法提高了實驗效果。

3.5.2 基 于KoNViD-1k 和LIVE-Qualcomm 的分析

如表4 所 示,KoNViD-1k 和LIVE-Qualcomm 數(shù)據(jù)集是自然失真數(shù)據(jù)集,在該數(shù)據(jù)集上的進(jìn)行質(zhì)量評價要比以往的數(shù)據(jù)集更加具有挑戰(zhàn)性。我們選取了四種算法進(jìn)行比較,分別是傳統(tǒng)算法VBLIINDS和VIIDEO,以及使用了深度學(xué)習(xí)的算法VSFA[63]和Varga等人[64]提出的方法。

表4 KoNViD-1k和LIVE-Qualcomm數(shù)據(jù)集上的一些經(jīng)典VQA方法性能Tab.4 Performance of some classical VQA methods on KoNViD-1k and LIVE-Qualcomm Datasets

由實驗結(jié)果可以看出,傳統(tǒng)的方法在面對自然失真的數(shù)據(jù)集所呈現(xiàn)出的實驗效果就非常差了,其性能相比較使用深度學(xué)習(xí)的方法有著很大的差距。也就意味著傳統(tǒng)方法中,人為設(shè)計的手工特征很難應(yīng)對視頻中的自然失真,而基于深度學(xué)習(xí)的方法能夠很好的對自然失真進(jìn)行預(yù)測,使其呈現(xiàn)出可觀的效果。

綜上,VQA 的發(fā)展歷程當(dāng)中,有從IQA 中獲得啟發(fā)進(jìn)一步推進(jìn)成為VQA 的方法,有從FR-VQA 演變成NR-VQA 的方法,有傳統(tǒng)方法的研究,也有基于深度學(xué)習(xí)方法的問世。數(shù)據(jù)集的稀缺使NR-VQA的研究成為一個必要的方向,深度學(xué)習(xí)的出現(xiàn)也給VQA提供了更多的思路。

4 音頻質(zhì)量評價

隨著各種媒體技術(shù)的不斷發(fā)展,語音通話、觀看視頻以及欣賞音樂等活動都離不開音頻,并且音頻作為傳遞信息的一個重要手段,在未來的應(yīng)用場景會越來越多,好的音頻體驗也成為了人們的追求之一。因此,研究有效的音頻質(zhì)量評價方法能夠?qū)σ纛l的質(zhì)量起到一定的促進(jìn)作用。

與其他多媒體信息的質(zhì)量評價方法相似,音頻質(zhì)量評價可以根據(jù)評價的方式分為兩大類:主觀音頻質(zhì)量評價和客觀音頻質(zhì)量評價。主觀評價方法就是將待測音頻播放給聽聲人員,然后讓聽聲人員根據(jù)自己所聽到的音頻,然后再根據(jù)某種預(yù)先規(guī)定的標(biāo)準(zhǔn)或者尺度對音頻的質(zhì)量進(jìn)行等級劃分。主觀方法反映的更多是聽聲人員對該音頻的一種主觀印象,這種評價一般都更貼近于人們對音頻質(zhì)量的真實感受??陀^評價方法大多是收集音頻的信息,然后制定一系列的參數(shù)標(biāo)準(zhǔn),再根據(jù)收集到的音頻信息的各個指定的參數(shù)去判斷該音頻的失真程度,從而來對音頻的質(zhì)量進(jìn)行客觀的評估。本文有關(guān)音頻質(zhì)量評估方法的內(nèi)容框架如圖13 所示。

4.1 主觀音頻質(zhì)量評價

1997 年,ITU 提出了BS.1116-1 標(biāo)準(zhǔn),該方法也叫《多聲道音頻系統(tǒng)中小損傷主觀評價方法》,是音頻質(zhì)量評價領(lǐng)域的開山之作,之后很多方法都是根據(jù)該方法進(jìn)行改進(jìn)。其核心思想是將音頻的級別分為優(yōu)、良、中、差、劣五個等級,每個等級對應(yīng)了一個MOS分?jǐn)?shù)區(qū)間,然后讓參與測試的人員對音頻進(jìn)行打分,分越高表明音頻質(zhì)量越好。最后綜合所有的評分結(jié)果來得到最終的音頻質(zhì)量。之后在2003年時,ITU 對BS.1116-1 標(biāo)準(zhǔn)進(jìn)行了改進(jìn),優(yōu)化了測試的條件,對用來評價的參數(shù)進(jìn)行了更加科學(xué)的調(diào)整,提出了更加完善的BS.1534-1標(biāo)準(zhǔn)作為主觀評價方法,也稱MUSHRA(Multiple Stimuli with Hidden Ref?erence and Anchor)主觀評價方法,該方法相比ITU-R BS.1116 工作量較小,同時結(jié)果也更可靠。隨著對BS.1116方法的不斷改進(jìn),現(xiàn)在比較通用的受認(rèn)可度比較高的主觀方法為ITU-R BS.1284[83]評價標(biāo)準(zhǔn)。

4.2 客觀音頻質(zhì)量評價

由于主觀評價的結(jié)果容易受到外界干擾因素的影響,并且需要耗費大量的人力、物力和財力,成本過高,于是客觀音頻質(zhì)量評價的研究變得十分有必要。

和圖像視頻的客觀評價方法一樣,音頻的客觀質(zhì)量評價也可以根據(jù)對參考音頻的依賴程度分為三大類型:全參考、部分參考和無參考。

傳統(tǒng)的客觀評價方法是將待測音頻的一些提前制定好的參數(shù)類型進(jìn)行提取出來,然后再將提取出來的參數(shù)和參考的音頻參數(shù)進(jìn)行對比,并設(shè)定相應(yīng)的指標(biāo)來判斷該音頻質(zhì)量的優(yōu)劣程度。常用的方法有峰值信噪比和總諧波失真等。但是,這些傳統(tǒng)的方法沒有考慮到人類的聽覺特性,僅僅是將音頻中一些參數(shù)提出進(jìn)行測評,這導(dǎo)致了有些音頻通過傳統(tǒng)方法獲得了較高的評價,但是人們聽起來效果依然十分不理想,因為某些選定的參數(shù)對于人類的聽覺來說并不那么容易感知到,這使得客觀評價的結(jié)果與主觀評價的結(jié)果有著較大的出入。

4.2.1 有參考音頻質(zhì)量評價

ITU-R 組織在2001 年提出了著名的BS.1387 標(biāo)準(zhǔn)(即PEAQ 標(biāo)準(zhǔn),Perceptual Evalation of Audio Quality),該方法將心理聲學(xué)模型與感知模型相結(jié)合,這是目前的音頻質(zhì)量客觀評價國際標(biāo)準(zhǔn)[84]。PEAQ核心算法結(jié)構(gòu)如圖14所示。

PEAQ 方法大概分為兩個步驟,第一步是將參考音頻和待測音頻的信號輸入心理聲學(xué)模型,然后將該模型的輸出分為兩部分,將其中一部分輸入感知模型進(jìn)行特征的提取和綜合,然后再與另一部分的輸出一起輸入神經(jīng)網(wǎng)絡(luò),得到多維MOV 值之后,利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練測試求失真系數(shù)DI。最后把失真系數(shù)DI 值轉(zhuǎn)化為客觀評價分?jǐn)?shù)ODG。公式如下:

其中,bmin和bmax為設(shè)定好的權(quán)重參數(shù),DI 為失真系數(shù),sig(·) 為閾值函數(shù)。ODG∈[-4,0]表示音頻質(zhì)量評價分?jǐn)?shù),其中0表示最好,-4表示最差。

在PEAQ 方法提出來之后,許多研究人員對其進(jìn)行了改良,Cave 等人[85]將時域掩蔽模型和SPL 計算方法引入PEAQ 方法,以此來彌補該方法的不足。Huber[86]等提出了PEMO-Q 方法,該方法基于經(jīng)過心理聲學(xué)驗證的聽覺模型,對于不同類型的音頻信號和信號衰減,可以預(yù)測非常細(xì)微的以及更嚴(yán)重的質(zhì)量降級。預(yù)測的音頻質(zhì)量與所應(yīng)用的測試材料的主觀質(zhì)量評級顯示出良好的相關(guān)性。PEMO-Q具有更高的泛化能力,但是它不適合預(yù)測線性失真對感知質(zhì)量的影響。

Hines 等人[87]評估客觀質(zhì)量指標(biāo)是否可以預(yù)測音質(zhì)通過將客觀預(yù)測與聽眾測試的結(jié)果進(jìn)行比較,以低比特率編碼的音樂。對三個客觀指標(biāo)進(jìn)行了基準(zhǔn)測試:PEAQ、POLQA 和VISQOLAudio。結(jié)果表明,為語音質(zhì)量評估設(shè)計的客觀指標(biāo)在低比特率音頻編解碼器的質(zhì)量評估方面具有強大的潛力。

Barbedo 等人[88]引入新的認(rèn)知模型提高了PEAQ 的準(zhǔn)確性。Moore 等人[89-90]對PEAQ 方法進(jìn)行改進(jìn),提出針對線性失真和非線性失真的音頻感知質(zhì)量進(jìn)行評分的方法,并通過實驗證明具有良好的效果。Zheng等人[91]提出了一種與PEAQ(音頻質(zhì)量的感知評估)兼容的改進(jìn)的客觀音頻質(zhì)量評估系統(tǒng)。基于計算聽覺模型,使用了一種新的心理聲學(xué)模型來評估嚴(yán)重受損音頻的質(zhì)量。并使用線性MOA 和Minmax MOA 進(jìn)行計算,對感知模型做出估計,該方法能夠適用于質(zhì)量高度受損的音頻。Zhu等人[92]提出了一種改進(jìn)的結(jié)構(gòu)相似性的音頻質(zhì)量評價方法,即調(diào)制結(jié)構(gòu)相似性分析(Structural Simi?larity Analysis of Modulation,SSAM),該方法使得PEAQ 方法不僅能適用于損失小的音頻,也能夠?qū)Ω叨仁軗p的音頻進(jìn)行評價。

然而,不管對PEAQ 如何進(jìn)行改進(jìn),全參考的方式仍然有著無法避免的問題,那就是需要原始的參考音頻,然而在實際問題中,很難獲得原始的參考音頻,因此研究不需要參考音頻的無參考音頻質(zhì)量評價方法是目前研究的大方向。

4.2.2 無參考音頻質(zhì)量評價

在圖像、視頻等評價領(lǐng)域的無參考評價方法都取得了一定的發(fā)展,而在音頻領(lǐng)域,直到2013 年,Li 等人[93]提出了使用機器學(xué)習(xí)的方法將音頻質(zhì)量評價轉(zhuǎn)換為對音頻質(zhì)量進(jìn)行排序,從而間接地得到音頻的大概質(zhì)量,該方法主要用于現(xiàn)場音樂的評價。到了2015 年,Yang 等人[94]使用波形來進(jìn)行無參考網(wǎng)絡(luò)語音質(zhì)量評估,該方法對需要評價的音頻進(jìn)行解碼得到信號波形,綜合多種失真因素來得到語音感知質(zhì)量。Defraene 等人[95]在2016 年通過應(yīng)用基于嵌入式優(yōu)化的預(yù)補償算法,以減輕音頻信號中可感知的線性和非線性失真,使音頻質(zhì)量得到改善。同時發(fā)現(xiàn)主觀和客觀PEAQ 音頻質(zhì)量分?jǐn)?shù)之間的正相關(guān),驗證了使用PEAQ 預(yù)測線性和非線性失真對感知音頻質(zhì)量的影響的有效性。Sun等人[96]利用SSIM 算法得到待評價音頻的質(zhì)量分?jǐn)?shù)并結(jié)合PEAQ 方法得到的質(zhì)量分?jǐn)?shù)對主觀評價的分?jǐn)?shù)進(jìn)行擬合。Kang[97]在2017 年結(jié)合了多種無參考評價方案提出了一套無參考的音頻質(zhì)量評價方法,其核心是通過提取音頻關(guān)鍵指標(biāo)信息來作為評價依據(jù)。結(jié)合了音頻靜音、音頻爆音、音頻反相、音頻響度這四個指標(biāo)進(jìn)行質(zhì)量評價,同時佐以音頻采樣率、聲道數(shù)等參數(shù)進(jìn)行輔助測量,在不依托原始質(zhì)量音頻作為參考的情況下,比較好的解決了音頻質(zhì)量參數(shù)的測量問題,同時做到了邊測量邊輸出,可以實時的觀察當(dāng)前音頻的質(zhì)量狀況。到了2020 年,Min 等人[98]提供了一種基于自然音頻統(tǒng)計特性的無參考音頻質(zhì)量評價方法,通過將相關(guān)的自然圖像統(tǒng)計特性推廣至自然音頻統(tǒng)計,從而實現(xiàn)基于自然音頻統(tǒng)計的無參考音頻質(zhì)量評價。

傳統(tǒng)的音頻質(zhì)量評價方法已經(jīng)基本成熟,當(dāng)前僅針對音頻的質(zhì)量評價也基本能滿足人們的日常需求,但是在現(xiàn)實生活中音頻往往伴隨著各類其他形式的信息出現(xiàn),尤其是音頻與視頻之間的聯(lián)系。例如,視頻中往往伴隨著音頻,當(dāng)視頻或音頻的失真可能導(dǎo)致音畫不同步的現(xiàn)象也會極大的影響用戶的體驗。因此在之后的研究當(dāng)中,如何將音頻信息與視頻信息相結(jié)合,提出視聽聯(lián)合的質(zhì)量評價方法也是非常有必要的。

5 文本質(zhì)量評價

文本質(zhì)量評價方法也可以分為人工評估和自動評估的方式,人工評價是指人工閱讀和查看內(nèi)容的過程,并在此基礎(chǔ)上人工編碼進(jìn)行分析,最終做出判斷。人工評價的過程會更加的靈活,但是人工評價往往過程繁瑣,耗費時間較長并且容易受到實驗者的個人主觀因素的影響。自動評估又可以分為無訓(xùn)練的和基于神經(jīng)網(wǎng)絡(luò)的方法。本文所介紹的文本質(zhì)量評價內(nèi)容框架如圖15所示。

5.1 自動文本評分(AES)

自動文本評分(AES)是指一套統(tǒng)計和自然語言處理技術(shù),用于在評分等級上自動給文本評分。一個典型的AES 系統(tǒng)將一篇關(guān)于特定主題的文章作為輸入。然后,系統(tǒng)會根據(jù)文章的內(nèi)容、語法、組織和上面討論的其他因素,給文章分配一個反映其質(zhì)量的數(shù)字分?jǐn)?shù)。

5.1.1 基于手工選擇特征

由于多種因素影響文本的質(zhì)量,自動測試系統(tǒng)通常利用大量的文本特征,這些特征對應(yīng)于文本的不同屬性,如語法、詞匯、風(fēng)格、主題相關(guān)性以及語篇連貫和銜接。除了詞匯和詞性標(biāo)注之外,語言上更深層次的特征,如句法結(jié)構(gòu)的類型、語法關(guān)系和句子復(fù)雜性的度量,也是構(gòu)成自動測試系統(tǒng)內(nèi)部標(biāo)記標(biāo)準(zhǔn)的一些屬性。文本的最終表示通常由特征向量組成,這些特征被手動選擇和調(diào)整以預(yù)測評分等級上的分?jǐn)?shù)。簡單地說基于手工選擇特征的AES 方法通常都是通過人工設(shè)計提取相關(guān)文本特征,再使用分類回歸或者排序的方法對文本內(nèi)容進(jìn)行評測。

90 年代即初代所提出的自動文本評分技術(shù)主要是從文本中提取多個文本特征,通過多元回歸的方法以人工評分作參考進(jìn)行分析。2006年Attali和Burstein 提出的E-rater[99]被教育考試服務(wù)用于自動論文評分,具有小而有意義的特征集和簡單直觀的組合特征的方式。這些特征允許用戶對評分過程進(jìn)行更大程度的判斷控制,例如確定由系統(tǒng)測量的不同書寫尺寸的相對重要性。它還允許評分更加標(biāo)準(zhǔn)化,特別是允許為程序或評估的所有提示開發(fā)單一評分模型。這些方面有助于e-rater的有效性,允許更好地理解和控制自動評分。寫作文本的質(zhì)量分析主要包括語義、詞匯、語言準(zhǔn)確性、結(jié)構(gòu)質(zhì)量等多個方面,但e-rater 衡量標(biāo)準(zhǔn)顯然沒有涵蓋寫作文本質(zhì)量的所有重要方面,也沒有完美地衡量它所涵蓋的維度。對文本結(jié)構(gòu)的分析只拘泥于文本的表層特征,關(guān)注文本語句的多樣性。

2014 年Somasundaran 等人[100]提出將詞匯鏈特征與話語要素的互動特征相結(jié)合,從語篇連貫看文本的質(zhì)量,可提高系統(tǒng)語篇特征:語法特征、詞匯用法特征、機制錯誤特征等,這里使用詞匯鏈特征來訓(xùn)練一個語篇連貫分類器,詞匯銜接是有助于詞匯意義連續(xù)性的相關(guān)詞匯鏈的結(jié)果。這些序列的特點是單詞之間的關(guān)系,以及它們在給定范圍內(nèi)的距離和密度。詞匯鏈不受句子邊緣的限制,它們可以將相鄰的單詞連接起來,也可以遍及到整個文本的范圍。

2015 年McNamara 等人[101]使用了一種層次分類方法進(jìn)行自動評分,與以往依賴回歸模型的研究不同,該方法使用類似于遞階分類增量算法的分層算法來計算文本分?jǐn)?shù),利用語義和修辭特征等,分析中包含的特征是使用自動化工具Coh-Metrix、寫作評估工具(WAT)以及語言查詢和字?jǐn)?shù)統(tǒng)計(LIWC)計算得出的。

以上自動評分系統(tǒng)具有強大的預(yù)測能力,但它們覆蓋范圍有限,將說服力因素的知識納入文本評分模型可以增加與評分結(jié)構(gòu)和寫作文本任務(wù)直接相關(guān)的特征。2015年Farra等人[102]開發(fā)了基于從意見、主題和意見-目標(biāo)中提取的特征并結(jié)合了邏輯推理和線性回歸的變體的模型系統(tǒng)來評估文本。為此構(gòu)建了三個獨立系統(tǒng):1)意見—系統(tǒng)僅使用基于意見表達(dá)的特征,并測試表達(dá)意見是否影響文章分?jǐn)?shù)。2)主題—系統(tǒng)僅使用基于主題表達(dá)的特征,并且測試喚起與提示相關(guān)聯(lián)的相關(guān)主題是否影響文章分?jǐn)?shù)。3)意見-目標(biāo)—系統(tǒng)使用基于意見及其目標(biāo)的組合的特征,目的是測量意見的相關(guān)性和一致性,這個系統(tǒng)測試了根據(jù)觀點和目標(biāo)的相互作用來預(yù)測文章分?jǐn)?shù)的效果。

但是傳統(tǒng)的文章評分工作集中在自動手工制作的特征上,這些特征很昂貴,且很稀少。而且手工選擇的特征具有針對性,每一種方法所涵蓋的文本特征有限,系統(tǒng)的泛化性不強。

5.1.2 基于深度學(xué)習(xí)

神經(jīng)模型提供了一種自動學(xué)習(xí)句法和語義特征的方法,不用依賴于特征的手工工程,以端到端的方式可更好改善離散特征。大多數(shù)現(xiàn)有的基于深度學(xué)習(xí)的作品使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)對輸入文本進(jìn)行建模。2016 年Dong 等人[103]為AES 任務(wù)建立了一個高層次的CNN模型,CNN模型將短文評分作為回歸任務(wù),采用兩層CNN 模型,有一個較低層次的表示句子結(jié)構(gòu)和一個基于句子表示的較高層的表示文章結(jié)構(gòu)。

相比較于CNN,LSTM 在模擬長期歷史方面很強大,2016 年Taghipour 等人[104]提出一種基于遞歸神經(jīng)網(wǎng)絡(luò)的方法在單詞序列上使用一層LSTM 來學(xué)習(xí)論文與其指定分?jǐn)?shù)之間的關(guān)系,而無需任何特征工程。

2017年Dong等人[105]繼續(xù)提出了一種基于分層注意力的CNN-LSTM 自動作文評分模型,結(jié)合CNN和LSTM 兩種網(wǎng)絡(luò)優(yōu)勢通過構(gòu)建一個層次化的句子-文檔模型來表示短文,使用注意機制來自動決定單詞和句子的相對權(quán)重。神經(jīng)模型使用LSTMs 學(xué)習(xí)文本表示,這可以模擬句子序列之間的一致性和共指性(與CNNs 相比,捕獲更多的全局信息)。此外,注意力集中在單詞和句子上,旨在捕捉更多有助于論文最終質(zhì)量的相關(guān)單詞和句子。

深層多層神經(jīng)網(wǎng)絡(luò)可以從數(shù)據(jù)中自動提取有用的特征,下層學(xué)習(xí)基本的特征檢測器,上層學(xué)習(xí)更高級的抽象特征。盡管基于神經(jīng)網(wǎng)絡(luò)的方法比傳統(tǒng)的統(tǒng)計方法表現(xiàn)更好,然而深度神經(jīng)網(wǎng)絡(luò)模型不允許識別和提取網(wǎng)絡(luò)識別為有區(qū)別的文本屬性,特別是沒考慮文檔中的整體語言和認(rèn)知因素。2018 年Dasgupta 等人[106]提出了一種定性增強的深卷積遞歸神經(jīng)網(wǎng)絡(luò)計算文本質(zhì)量的方法,提出的系統(tǒng)考慮了單詞和句子層面的嵌入。該論文使用的基于語言的卷積遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖16所示,這里不僅依賴于文本的預(yù)先訓(xùn)練的單詞或句子表示,而且考慮了質(zhì)量增強的特征,例如,詞匯多樣性、信息性、銜接性、良好形式等,利用層次卷積遞歸神經(jīng)網(wǎng)絡(luò)框架增強了不同的復(fù)雜語言,與文本相關(guān)的認(rèn)知和心理特征。語言特征向量的加入確實提高了輸入文章的整體評分。

首先構(gòu)建了一個預(yù)先訓(xùn)練好的句子向量,來自每個輸入文章的句子向量被附加上由該特定句子的語言特征形成的向量。將每個生成的單詞X1,X2,…Xh嵌入饋送到卷積層進(jìn)行連接形成長度為h的向量X,對輸出向量進(jìn)行如下卷積操作:

其中w和b是網(wǎng)絡(luò)學(xué)習(xí)的權(quán)重。

使用雙向LSTMs 網(wǎng)絡(luò)連接以便可以檢查未來和過去的序列上下文(即前面和后面的元素)。從雙向LSTMs 層中獲得中間隱藏層之后,在激活層中又在句子表示上使用了注意力集中層。集中注意力有助于獲得句子對文本最終質(zhì)量的貢獻(xiàn)權(quán)重。句子的注意力集中表現(xiàn)為:

其中Wa和wα分別為權(quán)重矩陣和向量,ba是偏向向量,ai為第i句的注意向量,αi為第i句的注意權(quán)重。O是最終的文本表示,它是所有句子向量的加權(quán)和。

線性圖層對輸入向量執(zhí)行線性變換,將其映射為連續(xù)的標(biāo)量值:

其中X為輸入向量,w為權(quán)重向量,b為偏差值。

2018年Mathias等人[107]證明注視行為有助于有效預(yù)測文本質(zhì)量的等級,使用從讀者的注視行為中獲得認(rèn)知信息,通過將注視特征添加到傳統(tǒng)的文本特征中來預(yù)測分?jǐn)?shù)。該方法基于三個屬性來評估整體質(zhì)量——組織性、連貫性和凝聚力,將文本質(zhì)量建模為三個屬性的函數(shù)——組織、連貫和銜接,使用李克特量表,范圍從1 到4,用于測量這些屬性中的每一個;分?jǐn)?shù)越高,就該屬性而言,文本越好。這里使用這三個分?jǐn)?shù)作為輸入,在1 到10 的范圍內(nèi)對文本質(zhì)量評級進(jìn)行建模:

其中Quality(T)是文本T的文本質(zhì)量等級,Org(T),Chr(T)和Chs(T)分別對應(yīng)于文本的組織、連貫和銜接分?jǐn)?shù)。這里減去2,將分?jǐn)?shù)從3~12分為1~10。

5.1.3 自動文本評分系統(tǒng)實驗結(jié)果分析

本節(jié)的實驗主要是在Automated Student As?sessment Prize(ASAP)數(shù)據(jù)集上進(jìn)行的。ASAP 數(shù)據(jù)集由8 種不同類型的提示組成,每一種提示都圍繞一個主題展開。一些提示依賴于主題信息,另一些則是自由發(fā)揮。同時使用ASAP 競賽官方標(biāo)準(zhǔn)所使用的評估標(biāo)準(zhǔn)QWK。QWK 統(tǒng)計或其變體被廣泛用于衡量注釋者或?qū)<业脑u分者之間的一致性,QWK 由kappa(一種衡量分類精度的指標(biāo))修改而來,kappa采用二次權(quán)重。

多篇方法實驗結(jié)果如下表5。

表5 自動文本評分系統(tǒng)在ASAP數(shù)據(jù)集上的性能Tab.5 Performance of the automatic text scoring system on ASAP datasets

表中前兩行的模型是一個開源的論文評分系統(tǒng)EASE(增強型人工智能評分引擎),該系統(tǒng)是參加ASAP 競賽的最佳開源系統(tǒng),EASE 基于手工制作的語言特征和回歸方法,包括支持向量回歸(SVR)和貝葉斯線性嶺回歸(BLRR)。在EASE 上與SVR模型相比,BLRR 模型的性能有所提高。而從表中數(shù)據(jù)對比得出,基于深度學(xué)習(xí)的方法在ASAP 數(shù)據(jù)集上的性能是比基于手工選擇特征的方法EASE 更優(yōu)異,側(cè)面也是體現(xiàn)了深度學(xué)習(xí)方法在自動文本評分系統(tǒng)應(yīng)用前景廣闊。

從表中可以得到LSTM-CNN-att 模型比CNNCNN-MoT 模型在平均QWK 指標(biāo)上好3.0%,比LSTM-MoT 模型好0.24%,這很大程度上在于LSTM-CNN-att 模型結(jié)合了LSTM 和CNN 兩個網(wǎng)絡(luò)各自的優(yōu)勢,探索CNN 的句子表示和LSTM 的文本表示,這表明,句子-文檔模式對長文章更有效。

對于提示8 篇文章,其中Qe-C-LSTM 模型平均QWK 長度最大,傳統(tǒng)的應(yīng)用深度神經(jīng)網(wǎng)絡(luò)(如CNN、LSTM 等)的方法無法識別評估文本質(zhì)量所涉及的不同因素之間的相互聯(lián)系。Qe-C-LSTM 模型在某些情況下取得了顯著的改進(jìn)是因為該方法不僅依賴于文本的預(yù)先訓(xùn)練的單詞或句子表示還考慮了定性增強的特征。

5.2 文本生成質(zhì)量評估

許多自然語言處理任務(wù)旨在響應(yīng)某些輸入生成人類可讀文本,文本生成是語言翻譯、聊天機器人、問答、摘要和人們?nèi)粘=换サ钠渌麕讉€應(yīng)用程序的關(guān)鍵組成部分。這里講NLG 評估方法分為基于人工評估和基于自動度量評估兩類。

5.2.1 基于人工評估

NLG 的最終目標(biāo)都是生成對人們有價值的文本。因此,人工評估通常被視為開發(fā)新自動指標(biāo)的黃金標(biāo)準(zhǔn)。這里將使用人類判斷評估生成的文本的方法分為內(nèi)在評估和外在評估。外在的人類評估通常用于評估對話系統(tǒng)的性能(Deriu 等人[108]),并對對話建模系統(tǒng)的發(fā)展產(chǎn)生了影響。相對來說,內(nèi)在評價比外在評價更常見。內(nèi)在評估要求人們評估生成的文本的質(zhì)量,無論是整體的還是沿著某個特定的維度(例如,流暢性、連貫性、正確性等)通常是通過從模型中生成幾個文本樣本,并要求人類評估者對它們的質(zhì)量進(jìn)行評分來完成的。

2018 年Novikova 等人[109]提出了一種新的基于秩的幅度估計方法(RankME),它結(jié)合了連續(xù)標(biāo)度和相對評估的使用。這里將幅度估計添加到排名任務(wù)中,要求評估者指出他們選擇的文本比備選文本好多少,給出了生成文本的絕對質(zhì)量。

2018 年Khashabi 等人[110]引入了GENIE,這是一個用于評估生成性自然語言處理模型的新基準(zhǔn),它使得人類能夠?qū)δP瓦M(jìn)行大規(guī)模評分,為生成性自然語言處理任務(wù)發(fā)布了一個公共排行榜??梢詫⑷巳汗ぷ髡叻磻?yīng)轉(zhuǎn)換成模型性能估計和置信區(qū)間的方法形式化。這里包括了標(biāo)準(zhǔn)化的人工評估,但是需要注意的是統(tǒng)一性和一致性帶來了僵化和過度適應(yīng)錯誤目標(biāo)的可能性。

人工評估最能洞察模型在任務(wù)中的表現(xiàn),但人工評估運行起來既昂貴又耗時,而且關(guān)于如何進(jìn)行人工評估的細(xì)節(jié)通常是不完整或模糊的。

5.2.2 基于自動度量評估

未經(jīng)訓(xùn)練的自動度量評估方法基于相同的輸入數(shù)據(jù)將機器生成的文本與人類生成的文本(參考文本)進(jìn)行比較,并使用不需要機器學(xué)習(xí)的指標(biāo),而只是基于字符串重疊、內(nèi)容重疊、字符串距離或詞匯多樣性。但許多未經(jīng)訓(xùn)練的評估指標(biāo)假設(shè)生成的文本與真實文本有顯著的單詞(或n-gram)重疊。通過基于機器學(xué)習(xí)的方法可以避免出現(xiàn)這一問題。構(gòu)建機器學(xué)習(xí)模型可以(基于人類判斷數(shù)據(jù)訓(xùn)練)來模仿人類判斷,以測量輸出的許多質(zhì)量指標(biāo),例如事實正確性、流暢性、相似性等。

評價機器生成的文本質(zhì)量時,根據(jù)有無參考文本又分為兩種方向。有參考的是比較待評文本和參考文本的相似程度作評分,這種研究居多;不需要參考文本的評分又稱為質(zhì)量估計,這種被視為二分類問題。

在比較與參考文本間的相似度的方法其實是多樣的,就比如基于句子語義相似度的評估的方法,Conneau 等 人[111]擴(kuò) 展Dssm 模 型(Huang 等人[112])提出一種有效的模型(Infersent),它使用基于LSTM 的暹羅網(wǎng)絡(luò),對詞序進(jìn)行編碼,通過基于句子編碼的模型方式在SNLI數(shù)據(jù)集上進(jìn)行模型訓(xùn)練,一定程度上提升了句子嵌入質(zhì)量的水平。如圖17 所示,這種類型的典型架構(gòu)使用共享句子編碼器,可以輸出前提和假設(shè)的表示,這里前提即為u,假設(shè)為v。當(dāng)生成句子向量時,就會立刻匹配三種不同的方法來提取u和v之間的關(guān)系:1.兩個表示(u,v)的串聯(lián);2.元素積u*v;和3.絕對元素差異|u-v|。從前提和假設(shè)中獲取信息的結(jié)果向量被輸入到一個3類分類器中,該分類器由多個完全連接的層組成,最終形成一個軟最大值層。

在基于回歸分類的方法上,Logeswaran 等人[113]從分布假設(shè)和學(xué)習(xí)句子表征的工作中得到啟發(fā),將預(yù)測句子中所出現(xiàn)的上下文的問題進(jìn)行重新表述作為一種分類問題,提出基于在連續(xù)句子上訓(xùn)練的通用句子嵌入的無監(jiān)督模型。上下文句子與其他對比句子由分類器在給定的一個句子及其出現(xiàn)的上下文語境時根據(jù)其向量來進(jìn)行區(qū)分,這能夠有效地學(xué)習(xí)不同類型的編碼函數(shù),可以通過使用句子表征作為下游NLP 任務(wù)的特征表征來評估句子表征。Kim 等人[114]提出了基于一個端到端的堆疊神經(jīng)模型,稱為預(yù)測-估計器,其結(jié)構(gòu)如圖18,它有兩個階段,包括神經(jīng)單詞預(yù)測模型和神經(jīng)翻譯質(zhì)量評估模型,該模型采用多級任務(wù)學(xué)習(xí),對句子、單詞和短語級別評估翻譯質(zhì)量(QE)。Martins 等人[115]提出的QE 系統(tǒng)由一個神經(jīng)模型(NEURALQE)堆疊成一個線性特征豐富的分類器(LINEARQE),訓(xùn)練自動后期編輯APE 系統(tǒng)(使用大量的人工“往返翻譯”),并調(diào)整預(yù)測句子級質(zhì)量評分和單詞級質(zhì)量標(biāo)簽。

Bidirectional Encoder Representation from Trans?formers(BERT)是一個預(yù)訓(xùn)練的語言表征模型,已經(jīng)被證明具有良好的自然語言理解能力,2020 年,Zhou 等人[116]提出了一個“學(xué)習(xí)比較”模型,以更好地評估基于成對比較的NLG 模型生成的文本的質(zhì)量。該模型能夠以自我監(jiān)督的方式通過微調(diào)從BERT 傳遞自然語言理解知識,同時還能夠通過人類偏好注釋進(jìn)一步微調(diào)。一旦經(jīng)過訓(xùn)練,該模型能夠在不需要黃金參考的情況下進(jìn)行模型間比較,這極大地擴(kuò)大了潛在的可用測試集,并降低了測試集中過度擬合參考的潛在風(fēng)險,該方法與人類評價有更好的相關(guān)性。

6 結(jié)論

全媒體內(nèi)容包涵多種信息模態(tài),本文重點介紹了四種常見模態(tài)下質(zhì)量評價方法的發(fā)展情況,如圖像、聲音、文本、視頻,這其中每種信息模態(tài)均各自形成了一套、或者多套較為完善質(zhì)量評價方法。對媒體的內(nèi)容進(jìn)行質(zhì)量評價是提升用戶信息交互體驗感的核心環(huán)節(jié),各種模態(tài)下的質(zhì)量評價方法都經(jīng)過了長期的理論研究和實踐的積累。其中主觀質(zhì)量評價的方法以及規(guī)范流程已經(jīng)較為完善,而客觀評價方法在以主觀感受為參考的約束下也在逐漸成熟。這些方法相互獨立,自成體系,難以使用一套準(zhǔn)則進(jìn)行統(tǒng)一,不利于在多種信息模態(tài)融合的情況下進(jìn)行主觀一致性評價。無論是基于傳統(tǒng)方法的還是基于深度學(xué)習(xí)方法,在不同應(yīng)用場景下,都有其適用的特點。傳統(tǒng)方法泛化能力受限但計算量小,深度學(xué)習(xí)結(jié)構(gòu)復(fù)雜但評價精度高,在實際應(yīng)用場景中我們可以根據(jù)需要,根據(jù)不同方法的特點進(jìn)行選擇。但是就目前來看深度學(xué)習(xí)方法的應(yīng)用仍是質(zhì)量評價領(lǐng)域的主流。如今面對現(xiàn)實生活中失真多樣化的情況,單一算法還有所欠缺不能同時識別多種失真。因此,需要研究混合多種信息模態(tài)失真的多任務(wù)學(xué)習(xí)深度神經(jīng)網(wǎng)絡(luò)框架,在不同層面上對各個模態(tài)信息的失真予以度量。

在這個全媒體充斥著我們生活方方面面的時代,人們用來信息交互的手段越來越多樣化,媒體用來呈現(xiàn)內(nèi)容的方式越來越豐富,這些因素都使得人們傳輸?shù)男畔⑹艿接绊?。由于傳輸?shù)姆绞胶褪侄尾划?dāng),信息在傳播過程當(dāng)中產(chǎn)生失真、模糊和噪聲等問題,使得用戶無法有效的接收到信息甚至對信息產(chǎn)生迷惑和反感。但是,目前針對這些問題的全媒體內(nèi)容質(zhì)量評價方法僅僅停留在“流量思維”的階段,并不能客觀合理的對其質(zhì)量進(jìn)行評價,也無法有效的評價傳播的效能。因此,發(fā)展能夠以用戶的體驗為中心、以用戶的需求為導(dǎo)向,并將多種模態(tài)下的質(zhì)量評價方法進(jìn)行凝煉和融合的全媒體質(zhì)量評價方法是十分有必要的。

猜你喜歡
音頻評估特征
不同評估方法在T2DM心血管病風(fēng)險評估中的應(yīng)用
離散型隨機變量的分布列與數(shù)字特征
第四代評估理論對我國學(xué)科評估的啟示
柏韻音頻舉辦Pureaudio 2021新產(chǎn)品發(fā)布會
抓特征解方程組
不忠誠的四個特征
必須了解的音頻基礎(chǔ)知識 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
基于Daubechies(dbN)的飛行器音頻特征提取
Pro Tools音頻剪輯及修正
立法后評估:且行且盡善
泉州市| 鱼台县| 崇阳县| 阳曲县| 普陀区| 西乌珠穆沁旗| 乌苏市| 红安县| 浦城县| 城市| 英山县| 同德县| 上蔡县| 富川| 临安市| 福安市| 汝南县| 万源市| 陆丰市| 德令哈市| 靖安县| 古交市| 文山县| 革吉县| 城口县| 佛山市| 澄迈县| 阜城县| 河池市| 双鸭山市| 通渭县| 东宁县| 玉林市| 五寨县| 资源县| 蓝田县| 和田县| 托克托县| 五大连池市| 遂溪县| 安阳县|