AI驅(qū)動的超分辨技術(shù)落地實踐

2021-03-02 01:10易云

中國信息化周報 2021年2期

近年來，隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展，基于AI的超分辨技術(shù)在圖像恢復(fù)和圖像增強領(lǐng)域呈現(xiàn)出廣闊的應(yīng)用前景，受到了學(xué)術(shù)界和工業(yè)界的關(guān)注和重視。但是，在RTC視頻領(lǐng)域中，很多AI算法并不能滿足實際場景下的應(yīng)用需求。

超分辨技術(shù)的提出

超分辨這一概念最早是在20世紀60年代由Harris和Goodman提出的，是指從低分辨率圖像，通過某種算法或模型生成高分辨圖像的技術(shù)，并且盡可能地恢復(fù)出更多細節(jié)信息，也稱為頻譜外推法。但是在研究初期，頻譜外推法只是用于一些假設(shè)條件下的仿真，并沒有得到廣泛的認可;直到單張圖像的超分辨方法提出后，超分辨技術(shù)才開始得到廣泛的研究和應(yīng)用。目前，它已經(jīng)成為圖像增強乃至計算機視覺領(lǐng)域的重要研究方向。

超分辨技術(shù)的分類

單張圖像的超分辨方法根據(jù)原理不同，可以分為基于插值、基于重構(gòu)和基于學(xué)習(xí)的方法。前面兩種方法分別由于算法原理簡單以及應(yīng)用場景受限，在實際場景中的超分辨效果并不理想;基于學(xué)習(xí)的方法，是實際效果最好的超分辨方法，其核心包括兩個部分：算法模型的建立，以及訓(xùn)練集的選取。根據(jù)算法模型和訓(xùn)練集，基于學(xué)習(xí)的方法又可以分為傳統(tǒng)學(xué)習(xí)方法和深度學(xué)習(xí)方法。一般來說，傳統(tǒng)學(xué)習(xí)方法的算法模型比較簡單，訓(xùn)練集也比較小。深度學(xué)習(xí)方法一般是指采用大量數(shù)據(jù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)方法，也是目前學(xué)術(shù)界研究的熱點。因此接下來我將重點介紹基于深度學(xué)習(xí)的超分辨方法的發(fā)展過程。

DL-based SR

SRCNN是深度學(xué)習(xí)方法在超分辨問題的首次嘗試，是一個比較簡單的卷積網(wǎng)絡(luò)，由3個卷積層構(gòu)成，每個卷積層負責(zé)不同的職能。第一個卷積層的作用主要是負責(zé)提取高頻特征，第二個卷積層則負責(zé)完成從低清特征到高清特征的非線性映射，最后一個卷積層的作用是重建出高分辨率的圖像。SRCNN的網(wǎng)絡(luò)結(jié)構(gòu)比較簡單，超分辨效果也有待改善，不過它確立了深度學(xué)習(xí)方法在處理超分辨這類問題時的基本思想。后來的深度學(xué)習(xí)方法，基本都遵循這一思想去進行超分辨的重建。

后來的 ESPCN、FSRCNN等網(wǎng)絡(luò)基于SRCNN進行了一些改進，網(wǎng)絡(luò)層數(shù)仍然比較淺，卷積層數(shù)不會超過10，超分辨的效果也不是特別理想。因為在當(dāng)時，深度卷積網(wǎng)絡(luò)的訓(xùn)練是存在問題的。一般對于卷積神經(jīng)網(wǎng)絡(luò)來說，當(dāng)網(wǎng)絡(luò)層數(shù)增加的時候，性能也會增加，但在實際應(yīng)用中，人們發(fā)現(xiàn)當(dāng)網(wǎng)絡(luò)層數(shù)增加到了一定程度，由于反向傳播原理，就會出現(xiàn)梯度消失的問題，導(dǎo)致網(wǎng)絡(luò)收斂性變差，模型性能降低。這個問題直到ResNet提出殘差網(wǎng)絡(luò)結(jié)構(gòu)之后，才得到比較好的解決。

VDSR是殘差網(wǎng)絡(luò)以及殘差學(xué)習(xí)思想在超分辨問題上的首次應(yīng)用，將超分辨網(wǎng)絡(luò)的層數(shù)首次增加到了20層，優(yōu)點是利用殘差學(xué)習(xí)的方式，直接學(xué)習(xí)殘差特征，網(wǎng)絡(luò)收斂會比較快，超分辨效果也更好。后來一些卷積神經(jīng)網(wǎng)絡(luò)提出了更復(fù)雜的結(jié)構(gòu)，比如，SRGAN提出使用生成式對抗網(wǎng)絡(luò)來生成高分辨的圖像，SRGAN由2部分組成，一個是生成網(wǎng)絡(luò)，另一個是判別網(wǎng)絡(luò)。生成網(wǎng)絡(luò)的作用是根據(jù)一張低分辨率的圖像來生成一張高分辨的圖像，而判別網(wǎng)絡(luò)的作用是將生成網(wǎng)絡(luò)生成的高分辨圖像判定為假，這樣網(wǎng)絡(luò)在訓(xùn)練的時候，生成網(wǎng)絡(luò)和判定網(wǎng)絡(luò)兩者之間不斷博弈，最終達到平衡，從而生成細節(jié)紋理比較逼真的高分辨圖像，具有更好的主觀視覺效果。其他深度卷積網(wǎng)絡(luò)方法比如SRDenseNet、EDSR、RDN，使用了更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)，網(wǎng)絡(luò)的卷積層越來越深，在單張圖像上的超分辨效果也越來越好。

超分辨技術(shù)發(fā)展的總體趨勢，基本上可以概括為從傳統(tǒng)方法，到深度學(xué)習(xí)方法，從簡單的卷積網(wǎng)絡(luò)方法到深度殘差網(wǎng)絡(luò)方法。在這個過程中，超分辨模型結(jié)構(gòu)越來越復(fù)雜，網(wǎng)絡(luò)層次越來越深，單張圖像的超分辨效果也越來越好，不過這也會有一定的問題。

實時視頻任務(wù)的需求與SR的挑戰(zhàn)

在RTC領(lǐng)域，對于視頻處理任務(wù)來說，大多是直播和會議等即時通信場景，對算法的實時性要求比較高，所以視頻處理算法的實時性是優(yōu)先考慮的。然后是算法的實用性，由于用戶在使用直播或會議時，攝像頭采集到的視頻質(zhì)量有時比較低下，可能包含很多噪點;另外視頻在編碼傳輸時會先進行壓縮，壓縮的過程也會導(dǎo)致圖像畫質(zhì)退化，所以RTC實際應(yīng)用場景比較復(fù)雜，而很多視頻處理方法，比如，超分辨算法在研究中的是比較理想的場景。最后，如何提升用戶尤其是移動端用戶的體驗，減少算法的計算資源占用，適用更多終端和設(shè)備，也是視頻任務(wù)所必須考慮的。

對于這些需求，目前的超分辨方法尤其是基于深度學(xué)習(xí)的超分辨方法是存在很多問題的。目前學(xué)術(shù)界關(guān)于超分辨的研究大多還是局限在理論階段，圖像超分，尤其是視頻超分如果要大規(guī)模落地，必須要去解決一些實際問題。首先是網(wǎng)絡(luò)模型的問題，目前很多深度學(xué)習(xí)方法為了追求更好的超分辨效果，采用的模型規(guī)模比較龐大，參數(shù)量越來越多，會耗費大量的計算資源，在很多實際場景無法實時處理。其次是深度學(xué)習(xí)模型的泛化能力問題，對于各種深度學(xué)習(xí)模型來說，都會存在訓(xùn)練集適配的問題，在訓(xùn)練的時候所使用的訓(xùn)練集不同，在不同場景上的表現(xiàn)也不同，用公開數(shù)據(jù)集訓(xùn)練的模型，在實際應(yīng)用場景中未必會有同樣良好的表現(xiàn)。最后是真實場景下超分效果的問題，目前學(xué)術(shù)界的超分方法，大都是關(guān)于比較理想的場景，完成從下采樣圖像到高分辨圖像的重建，但在真實場景中，圖像退化不僅包括下采樣因素，還會有很多其他因素，比如圖像壓縮、噪點、模糊等。

綜上而言，目前基于AI的超分辨方法，在RTC視頻任務(wù)中，所面臨的主要挑戰(zhàn)可以概括為，如何憑借規(guī)模比較小的網(wǎng)絡(luò)來實現(xiàn)具有良好真實效果的視頻質(zhì)量增強，也就是怎么樣“既叫馬兒跑得快，又讓馬兒少吃草”。

視頻超分辨技術(shù)的發(fā)展方向

第一，深度學(xué)習(xí)方法依然會是超分辨算法的主流。因為傳統(tǒng)的方法在超分辨任務(wù)上的效果不夠理想，細節(jié)比較差。深度學(xué)習(xí)方法為超分辨提供了一條新的思路。近年來基于卷積神經(jīng)網(wǎng)絡(luò)的超分辨方法，逐漸成為主流方法，效果也在不斷改善。

第一，基于AI的超分辨方法相對于傳統(tǒng)方法的論文數(shù)量呈現(xiàn)出一邊倒的局面，并且這種局面在未來幾年還會進一步擴大。因為雖然存在一些問題，但隨著一些輕量級網(wǎng)絡(luò)的出現(xiàn)，深度學(xué)習(xí)方法將來在落地應(yīng)用方面可能會有更大的突破，這些問題也將會得以解決，深度學(xué)習(xí)方法依然會是超分辨的主流研究方向。第二，一些參數(shù)較小的輕量級網(wǎng)絡(luò)，在推動超分算法落地方面，會發(fā)揮更大的作用。因為目前各種深度卷積網(wǎng)絡(luò)方法，比如，EDSR、RDN這類深度殘差網(wǎng)絡(luò)難以滿足視頻實時傳輸?shù)男枰?，一些比較小的輕量級網(wǎng)絡(luò)對于實時任務(wù)會有更好的效果。第三，未來的超分辨方法會更加聚焦真實場景任務(wù)。學(xué)術(shù)領(lǐng)域的SR方法多是針對下采樣問題進行超分，在真實場景下的表現(xiàn)并不是很好，在真實場景中，圖像退化因素是各種各樣的，一些比較有針對性的方法，比如，包含壓縮損失、編碼損失以及各種噪聲的超分辨任務(wù)，可能會更加實用。

網(wǎng)易云信AI超分算法

在RTC領(lǐng)域中，由于視頻文件過于龐大，我們需要對其進行編碼，然后再傳輸?shù)浇邮斩私獯a播放。由于編碼的本質(zhì)是對視頻的壓縮，當(dāng)網(wǎng)絡(luò)比較差時，編碼量化參數(shù)會比較大，會造成嚴重的壓縮，導(dǎo)致輸出圖像產(chǎn)生塊效應(yīng)和其他失真，造成畫質(zhì)模糊。這種情況下，如果直接將解碼后的視頻進行超分，壓縮損失也會被放大，超分效果往往不夠理想。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

AI驅(qū)動的超分辨技術(shù)落地實踐