劉 欣,周佳睦,王海嬰
(北京郵電大學 網(wǎng)絡系統(tǒng)與網(wǎng)絡文化重點實驗室,北京 100876)
基于感興趣區(qū)域的航拍視頻壓縮編碼技術(shù)綜述
劉 欣,周佳睦,王海嬰
(北京郵電大學 網(wǎng)絡系統(tǒng)與網(wǎng)絡文化重點實驗室,北京 100876)
航拍視頻監(jiān)控的應用日益廣泛,而有限的信道容量和存儲空間促進了新壓縮技術(shù)的提出與發(fā)展,這其中,針對人眼的視覺特性,基于感興趣區(qū)域的視頻壓縮編碼技術(shù)發(fā)展迅速。全面分析總結(jié)了基于感興趣區(qū)域的視頻壓縮編碼技術(shù)在航拍視頻編碼中的應用。
感興趣區(qū)域;分層編碼;漸進傳輸
當前,航拍視頻監(jiān)控是一種有效的收集信息的方法,可以應用在軍事行為、災害管理以及商業(yè)等領(lǐng)域中。隨著數(shù)字圖像處理技術(shù)的發(fā)展,航拍視頻數(shù)據(jù)量激增。為了解決日益增長的應用需求和有限的網(wǎng)絡帶寬之間的矛盾,大量的航拍視頻開始通過計算機進行自動處理。
與其他視頻監(jiān)控技術(shù)不同,航拍視頻可以覆蓋較大范圍的空間區(qū)域,尤其適合監(jiān)控快速移動的目標。而在實際應用中,為了保證實時性,并不需要清晰地傳輸每一幀圖像中的全部內(nèi)容。航拍視頻中的感興趣區(qū)域(Region-of-Interest, ROI)通常是人工目標,如道路、建筑、房屋等,以及運動物體。在相同的帶寬下,對人們關(guān)注的區(qū)域進行高質(zhì)量的編碼傳輸,而對背景區(qū)域進行低質(zhì)量編碼傳輸,得到的效果要好于對整幀畫面統(tǒng)一編碼傳輸?shù)姆椒ā?/p>
傳統(tǒng)的視頻編碼核心技術(shù)大多是通過去除視頻中的時間、空間和統(tǒng)計等冗余信息來實現(xiàn)數(shù)據(jù)壓縮,這樣并沒有很好地利用人眼的主觀感知特性。因此,為了更有效地存儲和傳輸海量的視頻數(shù)據(jù),出現(xiàn)了基于人眼感知機制的壓縮方法。
感知視頻編碼利用人眼的感知性質(zhì),在沒有感到明顯的質(zhì)量下降的情況下,去除視頻中的感知冗余。根據(jù)感知理論,人們通常將注意力集中在畫面中感興趣的區(qū)域,而不是整幅畫面。根據(jù)這一特性,可以從視頻中提取感興趣的目標或區(qū)域,在編碼時對其分配較多的比特數(shù)并優(yōu)先傳輸,將其他區(qū)域視為背景,分配較少的比特數(shù)。這樣,在帶寬有限的情況下,可以保證重點區(qū)域優(yōu)先編碼和傳輸,并且在解碼端可以對感興趣區(qū)域優(yōu)先解碼。即使在碼流被截斷時,背景的解碼受到影響,但感興趣區(qū)域仍可以清晰呈現(xiàn)。對感興趣區(qū)域和背景區(qū)域分別處理,既避免了計算資源浪費,又降低了分析難度。
在觀察整個視覺場景時,人眼的注意力一次只集中在一個或者為數(shù)很少的幾個區(qū)域上,這個過程被稱為視覺注意(Visual Attention),注意力集中的區(qū)域被稱為感興趣區(qū)域。圖1是典型的視覺注意機制示例,由于形狀、顏色與周圍形成鮮明反差,觀察者會迅速地將注意力集中在圖中深色的圓盤上。
視覺注意是人類視覺系統(tǒng)(Human Visual System,HVS)中一項重要心理調(diào)節(jié)機制,能夠影響人們對各種不同刺激進行辨認和識記,并引導人們有選擇地獲取所關(guān)注目標的特征,從而降低信息處理量。認知心理學研究表明,人類處理視覺信息分為視感覺處理和視知覺處理兩個階段[1]。其中,視感覺以并行的方式接受外界的視覺刺激,視知覺以串行的方式解釋視感覺信息的意義。由于外界存在各種不同視覺刺激,視感覺提供的信息量遠遠大于視知覺階段的處理能力。同時這些視覺信息中僅有一部分對人類認知活動起重要意義,沒有必要對所有信息進行處理。因此,HVS需要利用視覺注意機制對大量視覺信息進行篩選,降低信息處理量,才能實現(xiàn)視感覺和視知覺這兩個階段的匹配,使人類可以快速地處理視覺信息,并及時作出反應。
圖1 視覺注意機制示意圖
視覺注意的一般表現(xiàn)形式是眼動(Eye Movement),根據(jù)是否伴隨眼動,可以將視覺注意分為顯式選擇性注意(Overt Attention)和隱式選擇性注意(Covert Attention)。由于人眼具有中央凹特性,即視網(wǎng)膜中心部分的分辨率遠高于周圍部分[2],人類注意力轉(zhuǎn)移的時候通常帶有明顯的人眼注視焦點的轉(zhuǎn)移,這便是顯式選擇性注意。而隱式選擇性注意則是指不伴隨注視焦點轉(zhuǎn)移的注意力轉(zhuǎn)移,例如人在正視前方的時候仍然可以注意到兩側(cè)運動的物體。目前針對這兩種注意形式的注意力轉(zhuǎn)移都有相關(guān)的研究工作[3],其中通過捕捉人眼運動來提取顯式注意感興趣區(qū)域的方法最為直觀、快速、準確。另有研究[4]表明,雖然選擇性注意分為顯性和隱性兩種,但人眼注視點移動到新的位置必然會使注意焦點也隨之移動,因此基于眼動捕捉的方法總能反映人眼的視覺注意焦點。
根據(jù)在視覺活動中所處的階段,視覺注意通常分為自下而上(bottom- up)和自上而下(top-down)兩種基本類型[3]。自下而上的視覺注意由數(shù)據(jù)驅(qū)動,發(fā)生在視覺活動的初期階段,基于輸入視覺刺激信號的初級特征(如顏色、方向、亮度)建立,不受特定認知任務對視覺注意的影響。圖1體現(xiàn)的正是自下而上的視覺注意,在沒有任務指導的情況下,由于形狀、顏色特征與周圍區(qū)域有顯著不用,人眼將注意力集中在兩張圖中深色的圓盤上。自上而下的視覺注意與人的主觀意識、記憶以及當前任務等有關(guān),發(fā)生在視覺活動的后期,如在自然狀態(tài)下,畫面中人臉區(qū)域通常是感興趣區(qū)域,在監(jiān)控視頻中,與任務相關(guān)區(qū)域是感興趣區(qū)域。
航拍視頻中,由于一般是遠景畫面,畫面中數(shù)據(jù)量巨大,同時有大量樹木、建筑等結(jié)構(gòu)復雜的紋理圖案,單純數(shù)據(jù)驅(qū)動的方法不能起到很好的效果。同時,航拍視頻中人們感興趣的區(qū)域往往是一些特定目標,如運動物體、機場、跑道、橋梁等,利用這些先驗知識,采用任務驅(qū)動的注意模型,根據(jù)目標特征的檢測提取感興趣區(qū)域更適合于航拍應用。
基于ROI的視頻編碼將視頻場景分成感興趣區(qū)域和非感興趣區(qū)域分別進行處理,利用HVS更合理地分配比特資源和計算資源,可以有效去除感知冗余,提高編碼效率。
如何提取出符合HVS感知結(jié)果的感興趣區(qū)域是ROI視頻編碼技術(shù)的一個關(guān)鍵問題?,F(xiàn)在應用較廣的感興趣區(qū)域提取方法可以分為手動設置、數(shù)據(jù)驅(qū)動提取、任務驅(qū)動提取。手動設置的方法適用于對準確度要求高的場景,但高度依賴于人工。數(shù)據(jù)驅(qū)動和任務驅(qū)動的方法分別利用了第1節(jié)介紹的自下而上和自上而下的2種視覺注意機制,通過建立視覺模型,自動提取感興趣區(qū)域。這3種方法的原理、特點和適用場景各有不同,本章將結(jié)合應用對它們分別進行介紹。
2.1 手動設置
手動設置,即用戶通過鼠標、觸屏或眼動儀(Eye movement tracker)[5]等輸入設備人工地從視頻中提取感興趣區(qū)域。圖2是手動設置的示意圖,圖中矩形區(qū)域為用戶手動選取的ROI。這種方法直接根據(jù)用戶的需要設置ROI,因為少了ROI自動提取的處理,而具有提取速度快的優(yōu)點。此外,在一些對準確度要求高的場景中,自動的方法往往不能滿足要求,需要用戶進行手動ROI設置。如醫(yī)療系統(tǒng)中,ROI自動提取若出現(xiàn)錯誤可能會導致關(guān)鍵部位的影像不清晰,嚴重影響診治結(jié)果,而利用手動方法,可以避免這種風險。文獻[6]提出了一種基于WiMAX無線網(wǎng)絡的醫(yī)療視頻傳送系統(tǒng),在傳輸過程中系統(tǒng)對用戶手動設置的感興趣區(qū)域采用高級別的安全機制,以保證對關(guān)鍵部位影像能夠正確傳輸。在帶寬受限的實時應用中,利用手動設置方法提取ROI還可以提高系統(tǒng)的交互性。如在實時航拍視頻中,接收端用戶隨時可以根據(jù)需要手動選擇ROI,編碼端則根據(jù)新的ROI劃分,重新分配資源,使用戶可以看到所選目標的細節(jié)信息,實現(xiàn)與用戶的交互。
圖2 手動設置感興趣區(qū)域示意圖
目前,手動設置的方法還存在一定不足。首先,手動提取ROI依靠人工,進行操作的用戶一般需要有相關(guān)的知識技能,才能完成任務。此外,手動方法對硬件設備要求較高,不僅需要有輸入設備及相關(guān)設備來處理用戶的輸入操作,還需要占用一定帶寬傳送控制指令。另一方面,ROI的設置與編碼器重新編碼之間總存在著傳輸時延和處理時延[7],而由于帶寬和編碼器性能的限制,這些延時難以忽略,如果感興趣區(qū)域變化過快,用戶將無法接收到符合要求的視頻畫面。為了減小時延,編碼器可以對用戶設置的ROI進行預測,使編碼器可以根據(jù)預測結(jié)果提前進行編碼。
由于依靠人工,且對設備要求高,手動方法難以大規(guī)模應用,但在航拍視頻場景中,憑借準確度高、交互性好的優(yōu)點,仍有廣闊前景。
2.2 數(shù)據(jù)驅(qū)動提取ROI
數(shù)據(jù)驅(qū)動模型基于自下而上的視覺注意機制建立,主要研究畫面中的初級特征(如顏色、方向、亮度)對人眼視覺注意的影響,與認知任務無關(guān)。在現(xiàn)有的視覺注意模型中,Itti等[8]提出的基于顯著圖的模型(以下簡稱“Itti模型”)最具有代表性。如圖3所示,顯著圖描述了畫面各部分的顯著程度,顯著程度高的區(qū)域設定為ROI。顯著圖是一張灰度圖,亮度越高,顯著度越高。圓圈是以顯著度最高點為中心的圓,將它所在的區(qū)域設定為感興趣區(qū)域。
圖3 Itti模型提取顯著圖示例
根據(jù)HVS對視覺信號的處理機制,Itti模型利用高斯濾波器、Gabor濾波器得到圖像在多個尺度上顏色、亮度和方向的顯著圖,然后通過中央-周邊算子(center-surround)以及線性相加的方式,將不同尺度不同特征的特征圖合為一張顯著圖。得到顯著圖后,Itti模型采用WTA(Winner-Take-All)神經(jīng)網(wǎng)絡與返回抑制機制從顯著圖中獲得注意焦點(Focus of Attention, FOA),最后將以FOA為中心、半徑固定的圓所在的區(qū)域設定為感興趣區(qū)域。大量實驗[9]表明沒有上層任務指導,完全根據(jù)圖像中各區(qū)域的顯著程度進行視覺焦點轉(zhuǎn)移的情況下,Itti模型基本可以搜索出各個注意區(qū)域。
在不同應用場景中,視頻畫面特性可能有非常大的差別,如何根據(jù)實際應用更有效地得到顯著圖,并提取ROI是目前的研究熱點。一種應用于紅外圖像的ROI提取方法[10]針對紅外圖像分辨率、信噪比和對比度較低,且為灰度圖的特點,對Itti模型進行了改進,使用小波變換替代高斯濾波生成多尺度圖像,利用交替式有效子窗口搜索A-ESS替代WTA神經(jīng)網(wǎng)絡來獲得FOA。Zhai等人[11]將視頻場景時域上的運動特征引入,在快速運動場景和慢速運動場景下均提取出了正確的感興趣區(qū)域。
現(xiàn)有的數(shù)據(jù)驅(qū)動模型對于內(nèi)容比較簡單的自然圖像可以很好地提取出ROI,但是對于航拍視頻卻難以獲得理想的檢測結(jié)果。這是因為航拍視頻內(nèi)容復雜、信息量大、紋理信息豐富,而數(shù)據(jù)驅(qū)動模型在計算顯著程度時通常依靠局部信息,沒有充分考慮全局信息[12];除此之外,航拍圖像的應用背景通常比較特殊,所以數(shù)據(jù)驅(qū)動、獨立于任務的ROI檢測算法在應用于航拍圖像時存在一定的局限性。
2.3 任務驅(qū)動提取ROI
任務驅(qū)動模型基于自上而下的視覺注意機制建立,與觀察者已有的經(jīng)驗、心理模型以及所處的任務等因素有關(guān)。由于涉及記憶、控制等模塊的分工協(xié)作,甚至包含解釋感覺信息等十分復雜的過程,人們難以得到通用的任務驅(qū)動模型,但在實際應用中,針對某一任務,利用其先驗知識,可以有效地提取ROI。例如,在人物視頻中,由于人臉區(qū)域通常是感興趣區(qū)域,使用人臉檢測算法引入人臉對視覺注意的影響可以大幅提高ROI提取的準確程度。
如前所述,航拍視頻具有內(nèi)容復雜、信息量大、紋理信息豐富等特點,因此單純的基于數(shù)據(jù)驅(qū)動的建模方法難以得到理想的ROI,但由于航拍視頻應用背景特殊,具有充足的先驗知識,因此很適合利用任務驅(qū)動模型提取ROI。下面針對航拍視頻中不同檢測目標介紹目前常用的算法。
建筑物是城市區(qū)域的重要標志,檢測結(jié)果可用于城市規(guī)劃、智能駕駛等民用領(lǐng)域,以及軍事目標識別、打擊等軍事領(lǐng)域。在高分辨率圖像上,建筑物目標一般結(jié)構(gòu)復雜、形狀多樣,且所處環(huán)境復雜、干擾較大。一類方法是邊緣驅(qū)動或區(qū)域驅(qū)動算法[13],關(guān)注像素或區(qū)域的部分特征,具有簡單高效的優(yōu)點。此類方法對建筑物邊緣進行折線逼近和感知編組,對于平頂直角建筑物的提取準確率高、魯棒性好;采用預定義形狀和大小的滑動窗模型提取建筑物等。另一類方法是基于對象分析圖像進行信息提取[14],如通過Boosting算法訓練分類器,根據(jù)選取的樣本特征學習提取目標;采用對手懲罰競爭學習方法分割圖像,并選擇基于空間包絡模式的支持向量機進行分類,最后通過結(jié)構(gòu)特征確定建筑目標。
機場跑道的識別對于飛機起降等過程十分重要。由于機場跑道具有一些普遍特征,即自身灰度比較平穩(wěn),且呈長方形,所以此類檢測問題可以轉(zhuǎn)化為檢測直線。最為經(jīng)典的直線檢測算法即為霍夫變換,它對噪聲不敏感,但是計算復雜度高,實時性差。針對霍夫變換的改進方法有基于圖像空間多尺度劃分的霍夫變換方法[15],可以檢測出邊緣較短的線段,再通過線段連接,得到完整的跑道邊緣。另一種常用的方法為鏈碼跟蹤法[16],其計算量小,但對噪聲敏感。將改進的鏈碼跟蹤與分層霍夫變換相結(jié)合,既可以精確地檢測出目標,又可以大大提高運算速度,該方法可以進行實時高精度檢測,并且對于遮擋干擾、模糊干擾都具有良好的抵抗性。
城市道路的識別對于地圖、導航等十分必要,由于城市道路通常處于密集建筑物群和其他地物中,背景復雜。因此自動提取的方法,如基于邊緣、基于平行線對、基于二值化和知識提取的方法,得到的信息過多,不適合實際應用。文獻[17]提出了基于統(tǒng)計-幾何模型的方法,根據(jù)道路的形狀和灰度特征建立幾何模型,并根據(jù)概率分配得到檢測結(jié)果,該方法具有較高的穩(wěn)定性。文獻[18]提出的基于動態(tài)規(guī)劃的提取方法,先從低分辨率圖像中建立道路的特征模型,再通過改進代價函數(shù)在較高分辨率圖像中提取道路區(qū)域。結(jié)合LiDAR點云數(shù)據(jù),可以降低算法對單一數(shù)據(jù)源的依賴性。
橋梁對于運輸、軍事打擊等具有重要意義。根據(jù)橋梁是架設在水面上,以及橋梁和水域各自的灰度特征和幾何性質(zhì)存在很大差異的特點,可以建立典型場景模型進行匹配。模型驅(qū)動的方法計算量小、實時性好,但是建立模型需要大量的圖像以取得先驗知識,使得其應用具有局限性。由于不同場景的橋梁類型不同,具體特征也存在較大差異。有很多方法選擇了檢測河流區(qū)域,然后通過河流和橋梁的位置關(guān)系計算得出橋梁所在區(qū)域[19]。根據(jù)橋梁的灰度范圍和灰度梯度與河流存在明顯反差,首先建立河流特征模型,并通過形態(tài)學等方法處理提取河流,然后即可通過河流走向及水域間距離搜索得到圖像中的橋梁位置。考慮到一些圖像中橋梁和水面、陸地的灰度并不十分明顯,文獻[20]還提出了通過水面紋理特征分割水域的方法,該方法能夠有效識別近景、遠景和低對比度航拍圖像中的橋梁區(qū)域,定位精度較高。
現(xiàn)有的檢測運動目標的方法,大多數(shù)都是針對靜止背景,或背景變化較小的場景,通??梢圆捎煤唵蔚膸罘ㄟM行運動目標的提取。但是在航拍圖像中,隨著拍攝的進行,鏡頭在不斷運動,背景也存在著不規(guī)則的運動。隨著背景運動補償技術(shù)的發(fā)展,運動背景下的目標定位成為了可能?,F(xiàn)有的方法通常為,先得到背景的仿射模型參數(shù),以進行運動背景補償,再使用基于運動向量聚類的方法定位運動目標。為得到背景的模型參數(shù),可以利用稀疏采樣塊的方法,具體如局部補償誤差函數(shù)泰勒展開算法或Huber函數(shù)估計方法,以及利用圖像特征點的方法,如最小亮度變化算法、圓形模板和多格算法等[21]。
基于ROI的編碼技術(shù),通常采用分級壓縮/解壓縮的圖像編碼方式,對非感興趣區(qū)域采用較高的壓縮比,而對感興趣的目標區(qū)域采用較低的壓縮比,從而大幅減少了數(shù)據(jù)的實時傳輸量,同時對目標識別有很好的效果。圖4對比了航拍視頻中,采用相同比特率,普通編碼與ROI編碼的同一幀圖像。基于ROI的編碼技術(shù)(圖4b)將橋梁設為感興趣區(qū)域,給該區(qū)域(方框內(nèi))分配更多的比特資源,使其失真變小;非感興趣區(qū)域(如圓圈內(nèi))的比特資源變少,其失真較普通編碼更大。由于在實際應用中,感興趣區(qū)域的失真程度往往決定著視頻編碼的質(zhì)量,因而基于ROI的編碼有著更高的應用價值。
圖4 相同比特率下普通編碼與基于ROI編碼對比
目前常用的基于ROI的編碼方法有編碼預處理、可變比特率編碼、恒定比特率編碼和分層編碼。編碼預處理在編碼前即對視頻進行處理,可以用于不同類型的編碼器??勺儽忍芈示幋a和恒定比特率編碼分別控制視頻的輸出質(zhì)量和比特率在較小范圍內(nèi)波動。分層編碼則是考慮到信道的特性,根據(jù)給定的比特率,得到最優(yōu)質(zhì)量的視頻編碼。
3.1 編碼預處理
編碼預處理是指在編碼前對視頻序列進行預處理,減少非感興趣區(qū)域的細節(jié)信息,同時保留感興趣區(qū)域信息。由于非ROI的細節(jié)信息變少,編碼器可以用更少的比特對這部分進行編碼,而編碼后ROI的質(zhì)量與原畫質(zhì)相近,利用HVS的視覺注意機制,實現(xiàn)了基于感興趣區(qū)域的編碼。
編碼預處理通常利用空間模糊來減少細節(jié)信息。對畫面中某一區(qū)域進行模糊處理的強度與該區(qū)域的感興趣程度相反,感興趣程度越高,模糊強度越低。一種最簡單的預處理方法就是將視頻畫面分為前景和背景,只對背景區(qū)域進行模糊處理,但這樣會使前景和背景之間產(chǎn)生明顯的邊界現(xiàn)象。為了解決邊界問題,Itti[2]采用了變化連續(xù)的模糊處理,與感興趣區(qū)域距離越遠,模糊強度越高。除了空間模糊,編碼預處理還可以通過時域處理實現(xiàn)[22]。編碼器在編碼時會利用視頻的時域冗余度進行壓縮,即將畫面中的點用同一位置的不同幀像素的殘差表示。對視頻序列進行時域的“模糊”,可以減小殘差,使編碼器用更少的比特對視頻進行編碼。
由于是在編碼前對視頻進行處理,編碼預處理不需要改變編碼器結(jié)構(gòu),就能與任何編碼器結(jié)合進行基于感興趣區(qū)域的編碼,十分易于實現(xiàn)。同時,由于很多編碼器都是以“塊”為單位進行編碼,通過修改編碼器實現(xiàn)的ROI編碼方法容易引起明顯的塊效應,利用編碼預處理技術(shù)可以有效避免這一問題。
編碼預處理將質(zhì)量控制與編碼分離,雖然便于與不同編碼器結(jié)合,但也導致其在與具體編碼器結(jié)合時,無法充分發(fā)揮編碼器性能,存在效率低下的問題。
3.2 可變比特率編碼
可變比特率編碼是指輸出碼率可變的編碼,其輸出碼率可以根據(jù)輸入信號的復雜度進行自適應調(diào)整?;赗OI的可變比特率編碼根據(jù)人眼對畫面中不同區(qū)域的感興趣程度,以不同的編碼參數(shù)進行編碼,使得輸出視頻的感知質(zhì)量相對平穩(wěn)。由于可變比特率編碼的目的是保持輸出質(zhì)量不變,不同幀的編碼比特數(shù)可能有很大差異。
現(xiàn)有的一些編碼器支持對不同區(qū)域使用不同參數(shù)進行編碼,因此可以直接實現(xiàn)可變比特率編碼。FMO(Flexible Macroblock Ordering)是H.264編碼標準提供的一種技術(shù)。不同于通常的圖像掃描順序,F(xiàn)MO允許宏塊以一定的邏輯規(guī)則映射到相應的片(slice group)里,突破了傳統(tǒng)意義上片的劃分。利用FMO靈活分片的特性,根據(jù)視覺感興趣程度將宏塊劃分到不同片,再分別以不同的參數(shù)(QP、目標比特數(shù)等)進行編碼,是目前基于H.264的感興趣區(qū)域編碼的一類常用方法[23]。
可變比特率編碼允許碼率根據(jù)場景的復雜度在一定范圍內(nèi)變化,因而能夠獲得近似恒定的視頻服務質(zhì)量,它能較好地平衡視頻圖像質(zhì)量和輸出碼率波動之間的關(guān)系。由于用較多的比特對感興趣程度高的區(qū)域編碼,用較少的比特對感興趣程度低的區(qū)域編碼,可變比特率編碼更適合于存儲,而不適合流式傳輸。
3.3 恒定比特率編碼
恒定比特率編碼(Constant Bit Rate, CBR)方法將編碼視頻的比特率控制為基本恒定,只在目標比特率附近有較小的波動,因此編碼輸出的質(zhì)量隨著內(nèi)容復雜度的變化而變化。為保持比特率恒定,通常的做法是改變編碼參數(shù)。考慮到人眼的視覺特性,賦予感興趣區(qū)域較多的比特數(shù),而減少對背景編碼分配的比特數(shù),可以在不同視頻場景下,保持每幀編碼的比特率不變,而編碼后的視頻質(zhì)量存在一定的差異。
為了在ROI和非ROI之間合理地分配比特數(shù),從而在使用相同的比特數(shù)進行編碼的條件下,達到更好的視頻感知質(zhì)量??梢栽诰幋a時分配給ROI較多的比特數(shù),提高整體的視頻質(zhì)量。同時,為了降低編解碼的計算復雜度,需要調(diào)整編碼參數(shù),如運動估計的模式、運動估計子像素的精度、運動估計搜索范圍以及運動估計多參考幀等。這樣,由于減少了ROI以外區(qū)域的計算復雜度,整體的編碼時間大大縮短。文獻[24]建立了運動外推編碼復雜度傳播模型,該模型決定了幀內(nèi)ROI和非ROI之間的比特分配,而視頻的幀間比特分配由比例積分微分(PID)決定,由此取得了一致感知質(zhì)量和平滑緩沖區(qū)波動之間的平衡。
文獻[25]根據(jù)人眼注意機制,將宏塊按照其在幀內(nèi)的位置分成了5種類型。該方法選用平方率量化模型表示碼率、量化步長和均方差(MAD)之間的關(guān)系。針對場景變化較小、運動緩慢的視頻,采取線性MAD預測模型,使得運算復雜度降低;通過MAD確定幀的復雜度,進一步?jīng)Q定比特分配。再通過宏塊的類型確定QP值,并限定了QP的變化范圍以保證畫面的平滑。
根據(jù)HVS對高頻信號失真不敏感的特點,文獻[26]結(jié)合了視覺感知圖對ROI進行編碼。在H.264編碼過程的整數(shù)變換后、量化前,使用頻率系數(shù)矩陣將高頻分量按照視覺重要程度進行截斷。從而給視覺重要的區(qū)域分配了更多的比特數(shù),提高了這些區(qū)域的質(zhì)量。
文獻[27]在MPEG-4平臺下,提出了一個區(qū)域權(quán)重率失真模型?;緦釉诰幋aROI區(qū)域時的QP值取決于該模型計算出的各區(qū)域的編碼權(quán)重。在增強層,通過位平面平移的方法來改變ROI的重要程度。例如,當碼流被截斷時,被放在比特流的前端包含ROI的宏塊,就可以得到保留,與其他部分相比,被提升的宏塊具有更好的視頻質(zhì)量。文獻[28]針對MPEG-4的視頻編碼,提出了一種基于凸優(yōu)化的對象級碼率控制算法。該方法利用率失真(R-D)模型,計算出當整體的失真程度最小時,一幀內(nèi)多個VOP之間的比特最優(yōu)分配。為實現(xiàn)對象級的ROI編碼,在MPEG-4中,可以給不同的對象(Visual Object ,VO)分配不同的權(quán)重。然而,如何準確分割對象是基于對象的編碼方法的難點。
在流式傳輸中使用恒定比特率CBR編碼最為有效。使用CBR編碼時,比特率在流的進行過程中基本保持恒定,并且始終處于由緩沖區(qū)大小確定的時間窗內(nèi)。CBR編碼的缺點在于編碼內(nèi)容的質(zhì)量不穩(wěn)定,所以CBR流的某些部分質(zhì)量會比其他部分差,相鄰流的質(zhì)量也會出現(xiàn)差異。
3.4 分層編碼
由于網(wǎng)絡的異構(gòu)性特點,以及網(wǎng)絡流量隨著時間的變化而變化,網(wǎng)絡信道容量不再是固定的參數(shù)。一方面,編碼器難以確定在不同比特率下如何使得編碼視頻的質(zhì)量最優(yōu),另一方面,解碼端可能無法及時解碼所有接收到的比特以重建視頻信號。因此要求比特流在一定的范圍內(nèi)波動時,對于任意的比特率進行部分解碼,并在該比特率下得到重建的最優(yōu)質(zhì)量視頻信號。
MPEG-2標準中提出了信噪比可擴展、空間可擴展和時間可擴展的方法,根據(jù)信道容量的不同,只解碼部分比特流,使得比特率可以根據(jù)接收到的比特數(shù)進行自適應調(diào)整。層間可擴展性編碼通常的特性為:增強層的數(shù)據(jù)或者全部被接收解碼,或者全部沒有解碼,完全沒有起到增強的作用。而在MPEG-4中,精細可分級編碼(Fine Granularity Scalability, FGS)增強層的比特流在編碼完成后,每幅圖像可以被截成任意比特數(shù)的流,解碼器可以從基本層和截斷的增強層比特流中重建出一個具有增強效果的視頻。增強層的視頻質(zhì)量與解碼器分配給每幅圖像解碼的比特數(shù)成正比。
多向位平面解碼過程(MWBDP)[29]在解碼時增加了一個延遲單元。在與尋找開始標志和多VLD分量結(jié)合后,可以重建一個快速位平面解碼器。在FGS的增強層中,所有的解碼過程共享一個幀緩沖區(qū),該方法可以實現(xiàn)一個近似實時的解碼器。宏塊同步解碼方案中,F(xiàn)GS增強層宏塊可以在與之對應的(即具有相同地址的)基本層宏塊重建后立刻開始解碼,而不需要基本層的幀全部重建后再開始解碼。該方案在基本層和增強層中,減少了內(nèi)存讀取的次數(shù),并且更好地利用了高速緩沖存儲器。
H.264中的FMO技術(shù)在基于ROI的可伸縮視頻編碼上也有不少應用。在分層編碼的架構(gòu)中使用FMO結(jié)構(gòu),一方面有效地提高了解碼的容錯性,另一方面實現(xiàn)了基于ROI的選擇性增強編碼和優(yōu)先傳輸,從而有效地克服了網(wǎng)絡帶寬的抖動帶來的影響。文獻[30]利用運動矢量估計和分隔編碼模式分別對基本層和增強層的ROI進行定位選擇,并結(jié)合FMO特性,對ROI和背景區(qū)域做不同的片劃分,使ROI片的優(yōu)先級最高。對運動矢量較大和分割尺寸較小的ROI宏塊進行位平面提升,從而在碼流被截斷時,這些宏塊被保留的幾率增大,優(yōu)化了增強層的解碼質(zhì)量。同時對增強層ROI采取了基于FMO特性的編碼方法,提高了解碼的容錯能力。
本文總結(jié)并分析了現(xiàn)有的幾種基于感興趣區(qū)域的編碼技術(shù)。利用人眼的感知特性,在視頻中提取感興趣區(qū)域,可以在人感覺無明顯質(zhì)量損傷的條件下,去除更多的數(shù)據(jù)冗余。從而在有限的帶寬環(huán)境下,傳輸更多的數(shù)據(jù),得到符合標準質(zhì)量的視頻。航拍圖像中,感興趣區(qū)域集中在運動目標以及橋梁、機場、道路、建筑等人工目標。針對每一類具體目標,分別介紹了幾種代表性的自動或半自動ROI提取方法,并對其優(yōu)缺點作了簡要介紹。對此類算法的評價,傳統(tǒng)的客觀質(zhì)量評價指標,諸如均方誤差(MSE)、峰值信噪比(PSNR)等存在一定的缺陷,近年來也有很多人提出了與ROI技術(shù)相適應的評價指標?;诟信d趣區(qū)域的編碼技術(shù),基本思想是提高分配給感興趣區(qū)域的比特數(shù),并賦予其較高的優(yōu)先級進行編碼傳輸。
值得注意的是,有很多因素影響到感興趣區(qū)域的提取和壓縮,如何減少環(huán)境以及觀測者差異對感興趣區(qū)域的影響,仍然是一個有待研究的問題。隨著對人眼的視覺感知機制理解的加深,將出現(xiàn)更多更有效的感興趣區(qū)域壓縮方法,用于解決持續(xù)增長的高分辨率視頻存儲和傳輸問題。
[1] 張鵬,王潤生.由底向上視覺注意中的層次性數(shù)據(jù)競爭[J].計算機輔助設計與圖形學學報, 2005, 17(8): 1667-1672.
[2]ITTI L.Automatic foveation for video compression using a neurobiological model of visual attention[J]. IEEE Trans. Image Processing, 2004, 13(10): 1304-1318.
[3]CONNOR C E, EGETH H E, YANTIS S.Visual attention: bottom-up versus top-down[J].Current Biology, 2004, 14(19): 850-852.
[4]LE CALLET P, NIEBUR E.Visual attention and applications in multimedia technologies[J].Proceedings of the IEEE, 2013, 101(9): 2058-2067.
[5]KOMOGORTSEV O, KHAN J.Predictive perceptual compression for real time video communication[C]//Proce. the 12th Annual ACM International Conference on Multimedia.New York:[s.n.],2004: 220-227.
[6]MARTINI M G, HEWAGE C.Flexible macroblock ordering for context-aware ultrasound video transmission over mobile WiMAX[J].International Journal of Telemedicine and Applications, 2010(6): 6.
[7]FENG Y, CHEUNG G, TAN W, et al.Hidden markov model for eye gaze prediction in networked video streaming[C]// 2011 IEEE International Conference on Multimedia and Expo (ICME).[S.l.]:IEEE Press, 2011: 1-6.
[8]ITTI L, KOCH C, NIEBUR E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Trans.Pattern Analysis and Machine Intelligence, 1998, 20(11): 1254-1259.
[9]馮俊麗.基于Itti模型的計算機視覺注意模型研究[J].科技風, 2012 (20): 118-118.
[10]馬新星,沈同圣,徐健.一種基于ROI的紅外艦船目標定位方法[J].紅外技術(shù), 2013, 35(11): 702-706.
[11]ZHAI Y, SHAH M.Visual attention detection in video sequences using spatiotemporal cues[J]//Proc.the 14th annual ACM International Conference on Multimedia.New York:[s.n.],2006: 815-824.
[12]張寶薇.基于感興趣區(qū)域的遙感圖象壓縮方法研究[D].哈爾濱:哈爾濱工業(yè)大學, 2006.
[13]陶文兵,柳健,田金文.一種新型的航空圖像城區(qū)建筑物自動提取方法[J].計算機學報, 2003, 26(7): 866-873.
[14]孫顯,王宏琦,張正.基于對象的 Boosting 方法自動提取高分辨率遙感圖像中建筑物目標[J].電子與信息學報, 2009, 31(1): 177-181.
[15]王敏,張艷寧,孫瑾秋.一種遙感圖像機場跑道的多尺度提取方法[J].中國體視學與圖像分析, 2009, 14(3): 256-260.
[16]董銀文,苑秉成,石釗銘, 等.基于直線特征的航拍圖像機場跑道自動識別算法[J].系統(tǒng)工程與電子技術(shù), 2013, 35(4): 876-879.
[17]楊云,朱長青,張德.高分辨率遙感影像上道路中心線的半自動提取[J].計算機輔助設計與圖形學學報,2007,19(6):781-85.
[18]朱曉強,余燁,劉曉平,等.基于航拍圖像和 LiDAR 點云的城市道路提取[C]//全國第19屆計算機技術(shù)與應用 (CACIS) 學術(shù)會議論文集 (上冊).合肥:[出版者不詳],2008:1-6.
[19]王偉明,徐勝榮.一種使用黑板模型實現(xiàn)的圖象分割策略及在橋梁目標識別中的應用[J].計算機學報, 1995, 18(2):127-134.
[20]董銀文,苑秉成,石釗銘.基于區(qū)域特征的航拍圖像水上橋梁自動識別[J].武漢大學學報:信息科學版, 2013, 38(9): 1073-1077.
[21]劉振華,黎寧,賈亮.改進的航拍圖像序列背景運動補償技術(shù)[J].計算機工程, 2009, 35(2): 222-224.
[22]DIKICI C, ISIL B H.Attention-based video streaming[J].Signal Processing: Image Communication, 2010, 25(10): 745-760.
[23]PENG F, ZHU X, LONG M.An ROI privacy protection scheme for H.264 video based on FMO and chaos[J].IEEE Trans.Information Forensics and Security,2013, 8(10): 1688-1699.
[24]JIN R, CHEN J.The coding rate control of consistent perceptual video quality in H.264 ROI[C]// International Symposium on Computer Network and Multimedia Technology.[S.l.]:IEEE Press, 2009: 1-4.
[25]SHI Y, YUE S, YIN B, et al.A novel ROI-based rate control scheme for H.264[C]// Proc.the 9th International Conference for Young Computer Scientists.[S.l.]:IEEE Press, 2008: 77-81.
[26]ZHENG Y, FENG J, MA H, et al.H.264 ROI coding based on visual perception[C]// Proc.5th International Conference on Visual Information Engineering.[S.l.]:IEEE Press, 2008: 829-834.
[27]LAI W, GU X D, WANG R H, et al.A content-based bit allocation model for video streaming[C]// Proc.IEEE International Conference on Multimedia and Expo.[S.l.]:IEEE Press,2004, 2: 1315-1318.
[28]WU Q, CHAN S C, SHUM H Y.A convex optimization-based object-level rate control algorithm for MPEG-4 video object coding[C]// Proc.IEEE Asia Pacific Conference on Circuits and Systems.[S.l.]:IEEE Press, 2006: 784-787.[29]TUNG Y S, WU J L, HSIAO P K, et al.An efficient streaming and decoding architecture for stored FGS video[J].IEEE Trans.Circuits and Systems for Video Technology,2002, 12(8): 730-735.
[30]朱金秀,郝文瑞.基于感興趣區(qū)域的可伸縮性容錯編碼[J].計算機工程與設計, 2009 (21): 4901-4903.
責任編輯:閆雯雯
Compression Coding of Aerial Video Based on Region-of-Interest
LIU Xin, ZHOU Jiamu, WANG Haiying
(SchoolofInformationandCommunicationEngineering,BeijingUniversityofPostsandTelecommunications,Beijing100876,China)
As the application of aerial video surveillance has become more and more popular, the limited channel capacity and storage prompt the development of compression.In particular, the video compression coding based on region-of-interest considering human visual system have
great attention.This paper thoroughly reviews the recent advances of video compression and coding based on region-of-interest.
ROI;layer coding; progressive transmission
TN911.73
A
10.16280/j.videoe.2015.05.031
2014-08-03
【本文獻信息】劉欣,周佳睦,王海嬰.基于感興趣區(qū)域的航拍視頻壓縮編碼技術(shù)綜述[J].電視技術(shù),2015,39(5).