張靜琦,李薰春
(1.浙江廣播電視集團廣播電視傳輸發(fā)射中心,浙江 杭州 310008;2.國家廣播電視總局廣播電視科學(xué)研究院,北京 100866)
廣播和電影的音頻正在向沉浸式和交互式體驗發(fā)展,需要使用更加靈活的音頻格式?;诠潭暤赖姆椒ú蛔阋院w這些發(fā)展,因此正在開發(fā)基于聲道、對象和場景的組合格式。報告ITU-R BS.2266[1](未來音頻廣播系統(tǒng)框架)、建議ITU-R BS.1909[2](有/無圖像的高級多聲道立體聲系統(tǒng)的性能要求)和ITU-R BS.2051[3](高級音頻系統(tǒng)節(jié)目制作),都強調(diào)了這些發(fā)展和生產(chǎn)鏈以適應(yīng)音頻技術(shù)發(fā)展的需求。
基于聲道的音頻是在節(jié)目制作期間將內(nèi)容混入預(yù)定數(shù)量的信號聲道,且每個聲道與特定靜態(tài)位置處的揚聲器相關(guān)聯(lián)的一種音頻呈現(xiàn)方式。每個聲道通過將聲道路由到相關(guān)的揚聲器(如果存在的話)或者路由到一個或多個可用的揚聲器(如通過聲道縮混)來再現(xiàn),以最佳地表示在預(yù)期揚聲器上的播放。制作流程、廣播網(wǎng)絡(luò)和再現(xiàn)系統(tǒng)等,均通過一系列揚聲器的位置來定義。相關(guān)的示例可參見ITU-R BS.775[4]建議書《有/無圖像的多聲道立體聲系統(tǒng)》定義的系統(tǒng)。
基于對象的音頻是內(nèi)容元素相互獨立,并伴有描述其關(guān)系且使渲染器生成與重放系統(tǒng)最相適應(yīng)的信號的元數(shù)據(jù)的一種音頻呈現(xiàn)方式。元數(shù)據(jù)可能隨時間有所變化,以改變內(nèi)容要素的空間位置等?;趯ο蟮姆椒稍试S用戶與音頻內(nèi)容進行互動。
基于場景的音頻是由一組系數(shù)信號來代表內(nèi)容的音頻呈現(xiàn)方式。這些系數(shù)信號是空間正交基函數(shù)(如球形或圓形諧波函數(shù))的線性權(quán)重??赏ㄟ^將這些系數(shù)信號提供至目標揚聲器或耳機,對場景進行重現(xiàn)。節(jié)目產(chǎn)生是源自重現(xiàn)解耦,并允許在不知曉目標揚聲器的數(shù)量和位置的情況下創(chuàng)造混合的節(jié)目素材。高階高保真立體聲(Higher Order Ambisonics,HOA)正是基于場景的音頻的一個示例。
基于對象、基于聲道和基于場景的要素既可相互關(guān)聯(lián),又可以獨立存在。為允許實施基于對象、基于聲道或基于場景的要素的任意組合,所有信號均應(yīng)伴有必要的元數(shù)據(jù)/描述符,其中包括不依賴時間(靜態(tài))與/或依賴時間(動態(tài))的期望聽覺事件的空間位置。這些信號可使用多種交付與/或映射技術(shù),通過揚聲器的配置進行再現(xiàn)。
允許所有不同類型的音頻(文件/流)分發(fā)的核心要求是無論使用什么音頻格式,元數(shù)據(jù)都應(yīng)該共存,以充分描述音頻。每個單獨的音軌應(yīng)該能夠根據(jù)伴隨的元數(shù)據(jù)被正確地呈現(xiàn)、處理或分發(fā)。為了確保所有系統(tǒng)的兼容性,ITU-R BS.2076[5]建議書定義了音頻定義模型(Audio Definition Model,ADM),描述了音頻元數(shù)據(jù)模型的結(jié)構(gòu),可以準確描述音頻文件的格式和內(nèi)容。
音頻定義模型由一組元素組成,元素用于描述音頻的各個方面。每個元素由一個XML 元素表示,包含各種屬性和子元素。這些元素通過引用相互連接,但音頻塊格式(audioBlockFormat)除外。音頻定義模型的整體結(jié)構(gòu)如圖1 所示。
圖1 顯示了內(nèi)容、格式和BW64 音頻文件之間的劃分。內(nèi)容和格式部分組成了音頻定義模型元數(shù)據(jù),通常包含在BW64 文件中的一個塊(“axml”塊)中。BW64 文件部分包含“chna”塊,這是一個連接音頻定義模型元數(shù)據(jù)和文件中音軌的查找表。內(nèi)容部分描述音頻的技術(shù)內(nèi)容,如對話、語言以及響度等元數(shù)據(jù)。格式部分描述音軌聲道類型以及它們是如何組合在一起的,如立體聲中的左聲道和右聲道。內(nèi)容部分的元素通常對音頻和節(jié)目而言是唯一的,而格式部分的元素可以重用。
音頻定義模型格式部分如圖2 所示。音頻包格式(audioPackFormat)將一個或多個屬于同一組的音頻聲道格式(audioChannelFormat)組合在一起。這在渲染音頻時至關(guān)重要,因為組內(nèi)的聲道可能需要相互交互。允許音頻聲道格式描述動態(tài)聲道,即隨時間以某種方式變化的聲道。它使用音頻塊格式沿時間軸劃分聲道。音頻塊格式元素包含開始時間和持續(xù)時間。音頻塊格式中有描述聲道的時間相關(guān)參數(shù),而這些參數(shù)取決于音頻聲道格式類型。例如,基于對象類型的聲道有子元素“方位角”“仰角”和“距離”來描述聲音的位置。音頻塊格式的數(shù)量和持續(xù)時間不受限制,如果某樣?xùn)|西移動很快,每個樣本可能會有一個音頻塊格式;而靜態(tài)聲道將只有一個包含聲道參數(shù)的音頻塊格式。音頻聲道格式是對單個音頻波形的描述。在音頻聲道格式中,有一個類型定義屬性,用于定義聲道的類型。類型定義屬性可以設(shè)置為直接揚聲器、HOA、矩陣、對象或雙耳。這些類型中的每一種都有一組不同的子元素來指定與音頻聲道格式類型相關(guān)聯(lián)的靜態(tài)參數(shù)。例如,直接揚聲器類型的聲道具有子元素揚聲器標簽,用于為聲道分配揚聲器。
音頻流格式(audioStreamFormat)由一個或多個音頻軌道格式(audioTrackFormat)組成。在音頻流格式中,會有一個描述音頻流的音頻聲道格式或音頻包格式的引用。音頻軌道格式包含音頻流格式標識,用于識別音頻軌道格式和音頻流格式。
音頻定義模型內(nèi)容部分,如圖3 所示。音頻對象(AudioObject)用于確定音頻軌道的組合和它們在文件中的位置。它將實際的音頻數(shù)據(jù)與格式聯(lián)系起來,是音頻軌道唯一標識(audioTrackUID)的來源。
對于立體聲,音頻對象格式將包含兩個音頻軌道唯一標識,因此這兩個軌道將包含立體聲音頻。它包含對音頻包格式的引用。音頻包格式將這兩個音頻軌道格式定義為立體聲對。
音頻對象格式元素還包含開始和持續(xù)時間屬性。該開始時間是對象的信號在文件或記錄中開始的時間,因此如果開始是“00:00:10.00000”,那么對象的信號將在10 s 的位置進入音頻文件的軌道。
由于音頻包格式可以嵌套,因此音頻對象也可以嵌套。音頻對象格式由音頻內(nèi)容(audioContent)引用,給出了音頻內(nèi)容的描述。它有諸如語言(如果有對話)和響度參數(shù)等參數(shù)。這些參數(shù)的一些值只能在音頻生成后計算,是它們不在格式部分的原因。
音頻節(jié)目(audioProgramme)將所有音頻內(nèi)容匯集在一起,形成完整的組合。
一個音頻定義模型XML 樹中可以定義多個音頻節(jié)目元素。每個音頻節(jié)目元素可能只引用音頻定義模型XML 樹的音頻內(nèi)容元素的子集,使得音頻定義模型能夠描述個性化音頻。例如,描述體育節(jié)目的XML 樹可以包含主隊和客場的音頻節(jié)目元素。主隊音頻節(jié)目可能包含“偏向主隊評論”的音頻內(nèi)容元素和另一個“氛圍”元素??完犚纛l節(jié)目可能包含“偏向客隊評論”和相同“氛圍”的音頻內(nèi)容。
對于許多情況,特別是在基于聲道和場景的工作中,許多所需的格式將是通用的。例如,單聲道、立體聲和5.1 聲道都有共同的定義,每次需要描述其中一種格式時,生成和攜帶大量的XML是低效的。國際電聯(lián)無線電通信標準ITU-R BS.2094[6]中規(guī)定了音頻定義模型通用定義。通用定義中出現(xiàn)了多種格式,既有基于聲道的,也有基于HOA 的?;诼暤赖母袷椒秶鷱膯温暤篮土Ⅲw聲一直到22.2 聲。基于HOA 的格式主要有SN3D 和N3D。
音頻定義模型元數(shù)據(jù)在高級音頻系統(tǒng)中的廣播應(yīng)用鏈路,如圖4 所示。廣播節(jié)目制作可以使用任何類型的音頻源和內(nèi)容,但應(yīng)該用正確的元數(shù)據(jù)對其進行充分注釋,以描述音頻信號,并以支持此元數(shù)據(jù)的文件格式存儲。分發(fā)階段將把節(jié)目中的表示形式調(diào)整為更緊湊的形式,從而保留或生成新的元數(shù)據(jù),以允許進一步渲染。將分發(fā)文件或流傳遞到廣播階段,廣播階段將呈現(xiàn)特定的廣播格式。更高的帶寬廣播將允許傳送和渲染許多對象和通道,而低帶寬廣播可能必須渲染到更傳統(tǒng)的立體聲格式。廣播格式應(yīng)該保留接收端所需的盡可能多的元數(shù)據(jù)。每個接收設(shè)備都有自己的渲染器,用于該設(shè)備可能的揚聲器布局。例如,高保真需要一些非常靈活的東西來允許多個揚聲器有不同的位置,而電視將其內(nèi)部揚聲器固定在已知的位置。未來的內(nèi)容交付可能接收到的表現(xiàn)形式,將確保為用戶互動和個性化提供充分的靈活性。
當(dāng)今的多媒體世界正在向觀眾體驗更豐富的方向發(fā)展,包括更高分辨率的顯示、交互性和身臨其境的音頻。對于音頻,有不同的方法來實現(xiàn)沉浸式體驗和交互式體驗。音頻的未來看起來很復(fù)雜,需要確保它可以為聽眾正確地再現(xiàn),并且不需要在制作和傳輸中進行太多的干預(yù)。元數(shù)據(jù)與音頻緊密相關(guān),允許音頻在整個制作、分發(fā)和傳輸鏈中得到正確的處理和再現(xiàn)。國際電信聯(lián)盟制定的音頻定義模型標準,能夠充分描述音頻的格式,用以滿足未來音頻發(fā)展的需要。