靳 聰,吳鳳鵑,李 波,郭子淳,王 晶
(1.中國傳媒大學 信息與通信工程學院, 北京 100024; 2.西北工業(yè)大學 電子信息學院, 西安 710129; 3.北京化工大學 藝術與設計系, 北京 100029; 4.北京理工大學 信息與電子學院, 北京 100029)
數字孿生是當前軍事裝備應用研究中的一項關鍵技術。通過建立設備運行數據庫,掌握物理設備整個生命周期的所有數據和參數,提高設備配置的合理性。通過創(chuàng)建逼真的三維戰(zhàn)場環(huán)境,數字孿生將支持戰(zhàn)場態(tài)勢感知和規(guī)劃能力的戰(zhàn)略轉型等。
由于人類對環(huán)境中聲音信息的接收不像對視覺信息的接收那樣容易受到角度和方向的限制,通過聲音可以獲得的不可見的事件狀態(tài)或實體行為信息,這無疑是對視覺信息的重要補充,尤其在戰(zhàn)場上具有重要的意義。然而,在虛擬戰(zhàn)場仿真中,聽覺作為成員與環(huán)境之間的信息交互的重要來源卻常常被忽視。成員、物理世界和虛擬環(huán)境(virtualenvironment,VE)之間的關系不僅應該激發(fā)自然的多模態(tài)界面的設計,而且應該被發(fā)現以使VR技術的中介作用更有意義。
從哲學角度,聽覺數字孿生可以解釋為將人或代理的空間位置賦予一種虛擬的數字化身,并以具身性的聽覺感知完成映射?!熬呱硇浴边@個理念最早來自于梅洛·龐蒂,其本意是關注身體如何影響人類的心智和行動,以及基于身體本質對其所處空間的探尋。它能有效地通過調節(jié)“外來感官刺激所產生的印象,而其方式是身體將它對當前位置或地點的感覺與它對過去某種東西的感覺相聯(lián)系”[1]。
本文中設計了一個具有技術-數字性質的聽覺元環(huán)境,它是監(jiān)護者、仔細的觀察者和每個行動者的對話和參與的生命線。從“以人為本”的角度來看,它圍繞著聽眾形成,即對它有意義的真實世界。為什么是數字孿生?因為這個術語讓人想起2個不同的和遙遠的實體或人之間的深刻聯(lián)系,通常以具身性為基礎。這個框架從生態(tài)學的角度延伸到通過考慮VR內在的多感官性質,從生態(tài)學擴展到多感官領域。由于這些原因,本文中提出了一個音頻優(yōu)先的視角,采用了一種更易讀的、不損失信息的合成表達,即聽覺數字孿生。
一些面向軍事模擬作戰(zhàn)場景的虛擬仿真設計在虛擬現實方面傾向于視覺優(yōu)先,將聽覺信息限定為次要和輔助角色[2]。雖然聲音是實現沉浸式效果的重要組成部分,但與視覺相比,針對聽覺空間和環(huán)境的相關研究工作較少。如今,人們越來越多地開始關注空間聽覺對于虛擬環(huán)境所起到的重要作用,也在VR模擬[3-5]中達成共識??臻g音頻渲染技術現在能夠通過從現實生活中的錄音[6]或歷史檔案中重建刺激來傳達可信感知的模擬,如2019年火災前后的巴黎圣母院[7],越來越接近于與自然現實無異的虛擬版本[8]。這是由高度個性化的用戶形態(tài)建模和人體與室內聲場產生的聲學轉換合成的,通過計算機結合房間聲學模型,建立聲場環(huán)境的數字孿生[9-10],如圖1所示。
圖1 聽覺數字孿生系統(tǒng)圖
哲學家莫里斯-梅洛-龐蒂在模糊性概念指出,所有的經驗都是模糊的,不是由已定義的、可識別本質的東西組成,而是由開放靈活的風格或互動和發(fā)展模式組成[12-13]。從以自我為中心的沉浸式VR的空間角度出發(fā),當聽眾的注意力被引導到外部的虛擬聲音時,其學習和轉化過程就會發(fā)生具身性的改變。因此,虛擬環(huán)境的聽覺模擬,是由聽者和數字孿生體過去的認知經驗形成的,在建構主義的意義上,他們不清楚如何從物理或控制論世界中獲得,由身體、頭部和耳朵誘發(fā)或模擬的物理-聲音印記,以及③由與技術共生誘發(fā)的主動和適應性的感知再學習過程[14-15]。正如Vindenes等[16]所指出的,經驗是以聽眾的主觀性為中介的,而聽眾的主觀性是與VE的客觀性聯(lián)系在一起的。將物理世界和虛擬世界放在同一水平上,對于聽眾和它的數字孿生體來說,產生了相似性的具身表征,能夠促進VR體驗的變革作用,使人與現實的關系在接觸后發(fā)生改變。
廣泛使用的空間音頻生成技術主要以傳統(tǒng)的數字信號處理(DSP)為基礎,通過DSP技術將雙耳聲音與空間信息作為一組線性時不變的聲學組件,基于簡化的幾何模型實現模擬。由于精確的基于波形的室內脈沖響應模擬在計算上開銷巨大,并且需要詳細的幾何和材料信息,因此實際中不常采用。頭部相關的傳遞函數在電波暗室中進行測量[17],而高質量的空間化需要在近10k的不同空間位置進行雙耳記錄[18]。為了生成雙耳音頻,基于DSP的雙耳渲染器通常會對分量脈沖響應進行一系列卷積。目前,神經網絡的空間化研究進程已經開始。Gebru等[19]的研究表明:HRTF可通過訓練原始波形,實現神經網絡隱式學習。Manocha等[20]的一項工作致力于預測以視覺信息為條件的空間聲音,但由于工作局限于一階雙聲道,無法詳盡地模擬雙耳效應。與之相比,Yang和Zhou的一系列針對于2.5D視覺音效系統(tǒng)的論文[21-22]更為密切。在這一系列論文中,雙耳音頻是在視頻幀嵌入的條件下生成的,因此可有效判斷聲音來源的位置。
本文中旨在將與虛擬環(huán)境中的聲音交互(SIVE)有關的研究群島轉化為一個研究領域,提出聽覺數字孿生的理論框架,對未來的挑戰(zhàn)有一個包容性的看法。在一個采用了沉浸式音頻技術的VE中,VR模擬的作用必須由人類和非人類代理(稱為行動器)網絡中的意識制造的參與性探索來發(fā)布。聽覺數字孿生技術促進了人類和技術之間的內部互動,動態(tài)和流暢地重新定義所有那些對沉浸式和連貫性體驗至關重要的配置。糾纏理論的想法在這里主要是在“以人為本”的空間視角中被拒絕,這與聽者感知能力的知識有關。
本文中的核心是創(chuàng)建一個理想的聽覺數字孿生系統(tǒng),以一種音頻視角來實現“以人為本”的模擬聽眾和其數字孿生體之間的具身映射關系。本文中的主要目標是通過一個聽覺數字孿生體來描述聽者和虛擬環(huán)境之間的交互行動,實現擴展現實(XR)體驗下的空間音頻孿生及多感官具身交互,并應用于軍事虛擬仿真場景。
空間音頻,即從雙耳收到的信號中解讀空間信息的能力,通過向大腦提供相匹配的聽覺與視覺輸入來建立對空間的沉浸感、具身感,能夠幫助我們實現在虛擬環(huán)境和真實環(huán)境之間映射的自我定位。目前,空間音頻合成的大多數方法主要建立在傳統(tǒng)的DSP技術的基礎上,將每個組件——HRTF、環(huán)境噪聲、房間聲學等建模成線性時不變系統(tǒng)(LTI)。這些LTI能夠被很好地理解,也較容易用數學建模,經過實驗證明能在一定程度上產生接近于雙耳音頻的效果,因而至今仍得到廣泛使用。但是,真實的聲波傳播為非線性波效應,故LTI無法對其進行適當建模,最終效果也不盡如人意。因此,數字信號處理技術雖然具備較好理解、相對簡單的優(yōu)勢,但無法體現出動態(tài)場景的感知真實性,無法產生準確的度量結果,最終導致生成的波形與記錄的雙耳音頻相似度較差,具身感知大大削弱。本文中通過理解、研究一種端到端的神經合成方法,可有效克服上述限制,合成精確的空間音頻。端到端的神經合成方法能夠自然地捕捉聲波傳播的線性和非線性效應,并且采用完全卷積的技術,在硬件上實現有效執(zhí)行。這一神經合成方法優(yōu)勢主要體現在以下3點:超越現有技術水平的雙聲道模型;通過分析原始損耗的缺點以減輕這些損耗所帶來的損失;在非消聲環(huán)境中捕獲真實的雙聲道數據集。
空間音頻合成系統(tǒng)的框架如圖2所示。一個神經時間規(guī)整模塊首先將單通道輸入信號規(guī)整成雙通道信號,時間規(guī)整補償了粗略的時間效應,以及聲源到聽者雙耳間的距離差造成的時間差效應。給定每個時間步長的聲源和聽者位置和方向,將單通道輸入信號轉換為雙耳信號。神經時間規(guī)整模塊在尊重物理特性(如單調性和因果性)的基礎上,實現從源位置到聽者左耳和右耳的精確規(guī)整;時間卷積神經網絡模塊模擬了細微的影響(如房間混響或與頭部和耳朵形狀相關的信號修改)對最終輸出信號造成的差異。圖2中的第2個方框代表一個N層的堆棧,每一層都是條件超卷積,然后是正弦激活,有研究證明這樣有利于實現更高頻率的建模[22]。按照WaveNet的設計,我們使用尺寸為2的卷積核,每一層的膨脹系數為2來增加感受野。這種時間卷積網絡模擬了由房間混響、頭部和耳朵的形狀或頭部方向的變化引起的細微影響。
圖2 空間音頻合成系統(tǒng)框架圖
(1)
XR體驗的音頻根據場景可分為動態(tài)音頻和靜態(tài)音頻,動態(tài)音頻是指音頻內容不能提前制作,需要根據場景和環(huán)境實時渲染,例如直播、游戲等場景,一般使用游戲引擎制作。靜態(tài)音頻是可以提前制作的音頻,例如音樂、影片等,常用的格式是ADM-BW64或已經渲染的雙耳音頻和揚聲器音頻,一般使用數字音頻工作站(DAW)制作。其中ADM是三維空間音頻的元數據定義框架,參考BS.2076-2,使用BW64格式的wav文件存儲音頻數據和ADM。靜態(tài)音頻有時可作為動態(tài)音頻的輸入以制作交互音頻。
圖3的制作流程包含以下功能:靜態(tài)音頻制作時,需要具備生成Object軌跡、錄音、導入音頻、回放、導出的功能。動態(tài)音頻制作時,具備使用三維空間場景的能力,并且能夠進行頭部追蹤、場景交互,同時具備靜態(tài)音頻的錄音,回放功能。交互音頻最終回放形式為雙耳回放或揚聲器回放。渲染器具備解析渲染包含ADM元數據和擴展元數據音頻的能力。靜態(tài)音頻可作為動態(tài)音頻的一部分輸入。
圖3 空間音頻渲染流程圖
基于具身引擎的聽覺數字孿生系統(tǒng)主要有以下2種制作方法:第1種方法是在引擎中使用空間化插件模擬聽眾的具身環(huán)境,通過混響插件和基于函數計算的音頻處理插件來處理音頻,第2種方法是使用外部DAW制作空間音頻并與模型中的虛擬擴聲系統(tǒng)進行路由。
第1種方法是在引擎中使用空間化插件、混響插件和基于函數計算的插件來處理音頻。空間化插件使用HRTF以雙耳渲染直接處理聲音,以準確模擬聲源相對于聽者的方向,用戶可以清晰感知虛擬聲源在三維空間中的絕對和相對位置(為達到聽者所聽內容差異性最小化的目的,需采集并對比大量用戶的雙耳以及頭部相關物理數據,計算得出符合多數人耳聽音條件的“頭部相關函數(HRTF)”,在聆聽房間中的各種濾波和反射聲整合而成,此處的聆聽房間聲場大致接近于由麥克風陣列所錄制聲音合成的聲床),還需測算出聆聽房間的“雙耳房間傳遞函數(BRIR)”?;祉懖寮梢苑治鰣鼍爸蟹块g和對象的大小、形狀、布局和材質屬性,使用這些信息通過模擬聲音的物理特性來自動計算環(huán)境影響,使用混響插件時不必在整個場景中手動放置效果過濾器,也不必在各處手動調整過濾器,混響插件使用自動實時或基于預計算的過程,在整個場景中計算環(huán)境音頻屬性(使用物理原理),混響插件還可以計算卷積混響,這涉及在整個場景中的幾個點計算脈沖響應,卷積混響會產生令人信服的環(huán)境,聽起來比參數混響更逼真?;诤瘮涤嬎愕牟寮⒈姸嗷煲襞c音頻流處理工作中常用的效果器,如壓縮器、限制器、EQ等,以及各種波形生成器,以引擎代表性的節(jié)點的形式,作為一個個單獨的函數存放在插件中。使用者可以用類似著色器的形式,創(chuàng)造一條可視化的音頻渲染管線。目前,在立體聲場方面,這種基于函數計算的插件提供了至多8個聲道的立體聲混音器,用于在X/Y錄音模式與M/S錄音模式間轉換的中-側聲道編解碼器,以及可以模擬雙耳時間差參數,以實現HRTF定位的雙耳時間差的聲像擺位器。
第2種方法是外部DAW中制作空間環(huán)繞聲并將各個聲道與模型中虛擬擴聲系統(tǒng)進行路由。目前,主流DAW都已經擁有原生的3D Panner,部分DAW擁有內置的原生渲染器,除此之外,還可以使用我們自研發(fā)的渲染器結合開源程度較高的DAW制作。此方法采用多聲道虛擬音頻與引擎的交互,實現聲音與舞臺模型的結合?;趯ο蟮沫h(huán)繞聲制作不再受限于嚴格的重放制式,雙耳渲染應用場景大幅增加。由于各個引擎可兼容和編輯的音頻格式不同且有局限性,虛擬音頻母版文件不便用于聲音與模型的鏈接。在母版文件混音制作結束后,對照對象在空間中的位置信息和移動軌跡,在響度模擬軟件中進行虛擬擴聲系統(tǒng)設計(虛擬擴聲系統(tǒng)在引擎中的信號路由參照真實擴聲系統(tǒng)的搭建),水平、環(huán)繞、天空音箱以及超低的分布應保證各個音頻對象運動于可用的重放范圍內?,F階段音樂響度標準、影視響度標準和擴聲響度標準各不相同,應在系統(tǒng)設計結束后嚴格對混音做出調整以達到最真實的現場聽音效果。不同于在引擎中直接播放模板文件,根據對象的運動軌跡設計重放系統(tǒng)并直接將單獨音頻對象添加到引擎的播放系統(tǒng)中,可以最大程度還原空間信息,最大程度減小雙耳重放造成的聲場變化。對引擎中的揚聲器模型加以動態(tài)效果,視覺上實現聲音可視化,能進一步完善現場聽音環(huán)境的還原。
以7.1.4環(huán)繞聲系統(tǒng)設計為例,包括頂部左、右前置和后置揚聲器4個、右后和左后揚聲器2個、左右環(huán)繞聲場揚聲器2個、左、中和右揚聲器3個和超低音音箱1個,如圖4所示。其中,頂部左、右前置和后置揚聲器使用相同的全音域設計,根據主聆聽座位進行放置;右后揚聲器和左后揚聲器通過進一步定位音效來增加聽感體驗的強度,將它們布置在座位區(qū)的后面,與中心成135°~150°角;左環(huán)繞聲場揚聲器和右環(huán)繞聲場揚聲器,環(huán)繞聲揚聲器營造逼真的空間感,提供環(huán)境音效,將這2個布置于座位位置略靠后的區(qū)域并形成一定的角度,最好剛剛高于耳高;左、中和右揚聲器有助于音樂隨舞臺燈光的變化而變化;超低音音箱可發(fā)出最強的低音,從而為音樂增加力量。
圖4 揚聲器擺放位置示意圖
1) 立體聲聲像平衡。利用“立體聲聲像擺位器”節(jié)點,同時輸入音頻信號與聲像參數(以浮點數形式),即可分別輸出調整聲像后的不同聲道音頻,用于進一步渲染或是直接輸出,并且可以更改聲像工作法則預設,以在“自動平衡功率”與“僅進行線性疊加”2種模式間進行自由切換,以匹配不同的聲場設計需要,如圖5所示。
圖5 立體聲聲像聲場設計
2) 音頻資產參數隨機變化。通過隨機生成節(jié)點,可以獲得在某個范圍內不斷變化的隨機數并接入聲波播放器節(jié)點作為參數,以實現聲音資產的隨機變化,增強真實感,且同樣可將雙聲道音頻分別輸出以用于雙耳渲染。其中,音頻資產可以是特定的某個wav文件,或者由自行設置的變量輸入音頻流,而此變量既可以是wav資產,也可以為一維音頻數組(圖6)。
圖6 音頻資產參數隨機變化
3) 多軌立體聲處理。用UE5中Metasound插件構建一套最多可支持8個音軌輸入,可同時處理并輸出雙聲道音頻的實時渲染、混音工具,其中每個音軌均可獨立控制聲像、響度增益、生效概率(該聲軌在單個獨立事件中被觸發(fā)的概率),隨機聲像參數的變化范圍等(圖7)。
基于具身引擎所建構的聽覺孿生系統(tǒng),完成了人(虛擬人)、空間、聽覺感知三者的具身關系,建構了主-客之間聲音感知在空間位置中的包裹性,利用聲像擺位將聲音達到耳朵感知區(qū)域的那一刻,實現了具身性的包裹,主體被卷入“聲音場”中心。在這種具身化的“聲音場”中,聲音的強弱、高低觸動著人的聽覺神經,并基于聽覺完成外部空間的建構。例如,盲人對于現實世界的空間定位,就是來自于聲音場所帶來的具身感知,聲音會隨著盲人身體的運動變化完成衰減與增益,這種細微的變化為盲人的空間導航提供了保障。因此,基于具身引擎搭建的聽覺數字孿生系統(tǒng),可以有效適配每一個實戰(zhàn)環(huán)境,完成真正意義上的虛擬戰(zhàn)場仿真。
圖7 多軌立體聲處理過程
以無人機作戰(zhàn)為例,聲音作為一種和作戰(zhàn)活動有著密切聯(lián)系的因素,無人機聽覺系統(tǒng)在這個過程中產生出的“具身性”十分明顯。這種關系從本質上離不開身音主體在聽覺、空間二者之間的深層同構關系。
聽覺裝置需要識別炮彈爆炸聲、車輛發(fā)動機在不同轉速和負荷條件下發(fā)出的不同聲音,對發(fā)聲對象的類型、狀態(tài)等特征做出準確判斷,并通過具身算法與環(huán)境進行交互,快速做出躲避或攻擊等一系列決策。與傳統(tǒng)的無人機作戰(zhàn)相比,基于具身引擎的無人機能夠快速適應不同作戰(zhàn)環(huán)境,展現出更高的作戰(zhàn)效率。
此外,在資源保障作戰(zhàn)等場景下,無人機的空中聲學系統(tǒng)需要在人類叫聲和環(huán)境噪音及其他非人類求救信號(如動物的叫聲和風聲等)之間進行破譯,還可能需要識別求救人員試圖引起救援隊注意的踢腿、鼓掌或者其他響動,正確識別哪些聲音是人類發(fā)出的,從而定位求救人員產生特定聲音的準確位置,提高救援效率。由于無人機的紅外探測器和雷達探測器的可探測距離易受某些因素限制,后續(xù)無人機在裝備聽覺孿生設備后,有望彌補現有探測傳感器的不足,在災害救援時增加識別概率和加快識別速度,避免更大的損失。
在無人機自主導航情形下,傳統(tǒng)的無人機基于視覺或燈光系統(tǒng)提供指導,當視覺提供的信息不足時容易造成無人機自主導航系統(tǒng)失效。而基于具身感知的無人機引擎能夠有效適應黑暗、雨雪等條件,從而保障無人機的安全性。
1) 作為軍事虛擬仿真的應用場景創(chuàng)造身臨其境和交互式的擴展現實體驗需要在嚴格的實時限制內魯棒地模擬出真實的聽覺孿生效果。
2) 為了滿足上述要求,實時系統(tǒng)遵循模塊化方法,本文中將問題分為空間音頻合成、聽覺孿生制作和具身交互3個部分,并通過HRTFs進行數學公式化,從而形成一個通用框架。
3) 針對具身性聽覺孿生系統(tǒng)提出了在無人機作戰(zhàn)方面的應用與展望,利用聽覺數字孿生實現更具沉浸感、真實感的擴展現實(XR)體驗,可以提高作戰(zhàn)效率。