韓 柯 徐子凡
(北京電影學(xué)院聲音學(xué)院,北京 100088)
在數(shù)字娛樂與展示行業(yè),制作互動視覺效果的需求已經(jīng)十分常見。借助一些傳感與捕捉技術(shù)將體驗者的行為轉(zhuǎn)換為控制視頻播放或圖形渲染的信號,視覺效果就能跟隨體驗者的位置或動作實時變化,創(chuàng)設(shè)出沉浸式的虛擬現(xiàn)實體驗。不過,在以演員為主體的舞臺表演中,演員的表演動作通常是預(yù)先設(shè)計好的,只要跟隨時間去表演,經(jīng)過多次排練之后,就能呈現(xiàn)出數(shù)字影像與演員互動的效果,無需借助捕捉設(shè)備精準(zhǔn)的獲取演員的動作或位置。
當(dāng)藝術(shù)表演以概念的傳達(dá)為核心時,對互動視覺效果的制作與呈現(xiàn)手段會有新的需求。在北京冬奧會開幕式節(jié)目 《雪花》中,500名手拿和平鴿道具的孩子在超過1萬平米的LED 地磚屏上以自由嬉戲的形式進(jìn)行表演,每個人腳下都有閃亮的雪花特效時刻“追隨”。為了準(zhǔn)確傳遞孩子們心中的自由與浪漫,使用精準(zhǔn)排練去解決小演員腳下的特效跟隨問題就不再是可選方案,而構(gòu)建一個能夠?qū)崟r測定演員位置的定位系統(tǒng),并以此完成互動視覺效果的制作是更具可行性的方案。
在視頻游戲行業(yè),互動視覺效果的制作主要是以游戲圖形引擎為平臺的視效內(nèi)容制作與交互規(guī)則開發(fā)。在這個成熟的工業(yè)體系中,智能手機、個人計算機以及游戲?qū)S弥鳈C是互動效果的通用實現(xiàn)設(shè)備,游戲的體驗者以鼠標(biāo)、鍵盤、觸屏或游戲手柄等方式控制渲染程序產(chǎn)生圖形數(shù)據(jù),再通過手機或計算機的屏幕體驗視覺效果。因而,游戲領(lǐng)域的互動效果制作很少需要考慮互動效果實現(xiàn)系統(tǒng)的構(gòu)建。
與視頻游戲行業(yè)不同,演出領(lǐng)域的互動視覺效果并沒有標(biāo)準(zhǔn)化的制作平臺。對于演出中的互動環(huán)節(jié),一方面,表演者可以是既定的演員也可能是任意選出的觀眾,互動行為可以是表演者的位置、動作,也可能是其表情甚至著裝的顏色;另一方面,視覺效果的呈現(xiàn)可以通過數(shù)臺投影組合投射出的非規(guī)則畫面,也可能借助現(xiàn)場每一位觀眾的手機屏幕。因此,對于現(xiàn)場演出而言,互動視覺效果的制作者通常要根據(jù)項目需求去選擇合適的表演行為捕獲技術(shù),并構(gòu)建一個可由行為數(shù)據(jù)控制的視效處理系統(tǒng),而視效內(nèi)容制作與交互規(guī)則開發(fā)則應(yīng)基于所建構(gòu)視效系統(tǒng)的技術(shù)平臺??梢哉f,演出領(lǐng)域的互動視覺效果制作方案是一個同時包含內(nèi)容制作與系統(tǒng)集成的完整解決方案,而北京冬奧會開幕式節(jié)目《雪花》的互動視覺效果制作正體現(xiàn)了上述概念。
北京冬奧會開幕式節(jié)目 《雪花》的表演形式,以及互動視覺效果制作需求可概括如下。
圖1 《雪花》的演出效果
660名兒童演員分為兩組,以露天體育場內(nèi)平整鋪設(shè)的LED 地磚屏為舞臺進(jìn)行表演。其中,500名舞蹈組演員手持發(fā)光道具在完整舞臺區(qū)域進(jìn)行跑動、行走、轉(zhuǎn)圈、揮舞道具等動作,160 名合唱組演員邊歌唱邊行走,表演區(qū)域主要在舞臺中心區(qū)。
作為舞臺的LED 地磚屏尺寸約155米×76米。節(jié)目表演時段在日落后,使用常規(guī)舞臺燈光進(jìn)行照明。
大量雪花狀圖形單元以組為單位持續(xù)生成并消失,每組效果在每個演員腳下區(qū)域?qū)崟r生成后,快速向四周擴散,擴散半徑約1米,持續(xù)3到5秒后消失。擴散過程中帶有顏色與形態(tài)的改變,呈現(xiàn)出雪花沿演員行動軌跡散落的效果。
演出領(lǐng)域的互動視覺效果并沒有標(biāo)準(zhǔn)制作方案,在進(jìn)行軟件層面的視效內(nèi)容制作與交互規(guī)則編寫之前,首先要確定互動效果的實現(xiàn)平臺。
依據(jù)系統(tǒng)功能,可以把 《雪花》的互動視效實現(xiàn)平臺分為演員定位系統(tǒng)、圖形渲染系統(tǒng)、視效顯示系統(tǒng)三個部分,見圖2。
圖2 《雪花》的互動視效實現(xiàn)平臺結(jié)構(gòu)
作為一個兼顧現(xiàn)場與直播效果的表演,《雪花》的視覺效果呈現(xiàn)基于國家體育場內(nèi)已經(jīng)鋪設(shè)的大規(guī)模LED 地磚屏,這是一個支持標(biāo)準(zhǔn)視頻信號輸入的顯示系統(tǒng),也是視效顯示系統(tǒng)的主體。另一方面,在指定位置實時產(chǎn)生特定圖形是當(dāng)今計算機實時渲染引擎的常規(guī)功能,盡管 《雪花》的視覺效果需要實時生成形狀、顏色等屬性動態(tài)變化的大量圖形單元,并且渲染系統(tǒng)輸出至顯示系統(tǒng)的信號需達(dá)到接近14K 的超高分辨率,不過在多機同步渲染與輸出機制下,圖形渲染系統(tǒng)的功能需求基于主流的實時渲染技術(shù)即可實現(xiàn)。
演員定位系統(tǒng)是《雪花》互動視效實現(xiàn)平臺的設(shè)計重點?!堆┗ā返奈枧_區(qū)域超過1萬平米,500名演員從舞臺南、北兩側(cè)上場后,他們的表演幾乎涉及整個舞臺區(qū)域。互動娛樂領(lǐng)域常見的定位設(shè)備無法直接滿足本節(jié)目的技術(shù)需求,因而需要整合相關(guān)技術(shù)研發(fā)面向本次大型演出的演員定位系統(tǒng),這也是本文的主要研究內(nèi)容。
演員定位系統(tǒng)的主要功能是測定演員在表演區(qū)域的位置?!堆┗ā返难輪T僅在平整的LED 地磚屏上表演,且互動效果也僅在LED 地磚屏上顯示,因此,實現(xiàn)演員在LED 平面上的二維定位即可滿足需求。
從測量設(shè)備的類型上劃分,互動娛樂領(lǐng)域的二維定位技術(shù)主要有基于紅外或壓力傳感器、基于電磁波收發(fā)設(shè)備、基于激光雷達(dá)、基于相機的幾類方案,而根據(jù)《雪花》的演出環(huán)境與功能需求,一些技術(shù)并不適用。首先,在進(jìn)行 《雪花》的互動視效制作時,LED 地磚屏已經(jīng)搭建完成,無法改為LED內(nèi)嵌紅外或壓力傳感器的方案,且該方案的成本也較高。其次,諸如GPS、UWB (UltraWideBand,超寬帶)等基于電磁波的定位技術(shù)因需要演員穿戴設(shè)備而不優(yōu)先考慮,并且這些技術(shù)在本節(jié)目的表演區(qū)域很難實現(xiàn)每秒15次以上的連續(xù)測定,較差的定位實時性將會影響節(jié)目效果呈現(xiàn)。再者,由于表演人數(shù)較多,使用二維激光雷達(dá) (業(yè)內(nèi)稱為LiDAR)掃描表演區(qū)域的方案無法較好的解決演員之間的相互遮擋問題,并且工業(yè)激光雷達(dá)的探測距離有限,針對超過1萬平米的表演區(qū)域并沒有理想的安裝位置。
綜合上述分析,《雪花》的演員定位系統(tǒng)可以使用一種基于相機的定位方案,定位系統(tǒng)連續(xù)測定并輸出演員站立點的位置坐標(biāo),位置的測量頻率與測定精度應(yīng)不影響節(jié)目效果的呈現(xiàn)。
基于相機的定位技術(shù)在互動娛樂領(lǐng)域已有較長的應(yīng)用歷史,其定位原理主要是依據(jù)被測目標(biāo)在相機拍攝圖像中的位置來推算目標(biāo)在實際空間中的位置。相機設(shè)備本身并不包含探測與定位機制,它僅輸出反映畫面光學(xué)特征的圖像?;谙鄼C拍攝的圖像或視頻數(shù)據(jù)進(jìn)行目標(biāo)定位需要借助相機標(biāo)定機制確定圖像與實際空間的坐標(biāo)對應(yīng)關(guān)系,之后借助圖像處理算法確定目標(biāo) (像素)在完整圖像中的位置坐標(biāo),從而推算出目標(biāo)在實際空間中的坐標(biāo)。
6.1.1 相機標(biāo)定
工程測量與計算機視覺領(lǐng)域的相機標(biāo)定是一個求解相機特定參數(shù)的過程,這組特定參數(shù)可用于計算相機所拍攝空間中的某一點與圖像中某一點的對應(yīng)關(guān)系。
相機標(biāo)定的技術(shù)方案通常根據(jù)實際需求來選擇。使用常規(guī)數(shù)字相機實現(xiàn)目標(biāo)在平面上的二維定位時,常用的方式是在被探測平面上放置或顯示明顯的標(biāo)志物,這些標(biāo)志物在平面上的二維坐標(biāo)是已知的,當(dāng)相機拍攝到標(biāo)志物時,即可確定標(biāo)志物所在像素與實際平面二維坐標(biāo)之間的關(guān)系。常規(guī)數(shù)字相機輸出的單幀圖像是一個以像素為單位的二維矩陣,并且可認(rèn)為像素的排列與間距是規(guī)則的,但相機的成像光軸與被探測平面并不一定絕對垂直,并且相機鏡頭的成像也會有一定程度的畸變,因此從理論上講,實現(xiàn)精確定位需要通過標(biāo)志物測定出圖像中所有像素與空間坐標(biāo)點的對應(yīng)關(guān)系。不過根據(jù)定位的精度需求,可以認(rèn)為像素與空間坐標(biāo)在一定范圍內(nèi)存在可計算的對應(yīng)關(guān)系,因此對多個坐標(biāo)已知的標(biāo)志物進(jìn)行逐個測定,建立相機模型及參數(shù),經(jīng)過推算即可得到圖像中任意像素所對應(yīng)的實際二維坐標(biāo)。
圖3 相機標(biāo)定的概念
6.1.2 區(qū)分目標(biāo)圖像
在大部分基于相機的定位方案中,確定目標(biāo)位置需要將目標(biāo)(的圖像)從完整的單幀圖像中區(qū)分出來。一些常見的目標(biāo)圖像區(qū)分方案如下。
(1)基于紅外光強度區(qū)分目標(biāo)圖像
借助紅外相機直接區(qū)分目標(biāo)的方案在互動娛樂領(lǐng)域較為常見。紅外相機拍攝的畫面主要反映物體的紅外輻射強度,如果被探測區(qū)域中的目標(biāo)發(fā)出明顯強于其他物體的紅外光,則可利用紅外光的強度對比來實現(xiàn)目標(biāo)與背景的分離。
(2)基于深度信息區(qū)分目標(biāo)圖像
深度相機泛指帶有深度測量系統(tǒng)的一類視頻相機,這類相機能依靠深度測量系統(tǒng)得到所拍攝圖像中各區(qū)域與相機之間的距離值。如果目標(biāo)與相機的距離相比畫面中其它元素到相機的距離有所不同,則可以借助深度信息將畫面中的目標(biāo)對象區(qū)分出來。目前常見的深度測量系統(tǒng)基于紅外光散斑來推算深度值,這類技術(shù)受環(huán)境光影響較大,深度的有效測量距離通常在十幾米以內(nèi),因而采用這類技術(shù)的Kinect、RealSense等相機主要用于小范圍的室內(nèi)娛樂系統(tǒng)。另一方面,使用激光雷達(dá)輔助相機獲取深度數(shù)據(jù)也是一個技術(shù)方案,不過這類系統(tǒng)目前成本較高,并且分辨率有限。
(3)基于目標(biāo)檢測算法區(qū)分目標(biāo)圖像
在計算機視覺領(lǐng)域,目標(biāo)檢測是一種在數(shù)字化圖片或視頻中檢測特定物體的技術(shù),而人工智能概念的興起讓目標(biāo)檢測技術(shù)更加關(guān)注如何在常規(guī)圖像(而不是帶有紅外強度或深度信息的圖像)中檢測某一類語義對象,比如人、貓或者車。簡單的說,目標(biāo)檢測技術(shù)可以讓計算機像人一樣把圖像中的各類對象“圈”出來,實現(xiàn)了從完整圖像中區(qū)分出某類目標(biāo)圖像的需求。
計算機視覺的廣義研究目標(biāo)在于令計算機程序能夠“理解”數(shù)字化的圖像內(nèi)容,而這個 “理解”可分為多個不同的層次。最初級的層次是判斷圖像中出現(xiàn)了哪些類別的物體,這里的類別通常是泛化的語義對象,例如人、狗、羊等,因此也被稱為“分類 (Classification)”。更高層次的 “理解”則是在“分類”的基礎(chǔ)上,檢測出圖像里的每個物體,獲得其類別與位置,也就是令計算機看懂圖像中“在哪里,有什么”,這一處理在計算機視覺領(lǐng)域被稱為目標(biāo)檢測 (Object Detection)。目標(biāo)檢測又為其它更高級的算法提供了基礎(chǔ),例如將目標(biāo)從背景中精確分割,或是對特定目標(biāo)進(jìn)行追蹤等。
一般來說,目標(biāo)檢測的實現(xiàn)主要基于對圖像視覺特征的提取,例如形狀、紋理、顏色等,再依據(jù)這些特征對物體進(jìn)行識別。在傳統(tǒng)的圖像算法中,用于識別的視覺特征往往是預(yù)先設(shè)計的一般性特征,例如方向梯度直方圖 (Histogram of Oriented Gradients,HOG)算法。這類算法僅需要少量計算資源就能夠?qū)崿F(xiàn)檢測,但是由于使用了固定的特征以及比較簡單的分類算法,能夠?qū)崿F(xiàn)的檢測精度與類別都比較有限。
圖4 計算機視覺的研究目標(biāo)
圖5 使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測[1]
為計算機視覺領(lǐng)域帶來跨時代變化的是近年來迅速發(fā)展的卷積神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Network,簡寫為CNN)算法。不同于傳統(tǒng)算法,卷積神經(jīng)網(wǎng)絡(luò)利用多層卷積核 (Convolution Kernel)函數(shù)對圖像特征進(jìn)行提取,通過改變卷積核的大小、權(quán)重,可以實現(xiàn)各種不同視覺特征的提取,并形成多個特征圖 (Feature Map)。特征圖的特征可以繼續(xù)被卷積核提取,直到分析出對應(yīng)于各種不同目標(biāo)圖像的高級特征,利用這些高級特征進(jìn)行檢測,能夠?qū)崿F(xiàn)遠(yuǎn)超傳統(tǒng)算法的檢測準(zhǔn)確度。
使用卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)高精度目標(biāo)檢測的關(guān)鍵在于確定各個卷積層中的卷積核參數(shù),而這要依賴對卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行的大規(guī)模訓(xùn)練。卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練是借助大量經(jīng)過標(biāo)注的圖片來進(jìn)行的。這里的標(biāo)注是指以人工方式將圖片中的目標(biāo)對象標(biāo)記出來(比如用邊界框分割出目標(biāo)對象)。使用標(biāo)注過的圖片數(shù)據(jù)去訓(xùn)練網(wǎng)絡(luò),即能逐漸調(diào)整出理想的卷積核參數(shù),最終讓神經(jīng)網(wǎng)絡(luò)能夠把目標(biāo)從未經(jīng)標(biāo)注的圖片中區(qū)分出來。卷積神經(jīng)網(wǎng)絡(luò)通常需要用大量的已標(biāo)注圖片去訓(xùn)練才能達(dá)到理想的檢測準(zhǔn)確度,不過業(yè)內(nèi)已經(jīng)有開放下載的訓(xùn)練集 (已經(jīng)標(biāo)注好的圖片數(shù)據(jù)),并且對于一些常見對象(比如人、車)的檢測,可以通過下載權(quán)重文件直接得到一個訓(xùn)練好的網(wǎng)絡(luò)模型。當(dāng)然,如果需要針對特定目標(biāo)提高檢測的準(zhǔn)確度,就需要專門標(biāo)注帶有特定目標(biāo)的圖片,并對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測算法并不唯一。一些檢測精度較高的算法(例如FastR-CNN 算法)在完成分類任務(wù)后需要通過第二個獨立階段進(jìn)行位置探測,因而相對耗時,而YOLO、SSD 等算法則采用僅通過一個階段的網(wǎng)絡(luò)運算同時完成分類和檢測任務(wù)的策略,以犧牲一定檢測精度為代價,做到了檢測效率的有效提升。
基于相機的定位方案通常需要目標(biāo)被清晰拍攝,《雪花》的演員人數(shù)多且表演區(qū)域廣,因此在高處架設(shè)相機能夠盡量避免畫面中出現(xiàn)演員相互遮擋的情況,但這也意味著相機與演員之間的距離較遠(yuǎn),加之國家體育場的結(jié)構(gòu)與演出安全要求,可選的相機架設(shè)位置與舞臺中心的距離在100米以上,這超出了常規(guī)深度相機的作用范圍,也無法較好地使用主動式紅外探測。另一方面,需要定位的500名演員在表演時穿著一致,人形輪廓清晰,舞臺的燈光環(huán)境與互動視覺內(nèi)容也會在排練過程中確定下來,上述條件為使用目標(biāo)檢測算法實現(xiàn)演員圖像的識別與定位提供了可行性。
目標(biāo)檢測算法的檢測速度將直接決定演員定位系統(tǒng)的處理時間,單幀圖像處理時間較長不僅會降低定位系統(tǒng)的測量頻率,也會增加互動視效實現(xiàn)平臺的系統(tǒng)延遲。較低的測量頻率會影響互動視效的流暢度,而較大的系統(tǒng)延遲則會導(dǎo)致演員快速移動時出現(xiàn)視覺效果明顯滯后于演員站立位置的現(xiàn)象,讓實時互動的概念無法成立。因此,在保證一定識別精度的條件下,演員定位系統(tǒng)應(yīng)優(yōu)先選擇檢測速度較快的算法,盡可能縮減系統(tǒng)延遲。
綜合上述分析,《雪花》的演員定位系統(tǒng)設(shè)計思路如下:使用多臺相機組成拍攝視角覆蓋完整表演區(qū)域的采集系統(tǒng),對表演過程進(jìn)行連續(xù)的圖像采集,再借助計算機視覺領(lǐng)域的目標(biāo)檢測算法得到每個演員在單幀圖像中的位置,最后基于相機標(biāo)定的結(jié)果,推算出演員在實際表演區(qū)域中的位置。使用檢測速度較快的目標(biāo)檢測算法確保單幀定位處理能在合理時間內(nèi)完成,使用算法連續(xù)處理相機輸出的單幀圖像序列,即能對演員進(jìn)行連續(xù)定位,滿足演員定位系統(tǒng)的功能需求。
基于目標(biāo)檢測的演員定位系統(tǒng)與圖形渲染系統(tǒng)、視效顯示系統(tǒng)構(gòu)成了《雪花》的互動視效實現(xiàn)平臺,加上面向該平臺開發(fā)的互動視效程序,形成了完整的互動視覺效果制作方案,見圖6,這里對演員定位系統(tǒng)的系統(tǒng)構(gòu)成做簡要說明。
圖6 《雪花》的互動視效制作方案
《雪花》的演員定位系統(tǒng)可以分為圖像采集設(shè)備、定位算法服務(wù)器以及目標(biāo)定位程序、坐標(biāo)處理程序幾個主要單元。下文對其中關(guān)鍵技術(shù)指標(biāo)進(jìn)行說明。
7.1.1 圖像采集設(shè)備與定位算法服務(wù)器
基于對表演區(qū)域與演出環(huán)境的調(diào)研數(shù)據(jù),圖像采集設(shè)備由國家體育場六層觀眾席最高處架設(shè)的4臺1.1英寸傳感器工業(yè)相機 (含專業(yè)鏡頭)組成。每臺相機負(fù)責(zé)場地約1/4區(qū)域,以4K 分辨率、60幀/秒的參數(shù)運行。為了避免場內(nèi)低溫對相機性能造成影響,相機覆蓋了專用保暖套,見圖7。
圖7 相機架設(shè)位置
定位算法服務(wù)器包含5臺獨立的機架式服務(wù)器,其中4臺執(zhí)行目標(biāo)定位程序,另1臺執(zhí)行坐標(biāo)處理程序。定位算法服務(wù)器使用雙至強32核心處理器,鎖頻2.6GHz時執(zhí)行目標(biāo)檢測算法的單幀處理時間在30ms以內(nèi),從相機拍攝到定位處理完成的平均耗時為60ms,可達(dá)到預(yù)期效果。
圖8 定位算法服務(wù)器
演員定位系統(tǒng)選擇的工業(yè)相機支持以SPF+光纜接口的萬兆以太網(wǎng)直接發(fā)送視頻數(shù)據(jù)。4臺相機與執(zhí)行目標(biāo)定位程序的4臺服務(wù)器通過光口以太網(wǎng)交換機組成網(wǎng)絡(luò)。在服務(wù)器端,Linux系統(tǒng)配合相機廠商提供的SDK 可以直接獲取RGB 格式的無壓縮圖像數(shù)據(jù)。
演出系統(tǒng)的可靠性極為重要?!堆┗ā返难輪T定位系統(tǒng)采用了雙系統(tǒng)備份方案,兩套系統(tǒng)使用完全一致的“4相機+5服務(wù)器”硬件配置,各自獨立運行,持續(xù)發(fā)送定位數(shù)據(jù)。而后端的圖形渲染系統(tǒng)能夠同時接收來自兩套定位系統(tǒng)的數(shù)據(jù),并根據(jù)設(shè)置實時切換或者混合使用兩套系統(tǒng)的定位數(shù)據(jù),實現(xiàn)了演員定位系統(tǒng)的熱備份。
7.1.2 目標(biāo)定位程序
目標(biāo)定位程序基于卷積神經(jīng)網(wǎng)絡(luò)中檢測速度較高的YOLO 算法進(jìn)行目標(biāo)檢測。借助節(jié)目排練時采集的圖片數(shù)據(jù)對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練后,圖像中的演員會以邊界框(Bounding Box)的形式被框選出來,將邊界框底邊的幾何中心點作為演員站立位置的參考點,再結(jié)合預(yù)先輸入程序的相機標(biāo)定參數(shù),即可得出演員在實際舞臺平面的位置坐標(biāo)。
圖9 使用YOLO 進(jìn)行的定位測試
YOLO 算法實現(xiàn)快速檢測的核心機制在于預(yù)先將輸入圖像用二維網(wǎng)格劃分成若干個格子,每個格子根據(jù)卷積網(wǎng)絡(luò)提取的特征直接進(jìn)行物體的類別與位置預(yù)測,一次性完成分類和檢測任務(wù)。使用YOLO 算法有以下參數(shù)可以根據(jù)被檢測目標(biāo)的特點進(jìn)行調(diào)整。
(1)YOLO 的網(wǎng)格分辨率。YOLO 算法會對圖像進(jìn)行網(wǎng)格劃分,通過提高網(wǎng)格的分辨率,可以提升對較小目標(biāo)的檢測效果,但這種操作會增加運算耗能,影響檢測速度。
(2)每個格子內(nèi)負(fù)責(zé)進(jìn)行位置預(yù)測的錨框(Anchor Box)數(shù)量以及大小。該參數(shù)可以根據(jù)訓(xùn)練時的數(shù)據(jù)集進(jìn)行設(shè)定,從而使算法更好地適應(yīng)特定的檢測目標(biāo)。
(3)檢測閾值。其代表算法在對預(yù)測結(jié)果有多高把握時即認(rèn)為該預(yù)測有效。通過降低閾值,可以令算法輸出更多的預(yù)測框,在有大量對象需要檢測時可以提升檢測率,但也會增加誤檢可能性。
7.1.3 坐標(biāo)處理程序
目標(biāo)定位程序的輸出結(jié)果是每位演員站立位置的平面坐標(biāo),由于完整表演區(qū)域被分為四個區(qū)域獨立檢測 (如圖10),且區(qū)域之間有交疊部分,因此開發(fā)了坐標(biāo)處理程序用以匯總來自四個目標(biāo)定位程序的坐標(biāo)值,并過濾掉因區(qū)域交疊產(chǎn)生的冗余坐標(biāo)。此外為了優(yōu)化互動視覺效果,程序使用濾波算法對坐標(biāo)連續(xù)變化的軌跡進(jìn)行了平滑處理,并設(shè)計了一些輔助性的參數(shù),從而構(gòu)成完整的定位數(shù)據(jù)。
圖10 定位處理程序監(jiān)控界面
坐標(biāo)處理程序以UDP 數(shù)據(jù)包形式發(fā)送完整表演區(qū)域的演員定位數(shù)據(jù)至后端的圖形渲染系統(tǒng)。依據(jù)前期對目標(biāo)定位程序單幀處理時間的測試結(jié)果,定位處理程序的數(shù)據(jù)包發(fā)送頻率定為30次/秒,采用定長數(shù)據(jù)包方案。
7.1.4 相機標(biāo)定操作
表演區(qū)域平整鋪設(shè)的LED 地磚屏具有非常有利于的標(biāo)定條件。實際操作中,在LED 地磚屏上顯示一個棋盤狀黑白相間的網(wǎng)格圖,并設(shè)置每個方格為同等的邊長(圖11)。通過實地測量獲得LED 所顯示每個方格邊長的物理尺寸后,選擇LED 地磚屏的一點作為坐標(biāo)原點,可以構(gòu)建出基于LED 地磚屏的平面坐標(biāo)系,由于地磚屏上每個方格的長度是已知的,因此格與格的每個交界點都可以作為標(biāo)定操作的標(biāo)志點。在整個表演區(qū)域等間距選擇80個標(biāo)志點進(jìn)行標(biāo)定時,經(jīng)過實際測量驗證,演員定位的誤差不超過15cm,能夠滿足呈現(xiàn)效果需求。
圖11 表演區(qū)域的標(biāo)定操作
《雪花》的互動視覺效果制作方案在節(jié)目排練過程中進(jìn)行了多次測試與調(diào)整,包括相機的分布、相機分辨率、曝光參數(shù)、對卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練、目標(biāo)檢測算法的檢測閾值測定、單幀畫面平均處理時間測定,以及互動視效程序中通信控制機制、視效觸發(fā)與渲染機制的調(diào)整,最終在開幕式前的彩排和開幕式正式演出中實現(xiàn)了預(yù)期目標(biāo),為全世界觀眾呈現(xiàn)了精彩的互動視覺特效。
在前期測試中,YOLO 目標(biāo)檢測算法的漏檢一直是定位系統(tǒng)的主要問題。盡管項目使用最接近正式演出環(huán)境的排練數(shù)據(jù)對神經(jīng)網(wǎng)絡(luò)進(jìn)行了 “訓(xùn)練”,但因節(jié)目轉(zhuǎn)播效果需要,現(xiàn)場燈光無法達(dá)到目標(biāo)檢測的理想條件,演員著裝后無法較好的和背景進(jìn)行區(qū)分,在檢測閾值降低到一定程度時,依然會出現(xiàn)演員漏檢的情況。此外,YOLO 算法對小尺寸目標(biāo)的識別效果較差,當(dāng)目標(biāo)較密集的聚集在一起時,發(fā)生漏檢的幾率會明顯增加。因此在表演過程中,當(dāng)幾名小演員站立位置過近、相互遮擋或者和平鴿道具擋住演員頭部時,演員定位系統(tǒng)都會大概率出現(xiàn)定位丟失現(xiàn)象。不過,上述情況針對單個演員而言并不會持續(xù)頻繁出現(xiàn),因此在對互動視覺效果的觸發(fā)機制與渲染算法調(diào)整后,漏檢問題已經(jīng)不會影響到互動效果的觀賞體驗。
計算機視覺領(lǐng)域的目標(biāo)檢測算法為互動視覺效果制作中的演員定位問題提供了新的解決方案。基于目標(biāo)檢測的定位系統(tǒng)無需演員穿戴設(shè)備,使用單臺高性能服務(wù)器配合常規(guī)相機即能實現(xiàn)定位,而使用高分辨率、高幀率的專業(yè)相機時,其定位精度與速度能夠滿足大型演出的實時互動視效需求。相信隨著計算機視覺領(lǐng)域人臉識別、骨骼追蹤、三維姿態(tài)預(yù)測等技術(shù)的持續(xù)發(fā)展,演出領(lǐng)域的互動視覺效果將迎來全新的制作方式。