胡 堃 解 沛
1.悉尼大學(xué)計(jì)算機(jī)科學(xué)學(xué)院,澳大利亞新南威爾士州 2006 2.中國(guó)電影科學(xué)技術(shù)研究所(中央宣傳部電影技術(shù)質(zhì)量檢測(cè)所),北京 100086
2023 年我國(guó)電影總票房為549.15 億元,其中國(guó)產(chǎn)電影票房為460.05 億元,占比83.77%[1],觀影人次為12.99 億。隨著科技發(fā)展,電影拍攝與制作的工業(yè)化水平取得了極大提升,我國(guó)也正由電影大國(guó)向電影強(qiáng)國(guó)邁進(jìn)。與此同時(shí),深度學(xué)習(xí)(DL)作為機(jī)器學(xué)習(xí)(ML)的重要分支,近些年在計(jì)算機(jī)視覺(jué)(CV)、自然語(yǔ)言處理(NLP)、數(shù)據(jù)挖掘(DM)以及多模態(tài)內(nèi)容理解等領(lǐng)域發(fā)揮了巨大作用。因部分環(huán)節(jié)工作的主觀性與藝術(shù)性,電影攝制流程對(duì)于深度學(xué)習(xí)的結(jié)合與應(yīng)用仍處于探索階段。本文通過(guò)調(diào)研國(guó)內(nèi)外現(xiàn)有技術(shù)與文章,針對(duì)攝制流程中的不同階段,對(duì)深度學(xué)習(xí)技術(shù)在電影智能化攝制中的應(yīng)用進(jìn)行探討與分析,以期提出電影工業(yè)化未來(lái)的發(fā)展趨勢(shì)與方向。
電影攝制是一個(gè)涉及多個(gè)環(huán)節(jié)的復(fù)雜過(guò)程,通常根據(jù)時(shí)間線分為三大階段:前期創(chuàng)意與籌備、中期拍攝以及后期制作。在前期創(chuàng)意階段,首先是劇本創(chuàng)作環(huán)節(jié),劇本作者會(huì)按照線性結(jié)構(gòu)詳細(xì)描繪故事情節(jié)、場(chǎng)景布局和對(duì)白。劇本完成之后,導(dǎo)演會(huì)要求分鏡師根據(jù)劇本內(nèi)容制作分鏡頭腳本,并詳細(xì)規(guī)劃每一鏡頭的編號(hào)、畫面類型、拍攝手法和時(shí)長(zhǎng)等信息。此外,對(duì)于包含計(jì)算機(jī)圖形學(xué)(CG)元素的電影,還需對(duì)虛擬場(chǎng)景和角色進(jìn)行建模和繪制;為了確保拍攝過(guò)程的順暢,許多創(chuàng)作者還會(huì)對(duì)分鏡頭進(jìn)行虛擬預(yù)演(PreViz)。拍攝階段是電影制作中至關(guān)重要的一環(huán),旨在捕捉分鏡頭腳本中所需的全部視頻畫面及部分現(xiàn)場(chǎng)聲音素材,主要設(shè)備包括攝影機(jī)、麥克風(fēng)和燈光系統(tǒng)等。在拍攝過(guò)程中,導(dǎo)演和攝影指導(dǎo)需緊密協(xié)作,確保每一鏡頭的構(gòu)圖與劇本或預(yù)演保持一致;燈光系統(tǒng)需提供符合鏡頭氛圍的照明;盡可能多角度拍攝;要隨時(shí)注意素材的安全保存與傳輸。此外,隨著虛擬攝制技術(shù)的推廣普及,運(yùn)用動(dòng)作捕捉和面部捕捉技術(shù)也日漸成為常態(tài)。后期制作指的是拍攝結(jié)束后進(jìn)行的全部工作,包括素材的剪輯、聲音設(shè)計(jì)、視覺(jué)效果(VFX)制作、色彩校正、混錄以及母版制作等環(huán)節(jié)。
深度學(xué)習(xí)技術(shù)通過(guò)自動(dòng)整合特征提取和建模過(guò)程,推動(dòng)了多種任務(wù)的成功解決。與傳統(tǒng)機(jī)器學(xué)習(xí)相比,深度學(xué)習(xí)依托于神經(jīng)網(wǎng)絡(luò)(Neural Network)架構(gòu),通過(guò)增加網(wǎng)絡(luò)深度來(lái)形成對(duì)輸入數(shù)據(jù)更強(qiáng)大的深層表示能力。目前,常用的深度學(xué)習(xí)架構(gòu)主要包括多層感知機(jī)(MLP)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、圖神經(jīng)網(wǎng)絡(luò)(GNN)[2]以及Transformer網(wǎng)絡(luò)[3]等。其中,MLP 是深度神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)算法;CNN 擅長(zhǎng)處理視覺(jué)和聽(tīng)覺(jué)方面的信息[4];RNN 能夠有效處理和理解文章、視頻或動(dòng)作序列等連續(xù)的信息流;GNN 在動(dòng)畫仿真包括粒子特效領(lǐng)域、處理基于人體姿態(tài)識(shí)別[5][6]領(lǐng)域顯示出強(qiáng)大能力;Transformer 網(wǎng)絡(luò)具有理解復(fù)雜數(shù)據(jù)結(jié)構(gòu)和模式的強(qiáng)大能力,同時(shí)通過(guò)引入跨模態(tài)注意力(Cross-Attention)機(jī)制,催生了如GPT[7]和Stable Diffusion[8]等模型。
基于電影攝制的流程順序,深度學(xué)習(xí)技術(shù)在不同階段均有應(yīng)用,主要應(yīng)用場(chǎng)景如圖1所示。
圖1 電影攝制流程
前期創(chuàng)意與籌備工作是整部電影的基石,既需要足夠獨(dú)特的劇本,也需要將創(chuàng)意落地的分鏡頭腳本,部分還需要為電影拍攝準(zhǔn)備虛擬預(yù)演,此外,含虛擬場(chǎng)景的片段還應(yīng)當(dāng)為拍攝時(shí)使用的場(chǎng)景與角色進(jìn)行建模。近年來(lái),基于深度學(xué)習(xí)實(shí)現(xiàn)文本擴(kuò)充、文生圖以及文生視頻等技術(shù)發(fā)展迅猛,在電影前期也得到了廣泛應(yīng)用。
劇本作為一部電影的基石,其創(chuàng)作顯得尤為重要。隨著數(shù)據(jù)集與模型的不斷優(yōu)化,現(xiàn)有技術(shù)所生成的劇本內(nèi)容更加流暢也更符合人類閱讀習(xí)慣。常見(jiàn)的劇本生成方式是利用已有文本對(duì)神經(jīng)語(yǔ)言模型進(jìn)行訓(xùn)練,輸入簡(jiǎn)單的創(chuàng)意內(nèi)容文本(通常是幾句話),輸出具有情節(jié)、人物等內(nèi)容的長(zhǎng)篇幅文本。Dharaniya 等[9]提出一種基于自然語(yǔ)言處理(NLP)的啟發(fā)式算法的電影劇本生成模型。通過(guò)采集不同電影的文本數(shù)據(jù)(包括角色、場(chǎng)景和類型等)并進(jìn)行數(shù)據(jù)預(yù)處理;再使用深度置信網(wǎng)絡(luò)(Deep Belief Network, DBN)從代表性批歸一化方法(Representative Batch Normalization, RBN)層中提取深度特征后獲得相關(guān)特征;最后,將深度特征賦予基于集成學(xué)習(xí)的電影腳本生成(Ensemble-based Movie Script Generation,EMCG)系統(tǒng),其中使用集成學(xué)習(xí)的腳本生成過(guò)程由雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)、GPT-3 和GPT-NeoX模型執(zhí)行。為了保證劇本內(nèi)容既有相鄰句子連貫性,又有段落之間的統(tǒng)一,相較于通過(guò)大量文本內(nèi)容進(jìn)行訓(xùn)練,Cho 等[10]嘗試從連貫性和內(nèi)聚性的角度對(duì)神經(jīng)語(yǔ)言模型(NLM)進(jìn)行升級(jí),提出一種基于神經(jīng)網(wǎng)絡(luò)的跨句語(yǔ)言特征、連貫和銜接的長(zhǎng)文本生成方法。作者在該方法中提供了兩種鑒別器(Discriminator),其中連貫鑒別器幫助從宏觀角度上構(gòu)建段落,銜接鑒別器從微觀上對(duì)相鄰的句子進(jìn)行連接。近年來(lái),隨著對(duì)話式人工智能的迅速發(fā)展,劇本生成也采用了類似模式,Zhu 等[11]提出一種基于所提供的敘述內(nèi)容生成電影腳本的方法。該方法主要針對(duì)場(chǎng)景生成,通過(guò)更新機(jī)制跟蹤敘述中提供的內(nèi)容,每一次新生成的內(nèi)容均是基于上下文、敘述和反饋之間的多重匹配。此外,他們還構(gòu)建了一個(gè)大規(guī)模數(shù)據(jù)集,用于從電影腳本中生成敘事引導(dǎo)腳本。類似的,Eldhose 等[12]提出一種名為“Alyce Garner Peterson”的人工智能劇本微調(diào)模型,該模型能夠根據(jù)給定的故事給出劇本內(nèi)容。
無(wú)論是創(chuàng)作用于拍攝的分鏡頭故事板,還是設(shè)計(jì)現(xiàn)場(chǎng)或虛擬場(chǎng)景的布景說(shuō)明,將文字描述轉(zhuǎn)換成相應(yīng)的圖像內(nèi)容都是一個(gè)關(guān)鍵步驟。對(duì)于圖像生成任務(wù),主要的模型包括生成式對(duì)抗網(wǎng)絡(luò)(GAN)[13][14][15]、擴(kuò)散模型(Diffusion Model)[16][17]以及變分自編碼器(Variational AutoEncoder, VAE)[18]三類(圖2);每一類模型都可以進(jìn)行有條件和無(wú)條件的圖像生成。其中,有條件生成根據(jù)給定的條件或信息生成圖像,而無(wú)條件生成則隨機(jī)生成符合訓(xùn)練數(shù)據(jù)分布的圖像。
圖2 三類生成模型的特點(diǎn)
特別地,以文本作為條件,微軟和京東共同開發(fā)了一種名為對(duì)象驅(qū)動(dòng)的注意力生成式對(duì)抗網(wǎng)絡(luò)(Object-driven Attentive Generative Adversarial Network,Obj-GAN)[19]。它允許以對(duì)象為中心的復(fù)雜場(chǎng)景的文本生成圖像,并引入了一種基于快速R-CNN 的目標(biāo)檢測(cè)模型,以提供詳細(xì)的對(duì)象信息來(lái)確保生成的對(duì)象與文本描述和預(yù)設(shè)的布局相匹配。作為近年來(lái)熱門的深度學(xué)習(xí)模型,Stable Diffusion 是一個(gè)文本生成圖像模型。該模型通過(guò)逐步迭代的方式,將原始圖像的潛在表示擴(kuò)散到高分辨率圖像。
相較于單純的文本到圖像的轉(zhuǎn)換,基于圖像作為條件的場(chǎng)景也得到了廣泛研究。例如,Zeng 等[20]提出用于從任何精度級(jí)別語(yǔ)義實(shí)現(xiàn)圖像生成的框架SceneComposer,既實(shí)現(xiàn)了基于純文本生成圖像,也可以針對(duì)畫布上的涂鴉進(jìn)行圖像生成。
在電影準(zhǔn)備階段,為了保證開拍后的每一個(gè)鏡頭順利完成拍攝,不僅需要繪制故事板,還需要完成部分鏡頭的虛擬預(yù)演(PreViz)。利用深度學(xué)習(xí)技術(shù)完成虛擬預(yù)演視頻的生成,通常需要提供每一個(gè)分鏡的場(chǎng)景描述,包括但不限于人物、置景、光線以及構(gòu)圖等內(nèi)容,利用上述內(nèi)容,我們期望生成一個(gè)合理、能夠符合所提供文本內(nèi)容的視頻?;谏鲜鲂枨?,Zhang 等[21]提出一個(gè)處理復(fù)雜文本到動(dòng)畫的方法。基于現(xiàn)有的劇本創(chuàng)作動(dòng)畫生成系統(tǒng),作者構(gòu)建了一個(gè)自然語(yǔ)言處理(NLP)流程。首先將輸入的劇本內(nèi)容分割成不同的功能塊,然后對(duì)描述性的句子進(jìn)行簡(jiǎn)化,最后使用簡(jiǎn)化句子生成動(dòng)畫。作者還提出一組簡(jiǎn)化復(fù)雜句子的語(yǔ)言轉(zhuǎn)換規(guī)則,以從簡(jiǎn)化句子中提取的信息用于生成描述文本的粗略故事板和視頻。通過(guò)實(shí)驗(yàn),68%的參與者認(rèn)為該系統(tǒng)可以基于劇本生成合理的動(dòng)畫。虛擬預(yù)演除了根據(jù)文本生成相關(guān)視頻畫面外,通常還需要體現(xiàn)鏡頭、布景、人物位置甚至燈光等內(nèi)容。針對(duì)這類需求,Zhu 等[22]提出MovieFactory,該方法可以根據(jù)自然語(yǔ)言所描述的需求生成包含畫面的多模態(tài)電影內(nèi)容。這是第一個(gè)完全自動(dòng)化的電影生成模型,使用簡(jiǎn)單的文本輸入創(chuàng)建連貫的電影內(nèi)容。該方法第一步利用ChatGPT將提供的文本擴(kuò)展為用于電影生成的詳細(xì)順序腳本;第二步通過(guò)視覺(jué)生成和音頻檢索,在視覺(jué)和聽(tīng)覺(jué)上進(jìn)一步豐富腳本;第三步,采用空間微調(diào)彌合預(yù)訓(xùn)練圖像模型和新視頻數(shù)據(jù)集之間的差異;最后,引入時(shí)間學(xué)習(xí)來(lái)捕捉對(duì)象運(yùn)動(dòng)的特征。此外,在音頻方面,該方法利用檢索模型來(lái)選擇和對(duì)齊與電影情節(jié)和視覺(jué)內(nèi)容相對(duì)應(yīng)的音頻元素。對(duì)于聲音效果,作者從原始文本內(nèi)容或生成的視頻內(nèi)容中提取特征,并將它們與數(shù)據(jù)庫(kù)中合適的音頻剪輯進(jìn)行匹配;對(duì)于背景音樂(lè),則利用ChatGPT 來(lái)總結(jié)情節(jié)和音調(diào),然后將推薦的音調(diào)類別與音樂(lè)信息檢索技術(shù)相結(jié)合來(lái)識(shí)別合適的音樂(lè)曲目。MovieFactory 生成的樣本可在 YouTube 或者bilibili上查閱。
近期,OpenAI 提出其第一個(gè)視頻模型Sora[23]。在發(fā)布的技術(shù)報(bào)告中,研究人員表示其與GPT 模型同樣采用Transformer 網(wǎng)絡(luò)架構(gòu),這種架構(gòu)可以處理視頻和圖片中時(shí)空片段的隱式空間表示。Sora 是一種擴(kuò)散模型,它從看起來(lái)像靜態(tài)噪聲的視頻開始生成視頻,通過(guò)多個(gè)步驟消除噪聲來(lái)逐漸還原視頻。除了能夠僅根據(jù)文本說(shuō)明生成視頻,該模型還能通過(guò)靜止圖像生成視頻,從而提升準(zhǔn)確性和對(duì)細(xì)節(jié)的關(guān)注?;诓煌妮斎耄ㄎ谋?、圖像甚至視頻),Sora可以應(yīng)用在不同的場(chǎng)景下,它可以將視頻沿時(shí)間線向前或向后進(jìn)行擴(kuò)展;改變輸入視頻的風(fēng)格和環(huán)境;實(shí)現(xiàn)視頻間的拼接與平滑過(guò)渡;還可以對(duì)現(xiàn)有視頻進(jìn)行擴(kuò)展或填充缺失幀。Sora 目前也存在無(wú)法精確模擬物理運(yùn)動(dòng)以及長(zhǎng)視頻邏輯不連貫等問(wèn)題,但相比于其他視頻生成模型,Sora 已經(jīng)能夠創(chuàng)造出更符合真實(shí)運(yùn)鏡效果的視頻,也更加契合電影攝制的技術(shù)與藝術(shù)要求。
在現(xiàn)代電影制作中,除了實(shí)地拍攝外,部分鏡頭常采用虛擬攝制技術(shù),包括傳統(tǒng)藍(lán)幕/綠幕技術(shù)和采用LED 顯示屏的新技術(shù)。無(wú)論選擇藍(lán)幕/綠幕還是LED 顯示屏,構(gòu)建逼真的虛擬場(chǎng)景都非常關(guān)鍵,這不僅包括整體環(huán)境的搭建,還涉及場(chǎng)景中的細(xì)節(jié),比如紋理和氣候所形成的地質(zhì)特點(diǎn)。三維掃描實(shí)際場(chǎng)景后創(chuàng)建虛擬環(huán)境,是一種被廣泛應(yīng)用的整體環(huán)境構(gòu)建方法。為了解決從實(shí)景點(diǎn)云數(shù)據(jù)輸入到3D 建模場(chǎng)景輸出的問(wèn)題,Handa 等[24]提供了一個(gè)用于生成高質(zhì)量室內(nèi)環(huán)境3D 場(chǎng)景的框架——SceneNet。他們提出一種分層模型生成器,利用從現(xiàn)有室內(nèi)場(chǎng)景數(shù)據(jù)集中學(xué)習(xí)到的對(duì)象關(guān)系先驗(yàn),通過(guò)模擬退火算法(Simulated Annealing, SA)進(jìn)行求解。掃描后的場(chǎng)景在轉(zhuǎn)換成虛擬場(chǎng)景時(shí),如需對(duì)不同物體進(jìn)行識(shí)別和分割,過(guò)去通常需要耗費(fèi)大量的人工進(jìn)行識(shí)別。對(duì)于該問(wèn)題,Chen 等[25]提出通過(guò)點(diǎn)云驅(qū)動(dòng)的深度學(xué)習(xí)方法,該方法可以檢測(cè)并分類點(diǎn)云場(chǎng)景中的建筑元素。在論文中,首先將點(diǎn)云轉(zhuǎn)換為圖形表示并通過(guò)基于邊緣的分類器對(duì)來(lái)自不同對(duì)象的點(diǎn)的邊緣進(jìn)行識(shí)別;之后利用分類器識(shí)別到的邊緣進(jìn)行組件分割并確定建筑組件的類型;最后,將每個(gè)檢測(cè)到的對(duì)象與特征空間中的建筑信息模型(Building Information Modeling, BIM)進(jìn)行匹配。針對(duì)場(chǎng)景中每一個(gè)對(duì)象的動(dòng)態(tài)紋理生成,Tesfaldet 等[26]提出用于動(dòng)態(tài)紋理合成的基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的雙流網(wǎng)絡(luò)模型。Pajouheshgar 等[27]提出一種可以實(shí)時(shí)合成任意幀大小和無(wú)限長(zhǎng)度動(dòng)態(tài)紋理視頻的模型。利用多尺度感知和位置編碼,該模型中局部單元可以進(jìn)行遠(yuǎn)距離建模并獲取全局信息。通過(guò)定性和定量實(shí)驗(yàn)表明,與普通的近鄰成分分析(Neighbourhood Components Analysis, NCA)模型相比,該模型在視覺(jué)質(zhì)量和計(jì)算表達(dá)能力方面有更高的性能。
除了場(chǎng)景建模外,電影拍攝還常常會(huì)用到角色建模技術(shù)。通過(guò)角色建模,既可以實(shí)現(xiàn)對(duì)真人演員的數(shù)字化,也可以構(gòu)建純虛擬的數(shù)字人物。在真人建模的領(lǐng)域,相較于全身的數(shù)字化生成,僅針對(duì)面部或頭部建模的研究與應(yīng)用更為研究者所熱衷。在角色建模和設(shè)計(jì)時(shí),通常需要真實(shí)人物數(shù)據(jù)(一張圖片或一段視頻)來(lái)生成數(shù)字角色。Nagano 等[28]通過(guò)GAN 實(shí)現(xiàn)了僅使用一張2D 輸入圖像來(lái)驅(qū)動(dòng)動(dòng)態(tài)頭像的構(gòu)建。該網(wǎng)絡(luò)根據(jù)生成的口腔內(nèi)部和眼睛紋理來(lái)合成動(dòng)態(tài)頭像動(dòng)畫,這是第一個(gè)能夠從單個(gè)圖像生成具有口腔內(nèi)部動(dòng)態(tài)紋理的技術(shù)。Wei 等[29]提出一個(gè)利用面部特征制作與真人表情相似動(dòng)畫的系統(tǒng),該系統(tǒng)使用消費(fèi)級(jí)別的頭戴式攝像頭(Headset Mounted Camera, HMC)即可實(shí)現(xiàn)。該系統(tǒng)需要使用兩套不同的HMC 設(shè)備——訓(xùn)練HMC 和追蹤HMC,訓(xùn)練HMC 體積較大,配備9 個(gè)攝像頭,旨在數(shù)據(jù)采集和模型構(gòu)建;追蹤HMC 內(nèi)置3 個(gè)攝像頭,用于精確制作動(dòng)畫。Galanakis 等[30]通過(guò)創(chuàng)建一個(gè)巨大的帶有標(biāo)簽的面部渲染合成數(shù)據(jù)集并將其用于訓(xùn)練網(wǎng)絡(luò),使后者能夠準(zhǔn)確地建模和概括面部身份、姿勢(shì)和外觀。該模型可以準(zhǔn)確地提取面部特征,擬合任意姿勢(shì)和光照的面部圖像,并用于在可控條件下重新渲染面部。除了角色建模外,如何實(shí)現(xiàn)生成角色與虛擬場(chǎng)景的交互也是目前熱門研究?jī)?nèi)容,對(duì)于該問(wèn)題,Starke 等[31]提出一種神經(jīng)網(wǎng)絡(luò)框架來(lái)合成涉及與環(huán)境密切交互的動(dòng)作(坐下、站立、繞行以及開門等)。該系統(tǒng)通過(guò)輸入目標(biāo)位置以及需要實(shí)現(xiàn)的動(dòng)作,計(jì)算完成目標(biāo)動(dòng)作過(guò)程中需要的動(dòng)作,同時(shí)計(jì)算過(guò)程中需要避開或適應(yīng)的障礙或家具,最終生成一段動(dòng)畫序列。
相較于電影制作前期,深度學(xué)習(xí)在電影拍攝過(guò)程中的應(yīng)用并不普遍。這是因?yàn)閷?shí)際拍攝環(huán)節(jié)涉及攝影師、燈光師和錄音師等分屬不同工種的眾多專業(yè)人員,使基于深度學(xué)習(xí)的技術(shù)解決方案尚未能夠在全環(huán)節(jié)廣泛實(shí)施。目前深度學(xué)習(xí)技術(shù)主要應(yīng)用于動(dòng)作與面部捕捉、實(shí)時(shí)對(duì)焦等方面。
在電影拍攝當(dāng)中,動(dòng)作捕捉通常用于利用捕捉到的運(yùn)動(dòng)數(shù)據(jù)驅(qū)動(dòng)已建模角色進(jìn)行同樣的運(yùn)動(dòng)。通過(guò)結(jié)合深度學(xué)習(xí)技術(shù),可以對(duì)已經(jīng)記錄下的運(yùn)動(dòng)數(shù)據(jù)進(jìn)行插幀以及修改。此外,目前還有技術(shù)可實(shí)現(xiàn)對(duì)視頻內(nèi)容中的人物進(jìn)行動(dòng)作捕捉,Tung 等[32]提出一種單相機(jī)輸入的基于深度學(xué)習(xí)的運(yùn)動(dòng)捕捉模型。該模型不是直接優(yōu)化網(wǎng)格和骨架參數(shù),而是優(yōu)化神經(jīng)網(wǎng)絡(luò)權(quán)重,在給定單目視頻的情況下預(yù)測(cè)3D 形狀和骨架配置。該模型使用強(qiáng)監(jiān)督和自監(jiān)督相結(jié)合的端到端方式進(jìn)行訓(xùn)練,其中強(qiáng)監(jiān)督數(shù)據(jù)使用合成數(shù)據(jù),自監(jiān)督數(shù)據(jù)使用骨骼關(guān)鍵點(diǎn)、密集3D 網(wǎng)格運(yùn)動(dòng)以及人類-背景分割三部分可微分渲染數(shù)據(jù)。在面部捕捉領(lǐng)域,研究方向更多是對(duì)拍攝視頻內(nèi)容進(jìn)行識(shí)別與捕捉。Laine 等[33]提出一個(gè)基于視頻的面部表演捕捉實(shí)時(shí)深度學(xué)習(xí)框架,在給定單目視頻的情況下對(duì)人臉進(jìn)行密集的3D 追蹤。為了提升準(zhǔn)確性,該框架的面部捕捉流程使用了多視角立體跟蹤方法和藝術(shù)家手動(dòng)修正關(guān)鍵區(qū)域(例如眼睛和嘴唇)的方式。Wang 等[34]針對(duì)面部表情動(dòng)態(tài)捕捉,提出一種基于深度學(xué)習(xí)的面部特征提取和3D 動(dòng)畫生成方法,并利用支持向量機(jī)(Support Vector Machine, SVM)技術(shù)進(jìn)行特征分類。作者通過(guò)C++和OpenGL 對(duì)3D 動(dòng)畫進(jìn)行渲染模擬。實(shí)驗(yàn)結(jié)果表明,該方法的人臉檢測(cè)算法在準(zhǔn)確率和速度上均具有良好的性能,可以實(shí)現(xiàn)視頻圖像中人臉區(qū)域的實(shí)時(shí)檢測(cè)。
在電影拍攝中,確保焦點(diǎn)的準(zhǔn)確性至關(guān)重要,而自動(dòng)對(duì)焦技術(shù)則能進(jìn)一步保障拍攝工作的順利進(jìn)行。目前,大多數(shù)技術(shù)專注于對(duì)已拍攝的視頻或圖像內(nèi)容進(jìn)行后期對(duì)焦處理。Wang 等[35]研究者提出一種基于圖像的自動(dòng)對(duì)焦新流程,能夠迅速準(zhǔn)確地找到焦點(diǎn),速度比以往對(duì)比度增強(qiáng)方法快5~10 倍,通過(guò)建立圖像與其焦點(diǎn)位置之間的直接映射來(lái)實(shí)現(xiàn)快速對(duì)焦,并設(shè)計(jì)了一種焦點(diǎn)控制策略,通過(guò)動(dòng)態(tài)調(diào)整焦點(diǎn)位置,極大地提高了基于焦點(diǎn)堆棧估計(jì)的圖像質(zhì)量。Zhang 等[36]提出一種電影焦點(diǎn)追蹤方法和系統(tǒng),能夠在智能手機(jī)拍攝的深景深視頻中生成可重調(diào)焦的視頻內(nèi)容,并利用對(duì)未來(lái)視頻幀的分析,為當(dāng)前幀提供上下文感知的自動(dòng)對(duì)焦功能。為了生成這種可重新對(duì)焦的視頻,研究者們擴(kuò)展了原本設(shè)計(jì)用于靜態(tài)攝影的先進(jìn)機(jī)器學(xué)習(xí)方法,提供了新的數(shù)據(jù)集、更適合電影焦點(diǎn)處理的渲染模型,以及保證時(shí)間連貫性的過(guò)濾方案。Nazir 等[37]提出一種利用深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)單張失焦圖像的深度估計(jì),并獲得全焦(All-in-Focus, Aif)圖像。該方法是由一個(gè)編碼器和兩個(gè)并行解碼器組成的雙頭架構(gòu),每個(gè)解碼器實(shí)現(xiàn)不同的任務(wù),一個(gè)輸出深度信息,另一個(gè)輸出去模糊圖像。
對(duì)于后期制作,深度學(xué)習(xí)主要應(yīng)用于音視頻處理與增強(qiáng)等方面。相較于其他兩個(gè)階段,深度學(xué)習(xí)在后期制作中已具備較為成熟的應(yīng)用場(chǎng)景,也是應(yīng)用效果較好的一個(gè)領(lǐng)域。
除了拍攝期間錄制的同期聲外,音樂(lè)和音效的制作通常都在后期完成。目前,基于深度學(xué)習(xí)的音樂(lè)處理技術(shù)發(fā)展迅猛,尤其是在利用樂(lè)譜進(jìn)行音樂(lè)合成方面已經(jīng)取得較為成熟的進(jìn)展。Mao 等[38]開發(fā)了一種名為DeepJ 的端到端生成模型,該模型能夠模仿特定作曲家的風(fēng)格來(lái)創(chuàng)作音樂(lè),并能學(xué)習(xí)不同的音樂(lè)風(fēng)格和音符的高低起伏。通過(guò)主觀評(píng)價(jià),證明了該模型相比于傳統(tǒng)的長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)方法有明顯改進(jìn)。Li 等[39]提出一種創(chuàng)新的旋律創(chuàng)作方法,該方法優(yōu)化了基于單個(gè)小節(jié)的生成式對(duì)抗網(wǎng)絡(luò)(GAN)模型,并引入了兩個(gè)判別器來(lái)構(gòu)建一個(gè)增強(qiáng)型的GAN 模型:一是LSTM 模型,確保樂(lè)段之間的連貫性;另一是CNN 模型,增強(qiáng)樂(lè)段間的一致性。另一項(xiàng)研究中,Li 等[40]還提出MRBERT 預(yù)訓(xùn)練模型,專注于多任務(wù)音樂(lè)生成,包括旋律和節(jié)奏的學(xué)習(xí)。該模型經(jīng)過(guò)微調(diào)后,能夠在多種音樂(lè)生成應(yīng)用中使用,如網(wǎng)絡(luò)音樂(lè)作曲家,實(shí)現(xiàn)旋律生成、編輯、補(bǔ)全及和弦匹配等功能。Li 等[41]還提出一種使用基于Transformer 網(wǎng)絡(luò)的序列到序列模型生成旋律和弦的方法,該模型分為預(yù)訓(xùn)練的編碼器和解碼器。Lu 等[42]則提出一種從文本描述生成樂(lè)譜的系統(tǒng),該系統(tǒng)通過(guò)音樂(lè)屬性作為中介,將任務(wù)分解為從文本到屬性的解析和從屬性到音樂(lè)的生成兩個(gè)階段,特點(diǎn)是數(shù)據(jù)高效和能夠精確控制生成結(jié)果。Parker 等[43]提出一種基于非自回歸Transformer 的端到端音樂(lè)生成模型,該模型可以理解給定音樂(lè)并基于輸入音樂(lè)生成新的音樂(lè)。
字幕生成通常是后期制作中耗費(fèi)人工時(shí)間最長(zhǎng)的幾項(xiàng)工作之一,目前深度學(xué)習(xí)技術(shù)還無(wú)法完全代替手動(dòng)添加字幕,但也有了不錯(cuò)的方法。Xu 等[44]提出一種深層框架,通過(guò)學(xué)習(xí)多模態(tài)注意力長(zhǎng)短期記憶(Multimodal Attention Long-Short Term Memory, MA-LSTM)來(lái)增強(qiáng)視頻字幕的網(wǎng)絡(luò)。MA-LSTM 網(wǎng)絡(luò)充分利用多模態(tài)流和時(shí)間注意力,在句子生成過(guò)程中有選擇地關(guān)注特定元素。此外,MA-LSTM 中還設(shè)計(jì)了一種新穎的子和(Child-sum)融合單元,以將不同的編碼模式有效組合到初始解碼狀態(tài)。Li 等[45]提出一個(gè)分層模塊化網(wǎng)絡(luò),在生成字幕之前在實(shí)體、動(dòng)詞、謂詞和句子4 個(gè)粒度上橋接視頻表示和語(yǔ)言語(yǔ)義。每個(gè)級(jí)別由一個(gè)模塊實(shí)現(xiàn),以將相應(yīng)的語(yǔ)義嵌入到視頻表示中。此外,作者還提出一個(gè)基于字幕場(chǎng)景圖的強(qiáng)化學(xué)習(xí)模塊,以更好地測(cè)量句子相似度。實(shí)驗(yàn)結(jié)果表明,所提出的方法在三個(gè)廣泛使用的基準(zhǔn)數(shù)據(jù)集上的性能優(yōu)于此前的模型。
電影攝制是藝術(shù)創(chuàng)作與高新技術(shù)應(yīng)用相結(jié)合的工作,既有需要大量創(chuàng)意與設(shè)計(jì)的劇本撰寫、拍攝等工作,也有簡(jiǎn)單機(jī)械的字幕生成等工作。通過(guò)上述回顧我們可以看到,無(wú)論是藝術(shù)創(chuàng)作還是簡(jiǎn)單的重復(fù)性工作,都已經(jīng)開始通過(guò)與深度學(xué)習(xí)技術(shù)相結(jié)合,進(jìn)一步提升電影制作效率。未來(lái),應(yīng)做好以下工作。
(1)提升輸出效率與輸出內(nèi)容專業(yè)性
在電影攝制過(guò)程中,Transformer 網(wǎng)絡(luò)已然成為構(gòu)建各種生成模型的首選?;赥ransformer 網(wǎng)絡(luò)的GPT 和Sora 能夠很好地理解與分析自然語(yǔ)言,在劇本創(chuàng)作、分鏡腳本生成、虛擬預(yù)演等工作上具有優(yōu)秀的表現(xiàn);基于擴(kuò)散模型和Transformer 網(wǎng)絡(luò)的Stable Diffusion 更擅長(zhǎng)于文生圖以及圖生圖等領(lǐng)域;基于Transformer 網(wǎng)絡(luò)的SteamGen 等模型在音樂(lè)的生成與處理領(lǐng)域具有更多的研究進(jìn)展。然而,目前各類算法仍然存在輸出效率不高,輸出內(nèi)容不精細(xì)等問(wèn)題。未來(lái),研究人員可以繼續(xù)在Transformer 網(wǎng)絡(luò)上進(jìn)行深入研究,升級(jí)或創(chuàng)新生成模型,提高生成效率,進(jìn)一步提升輸出的音視頻內(nèi)容精確性與專業(yè)性。
(2) 擴(kuò)充完善電影級(jí)訓(xùn)練數(shù)據(jù)集
目前基于電影的專用深度學(xué)習(xí)算法與技術(shù)還處于發(fā)展階段,這不僅需要硬件的升級(jí)與算法的創(chuàng)新,同樣需要基于電影領(lǐng)域?qū)S糜?xùn)練數(shù)據(jù)集的幫助。由于深度學(xué)習(xí)的主要算法是數(shù)據(jù)驅(qū)動(dòng),如果用于訓(xùn)練的數(shù)據(jù)由于人為選擇標(biāo)準(zhǔn)或標(biāo)簽而分布不均或不具代表性,則學(xué)習(xí)后的結(jié)果同樣可能存在偏差。未來(lái),研究人員在提出新算法的同時(shí),也應(yīng)當(dāng)建立和補(bǔ)充更加豐富多元也更為專業(yè)的訓(xùn)練數(shù)據(jù)集,同時(shí)考慮觀眾偏好以及時(shí)代特征,符合相關(guān)審查規(guī)范,進(jìn)一步推動(dòng)深度學(xué)習(xí)模型在訓(xùn)練時(shí)數(shù)據(jù)集的專業(yè)性與完備性。
(3)研究基于電影攝制全流程的深度學(xué)習(xí)技術(shù)
基于深度學(xué)習(xí)的電影攝制解決方案仍在持續(xù)涌現(xiàn),然而目前深度學(xué)習(xí)技術(shù)在電影攝制方面的應(yīng)用仍然處于割裂且分散的狀態(tài),無(wú)法實(shí)現(xiàn)對(duì)電影前后期全流程進(jìn)行統(tǒng)一而全面的應(yīng)用。在持續(xù)推進(jìn)各階段不同工作的新技術(shù)新應(yīng)用的同時(shí),還應(yīng)當(dāng)全局考慮電影攝制整體流程,嘗試實(shí)現(xiàn)基于全流程的深度學(xué)習(xí)新應(yīng)用;還可嘗試將不同深度學(xué)習(xí)網(wǎng)絡(luò)模型進(jìn)行融合與集成,從而使深度學(xué)習(xí)技術(shù)不再單獨(dú)完成單一任務(wù),真正實(shí)現(xiàn)從劇本創(chuàng)作到成品電影的全流程智能化,進(jìn)而創(chuàng)造出有價(jià)值、有意義的作品與內(nèi)容。?