高銳*,張麗君
(中北大學(xué),太原 030051)
自2016 年起人們便能陸續(xù)看見由人工智能系統(tǒng)“Benjamin”執(zhí)導(dǎo)或編劇的短片,如《Sunspring》、《It's No Game》;2020 年底,一個名為Zone Out的人工智能系統(tǒng)執(zhí)導(dǎo)了《Zone Out 2》,該影片根據(jù)觀眾輸入的關(guān)鍵詞生成不同的故事情節(jié);2021 年末,Netflix 和Ke‐aton Patti 合作的短片《Mr Puzzles Wants You to Be Less Alive》提供了一種新穎而獨特的電影風(fēng)格遷移的實例,這部僅4分23秒的影片由人工智能系統(tǒng)編寫并導(dǎo)演,整個過程都通過機器學(xué)習(xí)和大數(shù)據(jù)技術(shù)實現(xiàn)。據(jù)介紹該AI導(dǎo)演學(xué)習(xí)了40萬小時恐怖電影。通過觀影,不難發(fā)現(xiàn)片中有許多熟悉的經(jīng)典恐怖電影的畫面,這證明AI 導(dǎo)演已能成功地將原有的電影風(fēng)格遷移到另一種完全不同風(fēng)格的影片中,這是前所未有的。到2022年底,人工智能生成內(nèi)容更有如雨后春筍般涌現(xiàn),谷歌的Dreamix 和Make a video,使普通用戶直接能通過自己的描述生成影像,這為影視產(chǎn)業(yè)革命提供了潛在可能。
不論是由AI 導(dǎo)演的《Mr Puzzles Wants You to Be Less Alive》,還是由AIGC 技術(shù)輔助商業(yè)化動畫片的首支發(fā)行級別作品《The Dog & The Boy》,AI 影片的出現(xiàn)不可避免地引起了一系列的技術(shù)問題和藝術(shù)挑戰(zhàn),包括如何保持視頻內(nèi)容和音頻內(nèi)容的連貫性,如何保持電影的意義和情感,以及如何處理可能出現(xiàn)的失真或者偽影等問題。本文通過研究和改進現(xiàn)有的電影風(fēng)格遷移方法,為解決這些問題提供一些有益的思考。
電影風(fēng)格遷移是指將一部電影的風(fēng)格轉(zhuǎn)換為另一種風(fēng)格的過程,比如將一部黑白電影變成彩色電影,或?qū)⒁徊楷F(xiàn)實主義電影變成動畫電影。電影風(fēng)格遷移技術(shù)有著悠久的發(fā)展歷史。早在上世紀90年代,學(xué)者們就提出了基于紋理合成的方法,但只能處理簡單的紋理圖像。2015年起,Gatys等[1]將神經(jīng)網(wǎng)絡(luò)引入該領(lǐng)域,提出了一種可實現(xiàn)任意兩張圖像風(fēng)格遷移的優(yōu)化算法。這一方法生成的結(jié)果具有高質(zhì)量,但計算量大,速度慢,難以實時應(yīng)用于視頻。接著,一些利用生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)和變分自編碼器(Variational Autoencoder,VAE)等模型的任意風(fēng)格遷移技術(shù)也相繼出現(xiàn),它們能夠快速、高效、多樣化地實現(xiàn)風(fēng)格遷移,甚至能根據(jù)需要動態(tài)地調(diào)整風(fēng)格。此外,還有一些技術(shù)能夠?qū)崿F(xiàn)實時視頻風(fēng)格遷移,即在觀看或拍攝視頻時改變視頻風(fēng)格,提升用戶體驗和參與度。電影風(fēng)格遷移是一種具有創(chuàng)造性和表現(xiàn)力的藝術(shù)手段,可以為電影制作和觀賞提供更多的可能性和選擇。然而,電影風(fēng)格遷移也是一種復(fù)雜和困難的技術(shù)挑戰(zhàn),需要考慮電影的內(nèi)容、結(jié)構(gòu)、語言、音樂、色彩等多個方面的因素,以及不同風(fēng)格之間的相似性和差異性。
電影風(fēng)格遷移的研究起源于圖像風(fēng)格遷移的領(lǐng)域,圖像風(fēng)格遷移是指將一幅圖像的風(fēng)格轉(zhuǎn)換為另一幅圖像的風(fēng)格,比如將一幅照片變成梵高的星空畫。圖像風(fēng)格遷移的方法可以分為兩類:基于優(yōu)化的方法和基于深度學(xué)習(xí)的方法?;趦?yōu)化的方法是指通過最小化一個目標函數(shù)來實現(xiàn)圖像風(fēng)格遷移,其中目標函數(shù)包含了內(nèi)容損失和風(fēng)格損失兩個部分,分別用來度量合成圖像與內(nèi)容圖像和風(fēng)格圖像之間的差異?;趦?yōu)化的方法可以產(chǎn)生高質(zhì)量的結(jié)果,但計算代價很高,每次生成一幅新的合成圖像都需要進行迭代優(yōu)化?;谏疃葘W(xué)習(xí)的方法是指通過訓(xùn)練一個深度神經(jīng)網(wǎng)絡(luò)來實現(xiàn)圖像風(fēng)格遷移,其中神經(jīng)網(wǎng)絡(luò)可以是一個生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)或者一個自編碼器(Autoencoder,AE)?;谏疃葘W(xué)習(xí)的方法可以實現(xiàn)快速的圖像風(fēng)格遷移,但通常需要針對每種風(fēng)格訓(xùn)練一個單獨的模型,而且生成的結(jié)果可能存在失真或者偽影等問題。
電影風(fēng)格遷移與圖像風(fēng)格遷移相比,有著更高的難度和更廣的應(yīng)用。電影不僅包含了靜態(tài)的圖像信息,還包含了動態(tài)的視頻信息和音頻信息。因此,電影風(fēng)格遷移需要考慮如何在保持視頻內(nèi)容和音頻內(nèi)容不變的情況下,將視頻和音頻的風(fēng)格進行轉(zhuǎn)換,并且保證轉(zhuǎn)換后的視頻和音頻之間有著良好的協(xié)調(diào)性和連貫性。另外,電影風(fēng)格遷移還需要考慮如何在保持電影本身所表達的意義和情感不變的情況下,將電影風(fēng)格進行轉(zhuǎn)換,并且保證轉(zhuǎn)換后的電影仍然具有藝術(shù)性和觀賞性。
人工智能的發(fā)展不斷涌現(xiàn)出新的應(yīng)用領(lǐng)域和技術(shù),電影風(fēng)格遷移便是其中的一環(huán)。現(xiàn)階段,無論在國內(nèi)還是國際,關(guān)于電影風(fēng)格遷移的研究都剛剛起步,其主要集中在以下幾個方面:
(1)基于大數(shù)據(jù)和機器學(xué)習(xí)的AI 導(dǎo)演,主要關(guān)注如何利用大數(shù)據(jù)和機器學(xué)習(xí)等技術(shù)來生成電影劇本、繪畫、音樂、配音、剪輯等內(nèi)容,并根據(jù)用戶的輸入或反饋來調(diào)整電影的風(fēng)格、情感、內(nèi)容等方面。
(2)基于深度學(xué)習(xí)的視頻風(fēng)格遷移,主要關(guān)注如何利用深度神經(jīng)網(wǎng)絡(luò)來實現(xiàn)視頻內(nèi)容與視頻風(fēng)格之間的分離與重組,并生成具有目標風(fēng)格的新視頻[2]。
(3)基于深度學(xué)習(xí)的音頻風(fēng)格遷移,主要關(guān)注如何利用深度神經(jīng)網(wǎng)絡(luò)來實現(xiàn)音頻內(nèi)容與音頻風(fēng)格之間的分離與重組,并生成具有目標風(fēng)格的新音頻。
(4)基于深度學(xué)習(xí)的視頻和音頻協(xié)調(diào)性,主要關(guān)注如何利用深度神經(jīng)網(wǎng)絡(luò)來實現(xiàn)視頻和音頻之間的協(xié)調(diào)性,使得轉(zhuǎn)換后的視頻和音頻之間有著良好的匹配和連貫性[3]。
這些研究都在不同程度上推動了電影風(fēng)格遷移技術(shù)的發(fā)展,但仍有許多挑戰(zhàn)和問題待解決。本文將重點關(guān)注基于大數(shù)據(jù)和機器學(xué)習(xí)的AI 導(dǎo)演電影風(fēng)格遷移方法,以及它們在這個過程中的優(yōu)勢和局限性。
本部分將重點探討人工智能如何塑造和改變電影風(fēng)格遷移的技術(shù)和藝術(shù),深入剖析人工智能如何實現(xiàn)電影風(fēng)格的遷移,包括它使用的算法、技術(shù)和方法,以及它如何通過一些量化或質(zhì)性的指標或標準來評估這種遷移的效果。
本節(jié)將介紹基于大數(shù)據(jù)和機器學(xué)習(xí)的AI 導(dǎo)演電影風(fēng)格遷移方法的基本原理和流程,以及它們所涉及的技術(shù)和模型。例如,神經(jīng)風(fēng)格遷移是一種優(yōu)化技術(shù),主要用于獲取兩個圖像(內(nèi)容圖像和風(fēng)格參考圖像)并將它們混合在一起,以便使輸出圖像看起來像內(nèi)容圖像,但卻是以風(fēng)格參考圖像的風(fēng)格“繪制”的[4]。以《Mr Puzzles Wants You to Be Less Alive》為例,從一開始的場景就能感受到AI 導(dǎo)演備受《電鋸驚魂》的影響,讓人不禁贊嘆AI 在吸納套路方面的出色表現(xiàn)。具體到應(yīng)用場景,風(fēng)格遷移是如何實現(xiàn)的呢?
3.1.1 神經(jīng)風(fēng)格遷移的基本流程
首先,使用一個預(yù)訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)(如VGG-16)作為特征提取器,提取內(nèi)容圖像和風(fēng)格圖像在不同層次上的特征,并通過計算特征之間的距離或相關(guān)性來定義內(nèi)容損失和風(fēng)格損失。然后,使用一個前饋神經(jīng)網(wǎng)絡(luò)(如Autoencoder)作為轉(zhuǎn)換器,將內(nèi)容圖像轉(zhuǎn)換為目標風(fēng)格,并通過反向傳播算法來更新轉(zhuǎn)換器的參數(shù)。最后,重復(fù)上述過程,直到達到滿意的效果[5]。
3.1.2 主要技術(shù)和模型
神經(jīng)風(fēng)格遷移作為近年來受到矚目的技術(shù),其實現(xiàn)過程涉及到眾多頗具深度和廣度的技術(shù)及模型。神經(jīng)風(fēng)格遷移的核心部分,包括卷積神經(jīng)網(wǎng)絡(luò)、特征提取、內(nèi)容損失、風(fēng)格損失、Gram矩陣和轉(zhuǎn)換器。
(1)卷積神經(jīng)網(wǎng)絡(luò)(CNN):深度學(xué)習(xí)模型,用于圖像識別等任務(wù)。CNN 由卷積層、池化層、全連接層等組成,從輸入圖像提取不同層次的特征,保留空間信息[6]。
(2)特征提?。簭脑紨?shù)據(jù)提取有用信息的過程。在神經(jīng)風(fēng)格遷移中,特征提取指使用CNN 從內(nèi)容圖像和風(fēng)格圖像提取不同層次的特征,計算內(nèi)容損失和風(fēng)格損失[7]。
(3)內(nèi)容損失:度量兩個圖像在內(nèi)容上的差異的指標。在神經(jīng)風(fēng)格遷移中,內(nèi)容損失指使用CNN 從內(nèi)容圖像和輸出圖像提取較高層次的特征,計算它們的均方誤差。
(4)風(fēng)格損失:度量兩個圖像在風(fēng)格上的差異的指標。在神經(jīng)風(fēng)格遷移中,風(fēng)格損失指使用CNN 從風(fēng)格圖像和輸出圖像提取較低層次的特征,計算它們的Gram矩陣的均方誤差[8]。
(5)Gram矩陣:表示圖像風(fēng)格特征的矩陣。Gram矩陣是由CNN 輸出的特征圖內(nèi)積得到的,反映不同特征的相關(guān)性或紋理信息。
(6)轉(zhuǎn)換器:將輸入圖像轉(zhuǎn)換為目標風(fēng)格的模型。在神經(jīng)風(fēng)格遷移中,轉(zhuǎn)換器指使用前饋神經(jīng)網(wǎng)絡(luò)(如Autoencoder)映射內(nèi)容圖像到輸出圖像[9],并通過優(yōu)化內(nèi)容損失和風(fēng)格損失更新參數(shù)。
在電影制作的過程中,風(fēng)格遷移的技術(shù)對表達特定的情感和視覺效果具有重要的價值。然而,傳統(tǒng)的風(fēng)格遷移技術(shù)往往需要大量的時間和精力,且結(jié)果的質(zhì)量和多樣性也受到很多限制。而基于大數(shù)據(jù)和機器學(xué)習(xí)的AI 導(dǎo)演電影風(fēng)格遷移方法可為這個問題帶來新的解決方案,其主要集中于四個方面。
(1)速度:快速遷移風(fēng)格,無需迭代優(yōu)化。利用預(yù)訓(xùn)練模型和數(shù)據(jù)加速計算,用GPU等硬件并行處理任務(wù)。傳統(tǒng)方法慢,計算量大,不適應(yīng)大規(guī)模視頻。
(2)質(zhì)量:高質(zhì)量遷移風(fēng)格,不犧牲內(nèi)容或風(fēng)格。利用高質(zhì)量數(shù)據(jù)提高質(zhì)量和可靠性,用深度神經(jīng)網(wǎng)絡(luò)提取高層和抽象特征,更好捕捉內(nèi)容和風(fēng)格關(guān)系[11]。傳統(tǒng)方法可能失真或偽影,合成圖像與原始圖像差異或不自然。
(3)多樣性:多樣化遷移風(fēng)格,無需針對每種風(fēng)格訓(xùn)練模型。利用不同類型、來源、時期、流派、媒介的藝術(shù)風(fēng)格作參考,實現(xiàn)任意風(fēng)格遷移。傳統(tǒng)方法需單獨訓(xùn)練模型,難適應(yīng)新穎或復(fù)雜風(fēng)格。
(4)個性化:個性化遷移風(fēng)格,不完全依賴參考圖像[12]。利用機器學(xué)習(xí)技術(shù)根據(jù)用戶輸入或反饋調(diào)整風(fēng)格,用參數(shù)或選項控制風(fēng)格強度、范圍、比例等。傳統(tǒng)方法需遵循參考圖像,難靈活或細致控制。
基于大數(shù)據(jù)和機器學(xué)習(xí)的AI 導(dǎo)演電影風(fēng)格遷移方法有優(yōu)勢,如快速、高質(zhì)、多樣和個性,但也有局限和問題,如失真、偽影、不協(xié)調(diào)和不連貫等。
(1)失真:合成圖像與內(nèi)容圖像細節(jié)或結(jié)構(gòu)失真,影響內(nèi)容保留或表達。原因是方法忽略或破壞內(nèi)容圖像的重要信息或特征,如面部表情、輪廓、透視等。
(2)偽影:合成圖像有不真實或不自然的現(xiàn)象,影響風(fēng)格表達或美感。原因是方法引入與內(nèi)容圖像或風(fēng)格圖像不匹配或不協(xié)調(diào)的元素,如顏色飽和、紋理平滑、噪聲增強等[13]。
(3)不協(xié)調(diào):合成圖像與原始視頻動態(tài)或音頻不協(xié)調(diào),影響視頻流暢或感染。原因是方法忽略或破壞原始視頻的運動或音頻,如動作、軌跡、節(jié)奏等。
(4)不連貫:合成視頻時間不連貫,影響視頻完整或邏輯。原因是方法對每幀圖像獨立風(fēng)格遷移,沒考慮幀間關(guān)聯(lián)或一致,如光照變化、場景切換、情節(jié)發(fā)展等。
上一節(jié)分析了基于大數(shù)據(jù)和機器學(xué)習(xí)的AI 導(dǎo)演電影風(fēng)格遷移方法所面臨的挑戰(zhàn)和問題,本節(jié)將繼續(xù)探討另一個重要的話題——如何評估這些AI 風(fēng)格遷移方法的效果和性能。下文將從多個維度入手,評估的方法包括定量指標、定性指標、對比分析,以及討論可能存在的問題等幾個方面。
3.4.1 定量指標
定量指標是一種用數(shù)值指標度量合成圖像與內(nèi)容圖像和風(fēng)格圖像的差異或相似度的方法。在神經(jīng)風(fēng)格遷移中,常用的定量指標有:
(1)峰值信噪比(PSNR):度量兩個圖像亮度的相似度,計算公式為:
其中,MAX是圖像最大像素值,MSE是兩圖像均方誤差。PSNR越高,兩圖像越相似[14]。
(2)結(jié)構(gòu)相似性指數(shù)(SSIM):度量兩個圖像結(jié)構(gòu)的相似度,計算公式為:
其中,x和y是兩圖像局部窗口,μx和μy是窗口均值,σx和σy是窗口標準差,σxy是窗口協(xié)方差,c1 和c2是避免分母為零的常數(shù)。SSIM 越接近1,兩圖像越相似[15]。
(3)風(fēng)格相似性指數(shù)(SSI):度量兩個圖像風(fēng)格的相似度,計算公式為:
其中,x和y是兩圖像,Gx和Gy是它們的Gram 矩陣,||·||是矩陣范數(shù)。SSI越接近1,兩圖像越相似。
3.4.2 定性指標
定性指標是一種使用一些主觀化的指標來評價合成圖像的藝術(shù)性、表現(xiàn)力、感染力等的方法。在神經(jīng)風(fēng)格遷移中,常用的定性指標有:
(1)內(nèi)容保留度(Content Preservation Degree,CPD):評價合成圖像在內(nèi)容上與內(nèi)容圖像保持一致的程度的指標。CPD 越高,表示合成圖像越保留內(nèi)容圖像的信息。
(2)風(fēng)格表達度(Style Expression Degree,SED):評價合成圖像在風(fēng)格上與風(fēng)格圖像表達一致的程度的指標。SED 越高,表示合成圖像越表達風(fēng)格圖像的特征。
(3)視覺美感(Visual Aesthetic,VA):評價合成圖像在視覺上是否具有美感或者吸引力的指標。VA 越高,表示合成圖像越具有視覺美感。
3.4.3 對比分析
對比分析是使用一些傳統(tǒng)的或基于優(yōu)化的方法作為對照組,來比較不同方法的優(yōu)劣的方法。在神經(jīng)風(fēng)格遷移中,可采用以下對比方法:
(1)基于優(yōu)化的方法(Optimization-based Method,OBM):使用迭代優(yōu)化算法來實現(xiàn)風(fēng)格遷移的方法,其基本思想是將一個隨機初始化的圖像作為輸出圖像,并通過最小化內(nèi)容損失和風(fēng)格損失來更新其像素值。這種方法可以實現(xiàn)較好的風(fēng)格遷移效果,但速度慢,計算量大[15]。
(2)基于人工智能技術(shù)(Artificial Intelligence Technology-based Method,ATM):使用人工智能技術(shù)來實現(xiàn)風(fēng)格遷移的方法,其基本思想是將一個預(yù)訓(xùn)練好的模型作為轉(zhuǎn)換器,并通過輸入內(nèi)容圖像來生成輸出圖像。這種方法可以實現(xiàn)較快的風(fēng)格遷移速度,但可能會犧牲一些風(fēng)格遷移質(zhì)量或者多樣性。
討論分析是一種分析實驗問題、解決方案和結(jié)果的方法。在神經(jīng)風(fēng)格遷移中,常見的問題和解決方案有:
(1)選擇內(nèi)容層和風(fēng)格層:影響風(fēng)格遷移效果的因素,內(nèi)容層選高層特征,保留內(nèi)容信息;風(fēng)格層選低層特征,表達風(fēng)格特征[16]??捎枚鄠€風(fēng)格層增加多樣性。
(2)平衡內(nèi)容損失和風(fēng)格損失:影響風(fēng)格遷移效果的因素,內(nèi)容損失和風(fēng)格損失應(yīng)適當調(diào)整,避免合成圖像失去內(nèi)容或自然感。
(3)提高風(fēng)格遷移速度:影響風(fēng)格遷移應(yīng)用的因素,可用以下方法提高速度:用預(yù)訓(xùn)練模型作轉(zhuǎn)換器,不用每次迭代優(yōu)化;用小圖像尺寸或少卷積層減少計算量;用GPU等硬件加速計算。
總的來說,評估基于大數(shù)據(jù)和機器學(xué)習(xí)的AI 導(dǎo)演電影風(fēng)格遷移方法的效果是一項復(fù)雜而重要的任務(wù)。理解并應(yīng)用這些評估方法能夠幫助我們更好地利用這些先進的技術(shù)工具,以創(chuàng)造出更具藝術(shù)性和吸引力的影像作品。
前文已經(jīng)討論了電影風(fēng)格遷移的基礎(chǔ)知識以及人工智能如何在此過程中發(fā)揮作用。下文將詳細探討大數(shù)據(jù)和機器學(xué)習(xí)在電影風(fēng)格遷移中所起的獨特作用。通過深入探討這兩個技術(shù)是如何提高電影風(fēng)格遷移的效率和質(zhì)量,拓展其范圍和可能性,以及推動新的電影風(fēng)格和表達方式的創(chuàng)新。同時也對其中的技術(shù)細節(jié)、應(yīng)用案例、以及可能面臨的問題進行深入的剖析和討論。
傳統(tǒng)的電影風(fēng)格遷移方法基于優(yōu)化算法,對每幀圖像多次迭代,最小化內(nèi)容損失和風(fēng)格損失。這種方法速度慢,質(zhì)量不穩(wěn)定,難以適應(yīng)多樣的風(fēng)格和內(nèi)容。為了解決這些問題,近年來出現(xiàn)了一些基于深度神經(jīng)網(wǎng)絡(luò)的電影風(fēng)格遷移方法,利用大數(shù)據(jù)和機器學(xué)習(xí)的技術(shù),實現(xiàn)快速、高質(zhì)量、多樣化的風(fēng)格遷移。這些方法主要有:
(1)基于CNN的方法:使用預(yù)訓(xùn)練的CNN提取內(nèi)容圖像和風(fēng)格圖像的特征,計算內(nèi)容損失和風(fēng)格損失,使用前饋神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換內(nèi)容圖像為目標風(fēng)格,通過反向傳播更新轉(zhuǎn)換器的參數(shù)[17]。
(2)基于CIN 的方法:在CNN 的基礎(chǔ)上增加CIN層,對每個樣本的每個通道進行歸一化,使用不同的縮放和偏移參數(shù)控制不同的風(fēng)格。這樣,一個模型可以實現(xiàn)多種風(fēng)格的遷移,并可以調(diào)節(jié)參數(shù)控制風(fēng)格強度[18]。
(3)基于GAN 的方法:使用生成器網(wǎng)絡(luò)生成目標風(fēng)格的圖像,使用判別器網(wǎng)絡(luò)判斷生成圖像是否真實。同時使用預(yù)訓(xùn)練的CNN 計算內(nèi)容損失和風(fēng)格損失,并通過對抗訓(xùn)練更新生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò) ?;谏疃壬窠?jīng)網(wǎng)絡(luò)的電影風(fēng)格遷移方法利用了大數(shù)據(jù)和機器學(xué)習(xí)的技術(shù),有助于提高電影風(fēng)格遷移的效率和質(zhì)量。相比于傳統(tǒng)的優(yōu)化算法,這些方法可以在短時間內(nèi)生成高分辨率、低失真、富有表現(xiàn)力的風(fēng)格遷移圖像或視頻 。
除了提高電影風(fēng)格遷移的效率和質(zhì)量,大數(shù)據(jù)和機器學(xué)習(xí)還可以拓展電影風(fēng)格遷移的范圍和可能性,使電影制作者可以更靈活地選擇和控制不同的風(fēng)格,并創(chuàng)造出更多樣化和個性化的視覺效果。這些拓展主要有:
(1)任意風(fēng)格遷移:這種拓展使電影制作者可以使用任意圖像作為參考風(fēng)格,而不需要預(yù)訓(xùn)練模型。這樣,電影制作者可以自由地嘗試不同類型、來源、時期、流派、媒介的藝術(shù)風(fēng)格。
(2)多風(fēng)格遷移:這種拓展使電影制作者可以同時使用多圖像作為參考風(fēng)格,并通過調(diào)節(jié)權(quán)重或比例控制各個風(fēng)格的貢獻。這樣,電影制作者可以靈活地組合或融合不同的風(fēng)格,創(chuàng)造出新穎和獨特的視覺效果[19]。
(3)局部風(fēng)格遷移:這種拓展使電影制作者可以對內(nèi)容圖像的不同區(qū)域應(yīng)用不同的風(fēng)格,實現(xiàn)區(qū)域特定的風(fēng)格遷移。電影制作者從而可以精細地控制風(fēng)格遷移的范圍和強度,增加風(fēng)格遷移的復(fù)雜度和多樣性[20]。利用大數(shù)據(jù)和機器學(xué)習(xí)的技術(shù),有利于拓展電影風(fēng)格遷移的范圍和可能性。相比于傳統(tǒng)的全局、單一、固定的風(fēng)格遷移,這些拓展可以更好地適應(yīng)電影制作的需求和場景,提供更多的選擇和創(chuàng)意空間。
電影風(fēng)格遷移是一種復(fù)雜而創(chuàng)新的藝術(shù)實踐,涉及多個學(xué)科和領(lǐng)域。除了提高和拓展電影風(fēng)格遷移,大數(shù)據(jù)和機器學(xué)習(xí)還可以創(chuàng)造新的電影風(fēng)格和表達方式,使電影制作不只是模仿或轉(zhuǎn)換已有的風(fēng)格,而是創(chuàng)造出新穎的風(fēng)格[21]。這些創(chuàng)造主要有:
(1)風(fēng)格創(chuàng)新:使用大數(shù)據(jù)和機器學(xué)習(xí)生成新的風(fēng)格,而不依賴已有的參考圖像。電影制作者可以超越現(xiàn)有的藝術(shù)范式,探索新的美學(xué)和表現(xiàn)形式。
(2)風(fēng)格融合:使用大數(shù)據(jù)和機器學(xué)習(xí)融合不同或相似的風(fēng)格,產(chǎn)生新的風(fēng)格。電影制作者可以跨越現(xiàn)有的藝術(shù)邊界,實現(xiàn)新的美學(xué)和表現(xiàn)效果。
(3)跨媒體風(fēng)格遷移:使用大數(shù)據(jù)和機器學(xué)習(xí)實現(xiàn)不同媒介間的風(fēng)格遷移,如從圖像到視頻、從視頻到音頻、從音頻到文本、從文本到圖像等。電影制作者可以跨越現(xiàn)有的媒介限制,實現(xiàn)新的美學(xué)和表現(xiàn)手段[22]。
上述創(chuàng)造都利用了大數(shù)據(jù)和機器學(xué)習(xí)的技術(shù),創(chuàng)造了新的電影風(fēng)格和表達方式。相比于傳統(tǒng)的模仿或轉(zhuǎn)換已有的風(fēng)格,這些創(chuàng)造可以更好地體現(xiàn)電影制作的原創(chuàng)性和創(chuàng)造性。綜上發(fā)現(xiàn),大數(shù)據(jù)和機器學(xué)習(xí)將在電影風(fēng)格遷移中扮演重要角色,但這個領(lǐng)域還有許多問題和挑戰(zhàn)。在下一部分將討論這些批判和挑戰(zhàn),特別是人工智能與電影風(fēng)格遷移的局限性和可能問題。
如上文所見,人工智能,特別是基于大數(shù)據(jù)和機器學(xué)習(xí)的技術(shù)在電影風(fēng)格遷移領(lǐng)域已經(jīng)取得了許多進步,然而,任何技術(shù)的發(fā)展都是伴隨著挑戰(zhàn)和問題的,人工智能導(dǎo)演的電影風(fēng)格遷移也不例外。本節(jié)將從倫理、技術(shù)和評價三個角度來分析這些挑戰(zhàn),并針對每個角度提出相應(yīng)的問題和可能的解決方案。
基于大數(shù)據(jù)和機器學(xué)習(xí)的AI 導(dǎo)演電影風(fēng)格遷移方法所涉及的一些倫理問題,包括老生常談的幾個方面,如版權(quán)、創(chuàng)意、責(zé)任等。這些問題在今年1 月底上線的人工智能協(xié)助生成影片《犬與少年》上便已初露端倪。具體來說就是AI 導(dǎo)演電影風(fēng)格遷移方法可能會侵犯原始電影或者風(fēng)格參考電影的版權(quán),導(dǎo)致法律糾紛或者道德爭議;AI導(dǎo)演電影風(fēng)格遷移方法可能會削弱人類導(dǎo)演的創(chuàng)意和主觀性,導(dǎo)致電影藝術(shù)的貧乏或者同質(zhì)化;AI導(dǎo)演電影風(fēng)格遷移方法可能會造成人類導(dǎo)演和觀眾之間的責(zé)任分歧,導(dǎo)致信任危機或者道義困境[23]。
基于大數(shù)據(jù)和機器學(xué)習(xí)的AI 導(dǎo)演電影風(fēng)格遷移方法也面臨一些技術(shù)問題,主要包括:數(shù)據(jù)、算法、模型等。例如,AI導(dǎo)演電影風(fēng)格遷移方法需要大量的高質(zhì)量的數(shù)據(jù)來進行訓(xùn)練和測試,但這些數(shù)據(jù)可能難以獲取或者存在噪聲和偏差;AI導(dǎo)演電影風(fēng)格遷移方法需要復(fù)雜的算法來進行優(yōu)化和生成,但這些算法可能存在不穩(wěn)定或者不收斂的情況;AI導(dǎo)演電影風(fēng)格遷移方法需要高效的模型來進行表達和轉(zhuǎn)換,但這些模型可能存在過擬合或者欠擬合的情況。
在探討基于大數(shù)據(jù)和機器學(xué)習(xí)的AI 導(dǎo)演電影風(fēng)格遷移方法所缺乏的一些評價問題是無法繞過標準、指標、反饋等方面的。具體來說,AI 導(dǎo)演電影風(fēng)格遷移方法沒有一個統(tǒng)一的標準來定義什么是好的電影風(fēng)格或者好的電影風(fēng)格遷移,導(dǎo)致結(jié)果難以比較或者評價;AI導(dǎo)演電影風(fēng)格遷移方法沒有一個完善的指標來度量合成圖像與內(nèi)容圖像和風(fēng)格圖像之間的差異或者相似度,導(dǎo)致效果難以量化或者優(yōu)化;AI 導(dǎo)演電影風(fēng)格遷移方法沒有一個有效的反饋機制來獲取用戶或者專家的意見或者評價,導(dǎo)致結(jié)果難以改進或者滿足需求。
通過對人工智能導(dǎo)演的電影風(fēng)格遷移方法的深入批判和分析可以看出,雖然這種方法具有許多先進的優(yōu)點,但也存在許多嚴重的問題和挑戰(zhàn),包括倫理、技術(shù)和評價問題。為了克服這些問題和挑戰(zhàn),我們需要尋找和嘗試新的解決方案和改進方向,例如增強版權(quán)保護、優(yōu)化數(shù)據(jù)處理和算法設(shè)計、提高評價系統(tǒng)的完整性和有效性等[24]。
經(jīng)過對電影風(fēng)格遷移及其挑戰(zhàn)的初步認識,分析AI 在電影風(fēng)格遷移中的影響力,深度解讀大數(shù)據(jù)、機器學(xué)習(xí)在電影風(fēng)格遷移中的角色,以及批判性地審視基于這些技術(shù)的AI 導(dǎo)演的電影風(fēng)格遷移方法后,本文得出如下結(jié)論:
在電影風(fēng)格遷移這個充滿挑戰(zhàn)且充滿藝術(shù)魅力的領(lǐng)域,AI給人們展示了一個前所未有的可能性。它不僅開拓了電影制作和欣賞的多元化途徑,也預(yù)示著未來電影藝術(shù)和電影產(chǎn)業(yè)的巨大變革。然而,從靜態(tài)圖像到動態(tài)電影的風(fēng)格遷移,將不得不面對一系列復(fù)雜的挑戰(zhàn),如版權(quán)、創(chuàng)新、責(zé)任等倫理問題,以及數(shù)據(jù)、算法、模型等技術(shù)問題。
人工智能,特別是基于大數(shù)據(jù)和機器學(xué)習(xí)的AI導(dǎo)演,為電影風(fēng)格遷移提供了全新的解決方案。憑借對大數(shù)據(jù)的精準處理,以及復(fù)雜的機器學(xué)習(xí)算法,AI導(dǎo)演能有效地實現(xiàn)電影風(fēng)格遷移,并通過一系列量化或定性的指標,對遷移效果進行評估。但AI 導(dǎo)演在帶來進步的同時,也帶來了新的問題和挑戰(zhàn),如倫理、技術(shù)和評價標準等方面的問題。
未來,我們需要繼續(xù)批判性地探討和挑戰(zhàn)基于大數(shù)據(jù)和機器學(xué)習(xí)的AI導(dǎo)演電影風(fēng)格遷移方法,提出問題,尋找解決方案,并嘗試各種可能的改進方向。這種批判性的思考,既能推動科技和藝術(shù)的創(chuàng)新發(fā)展,也能警惕人們防范其可能帶來的風(fēng)險。電影風(fēng)格遷移與AI導(dǎo)演的結(jié)合是一場科技與藝術(shù)的完美碰撞,這場碰撞孕育著無限的創(chuàng)新可能。而這場科技與藝術(shù)的融合將給人們的生活帶來更多的驚喜。