如果你還沒有和ChatGPT (Chat Generative Pre-trained Transformer)對(duì)話,都不好意思聊人工智能(AI)。
Chat GPT 是美國人工智能實(shí)驗(yàn)室Open AI發(fā)布的一種生成式大型語言模型,采用Transformer深度神經(jīng)網(wǎng)絡(luò)架構(gòu),基于人類反饋的監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí),在GPT-3.5模型之上進(jìn)行訓(xùn)練微調(diào)形成,能夠通過學(xué)習(xí)人類語言和理解上下文來實(shí)現(xiàn)對(duì)話互動(dòng),敢于質(zhì)疑與承認(rèn)錯(cuò)誤,大幅提升了對(duì)用戶意圖的理解能力。
ChatGPT 上線2個(gè)月,月活躍用戶就已成功過億,并于近日宣布開放API,允許第三方開發(fā)者將其集成至應(yīng)用程序和服務(wù)中。
那么,“神通廣大”的Chat-GPT可以生成一部電影嗎?
菲律賓28 Squared工作室和Moon Ventures工作室運(yùn)用Chat GPT幫助劇本創(chuàng)作,7天制作完成6 分半短片 《安全地帶》(The Safe Zone)。團(tuán)隊(duì)首先使用ChatGPT 篩選出大量故事創(chuàng)意,并挑選前五名,讓ChatGPT為這五個(gè)創(chuàng)意生成劇本。但在這一過程中,團(tuán)隊(duì)發(fā)現(xiàn)ChatGPT 會(huì)很快偏離關(guān)鍵主題,為此制片人只能不斷提醒其注意情節(jié)的發(fā)展邏輯。最后,團(tuán)隊(duì)通過主動(dòng)要求ChatGPT 對(duì)故事的某些部分提供更多細(xì)節(jié)來充實(shí)劇本。劇本生成后,ChatGPT 可以根據(jù)劇本內(nèi)容設(shè)計(jì)具體的鏡頭清單,還可以回答機(jī)位、演員位置、燈光位置、角色情緒、服裝道具等完整細(xì)節(jié),以輔助分鏡設(shè)計(jì)。
采用Chat GPT 生成劇本已完成了電影制作的第一步,后續(xù)電影制作仍能由AI完成嗎?Chat GPT認(rèn)為“如果結(jié)合多個(gè)AI模型,可能可以實(shí)現(xiàn)一些電影制作方面的任務(wù)?!毕旅孀屛覀兛纯丛陔娪爸谱鬟^程中,AI都能完成哪些制作任務(wù)。
電影主要由圖像和聲音兩大要素組成,在圖像和聲音生成領(lǐng)域近年來發(fā)展形成了較多國內(nèi)外AI模型,從圖1可以窺見一斑。它們 “可能可以”接力ChatGPT 生成的劇本,完成相應(yīng)的電影制作。
圖1 電影制作過程中AI能夠完成的制作任務(wù)
目前各類圖像AIGC (人工智能生成內(nèi)容)模型發(fā)展迅速,如文字生圖片、文字生視頻、3D 模型生成、動(dòng)畫場景生成、視頻風(fēng)格遷移等。
當(dāng)前文字生圖片AI模型發(fā)展較快,其中較為常見的大模型包括Open AI的DALL-E 2和谷歌的IMAGEN、Parti、Muse。
DALL-E 2雖能生成較為逼真的圖片,但無法辨識(shí)上下左右等方位信息,當(dāng)文本中存在對(duì)物體顏色或場景內(nèi)文字的描述時(shí)會(huì)出現(xiàn)錯(cuò)誤,生成復(fù)雜場景時(shí)還會(huì)出現(xiàn)嚴(yán)重的細(xì)節(jié)缺失。IMAGEN 使用大量純文本語料訓(xùn)練,得益于強(qiáng)大的編碼器,IMAGEN在為物體分配顏色和生成場景內(nèi)文字時(shí)更加準(zhǔn)確。Parti具有可擴(kuò)展的模型規(guī)模,最高可擴(kuò)展至200億參數(shù),參數(shù)越多、模型規(guī)模越大,生成圖像的細(xì)節(jié)越豐富,錯(cuò)誤信息也明顯降低。Muse在給輸入圖片加入掩碼進(jìn)行重構(gòu)學(xué)習(xí)的基礎(chǔ)上,利用動(dòng)態(tài)遮蔽率實(shí)現(xiàn)推理階段的迭代并行編碼,在不損失圖片生成效果的同時(shí),極大地提高了模型推理效率。
視頻可以認(rèn)為是多張 “圖片”有邏輯、連貫的組成,AI生成視頻是AI生成圖片的深度延伸。現(xiàn)有AI生成視頻模型可一定程度滿足提升效率與契合腳本內(nèi)容的需求,但由于模型本身能力和訓(xùn)練素材質(zhì)量的限制,此類模型目前處于非常初級(jí)的階段,存在動(dòng)作過渡不自然、理解角度詭異、視頻分辨率不高等問題,所生成的視頻還不夠完善。
Meta的“Make-A-Video”AI影片生成工具可通過文字和圖片識(shí)別,生成一段時(shí)長5秒、16FPS的無聲片段,分辨率為768×768。除文本輸入外,還可根據(jù)其他視頻或圖片制作新視頻,或是生成連接圖像的關(guān)鍵幀,讓靜態(tài)圖片動(dòng)起來。
谷歌的Imagen Video與Phenaki,前者主打視頻品質(zhì),后者主要挑戰(zhàn)視頻長度。其中Imagen Video可根據(jù)文本提示以24FPS生成分辨率為1280×768的視頻,長度不超過5 秒;Phenaki可根據(jù)200 詞左右的提示語生成2分鐘以上長鏡頭,且具備相對(duì)完整的故事情節(jié)。
若需要制作更為復(fù)雜的3D 模型,也有相應(yīng)的AI生成模型,但渲染環(huán)節(jié)暫無專門的AI模型支持。谷歌DreamFusion可由文本生成具有密度和顏色的3D 模型,還可進(jìn)一步導(dǎo)出為網(wǎng)格體,以便進(jìn)一步加工。英偉達(dá)Magic3D 使用兩階段生成法,首先使用低分辨率擴(kuò)散先驗(yàn)獲得模型的粗略表示,并使用稀疏3D 哈希網(wǎng)格結(jié)構(gòu)進(jìn)行加速;再以粗略表示作為初始,進(jìn)一步優(yōu)化具有紋理的3D 網(wǎng)格模型。Open AI的POINT-E由文本-圖像模型和圖像-3D模型組成,其首先根據(jù)文本生成2D 圖像,再將2D圖像依次轉(zhuǎn)換為包含1024個(gè)點(diǎn)的粗略點(diǎn)云,最后在粗略點(diǎn)云的基礎(chǔ)上生成包含4096個(gè)點(diǎn)的精細(xì)點(diǎn)云。
AI在動(dòng)畫場景繪制方面已有短片應(yīng)用。此前奈飛(Netflix)與微軟小冰、WIT STUDIO 共同創(chuàng)作首支AIGC動(dòng)畫短片《犬與少年》,其中部分動(dòng)畫場景由AI輔助生成。其采用類似Stable Diffusion中以圖生圖的方式,由制作人提供設(shè)計(jì)圖,AI生成細(xì)節(jié)并優(yōu)化,形成一張完成度較高的場景圖,制作方只需對(duì)這張圖進(jìn)行適當(dāng)修改,即可直接使用。
如果對(duì)現(xiàn)有視頻風(fēng)格不滿意,還可使用AI工具生成其他定制風(fēng)格的新視頻。谷歌Dreamix可通過應(yīng)用特定的風(fēng)格從現(xiàn)有視頻中創(chuàng)建新的視頻。曾在2022年創(chuàng)建“文本-圖像”模型Stable Diffusion的技術(shù)公司Runway推出模型Gen-1,可通過文本提示或參考圖像指定的任何風(fēng)格,將現(xiàn)有視頻轉(zhuǎn)換為全新風(fēng)格、時(shí)長更長的視頻。
聲音作為電影的另一項(xiàng)要素,主要包括對(duì)白、音效、音樂,共同起著情節(jié)推進(jìn)、氛圍營造和情感共鳴等重要作用。目前也有不少AI模型可以完成相關(guān)內(nèi)容的生成制作。
微軟的語音合成AI模型VALL-E 經(jīng)過6萬小時(shí)英語語音數(shù)據(jù)的訓(xùn)練,使用特定語音的3秒剪輯來生成內(nèi)容,可復(fù)制說話者的情緒和語氣,即使說話者本人從未說過的單詞也可以模仿。
科大訊飛的多風(fēng)格多情感合成系統(tǒng)SMARTTTS充分利用文本和語音的無監(jiān)督預(yù)訓(xùn)練,實(shí)現(xiàn)了從文本到聲學(xué)特征,再到語音的端到端建模,可提供11 種情感、每種情感20 檔強(qiáng)弱度的調(diào)節(jié)能力,也可根據(jù)自己喜好調(diào)節(jié)停頓、重音、語速等。
谷歌的Music LM 可從文本描述中生成頻率為24k Hz的高保真音樂,還可以基于已有旋律轉(zhuǎn)換為其他樂器,甚至可以設(shè)置AI“音樂家”的經(jīng)驗(yàn)水平,系統(tǒng)可以根據(jù)地點(diǎn)、時(shí)代或音樂風(fēng)格 (例如鍛煉的勵(lì)志音樂)進(jìn)行創(chuàng)作。
浙江大學(xué)與北京大學(xué)聯(lián)合火山語音提出的文本到音頻的生成系統(tǒng)Make-An-Audio,可將自然語言描述作為輸入,而且是任意模態(tài)(例如文本、音頻、圖像、視頻等)均可,同時(shí)輸出符合描述的音頻音效,具有強(qiáng)可控性、泛化性。
多模態(tài)大模型能夠在計(jì)算機(jī)視覺 (CV)、自然語言處理(NLP)、語音識(shí)別等不同的模態(tài)間構(gòu)建關(guān)聯(lián),單個(gè)模型可支持,以音生圖、以文生圖、以圖生音以及聲音轉(zhuǎn)文字等功能。OpenAI的CLIP、國內(nèi)百度文心、紫東·太初、阿里“通義”等多模態(tài)大模型近年來持續(xù)發(fā)展,在電影制作領(lǐng)域也具備一定的潛在應(yīng)用價(jià)值。
在上述各類模型的共同參與下,AI生成電影的基本鏈條已具雛形。但正如ChatGPT 所言,目前AI技術(shù)仍然存在一些局限:
第一,AI模型仍然需要人工干預(yù),語言類模型給出的文本指導(dǎo)需經(jīng)過專業(yè)技術(shù)人員的審核確認(rèn)才能實(shí)際應(yīng)用;
第二,用于生成視頻和音頻的AI模型由于訓(xùn)練數(shù)據(jù)的限制,生成結(jié)果較為簡單,質(zhì)量還遠(yuǎn)遠(yuǎn)達(dá)不到電影要求;
第三,由于AI生成內(nèi)容是由機(jī)器使用現(xiàn)有數(shù)據(jù)和內(nèi)容產(chǎn)生,AI生成作品的版權(quán)問題仍存在較大爭議,法律對(duì)AI生成內(nèi)容的版權(quán)保護(hù)仍處于“缺位”狀態(tài)。