闕政
大年初七,中國觀眾正看賀歲檔電影呢,OpenAI第三發(fā)重磅炸彈來襲——繼ChatGPT、DALL·E之后,Sora,一個只要輸入簡單提示詞就能生成1分鐘高精度視頻的AI模型,驚撼世人。
短短一年多,眼看著文生文、文生圖、文生視頻……作家、畫家、電影家,都恍惚聽到了飯碗落地的脆響??墒堑纫幌?,我們多年來渴望的AI,不該是科幻片里常見的全職服務員嗎?
人類理想狀態(tài)的AI,應該像《機器人瓦力》里的WALL·E一樣會自動鏟垃圾,像《機械姬》里的萬能女管家一樣包攬家務,像《上鎖的房間》里的機器人一樣會照顧病人,像《銀翼殺手》里的復制人一樣去外星開荒做苦力,像《機械戰(zhàn)警》里的ED-209一樣維護治安,像《西部世界》里有血有肉的牛仔一樣端茶倒水提供娛樂服務,至少也得像《她》里的超級女聲薩曼莎,能通過電波聊天解悶安撫人心……
結果倒好,鏟垃圾的WALL·E沒研發(fā)出來,GPT、DALL·E、Sora倒是前后腳殺到。合著只有人類是剛剛好進化到了必須工作必須做家務的階段,而AI卻能直接跳過柴米油鹽,開啟寫作畫畫拍電影的文藝生涯是嗎?
AIGC(人工智能生產內容)時代就這么招呼都不打一聲地降臨了。Sora如一滴清水落入油鍋,影視圈炸了,一則以喜,一則以懼。
喜的人,最近張口閉口都把四個字掛在嘴邊:“降本增效”。從前的AI不太理解現(xiàn)實世界的物理規(guī)律,從前的AI生成的視頻像gif動圖,長度也只有幾秒鐘,而Sora和他們有質的不同,就像計算器遇到了計算機。
影視人已經開始盤算可以給Sora派哪些活干:最近美國《綜藝》雜志上刊載了一張調查圖——在影視和游戲行業(yè)從業(yè)者眼中,AI最擅長的活包括:為影視或游戲創(chuàng)建逼真音效、自動完成代碼以協(xié)助游戲編程、為影視和游戲開發(fā)3D虛擬世界、為影視和游戲制作故事板、為影視作外語配音、編寫游戲對話、為影視創(chuàng)建逼真的合成演員、寫影視劇本……
從前拍電影的總羨慕作家只用一支筆就能寫出千軍萬馬,不像拍戲,要預算要搖人組局要置景要拍還要剪——現(xiàn)在Sora向世人展示了“傻瓜級”視頻制作,僅僅輸入幾個關鍵詞,就能產出精美畫面。未來,我們普通人做一個白日夢,也可以交付給AI,生成劉慈欣+郭帆范兒的科幻大片,“你行你上”的戲謔庶幾要成真。
其實早在Sora橫空出世之前,AI在影視制作中的應用已不是新鮮事——簡單粗暴的有“換頭”,最近《繁花》熱播,有網友做二創(chuàng),用全香港演員班底換頭制作了港版《繁花》:梁朝偉演阿寶,伍詠薇演李李,江美儀演玲子……看起來倒也別有一番味道。
國產科幻電影的巔峰之作《流浪地球2》里,大到“太空電梯”,小到給演員減齡,背后都有AI加持。電影里所采用的“虛擬攝影”技術也已經不是大片專利——橫店影視城里有虛擬攝影棚,很多網劇都用上了這個成熟的技術。相比古早一無所有的“綠幕”背景,虛擬攝影能將現(xiàn)實場景投射到LED大屏上,讓演員從“無實物表演”變得更有臨場感。
放大來說,影視劇全產業(yè)鏈都已有AI的影子——前期策劃評估、劇本創(chuàng)作、故事板、分鏡圖,到拍攝、特效、后期、修改,AI能降本增效的地方很多,區(qū)別只是,有些地方做得好,有些地方還在“一本正經地胡說八道”,需要人力監(jiān)督。
賀歲片《熱辣滾燙》最后的花絮里,導演賈玲曬出自己學畫畫的成果,因為她給《你好,李煥英》畫的分鏡頭過于幼稚,此番除了減肥還潛心學畫,結論是:畫畫比減肥100斤還難。不過將來賈玲導演應該不需要費勁學畫了,因為在文生圖、制作電影故事板和分鏡頭這塊領域,AI已被證實能力超群。甚至好萊塢有電影商拿了真人繪制和AI繪制的故事板去問投資方意見,資方表示更認可AI作品。
編劇王策也曾使用GPT、文心一言、訊飛星火等AI模型來嘗試劇本創(chuàng)作和評估,“輸入4000字以內的劇本大綱,AI一般會給出一套特別工整的條目式評價,一二三四五,從故事內容、市場前景、觀眾體驗方面給出意見?!辈贿^在這方面,AI就不如繪圖那么靠譜,“80%都是廢話,人工去梳理調整所花的時間精力,跟我自己做也差不多。寫劇本就更不行了,人寫劇本用的是情感邏輯,AI是依靠數據算力?!钡舱J為,給AI一點時間,未來能做的事會越來越多。
ChatGPT問世的時候,被形容為新時代的“火和電”。那么Sora會不會是新時代的“蒸汽機”?在改變時代的同時,也會將很多人甩下時代的列車?
前不久好萊塢演員工會大罷工的訴求之一,就是要求限制人工智能代替演員。而科技流恐怖片《黑鏡》早在去年就預見到了“數字明星”可能帶來的可怕后果:女明星售出自己的肖像權給電影公司開發(fā)成AI主角,遭到反噬。
剛剛落幕的柏林電影節(jié)上,Sora同樣成為國際電影人爭論的焦點。關鍵詞和中國影人如出一轍:興奮又焦慮。據《好萊塢報道》,影人們反復提到AI可能對工作造成的威脅。有人已經給OpenAI的CEO 山姆·奧特曼(Sam Altman)喊話:“請不要把我變成一個無家可歸的人。”未來3年內,好萊塢總計會有超過20萬人的工作崗位會因為AI受到沖擊。
當我們看到Sora目前生成的幾十段1分鐘樣片:幾千個紙飛機如同群鳥飛過叢林,紅色小熊貓在培養(yǎng)皿的竹林里躍動,帆船在咖啡杯里經受暴風考驗……就知道它對傳統(tǒng)電影CG的沖擊有多大。那些曾經需要高昂成本才能制作1秒的特效畫面,現(xiàn)在直接就能生成1分鐘。
看到Sora樣片的第一眼,智元動力(北京)科技有限公司CEO王博的反應是:不可能吧?可再仔細一看OpenAI公布的與Sora相關的技術論文,看到幾十個案例擺在面前,他的心情又變了:“有點被嚇到,這真是顛覆行業(yè)的東西?!?/p>
以往說電影是“每秒24幀的真理”(戈達爾),是圖像與圖像連續(xù)播放的邏輯,但現(xiàn)在邏輯變了。
以往做3D需要三維建模,需要根據鏡頭要求制作關鍵幀,需要考慮連續(xù)性合理性和表演性,根據不同項目設置參數。但Sora有一套自己的生成邏輯,和GPT相似,是“預測下一幀”最可能出現(xiàn)什么樣的畫面。
由于目前Sora僅僅開放給極少數人群內測,王博對它還存有一個疑問:從文字提示詞(prompt)到生成一段1分鐘的視頻,要花多長時間?他詢問了一位海外獲得內測資格的朋友,對方直接把測試結果發(fā)給他看:那是一幕真實性極高的草原畫面,連太陽光暈的變化都非常逼真。而對方在提示詞中強調的“使用手持攝像,肖像視圖,帶一點鏡頭光暈”,可以說匹配度也很高。
而他最想知道的“耗時多久”這個問題,朋友的回答是:實時。
“這聽起來更恐怖了?!蓖醪┱f。
在“互相傷害”的調侃里,原畫師們感嘆,這下子要失業(yè)的終于不只是原畫師了。燈光、攝影、后期、特效,乃至明星,可能被團滅。
在最悲觀的想象里,AI已經不再是雙刃劍,而像是核武器,鏈式反應猶如滅霸的響指,搞不好噼啪一聲,整個影視行業(yè)都沒了——觀眾想看什么內容,自己生成就行——原著AI寫,編劇AI來,電影AI拍。字生文,文生圖,文生視頻,再配上一副虛擬現(xiàn)實的眼鏡,無景弗現(xiàn),無遠弗至。
但是千百年的文明進程告訴我們,人類是靠樂觀活下來的,所以,先別急著跪下喊爸爸,更別急著交網課學費——現(xiàn)在賣課割韭菜的人,99.9999%對Sora都是只聞其聲,連個內測資格都沒有就出來騙人。
Sora到底有沒有超能力?判斷這個問題,我們可以先從前Sora時代的AI入手。
最近,麻省理工大學主辦了一個“AI for filmmaking”電影制作比賽,主題是“Space I call home”(我稱之為家的那片宇宙)。這場比賽面向全世界開放,要求是“主要由AI完成”以及“視頻時長在2分鐘以上”,有不少中國人參賽,其中蕭飛和王超導演的一段4分鐘視頻入圍了技術獎。
在這段名為“什么地方你叫做家?”的短視頻中,主創(chuàng)們從小女孩、紅汽車、黑貓、一顆種子4個不同的視角傳達對‘家’的理解,最終落腳在一句中國古代哲言:心安處,即是吾鄉(xiāng)。
王超是“百夫長影像工作室”的創(chuàng)始人,在視頻制作領域創(chuàng)業(yè)已有十幾年,近年開始關注到AI。他向記者講述了AI生成視頻的全過程:“蕭飛先以比賽主題創(chuàng)作了幾段詩意的文字,之后的事情大部分由AI完成——GPT 3.5將文字變成旁白、將旁白翻譯成英文,Midjourney 6.0把語言轉化為88張分鏡圖,Magnific增強圖像效果,PixVerse和Runway把圖片轉化為時長4分27秒(亦即6408幀)的視頻,最后由Elevenlabs為英文旁白配音,加上開源版權的配樂,完成整個視頻的制作?!?/p>
王超制作的短片,圖片都由AI 生成。
在王超給GPT的指令中,他希望AI能將最后一句旁白翻譯成莎士比亞式的詩意古英語;在給Midjourney的指令中,他希望AI可以在片頭做出“末世廢土風”,帶一點手繪的感覺,而中間的敘事段落則要以普通人的視角切入,影像風格偏真實,“用33毫米電影鏡頭,采用Imax攝像機拍攝”;而到了圖生視頻階段,又希望PixVerse為貓咪加上伸懶腰、瞇眼睛的動態(tài)——結果AI都成功辦到了。
不過,這并不代表過程中就不需要人工參與;相反,與人們想象中的“一鍵生成”相比,人力花費的時間長達8天。
“每個環(huán)節(jié)AI都會暴露一些問題。”王超解釋說,“最大的問題是AI每一次的回應都帶有隨機性,我們戲稱為‘開盲盒’:即使你每次都輸入同樣的提示詞,它出來的結果依然會是不同的?!?/p>
比如他想生成一張黑貓的圖片,第一次出來是綠眼睛,第二次出來是藍眼睛;第一次瘦些,第二次胖些;女孩子身上穿的“白底碎花裙”,每次也都有細微差別。為了生成最終能用的88張分鏡圖,王超一共試了600多次才成功?!拔覀冃性捊小畆oll圖’,就是圖片生成出來,人工要手動挑選,挑選出來的圖,很多細節(jié)如果不符合現(xiàn)實世界的物理規(guī)則,也要手動用筆刷修改:小貓的爪子怎么動,葉片如何隨風搖擺,都要去設定參數。很多時間就花在這里。所以用AI做視頻,雖然硬件成本是降低了,但體力成本是一點沒減少?!?/p>
前Sora時代的AI并不高效,那么Sora能繞開這些原始問題嗎?在王超看來,部分可以:“我們從樣片中可以看到,Sora在光線、動力、風感等很多自然界的規(guī)律上,能夠和現(xiàn)實世界匹配。它生成視頻的長度和精度也遠超當下技術,而且從單機位變成了多機位,且跳過了圖片階段,這些都是質的飛躍?!?/p>
但Sora的底層邏輯和GPT相似,因此也存在概率和隨機性,它不是故意做得每次都不同,而是沒法做到每次都相同?!癝ora目前能做到的是60秒內的場景一致性和情節(jié)連貫性,再長就難說了。如果將來要應用在影視劇,麻煩就大了:你不能今天故事發(fā)生在這個場景,明天發(fā)生在那個吧?主角的臉,第一集是一個,第二集是另一個,那當然也不行啊?!?/p>
蕭飛也認為,AI目前在品質上并不能取代傳統(tǒng),但它讓很多囿于時間和經費的點子成為了可能,這也許會爆炸式地提升視頻內容的數量和質量:“我們可以把它看作是手機高清攝影取代了傳統(tǒng)專業(yè)攝影,讓不具有專業(yè)器材和專業(yè)培訓的內容創(chuàng)作者有了實現(xiàn)夢想的可能?!?/p>
最近傳出某影視從業(yè)者說要打造全AI劇,但這種鼓吹“一鍵生成”的,大部分是騙子。以Sora目前的時長,影響短視頻行業(yè)或許還有可能,但拍電影電視劇,即使微短劇也夠嗆。
OpenAI也并不避談Sora的缺點,官網上承認:“交互是目前系統(tǒng)最大的短板之一,AI還不能完全把握時間的因果關系和物理世界的法則,例如人咬了一口餅干后,餅干的形狀會發(fā)生怎樣的變化?!?/p>
看過Sora樣片的觀眾應該都注意到了其中的“穿幫”之處:打翻水杯的時候,水從杯壁而不是杯口流出;橘貓向主人伸出第三只手;女子左右腳互換;櫻花樹無根系地浮在半空……本來這些穿幫并不算什么,也許是隨機生成中的一次小失誤——但考慮到官方樣片一定是精挑細選之后的產物,記者眼前就出現(xiàn)了《致命魔術》里那一堆帽子——在“大變活人”震撼世界的同時,背后可能有海量的失敗堆骨成山。這無疑給Sora的可靠性打了一個問號。
在影視一線從業(yè)者重涵看來,“Sora的精度和質感較高,但傳統(tǒng)影視需要的要素之一是‘明確’,而Sora暫時是‘模糊’的,它只能做到‘差不多’,做不到‘必須’。影視視聽語言是蒙太奇的藝術,而Sora對蒙太奇的理解去到什么程度,仍然未可知。我們在課程中也會嘗試用GPT做故事創(chuàng)意,但AI邏輯性強,創(chuàng)意不夠,目前暫時還只能起到參考作用”。
美國對此也有相似看法?!毒C藝》雜志最近以《為什么OpenAI的Sora還沒有準備好取代好萊塢》為題,總結了Sora的三大缺點:連續(xù)性、可控性和版權?!笆紫仁沁B續(xù)性:Sora所承諾的改進并不能完全保證主體/客體和環(huán)境的連續(xù)性,不足以確保電影或電視節(jié)目的敘事或外觀的連貫性。其次是可控性:到目前為止,這些工具還不能為電影制作者提供足夠的創(chuàng)意控制和精確度,以獲得和操縱他們的輸出結果——這意味著在短期內,人工智能可能會比傳統(tǒng)方法有更多困難和受限,而不是更少。更重要的是,如果版權法和生成人工智能的各個方面都沒有更加明確,好萊塢制作極不可能將這些輸出用于屏幕鏡頭?!?/p>
即使拋開版權,單從技術角度來說,如果將來Sora能夠解決連續(xù)性和可控性的問題,它會給影視行業(yè)或者說人類帶來天翻地覆的變化嗎?Wolfram語言的發(fā)明者、40多年前就開始研究計算思維發(fā)展和應用的行業(yè)先驅Stephen Wolfram最近在個人網站上發(fā)表了一篇文章《人工智能會奪走我們所有的工作并結束人類歷史嗎?嗯,這很復雜……》,在文中,他解釋了GPT的原理——
“ChatGPT 的內部結構實際上在計算上可能與大腦非常相似,其中有數百萬個簡單元素(相當于大腦的神經元)形成一個‘神經網絡’?!瑿hatGPT的基本概念在某種程度上相當簡單:首先從互聯(lián)網、書籍等渠道獲取人類創(chuàng)造的海量文本樣本,然后訓練神經網絡,從‘提示’開始,生成‘與之類似’的文本?!瓝碛袛蛋賰|參數的神經網絡一次一個標記(token)地生成文本,結果是非同凡響的。鑒于這種戲劇性和意想不到的成功,人們可能會認為,如果能夠‘訓練一個足夠大的網絡’,就能夠用它來做任何事情。但事實并非如此。關于計算的基本事實,尤其是‘計算不可約’的概念,表明它最終是無法做到的?!?/p>
“計算不可約”(computational irreducibility)這個概念就是Wolfram最早提出的,他認為,“能力和可訓練性之間存在著一個終極權衡:你越想讓一個系統(tǒng)‘真正利用’其計算能力,它就越會表現(xiàn)出計算不可約性,從而越不容易被訓練?!币虼怂袛啵茖W實際上“衍生出其自身的局限性”。在許多方面,ChatGPT從未“真正理解”過事物,它只“知道如何產生有用的東西”。
不得不說,科學家們在“去浪漫化”上有一手:多巴胺是快樂,費洛蒙是愛意,不可約性則從某種程度上象征了人類難以被取代的思維。而Sora與GPT的底層邏輯相通,因此有理由懷疑它會遇到同樣的“計算不可約”問題。
哪怕只是全面替代電影人的工作,路也很長很長。它也許已經端掉了一些人的飯碗,但從長遠來看,就像汽車取代了牛馬,縫紉機取代了紡織工,AI在消滅一些職業(yè)的同時,也會創(chuàng)造一些新的——比方說“roll圖員”“鑒真師”“查重師”“連貫師”“AI協(xié)調者”“數字明星經紀人”,一切只是時間問題?;仡^看看蒸汽機發(fā)明后的幾百年來,我們每周的平均工作時間縮短了嗎?——人類總能為自己找到新工作(苦笑)。
在教育賽道深耕了十多年的王博傾向于把Sora看作一個“超級工具”:“如果你只把自己當成工具人,那么即使沒有AI,遲早也會失業(yè)?!蔽纳鷪D流行之后,來王博這里接受培訓的制圖師反而很多,“有些AI制圖軟件是給小白入門用的。但如果要做專業(yè)的圖,相應的AI也會更復雜,比如剛剛出來的Stable Diffusion 3,是需要人力去和AI配合完成的”。
一方面,AI制圖量大便宜,正在大規(guī)模淘汰相對底層的制圖師;另一方面,原本并非制圖行業(yè)的人卻在逆勢涌入,“因為他們從前如果要入行,光是技術門檻就很高,現(xiàn)在反而可以彎道超車,從學習軟件技術,變?yōu)閷W習使用AI”。
經過多年實踐,王博得出一個結論:“AI的產出效果,跟使用AI的人的能力,有正相關性?!盇I能以非常低的成本做許多事,前提是你要學會和它溝通。“AI就像一門外語,最終考驗的還是你的語言能力——對事物的描述也許不必非常細致,但必須精準?!保〝道砜茖W的飛躍,最終考驗的是語文,意不意外,驚不驚喜?)他想幫助更多人理解AI,反客為主,而不是陷入對AI的焦慮。
顯然,AI勢必會淘汰一些人,影響一代人,但歸根到底目前還不是AI和人的較量,而是人和人的較量。這聽起來有點像那個地獄笑話:熊追你的時候,你不需要跑贏熊,只需要跑贏你的同伴。
AI和外星人有幾分相似。有些人覺得他們是“拯救派”,另一些覺得他們是“降臨派”。人類的終極恐懼是被異族團滅,而自打“圖靈測試”開始,關于AI“自我意識”的爭論就從未停歇。
王博曾經和研究AI深度學習的微軟科學家(也是OpenAI研發(fā)Sora的合作科學家)討論過這個問題,對方覺得,AI有沒有自我意識,看你如何理解自我意識:“就像人看電影的時候,電影里的角色,觀眾覺得是有血有肉,有喜怒哀樂也有悲歡離合的,但演員在塑造角色的時候有沒有自我意識?也許有,也許是設計出來的。那么你說,人是不是也有可能是由高維度的智力設計出來的呢?”
王博用SD自動生成的圖片,讓他意識到AI產出的效果和使用者的能力息息相關。
最近流行說“世界是個草臺班子”,充滿了隨機出現(xiàn)、無法預測的bug。反過來想一想,如果有造物主的話,對人類的原始設定也許相當簡單,不需要親力親為捏幾十萬億個細胞出來,也不需要設計復雜的激素信號、神經系統(tǒng)、DNA雙螺旋結構,只需敲入幾行字:碳基生物,生活在地球,生老病死,敢愛敢恨——后面的一切就交給隨機性自己去生成了。因為正如Stephen Wolfram所說:“即使只是重復應用非常簡單的規(guī)則,也可能產生巨大的復雜性。”
科幻電影里有過許多“缸中腦”的設想,最有名的莫過于《黑客帝國》——假如有一天,發(fā)現(xiàn)人類真的只是玻璃缸里漂浮著的大腦,而另一面卻是色彩斑斕《頭號玩家》一樣的AI元宇宙,你會選擇哪個?科技發(fā)展到最后,提出的是哲學問題。
其實Sora帶來的負面問題中,最有可能快速成真的就是“深度偽造”。連永遠的小學生柯南君都知道后果會有多嚴重:新的動畫電影里就有Deepfake情節(jié)?!把垡姺菍崱保坏珪笏廖廴救祟惖臄祿?,更可怕的是造成“虛實難分”——假作真時真亦假,上一秒你覺得假視頻是真實生活,下一秒,你可能就會覺得家里的墻壁上隱約出現(xiàn)馬賽克、全世界都是一個巨大的障眼法——人類哪里經得起這樣的精神分裂啊。
肉眼凡胎的人類,雖然喜歡看奇幻電影,但也別低估了我們對于真實的在意。人是需要真實感的動物,不然怎么說服自己:世界不是一堆代碼,自身不是缸中之腦?將來AI大規(guī)模生成視頻的那一刻來臨,即使不說技術上作多少約束,至少也得像轉基因食品一樣,好歹打上一個標簽才能上市。
而眼下影視界近在咫尺的焦慮,也可以從Sora的底層邏輯上去緩解——它的“知識結構”來自于全人類上傳到互聯(lián)網上的文本、視頻,它可能看過了電影自1895年誕生以來的全部在世作品,它甚至也許能從“隨機性”中產生一點“創(chuàng)意”(畢竟所謂創(chuàng)意大部分時候就是打破常規(guī)),也許能模擬人類的喜怒哀樂,讓“感情”也顯得并非人類專屬——但它的一切都是從“紙上”得來,而“紙上得來終覺淺”——人類在一段生命中的所得,卻大都來自于親身感受、體驗、躬行。就像最好的導演,不是技法多么超群,而是能夠理解人。AI也許很快就能獨立制作出《少年派的奇幻漂流》里那只老虎,但至少在100年內,它無法替代李安。
寫這篇文章的時候,我讓AI也幫我寫一篇同主題文章,幾個不同的AI幾乎異口同聲回答我:“AI可以模擬物理世界,但它無法模擬人類的情感世界。Sora雖然可以提供技術支持,但無法替代人類的創(chuàng)造力和表演力。”——看來它好像也有點自知之明?有點可笑,也有點可怕。
面對Sora帶來的疾風暴雨,人文藝術家應該自信一點,從戰(zhàn)術上敬畏它,從戰(zhàn)略上藐視它。就像郭帆導演一樣,在使用AI辦事之時,都恭恭敬敬加上一個“請”字??墒且矂e忘了,ChatGPT使用了1750億個“旋鈕”,而人腦的神經元數量也有1000億個。這些神經元每個都有樹狀分支,連接成復雜的網絡,每個神經元每秒電脈沖約1000次……從GPT到Sora,基本上還只是模擬了大腦神經網絡的很小一部分,我們要像田忌賽馬一樣,別去和AI硬拼算力——下等馬先輸一程沒關系,還有中等馬和上等馬黃雀在后。雖然武無第二,但文也無第一啊。