馬迪
不管是好是壞,Sora都標志著AI視頻浪潮即將出現(xiàn),這股浪潮將顛覆包括影視、廣告、游戲在內(nèi)的整個創(chuàng)意產(chǎn)業(yè)。
2024年2月16日,當(dāng)全中國都沉浸在春節(jié)假期的喜悅中時,OpenAI發(fā)布了旗下首個文生視頻(Text-to-Video)大模型Sora,其生成的多段視頻質(zhì)感優(yōu)秀,媲美電影,我們看到了走在東京街道上的時尚女郎、踏雪而來的猛犸象群、咖啡杯里互相追逐的海盜船、在蠟燭邊烤火的小怪獸……全世界都在驚嘆“AI產(chǎn)業(yè)的‘iPhone時刻已經(jīng)到來”,埃隆·馬斯克干脆承認“人類輸了”。
只在測試階段就引起了如此大的轟動,Sora到底有多優(yōu)秀?
橫空出世
Sora的名字來自日語“空”,直譯過來就是天空;日語中還有一個成語“繪空事”,表示的正是“畫出不存在之物、天馬行空地創(chuàng)作”之意,完全符合這個文生視頻大模型的定位。
“文生視頻”,就是讓大模型根據(jù)用戶輸入的指令快速生成前所未有的AI視頻。這種產(chǎn)品并非OpenAI首創(chuàng)。實際上,近幾年以文生視頻為主業(yè)務(wù)的初創(chuàng)公司不斷涌現(xiàn),互聯(lián)網(wǎng)行業(yè)巨頭如谷歌、Meta、微軟也投入了不少人員和精力在這條賽道上,但視頻時長和質(zhì)量一直徘徊不前。2023年最火的AI視頻應(yīng)用是Runway和Pika,它們都能根據(jù)文字生成4-6秒的視頻,兩家公司的創(chuàng)始人都把生成15秒視頻作為今年的目標,可見提升AI視頻時長是多么的困難。
但Sora的出現(xiàn)完全改變了這一切,一出手就建立了絕對優(yōu)勢。一是視頻時長,Sora可以生成60秒長視頻,完全碾壓已有的任何同類產(chǎn)品;二是對“文字提示”的高度理解,還可以對簡單的指令進行合理補充,并充滿了合理的想象力;三是能在一個視頻內(nèi)實現(xiàn)多角度鏡頭,分鏡切換既符合邏輯又十分流暢;四是體現(xiàn)了對真實世界的理解能力,Sora對于光影反射、物體運動、物體相互作用等細節(jié)處理得十分優(yōu)秀,極大地提升了真實感。
除此之外,Sora已經(jīng)對現(xiàn)實世界的物理規(guī)律具備了一定的理解能力。比如一段視頻中,男人咬了一口漢堡包后,漢堡上出現(xiàn)了一個咬痕。雖然我們覺得這是理所當(dāng)然的,但Sora能模擬出這種變化已經(jīng)一種突破,表明該模型已經(jīng)開始理解物理規(guī)律,這是人工智能的一大進步。
珠聯(lián)璧合
之所以能取得如此令人震撼的突破,原因在于OpenAI的解題思路完全不同,其采用的Diffusion Transformer模型,可以說是珠聯(lián)璧合的一次嘗試。
Diffusion擴散模型是目前圖像生成的主流方式,靈感來自于非平衡熱力學(xué)。生成圖像的過程中就像是把一滴墨水在水中擴散的過程進行倒放。擴散模型的訓(xùn)練過程包括前向擴散和反向擴散:前向擴散會逐步對一張真實的照片隨機添加噪聲,直到變成純噪聲圖片;反向擴散是從純噪聲圖片中去除噪聲,逐步生成清晰的圖像。通過反復(fù)迭代訓(xùn)練,模型就會逐漸學(xué)會如何更準確地從噪聲中重建數(shù)據(jù),生成質(zhì)量越來越高的圖像。
但剛剛登場的Sora還是一個新手,表現(xiàn)稱不上“完美”。我們可以從測試視頻中看到一些明顯不符合邏輯的bug,比如消失的人物、變形的動作、混亂的空間等。就像剛問世的chatGPT一樣,難免有胡言亂語的毛病,這些問題會隨著時間的推移和機器學(xué)習(xí)的深入,得到必然的改善。
Sora過于逼真的視頻表現(xiàn)帶來了對偽造和傳播虛假內(nèi)容的憂慮,尤其是在圖片生成領(lǐng)域的深度造假(Deepfake)問題還未解決的當(dāng)下,AI生成視頻更加難辨真?zhèn)?。OpenAI也考慮到了這些方面的潛在風(fēng)險,正在開發(fā)幫助檢測誤導(dǎo)性信息的工具,幫助人們標注視頻是否是Sora生成的、何時生成的。另外,倫理對抗性測試也在緊鑼密鼓地進行,避免AI成為極端暴力、犯罪、仇恨言論、侵權(quán)等問題的幫兇。
不管是好是壞,Sora都標志著AI視頻浪潮即將出現(xiàn),這股浪潮將顛覆包括影視、廣告、游戲在內(nèi)的整個創(chuàng)意產(chǎn)業(yè)。而在我們的目光所及之外,還有更多無法預(yù)測的使用場景、創(chuàng)新和突破。未來不僅屬于我們,也同樣屬于AI。