任天知 沈浩
【摘要】Sora引領(lǐng)的視頻生成模型以其提出的“世界模擬器”理念展示出人工智能進(jìn)展的重大突破,模型甫一問世便被視為邁向通用人工智能的標(biāo)志。以Sora的誕生為契機(jī),系統(tǒng)探討該模型如何從知識理解、跨模態(tài)信息處理及因果推理等技術(shù)維度漸進(jìn)實(shí)現(xiàn)“世界模擬”的構(gòu)想。結(jié)合Sora展現(xiàn)的功能特性,展望其在影視制作與游戲開發(fā)、教育培訓(xùn)及科學(xué)研究等領(lǐng)域中的潛在應(yīng)用價值。鑒于通用人工智能的宏大愿景,文中指出Sora代表的視頻大模型仍需在認(rèn)知突圍、自主進(jìn)化、機(jī)器自省等方面持續(xù)攻關(guān),為未來智能技術(shù)的全面發(fā)展奠定堅(jiān)實(shí)基礎(chǔ)。
【關(guān)鍵詞】Sora;文生視頻模型;視頻大模型;通用人工智能;世界模擬器
一、Sora的誕生:人工智能向視頻生成領(lǐng)域的跨越
2024年2月,美國人工智能研究公司OpenAI再度顛覆了人工智能研究領(lǐng)域的既定格局,推出名為Sora的文生視頻模型。模型甫一問世,即被視為邁向通用人工智能(Artificial General Intelligence,AGI)的里程碑,彰顯出人工智能技術(shù)演進(jìn)過程中的重要躍遷。
相較于同類視頻生成模型,Sora在視頻時長、分辨率的精細(xì)化程度以及場景真實(shí)感再現(xiàn)方面均達(dá)到了全新高度。尤為突出的是,Sora在模擬物理世界現(xiàn)象的精確性和多樣性方面實(shí)現(xiàn)了突破,它超越了僅能創(chuàng)造虛擬表現(xiàn)形式的局限,展現(xiàn)出重現(xiàn)現(xiàn)實(shí)世界豐富細(xì)節(jié)場景的強(qiáng)大能力,激發(fā)了對現(xiàn)實(shí)與虛擬邊界日益模糊的深刻探討。Sora能夠自主建構(gòu)高度擬真的虛擬現(xiàn)實(shí)環(huán)境,昭示著人工智能內(nèi)部邏輯架構(gòu)與外部客觀世界之間的關(guān)系日趨緊密。Sora的研發(fā)歷程,揭示了人工智能技術(shù)在模擬與理解現(xiàn)實(shí)復(fù)雜世界過程中所取得的深層進(jìn)步。
在此背景下,OpenAI在技術(shù)報(bào)告中提出了“世界模擬器”(World Simulator)這一前瞻性框架,將Sora視為實(shí)踐這一理念的視頻生成載體,將Sora作為“構(gòu)筑物理世界通用模擬器的一條可行之路”[1]。“世界模擬器”的概念承載著宏大的科技創(chuàng)新愿景,旨在利用前沿的人工智能技術(shù)手段,尤其是借助視頻生成模型技術(shù),建立能夠精細(xì)化模擬現(xiàn)實(shí)世界中物理規(guī)則、社會動態(tài)及環(huán)境相互作用的復(fù)雜計(jì)算仿真生態(tài)系統(tǒng)。該概念的重要性不僅體現(xiàn)在其在視覺逼真表現(xiàn)層面上的生成與應(yīng)用,也在于其整合了自然語言理解與執(zhí)行能力,可以響應(yīng)指令模擬復(fù)雜情境并實(shí)時輸出適應(yīng)性行為。此外,它還預(yù)示著在對未來多種可能性進(jìn)行高級模擬分析方面的深層次功能拓展。
Sora是否能夠真正意義上“模擬世界”?Sora是否構(gòu)成實(shí)質(zhì)性的“世界模擬器”等問題還有待深入探究和驗(yàn)證。在賦予此類模型“世界模擬器”的稱謂之前,我們有必要對其如何精細(xì)捕獲和有效模擬物理情境背后的技術(shù)原理、應(yīng)用場景以及未來發(fā)展進(jìn)路進(jìn)行更為詳盡的研究。Sora的進(jìn)步是對“世界模擬”這一理想的實(shí)質(zhì)性邁進(jìn),但通往全面理解和構(gòu)建真實(shí)世界模擬器的道路才剛剛開始。
二、Sora的技術(shù)原理:視頻模型模擬世界的可能性
(一)知識處理:海量數(shù)據(jù)歸納與規(guī)律模擬
作為視頻生成模型,Sora的知識基礎(chǔ)根植于對龐大多元的視覺、語言數(shù)據(jù)集的深度學(xué)習(xí)過程。通過對億級以上的圖像、視頻素材以及相應(yīng)的文本標(biāo)注和預(yù)訓(xùn)練,Sora汲取了廣泛的視覺語義內(nèi)涵和世界常識圖譜。相較于簡單的數(shù)據(jù)存儲與再現(xiàn),Sora所代表的文生視頻模型注重從海量數(shù)據(jù)中挖掘、仿真出所謂世界運(yùn)作的深層法則與動態(tài)規(guī)律,進(jìn)而生成逼真且流暢的視頻內(nèi)容。
Sora采用無監(jiān)督學(xué)習(xí)策略對視覺世界的基礎(chǔ)要素進(jìn)行探索與建模,涵蓋物體實(shí)體、環(huán)境場景、事件行為等各種構(gòu)成單元,以及各單元在時空維度上的聯(lián)系和互動效應(yīng)。這種結(jié)構(gòu)化、模塊化的場景表征方式,賦予Sora構(gòu)建多層次知識組織架構(gòu)的能力,使之能將復(fù)雜視覺現(xiàn)象拆解成基本組成單位,通過靈活重組創(chuàng)作出相對符合規(guī)律及常識推理框架的畫面表現(xiàn)。多模態(tài)學(xué)習(xí)技術(shù)的應(yīng)用使Sora建立了視覺表征與語義標(biāo)簽間的對應(yīng)關(guān)系,通過對齊視覺—語言表征空間,使得文本描述能夠精確定位并關(guān)聯(lián)至相關(guān)視覺單元。這一特性使Sora能夠在理解語言指令的基礎(chǔ)上,將其轉(zhuǎn)化成為直觀和準(zhǔn)確的視覺表達(dá)形式。此外,Sora對處理的大量視頻數(shù)據(jù)進(jìn)行高效的時間序列建模,以掌握各類事件演進(jìn)的固有模式以及場景間因果關(guān)系的內(nèi)在邏輯。由此,Sora能夠依據(jù)前后情境線索,對未來畫面做出合理預(yù)測,進(jìn)而生成具有連續(xù)性、故事性特征的視頻片段,初步顯現(xiàn)出其在因果推理與規(guī)劃生成方面的能力。
“我們正在教人工智能理解和模擬運(yùn)動中的物理世界,目的是訓(xùn)練模型,幫助人們解決需要現(xiàn)實(shí)世界交互的問題?!盵2]Sora借助對數(shù)據(jù)資源的有效學(xué)習(xí),構(gòu)建起一套相對全面、立體的視覺世界理論模型,該模型囊括了從物體形態(tài)直至規(guī)律原理等多個認(rèn)知層次的知識內(nèi)容。這種從數(shù)據(jù)中萃取知識精華、構(gòu)筑邏輯聯(lián)系的能力,確定了Sora相較于傳統(tǒng)視覺生成模型的優(yōu)勢所在:其不僅是一款視頻創(chuàng)作工具,也正有意發(fā)展為具備初級常識推理能力的智能體,體現(xiàn)了人工智能由單純的“感知層面”朝向高階“認(rèn)知層面”邁進(jìn)的偉愿。
在人類的認(rèn)知發(fā)展過程中,“幼年時期即體現(xiàn)出對直觀物理學(xué)原理的初步掌握,如對物體存在的持久性(即便不在視線范圍內(nèi)物體仍持續(xù)存在)、堅(jiān)固性(物體間不會穿透)和凝聚性(物體作為一個統(tǒng)一的整體一同移動)等基本屬性持固有期待”[3]。這種對物理世界及其規(guī)則的理解,源于人類大腦內(nèi)建的一個類似“直覺物理引擎”(Intuitive Physical Engine, IPE)的機(jī)制,它憑借類比物理定律的方式進(jìn)行運(yùn)作,以統(tǒng)計(jì)學(xué)的概率預(yù)測方式推斷物體隨時間的動態(tài)演變[4]。相較而言,Sora作為一種端到端的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并未直接融入傳統(tǒng)物理引擎的計(jì)算方法,而是在大規(guī)模數(shù)據(jù)集的基礎(chǔ)上挖掘和學(xué)習(xí)隱藏的物理規(guī)律表達(dá)。
如果說“世界模型”是通過壓縮感知輸入和預(yù)測未來狀態(tài),提供環(huán)境的內(nèi)部表征,那么Sora的工作方法是通過視頻壓縮網(wǎng)絡(luò)將原始視頻映射至特定空間,并通過擴(kuò)散變換器(Diffusion Transformer)在此空間中對時空片段進(jìn)行精細(xì)化建模,從而捕捉到場景中的動態(tài)交互機(jī)制。[4]當(dāng)前,Sora的主要訓(xùn)練目標(biāo)聚焦于生成高質(zhì)量的視頻內(nèi)容,而非直接構(gòu)建用于模擬體驗(yàn)的物理環(huán)境。盡管Sora展現(xiàn)出的場景連貫性提示其在模擬物理規(guī)律方面存在發(fā)展?jié)摿Γ湮磥砟芊襁M(jìn)化成為真正的“世界模擬器”仍有待考證。
(二)跨模態(tài)理解:打通視覺、語言等認(rèn)知通道
作為“世界模擬器”的Sora,能夠整合語言、視覺等認(rèn)知模態(tài),實(shí)現(xiàn)跨模態(tài)的理解和生成,其能力主要體現(xiàn)在以下幾方面。
一是Sora與大語言模型的無縫結(jié)合。作為在ChatGPT等先進(jìn)語言模型基礎(chǔ)上拓展出的迭代成果,Sora展現(xiàn)出自然語言與視覺場景理解和生成之間的無縫對接能力。通過汲取ChatGPT的語義解析優(yōu)勢,Sora可以提升對文本描述精準(zhǔn)語義的捕獲效率。相較于大語言模型,Sora拓展了對時間和空間維度的處理能力,能夠駕馭具有時空屬性的視頻內(nèi)容生成任務(wù)。因此,Sora不局限于再現(xiàn)靜態(tài)圖像世界的特性,能夠在模擬動態(tài)演變世界時發(fā)揮效用。當(dāng)接收到文本指令時,Sora能夠解碼其中的意義,據(jù)此生成貼合文本語境的視頻內(nèi)容,涵蓋了時空連續(xù)性和復(fù)雜場景建構(gòu)等多個維度。通過集成、優(yōu)化與大語言模型的協(xié)作關(guān)系,Sora在視覺感知與語義理解間架設(shè)起通信橋梁,為構(gòu)建多模態(tài)理解提供支撐。此外,Sora不僅能夠模擬再現(xiàn)客觀物理世界,也能創(chuàng)造性地構(gòu)建符合主觀意念的虛構(gòu)場景,這種雙重特性賦予其成為“世界模擬器”的潛在能力,拓寬了在現(xiàn)實(shí)與想象世界互動探索的應(yīng)用前景。
二是Sora展示出交互式多視角的生成能力。在視頻生成流程中,Sora能夠模擬攝像機(jī)視點(diǎn)的動態(tài)轉(zhuǎn)換,確保場景中物體在三維空間中的運(yùn)動表現(xiàn)保持連續(xù)且一致,這一特點(diǎn)揭示了其在結(jié)構(gòu)化模型層面超越二維幀序列拼接的機(jī)制。Sora采用三維幾何原理及透視變換等核心知識構(gòu)建場景模型,這是實(shí)現(xiàn)物理世界仿真不可或缺的基礎(chǔ)。同時,Sora在時間維度的精細(xì)化建模方面表現(xiàn)出色,其生成的一分鐘視頻內(nèi),物體運(yùn)動始終保持一致性和連貫性,表明Sora初步具備時間邏輯推理和因果關(guān)系建模的功能,這對于精確模擬真實(shí)物理過程至關(guān)重要。由此,Sora可以賦予用戶切換視角的自由度,可以使用戶從不同角度觀測所生成的世界,這反映了Sora內(nèi)部構(gòu)建了可以整合多視角信息的全景式多模態(tài)框架,從而實(shí)現(xiàn)對虛擬場景全方位、靈活的視角控制與展現(xiàn)。
三是Sora體現(xiàn)出對物理世界構(gòu)成規(guī)則的基礎(chǔ)理解。其在空間與時間維度上的建模性能,實(shí)質(zhì)上來源于對諸如運(yùn)動規(guī)律、力學(xué)規(guī)律等基礎(chǔ)物理法則的學(xué)習(xí)和初步應(yīng)用。不同于傳統(tǒng)的物理引擎模擬器,Sora通過大規(guī)模數(shù)據(jù)訓(xùn)練習(xí)得對物理世界的內(nèi)在認(rèn)知能力,這也是其作為潛在世界模擬器的價值所在。Sora底層學(xué)習(xí)并融合了對物理世界的基本理解,將視覺等多模態(tài)信息嵌入內(nèi)部表征之中。然而,現(xiàn)階段Sora對于物理規(guī)律的理解與模擬仍存在局限性,比如在處理物體的臨界狀態(tài)表達(dá)和因果性運(yùn)動等方面仍存在不足,這些問題可能源于訓(xùn)練數(shù)據(jù)的局限性或者模型架構(gòu)與計(jì)算資源約束所致。未來,通過增加訓(xùn)練數(shù)據(jù)的豐富度和多樣性、改進(jìn)模型結(jié)構(gòu)設(shè)計(jì)以及增強(qiáng)算力投入,Sora有望進(jìn)一步提高其對物理世界的理解與模擬精度,可能朝向真正意義上AGI級別的世界模擬器演進(jìn)。
(三)因果推理:構(gòu)建事件邏輯,內(nèi)容貼近真實(shí)
若要實(shí)現(xiàn)視頻內(nèi)容與真實(shí)世界的高度契合,模型須具備深入的因果推理能力來識別和學(xué)習(xí)各實(shí)體事物之間的因果關(guān)聯(lián)。Sora通過一系列關(guān)鍵技術(shù)模擬了事件邏輯,從而提高了生成內(nèi)容的真實(shí)性。
Sora采用視頻壓縮網(wǎng)絡(luò)(Video Compression Network),通過視覺編碼器將原始視頻壓縮至低維潛在空間,將復(fù)雜的視頻信息簡化為時空補(bǔ)丁,這些補(bǔ)丁類似語句中的詞匯,承載著組建視頻的關(guān)鍵時空特征與動態(tài)變化信息。[5]進(jìn)而,Sora預(yù)測這些補(bǔ)丁如何有效拼接,以生成連貫且視覺吸引力強(qiáng)的視頻內(nèi)容。通過視頻壓縮,Sora能夠在簡化后的潛在空間內(nèi)專注高質(zhì)量視頻內(nèi)容的生成,為后續(xù)擴(kuò)散變換模型提供了視覺信息。
Sora所搭載的擴(kuò)散變換模型(Diffusion Transformer)借鑒了馬爾可夫鏈理念,采用遞歸去噪的方式逐步生成視頻幀序列。該模型在生成過程中體現(xiàn)明確的因果依賴關(guān)系,即將每一幀的生成嚴(yán)格建立在前序幀信息擴(kuò)散和演變的基礎(chǔ)上,有力推動了視頻內(nèi)容中事件邏輯鏈條的有效構(gòu)建與延續(xù)。
為更準(zhǔn)確地響應(yīng)用戶意圖并在模擬過程中遵循合理的因果邏輯,Sora通過整合大型語言模型的指令跟隨能力,有效增強(qiáng)了模型對文本輸入的理解。它首先訓(xùn)練視頻字幕生成器產(chǎn)生高質(zhì)量的視頻、描述性字幕作為訓(xùn)練數(shù)據(jù),然后使用大語言模型將簡短的用戶提示擴(kuò)展為與訓(xùn)練數(shù)據(jù)格式一致的詳細(xì)描述,確保在推理時的輸入與訓(xùn)練保持一致[6]。通過這種方式,Sora能夠從簡短提示推導(dǎo)豐富語義,生成契合用戶意圖、合乎邏輯的高質(zhì)量視頻內(nèi)容。
在提示工程方面,Sora的視頻/圖像提示能力極大增強(qiáng)了內(nèi)容與現(xiàn)實(shí)世界的視覺相似性和內(nèi)在一致性。除文本輸入外,它能夠接受視頻片段或圖像作為生成線索,引導(dǎo)生成過程沿著特定的藝術(shù)風(fēng)格或主題脈絡(luò)演進(jìn),在模擬層面更加接近真實(shí)世界的多元表現(xiàn)形態(tài)。
以上核心技術(shù),共同支撐Sora實(shí)現(xiàn)具有因果邏輯的世界模擬。盡管當(dāng)前Sora等“視頻模型在正確模擬物理交互方面仍存在一些限制,包括對基本物理定律的模擬存在疏忽、難以一致展現(xiàn)物體的物理狀態(tài)變化等問題”[7],但其已在因果推理、構(gòu)建事件邏輯以及提升生成內(nèi)容真實(shí)感方面取得了重要突破。賦予模型深入的因果推理能力和學(xué)習(xí)物理定律、常識知識的能力,使其能夠推測事物運(yùn)動變化背后的成因及其相互作用效應(yīng),是邁向高度逼真世界模擬的必經(jīng)之路。Sora代表的新一代文生視頻模型正積極向此目標(biāo)邁進(jìn)。
三、Sora的應(yīng)用圖景:想象與現(xiàn)實(shí)交匯
(一)賦能內(nèi)容生產(chǎn):影視創(chuàng)作、游戲開發(fā)等領(lǐng)域
Sora可能重塑影視制作與游戲開發(fā)等創(chuàng)意產(chǎn)業(yè)的生產(chǎn)和表達(dá)范式,不同于傳統(tǒng)視頻生成技術(shù)帶來的藝術(shù)完整性方面的折損,Sora采用了保留原始畫面比例的訓(xùn)練機(jī)制,確保其輸出的視頻內(nèi)容無論在何種設(shè)備支持下,均可傳達(dá)主題并展現(xiàn)出卓越的視覺美學(xué)。Sora可適應(yīng)目標(biāo)屏幕尺寸生成相應(yīng)分辨率及縱橫比的高質(zhì)量視頻內(nèi)容,語言理解能力使其準(zhǔn)確提取文字腳本,詮釋生成為驚艷的視覺敘事。
Sora“可能改變電影制作和動畫的預(yù)制作過程,讓故事講述者推介和完善他們的表達(dá)”[8]。在影視預(yù)制作階段,Sora正重新定義編劇和導(dǎo)演的工作流程。過去,將抽象的創(chuàng)意概念轉(zhuǎn)化為具象視覺,通常需要美術(shù)團(tuán)隊(duì)投入大量的時間精力進(jìn)行草圖創(chuàng)作與概念設(shè)計(jì)。而今,利用Sora,創(chuàng)作團(tuán)隊(duì)可直接將劇本文本轉(zhuǎn)化為視頻演示溝通,甚至可以快速制作預(yù)告片與動畫預(yù)覽。Sora引領(lǐng)的文本驅(qū)動與視頻生成技術(shù),不僅優(yōu)化了影視前期工作流程,還可以引入動態(tài)評估和交互式劇本的開發(fā)手段,有助于提升創(chuàng)意的探索效率。
在游戲開發(fā)維度上,Sora同樣扮演著“破局者”角色。文本到視頻的轉(zhuǎn)化能力可以應(yīng)用于游戲場景構(gòu)建,助力游戲設(shè)計(jì)師快速生成基礎(chǔ)素材,有效緩解繁復(fù)的手工建模壓力。游戲行業(yè)越發(fā)注重劇情敘事,Sora可依據(jù)游戲腳本生成對應(yīng)的視頻片段,以提升場景過渡效果、深化游戲內(nèi)部故事敘述的感染力,進(jìn)而增進(jìn)玩家的沉浸式體驗(yàn)。在游戲互動層面,Sora進(jìn)一步延伸玩家參與內(nèi)容創(chuàng)作的權(quán)力邊界。通過簡單的文本輸入,玩家得以定制個性化的游戲場景,這一參與式創(chuàng)作模式有望開辟游戲互動娛樂的新維度。
當(dāng)前,游戲行業(yè)不斷追求打破真實(shí)感和沉浸感界限的方式與方法,傳統(tǒng)游戲開發(fā)常受困于預(yù)先設(shè)定的環(huán)境和預(yù)編程的限制。而“通過集成如Sora擴(kuò)散模型實(shí)現(xiàn)實(shí)時、高保真度視頻內(nèi)容以及擬真音效的生成,有望突破現(xiàn)存局限,賦能開發(fā)者構(gòu)建隨玩家行為和游戲事件動態(tài)變化的游戲環(huán)境”[9]。如模擬真實(shí)的氣候現(xiàn)象、地形動態(tài)變化,甚至是創(chuàng)造性地布局新場景,從而營造更加真實(shí)、響應(yīng)靈活的游戲世界。
(二)更新教育方式:定制化學(xué)習(xí)體驗(yàn),均等化教育資源
長久以來,教育內(nèi)容一直以靜態(tài)資源為主。傳統(tǒng)教學(xué)資源面臨著制作成本高、動態(tài)變化需求響應(yīng)能力不足等困境。Sora可以“將描述性文本或課程大綱轉(zhuǎn)化為特定風(fēng)格的、為個人學(xué)習(xí)者興趣量身定制動態(tài)視頻內(nèi)容”[10],構(gòu)筑個性化且富有吸引力的學(xué)習(xí)體驗(yàn)。
在個性化教學(xué)視頻的生成方面,Sora允許教育工作者根據(jù)學(xué)生個體的認(rèn)知特征和需求,指導(dǎo)模型生成貼合具體教學(xué)內(nèi)容的定制視頻教材。尤其在實(shí)驗(yàn)教學(xué)場景中,Sora表現(xiàn)出強(qiáng)大的應(yīng)用前景。在要求立體化認(rèn)知的空間結(jié)構(gòu)教學(xué)中,其不僅能將諸如“溶解過程”等抽象概念以直觀視頻形式表現(xiàn),還可以揭示微觀層面的分子運(yùn)動與作用機(jī)制,通過生成多角度視圖進(jìn)行場景展示,拓展學(xué)生對復(fù)雜系統(tǒng)知識的理解深度。對于因安全、成本等因素限制而難以在現(xiàn)實(shí)環(huán)境中實(shí)施的實(shí)驗(yàn),如解剖學(xué)實(shí)驗(yàn)中的實(shí)物標(biāo)本操作,或是汽車碰撞實(shí)驗(yàn)中的破壞性場景,Sora可模擬生成虛擬實(shí)驗(yàn)視頻,在克服資源限制與潛在風(fēng)險的同時,增強(qiáng)課堂教學(xué)互動探索性。
Sora還展現(xiàn)出多元化的教育領(lǐng)域應(yīng)用潛能。在語言文化教學(xué)上,Sora可根據(jù)教學(xué)需要創(chuàng)造出地域情境,使學(xué)生體驗(yàn)異域文化習(xí)俗和實(shí)踐特定語言交際,這一特性超越了傳統(tǒng)課本教學(xué)的局限,使學(xué)習(xí)者通過仿效真實(shí)對話情景習(xí)得語言技能并領(lǐng)悟文化內(nèi)核。在歷史課程教學(xué)中,Sora能夠生動再現(xiàn)關(guān)鍵歷史場景,將遙遠(yuǎn)的時空瞬間拉至學(xué)生身邊,將歷史教學(xué)從被動回顧轉(zhuǎn)向主動沉浸式體驗(yàn)。
Sora的虛擬化屬性有助于提升教育的普及性和可及性。其技術(shù)應(yīng)用一定程度上降低了傳統(tǒng)教學(xué)方式對人力物力的過度依賴,即便是資源匱乏的邊遠(yuǎn)地區(qū)學(xué)校,也能以較低成本獲得豐富的視頻教學(xué)資源,進(jìn)而填補(bǔ)優(yōu)質(zhì)師資力量的空白,Sora可能充當(dāng)“AI助教”角色解答疑難問題,一定程度上彌合了地區(qū)間教育資源鴻溝。Sora一旦普及為普遍民主化的教學(xué)工具,則有望在促進(jìn)教育公平性方面發(fā)揮效用。
(三)助力科學(xué)研究:模擬實(shí)驗(yàn)環(huán)境,共享科學(xué)知識
科學(xué)研究的本質(zhì)在于探尋現(xiàn)象背后的運(yùn)行機(jī)理,其過程包含從概念提煉、理論建構(gòu)至實(shí)驗(yàn)驗(yàn)證、學(xué)術(shù)傳播等多個環(huán)節(jié)。Sora有望將復(fù)雜理論模型和實(shí)驗(yàn)過程以直觀形象的方式傳達(dá)給學(xué)術(shù)同行和社會公眾,在模擬實(shí)驗(yàn)環(huán)境和科學(xué)知識共享方面發(fā)揮關(guān)鍵作用。
在理論模型的可視化表達(dá)方面,諸多科研領(lǐng)域借助計(jì)算機(jī)模擬復(fù)雜系統(tǒng)的行為,大量原始數(shù)據(jù)難以直接轉(zhuǎn)譯為易于解讀的可視化形式。專業(yè)模擬軟件具備建模與仿真功能,但其專業(yè)化程度高、學(xué)習(xí)曲線陡峭,學(xué)科外的非專業(yè)人士難以駕馭。Sora的介入,可以使科研工作者短時間內(nèi)將深奧的模型計(jì)算結(jié)果轉(zhuǎn)化為易懂的視覺材料,將抽象概念變得直觀可感,從而增強(qiáng)理論傳播的有效性。
在實(shí)驗(yàn)環(huán)境模擬方面,對于涉及危險操作或受限于特殊環(huán)境的實(shí)驗(yàn)項(xiàng)目,Sora可根據(jù)文本說明構(gòu)建虛擬實(shí)驗(yàn)流程并生成模擬視頻。一方面可以幫助科研團(tuán)隊(duì)在執(zhí)行前評估潛在風(fēng)險,另一方面通過反復(fù)模擬優(yōu)化實(shí)驗(yàn)設(shè)計(jì)并節(jié)約實(shí)驗(yàn)成本。在探索科學(xué)前沿的過程中,對于未經(jīng)實(shí)證的理論設(shè)想或假設(shè)性的物理現(xiàn)象,研究者可通過Sora將其轉(zhuǎn)化為可觀的視頻形態(tài),直觀顯現(xiàn)可能的表現(xiàn)狀態(tài)。
在科學(xué)知識共享與普及方面,Sora的高效視頻生成技術(shù)有望促進(jìn)跨學(xué)科合作與交流。其產(chǎn)出的科學(xué)概念視頻可以突破專業(yè)知識屏障,讓不同領(lǐng)域的專家得以通過視覺語言信息展開無障礙溝通,有助于加快科學(xué)發(fā)現(xiàn)。同時,Sora可能消除傳統(tǒng)科普視頻制作耗時長、成本高的障礙,快速生成科普視頻可以吸引公眾深入理解科學(xué)原理,提升科普教育的吸引力與影響力。
四、Sora的未來進(jìn)路:邁向AGI的下一站
(一)認(rèn)知突圍:挑戰(zhàn)感知、推理、決策等更高階能力
作為文生視頻模型,Sora在技術(shù)應(yīng)用層面取得了顯著成就,但在攀登通用人工智能高峰的道路上,依然受制于其認(rèn)知能力的局限,尤其在跨模態(tài)感知、深度推理和智能決策等高階認(rèn)知維度,Sora仍有待拓展。
首先,在感知能力方面,盡管Sora實(shí)現(xiàn)了基于文本指導(dǎo)的視覺內(nèi)容再現(xiàn),但在跨模態(tài)感知整合方面尚欠完備。理想的AGI應(yīng)能融合多種感官輸入,以實(shí)現(xiàn)對環(huán)境的全方位、多維度認(rèn)知,并具有自主探索與學(xué)習(xí)的主動性,目前Sora并不具備這樣的特性。其次,在推理能力方面,雖然Sora在視頻生成任務(wù)中表現(xiàn)出色,但對于復(fù)雜情境下的因果邏輯推理和狀態(tài)預(yù)測能力卻較為有限,其無法生成基于深層因果關(guān)系分析的行為策略和決策預(yù)案。AGI的構(gòu)建要求具備強(qiáng)大的推理框架,能結(jié)合底層物理規(guī)律與高層語義知識,構(gòu)建起對復(fù)雜世界的微觀因果模型,進(jìn)而準(zhǔn)確預(yù)測未來狀態(tài)演變,以實(shí)現(xiàn)智慧型決策而非簡單的響應(yīng)式輸出。最后,在高層次認(rèn)知能力方面,Sora不能應(yīng)對需要動態(tài)規(guī)劃、復(fù)雜策略制定的現(xiàn)實(shí)問題,更未顯示出諸如創(chuàng)造力、探索欲望、自我意識等人類級別的高級認(rèn)知屬性。而AGI應(yīng)具備與人類相似的創(chuàng)造性思維、好奇心驅(qū)動力、自我意識以及終身學(xué)習(xí)和適應(yīng)環(huán)境變化的能力。
Sora或許是AGI發(fā)展歷程中的重要節(jié)點(diǎn),而要實(shí)現(xiàn)對現(xiàn)有認(rèn)知邊界的實(shí)質(zhì)性突破,須在以下方面進(jìn)行改革:一是開發(fā)端到端學(xué)習(xí)和融合不同模態(tài)信息的新型神經(jīng)網(wǎng)絡(luò)架構(gòu),利用注意力機(jī)制動態(tài)調(diào)節(jié)各模態(tài)權(quán)重,建立對現(xiàn)實(shí)世界的統(tǒng)一表征;二是強(qiáng)化模型對物理規(guī)則的理解與運(yùn)用,構(gòu)建基于物理驅(qū)動的因果推理引擎,深度融合基礎(chǔ)理論與數(shù)據(jù)驅(qū)動模型,精確模擬底層物理過程;三是設(shè)計(jì)仿照人腦的多層次認(rèn)知結(jié)構(gòu),建立由感知、注意力分配、工作記憶、長期存儲及執(zhí)行控制系統(tǒng)構(gòu)成的類腦架構(gòu),進(jìn)一步開發(fā)用于規(guī)劃、決策、創(chuàng)新思維等模塊,賦予系統(tǒng)創(chuàng)新思考與長期學(xué)習(xí)潛能。未來的AGI有望接近甚至達(dá)到與人腦相同的認(rèn)知廣度與深度,能夠進(jìn)行精準(zhǔn)的分析決策,實(shí)現(xiàn)對世界的高保真模擬與靈活操控。
(二)自主進(jìn)化:擺脫指令,自主學(xué)習(xí)
盡管Sora在視頻生成任務(wù)上成績斐然,其核心技術(shù)框架仍受限于對人類指令的高度依賴。從Sora邁向真正AGI的關(guān)鍵轉(zhuǎn)型在于實(shí)現(xiàn)AI系統(tǒng)的自主學(xué)習(xí)與演化,使之脫離對外部指令的剛性需求。
Sora依托大規(guī)模監(jiān)督學(xué)習(xí)訓(xùn)練而成,其視頻生成活動依賴預(yù)定義的文本指令輸入,而此類指令集的構(gòu)建耗時耗力、難以覆蓋未來潛在的新任務(wù)場景。理想的AGI系統(tǒng)應(yīng)具備自發(fā)探索環(huán)境、獨(dú)立發(fā)現(xiàn)規(guī)律并自我更新迭代的能力,而非僅僅是對既定指令的被動響應(yīng)。Sora在開放式學(xué)習(xí)方面的欠缺,表現(xiàn)為訓(xùn)練后的靜態(tài)知識狀態(tài),其無法在實(shí)際應(yīng)用中進(jìn)行自我擴(kuò)展與升級。其知識體系源于有限且固定的訓(xùn)練數(shù)據(jù),無法隨著現(xiàn)實(shí)世界的開放性與動態(tài)變化而自適應(yīng)與學(xué)習(xí)。而真正的AGI系統(tǒng)應(yīng)當(dāng)具備開放式持續(xù)學(xué)習(xí)能力,能夠在各種新情境、規(guī)則和任務(wù)需求面前實(shí)時適應(yīng),持續(xù)吸收新知識并優(yōu)化內(nèi)部世界模型。此外,當(dāng)前的人工智能系統(tǒng)缺乏內(nèi)在驅(qū)動力和自我意識,其發(fā)展主要受外在需求引導(dǎo)而非源自內(nèi)在求知欲。成熟的AGI應(yīng)模擬人類的內(nèi)在學(xué)習(xí)動機(jī),主動追求新知識,以此為基礎(chǔ)推進(jìn)系統(tǒng)自主、持續(xù)的進(jìn)步與發(fā)展。
在邁向AGI自主進(jìn)化的道路上,需在現(xiàn)有被動學(xué)習(xí)框架基礎(chǔ)上進(jìn)行革新,擺脫對靜態(tài)訓(xùn)練數(shù)據(jù)的過度依賴,轉(zhuǎn)向自主學(xué)習(xí)與進(jìn)化的能力,同時嵌入持續(xù)學(xué)習(xí)的開放機(jī)制和內(nèi)在激勵機(jī)制。為此,首先,可采用在線連續(xù)學(xué)習(xí)技術(shù)使得模型能在與環(huán)境互動的過程中實(shí)時學(xué)習(xí)、整合新知識并動態(tài)調(diào)整自身參數(shù),這要求開發(fā)新的在線神經(jīng)網(wǎng)絡(luò)參數(shù)調(diào)整算法,并解決相關(guān)穩(wěn)定性問題。其次,須構(gòu)建內(nèi)在獎勵機(jī)制,模擬生物學(xué)中類似好奇心、自我實(shí)現(xiàn)等高級心理驅(qū)動因素,為系統(tǒng)注入主動探索的動力,并通過正向反饋激發(fā)其持久的“求知沖動”。最后,為了應(yīng)對現(xiàn)實(shí)世界層出不窮的新情況,AGI系統(tǒng)應(yīng)具備強(qiáng)大的元學(xué)習(xí)和遷移學(xué)習(xí)能力,迅速消化新知識并將已掌握的知識有效應(yīng)用于新情境,提升其在應(yīng)對全新挑戰(zhàn)時的自適應(yīng)速度和效能。
(三)機(jī)器自?。壕邆湓J(rèn)知,確??尚哦?/p>
透明度與可解釋性對于確保人工智能系統(tǒng)的可信度至關(guān)重要,目前包括Sora在內(nèi)的大模型普遍遭遇“黑盒效應(yīng)”,其內(nèi)部運(yùn)算過程難以透視,決策機(jī)制呈現(xiàn)低透明度與低可解釋性特征。因此,在通向AGI的道路上,亟待新一代AI發(fā)展出元認(rèn)知能力,通過自我反思其認(rèn)知過程來增強(qiáng)透明度與可解釋性。
針對透明度缺失引發(fā)的可解釋性問題,Sora模型從文本指令到視頻生成的具體轉(zhuǎn)化機(jī)制尚不清晰,這導(dǎo)致用戶難以預(yù)測其輸出行為,更無法進(jìn)行精準(zhǔn)的調(diào)整優(yōu)化。至于自我監(jiān)督與自我調(diào)節(jié)機(jī)制,當(dāng)前Sora等模型不具備深度的自省能力,其內(nèi)部的認(rèn)知活動猶如黑盒,外界難以對其實(shí)施有效的監(jiān)督與控制。若發(fā)生計(jì)算偏誤或不合理操作,系統(tǒng)自身無法及時察覺并自我修復(fù)。現(xiàn)階段的Sora等系統(tǒng)在自我評估與自我約束方面存有局限,易于遭受誤用和操控風(fēng)險。相比之下,理想的AGI系統(tǒng)則應(yīng)構(gòu)建起透明化架構(gòu)和可追溯的決策流程,具有自我監(jiān)督及自我調(diào)節(jié)功能,能夠積極闡明決策邏輯,還能真誠地評價自身存在的風(fēng)險與局限,明確表述認(rèn)知邊界的所在,進(jìn)而提升系統(tǒng)的可靠性和信任度。
未來的AGI系統(tǒng)要在架構(gòu)設(shè)計(jì)上實(shí)現(xiàn)機(jī)器自省,需具備三個核心機(jī)制:一是配備元認(rèn)知監(jiān)測機(jī)制,嵌入系統(tǒng)結(jié)構(gòu)中以實(shí)時監(jiān)控各個認(rèn)知模塊的表現(xiàn),通過對異常模式識別、決策路徑的剖析以及計(jì)算偏差的發(fā)現(xiàn)與校正,實(shí)現(xiàn)全面的自我監(jiān)管與調(diào)整;二是建立多視角融合機(jī)制,確保認(rèn)知理解的穩(wěn)健性,這意味著模型需要有能力協(xié)調(diào)并綜合來自不同視角的理解,力求形成統(tǒng)一而全面的世界觀;三是主動設(shè)定認(rèn)知邊界,確保世界模型的可靠性,系統(tǒng)應(yīng)能精確評估自身認(rèn)知能力的局限,并通過與人類用戶的主動交流,誠實(shí)地反映認(rèn)知局限性及潛在風(fēng)險,接納人類反饋以指導(dǎo)改進(jìn),形成“人機(jī)協(xié)同解釋”機(jī)制,規(guī)避超越能力邊界所帶來的額外風(fēng)險。
Sora代表的視頻生成模型,躍升至精確模擬動態(tài)復(fù)雜世界的“世界模型器”仍需時日。擁抱Sora等智能技術(shù)創(chuàng)新,意味著人類正在積極擘畫智能時代的藍(lán)圖。隨著技術(shù)持續(xù)精進(jìn),從單一視覺模擬向多元感官模擬擴(kuò)展,再到全方位世界建模的演化,人工智能將在深刻理解現(xiàn)實(shí)的基礎(chǔ)上,推動人類社會在諸多領(lǐng)域?qū)崿F(xiàn)前所未有的變革。
[本文為國家社科基金重大項(xiàng)目“我國新聞傳播業(yè)人工智能應(yīng)用現(xiàn)狀與發(fā)展趨向研究”(項(xiàng)目編號:19ZDA327)的研究成果;本文由中國傳媒大學(xué)中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資助(CUC23GY011)]
參考文獻(xiàn):
[1]Brooks T,Peebles B,Homes C,et al.Video generation models as world simulators. [J/OL].(2024-02-15) [2024-02-15].https://openai.com/research/video-generation-models-as-world-simulators/.
[2]Creating video from text:Sora is an AI model that can create realistic and imaginative scenes from text instructions. [EB/OL]. [2024-02-15]. https://openai.com/sora/.
[3]Margoni, F., Surian, L., Baillargeon, R. The violation-of-expectation paradigm: A conceptual overview[J/OL]. Psychological Review, 2023.
[4]Raphal Millière. Are Video Generation Models World Simulators? [EB/OL]. [2024-03-01]. https://artificialcognition.net/posts/video-generation-world-simulators/.
[5]Bilal Mansouri. Sora AI: The Future of AI Video Generation. [EB/OL] [2024-02-19]. https://gptpluginz.com/sora/#Transforming_Visual_Data_into_Manageable_Patches/.
[6]Liu, Y., Zhang, K., Li, Y., Yan, Z., Gao, C., Chen, R., Yuan, Z., Huang, Y., Sun, H., Gao, J., He, L., Sun, L. Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models [J/OL]. [2024-02-28]. ArXiv: 2402.17177.
[7]Cho, J., Puspitasari, F.D., Zheng, S., Zheng, J., Lee, L.H., Kim, T.H., Hong, C.S., Zhang, C. Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation [J/OL]. [2024-03-08]. ArXiv: 2403.05131.
[8]Liu, Y., Zhang, K., Li, Y., Yan, Z., Gao, C., Chen, R., Yuan, Z., Huang, Y., Sun, H., Gao, J., He, L., Sun, L. Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models [J/OL]. [2024-02-28]. ArXiv: 2402.17177.
[9]Hu, L., Gao, X., Zhang, P., Sun, K., Zhang, B., Bo, L. Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [J/OL]. [2023-12-07]. ArXiv: 2311.17117.
[10]Xing, J., Xia, M., Liu, Y., Zhang, Y., Zhang, Y., He, Y., Liu, H., Chen, H., Cun, X., Wang, X., Shan, Y., Wong, T.T. Make-Your-Video: Customized Video Generation Using Textual and Structural Guidance [J/OL]. [2023-06-01]. ArXiv: 2306.00943.
作者簡介:任天知,中國傳媒大學(xué)媒體融合與傳播國家重點(diǎn)實(shí)驗(yàn)室博士后,中國傳媒大學(xué)國家輿情實(shí)驗(yàn)室研究人員(北京 100024);沈浩,中國傳媒大學(xué)教授,中國傳媒大學(xué)媒體融合與傳播國家重點(diǎn)實(shí)驗(yàn)室大數(shù)據(jù)首席科學(xué)家(北京 100024)。
編校:王志昭