從Sora到“世界模擬”：視頻大模型的技術(shù)原理、應(yīng)用場景與未來進(jìn)路

2024-07-09 12:35任天知沈浩

新聞愛好者 2024年6期

任天知　沈浩

【摘要】Sora引領(lǐng)的視頻生成模型以其提出的“世界模擬器”理念展示出人工智能進(jìn)展的重大突破，模型甫一問世便被視為邁向通用人工智能的標(biāo)志。以Sora的誕生為契機(jī)，系統(tǒng)探討該模型如何從知識理解、跨模態(tài)信息處理及因果推理等技術(shù)維度漸進(jìn)實(shí)現(xiàn)“世界模擬”的構(gòu)想。結(jié)合Sora展現(xiàn)的功能特性，展望其在影視制作與游戲開發(fā)、教育培訓(xùn)及科學(xué)研究等領(lǐng)域中的潛在應(yīng)用價值。鑒于通用人工智能的宏大愿景，文中指出Sora代表的視頻大模型仍需在認(rèn)知突圍、自主進(jìn)化、機(jī)器自省等方面持續(xù)攻關(guān)，為未來智能技術(shù)的全面發(fā)展奠定堅(jiān)實(shí)基礎(chǔ)。

【關(guān)鍵詞】Sora；文生視頻模型；視頻大模型；通用人工智能；世界模擬器

一、Sora的誕生：人工智能向視頻生成領(lǐng)域的跨越

2024年2月，美國人工智能研究公司OpenAI再度顛覆了人工智能研究領(lǐng)域的既定格局，推出名為Sora的文生視頻模型。模型甫一問世，即被視為邁向通用人工智能（Artificial General Intelligence，AGI）的里程碑，彰顯出人工智能技術(shù)演進(jìn)過程中的重要躍遷。

相較于同類視頻生成模型，Sora在視頻時長、分辨率的精細(xì)化程度以及場景真實(shí)感再現(xiàn)方面均達(dá)到了全新高度。尤為突出的是，Sora在模擬物理世界現(xiàn)象的精確性和多樣性方面實(shí)現(xiàn)了突破，它超越了僅能創(chuàng)造虛擬表現(xiàn)形式的局限，展現(xiàn)出重現(xiàn)現(xiàn)實(shí)世界豐富細(xì)節(jié)場景的強(qiáng)大能力，激發(fā)了對現(xiàn)實(shí)與虛擬邊界日益模糊的深刻探討。Sora能夠自主建構(gòu)高度擬真的虛擬現(xiàn)實(shí)環(huán)境，昭示著人工智能內(nèi)部邏輯架構(gòu)與外部客觀世界之間的關(guān)系日趨緊密。Sora的研發(fā)歷程，揭示了人工智能技術(shù)在模擬與理解現(xiàn)實(shí)復(fù)雜世界過程中所取得的深層進(jìn)步。

在此背景下，OpenAI在技術(shù)報(bào)告中提出了“世界模擬器”（World Simulator）這一前瞻性框架，將Sora視為實(shí)踐這一理念的視頻生成載體，將Sora作為“構(gòu)筑物理世界通用模擬器的一條可行之路”[1]。“世界模擬器”的概念承載著宏大的科技創(chuàng)新愿景，旨在利用前沿的人工智能技術(shù)手段，尤其是借助視頻生成模型技術(shù)，建立能夠精細(xì)化模擬現(xiàn)實(shí)世界中物理規(guī)則、社會動態(tài)及環(huán)境相互作用的復(fù)雜計(jì)算仿真生態(tài)系統(tǒng)。該概念的重要性不僅體現(xiàn)在其在視覺逼真表現(xiàn)層面上的生成與應(yīng)用，也在于其整合了自然語言理解與執(zhí)行能力，可以響應(yīng)指令模擬復(fù)雜情境并實(shí)時輸出適應(yīng)性行為。此外，它還預(yù)示著在對未來多種可能性進(jìn)行高級模擬分析方面的深層次功能拓展。

Sora是否能夠真正意義上“模擬世界”？Sora是否構(gòu)成實(shí)質(zhì)性的“世界模擬器”等問題還有待深入探究和驗(yàn)證。在賦予此類模型“世界模擬器”的稱謂之前，我們有必要對其如何精細(xì)捕獲和有效模擬物理情境背后的技術(shù)原理、應(yīng)用場景以及未來發(fā)展進(jìn)路進(jìn)行更為詳盡的研究。Sora的進(jìn)步是對“世界模擬”這一理想的實(shí)質(zhì)性邁進(jìn)，但通往全面理解和構(gòu)建真實(shí)世界模擬器的道路才剛剛開始。

二、Sora的技術(shù)原理：視頻模型模擬世界的可能性

（一）知識處理：海量數(shù)據(jù)歸納與規(guī)律模擬

作為視頻生成模型，Sora的知識基礎(chǔ)根植于對龐大多元的視覺、語言數(shù)據(jù)集的深度學(xué)習(xí)過程。通過對億級以上的圖像、視頻素材以及相應(yīng)的文本標(biāo)注和預(yù)訓(xùn)練，Sora汲取了廣泛的視覺語義內(nèi)涵和世界常識圖譜。相較于簡單的數(shù)據(jù)存儲與再現(xiàn)，Sora所代表的文生視頻模型注重從海量數(shù)據(jù)中挖掘、仿真出所謂世界運(yùn)作的深層法則與動態(tài)規(guī)律，進(jìn)而生成逼真且流暢的視頻內(nèi)容。

Sora采用無監(jiān)督學(xué)習(xí)策略對視覺世界的基礎(chǔ)要素進(jìn)行探索與建模，涵蓋物體實(shí)體、環(huán)境場景、事件行為等各種構(gòu)成單元，以及各單元在時空維度上的聯(lián)系和互動效應(yīng)。這種結(jié)構(gòu)化、模塊化的場景表征方式，賦予Sora構(gòu)建多層次知識組織架構(gòu)的能力，使之能將復(fù)雜視覺現(xiàn)象拆解成基本組成單位，通過靈活重組創(chuàng)作出相對符合規(guī)律及常識推理框架的畫面表現(xiàn)。多模態(tài)學(xué)習(xí)技術(shù)的應(yīng)用使Sora建立了視覺表征與語義標(biāo)簽間的對應(yīng)關(guān)系，通過對齊視覺—語言表征空間，使得文本描述能夠精確定位并關(guān)聯(lián)至相關(guān)視覺單元。這一特性使Sora能夠在理解語言指令的基礎(chǔ)上，將其轉(zhuǎn)化成為直觀和準(zhǔn)確的視覺表達(dá)形式。此外，Sora對處理的大量視頻數(shù)據(jù)進(jìn)行高效的時間序列建模，以掌握各類事件演進(jìn)的固有模式以及場景間因果關(guān)系的內(nèi)在邏輯。由此，Sora能夠依據(jù)前后情境線索，對未來畫面做出合理預(yù)測，進(jìn)而生成具有連續(xù)性、故事性特征的視頻片段，初步顯現(xiàn)出其在因果推理與規(guī)劃生成方面的能力。

“我們正在教人工智能理解和模擬運(yùn)動中的物理世界，目的是訓(xùn)練模型，幫助人們解決需要現(xiàn)實(shí)世界交互的問題?！盵2]Sora借助對數(shù)據(jù)資源的有效學(xué)習(xí)，構(gòu)建起一套相對全面、立體的視覺世界理論模型，該模型囊括了從物體形態(tài)直至規(guī)律原理等多個認(rèn)知層次的知識內(nèi)容。這種從數(shù)據(jù)中萃取知識精華、構(gòu)筑邏輯聯(lián)系的能力，確定了Sora相較于傳統(tǒng)視覺生成模型的優(yōu)勢所在：其不僅是一款視頻創(chuàng)作工具，也正有意發(fā)展為具備初級常識推理能力的智能體，體現(xiàn)了人工智能由單純的“感知層面”朝向高階“認(rèn)知層面”邁進(jìn)的偉愿。

在人類的認(rèn)知發(fā)展過程中，“幼年時期即體現(xiàn)出對直觀物理學(xué)原理的初步掌握，如對物體存在的持久性（即便不在視線范圍內(nèi)物體仍持續(xù)存在）、堅(jiān)固性（物體間不會穿透）和凝聚性（物體作為一個統(tǒng)一的整體一同移動）等基本屬性持固有期待”[3]。這種對物理世界及其規(guī)則的理解，源于人類大腦內(nèi)建的一個類似“直覺物理引擎”（Intuitive Physical Engine， IPE）的機(jī)制，它憑借類比物理定律的方式進(jìn)行運(yùn)作，以統(tǒng)計(jì)學(xué)的概率預(yù)測方式推斷物體隨時間的動態(tài)演變[4]。相較而言，Sora作為一種端到端的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，并未直接融入傳統(tǒng)物理引擎的計(jì)算方法，而是在大規(guī)模數(shù)據(jù)集的基礎(chǔ)上挖掘和學(xué)習(xí)隱藏的物理規(guī)律表達(dá)。

如果說“世界模型”是通過壓縮感知輸入和預(yù)測未來狀態(tài)，提供環(huán)境的內(nèi)部表征，那么Sora的工作方法是通過視頻壓縮網(wǎng)絡(luò)將原始視頻映射至特定空間，并通過擴(kuò)散變換器（Diffusion Transformer）在此空間中對時空片段進(jìn)行精細(xì)化建模，從而捕捉到場景中的動態(tài)交互機(jī)制。[4]當(dāng)前，Sora的主要訓(xùn)練目標(biāo)聚焦于生成高質(zhì)量的視頻內(nèi)容，而非直接構(gòu)建用于模擬體驗(yàn)的物理環(huán)境。盡管Sora展現(xiàn)出的場景連貫性提示其在模擬物理規(guī)律方面存在發(fā)展?jié)摿Γ湮磥砟芊襁M(jìn)化成為真正的“世界模擬器”仍有待考證。

（二）跨模態(tài)理解：打通視覺、語言等認(rèn)知通道

作為“世界模擬器”的Sora，能夠整合語言、視覺等認(rèn)知模態(tài)，實(shí)現(xiàn)跨模態(tài)的理解和生成，其能力主要體現(xiàn)在以下幾方面。

一是Sora與大語言模型的無縫結(jié)合。作為在ChatGPT等先進(jìn)語言模型基礎(chǔ)上拓展出的迭代成果，Sora展現(xiàn)出自然語言與視覺場景理解和生成之間的無縫對接能力。通過汲取ChatGPT的語義解析優(yōu)勢，Sora可以提升對文本描述精準(zhǔn)語義的捕獲效率。相較于大語言模型，Sora拓展了對時間和空間維度的處理能力，能夠駕馭具有時空屬性的視頻內(nèi)容生成任務(wù)。因此，Sora不局限于再現(xiàn)靜態(tài)圖像世界的特性，能夠在模擬動態(tài)演變世界時發(fā)揮效用。當(dāng)接收到文本指令時，Sora能夠解碼其中的意義，據(jù)此生成貼合文本語境的視頻內(nèi)容，涵蓋了時空連續(xù)性和復(fù)雜場景建構(gòu)等多個維度。通過集成、優(yōu)化與大語言模型的協(xié)作關(guān)系，Sora在視覺感知與語義理解間架設(shè)起通信橋梁，為構(gòu)建多模態(tài)理解提供支撐。此外，Sora不僅能夠模擬再現(xiàn)客觀物理世界，也能創(chuàng)造性地構(gòu)建符合主觀意念的虛構(gòu)場景，這種雙重特性賦予其成為“世界模擬器”的潛在能力，拓寬了在現(xiàn)實(shí)與想象世界互動探索的應(yīng)用前景。

二是Sora展示出交互式多視角的生成能力。在視頻生成流程中，Sora能夠模擬攝像機(jī)視點(diǎn)的動態(tài)轉(zhuǎn)換，確保場景中物體在三維空間中的運(yùn)動表現(xiàn)保持連續(xù)且一致，這一特點(diǎn)揭示了其在結(jié)構(gòu)化模型層面超越二維幀序列拼接的機(jī)制。Sora采用三維幾何原理及透視變換等核心知識構(gòu)建場景模型，這是實(shí)現(xiàn)物理世界仿真不可或缺的基礎(chǔ)。同時，Sora在時間維度的精細(xì)化建模方面表現(xiàn)出色，其生成的一分鐘視頻內(nèi)，物體運(yùn)動始終保持一致性和連貫性，表明Sora初步具備時間邏輯推理和因果關(guān)系建模的功能，這對于精確模擬真實(shí)物理過程至關(guān)重要。由此，Sora可以賦予用戶切換視角的自由度，可以使用戶從不同角度觀測所生成的世界，這反映了Sora內(nèi)部構(gòu)建了可以整合多視角信息的全景式多模態(tài)框架，從而實(shí)現(xiàn)對虛擬場景全方位、靈活的視角控制與展現(xiàn)。

三是Sora體現(xiàn)出對物理世界構(gòu)成規(guī)則的基礎(chǔ)理解。其在空間與時間維度上的建模性能，實(shí)質(zhì)上來源于對諸如運(yùn)動規(guī)律、力學(xué)規(guī)律等基礎(chǔ)物理法則的學(xué)習(xí)和初步應(yīng)用。不同于傳統(tǒng)的物理引擎模擬器，Sora通過大規(guī)模數(shù)據(jù)訓(xùn)練習(xí)得對物理世界的內(nèi)在認(rèn)知能力，這也是其作為潛在世界模擬器的價值所在。Sora底層學(xué)習(xí)并融合了對物理世界的基本理解，將視覺等多模態(tài)信息嵌入內(nèi)部表征之中。然而，現(xiàn)階段Sora對于物理規(guī)律的理解與模擬仍存在局限性，比如在處理物體的臨界狀態(tài)表達(dá)和因果性運(yùn)動等方面仍存在不足，這些問題可能源于訓(xùn)練數(shù)據(jù)的局限性或者模型架構(gòu)與計(jì)算資源約束所致。未來，通過增加訓(xùn)練數(shù)據(jù)的豐富度和多樣性、改進(jìn)模型結(jié)構(gòu)設(shè)計(jì)以及增強(qiáng)算力投入，Sora有望進(jìn)一步提高其對物理世界的理解與模擬精度，可能朝向真正意義上AGI級別的世界模擬器演進(jìn)。

（三）因果推理：構(gòu)建事件邏輯，內(nèi)容貼近真實(shí)

若要實(shí)現(xiàn)視頻內(nèi)容與真實(shí)世界的高度契合，模型須具備深入的因果推理能力來識別和學(xué)習(xí)各實(shí)體事物之間的因果關(guān)聯(lián)。Sora通過一系列關(guān)鍵技術(shù)模擬了事件邏輯，從而提高了生成內(nèi)容的真實(shí)性。

Sora采用視頻壓縮網(wǎng)絡(luò)（Video Compression Network），通過視覺編碼器將原始視頻壓縮至低維潛在空間，將復(fù)雜的視頻信息簡化為時空補(bǔ)丁，這些補(bǔ)丁類似語句中的詞匯，承載著組建視頻的關(guān)鍵時空特征與動態(tài)變化信息。[5]進(jìn)而，Sora預(yù)測這些補(bǔ)丁如何有效拼接，以生成連貫且視覺吸引力強(qiáng)的視頻內(nèi)容。通過視頻壓縮，Sora能夠在簡化后的潛在空間內(nèi)專注高質(zhì)量視頻內(nèi)容的生成，為后續(xù)擴(kuò)散變換模型提供了視覺信息。

Sora所搭載的擴(kuò)散變換模型（Diffusion Transformer）借鑒了馬爾可夫鏈理念，采用遞歸去噪的方式逐步生成視頻幀序列。該模型在生成過程中體現(xiàn)明確的因果依賴關(guān)系，即將每一幀的生成嚴(yán)格建立在前序幀信息擴(kuò)散和演變的基礎(chǔ)上，有力推動了視頻內(nèi)容中事件邏輯鏈條的有效構(gòu)建與延續(xù)。

為更準(zhǔn)確地響應(yīng)用戶意圖并在模擬過程中遵循合理的因果邏輯，Sora通過整合大型語言模型的指令跟隨能力，有效增強(qiáng)了模型對文本輸入的理解。它首先訓(xùn)練視頻字幕生成器產(chǎn)生高質(zhì)量的視頻、描述性字幕作為訓(xùn)練數(shù)據(jù)，然后使用大語言模型將簡短的用戶提示擴(kuò)展為與訓(xùn)練數(shù)據(jù)格式一致的詳細(xì)描述，確保在推理時的輸入與訓(xùn)練保持一致[6]。通過這種方式，Sora能夠從簡短提示推導(dǎo)豐富語義，生成契合用戶意圖、合乎邏輯的高質(zhì)量視頻內(nèi)容。

在提示工程方面，Sora的視頻/圖像提示能力極大增強(qiáng)了內(nèi)容與現(xiàn)實(shí)世界的視覺相似性和內(nèi)在一致性。除文本輸入外，它能夠接受視頻片段或圖像作為生成線索，引導(dǎo)生成過程沿著特定的藝術(shù)風(fēng)格或主題脈絡(luò)演進(jìn)，在模擬層面更加接近真實(shí)世界的多元表現(xiàn)形態(tài)。

以上核心技術(shù)，共同支撐Sora實(shí)現(xiàn)具有因果邏輯的世界模擬。盡管當(dāng)前Sora等“視頻模型在正確模擬物理交互方面仍存在一些限制，包括對基本物理定律的模擬存在疏忽、難以一致展現(xiàn)物體的物理狀態(tài)變化等問題”[7]，但其已在因果推理、構(gòu)建事件邏輯以及提升生成內(nèi)容真實(shí)感方面取得了重要突破。賦予模型深入的因果推理能力和學(xué)習(xí)物理定律、常識知識的能力，使其能夠推測事物運(yùn)動變化背后的成因及其相互作用效應(yīng)，是邁向高度逼真世界模擬的必經(jīng)之路。Sora代表的新一代文生視頻模型正積極向此目標(biāo)邁進(jìn)。

三、Sora的應(yīng)用圖景：想象與現(xiàn)實(shí)交匯

（一）賦能內(nèi)容生產(chǎn)：影視創(chuàng)作、游戲開發(fā)等領(lǐng)域

Sora可能重塑影視制作與游戲開發(fā)等創(chuàng)意產(chǎn)業(yè)的生產(chǎn)和表達(dá)范式，不同于傳統(tǒng)視頻生成技術(shù)帶來的藝術(shù)完整性方面的折損，Sora采用了保留原始畫面比例的訓(xùn)練機(jī)制，確保其輸出的視頻內(nèi)容無論在何種設(shè)備支持下，均可傳達(dá)主題并展現(xiàn)出卓越的視覺美學(xué)。Sora可適應(yīng)目標(biāo)屏幕尺寸生成相應(yīng)分辨率及縱橫比的高質(zhì)量視頻內(nèi)容，語言理解能力使其準(zhǔn)確提取文字腳本，詮釋生成為驚艷的視覺敘事。

Sora“可能改變電影制作和動畫的預(yù)制作過程，讓故事講述者推介和完善他們的表達(dá)”[8]。在影視預(yù)制作階段，Sora正重新定義編劇和導(dǎo)演的工作流程。過去，將抽象的創(chuàng)意概念轉(zhuǎn)化為具象視覺，通常需要美術(shù)團(tuán)隊(duì)投入大量的時間精力進(jìn)行草圖創(chuàng)作與概念設(shè)計(jì)。而今，利用Sora，創(chuàng)作團(tuán)隊(duì)可直接將劇本文本轉(zhuǎn)化為視頻演示溝通，甚至可以快速制作預(yù)告片與動畫預(yù)覽。Sora引領(lǐng)的文本驅(qū)動與視頻生成技術(shù)，不僅優(yōu)化了影視前期工作流程，還可以引入動態(tài)評估和交互式劇本的開發(fā)手段，有助于提升創(chuàng)意的探索效率。

在游戲開發(fā)維度上，Sora同樣扮演著“破局者”角色。文本到視頻的轉(zhuǎn)化能力可以應(yīng)用于游戲場景構(gòu)建，助力游戲設(shè)計(jì)師快速生成基礎(chǔ)素材，有效緩解繁復(fù)的手工建模壓力。游戲行業(yè)越發(fā)注重劇情敘事，Sora可依據(jù)游戲腳本生成對應(yīng)的視頻片段，以提升場景過渡效果、深化游戲內(nèi)部故事敘述的感染力，進(jìn)而增進(jìn)玩家的沉浸式體驗(yàn)。在游戲互動層面，Sora進(jìn)一步延伸玩家參與內(nèi)容創(chuàng)作的權(quán)力邊界。通過簡單的文本輸入，玩家得以定制個性化的游戲場景，這一參與式創(chuàng)作模式有望開辟游戲互動娛樂的新維度。

當(dāng)前，游戲行業(yè)不斷追求打破真實(shí)感和沉浸感界限的方式與方法，傳統(tǒng)游戲開發(fā)常受困于預(yù)先設(shè)定的環(huán)境和預(yù)編程的限制。而“通過集成如Sora擴(kuò)散模型實(shí)現(xiàn)實(shí)時、高保真度視頻內(nèi)容以及擬真音效的生成，有望突破現(xiàn)存局限，賦能開發(fā)者構(gòu)建隨玩家行為和游戲事件動態(tài)變化的游戲環(huán)境”[9]。如模擬真實(shí)的氣候現(xiàn)象、地形動態(tài)變化，甚至是創(chuàng)造性地布局新場景，從而營造更加真實(shí)、響應(yīng)靈活的游戲世界。

（二）更新教育方式：定制化學(xué)習(xí)體驗(yàn)，均等化教育資源

長久以來，教育內(nèi)容一直以靜態(tài)資源為主。傳統(tǒng)教學(xué)資源面臨著制作成本高、動態(tài)變化需求響應(yīng)能力不足等困境。Sora可以“將描述性文本或課程大綱轉(zhuǎn)化為特定風(fēng)格的、為個人學(xué)習(xí)者興趣量身定制動態(tài)視頻內(nèi)容”[10]，構(gòu)筑個性化且富有吸引力的學(xué)習(xí)體驗(yàn)。

在個性化教學(xué)視頻的生成方面，Sora允許教育工作者根據(jù)學(xué)生個體的認(rèn)知特征和需求，指導(dǎo)模型生成貼合具體教學(xué)內(nèi)容的定制視頻教材。尤其在實(shí)驗(yàn)教學(xué)場景中，Sora表現(xiàn)出強(qiáng)大的應(yīng)用前景。在要求立體化認(rèn)知的空間結(jié)構(gòu)教學(xué)中，其不僅能將諸如“溶解過程”等抽象概念以直觀視頻形式表現(xiàn)，還可以揭示微觀層面的分子運(yùn)動與作用機(jī)制，通過生成多角度視圖進(jìn)行場景展示，拓展學(xué)生對復(fù)雜系統(tǒng)知識的理解深度。對于因安全、成本等因素限制而難以在現(xiàn)實(shí)環(huán)境中實(shí)施的實(shí)驗(yàn)，如解剖學(xué)實(shí)驗(yàn)中的實(shí)物標(biāo)本操作，或是汽車碰撞實(shí)驗(yàn)中的破壞性場景，Sora可模擬生成虛擬實(shí)驗(yàn)視頻，在克服資源限制與潛在風(fēng)險的同時，增強(qiáng)課堂教學(xué)互動探索性。

Sora還展現(xiàn)出多元化的教育領(lǐng)域應(yīng)用潛能。在語言文化教學(xué)上，Sora可根據(jù)教學(xué)需要創(chuàng)造出地域情境，使學(xué)生體驗(yàn)異域文化習(xí)俗和實(shí)踐特定語言交際，這一特性超越了傳統(tǒng)課本教學(xué)的局限，使學(xué)習(xí)者通過仿效真實(shí)對話情景習(xí)得語言技能并領(lǐng)悟文化內(nèi)核。在歷史課程教學(xué)中，Sora能夠生動再現(xiàn)關(guān)鍵歷史場景，將遙遠(yuǎn)的時空瞬間拉至學(xué)生身邊，將歷史教學(xué)從被動回顧轉(zhuǎn)向主動沉浸式體驗(yàn)。

Sora的虛擬化屬性有助于提升教育的普及性和可及性。其技術(shù)應(yīng)用一定程度上降低了傳統(tǒng)教學(xué)方式對人力物力的過度依賴，即便是資源匱乏的邊遠(yuǎn)地區(qū)學(xué)校，也能以較低成本獲得豐富的視頻教學(xué)資源，進(jìn)而填補(bǔ)優(yōu)質(zhì)師資力量的空白，Sora可能充當(dāng)“AI助教”角色解答疑難問題，一定程度上彌合了地區(qū)間教育資源鴻溝。Sora一旦普及為普遍民主化的教學(xué)工具，則有望在促進(jìn)教育公平性方面發(fā)揮效用。

（三）助力科學(xué)研究：模擬實(shí)驗(yàn)環(huán)境，共享科學(xué)知識

科學(xué)研究的本質(zhì)在于探尋現(xiàn)象背后的運(yùn)行機(jī)理，其過程包含從概念提煉、理論建構(gòu)至實(shí)驗(yàn)驗(yàn)證、學(xué)術(shù)傳播等多個環(huán)節(jié)。Sora有望將復(fù)雜理論模型和實(shí)驗(yàn)過程以直觀形象的方式傳達(dá)給學(xué)術(shù)同行和社會公眾，在模擬實(shí)驗(yàn)環(huán)境和科學(xué)知識共享方面發(fā)揮關(guān)鍵作用。

在理論模型的可視化表達(dá)方面，諸多科研領(lǐng)域借助計(jì)算機(jī)模擬復(fù)雜系統(tǒng)的行為，大量原始數(shù)據(jù)難以直接轉(zhuǎn)譯為易于解讀的可視化形式。專業(yè)模擬軟件具備建模與仿真功能，但其專業(yè)化程度高、學(xué)習(xí)曲線陡峭，學(xué)科外的非專業(yè)人士難以駕馭。Sora的介入，可以使科研工作者短時間內(nèi)將深奧的模型計(jì)算結(jié)果轉(zhuǎn)化為易懂的視覺材料，將抽象概念變得直觀可感，從而增強(qiáng)理論傳播的有效性。

在實(shí)驗(yàn)環(huán)境模擬方面，對于涉及危險操作或受限于特殊環(huán)境的實(shí)驗(yàn)項(xiàng)目，Sora可根據(jù)文本說明構(gòu)建虛擬實(shí)驗(yàn)流程并生成模擬視頻。一方面可以幫助科研團(tuán)隊(duì)在執(zhí)行前評估潛在風(fēng)險，另一方面通過反復(fù)模擬優(yōu)化實(shí)驗(yàn)設(shè)計(jì)并節(jié)約實(shí)驗(yàn)成本。在探索科學(xué)前沿的過程中，對于未經(jīng)實(shí)證的理論設(shè)想或假設(shè)性的物理現(xiàn)象，研究者可通過Sora將其轉(zhuǎn)化為可觀的視頻形態(tài)，直觀顯現(xiàn)可能的表現(xiàn)狀態(tài)。

在科學(xué)知識共享與普及方面，Sora的高效視頻生成技術(shù)有望促進(jìn)跨學(xué)科合作與交流。其產(chǎn)出的科學(xué)概念視頻可以突破專業(yè)知識屏障，讓不同領(lǐng)域的專家得以通過視覺語言信息展開無障礙溝通，有助于加快科學(xué)發(fā)現(xiàn)。同時，Sora可能消除傳統(tǒng)科普視頻制作耗時長、成本高的障礙，快速生成科普視頻可以吸引公眾深入理解科學(xué)原理，提升科普教育的吸引力與影響力。

四、Sora的未來進(jìn)路：邁向AGI的下一站

（一）認(rèn)知突圍：挑戰(zhàn)感知、推理、決策等更高階能力

作為文生視頻模型，Sora在技術(shù)應(yīng)用層面取得了顯著成就，但在攀登通用人工智能高峰的道路上，依然受制于其認(rèn)知能力的局限，尤其在跨模態(tài)感知、深度推理和智能決策等高階認(rèn)知維度，Sora仍有待拓展。

首先，在感知能力方面，盡管Sora實(shí)現(xiàn)了基于文本指導(dǎo)的視覺內(nèi)容再現(xiàn)，但在跨模態(tài)感知整合方面尚欠完備。理想的AGI應(yīng)能融合多種感官輸入，以實(shí)現(xiàn)對環(huán)境的全方位、多維度認(rèn)知，并具有自主探索與學(xué)習(xí)的主動性，目前Sora并不具備這樣的特性。其次，在推理能力方面，雖然Sora在視頻生成任務(wù)中表現(xiàn)出色，但對于復(fù)雜情境下的因果邏輯推理和狀態(tài)預(yù)測能力卻較為有限，其無法生成基于深層因果關(guān)系分析的行為策略和決策預(yù)案。AGI的構(gòu)建要求具備強(qiáng)大的推理框架，能結(jié)合底層物理規(guī)律與高層語義知識，構(gòu)建起對復(fù)雜世界的微觀因果模型，進(jìn)而準(zhǔn)確預(yù)測未來狀態(tài)演變，以實(shí)現(xiàn)智慧型決策而非簡單的響應(yīng)式輸出。最后，在高層次認(rèn)知能力方面，Sora不能應(yīng)對需要動態(tài)規(guī)劃、復(fù)雜策略制定的現(xiàn)實(shí)問題，更未顯示出諸如創(chuàng)造力、探索欲望、自我意識等人類級別的高級認(rèn)知屬性。而AGI應(yīng)具備與人類相似的創(chuàng)造性思維、好奇心驅(qū)動力、自我意識以及終身學(xué)習(xí)和適應(yīng)環(huán)境變化的能力。

Sora或許是AGI發(fā)展歷程中的重要節(jié)點(diǎn)，而要實(shí)現(xiàn)對現(xiàn)有認(rèn)知邊界的實(shí)質(zhì)性突破，須在以下方面進(jìn)行改革：一是開發(fā)端到端學(xué)習(xí)和融合不同模態(tài)信息的新型神經(jīng)網(wǎng)絡(luò)架構(gòu)，利用注意力機(jī)制動態(tài)調(diào)節(jié)各模態(tài)權(quán)重，建立對現(xiàn)實(shí)世界的統(tǒng)一表征；二是強(qiáng)化模型對物理規(guī)則的理解與運(yùn)用，構(gòu)建基于物理驅(qū)動的因果推理引擎，深度融合基礎(chǔ)理論與數(shù)據(jù)驅(qū)動模型，精確模擬底層物理過程；三是設(shè)計(jì)仿照人腦的多層次認(rèn)知結(jié)構(gòu)，建立由感知、注意力分配、工作記憶、長期存儲及執(zhí)行控制系統(tǒng)構(gòu)成的類腦架構(gòu)，進(jìn)一步開發(fā)用于規(guī)劃、決策、創(chuàng)新思維等模塊，賦予系統(tǒng)創(chuàng)新思考與長期學(xué)習(xí)潛能。未來的AGI有望接近甚至達(dá)到與人腦相同的認(rèn)知廣度與深度，能夠進(jìn)行精準(zhǔn)的分析決策，實(shí)現(xiàn)對世界的高保真模擬與靈活操控。

（二）自主進(jìn)化：擺脫指令，自主學(xué)習(xí)

盡管Sora在視頻生成任務(wù)上成績斐然，其核心技術(shù)框架仍受限于對人類指令的高度依賴。從Sora邁向真正AGI的關(guān)鍵轉(zhuǎn)型在于實(shí)現(xiàn)AI系統(tǒng)的自主學(xué)習(xí)與演化，使之脫離對外部指令的剛性需求。

Sora依托大規(guī)模監(jiān)督學(xué)習(xí)訓(xùn)練而成，其視頻生成活動依賴預(yù)定義的文本指令輸入，而此類指令集的構(gòu)建耗時耗力、難以覆蓋未來潛在的新任務(wù)場景。理想的AGI系統(tǒng)應(yīng)具備自發(fā)探索環(huán)境、獨(dú)立發(fā)現(xiàn)規(guī)律并自我更新迭代的能力，而非僅僅是對既定指令的被動響應(yīng)。Sora在開放式學(xué)習(xí)方面的欠缺，表現(xiàn)為訓(xùn)練后的靜態(tài)知識狀態(tài)，其無法在實(shí)際應(yīng)用中進(jìn)行自我擴(kuò)展與升級。其知識體系源于有限且固定的訓(xùn)練數(shù)據(jù)，無法隨著現(xiàn)實(shí)世界的開放性與動態(tài)變化而自適應(yīng)與學(xué)習(xí)。而真正的AGI系統(tǒng)應(yīng)當(dāng)具備開放式持續(xù)學(xué)習(xí)能力，能夠在各種新情境、規(guī)則和任務(wù)需求面前實(shí)時適應(yīng)，持續(xù)吸收新知識并優(yōu)化內(nèi)部世界模型。此外，當(dāng)前的人工智能系統(tǒng)缺乏內(nèi)在驅(qū)動力和自我意識，其發(fā)展主要受外在需求引導(dǎo)而非源自內(nèi)在求知欲。成熟的AGI應(yīng)模擬人類的內(nèi)在學(xué)習(xí)動機(jī)，主動追求新知識，以此為基礎(chǔ)推進(jìn)系統(tǒng)自主、持續(xù)的進(jìn)步與發(fā)展。

在邁向AGI自主進(jìn)化的道路上，需在現(xiàn)有被動學(xué)習(xí)框架基礎(chǔ)上進(jìn)行革新，擺脫對靜態(tài)訓(xùn)練數(shù)據(jù)的過度依賴，轉(zhuǎn)向自主學(xué)習(xí)與進(jìn)化的能力，同時嵌入持續(xù)學(xué)習(xí)的開放機(jī)制和內(nèi)在激勵機(jī)制。為此，首先，可采用在線連續(xù)學(xué)習(xí)技術(shù)使得模型能在與環(huán)境互動的過程中實(shí)時學(xué)習(xí)、整合新知識并動態(tài)調(diào)整自身參數(shù)，這要求開發(fā)新的在線神經(jīng)網(wǎng)絡(luò)參數(shù)調(diào)整算法，并解決相關(guān)穩(wěn)定性問題。其次，須構(gòu)建內(nèi)在獎勵機(jī)制，模擬生物學(xué)中類似好奇心、自我實(shí)現(xiàn)等高級心理驅(qū)動因素，為系統(tǒng)注入主動探索的動力，并通過正向反饋激發(fā)其持久的“求知沖動”。最后，為了應(yīng)對現(xiàn)實(shí)世界層出不窮的新情況，AGI系統(tǒng)應(yīng)具備強(qiáng)大的元學(xué)習(xí)和遷移學(xué)習(xí)能力，迅速消化新知識并將已掌握的知識有效應(yīng)用于新情境，提升其在應(yīng)對全新挑戰(zhàn)時的自適應(yīng)速度和效能。

（三）機(jī)器自?。壕邆湓J(rèn)知，確?？尚哦?/p>

透明度與可解釋性對于確保人工智能系統(tǒng)的可信度至關(guān)重要，目前包括Sora在內(nèi)的大模型普遍遭遇“黑盒效應(yīng)”，其內(nèi)部運(yùn)算過程難以透視，決策機(jī)制呈現(xiàn)低透明度與低可解釋性特征。因此，在通向AGI的道路上，亟待新一代AI發(fā)展出元認(rèn)知能力，通過自我反思其認(rèn)知過程來增強(qiáng)透明度與可解釋性。

針對透明度缺失引發(fā)的可解釋性問題，Sora模型從文本指令到視頻生成的具體轉(zhuǎn)化機(jī)制尚不清晰，這導(dǎo)致用戶難以預(yù)測其輸出行為，更無法進(jìn)行精準(zhǔn)的調(diào)整優(yōu)化。至于自我監(jiān)督與自我調(diào)節(jié)機(jī)制，當(dāng)前Sora等模型不具備深度的自省能力，其內(nèi)部的認(rèn)知活動猶如黑盒，外界難以對其實(shí)施有效的監(jiān)督與控制。若發(fā)生計(jì)算偏誤或不合理操作，系統(tǒng)自身無法及時察覺并自我修復(fù)。現(xiàn)階段的Sora等系統(tǒng)在自我評估與自我約束方面存有局限，易于遭受誤用和操控風(fēng)險。相比之下，理想的AGI系統(tǒng)則應(yīng)構(gòu)建起透明化架構(gòu)和可追溯的決策流程，具有自我監(jiān)督及自我調(diào)節(jié)功能，能夠積極闡明決策邏輯，還能真誠地評價自身存在的風(fēng)險與局限，明確表述認(rèn)知邊界的所在，進(jìn)而提升系統(tǒng)的可靠性和信任度。

未來的AGI系統(tǒng)要在架構(gòu)設(shè)計(jì)上實(shí)現(xiàn)機(jī)器自省，需具備三個核心機(jī)制：一是配備元認(rèn)知監(jiān)測機(jī)制，嵌入系統(tǒng)結(jié)構(gòu)中以實(shí)時監(jiān)控各個認(rèn)知模塊的表現(xiàn)，通過對異常模式識別、決策路徑的剖析以及計(jì)算偏差的發(fā)現(xiàn)與校正，實(shí)現(xiàn)全面的自我監(jiān)管與調(diào)整；二是建立多視角融合機(jī)制，確保認(rèn)知理解的穩(wěn)健性，這意味著模型需要有能力協(xié)調(diào)并綜合來自不同視角的理解，力求形成統(tǒng)一而全面的世界觀；三是主動設(shè)定認(rèn)知邊界，確保世界模型的可靠性，系統(tǒng)應(yīng)能精確評估自身認(rèn)知能力的局限，并通過與人類用戶的主動交流，誠實(shí)地反映認(rèn)知局限性及潛在風(fēng)險，接納人類反饋以指導(dǎo)改進(jìn)，形成“人機(jī)協(xié)同解釋”機(jī)制，規(guī)避超越能力邊界所帶來的額外風(fēng)險。

Sora代表的視頻生成模型，躍升至精確模擬動態(tài)復(fù)雜世界的“世界模型器”仍需時日。擁抱Sora等智能技術(shù)創(chuàng)新，意味著人類正在積極擘畫智能時代的藍(lán)圖。隨著技術(shù)持續(xù)精進(jìn)，從單一視覺模擬向多元感官模擬擴(kuò)展，再到全方位世界建模的演化，人工智能將在深刻理解現(xiàn)實(shí)的基礎(chǔ)上，推動人類社會在諸多領(lǐng)域?qū)崿F(xiàn)前所未有的變革。

[本文為國家社科基金重大項(xiàng)目“我國新聞傳播業(yè)人工智能應(yīng)用現(xiàn)狀與發(fā)展趨向研究”（項(xiàng)目編號：19ZDA327）的研究成果；本文由中國傳媒大學(xué)中央高?；究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資助（CUC23GY011）]

參考文獻(xiàn)：

[1]Brooks T，Peebles B，Homes C，et al.Video generation models as world simulators. [J/OL].（2024-02-15） [2024-02-15].https：//openai.com/research/video-generation-models-as-world-simulators/.

[2]Creating video from text：Sora is an AI model that can create realistic and imaginative scenes from text instructions. [EB/OL]. [2024-02-15]. https：//openai.com/sora/.

[3]Margoni， F.， Surian， L.， Baillargeon， R. The violation-of-expectation paradigm： A conceptual overview[J/OL]. Psychological Review， 2023.

[4]Raphal Millière. Are Video Generation Models World Simulators？ [EB/OL]. [2024-03-01]. https：//artificialcognition.net/posts/video-generation-world-simulators/.

[5]Bilal Mansouri. Sora AI： The Future of AI Video Generation. [EB/OL] [2024-02-19]. https：//gptpluginz.com/sora/#Transforming_Visual_Data_into_Manageable_Patches/.

[6]Liu， Y.， Zhang， K.， Li， Y.， Yan， Z.， Gao， C.， Chen， R.， Yuan， Z.， Huang， Y.， Sun， H.， Gao， J.， He， L.， Sun， L. Sora： A Review on Background， Technology， Limitations， and Opportunities of Large Vision Models [J/OL]. [2024-02-28]. ArXiv： 2402.17177.

[7]Cho， J.， Puspitasari， F.D.， Zheng， S.， Zheng， J.， Lee， L.H.， Kim， T.H.， Hong， C.S.， Zhang， C. Sora as an AGI World Model？ A Complete Survey on Text-to-Video Generation [J/OL]. [2024-03-08]. ArXiv： 2403.05131.

[8]Liu， Y.， Zhang， K.， Li， Y.， Yan， Z.， Gao， C.， Chen， R.， Yuan， Z.， Huang， Y.， Sun， H.， Gao， J.， He， L.， Sun， L. Sora： A Review on Background， Technology， Limitations， and Opportunities of Large Vision Models [J/OL]. [2024-02-28]. ArXiv： 2402.17177.

[9]Hu， L.， Gao， X.， Zhang， P.， Sun， K.， Zhang， B.， Bo， L. Animate Anyone： Consistent and Controllable Image-to-Video Synthesis for Character Animation [J/OL]. [2023-12-07]. ArXiv： 2311.17117.

[10]Xing， J.， Xia， M.， Liu， Y.， Zhang， Y.， Zhang， Y.， He， Y.， Liu， H.， Chen， H.， Cun， X.， Wang， X.， Shan， Y.， Wong， T.T. Make-Your-Video： Customized Video Generation Using Textual and Structural Guidance [J/OL]. [2023-06-01]. ArXiv： 2306.00943.

作者簡介：任天知，中國傳媒大學(xué)媒體融合與傳播國家重點(diǎn)實(shí)驗(yàn)室博士后，中國傳媒大學(xué)國家輿情實(shí)驗(yàn)室研究人員（北京 100024）；沈浩，中國傳媒大學(xué)教授，中國傳媒大學(xué)媒體融合與傳播國家重點(diǎn)實(shí)驗(yàn)室大數(shù)據(jù)首席科學(xué)家（北京 100024）。

編校：王志昭

新聞愛好者2024年6期

新聞愛好者的其它文章: 穆青外宣思想的內(nèi)涵維度與現(xiàn)實(shí)啟示; 網(wǎng)絡(luò)直播內(nèi)容生態(tài)的失衡及矯治; 淺析互聯(lián)網(wǎng)傳播語境下時政報(bào)道的創(chuàng)新表達(dá); 《清俗紀(jì)聞》中的中國式物候文化思想辨析; 鑄牢中華民族共同體意識背景下黃河文化大IP傳播研究; “媒體+旅游”融合創(chuàng)阿新發(fā)展現(xiàn)狀及趨勢

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

從Sora到“世界模擬”：視頻大模型的技術(shù)原理、應(yīng)用場景與未來進(jìn)路