袁京力
人工智能在文生視頻領(lǐng)域取得新突破。北京時(shí)間2月16日,OpenAI發(fā)布文生視頻模型Sora,該模型可根據(jù)簡(jiǎn)單提示詞,生成長(zhǎng)達(dá)1分鐘的高清短視頻,雖然仍處于面向測(cè)試者開放的狀態(tài),但較此前行業(yè)視頻長(zhǎng)度大幅提升,文生視頻進(jìn)入新階段。
受此消息刺激,在2月19日開盤后,AI板塊相關(guān)股票持續(xù)大漲,中文在線、易點(diǎn)天下、果麥文化、當(dāng)虹科技、因賽集團(tuán)、博匯科技、萬(wàn)興科技、海天瑞聲、絲路視覺(jué)等以20%幅度漲停,虹軟科技、昆侖萬(wàn)維、拓爾思、恒新東方、東方國(guó)信、數(shù)碼視訊、讀客文化等大漲逾10%。CPO概念、算力股也隨之走強(qiáng),中際旭創(chuàng)、天孚通信、新易盛和聯(lián)特科技均以20%幅度漲停,太辰光、德科立、羅博特科、光庫(kù)科技、博創(chuàng)科技和曙光數(shù)創(chuàng)等均漲超10%。
下一個(gè)交易日,上述股票出現(xiàn)分化,僅有中文在線、當(dāng)虹科技、因賽集團(tuán)、羅博特科四只股票繼續(xù)漲停。從行情看,此輪AI行情似乎難以復(fù)制2023年的AI行情。
在2022年年底,OpenAI發(fā)布ChatGPT,在短短3個(gè)月之內(nèi)注冊(cè)用戶達(dá)到1億人,超越了社交軟件Tiktok歷時(shí)9個(gè)月用戶達(dá)到1億的紀(jì)錄,成為增速最快的消費(fèi)級(jí)應(yīng)用,引領(lǐng)AI迎來(lái)“奇點(diǎn)”時(shí)刻,其顛覆式的生成能力帶來(lái)一場(chǎng)技術(shù)革命。與此相對(duì)應(yīng),A股從2023年年初也走出了波瀾壯闊的AI行情,東方財(cái)富人工智能指數(shù)從700點(diǎn)上漲至近千點(diǎn),漲幅最高一度接近50%。
Sora模型的問(wèn)世使得ALGC在視頻領(lǐng)域的應(yīng)用得以大大拓寬,影響雖然不及2022年年底ChatGPT那么顯著,但其對(duì)文化傳媒等領(lǐng)域的影響將變得更加清晰,而文生視頻將大大提高視頻的供給量,算力需求有望進(jìn)一步爆發(fā)。
當(dāng)然,在提供驚艷文生視頻的同時(shí),Sora也提供了一些翻車的案例,即便是驚艷的案例,細(xì)究之下,個(gè)別產(chǎn)品與真實(shí)世界也存在邏輯難以自洽的部分,有時(shí)其不足在于難以模擬現(xiàn)實(shí)世界中的物理規(guī)律,且對(duì)于事物發(fā)生的因果、時(shí)序和空間關(guān)系也理解不足,例如模型能夠生成一個(gè)人咬一口餅干,但餅干可能沒(méi)有咬痕;模型可能在某些視頻中混淆左右,而且可能難以精確描述隨著時(shí)間推移而發(fā)生的事件,例如跟蹤特定的相機(jī)軌跡等,但不可否認(rèn)其遠(yuǎn)超同行同類產(chǎn)品。
與Pika、Run、Runway等AI文生視頻工具相比,Sora不僅具有完成視頻向前擴(kuò)展、視頻拼接等更加復(fù)雜的任務(wù)的能力,還能通過(guò)多鏡頭等方式帶來(lái)更加生動(dòng)的多視角視頻,同時(shí)在生成視頻的時(shí)長(zhǎng)、流暢度和邏輯性等方面優(yōu)勢(shì)顯著。
國(guó)投證券認(rèn)為,Sora生成的內(nèi)容在視頻尺寸和時(shí)長(zhǎng)、多模擬的視頻生成能力、靈活擴(kuò)展和真實(shí)模擬能力等方面均實(shí)現(xiàn)了超越。
Sora能夠制作各種尺寸的視頻,從寬屏的1920×1080到豎屏的1080×1920,同時(shí)攜有更好的構(gòu)圖效果,生成時(shí)間也從其他模型的4秒提升至最高的60秒;其次,除了文生視頻外,Sora還能圖生視頻、視頻生視頻等,具備豐富的多模態(tài)視頻生成能力;再次,Sora還能將視頻沿時(shí)間線向前或向后擴(kuò)展,Demo中的視頻都是從一個(gè)視頻片段開始,向時(shí)間線的過(guò)去延伸,盡管開頭各自不同,但最終都會(huì)匯聚于同一個(gè)結(jié)尾;最后,Sora可以創(chuàng)造出帶有動(dòng)態(tài)視角變化的視頻,讓人物和場(chǎng)景元素在三維空間中的移動(dòng)看起來(lái)十分自然。
Sora基于擴(kuò)散模型,并且在其中使用了Transfoumer架構(gòu),將視頻和圖像分解為Patch小數(shù)據(jù)單元,這些Patch類似于GPT中的Token,用于在Transfoumer模型中進(jìn)行訓(xùn)練和生成,同時(shí)OpenAI將DALL.E3引入到Sora里,使得Sora能夠精準(zhǔn)地還原用戶的文本提示,生成高質(zhì)量的長(zhǎng)視頻。
基于強(qiáng)大的GPT和DALL.E模型,Sora在訓(xùn)練過(guò)程中完成了文本和視頻模態(tài)的“對(duì)齊”,從而能夠理解提示中的詞匯含義,并能夠?qū)⑵鋵?duì)應(yīng)到視頻中的事物上,大大提升了生成視頻的準(zhǔn)確性。
中泰證券認(rèn)為,OpenAI采用的合成數(shù)據(jù)方式在大幅提升模型效果的同時(shí),相似風(fēng)格的文本prompt也能夠提升Sora與GPT、DALL.E的聯(lián)動(dòng)效果,使得Sora更接近一個(gè)“全能”的多模態(tài)模型。
在下游應(yīng)用端,文生視頻的突破將對(duì)文字、影視及游戲等娛樂(lè)行業(yè)帶來(lái)巨大的變化。
Sora模型推出帶來(lái)視頻內(nèi)容供給領(lǐng)域生產(chǎn)力的躍升,傳統(tǒng)視頻制作往往需要投入大量人力、物力和時(shí)間成本,通過(guò)利用Sora模型,創(chuàng)作者可以快速、高效的生成視頻,極大降低產(chǎn)出成本。另一方面,Sora的編輯和擴(kuò)展能力為創(chuàng)作者的靈活提供了空間,將進(jìn)一步提高內(nèi)容產(chǎn)出的創(chuàng)新性和多樣性。
當(dāng)前,短視頻時(shí)長(zhǎng)集中在60秒以內(nèi),中視頻時(shí)長(zhǎng)介于60秒至30分鐘以內(nèi),長(zhǎng)視頻包含30分鐘及以上的所有視頻。華福證券認(rèn)為,Sora模型的內(nèi)容產(chǎn)出較好適配短視頻的核心時(shí)長(zhǎng),短期內(nèi)看好短視頻產(chǎn)能的迅速增長(zhǎng)。
此外,IP版權(quán)公司積累的IP形態(tài)以文字、卡通人物形象等為主,文生視頻模型可幫助此類公司迅速產(chǎn)出終端視頻,業(yè)務(wù)范圍將得到極大擴(kuò)展,運(yùn)營(yíng)效率將發(fā)生極大躍升。考慮到Sora模型的可得性,文生視頻的應(yīng)用會(huì)最先在海外落地,Sora強(qiáng)大的視頻生成能力將助力IP版權(quán)、出海廣告營(yíng)銷等公司快速制作符合國(guó)際時(shí)長(zhǎng)的視頻內(nèi)容,吸引海外用戶,實(shí)現(xiàn)海外業(yè)務(wù)擴(kuò)張并增厚業(yè)績(jī)表現(xiàn)。
太平洋證券認(rèn)為,AI多模態(tài)技術(shù)突破將降低文字、圖片、音視頻和游戲內(nèi)容空間相互轉(zhuǎn)化的門檻,提高AI工具輔助內(nèi)容生產(chǎn)的比例,內(nèi)容資產(chǎn)價(jià)值有望得到重估。
最低維的內(nèi)容形式即文字類內(nèi)容,且擁有內(nèi)容數(shù)量多及質(zhì)量高的公司彈性最大。文字作為最低維的內(nèi)容升維空間最大,有望全面受益于內(nèi)容資產(chǎn)價(jià)值重估,而網(wǎng)絡(luò)文學(xué)的娛樂(lè)性足,因此其商業(yè)化空間最大;圖片、音視頻和游戲類資產(chǎn)也需要關(guān)注,圖片類資產(chǎn)主要包含視覺(jué)內(nèi)容和形象IP,音視頻資產(chǎn)主要包含動(dòng)漫、影視作品等。
華泰證券認(rèn)為,“Sora+影視”預(yù)計(jì)能明顯降低制作門檻及成本,且可以極大程度豐富影視的創(chuàng)造性及風(fēng)格,Sora的出現(xiàn)將重塑影視行業(yè),預(yù)計(jì)擁有核心導(dǎo)演或創(chuàng)意人才及IP資源的公司更受益;“Sora+營(yíng)銷”預(yù)計(jì)將提升廣告相關(guān)視頻的創(chuàng)造效率,提供靈感、增強(qiáng)廣告吸引力,有望部分替代低創(chuàng)造性、可復(fù)制的視頻內(nèi)容,同時(shí)也能低成本、定制化、大批量快速生成視頻內(nèi)容,提升客戶轉(zhuǎn)換及留存率。
在AI內(nèi)容生產(chǎn)工具上,生成高維內(nèi)容資產(chǎn)的生產(chǎn)工具價(jià)值更高,視頻工具在海外公司表現(xiàn)突出,國(guó)內(nèi)公司亦有布局;音頻工具方面?zhèn)€別大廠和中小公司也有涉足,游戲工具方面也有兩家上市公司切入。
游戲是AIGC技術(shù)最復(fù)雜、應(yīng)用前景最廣闊的方向之一。據(jù)OpenAI的報(bào)告,Sora可進(jìn)行游戲場(chǎng)景的生成,同時(shí)可以高保真的方式渲染環(huán)境,甚至模擬玩家操作游戲的情景。
華金證券認(rèn)為,Sora的出現(xiàn)或?qū)⒔档陀螒駽G、PV的制作成本,而低成本的視頻內(nèi)容有利于豐富游戲劇情的展現(xiàn)和表達(dá)。因此,成熟的文生視頻技術(shù)整合或?qū)樽⒅貎?nèi)容和交互的游戲作品更好地提質(zhì)增效,為受眾用戶提供更好的情緒價(jià)值,從而提升用戶體驗(yàn),加速科技表現(xiàn)。
梳理AIGC產(chǎn)業(yè)鏈,主要?jiǎng)澐譃樯嫌危〝?shù)據(jù)、算力)、中游(算法、模型)、下游(應(yīng)用)。
上游主要包含數(shù)據(jù)平臺(tái)、提供數(shù)據(jù)和算力層、提供底層支持;中游為算法層,在原始數(shù)據(jù)的基礎(chǔ)上進(jìn)行模型的訓(xùn)練與再開發(fā);下游為應(yīng)用層,包含內(nèi)容生產(chǎn)和分發(fā)量方面,應(yīng)用場(chǎng)景豐富,包含出行、社交、辦公、搜索、娛樂(lè)、居住、教育、生產(chǎn)、管理、金融和醫(yī)療等11個(gè)大場(chǎng)景、37個(gè)細(xì)分場(chǎng)景。不同的場(chǎng)景也存在不同的機(jī)會(huì)。
自GPT問(wèn)世后,AI產(chǎn)業(yè)向AGI邁進(jìn)的速度超出大家的預(yù)料,從2023年的LLM,到文生圖,再到2024年的文生視頻,AI大模型對(duì)真實(shí)世界的理解和模擬持續(xù)且快速提高。
國(guó)投證券認(rèn)為,未來(lái)可以從三個(gè)維度進(jìn)行布局:1.布局可以利用視頻等算法打造創(chuàng)作工具的產(chǎn)業(yè);2.布局算力相關(guān)企業(yè),文生視頻必然帶來(lái)算力需求的進(jìn)一步提升,服務(wù)器、IDC也值得關(guān)注;3.布局已經(jīng)有產(chǎn)品落地的AI核心標(biāo)的。
AI的快速發(fā)展對(duì)算力的需求呈現(xiàn)井噴的態(tài)勢(shì)。全球算力規(guī)模超高速增長(zhǎng),IDC預(yù)測(cè),全球AI計(jì)算時(shí)長(zhǎng)規(guī)模將從2022年的195億美元增長(zhǎng)到2026年的346.6億美元。美國(guó)頭部科技股漲幅領(lǐng)跑全球市場(chǎng),科技股表現(xiàn)搶眼,全球算力龍頭英偉達(dá)公司迎來(lái)了有史以來(lái)最強(qiáng)勁的開局,股價(jià)在2023年上漲了240%,市值接近1.5萬(wàn)億美元。
截至2024年1月28日的第四財(cái)季,英偉達(dá)的營(yíng)收為221.03億美元,同比增加265%;凈利潤(rùn)為122.85億美元,同比增長(zhǎng)769%。2023財(cái)年全年,英偉達(dá)的營(yíng)收為609.22億美元,同比增長(zhǎng)126%;凈利潤(rùn)為297.6億美元,同比增加581%。
國(guó)內(nèi)來(lái)看,自2018年以來(lái),美國(guó)通過(guò)多種制裁手段,嚴(yán)格限制中國(guó)高科技領(lǐng)域發(fā)展,美國(guó)還在2022年10月通過(guò)方案,進(jìn)一步緊縮半導(dǎo)體產(chǎn)品對(duì)華出口,限制英偉達(dá)、AMD等公司向中國(guó)出售高算力人工智能芯片,但國(guó)內(nèi)算力產(chǎn)業(yè)仍在快速發(fā)展。
國(guó)內(nèi)通用計(jì)算龍頭海光信息預(yù)計(jì),2023年?duì)I收為56.8億元至62.6億元,比上年增加5.55億元至11.34億元,同比增加10.82%至22.14%;2023年歸屬母公司凈利潤(rùn)為11.8億元至13.2億元,較上年增加3.76億元至5.16億元,同比增加46.85%至64.27%。
根據(jù)華西證券推算,Sora架構(gòu)的訓(xùn)練與傳統(tǒng)大語(yǔ)言模型(LLM)Transfoumer架構(gòu)的訓(xùn)練算力需求存在近百倍的差距,算力需求有望持續(xù)呈現(xiàn)幾何規(guī)模的倍增,同時(shí)在信創(chuàng)和AI的大背景下,國(guó)產(chǎn)算力有望大放異彩。
算力包含單體GPU的性能和群體數(shù)據(jù)中心的性能,算力的提升需要大寬帶的支撐。
Sora 模型的問(wèn)世使得ALGC在視頻領(lǐng)域的應(yīng)用得以大大拓寬,文生視頻的突破將對(duì)文字、影視及游戲等娛樂(lè)行業(yè)帶來(lái)巨大的變化,算力需求有望進(jìn)一步爆發(fā)。
面向單體GPU,通信帶寬越大,GPU之間的數(shù)據(jù)交換速度越快,模型也就更快地訓(xùn)練出來(lái);面向數(shù)據(jù)中心,低延遲、高帶寬以及可擴(kuò)展性滿足大規(guī)模計(jì)算和數(shù)據(jù)傳輸?shù)男枨?,需要不斷的升?jí)架構(gòu)、采取先進(jìn)的協(xié)議以支持更大的接口帶寬。
光模塊也將充分受益Sora的問(wèn)世。華金證券認(rèn)為,模型應(yīng)用端的爆發(fā)以及新型算力的涌現(xiàn)不僅將加速硬件尤其是網(wǎng)絡(luò)端設(shè)備的升級(jí)更新,甚至?xí)?qū)動(dòng)LPO\CPO等新型光模塊等網(wǎng)絡(luò)設(shè)備的落地。
Sora采用了改良的DiT架構(gòu),算力消耗和DiT相仿,DiTs遵循Vision Transformers的設(shè)計(jì)原則,與傳統(tǒng)的卷積網(wǎng)絡(luò)相比,它能提供更強(qiáng)的靈活性。根據(jù)DiT架構(gòu)論文原作者判斷,Sora的參數(shù)量大約在30億左右,因此更有利于Sora后續(xù)更好的靈活替代性。
從推理來(lái)看,Sora基于圖片做長(zhǎng)視頻生成,再基于生成視頻做拓展,其所需Token數(shù)量相較于文本及圖片模型的推理,有望成數(shù)量級(jí)增長(zhǎng),中泰證券判斷,推理算力需求將持續(xù)上升。此外,推理端Token增加、算力需求的增長(zhǎng)也對(duì)顯存及帶寬提出更高要求,預(yù)計(jì)將拉升400G光通信技術(shù)在以太網(wǎng)中的應(yīng)用,并有望推動(dòng)800G乃至1.6T光通信技術(shù)的應(yīng)用。
自2022年年底ChatGPT推出后,光模塊需求增加,以中際旭創(chuàng)為代表的光模塊龍頭業(yè)績(jī)爆發(fā),據(jù)其業(yè)績(jī)預(yù)告,2023年,中際旭創(chuàng)歸屬上市公司股東的凈利潤(rùn)為20億-23億元,同比增加63.40%-87.91%。
公司表示,2023年以來(lái),AI算力需求和相關(guān)資本開支的激增帶動(dòng)了800G等高速光模塊的顯著增長(zhǎng),并加速了高速光模塊產(chǎn)品迭代步伐,報(bào)告期受益于800G等高端產(chǎn)品比重的顯著增加及產(chǎn)品設(shè)計(jì)的不斷優(yōu)化,公司的產(chǎn)品收入、毛利率和凈利潤(rùn)率進(jìn)一步得到了穩(wěn)步提升。