Meta發(fā)布了一個(gè)新的人工智能系統(tǒng)Make-A-Video,它可以基于文本提示生成短視頻。
Make-A-Video允許你輸入一些單詞或句子,比如“一只狗狗穿著超級(jí)英雄的服裝和一件紅色斗篷在天空中飛翔”,然后它會(huì)生成一個(gè)5秒的短視頻片段,雖然準(zhǔn)確率很高,但視頻效果有些不盡如人意。
盡管效果相當(dāng)粗糙,但該系統(tǒng)提供了生成式人工智能的早期前景,這也是2022年掀起了巨大熱潮的從文本到圖像的人工智能系統(tǒng)的下一步。
Meta發(fā)布的Make-A-Video可能會(huì)促使其他人工智能實(shí)驗(yàn)室發(fā)布他們自己的版本。這也引發(fā)了一些重大的倫理問題。
人工智能實(shí)驗(yàn)室OpenAI開始向所有人提供其最新的文本到圖像的人工智能系統(tǒng)DALL-E ,另一家人工智能初創(chuàng)公司Stability.AI也推出了開源的文本到圖像生成系統(tǒng)Stable Diffusion。
但從文本到視頻的人工智能面臨著一些更大的挑戰(zhàn)。首先,這些模型需要大量的計(jì)算能力。
它們所需的算力,比大型文本到圖像的人工智能模型多得多,因?yàn)樗鼈兪褂脭?shù)百萬(wàn)張圖像來(lái)訓(xùn)練,生成一個(gè)短視頻就需要用到數(shù)百?gòu)垐D像。
這意味著,在可預(yù)見的未來(lái),只有大型科技公司才真正有能力建造這些系統(tǒng)。它們的訓(xùn)練也比較困難,因?yàn)闆]有與文本匹配的高質(zhì)量視頻數(shù)據(jù)集。
為了解決這個(gè)問題,Meta整合了來(lái)自3個(gè)開源圖像和視頻數(shù)據(jù)集的數(shù)據(jù)來(lái)訓(xùn)練其模型。
經(jīng)過(guò)標(biāo)注的靜態(tài)圖像(標(biāo)準(zhǔn)文本圖像數(shù)據(jù)集)可以幫助人工智能掌握物體的名稱和樣子。
視頻數(shù)據(jù)庫(kù)可以幫助它理解這些物體如何在真實(shí)世界中行動(dòng)。這兩種方法的結(jié)合有助于實(shí)現(xiàn)基于文本生成視頻并最終用于制作Make-A-Video模型。該模型的詳細(xì)介紹發(fā)表于一篇未經(jīng)同行評(píng)議的論文中。
艾倫人工智能研究所的計(jì)算機(jī)視覺研究科學(xué)家坦梅爾·古普塔說(shuō),Meta的研究結(jié)果看起來(lái)很有前景。
Meta發(fā)布的視頻顯示,該模型可以隨著相機(jī)的旋轉(zhuǎn)捕捉到三維形狀。該模型也對(duì)深度和光照的概念有著一定的理解。古普塔表示,許多細(xì)節(jié)和動(dòng)作都做得很不錯(cuò),而且令人信服。
然而他也補(bǔ)充說(shuō),“技術(shù)層面仍有很大的進(jìn)步空間,特別是如果這些系統(tǒng)要用于視頻編輯和專業(yè)內(nèi)容創(chuàng)作,比如我們?nèi)匀缓茈y在物體之間建立復(fù)雜的交互模型?!?/p>
在使用“藝術(shù)家用畫筆在畫布上繪畫”這段文字生成視頻時(shí),我們可以看到畫筆在畫布上移動(dòng),但畫布上的筆觸并不真實(shí)。古普塔說(shuō):“我希望看到這些模型能夠成功地產(chǎn)生一系列的互動(dòng),比如‘男人從書架上拿起一本書,戴上眼鏡,一邊坐下來(lái)一邊喝咖啡’?!?/p>
就Meta而言,它將這項(xiàng)技術(shù)視為是“為創(chuàng)作者和藝術(shù)家打開新的機(jī)會(huì)”。
但隨著技術(shù)的發(fā)展,人們擔(dān)心它可能會(huì)被用來(lái)作為一種制造和傳播虛假信息和深度造假的強(qiáng)大工具。這可能會(huì)使區(qū)分網(wǎng)絡(luò)內(nèi)容的真假變得更加困難。
合成媒體專家亨利·阿杰德說(shuō),Meta的模型提高了生成式人工智能的技術(shù)和創(chuàng)造性,但同時(shí)也帶來(lái)了風(fēng)險(xiǎn),因?yàn)椤吧梢曨l而不是靜止圖像可能造成獨(dú)特的傷害”。
古普塔說(shuō):“至少在今天,創(chuàng)造出人們可能相信的虛假內(nèi)容需要花費(fèi)一些努力。但在未來(lái),可能只要點(diǎn)幾下鼠標(biāo),就有可能產(chǎn)生誤導(dǎo)性的內(nèi)容?!?/p>
制作Make-A-Video的研究人員過(guò)濾掉了包含攻擊性的圖片和文字,但他們使用了由數(shù)以百萬(wàn)計(jì)的圖片和單詞組成的數(shù)據(jù)集,幾乎不可能完全刪除所有有偏見和有害的內(nèi)容。
Meta的一位發(fā)言人表示,他們還未計(jì)劃向公眾提供該模型,“作為本研究的一部分,我們將繼續(xù)探索進(jìn)一步完善模型和降低潛在風(fēng)險(xiǎn)的方法?!?/p>