在視覺領(lǐng)域,擴(kuò)散模型已然成為圖像生成的新范式。我們熟知的Stable Diffusion、DALL-E和Imagen等文生圖工具都以擴(kuò)散模型為基礎(chǔ)。而在語(yǔ)言模型領(lǐng)域,自回歸模型則占據(jù)主導(dǎo)位置,大名鼎鼎的ChatGPT就使用了此類模型來生成回復(fù)。所謂的擴(kuò)展法則在以自回歸模型為基礎(chǔ)的大模型身上展現(xiàn)出了強(qiáng)大的力量,可以有效地提升性能。不過,如果回到視覺領(lǐng)域(比如文本生成圖像),擴(kuò)展自回歸模型并未像在大語(yǔ)言模型中那樣顯著有效。許多研究人員正在努力搞清楚原因,并且想辦法彌合自回歸模型在視覺模型與語(yǔ)言模型之間的性能差距。
近日,來自谷歌DeepMind和美國(guó)麻省理工學(xué)院的研究人員發(fā)表了一篇預(yù)印本論文,介紹了他們?cè)凇疤嵘曰貧w文生圖模型性能”方面的最新進(jìn)展。
該研究團(tuán)隊(duì)開發(fā)的新模型Fluid,通過采用連續(xù)Token和隨機(jī)順序策略,成功實(shí)現(xiàn)了自回歸模型在文生圖任務(wù)上的大規(guī)模擴(kuò)展,不僅在多項(xiàng)基準(zhǔn)測(cè)試中達(dá)到了領(lǐng)先水平,還提出了關(guān)于自回歸模型的新見解。自回歸模型在自然語(yǔ)言處理領(lǐng)域取得了巨大成功,但在計(jì)算機(jī)視覺特別是文生圖任務(wù)中的表現(xiàn)一直不如擴(kuò)散模型。為了探究背后的原因,研究團(tuán)隊(duì)對(duì)自回歸圖像生成模型的兩個(gè)關(guān)鍵設(shè)計(jì)因素進(jìn)行了系統(tǒng)性的研究:Token(離散或連續(xù))和生成順序(光柵順序或隨機(jī)順序)。研究發(fā)現(xiàn),采用連續(xù)Token的模型在視覺質(zhì)量和評(píng)估指標(biāo)上都顯著優(yōu)于使用離散Token的模型。這主要是因?yàn)殡x散Token化過程會(huì)導(dǎo)致大量信息丟失,即使增加模型參數(shù)也無法彌補(bǔ)這一缺陷。
例如,在生成著名的蒙娜麗莎畫像時(shí),基于離散Token的模型即使擴(kuò)展到30億參數(shù),也無法準(zhǔn)確還原畫像細(xì)節(jié)。相比之下,基于連續(xù)Token的模型可以生成更高質(zhì)量、更符合文本描述的圖像。
在生成順序方面,研究表明隨機(jī)順序模型在生成多個(gè)對(duì)象和復(fù)雜場(chǎng)景時(shí)表現(xiàn)更佳。這可能是因?yàn)殡S機(jī)順序允許模型在每個(gè)預(yù)測(cè)步驟中調(diào)整圖像的全局結(jié)構(gòu),而光柵順序模型則缺乏這種靈活性。這一發(fā)現(xiàn)對(duì)提高文本到圖像的對(duì)齊度具有重要意義?;谶@些新發(fā)現(xiàn),研究團(tuán)隊(duì)開發(fā)了Fluid模型。Fluid采用連續(xù)Token和隨機(jī)順序生成策略,在可擴(kuò)展性和生成質(zhì)量上都表現(xiàn)出色。實(shí)驗(yàn)結(jié)果顯示,F(xiàn)luid模型的驗(yàn)證損失、FID(是用于衡量?jī)蓚€(gè)多元正態(tài)分布之間距離的評(píng)價(jià)指標(biāo))評(píng)分和GenEval得分都隨著模型參數(shù)規(guī)模的增加而持續(xù)改善。值得注意的是,僅有3.69億參數(shù)的小型Fluid模型就達(dá)到了7.23的零樣本FID得分,還在GenEval基準(zhǔn)測(cè)試中達(dá)到了0.62,與擁有200億參數(shù)的Parti模型(谷歌開發(fā)的自回歸文生圖模型)持平。受到這一趨勢(shì)的啟發(fā),研究團(tuán)隊(duì)將Fluid模型進(jìn)一步擴(kuò)展到105億參數(shù)。該模型在MS-COCO數(shù)據(jù)集上實(shí)現(xiàn)了6.16的零樣本FID得分,在GenEval基準(zhǔn)測(cè)試中的綜合得分達(dá)到0.69,超越了DALL-E 3和StableDiffusion3等多個(gè)使用擴(kuò)散模型的文生圖系統(tǒng)。
Fluid模型的成功不僅體現(xiàn)在量化指標(biāo)上,在視覺質(zhì)量方面也有顯著提升。
研究人員展示了Fluid模型在各種復(fù)雜場(chǎng)景下的生成結(jié)果,使用了如“一只憤怒的鴨子在健身房舉重”“冬天的蒙娜麗莎”“辦公室里三只穿西裝的泰迪熊為朋友慶祝生日”等提示。
這些生成的圖像不僅細(xì)節(jié)豐富,而且準(zhǔn)確反映了文本描述的內(nèi)容和情感,展現(xiàn)出模型對(duì)文本和圖像之間復(fù)雜關(guān)系的深入理解。
研究團(tuán)隊(duì)的實(shí)驗(yàn)還揭示了一個(gè)現(xiàn)象,即驗(yàn)證損失與評(píng)估指標(biāo)(如FID和GenEval得分)之間存在強(qiáng)相關(guān)性。這意味著通過簡(jiǎn)單地監(jiān)測(cè)驗(yàn)證損失,就可以在一定程度上預(yù)測(cè)模型在下游任務(wù)中的表現(xiàn)。
此外,研究還發(fā)現(xiàn)與語(yǔ)言模型類似的是,增加訓(xùn)練步數(shù)和計(jì)算量可以持續(xù)提升Fluid模型的性能。但是,該團(tuán)隊(duì)也觀察到對(duì)于較小的模型,增加訓(xùn)練步數(shù)的效果不如直接擴(kuò)大模型規(guī)模。這一發(fā)現(xiàn)強(qiáng)調(diào)了模型規(guī)模在提升性能中的關(guān)鍵作用。
Fluid模型不僅標(biāo)志著自回歸模型在文生圖任務(wù)上的新進(jìn)展,也為計(jì)算機(jī)視覺領(lǐng)域的模型擴(kuò)展提供了新的思路。課題組指出,這項(xiàng)工作可能有助于縮小視覺模型和語(yǔ)言模型在擴(kuò)展性能上的差距。
然而,研究人員也承認(rèn),盡管Fluid模型在多個(gè)指標(biāo)上取得了領(lǐng)先,但在某些方面仍有提升空間。
例如,在GenEval基準(zhǔn)測(cè)試的某些子任務(wù)中,如位置關(guān)系理解和渲染兩個(gè)物體,F(xiàn)luid模型的表現(xiàn)仍落后于一些最先進(jìn)的擴(kuò)散模型。這表明在處理某些特定類型的視覺任務(wù)時(shí),不同的模型架構(gòu)可能各有優(yōu)勢(shì)。總的來說,這項(xiàng)研究為自回歸文生圖模型的發(fā)展開辟了新方向。通過采用連續(xù)Token和隨機(jī)順序生成策略,F(xiàn)luid模型成功實(shí)現(xiàn)了大規(guī)模擴(kuò)展,在多個(gè)關(guān)鍵指標(biāo)上達(dá)到或超越了現(xiàn)有最先進(jìn)的模型。隨著這一技術(shù)的進(jìn)一步發(fā)展和完善,我們或許可以期待看到更多令人驚嘆的應(yīng)用,如更精確的圖像編輯工具、更智能的視覺內(nèi)容創(chuàng)作輔助工具等。也可以激發(fā)更多人探索自回歸模型在視覺任務(wù)中的潛力,推動(dòng)人工智能在理解和生成視覺內(nèi)容方面取得新的突破。