DeepMind聯(lián)合麻省理工學(xué)院團(tuán)隊(duì)開發(fā)Fluid讓自回歸模型實(shí)現(xiàn)文生圖的大規(guī)模擴(kuò)展

2024-12-12 00:00

海外星云 2024年11期

在視覺領(lǐng)域，擴(kuò)散模型已然成為圖像生成的新范式。我們熟知的Stable Diffusion、DALL-E和Imagen等文生圖工具都以擴(kuò)散模型為基礎(chǔ)。而在語(yǔ)言模型領(lǐng)域，自回歸模型則占據(jù)主導(dǎo)位置，大名鼎鼎的ChatGPT就使用了此類模型來生成回復(fù)。所謂的擴(kuò)展法則在以自回歸模型為基礎(chǔ)的大模型身上展現(xiàn)出了強(qiáng)大的力量，可以有效地提升性能。不過，如果回到視覺領(lǐng)域（比如文本生成圖像），擴(kuò)展自回歸模型并未像在大語(yǔ)言模型中那樣顯著有效。許多研究人員正在努力搞清楚原因，并且想辦法彌合自回歸模型在視覺模型與語(yǔ)言模型之間的性能差距。

近日，來自谷歌DeepMind和美國(guó)麻省理工學(xué)院的研究人員發(fā)表了一篇預(yù)印本論文，介紹了他們?cè)凇疤嵘曰貧w文生圖模型性能”方面的最新進(jìn)展。

該研究團(tuán)隊(duì)開發(fā)的新模型Fluid，通過采用連續(xù)Token和隨機(jī)順序策略，成功實(shí)現(xiàn)了自回歸模型在文生圖任務(wù)上的大規(guī)模擴(kuò)展，不僅在多項(xiàng)基準(zhǔn)測(cè)試中達(dá)到了領(lǐng)先水平，還提出了關(guān)于自回歸模型的新見解。自回歸模型在自然語(yǔ)言處理領(lǐng)域取得了巨大成功，但在計(jì)算機(jī)視覺特別是文生圖任務(wù)中的表現(xiàn)一直不如擴(kuò)散模型。為了探究背后的原因，研究團(tuán)隊(duì)對(duì)自回歸圖像生成模型的兩個(gè)關(guān)鍵設(shè)計(jì)因素進(jìn)行了系統(tǒng)性的研究：Token（離散或連續(xù)）和生成順序（光柵順序或隨機(jī)順序）。研究發(fā)現(xiàn)，采用連續(xù)Token的模型在視覺質(zhì)量和評(píng)估指標(biāo)上都顯著優(yōu)于使用離散Token的模型。這主要是因?yàn)殡x散Token化過程會(huì)導(dǎo)致大量信息丟失，即使增加模型參數(shù)也無法彌補(bǔ)這一缺陷。

例如，在生成著名的蒙娜麗莎畫像時(shí)，基于離散Token的模型即使擴(kuò)展到30億參數(shù)，也無法準(zhǔn)確還原畫像細(xì)節(jié)。相比之下，基于連續(xù)Token的模型可以生成更高質(zhì)量、更符合文本描述的圖像。

在生成順序方面，研究表明隨機(jī)順序模型在生成多個(gè)對(duì)象和復(fù)雜場(chǎng)景時(shí)表現(xiàn)更佳。這可能是因?yàn)殡S機(jī)順序允許模型在每個(gè)預(yù)測(cè)步驟中調(diào)整圖像的全局結(jié)構(gòu)，而光柵順序模型則缺乏這種靈活性。這一發(fā)現(xiàn)對(duì)提高文本到圖像的對(duì)齊度具有重要意義?；谶@些新發(fā)現(xiàn)，研究團(tuán)隊(duì)開發(fā)了Fluid模型。Fluid采用連續(xù)Token和隨機(jī)順序生成策略，在可擴(kuò)展性和生成質(zhì)量上都表現(xiàn)出色。實(shí)驗(yàn)結(jié)果顯示，F(xiàn)luid模型的驗(yàn)證損失、FID（是用于衡量?jī)蓚€(gè)多元正態(tài)分布之間距離的評(píng)價(jià)指標(biāo)）評(píng)分和GenEval得分都隨著模型參數(shù)規(guī)模的增加而持續(xù)改善。值得注意的是，僅有3.69億參數(shù)的小型Fluid模型就達(dá)到了7.23的零樣本FID得分，還在GenEval基準(zhǔn)測(cè)試中達(dá)到了0.62，與擁有200億參數(shù)的Parti模型（谷歌開發(fā)的自回歸文生圖模型）持平。受到這一趨勢(shì)的啟發(fā)，研究團(tuán)隊(duì)將Fluid模型進(jìn)一步擴(kuò)展到105億參數(shù)。該模型在MS-COCO數(shù)據(jù)集上實(shí)現(xiàn)了6.16的零樣本FID得分，在GenEval基準(zhǔn)測(cè)試中的綜合得分達(dá)到0.69，超越了DALL-E 3和StableDiffusion3等多個(gè)使用擴(kuò)散模型的文生圖系統(tǒng)。

Fluid模型的成功不僅體現(xiàn)在量化指標(biāo)上，在視覺質(zhì)量方面也有顯著提升。

研究人員展示了Fluid模型在各種復(fù)雜場(chǎng)景下的生成結(jié)果，使用了如“一只憤怒的鴨子在健身房舉重”“冬天的蒙娜麗莎”“辦公室里三只穿西裝的泰迪熊為朋友慶祝生日”等提示。

這些生成的圖像不僅細(xì)節(jié)豐富，而且準(zhǔn)確反映了文本描述的內(nèi)容和情感，展現(xiàn)出模型對(duì)文本和圖像之間復(fù)雜關(guān)系的深入理解。

研究團(tuán)隊(duì)的實(shí)驗(yàn)還揭示了一個(gè)現(xiàn)象，即驗(yàn)證損失與評(píng)估指標(biāo)（如FID和GenEval得分）之間存在強(qiáng)相關(guān)性。這意味著通過簡(jiǎn)單地監(jiān)測(cè)驗(yàn)證損失，就可以在一定程度上預(yù)測(cè)模型在下游任務(wù)中的表現(xiàn)。

此外，研究還發(fā)現(xiàn)與語(yǔ)言模型類似的是，增加訓(xùn)練步數(shù)和計(jì)算量可以持續(xù)提升Fluid模型的性能。但是，該團(tuán)隊(duì)也觀察到對(duì)于較小的模型，增加訓(xùn)練步數(shù)的效果不如直接擴(kuò)大模型規(guī)模。這一發(fā)現(xiàn)強(qiáng)調(diào)了模型規(guī)模在提升性能中的關(guān)鍵作用。

Fluid模型不僅標(biāo)志著自回歸模型在文生圖任務(wù)上的新進(jìn)展，也為計(jì)算機(jī)視覺領(lǐng)域的模型擴(kuò)展提供了新的思路。課題組指出，這項(xiàng)工作可能有助于縮小視覺模型和語(yǔ)言模型在擴(kuò)展性能上的差距。

然而，研究人員也承認(rèn)，盡管Fluid模型在多個(gè)指標(biāo)上取得了領(lǐng)先，但在某些方面仍有提升空間。

例如，在GenEval基準(zhǔn)測(cè)試的某些子任務(wù)中，如位置關(guān)系理解和渲染兩個(gè)物體，F(xiàn)luid模型的表現(xiàn)仍落后于一些最先進(jìn)的擴(kuò)散模型。這表明在處理某些特定類型的視覺任務(wù)時(shí)，不同的模型架構(gòu)可能各有優(yōu)勢(shì)。總的來說，這項(xiàng)研究為自回歸文生圖模型的發(fā)展開辟了新方向。通過采用連續(xù)Token和隨機(jī)順序生成策略，F(xiàn)luid模型成功實(shí)現(xiàn)了大規(guī)模擴(kuò)展，在多個(gè)關(guān)鍵指標(biāo)上達(dá)到或超越了現(xiàn)有最先進(jìn)的模型。隨著這一技術(shù)的進(jìn)一步發(fā)展和完善，我們或許可以期待看到更多令人驚嘆的應(yīng)用，如更精確的圖像編輯工具、更智能的視覺內(nèi)容創(chuàng)作輔助工具等。也可以激發(fā)更多人探索自回歸模型在視覺任務(wù)中的潛力，推動(dòng)人工智能在理解和生成視覺內(nèi)容方面取得新的突破。

海外星云 2024年11期

海外星云的其它文章: 地球面臨新挑戰(zhàn)：南大洋的“吸碳”現(xiàn)象與潛在的大降溫危機(jī); 美國(guó)詐騙泛濫沖擊機(jī)構(gòu)公信力; 在日本這群年輕人雇人幫自己辭職; 微軟重啟美國(guó)本土廢棄核電站所有電力將被用于驅(qū)動(dòng)人工智能數(shù)據(jù)中心和云服務(wù); 幾秒就能完成搜索Meta將智能眼鏡與人臉?biāo)阉鹘Y(jié)合引發(fā)隱私擔(dān)憂; 通用研發(fā)免注視免手扶自動(dòng)駕駛系統(tǒng)或讓司機(jī)無需扶方向盤也無需注視道路

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

DeepMind聯(lián)合麻省理工學(xué)院團(tuán)隊(duì)開發(fā)Fluid讓自回歸模型實(shí)現(xiàn)文生圖的大規(guī)模擴(kuò)展