谷歌再次發(fā)布文字生成圖像模型新系統(tǒng)帕蒂根據(jù)文本輸出各種風(fēng)格、更高質(zhì)量圖像

2022-09-22 09:45

海外星云 2022年17期

近日，谷歌介紹了一種自回歸文本到圖像生成模型Pavti（帕蒂），可實(shí)現(xiàn)高保真照片級(jí)圖像輸出，并支持涉及復(fù)雜構(gòu)圖和豐富知識(shí)內(nèi)容的合成。

比如，用文字描述“一只浣熊穿著正裝，拿著拐杖和垃圾袋”和“老虎戴著火車售票員的帽子，拿著一塊滑板”，就能分別生成類似圖片。

除了細(xì)節(jié)栩栩如生外，對(duì)于各種風(fēng)格，帕蒂也是駕輕就熟，能夠根據(jù)描述生成梵高、抽象立體主義、埃及墓象形文字、插圖、雕像、木刻、兒童蠟筆畫、中國(guó)水墨畫等多種多樣風(fēng)格的畫作。

2022年6月22日，相關(guān)研究論文以《縮放自回歸模型以實(shí)現(xiàn)內(nèi)容豐富的文本到圖像生成》提交在arXiv上（編者注：一個(gè)專門收錄科學(xué)文獻(xiàn)預(yù)印本的在線數(shù)據(jù)庫(kù)）。

研究人員在谷歌官方博文表示：“用帕蒂輸出圖像是一個(gè)序列到序列的建模問題，與機(jī)器翻譯相似。因此可受益于大語(yǔ)言模型的進(jìn)步，特別是通過(guò)擴(kuò)展數(shù)據(jù)和模型大小來(lái)解鎖的功能。此外，目標(biāo)輸出是圖像標(biāo)記序列，而不是其他語(yǔ)言中的文本標(biāo)記。并利用圖像分詞器ViT-VQGAN將圖像編碼為離散標(biāo)記序列，以重建成高質(zhì)量、風(fēng)格多樣化的圖像?！?/p>

值得一提的是，谷歌在一個(gè)多月前推出的另一個(gè)文本到圖像生成模型Imagen，在研究基準(zhǔn)上也表現(xiàn)得十分亮眼。帕蒂和Imagen分別是自回歸模型和擴(kuò)散模型，兩者不同但互補(bǔ)，代表了谷歌的不同探索方向。

此外，研究人員還探索并突出了帕蒂模型的局限性，給出了進(jìn)一步改進(jìn)的關(guān)鍵示例重點(diǎn)領(lǐng)域。

然后，他們還訓(xùn)練了3.5億、7.5億、30億和200億參數(shù)四個(gè)版本的帕蒂，并將它們進(jìn)行了詳細(xì)比較，參數(shù)越大的模型在功能和輸出圖像質(zhì)量方面有著實(shí)質(zhì)性改進(jìn)。在比較30億和200億參數(shù)的帕蒂時(shí)，發(fā)現(xiàn)后者更擅長(zhǎng)抽象的提示。

下面是四個(gè)模型對(duì)“一個(gè)綠色的標(biāo)志，上面寫著‘非常深度學(xué)習(xí)’，位于大峽谷的邊緣，天空中有浮起的白云”的圖片生成效果。

帕蒂要想識(shí)別冗長(zhǎng)而復(fù)雜的提示，需要它準(zhǔn)確反映世界知識(shí)、遵守特定的圖像格式和樣式，并通過(guò)細(xì)粒度的細(xì)節(jié)和交互組成眾多參與者和對(duì)象，進(jìn)而輸出高質(zhì)量的圖像。但該模型存在的一定局限性，仍會(huì)讓其生成一些故障示例。

比如說(shuō)按照如下文字生成圖像：“一幅阿努比斯雕像的肖像，穿著一件黃色的 T恤，上面畫著一架航天飛機(jī)，背景中有一面白色的磚墻?！陛敵龅膱D像中航天飛機(jī)在墻上，而不是T恤，顏色也有所滲出。

故障圖像

值得一提的是，本次研究人員還采用一種新的測(cè)試基準(zhǔn)帕蒂2（簡(jiǎn)稱P2），該基準(zhǔn)可從各種類別和挑戰(zhàn)方面來(lái)衡量模型的能力。

然后，研究人員表示，用文本生成圖像非常有趣，它允許我們創(chuàng)建從未見過(guò)甚至不存在的場(chǎng)景。但這帶來(lái)許多益處的同時(shí)，也存在一定風(fēng)險(xiǎn)，并對(duì)偏見和安全、視覺傳達(dá)、虛假信息以及創(chuàng)造力和藝術(shù)產(chǎn)生潛在影響。

此外，一些潛在的風(fēng)險(xiǎn)與模型本身的開發(fā)方式有關(guān)，對(duì)于訓(xùn)練數(shù)據(jù)尤其如此。像帕蒂這樣的模型，通常是在嘈雜的圖像文本數(shù)據(jù)集上進(jìn)行訓(xùn)練的。這些數(shù)據(jù)集已知包含對(duì)不同背景的人的偏見，從而導(dǎo)致帕蒂等模型產(chǎn)生刻板印象。比如，在將模型應(yīng)用于視覺傳達(dá)（例如幫助低識(shí)字率的社會(huì)群體輸出圖片）等用途時(shí)，會(huì)帶來(lái)額外的風(fēng)險(xiǎn)和擔(dān)憂。

文本到圖像模型為人們創(chuàng)造了許多新的可能性，本質(zhì)上是充當(dāng)畫筆創(chuàng)造獨(dú)特且美觀的圖像，可助力提高人類的創(chuàng)造力和生產(chǎn)力。但模型的輸出范圍取決于訓(xùn)練數(shù)據(jù)，這可能會(huì)偏向西方圖像，并進(jìn)一步阻止模型表現(xiàn)出全新的藝術(shù)風(fēng)格。

出于以上原因，研究人員在沒有進(jìn)一步保護(hù)措施的情況下，暫時(shí)不會(huì)發(fā)布帕蒂模型的代碼或數(shù)據(jù)供公眾使用。并在已生成的所有圖像上添加了“帕蒂”水印。

接下來(lái)，研究團(tuán)隊(duì)將專注于進(jìn)一步研究模型偏差測(cè)量和緩解策略，例如提示濾波、輸出濾波和模型重新校準(zhǔn)。

他們還認(rèn)為，有望使用文本到圖像生成模型來(lái)大規(guī)模理解大型圖像文本數(shù)據(jù)集中的偏差，方法是明確探測(cè)它們是否存在一套已知的偏差類型，并可能揭示其他形式的隱藏偏差。另外，研究人員還計(jì)劃與藝術(shù)家合作，使高性能文本到圖像生成模型的功能適應(yīng)其作品。

最后，相比前段時(shí)間Open AI發(fā)布的DALL-E2和谷歌自家的Imagen（兩者都是擴(kuò)散模型），研究人員提到，帕蒂表明自回歸模型功能強(qiáng)大且普遍適用。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

谷歌再次發(fā)布文字生成圖像模型 新系統(tǒng)帕蒂根據(jù)文本輸出各種風(fēng)格、更高質(zhì)量圖像

谷歌再次發(fā)布文字生成圖像模型新系統(tǒng)帕蒂根據(jù)文本輸出各種風(fēng)格、更高質(zhì)量圖像