□ 文 翟 尤 李 娟
2022年8月,在美國(guó)科羅拉多州舉辦的新興數(shù)字藝術(shù)家競(jìng)賽中,參賽者提交AIGC(AIGenerated Content,以下簡(jiǎn)稱“AIGC“)繪畫(huà)作品《太空歌劇院》,參賽者沒(méi)有繪畫(huà)基礎(chǔ)但是卻獲得了此次比賽“數(shù)字藝術(shù)/數(shù)字修飾照片”類別一等獎(jiǎng),引發(fā)多方爭(zhēng)議。一方面,批判者認(rèn)為AI在“學(xué)習(xí)”了大量前人的作品之后,其創(chuàng)作沒(méi)有任何情緒和靈魂,難以和人類的藝術(shù)創(chuàng)作相提并論。另一方面,支持者認(rèn)為創(chuàng)作者在一遍遍修改文本內(nèi)容后,才讓AI創(chuàng)作出滿意的作畫(huà),而且作品有很強(qiáng)的觀賞性,AI的創(chuàng)作有其獨(dú)特價(jià)值。AIGC的快速迭代演變,讓大模型應(yīng)用落地有了新領(lǐng)域,也帶來(lái)對(duì)版權(quán)和通用人工智能到來(lái)的爭(zhēng)論,因此有必要從產(chǎn)業(yè)發(fā)展的角度分析AIGC可能的發(fā)展路徑,探尋問(wèn)題解決方案,助力AIGC健康有序發(fā)展。
AIGC是利用人工智能技術(shù)來(lái)生成內(nèi)容。2021年之前,AIGC生成的內(nèi)容主要以文字為主,而新一代模型可以處理的格式包括:文字、語(yǔ)音、代碼、圖像、視頻、機(jī)器人動(dòng)作等。AIGC被認(rèn)為是繼專業(yè)生產(chǎn)內(nèi)容(PGC,professionalgenerated content)、用戶生產(chǎn)內(nèi)容(UGC,Usergenerated content)之后的新型內(nèi)容創(chuàng)作方式,可以在創(chuàng)意、表現(xiàn)力、迭代、傳播、個(gè)性化等方面,充分發(fā)揮技術(shù)優(yōu)勢(shì)。尤其是視覺(jué)信息,一直在網(wǎng)絡(luò)中有較強(qiáng)的傳播力且容易被大眾感知,具有跨平臺(tái)、跨領(lǐng)域、跨人群的優(yōu)勢(shì),天然容易被人記憶和理解。同時(shí)視覺(jué)信息應(yīng)用場(chǎng)景廣泛,因此生成高質(zhì)量的圖像成為當(dāng)前AI領(lǐng)域的一個(gè)現(xiàn)象級(jí)功能。
2021年,OpenAI將跨模態(tài)深度學(xué)習(xí)模型CLIP(Contrastive Language-Image Pre-Training,以下簡(jiǎn)稱“CLIP”)進(jìn)行開(kāi)源。CLIP模型能夠?qū)⑽淖趾蛨D像進(jìn)行關(guān)聯(lián)。例如,將文字“狗”和狗的圖像進(jìn)行關(guān)聯(lián),并且關(guān)聯(lián)的特征較為豐富,從而推動(dòng)CLIP模型成為AIGC的重要組成部分。目前,CLIP模型具備兩個(gè)優(yōu)勢(shì),一方面能夠同時(shí)進(jìn)行自然語(yǔ)言理解和計(jì)算機(jī)視覺(jué)分析,實(shí)現(xiàn)圖像和文本匹配。另一方面為了有足夠多標(biāo)記好的“文本-圖像”進(jìn)行訓(xùn)練,CLIP模型廣泛利用互聯(lián)網(wǎng)上的圖片,這些圖片一般帶有相關(guān)文本描述,成為CLIP天然的訓(xùn)練樣本。據(jù)不完全統(tǒng)計(jì),CLIP模型搜集網(wǎng)絡(luò)上超過(guò)40億個(gè)“文本-圖像”訓(xùn)練數(shù)據(jù),為后續(xù)AIGC尤其是輸入文本生成圖像/視頻應(yīng)用的落地奠定了基礎(chǔ)。
某AIGC繪圖網(wǎng)站上輸入Cyberpunk后,搜索到的AIGC生成繪畫(huà)
在此之前,“對(duì)抗生成網(wǎng)絡(luò)”GAN(Generative Adverserial Network, 以下簡(jiǎn)稱“GAN”)雖然也是很多AIGC采用的主流框架之一,但GAN具有三個(gè)不足:一是對(duì)輸出結(jié)果的控制力較弱,容易產(chǎn)生隨機(jī)圖像;二是生成的圖像分別率較低;三是由于GAN需要用判別器來(lái)判斷生產(chǎn)的圖像是否與其他圖像屬于同一類別,導(dǎo)致生成的圖像是對(duì)現(xiàn)有作品的模仿,創(chuàng)新性不足。因此依托GAN模型難以創(chuàng)作出新圖像,也不能通過(guò)文字提示生成新圖像。
Diffusion擴(kuò)散化模型出現(xiàn)較晚,但真正實(shí)現(xiàn)讓文本生成圖像的AIGC應(yīng)用為大眾所熟知,也是2022年下半年Stable Diffusion應(yīng)用的重要推手。Diffusion模型有兩個(gè)特點(diǎn),一方面,給圖像增加高斯噪聲,通過(guò)破壞訓(xùn)練數(shù)據(jù)來(lái)學(xué)習(xí),然后找出如何逆轉(zhuǎn)這種噪聲過(guò)程以恢復(fù)原始圖像,經(jīng)過(guò)訓(xùn)練,該模型可以從隨機(jī)輸入中合成新的數(shù)據(jù)。另一方面,Stable Diffusion把模型的計(jì)算空間從像素空間經(jīng)過(guò)數(shù)學(xué)變換,降維到可能性空間(Latent Space)的低維空間里,這一轉(zhuǎn)化大幅降低了計(jì)算量和計(jì)算時(shí)間,使得模型訓(xùn)練效率快速提高。Diffusion算法模型的創(chuàng)新與應(yīng)用推動(dòng)了AIGC技術(shù)的突破性進(jìn)展。
AIGC相關(guān)深度學(xué)習(xí)模型匯總表
AIGC繪畫(huà)應(yīng)用系統(tǒng)匯總表
總的來(lái)看,AIGC在2022年實(shí)現(xiàn)快速迭代,主要是在深度學(xué)習(xí)模型方面有了長(zhǎng)足進(jìn)步。首先CLIP模型基于海量互聯(lián)網(wǎng)圖片進(jìn)行訓(xùn)練,推動(dòng)AI繪畫(huà)模型進(jìn)行組合創(chuàng)新。其次Diffusion擴(kuò)散化模型實(shí)現(xiàn)算法創(chuàng)新。最后使用潛空間降維的方法來(lái)降低Diffusion模型在內(nèi)存和時(shí)間消耗較大的問(wèn)題。因此,AIGC繪畫(huà)之所以能夠幫助用戶進(jìn)行輔助創(chuàng)作,背后離不開(kāi)大量深度學(xué)習(xí)模型的不斷完善推動(dòng)和基礎(chǔ)作用。
在算法模型方面,AIGC的發(fā)展離不開(kāi)開(kāi)源模式的推動(dòng)。以深度學(xué)習(xí)模型CLIP為例,開(kāi)源模式加速CLIP模型的廣泛應(yīng)用,使之成為當(dāng)前最為先進(jìn)的圖像分類人工智能,并讓更多機(jī)器學(xué)習(xí)從業(yè)人員將CLIP模型嫁接到其他AI應(yīng)用。同時(shí),當(dāng)前AIGC繪畫(huà)最熱門(mén)的應(yīng)用Stable Diffusion已經(jīng)正式開(kāi)源(包括模型權(quán)重和代碼),通過(guò)視覺(jué)、語(yǔ)言等多源知識(shí)指引擴(kuò)散模型學(xué)習(xí),強(qiáng)化擴(kuò)散模型對(duì)于語(yǔ)義的精確理解,以提升生成圖像的可控性和語(yǔ)義的一致性。Stable Diffusion的開(kāi)源直接引發(fā)2022年下半年AIGC引發(fā)廣泛關(guān)注,短短幾個(gè)月時(shí)間內(nèi)出現(xiàn)大量二次開(kāi)發(fā),從模型優(yōu)化到應(yīng)用拓展,大幅降低用戶使用AIGC進(jìn)行創(chuàng)作的門(mén)檻,提升創(chuàng)作效率,并長(zhǎng)期位居GitHub熱榜第一名。
在訓(xùn)練數(shù)據(jù)集方面,機(jī)器學(xué)習(xí)離不開(kāi)大量數(shù)據(jù)學(xué)習(xí)。LAION作為全球非盈利機(jī)器學(xué)習(xí)研究機(jī)構(gòu),在2022年3月開(kāi)放了當(dāng)前規(guī)模最大的開(kāi)源跨模態(tài)數(shù)據(jù)庫(kù)LAION-5B,使得近60億個(gè)“文本-圖像”可以用來(lái)訓(xùn)練,從而進(jìn)一步加快AI圖像生成模型的成熟,幫助研究人員加快推動(dòng)從文字到圖像的生成模型。基于CLIP和LAION的開(kāi)源模式構(gòu)建起當(dāng)前AI圖像生成應(yīng)用的核心。未來(lái),隨著模型穩(wěn)定,開(kāi)源將成為AIGC成熟的催化劑,源模式有望讓相關(guān)模型成為海量應(yīng)用、網(wǎng)絡(luò)和服務(wù)的基礎(chǔ),應(yīng)用層面的創(chuàng)造力有望迎來(lái)拐點(diǎn)。
創(chuàng)造力曾被認(rèn)為是少數(shù)幸運(yùn)兒擁有的天賦,但隨著深度學(xué)習(xí)的爆發(fā),協(xié)助創(chuàng)作者提升創(chuàng)作效率成為可能。目前來(lái)看,AIGC在工業(yè)設(shè)計(jì)、動(dòng)漫設(shè)計(jì)、攝影藝術(shù)、游戲制作等場(chǎng)景,能夠激發(fā)設(shè)計(jì)者創(chuàng)作靈感,提升內(nèi)容生產(chǎn)效率。
在捕捉靈感方面,AIGC協(xié)助有經(jīng)驗(yàn)的創(chuàng)作者捕捉靈感,構(gòu)建新的創(chuàng)新互動(dòng)形式。例如在游戲行業(yè),制作人靈感往往難以用文字準(zhǔn)確表達(dá),與美術(shù)工作人員經(jīng)常由于溝通產(chǎn)生理解誤差。通過(guò)AIGC系統(tǒng)可以在設(shè)計(jì)初期,生成大量草圖,在此基礎(chǔ)上制作人與美術(shù)人員可以更好的理解并確認(rèn)彼此的需求。同時(shí),創(chuàng)作靈感難以琢磨,可以提前通過(guò)AIGC來(lái)尋找“感覺(jué)”,進(jìn)一步降低美術(shù)創(chuàng)作者大量前期工作和項(xiàng)目成本。例如,制作人可先構(gòu)建完整的背景故事,之后由AIGC生成系列畫(huà)作,再由專業(yè)的美術(shù)人員進(jìn)行篩選、處理、整合,并將整個(gè)故事和畫(huà)面進(jìn)一步完善提升。
在提升效率方面,AIGC的出現(xiàn)將會(huì)讓創(chuàng)作者擁有一個(gè)更加高效的智能創(chuàng)作工具,在內(nèi)容創(chuàng)作環(huán)節(jié)進(jìn)行優(yōu)化,而非成為競(jìng)爭(zhēng)對(duì)手。例如在極短的項(xiàng)目籌備時(shí)間內(nèi),AIGC可以大幅提升效率,驗(yàn)證了AI投入到工業(yè)化使用的可行性。尤其是對(duì)于藝術(shù)、影視、廣告、游戲、編程等創(chuàng)意行業(yè)的從業(yè)者來(lái)說(shuō),可以輔助從業(yè)者進(jìn)行日常工作,并有望創(chuàng)造出更多驚艷的作品。同時(shí),還可以進(jìn)一步降低成本和效率,為規(guī)?;a(chǎn)構(gòu)建市場(chǎng)增量。
在創(chuàng)意構(gòu)思階段,AIGC構(gòu)建了新的創(chuàng)意完善通路,傳統(tǒng)的創(chuàng)作過(guò)程中消化、理解以及重復(fù)性工作將有望交由AIGC來(lái)完成,最終創(chuàng)意過(guò)程將變?yōu)椤皠?chuàng)意-AI-創(chuàng)意”的模式。
圖片來(lái)源:《AI時(shí)代的巫師與咒語(yǔ)》
在創(chuàng)意實(shí)現(xiàn)階段,創(chuàng)作者和AIGC的關(guān)系類似于攝影師和照相機(jī)。攝影師構(gòu)建拍攝思路并進(jìn)行規(guī)劃,對(duì)相機(jī)進(jìn)行參數(shù)配置,但不用了解相機(jī)的工作原理與機(jī)制,一鍵生成高質(zhì)量的內(nèi)容。同樣,創(chuàng)作者構(gòu)思并進(jìn)行規(guī)劃,對(duì)AI模型進(jìn)行參數(shù)配置,不需要了解模型的原理,直接點(diǎn)擊輸出內(nèi)容即可。創(chuàng)意和實(shí)現(xiàn)呈現(xiàn)出分離狀態(tài),實(shí)現(xiàn)過(guò)程變?yōu)橐环N可重復(fù)勞動(dòng),可以由AIGC來(lái)完成,并逐步將成本推向趨近于零。
Gartner預(yù)計(jì),到2025年,生成式人工智能將占所有生成數(shù)據(jù)的10%。根據(jù)《Generative AI :A Creative New World》的分析,AIGC有潛力產(chǎn)生數(shù)萬(wàn)億美元的經(jīng)濟(jì)價(jià)值。AIGC在引發(fā)全球關(guān)注的同時(shí),知識(shí)產(chǎn)權(quán)、技術(shù)倫理將面臨諸多挑戰(zhàn)和風(fēng)險(xiǎn),同時(shí)AIGC距離通用人工智能還有較大的差距。
基于深度學(xué)習(xí)算法數(shù)據(jù)越多,模型魯棒性越強(qiáng)的特點(diǎn),當(dāng)前的大模型規(guī)模只增不減,比拼規(guī)模已經(jīng)成為標(biāo)配。例如,Open AI推出的GPT-3參數(shù)已經(jīng)超過(guò)1750億個(gè)。但“數(shù)據(jù)投喂”并非一種技術(shù)路徑上的創(chuàng)新,更多的是在工程領(lǐng)域的微調(diào)。需要指出的是,模型規(guī)模越大,其實(shí)越難以在現(xiàn)實(shí)場(chǎng)景中落地部署。同時(shí)“海量數(shù)據(jù)”并不等同于“海量高質(zhì)量數(shù)據(jù)”,有可能會(huì)導(dǎo)致反向效果產(chǎn)生。
AIGC的發(fā)展離不開(kāi)預(yù)訓(xùn)練大模型的不斷精進(jìn)。大模型雖然在很多領(lǐng)域都表現(xiàn)出良好的使用效果,但是這些效果作為展示甚至噱頭之后,很難形成良性的商業(yè)價(jià)值,與大模型的訓(xùn)練成本、基礎(chǔ)設(shè)施投入更是相差甚遠(yuǎn)。如何推動(dòng)“大模型”向“大應(yīng)用”來(lái)轉(zhuǎn)變,正在成為關(guān)鍵的考驗(yàn)。AIGC的破圈以及引發(fā)的關(guān)注,可以看到大模型商業(yè)化的潛力正在清晰化,一方面大模型企業(yè)可以根據(jù)C端用戶實(shí)際“按需提供服務(wù)”和商業(yè)轉(zhuǎn)化。另一方面帶動(dòng)對(duì)云計(jì)算、云存儲(chǔ)的使用量上升。將AIGC從“嘗鮮試試看”變成大眾頻繁使用的需求,再到與具體行業(yè)和領(lǐng)域深度結(jié)合,依托我國(guó)豐富的產(chǎn)業(yè)需求和應(yīng)用場(chǎng)景,有望為大模型商業(yè)化和長(zhǎng)期價(jià)值探索一條新路徑。
AIGC的飛速發(fā)展和商業(yè)化應(yīng)用,對(duì)大量依靠版權(quán)為主要營(yíng)收的企業(yè)帶來(lái)沖擊。具體來(lái)看:一方面,AIGC難以被稱為“作者”。根據(jù)我國(guó)《著作權(quán)法》的規(guī)定,作者只能是自然人、法人或非法人組織,很顯然AIGC不是被法律所認(rèn)可的權(quán)利主體,因此不能成為著作權(quán)的主體。另一方面,AIGC產(chǎn)生的“作品”尚存爭(zhēng)議。根據(jù)我國(guó)《著作權(quán)法》和《著作權(quán)法實(shí)施條例》的規(guī)定,作品是指文學(xué)、藝術(shù)和科學(xué)領(lǐng)域內(nèi)具有獨(dú)創(chuàng)性并能以某種有形形式復(fù)制的智力成果。AIGC的作品具有較強(qiáng)的隨機(jī)性和算法主導(dǎo)性,能夠準(zhǔn)確證明AIGC作品侵權(quán)的可能性較低。同時(shí),AIGC是否具有獨(dú)創(chuàng)性目前難以一概而論,個(gè)案差異較大。
目前已經(jīng)有業(yè)內(nèi)人士嘗試探索將創(chuàng)作者的“創(chuàng)意”進(jìn)行量化,甚至定價(jià),有助于打造AIGC的商業(yè)模式。這其中“注意力機(jī)制”將成為AIGC潛在的量化載體。例如國(guó)內(nèi)有機(jī)構(gòu)專家提出,可以通過(guò)計(jì)算輸入文本中關(guān)鍵詞影響的繪畫(huà)面積和強(qiáng)度,我們就可以量化各個(gè)關(guān)鍵詞的貢獻(xiàn)度。之后根據(jù)一次生成費(fèi)用與藝術(shù)家貢獻(xiàn)比例,就可以得到創(chuàng)作者生成的價(jià)值。最后在與平臺(tái)按比例分成,就是創(chuàng)作者理論上因貢獻(xiàn)創(chuàng)意產(chǎn)生的收益。
例如某AIGC平臺(tái)一周內(nèi)生成數(shù)十萬(wàn)張作品,涉及這位創(chuàng)作者關(guān)鍵詞的作品有30000張,平均每張貢獻(xiàn)度為0.3,每張AIGC繪畫(huà)成本為0.5元,平臺(tái)分成30%,那么這位創(chuàng)作者本周在該平臺(tái)的收益為:30000*0.3*0.5*(1-30%)=3150元的收益,未來(lái)參與建立AI數(shù)據(jù)集將有望成為藝術(shù)家的新增收益渠道。
當(dāng)前熱門(mén)的AIGC系統(tǒng)雖然能夠快速生成圖像,但是這些系統(tǒng)是否能夠真正理解繪畫(huà)的含義,從而能夠根據(jù)這些含義進(jìn)行推理并決策,仍是未知數(shù)。一方面,AIGC系統(tǒng)對(duì)輸入的文本和產(chǎn)生的圖像不能完全關(guān)聯(lián)起來(lái)。例如,用戶對(duì)AIGC系統(tǒng)進(jìn)行測(cè)試,輸入“騎著馬的宇航員”和“騎著宇航員的馬”內(nèi)容時(shí),相關(guān)AIGC系統(tǒng)難以準(zhǔn)確生成對(duì)應(yīng)的圖像。因此,當(dāng)前的AIGC系統(tǒng)還并沒(méi)有深刻理解輸入文本和輸出圖像之間的關(guān)系。另一方面,AIGC系統(tǒng)難以了解生成圖像背后的世界。了解圖像背后的世界,是判斷AIGC是否具備通用人工智能的關(guān)鍵。目前來(lái)看,AIGC系統(tǒng)還難以達(dá)到相關(guān)的要求。比如,在Stable Diffusion 輸入“畫(huà)一個(gè)人,并把拿東西的部分變成紫色”,在接下來(lái)的九次測(cè)試過(guò)程中,只有一次成功完成,但準(zhǔn)確性還不高。顯然,Stable Diffusion并不理解人的雙手是什么。
知名AI專家發(fā)出的調(diào)查也印證了同樣的觀點(diǎn),有86.1%的人認(rèn)為當(dāng)前的AIGC系統(tǒng)對(duì)世界理解的并不多,持相同觀點(diǎn)的人還包括Stable Diffusion的首席執(zhí)行官。
部分開(kāi)源的AIGC項(xiàng)目,對(duì)生成的圖像監(jiān)管程度較低。一方面,部分?jǐn)?shù)據(jù)集系統(tǒng)利用私人用戶照片進(jìn)行AI訓(xùn)練,侵權(quán)人像圖片進(jìn)行訓(xùn)練的現(xiàn)象屢禁不止,這些數(shù)據(jù)集正是AIGC等圖片生成模型的訓(xùn)練集之一。例如,部分?jǐn)?shù)據(jù)集在網(wǎng)絡(luò)上抓取了大量病人就醫(yī)照片進(jìn)行訓(xùn)練,且沒(méi)有做任何打碼模糊處理,對(duì)用戶隱私保護(hù)堪憂。另一方面,一些用戶利用AIGC生成虛假名人照片等違禁圖片,甚至?xí)谱鞒霰┝托杂嘘P(guān)的畫(huà)作,LAION-5B數(shù)據(jù)庫(kù)包含色情、種族、惡意等內(nèi)容,目前海外已經(jīng)出現(xiàn)基于Stable Diffusion模型的色情圖片生成網(wǎng)站。
由于AI本身還不具備價(jià)值判斷能力,為此一些平臺(tái)已經(jīng)開(kāi)始進(jìn)行倫理方面的限制和干預(yù)。例如DALL·E2已經(jīng)開(kāi)始加強(qiáng)干預(yù),減少性別偏見(jiàn)的產(chǎn)生、防止訓(xùn)練模型生成逼真的個(gè)人面孔等,但相關(guān)法律法規(guī)的空白和AIGC應(yīng)用研發(fā)者本身的不重視將引發(fā)對(duì)AI創(chuàng)作倫理的擔(dān)憂。
2022年AIGC發(fā)展速度驚人,年初還處于技藝生疏階段,幾個(gè)月之后就達(dá)到專業(yè)級(jí)別,足以以假亂真。這讓花費(fèi)畢生所學(xué)進(jìn)行創(chuàng)作的從業(yè)人員倍感焦慮和緊張。同時(shí),AIGC的迭代速度呈現(xiàn)指數(shù)級(jí)爆發(fā),這其中深度學(xué)習(xí)模型不斷完善、開(kāi)源模式的推動(dòng)、大模型探索商業(yè)化的可能,成為AIGC發(fā)展的“加速度”。新技術(shù)會(huì)淘汰適應(yīng)性差的人,但是那些擁抱變革、適應(yīng)力強(qiáng)的人,最終往往能駕馭新技術(shù)、發(fā)現(xiàn)新機(jī)遇,從此獲得新收益。新的生產(chǎn)方式會(huì)被替代,新的工作崗位、新產(chǎn)業(yè)甚至新的藝術(shù)表現(xiàn)形式,會(huì)從變革中誕生。