【摘 要】在當(dāng)今數(shù)字化快速發(fā)展的時代,AIGC(人工智能生成內(nèi)容)正逐漸成為媒體工作的強大助力,它高效的運算能力和創(chuàng)新的生成模式,對于講求時效性的新聞媒體行業(yè)來說,意味著可以更快地響應(yīng)受眾需求,縮短項目周期。以定制化AI(人工智能)繪圖為例,借助AIGC,只需輸入一些描述性的關(guān)鍵詞或特定的風(fēng)格指令,就能在短時間內(nèi)生成精美的圖像,但在特殊情境下的定制化場景應(yīng)用方面,受限于AI深度學(xué)習(xí)模型數(shù)據(jù)的數(shù)量和質(zhì)量,以及算法的局限性,僅依賴AI是無法有效取得滿意效果的,仍需創(chuàng)作者人工參與,利用各種成熟的工具輔助,方可進(jìn)行精確圖像的生成和輸出。
【關(guān)鍵詞】人機協(xié)同;AIGC;新質(zhì)生產(chǎn)力;定制化;AI繪圖
2024年1月,習(xí)近平總書記在主持中共中央政治局第十一次集體學(xué)習(xí)時強調(diào):“新質(zhì)生產(chǎn)力是創(chuàng)新起主導(dǎo)作用,擺脫傳統(tǒng)經(jīng)濟(jì)增長方式、生產(chǎn)力發(fā)展路徑,具有高科技、高效能、高質(zhì)量特征,符合新發(fā)展理念的先進(jìn)生產(chǎn)力質(zhì)態(tài)。它由技術(shù)革命性突破、生產(chǎn)要素創(chuàng)新性配置、產(chǎn)業(yè)深度轉(zhuǎn)型升級而催生,以勞動者、勞動資料、勞動對象及其優(yōu)化組合的躍升為基本內(nèi)涵,以全要素生產(chǎn)率大幅提升為核心標(biāo)志,特點是創(chuàng)新,關(guān)鍵在質(zhì)優(yōu),本質(zhì)是先進(jìn)生產(chǎn)力??萍紕?chuàng)新能夠催生新產(chǎn)業(yè)、新模式、新動能YKpx17KxndLePvv018LX3NUbsyiM2eAUk+vLOieTQXI=,是發(fā)展新質(zhì)生產(chǎn)力的核心要素?!盵1]媒體如何應(yīng)用AI(人工智能)新技術(shù),實現(xiàn)提質(zhì)增效的產(chǎn)能躍遷,成為業(yè)界、學(xué)界研究的熱門課題。本文以定制化AI繪圖為例,分析其現(xiàn)實存在的問題及實踐進(jìn)路。
一、AIGC定制化內(nèi)容生成的內(nèi)在機理及現(xiàn)狀
自2023年開始大熱的AIGC(Artificial Intelligence Generated Content,人工智能生成內(nèi)容),是新質(zhì)生產(chǎn)力的典型代表,其在藝術(shù)設(shè)計領(lǐng)域里,最廣泛的應(yīng)用就是AI繪圖,即利用人工智能技術(shù)進(jìn)行繪畫創(chuàng)作的過程,主要包括利用計算機視覺和圖像處理技術(shù)進(jìn)行圖像生成和修改,以及利用機器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)進(jìn)行圖像識別和風(fēng)格轉(zhuǎn)換等操作。這種技術(shù)廣泛應(yīng)用于數(shù)字藝術(shù)、電影特效、游戲設(shè)計等多個領(lǐng)域。如今,AI繪圖已經(jīng)進(jìn)入“text-to-image”(文字生成圖像)與“image-to-image”(圖像生成圖像)相融合階段,用戶可以通過文本描述和提供參考圖像以生成目標(biāo)圖像的風(fēng)格和內(nèi)容。但是,對于更精細(xì)的定制化內(nèi)容,AI繪圖仍缺乏控制力,例如,朱槿花、紫荊花、三角梅等花卉,沃柑、楊梅、楊桃等水果,壯錦、銅鼓、天琴等民族元素……目前很多大模型都未曾收錄,自然也就無從輸出相應(yīng)圖像。
二、定制化內(nèi)容生成的現(xiàn)實困境
模型和算法是AIGC的兩大核心要素,模型訓(xùn)練數(shù)據(jù)的范圍、數(shù)量、質(zhì)量決定了AIGC能夠生成的內(nèi)容類型和質(zhì)量水平,不同的模型結(jié)構(gòu)和參數(shù)設(shè)置會產(chǎn)生截然不同的生成效果。而算法則是驅(qū)動模型進(jìn)行學(xué)習(xí)和生成的關(guān)鍵,高效的算法能夠加快模型的訓(xùn)練速度,幫助模型更快地接收到最優(yōu)解,從而提高生成內(nèi)容的質(zhì)量。
然而,目前對于AIGC這個新生ePsNhivLxTjFCJ9YIQLnd50pWtjrDQEXKSEGtpOtMIk=科技而言,這兩大核心的發(fā)展都還不成熟。一方面,就模型而言,雖然已經(jīng)有了眾多不同類型的模型架構(gòu)被開發(fā)出來,然而在實際應(yīng)用中仍存在諸多局限性。例如,在生成復(fù)雜場景或特定風(fēng)格的圖像時效果不盡如人意。其泛化能力也有待進(jìn)一步提高,當(dāng)面對新的、陌生的數(shù)據(jù)或任務(wù)時,模型的表現(xiàn)往往不夠穩(wěn)定。另一方面,算法在AIGC中的發(fā)展同樣面臨著挑戰(zhàn),算法的優(yōu)化空間仍然很大。例如,在生成圖像時可能會出現(xiàn)邏輯混亂、顛覆認(rèn)知的問題,從而在一些重要領(lǐng)域(比如政務(wù)、醫(yī)療、教育等)的應(yīng)用中存在一定的風(fēng)險。
(一)文本描述困境
1.抽象概念的表達(dá)有偏差
對于一些抽象的概念,如 “幸?!薄氨瘋薄跋M?等,很難用具體的文本描述準(zhǔn)確傳達(dá)給AI。這些抽象概念往往具有主觀性和多義性,不同的人可能有不同的理解和感受。例如,當(dāng)試圖用文本描述“幸福的場景”時,可能會出現(xiàn)多種不同的想象,如一家人團(tuán)聚、情侶在海邊漫步、孩子在游樂場歡笑等。很難找到一種通用的文本描述能夠涵蓋所有對幸福的理解,從而導(dǎo)致AI生成的圖像可能與預(yù)期有較大偏差。
2.復(fù)雜場景的構(gòu)建難度增加
在描述復(fù)雜場景時,需要詳細(xì)地說明各個元素的位置、關(guān)系、特征等,這對文本描述能力提出了很高的要求。例如,描述一個古代戰(zhàn)場的場景時,需要涉及士兵的服裝、武器、戰(zhàn)斗姿勢,戰(zhàn)場的地形、環(huán)境、氣氛等多個方面。如果文本描述不夠準(zhǔn)確和全面,AI可能無法生成符合預(yù)期的復(fù)雜場景圖像。而且,隨著場景的復(fù)雜度增加,文本描述的難度也可能呈指數(shù)級增長,容易出現(xiàn)遺漏關(guān)鍵信息或描述不清的情況。
3.創(chuàng)意和想象力的局限較大
人類的創(chuàng)意和想象力是無限的,但用文本描述創(chuàng)意和想象力卻受到很大的局限。有時候,人的腦海中可能有一個非常獨特的圖像構(gòu)想,但很難用語言將其完整地表達(dá)出來。例如,顏色可以用“五彩斑斕”來形容,但卻難以準(zhǔn)確傳達(dá)出各種具體色彩的微妙差異和它們之間的和諧搭配,一些形狀特異、超出常規(guī)認(rèn)知的物體,常常令人找不到合適的詞句來精準(zhǔn)地描述其輪廓和細(xì)節(jié),從而導(dǎo)致生成的圖像可能無法完全體現(xiàn)出原本的創(chuàng)意構(gòu)想。
4.語言互譯容易產(chǎn)生模糊性和歧義性
AI繪圖模型的底層語言是英文,且自然語言本身具有模糊性和歧義性,經(jīng)過一次翻譯成中文后,由于語言習(xí)慣及語義的差異,導(dǎo)致AI對一些特定詞語無法正確識別,這也給圖像生成帶來了困難。例如,在描述“青花瓷花瓶上的龍鳳圖案”時,“龍鳳”在中文中有特定的文化內(nèi)涵和象征意義,但翻譯成英文“dragon and phoenix”后,AI可能無法完全理解其背后的深厚文化意蘊,導(dǎo)致生成的圖像中龍鳳的形態(tài)和神韻相差甚遠(yuǎn)。此外,一些中文的特定修辭手法和意象表達(dá),在翻譯后也容易失去原本的韻味和準(zhǔn)確性,進(jìn)一步增加了AI正確識別和生成圖像的難度。
(二)定制化對AIGC提出了更高要求
1.理解要求更精準(zhǔn)
定制化意味著用戶可能會提供復(fù)雜的、多維度的指令,例如,特定的主題、風(fēng)格、物品、人物、色彩偏好、情感傾向等,AIGC必須準(zhǔn)確解析這些指令,區(qū)分主次需求,避免誤解或片面理解。這需要更先進(jìn)的自然語言處理和圖像理解技術(shù),能夠深入挖掘用戶需求背后的真正意圖,以便生成高度符合用戶期望的內(nèi)容。例如,南寧日報社制作的“偉人如炬——紀(jì)念鄧小平誕辰120周年”互動專題,其中需提供一幅當(dāng)年百色起義指揮部場景的畫面,畫面中還要出現(xiàn)好幾樣那個年代的物品,而且都被要求放置在指定的位置,如果只用提示詞向AI發(fā)出指令,無法生成令人滿意的圖像,因為大模型根本沒有收錄這些物品,必須經(jīng)過人工后期合成,才能輸出合乎要求的畫面。
2.內(nèi)容輸出個性化
定制化要求AIGC能夠提供個性化的輸出結(jié)果。不同用戶對于同一主題的定制需求可能千差萬別,AIGC需要根據(jù)用戶的獨特背景、偏好和目標(biāo)受眾來調(diào)整生成的內(nèi)容。這就需要AIGC具備強大的學(xué)習(xí)和適應(yīng)能力,能夠針對不同用戶進(jìn)行個性化調(diào)整,以滿足用戶對內(nèi)容獨特性的追求。很多大模型關(guān)注點都落在了動漫、3D、寵物、人像攝影、國潮、機械科幻等這些關(guān)注度比較高的領(lǐng)域,而對于中國本土化的、更垂類細(xì)分的、傳統(tǒng)的領(lǐng)域卻少有觸及,皆因AI技術(shù)萌芽于西方,對東方元素天然缺失,也有后天利益驅(qū)動使然。
3.對質(zhì)量標(biāo)準(zhǔn)要求更高
由于定制化內(nèi)容通常是為了滿足特定的需求,用戶對其質(zhì)量要求往往更高。AIGC生成的內(nèi)容不僅要在創(chuàng)意性、準(zhǔn)確性等方面達(dá)到較高水平,還需要在細(xì)節(jié)處理、專業(yè)性和審美價值等方面滿足用戶的特定要求。如人體手部動態(tài)圖像生成依然困擾著許多AI創(chuàng)作者,特別是在大場景中出現(xiàn)多個人物的情況下,這種問題愈發(fā)明顯,即便掛載插件,仍無法正確生成。
可見,AIGC在走向成熟和泛用的道路上還要克服諸多不足和瓶頸。使AIGC這項新技術(shù)轉(zhuǎn)化為有效生產(chǎn)力,成了各媒體生產(chǎn)部門的難點,如何在人工參與下,使其釋放效能,令A(yù)I繪圖更具適用性與實用性,是本文所探討的核心內(nèi)容。
三、定制化內(nèi)容生成的實踐進(jìn)路:釋放新質(zhì)生產(chǎn)力效能
(一)突破素材限制,為畫面帶來更豐富的風(fēng)格效果
在此以一幅定制化海報設(shè)計方案為例,方案要求:畫面中需出現(xiàn)少數(shù)民族人物形象,不少于3個,男女均有,還應(yīng)出現(xiàn)民族美食、民族樂器、南寧元素,整體呈現(xiàn)熱烈歡快的節(jié)慶氛圍,畫面采用豎構(gòu)圖,尺寸大小1080x1920PX,像素精度72dpi,RGB色彩模式。以往通常一張海報的設(shè)計流程是:繪制草圖—素材收集—構(gòu)圖設(shè)計—文字排版—成品。根據(jù)方案要求,計劃讓AI技術(shù)參與進(jìn)來,在素材收集和構(gòu)圖設(shè)計之間插入一個精細(xì)定制的步驟以銜接前后兩端,讓畫面更具美感。AI在此處的作用主要體現(xiàn)在兩個方面:一是降本。以往設(shè)計用圖必須是高清無水印大圖,來源基本是網(wǎng)上的高清圖庫,費用不菲,如今可以憑借AI的強大算力,僅憑普通清晰度,甚至是模糊的圖片(如短視頻截圖),也能生成高清大圖,降低了成本。二是增效。平常為素材所限,基本上使用的是實景、真人照片,風(fēng)格單一,在AI的幫助下,可以實現(xiàn)照片轉(zhuǎn)水彩、國畫轉(zhuǎn)油畫、手繪轉(zhuǎn)3D……極大提升了美術(shù)創(chuàng)作的自由度,為畫面帶來更豐富的風(fēng)格效果。
AI繪圖工具有很多,但綜合投入產(chǎn)出比和專業(yè)性、易用性、可靠性比較,Stable Diffusion(SD)憑借其強大的開源生態(tài)成為首選,它可以方便地在本地高性能計算機上進(jìn)行部署,也可以登錄Web UI版本,在線使用。SD的模型比較豐富,既有官方的,也有愛好者們分享的,既支持Checkpoint大模型(這是AI繪圖的基石,決定模型記錄了什么,能畫出什么,它更注重通用性和泛化能力,但定制性比較一般),也支持LoRA(Low-Rank Adaptation)低秩適配模型(作用是對Checkpoint模型進(jìn)行定向調(diào)整,主要為風(fēng)格或特定事物)。本例中分別選取適用范圍較廣、用戶反饋較好的Checkpoint模型AWPainting_v1.4和水彩風(fēng)格的LoRA(Low-Rank Adaptation)模型EnjiPainting 燕脂v1.0來進(jìn)行AI圖像生成。
(二)人工參與下可解決結(jié)構(gòu)性問題
在上述案例中,通過分析需求,先在草圖上勾畫大致的結(jié)構(gòu)布局:以一位身穿民族服飾正在放聲高歌的年輕女歌者為主要人物,在她的身后是抱著壯族天琴彈奏的演奏者、手捧五色糯米飯的廚娘、舉著木槌舂米的壯年男子、拍擊銅鼓歡快舞動的小伙,背景是高山草甸和遠(yuǎn)山,前景是代表南寧的朱槿花。如果把這些提示詞輸入AI生成,極大概率會失?。阂皇茿I模型對特定民族的服飾、器物、食物沒有收錄,無法識別提示詞;二是構(gòu)圖中人物眾多,以當(dāng)前AI算力無法正確生成人物臉部和手部,所以必須進(jìn)行拆分,分別生成單個人物,再進(jìn)入Photoshop中重組畫面。以主體人物為例,在這個環(huán)節(jié)引入了一個相對于SD來說堪稱革命性的插件:ControlNet(控制網(wǎng)絡(luò)),這是一種“輔助式”的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu),通過在SD模型中添加輔助模塊,在生成過程中引入外部控制信號來改進(jìn)生成質(zhì)量,它讓AI繪圖的生成過程更加可控,更有助于廣泛地將AI繪圖應(yīng)用到各行各業(yè)中。ControlNet已擁有18種Control Type(控制類型),從中選取兩種來進(jìn)行精確控制:一是起主要作用的Tile/Blur(分塊/模糊)類型。該模塊能夠優(yōu)化模糊、細(xì)節(jié)較差的圖片,其增加圖像分辨率的算法不是簡單地進(jìn)行插值,而是全新生成大量的細(xì)節(jié)特征,特別是對圖片進(jìn)行超分辨率重構(gòu)(super resolution)的同時,補充生成精細(xì)內(nèi)容。二是Lineart(線稿)類型。該模塊能夠檢測出原始圖像中各對象的邊緣輪廓特征,提取生成線稿圖,作為SD模型生成時的參考要素。
實施步驟分為兩步。首先,對目標(biāo)畫面進(jìn)行文字描述,使用一些提示詞,如一個女孩,可愛,甜美的微笑,銀胸環(huán):權(quán)重1.2,銀鎖:權(quán)重1.2,銀鈴:權(quán)重1.2,燕脂,水彩畫,杰作:權(quán)重1.2,質(zhì)量上乘,高畫質(zhì),完美照明,8k壁紙,插畫,繪畫,畫筆。權(quán)重概念的引入,可以使生成圖像更具目的性,特征更明顯。其次,導(dǎo)入?yún)⒖紙D,這是最重要的一步,即ControlNet得以實現(xiàn)各種控制類型的必備條件,要求比較平易近人,可以是網(wǎng)上的免費圖片,也可以是短視頻截圖,甚至是隨意幾筆涂鴉……為了提高圖像生成效率,從短視頻中截取了一張壯族歌者展臂高歌的圖片,并使用Photoshop把歌者從圖片中提取出來(為的是不讓截圖中的其他影像文字干擾AI圖像生成),分別傳入ControlNet中如前文所述的兩種控制類型的圖像參考功能框中。該參考圖的存在,規(guī)范了AI生(下轉(zhuǎn)第37頁)(上接第30頁)成圖片的衣著特征、服裝色彩、人物體態(tài)、動作表情……相當(dāng)于照著參考圖重畫了一遍,調(diào)整相應(yīng)參數(shù)后,在大模型和Lora的共同作用下,又呈現(xiàn)出圖像更清晰、細(xì)節(jié)更豐富、風(fēng)格水彩化的另一種樣貌。唯一美中不足的是,人物手部生成出現(xiàn)了結(jié)構(gòu)性錯誤,解決方案有很多種,最直接有效的就是拍一張正確的手部姿態(tài),導(dǎo)入Photoshop中處理,替換歌者的手部,再放入SD中重新生成,AI會自動消弭手掌與手臂聯(lián)結(jié)的差異感,如原生一樣,看不出絲毫破綻。這樣,一張完美動態(tài)的人像就“出爐”了。
此外,在AI繪圖中,還會遇到另一個比較典型的問題,即模型庫中未收錄目標(biāo)事物,即使提示詞進(jìn)行了詳細(xì)描述,AI仍無法正確生成目標(biāo)圖像的情況。如在生成同為本案例海報中的另一個人物——手捧五色糯米飯的廚娘時,便遇到了這個問題。由于模型庫中尚未收錄五色糯米飯這種食物,導(dǎo)致生成圖像只出現(xiàn)了白色、黃色米飯,其余紅、紫、黑色糯米飯分別被替換成了小番茄、紫色花布、葵瓜子,差別巨大。如何解決?此時必須發(fā)揮人的主觀能動性,回到Photoshop中,利用生成正確的白、黃米飯AI圖像,運用區(qū)域摳像、鏡像翻轉(zhuǎn)、重新著色等各種PS技巧,就能合成“以假亂真”的目標(biāo)圖像。以上文所述這兩種解題思路為引導(dǎo),對本案例所需素材逐一生成,最后確定構(gòu)圖和文字排版,這幅定制化海報得以順利完成制作。
四、結(jié)語
綜上,當(dāng)前要真正充分地釋放AIGC新質(zhì)生產(chǎn)力的效能,人工參與不可或缺。人類的專業(yè)知識和經(jīng)驗?zāi)転锳IGC提供精準(zhǔn)的指導(dǎo)和方向,幫助確定合適的主題、風(fēng)格和目標(biāo)受眾,使AI生成的內(nèi)容更加符合實際需求。人工與AIGC的高效運算和大規(guī)模數(shù)據(jù)處理能力相結(jié)合,能夠產(chǎn)生出更為強大的協(xié)同效應(yīng);人機協(xié)同機制可以對AI生成的內(nèi)容進(jìn)行審核和優(yōu)化,優(yōu)化和提升AIGC,并融入人類的情感、價值觀和文化內(nèi)涵,使內(nèi)容更加豐富、生動和有深度,還可以促進(jìn)AIGC技術(shù)不斷進(jìn)步和創(chuàng)新,拓展其應(yīng)用領(lǐng)域和功能,進(jìn)一步提升AIGC的新質(zhì)生產(chǎn)力效能,進(jìn)而挖掘出AIGC的巨大潛力,為各個領(lǐng)域的發(fā)展帶來新的機遇和突破。潮
參考文獻(xiàn)
[1]習(xí)近平在中共中央政治局第十一次集體學(xué)習(xí)時強調(diào) 加快發(fā)展新質(zhì)生產(chǎn)力 扎實推進(jìn)高質(zhì)量發(fā)展[N].人民日報,2024-02-02(1).