人機協(xié)同釋放AIGC新質(zhì)生產(chǎn)力的現(xiàn)實困境與實踐進(jìn)路

2024-11-07 00:00:00段志峰

新聞潮 2024年9期

【摘要】在當(dāng)今數(shù)字化快速發(fā)展的時代，AIGC（人工智能生成內(nèi)容）正逐漸成為媒體工作的強大助力，它高效的運算能力和創(chuàng)新的生成模式，對于講求時效性的新聞媒體行業(yè)來說，意味著可以更快地響應(yīng)受眾需求，縮短項目周期。以定制化AI（人工智能）繪圖為例，借助AIGC，只需輸入一些描述性的關(guān)鍵詞或特定的風(fēng)格指令，就能在短時間內(nèi)生成精美的圖像，但在特殊情境下的定制化場景應(yīng)用方面，受限于AI深度學(xué)習(xí)模型數(shù)據(jù)的數(shù)量和質(zhì)量，以及算法的局限性，僅依賴AI是無法有效取得滿意效果的，仍需創(chuàng)作者人工參與，利用各種成熟的工具輔助，方可進(jìn)行精確圖像的生成和輸出。

【關(guān)鍵詞】人機協(xié)同；AIGC；新質(zhì)生產(chǎn)力；定制化；AI繪圖

2024年1月，習(xí)近平總書記在主持中共中央政治局第十一次集體學(xué)習(xí)時強調(diào)：“新質(zhì)生產(chǎn)力是創(chuàng)新起主導(dǎo)作用，擺脫傳統(tǒng)經(jīng)濟(jì)增長方式、生產(chǎn)力發(fā)展路徑，具有高科技、高效能、高質(zhì)量特征，符合新發(fā)展理念的先進(jìn)生產(chǎn)力質(zhì)態(tài)。它由技術(shù)革命性突破、生產(chǎn)要素創(chuàng)新性配置、產(chǎn)業(yè)深度轉(zhuǎn)型升級而催生，以勞動者、勞動資料、勞動對象及其優(yōu)化組合的躍升為基本內(nèi)涵，以全要素生產(chǎn)率大幅提升為核心標(biāo)志，特點是創(chuàng)新，關(guān)鍵在質(zhì)優(yōu)，本質(zhì)是先進(jìn)生產(chǎn)力?？萍紕?chuàng)新能夠催生新產(chǎn)業(yè)、新模式、新動能YKpx17KxndLePvv018LX3NUbsyiM2eAUk+vLOieTQXI=，是發(fā)展新質(zhì)生產(chǎn)力的核心要素?！盵1]媒體如何應(yīng)用AI（人工智能）新技術(shù)，實現(xiàn)提質(zhì)增效的產(chǎn)能躍遷，成為業(yè)界、學(xué)界研究的熱門課題。本文以定制化AI繪圖為例，分析其現(xiàn)實存在的問題及實踐進(jìn)路。

一、AIGC定制化內(nèi)容生成的內(nèi)在機理及現(xiàn)狀

自2023年開始大熱的AIGC（Artificial Intelligence Generated Content，人工智能生成內(nèi)容），是新質(zhì)生產(chǎn)力的典型代表，其在藝術(shù)設(shè)計領(lǐng)域里，最廣泛的應(yīng)用就是AI繪圖，即利用人工智能技術(shù)進(jìn)行繪畫創(chuàng)作的過程，主要包括利用計算機視覺和圖像處理技術(shù)進(jìn)行圖像生成和修改，以及利用機器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)進(jìn)行圖像識別和風(fēng)格轉(zhuǎn)換等操作。這種技術(shù)廣泛應(yīng)用于數(shù)字藝術(shù)、電影特效、游戲設(shè)計等多個領(lǐng)域。如今，AI繪圖已經(jīng)進(jìn)入“text-to-image”（文字生成圖像）與“image-to-image”（圖像生成圖像）相融合階段，用戶可以通過文本描述和提供參考圖像以生成目標(biāo)圖像的風(fēng)格和內(nèi)容。但是，對于更精細(xì)的定制化內(nèi)容，AI繪圖仍缺乏控制力，例如，朱槿花、紫荊花、三角梅等花卉，沃柑、楊梅、楊桃等水果，壯錦、銅鼓、天琴等民族元素……目前很多大模型都未曾收錄，自然也就無從輸出相應(yīng)圖像。

二、定制化內(nèi)容生成的現(xiàn)實困境

模型和算法是AIGC的兩大核心要素，模型訓(xùn)練數(shù)據(jù)的范圍、數(shù)量、質(zhì)量決定了AIGC能夠生成的內(nèi)容類型和質(zhì)量水平，不同的模型結(jié)構(gòu)和參數(shù)設(shè)置會產(chǎn)生截然不同的生成效果。而算法則是驅(qū)動模型進(jìn)行學(xué)習(xí)和生成的關(guān)鍵，高效的算法能夠加快模型的訓(xùn)練速度，幫助模型更快地接收到最優(yōu)解，從而提高生成內(nèi)容的質(zhì)量。

然而，目前對于AIGC這個新生ePsNhivLxTjFCJ9YIQLnd50pWtjrDQEXKSEGtpOtMIk=科技而言，這兩大核心的發(fā)展都還不成熟。一方面，就模型而言，雖然已經(jīng)有了眾多不同類型的模型架構(gòu)被開發(fā)出來，然而在實際應(yīng)用中仍存在諸多局限性。例如，在生成復(fù)雜場景或特定風(fēng)格的圖像時效果不盡如人意。其泛化能力也有待進(jìn)一步提高，當(dāng)面對新的、陌生的數(shù)據(jù)或任務(wù)時，模型的表現(xiàn)往往不夠穩(wěn)定。另一方面，算法在AIGC中的發(fā)展同樣面臨著挑戰(zhàn)，算法的優(yōu)化空間仍然很大。例如，在生成圖像時可能會出現(xiàn)邏輯混亂、顛覆認(rèn)知的問題，從而在一些重要領(lǐng)域（比如政務(wù)、醫(yī)療、教育等）的應(yīng)用中存在一定的風(fēng)險。

（一）文本描述困境

1.抽象概念的表達(dá)有偏差

對于一些抽象的概念，如 “幸?！薄氨瘋薄跋Ｍ?等，很難用具體的文本描述準(zhǔn)確傳達(dá)給AI。這些抽象概念往往具有主觀性和多義性，不同的人可能有不同的理解和感受。例如，當(dāng)試圖用文本描述“幸福的場景”時，可能會出現(xiàn)多種不同的想象，如一家人團(tuán)聚、情侶在海邊漫步、孩子在游樂場歡笑等。很難找到一種通用的文本描述能夠涵蓋所有對幸福的理解，從而導(dǎo)致AI生成的圖像可能與預(yù)期有較大偏差。

2.復(fù)雜場景的構(gòu)建難度增加

在描述復(fù)雜場景時，需要詳細(xì)地說明各個元素的位置、關(guān)系、特征等，這對文本描述能力提出了很高的要求。例如，描述一個古代戰(zhàn)場的場景時，需要涉及士兵的服裝、武器、戰(zhàn)斗姿勢，戰(zhàn)場的地形、環(huán)境、氣氛等多個方面。如果文本描述不夠準(zhǔn)確和全面，AI可能無法生成符合預(yù)期的復(fù)雜場景圖像。而且，隨著場景的復(fù)雜度增加，文本描述的難度也可能呈指數(shù)級增長，容易出現(xiàn)遺漏關(guān)鍵信息或描述不清的情況。

3.創(chuàng)意和想象力的局限較大

人類的創(chuàng)意和想象力是無限的，但用文本描述創(chuàng)意和想象力卻受到很大的局限。有時候，人的腦海中可能有一個非常獨特的圖像構(gòu)想，但很難用語言將其完整地表達(dá)出來。例如，顏色可以用“五彩斑斕”來形容，但卻難以準(zhǔn)確傳達(dá)出各種具體色彩的微妙差異和它們之間的和諧搭配，一些形狀特異、超出常規(guī)認(rèn)知的物體，常常令人找不到合適的詞句來精準(zhǔn)地描述其輪廓和細(xì)節(jié)，從而導(dǎo)致生成的圖像可能無法完全體現(xiàn)出原本的創(chuàng)意構(gòu)想。

4.語言互譯容易產(chǎn)生模糊性和歧義性

AI繪圖模型的底層語言是英文，且自然語言本身具有模糊性和歧義性，經(jīng)過一次翻譯成中文后，由于語言習(xí)慣及語義的差異，導(dǎo)致AI對一些特定詞語無法正確識別，這也給圖像生成帶來了困難。例如，在描述“青花瓷花瓶上的龍鳳圖案”時，“龍鳳”在中文中有特定的文化內(nèi)涵和象征意義，但翻譯成英文“dragon and phoenix”后，AI可能無法完全理解其背后的深厚文化意蘊，導(dǎo)致生成的圖像中龍鳳的形態(tài)和神韻相差甚遠(yuǎn)。此外，一些中文的特定修辭手法和意象表達(dá)，在翻譯后也容易失去原本的韻味和準(zhǔn)確性，進(jìn)一步增加了AI正確識別和生成圖像的難度。

（二）定制化對AIGC提出了更高要求

1.理解要求更精準(zhǔn)

定制化意味著用戶可能會提供復(fù)雜的、多維度的指令，例如，特定的主題、風(fēng)格、物品、人物、色彩偏好、情感傾向等，AIGC必須準(zhǔn)確解析這些指令，區(qū)分主次需求，避免誤解或片面理解。這需要更先進(jìn)的自然語言處理和圖像理解技術(shù)，能夠深入挖掘用戶需求背后的真正意圖，以便生成高度符合用戶期望的內(nèi)容。例如，南寧日報社制作的“偉人如炬——紀(jì)念鄧小平誕辰120周年”互動專題，其中需提供一幅當(dāng)年百色起義指揮部場景的畫面，畫面中還要出現(xiàn)好幾樣那個年代的物品，而且都被要求放置在指定的位置，如果只用提示詞向AI發(fā)出指令，無法生成令人滿意的圖像，因為大模型根本沒有收錄這些物品，必須經(jīng)過人工后期合成，才能輸出合乎要求的畫面。

2.內(nèi)容輸出個性化

定制化要求AIGC能夠提供個性化的輸出結(jié)果。不同用戶對于同一主題的定制需求可能千差萬別，AIGC需要根據(jù)用戶的獨特背景、偏好和目標(biāo)受眾來調(diào)整生成的內(nèi)容。這就需要AIGC具備強大的學(xué)習(xí)和適應(yīng)能力，能夠針對不同用戶進(jìn)行個性化調(diào)整，以滿足用戶對內(nèi)容獨特性的追求。很多大模型關(guān)注點都落在了動漫、3D、寵物、人像攝影、國潮、機械科幻等這些關(guān)注度比較高的領(lǐng)域，而對于中國本土化的、更垂類細(xì)分的、傳統(tǒng)的領(lǐng)域卻少有觸及，皆因AI技術(shù)萌芽于西方，對東方元素天然缺失，也有后天利益驅(qū)動使然。

3.對質(zhì)量標(biāo)準(zhǔn)要求更高

由于定制化內(nèi)容通常是為了滿足特定的需求，用戶對其質(zhì)量要求往往更高。AIGC生成的內(nèi)容不僅要在創(chuàng)意性、準(zhǔn)確性等方面達(dá)到較高水平，還需要在細(xì)節(jié)處理、專業(yè)性和審美價值等方面滿足用戶的特定要求。如人體手部動態(tài)圖像生成依然困擾著許多AI創(chuàng)作者，特別是在大場景中出現(xiàn)多個人物的情況下，這種問題愈發(fā)明顯，即便掛載插件，仍無法正確生成。

可見，AIGC在走向成熟和泛用的道路上還要克服諸多不足和瓶頸。使AIGC這項新技術(shù)轉(zhuǎn)化為有效生產(chǎn)力，成了各媒體生產(chǎn)部門的難點，如何在人工參與下，使其釋放效能，令A(yù)I繪圖更具適用性與實用性，是本文所探討的核心內(nèi)容。

三、定制化內(nèi)容生成的實踐進(jìn)路：釋放新質(zhì)生產(chǎn)力效能

（一）突破素材限制，為畫面帶來更豐富的風(fēng)格效果

在此以一幅定制化海報設(shè)計方案為例，方案要求：畫面中需出現(xiàn)少數(shù)民族人物形象，不少于3個，男女均有，還應(yīng)出現(xiàn)民族美食、民族樂器、南寧元素，整體呈現(xiàn)熱烈歡快的節(jié)慶氛圍，畫面采用豎構(gòu)圖，尺寸大小1080x1920PX，像素精度72dpi，RGB色彩模式。以往通常一張海報的設(shè)計流程是：繪制草圖—素材收集—構(gòu)圖設(shè)計—文字排版—成品。根據(jù)方案要求，計劃讓AI技術(shù)參與進(jìn)來，在素材收集和構(gòu)圖設(shè)計之間插入一個精細(xì)定制的步驟以銜接前后兩端，讓畫面更具美感。AI在此處的作用主要體現(xiàn)在兩個方面：一是降本。以往設(shè)計用圖必須是高清無水印大圖，來源基本是網(wǎng)上的高清圖庫，費用不菲，如今可以憑借AI的強大算力，僅憑普通清晰度，甚至是模糊的圖片（如短視頻截圖），也能生成高清大圖，降低了成本。二是增效。平常為素材所限，基本上使用的是實景、真人照片，風(fēng)格單一，在AI的幫助下，可以實現(xiàn)照片轉(zhuǎn)水彩、國畫轉(zhuǎn)油畫、手繪轉(zhuǎn)3D……極大提升了美術(shù)創(chuàng)作的自由度，為畫面帶來更豐富的風(fēng)格效果。

AI繪圖工具有很多，但綜合投入產(chǎn)出比和專業(yè)性、易用性、可靠性比較，Stable Diffusion（SD）憑借其強大的開源生態(tài)成為首選，它可以方便地在本地高性能計算機上進(jìn)行部署，也可以登錄Web UI版本，在線使用。SD的模型比較豐富，既有官方的，也有愛好者們分享的，既支持Checkpoint大模型（這是AI繪圖的基石，決定模型記錄了什么，能畫出什么，它更注重通用性和泛化能力，但定制性比較一般），也支持LoRA（Low-Rank Adaptation）低秩適配模型（作用是對Checkpoint模型進(jìn)行定向調(diào)整，主要為風(fēng)格或特定事物）。本例中分別選取適用范圍較廣、用戶反饋較好的Checkpoint模型AWPainting_v1.4和水彩風(fēng)格的LoRA（Low-Rank Adaptation）模型EnjiPainting 燕脂v1.0來進(jìn)行AI圖像生成。

（二）人工參與下可解決結(jié)構(gòu)性問題

在上述案例中，通過分析需求，先在草圖上勾畫大致的結(jié)構(gòu)布局：以一位身穿民族服飾正在放聲高歌的年輕女歌者為主要人物，在她的身后是抱著壯族天琴彈奏的演奏者、手捧五色糯米飯的廚娘、舉著木槌舂米的壯年男子、拍擊銅鼓歡快舞動的小伙，背景是高山草甸和遠(yuǎn)山，前景是代表南寧的朱槿花。如果把這些提示詞輸入AI生成，極大概率會失?。阂皇茿I模型對特定民族的服飾、器物、食物沒有收錄，無法識別提示詞；二是構(gòu)圖中人物眾多，以當(dāng)前AI算力無法正確生成人物臉部和手部，所以必須進(jìn)行拆分，分別生成單個人物，再進(jìn)入Photoshop中重組畫面。以主體人物為例，在這個環(huán)節(jié)引入了一個相對于SD來說堪稱革命性的插件：ControlNet（控制網(wǎng)絡(luò)），這是一種“輔助式”的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)，通過在SD模型中添加輔助模塊，在生成過程中引入外部控制信號來改進(jìn)生成質(zhì)量，它讓AI繪圖的生成過程更加可控，更有助于廣泛地將AI繪圖應(yīng)用到各行各業(yè)中。ControlNet已擁有18種Control Type（控制類型），從中選取兩種來進(jìn)行精確控制：一是起主要作用的Tile/Blur（分塊/模糊）類型。該模塊能夠優(yōu)化模糊、細(xì)節(jié)較差的圖片，其增加圖像分辨率的算法不是簡單地進(jìn)行插值，而是全新生成大量的細(xì)節(jié)特征，特別是對圖片進(jìn)行超分辨率重構(gòu)（super resolution）的同時，補充生成精細(xì)內(nèi)容。二是Lineart（線稿）類型。該模塊能夠檢測出原始圖像中各對象的邊緣輪廓特征，提取生成線稿圖，作為SD模型生成時的參考要素。

實施步驟分為兩步。首先，對目標(biāo)畫面進(jìn)行文字描述，使用一些提示詞，如一個女孩，可愛，甜美的微笑，銀胸環(huán)：權(quán)重1.2，銀鎖：權(quán)重1.2，銀鈴：權(quán)重1.2，燕脂，水彩畫，杰作：權(quán)重1.2，質(zhì)量上乘，高畫質(zhì)，完美照明，8k壁紙，插畫，繪畫，畫筆。權(quán)重概念的引入，可以使生成圖像更具目的性，特征更明顯。其次，導(dǎo)入?yún)⒖紙D，這是最重要的一步，即ControlNet得以實現(xiàn)各種控制類型的必備條件，要求比較平易近人，可以是網(wǎng)上的免費圖片，也可以是短視頻截圖，甚至是隨意幾筆涂鴉……為了提高圖像生成效率，從短視頻中截取了一張壯族歌者展臂高歌的圖片，并使用Photoshop把歌者從圖片中提取出來（為的是不讓截圖中的其他影像文字干擾AI圖像生成），分別傳入ControlNet中如前文所述的兩種控制類型的圖像參考功能框中。該參考圖的存在，規(guī)范了AI生（下轉(zhuǎn)第37頁）（上接第30頁）成圖片的衣著特征、服裝色彩、人物體態(tài)、動作表情……相當(dāng)于照著參考圖重畫了一遍，調(diào)整相應(yīng)參數(shù)后，在大模型和Lora的共同作用下，又呈現(xiàn)出圖像更清晰、細(xì)節(jié)更豐富、風(fēng)格水彩化的另一種樣貌。唯一美中不足的是，人物手部生成出現(xiàn)了結(jié)構(gòu)性錯誤，解決方案有很多種，最直接有效的就是拍一張正確的手部姿態(tài)，導(dǎo)入Photoshop中處理，替換歌者的手部，再放入SD中重新生成，AI會自動消弭手掌與手臂聯(lián)結(jié)的差異感，如原生一樣，看不出絲毫破綻。這樣，一張完美動態(tài)的人像就“出爐”了。

此外，在AI繪圖中，還會遇到另一個比較典型的問題，即模型庫中未收錄目標(biāo)事物，即使提示詞進(jìn)行了詳細(xì)描述，AI仍無法正確生成目標(biāo)圖像的情況。如在生成同為本案例海報中的另一個人物——手捧五色糯米飯的廚娘時，便遇到了這個問題。由于模型庫中尚未收錄五色糯米飯這種食物，導(dǎo)致生成圖像只出現(xiàn)了白色、黃色米飯，其余紅、紫、黑色糯米飯分別被替換成了小番茄、紫色花布、葵瓜子，差別巨大。如何解決？此時必須發(fā)揮人的主觀能動性，回到Photoshop中，利用生成正確的白、黃米飯AI圖像，運用區(qū)域摳像、鏡像翻轉(zhuǎn)、重新著色等各種PS技巧，就能合成“以假亂真”的目標(biāo)圖像。以上文所述這兩種解題思路為引導(dǎo)，對本案例所需素材逐一生成，最后確定構(gòu)圖和文字排版，這幅定制化海報得以順利完成制作。

四、結(jié)語

綜上，當(dāng)前要真正充分地釋放AIGC新質(zhì)生產(chǎn)力的效能，人工參與不可或缺。人類的專業(yè)知識和經(jīng)驗?zāi)転锳IGC提供精準(zhǔn)的指導(dǎo)和方向，幫助確定合適的主題、風(fēng)格和目標(biāo)受眾，使AI生成的內(nèi)容更加符合實際需求。人工與AIGC的高效運算和大規(guī)模數(shù)據(jù)處理能力相結(jié)合，能夠產(chǎn)生出更為強大的協(xié)同效應(yīng)；人機協(xié)同機制可以對AI生成的內(nèi)容進(jìn)行審核和優(yōu)化，優(yōu)化和提升AIGC，并融入人類的情感、價值觀和文化內(nèi)涵，使內(nèi)容更加豐富、生動和有深度，還可以促進(jìn)AIGC技術(shù)不斷進(jìn)步和創(chuàng)新，拓展其應(yīng)用領(lǐng)域和功能，進(jìn)一步提升AIGC的新質(zhì)生產(chǎn)力效能，進(jìn)而挖掘出AIGC的巨大潛力，為各個領(lǐng)域的發(fā)展帶來新的機遇和突破。潮

參考文獻(xiàn)

[1]習(xí)近平在中共中央政治局第十一次集體學(xué)習(xí)時強調(diào) 加快發(fā)展新質(zhì)生產(chǎn)力扎實推進(jìn)高質(zhì)量發(fā)展[N].人民日報，2024-02-02（1）.

新聞潮2024年9期

新聞潮的其它文章: 電視新聞選題策劃的發(fā)展現(xiàn)狀、問題與創(chuàng)新策略; 課題參與提升新聞傳播學(xué)研究生科研能力研究; 縣級新媒體平臺對僑傳播路徑探索; 縣級融媒體中心暖新聞的建設(shè)性功能; “微短劇+文旅”的破圈傳播與融合創(chuàng)新研究; 后真相時代輿論反轉(zhuǎn)的倫理問題及規(guī)制路徑分析

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

人機協(xié)同釋放AIGC新質(zhì)生產(chǎn)力的現(xiàn)實困境與實踐進(jìn)路