“文生圖”里的機(jī)器邏輯：AIGC時(shí)代的攝影教育探索

2024-06-24 09:55:46楊莉莉

中國(guó)攝影家 2024年6期

一、AIGC時(shí)代下攝影教育的最大“誤區(qū)”

隨著以ChatGPT（自然語言對(duì)話）、Midjourney（文本生成圖像/文生圖）、Sora（文本生成視頻）為代表的通用大模型人工智能（AGI）的到來，很多人對(duì)于攝影發(fā)展的理解持“技術(shù)替代”論。攝影術(shù)從1839年誕生以來，它的進(jìn)化方向一直是“簡(jiǎn)易化、移動(dòng)化和計(jì)算化”：從早期的銀版法、火棉膠，到手持相機(jī)、柯達(dá)膠卷，再到數(shù)碼相機(jī)、數(shù)字后期處理，現(xiàn)在則是以手機(jī)為載體的移動(dòng)計(jì)算攝影，都遵循這一路線。但是，攝影的核心教育并沒有變，依然是學(xué)習(xí)“如何用光影塑造現(xiàn)實(shí)之事物”，令人驚愕的是，在人工智能時(shí)代，這一點(diǎn)也正在被懷疑，“光影塑造現(xiàn)實(shí)之事物”，也可以變成“人工智能下的攝影圖像的機(jī)器生成”。很多大學(xué)居然將攝影教育視為一種“落后的教育”“該淘汰的教育”，以及“不必要的教育”，甚至有大規(guī)模取消攝影課的趨勢(shì)。

當(dāng)然，也有維護(hù)攝影的說法，這類觀點(diǎn)強(qiáng)調(diào)攝影的客觀性基礎(chǔ)，這里的“客觀性”不是文化狡辯意義上的客觀性。蘇珊·桑塔格經(jīng)常反對(duì)攝影的客觀性，她講述的其實(shí)是“拍攝者主觀意識(shí)中的偏見”[1]。攝影的拍攝對(duì)象的確是現(xiàn)實(shí)存物，即使這是由拍攝者用自己的意圖去“非客觀”地表現(xiàn)出來，但它的確是一個(gè)實(shí)在的東西。然而，在AIGC（生成式人工智能）時(shí)代，以Midjourney、Stable Diffusion為代表的工具是“生成的”，這是一種“子虛烏有的創(chuàng)造”。所以，攝影唯一能阻擋AIGC的是它的“新聞紀(jì)實(shí)性”。如果用不到紀(jì)實(shí)，都是可以被AIGC取代的。言下之意，如果不是單純培養(yǎng)攝影記者或者紀(jì)實(shí)攝影師，攝影沒有必要存在。

上述觀點(diǎn)不僅低估了攝影之于反映人類真實(shí)生存狀態(tài)和文明生存境地的重要性，而且還高度誤解了AIGC的操作原理—以“提示詞驅(qū)動(dòng)”（Prompt Engineering）為界面所必需的“操作素養(yǎng)”。該觀點(diǎn)似乎將這種“操作素養(yǎng)”當(dāng)作是無源之水、無本之木。

以“文生圖”中最熱的人工智能Midjourney為例，用它來生成“類攝影圖像”（Midjourney可以生成更廣泛性的圖像，比如漫畫、油畫等），需要用一個(gè)提示詞（Prompt）格式—“/imagine”。沒有“操作素養(yǎng)”的人可以隨意填寫一些簡(jiǎn)單的詞語，比如“一個(gè)亞洲中年婦女”，Midjourney會(huì)理解輸入的自然語言，生成與該描述匹配的圖像。用戶描述得越籠統(tǒng)，它就越會(huì)根據(jù)機(jī)器學(xué)習(xí)到的“亞洲中年女性”的“最大公約數(shù)”來生成圖像。

Midjourney已經(jīng)給出了“提示詞”的指引，它的基本結(jié)構(gòu)如下：

（1）主體描述

清晰地描述生成圖像的主題或主體，如“一個(gè)亞洲婦女”，對(duì)其人體結(jié)構(gòu)、面部細(xì)節(jié)也要做出準(zhǔn)確、細(xì)致的描述。

（2）藝術(shù)風(fēng)格

指定所需的藝術(shù)流派，比如“快照式黑白照片”。

（3）視角/構(gòu)圖

注明希望的視角、角度以及構(gòu)圖方式，如“正側(cè)取景”“對(duì)稱構(gòu)圖”等。

（4）光影細(xì)節(jié)

描述期望的光線方向、質(zhì)感、陰影投射等，這就需要掌握相應(yīng)的專業(yè)術(shù)語和描述方式。

（5）色彩關(guān)系

包括色調(diào)、飽和度、對(duì)比關(guān)系等方面，運(yùn)用色彩關(guān)系能夠生成理想中圖像的色彩效果。

（6）主題修飾

為主題增加細(xì)節(jié)和修飾性描述，如“被雨水打濕的玫瑰花瓣”等。

（7）場(chǎng)景陳設(shè)、細(xì)節(jié)堆積

一張優(yōu)秀的攝影作品往往富有細(xì)節(jié)，要對(duì)場(chǎng)景細(xì)節(jié)描述有好的堆疊和渲染能力。

（8）質(zhì)感描述

對(duì)畫面中物體的材質(zhì)和質(zhì)感做出描述，如“絹緞般光滑的花瓣”。

（9）情緒氛圍渲染

為畫面渲染一種情緒基調(diào)，如“北野武電影”式的青春殘酷。

毫無疑問，撰寫出優(yōu)質(zhì)的提示詞，就是AIGC時(shí)代商業(yè)攝影教育新增的重要內(nèi)容，但這與傳統(tǒng)攝影教育并不沖突。筆者所著的《商業(yè)攝影實(shí)訓(xùn)教程》 [2]就是扎根于“傳統(tǒng)”商業(yè)攝影教育的高校教材。該書自2010年初版以來，在不斷的修訂中，融入商業(yè)攝影業(yè)界的革新技術(shù)和觀念，正在修訂的第4版將增加AI圖像生成的提示詞教學(xué)，并展現(xiàn)AIGC教學(xué)實(shí)踐成果。

撰寫出準(zhǔn)確、細(xì)致的提示詞，是AIGC時(shí)代的關(guān)鍵能力，這些關(guān)鍵能力可以通過攝影課程的學(xué)習(xí)來獲得。只不過，它不是一個(gè)“怎么拍”的教學(xué)，而是“想著怎么拍”的攝影意識(shí)和攝影想象力的養(yǎng)成。從這個(gè)意義上說，扎實(shí)全面的攝影課程，能夠培養(yǎng)學(xué)生理解和把握攝影技術(shù)、視覺美學(xué)以及藝術(shù)風(fēng)格的能力，最終能讓他們具有撰寫令人賞心悅目的提示詞的能力，從而讓Midjourney這樣的工具不是根據(jù)“最大公約數(shù)”概率來生成圖像，而是根據(jù)提示詞的指引，精準(zhǔn)地刻畫出理想中的攝影畫面。

二、準(zhǔn)確理解AIGC的“生成原理”

撰寫出優(yōu)質(zhì)的提示詞可以視為商業(yè)攝影教育在AIGC時(shí)代重要的教學(xué)目標(biāo)之一，但并非唯一目標(biāo)。因?yàn)锳IGC并不僅僅是“生成”，還蘊(yùn)含著其他更重要的技術(shù)理解問題。這些問題，也應(yīng)當(dāng)通過攝影教育予以講解，讓學(xué)生們知道AIGC的來龍去脈以及AIGC的可為與不可為。

首先，AIGC“文生圖”（Text-to-image model）的技術(shù)，并不是于Midjourney、DALL-E和Stable Diffusion在2022年“橫空出世”之后才有的，早在2015年，加拿大多倫多大學(xué)的研究人員就提出了“文生圖”的第一個(gè)模型：alignDRAW。alignDRAW模型是一種機(jī)器學(xué)習(xí)的“注意力機(jī)制”，通過關(guān)注圖像的特點(diǎn)來學(xué)習(xí)圖像（集中注意力于圖像的特定區(qū)域），然后與“輸入的文字”進(jìn)行匹配，所以它生成的圖像經(jīng)常是“圖像拼貼”，這尚且是一種非常幼稚的方法。

2016年，生成對(duì)抗網(wǎng)絡(luò)（Generative Adversarial Network，簡(jiǎn)稱GAN）在“文生圖”上開始流行。GAN的核心思想是訓(xùn)練兩個(gè)互相競(jìng)爭(zhēng)的神經(jīng)網(wǎng)絡(luò)：生成器（Generator）和判別器（Discriminator）[3]。生成器的任務(wù)是生成與訓(xùn)練數(shù)據(jù)相似的新數(shù)據(jù)樣本。判別器的任務(wù)是對(duì)生成器生成的數(shù)據(jù)進(jìn)行分類，區(qū)分生成的數(shù)據(jù)與真實(shí)的訓(xùn)練數(shù)據(jù)。判別器接收生成器生成的樣本以及真實(shí)的訓(xùn)練數(shù)據(jù)，并嘗試將其分類為真實(shí)數(shù)據(jù)和虛假數(shù)據(jù)。判別器的目標(biāo)是準(zhǔn)確識(shí)別生成的數(shù)據(jù)，使其與真實(shí)數(shù)據(jù)區(qū)分開。生成器的目標(biāo)是盡可能地“欺騙”判別器，使其無法區(qū)分生成的數(shù)據(jù)和真實(shí)的訓(xùn)練數(shù)據(jù)。經(jīng)過足夠多次訓(xùn)練，生成器就能夠生成以假亂真的高質(zhì)量圖像。GAN的進(jìn)步之處在于，它并非通過簡(jiǎn)單復(fù)制、拼接已有圖像元素，而是學(xué)習(xí)底層數(shù)據(jù)分布，“創(chuàng)造”出新圖像。[4]

2022年是“文生圖”發(fā)生革命性變化的一年，出現(xiàn)了擴(kuò)散模型（Diffusion Model）?！皵U(kuò)散模型”讓Midjourney這類人工智能的“文生圖”的能力呈指數(shù)級(jí)提高。想象這里有一幅完整的圖像，我們往上面不斷噴灑“顏料霧”，使整個(gè)圖像變得越來越模糊，直到它完全變成一片噪聲。這就是所謂的“前向過程”（forward process）。然后，我們訓(xùn)練一個(gè)模型，它的目標(biāo)是從這片噪聲中還原出原始的清晰圖像，學(xué)會(huì)“反向”執(zhí)行前面那個(gè)噴灑“圖像噪聲”的過程，一步步地將“噪聲”去除，還原圖像細(xì)節(jié)，這叫作“逆向過程”（reverse process）。訓(xùn)練時(shí)，我們給模型大量的“圖像—噪聲”對(duì)比作為示例，讓它學(xué)習(xí)如何從噪聲中識(shí)別出原始圖像的結(jié)構(gòu)和特征。經(jīng)過足量的訓(xùn)練，模型就能掌握數(shù)據(jù)集中圖像的內(nèi)在分布和規(guī)律了。一旦模型學(xué)會(huì)了“去噪”這個(gè)技能后，我們就可以執(zhí)行采樣過程（sampling procedure）—我們給模型一個(gè)完全隨機(jī)的噪聲圖像，它會(huì)自動(dòng)地將噪聲去除，最終“生成”出一幅全新的、有意義的圖像。擴(kuò)散模型的魔力在于，盡管我們給它的只是隨機(jī)噪聲，但它能利用學(xué)到的知識(shí)，重建出逼真并有意義的新圖像。擴(kuò)散模型的“添加噪聲—逆向去噪”過程在Midjourney“文生圖”任務(wù)中扮演著核心角色。[5]

三、“文生圖”里的機(jī)器邏輯引發(fā)攝影教育變革

了解“文生圖”的原理，并不意味著我們要將攝影課變成人工智能課，而是要清楚地知道AIGC能夠給攝影課堂帶來何種改變。

第一，提示詞不能是否定性的表述，否則就會(huì)出現(xiàn)理解偏差。這是因?yàn)樯蓪?duì)抗網(wǎng)絡(luò)（GAN）與擴(kuò)散模型（Diffusion Model）是一個(gè)“對(duì)抗”和“去噪”的過程，它本身就是一個(gè)“否定性”的生成過程。因此，攝影課老師在講解“如何撰寫出優(yōu)質(zhì)提示詞”的時(shí)候，一定要講清楚背后的原理，否則“文生圖”會(huì)生成出大量的機(jī)器圖像幻覺。

第二，提示詞中細(xì)節(jié)越多，生成的圖像質(zhì)量通常會(huì)越高，但過于細(xì)節(jié)化也可能引導(dǎo)模型產(chǎn)生一些意料之外的元素，故而需要平衡細(xì)節(jié)和開放性[6]。從上述“文生圖”的原理中看到，AI圖像生成的創(chuàng)造性受到其訓(xùn)練數(shù)據(jù)和算法的限制，大而化之的提示詞讓它們傾向于生成與訓(xùn)練數(shù)據(jù)中的常見模式相似的圖像，而缺乏創(chuàng)新和想象力。

第三，“文生圖”提示詞訓(xùn)練本質(zhì)上是一種新形式的視覺編碼研究，它將傳統(tǒng)攝影、人工智能和視覺傳播學(xué)融合在一起。在傳統(tǒng)攝影中，攝影師通過構(gòu)圖、光線、色彩等手段來編碼視覺信息，這種視覺編碼過程需要攝影師具備專業(yè)的視覺造詣和審美能力，而在“文生圖”中，提示詞就相當(dāng)于一種新型的視覺編碼方式。從這個(gè)角度來看，“文生圖”提示詞訓(xùn)練正在拓展視覺編碼研究的全新維度，也將極大拓展人類進(jìn)行視覺表達(dá)和藝術(shù)創(chuàng)作的能力。

第四，在攝影教學(xué)實(shí)踐中，我們要在攝影課程中融入對(duì)AIGC工具和技術(shù)的學(xué)習(xí)，同時(shí)加強(qiáng)對(duì)人文素養(yǎng)、創(chuàng)新思維、審美能力的培養(yǎng)。我們要用實(shí)踐教學(xué)和項(xiàng)目驅(qū)動(dòng)來重構(gòu)攝影作業(yè)體系，要求學(xué)生結(jié)合傳統(tǒng)技藝和AIGC工具完成作業(yè)。例如，筆者最近主講的本科生《廣告攝影》課程，除了從產(chǎn)品、時(shí)尚、建筑等類別的商業(yè)攝影教學(xué)中讓學(xué)生掌握最基本的攝影語言和視覺傳播策略外，還引導(dǎo)學(xué)生使用 Midjourney進(jìn)行攝影風(fēng)格的主題性創(chuàng)作，為三甲醫(yī)院的“藝術(shù)療愈”項(xiàng)目生成攝影風(fēng)格的作品—《AI的療愈》[7]。藝術(shù)療愈是通過藝術(shù)創(chuàng)作和藝術(shù)欣賞等活動(dòng)，幫助人們提升心理健康、調(diào)節(jié)情緒、緩解壓力及焦慮的一種療愈方法。它包括視覺藝術(shù)療法、音樂治療、舞蹈治療、戲劇治療等形式，通過創(chuàng)作、表達(dá)、觀賞和體驗(yàn)藝術(shù)，幫助人們解決心理健康問題、康復(fù)心靈創(chuàng)傷。在《AI的療愈》中，學(xué)生們用想象力驅(qū)動(dòng)Midjourney生成具有情感治愈力量的“攝影圖像”，淬煉出寧?kù)o、祥和、希望的氣息，以期觀者能夠“被療愈”。

另外，我們也必須講授AIGC所帶來的版權(quán)和知識(shí)產(chǎn)權(quán)等法律層面的挑戰(zhàn)。深度偽造是目前AIGC最令人擔(dān)憂的全球性問題，在攝影教育中，一定要注意培養(yǎng)學(xué)生的職業(yè)道德操守，規(guī)范使用 AIGC，尊重原創(chuàng)。AIGC時(shí)代的攝影教育不僅僅是一種與時(shí)俱進(jìn)的技術(shù)教育，也是一種堅(jiān)守初心的道德教育。

（楊莉莉，深圳大學(xué)傳播學(xué)院副教授）

注釋：

*本文為國(guó)家社科基金項(xiàng)目“‘他塑視角下中國(guó)故事的圖像敘事機(jī)制和策略研究”（20BXW064）階段性成果。

[1][美]蘇珊·桑塔格：《論攝影》，黃燦然譯，上海譯文出版社2021年版，第13-17頁。

[2]楊莉莉：《商業(yè)攝影實(shí)訓(xùn)教程（第3版）》，中國(guó)人民大學(xué)出版社2021年版。

[3]關(guān)于“生成對(duì)抗網(wǎng)絡(luò)”的原理描述，可見：https：//proceedings.neurips.cc/paper_files/paper/2014/file/5ca3e9b122f61f8f06494c97b1afccf3-Paper.pdf

[4]關(guān)于“生成對(duì)抗網(wǎng)絡(luò)”如何用于“文生圖”的機(jī)器學(xué)習(xí)機(jī)制，可見：https：//proceedings.mlr.press/v48/reed16.pdf

[5]關(guān)于擴(kuò)散模型（Diffusion Model）如何用于“文生圖”的機(jī)器學(xué)習(xí)機(jī)制，可見Jay Alammar的教學(xué)演示：https：//jalammar.github.io/illustratedstable-diffusion/

[6]哈佛大學(xué)網(wǎng)站有關(guān)于“文生圖”的通俗課程講解，可見：https：//scholar.harvard.edu/files/binxuw/files/stable_diffusion_a_tutorial.pdf

[7]《AI的療愈》為“深圳大學(xué)全國(guó)教材建設(shè)獎(jiǎng)優(yōu)秀教材培育項(xiàng)目”的階段性成果。

實(shí)習(xí)編輯/邢樹宜

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

“文生圖”里的機(jī)器邏輯：AIGC時(shí)代的攝影教育探索