AIGC技術(shù)的興起對(duì)圖書(shū)館發(fā)展帶來(lái)了影響,其中,以AI繪畫(huà)為代表的生成式技術(shù)賦予了圖書(shū)館業(yè)務(wù)發(fā)展更多的可能性。然而目前,圖書(shū)館行業(yè)雖積極關(guān)注AIGC技術(shù)的發(fā)展機(jī)遇,但對(duì)AI繪畫(huà)的應(yīng)用卻很少涉及?;诖耍疚膶⒁訟IGC與圖書(shū)館的關(guān)系作為背景,闡述AI繪畫(huà)技術(shù)的發(fā)展概況,并對(duì)當(dāng)前三大主流AI繪畫(huà)模型工具進(jìn)行分析,探討AI繪畫(huà)在圖書(shū)館管理與服務(wù)中的實(shí)踐應(yīng)用及作用,以期為相關(guān)工作提供一定的理論指導(dǎo)。
一、Al繪畫(huà)與圖書(shū)館
人工智能(AI)是新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動(dòng)力量,當(dāng)前,我國(guó)已出臺(tái)《中國(guó)制造2025》《機(jī)器人產(chǎn)業(yè)發(fā)展規(guī)劃(2016~2020年)》《“互聯(lián)網(wǎng)+”人工智能三年行動(dòng)實(shí)施方案》等規(guī)劃,旨在加速我國(guó)AI技術(shù)的研發(fā)和應(yīng)用,促進(jìn)AI與各個(gè)領(lǐng)域的深度融合,推動(dòng)社會(huì)經(jīng)濟(jì)高質(zhì)量發(fā)展。在圖書(shū)館領(lǐng)域,學(xué)者吳建中連續(xù)三年提到AI,圖書(shū)館應(yīng)緊跟技術(shù)潮流并通過(guò)新技術(shù)提升圖書(shū)館管理與服務(wù)的能級(jí)。上海圖書(shū)館館長(zhǎng)陳超也提出,傳統(tǒng)圖書(shū)館應(yīng)該逐步引入AI技術(shù),并借助AI技術(shù)賦能效應(yīng),逐漸轉(zhuǎn)型成為智慧復(fù)合型圖書(shū)館。智慧圖書(shū)館和圖書(shū)館3.0代表了圖書(shū)館領(lǐng)域在數(shù)字化和人工智能發(fā)展方面的演進(jìn),智慧化的圖書(shū)館需要AI輔助館員解決眾多業(yè)務(wù)需求,但我們也要認(rèn)識(shí)到,智慧圖書(shū)館需要結(jié)合一定的應(yīng)用場(chǎng)景,進(jìn)行精心的服務(wù)設(shè)計(jì),才能應(yīng)用這類(lèi)技術(shù)為圖書(shū)館管理提供更好的智慧服務(wù)。
2022年是人工智能生成內(nèi)容(AIGC)的元年。AIGC是指利用人工智能技術(shù),通過(guò)分析和挖掘海量數(shù)據(jù)的規(guī)律和模式,生成豐富多樣的內(nèi)容,如文字、圖像和音頻等,從而使機(jī)器實(shí)現(xiàn)從理解到創(chuàng)作的躍遷。其中,AI繪圖是AIGC技術(shù)的一個(gè)重要應(yīng)用領(lǐng)域,它能根據(jù)文本描述生成圖像。隨著AI繪圖的發(fā)展與成熟,以往通常由人們完成的設(shè)計(jì)繪圖工作被人工智能所取代,因此,將AI繪圖引入圖書(shū)館業(yè)務(wù),將給圖書(shū)館服務(wù)帶來(lái)創(chuàng)新性發(fā)展,館員的工作方式也將被重塑。
二、AI繪畫(huà)模型
(一)概況
目前實(shí)際應(yīng)用最多的文本生成圖像模型工具主要有SD(Stable Diffusion)、MJ(Midjourney)和DALL·E3。SD模型基于潛在擴(kuò)散模型將建模過(guò)程引向隱向量空間,可進(jìn)行本地私有化部署,操作空間極高,可以根據(jù)輸入的參數(shù)生成高質(zhì)量的圖像,可微調(diào)模型,生成特定形象部署后可API調(diào)用,該模型目前論文和代碼都已開(kāi)源;MJ模型與SD的區(qū)別是MJ付費(fèi)服務(wù)且不開(kāi)源,因此在可控制性和延展性上會(huì)稍低一些。此外,雖然MJ生成的圖像藝術(shù)性最高,但對(duì)提示詞的寫(xiě)法有一定的要求,而且提示詞對(duì)于出圖的質(zhì)量影響較大,并且MJ操作空間較小,而且無(wú)法微調(diào)模型,也無(wú)法API調(diào)用。DALL·E3是OpenAI在2023年9月份發(fā)布的一個(gè)文生圖模型,其可以與ChatGPT結(jié)合,因此DALL.E3有著更低的使用門(mén)檻,通過(guò)簡(jiǎn)單的自然語(yǔ)言描述,就能生成效果不錯(cuò)的圖像,對(duì)于不擅長(zhǎng)編寫(xiě)提示的普通用戶(hù)來(lái)說(shuō),這一改進(jìn)大大提高了使用效率,減少了提示詞的編寫(xiě)。
(二)對(duì)比
三大模型各有優(yōu)缺點(diǎn),SD的優(yōu)勢(shì)是開(kāi)源,開(kāi)源意味著免費(fèi),本地化使用不受賬號(hào)限制,但是自行部署不僅對(duì)網(wǎng)絡(luò)有極高的要求,對(duì)算力也需很強(qiáng)的顯卡才能支撐。另外SD參數(shù)設(shè)置較為復(fù)雜,生成圖像質(zhì)量依賴(lài)模型,雖可以利用豐富的插件訓(xùn)練模型、定制形象,如與LoRA等微調(diào)結(jié)合,經(jīng)過(guò)不斷調(diào)試,能夠生成特定風(fēng)格的圖片,但操作起來(lái)需要一定的技術(shù)背景和編程能力,上手難度極高。在簡(jiǎn)單提示詞下,MJ生成的圖像藝術(shù)效果最好,可以用于設(shè)計(jì)等專(zhuān)業(yè)領(lǐng)域,適用于對(duì)審美要求較高的場(chǎng)景,但使用MJ需要有一定的創(chuàng)意頭腦。此外,MJ目前只有付費(fèi)用戶(hù)才能使用,也存在提示詞的編寫(xiě)門(mén)檻,只是難度比SD稍微低一些。DALL.E3雖然在生成復(fù)雜場(chǎng)景以及個(gè)性化定制場(chǎng)景上,生成效果稍遜于SD和MJ,但其與ChatGPT搭配使用,拉低了AI繪畫(huà)的使用門(mén)檻,擁有了廣泛的受眾群體。此外,DALL·E3具有語(yǔ)言理解上的優(yōu)勢(shì),對(duì)文本描述的細(xì)節(jié)表現(xiàn)也最為準(zhǔn)確。
三、Al繪畫(huà)在圖書(shū)館發(fā)展中的具體應(yīng)用實(shí)踐
隨著AI繪畫(huà)技術(shù)的不斷成熟,AI文生圖的應(yīng)用空間得以擴(kuò)展,AI繪畫(huà)可以代替設(shè)計(jì)出圖中的重復(fù)環(huán)節(jié)并提高出圖效率,它使得沒(méi)有美術(shù)基礎(chǔ)的普通用戶(hù)也可以享受到便捷有效的繪畫(huà)體驗(yàn)。將AI繪畫(huà)賦能圖書(shū)館業(yè)務(wù),可以極大增強(qiáng)館員的內(nèi)容創(chuàng)造能力,提高工作效率,創(chuàng)新業(yè)務(wù)發(fā)展。在具體實(shí)踐中,館員可以根據(jù)活動(dòng)需求利用AI繪畫(huà)生成活動(dòng)宣傳圖,在做閱讀推廣的時(shí)候生成插圖,提高讀者的閱讀體驗(yàn),還可以生成各種活動(dòng)的道具圖等。館員需根據(jù)不同的業(yè)務(wù)需求以及自身的知識(shí)背景來(lái)選擇不同的AI繪圖模型。由于考慮到經(jīng)費(fèi)和技術(shù)門(mén)檻,筆者選擇從DALL·E3入手。首先因?yàn)镈ALL·E3嵌入了ChatGPT.可以直接輸入自然語(yǔ)言,而且還支持中文,并不像其他模型使用起來(lái)那樣復(fù)雜。其次是圖書(shū)館大部分業(yè)務(wù)活動(dòng)圖對(duì)藝術(shù)效果要求并不是很高,適用于一般場(chǎng)景,因此可以說(shuō),DALL.E3生成的圖片質(zhì)量已經(jīng)可以滿(mǎn)足圖書(shū)館的大部分業(yè)務(wù)場(chǎng)景。
下面筆者將以業(yè)務(wù)實(shí)踐案例做展示,測(cè)試AI繪畫(huà)如何賦能圖書(shū)館業(yè)務(wù)活動(dòng),提高活動(dòng)策劃效率。以“中圖民樂(lè)夜·中秋閱”主題活動(dòng)為例,使用AI繪畫(huà)繪制活動(dòng)推送插圖、設(shè)計(jì)文創(chuàng)產(chǎn)品印章、海報(bào)等。
(一)推送插圖
首先是活動(dòng)策劃環(huán)節(jié),要為活動(dòng)推送文章配一個(gè)簡(jiǎn)單的氛圍插圖,因?yàn)橹黝}是中秋,可以考慮設(shè)計(jì)一個(gè)嫦娥奔月的卡通形象,筆者直接輸入“畫(huà)一個(gè)嫦娥奔月,卡通可愛(ài)風(fēng)格”進(jìn)行創(chuàng)作,AI生成結(jié)果如圖1所示。
可以看出,當(dāng)使用AI畫(huà)一些簡(jiǎn)單的活動(dòng)插圖時(shí),用戶(hù)可以直接使用簡(jiǎn)單的自然語(yǔ)言便可得到符合活動(dòng)需求的繪畫(huà)作品,而且出圖速度非??臁?/p>
(二)Logo設(shè)計(jì)
為配合活動(dòng)宣傳,筆者需要設(shè)計(jì)一個(gè)印章來(lái)為活動(dòng)引流,筆者輸入“設(shè)計(jì)一個(gè)印章圖,以兔子、中國(guó)民族樂(lè)器為基本元素,能表現(xiàn)中秋氛圍的印章造型”進(jìn)行創(chuàng)作,經(jīng)過(guò)三次嘗試,生成的設(shè)計(jì)圖都過(guò)于復(fù)雜,與筆者想要的印章風(fēng)格不符,于是筆者改用英文簡(jiǎn)單的詞匯進(jìn)行描述,輸入“l(fā)ogo,round seal shape。rabbit”進(jìn)行創(chuàng)作,生成結(jié)果如圖2所示。
生成圖與筆者的預(yù)期風(fēng)格相符,于是筆者嘗試加入“中國(guó)民族樂(lè)器”元素,輸入“l(fā)ogo,round seal shape, rabbit, Chinese national musicalinstruments”進(jìn)行創(chuàng)作,生成結(jié)果如圖3所示。
(三)海報(bào)設(shè)計(jì)
以宣傳海報(bào)設(shè)計(jì)為例,筆者首先直接輸入“我想組織一場(chǎng)以中秋為主題的音樂(lè)會(huì),名字叫‘樂(lè)爾中秋’,音樂(lè)會(huì)內(nèi)容為‘奏中國(guó)民族樂(lè)器,唱中國(guó)古典詩(shī)詞’,請(qǐng)為這場(chǎng)音樂(lè)會(huì)設(shè)計(jì)一個(gè)主題海報(bào)?!盇I生成的圖像雖具有一定的美學(xué)價(jià)值,但元素過(guò)于雜糅,且繪畫(huà)風(fēng)格與筆者實(shí)際需求存在出入,于是筆者采用關(guān)鍵詞寫(xiě)法來(lái)撰寫(xiě)提示詞,經(jīng)過(guò)幾輪嘗試發(fā)現(xiàn),即使使用中文作為關(guān)鍵詞,但AI生成海報(bào)中的文字也并不是中文。另外,筆者根據(jù)活動(dòng)需求繼續(xù)增加細(xì)節(jié)描述,如增加時(shí)間、主辦方、地點(diǎn)等,AI均無(wú)法達(dá)到筆者的預(yù)期要求。
四、AI繪畫(huà)在圖書(shū)館應(yīng)用中的困境
AI繪畫(huà)的出現(xiàn)無(wú)疑為圖書(shū)館應(yīng)用AIGC提供了有力的現(xiàn)實(shí)途徑。然而在實(shí)際操作中,結(jié)合筆者實(shí)踐,在圖書(shū)館業(yè)務(wù)中應(yīng)用AI繪畫(huà)還面臨以下困境。
(一)智能程度依賴(lài)于人的介入
由于技術(shù)的限制,AI繪畫(huà)并未實(shí)現(xiàn)完全的人工智能,這就意味著AI繪畫(huà)在賦能圖書(shū)館業(yè)務(wù)發(fā)展的過(guò)程中,仍需館員的介入,館員對(duì)活動(dòng)的認(rèn)知、對(duì)自我的需求以及對(duì)文本的理解程度都會(huì)影響圖像的生成效果。由于各種因素影響,AI繪畫(huà)存在隨機(jī)性,在生成的過(guò)程中往往需要人機(jī)多次溝通與互動(dòng)才能達(dá)到理想的效果,甚至?xí)嬖诓怀晒Φ那闆r。因此,館員自身對(duì)提示詞的掌握是圖像生成是否符合活動(dòng)要求的重要因素之一。另外,在海報(bào)設(shè)計(jì)中可以看出,現(xiàn)階段AI無(wú)法一次性完成對(duì)復(fù)雜海報(bào)的設(shè)計(jì),還需要館員借助其他工具進(jìn)行進(jìn)一步加工,如在AI設(shè)計(jì)的圖片上增加字體、調(diào)整圖像結(jié)構(gòu),增減圖像元素等。
(二)特定元素生成效果不佳
三大模型中,即使是對(duì)中文理解能力較強(qiáng)的DALL·E3,在面對(duì)中文的專(zhuān)有名詞、成語(yǔ)的情況下,也難以施展技術(shù)魅力。在輔助推廣經(jīng)典名著閱讀的實(shí)踐中,當(dāng)筆者輸入“桃園結(jié)義”(Oath of the Peach Garden)作為文字提示時(shí),創(chuàng)作出來(lái)的圖像是失敗的。大模型對(duì)具備中國(guó)元素的圖片需求生成效果不佳,由于大模型的生成能力是基于對(duì)數(shù)據(jù)的歸納和分析,中國(guó)元素?cái)?shù)據(jù)庫(kù)在這些模型訓(xùn)練中是缺失的,大模型無(wú)法對(duì)文本背后的內(nèi)涵作出深度學(xué)習(xí),只能對(duì)文字作淺層化理解。這意味著,當(dāng)國(guó)外這些大模型面對(duì)具有特定文化背景的主題時(shí),生成能力仍極其有限。
(三)技術(shù)和資金門(mén)檻制約
AI繪畫(huà)雖然在很多方面展現(xiàn)了它的優(yōu)越性,但對(duì)于圖書(shū)館領(lǐng)域來(lái)說(shuō),使用AI繪畫(huà)工具需要考慮館員的技術(shù)能力和技術(shù)應(yīng)用成本。雖然隨著技術(shù)推廣,如Stable Diffusion已經(jīng)開(kāi)源,但其對(duì)館員的技術(shù)要求較高,除了需要熟悉AIGC等相關(guān)人工智能方面的專(zhuān)業(yè)知識(shí),以及不同模型的指令和參數(shù)的用法,還需熟練掌握英語(yǔ)表達(dá)。此外,在AI繪畫(huà)工具的獲取上,除了有收費(fèi)門(mén)檻,文中提到的三個(gè)模型都需要海外服務(wù),登錄有所限制,而且對(duì)技術(shù)和硬件仍然有很高要求。
五、結(jié)語(yǔ)
AI繪畫(huà)賦能圖書(shū)館業(yè)務(wù)符合圖書(shū)館發(fā)展趨勢(shì),新一代館員應(yīng)積極尋求將AI繪畫(huà)技術(shù)融入圖書(shū)館日常業(yè)務(wù)場(chǎng)景中的可能性,利用AI繪畫(huà)優(yōu)化圖書(shū)館業(yè)務(wù)流程,實(shí)現(xiàn)業(yè)務(wù)升級(jí)。與此同時(shí),新技術(shù)的應(yīng)用要從需求、成本以及能力等各方面考慮。本文只是結(jié)合筆者日常的讀者活動(dòng)推廣業(yè)務(wù)進(jìn)行的AI繪圖應(yīng)用嘗試,希望這次創(chuàng)作實(shí)踐能為館員利用AIGC賦能圖書(shū)館業(yè)務(wù)提供一定的參考,促進(jìn)更多館員能夠發(fā)揮所長(zhǎng)參與到AIGC賦能探索中來(lái),從而推動(dòng)智慧圖書(shū)館的發(fā)展與融合。
(作者簡(jiǎn)介:王沁,女,碩士研究生,廣東省立中山圖書(shū)館,館員,研究方向:閱讀推廣、新媒體、AI)
(責(zé)任編輯 蘇靜靜)