摘 要 圖像生成技術是當前多模態(tài)人工智能生成的關鍵中轉點,在公共圖書館有著巨大的應用潛力。公共圖書館需要與時俱進,抓住這一歷史機遇,圍繞新技術拓寬已有的思路,為讀者提供更高質(zhì)量、更富有創(chuàng)意的服務內(nèi)容。論文以Stable Diffusion等平臺所帶來的AI繪畫浪潮為例,簡要介紹其關鍵技術;通過對海內(nèi)外圖像生成平臺的使用調(diào)研,并結合已有的實踐經(jīng)驗,探索圖書館可能的應用場景,分析其落地要求和潛在風險。,以期為公共圖書館在AI技術賦能下進一步擴大公共服務的競爭力、改善日常業(yè)務水平提供經(jīng)驗借鑒。
關鍵詞 人工智能生成內(nèi)容;圖像生成技術;公共圖書館
分類號 G250
DOI 10.16810/j.cnki.1672-514X.2024.10.008
Application and Thinking of AI Image Generation Technology in Public Libraries
Zhu Yunqi, Zhao Shen’an
Abstract Image generation technology performs a key intermediate point in current multi-modal artificial intelligence generation, demonstrating enormous potential for application in public libraries. Public libraries need to keep up with the times, seize this historical opportunity, broaden existing ideas around new technologies, and provide readers with higher quality and more creative service content. This article briefly introduces the key technologies involved in the AI painting wave brought about by platforms such as Stable Diffusion. By conducting research on the use of image generation platforms both domestically and internationally, and combining existing practical experience, this study explored the possible application scenarios of libraries and analysed both implementation requirements and potential risks. This paper can provide experience and reference for public libraries to further expand their competitiveness in public services and improve their daily service level under the empowerment of AI technology.
Keywords Artificial intelligence generated content. Image generation technology. Public library.
2022年末,隨著OpenAI公司的ChatGPT發(fā)布,生成式AI浪潮席卷了世界各行各業(yè)。人們紛紛在自己的領域?qū)で驛IGC(AI-Generated Content,人工智能生成內(nèi)容)的應用可能性。以ChatGPT為代表的大模型、多模態(tài)、強交互的生成式AI技術,通過對已有數(shù)據(jù)進行學習和模式識別,能夠以適當?shù)姆夯芰ι上嚓P內(nèi)容,造就了新一代的內(nèi)容生成模式[1]。
圖像生成作為AIGC的重要能力之一,是“多模態(tài)融合驅(qū)動”[2]的關鍵中轉點。但目前公共圖書館界缺乏對圖像生成領域的實踐方案研究。本文從閉源與開源兩種商業(yè)模式的比較入手,探討了圖書館應用AI圖像生成技術功能的可行方案,并通過對開源平臺Stable Diffusion(以下簡稱SD)的實踐研究,討論了AI圖像生成技術在公共圖書館的潛在應用場景。研究表明,AI除了能為圖書館提供海量的美術資源外,還是未來公共圖書館“智慧化”發(fā)展的關鍵支撐技術,其應用范圍涵蓋了讀者服務、館員創(chuàng)作、數(shù)據(jù)加工、虛擬現(xiàn)實等。公共圖書館應該建立與之配套的工作團隊和管理制度,為隨之而來的風險與挑戰(zhàn)做好準備。
1 AI圖像生成技術在圖書館的落地方案
目前AI生成服務的產(chǎn)品方案可分為閉源和開源兩種商業(yè)模式。閉源模式是由科技廠商布署在自己的私有化服務器上向用戶提供服務,用戶無法了解其模型算法細節(jié)并根據(jù)具體業(yè)務場景自由微調(diào)。開源模式以SD為代表,能夠在任意配備了消費級顯卡的計算機上方便、快速地部署本地服務。
1.1 閉源與開源方案
自2020年起,DALL-E系列以及MidJourney的陸續(xù)推出,用戶可以選擇大平臺廠商提供的付費使用方案[3],證明了當前生成式大模型已具備商業(yè)化運營的可能。科技巨頭的技術積累雄厚,但缺點在于價格高昂。以百度“文言一格”為例,最基礎出圖價格為0.25元/幅,而小平臺的每日免費額度則非常寬裕(如Draft),售價也只有0.16元/幅(如“造夢日記”)。因此,大平臺勝在語義理解能力、圖文映射的契合度以及泛化表現(xiàn)非常好,缺點在于價格偏高,而中小平臺雖然較之使用成本低,但使用門檻較高、出圖效果仍有一定差距。
值得一提的是,有相當一部分中小型平臺(如“造夢日記”、Draft等)選擇對開源的SD架構進行改良,并集成大量插件功能,提供自己獨有的風格模型。2022年Stability AI開源了旗下的NovelAI,宣告了SD的誕生。該模型使用的是改良的Latent Diffusion模型,核心原理是通過模擬擴散過程,將噪聲圖像逐漸轉化為目標圖像。整個模型計算復雜度較低,在高分辨率任務下出圖效果較好,并支持多模態(tài)訓練[4]。盡管如此,SD也因其提示詞編制的學習門檻高,存在易上手但難精通的缺陷。開源的SD之所以能叫板閉源的商業(yè)大模型,源于其凝聚了全世界開源社區(qū)開發(fā)者的集體智慧。大量開發(fā)者在社區(qū)上傳自己微調(diào)和定制的預訓練模型、功能拓展插件,支撐著SD模型生態(tài)的不斷優(yōu)化。微調(diào)和預訓練模型是其獲得成功的關鍵技術。
(1)微調(diào)。微調(diào)需求的出現(xiàn)源自目前大模型的參數(shù)膨脹,巨量參數(shù)帶來益處的同時也導致了模型遷移能力下降。傳統(tǒng)的訓練方法無法適應這么巨大的模型——既耗時耗“力”,也無法“記住”下游任務提供的數(shù)據(jù)集[5]。在圖像生成領域,微調(diào)可以在保證原有擴散模型泛化能力的基礎上,盡可能擬合出貼近用戶自定義的圖像數(shù)據(jù),使得生成的圖像更精準地符合提示詞。微調(diào)的另一個優(yōu)點是耗費的算力資源遠低于全調(diào)。
(2)預訓練模型。預訓練模型是一個用大量數(shù)據(jù)和任務訓練出的通用模型,它是用來理解數(shù)據(jù)集中通用的知識,是下游任務特化模型的來源與訓練基礎。其最大的優(yōu)勢在于,使用預訓練模型可以降低(忽視)訓練的成本,用戶在執(zhí)行圖像生成任務時只需要關注目標數(shù)據(jù)與已有模型的相似程度,從而選擇合適的預訓練模型,而非從頭開始訓練、建模[6]。目前在SD平臺解決不同任務需求最主要的方法就是選擇下載合適的預訓練大模型。
1.2 實現(xiàn)路線與應用脈絡
目前大部分公共圖書館都處于將AI引入工作流的起步期,AI圖像生成技術多被用來輔助創(chuàng)作。因此,開源方案在內(nèi)部工作流中具備了上手快、成本低、規(guī)避版權風險、防止信息外泄等優(yōu)勢。一些業(yè)界的研究者已開始探索全面推進館所業(yè)務AI化的解決方案,例如在第七屆未來智慧圖書館發(fā)展論壇上,云瀚聯(lián)盟發(fā)布了云瀚本地大模型應用套件[7]。從目前的行業(yè)趨勢來看,一部分圖書館會采取與云瀚聯(lián)盟類似的方式,試圖建立能本地部署且支持靈活配置的行業(yè)標準套件。套件內(nèi)盡可能地集成各種多模態(tài)的開源模型,依靠其擴展性強的優(yōu)勢,為廠商、圖書館構建AI應用領域的合作平臺和技術社區(qū),以一種開放的姿態(tài)緊跟AI技術步伐。另一些則選擇與商業(yè)企業(yè)合作,依靠商業(yè)AI大模型建立自己的應用平臺,如國家圖書館與百度達成的戰(zhàn)略合作協(xié)議,借助“文言一心”大模型落地自己的智能化應用[8]。但無論采取何種路線,AI繪畫(文生圖)作為框架中最基礎的功能之一,需要提前布局,盡早將其納入到圖書館整體AI戰(zhàn)略考量中。在圖書館應用圖像生成技術中,短期內(nèi)將主要集中在生成服務上,輔助館員的文案創(chuàng)作和資源加工,以及對讀者的藝術教育和訂制服務。未來公共圖館將應用AI生成技術的視覺呈現(xiàn),加強館藏資源的廣度和深度開發(fā),通過虛擬形象設計擴大和提升服務的影響力,發(fā)展“智慧圖書館”“元宇宙圖書館” 增強讀者的沉浸式閱讀體驗。
2 AI圖像生成技術在圖書館的生成服務
SD平臺通過社區(qū)貢獻和微調(diào)、預訓練大模型的加持,應用場景不斷被拓寬。因此本文通過調(diào)研已實現(xiàn)的功能,將其遷移至圖書館中,并以SD為主要生成平臺,嘗試驗證業(yè)務落地的可行性。AI圖像生成技術在圖書館的應用短期內(nèi)將主要集中在生成服務上,即對部分人力勞動的替代,其中又分為對館員的勞動輔助及對讀者的訂制服務。
2.1 面向館員的創(chuàng)作輔助
公共圖書館的很多日常工作需要使用美術資源。如完成文案配圖、展陳設計工作時,可以運用SD的局部重繪、ControlNet等插件調(diào)整圖像細節(jié),輔助館員開展控線、上色、“3渲2”等美術創(chuàng)作,甚至可利用多模態(tài)模型的文圖互生功能,實現(xiàn)文案圖片的一條龍配套生成。如圖1所示,上海圖書館已在工作中運用AI技術輔助展陳設計的工作。利用類似功能,AI也可被用于視頻的后期制作[9]。
2023年底,SD平臺Stable Video Diffusion模型的開源,讓AI視頻生成得到了極大的普及。該模型以單一圖像為輸入,可以生成無縫、逼真的視頻。目前已經(jīng)可以制作一些實景、實物的三維展示短片、動圖[10]。而在其之后,Sora、Gen-2等文生視頻商業(yè)大模型不斷發(fā)布,也讓AI視頻生成真正走向了應用階段。AI也成功地解放了圍繞視覺藝術的閱讀推廣活動設計思路,使其不再受出版物配套資源的限制,讓活動方自由地選定主題以開展活動。已有韓國學者在少兒教學中作出嘗試,利用ChatGPT和SD制作圖片AI生成系統(tǒng)來快速生成教學相關的圖片[11]。
2.2 面向館員的資源加工
資源標引是圖書館檢索和利用信息資源的先決條件。圖片數(shù)據(jù)作為圖書館信息資源的重要組成之一,卻由于標引標準不一和易受標引人員主觀影響的問題,難以對圖片中的時間、人物、出處等信息形成準確描述。面對這樣的問題,可以利用AI圖像生成技術中的“圖生文”功能,即“文生圖”的逆向過程,逆向抽取給定圖片的描述(如圖2所示)。該功能在多個繪圖平臺得到支持,例如MidJourney的“describe”命令,SD的CLIP Interrogator等插件。抽取出圖片描述信息后,可以對圖片分類歸檔,實現(xiàn)基于圖片內(nèi)容的細粒度檢索,也可用作模型訓練數(shù)據(jù),對外提供智慧服務。
進入數(shù)字化時代,圖書館館藏的老舊圖片(影?。┵Y料需要預先進行高清修復處理。英偉達早在2018年就推出了一個基于AI生成的軍人舊相片修復項目,能從照片的折痕、磨損、破洞中恢復照片原來的像素矩陣[12]。而在SD平臺,利用發(fā)布的DiffBIR模型可以將低像素的、有鋸齒的圖片轉化為相當自然的高清像素圖片[13]。圖書館可以依靠這些技術從館藏的老舊照片中挖掘圖片細節(jié),尋找遺失的歷史信息。
2.3 面向讀者的藝術教育
AI圖像生成可以被用于藝術教育。例如,有學者總結了一套SD提示詞的使用規(guī)范,并以靜物攝影課為例,將生成種子固定后改變?nèi)我鈭雒嬲{(diào)度(Mise-en-scene)描述來直觀感受不同鏡頭語言間所蘊含的巨大故事差異[14]。同理,公共圖書館也可以用它來豐富自己的美育活動。例如,2024年上海圖書館東館少兒閱讀區(qū)曾使用適配少兒體驗的SD改良界面(圖3)開展過“二月二龍?zhí)ь^”AI畫龍活動。少年兒童可以通過動手調(diào)整不同風格、不同元素的圖片輸出,來繪制屬于自己的“龍”, 直觀感受傳統(tǒng)民俗與美術知識。
2.4 面向讀者的文創(chuàng)定制
DALL-E官網(wǎng)曾展示了一個有趣的應用場景,即對美術家維米爾的《帶珍珠耳環(huán)的少女》進行擴畫(outpainting)。該示例擴展了原始圖片的邊界,并盡可能地按照維米爾的風格模仿原作的陰影和亮點,生成新的視覺效果,或按提示詞生成新的組件。公共圖書館可以借鑒這一思路,開展更多的針對個人的文創(chuàng)訂制服務。浙江大學軟件學院團隊曾于2020年推出過一款人工智能文創(chuàng)產(chǎn)品定制服務平臺,提供風格遷移技術,可以將大師作品、非遺藝術表現(xiàn)在終端用戶的個人照片上[15]。除此以外,利用SD的局部重繪以及擴畫等功能,也可以對圖片數(shù)據(jù)進行二次創(chuàng)作,添加、補全個性化元素,最后基于POD(按需印刷)服務,為讀者制作抱枕、文化衫等個性化的文創(chuàng)用品。
3 AI圖像生成技術在圖書館的視覺呈現(xiàn)
目前來看,AI生成圖像的應用優(yōu)勢在于工作效率的提高、創(chuàng)造力的激發(fā)、圖像元素調(diào)整的能力以及成本的大幅降低。更重要的是,AI圖像生成技術是未來公共圖館發(fā)展“智慧圖書館”“元宇宙圖書館”的基點之一,是公共圖書館業(yè)務創(chuàng)新的有力工具。AI圖像生成除了可以輔助館員的創(chuàng)作、代替館員的勞動以外,還可進一步滿足館內(nèi)的視覺任務需求,深度介入圖書館的館藏開發(fā)、虛擬形象設計以及“元宇宙”未來發(fā)展戰(zhàn)略。
3.1 開發(fā)館藏數(shù)字藏品
AI生成技術改變了館藏資源開發(fā)的廣度和深度?;趫D像生成技術,公共圖書館可以更多地圍繞圖書資源(包括獨特印刷工藝、版式設計、書中故事場景人物等)、古籍文物、物理裝置裝飾(包括建筑與其內(nèi)一切有標識度的地標設計,如雕塑、擺件等)開展創(chuàng)意研發(fā)工作。2022年山東省藝術研究院聯(lián)合濟南皮影戲傳承人和支付寶“超維空間”,共同推出了國內(nèi)首個由AI打造的數(shù)字皮影藏品[16]。同年6月,百度應邀為西安美術學院的畢業(yè)展創(chuàng)作了AI數(shù)字藏品[17]。圖書館為了追求文化公益性,擴大影響力,更可以提供AI工具,鼓勵讀者對數(shù)字藏品進行二次創(chuàng)作,促進資源活化利用,反哺數(shù)字藏品的價值增值。
3.2 自建主題生成式大模型
AI大模型的參數(shù)是訓練樣本隱藏特征的高度濃縮,常常可以發(fā)現(xiàn)人眼所不能看到的細節(jié)。圖書館可以將特定領域的藏品(例如所有館藏的某大師作品、具有當?shù)靥厣姆沁z藝術作品等)輸入進大模型中,從而訓練(或微調(diào))獲得有針對性生成能力的模型。例如,中央美術學院于2024年初發(fā)布了自己的AI繪畫大模型,充分利用了其教學資源,并博采院內(nèi)前輩的創(chuàng)作理念與美術技巧,形成了國畫技法、風格和特點數(shù)據(jù)庫,以此訓練出獨有的繪畫大模型[18]。
同樣地,對公共圖書館而言,豐富的地方資源也是亟待開拓的沃土。例如,上海圖書館可以將收錄的大量民間年畫作為數(shù)據(jù),訓練得到AI上海年畫生成模型,并使之成為供圖書館活動項目使用的藝術體驗工具。此外,還可作為模型競賽對象,向社會開放訓練接口,舉辦生成效果評價比賽,鼓勵公眾利用AI研究館藏文獻資源所蘊含的藝術元素與畫法技巧。
3.3 制作特色虛擬人物形象
為了貼合年輕讀者群體,豐富活動形式,減少人員支出,可以將AI語言生成與圖像生成相結合,創(chuàng)建符合活動需求的、具有特定風格的虛擬數(shù)字人。在此基礎上,還可以利用人像動畫技術配合語音加以驅(qū)動,讓虛擬數(shù)字人生動起來。典型的有首都圖書館舉辦的“魯迅與首都三館”特展中推出的“AI魯迅”,魯迅的形象和面部表情都通過人工智能復原,再加上語言模型賦予的“魯迅口吻”,成功地讓讀者有機會與之來一場跨越時空的交流[19]。
3.4 打造元宇宙空間展呈
生成式AI的成熟,為“元宇宙”這一概念注入了新的發(fā)展動力。AIGC在革命元宇宙、改善沉浸式虛擬體驗方面有著巨大的潛力。當前,有許多研究嘗試將圖像生成技術應用于元宇宙中,從而代替人類完成諸如虛擬形象與NPC(非玩家角色)設計、數(shù)字模型內(nèi)容的創(chuàng)作、虛擬世界擬真等工作。許多學者正試圖解決虛擬2D-3D人臉轉換生成、表達情感的步態(tài)設計、草圖快速生成、以及自動光源、擬真材質(zhì)紋理等問題[20]。因此,AI圖像生成技術是構建未來元宇宙圖書館的重要技術支撐。目前應用大多集中在形象與NPC設計上,尤其是在虛擬會展方面,例如2022年上海外國語大學舉辦的“元宇宙與智慧圖書館”高端學術論壇,就同時將會議場所設置在元宇宙場景中,與會人員需要用AI生成自己的個性化“數(shù)字人”形象[21]。
除元宇宙圖書館外, AI還可以輔助設計沉浸式閱讀體驗活動,構建小型“元宇宙空間”。當需要用虛擬現(xiàn)實進行古籍、書籍場景(包含內(nèi)容、創(chuàng)作軼事、來歷說明等)展示時,可以用圖像生成技術繪制大量非核心要素的3D模型或貼圖素材。例如,新加坡國立圖書館已經(jīng)在館內(nèi)為讀者提供類似虛擬搭建的服務,可以根據(jù)書籍中的角色、類型、故事等關鍵詞生成相應場景,甚至能為故事添加轉折,呈現(xiàn)出不同的面貌,進一步增強讀者的閱讀體驗。
4 AI圖像生成技術在圖書館應用的實踐思考
根據(jù)前文提到的短期內(nèi)的應用場景,結合工作中的一些實踐經(jīng)驗,本文提出了在工作制度、“硬件”支持以及合作機制上的思考。與此同時,AI在圖像生成領域還具有實踐層面的風險,值得圖書館界警惕。
4.1 完善工作制度,保障業(yè)務正常開展
將AI繪畫納入進日常業(yè)務流程中,需要制度的保障。資源挖掘、設計開發(fā)、方案評定、版權歸屬、以及后續(xù)生成、修改、審核、發(fā)布等各個環(huán)節(jié)都需要建立起標準規(guī)范,以高效、穩(wěn)定地推進業(yè)務。例如,制定使用規(guī)范,合理分配計算資源,統(tǒng)籌建立使用協(xié)調(diào)機制;完善審核機制,采取多輪、多人、AI輔助的原則,排除各類風險內(nèi)容生成;引入專家評議機制,評估AI生成作品的完成度;總結經(jīng)驗,不斷迭代優(yōu)化館員使用說明等。
4.2 培養(yǎng)高水平管理團隊,注重“硬件”支持
AI圖像生成技術的的硬件門檻并不高。在消費級顯卡支持下,任何計算機都可以本地部署SD,甚至僅需12G顯存就可實現(xiàn)模型微調(diào)。其他商業(yè)平臺除了可以訂閱付費以外,也都提供了一定的免費使用額度,以滿足臨時需求。但更重要的是培養(yǎng)和建立高水平的管理團隊。面對AI領域的技術更新,館員在日常工作中需要注意提高自己的創(chuàng)造力,在了解館內(nèi)的各類資源特色的基礎上,保持對新技術的敏感度,在充分發(fā)掘技術潛力的基礎上打開思路,從多種維度的文化資源入手,快速準確地找到當下讀者復雜多變的文化需求“痛點”, 拓寬AI應用場景,創(chuàng)造技術應用的“新跑道”,加強館藏資源利用的廣度與深度。
4.3 建立合作機制,提升AI的服務能力
公共圖書館受到外部環(huán)境和技術進步的雙重影響,轉型升級壓力比較大,需要開展大量的外部合作。尤其是AI領域,目前一些公共圖書館選擇與高校、科研機構、高新技術企業(yè)合作,通過學術講座、技術培訓、競賽等形式,實現(xiàn)AI技術的普及,并進一步尋求技術落地機會。圖書館應該鼓勵員工和讀者體驗AI工具,通過使用后的探討來反過來督促合作單位提升AI的服務能力。但在合作中,也需要摒棄一些“局外人”的思維,避免讓技術成為裝飾,要注意建立完善的溝通糾錯制度,減少“為展而展”的情況。
4.4 尊重著作權人權利,警惕侵權風險
AI圖像生成自誕生之初就伴隨著版權爭論。目前實務中一般判斷版權存在的前提是不能脫離人的創(chuàng)作介入[22]。國內(nèi)第一起因使用AI生成圖片的著作權糾紛案(2023京0491民初11279號)的文書也顯示,具備“獨創(chuàng)性”要件、并體現(xiàn)了人的獨創(chuàng)性智力投入,才能被認定為作品、具有著作權。同時,由商業(yè)平臺產(chǎn)出的AI作品的著作權歸屬也非常嚴格[23],如“文心一格”的用戶協(xié)議就約定任何產(chǎn)出都歸屬于百度公司。與之相對的是以SD為基礎的開源平臺(包括SD),著作權則完全歸于用戶——當然Stability AI也不承擔任何相應責任。
此外,除了“著作權”歸屬爭議以外,其他類型的“侵權”風險也需要警惕。例如全球最大的圖片版權方蓋蒂(Getty)起訴SD的母公司Stability AI,指控其利用他們旗下的圖片產(chǎn)品進行訓練[24]。所以為了盡量避免引起紛爭,目前商業(yè)上流行的做法是在使用非開源的圖片集時,直接向版權所有者購買訓練輸入的權利。公共圖書館在自行訓練的時候,同樣需要判斷訓練用的圖片是否已經(jīng)開放版權,是否本館所有,是否符合所購買的數(shù)據(jù)庫的使用協(xié)議等。同理,圖書館需要預先制定好方案,以應對自己的館藏被未經(jīng)授權地訓練,并界定訓練模型所產(chǎn)出的作品的版權等。
4.5 健全AI生成得法,歸避內(nèi)容生成風險
影響圖書館的并非只有技術,背后折射的還有法律、倫理、價值觀上的問題,還需要公共圖書館界早做準備,注意歸避內(nèi)容風險。OpenAI可能會選擇犧牲出圖效果來規(guī)避用戶生成帶有不良信息的、高度吻合他人作品構圖的、侵犯他人肖像權的圖片,如DALL-E 3會完全屏蔽包含有近100年內(nèi)藝術家作品風格的提示詞。此外,當前的生成算法還有可能生成一些令人不適的元素,所以在業(yè)務中必須做到與讀者的“隔離”——例如在即時業(yè)務場景中使用UI界面等方式,人為制造與讀者見面的“時間差”(見前文AI畫龍活動)。另外,公共圖書館也需要保護自己的形象以免被惡意嫁接其他元素以生成不宜的圖像。
5 結語
本文在考察了國內(nèi)外主流AI圖像生成平臺的基礎上,分析并提出了有代表性的應用場景和圖書館建設需求。通過調(diào)查與實踐研究,現(xiàn)階段AI圖像生成技術已經(jīng)可以提高圖書館日常工作的效率,并在可視的未來進一步擴大公共服務的競爭力、改善日常業(yè)務水平。公共圖書館需要重視AI圖像生成技術的發(fā)展?jié)摿?,從團隊、制度、合作上建立合格的保障制度,不斷深入挖掘特色館藏與文化資源,從而設計富有創(chuàng)意和文化內(nèi)涵的活動和產(chǎn)品。最后,本文討論了新技術的部分局限和風險,公共圖書館需為此盡快布局,制定相應預案以應對后續(xù)風險挑戰(zhàn),以確保圖書館充分利用新技術優(yōu)勢,發(fā)揮自身的專長。
參考文獻:
馬樂存,詹希旎,朱齊宇,等.AIGC驅(qū)動的GLAM數(shù)智融合創(chuàng)新發(fā)展研究[J].農(nóng)業(yè)圖書情報學報,2023,35(5):4-15.
蔡子凡,蔚海燕.人工智能生成內(nèi)容(AIGC)的演進歷程及其圖書館智慧服務應用場景[J].圖書館雜志,2023,42(4):34-43,135-136.
BORJI A. Generated faces in the wild: quantitative comparison of stable diffusion, midjourney and dall-e 2[J]. arXiv preprint arXiv:2210.00586, 2022.
YANG L, ZHAN Z, SONG Y, et al. Diffusion models:a comprehensive survey of methods and applications[J]. arXiv preprint arXiv:2209.00796, 2022.
林令德,劉納,王正安.Adapter與Prompt Tuning微調(diào)方法研究綜述[J].計算機工程與應用,2023,59(2):12-21.
ZHOU C, LI Q, LI C, et al. A comprehensive survey on pretrained foundation models: a history from bert to chatgpt[J]. arxiv preprint arxiv:2302.09419, 2023.
教育裝備采購網(wǎng).第七屆未來智慧圖書館發(fā)展論壇暨第二十屆數(shù)智圖書館前沿問題高級研討會隆重開幕[EB/OL].[2024-06-04].https://www.caigou.com.cn/news/202405274.shtml.
國家圖書館.國家圖書館與百度開展戰(zhàn)略合作“文心一言”助力館藏文化資源活化[EB/OL].[2024-06-04].https://www.nlc.cn/web/dsb_zx/gtxw/20230905_2635873.shtml.
邊鈺.未來影視行業(yè),一定會有AI的身影?[N].四川日報,2023-07-21(009).
BLATTMANN A, DOCKHORN T, KULAL S, et al. Stable video diffusion: scaling latent video diffusion models to large datasets[J]. arxiv preprint arxiv:2311.15127, 2023.
LEE S H, SONG K S. Exploring the possibility of usingChatGPT and Stable Diffusion as a tool to recommendpicture materials for teaching and learning[J]. Journalof the Korea Society of Computer and Information, 2023, 28(4): 209-216.
LIU G, REDA F A, SHIH K J, et al. Image inpainting for irregular holes using partial convolutions[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 85-100.
LIN X, HE J, CHEN Z, et al. Diffbir: Towards blindimage restoration with generative diffusion prior[J]. arxiv preprint arxiv:2308.15070, 2023.
DEHOUCHE N, DEHOUCHE K. What’s in a text-to-image prompt? The potential of stable diffusion in visual arts education[J]. Heliyon, 2023.
軟件學院.浙大軟件學院學子作品“想定”斬獲中國設計智造大獎,亮相杭州文博會[EB/OL].[2024-06-04].http://www.cst.zju.edu.cn/2020/1124/c36202a2220275/page.htm.
蘇銳.文化科技融合迎來“創(chuàng)新表達”[N].中國文化報,2022-01-18(007).
李洋.“度曉曉”高考作文對人工智能的拷問[N].中國高新技術產(chǎn)業(yè)導報,2022-06-13(003).
新華網(wǎng).央美發(fā)布AI大模型,助力藝術與科技產(chǎn)業(yè)升級[EB/OL].[2024-06-04].http://www.xinhuanet.com/tech/20240115/67befc73040442478469e4ccfe8dc16a/c.html.
首圖快訊.北京城市圖書館四大特色爆款,亮相“5.19中國旅游日”北京分會場[EB/OL].[2024-06-04].https://www.clcn.net.cn/news/default/detail?id=3364.
QIN H X, HUI P. Empowering the metaverse with generative ai: Survey and future directions[C]//2023 IEEE 43rd International Conference on Distributed Computing Systems Workshops (ICDCSW). IEEE, 2023: 85-90.
陳彬.國內(nèi)圖書館界元宇宙會議上演“首秀”[EB/OL].[2024-06-04]. https://news.sciencenet.cn/htmlnews/2022/12/490853.shtm.
劉琳.人工智能生成成果的法律定性:以著作權法與專利法的異質(zhì)性為視角[J].科技與法律(中英文),2022(3):93-99.
趙凱.版權、倫理與價值觀審核:人工智能生成內(nèi)容(AIGC)對編輯職業(yè)能力的新挑戰(zhàn)[J].科技與出版,2023(8):62-68.
Matt O’Brien. Photo giant Getty took a leading AI image-maker to court. Now it’s also embracing the technology[EB/OL].[2024-06-04]. https://apnews.com/article/getty-images-artificial-intelligence-ai-image-generator-stable-diffusion-a98eeaaeb2bf13c5e8874ceb6a8ce196.
朱云琪 上海圖書館(上??茖W技術情報研究所)館員。 上海,201204。
趙慎安 上海圖書館(上??茖W技術情報研究所)館員。 上海,201204。
(收稿日期:2024-01-11 編校:劉 明)