蘇 晨 鄭佳勇 鄭曉如
(湖北工業(yè)大學(xué)工業(yè)設(shè)計(jì)學(xué)院,湖北 武漢 430068)
2023年人工智能生成內(nèi)容(AIGC)蓬勃發(fā)展,以ChatGPT為代表的生成式人工智能,開啟了全球第四次科技革命浪潮[1],越來越多的傳統(tǒng)產(chǎn)業(yè)開始意識到AI的潛力,家具產(chǎn)業(yè)也不例外。人工智能的開發(fā)與應(yīng)用,極大地推動了家具設(shè)計(jì)工作向著智能化、數(shù)字化方向轉(zhuǎn)變。中式家具是富有民族特色和文化魅力的傳統(tǒng)家具,其承載的區(qū)域文化源遠(yuǎn)流長[2]。中式家具智能設(shè)計(jì)研發(fā)需要綜合考慮傳統(tǒng)文化元素、現(xiàn)代設(shè)計(jì)理念、智能生成算法的三方融合。以中式家具的智能設(shè)計(jì)為研究對象,將傳統(tǒng)文化元素集成到人工智能生成的算法中,優(yōu)化智能設(shè)計(jì)在傳統(tǒng)文化產(chǎn)品上的應(yīng)用流程,提出基于卷積神經(jīng)網(wǎng)絡(luò)和擴(kuò)散算法相結(jié)合的智能設(shè)計(jì)模型,從算法邏輯上實(shí)現(xiàn)人工智能與傳統(tǒng)文化的融合發(fā)展,并將其應(yīng)用到家具設(shè)計(jì)上,以期推動中式傳統(tǒng)家具與當(dāng)代藝術(shù)、設(shè)計(jì)、科技等領(lǐng)域的交叉融合,進(jìn)而打造兼具時代性、前沿性和傳統(tǒng)韻味的新中式家具。
隨著人類進(jìn)入了一個知識外包的全新智能時代,使用AI工具協(xié)助工作學(xué)習(xí)必將成為各大行業(yè)的重要方向[3]。人工智能在家具設(shè)計(jì)領(lǐng)域取得不少成果,但也存在的一些局限性,特別在傳統(tǒng)家具產(chǎn)品的智能開發(fā)上。Hu等[4]構(gòu)建了家具風(fēng)格數(shù)據(jù)庫,利用基于深度學(xué)習(xí)的圖像分類方法對家具風(fēng)格(如美式風(fēng)格、洛可可風(fēng)格、哥特風(fēng)格等)進(jìn)行識別與特征提取。王思航[5]對模塊化家具與人工智能相關(guān)技術(shù)進(jìn)行了分析,提出了一套定制化衣柜家具的智能設(shè)計(jì)方法,用于輔助設(shè)計(jì)師提高工作效率,為企業(yè)帶來收益。清華大學(xué)未來實(shí)驗(yàn)室[6]利用圖像生成技術(shù)輸出320 000張新椅子圖片,展現(xiàn)了人工智能在產(chǎn)品造型推敲上的先導(dǎo)性。然而,其生成方案的成熟度與文化價值上有所欠缺,大多數(shù)生成方案存在趨同性的問題,需要設(shè)計(jì)師對其調(diào)整與再設(shè)計(jì)。由于缺乏對傳統(tǒng)文化的深度挖掘與數(shù)字融合,導(dǎo)致文化產(chǎn)品的智能設(shè)計(jì)會在一定程度上削弱其文化認(rèn)同和區(qū)域文化價值。人工智能輔助家具設(shè)計(jì)領(lǐng)域有了一定的研究,但在傳統(tǒng)中式家具的特征識別與智能設(shè)計(jì)生成的研究較少,也鮮有利用智能設(shè)計(jì)賦能傳統(tǒng)文化產(chǎn)品開發(fā)的文章。
中式家具的特點(diǎn)是結(jié)合我國的歷史、地域、習(xí)俗、信仰等因素,創(chuàng)造出了富有傳統(tǒng)特色和魅力的家具產(chǎn)品。中式家具設(shè)計(jì)的關(guān)鍵在于創(chuàng)新和傳統(tǒng)的協(xié)調(diào),要將傳統(tǒng)文化元素融入到家具設(shè)計(jì)中,需要有一定的創(chuàng)新能力和審美觀念,避免陷入刻板印象或過度夸張。同時也要平衡好傳統(tǒng)與現(xiàn)代、民族化與國際化之間的關(guān)系,使家具既能體現(xiàn)民族風(fēng)格,又能適應(yīng)當(dāng)代生活和審美需求[7]。本文用人工智能輔助中式家具的創(chuàng)新設(shè)計(jì),提出了基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)與潛在擴(kuò)散模型(LDM)的中式家具智能設(shè)計(jì)模型,從而將文化特征考慮到生成算法中,強(qiáng)化LDM算法對中式家具文化特征的識別和應(yīng)用,最后提供中式家具的方案生成。系統(tǒng)架構(gòu)如圖1 所示。
圖1 系統(tǒng)架構(gòu)Fig.1 System framework
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是一種專為圖像相關(guān)任務(wù)設(shè)計(jì)的特殊神經(jīng)網(wǎng)絡(luò),可以對圖像進(jìn)行高效、準(zhǔn)確的特征提取和分類[8]。中式家具的發(fā)展,亦是繼承與創(chuàng)新的關(guān)系,研究中式家具設(shè)計(jì),需要著重分析其產(chǎn)品符號語言。因此,對中式家具的創(chuàng)新設(shè)計(jì)需要確定中式家具產(chǎn)品符號的語言規(guī)則,比如確定其形態(tài)、材質(zhì)、裝飾等方面的特征,并在構(gòu)建樣本庫時人為地進(jìn)行分類,區(qū)分識別重心[9]。這些符號和象征作為中式家具特征識別的關(guān)鍵特征,將有助于CNN模型更加準(zhǔn)確地進(jìn)行中式家具特征識別和分類,判定其是否具有傳統(tǒng)文化特色。
由于傳統(tǒng)家具種類豐富,為便于開展研究,本文以椅子作為代表性家具,進(jìn)而整合傳統(tǒng)家具設(shè)計(jì)的共性研究。利用批量下載工具,從網(wǎng)絡(luò)上下載4 000余張傳統(tǒng)中式椅子的相關(guān)照片,并通過初步篩選,確定了1 500余個圖像樣本,包括完整椅子形態(tài)圖、材質(zhì)圖和裝飾紋樣圖。為便于后續(xù)圖像模型訓(xùn)練,對圖像做出以下規(guī)范:1)一張圖片中只包含單個對象;2)圖像大小大于224×224像素;3)各個特征的圖片數(shù)量大致均等(不宜相差過大);4)形態(tài)圖需要有完整的椅子單體,材質(zhì)圖需要凸顯木質(zhì)紋理,裝飾紋樣標(biāo)簽的紋樣清晰可見。最后由專業(yè)設(shè)計(jì)師與家具領(lǐng)域?qū)<疫M(jìn)行分類篩選,并確定了形態(tài)標(biāo)簽的椅子圖片562張,材質(zhì)標(biāo)簽的椅子圖片435張,裝飾紋樣標(biāo)簽的椅子圖片519張。
表1 中式家具樣本庫Tab.1 Sample library of Chinese furniture
圖像分類是圖像學(xué)習(xí)的基礎(chǔ),廣泛應(yīng)用于安全、交通、互聯(lián)網(wǎng)等計(jì)算機(jī)視覺領(lǐng)域。傳統(tǒng)的圖像識別方法大多采用特征提取和機(jī)器學(xué)習(xí)方法[10]。該方法需要手動設(shè)計(jì)特征提取器,然后再通過機(jī)器學(xué)習(xí)算法對提取的特征進(jìn)行學(xué)習(xí)與分類,而深度學(xué)習(xí)方法可以通過多層神經(jīng)網(wǎng)絡(luò)自動學(xué)習(xí)圖像中的特征[11]。這種端到端的學(xué)習(xí)方式可以減少特征工程的工作量和人為偏差,簡化了圖像分類流程,更適合大體量復(fù)雜的圖像識別任務(wù)。家具圖像比自然圖像更為復(fù)雜,圖像細(xì)節(jié)特征更為豐富,所涉及的運(yùn)算規(guī)模更大。因此,本節(jié)提出了基于CNN的中式家具特征識別方法。與傳統(tǒng)方法相比,它具有更好的靈活性和魯棒性,能實(shí)現(xiàn)對紋理、形狀和顏色等特征的識別提取,得到其設(shè)計(jì)造型上的語義特征。通過設(shè)置多個分類頭,最終實(shí)現(xiàn)對家具特征的識別,可以得出其整體造型是否符合中式家具形狀特征;其表面材質(zhì)是否符合中式家具紋理顏色特征;其上的裝飾紋樣是否具有中式家具紋樣的形狀特征。因此,模型的輸入應(yīng)該是中式家具圖像,輸出應(yīng)該是一個向量,代表中式家具的造型語義特征和材質(zhì)特征。
具體步驟如下:
1)使用Python中的OpenCV庫進(jìn)行圖像預(yù)處理。將所有圖像轉(zhuǎn)換為相同的大小、顏色空間和分辨率。常用的圖像預(yù)處理技術(shù)包括裁剪、旋轉(zhuǎn)、縮放和歸一化。在此階段加入數(shù)據(jù)增強(qiáng)環(huán)節(jié),對每個訓(xùn)練樣本進(jìn)行水平翻轉(zhuǎn)。最后將每個數(shù)據(jù)樣本與其水平反轉(zhuǎn)的樣本尺寸分辨率統(tǒng)一為224×224像素,作為深度網(wǎng)絡(luò)最終輸入。
2)使用深度學(xué)習(xí)框架Keras和Python搭建VGGNet 16模型,作為特征識別模型。VGGNet是一種常用于圖像識別的傳統(tǒng)深度卷積神經(jīng)網(wǎng)絡(luò)模型。VGGNet 16網(wǎng)絡(luò)有16層,其中包括13個卷積層和3個全連接層(圖2)。首先通過激活函數(shù)向CNN中引入了非線性元素,使CNN模擬真實(shí)環(huán)境中樣本數(shù)據(jù)的非線性分布。為了更好地發(fā)揮其特征識別的功能,并使其收斂速度更快,構(gòu)造了新的激活函數(shù)SReLU,兼具SoftSign和ReLU函數(shù)的優(yōu)點(diǎn),定義如下:
圖2 特征識別模型的網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 The network structure of feature recognition models
式中:yi為第i個激活函數(shù)f的輸入。激活函數(shù)層的輸入大于0時,取ReLU函數(shù)值;小于0時,取SoftSign函數(shù)值,表示不同顏色的圖像通道。ac為不同顏色通道的值,控制負(fù)半軸的輸入。
采用softmax對圖像進(jìn)行中式家具屬性分類,計(jì)算公式為:
式中:FurnitureP為中式家具特征屬性的概率輸出;hFC3為最后一層全連接層FC3的輸出。根據(jù)中式家具特征屬性的概率輸出,即可得到輸入樣本圖片具體的特征形容。
該網(wǎng)絡(luò)損失函數(shù)公式為:
式中:(x(i),y(i))為第i個樣本;m為訓(xùn)練樣本的個數(shù);hw(x)為假設(shè)函數(shù),表示出數(shù)據(jù)分布。
求出softmax損失函數(shù)的最小值,則是該算法訓(xùn)練的過程。最后模型末尾添加全局平均池化層和全連接層,三層的全連接層對卷積層提取的特征映射再進(jìn)行抽象和非線性融合,得到更有效的特征表達(dá),保持前兩個全連接層與原模型一致,將FC3的輸出修改為2。最后,把學(xué)習(xí)到的特征輸入到softmax分類層進(jìn)行細(xì)化輸出,得到具體的中式家具特征識別結(jié)果,比如其形態(tài)是否符合中式家具形狀的識別條件,材質(zhì)是否符合木質(zhì)的紋理顏色條件等。
3)訓(xùn)練模型并應(yīng)用。在訓(xùn)練時,可以使用傳統(tǒng)的分類模型訓(xùn)練方法,例如交叉熵?fù)p失函數(shù)、隨機(jī)梯度下降等,然后需要指定合適的損失函數(shù)和優(yōu)化器,例如softmax交叉熵?fù)p失函數(shù)、Adam優(yōu)化器等。訓(xùn)練模型需要輸入訓(xùn)練數(shù)據(jù)train_data和標(biāo)簽train_labels,以及驗(yàn)證數(shù)據(jù)validation_data和標(biāo)簽validation_labels,并指定訓(xùn)練輪數(shù)epochs和批次大小batch_size。訓(xùn)練參數(shù)會直接影響模型的最終應(yīng)用效果。經(jīng)過多次調(diào)整,具體參數(shù)如表2所示。采用Adam為優(yōu)化器,它是一種自適應(yīng)學(xué)習(xí)率的優(yōu)化算法,兼具AdaGrad和RMSProp算法的優(yōu)點(diǎn),能夠在訓(xùn)練過程中自動調(diào)整學(xué)習(xí)率。此處設(shè)置初始學(xué)習(xí)率為0.002。將步驟1)中建立的樣本庫按比例設(shè)置為訓(xùn)練集與測試集,對無法打開的數(shù)據(jù)進(jìn)行清洗,最終完成模型訓(xùn)練。
表2 訓(xùn)練參數(shù)Tab.2 Training parameters
為檢驗(yàn)網(wǎng)絡(luò)能否正確識別椅子風(fēng)格,輸入20張家具圖片進(jìn)行實(shí)際測試,最終輸出的特征識別符合率為85.6%,說明該模型真實(shí)可靠。應(yīng)用中式家具特征識別CNN模型對網(wǎng)絡(luò)爬蟲爬取的25 353張有效圖片數(shù)據(jù)進(jìn)行特征標(biāo)注,清洗不符合要求的圖片數(shù)據(jù),得到每張家具樣本的識別特征并建立相應(yīng)的數(shù)據(jù)集,為后續(xù)擴(kuò)散模型的條件輸入與訓(xùn)練提供數(shù)據(jù)集支撐。
智能設(shè)計(jì)在國內(nèi)學(xué)界已經(jīng)得到廣泛運(yùn)用。李雄等[12]采用生成對抗網(wǎng)絡(luò)(Generative Ad-versarial Networks,GANs)和神經(jīng)遷移進(jìn)行手繪草圖的渲染。裴卉寧等[13]運(yùn)用GANs的變體——深度卷積生成對抗網(wǎng)絡(luò)( DCGAN)快速生成汽車造型設(shè)計(jì)。程鵬飛等[14]采用基于卷積神經(jīng)網(wǎng)絡(luò)的風(fēng)格遷移技術(shù)完成泳衣的圖案設(shè)計(jì)。然而,目前國內(nèi)對智能設(shè)計(jì)的生成算法大多都采用GANs,對于運(yùn)用擴(kuò)散模型進(jìn)行智能設(shè)計(jì)相關(guān)研究較少。GANs的訓(xùn)練往往需要大量的調(diào)試和超參數(shù)優(yōu)化,而且容易遭遇模式崩潰等問題。相比之下,潛在擴(kuò)散模型(Latent Diffusion Model,LDM)的訓(xùn)練過程更加簡單和直觀,并且能控制圖像生成過程,使得生成的圖像更加符合用戶的需求[15]。然而,LDM在圖像生成中也存在一些缺陷。例如,對圖像細(xì)節(jié)、結(jié)構(gòu)特征以及樣式的把控不足等問題[16]。相比而言,CNN在圖像處理和特征提取方面具有良好的性能,可以加強(qiáng)擴(kuò)散算法在細(xì)節(jié)特征與圖形樣式方面的把控力。文化產(chǎn)品的智能設(shè)計(jì)開發(fā)需要注重其文化細(xì)節(jié)特征的呈現(xiàn)、保留與融合。因此,本文創(chuàng)新性地提出基于CNN與LDM的中式家具智能設(shè)計(jì)系統(tǒng),不僅是在中式家具領(lǐng)域智能化設(shè)計(jì)的突破性嘗試,更是擴(kuò)展了擴(kuò)散模型的運(yùn)用維度,打破了智能設(shè)計(jì)領(lǐng)域應(yīng)用算法單一的現(xiàn)狀。
2020年提出的去噪擴(kuò)散模型(Denoising Diffusion Probabilistic Model,DDPM),首次將擴(kuò)散模型運(yùn)用于圖像處理領(lǐng)域[17]。2021年12月,CompVis和Runway團(tuán)隊(duì)進(jìn)一步提出了潛在擴(kuò)散模型[18],在潛空間中完成擴(kuò)散過程,相比純擴(kuò)散模型快得多,在過去三年蓬勃發(fā)展,甚至間接引發(fā)了AI繪畫的技術(shù)浪潮。LDM的整體流程如圖3所示。
圖3 LDM整體流程Fig.3 LDM process
首先利用編碼器E將輸入圖像x壓縮為低維潛在數(shù)據(jù)z。前向擴(kuò)散過程會逐步向z中加入高斯噪音,一共有T步,即z0,z1,z2…zt-1,zt…zT,最終則輸出噪音圖像數(shù)據(jù)zT。前向過程q(zt|zt-1)指的是通過向低維潛在數(shù)據(jù)zt-1中添加高斯噪音得到zt,它是一個從t=1到t=T的馬爾科夫鏈,分布公式為:
式中:z為一個從真實(shí)數(shù)據(jù)分布中抽出的數(shù)據(jù)q(z)[即z0~q(z)];βt(0≤βt≤1)為差異時間表(Variance Schedule),是一個隨時間變化的變量。
在此過程中,需要保證T足夠大和βt的設(shè)定合理。定義和αt=1-βt,再通過重參數(shù)技術(shù),才能最后得到服從分布q(zt|z0)的任意一個樣本zt。
接著輸入需要條件,比如語義或者特征向量。本研究在此處對接了CNN特征識別模型輸出的中式家具特征向量,作為條件輸入。經(jīng)語言模型τθ將它們轉(zhuǎn)換為嵌入向量即低維表征形式,一般采用BERT文本編碼器進(jìn)行轉(zhuǎn)化,并與zT進(jìn)行擬合,再通過交叉注意力(Q,K,V)映射到U-Net網(wǎng)絡(luò)層。U-Net作為擴(kuò)散模型的主干網(wǎng)絡(luò),可以對噪音進(jìn)行預(yù)測,從而實(shí)現(xiàn)反向去噪過程,即從高斯噪音中采樣并繪制圖像。由于反向去噪過程未知,因此運(yùn)用U-Net神經(jīng)網(wǎng)絡(luò)對降噪過程p(zt-1|zt)進(jìn)行學(xué)習(xí)。θ是神經(jīng)網(wǎng)絡(luò)的參數(shù),該神經(jīng)網(wǎng)絡(luò)的目標(biāo)是利用zt去學(xué)習(xí)zt-1的概率分布。去噪過程公式表示為:
式中:pθ(zt-1|zt)是一個需要計(jì)算均值μθ和方差Σθ的高斯分布,p(zt)=N(zT;0,I)是隨機(jī)采樣的高斯噪音。
正向添噪與反向去噪的過程反復(fù)進(jìn)行,最終得到一個新的潛在數(shù)據(jù)z,再通過解碼器D,將其解碼回圖像,完成新圖像的生成。傳統(tǒng)GAN包括生成器和判別器,生成器用于生成畫作,判別器將判斷該圖像是否合格。兩者不斷競爭學(xué)習(xí),迭代生成,最終輸出合格的畫作[19]。而LDM只需要生成器,通過正向擴(kuò)散與反向去噪迭代運(yùn)算完成后,重建一個以相同分布為先驗(yàn)的全新樣本,進(jìn)而解碼輸出圖像。擴(kuò)散模型的算法更加簡單高效,在智能設(shè)計(jì)與方案生成方面具有很大的潛力與研究價值。
搭建基于CNN和LDM的中式家具智能設(shè)計(jì)模型,首先要建立VAE變分自編碼器,將CNN輸出特征向量和原始圖片數(shù)據(jù)轉(zhuǎn)化為低維潛在向量。然后,將這些低維潛在向量輸入到所建立的LDM模型并完成模型訓(xùn)練。最終輸出方案,并對生成模型進(jìn)行評估,具體步驟如下:
1)搭建變分自編碼器(VAE),完成中式家具特征向量的輸入,作為LDM模型的初始狀態(tài)。在第二節(jié)中,筆者用CNN構(gòu)建了中式家具特征識別模型,要將其輸出結(jié)果對接至潛在擴(kuò)散模型。首先,需要通過VAE把高維特征向量與調(diào)用的圖像數(shù)據(jù)降維成低維潛在向量。VAE包括編碼器E與解碼器D,編碼器將輸入內(nèi)容轉(zhuǎn)化為低維表示形式,使得擴(kuò)散過程是在該低維表征中進(jìn)行,擴(kuò)散過程完成后,再通過解碼器將其解碼編譯成圖片,完成最后的圖像輸出。Python搭建VAE主要代碼見表3。
表3 VAE搭建代碼Tab.3 VAE building code
2)建立并訓(xùn)練LDM模型。在Python中借助開源機(jī)器學(xué)習(xí)庫PyTorch載入預(yù)訓(xùn)練的潛在擴(kuò)散模型,定義一個包含多個擴(kuò)散步驟的模型,每個擴(kuò)散步驟包含一個可逆塊和一個通道注意力機(jī)制。這里定義1 000個擴(kuò)散步驟,每次生成4個圖像。在潛在空間中,使用擴(kuò)散模型來生成新的中式家具設(shè)計(jì)。在每個迭代步驟中,模型會從之前的圖像中提取特征,然后在潛在空間中執(zhí)行一個擴(kuò)散過程,生成新的潛在向量。最終通過VAE逆向映射到圖像空間中,生成新的中式家具設(shè)計(jì)方案。潛在擴(kuò)散模型的目標(biāo)是在潛在空間中生成新的樣本,使得這些樣本盡可能地接近于訓(xùn)練數(shù)據(jù)的分布,越接近于原始數(shù)據(jù)分布,說明得到的數(shù)據(jù)越像真實(shí)數(shù)據(jù),具體的損失函數(shù):
式中:εt為添加的高斯噪音;εθ(zt,t)是一個神經(jīng)網(wǎng)絡(luò),用于預(yù)測從z0到zt時刻添加的噪聲。
訓(xùn)練過程不需要對所有時間片進(jìn)行訓(xùn)練,可以直接采樣t時刻,然后得到xt并用神經(jīng)網(wǎng)絡(luò)預(yù)測添加的噪音即可。訓(xùn)練過程見表4 中的Algorithm 1。樣本生成過程是個反向去噪的過程,也就是zt到zt-1的過程。利用前一步訓(xùn)練得到的εθ(zt,t),循環(huán)T步逐步去噪,即可從噪音中恢復(fù)一個像真實(shí)數(shù)據(jù)分布的新數(shù)據(jù)z0,樣本生成過程見表4的Algorithm 2。
表4 訓(xùn)練和樣本生成的偽代碼Tab.4 Pseudocode for training and sample generation
完成樣本生成,以中式椅子樣本輸出為例,圖4分別采樣不同迭代次數(shù)下LDM生成網(wǎng)絡(luò)的4份輸出圖像數(shù)據(jù),從左到右依此為擴(kuò)散次數(shù)250次,500次,750次,1 000次??梢钥闯?,生成的圖片隨著擴(kuò)散次數(shù)的增加越來越清晰,表明擴(kuò)散過程在不斷擬合輸入的特征識別條件,并越來越接近真實(shí)圖像分布(圖4)。
圖4 不同迭代次數(shù)下LDM輸出圖像Fig.4 LDM output image with different number of iterations
3)生成模型評估。采用Frechet Inception Distance(FID)定量評估和專家主觀評估對生成圖像進(jìn)行評估決策,以檢驗(yàn)LDM模型的生成質(zhì)量。FID是一種用于評估生成模型和真實(shí)數(shù)據(jù)分布之間差異的指標(biāo),主要用于評估圖像生成任務(wù)中生成圖像的質(zhì)量[20]。FID計(jì)算生成樣本和真實(shí)樣本在Inception v3模型中的激活特征之間的Fréchet距離,即生成樣本和真實(shí)樣本在特征空間中的差異程度,公式表示為:
式中:μ1和μ2分別表示真實(shí)圖像和生成圖像在Inception模型中的特征向量均值;Σ1和Σ2分別表示真實(shí)數(shù)據(jù)分布和生成模型的協(xié)方差矩陣;Tr表示矩陣的跡操作。
通過計(jì)算兩個分布的均值和協(xié)方差,最終得到FID值,F(xiàn)ID越小,則圖像質(zhì)量越高,圖像分布越接近真實(shí)數(shù)據(jù),如表5所示。當(dāng)FID值在0~15之間時,通常被認(rèn)為是非常優(yōu)秀的結(jié)果,表示生成圖像與真實(shí)圖像非常接近;特別當(dāng)FID值為0時,也就代表生成圖像與真實(shí)圖像一模一樣。FID值的大小標(biāo)準(zhǔn)與模型實(shí)際應(yīng)用場景相關(guān),當(dāng)生成模型是為了進(jìn)行圖片去噪、高分辨率圖像合成時,則FID值越接近0,效果越好[21]。但由于本研究的目的是為了輔助中式椅子創(chuàng)新設(shè)計(jì)工作,生成圖像需要與原始圖像有所不同,才有創(chuàng)新設(shè)計(jì)價值,因此FID值在15~30之間最佳。此時生成圖像與真實(shí)圖像有所差異與變動,并且圖像質(zhì)量水平與細(xì)節(jié)特征的完整度已達(dá)到設(shè)計(jì)要求。在訓(xùn)練智能設(shè)計(jì)模型時,迭代步數(shù)是指進(jìn)行參數(shù)估計(jì)和主題更新的迭代次數(shù)[22]。通過多次實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)?shù)綌?shù)超過250次時,學(xué)習(xí)曲線的代價值與訓(xùn)練錯誤值[23]大幅增加,模型容易出現(xiàn)過度擬合訓(xùn)練數(shù)據(jù)的情況。本研究把迭代步數(shù)設(shè)置為200次,此時模型輸出的圖像質(zhì)量和FID值基本滿足設(shè)計(jì)需求,與真實(shí)圖像的差異合適。專家主觀評估[24]采取打分方式,邀請5位行業(yè)專家對生成方案的美觀性、特征細(xì)節(jié)、圖像完整性進(jìn)行評分,并根據(jù)標(biāo)準(zhǔn)權(quán)重計(jì)算得出方案滿意度,滿意度越高則代表生成效果越好。
表5 FID值變化結(jié)果Tab.5 Change in FID value
為了進(jìn)一步驗(yàn)證本文提出的基于CNN和LDM的中式家具智能設(shè)計(jì)的可行性,將其與GAN生成模型、VAE生成模型[25-27]、圖文預(yù)訓(xùn)練CLIP生成模型[28-30]進(jìn)行對比分析,結(jié)果如表6所示。由數(shù)據(jù)可知,本文提出的基于CNN和LDM的設(shè)計(jì)模型FID值最終為21.76,方案滿意度為81.6%,優(yōu)于其他生成模型。該創(chuàng)新性的智能設(shè)計(jì)模型得益于在設(shè)計(jì)生成階段融合了CNN所提取的特征向量,使得生成的椅子圖片所具有的中式家具特征細(xì)節(jié)更為完善美觀,智能設(shè)計(jì)效果更加成熟可靠,在文化產(chǎn)品的智能設(shè)計(jì)上表現(xiàn)出極大的可行性與優(yōu)勢。
表6 對比結(jié)果Tab.6 Comparison results
本文提出了一種運(yùn)用CNN和LDM特性的智能設(shè)計(jì)模型,以中式椅子為例,通過CNN對椅子圖像的學(xué)習(xí),提取中式家具形狀和色彩紋理特征,再將其所提取的特征向量輸入到LDM中,進(jìn)而快速生成兼具傳統(tǒng)韻味和現(xiàn)代審美的中式家具創(chuàng)新設(shè)計(jì)方案。
通過對智能設(shè)計(jì)模型進(jìn)行評估,與GAN、VAE、CLIP模型進(jìn)行FID值和方案滿意度對比發(fā)現(xiàn),該智能設(shè)計(jì)模型能夠有效實(shí)現(xiàn)中式家具的創(chuàng)新設(shè)計(jì),最大化發(fā)揮了人工智能在圖像處理與內(nèi)容生成方面的優(yōu)勢,解決了文化產(chǎn)品的智能設(shè)計(jì)極易缺乏文化價值和傳統(tǒng)特征的問題。
針對后續(xù)研究,將繼續(xù)完善文化產(chǎn)品智能設(shè)計(jì)系統(tǒng),建立人工智能輔助文化產(chǎn)品開發(fā)的科學(xué)體系,并進(jìn)一步延伸至其他傳統(tǒng)文化產(chǎn)品的創(chuàng)造性轉(zhuǎn)化,為計(jì)算機(jī)技術(shù)與人文學(xué)科融合發(fā)展提供參考。