基于圖像生成技術(shù)的產(chǎn)品設(shè)計

2024-12-27 00:00:00肖柏元

中國新技術(shù)新產(chǎn)品 2024年18期

關(guān)鍵詞：產(chǎn)品設(shè)計神經(jīng)網(wǎng)絡(luò)創(chuàng)新

摘要：圖像生成是一個融合計算機視覺和自然語言處理的綜合問題，在設(shè)計領(lǐng)域得到廣泛應(yīng)用。深度學(xué)習(xí)技術(shù)的圖像生成模型不斷發(fā)展，為產(chǎn)品設(shè)計的創(chuàng)作實踐帶來更多技術(shù)方面的可能性。采用圖像描述技術(shù)輔助機器學(xué)習(xí)“看圖說話”，不僅可以提取圖像內(nèi)容，而且可以高效地表示圖像中的目標(biāo)及其關(guān)聯(lián)。本文結(jié)合深度學(xué)習(xí)技術(shù)，采用神經(jīng)網(wǎng)絡(luò)和圖像邊緣提取技術(shù)相結(jié)合的方法進行圖像描述。使用圖像生成技術(shù)進行產(chǎn)品設(shè)計，搭建深度學(xué)習(xí)模型，在圖像數(shù)據(jù)集中進行訓(xùn)練，使其能生成給定目標(biāo)描述的圖像，探討圖像生成技術(shù)對產(chǎn)品設(shè)計產(chǎn)生的影響，為產(chǎn)品設(shè)計提供應(yīng)用圖像生成技術(shù)的創(chuàng)新思路。

關(guān)鍵詞：圖像生成技術(shù)；深度學(xué)習(xí)技術(shù)；神經(jīng)網(wǎng)絡(luò)；產(chǎn)品設(shè)計；創(chuàng)新

中圖分類號：TP 319" " " " " 文獻(xiàn)標(biāo)志碼：A

圖像生成技術(shù)的發(fā)展對設(shè)計領(lǐng)域產(chǎn)生了顯著影響。其提高了設(shè)計效率，使設(shè)計師能夠更快地完成設(shè)計方案和效果圖制作，還降低了設(shè)計成本，減少了對實體材料和人工制作的需求。圖像生成技術(shù)還拓展了創(chuàng)意可能性，使設(shè)計師能夠嘗試更多元化的設(shè)計風(fēng)格和表現(xiàn)手法，這些變革為設(shè)計領(lǐng)域帶來了創(chuàng)新和更多的發(fā)展機會。未來，隨著圖像生成技術(shù)的不斷進步和應(yīng)用場景的不斷拓展，圖像生成技術(shù)將在設(shè)計領(lǐng)域發(fā)揮更加重要的作用。因此，應(yīng)該積極關(guān)注圖像生成技術(shù)的發(fā)展動態(tài)，不斷探索其在設(shè)計領(lǐng)域的新應(yīng)用和新可能性。

1 利用圖像生成技術(shù)的產(chǎn)品設(shè)計思路分析

本文列舉具體案例來論證圖像生成技術(shù)在設(shè)計領(lǐng)域的應(yīng)用和變革。例如，在工業(yè)產(chǎn)品設(shè)計領(lǐng)域，設(shè)計師可以利用圖像生成技術(shù)快速構(gòu)建逼真的三維模型和虛擬場景，進行前期設(shè)計和評估。在建筑設(shè)計領(lǐng)域，圖像生成技術(shù)可以模擬建筑在不同光線和環(huán)境中的效果，幫助設(shè)計師更好地把握設(shè)計效果。這些案例說明圖像生成技術(shù)推動了設(shè)計領(lǐng)域的創(chuàng)新和發(fā)展，并證明了其在設(shè)計領(lǐng)域的實用價值和潛力。

圖像描述自動生成系統(tǒng)的基本原理是使用神經(jīng)網(wǎng)絡(luò)構(gòu)建模型擬合數(shù)據(jù)[1]。系統(tǒng)基于編碼解碼器（Decoder）結(jié)構(gòu)，設(shè)計原理如圖1所示。系統(tǒng)包括訓(xùn)練模型和使用模型2個部分。訓(xùn)練模型部分包括圖像數(shù)據(jù)預(yù)處理、描述信息預(yù)處理、模型搭建以及訓(xùn)練幾個模塊，使用模型部分包括模型評估、生成描述2個模塊。在產(chǎn)品設(shè)計中，圖像自動生成系統(tǒng)能夠滿足用戶需求，并對相關(guān)產(chǎn)品進行描述，設(shè)計結(jié)果能夠以模型圖片的形式立體地呈現(xiàn)給用戶。

2 深度學(xué)習(xí)模型搭建及訓(xùn)練

圖像描述的主流設(shè)計采用Encoder-Decoder結(jié)構(gòu)，Encoder的作用是將輸入圖像編碼為特征張量，Encoder 在圖像預(yù)處理階段將圖像轉(zhuǎn)化為特征張量，Decoder將特征張量解碼為生成詞的概率。本模型引入Attention機制，即每個時間步模型都會將注意力放在特征的某一部分。Attention為一個表示概率的權(quán)重向量，與特征張量相乘后作為LSTM的輸入。Decoder是LSTM建模的一種方法，其優(yōu)點是對長序列輸入適應(yīng)性較好。將經(jīng)過Attention的特征張量與LSTM網(wǎng)絡(luò)上一個時間步的輸出融合，作為LSTM下一步的輸入。LSTM的輸出經(jīng)過全連接層變換可以生成代表原始語料庫的新序列。

設(shè)輸入的圖像特征為x，輸出為y，經(jīng)過Attention變換的上下文特征為z。當(dāng)圖像輸入時歸一化為299×299，經(jīng)過InceptionV3至mixed7層，再加一層最大池化（Max Pooling）輸出為8×8×768維特征，再經(jīng)過一層全連接層降為8×8×512維特征，reshape為64×512維特征。X為{x1，…，xi，…，xL}，L大小為8×8=64，xi維度為512，即64×512。Z為{z1，…，zt，…，zc}。zt也為512維特征，共有C個，C為句子的最大單詞數(shù)。t為某一個時間步，Y為{y1，…，yt，…，yc}，yt為每個時刻的模型輸出，yt為K維概率，K為詞典的大小。zt為特征x的加權(quán)和，αt為權(quán)重。zt的計算過程如公式（1）所示。

zt=αtT×α " " " " " （1）

式中：α為輸出。

αt的維度為64，記錄α每個位置獲得的關(guān)注度。由前一個時間步的LSTM輸出與圖像特征變換得到αt，如公式（2）、公式（3）所示。

et=relu（fe1×set） " " " （2）

αt=Softmax（fc（et）） " " "（3）

式中：et為序列使用Decoder輸出的特征；relu為輸出結(jié)果；fe1為由圖像特征x經(jīng)過包括全連接等多次變換由64×512轉(zhuǎn)變?yōu)?4×512維的特征，句子最大單詞數(shù)為34，即最大時間步長；set為當(dāng)前時間步已有詞經(jīng)過embedding嵌入后得到的序列；fc（）為全連接層。

經(jīng)過加權(quán)的zt和該時刻的文本序列融合后輸入LSTM，得到的輸出經(jīng)過激活函數(shù)為Softmax的全連接層轉(zhuǎn)化為維度為詞典大小的詞概率向量yt。

模型搭建和訓(xùn)練模塊能夠正確輸入訓(xùn)練集與驗證集數(shù)據(jù)，可以正常進行模型訓(xùn)練，還可以采用TensorBoard的方式回顧訓(xùn)練過程的損失變化，可以保存訓(xùn)練過程中表現(xiàn)較好的模型。

在訓(xùn)練過程中的損失變化曲線如圖2所示。訓(xùn)練初期損失值下降比較快，訓(xùn)練中期下降速度明顯減緩，訓(xùn)練后期下降緩慢。

模型評估模塊能夠正確讀取測試集的數(shù)據(jù)，并正常完成評估計算，輸出評估得分。模型的BLEU分?jǐn)?shù)見表1。

BLEU-n計算待評價文本與參考文本的“n單位片段”的匹配度，n-單位片段即連續(xù)的n個單詞，匹配度越高，兩者質(zhì)量越接近，待評價文本得分越高。

生成描述模塊能夠正確接受輸入圖像并進行預(yù)處理，可以獲取預(yù)測結(jié)果并生成描述，返回給用戶。測試實例如圖3、圖4所示。

由圖3、圖4可知，有些描述可以比較準(zhǔn)確地表達(dá)圖像的內(nèi)容，最終訓(xùn)練完的模型在訓(xùn)練集上的損失值為2.880，在驗證集上的損失值為3.368。訓(xùn)練后期驗證集中的損失值比訓(xùn)練集上的損失值平均提高約0.5，存在一定的過擬合。

3 相關(guān)算法和技術(shù)

3.1 神經(jīng)網(wǎng)絡(luò)基本原理

20世紀(jì)80年代以來，在人工智能領(lǐng)域神經(jīng)網(wǎng)絡(luò)（Neural Network，NN）成為研究熱點[2]。其模擬大腦中神經(jīng)元的活動特性，對不同類型的數(shù)據(jù)進行平行處理。神經(jīng)網(wǎng)絡(luò)是由多個神經(jīng)元互聯(lián)而成的，每個神經(jīng)元表示一個特殊的輸出功能，稱為激活函數(shù)，常見的激活函數(shù)有Sigmoid、tanh、ReLU和Softmax。1個簡單的神經(jīng)網(wǎng)絡(luò)是由輸入層、隱藏層和輸出成組成的，每層都有若干神經(jīng)元，輸入層接受線性組合的輸入，經(jīng)過隱藏層的非線性的激活函數(shù)，得到非線性的輸出，這個過程如公式（4）所示。

a=f（w?x+b） " " " " " "（4）

式中：a為輸出；f（）為激活函數(shù)；w為權(quán)重；x 為輸入； b 為偏移。

引入激活函數(shù)可以為神經(jīng)元引入非線性因素，使神經(jīng)網(wǎng)絡(luò)能夠逼近任何非線性函數(shù)，應(yīng)用于各種非線性模型中。

采用反向傳播（back propagation）算法[3]對神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練。每次運算從輸入層輸入向量，經(jīng)過層層網(wǎng)絡(luò)計算得到輸出，根據(jù)損失函數(shù)（loss function）將輸出與正確結(jié)果的差值進行計算，從最后一層開始層層后退，依次調(diào)整神經(jīng)元的參數(shù)。采用這種方法不斷調(diào)整參數(shù)，直至輸出結(jié)果滿意為止。

3.2 圖像邊緣提取技術(shù)

3.2.1 雙向跟蹤

圖像生成需要建立影像邊界，與傳統(tǒng)的彩色圖像邊緣提取策略不同，本文提出了一種基于雙向跟蹤的多通道彩色圖像邊緣提取技術(shù)，融合正向跟蹤即下跟蹤（Forward Tracking，F(xiàn)T）和逆向跟蹤即上確認(rèn)（Backward Confirm，BC）的雙向跟蹤。前向追蹤即向下追蹤，其作用是建立影像的初始邊界輪廓。該算法充分利用了彩色影像的光、色等特征，為進一步細(xì)化邊界檢測奠定了基礎(chǔ)。反向追蹤是一種向上證實的方法，其利用前向追蹤來提高邊界的辨識性能，保證所抽取邊界的準(zhǔn)確性和清晰度。基于此，本文提出一種將前向追蹤與后向追蹤相結(jié)合的多路融合算法，對彩色影像進行準(zhǔn)確、完整和自然的邊緣檢測。本文研究將進一步完善現(xiàn)有的基于顏色特征的彩色圖像邊界檢測方法，并為其他研究提供新思路。

雙相跟蹤步驟如圖5所示，令E（k）（k=1，2，3）為第k個通道生成的邊緣，F(xiàn)T定義為Ef（k）=F（E（k），E（k+1）），BC定義為Eb（k）=B（E（k），E（k+1）），其中Ef（k）為在FT操作后產(chǎn)生的邊緣圖，Eb（k）為在BC操作后產(chǎn)生的邊緣圖，該圖根據(jù)多通道彩色圖像邊緣提取技術(shù)原理，利用雙向跟蹤進行邊緣提取和圖像檢測。

3.2.2 邊緣提取

基于雙向跟蹤的多通道彩色圖像邊緣提取技術(shù)算法分步效果展示如圖6所示。第一行是原圖，第二行是經(jīng)過R、G和B 3個通道中的灰度圖，第三行是在灰度圖的基礎(chǔ)上使用邊緣提取算子得到的二值圖。

二值化排序如圖7所示，采用排序算法將第一行的3幅二值圖中的邊緣數(shù)目進行降序排序，得到第二行的3幅排好序的邊緣二值圖。雙向跟蹤后的結(jié)果與原圖的效果展示如圖8所示。

BSDS500數(shù)據(jù)集中的1幅原圖如圖8（a）所示，采用本文算法進行邊緣提取后的最終效果如圖8（b）所示。

邊緣數(shù)目對比見表2。表2為經(jīng)過R、G和B 3個通道的邊緣提取后的邊緣數(shù)目與本文算法最終邊緣圖的邊緣數(shù)目。邊緣數(shù)目為1 603、1 624和1604，在使用算法進行提取后，最終邊緣數(shù)目為1 228，結(jié)果更為精準(zhǔn)。

4 圖像生成技術(shù)在產(chǎn)品設(shè)計中的應(yīng)用以及影響

4.1 縮短產(chǎn)品設(shè)計創(chuàng)作時間，提升產(chǎn)品設(shè)計創(chuàng)作質(zhì)量和效率

產(chǎn)品設(shè)計者利用圖像生成技術(shù)輔助完成產(chǎn)品設(shè)計創(chuàng)作，將極大程度地縮短產(chǎn)品設(shè)計創(chuàng)作的時間，提升產(chǎn)品設(shè)計創(chuàng)作質(zhì)量和效率。隨著圖像生成技術(shù)的普及和應(yīng)用，專業(yè)設(shè)計軟件增加了許多智能生成功能和工具，工具內(nèi)置專家系統(tǒng)和專業(yè)圖像生成資源庫，用戶只需明確設(shè)計需求和創(chuàng)意，就可以利用機器生成設(shè)計[4]。同時，利用圖像生成技術(shù)智能生成的具有藝術(shù)和創(chuàng)造性的可編輯應(yīng)用圖像給產(chǎn)品設(shè)計者在創(chuàng)作素材、設(shè)計構(gòu)思、結(jié)構(gòu)、材質(zhì)、色彩、裝飾以及工藝形式等方面提供靈感，可以更好地激發(fā)設(shè)計者的創(chuàng)造性，創(chuàng)作出質(zhì)量更高的設(shè)計。

4.2 使產(chǎn)品設(shè)計者的設(shè)計思維和邏輯發(fā)生轉(zhuǎn)變

隨著圖像生成技術(shù)在產(chǎn)品設(shè)計中的廣泛運用，作為產(chǎn)品設(shè)計核心價值中的創(chuàng)意部分需要設(shè)計者來進行構(gòu)建，其可以利用圖像生成技術(shù)輔助完成產(chǎn)品設(shè)計其他各環(huán)節(jié)中的實操部分。圖像生成技術(shù)在產(chǎn)品設(shè)計中的應(yīng)用使產(chǎn)品設(shè)計從注重表現(xiàn)產(chǎn)品的功能、造型、材質(zhì)和色彩為主，轉(zhuǎn)向產(chǎn)品整體設(shè)計方案、智能技術(shù)在產(chǎn)品設(shè)計中的運用為主，并重視用戶體驗，使產(chǎn)品設(shè)計者的設(shè)計思維和邏輯發(fā)生轉(zhuǎn)變。產(chǎn)品設(shè)計者需要更聚焦于管理、創(chuàng)造和溝通工作，參與模型和算法的設(shè)計，建立機器學(xué)習(xí)數(shù)據(jù)庫和設(shè)計算法，驅(qū)動人工智能生成和篩選設(shè)計作品[5]。設(shè)計者需要具備跨專業(yè)領(lǐng)域的視野和快速學(xué)習(xí)的能力，才能保持自己在行業(yè)中的從業(yè)優(yōu)勢和競爭力[6]。

4.3 提升產(chǎn)品設(shè)計的可視化體驗，創(chuàng)新產(chǎn)品設(shè)計的表現(xiàn)形式

在傳統(tǒng)的產(chǎn)品設(shè)計過程中，有設(shè)計構(gòu)思、素材收集、繪制創(chuàng)意草圖和方案圖、三維建模、效果圖渲染和圖片后期處理等實操環(huán)節(jié)，現(xiàn)在可以利用圖像生成技術(shù)生成具有藝術(shù)和創(chuàng)造性的可編輯應(yīng)用圖像，為產(chǎn)品提供了新的設(shè)計思路和方法。圖像生成技術(shù)可以幫助設(shè)計師快速建立三維模型，使設(shè)計師能夠更好地了解產(chǎn)品的外觀造型和內(nèi)部結(jié)構(gòu)，同時可以利用虛擬技術(shù)進行產(chǎn)品設(shè)計的可視化展示。設(shè)計師能夠在虛擬的環(huán)境中對作品進行設(shè)計和改進，能夠嘗試更多元化的設(shè)計風(fēng)格和表現(xiàn)手法，使產(chǎn)品設(shè)計越來越有創(chuàng)意，創(chuàng)新了產(chǎn)品設(shè)計的表現(xiàn)形式。

5 結(jié)語

本文對基于圖像生成技術(shù)的產(chǎn)品設(shè)計進行研究，對系統(tǒng)進行了可行性分析和需求分析，確定了基于圖像生成技術(shù)的產(chǎn)品設(shè)計的設(shè)計思路。本文由圖像生成入手，結(jié)合深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)和圖像邊緣提取技術(shù)對圖像進行描述，利用信息采集對圖像特征進行提取，在圖像數(shù)據(jù)集中搭建深度學(xué)習(xí)模型進行訓(xùn)練，生成給定圖像的目標(biāo)描述，探討圖像生成技術(shù)對產(chǎn)品設(shè)計產(chǎn)生的影響，為產(chǎn)品設(shè)計提供應(yīng)用圖像生成技術(shù)的創(chuàng)新思路。

參考文獻(xiàn)

[1]曾俊. 圖像邊緣檢測技術(shù)及其應(yīng)用研究[D]. 武漢：華中科技大學(xué)，2011.

[2]李津.圖像生成技術(shù)在美術(shù)課程教育中的應(yīng)用[J].美術(shù)教育研究，2024（8）：154-156，175.

[3]劉云，夏貴羽，孫玉寶，等.基于人體圖像生成的姿態(tài)無關(guān)人物識別[J].測控技術(shù)，2024，43（4）：61-67.

[4]汪睿.圖像生成技術(shù)對視覺傳達(dá)設(shè)計的影響[J].科技視界，2024，14（3）：46-48.

[5]王洪亮，徐嫜娣.人工智能藝術(shù)與設(shè)計[M].北京：中國傳媒大學(xué)出版社，2022.

[6]鄭昕怡.智能技術(shù)變革與未來設(shè)計師身份的重構(gòu)[J].美術(shù)大觀，2020（12）：138-141.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于圖像生成技術(shù)的產(chǎn)品設(shè)計