摘 要:基于卷積神經(jīng)網(wǎng)絡的陜北傳統(tǒng)窗欞紋樣分類研究通過對陜北傳統(tǒng)建筑窗欞紋樣進行數(shù)字化提取保護,解決人工對窗欞紋樣的分類準確率不高及工作效率低下問題。通過陜北窗欞紋樣特征和數(shù)據(jù)進行解析,提出一種基于卷積神經(jīng)網(wǎng)絡中VGG16模型方法,實驗過程中各卷積層后采用ReLU激活函數(shù),可以有效抑制過擬合現(xiàn)象,并提高模型的泛化能力。采用了數(shù)據(jù)增強方法,通過擴充窗欞圖像的數(shù)量來增加模型的多樣性,從而降低對數(shù)據(jù)的依賴程度,實驗結果表明在基于VGG16網(wǎng)絡模型中進行遷移學習的方式對陜北窗欞紋樣的分類準確率達到94.62%。建立紋樣分類數(shù)據(jù)庫,通過輸入紋樣種類特征實時輸出相關紋樣圖像,深入挖掘傳統(tǒng)窗欞文化遺產(chǎn)的價值,充分展現(xiàn)紋樣獨特的視覺效果和藝術表達方式。
關鍵詞:窗欞紋樣;卷積神經(jīng)網(wǎng)絡;VGG16;遷移學習;圖像分類
基金項目:本文系陜西省教育廳科學研究計劃專項項目(17JK0480)研究成果。
陜北的窗欞是陜北傳統(tǒng)窯洞建筑藝術的表現(xiàn)形式,木質門窗的造型和窗欞的紋樣是陜北窯洞文化的重要載體[1]。但如今窯洞式住宅逐漸淡出人們的視野,尤其是在鄉(xiāng)村城鎮(zhèn)化快速發(fā)展的背景下,很多窯洞已經(jīng)空置、坍塌或損毀,傳統(tǒng)的窯洞味道盡失,窗欞文化失去了原有的質樸與自然。窯洞窗欞紋樣種類繁多寓意深刻,深受黃土高原地域文化及意識形態(tài)的影響,依靠人工肉眼對紋樣的提取分類這類方法往往不夠精準且耗時,不利于紋樣的研究。近年來,現(xiàn)代技術的深度學習[2]具有自動提取圖形特征及分類的優(yōu)勢,而目前通過技術對窗欞紋樣的整理訓練研究與應用處于空白階段。卷積神經(jīng)網(wǎng)絡[3]是近年來處理圖像最受歡迎的深度學習算法之一,對陜北窗欞的紋樣和素材進行數(shù)字化收集、整理與分析,通過遷移學習方式對紋樣進行分類、整理后提取紋樣,建立相關樣本數(shù)據(jù)后利用卷積神經(jīng)網(wǎng)絡模型中VGGNet模型對窗欞紋樣進行分類試驗,通過試驗驗證模型分類效果建立智能分類輔助系統(tǒng)[4]。
一、窗欞紋樣數(shù)據(jù)收集、整理與分析
窯洞的窗戶構造非常精細,由頂窗、腦窗、大耳節(jié)窗、小耳節(jié)窗、天窗、斗窗和坐窗等多個部分組成[5]。窗欞即窗格子,也叫雕花格子,是鏤空花格,窗欞的工藝與裝飾極富有審美情趣,折射出陜北人民的多彩的內心世界及樸實含蓄的性格特點。同時紋樣也象征著民俗文化符號,將傳統(tǒng)紋樣提取分類進行數(shù)字化保護是現(xiàn)在非物質文化遺產(chǎn)一種保護措施,使文化符號更好的儲存與運用。裝飾紋樣是歷史文化的濃縮既,主要有動物類:蝙蝠、魚、龜?shù)龋玺~諧音“余”,寓意“年年有余”;植物類:蓮花、海棠花、石榴花等,例如石榴寓意“多子多?!保灰灿袔缀晤悾悍礁窦y、菱形紋、盤長紋等,例如盤長紋寓意“世代延綿”;文字類:工字紋、壽字紋、雙喜紋等,例如壽字紋寓意“長壽安康”;人物故事類:童男、童女、福娃等,例如福娃寓意“子孫滿堂p4DudzRm9VDYnG8hOoQaTsEGKQADQGlmXotMPFApDqM=”;宗教類:八卦、寶劍、鈴鐺等,例如寶劍寓意“驅惡辟邪”;生活類:元寶、如意、銅錢等,例如銅錢紋寓意“興旺發(fā)達”[6]。從紋樣的變化中可以看出陜北不同時期的時代風貌、人文風情,進而形成藝術表現(xiàn)的差異性,打破了傳統(tǒng)紋樣固定不變的模式(見表1)。
二、窗欞紋樣數(shù)據(jù)的處理
(一)數(shù)據(jù)提取與分類
通過前期調研對陜北窗欞紋樣進行大規(guī)模的采樣,提取窗欞圖案的輪廓與紋理特征,有關人物故事類、生活類、宗教類素材較少,從藝術、工藝等多維度進行歸納與總結窗欞圖案的內容形式選取以下四類:一是植物類紋樣,也是陜北窗欞裝飾運用最多的紋樣,富有幸福美滿之意;二是文字類紋樣,象征厚祿、長壽、多福;三是幾何類紋樣,通過點、線、面的組合和變換,形成各種不同的圖案和樣式;四是動物類紋樣,象征富貴。實驗中,為了獲取更加清晰的圖像紋理,對樣本素材進行了裁剪,訓練過程使用到數(shù)據(jù)集中四個子集(植物紋、文字紋、幾何紋、動物紋),數(shù)據(jù)集中選取的示例圖片(如圖1)。
(二)遷移學習
遷移學習(TransferLearning)是一種機器學習方法,旨在通過減少源域數(shù)據(jù)與目標域數(shù)據(jù)之間的分布差異,提高學習效率和性能[7]。通過遷移學習,可以利用已有的知識或經(jīng)驗,將已經(jīng)學習到的模型或特征應用于新的任務或領域,從而加速學習過程并提高模型的泛化能力。VGGNet在圖像分類中具有較好的分類性能,針對圖像分類的需求,需要收集大量的數(shù)據(jù)及進行數(shù)據(jù)標注,而標注好的數(shù)據(jù)在訓練過程中可能會存在一些排除情況,導致訓練過程耗時長,并且在小數(shù)據(jù)集上獲得的準確率不高。使用遷移學習來解決這一問題是非常有優(yōu)勢的,因為它可以有效減少對數(shù)據(jù)的依賴。遷移學習中源域為Ds,目標域為Dt,則源域可以表示為:
(1)
目標域表示為:
(2)
公式中:為數(shù)據(jù)樣本;為對應的類別標簽。
(三)數(shù)據(jù)增強
在神經(jīng)網(wǎng)絡的訓練過程中,需要大量標注的數(shù)據(jù)樣本,而原數(shù)據(jù)集紋樣圖片數(shù)量較少,這可能導致在訓練過程中出現(xiàn)擬合現(xiàn)象,進而影響網(wǎng)絡模型的分類性能。為了解決這個問題,可以采用數(shù)據(jù)增強技術來擴充數(shù)據(jù)樣本。數(shù)據(jù)增強技術是一種通過對原始數(shù)據(jù)進行變換和擴展,生成新的數(shù)據(jù)樣本的技術。可以增加數(shù)據(jù)集中的樣本數(shù)量,提高模型的泛化能力和分類性能。對數(shù)據(jù)集進行旋轉、鏡像、加噪、明暗、模糊等操作,經(jīng)過數(shù)據(jù)增強,每種紋樣的數(shù)量保持相同,將所得數(shù)據(jù)歸一化處理為統(tǒng)一的224×224分辨率,提高圖像訓練準確率(如圖2)。
三、研究方法
(一)VGG16網(wǎng)絡
VGGNet是牛津大學計算機視覺組和Google DeepMind公司在2014共同提出的新模型,該研究的主要焦點是深入探討卷積神經(jīng)網(wǎng)絡深度對大規(guī)模圖像識別準確率的影響。該模型獲得了2014年ILSVRC競賽的第二名。VGGNet是比AlexNet更深層次的卷積神經(jīng)網(wǎng)絡,形式上更加簡單,VGG16是VGGNet中分類性能最好的網(wǎng)絡之一。VGG16中16指的是有16的帶權重的層,總共包含16個子集,由5段卷積和1段全連接組成,5段卷積包含13個卷積層,1段全連接指卷積層之后的3個全連接層(FC),前13層主要對圖像進行卷積,學習出相關特征,而最后將前面學習到的特征展開,最終通過全連接進行訓練。
VGG16基本結構包括輸入層、卷積層、池化層、全連接層和輸出層,層與層之間使用maxpool(最大池化層)分開,采用連續(xù)的小卷積核(3×3)和池化層構建深度神經(jīng)網(wǎng)絡,網(wǎng)絡深度可以達到16層,由多個卷積層和池化層交替堆疊而成,最后使用全連接層進行分類。輸入層通常是一個固定大小的卷積核,用于將輸入圖像轉換為特征圖;卷積層是VGG16中的核心部分,通過卷積運算對輸入特征圖進行處理,提取圖像中的特征信息。池化層用于對卷積層輸出的特征圖進行下采樣,減少特征圖的維度和計算量,同時保留重要的特征信息。全連接層是負責將前面各層的特征圖進行整合,生成最終的分類結果。輸出層是負責將全連接層的輸出轉換為具體的分類結果,在VGG16中,輸出層通常采用softmax函數(shù)對全連接層的輸出進行歸一化處理,生成最終的分類概率[8]。VGG16相比AlexNet的一個改進是采用連續(xù)3×3的卷積核代替AlexNet中較大卷積核,使得網(wǎng)絡結構更加簡潔(如圖3)。
(二)ReLU激活函數(shù)
ReLU(Rectified Linear Unit)是常用的隱藏層激活函數(shù),計算效率高并且在區(qū)間內保持梯度為1,增加網(wǎng)絡的非線性可以使得網(wǎng)絡更好地擬合復雜的非線性數(shù)據(jù);有效地防止梯度消失,從而使得網(wǎng)絡能夠更好地進行訓練。由于過擬合是指模型在訓練數(shù)據(jù)上表現(xiàn)很好,但在測試數(shù)據(jù)上表現(xiàn)較差的現(xiàn)象,所以ReLU函數(shù)可以有效地減少過擬合現(xiàn)象,提高模型的泛化能力。如果輸入值為負,ReLU 函數(shù)就返回0;如果輸入值為正,則返回輸入值本身;使得其函數(shù)表現(xiàn)形式為:
(3)
公式中x為實驗過程中的輸入值。
(三)實驗數(shù)據(jù)與評價標準
實驗在Windows11系統(tǒng)python3.8環(huán)境下使用TensorFlow2.6.0框架進行模型訓練。硬盤配置:CPU為13th Gen Intel(R)Core(TM)i9-13980HX,GPU為NVIDIA GeForce RTX 4090 Laptop GPU,計算機運行內存為32GB,GPU顯存16GB。
原始數(shù)據(jù)集共326張,為了減少訓練期間圖像集的過擬合采用旋轉、鏡像、加噪、明暗、模糊對原始圖像進行處理,將數(shù)據(jù)集擴充至1304張,動物類圖像220張、Vm2+tL5VASDsRJwTNS04/A==文字類圖像328張、植物類圖像348張、幾何類圖像408張。訓練中,訓練數(shù)據(jù)集劃分為訓練集、驗證集、測試集三個部分,劃分比例為8∶1∶1,三種數(shù)據(jù)集數(shù)量分別為1044張、130張、130張,同時對所有圖像數(shù)據(jù)集進行歸一化,并將圖像大小統(tǒng)一至224×224×3。
在圖像分類任務中采用準確率(Accuracy)作為實驗效果評價標準,其計算公式為:
(4)
公式中:TP+TN為分類正確樣本數(shù);M為測試集樣本總數(shù)。
四、過程與結果分析
在進行VGG16網(wǎng)絡訓練時,模型包括16個卷積層和3個全連接層,對輸入的窗欞紋樣圖像進行歸一化處理,歸一化后的尺寸為224×224×3得到標準的像素矩陣,RGB圖像進行卷積、池化和全連接層等操作。保留VGG16模型參數(shù)作為初始化參數(shù)可以確保初始權重的有效性;卷積層利用卷積核進行卷積操作,對輸入圖像進行特征提??;池化層降維操作有助于減少計算量,提高網(wǎng)絡的訓練速度,同時保持重要的特征信息;各卷積層后均采用ReLU激活函數(shù),有利于獲得更好的非線性效果及有效緩解梯度消失問題,卷積層均采用3×3的卷積核。輸出層使用Softmax分類器來計算每個輸出類別的概率,Softmax函數(shù)可以將網(wǎng)絡輸出的原始分數(shù)轉化為概率分布,從而為每個類別分配一個概率值,將輸出轉化為各個類別的概率分數(shù),使得概率總和為1。
通過試驗,首先確定訓練樣本、驗證樣本和測試樣本的數(shù)據(jù)批量值為16,意味著在每次迭代中,將16個樣本輸入到網(wǎng)絡中進行訓練。設定訓練迭代次數(shù)為100,損失函數(shù)選擇的是交叉熵損失函數(shù),因為交叉熵損失函數(shù)對于多分類問題非常有效,能夠衡量模型預測的概率分布與真實概率分布之間的差異。使用SGD(隨機梯度下降)優(yōu)化器訓練,根據(jù)每次迭代的梯度更新網(wǎng)絡權重,以最小化損失函數(shù)。學習率為0.001,是控制模型權重更新的步長的重要參數(shù),較小的學習率可以使得模型在訓練過程中更加穩(wěn)定。
訓練的迭代次數(shù)為100,每訓練完成一個迭代就將訓練集的損失值以及驗證集的準確率打印出來,為了保留每個迭代下訓練好的模型狀態(tài),進行了模型保存的操作。可以根據(jù)保存的模型對測試集進行準確率的測試,從而獲得最終的測試集準確率。在前10次迭代訓練過程中,模型的訓練損失值下降速度最快,這意味著模型在初始階段迅速學習并適應訓練數(shù)據(jù),當訓練進行到第20次迭代時,模型的收斂趨勢開始顯現(xiàn)已經(jīng)接近最優(yōu)解,并且其性能逐漸穩(wěn)定。隨著訓練的繼續(xù)進行,模型逐漸達到收斂狀態(tài),訓練損失值不再顯著下降(如圖4)。
驗證集的準確率不斷升高趨于平穩(wěn),最終在迭代 20次時,模型的驗證準確率基本收斂。根據(jù)訓練損失值和驗證準確率的變化趨勢數(shù)據(jù)可以看出,陜北窗欞紋樣識別分類在學習率為0.001的VGG 16模型下,其訓練準確率為94.62%,使用預先訓練好的模型參數(shù)作為初始化可以加快模型收斂速度,減少訓練次數(shù),遷移學習的策略可以使得模型更快地適應新的數(shù)據(jù)集,提高模型的性能和泛化能力。這表明該模型在處理陜北窗欞紋樣數(shù)據(jù)時表現(xiàn)出了較高的分類精度和穩(wěn)定性(如圖5)。
為了促進對陜北窗欞紋樣的傳承和創(chuàng)新,構建陜北窗欞紋樣智能輔助系統(tǒng)是一個融合了傳統(tǒng)與現(xiàn)代、技術與藝術的創(chuàng)新過程。通過保留風格特征、注重參與性和互動性,該系統(tǒng)將為用戶提供一個便捷、高效、有趣的平臺。在構建系統(tǒng)的過程中,首要任務是保留陜北窗欞紋樣的獨特風格特征,這些特征包括紋樣的形狀、線條、寓意等,它們是陜北地區(qū)歷史文化和民俗風情的生動體現(xiàn)。經(jīng)過VGG16模型對窗欞紋樣的自動分類和識別。首先,將紋樣及其對應的寓意表征導入數(shù)據(jù)庫,這個過程確保數(shù)據(jù)的準確性和完整性,同時考慮到數(shù)據(jù)結構的合理性和可擴展性。其次,用戶可以通過系統(tǒng)輸入紋樣名稱、紋樣特征、風格類型等;系統(tǒng)會利用智能技術對其進行預處理,系統(tǒng)能夠將輸入的文本轉換為結構化的數(shù)據(jù),以便后續(xù)的圖像生成和處理;系統(tǒng)首先從數(shù)據(jù)庫中檢索與輸入名稱相關的紋樣圖像,然后對檢索到的圖像進行特征提取和識別。最后,系統(tǒng)使用這些特征信息生成與輸入名稱相對應的窗欞紋樣圖像(如圖6)。
五、結語
木質窗欞紋樣負載著特殊的地方民俗文化,傳統(tǒng)紋樣所展現(xiàn)出的頑強生命力、表現(xiàn)力和藝術價值,是中華文化的重要組成部分,通過傳承和發(fā)揚傳統(tǒng)窗欞紋樣,能夠更好地理解和欣賞中華文化的深厚底蘊,同時也能為現(xiàn)代設計帶來新的啟示和靈感。將卷積神經(jīng)網(wǎng)絡中VGG16網(wǎng)絡模型應用到陜北窗欞紋樣圖像識別分類中,運用數(shù)據(jù)增強及遷移學習的方法對提取的紋樣數(shù)據(jù)進行擴充、遷移,提高模型泛化能力及模型訓練的效率,加入ReLU激活函數(shù)增加網(wǎng)絡的非線性,緩解梯度消失問題。對提取到的窗欞紋樣進行分類,根據(jù)紋樣特征建立實驗數(shù)據(jù)樣本,按照8∶1∶1的比例區(qū)分相應的訓練樣本、驗證樣本和測試樣本,模型的分類準確率達到94.62%,由此說明VGG16網(wǎng)絡模型在紋樣識別的領域中具有較好的分類效果。構建智能分類輔助系統(tǒng)為窗欞紋樣文化的傳承和創(chuàng)新提供了技術支持,傳統(tǒng)的窗欞紋樣文化通常依賴于手工制作和傳承,該系統(tǒng)提高了窗欞紋樣的認知度和影響力,人們可以更加方便地了解和欣賞各種窗欞紋樣,從而增強了對窗欞紋樣文化的認知和了解。該系統(tǒng)也為窗欞紋樣的傳播和推廣提供了平臺,使得更多的人能夠接觸到、感受到窗欞紋樣的魅力。
參考文獻:
[1]王文權.窯洞文化研究——陜北窗格子[J].山花,2009(2):162-163.
[2]陳沖,陳杰,張慧,等.深度學習可解釋性綜述wrnx2wDh4VIBktHJSJef4Q==[J].計算機科學,2023(5):52-63.
[3]GIRSHICK R.,DONAHUE J.,DARRELL T.,etal.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2014:580-587.
[4]黃浦恩,信慧言,歐陽國輝.地域文化視域下藏族傳統(tǒng)家具的數(shù)據(jù)庫建構與創(chuàng)新設計[J].家具與室內裝飾,2023(10):96-102.
[5]楊雨佳.陜北窯洞門窗圖案及其命觀念[J].人民論壇,2016(8):190-192.
[6]齊苗苗,張勇.陜北窗欞紋樣[J].大眾文藝,2015(20):118.
[7]王軍敏,樊養(yǎng)余,李祖賀.基于深度卷積神經(jīng)網(wǎng)絡和遷移學習的紋理圖像識別[J].計算機輔助設計與圖形學學報,2022(5):701-710.
[8]侯向寧,劉華春,侯宛貞.基于改進VGG16網(wǎng)絡模型的花卉分類[J].計算機系統(tǒng)應用,2022(7):172-178.
作者簡介:段永麗,西安科技大學藝術學院碩士研究生。研究方向:環(huán)境設計研究。
通訊作者:張娜,博士,西安科技大學藝術學院副教授、碩士生導師。研究方向:文化遺產(chǎn)保護與現(xiàn)代環(huán)境設計研究。