曹建芳,田曉東,賈一鳴,閆敏敏,馬尚
(1.太原科技大學 計算機科學與技術學院,太原 030024;2.忻州師范學院 計算機系,山西 忻州 034000)
隨著計算機軟硬件的不斷發(fā)展,社會信息化程度逐步加深,各文物保護機構引入先進數(shù)字化技術,對傳統(tǒng)技術進行迭代更新,提高相關工作者工作效率,減少工作量,提升了傳統(tǒng)文化的價值和影響力.古代壁畫作為一種承載傳統(tǒng)文化的載體,在中國文化體系中有著舉足輕重的位置.然而,由于年代久遠,以敦煌壁畫和遼陽漢墓壁畫為代表的中國傳統(tǒng)壁畫受到人為和自然環(huán)境的侵害,多數(shù)壁畫面臨內容缺損、顏色缺失等一系列問題.壁畫圖像數(shù)字保護的第一步是對圖像進行理解,受中國傳統(tǒng)文化的影響,古代壁畫色彩鮮明,內容豐富,如何進行圖像分析是壁畫圖像保護工作中的難題之一.
圖像分割是圖像理解的重要方法之一.該方法利用圖像區(qū)域邊界灰度的不連續(xù)性,對所劃分的不同區(qū)域進行標定,以此達到分析圖像的目的.當前,古代壁畫分割還停留在使用傳統(tǒng)分割方法階段,較少涉及深度學習領域,所使用方法多用于處理灰度圖像,不適用于色彩豐富的古代壁畫.常見方法有以下幾種,方法一是模糊C均值(Fuzzy C-mean,F(xiàn)CM)[1-2],該算法應用范圍廣,已形成成熟的理論體系,但在古代壁畫分割方向上,F(xiàn)CM算法沒有考慮空間信息,對噪聲和灰度不均勻敏感,且算法會受樣本不平衡的影響,分割樣本與目標樣本存在差異性.方法二是K-means[3-4],算法缺點較為明顯,其中K值的選取需要人為給予,受主觀因素影響,另外在聚類結束之前,需要經過不斷迭代,而最終得到的結果只是局部最優(yōu),全局分割效果較差.方法三是Graph Cuts[5-6]及其改進算法Grab Cut[7],兩種算法分別采用一次性最小化和迭代最小化使得目標和背景建模的灰度直方圖和高斯混合模型(Gaussian Mixed Model,GMM)[8]的參數(shù)更優(yōu),從而使其達到良好的分割效果,但算法分割效果會受圖像復雜度和指定像素點的影響,效果較差.
深度學習領域利用神經網絡系統(tǒng)組合圖像的低層特征形成抽象的高層特征,以此表示圖像元素的屬性類別,發(fā)現(xiàn)數(shù)據的分布式特征表示,提高圖像分割或分類預測的簡易程度.圖像分割領域常見的分割模型有全卷積神經網絡(Fully Convolutional Networks,F(xiàn)CN)[9],基于FCN改進的SegNet(Segment Networks)[10]網絡,引入空洞卷積的金字塔場景解析網絡(Pyramid Scene Parsing Network,PSPNet)[11]和Deeplab[12-13]系列網絡.根據古代壁畫復雜的構圖方式,利用深度學習網絡的強大學習能力,本文將卷積神經網絡MobileNetV2[14]融入PSPNet模型中的空間金字塔池模塊,引入Dice損失系數(shù)[15],形成一種新的適用于古代壁畫圖像分割的輕量級金字塔場景解析網絡(Pyramid Scene Parsing MobileNetV2 Network,PSP-M)模型.PSP-M網絡中的金字塔池結構將不同特征平滑的連接在一個全連接層上,提取圖像不同區(qū)域的信息,降低樣本不平衡對壁畫分割結果的影響,有效解決了FCM算法的弊端;模型利用卷積神經網絡對壁畫圖像特征進行提取,消除了K-means算法和Graph Cut算法中人為因素對實驗結果的影響,且PSPNet網絡具有層次全局優(yōu)先級,包含不同子區(qū)域的不同尺度信息,在分割效果上優(yōu)于K-means和Grab Cut.
實驗從模型運行時間、模型分割精確度等多個角度證明PSP-M模型在古代壁畫圖像分割方向上的可行性和有效性,分割圖像邊緣信息保存相對完整.
語義分割的目的是將圖像中的每一個像素指定一個類別標簽,從而提供對圖像表達意義的完整理解,而像素元素位置、類別和形狀的分置歸類有利于計算機對圖形對象的理解.常見的圖像分析框架一般是基于FCN,該類框架的弊端之一是在不同圖像元素具有相似特征的時候會發(fā)生像素錯誤歸類的現(xiàn)象.導致這種問題的主要原因是基于FCN的網絡模型沒有合適的策略來利用全局場景類別線索.為了獲得全局圖像級別特征,PSPNet網絡使用了空間金字塔池技術,利用空洞卷積,收集空間統(tǒng)計數(shù)據為圖像全局提供信息解析,并將其命名為全局金字塔模塊(Pyramid Pooling Module,PPM)[11].此模塊將圖像局部信息和全局信息相結合,使圖像分割結果更加準確,PPM模型的原理如圖1所示.
圖1表示的是全局金字塔模塊,是PSPNet網絡的主要部分,該模塊融合4種不同尺度的特征,是一種典型的四層級模塊.通過1×1池化核的部分為粗略層級,使用全局池化生成單個bin輸出;另外幾部分將特征圖劃分成若干個不同的子區(qū)域,各個層池化核的大小不一,減小了模型的計算量并增大感受野.PSPNet網絡金字塔池化模塊中的不同層級輸出不同尺度的特征圖,由于不同層級維數(shù)不同,為保持全局特征的權重,每個金字塔層級后添加1×1卷積核,若某個層級維數(shù)為n時,通過卷積核,可將語境特征的維數(shù)降到原始特征的1/n;之后通過雙線性插值方法對低維特征進行上采樣,恢復原始特征圖尺度大小,便于與原圖像進行比對;最后,PSPNet網絡模型將不同層級的特征圖相融合,拼接出輸入圖像的全局特征,盡可能地減小圖像失真的可能性.
PSPNet網絡模型通過全局金字塔模塊,將不同級別的特征圖拼接起來,消除了卷積神經網絡對圖像判別時對輸入圖像固定尺寸的約束,避免了表征不同子區(qū)域之間關系的語境信息的丟失.
MobileNetV2是較為經典的輕量級移動終端神經網絡之一,是由Google提出的一種將網絡模型性能和訓練精度經過適當比例調整之后得出的計算模型.目的是解決由于傳統(tǒng)深度學習模型參數(shù)量眾多而制約模型在移動端部署的問題,是解決硬件條件對于模型訓練限制的重要方法.網絡的核心部分是可分離卷積操作(Depthwise separable convolution)[16],不同于標準卷積方式,深度可分離卷積將標準卷積操作改為兩層卷積操作,其中的縱向卷積(Depthwise convolution)部分通過對每個輸入通道執(zhí)行利用單個卷積核進行濾波來實現(xiàn)輕量級濾波,而點卷積(Pointwise convolution)部分負責通過計算輸入通道間的線性組合來構建新的特征.其中MoileNetV2在使用3×3的可分離卷積層的情況下,計算量相較于標準卷積少了8~9倍,精度損失較小.
MobileNetV2網絡引入兩個新的概念,倒轉殘差(Inverted Residuals)和線性瓶頸(Linear Bottlenecks).倒轉殘差模塊區(qū)別于正常殘差模塊通道數(shù)先降維后升維的方式,采用通道數(shù)先升維后降維,降低了由于通道數(shù)少而導致特征提取能力弱的風險,防止圖像信息丟失.而線性瓶頸的提出是為了提取更多的特征信息,對通道數(shù)較少模塊使用線性激活.MobileNetV2網絡結構如表1所示.
表1 MobileNetV2網絡結構表
如表1所示,MobileNetV2包含初始的32個全卷積層,后接19個殘差瓶頸層,在訓練過程中使用3×3的卷積核.表中每行描述一個或多個相同的層的序列,重復n次,除第一層外,整個網絡中使用常數(shù)擴展率,該決策取決于網絡規(guī)模的大小,擴展率的調整有利于神經網絡學習性能的提升.MobileNetV2網絡允許通過從不完全具體化的中間張量來顯著減少推理過程中所需的內存占用問題,應用于壁畫分割上可以減少多數(shù)嵌入式硬件設計中對主存訪問的需求[17].
傳統(tǒng)PSPNet模型利用殘差神經網絡(Residual Networks,ResNet)[18]作為基層網絡,原模型采用ResNet和空洞卷積策略提取圖像特征圖,通過采用金字塔場景解析網絡將計算機難以解析的場景信息嵌入預測框架中,從而完成對指定圖像區(qū)域的標定,達到良好的語義分割效果.在基層網絡ResNet下,模型PSPNet訓練性能良好,但網絡深度的增加會帶來額外的優(yōu)化困難問題,增加分割模型的復雜度,制約模型在移動端的部署.為解決這樣的問題,將輕量級神經網絡MobileNetV2融入PSPNet模型中,大幅度降低網絡參數(shù)量,增加計算機硬件的適配性,改進后的模型如圖2所示.
如圖2所示,模型第1個改進點是將標號為(1)的圖像特征提取器殘差卷積神經網絡ResNet改為輕量級卷積神經網絡來提取輸入圖像的特征圖,利用深度可分離卷積網絡對壁畫的特征像素進行抽取,由一個卷積核負責一個通道的卷積,對輸入層的每個通道進行獨立的卷積運算,其中特征圖的通道數(shù)量與輸入層的通道數(shù)量相同,在此之后利用點卷積將之前處理過的特征在深度方向上進行加權組合,對通道進行轉化,生成新的特征圖(a)的同時減少神經網絡的計算量.
模型的第2個改進點是改變傳統(tǒng)模型的卷積網絡在低維空間中使用ReLU函數(shù)激活的方式,因為僅當輸入流形位于輸入空間的低維子空間中時,ReLU才擁有保存輸入流形完整信息的能力,在TANG等人[13]的實驗中表明,線性層可以防止非線性函數(shù)對于圖像信息的破壞,所以PSP-M模型在圖像通道數(shù)較少時采用線性變換來代替原本的ReLU激活,減少圖像特征的損失.
與傳統(tǒng)方法相比,PSP-M模型第3個改進點是改變傳統(tǒng)分割方法中先降維、卷積、升維的三段式特征提取方式,融合倒轉殘差模塊,采用先升維、卷積、降維的方法,使用直連(shortcut)結構,提高多層網絡之間的梯度傳播能力,與縱向卷積相匹配,將特征提取轉移到高維進行,此做法的好處是卷積核的尺度遠小于輸出通道數(shù),可以降低卷積層的時間復雜度和空間復雜度,設計對內存的友好,大幅度提升模型分割效率.
最后,模型還在細節(jié)方面進行優(yōu)化,比如對最大池化(Maxpool)和平均池化(Avgpool)進行取舍,鑒于古代壁畫分割模型的對象偏向于紋理輪廓特征,模型的池化方式選用最大池化,過濾圖像無關特征信息影響,使得壁畫分割效果更加鮮明.另一方面標號為(2)的部分同樣引入深度可分離卷積網絡,采用shortcut方式,跨越兩到三層網絡層,借鑒殘差網絡模型,解決深度模型中由于梯度發(fā)散而導致的特征提取誤差增大問題,在原有模型的基礎上進一步降低誤差,從而在整體上提升特征分割精度.提取通過金字塔全局模塊進行多尺度融合后的特征,與(a)進一步融合,得到結果后再次通過結構(3)的卷積模塊,減少通道數(shù)量,降低模型訓練復雜度,生成最終的預測圖.
PSP-M模型結合輕量級神經網絡,提高了圖像分割的效率,保證圖像分割準確性的同時將模型計算所需的參數(shù)成倍數(shù)減少,降低預訓練過程中對硬件的條件要求,減少神經網絡學習代價,擺脫大中型設備依賴,提高與輕型設備的匹配度,在壁畫分割上效果良好.
PSP-M壁畫分割模型的工作流程如圖3所示.
其中圖3(a)表示PSP-M模型的工作流程,圖3(b)表示每一步驟下的圖像可視化結果.
模型工作可分為以下幾步.
步驟1 輸入圖像.
步驟2 利用MobileNetV2網絡中的縱向卷積和點卷積配合提取輸入圖像的特征信息,形成特征圖.
步驟3 將特征圖進行最大池化,利用4層級金字塔模塊獲取語境信息,4個層級的池化核大小分別對應整體特征圖像、1/2特征圖像和小部分圖像特征,這些特征融合可以形成圖像全局特征.
步驟4 通過雙線性插值直接對低維特征圖進行上采樣,使全局金字塔模塊每層的特征圖都恢復原始特征圖尺寸.
步驟5 不同層級的特征圖拼接為最終的金字塔池化全局特征.
步驟6 通過一個卷積層后生成最終預測圖,分割流程結束.
實驗環(huán)境基于Window10操作系統(tǒng),PC端處理器型號為Inter Core i7-9750H,顯卡版本為NVIDIA GeForce 1660Ti,實驗平臺為JetBrains PyCharm Community Edition 2019,語言為python,利用TensorFlow深度學習框架,結合Keras庫來訓練和測試本文模型,使用計算機視覺和機器學習軟件庫Opencv和標注軟件Lableme來處理數(shù)據集.
實驗數(shù)據集分為訓練數(shù)據集和測試數(shù)據集,包含6種不同類型標簽,共計500張圖片,來自于《中國敦煌壁畫全集》和五臺山壁畫圖像掃描圖,利用OpenCV提供的resize函數(shù)將不同類型、不同大小的圖片改為像素為224×224分辨率的圖片,所得結果整合為原始數(shù)據集.深度學習領域網絡訓練模型對應的數(shù)據集包含的圖像數(shù)量成千上萬,為解決圖像分割過程中由于數(shù)據集小而出現(xiàn)的過擬合問題,利用數(shù)據增強(Date Augmentation)和遷移學習(Transfer Learning)的方式對數(shù)據集進行處理.首先使用Scikit-image執(zhí)行Rotation等數(shù)據增強指令,利用這種方式,數(shù)據集圖片增加到2 000張,訓練集和測試集的比例為9∶1,數(shù)據集具體信息如表2所示.
表2 數(shù)據集相關信息
表2標簽分別對應數(shù)據集中的背景、動物、屋舍、祥云、信徒、佛像6類.PSP-M模型使用單通道標注圖作為數(shù)據集,在進行數(shù)據增強之后,使用圖像標注軟件對每張圖片的主要前景進行逐點標注,利用掃描圖和標注圖生成的單通道灰度圖與原始數(shù)據集相結合,共同構成實驗數(shù)據集.模型訓練階段使用遷移學習方法提取公共數(shù)據集PASCAL Consortium2012參數(shù),對預訓練權重和參數(shù)進行優(yōu)化.優(yōu)化的方式是將神經網絡最后前幾層進行凍結,利用自己的softmax單元替換原模型的對應單元,在數(shù)據集圖像較少的前提下,提高分割模型的性能.
模型使用的損失函數(shù)由兩部分構成,第一部分為常見的交叉熵損失函數(shù)(Cross Entropy Loss),當PSP-M模型利用Softmax函數(shù)對像素點進行分類的時候使用;另一部分是Dice損失函數(shù),Dice系數(shù)用于計算兩個樣本的相似度,計算公式如(1)式所示:
(1)
(1)式的原理是將預測結果和真實結果作交,之后乘2再除以預測結果和真實結果絕對值的和,為了體現(xiàn)損失函數(shù)的收斂性,將Dice損失函數(shù)取1減去Dice系數(shù)的值,模型Dice損失函數(shù)變化如圖4所示.
Dice損失函數(shù)不會受到圖片大小的影響,訓練過程中傾向于對圖像前景區(qū)域的挖掘,消除由于樣本不均衡對分割結果造成的影響.但是,在使用Dice損失函數(shù)的時候,正樣本為小目標時會產生嚴重的震蕩,當小目標有部分像素的預測發(fā)生錯誤,其loss值會有大幅度變動,所以模型中結合了交叉熵損失函數(shù),交叉熵損失函數(shù)變化如圖5.
訓練過程中,每10 epoch為一代,設置batch_size大小為8,一世代提取250次batch,更新250次參數(shù),學習率為1e-5,利用回調函數(shù)對訓練集和測試集損失值進行監(jiān)督,該值3次未下降,則降低學習率,如果損失值超過3次未下降,則表示模型訓練流程結束,模型分割精度變化如圖6所示.
如圖6所示,分割模型在前3代的時候,精確度提升快,5、6代時精確度呈現(xiàn)上下波動的態(tài)勢,而8代之后,精確度重新趨于穩(wěn)定,模型于第10代時訓練終止,學習率達到最優(yōu).
為驗證PSP-M模型的優(yōu)良特性,特從模型分割用時、精確度、分割效果等3個方面來對模型進行評價.
首先,在自制數(shù)據集的基礎上,選取SegNet圖像分割模型、PSPNet圖像分割模型、DeeplabV3+圖像分割模型、文獻[17]提出的多分類輕量級網絡分割模型(Multi-Class DeeplabV3+ MobileNetV2,MC-DM),實驗平臺為JetBrains PyCharm Community Edition 2019,語言為python,利用TensorFlow深度學習框架,結合Keras庫來訓練和測試上述模型;選取傳統(tǒng)分割模型FCM,Grab Cut在MATLAB R2018平臺進行測試,所有模型的實驗耗時如表3所示.
表3中,傳統(tǒng)模型FCM耗時最長,Grab Cut模型耗時最短,但是Grab Cut分割邊界模糊,圖像背景和前景混亂,相對于其他模型,分割效果較差,若想要達到良好效果,需要人為標注大量目標點,時間遠超其他模型.DeeplabV3+模型是圖像分割領域較為出色的模型之一,使用Encoder-Decoder[19]結構,將圖像特征信息進行多尺度融合,減少圖像空間信息丟失,由于模型相對復雜,預測結果耗時較長.MC-DM是基于DeeplabV3+的改進模型,將輕量級神經網絡嵌入原模型,降低了硬件條件的局限性,提高模型工作效率,但該模型在分割效率上與PSP-M模型存在一定差距.在對比實驗中,PSPNet選用殘差神經網絡ResNet50作為基礎網絡,PSP-M模型選用MobileNetV2作為基礎網絡層,PSP-M模型在分割效率上要優(yōu)于PSPNet模型.
表3 分割模型實驗耗時
在訓練精確度方面,由于傳統(tǒng)模型FCM和聚類算法K-means對圖片的色彩敏感度低,常用于灰度圖像分割,Grab Cut算法分割圖像的精確度會隨用戶提供圖像內容的差異而改變,存在人為因素的影響.所以本文選取SegNet,PSPNet,DeeplabV3+,MC-DM與PSP-M模型的參數(shù)量作比,對比結果如表4所示.
表4 模型訓練精確度對比
如表4所示,SegNet模型采用最大池化的方式計算出池化的索引,通過這種方式計算相應的編碼器的非線性上采樣,節(jié)省了上采樣學習的過程.但是在壁畫分割領域,由于壁畫構圖復雜,SegNet模型不能充分利用圖像各像素點之間的關系,缺乏圖像上下文推理能力.而PSPNet網絡利用具有全局優(yōu)先級,且包含不同子區(qū)域之間的不同尺度信息的全局金字塔模塊,融合4種不同金字塔尺度特征,解決了復雜場景中圖像的理解問題,在精確度上比SegNet網絡提高1%.DeeplabV3+模型利用Xception[11]網絡為底層網絡,結合空間金字塔模塊ASPP(Atrous Spatial Pyramid Pooling,ASPP)[20],恢復圖像的空間信息,優(yōu)化了圖像的分割邊界.MC-DM模型將輕量級神經網絡與DeeplabV3+相結合,在保證精確度的前提下,提高模型的分割效率,兩者訓練精確度相近.而PSP-M通過改變模型底層網絡,針對分割過程中存在的樣本不均衡問題,設計不同的損失函數(shù),優(yōu)化了模型特征提取模塊,節(jié)省分割時間,在精確度方面,與MC-DM模型相近,略遜于DeeplabV3+模型,比PSPNet網絡提升約2%,比SegNet網絡提升約3%.
為直觀感受各個模型的分割效果,在數(shù)據集中隨機抽取4張不同種類壁畫圖像進行語義分割,以分割出單一種類壁畫圖像為基準,其他圖像元素為背景,對分割結果進行像素級圖像標注,實驗模型對比如圖7所示.
圖7第一行所示是壁畫掃描圖,第二行所示是利用圖像標注軟件,通過標注錨點勾勒而成的標注圖.其余幾行是在不同圖像分割網絡下的圖像分割效果圖.SegNet模型是較早利用Encoder-Decoder結構的模型之一,其連續(xù)下采樣可以將圖像特征壓縮為很小的圖像索引,但這會導致圖像空間信息的重疊,連續(xù)上采樣之后圖像會出現(xiàn)中心信息缺失、圖像分割邊緣不連續(xù)等問題.PSPNet模型中結合了殘差神經網絡,引入殘差塊的概念,提高了模型性能,這也間接增加了網絡寬度,使得模型計算能力下降,分割圖像邊緣連續(xù)性較SegNet模型有一定的提升,在單類別圖像分割時,會有中心細節(jié)缺損的情況發(fā)生.Grab Cut模型的圖像分割效果會隨人為標注目標點的增多而變優(yōu),受人為因素的影響較大,分割效果只做參考.DeeplabV3+模型使用了空間金字塔模塊和Encoder-Decoder結構,分割效果良好,但由于網絡深度的增加,參數(shù)空間擴充,訓練難度增大,模型容易受到過擬合問題影響,分割效果不穩(wěn)定,MC-DM模型結合輕量級神經網絡,減少了模型參數(shù),網絡訓練時間減少,模型分割效果有了一定提升,但在圖像細節(jié)處理上存在不足,容易將圖像外的點標為分割點.PSP-M模型在減少模型參數(shù)的同時,解決由于樣本不均衡導致的圖像分割問題,優(yōu)化了模型的分割效果.
實驗采用人為評價、峰值信噪比(Peak Signal to Noise Ratio,PSNR)、結構相似性(Structural Similarity,SSIM)作為分割結果的評價指標.首先將分割結果制作成圖,隨機抽取100名學生作為考察對象,記錄在學生眼中效果分割效果最好的圖像,統(tǒng)計結果表明50%的人表示PSP-M的效果最優(yōu),其次是MC-DM模型,有18%的人支持此模型.由于DeeplabV3+模型在分割效果中存在個體差異化,導致訓練精確度最高的該模型只有10%的學生支持,SegNet模型與PSPNet模型得到的支持率最低,分別為4%和6%.
PSNR是最普遍和使用最為廣泛的一種圖像評價指標,表示信號最大可能功率和影響它表示精度的破壞性噪聲功率的比值,數(shù)值越大表示圖像相似性越強,假設x,y∈Rm×n兩張圖像,其中x是y的噪聲近似,則PSNR定義為:
(2)
4個樣本的PSNR對比結果如表5所示.
表5 模型PSNR(dB)對比
實驗過程中,SegNet模型和PSPNet模型表現(xiàn)相對穩(wěn)定,在分割樣本2這種輪廓分明,構造簡單的圖像時,6種模型分割效果相近.而在分割樣本1、3這種構圖相對復雜的圖像時,DeeplabV3+模型出現(xiàn)了兩極分化現(xiàn)象,對于個別圖像的分割效果較差,MC-DM模型和PSP-M模型表現(xiàn)相對較好,PSP-M模型的PSNR的數(shù)值又比MC-DM模型多出1~2 dB,Grab Cut模型分割結果受人為因素影響,PSNR數(shù)值的高低只能作為參考,不具有對比性.
由于人眼的視覺對于誤差的敏感度并不是絕對的,其感知結果會受到周圍環(huán)境、光感等許多因素的影響而產生變化,所以會出現(xiàn)主觀感受好而PSNR值反而低的現(xiàn)象出現(xiàn),為此引入另一個評價指標——結構相似性指標SSIM.SSIM同樣是一種用以衡量兩張數(shù)字圖像相似度的指標,相比于PSNR,SSIM在圖片結構品質上的衡量更符合人眼對于圖片結構質量的判斷,范圍為-1~1,數(shù)值越大,圖片結構相似性越高.結構相似性的基本原理是依據相鄰像素間的關聯(lián)關系,定義結構性失真的衡量方式,樣本SSIM對比結果如表6所示.
表6 模型SSIM對比
表6中,DeeplabV3+模型分割后的個別圖像SSIM值略有下降,其他模型下的SSIM數(shù)值與模型下的PSNR數(shù)值趨勢保持一致,PSP-M模型的總體表現(xiàn)最優(yōu).綜合主客觀3項評價指標可得,PSP-M模型分割效果良好,圖像邊緣清晰,細節(jié)保存良好,適用于古代壁畫分割領域.
中國古代壁畫是中國勞動人民智慧的結晶,是中國文明的表現(xiàn)形式之一,每一張壁畫都有特殊的歷史文化背景,是當代人們了解傳統(tǒng)文化的珍貴途徑.但隨著歲月侵襲,這些鐫刻于墻壁上的瑰寶受到了不同程度的損壞,大量精美壁畫出現(xiàn)顏色脫落、承載體裂紋、圖像殘缺等問題,對壁畫信息的汲取工作造成了一定程度的影響,所以如何將壁畫中表達的內容通過技術手段再次呈現(xiàn)是文物保護工作中的一個重點,也是一個難點問題.通過實驗研究發(fā)現(xiàn),F(xiàn)CM,K-means等傳統(tǒng)圖像分割方法在古代壁畫圖像分割方面有明顯的局限性,無法較好地適用于壁畫圖像特征的分析,在此背景下將卷積神經網絡模型運用于古代壁畫圖像分割領域是一種新的嘗試.本文將輕量級神經網絡與分割效果強大的PSPNet網絡相結合,利用全局金字塔模塊融合圖像不同尺度的特征,在提高分割精度的同時,降低模型對于時間的損耗;引入Dice損失函數(shù),對圖像區(qū)域進行多點分析,解決樣本不均衡對于分割效果的影響.文章最后通過大量對比實驗,客觀分析不同分割模型的優(yōu)缺點,驗證了新模型在壁畫分割領域的可行性.但是不管使用怎樣的模型,都面臨著特征信息缺失的問題,各種多尺度融合網絡只能盡可能還原特征信息,對于某些銳點較多的圖像,特征還原能力較差,這也是在圖像分割領域沒有一個普適性模型的重要原因之一.
隨著人工智能的不斷發(fā)展,深度學習網絡模型漸漸地融入人們的生活中,許多科學工作者將目光轉向對神經網絡的學習和研究工作.對于歷史研究者來說,讓古代壁畫和其他古文物重新在世人面前煥發(fā)光彩是他們一生的追求.科學沒有捷徑,圖像技術的更新迭代讓文物的復蘇變成了可能.