王澤榮
(四川大學計算機學院,成都 610065)
圖像語義分割的目標是給輸入圖像的每個像素分配一個類別,從而獲得逐像素的稠密分類圖。從2007年起,圖像語義分割或者場景解析已經(jīng)成為計算機視覺的重要部分,和其他計算機視覺任務一樣,圖像語義分割的重大突破在2014年,Long[1]等人首次提出利用全卷積來訓練一個端到端的網(wǎng)絡。
FCN8結構在Pascal VOC2012數(shù)據(jù)集上達到了62.2%的平均IOU,相對提高了20%。這個網(wǎng)絡結構是語義分割的基礎,在這個基礎上提出了一些更新更好的網(wǎng)絡結構。全卷積網(wǎng)絡被用于自然圖像的語義分割,用于多模醫(yī)學圖像分析和多光譜衛(wèi)星圖像分割。與AlexNet、VGG、ResNet等深度分類網(wǎng)絡非常相似,還有大量的深層網(wǎng)絡執(zhí)行語義分割。
針對圖像語義分割的網(wǎng)絡結構有FCN、SegNet[2]、U-Net[3]、FC-Densenet[4]、E-Net[5]、RefineNet[6]、PSPNet、Mask-RCNN,還有一些半監(jiān)督的方法有DecoupledNet和GAN-SS。本文考慮了各種網(wǎng)絡模型結構,最后在FCN的基礎上提出了一種的簡潔的網(wǎng)絡結構C-seg?net,在 320×240圖像上單張的分割時間 2ms(Titan-X)。在模型簡化方面,采用了Face++提出的Shuf?fleNet網(wǎng)絡結構模型,對C-segnet中的兩個3×3的卷積操作添加了點組卷積和通道打亂操作,一定程度上減少了網(wǎng)絡模型的參數(shù)和計算的FLOPS,能夠在移動端做實時的肖像分割。
本文實驗采用的數(shù)據(jù)集由Camera360提供命名Cdataset。
本次實驗室的數(shù)據(jù)集來源于手機照片服務提供商Camera360,圖片數(shù)據(jù)是手機用戶自拍照片,主要是上半身圖像。本次實驗的groudtruth采用俄羅斯摳圖軟件fabby制作,包含前景和背景信息,一共10萬張訓練集,300張驗證集,100張測試集。
Cdataset數(shù)據(jù)集合中的數(shù)據(jù)如圖1所示。
本次實驗采用語義分割,給輸入圖像的每一個像素點分配一個類別,本次實驗室做的是二分類,前景和背景。前景是人像這種語義信息,背景是非人像的語義信息。本次實驗的目的是在移動端做到實時,通過網(wǎng)絡模型運算量計算想要在移動端做到實時,在Ti?tan-X上的分割速度必須大于125fps,也即是單幀分割時間小于8ms。本次實驗的數(shù)據(jù)集都轉(zhuǎn)換到相同的尺度,長寬分別是320和240。為了避免網(wǎng)絡復雜帶來的過擬合做了一定的數(shù)據(jù)增強,這些數(shù)據(jù)增強手段包括圖像旋轉(zhuǎn)、圖像翻轉(zhuǎn)、圖像伽馬濾波,最后增強后的數(shù)據(jù)一共10萬張作為訓練數(shù)據(jù)。
本次實驗的平臺是Ubuntu,GPU是Titan-X,深度學習框架是Pytorch。
第1小節(jié)中介紹了訓練本文網(wǎng)絡所用的數(shù)據(jù)集。訓練集中包含10萬張320×240大小的圖像,并通過fabby生成所有訓練圖像的GroundTruth。一個通過的語義分割網(wǎng)絡結構可以看成是一個編碼器連接一個解碼器,編碼器部分可以從一個預訓練的分類網(wǎng)絡上做遷移學習,例如子ImageNet上面訓練好的VGG或者ResNet等。編碼器的機制與VGG或者ResNet這些體系結構最大的不同在于解碼器的任務是將編碼器學習到的語義特征映射到像素空間,從而得到一個稠密的分類。分割任務和分類任務最大的不同在于分割最后要得到的是一個稠密的像素級別的分類,網(wǎng)絡的輸出是一張heatmap而不是一個vector,如下圖2所示。與分類網(wǎng)絡最大的不同在于,分割網(wǎng)絡里面沒有全連接層,只有卷積層在解碼階段做的是一個不斷上采樣的操作,常用的方法有去卷積和插值。
圖1
常用的全卷積網(wǎng)絡的Pipeline如圖3所示。
如何選擇上采樣的featuremap,在圖片分辨率下采樣到什么程度才進行上采樣?這是全卷積網(wǎng)絡遇到的最大難題。如果上采樣的feature map分辨率低那么得到的heatmap會比較粗糙,如果過早地進行上采樣那么得到的heatmap包含的語義信息將會比較少。FCN[1]的作者采用了一種如圖4所示的融合方式。
圖2
圖3
圖4
將下采樣到原圖長寬分別是原來的1/32feature map上采樣到原圖size一樣的圖用FCN-32表示,同理有FCN-16、FCN-8,將各層的heatmap進行融合得到最后的結果,假設最后的網(wǎng)絡輸出用h表示h=FCN-32+FCN-16+FCN-8,這樣的融合方式一定程度上解決了最后的結果過于粗糙。本文的融合方式不同于FCN,本文的融合方式是每次上采樣2倍,然后與上一層的Score-Map融合,從而形成一個金字塔的融合方式。本文最后沒有采用ImageNet上預訓練好的VGG網(wǎng)絡進行Fine-tuning,主要因為(1)VGG網(wǎng)絡太深,沒法做到實時,雖然一定程度上可以提升IOU。(2)本次實驗數(shù)據(jù)集全是人像,并且主要是上半身,ImageNet提取的語義信息對本次實驗的幫助并不大。因此需要設計自己的網(wǎng)絡結構,并且把圖像都resize到320×240,這樣的處理一定程度上減小了數(shù)據(jù)的方差,使得網(wǎng)絡更容易訓練,也減少了一次卷積計算所用時間,本文在FCN的基礎上設計的精簡網(wǎng)絡模型參數(shù)如表1所示。
表1
在訓練階段,在conv5_3和conv5_7之后分別添加了dropout操作,一定程度上可以防止過擬合,本次實驗的 batchsize是 1,學習率 lr=0.0001。添加了一個shufflenet對比實驗,將兩個3×3的conv都換成shuf?flenet的 bottleneck。
首先在驗證集上選擇訓練好的網(wǎng)絡模型,旋轉(zhuǎn)IOU最好的模型在測試集上測試網(wǎng)絡模型的泛化能力,本次實驗用到的數(shù)據(jù)集包括訓練集、驗證集、和測試集,其中訓練集10萬張照片,驗證集300張,測試集100張。網(wǎng)絡性能的好壞通過IOU衡量,其定義如下:IOU=(predict&&target)/(predict||target)。
本次實驗的學習曲線如圖5所示。
圖5
從圖5中我們可以看到添加shufflenet之后的網(wǎng)絡有了一定的IOU下降,原因在于點組卷積之后網(wǎng)絡可訓練參數(shù)有所減少,網(wǎng)絡的表達能力不如之前,在不添加chanel shuffle和點組卷積之前網(wǎng)絡的大小為1.2MB,添加之后訓練的網(wǎng)絡大小為864KB,并且網(wǎng)絡計算機的FLOPS比之前少了一些,單幀分割速度有所提升但并不明顯。
本次實驗在FCN的基礎上提出了一個精簡的網(wǎng)絡模型,可以在移動端做到實時的人像分割。并對比實驗驗證了shufflenet在模型復雜度降低方面的有效性。本次實驗依然存在很多的不足:(1)當用戶的手移動過快,有fast motion存在的時候分割比較模糊;(2)當背景和前景模式差別不大的時候分割效果不好,并且在頭發(fā)絲附近的分割還是比較粗糙。針對以上兩個問題,是未來研究工作的重點內(nèi)容。本次實驗將移動端的視頻分割,當成了單幀的靜態(tài)圖像分割,一定程度上丟失了時間維度上的信息,未來的工作考慮在時間序列上做相關的工作。
參考文獻:
[1]Jonathan Long,Evan Shelhamer,Trevor Darrell.The IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2015:3431-3440.
[2]Kendall,Alex;Cipolla,Roberto.SegNet:A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation.Badrinarayanan,Vijay,2015.
[3]Olaf Ronneberger,Philipp Fischer,Thomas Brox.U-Net:Convolutional Networks for Biomedical Image Segmentation,2015.
[4]Simon Jégou,Michal Drozdzal,David Vazquez,Adriana Romero,Yoshua Bengio.The One Hundred Layers Tiramisu:Fully Convolutional DenseNets for Semantic Segmentation(CVPR),2016.
[5]Adam Paszke,Abhishek Chaurasia,Sangpil Kim,Eugenio Culurciello.ENet:A Deep Neural Network Architecture for Real-Time Semantic Segmentation,2016.
[6]LIN Guo-sheng,Anton Milan,SHEN Chun-hua,Ian Reid.RefineNet:Multi-Path Refinement Networks for High-Resolution Semantic Segmentation,2016.