摘要:隨著智能手機(jī)的廣泛應(yīng)用,手機(jī)照片的人像摳圖、人臉美顏、人物特效等應(yīng)用均依賴照片分割技術(shù)。應(yīng)用基于人工智能的深度學(xué)習(xí)技術(shù),可以對(duì)手機(jī)照片進(jìn)行快速、精確分割。由于智能手機(jī)算力 有限,文章設(shè)計(jì)了一種輕量級(jí)的深度學(xué)習(xí)模型,將手機(jī)照片進(jìn)行區(qū)域劃分,并標(biāo)注區(qū)域?qū)傩?,提取區(qū)域輪廓,可實(shí)現(xiàn)快速的人體分割、物體分割、場(chǎng)景分割等功能。同時(shí),在智能手機(jī)平臺(tái)進(jìn)行照片分割實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法可行。
關(guān)鍵詞:深度學(xué)習(xí);分割技術(shù);卷積網(wǎng)絡(luò);智能手機(jī)
中圖法分類(lèi)號(hào):TP391? 文獻(xiàn)標(biāo)識(shí)碼:A
Mobile phone photo segmentation based on deep learning
SUN Yu
(Qualcomm Enterprise Management (Shanghai) Co.? Ltd.? Shanghai 200000? China)
Abstract: With the widespread use of smartphones, applications such as portrait matting, face beautification, and character special effects of mobile phone photos all rely on photo segmentation technology. The application of deep learning technology based on artificial intelligence can quickly and accurately segment mobile phone photos. Due to the limited computing power of smartphones, this paper designs a lightweight deep learning model that divides mobile phone photos into regions, annotates regional attributes,and extracts regional contours,which can achieve fast human body segmentation, object segmentation, scene segmentation and other functions. At the same time,the photo segmentation experiment is carried out on the smartphone platform, and the experimental results verify the feasibility of the method.
Key words: deep learning, image segmentation
1引言
智能手機(jī)因具備強(qiáng)勁的運(yùn)算處理能力,其在日常生活中的應(yīng)用逐漸廣泛。近年來(lái),隨著智能手機(jī)的圖像處理引擎(GPU)日益強(qiáng)大,深度學(xué)習(xí)技術(shù)逐漸應(yīng)用于智能手機(jī)平臺(tái),進(jìn)而使手機(jī)照片的人像摳圖、人臉美顏、特效疊加、虛擬背景等功能成為標(biāo)配。以上應(yīng)用均依賴圖像分割技術(shù)的照片區(qū)域劃分功能,包括人體輪廓、場(chǎng)景邊界、及物體邊沿等。然而,目前針對(duì)手機(jī)照片的圖像分割技術(shù)普遍存在人體邊沿輪廓粗糙等問(wèn)題,分割精度有待高,導(dǎo)致應(yīng)用效果大打折扣,降低了用戶體驗(yàn)。國(guó)內(nèi)已有不少圖像分割的相關(guān)研究,但多數(shù)限于AI開(kāi)放平臺(tái)和深度學(xué)習(xí)主機(jī)。相較之下,智能手機(jī)的算力有限,相關(guān)圖像分割方法很難移植到智能手機(jī)平臺(tái),難以實(shí)現(xiàn)實(shí)時(shí)、快速分割圖像的目標(biāo)。在智能手機(jī)應(yīng)用中,運(yùn)算速度和運(yùn)算精度始終是一對(duì)矛盾。
本文致力于突破智能手機(jī)運(yùn)算速度和運(yùn)算精度的瓶頸,設(shè)計(jì)了一種高效、輕量級(jí)的深度學(xué)習(xí)網(wǎng)絡(luò),建立了基于手機(jī)照片進(jìn)行圖像分割的模型,可以將手機(jī)照片進(jìn)行快速、精確分割,有利于提高手機(jī)照片的應(yīng)用效率,增強(qiáng)了用戶體驗(yàn)。實(shí)驗(yàn)結(jié)果表明,本文設(shè)計(jì)的手機(jī)照片分割方法,在保持較高的分割精度前提下,極大提高了其在智能手機(jī)上的運(yùn)算速度。
2圖像分割算法
2.1深度學(xué)習(xí)框架
深度學(xué)習(xí)最早由Hinton等人于2006年提出,是基于機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)發(fā)展而來(lái),擁有更深層的特征學(xué)習(xí)和任務(wù)感知結(jié)構(gòu)。深度學(xué)習(xí)通過(guò)學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,并提取數(shù)據(jù)的不同維度的特征,從而使模型的感知能力逼近人工感知的精度,讓模型能夠像人一樣具有分析和學(xué)習(xí)能力。常見(jiàn)的深度學(xué)習(xí)模塊可分為卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、注意力機(jī)制(Attention),以及Google團(tuán)隊(duì)在2017年提出的Transformer模塊等。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)由普通神經(jīng)網(wǎng)絡(luò)進(jìn)化而來(lái),包含一個(gè)由卷積層、子采樣層(池化層)和全連接層構(gòu)成的特征抽取器[1]。其中,卷積層通過(guò)不同權(quán)值的卷積核,提取由不同通道排列而成的神經(jīng)元,從而生成具備強(qiáng)大表達(dá)能力的特征圖。同時(shí),通過(guò)池化層降低特征的維度,使特征具備更高級(jí)的表達(dá)能力。此外,全連接層將特征轉(zhuǎn)化為任務(wù)輸出,包括分類(lèi)任務(wù)(圖像分類(lèi))和回歸任務(wù)(圖像分割)。得益于其強(qiáng)大的特征表達(dá)能力和任務(wù)學(xué)習(xí)能力,CNN廣泛應(yīng)用于各種場(chǎng)景。本文將CNN應(yīng)用于圖像分割任務(wù),并為智能手機(jī)設(shè)計(jì)了一套精確、快速的圖像分割算法。
2.2圖像分割算法
在深度學(xué)習(xí)技術(shù)中,圖像分割算法的目的是清晰、精確地切割出物體的輪廓。目前,經(jīng)典的圖像分割深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)UNet等已經(jīng)取得了不錯(cuò)的分割效果。而Mask-RCNN則能夠在一個(gè)模型中同時(shí)實(shí)現(xiàn)分割和物體分類(lèi),進(jìn)一步提升了分割效果[2]。然而,目前還有幾個(gè)問(wèn)題對(duì)圖像分割領(lǐng)域造成困擾:(1)輪廓精度有待提高,包括邊緣缺失及邊緣泄露至背景等問(wèn)題;(2)部分應(yīng)用(如人物摳圖)要求圖像分割算法能夠精確勾勒出人物的毛發(fā)輪廓;(3)運(yùn)算速度瓶頸,包括在開(kāi)放AI平臺(tái)(如Pytorch)的深度學(xué)習(xí)主機(jī)(搭載先進(jìn)的Nvidia2080TiGPU)上,也很難做到快速、實(shí)時(shí)分割;(3)運(yùn)行速度慢的問(wèn)題在智能手機(jī)上尤其明顯。目前,國(guó)內(nèi)已有不少團(tuán)隊(duì)致力于突破“精度-速度”這一對(duì)矛盾的瓶頸,但效果有限。本文將經(jīng)典的UNet網(wǎng)絡(luò)進(jìn)行了輕量化設(shè)計(jì),并應(yīng)用于智能手機(jī)的照片分割中,在保持高精確度的同時(shí),大幅度提高了運(yùn)行速度。
3手機(jī)照片分割算法
3.1算法流程
手機(jī)照片的分割算法為UNet,輸入的手機(jī)照片經(jīng)過(guò)UNet網(wǎng)絡(luò)進(jìn)行特征提取和分割輪廓計(jì)算,最終輸出分割后的圖片[3]。UNet擁有一個(gè)對(duì)稱的結(jié)構(gòu),左半邊是編碼器,右半邊是解碼器。圖像先經(jīng)過(guò)編碼處理,再經(jīng)過(guò)解碼處理,最終實(shí)現(xiàn)圖像分割。它們的作用如下:編碼器—使模型理解圖像的內(nèi)容,但是丟棄了圖像的位置信息;解碼器—使模型結(jié)合編碼器對(duì)圖像內(nèi)容進(jìn)行理解,恢復(fù)圖像的位置信息,同時(shí)保留了圖像內(nèi)容信息。
圖片經(jīng)過(guò)編解碼器之后,得到包含圖像位置和內(nèi)容信息的特征圖,再經(jīng)過(guò)回歸網(wǎng)絡(luò),輸出圖片分割結(jié)果。分割后的圖像將人像和背景清晰地分離開(kāi),并且精確勾勒出了人像輪廓[4]。
除了編解碼器之外,UNet還具備以下幾方面特性:(1)通過(guò)卷積和下采樣池化層,提取不同分辨率的特征圖,從而保留不同圖像尺寸下的特征,如小尺寸特征圖可保留人體在圖中的位置信息,排除其他細(xì)節(jié)的干擾。而大尺寸特征圖可保留人體輪廓的細(xì)節(jié),如毛發(fā)和五官等;(2)編解碼器之間拷貝多個(gè)不同尺寸的特征圖,從而共享各自模塊的優(yōu)勢(shì);(3)通過(guò)1×1的卷積核,實(shí)現(xiàn)更深度的卷積操作。
3.2UNet網(wǎng)絡(luò)的優(yōu)化和加速
目前,UNet結(jié)構(gòu)存在如下問(wèn)題:采用3×3卷積模塊,雖然特征提取精度較高,但計(jì)算速度緩慢,這是圖像分割存在速度瓶頸的主要因素[5]。本文將UNet中所有的3×3卷積模塊(ConvNode)替換成了一種深度可分離卷積模塊(Separable-ConvNode),在保留圖像分割精度的基礎(chǔ)上,極大提高了UNet的運(yùn)算速度。因此,本文將UNet升級(jí)為全新的Separable-UNet。卷積模塊的替換方式如圖1所示。
經(jīng)過(guò)替換,可比較卷積的參數(shù)量以及計(jì)算速度的提升:(1)3×3卷積核的參數(shù)量為3×3×c1×c2,其中c1和c2為卷積模塊的輸入和輸出通道數(shù);(2)本文設(shè)計(jì)的3×3可分離卷積模塊參數(shù)量為3×3×c1+1×1×c1×c2。例如,在c1=128,c2=256的情況下,一個(gè)3×3卷積模塊的參數(shù)量為294192,而本文設(shè)計(jì)的一個(gè)3×3可分離卷積核的參數(shù)量為1152+32768=33920,參數(shù)量降低為之前的11.54%。通過(guò)實(shí)驗(yàn)證明,圖像分割運(yùn)算可以獲得3倍的加速效果。
4實(shí)驗(yàn)
4.1實(shí)驗(yàn)環(huán)境搭建
本文的實(shí)驗(yàn)在兩種環(huán)境下完成:(1)算法訓(xùn)練平臺(tái)為深度學(xué)習(xí)主機(jī)—GPU為Nvidia2080Ti(12GB顯存),CPU為Inteli7-12700;(2)算法測(cè)試平臺(tái)為智能手機(jī)—小米12Pro。圖片分割的訓(xùn)練集采用了通用的COCO數(shù)據(jù)集。該數(shù)據(jù)集包含大量圖片分割訓(xùn)練樣本,包括人臉、人體、動(dòng)物、日用品、交通工具等輪廓標(biāo)注,訓(xùn)練成的模型具有優(yōu)良的分割精度和泛化性。分割精度的衡量指標(biāo)為交并比(IOU),計(jì)算方式如圖2所示。
IOU可理解為算法分割出的輪廓和理想(人工標(biāo)注)的輪廓之間的偏差,該算法的IOU值越大,表明偏差越小,分割精度越高。
4.2實(shí)驗(yàn)對(duì)比
圖像分割網(wǎng)絡(luò)的訓(xùn)練采用COCO數(shù)據(jù)集,分別訓(xùn)練了傳統(tǒng)的UNet和本文設(shè)計(jì)的Separable-UNet,并對(duì)兩者的精度和運(yùn)行速度進(jìn)行了全面比較,從而展示了Separable-UNet的高精度和分割速度大幅度提升。比較圖集為COCO測(cè)試集,包含分割輪廓的人工標(biāo)注。如表1和表2所示,IOU和分割速度兩個(gè)指標(biāo)均為所有圖片上取的平均值。從表1可見(jiàn),本文方法和傳統(tǒng)UNet相比,保留了較好的分割精度,兩者精度幾乎一致。從表2可見(jiàn),本文方法實(shí)現(xiàn)了3倍的速度提升,在智能手機(jī)上,實(shí)現(xiàn)了每張圖68.1毫秒的分割速度。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文的結(jié)論,即Separable-UNet在保留高精度的前提下,在分割運(yùn)算速度上大幅提升,為手機(jī)照片的分割提供了高速解決方案。
4結(jié)論
本文在經(jīng)典圖片分割網(wǎng)絡(luò)UNet上進(jìn)行改進(jìn),設(shè)計(jì)了全新的Separable-UNet網(wǎng)絡(luò)。在保留較高精度的基礎(chǔ)上,將UNet的分割速度提升了3倍,在智能手機(jī)平臺(tái)上的分割速度達(dá)到了每張圖68毫秒,大幅度提升了運(yùn)算速度,提高了用戶體驗(yàn)和手機(jī)運(yùn)行的流暢度,并且使圖像分割技術(shù)更有效地應(yīng)用于智能手機(jī)上層,包括人像摳圖、人臉美顏、特效疊加、虛擬背景等,促使智能手機(jī)更廣泛地應(yīng)用于生活中的各種場(chǎng)景。接下來(lái),我們的目標(biāo)是進(jìn)一步改進(jìn)Separable-UNet網(wǎng)絡(luò),將分割技術(shù)從手機(jī)照片擴(kuò)展到手機(jī)視頻,服務(wù)于網(wǎng)絡(luò)直播、短視頻創(chuàng)作等更廣闊的應(yīng)用場(chǎng)景。
參考文獻(xiàn):
[1]劉穎,劉紅燕,范九倫,等.基于深度學(xué)習(xí)的小目標(biāo)檢測(cè)研究與應(yīng)用綜述[J].電子學(xué)報(bào),2020,48(3):590-601.
[2]馬原東,羅子江,倪照風(fēng),等.改進(jìn)SSD算法的多目標(biāo)檢測(cè)[J].計(jì)算機(jī)工程與應(yīng)用,2020,56(23):23-30.
[3]張新明,祝曉斌,蔡強(qiáng),等.圖像語(yǔ)義分割深度學(xué)習(xí)模型綜述[J].高技術(shù)通訊,2017(9):808-815.
[4]杜星悅,董洪偉,楊振.基于深度網(wǎng)絡(luò)的人臉區(qū)域分割方法[J].計(jì)算機(jī)工程與應(yīng)用,2019,55(8):171-174.
[5]韓貴金,朱虹.一種基于圖結(jié)構(gòu)模型的人體姿態(tài)估計(jì)算法[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(14):30-33.
作者簡(jiǎn)介:
孫煜(1983—),博士,工程師,研究方向:人工智能。