顏碩彥 錢(qián)巨
摘 要:為了解決照片中移動(dòng)設(shè)備屏幕圖像的獲取問(wèn)題,提出了一種基于視覺(jué)的移動(dòng)設(shè)備屏幕圖像提取與規(guī)范化方法。首先使用輪廓識(shí)別算法對(duì)原始圖像進(jìn)行邊緣檢測(cè),獲得包含設(shè)備和手部的輪廓;其次,通過(guò)種子填充法從輪廓得到設(shè)備和手部的填充區(qū)域;接著在原始圖像上使用基于顏色空間的皮膚檢測(cè)方法得到手部區(qū)域,再與之前得到的填充區(qū)域做減運(yùn)算,以得到獨(dú)立的設(shè)備區(qū)域;然后再在獨(dú)立設(shè)備區(qū)域的輪廓上做多邊形擬合,得到設(shè)備的四個(gè)頂點(diǎn);最后通過(guò)透視變化得到規(guī)范化后的設(shè)備屏幕圖像。實(shí)驗(yàn)表明,該方法在背景不復(fù)雜且設(shè)備作為主體的照片環(huán)境下具有較高的準(zhǔn)確率。
關(guān)鍵詞:移動(dòng)設(shè)備;圖像提取;邊緣檢測(cè);皮膚檢測(cè)
中圖分類(lèi)號(hào):TP391????? 文獻(xiàn)標(biāo)識(shí)碼:A
A Visual Screen Extraction and Normalization
Method for Mobile Devices
YAN Shuo-yan,QIAN Ju
(College of Computer Science and Technology, Nanjing University of Aeronautics
and Astronautics,Nanjing,Jiangsu 211106, China)
Abstract:A visual screen extraction and normalization method for mobile devices is proposed to get the mobile devices screen images from photos. First, we do Canny edge detection to detect the edges of the mobile device. The detected edges may include some parts of the hand holding the device. Then, a seed filling operation is conducted on the image of edges to get the filling area of the whole device and parts of the hand. Next, we do color space based skin detection on the original image to get the filling area of the hand. After that, the area of the device can be calculated by subtracting the filling area of the hand from that of the device and parts of the hand. Four corner points of the device can be got by conducting a polygon fitting operation on the calculated area. Finally, we get the normalized device screen image by perspective transformation according to the corner points. The experiment shows that the method accurately works when the subject device is the main object in a photo and the background of the photo is not complicated.
Key words:mobile device;image extraction; edge detection;skin detection
當(dāng)前移動(dòng)應(yīng)用多采用迭代開(kāi)發(fā)的模式,當(dāng)應(yīng)用完成開(kāi)發(fā)后,仍然需要對(duì)其進(jìn)行不斷優(yōu)化。但是,在有限的時(shí)間內(nèi)應(yīng)該側(cè)重于哪部分功能的優(yōu)化是一個(gè)很難決定的問(wèn)題。通過(guò)了解用戶對(duì)應(yīng)用不同功能的使用頻率從而對(duì)功能優(yōu)化設(shè)置不同的優(yōu)先級(jí)是非常必要。傳統(tǒng)的方法往往選擇在應(yīng)用的源碼中加入數(shù)據(jù)采集功能,以返回用戶使用信息給服務(wù)器。該方法實(shí)施復(fù)雜,且可能影響用戶的使用體驗(yàn)。
因此,可以使用一種基于圖像的方法來(lái)統(tǒng)計(jì)應(yīng)用不同功能的使用頻率。該方法首先收集用戶在移動(dòng)設(shè)備上使用目標(biāo)應(yīng)用的日常圖片,接著從圖片中提取出只包含設(shè)備屏幕的部分并作規(guī)范化處理,最后再根據(jù)設(shè)備屏幕圖像判斷用戶正在使用的軟件功能,實(shí)施統(tǒng)計(jì)分析。
對(duì)設(shè)備屏幕圖像的提取與規(guī)范化是該方法的重點(diǎn)。解決該問(wèn)題的方法通常有兩類(lèi),一類(lèi)是基于機(jī)器學(xué)習(xí)的物體檢測(cè)方法,例如著名的YOLO方法[1]。趙德安等使用YOLO深度卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了復(fù)雜背景下蘋(píng)果的檢測(cè)定位[2];王宇寧等實(shí)現(xiàn)了基于YOLO算法的車(chē)輛實(shí)時(shí)檢測(cè)[3]。該類(lèi)基于機(jī)器學(xué)習(xí)的方法往往需要大量的樣本進(jìn)行訓(xùn)練,工作量巨大,而僅使用現(xiàn)有的預(yù)訓(xùn)練模型往往無(wú)法在精度上達(dá)到要求。
另一類(lèi)則是使用傳統(tǒng)的圖像處理方法,例如邊緣檢測(cè)、輪廓識(shí)別等。許鑫杰等開(kāi)發(fā)了一種基于邊緣檢測(cè)的零件輪廓識(shí)別系統(tǒng)[4];楊靜嫻等實(shí)現(xiàn)了基于圖像處理的白酒酒花輪廓檢測(cè)[5];林耀海等實(shí)現(xiàn)了結(jié)合圖像和圖形特征的原木輪廓識(shí)別[6]。該類(lèi)方法工作量較小,可靠性高,在一些給定的場(chǎng)景下也能夠取得令人滿意的準(zhǔn)確率。
因此,提出了一種基于傳統(tǒng)圖像處理的移動(dòng)設(shè)備屏幕圖像提取與規(guī)范化方法。
1 方法原理流程
由于移動(dòng)設(shè)備日常使用一般都發(fā)生在手持場(chǎng)景下,因此,在對(duì)設(shè)備屏幕進(jìn)行檢測(cè)時(shí),需要特別注意排除人手的存在可能造成的干擾。
圖1展示了對(duì)一張日常手持使用移動(dòng)設(shè)備的示例圖片進(jìn)行屏幕提取和規(guī)范化的理想效果圖。
本方法的流程如圖2所示。首先,使用邊緣檢測(cè)和輪廓識(shí)別算法找到設(shè)備的大致輪廓。由于人手的存在,該輪廓無(wú)法直接代表設(shè)備輪廓,所以需要進(jìn)一步處理以排除人手對(duì)設(shè)備輪廓檢測(cè)的干擾。接著,使用多邊形擬合的方法在輪廓上找到設(shè)備的四個(gè)頂點(diǎn)坐標(biāo)。最后,通過(guò)透視矯正得到規(guī)范化后的設(shè)備屏幕圖像。
2 步驟詳情
2.1 邊緣檢測(cè)
常用的邊緣檢測(cè)方法包括Sobel、Laplacian、Canny等。圖3是不同邊緣檢測(cè)算法在使用Otsu自適應(yīng)閾值[7-9]的情況下得到的邊緣檢測(cè)結(jié)果圖像。
就當(dāng)前問(wèn)題而言,Sobel方法具有一定抗噪能力,但是對(duì)邊緣定位的準(zhǔn)確性有所不足,對(duì)弱邊緣的檢測(cè)能力也有限;Laplacian算法很容易造成目標(biāo)邊緣信息的丟失,出現(xiàn)邊緣不連續(xù)的情況,且抗噪能力較弱;Canny算法不容易受到噪聲干擾,能夠檢測(cè)到真正的弱邊緣,效果最好。所以本方法選用Canny算法進(jìn)行邊緣檢測(cè)。
在使用Canny方法得到圖像中邊緣信息的二值圖后,使用輪廓檢測(cè)方法選擇圖像中外接矩形面積最大的輪廓作為初步識(shí)別的設(shè)備輪廓。將該輪廓重新繪制在新的圖像中,如圖4所示。可見(jiàn),設(shè)備輪廓受到了手部輪廓的嚴(yán)重干擾,所以接下來(lái)需要繼續(xù)排除手部輪廓的干擾。
2.2 排除手部輪廓干擾
在得到設(shè)備和手部的輪廓信息后,就可以通過(guò)種子填充法得到其區(qū)域信息。在圖4中,以圖像的4個(gè)角落為種子執(zhí)行漫水填充,完成后再對(duì)圖像中的像素全部取反,就得到了包含完整設(shè)備以及部分人手的區(qū)域,如圖5(a)所示。
接下來(lái),需要將設(shè)備區(qū)域與人手區(qū)域進(jìn)行區(qū)分,以得到只有移動(dòng)設(shè)備的區(qū)域。此處,可以使用基于顏色空間的皮膚檢測(cè)算法[10]。
基于顏色空間的皮膚檢測(cè)算法是一種利用人體膚色與周?chē)h(huán)境顏色的差異實(shí)現(xiàn)的檢測(cè)算法??梢詰?yīng)用于皮膚檢測(cè)的顏色空間有很多,而應(yīng)用于皮膚檢測(cè)的顏色空間也有許多, 目前國(guó)際常用的比較正規(guī)的色彩空間有RGB、YCbCr、HSV、YUV、LAB等[11-12]。人體的膚色信息在不同的顏色空間中有不同的分布范圍。對(duì)于在哪個(gè)顏色空間中皮膚檢測(cè)能達(dá)到最佳的效果引起了許多學(xué)者的廣泛關(guān)注與研究。
由于YCbCr色彩空間中藍(lán)色色度Cb和紅色色度Cr受光照強(qiáng)度影響不大且依賴(lài)性不大, 因此本方法采用基于YCrCb顏色空間的皮膚檢測(cè)算法。
Y = 0.257*R + 0.564*G + 0.098*B + 16
Cb = -0.148*R – 0.291*G + 0.439*B + 128
Cr = 0.439*R – 0.368*G – 0.071*B + 128(1)
通過(guò)如下公式(1)可以將像素點(diǎn)從RGB值轉(zhuǎn)換成所對(duì)應(yīng)的YCbCr值。再根據(jù)人體膚色所處的Cb、Cr值的范圍分割出圖像中的手部區(qū)域。最終從原始圖像中檢測(cè)出的手部區(qū)域,如圖5(b)所示。
將圖5(a)記作Imixed,圖5(b)記作Ihand,最后將Imixed與Ihand作減運(yùn)算,即得到獨(dú)立的設(shè)備區(qū)域Idevice,如圖5(c)所示。
Idevice = subtract(Imixed, Ihand)(2)
在圖5(c)的基礎(chǔ)上再次進(jìn)行輪廓檢測(cè),取面積最大的輪廓作為真正的設(shè)備輪廓,如圖5(d)所示。
2.3 多邊形擬合得到設(shè)備頂點(diǎn)
在得到設(shè)備的輪廓信息后,使用Douglas-Peucker算法[13]對(duì)輪廓進(jìn)行多邊形擬合。該算法是一種經(jīng)典的線要素壓縮算法,主要是通過(guò)刪除曲線上的非特征點(diǎn), 保留特征點(diǎn)來(lái)減少數(shù)據(jù)量, 即通過(guò)保留關(guān)鍵點(diǎn), 刪除次要點(diǎn)來(lái)達(dá)到抽稀壓縮的目的。圖6是該算法的示意圖,其主要步驟如下:
(1)在曲線首尾兩點(diǎn)之間連接一條直線AB,該直線為曲線的弦;
(2)得到曲線上離該直線段距離最大的點(diǎn)C,計(jì)算其與AB的距離d1;
(3)比較該距離與預(yù)先給定的精度閾值的大小,如果小于該閾值,則該直線段作為曲線的近似,該段曲線處理完畢;
(4)如果距離大于閾值,則用C將曲線分為兩段,并分別對(duì)兩段曲線進(jìn)行步驟(1)~(3)的處理;
(5)當(dāng)所有曲線都處理完畢時(shí),依次連接各個(gè)分割點(diǎn)形成的折線,即可以作為曲線的近似。
算法1 二分法擬合設(shè)備頂點(diǎn)的算法
function GetDeviceCornerPoints (C): P
C: all points in device contour
P: four corner points of the device
begin
1 maxThr := 1;
2 FP := PolygonFitting(C, maxThr);
3 while count(FP) >4 do
4 minThr :=? maxThr;
5 maxThr := 2*maxThr;
6 FP := PolygonFitting(C, maxThr);
7 end
8 midThr := (minThr+maxThr)/2;
9 FP := PolygonFitting(C, midThr);
10while count(FP) != 4 do
11midThr := (minThr+maxThr)/2;
12FP := PolygonFitting(C, midThr);
13if count(FP) > 4 then
14minThr:= midThr
15elseif count(FP) < 4 then
16maxThr:= midThr
17end
18end
19P := FP
end
由于該算法只提供的精度閾值,無(wú)法直接設(shè)置擬合點(diǎn)的個(gè)數(shù),所以此處使用二分法逐漸調(diào)整該算法的精度閾值,最終控制擬合點(diǎn)的個(gè)數(shù)為4個(gè),即作為設(shè)備輪廓的四個(gè)頂點(diǎn),如算法1所示。
算法2的第1-7行簡(jiǎn)單確定了需要查找的精度區(qū)間[minThr,maxThr],第8-18行則是在得到的精度區(qū)間中使用二分查找法逐漸縮小查找范圍,直到得到的擬合點(diǎn)FP的個(gè)數(shù)為4個(gè)。
擬合的效果圖如圖7(a)所示。
2.4 規(guī)范化設(shè)備界面圖像
由于通過(guò)拍攝得到的設(shè)備屏幕圖像往往存在傾斜和透視等情況,所以在得到設(shè)備的四個(gè)頂點(diǎn)后,還需要對(duì)其進(jìn)行透視變換以得到規(guī)范化的設(shè)備界面圖像。經(jīng)過(guò)透視變化最終提取得到的設(shè)備屏幕圖像如圖7(b)所示。
3 實(shí)驗(yàn)結(jié)果分析
選取多張?jiān)诓煌粘?chǎng)景下使用多種移動(dòng)設(shè)備的照片,在Python3.6環(huán)境下基于OpenCV工具進(jìn)行實(shí)驗(yàn),以檢驗(yàn)該方法的準(zhǔn)確率。
設(shè)備屏幕提取準(zhǔn)確的要求有下列三點(diǎn):
(1)最終得到的規(guī)范化圖像至少包含設(shè)備完整界面圖像內(nèi)容85%的占比;
(2)最終得到的規(guī)范化圖像中與設(shè)備界面無(wú)關(guān)的內(nèi)容不超過(guò)15%的占比;
(3)最終得到的規(guī)范化圖像與理想圖像不存在超過(guò)10°的傾斜偏差。
此外,將選取的照片按照3種不同的條件分為以八組進(jìn)行實(shí)驗(yàn):
(1)簡(jiǎn)單背景,正常光照,手持狀態(tài)。
(2)簡(jiǎn)單背景,正常光照,放置狀態(tài)。
(3)簡(jiǎn)單背景,弱光環(huán)境,手持狀態(tài)。
(4)簡(jiǎn)單背景,弱光環(huán)境,放置狀態(tài)。
(5)復(fù)雜背景,正常光照,手持狀態(tài)。
(6)復(fù)雜背景,正常光照,放置狀態(tài)。
(7)復(fù)雜背景,弱光環(huán)境,手持狀態(tài)。
(8)復(fù)雜背景,弱光環(huán)境,放置狀態(tài)。
實(shí)驗(yàn)結(jié)果如表1和圖8所示。表1按上述八個(gè)分組進(jìn)行了實(shí)驗(yàn)結(jié)果統(tǒng)計(jì),每組選取了30張圖片,并按照上述的準(zhǔn)確要求統(tǒng)計(jì)結(jié)果準(zhǔn)確的圖片數(shù)量和計(jì)算結(jié)果準(zhǔn)確率。圖8則是分別以單個(gè)條件為標(biāo)準(zhǔn)計(jì)算得到的準(zhǔn)確率對(duì)比柱狀圖。
根據(jù)實(shí)驗(yàn)結(jié)果可知,在正常光照條件簡(jiǎn)單照片背景的情況下,手持與放置狀態(tài)的設(shè)備圖像提取結(jié)果均具有較高的準(zhǔn)確率(精度分別為80%和83.3%),說(shuō)明排除手部干擾的步驟起到了很好的效果。
而在正常光照復(fù)雜背景下,該方法則不易取得較好的效果(精度僅為60%和43.3%),一方面是因?yàn)閺?fù)雜背景下有時(shí)難以得到完整閉合的設(shè)備輪廓;另一方面是因?yàn)橛袝r(shí)會(huì)得到移動(dòng)設(shè)備和背景物體的混合輪廓而難以區(qū)分;此外,復(fù)雜背景下也難以保證移動(dòng)設(shè)備是照片中的主體目標(biāo),從而難以選擇正確的輪廓。
此外,在弱光條件下,無(wú)論背景是否復(fù)雜,都可以得到叫高的準(zhǔn)確率(平均精度達(dá)到了85.8%)。這是因?yàn)槿豕猸h(huán)境模糊了照片中物體的輪廓,而設(shè)備屏幕由于自發(fā)光的原因,可以得到準(zhǔn)確的輪廓。
4 結(jié) 論
提出了一種使用圖像處理技術(shù)從日常照片中提取移動(dòng)設(shè)備屏幕圖像并將其規(guī)范化的方法。實(shí)驗(yàn)結(jié)果表明,該方法應(yīng)用在背景不復(fù)雜、移動(dòng)設(shè)備作為主要物體的照片中具有較高的準(zhǔn)確率。該方法的主要流程可以概括為下面的四個(gè)步驟:
(1)通過(guò)Canny算法檢測(cè)設(shè)備邊緣信息;
(2)使用基于YCrCb顏色空間的皮膚檢測(cè)算法排除人手對(duì)移動(dòng)設(shè)備輪廓定位的干擾;
(3)使用Douglas-Peucker多邊形擬合算法得到設(shè)備的四個(gè)頂點(diǎn);
(4)使用透視矯正得到規(guī)范化處理后的設(shè)備屏幕圖像。
參考文獻(xiàn)
[1] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 779-788.
[2] 趙德安,吳任迪,劉曉洋,等.基于YOLO深度卷積神經(jīng)網(wǎng)絡(luò)的復(fù)雜背景下機(jī)器人采摘蘋(píng)果定位[J].農(nóng)業(yè)工程學(xué)報(bào),2019,35(3):164-173.
[3] 王宇寧,龐智恒,袁德明.基于YOLO算法的車(chē)輛實(shí)時(shí)檢測(cè)[J].武漢理工大學(xué)學(xué)報(bào),2016,38(10):41-46.
[4] 許鑫杰,王秀鋒,魯文其,等.基于邊緣檢測(cè)的零件輪廓識(shí)別系統(tǒng)開(kāi)發(fā)[J].機(jī)電工程,2019,36(2):201-205.
[5] 楊靜嫻,任小洪.基于圖像處理的白酒酒花輪廓檢測(cè)[J].食品與機(jī)械,2019,35(12):52-55.
[6] 林耀海,楊澤燦,張澤均.結(jié)合圖像和圖形特征的原木輪廓識(shí)別[J].福建農(nóng)林大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,49(3):412-417.
[7] MEI Fang YUE Guang-xue, YU Qing-cang. The study on an application of otsu method in canny operator[C].Proceedings of The 2009 International Symposium on Information Processing (ISIP 2009),Academy Publisher, 2009: 109.
[8] 李華強(qiáng),喻擎蒼,方玫.Canny算子中Otsu閾值分割法的運(yùn)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2008(9):2297-2299.
[9] SA Ji-ming, SUN Xiao-shuang, ZHANG Ting-ting, et al. Improved Otsu segmentation based on sobel operator[C].International Conference on Systems, 2016: 886-890.
[10]TSAGARIS A, MANITSARIS S. Colour space comparison for skin detection in finger gesture recognition[J].International Journal of Advances in Engineering & Technology, 2013, 6(4): 1431.
[11]CAO Jian-qiu, WANG Hua-qing, LAN Zhang-li. Skin color division base on modified YCrCb color space [J].Journal of Chongqing Jiaotong University (Natural Science), 2010, 3: 40.
[12]吳要領(lǐng). 基于YCrCb色彩空間的人臉檢測(cè)算法的設(shè)計(jì)與實(shí)現(xiàn)[D].成都:電子科技大學(xué),2013.
[13]HERSHBERGER J, SNOEYINK J. An O (n log n) implementation of the Douglas-Peucker algorithm for line simplification[C].Proceedings of the tenth annual symposium on Computational geometry. 1994: 383-384.