易先軍,周巨,羅兵,楊銳
(1.荊州市公安局信通科,湖北 荊州 434000;2.五邑大學(xué) 智能制造學(xué)部,廣東 江門 529020)
銀行自動(dòng)柜員機(jī)(Automatic Teller Machine,ATM)給人們帶來方便的同時(shí),也存在一定安全風(fēng)險(xiǎn)問題,如通過非法改裝 ATM 機(jī)來盜取用戶信息,從而盜取用戶資金,造成財(cái)產(chǎn)損失[1]. 對(duì)于ATM非法改裝行為自動(dòng)識(shí)別的研究,最初主要集中在ATM設(shè)備本身和資金的安全,以及事后的人工查看發(fā)現(xiàn)線索[2]. 本世紀(jì)初就提出了基于圖像和視頻特征的識(shí)別方法,但準(zhǔn)確率低,處理速度慢[3].隨著深度學(xué)習(xí)理論研究的突破,該技術(shù)也被應(yīng)用到行為識(shí)別,但結(jié)合 ATM 應(yīng)用中存在非法行為樣本少,難以進(jìn)行深度學(xué)習(xí)的困難[4]. 此外,設(shè)計(jì)的方法通用性差,算法程序難以適應(yīng)不同視角、分辨率的視頻設(shè)備 . 為此,本文結(jié)合深度學(xué)習(xí)技術(shù),設(shè)計(jì)了3D深度網(wǎng)絡(luò)結(jié)構(gòu),建立了ATM監(jiān)控視頻樣本庫,設(shè)計(jì)了設(shè)定輸入?yún)^(qū)域和視頻比例調(diào)整來適應(yīng)不同視頻設(shè)備的差異性,并通過樣本庫的樣本對(duì)建立的深度網(wǎng)絡(luò)進(jìn)行訓(xùn)練和測(cè)試,取得了快速、準(zhǔn)確的識(shí)別結(jié)果.
非法改裝 ATM 機(jī)的行為一般是在插卡口上加上一個(gè)附加的讀卡器,并在鍵盤上部某個(gè)位置安裝一個(gè)微型攝像頭,讀卡器盜取用戶的卡號(hào)信息,攝像頭偷拍用戶輸入的密碼. 非法改裝ATM機(jī)的行為與正常的 ATM 操作行為在行為表現(xiàn)有明顯差異. 但將這些行為差異準(zhǔn)確描述為計(jì)算機(jī)可使用的圖像或視頻特征并不容易.
圖1是監(jiān)控拍攝的非法改裝ATM機(jī)的視頻截圖. 多數(shù)情況下,嫌疑人還會(huì)戴口罩、墨鏡等進(jìn)行面部遮擋、偽裝,如圖2.
圖1 非法改裝ATM機(jī)視頻截圖
圖2 非法改裝ATM機(jī)嫌疑人的臉部遮擋視頻截圖
雖然不同的 ATM 機(jī)的視頻攝像頭型號(hào)、角度等會(huì)有差異,但非法改裝行為在插卡口、機(jī)器頂部或鍵盤上都會(huì)有異常行為表現(xiàn),存在共性特點(diǎn),雖然人工處理難以選擇明顯、準(zhǔn)確的特征,但深度學(xué)習(xí)可以通過對(duì)大量樣本的學(xué)習(xí)自動(dòng)產(chǎn)生歸類特征[6].
近十年人工智能、深度學(xué)習(xí)理論研究和應(yīng)用技術(shù)發(fā)展進(jìn)步迅速,基于視頻進(jìn)行異常行為檢測(cè)得到深入研究和廣泛應(yīng)用 . 采用深度學(xué)習(xí)方法,使異常行為檢測(cè)準(zhǔn)確率得到大大提高,可以很好地從圖像或視頻樣本自動(dòng)學(xué)習(xí)來提取發(fā)現(xiàn)過去人工難以準(zhǔn)確描述的類別特征[5].
傳統(tǒng)基于圖像或視頻特征的方法,提取人工特征需要精巧的設(shè)計(jì)、大量實(shí)驗(yàn)嘗試來選擇圖像特征或視頻的光流特征等[4-5],識(shí)別準(zhǔn)確率低,提取的特征依賴于人的經(jīng)驗(yàn)和嘗試,可靠性、準(zhǔn)確性都很差[6].
深度學(xué)習(xí)是對(duì)神經(jīng)網(wǎng)絡(luò)(ANN)、機(jī)器學(xué)習(xí)的發(fā)展. 神經(jīng)網(wǎng)絡(luò)可以很好地實(shí)現(xiàn)非線性映射、分類等工作,根據(jù)經(jīng)驗(yàn)建立網(wǎng)絡(luò)結(jié)構(gòu),通過樣本進(jìn)行機(jī)器學(xué)習(xí)優(yōu)化網(wǎng)絡(luò)權(quán)重參數(shù),但神經(jīng)網(wǎng)絡(luò)存在輸入維數(shù)不能太高、網(wǎng)絡(luò)隱層節(jié)點(diǎn)數(shù)、層數(shù)也不能太多、樣本不能太多的局限,否則其機(jī)器學(xué)習(xí)將陷入局部最優(yōu)而無法找到優(yōu)化結(jié)果或過擬合[6]. 深度學(xué)習(xí)通過多隱層結(jié)構(gòu)、無監(jiān)督學(xué)習(xí)聚類的特征發(fā)現(xiàn)、監(jiān)督學(xué)習(xí)過程中的隨機(jī)樣本抽取、反復(fù)迭代等方法使其能夠輸入更高的維數(shù),可直接輸入圖像、視頻而無需人工提取特征,通過大量的樣本學(xué)習(xí)而達(dá)到針對(duì)高維數(shù)據(jù)的準(zhǔn)確非線性分類[6]. 因此深度學(xué)習(xí)方法在有大量樣本的基于視頻的異常行為識(shí)別上得以應(yīng)用并取得了較好的應(yīng)用效果[7].
對(duì)于 ATM 機(jī)前搶劫用戶、偷窺輸入密碼等異常行為,已有學(xué)者研發(fā)了基于深度學(xué)習(xí)的識(shí)別方法[8]. 這些基于深度學(xué)習(xí)進(jìn)行視頻中異常行為檢測(cè)都是利用視頻的全視場(chǎng),如果測(cè)試樣本與訓(xùn)練樣本的攝像機(jī)拍攝角度或分辨率存在差異,或 ATM 機(jī)型號(hào)不同、插卡口位置不同等,訓(xùn)練好的深度學(xué)習(xí)網(wǎng)絡(luò)就難以很好地適應(yīng)這種差異,甚至無法有效識(shí)別;而且,網(wǎng)絡(luò)參數(shù)多,訓(xùn)練、識(shí)別速度均較慢[6-8]. 為此,本文設(shè)計(jì)了專門針對(duì)視頻中插卡口區(qū)域的局部視場(chǎng)的視頻圖像作為插卡口區(qū)域異常行為識(shí)別. 取視場(chǎng)中頂部區(qū)域作為非法安裝頂部攝像頭異常行為識(shí)別網(wǎng)絡(luò)的輸入;取鍵盤區(qū)域作為加裝偽鍵盤的識(shí)別輸入. 這樣用3個(gè)深度網(wǎng)絡(luò)分別識(shí)別3種異常行為,分別用各自區(qū)域樣本進(jìn)行訓(xùn)練. 3個(gè)網(wǎng)絡(luò)比一個(gè)全視場(chǎng)輸入網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)化,且可以通過人工設(shè)定輸入?yún)^(qū)域,可以適應(yīng)ATM不同機(jī)型的差異而無需重新進(jìn)行機(jī)器學(xué)習(xí),使建立的網(wǎng)絡(luò)具有了通用性.
本文研究對(duì)于ATM機(jī)前非法改裝行為的識(shí)別,還建立了非法行為視頻樣本庫,針對(duì)不同型號(hào)、不同分辨率、不同視角攝像頭的通用識(shí)別方法進(jìn)行了研究.
深度學(xué)習(xí)可以較好地對(duì)視頻進(jìn)行異常行為識(shí)別,但大數(shù)據(jù)量的樣本庫建立與訓(xùn)練以適應(yīng)不同型號(hào)攝像頭、不同拍攝角度獲取的視頻仍然是需要解決的問題. 文獻(xiàn)[9]采用正交歸一化處理方法,但適應(yīng)性仍然不足. 本文設(shè)計(jì)了按指定區(qū)域分割視頻,分別用于識(shí)別插卡口的改裝異常行為、頂部安裝攝像頭異常行為、鍵盤部位覆蓋鍵盤的異常行為,并檢測(cè)人臉后利用臉部圖像進(jìn)行遮擋偽裝判斷.這樣,即使攝像頭型號(hào)、視角的差異,但在插卡口的正常插取卡行為、改裝異常行為就更好地形成兩類聚類,頂部改裝與正常使用 ATM 機(jī)行為也較好形成了兩類聚類,正常使用鍵盤與改裝鍵盤的異常行為也形成了兩類聚類. 另外,對(duì)視頻圖像進(jìn)行人臉檢測(cè). 檢測(cè)到人臉后,進(jìn)行臉部有遮擋偽裝的檢測(cè)判斷,可用于進(jìn)一步的智能監(jiān)控功能,如防止異常取款交易等. 也可以通過檢測(cè)到人臉后,再啟動(dòng)非法改裝ATM機(jī)行為的識(shí)別程序. 軟件框架如圖3所示.
圖3 基于視頻的ATM機(jī)非法改裝行為識(shí)別軟件框架圖
圖3的軟件結(jié)構(gòu)框架中的深度網(wǎng)絡(luò)2、3和深度網(wǎng)絡(luò)4的結(jié)構(gòu)如圖4所示,均為三維時(shí)序卷積神經(jīng)網(wǎng)絡(luò).
圖4 三維時(shí)序卷積網(wǎng)絡(luò)結(jié)構(gòu)示意圖
圖4中的三個(gè)時(shí)序過渡層由四個(gè)并聯(lián)的可變時(shí)序深度的三維卷積層組成,后面再連接一個(gè)1× 1× 1的三維卷積層和一個(gè)2× 2× 2的平均池化層,這種結(jié)構(gòu)可以更好地利用視頻圖像多幀圖像間的時(shí)序信息[8]. 這三個(gè)時(shí)序過渡層的結(jié)構(gòu)相同,如圖5所示.
圖5 時(shí)序過渡層的結(jié)構(gòu)示意圖
已有的ATM機(jī)監(jiān)控視頻收集了大量的正常行為視頻,非法改裝異常行為視頻非常少. 為此,本文采用拍攝模擬非法改裝行為來擴(kuò)充非法改裝行為視頻.
用各種型號(hào)攝像機(jī)在多種型號(hào) ATM 機(jī)上采集視頻,人工模擬非法改裝行為:臉部帶墨鏡、口罩、圍巾、頭盔遮擋或不遮擋等多種情形;在插卡口模擬各種非法改裝動(dòng)作;在頂部模擬非法加裝攝像頭;在鍵盤上模擬非法加蓋假鍵盤等.
這樣,收集了10 000個(gè)正常使用ATM機(jī)的行為視頻,收集了3種非法改裝行為視頻各2 000個(gè),建立了樣本庫. 隨機(jī)抽取各100個(gè)作為測(cè)試樣本,其余作為訓(xùn)練樣本.
對(duì)于輸入視頻,采用識(shí)別前人為設(shè)置3個(gè)區(qū)域:插卡口區(qū)域、頂部區(qū)域、鍵盤區(qū)域,這樣來解決不同ATM型號(hào)設(shè)備攝像頭拍攝角度的差異. 插卡口區(qū)域選取寬為240像素點(diǎn)、高為160像素點(diǎn);頂部區(qū)域選取為寬480像素點(diǎn)、高為160像素點(diǎn);鍵盤區(qū)域?yàn)閷?60像素點(diǎn)、高160像素點(diǎn). 這樣各區(qū)域的像素點(diǎn)數(shù)與三個(gè)深度網(wǎng)絡(luò)的輸入節(jié)點(diǎn)數(shù)也一致了. 對(duì)不同設(shè)備,可人為設(shè)置 3個(gè)區(qū)域的位置,可以根據(jù)實(shí)際圖像區(qū)域,拖動(dòng)長寬比例固定的框、并可按比例調(diào)整框的大小.
同時(shí),降低視頻數(shù)據(jù)量. 將視頻進(jìn)行每秒2幀的下采樣以減少數(shù)據(jù)量,然后將3個(gè)區(qū)域的視頻分別送入3個(gè)識(shí)別三種異常行為的深度網(wǎng)絡(luò).
對(duì)于不同分辨率的攝像頭,深度學(xué)習(xí)可以適應(yīng)差異不大的空間差異,但如果分辨率成倍數(shù)變化,則可以根據(jù)設(shè)備分辨率調(diào)整參數(shù)來進(jìn)行視頻圖像的空間采樣使視頻圖像分辨率歸一化. 或者通過人為設(shè)定輸入?yún)^(qū)域時(shí)設(shè)定的區(qū)域大小自動(dòng)進(jìn)行圖像采樣調(diào)整,使3個(gè)區(qū)域的輸入圖像像素歸一化為設(shè)定的3個(gè)深度網(wǎng)絡(luò)的輸入節(jié)點(diǎn)數(shù).
這樣,不同型號(hào)與分辨率的攝像頭采集的視頻,經(jīng)過預(yù)處理后可以得到近似的視頻輸入效果.
對(duì)視頻圖像進(jìn)行人臉檢測(cè)采用 OpenCV的開源人臉檢測(cè)算法. 然后用檢測(cè)到的人臉區(qū)域圖像作為人臉遮擋偽裝檢測(cè)判斷的輸入. 也可以根據(jù)檢測(cè)到人臉后啟動(dòng)異常行為程序.
對(duì) ATM監(jiān)控視頻分割出的 3個(gè)區(qū)域:機(jī)插卡口處、頂部區(qū)域、鍵盤區(qū)域分別建立深度網(wǎng)絡(luò)以進(jìn)行各自異常行為的識(shí)別. 3個(gè)深度網(wǎng)絡(luò)均采用三維時(shí)序卷積網(wǎng)絡(luò),使用 Facebook公司的 PyTorch框架實(shí)現(xiàn). 每個(gè)深度網(wǎng)絡(luò)的輸入視頻分辨率采用 3.3節(jié)劃分的區(qū)域大小像素和時(shí)間下采樣率,每次輸入16幀(即8 s的視頻數(shù)據(jù)).
用3.2節(jié)描述建立的樣本庫,對(duì)3.4節(jié)描述的3個(gè)深度網(wǎng)絡(luò)進(jìn)行深度學(xué)習(xí)訓(xùn)練和測(cè)試. 作為對(duì)比,分別用人工特征方法、全視場(chǎng)區(qū)域深度學(xué)習(xí)方法進(jìn)行異常行為識(shí)別對(duì)比[4-5].
訓(xùn)練樣本總數(shù)為15 400個(gè),測(cè)試樣本數(shù)為600個(gè). 訓(xùn)練樣本中,正常行為視頻9 700個(gè);三類異常行為視頻各1 900個(gè). 測(cè)試樣本中,正常行為視頻 300個(gè),3類異常行為視頻各 100個(gè). 視頻長度均為8 s,每秒24幀.
硬件采用Intel i7-3770 3.4GHz CPU + GeForce GTX 1080 NVIDIA GPU進(jìn)行訓(xùn)練和識(shí)別測(cè)試.
用15 400個(gè)訓(xùn)練樣本,全視場(chǎng)區(qū)域視頻輸入深度學(xué)習(xí)方法和本文分區(qū)域三網(wǎng)絡(luò)深度學(xué)習(xí)方法進(jìn)行訓(xùn)練的時(shí)間對(duì)比如表1. 對(duì)600個(gè)測(cè)試樣本的測(cè)試時(shí)間對(duì)比如表2. 本文方法雖然只有3個(gè)深度網(wǎng)絡(luò),但輸入維數(shù)大大減小、網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)化、需訓(xùn)練的權(quán)值少,所以訓(xùn)練時(shí)間減少. 測(cè)試時(shí),3個(gè)深度網(wǎng)絡(luò)采用并行處理,因此測(cè)試時(shí)間也得以縮短.
表1 兩種深度學(xué)習(xí)方法的訓(xùn)練時(shí)間對(duì)比
表2 兩種深度學(xué)習(xí)方法的平均測(cè)試時(shí)間對(duì)比
表3是人工特征方法、全監(jiān)控區(qū)域視頻輸入深度學(xué)習(xí)方法和本文分區(qū)域三深度網(wǎng)絡(luò)識(shí)別方法對(duì)600個(gè)測(cè)試樣本的識(shí)別準(zhǔn)確率對(duì)比.
表3 3種識(shí)別方法對(duì)測(cè)試樣本的識(shí)別準(zhǔn)確率對(duì)比 %
從實(shí)驗(yàn)結(jié)果可以看出,分區(qū)域分割視頻進(jìn)行不同異常行為識(shí)別,使得聚類效果更明晰,深度學(xué)習(xí)效果更好.
基于ATM機(jī)監(jiān)控視頻可以很好地自動(dòng)識(shí)別非法改裝ATM機(jī)的異常行為. 通過對(duì)插卡口、頂部、鍵盤3個(gè)區(qū)域分別人為劃定固定長寬比例的區(qū)域,將3個(gè)區(qū)域的視頻分別用3個(gè)三維時(shí)序卷積深度網(wǎng)絡(luò)進(jìn)行識(shí)別,使得識(shí)別精度大大提高、訓(xùn)練時(shí)間和識(shí)別時(shí)間均得以縮短,而且可以適應(yīng)不同型號(hào)ATM機(jī)分辨率、視角位置差異的攝像頭采集的視頻.
本方法由于輸入8 s時(shí)長視頻,所以存在大約9 s的延時(shí). 另外,對(duì)于不同視角的視頻,沒有對(duì)視角差異太大的視頻進(jìn)行實(shí)驗(yàn). 進(jìn)一步將本系統(tǒng)集成到 ATM 機(jī)并進(jìn)行總體控制是還需要深入研究開發(fā)的內(nèi)容.