吳紀(jì)蕓
摘要:傳統(tǒng)自動柜員機(jī)(ATM)監(jiān)控系統(tǒng)以攝像為主,不能及時檢測用戶身份是否異常.提出一種基于行為特征的ATM機(jī)用戶身份實(shí)時識別方法,采集用戶輸入密碼時的觸屏行為特征數(shù)據(jù),通過SVM分類算法判斷該用戶行為是否屬于合法用戶。該方法不僅要求用戶輸入的賬戶密碼正確,還要求該用戶的行為特征與預(yù)設(shè)定的合法用戶行為特征一致。實(shí)驗(yàn)結(jié)果表明,通過數(shù)據(jù)頇處理和SVM分類算法參數(shù)優(yōu)化后的ATM機(jī)用戶身份識別系統(tǒng)識別精確度達(dá)到97.9769%,比沒通過數(shù)據(jù)預(yù)處理和SVM分類算法參數(shù)優(yōu)化后的識別精確度高出4.5769%。
關(guān)鍵詞:ATM機(jī);身份實(shí)時識別;行為特征;數(shù)據(jù)預(yù)處理;參數(shù)優(yōu)化
DOI:10.11907/rjdk.191059開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
中圖分類號:TP301文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2019)010-0045-05
0引言
自動柜員機(jī)(ATM)是各銀行必不可少的存取款智能設(shè)備,其不僅方便用戶使用,而且極大程度地減輕了銀行工作人員負(fù)擔(dān),但其安全隱患也越來越嚴(yán)重,如一些不法分子通過在ATM機(jī)的隱蔽位置偷裝針孔攝像機(jī)竊取用戶的賬戶密碼等。
ATM機(jī)主要通過攝像機(jī)監(jiān)控,但當(dāng)用戶的卡片信息被盜后,偷盜者就能通過ATM取款機(jī)將錢財(cái)取走,等監(jiān)控者判定該人員為偷盜者或警察到來前,偷盜者早已逃之夭夭。因此,實(shí)時、準(zhǔn)確地識別ATM機(jī)用戶身份對于降低安全隱患具有十分重要的意義。
近年基于生物特征的行為識別成為熱門研究領(lǐng)域,并成功應(yīng)用于娛樂、醫(yī)療、教育等行業(yè)。生物特征包括生理特征和行為特征。生理特征指人體的靜態(tài)特征,如虹膜、指紋、手掌幾何特征、臉部特征甚至DNA,而行為特征則是人體活動時產(chǎn)生的特征,如運(yùn)動軌跡、運(yùn)動強(qiáng)度、觸摸力度等。
文獻(xiàn)研究如何利用生理特征識別手機(jī)用戶身份。在文獻(xiàn)中,作者將聲音、人臉、簽名等多種生理特征用作智能手機(jī)的身份認(rèn)證。利用生物特征進(jìn)行身份認(rèn)證較易受環(huán)境影響,很大程度上降低了系統(tǒng)準(zhǔn)確度和可靠性,如人臉識別容易受到視覺角度和光線強(qiáng)弱影響,語音識別容易受到周邊噪音干擾等。研究表明人臉識別具有較高的錯誤率,大約為28%;聲音和簽名的錯誤率也高達(dá)15%和18%。生理特征不僅容易受外界環(huán)境干擾,還容易被模仿和復(fù)制,而且認(rèn)證成本較高,很難應(yīng)用于人體行為識別系統(tǒng)。
基于行為特征的行為識別技術(shù)是一種相對生理特征而言性能更穩(wěn)定、成本更低的新興技術(shù),該技術(shù)只需通過可穿戴設(shè)備中的傳感器便可采集到行為特征,通過分析特征類別便可識別出行為屬性。這里所說的可穿戴設(shè)備指將相關(guān)傳感器放置于動物或人體上,通過傳感器獲取實(shí)驗(yàn)需要的數(shù)據(jù),通過數(shù)據(jù)采集達(dá)到人機(jī)交互。最后根據(jù)數(shù)據(jù)分析,判別該用戶或行為是否在預(yù)設(shè)的行為范圍之內(nèi),從而判定是否合法。
傳統(tǒng)自動柜員機(jī)(ATM)監(jiān)控系統(tǒng)以攝像為主,不能快速有效地檢測出用戶身份是否異常。本文提出一種基于行為特征的ATM機(jī)用戶身份實(shí)時識別方法,采集用戶輸密碼時的觸屏行為特征數(shù)據(jù),通過SVM分類算法判斷該用戶行為是否屬于合法用戶。該方法不僅要求用戶輸入的賬戶密碼正確,還要求其行為特征與預(yù)設(shè)定的合法用戶行為特征一致,極大提高了安全性能。相對于生物特征識別而言,基于行為特征的識別技術(shù)是一種性能較穩(wěn)定、成本較低的新興技術(shù),只需要通過ATM機(jī)輸碼屏幕的內(nèi)置傳感器采集用戶在輸入賬戶密碼時的觸屏行為特征,以此判斷該用戶是否為合法用戶。當(dāng)且僅當(dāng)判斷結(jié)果為合法用戶并且輸入密碼正確時才能進(jìn)入業(yè)務(wù)界面。該身份識別方法要求用戶輸碼的設(shè)備為電子屏幕而并非現(xiàn)階段較為常見的金屬密碼鍵盤。
1用戶身份識別系統(tǒng)
1.1傳感數(shù)據(jù)獲取
通過ATM機(jī)輸碼設(shè)備的內(nèi)置傳感器可采集到人體活動時的行為樣本數(shù)據(jù),本文使用的ATM機(jī)輸碼設(shè)備一般為電子輸碼屏幕,可內(nèi)置豐富的傳感器,包括加速度傳感器、重力傳感器、壓力傳感器、陀螺儀、光線傳感器等,當(dāng)人的手指在ATM機(jī)輸碼屏幕上輸入取款密碼時,內(nèi)置傳感器就能實(shí)時采集觸屏運(yùn)動的行為特征,無需額外硬件設(shè)備支持。
1.2ATM機(jī)用戶身份識別流程
基于ATM機(jī)的用戶身份實(shí)時識別過程包括訓(xùn)練和識別兩個階段。
在訓(xùn)練階段,預(yù)先采集已知用戶的行為數(shù)據(jù),包括用戶名、密碼、觸摸力度、觸摸速度等,對采集到的數(shù)據(jù)特征進(jìn)行預(yù)處理,然后用預(yù)處理數(shù)據(jù)訓(xùn)練分類器,并通過優(yōu)化分類算法進(jìn)一步提高分類精確性;
在識別階段,將采集未知用戶的行為數(shù)據(jù),在核對用戶名和密碼正確的基礎(chǔ)上,通過訓(xùn)練好的分類器對采集到的用戶行為數(shù)據(jù)進(jìn)行分類,判斷用戶行為是否合法。其中,未知身份的用戶行為數(shù)據(jù)也需經(jīng)過行為特征提取和數(shù)據(jù)預(yù)處理過程。圖1為身份實(shí)時識別系統(tǒng)工作流程。
1.3行為特征提取
觸屏操作動作通??煞纸鉃槭种赴聪缕聊浑A段、手指在屏幕上靜止停留階段和手指離開屏幕階段,本文將這3個階段用Key-Down、Key-Hold和Key-Up表示。
對每次觸屏操作提取觸屏力度、觸屏面積、觸屏?xí)r間和觸屏加速度這4種行為特征。雖然不同用戶的行為特征都不相同,但每個用戶自身的多次行為特征卻具有相似性和持續(xù)性。
圖2展示了ATM機(jī)輸碼屏幕的三維坐標(biāo)圖,與屏幕較短邊平行的軸設(shè)為x軸,正方向向右;與屏幕較長邊平行的軸設(shè)為y軸,正方向向上;與屏幕平面垂直的軸設(shè)為z軸,正方向指向屏幕上方。的觸屏加速度。
(1)觸屏面積。觸屏面積大小范圍限制在0-1之間。提取每次觸屏操作的3個觸屏面積子特征:①Z1:處于Key-Down階段的觸屏面積;②Z2:處于Key-Hold階段的觸屏面積;③Z3:處于Key-Up階段的觸屏面積。
(2)觸屏力度。觸屏力度大小范圍在0-1之間,0表示電子屏幕感受不到任何壓力,1表示電子屏幕所能承受的最大壓力。提取每次觸屏操作的3個觸屏力度子特征:①Z4:處于Key-Down階段的觸屏力度;②Z5:處于Key-Hold階段的觸屏力度;③Z6:處于Key-Up階段的觸屏力度。
(4)觸屏?xí)r間。觸屏?xí)r間包括觸屏過程時間和上一觸屏操作結(jié)束到下一觸屏操作開始之間的間隔時間。不同用戶的觸屏?xí)r間不盡相同,而同一用戶的多次觸屏?xí)r間差異較小。
提取每次觸屏操作的4個觸屏?xí)r間子特征:①Z10:處于Key-Down階段的觸屏?xí)r間;②Z11:處于Key-Hold階段的觸屏?xí)r間;③Z12:處于Key-Up階段的觸屏?xí)r間;④Z13:處于上一個Key-Up階段結(jié)束至下一個Key-Down階段開始的間隔時間。
用戶每次觸屏,ATM機(jī)電子屏幕內(nèi)置傳感器將收集到13維行為特征。對于6位密碼而言,輸完第6位密碼將點(diǎn)擊確認(rèn)按鈕,但不采集該確認(rèn)按鈕的任何觸屏行為特征,只記錄第6位密碼Key-Up階段結(jié)束至確認(rèn)按鈕Key-Down開始之間的間隔時間。6位密碼的觸屏操作可采集到78維行為特征。
1.4數(shù)據(jù)預(yù)處理
對各組行為特征數(shù)據(jù)進(jìn)行預(yù)處理,預(yù)處理操作包括異常值移除處理和歸一化處理。
異常值移除處理指在成千上萬的數(shù)據(jù)中移除個別異常樣本數(shù)據(jù)。由于數(shù)據(jù)中存在各式各樣的“臟數(shù)據(jù)”,也稱為“離群點(diǎn)”,即因?yàn)椴杉僮鞑划?dāng)?shù)热藶橐蛩禺a(chǎn)生偏差較大的數(shù)據(jù),這些少數(shù)離群數(shù)據(jù)往往導(dǎo)致整體特征偏移,所以為了保證數(shù)據(jù)整體特征的有效性,要移除這些異常樣本數(shù)據(jù)。
歸一化思想是事先根據(jù)實(shí)際情況定義每一維度范圍,如正常的觸摸屏幕壓力值,將其定義在0-1。減少甚至去除異常樣本影響,使訓(xùn)練加速、實(shí)驗(yàn)數(shù)據(jù)更加準(zhǔn)確。所謂異常樣本數(shù)據(jù)指相對于正常數(shù)據(jù)過大或過小的特征矢量,如觸屏加速度的特征數(shù)據(jù)達(dá)到兩位數(shù)之大,而觸屏壓力值只局限在0-1之間,觸屏壓力特征將會被觸屏加速度特征掩蓋,那么這兩種樣本數(shù)據(jù)則相互稱為奇異樣本數(shù)據(jù)。通過歸一化處理,不僅可以方便后續(xù)數(shù)據(jù)處理,還能加快程序收斂速度,避免奇異樣本數(shù)據(jù)所代表的特征被掩蓋。
1.5分類算法及參數(shù)優(yōu)化
本文研究目的是判斷輸密碼的用戶是否為合法用戶,因此只需將N類分類問題轉(zhuǎn)化為兩類分類方法問題:第一類是由合法用戶輸入密碼時采集的行為特征數(shù)據(jù),標(biāo)記為+1,第二類是由非法用戶輸入密碼時采集的行為特征數(shù)據(jù),標(biāo)記為-1。本文使用SVM訓(xùn)練模型,通過訓(xùn)練找到這兩類訓(xùn)練樣本的超平面,其中SVM通過徑向基(RBF)核函數(shù)實(shí)現(xiàn)徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)功能。為了提高SVM的識別精確度,需要找到最優(yōu)的懲罰因子c和核函數(shù)參數(shù)g。
不同類型的參數(shù)組合會影響實(shí)驗(yàn)的準(zhǔn)確性。為提高實(shí)驗(yàn)的準(zhǔn)確性,本文運(yùn)用多參數(shù)網(wǎng)格搜索法(Muhi-parame-tcl estimation of waterquality model by network search meth-od)選擇SVM參數(shù)。多參數(shù)網(wǎng)格搜索法是在參數(shù)c和g的可行區(qū)間上將其劃分為一系列小區(qū),即c∈[c1,c2],g∈[g1,g2],依次對每對參數(shù)(c,g)進(jìn)行訓(xùn)練,最后取實(shí)驗(yàn)效果最優(yōu)的一對參數(shù)作為該模型參數(shù)。
2實(shí)驗(yàn)分析
2.1模擬應(yīng)用程序
為模擬真實(shí)ATM機(jī)輸密碼過程,本文將智能手機(jī)屏幕虛擬成ATM機(jī)輸碼屏幕,通過手機(jī)的內(nèi)置傳感器采集用戶在觸屏?xí)r的行為特征數(shù)據(jù),而后通過分析數(shù)據(jù)判斷該用戶身份是否合法。為實(shí)現(xiàn)這個目標(biāo),本文設(shè)計(jì)一個基于安卓系統(tǒng)的模擬應(yīng)用程序KeyRecorder用于采集、存儲和分析用戶的行為特征數(shù)據(jù),其密碼輸入界面如圖3所示,該應(yīng)用程序的采樣頻率大約為100Hz。
2.2樣本數(shù)據(jù)采集
采集50位年齡平均分布于各個階段的志愿者數(shù)據(jù)。由于本文的最終目的是檢測基于行為特征的身份識別系統(tǒng)是否能加強(qiáng)ATM機(jī)的安全性能,因此不考慮賬戶密碼輸入不正確的情況。實(shí)驗(yàn)開始前讓志愿者牢記統(tǒng)一設(shè)置的賬戶密碼,并且能熟練使用設(shè)備。
從50位志愿者中隨機(jī)挑選10位作為A組,該組志愿者為合法用戶,要求A組志愿者每天在3個不同的時間段進(jìn)行輸密碼操作,持續(xù)20天實(shí)驗(yàn)后從每個A組志愿者中收集到60組數(shù)據(jù)。將A組志愿者的60組數(shù)據(jù)平均分成兩個部分,第一部分用于訓(xùn)練分類器,第二部分用于測試階段。因?yàn)樵诂F(xiàn)實(shí)情況中無法預(yù)先獲取非法用戶的行為樣本,因此測試階段和訓(xùn)練階段的非法用戶應(yīng)來自不同群體。將其余40位志愿者隨機(jī)挑選20位作為訓(xùn)練階段的非法用戶(B組),其余20位作為測試階段的非法用戶(C組)。同樣要求B組和C組的志愿者每天在3個不同時間段進(jìn)行輸密碼操作,持續(xù)20天實(shí)驗(yàn)后可從每個志愿者收集到60組數(shù)據(jù)。
2.3數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理工作包括異常值移除處理和歸一化處理。
(1)異常值移除處理。本文利用盒圖(boxplot)的最小觀測點(diǎn)和最大觀測點(diǎn)判定數(shù)據(jù)是否離群,即在最大觀測點(diǎn)和最小觀測點(diǎn)區(qū)間以外的數(shù)據(jù)都認(rèn)為是離群,若離群則定義為異常值。如圖4所示,盒圖由5個部分組成,分別為最大值(max)、上四分位數(shù)(Q3)、下四分位數(shù)(Q1)、中位數(shù)(median)和最小值(min),其中max=Q3+1.5x(Q3-Q1),min=Q1-1.5x(Q3-Q1)。若一個數(shù)據(jù)大于最大值或小于最小值,就將它視為異常數(shù)據(jù)。圖5為觸屏力度傳感器采集到的3維數(shù)據(jù)特征,從圖中可很直觀地看到“+”點(diǎn)即離群點(diǎn).
(2)歸一化處理數(shù)據(jù),使算法收斂。本實(shí)驗(yàn)借助MAT-LAB使用其中的premnmx函數(shù)實(shí)現(xiàn)歸一化處理,使數(shù)據(jù)分布在[-1,1]之間。圖6(a)和圖6(b)為觸屏力度F4-F6特征數(shù)據(jù)歸一化前后的對比圖。其中,“*”和“o”分別表示合法用戶和非法用戶的觸屏力度特征數(shù)據(jù)樣本。從圖中可以看出,經(jīng)過歸一化處理的數(shù)據(jù)都被限制在[-l,1]之間,數(shù)據(jù)特征仍然保留。
2.4身份識別系統(tǒng)性能評估
(1)性能評估標(biāo)準(zhǔn)。通過訓(xùn)練好的分類器判斷用戶身份是否合法,其考核指標(biāo)為身份識別精確度,精確度可通過Accuracy衡量。Accuracy是衡量系統(tǒng)正確率的總體情況,其中正確率包括正確接受率(True Acceptance Rate,TAR)和正確拒絕率(True Rejection Rate,TRR),一般0≤Accuracy≤1,當(dāng)Accuracy=1時系統(tǒng)性能完美。
(2)數(shù)據(jù)預(yù)處理、SVM分類參數(shù)優(yōu)化前后性能對比。由于懲罰因子和核函數(shù)參數(shù)對于SVM性能影響很大,所以本文運(yùn)用多參數(shù)網(wǎng)格搜索法尋找最優(yōu)參數(shù)值。無數(shù)組c、g都對應(yīng)最高的分類準(zhǔn)確度,但為了避免過學(xué)習(xí)狀態(tài),本文采用交叉驗(yàn)證法找出精確度最高的c、g組合。圖7和圖8分別為數(shù)據(jù)預(yù)處理、SVM分類參數(shù)優(yōu)化前后對應(yīng)的分類準(zhǔn)確度等高線對比圖。實(shí)驗(yàn)結(jié)果表明,通過數(shù)據(jù)預(yù)處理和SVM分類參數(shù)優(yōu)化后的系統(tǒng)識別精確度可達(dá)到97.9769%,此時所對應(yīng)的最佳c和g取值分別是0.03125和2,而沒有通過數(shù)據(jù)預(yù)處理和SVM分類參數(shù)優(yōu)化的系統(tǒng)識別精確度僅為93.4%。
3結(jié)語
本文研究了一種基于行為特征的ATM機(jī)用戶身份實(shí)時識別方法,通過ATM機(jī)輸碼屏幕的內(nèi)置傳感器采集用戶輸入賬戶密碼時的觸屏行為特征,以此判斷該用戶是否為合法用戶。當(dāng)且僅當(dāng)判斷結(jié)果為合法用戶并且輸入密碼正確時,才能進(jìn)入業(yè)務(wù)界面。實(shí)驗(yàn)證明,通過數(shù)據(jù)預(yù)處理、SVM分類算法參數(shù)優(yōu)化后的系統(tǒng)識別精確度可提高4.5769%。由于本文提出的是基于有監(jiān)督學(xué)習(xí)算法的ATM機(jī)用戶身份識別系統(tǒng),需要大量訓(xùn)練數(shù)據(jù)集才可保證分類器的識別精確度,在現(xiàn)實(shí)生活中會很大程度影響用戶體驗(yàn)。因此,下一步將研究基于無監(jiān)督學(xué)習(xí)算法的ATM機(jī)用戶身份識別系統(tǒng),并通過優(yōu)化算法提高系統(tǒng)識別精確度。