馬磊
摘要:針對電子商務(wù)中用戶身份易被竊取冒用這一問題,設(shè)計研究了利用鼠標輸入行為特征進行身份識別的方法,通過采集網(wǎng)上購物過程中用戶的鼠標行為數(shù)據(jù),使用聚類算法進行鼠標行為模式的固化,通過比較鼠標行為特征向量間的距離進行用戶行為合法性判斷。方法應(yīng)用在電子商務(wù)系統(tǒng),誤檢率與漏檢率均在可接受范圍內(nèi),可作為電子商務(wù)中用戶身份認證的一種新的輔助手段。
關(guān)鍵詞:電子商務(wù);鼠標行為;異常檢測;身份認證;特征向量
中圖分類號:TP393.08 文獻標識碼:A 文章編號:1009-3044(2016)02-0241-02
Abstract: The phenomenon of identity theft in e-commerce frequently happens, and credible problem has aroused wide public concern. In order to solve this problem, this paper discusses the method of identity authentication and anomaly detection by using the feature of mouse behavior. Mouse behavior data is collected during shopping and clustering algorithm is used to build the normal mouse behavior pattern. The distance between feature vectors is compared with the defined threshold to differentiate legal and illegal users. This method can be used as a new auxiliary method in user identity authentication in e-commerce, with low FAR and FRR.
Key words: e-commerce; mouse behavior; anomaly detection; identity authentication; feature vector
1 引言
隨著互聯(lián)網(wǎng)的發(fā)展,電子商務(wù)已經(jīng)成為人們?nèi)粘I畈豢扇鄙俚牟糠?。然而由于網(wǎng)上交易和網(wǎng)絡(luò)支付平臺的迅速興起,網(wǎng)絡(luò)支付安全體系尚不健全,網(wǎng)絡(luò)購物人數(shù)不斷增加,各種消費欺詐、用戶信息泄漏問題頻出[1-2]。網(wǎng)絡(luò)交易中用戶的身份驗證普遍采用數(shù)字證書的方法[3],但是數(shù)字證書使用的用戶名、密碼等信息易泄露,這種方法并不能很好地解決用戶身份可信的問題。
本文研究了通過用戶行為模式進行身份認證的方法,提出利用鼠標行為認證的方法,對電子商務(wù)中用戶購物行為的安全性加以保障。在以往的案例中,對用戶行為的建模研究多運用于個性化推薦等方面[4],旨在提升用戶的網(wǎng)購體驗。本文的方法以電子商務(wù)活動中用戶的購物行為所產(chǎn)生的鼠標行為數(shù)據(jù)為研究對象,根據(jù)用戶特有的鼠標行為進行抽象建模,固化合法用戶的鼠標行為模式,進而通過模式匹配判斷新的購物行為是否屬于異常行為。該策略無需輔助設(shè)備,可直接部署使用,不存在硬件設(shè)備的時效性和攜帶不便問題,便于優(yōu)化用戶操作體驗。
2 基于鼠標行為的異常行為檢測方法
2.1 異常行為檢測原理
用戶在電子商務(wù)網(wǎng)站實施的操作是多樣化的:登錄網(wǎng)站,瀏覽選購商品,加入或清空購物車,提交或取消訂單等。在討論用戶異常行為時,類似于清空購物車,取消訂單等的行為,對用戶的錢財不會造成損失。所以本文選擇了對用戶利益可能有實質(zhì)性傷害的有序行為,即要購買某個商品必須操作的流程,進行分析。
可以把這些流程抽象成一個類似自動機的模型。自動機有狀態(tài)集,初態(tài),終態(tài),輸入字符和轉(zhuǎn)移函數(shù),在某個狀態(tài)下,輸入某個字符,根據(jù)轉(zhuǎn)移函數(shù)就轉(zhuǎn)移到相應(yīng)的狀態(tài)[5]。圖1表示了抽象的類自動機模型。該“類自動機”可以表示為5-元組D=(Q, ∑, δ, q0, F),其中:
(1) Q 是非空有窮集合,稱為狀態(tài)集。圖1中用圓角矩形表示,每個圓角矩形表示一種狀態(tài)。
(3) F 是終止狀態(tài)集合 (F?Q)。圖1中終態(tài)有兩種,即兩種判斷結(jié)果狀態(tài):正常與異常狀態(tài)。
(4) ∑ 是抽象符號的有限集合。圖1中,∑={0,1}。字符1抽象表示滿足一定的條件,0表示不滿足該條件。
(5) δ 是狀態(tài)轉(zhuǎn)移函數(shù)。
在此模型中,當輸入字符為0時,即該階段的鼠標行為特征向量不匹配時,則當前狀態(tài)直接轉(zhuǎn)移到終態(tài)集中的異常狀態(tài),判斷出當前用戶行為是異常的。只有每次輸入的抽象字符是1,即每個階段的鼠標行為特征向量都匹配時,才能最終轉(zhuǎn)移到終態(tài)集中的正常狀態(tài),判斷出當前用戶的行為是正常的。綜上所述,檢測異常行為的過程就是運行該“類自動機”的過程。
運行上述“類自動機”過程中,最重要的環(huán)節(jié)是判斷每個階段的輸入符號為1還是0,即每個階段的鼠標行為特征向量是否匹配,具體地可以這樣操作:利用該階段時用戶的鼠標行為數(shù)據(jù),通過數(shù)學運算得到鼠標行為特征值,并利用基于歐式距離的K-Means聚類算法生成當前用戶鼠標行為特征向量,并與之前根據(jù)訓練階段所采集的鼠標行為數(shù)據(jù)分析生成的正常用戶行為特征向量,進行匹配,超過一定的閾值,則可以判斷出當前行為屬于異常行為,否則為正常行為。整個過程如圖2所示。
2.2 鼠標行為特征向量定義和匹配
考慮到在一般的電商網(wǎng)站中,很少或基本不會進行雙擊操作,所以主要采集鼠標單擊和移動兩種操作產(chǎn)生的數(shù)據(jù)。單擊時采集數(shù)據(jù)項有:網(wǎng)站頁面序號, X、Y軸坐標值,時間戳,其中網(wǎng)站頁面序號這個數(shù)據(jù)項代表了用戶購物的狀態(tài),表示用戶進行到登錄、瀏覽、下單等幾個階段中哪一步。使用上述數(shù)據(jù)項,通過數(shù)學計算可得到單擊時間間隔,單擊范圍分布等。在采集移動鼠標數(shù)據(jù)時,需要預先設(shè)定一個采樣率[6]。移動時采集數(shù)據(jù)項包括:網(wǎng)站頁面序號,X、Y軸坐標值,時間戳。通過這幾項數(shù)據(jù),后續(xù)可以計算出移動速度,加速度,移動角度值等特征屬性。
K-Means聚類算法是一種迭代的聚類算法,該算法事先設(shè)置K值,算法的結(jié)果是將數(shù)據(jù)劃分為K個簇集和相應(yīng)簇心。每個簇集的簇心就是該簇集中所有數(shù)據(jù)的均值,物理意義就是簇集中數(shù)據(jù)的行心[7]。
鼠標行為特征向量的設(shè)計,可以利用上述采集到的特征屬性值和K-Means聚類算法??紤]到應(yīng)用環(huán)境為電子商務(wù)購物網(wǎng)站,在購物過程中每個狀態(tài)跳轉(zhuǎn)都可以定義獨特的特征向量。具體地,如在圖1中從“未登錄”狀態(tài)轉(zhuǎn)移時,考慮到每個用戶的手速和操作習慣等不同,可以把單擊時間間隔均值及其標準差作為特征向量的一部分;另外,單擊區(qū)域也因人而異,可將采集到的大量單擊點坐標,通過基于歐氏距離的K-Means聚類算法,得到最密集簇的簇心坐標作為特征向量的一部分。其余的狀態(tài)轉(zhuǎn)移時設(shè)計的特征向量類似于上述內(nèi)容,故不再贅述。
特征向量的匹配,則需要計算特征向量間的距離??紤]到特征向量中的各個特征分量的數(shù)量級和單位不同,可以先對特征向量中的各個特征分量做歸一化處理,然后求特征向量之間歐式距離。若該距離超過一定的閾值,則可以判斷出待測的特征向量異常,檢測流程直接跳轉(zhuǎn)至異常狀態(tài),拒絕該用戶的后續(xù)操作。具體如圖3所示。
3 實驗結(jié)果分析
實驗有6名用戶參與,采集這些用戶在購物網(wǎng)站中產(chǎn)生的鼠標行為數(shù)據(jù),生成行為特征向量,使用上節(jié)所述的檢測方法進行用戶身份的識別。實驗中采用Failed Acceptance Rate (FAR,漏檢率)和Failed Rejection Rate (FRR,誤檢率)[8]兩個指標進行效果分析。最終實驗結(jié)果如表1所示,從表中數(shù)據(jù)可以得出:該方法的平均FAR為10.50%,F(xiàn)RR為9.72%,說明系統(tǒng)可以較好地識別用戶,檢測出異常的用戶行為。
4 結(jié)論
本文針對電子商務(wù)中頻繁的用戶身份冒用現(xiàn)象,給出了利用用戶鼠標行為特征進行用戶身份認證,進行用戶行為異常檢測的方法。該方法不需要額外的硬件輔助,只需要在購物網(wǎng)站中嵌入代碼采集用戶鼠標數(shù)據(jù)就可以對用戶身份進行識別。同時用戶鼠標行為特征信息區(qū)別于傳統(tǒng)的用戶名密碼信息,具有獨特性、不易模仿性和不易盜取性,運用到電子商務(wù)用戶身份認證領(lǐng)域,具有一定的實用價值。
參考文獻:
[1] 胡偉雄. 電子商務(wù)安全與認證[M]. 北京: 高等教育出版社, 2010.
[2] 中國互聯(lián)網(wǎng)絡(luò)信息中心. 第31次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告[DB/OL]. (2013-01). http://news.xinhuanet.com/tech/2013-01/15/c_124233840.htm.
[3] 朱玲玲. 網(wǎng)絡(luò)安全中的用戶身份認證機制[J]. 中國科技信息, 2006, 1(1): 46-47.
[4] 吳勝兵. Web 數(shù)據(jù)挖掘的應(yīng)用與研究[M]. 南昌大學, 2007.
[5] Hopcroft J E, 霍普克羅夫特, Motwani R, et al. 自動機理論, 語言和計算導論[M]. 機械工業(yè)出版社, 2004.
[6] Pusara M, Brodley C E. User re-authentication via mouse movements[C]//Proceedings of the 2004 ACM workshop on Visualization and data mining for computer security. ACM, 2004: 1-8.
[7] Machine learning: An artificial intelligence approach[M]. Springer Science & Business Media, 2013.
[8] Hand D J. Measuring classifier performance: a coherent alternative to the area under the ROC curve[J]. Machine learning, 2009, 77(1): 103-123.