沈超,蔡忠閩,管曉宏,2,房超,杜友田
(1.西安交通大學(xué) 智能網(wǎng)絡(luò)與網(wǎng)絡(luò)安全教育部重點(diǎn)實(shí)驗(yàn)室 機(jī)械制造系統(tǒng)工程國家重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710049;2.清華大學(xué) 自動(dòng)化系 清華信息科學(xué)與技術(shù)國家實(shí)驗(yàn)室,北京 100084)
安全的身份認(rèn)證是保證計(jì)算機(jī)及網(wǎng)絡(luò)系統(tǒng)安全的基本前提。現(xiàn)有的身份認(rèn)證技術(shù)主要包括三類[1,2],分別利用了不同的信息:1)記憶信息,如密碼、PIN等;2)輔助設(shè)備、如 ID卡、令牌等;3)生物特征,如指紋,虹膜等。這些傳統(tǒng)的識(shí)別技術(shù)自身均存有缺陷,如密碼難于記憶并容易搞混和泄露,ID卡需要隨身攜帶且易失竊或失效,生物認(rèn)證需要額外的硬件設(shè)備。鑒于此,研究人員仍然在不斷尋找新的身份認(rèn)證手段和方法。其中基于計(jì)算機(jī)輸入行為特征的認(rèn)證方法,因?yàn)椴恍枰砑宇~外的設(shè)備,在當(dāng)前大多數(shù)計(jì)算機(jī)系統(tǒng)中可以直接部署,實(shí)施無干擾的監(jiān)控,逐漸成為身份認(rèn)證研究中的新熱點(diǎn)[3~10]。
基于計(jì)算機(jī)輸入行為特征的認(rèn)證與監(jiān)控是研究通過鍵盤、鼠標(biāo)等計(jì)算機(jī)輸入設(shè)備的使用行為特征來識(shí)別計(jì)算機(jī)操作者身份的可行性及相關(guān)方法。計(jì)算機(jī)輸入行為研究主要是圍繞擊鍵行為特征進(jìn)行的[3,4],但隨著圖形界面的日益普及,鼠標(biāo)已逐漸超越鍵盤成為圖形交互環(huán)境下的主要輸入設(shè)備,并受到越來越多研究者的關(guān)注[5~7,8~14]。從 2003年開始,國外有4個(gè)小組對(duì)鼠標(biāo)的使用行為特征進(jìn)行了初步的研究[5~7,10,12],內(nèi)容多為基于統(tǒng)計(jì)的鼠標(biāo)行為特征。2003年,Ahmed等人[10]第一次提出了用鼠標(biāo)行為特征識(shí)別用戶的可能性,對(duì)用戶鼠標(biāo)行為中的一些簡單物理量,如鼠標(biāo)移動(dòng)速度、鼠標(biāo)移動(dòng)距離、單擊次數(shù)以及這些量之間的關(guān)系進(jìn)行統(tǒng)計(jì)分析,結(jié)果表明在不同的用戶間,這些統(tǒng)計(jì)量存在差異,并提出基于這些差異識(shí)別用戶身份的初步方法。隨后,Hocquet等人[14]進(jìn)行了一個(gè)有10個(gè)用戶參與的實(shí)驗(yàn),得出的結(jié)果有37.5%的錯(cuò)誤率。然后Pusara和Brodley[5]提出了一種基于鼠標(biāo)運(yùn)動(dòng)的用戶再認(rèn)證方案。他們提出對(duì)于每個(gè)用戶的每個(gè)請(qǐng)求都用決策樹分類器建立一個(gè)不同的模型。我們小組[8,9]研究了由各種因素引起的鼠標(biāo)行為波動(dòng)性對(duì)識(shí)別效果的影響,將波動(dòng)性定義為由一系列因素的變化導(dǎo)致的用戶鼠標(biāo)操作模式上的差異,這些因素包括:物理環(huán)境,圖形用戶界面的設(shè)定,應(yīng)用場景,用戶計(jì)算機(jī)熟練度,用戶的精神狀態(tài),用戶的身體狀況等。同時(shí),在對(duì)鼠標(biāo)行為特征空間分析的基礎(chǔ)上,提出了一種基于降維處理的方法來消除各種因素引起的鼠標(biāo)行為波動(dòng)性問題。實(shí)驗(yàn)結(jié)果表明這些因素都可能引起用戶鼠標(biāo)行為的不確定性,并且發(fā)現(xiàn)在鼠標(biāo)行為特征中存在較強(qiáng)的相關(guān)性,而采用主成分分析、流形學(xué)習(xí)等降維處理的方法可以有效地消除各種因素引起的波動(dòng)性,減弱行為特征間的相關(guān)性,降低這些因素對(duì)身份識(shí)別精度的影響。
盡管不同研究者得到的識(shí)別精度有所差別,但這些工作基本證實(shí)了利用用戶的鼠標(biāo)行為特征進(jìn)行身份區(qū)分的可行性。
基于此,本文提出了一種利用人機(jī)交互時(shí)用戶的鼠標(biāo)使用行為特征進(jìn)行身份認(rèn)證和監(jiān)控的方法。通過采集各種應(yīng)用環(huán)境下的鼠標(biāo)行為數(shù)據(jù),從人機(jī)交互和用戶生理行為層面上對(duì)鼠標(biāo)行為進(jìn)行研究,提取出鼠標(biāo)操作的交互行為特征和生理行為特征并對(duì)其進(jìn)行定性、定量的實(shí)驗(yàn)分析。同時(shí),采用基于順序前進(jìn)貪婪搜索的特征選擇及評(píng)價(jià)的方法,對(duì)20個(gè)用戶2個(gè)月的鼠標(biāo)行為數(shù)據(jù)進(jìn)行比較分析,并結(jié)合支持向量機(jī)的方法建立了基于鼠標(biāo)生物行為特征的身份認(rèn)證和監(jiān)控模型。實(shí)驗(yàn)結(jié)果表明,該方法能夠顯著提升識(shí)別準(zhǔn)確度,誤識(shí)率與拒識(shí)率分別從 14.79%和 12.35%降低到1.67%和 3.68%,明顯優(yōu)于傳統(tǒng)的分類識(shí)別方法(BP、RBF和SOM)。這一結(jié)果說明,計(jì)算機(jī)用戶間的鼠標(biāo)行為存在著顯著的不同,借助模式識(shí)別的一些方法,可以實(shí)現(xiàn)基于鼠標(biāo)行為特征的較為準(zhǔn)確的身份認(rèn)證和跟蹤。
本文結(jié)構(gòu)如下:第2節(jié)介紹了鼠標(biāo)行為特征并進(jìn)行了相應(yīng)的實(shí)驗(yàn)分析;在第3節(jié)介紹了鼠標(biāo)行為特征選擇及身份認(rèn)證與監(jiān)控方法;第4節(jié)是實(shí)驗(yàn)結(jié)果及分析;第5節(jié)是本文的結(jié)束語。
鼠標(biāo)行為特征的研究是通過監(jiān)測計(jì)算機(jī)用戶的鼠標(biāo)輸入,獲取用戶使用鼠標(biāo)時(shí)的行為特征數(shù)據(jù),分析用戶的鼠標(biāo)行為模式,并以此為依據(jù)來進(jìn)行用戶身份的認(rèn)證。日常鼠標(biāo)動(dòng)作包括鼠標(biāo)的移動(dòng)、鼠標(biāo)的左右鍵單擊及雙擊、鼠標(biāo)的拖拽運(yùn)動(dòng)、鼠標(biāo)中鍵的滾動(dòng)及鼠標(biāo)的靜止等。許多圖形交互界面中的復(fù)雜任務(wù)都可以通過一系列簡單的鼠標(biāo)操作來完成。
基于鼠標(biāo)行為特征的身份認(rèn)證中一個(gè)基本的假設(shè)是:對(duì)每個(gè)用戶而言,其鼠標(biāo)操作都存在與其他用戶具有顯著區(qū)別的使用模式。對(duì)這些不同的模式中鼠標(biāo)行為進(jìn)行刻畫所得到的特征就構(gòu)成了鼠標(biāo)行為特征。本文從人機(jī)交互和用戶生理行為層面上的鼠標(biāo)行為研究出發(fā),提取出了新的鼠標(biāo)行為特征,并將其分為兩類:交互層的特征,與應(yīng)用環(huán)境相關(guān),反映用戶使用習(xí)慣的特征,如用戶經(jīng)常進(jìn)行哪些類型的操作;生理層的特征,即用戶在使用鼠標(biāo)過程中所反映出的獨(dú)特的生理特征,如鼠標(biāo)移動(dòng)的軌跡特征等。表1是對(duì)本文所提取鼠標(biāo)行為特征的簡單描述。
表1 身份認(rèn)證與監(jiān)控模型鼠標(biāo)行為特征輸入向量
用戶在操作鼠標(biāo)的過程中,因使用習(xí)慣及生理習(xí)性的差異,其鼠標(biāo)行為特征也互不相同,例如鼠標(biāo)單雙擊的時(shí)間,鼠標(biāo)左右鍵的使用習(xí)慣,鼠標(biāo)移動(dòng)時(shí)的速度等。產(chǎn)生這些差異的直接原因在于不同用戶的鼠標(biāo)行為操作有較大的區(qū)別,例如鼠標(biāo)的移動(dòng)和鼠標(biāo)的點(diǎn)擊時(shí)間,前者在于不同用戶移動(dòng)鼠標(biāo)的力度及準(zhǔn)確定位能力的不同,而后者在于不同用戶點(diǎn)擊鼠標(biāo)的手指力度的不同;間接原因則跟用戶的精神狀態(tài)以及用戶對(duì)操作過程的熟悉程度有關(guān)。下面,本文通過對(duì)部分鼠標(biāo)行為特征的定性、定量的實(shí)驗(yàn)分析,初步驗(yàn)證了基于鼠標(biāo)行為特征對(duì)用戶身份進(jìn)行區(qū)分的有效性及可行性。
2.2.1 鼠標(biāo)操作在屏幕區(qū)域的分布
實(shí)驗(yàn)記錄用戶在自然狀態(tài)下的鼠標(biāo)行為或在模擬GUI界面下完成指定的動(dòng)作采集行為數(shù)據(jù),統(tǒng)計(jì)用戶鼠標(biāo)操作在各個(gè)屏幕區(qū)域所占的比例。圖 1中x, y坐標(biāo)軸表示計(jì)算機(jī)屏幕的水平和豎直方向,z坐標(biāo)軸表示鼠標(biāo)在相應(yīng)屏幕區(qū)域內(nèi)的操作次數(shù),可以看出:與其他生物測定學(xué)特征類似,鼠標(biāo)操作在屏幕區(qū)域的分布情況在不同用戶間有著較大的差異,圖1(a)的操作大部分集中在屏幕中部的區(qū)域,且分布比較分散,而圖1(b)的操作非常集中,且都分布在屏幕的小范圍內(nèi)。
圖1 不同用戶鼠標(biāo)操作在屏幕不同區(qū)域分布
2.2.2 移動(dòng)速度與距離、方向、目標(biāo)大小的關(guān)系
實(shí)驗(yàn)在模擬圖形交互界面的環(huán)境中,要求用戶將鼠標(biāo)從起點(diǎn)移至目標(biāo)位置并點(diǎn)擊。起點(diǎn)位于計(jì)算機(jī)屏幕的中心,移動(dòng)距離是固定的,目標(biāo)位于起點(diǎn)周圍 0o、45o、90o、135o、180o、?135o、?90o和?45o8個(gè)方向,并且目標(biāo)面積的大小分別為5mm、8mm和12mm的圓。采取隨機(jī)在8個(gè)方向上彈出對(duì)話框的方式來測試移動(dòng)速度與移動(dòng)方向和目標(biāo)大小的關(guān)系。不同用戶在相同移動(dòng)距離下平均移動(dòng)速度與移動(dòng)方向和目標(biāo)大小的關(guān)系如圖2所示。從中可以看出,鼠標(biāo)在各個(gè)方向上的移動(dòng)速度以及速度隨著方向的變化趨勢(shì)均存有差異。移動(dòng)速度隨目標(biāo)面積的加大而增大,其原因是:目標(biāo)越小,定位操作精度越高,移動(dòng)時(shí)間越長。
圖2 目標(biāo)大小分別為5mm、8mm和12mm
鼠標(biāo)數(shù)據(jù)是以人機(jī)交互過程中的會(huì)話為單位獲取的,每個(gè)會(huì)話包含用戶30min的鼠標(biāo)活動(dòng)數(shù)據(jù)。對(duì)采集到的每個(gè)會(huì)話的鼠標(biāo)數(shù)據(jù),提取鼠標(biāo)操作頻率分布、靜止事件占空比、操作屏幕范圍分布、移動(dòng)時(shí)間頻率、移動(dòng)方向頻率、單擊時(shí)間間隔、雙擊時(shí)間間隔、平均移動(dòng)速度這8個(gè)特征子集構(gòu)成了用戶鼠標(biāo)行為特征樣本集。
由各種鼠標(biāo)行為特征組成的參量空間就是鼠標(biāo)行為的特征空間。特征空間中的各種特征從不同方面描述了鼠標(biāo)行為的特性或鼠標(biāo)行為的表現(xiàn)形式,是鼠標(biāo)行為分析和識(shí)別的有效標(biāo)志。本文針對(duì)計(jì)算機(jī)用戶在人機(jī)交互過程中所形成的鼠標(biāo)行為特征空間,評(píng)價(jià)并選擇最佳的特征組合,并研究基于鼠標(biāo)行為特征空間的身份識(shí)別方法。
順序前進(jìn)貪婪選擇(SFGS, sequential forward greedy selection)是使每一步所做的選擇看起來都是當(dāng)前最佳的,期望通過所做的局部最優(yōu)選擇來產(chǎn)生出一個(gè)全局最優(yōu)解。設(shè)由鼠標(biāo)行為特征樣本集生成的行為特征集矩陣為
其中,fij表示第i個(gè)樣本的第j個(gè)特征,m和n分別表示樣本和特征的個(gè)數(shù)。首先,本文定義了分類準(zhǔn)確度對(duì)特征選擇的過程進(jìn)行評(píng)價(jià):δ=,δ表ijij示對(duì)i維的特征變量組合的第 j類特征組合進(jìn)行測試的分類準(zhǔn)確度,S表示所有測試樣本的個(gè)數(shù),Sr表示在測試時(shí)正確分類樣本的個(gè)數(shù);然后,從所有的特征變量中選取出δ1j值最佳的特征變量組合,并以此特征變量為基礎(chǔ),增加一個(gè)維度,計(jì)算所有二維可能組合的δ2j值,并選出最佳值;接下來,在已選特征的基礎(chǔ)上每次按照評(píng)價(jià)準(zhǔn)則從備選特征中選擇一個(gè)與已選特征子集組合對(duì)分類貢獻(xiàn)最大的特征加入子集,順序加入,直到分類識(shí)別準(zhǔn)確率不再提高為止。
支持向量機(jī)(SVM, support vector machine)[14]是建立在計(jì)算學(xué)習(xí)理論的結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則之上。其主要思想是針對(duì)兩類分類問題,在高維空間中尋找一個(gè)超平面作為兩類的分割,以保證最小的分類錯(cuò)誤率。
在基于鼠標(biāo)行為特征的身份分類識(shí)別中,每個(gè)類的識(shí)別被視為一個(gè)獨(dú)立的兩類分類問題。假設(shè)所有的用戶為k類,記為 L = {,…,βk}。設(shè)屬于類βi的樣本個(gè)數(shù)為Ni,可以將k類的分類問題轉(zhuǎn)化為兩類分類問題:對(duì)任何一類βi而言,訓(xùn)練正例是該類所包含的全部樣本;而反例是在訓(xùn)練集中不屬于該類的所有其他類的樣本。
令訓(xùn)練集E={(zi,yi)|i=1,2,…,l} ,其中zi∈RN,yi∈{+1,?1},求(w, b)使得
達(dá)到最小。其中ρ(x, y)表示特征向量x與所屬類別的聯(lián)合分布密度fw,b(z)=sgn[wz+b]。為了求出(w, b),需求解如下的優(yōu)化問題:
接著,為了判斷某個(gè)樣本x是否屬于類β,首先計(jì)算 z=Φ(x),再計(jì)算如下決策函數(shù):
若f( z)=1,則x就屬于類β,否則x就不屬于該類。z=Φ(x)為SVM算法中的核函數(shù)。
為了能夠獲取并處理相應(yīng)的鼠標(biāo)行為數(shù)據(jù),在前述行為特征分析的基礎(chǔ)上,本文提出了基于鼠標(biāo)行為的身份檢測框架,如圖3所示。該框架主要包括3個(gè)模塊:數(shù)據(jù)獲取模塊、行為分析模塊、行為匹配模塊。數(shù)據(jù)獲取模塊負(fù)責(zé)采集用戶的鼠標(biāo)行為數(shù)據(jù),進(jìn)行相應(yīng)的數(shù)據(jù)預(yù)處理,將原始鼠標(biāo)數(shù)據(jù)轉(zhuǎn)換成有意義的操作數(shù)據(jù);行為分析模塊負(fù)責(zé)對(duì)處理過的數(shù)據(jù)進(jìn)行特征提取、特征選擇,并產(chǎn)生鼠標(biāo)的模板特征;行為匹配模塊負(fù)責(zé)訓(xùn)練身份識(shí)別算法,對(duì)比用戶行為特征與模板特征,并產(chǎn)生識(shí)別結(jié)果。此外,該框架中還包含了相應(yīng)的數(shù)據(jù)集用來保存所有已知用戶的模板特征,故可以作為實(shí)際應(yīng)用中身份檢測的基本框架。
圖3 基于鼠標(biāo)行為的身份檢測框架
鼠標(biāo)行為數(shù)據(jù)的采集是在用戶的日常工作中完成的,每個(gè)參與數(shù)據(jù)采集的用戶都在各自的計(jì)算機(jī)上安裝一個(gè)可以被動(dòng)監(jiān)控記錄用戶鼠標(biāo)行為的軟件,并將采集的數(shù)據(jù)自動(dòng)送到采集服務(wù)器。本文共采集了20個(gè)計(jì)算機(jī)用戶在2個(gè)月內(nèi)的鼠標(biāo)行為數(shù)據(jù),采集的精度為100sample/s。參與者電腦的顯示器均為 17英寸 LCD,顯示分辨率都為 1024×768,內(nèi)存均為2GB,其他的硬件配置略有不同的:中央處理器分別為 Pentium 42.4GHz(3臺(tái)),Pentium 42.8GHz(7 臺(tái)), Core 2 Duo 3.0GHz(10臺(tái)),硬盤的大小分別為80GB(3臺(tái)),160GB(17臺(tái));軟件系統(tǒng)使用的是Windows不同版本的操作系統(tǒng):Windows 2000(3臺(tái))和Windows XP(17臺(tái))。采集到的輸入數(shù)據(jù)包括一系列的鼠標(biāo)動(dòng)作、屏幕坐標(biāo)、系統(tǒng)時(shí)間、進(jìn)程信息等。
采集到的鼠標(biāo)數(shù)據(jù)中或多或少都會(huì)存在一些干擾或噪音,對(duì)含有這種干擾的數(shù)據(jù)進(jìn)行分析,必定會(huì)降低識(shí)別的準(zhǔn)確性。例如,不同的計(jì)算機(jī)用戶有不同的鼠標(biāo)單擊速度,一般人的鼠標(biāo)單擊時(shí)間間隔大約在40~500ms之間,有時(shí)差異可能會(huì)更大。如果對(duì)所有用戶設(shè)立統(tǒng)一的過濾閾值,閾值定低了,會(huì)將一些點(diǎn)擊速度慢的人的正常數(shù)據(jù)濾除掉;閾值定高了,又會(huì)帶來很大的誤差,因此分別為不同用戶確定不同閾值Li是更客觀的選擇。
其中,Mi是第i個(gè)用戶的左鍵單擊時(shí)間間隔,系數(shù)k可以通過一些優(yōu)化工具來確定。
4.4.1 特征選擇與評(píng)價(jià)實(shí)驗(yàn)
本文從20個(gè)用戶中隨機(jī)選取10個(gè)用戶參與該實(shí)驗(yàn),每個(gè)用戶采集 30組數(shù)據(jù)。同時(shí)根據(jù)在第 2節(jié)中定義的特征提取方法提取出各個(gè)用戶相應(yīng)的鼠標(biāo)行為特征集,并采用順序前進(jìn)貪婪搜索算法進(jìn)行特征選擇和評(píng)價(jià)。
實(shí)驗(yàn)從空特征子集開始,每次加入1維特征到已選特征子集中,直到全部 45維特征都已經(jīng)選擇完畢,最后根據(jù)分類準(zhǔn)確率從中選取最優(yōu)的特征組合。表2展示了特征選擇和評(píng)價(jià)的結(jié)果,表中第2列的數(shù)字即表1中描述的維數(shù)編號(hào),對(duì)應(yīng)其所代表的特征。
表2 身份識(shí)別模型鼠標(biāo)行為特征輸入向量
從實(shí)驗(yàn)結(jié)果可以看出,30號(hào)特征(左鍵單擊時(shí)間間隔的均值)以及2號(hào)特征(右鍵單擊的頻率)對(duì)分類的貢獻(xiàn)最大,具有較高的區(qū)分性和穩(wěn)定性。當(dāng)選擇包含26維特征的子集{30, 2, 18, 31, 5, 15, 45,6, 34, 23, 26, 13, 36, 21, 44, 10, 17, 22, 29, 19, 3, 16,1, 43, 27, 39}時(shí),取得最好的分類準(zhǔn)確率,達(dá)到了97.73%,之后再增加新的特征時(shí),分類效果反而有所下降。
4.4.2 基于SVM的身份認(rèn)證實(shí)驗(yàn)
1) SVM建模:核函數(shù)選擇和參數(shù)調(diào)整
本文從20個(gè)用戶中隨機(jī)選取10個(gè)用戶參與這個(gè)實(shí)驗(yàn),為了避免正常和異常訓(xùn)練樣本比例差距過大,使測試結(jié)果受先驗(yàn)偏向的影響過大,每次選取一個(gè)用戶的30組數(shù)據(jù)作為正常樣本,其他9個(gè)用戶各選取5組數(shù)據(jù)作為異常樣本,進(jìn)行5折交叉驗(yàn)證實(shí)驗(yàn)。交叉驗(yàn)證實(shí)驗(yàn)再重復(fù) 10次,每次選取不同的用戶作為正常用戶,對(duì)各次實(shí)驗(yàn)的分類準(zhǔn)確率做平均。
實(shí)驗(yàn)提取全部45維特征,采用交叉驗(yàn)證方法,對(duì) Linear、Polynomial、RBF、Sigmoid 4 種核函數(shù)分別進(jìn)行實(shí)驗(yàn)測試,實(shí)驗(yàn)結(jié)果表明放射性核函數(shù)RBF的分類準(zhǔn)確率最高,說明RBF核函數(shù)能夠適應(yīng)于鼠標(biāo)行為特征空間的分布特性,因此本文選擇RBF作為SVM模型的核函數(shù)。
在SVM建模中,還有2個(gè)重要的模型參數(shù):正則化參數(shù)C與核函數(shù)參數(shù)γ。正則化參數(shù)C即誤差懲罰參數(shù),它決定了對(duì)誤判樣本的懲罰程度,用來平衡模型復(fù)雜度和經(jīng)驗(yàn)風(fēng)險(xiǎn)值,C的大小對(duì)最優(yōu)分類面的位置有較大影響??紤]到計(jì)算復(fù)雜度以及C和γ 可能互相影響,實(shí)驗(yàn)中對(duì)參數(shù)(C, γ )按指數(shù)增長序列進(jìn)行組合,得到的實(shí)驗(yàn)結(jié)果如圖4所示。
圖4 模型參數(shù)組合實(shí)驗(yàn)結(jié)果
從圖4中可以看出,當(dāng)γ確定時(shí),正則化參數(shù)C增大到一定值之后,對(duì)實(shí)驗(yàn)結(jié)果的影響不大,分類準(zhǔn)確率基本不變。這是由于作為SVM算法得到的最優(yōu)的分類面只能在很小的范圍內(nèi)波動(dòng),無論給再大的懲罰,也不能很大程度上改變分類面的位置,因此最后的準(zhǔn)確率不會(huì)發(fā)生太大的變化。實(shí)驗(yàn)獲得的最優(yōu)結(jié)果是95.60%,本文在達(dá)到這一測試結(jié)果的(C,γ)組合中選取 C=25=32,γ=2?1=0.5 作為后續(xù)實(shí)驗(yàn)中模型的參數(shù)。
2) 身份認(rèn)證實(shí)驗(yàn)結(jié)果
在本實(shí)驗(yàn)中,在經(jīng)過SFGS特征選擇與未經(jīng)過SFGS特征選擇的前提下,分別采用了SVM方法與傳統(tǒng)的分類方法(BP、RBF和SOM)進(jìn)行了身份認(rèn)證的實(shí)驗(yàn)。
本文采集了20個(gè)用戶的數(shù)據(jù),總共產(chǎn)生了600個(gè)鼠標(biāo)樣本集。對(duì)每個(gè)用戶,使用全部樣本中的1/2作為訓(xùn)練樣本,其余1/2的樣本作為測試樣本,根據(jù)實(shí)驗(yàn)中對(duì)除用戶i之外的n?1個(gè)用戶的異常行為數(shù)據(jù)的測試結(jié)果,計(jì)算得到用戶i的誤識(shí)率(FAR);根據(jù)對(duì)用戶i的各組數(shù)據(jù)進(jìn)行交叉驗(yàn)證時(shí)測試的結(jié)果,計(jì)算得到用戶i的拒識(shí)率(FRR)。對(duì)每個(gè)用戶的誤識(shí)率和拒識(shí)率做平均得到綜合的用戶身份認(rèn)證實(shí)驗(yàn)結(jié)果,如表3所示。
表3 用戶身份識(shí)別與認(rèn)證實(shí)驗(yàn)結(jié)果
對(duì)未經(jīng)特征選擇的鼠標(biāo)行為特征樣本集采用SVM進(jìn)行分類實(shí)驗(yàn),得到的誤識(shí)率和拒識(shí)率分別為4.36%和5.58%,明顯優(yōu)于傳統(tǒng)的識(shí)別方法(BP神經(jīng)網(wǎng)絡(luò):FAR=10.77%,F(xiàn)RR=7.38%;RBF徑向基網(wǎng)絡(luò):FAR=11.25%,F(xiàn)RR=7.16%;SOM 自組織神經(jīng)網(wǎng)絡(luò):FAR=14.79%,F(xiàn)RR=12.35%)。傳統(tǒng)的模式識(shí)別方法在解決鼠標(biāo)行為特征識(shí)別這種高位空間中自由分布的問題時(shí),其性能在理論上得不到保證。而SVM方法能夠合理地將身份識(shí)別問題轉(zhuǎn)化為二次尋優(yōu)問題,在先驗(yàn)知識(shí)相對(duì)不足的情況下,仍可以保持較好的分類準(zhǔn)確率和穩(wěn)定性,并且該方法通過最大化分類平面的邊緣來控制模型的分類能力,不依賴于鼠標(biāo)行為特征樣本的先驗(yàn)概率,具有良好的健壯性。同樣對(duì)經(jīng)過特征選擇的鼠標(biāo)行為特征樣本集進(jìn)行相似的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果得到了顯著的提高,誤識(shí)率和拒識(shí)率分別從 14.79%和 12.35%(SOM 自組織神經(jīng)網(wǎng)絡(luò))降低到 1.67%和 3.68%(SVM)。這說明基于SFGS和SVM的身份認(rèn)證和監(jiān)控方法不但能夠選擇最佳的鼠標(biāo)行為特征組合,對(duì)各類特征的重要性進(jìn)行研究,還能降低鼠標(biāo)特征空間的維數(shù),顯著的提高身份認(rèn)證和監(jiān)控的準(zhǔn)確度。
4.5.1 實(shí)驗(yàn)設(shè)置的充分性討論
對(duì)用戶身份的合法性進(jìn)行判定主要有2種實(shí)際的應(yīng)用需求:身份認(rèn)證和身份識(shí)別。前者是指用戶聲明自己的身份并利用相關(guān)特征數(shù)據(jù)來證實(shí)該身份,將該用戶的相關(guān)特征數(shù)據(jù)與其聲明用戶的模板進(jìn)行比較,是一種一對(duì)一的匹配方法;后者是指不知道用戶的身份信息而直接根據(jù)其特征數(shù)據(jù)來確認(rèn)他的身份,將該用戶的特征數(shù)據(jù)與所有N個(gè)用戶的模板進(jìn)行比較,是一種一對(duì)N的匹配方法。相比較而言,身份認(rèn)證所需的數(shù)據(jù)量和準(zhǔn)確度均低于身份識(shí)別。因此,本文采集 20個(gè)用戶的鼠標(biāo)行為數(shù)據(jù)進(jìn)行用戶的身份認(rèn)證實(shí)驗(yàn),將認(rèn)證用戶的鼠標(biāo)行為特征與其聲明用戶的特征模板進(jìn)行匹配,判定用戶身份的合法性,可以較為充分地支持本文的方法和結(jié)論;但若要基于鼠標(biāo)行為進(jìn)行用戶的身份識(shí)別實(shí)驗(yàn),在身份信息不明的情況下確認(rèn)其身份的合法性,則需要利用更多、更長時(shí)間的數(shù)據(jù)進(jìn)行分析。
4.5.2 模型訓(xùn)練的實(shí)用性討論
本文中采集到20個(gè)用戶在2個(gè)月的日常工作中的鼠標(biāo)行為數(shù)據(jù),并利用此數(shù)據(jù)集對(duì)構(gòu)建的模型進(jìn)行訓(xùn)練和測試。這樣的數(shù)據(jù)集對(duì)于模型的訓(xùn)練來說是充分的,但為了進(jìn)一步提高模型的可訓(xùn)練性和精確性,在實(shí)用中先利用初次獲得的數(shù)據(jù)進(jìn)行模型的訓(xùn)練,同時(shí)將持續(xù)監(jiān)控用戶實(shí)際的鼠標(biāo)使用行為并記錄相應(yīng)的數(shù)據(jù),將判定后的數(shù)據(jù)加入先前的數(shù)據(jù)集中,從而獲得足夠的、高質(zhì)量的訓(xùn)練數(shù)據(jù),并按照一定的更新規(guī)則,對(duì)現(xiàn)有的模型進(jìn)行更新或重構(gòu),使模型的訓(xùn)練更加充分,以獲得更高的模型檢測準(zhǔn)確度。
4.5.3 認(rèn)證與監(jiān)控的適用性討論
在實(shí)時(shí)的身份監(jiān)控過程,由于可以較長時(shí)間地觀察用戶行為,本文實(shí)驗(yàn)中以30min為單位觀察用戶鼠標(biāo)行為是可行的。但對(duì)于身份認(rèn)證過程,30min的觀察時(shí)間是難以接受的,實(shí)際應(yīng)用中須大幅度地降低觀察行為所用時(shí)間,并對(duì)不同的觀察時(shí)間對(duì)檢測結(jié)果的影響做進(jìn)一步的研究和分析。同時(shí)針對(duì)用戶鼠標(biāo)行為中存在趨勢(shì)性變化或長周期波動(dòng),在實(shí)用中可以引入自適應(yīng)機(jī)制,構(gòu)建在線的、實(shí)時(shí)的自適應(yīng)檢測模型,以解決用戶行為發(fā)生漂移的情況。
鼠標(biāo)行為特征識(shí)別已成為生物測定學(xué)領(lǐng)域的一個(gè)新的研究熱點(diǎn),并可部署在各種安全應(yīng)用之中。本文提出了一種利用人機(jī)交互時(shí)用戶的鼠標(biāo)使用行為特征進(jìn)行身份識(shí)別的方法。從人機(jī)交互和用戶生理行為層面出發(fā),提取出了新的鼠標(biāo)行為特征,并通過大量實(shí)驗(yàn)對(duì)鼠標(biāo)行為特征及特征空間進(jìn)行了分析。同時(shí)對(duì)20個(gè)用戶2個(gè)月的鼠標(biāo)行為數(shù)據(jù)進(jìn)行比較分析,提出了一種基于順序前進(jìn)貪婪搜索和支持向量機(jī)的身份認(rèn)證和監(jiān)控方法。結(jié)果表明該方法不但能夠選擇最佳的鼠標(biāo)行為特征組合,對(duì)各類特征的重要性進(jìn)行研究,還能降低鼠標(biāo)特征空間的維數(shù),顯著地提高身份認(rèn)證與監(jiān)控的準(zhǔn)確度。同時(shí)驗(yàn)證了計(jì)算機(jī)用戶間的鼠標(biāo)行為有著顯著的不同,借助模式識(shí)別的一些方法,可以基于鼠標(biāo)行為特征實(shí)現(xiàn)較為準(zhǔn)確的身份認(rèn)證和跟蹤。
[1]O’GORMAN L.Comparing passwords, tokens, and biometrics for user authentication[J].Proceedings of the IEEE, 2003, 91(12):2021-2040.
[2]WAYMAN J, JAIN A, MALTONI D.Biometric Systems, Technology,Design and Performance Evaluation[M].Springer Publishing Company, 2005.
[3]OBAIDAT M S, SADOUN B.Verification of computer users using keystroke dynamics[J].IEEE Transaction on System, Man, Cybernetics, 1997, 27(2):261-269.
[4]高艷, 管曉宏, 孫國基等.基于實(shí)時(shí)擊鍵序列的主機(jī)入侵檢測[J].計(jì)算機(jī)學(xué)報(bào), 2004, 27(3):336-400.GAO Y, GUAN X H, SUN G J, et al.The host-based intrusion detection based on real time keystroke sequences[J].Chinese Journal of Computers, 2004, 27(3):336-400.
[5]PUSARA M, BRODLEY C E.User re-authentication via mouse movements[A].Proceedings of the 2004 ACM Workshop on Visualization and Data Mining for Computer Security, DMSEC Session[C].Washington DC, USA, 2004.1-8.
[6]GAMBOA H, FRED A.A behavioral biometric system based on human computer interaction[J].Proceedings of SPIE, 2004, 54:4-36.
[7]AHMED A A E, TRAORE I.Anomaly intrusion detection based on biometrics[A].Proceedings of 6th IEEE Information Assurance Workshop[C].New York, USA, 2005.452- 453.
[8]房超, 蔡忠閩, 沈超等.基于鼠標(biāo)動(dòng)力學(xué)模型的用戶身份認(rèn)證與監(jiān)控[J].西安交通大學(xué)學(xué)報(bào), 2008, 42(10):1235-1239.FANG C, CAI Z M, SHEN C, et al.Authentication and monitoring of user identities based on mouse dynamics[J].Journal of Xi’an Jiaotong University, 2008, 42(10):1235-1239.
[9]SHEN C, CAI Z M, GUAN X H, et al.Feature analysis of mouse dynamics in identity authentication and monitoring[A].Proceedings of the 2009 IEEE International Conference on Communication[C].Dresden, 2009.1-5.
[10]AHMED A A E, TRAORE I.Detecting computer intrusions using behavioral biometrics[A].3rd Annual Conference on Privacy, Security and Trust, St[C].Andrews, Canada, 2005.91-98.
[11]AHMED A A E, TRAORE I.A new biometric technology based on mouse dynamics[J].IEEE Transactions on Dependable and Secure Computing, 2007, 4(3):165-179.
[12]GARG A, VIDYARAMAN S, UPADHYAYA S, et al.USim:a user behavior simulation framework for training and testing idses in GUI based systems[A].Proceedings of 39th Annual Simulation Symposium[C].Huntsville, AL, 2006.196-203.
[13]AHMED A A E, TRAORE I.System and Method for Motion-Based Input Device Computer User Profiling[P].Patent (pending):Filed May 03/2004, International Filing No.PCT/CA2004/000669.
[14]HOCQUET S, RAMEL J Y, CARDOT H.Users authentication by a study of human computer interactions[A].Proc Eighth Ann.(Doctoral)Meeting on Health, Science and Technology[C].2004.