陳子煒,洪思云,林 劼,石 琳
(福建師范大學(xué) 軟件學(xué)院,福州 350108)
基于用戶筆跡的移動(dòng)身份識(shí)別技術(shù)①
陳子煒,洪思云,林 劼,石 琳
(福建師范大學(xué) 軟件學(xué)院,福州 350108)
針對(duì)傳統(tǒng)身份識(shí)別技術(shù)存在的密碼記憶難、隱私易泄露、信息易偽造等問(wèn)題,提出并實(shí)現(xiàn)了基于安卓平臺(tái)的混合特征在線手寫筆跡識(shí)別算法. 本算法通過(guò)遷移傳統(tǒng)筆跡采集平臺(tái)、采用文本相關(guān)與文本無(wú)關(guān)相結(jié)合的方式分別對(duì)靜態(tài)紋理特征和動(dòng)態(tài)矢量特征進(jìn)行提取,彌補(bǔ)了當(dāng)前筆跡采集困難、信息易偽造、準(zhǔn)確性差等缺陷,實(shí)現(xiàn)了用戶在移動(dòng)設(shè)備上更加快捷安全的進(jìn)行身份識(shí)別和鑒定. 通過(guò)實(shí)驗(yàn)得出: 該筆跡識(shí)別算法具有良好的穩(wěn)定性、高可重復(fù)性、優(yōu)良的準(zhǔn)確性和安全防偽能力,能夠有效阻止陌生用戶的攻擊,具有較高的安全保障性能.
筆跡識(shí)別; 動(dòng)態(tài)矢量特征提取; 特征融合
對(duì)訪問(wèn)者真實(shí)身份的快速識(shí)別和鑒定是當(dāng)前信息安全領(lǐng)域中的一個(gè)重要應(yīng)用之一. 其中一個(gè)身份識(shí)別的有效方法是鑒定用戶手寫筆跡特征. 筆跡特征的本質(zhì)是書寫行為到個(gè)人行為的映射,包含紋理形態(tài)特征和筆跡動(dòng)力學(xué)特征,具有不易被偽造和盜用的優(yōu)勢(shì). 筆跡識(shí)別技術(shù)分為在線筆跡識(shí)別[1]和離線識(shí)別認(rèn)證[2]的方式. 現(xiàn)有的在線筆跡識(shí)別的采集工作基本是基于某種特定的筆跡采集設(shè)備,如利用專門化的手寫筆、手寫板等. 而離線認(rèn)證則是利用掃描儀或照相等設(shè)備獲得原始筆跡的掃描圖像,并經(jīng)過(guò)圖形處理提取相應(yīng)的紋理形態(tài)特征進(jìn)行識(shí)別. 隨著智能手機(jī)的普及,離線認(rèn)證的方式無(wú)法滿足快捷高效的移動(dòng)身份識(shí)別需求,而在線識(shí)別方式又依賴于傳統(tǒng)數(shù)據(jù)采集平臺(tái),機(jī)動(dòng)性能差.
筆跡識(shí)別系統(tǒng)包括數(shù)據(jù)預(yù)處理、特征提取和判定識(shí)別三部分. 數(shù)據(jù)預(yù)處理主要包括樣本歸一化[3]、平滑去噪等; 特征提取部分可以分為結(jié)構(gòu)特征和統(tǒng)計(jì)特征兩種. 根據(jù)筆跡特征提取的方法不同,筆跡識(shí)別方式又可分為靜態(tài)筆跡識(shí)別和動(dòng)態(tài)筆跡識(shí)別兩大類. 靜態(tài)筆跡識(shí)別的Gabor特征[4]及Gradient特征[5]是目前比較好的提取方法,而動(dòng)態(tài)筆跡則是提取寫字時(shí)的筆跡動(dòng)力學(xué)特征,如每個(gè)采集點(diǎn)上的速度、加速度、壓力等矢量特征; 判定識(shí)別使用的常用模型包括改進(jìn)的二次判決函數(shù)、支持向量機(jī)、隱馬爾科夫模型等. 在技術(shù)上,目前仍處于發(fā)展階段,筆跡識(shí)別系統(tǒng)的整體性能還不夠理想. 從數(shù)據(jù)采集、特征提取到匹配認(rèn)證算法等各個(gè)環(huán)節(jié)仍然有較大的改進(jìn)、提高的余地和空間. 為了能改善識(shí)別系統(tǒng)的性能,一些研究者還利用信息融合技術(shù)進(jìn)行融合了多種筆跡特征和分類方法或加上其它生物特征進(jìn)行身份認(rèn)證,并獲得了不錯(cuò)的效果,這極大的推動(dòng)了在線手寫筆跡識(shí)別技術(shù)的發(fā)展. 尋求一種好的筆跡認(rèn)證方法具有十分重要的意義,對(duì)于筆跡識(shí)別算法改進(jìn)不僅具有重要的理論意義,還具有不凡的現(xiàn)實(shí)意義.
隨著移動(dòng)互聯(lián)網(wǎng)和傳感設(shè)備的高速發(fā)展和普及,讓方便、快捷、高效的移動(dòng)在線筆跡識(shí)別成為可能.經(jīng)過(guò)對(duì)傳統(tǒng)的文本相關(guān)筆跡識(shí)別中動(dòng)態(tài)時(shí)間規(guī)整算法(Dynamic time warping)[6]和文本無(wú)關(guān)筆跡特征提取方法[7]研究基礎(chǔ)上,提出了基于Android手機(jī)平臺(tái)的混合特征在線手寫筆跡識(shí)別算法. 其中包括的主要環(huán)節(jié)包括入筆跡信息采集、預(yù)處理、筆跡特征提取和筆跡的匹配識(shí)別,將注冊(cè)的筆跡信息經(jīng)過(guò)去噪、平滑等預(yù)處理后所提取的混合筆跡特征建立分類器模型,與提取的登入筆跡特征進(jìn)行分類識(shí)別,最后輸出驗(yàn)證結(jié)果. 如圖1所示.
圖1 算法設(shè)計(jì)流程圖
漢字筆劃提取通常是筆跡識(shí)別與鑒定的重要一步,不同的筆劃拆分方法將會(huì)決定下一階段特征提取的好壞. 然而漢字結(jié)構(gòu)復(fù)雜、偏旁多變、筆劃眾多,這給自動(dòng)地筆劃拆分帶來(lái)一定的挑戰(zhàn). 有的利用游程長(zhǎng)度的閾值對(duì)像素點(diǎn)的方向游程長(zhǎng)度進(jìn)行分類,處理筆劃交叉問(wèn)題[7]; 有的則是基于單字切分及基本筆順表進(jìn)行筆劃拆解[8]. 這些方法雖然在某些漢字的切分上取得一定的效果,但無(wú)法適用于一些結(jié)構(gòu)較為復(fù)雜、筆劃密集的漢字上.
現(xiàn)有的特征提取技術(shù)主要包括Gabor特征提取[4]以及NCFE八方向特征提取[9]. Gabor特征在圖像特征提取方面擁有不錯(cuò)優(yōu)良性能,但由于其計(jì)算高復(fù)雜度在現(xiàn)有階段無(wú)法實(shí)用于單機(jī)在線手寫認(rèn)證上.
在書寫的過(guò)程中,筆跡的靜態(tài)紋理信息和筆跡的運(yùn)動(dòng)學(xué)特征不僅反應(yīng)了書寫者鮮明的書寫習(xí)慣,而且這些特征難以被仿制偽造,對(duì)于后期筆跡的識(shí)別和鑒定打下堅(jiān)實(shí)的基礎(chǔ). 根據(jù)以上信息,本套筆跡識(shí)別系統(tǒng)以智能手機(jī)作為使用平臺(tái),提取的筆跡信息主要包括手機(jī)屏幕的X坐標(biāo)、Y坐標(biāo)、坐標(biāo)時(shí)間戳、觸點(diǎn)狀態(tài)、橫向速度、縱向速度等.
由于使用者每次寫字的位置、大小可能不同,另外使用過(guò)程中由于一些外界因素的干擾也會(huì)產(chǎn)生一些噪音和冗余點(diǎn),這些都會(huì)對(duì)識(shí)別結(jié)果產(chǎn)生影響. 因此,在對(duì)信息進(jìn)行進(jìn)一步處理前需要進(jìn)行預(yù)處理操作,預(yù)處理可以在一定程度上可以提高識(shí)別的效果. 本文的預(yù)處理過(guò)程包括去噪平滑、位置歸一化、大小歸一化等.
① 去噪平滑: 移動(dòng)手機(jī)傳感設(shè)備存在一定的干擾和書寫者書寫時(shí)的無(wú)意抖動(dòng)都會(huì)給筆跡原始數(shù)據(jù)添加一定的噪聲,因此需要對(duì)原始數(shù)據(jù)進(jìn)行去噪平滑處理.平滑處理采用高斯平滑濾波器(Gaussian smoothing filter) 對(duì)筆跡數(shù)據(jù)的各分量進(jìn)行濾波平滑.
② 歸一化處理(Normalization): 由于使用者每次書寫的筆劃絕對(duì)位置和規(guī)模大小并不固定,因此通過(guò)位置和大小的歸一化處理可以統(tǒng)一原始數(shù)據(jù)的各個(gè)量綱以便后續(xù)的處理. 位置歸一化用坐標(biāo)平移的方法完成,將筆跡曲線的重心作為新坐標(biāo)的原點(diǎn),而大小歸一化則通過(guò)對(duì)坐標(biāo)各分量大小進(jìn)行歸一化.
本文采用一種基于斜率的筆劃拆解方法[10],其根據(jù)自然筆劃的方向順序和長(zhǎng)度大小有效地提取每一筆劃基本單元信息. 具體的筆劃拆解包含以下四個(gè)步驟:
步驟一. 對(duì)筆跡數(shù)據(jù)采用B樣條插值法進(jìn)行插點(diǎn)和平滑,避免由于筆劃樣本點(diǎn)的稀疏導(dǎo)致夾角大小頻繁變化和波動(dòng). 其算法步驟插值流程如下:
② 將數(shù)據(jù)節(jié)點(diǎn)和指定的首位端點(diǎn)條件帶入矩陣方程.
③ 解矩陣方程,求得二次微分值mi.
④ 計(jì)算樣條曲線的系數(shù):
其中,i= 0,1,…,n-1.
步驟二. 為了保證筆劃的拆分效果和特征的有效性,需對(duì)相間隔的樣本點(diǎn)進(jìn)行考察. 當(dāng)且僅當(dāng)前一樣本點(diǎn)與下一樣本點(diǎn)距離大于預(yù)設(shè)閾值M的筆劃才考慮是否對(duì)其拆分,若兩樣本點(diǎn)間的距離小于M則將當(dāng)前考察點(diǎn)移至下一考察點(diǎn).
步驟三. 計(jì)算兩個(gè)參考點(diǎn)間的斜率大小,當(dāng)參考點(diǎn)與下一參考點(diǎn)間的絕對(duì)斜率與當(dāng)前點(diǎn)的自然斜率差值的絕對(duì)值小于給定閾值K時(shí),該點(diǎn)作為一個(gè)有效筆劃拆分點(diǎn).
步驟四. 兩個(gè)拆分點(diǎn)之間的軌跡段即可作為一個(gè)基本自然筆劃單元.
在筆跡識(shí)別系統(tǒng)中,正確有效的筆劃特征提取方法可以顯著的提高識(shí)別認(rèn)證結(jié)果的準(zhǔn)確性. NCFE八方向特征則能反映每個(gè)筆劃的方向形態(tài)特征,能更好地適用于筆劃提取后的每個(gè)基本筆劃單元. 它是通過(guò)將經(jīng)過(guò)預(yù)處理的筆跡序列進(jìn)行筆劃拆分都得到的基本筆劃單元按照每個(gè)單元的方向歸一化投影到八個(gè)方向平面上,從而獲取該筆劃單元的特征向量. 特征向量的獲取分為以下幾個(gè)步驟:
根據(jù)所采集的筆劃信息,分為靜態(tài)特征信息和動(dòng)態(tài)特征信息. 靜態(tài)特征反應(yīng)了字體樣式的總體形態(tài)和幾何特征,動(dòng)態(tài)特征展現(xiàn)了筆跡書寫過(guò)程中形成的一系列有順序的、連續(xù)的運(yùn)動(dòng)變化狀態(tài)的征象. 本算法采用動(dòng)態(tài)特征和靜態(tài)特征信息結(jié)合的方法,既保留了筆跡樣本總體的形態(tài)信息,又不乏局部豐富的動(dòng)態(tài)特征. 最大限度地保證了筆跡信息的完整性和一致性.
識(shí)別過(guò)程可分為三個(gè)階段: 動(dòng)態(tài)特征的DTW距離快速排除階段、基于KNN的文本無(wú)關(guān)靜態(tài)特征識(shí)別階段和綜合判別認(rèn)證階段.
階段一: 基于動(dòng)態(tài)特征的DTW距離快速排除
該階段采用動(dòng)態(tài)時(shí)間規(guī)整算法作為識(shí)別分類器.動(dòng)態(tài)時(shí)間規(guī)整 (Dynamic time warping,DTW)[11]就是用動(dòng)態(tài)規(guī)劃方法校正時(shí)域信號(hào)的非線性時(shí)間彎曲現(xiàn)象,最先用于語(yǔ)音信號(hào)處理,后來(lái)在筆跡認(rèn)證中得到了廣泛應(yīng)用.
通過(guò)比對(duì)身份注冊(cè)階段筆跡和登錄驗(yàn)證階段筆跡的速度與加速度各分量的DTW距離加權(quán)和.
具體做法是: 可以通過(guò)給各分量預(yù)設(shè)一個(gè)閾值H,僅保留最低距離且DTW距離小于一個(gè)預(yù)設(shè)最小距離閾值N的用戶.
階段二: 基于KNN分類器的文本無(wú)關(guān)靜態(tài)特征識(shí)別
上述的方法僅僅適應(yīng)于文本相關(guān)的識(shí)別檢測(cè),倘若攻擊者故意模仿注冊(cè)用戶的字跡樣式就會(huì)帶其他未知的安全漏洞和隱患,特別在金融、商務(wù)、國(guó)防等安全等級(jí)較高的領(lǐng)域更是如此. 如何在確保算法準(zhǔn)確率的前提下提高對(duì)高超偽造筆跡的判別能力成為了該項(xiàng)技術(shù)在安全保障方面的難題. 為此,文本無(wú)關(guān)的筆跡樣本成了一個(gè)不錯(cuò)的選擇,攻擊者無(wú)法提前知曉這些未出現(xiàn)過(guò)字樣的任何信息,而真實(shí)用戶可以利用個(gè)人書寫習(xí)慣成功的識(shí)別,進(jìn)而大大提高了算法在安全可靠性上的性能.
第二階段的文本無(wú)關(guān)的靜態(tài)特征識(shí)別可分為以下幾個(gè)步驟:
① 計(jì)算待驗(yàn)證用戶的特征向量所在的八個(gè)筆劃單元類與每個(gè)注冊(cè)用戶對(duì)應(yīng)筆劃單元類之間距離的加權(quán)和.
② 取登錄用戶的各個(gè)特征向量與所有注冊(cè)用戶距離最小的前K個(gè)且其距離小于給定閾值L作為相似用戶,記為top-K用戶.
③ 統(tǒng)計(jì)各個(gè)注冊(cè)用戶被標(biāo)記為top-K用戶的次數(shù),并按大到小排序.
階段三: 綜合判別認(rèn)證
若第①步的識(shí)別結(jié)果在第②步的識(shí)別結(jié)果出現(xiàn),則判定第①步的識(shí)別結(jié)果為真實(shí)用戶,否則判別為陌生用戶.
一般地,我們將身份識(shí)別錯(cuò)誤分為兩種,誤納率(FAR)和誤據(jù)率(FRR)[12]. 依照隨機(jī)抽樣的方式從本校學(xué)生中抽取若干樣本作為本次測(cè)試樣本空間. 根據(jù)上述基于混合特征的在線手寫筆跡識(shí)別算法,通過(guò)觀察和分析傳統(tǒng)基于紋理的靜態(tài)特征和混合后的綜合特征的各項(xiàng)性能指標(biāo),和在不同身份注冊(cè)字?jǐn)?shù)和識(shí)別認(rèn)證字?jǐn)?shù)組合下對(duì)混合特征識(shí)別算法的性能表現(xiàn)進(jìn)行測(cè)試,以此得出本次實(shí)驗(yàn)結(jié)果.
從表1和圖2中可以直觀地看出: 基于紋理特征的識(shí)別方式具有較低的誤納率,即可以有效地的防止陌生用戶的攻擊,但是在誤據(jù)率方面表現(xiàn)不佳,而基于混合特征的識(shí)別方式既最大限度保留了較低的誤納率,而且在誤據(jù)率方面也有很好的改良. 從整體準(zhǔn)確性來(lái)說(shuō),基于混合特征具有比單一的基于紋理特征識(shí)別更好的性能表現(xiàn).
表1 不同特征選擇下的錯(cuò)誤率和準(zhǔn)確率
圖2 不同特征選擇下的錯(cuò)誤率和準(zhǔn)確率
從圖3和圖4可以得出: 在登入驗(yàn)證字?jǐn)?shù)不變的情況下,越多注冊(cè)字?jǐn)?shù)能夠提供更多注冊(cè)用戶的信息,從而更好地幫助分類器有效地識(shí)別真實(shí)用戶. 同理,在注冊(cè)字?jǐn)?shù)不變的情況下,隨著登入驗(yàn)證字?jǐn)?shù)的增加也能很好的得出更加有效的驗(yàn)證結(jié)果.
基于移動(dòng)平臺(tái)的在線手寫識(shí)別有效解決了傳統(tǒng)筆跡采集平臺(tái)機(jī)動(dòng)性差,安全性不可靠,準(zhǔn)確性差等缺點(diǎn),推動(dòng)了便捷身份認(rèn)證技術(shù)的發(fā)展. 通過(guò)大量樣本的對(duì)比實(shí)驗(yàn)可以得出: 基于混合特征的在線筆跡手寫識(shí)別技術(shù)能夠有效地防止大部分偽造者對(duì)真實(shí)用戶的攻擊,并且在移動(dòng)平臺(tái)取得良好的穩(wěn)定性和準(zhǔn)確性.
圖3 注冊(cè)字?jǐn)?shù)對(duì)識(shí)別準(zhǔn)確度的影響
圖4 登入字?jǐn)?shù)對(duì)識(shí)別準(zhǔn)確度的影響
1Liu CL,Jaeger S,Nakagawa M. Online recognition of Chinese characters: The state-of-the-art. IEEE Trans. on Pattern Analysis and Machine Intelligence,2004,26(2):198–213. [doi: 10.1109/TPAMI.2004.1262182]
2Zhong ZY,Jin LW,Xie ZC. High performance offline handwritten Chinese character recognition using GoogLeNet and directional feature maps. Proc. of the 13th International Conference on Document Analysis and Recognition. Tunis,Tunisia. 2015. 846–850.
3Liu CL,Marukawa K. Pseudo two-dimensional shape normalization methods for handwritten Chinese character recognition. Pattern Recognition,2005,38(12): 2242–2255.[doi: 10.1016/j.patcog.2005.04.019]
4Ge Y,Huo Q,Feng ZD. Offline recognition of handwritten Chinese characters using Gabor features,CDHMM modeling and MCE training. Proc. of the 2002 IEEE International Conference on Acoustics,Speech,and Signal Processing.Orlando,FL,USA. 2002. I-1053–I-1056.
5Liu CL. Normalization-cooperated gradient feature extraction for handwritten character recognition. IEEE Trans. on Pattern Analysis and Machine Intelligence,2007,29(8): 1465–1469.[doi: 10.1109/TPAMI.2007.1090]
6全中華. 基于動(dòng)態(tài)手寫簽名的身份認(rèn)證研究[博士學(xué)位論文]. 合肥: 中國(guó)科學(xué)技術(shù)大學(xué),2007.
7趙建平,車丹. 手寫體筆跡單筆劃提取算法. 長(zhǎng)春理工大學(xué)學(xué)報(bào),2005,28(4): 66–70.
8崔景楠,邢長(zhǎng)征. 基于筆順自由及連筆的聯(lián)機(jī)手寫漢字識(shí)別. 計(jì)算機(jī)系統(tǒng)應(yīng)用,2009,18(5): 29–33.
9Bai ZL,Huo Q. A study on the use of 8-directional features for online handwritten Chinese character recognition. Proc.of the 8th International Conference on Document Analysis and Recognition. Seoul,South Korea. 2005. 262–266.
10黃佳. 基于自然筆畫拆分的手寫文字識(shí)別方法[碩士學(xué)位論文]. 哈爾濱: 哈爾濱工業(yè)大學(xué),2014.
11羅勇軍. 基于優(yōu)化DTW算法的在線手寫簽名認(rèn)證系統(tǒng)研究與設(shè)計(jì)[碩士學(xué)位論文]. 廣州: 廣東工業(yè)大學(xué),2014.
12Liang RZ,Shi LH,Wang HX,et al. Optimizing top precision performance measure of content-based image retrieval by learning similarity function. Proc. of 2016 the 23rd International Conference on Pattern Recognition. Cancun,Mexico. 2016. 2954–2958.
Identity Recognition Technology Based on the Users’ Handwriting
CHEN Zi-Wei,HONG Si-Yun,LIN Jie,SHI Lin
(Faculty of Software,Fujian Normal University,Fuzhou 350108,China)
In view of the problems like the difficulty in memorizing passwords,privacy issues and fake information,a new algorithm combined the static and dynamic features based on the android platform for online handwriting recognition is proposed. The proposed algorithm extracts the static texture and dynamic vector features by adopting the combination of text-dependent and text-independent ways on the new smart mobile devices platform. The problems of handwriting acquisition,fake information and less accuracy are solved. It’s safe and fast for identification on mobile devices. The experimental results show the proposed algorithm has a great performance in stability,repeatability,accuracy and safety.It can effectively block the attack from intrusion and is high in security.
handwriting identification; dynamic vector feature extraction; feature combination
陳子煒,洪思云,林劼,石琳.基于用戶筆跡的移動(dòng)身份識(shí)別技術(shù).計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(12):191–195. http://www.c-s-a.org.cn/1003-3254/6097.html
2017-03-12; 修改時(shí)間: 2017-03-27; 采用時(shí)間: 2017-04-05