吳倩
摘 ? 要:伴隨著信息技術(shù)的日益發(fā)展,信息安全對人們的重要性也日益凸顯,傳統(tǒng)的身份識(shí)別及驗(yàn)證方式已經(jīng)無法滿足當(dāng)前社會(huì)的要求。生物特征識(shí)別技術(shù)主要基于人體的生物特征進(jìn)行身份認(rèn)證和管理,得益于生物特征唯一、可靠和可采集的特點(diǎn),具有傳統(tǒng)身份驗(yàn)證方式所無法比擬的優(yōu)勢,得到了世界各國的廣泛認(rèn)可。在這一基礎(chǔ)之上,文章探討了數(shù)據(jù)挖掘技術(shù)在人體生物特征識(shí)別中的應(yīng)用,提出了兩種技術(shù)相結(jié)合的研究思路,并詳細(xì)描述了使用數(shù)據(jù)挖掘技術(shù)的人體生物特征采集和識(shí)別認(rèn)證流程。
關(guān)鍵詞:生物特征;特征采集;特征識(shí)別;數(shù)據(jù)挖掘
社會(huì)中需要進(jìn)行身份鑒別的場景無處不在,而生物特征識(shí)別技術(shù)主要利用人體固有的生物或行為特征進(jìn)行身份認(rèn)證識(shí)別,成了新的研究熱點(diǎn)。
1 ? ?人體生物特征識(shí)別技術(shù)簡介
1.1 ?人體生物特征識(shí)別技術(shù)理論
計(jì)算機(jī)技術(shù)和生物特征傳感器的結(jié)合創(chuàng)造出了生物特征識(shí)別這一新的研究領(lǐng)域,根據(jù)人體特有的生理或行為特征對其身份進(jìn)行認(rèn)證、鑒定的技術(shù)就稱為人體生物特征認(rèn)證識(shí)別技術(shù)。對每個(gè)具體的人來說,其生物特征都是獨(dú)一無二的,而且與傳統(tǒng)的方式相比,這種特征具有不可抵賴和便于攜帶等優(yōu)點(diǎn),認(rèn)證過程更加便捷且結(jié)果也更加安全可靠,是一種對現(xiàn)有認(rèn)證技術(shù)的有力補(bǔ)充手段。
雖然如此,但并不是所有的生物特征都能用于身份認(rèn)證,有4個(gè)條件是必須要滿足的:(1)唯一性,是最重要的一個(gè)條件,即對兩個(gè)不同的人來說,所選的生物特征必須存在一定差異。(2)普遍性,指的是所選生物特征是普遍存在的,每個(gè)人都有,否則就會(huì)出現(xiàn)對部分人群無效的問題。(3)不變性,指的是所選的生物特征在較長的一段時(shí)間內(nèi),是不會(huì)發(fā)生變化的。(4)可采集性,所選的生物特征還必須是可以采集并量化分析的。
1.2 ?常見人體生物特征識(shí)別技術(shù)
1.2.1 ?指紋識(shí)別技術(shù)
指紋識(shí)別是一種起步早、應(yīng)用較為廣泛的生物特征識(shí)別技術(shù),受到了大部分國家的接受與認(rèn)可,在金融支付、社會(huì)保障和安防等領(lǐng)域發(fā)揮了重要作用,而且伴隨著信息化和網(wǎng)絡(luò)化的高速發(fā)展,指紋識(shí)別的應(yīng)用場景也會(huì)變得更加豐富多樣。就國內(nèi)指紋識(shí)別技術(shù)的發(fā)展水平來看,中國科學(xué)院最新研發(fā)的一對多指紋識(shí)別算法,拒識(shí)率小于0.1%,誤識(shí)率小于0.000 1%,已達(dá)國際先進(jìn)水平[1]。
1.2.2 ?虹膜識(shí)別技術(shù)
虹膜結(jié)構(gòu)具有唯一和非遺傳性的特點(diǎn),成年人的虹膜基本不會(huì)發(fā)生變化,這使得虹膜非常適合用于生物識(shí)別。據(jù)最新研究結(jié)果顯示,各種生物特征識(shí)別技術(shù)中,虹膜識(shí)別的錯(cuò)誤率是最低的。與指紋相比,虹膜識(shí)別的技術(shù)要求相對較高,目前能完全掌握其核心技術(shù)的,在國際上僅有我國的一家公司和美國的一家公司,市場前景非常廣闊。
1.2.3 ?人臉識(shí)別技術(shù)
人臉識(shí)別技術(shù)包括兩大方面:(1)對面部進(jìn)行識(shí)別,多使用“多重對照法”來實(shí)現(xiàn)。(2)對面部進(jìn)行認(rèn)證,常用的方法有“攝動(dòng)空間法”及“適應(yīng)領(lǐng)域混合對照法”等。人臉識(shí)別由于不需要接觸設(shè)備,只需要能看到臉部就可以實(shí)現(xiàn),所以在安防、智能卡、設(shè)備登錄等領(lǐng)域應(yīng)用極為廣泛。國內(nèi)對這方面的研究也主要集中在警用和其他安全領(lǐng)域。
2 ? ?數(shù)據(jù)挖掘基本原理
2.1 ?數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)指的通過復(fù)雜的數(shù)據(jù)分析工具從海量的數(shù)據(jù)中突出特定數(shù)據(jù)的信息結(jié)構(gòu),提取所需信息的一種計(jì)算方法[2]。伴隨著信息技術(shù)的發(fā)展,生活中的數(shù)據(jù)越來越多,傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)已經(jīng)無法滿足數(shù)據(jù)處理的要求,既不能發(fā)現(xiàn)數(shù)據(jù)之間的潛在聯(lián)系,也不能對數(shù)據(jù)的未來發(fā)展進(jìn)行預(yù)測,很多有價(jià)值的信息被忽略或拋棄,人們迫切需要一種新的數(shù)據(jù)處理手段,對這些數(shù)據(jù)做更進(jìn)一步的分析,以便進(jìn)行更加有效地利用,由此就誕生了數(shù)據(jù)挖掘技術(shù)。
2.2 ?數(shù)據(jù)挖掘的一般過程
數(shù)據(jù)挖掘一般包括業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)預(yù)處理、提取特征、構(gòu)建模型、評估模型和應(yīng)用模型7個(gè)步驟。
3 ? ?生物特征識(shí)別中數(shù)據(jù)挖掘技術(shù)的應(yīng)用
3.1 ?生物特征識(shí)別過程
一個(gè)完整的生物特征識(shí)別過程,最少應(yīng)包括生物特征注冊和生物特征識(shí)別認(rèn)證兩個(gè)方面:(1)生物特征的注冊過程:首先,通過生物特征采集平臺(tái)收集用戶的生物特征信息;其次,對數(shù)據(jù)進(jìn)行特征提取、編碼;最后,將用戶的生物特征保存為模板并存入數(shù)據(jù)庫。(2)生物特征識(shí)別及認(rèn)證過程:將需要認(rèn)證的生物特征提取后與預(yù)先保存在數(shù)據(jù)庫中的特征模板比對,根據(jù)匹配程度決定待識(shí)別用戶身份是否通過校驗(yàn)。
3.2 ?生物特征識(shí)別技術(shù)主要性能指標(biāo)
受生物特征在采集的時(shí)候傳感器精度、外部環(huán)境及成像圖畸變等因素的影響,即使是同一用戶的同一特征,在不同時(shí)間段采集得到的數(shù)據(jù)也存在一定的差異性,對識(shí)別的正確率造成影響。所以,要對系統(tǒng)的準(zhǔn)確性進(jìn)行衡量,常見的指標(biāo)主要有:錯(cuò)誤接受率(False Acceptance Rate,F(xiàn)AR),錯(cuò)誤拒絕率(False Rejection Rate,F(xiàn)RR),正確接受率(Genuine Acceptance Rate,GAR)和正確拒絕率(Genuine Rejection Rate,GRR),具體含義如表1所示。
這4個(gè)指標(biāo)有如下的對應(yīng)關(guān)系:
GAR = 1﹣FRR (1)
GRR = 1﹣FAR (2)
由公式(1)和(2)可知,只需要計(jì)算出FRR和FAR的值,就可以準(zhǔn)確衡量系統(tǒng)的性能。FRR和FAR的值越小,表明系統(tǒng)的準(zhǔn)確性和實(shí)用性越高。
3.3 ?生物特征識(shí)別中數(shù)據(jù)挖掘技術(shù)的應(yīng)用
基于數(shù)據(jù)挖掘的生物特征識(shí)別,是一個(gè)從歷史特征數(shù)據(jù)中提取模型的過程,主要包括處理采集數(shù)據(jù)、分類并對數(shù)據(jù)進(jìn)行挖掘和評價(jià)識(shí)別效果等3個(gè)步驟。
3.3.1 ?處理采集數(shù)據(jù)
數(shù)據(jù)處理包括對生物特征樣本的數(shù)據(jù)采集、預(yù)處理和生物特征的提取,這也是生物特征數(shù)據(jù)挖掘的基礎(chǔ)。
(1)數(shù)據(jù)采集:對不同的識(shí)別技術(shù)來說,有著不同的數(shù)據(jù)采集設(shè)備,例如人臉識(shí)別和虹膜識(shí)別等,使用的是高清晰度攝像機(jī),而指紋和掌紋識(shí)別則使用特制的光學(xué)或電容采集設(shè)備。在這一階段,應(yīng)注意盡可能地減少噪音和誤差。
(2)預(yù)處理:數(shù)據(jù)采集的過程中,由于環(huán)境或人工誤差等原因的影響,總會(huì)存在一些噪音,甚至是已經(jīng)損壞的數(shù)據(jù),這會(huì)導(dǎo)致不可靠的數(shù)據(jù)挖掘輸出。因此,必須在進(jìn)行挖掘之前對這些數(shù)據(jù)進(jìn)行預(yù)處理,主要包括數(shù)據(jù)清洗、集成、轉(zhuǎn)換和消減等步驟。
(3)提取生物特征:這也是整個(gè)過程中最為關(guān)鍵的一步,提取的效果將直接影響到整個(gè)系統(tǒng)的最終性能。在提取出生物特征點(diǎn)之后,需要對其進(jìn)行編碼,最后保存到生物特征數(shù)據(jù)庫中去。
3.3.2 ?分類并對數(shù)據(jù)進(jìn)行挖掘
一般采用K鄰近方法對圖象類的生物特征進(jìn)行分類,使用神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)進(jìn)行挖掘。
3.3.3 ?評價(jià)識(shí)別效果
評價(jià)識(shí)別效果是對數(shù)據(jù)挖掘的結(jié)果進(jìn)行測試和評價(jià),并據(jù)此提出改進(jìn)建議。
4 ? ?結(jié)語
生物特征識(shí)別是一個(gè)較為復(fù)雜的交叉學(xué)科,涉及物理、化學(xué)、電子技術(shù)等眾多領(lǐng)域,發(fā)展和應(yīng)用需要盡可能多地結(jié)合各個(gè)領(lǐng)域出現(xiàn)的最新成果,以提高生物特征識(shí)別系統(tǒng)的可靠性和準(zhǔn)確性。隨著數(shù)據(jù)挖掘技術(shù)的飛速發(fā)展,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于生物特征識(shí)別中的條件已經(jīng)成熟。因此,本文在分析兩者特點(diǎn)的基礎(chǔ)上,提出了將數(shù)據(jù)挖掘技術(shù)應(yīng)用于生物特征識(shí)別中的研究思路,并給出了詳細(xì)的采集和認(rèn)證流程,希望能對行業(yè)的發(fā)展進(jìn)步提供一個(gè)有益的參考和借鑒。
[參考文獻(xiàn)]
[1]佚名.漢王指紋識(shí)別技術(shù)簡介[J].金卡工程,2000(12):61-62.
[2]張愛國.基于大數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J].現(xiàn)代工業(yè)經(jīng)濟(jì)和信息化,2017(3):86-87.