国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

生物特征識別系統(tǒng)算法性能指標概述

2020-11-18 14:00高乾坤張鵬徐平徐驍張照星陳潔施一琳
現(xiàn)代計算機 2020年28期
關鍵詞:閾值曲線樣本

高乾坤,張鵬,徐平,徐驍,張照星,陳潔,施一琳

(公安部戶政管理研究中心,北京100070)

0 引言

生物特征識別系統(tǒng)是通過可測量的身體或行為等生物特征進行身份識別的系統(tǒng)。近年來,隨著人工智能和大數(shù)據(jù)技術蓬勃興起,生物特征識別技術方興未艾,其識別準確性和識別速度得到很大提升,已經(jīng)在社會各領域廣泛使用。目前,在生物特征識別技術研究領域,學者們對不同生物特征提出了大量識別算法模型,他們在評價比較模型時也會使用不同評價指標。但相比較而言,關于生物特征識別系統(tǒng)算法評價評測體系方面的研究就很少,算法評測指標也不夠系統(tǒng)全面,有些評測指標也僅停留在概念敘述階段而沒有形成具體化公式,甚至有些指標本身定義也有歧義或重復。本文通過收集國內外算法評價指標方面的文獻和標準,試圖將生物特征識別技術領域的算法評價指標全面化、一般化、公式化和形象化,并詳細介紹具體指標的定義、意義和具體計算公式等,希望能對具體生物特征識別算法的評價評測和初次接觸生物特征識別技術的人員有所幫助。識別比對準確性是整個生物識別系統(tǒng)的核心,因此相關指標是評價識別系統(tǒng)算法性能的主要參考。本文,我們首先介紹準確性的基本指標量,然后引出準確性的綜合指標,最后介紹一些其他評價指標。

1 準確性基本指標量

對某一測試樣本集,我們將在模板庫已經(jīng)注冊對應身份的樣本稱為正樣本(Positive sample),在模板庫中沒有注冊對應身份的樣本稱為負樣本(Negative sam?ple),那么測試樣本集就由正樣本和負樣本兩類組成。參考有關文獻[1],并將閾值T 和比對結果分值排名k 引入進行改進,我們定義:

TP(T,k)為所有待測試正樣本,經(jīng)過算法比對,輸出結果的前k名比中該測試正樣本,且比中時分值大于等于閾值T情況的數(shù)量。

TN(T,k)為所有待測試負樣本,經(jīng)過算法比對,輸出結果的前k名比對分值均小于閾值T情況的數(shù)量。

FP(T,k)為所有待測試負樣本,經(jīng)過算法比對,輸出結果的前k名比對分值存在大于等于閾值T情況的數(shù)量。

FN(T,k)為所有待測試正樣本,經(jīng)過算法比對,輸出結果的前k名中未比中該測試正樣本或比中了但比中分值小于閾值T情況的數(shù)量。

當閾值T 給定、排名k 給定或不考慮排名時,我們將這四個值分別簡記為TP、TN、FP和FN。

根據(jù)有關文獻[1-3],我們將介紹以下與準確性相關的基本指標量。有些指標量的名稱不同,但具體公式相同,我們將其歸為一類;有些僅語言描述的也將其公式化。

1.1 正確率與錯誤率

正確率,也稱為精確率或準確率,是指通過算法預測正確的樣本在測試樣本集中的占比,記為rateaccuracy,具體公式如下:

正確率是我們最常見的評價指標,通常來說,正確率越高,算法越好。但很多特殊場景還需考慮其他評價指標。

與之相對的是錯誤率,是指通過算法預測錯誤的樣本在測試樣本集中的占比,記為rerror。

1.2 查準率

查準率,也稱精度(Precision),是指所有被算法預測為正樣本中確實是正樣本的占比,記為P,具體公式如下:

1.3 查全率

查全率,與召回率(Recall)、命中率(Hit Rate)、靈敏度(Sensitivity)和真正例率TPR 是同一個概念,是指所有正樣本中,被算法預測為正樣本的占比,記為R,具體公式如下:

查全率用來衡量算法對正樣本的識別能力,是算法覆蓋面的一個度量。

1.4 假正例率與特效度

假正例率(False Positive Rate),簡記為FPR,是指負樣本被錯誤預測為正樣本的數(shù)量在所有負樣本中的占比,也稱為錯誤預警率(False Alarm Rate),具體公式如下:

與之相對的是特效度,它是指所有待測負樣本被算法預測為負樣本的數(shù)量在所有負樣本中的占比,用來衡量算法對負樣本的識別能力,記為rspecificity,具體公式如下:

1.5 錯誤接受率與正確接受率

錯誤接受率(False Acceptance Rate),簡記為FAR,是指被預測為正的負樣本在所有預測為正的樣本中的占比,具體公式如下:

與之對應的是,正確接受率(True Acceptance Rate),簡記為TAR,是指被預測為正的正樣本在所有預測為正的樣本中的占比,具體公式如下:

1.6 錯誤拒絕率與正確拒絕率

錯誤拒絕率(False Rejection Rate),簡記為FRR,是指被預測為負的正樣本在所有預測為負的樣本中的占比,具體公式如下:

與之對應的是,正確拒絕率(True Rejection Rate),簡記為TRR,是指被預測為負的負樣本在所有預測為負的樣本中的占比,具體公式如下:

值得注意的是,在閾值T 給定情況下,我們可以通過某個或某些指標的概率來評價算法準確性;但當閾值T 未給定情況下,單獨比較某個指標概率毫無意義。這時我們可以預先設定某個指標概率值,得到滿足該指標概率值的不同算法的閾值T,再根據(jù)閾值T通過另一指標概率值的大小來評價算法準確性,如錯誤預警率十萬分之一下的正確率等。

2 準確性綜合指標

我們經(jīng)常使用上述指標繪制成的相關曲線和一些其他綜合指標來更加客觀全面形象地評價算法性能。最常用的繪制曲線有P-R 曲線[4]、ROC 曲線[1,3-8]、DET[3,5-8]曲線和CMC 曲線[3]等,其他綜合評價指標還有等錯誤率[4-8]和類內類間差異評價指標[9]等。

2.1 查準率-查全率曲線

查準率-查全率曲線(Precision-Recall curve)簡稱P-R 曲線,它以查全率R為X 軸,以查準率P為Y軸。對給定排名k或不考慮排名,通過對算法設定不同的閾值T 會得到不同的R(T,k)和P(T,k)值,將這些點(R(T,k),P(T,k))繪制到直角坐標系上就得到了P-R曲線。P-R 曲線下的面積為1 時則說明模型算法性能最為理想,往往不能達到最理想效果。當不同算法的P-R 曲線交叉時,難以判斷哪個算法性能好。通常的做法是計算每種算法P-R 曲線下的面積,面積越大認為算法性能越好。但這個面積不太容易計算,這時可以引入平衡點BEP(即y=x與P-R 曲線交點的橫坐標值)作為度量,BEP 越大認為算法性能越好。還有一個整體評價查準率和查全率的指標:F1值(F1-score),即查全率和查準率的調和平均數(shù):

對給定的閾值T或排序k,比較不同算法F1值大小,值越大認為算法性能越好。

2.2 受試者工作特征曲線

受試者工作特征曲線(Receiver Operating Charac?teristic curve)簡稱ROC 曲線,它以假正例率FPR 為X軸,以真正例率TPR 為Y 軸。對給定排名k或不考慮排名,通過對算法設定不同的閾值T 會得到不同的FPR(T,k)和TPR(T,k)值,將這些點(FPR(T,k),TPR(T,k))繪制到直角坐標系上就得到了ROC 曲線。ROC 曲線反映了算法成本(假正例)和收益(真正例)間的權衡關系。ROC 曲線越靠近y=1 算法性能越好。在實際應用時不同算法的ROC 曲線可能會有所交叉,僅從曲線趨勢上難以判斷算法優(yōu)劣。這時我們用ROC 曲線下的面積(Area Under Curve),即AUC,來進行評價[10]。AUC 理論上在[0,1]上取值,AUC 值越大算法性能越好。但個別時候會出現(xiàn)AUC 大但算法識別性能較差的情況,這時還要綜合考慮其他指標進行評價。

在實際數(shù)據(jù)集中經(jīng)常會出現(xiàn)正負樣本數(shù)量差異巨大的現(xiàn)象,而且測試集中正負樣本的分布也可能隨著時間變化。這時ROC 曲線有一個很好的特性,即當測試集正負樣本分布變化時同一算法的ROC 曲線趨勢能夠保持不變,而P-R 曲線沒有這一特性。但ROC 曲線這一很好的特性卻無法體現(xiàn)數(shù)據(jù)集結構巨大變化時不同算法識別性能的差異,而P-R 曲線能夠反映此時算法的真實性能。

2.3 檢測錯誤權衡曲線

檢測錯誤權衡曲線(Detection Error Trade-off curve)簡稱DET 曲線,它以錯誤接受率FAR 為X 軸,錯誤拒絕率FRR 為Y 軸。對給定排名k或不考慮排名,通過對算法設定不同的閾值T 會得到不同的FAR(T,k)和FRR(T,k)值,將這些點(FAR(T,k),TPR(T,k))繪制到直角坐標系上就得到了DET 曲線。這時曲線越接近y=0,算法性能越優(yōu)越。類似于ROC 曲線,我們也可以用曲線下的面積來評價算法的整體性能,這時曲線下面積越小,算法性能越好。

2.4 累計匹配特性曲線

累計匹配特性曲線(Cumulative Match Characteris?tic Curve)簡稱CMC 曲線,它以排序k為X 軸,以前k名命中率top(T,k)為Y 軸。對給定閾值T,通過排序k從小到大變化得到不同的top(T,k) 值,將這些點(k,top(T,k)) 繪制到直角坐標系上就得到了CMC 曲線。CMC 曲線越接近y=1,算法識別性能就越好。

2.5 等錯誤率

等錯誤率(Equal Error Rate)簡記為EER,它雖然是一個具體數(shù)值,但需要利用錯誤接受率曲線FAR 和錯誤拒絕率曲線FRR 來求得。具體過程是:對給定排名k 或不考慮排名,先將閾值T的取值范圍歸一化至區(qū)間[0,1],以閾值T為X 軸,T取一組0 到1 之間的等差數(shù)列,分別得出點(T,FAR(T,k))和點(T,FRR(T,k)),這樣就可以畫出曲線FAR 和曲線FRR,兩條曲線的交點對應的縱坐標值就是等錯誤率EER。等錯誤率EER越小,算法的識別性能就越高。

2.6 類內類間差異評價指標d'

這里是對某一測試樣本集中樣本的所有比對進行評價的。將兩個同一身份的樣本間的比對得分稱為真實匹配得分(genuine match score),將不同身份的樣本間的比對得分稱為虛擬匹配得分(imposter match score),那么可以計算d':

指標d'反映了類內匹配得分和類間匹配得分之間的差異情況。值d'越大,說明類內差異和類間差異區(qū)分度越明顯,算法效果也越好。

2.7 魯棒性評價指標

魯棒性指標用來評價識別系統(tǒng)處理缺失值和異常數(shù)據(jù)的能力。文獻[11]用初始增強魯棒性(Robust Initial Enhancement)RIE 這一指標來評測識別算法的魯棒性。

3 其他相關指標

整個生物特征識別系統(tǒng)一般由數(shù)據(jù)采集注冊、數(shù)據(jù)傳輸、數(shù)據(jù)處理、數(shù)據(jù)存儲、識別比對和決策反饋等過程組成,每一階段都有對應的評價指標。采集注冊過程經(jīng)常使用注冊失敗率、采集失敗率、采集用時和平均無故障時間等來評價采集設備的性能。數(shù)據(jù)傳輸過程就會涉及到計算機網(wǎng)絡方面的一些評價指標,如傳輸速率、吞吐量、時延、往返時間、利用率等指標。數(shù)據(jù)處理階段會涉及特征提取相關的評價指標。數(shù)據(jù)存儲階段會涉及到數(shù)據(jù)庫性能方面的指標。識別比對階段除了上述指標外,還會涉及到比對速度、算法的可擴展性、可解釋性等指標。決策反饋過程評價指標會涉及到?jīng)Q策反饋時間和吞吐量等相關指標??傮w上,在系統(tǒng)應用過程中還要考慮整體實時性、安全性、兼容性、穩(wěn)定性等指標。因此,生物特征識別系統(tǒng)評價將涉及到各個領域,是一個復雜的過程。

4 結語

生物特征識別系統(tǒng)是一個復雜的系統(tǒng),本文回顧總結了生物特征識別系統(tǒng)算法性能指標和算法評測方面的最新研究進展,詳細介紹了相應算法評價指標的定義、實現(xiàn)過程及意義,不僅總結了現(xiàn)有的基本指標量并將其一般化公式化,更具體描述了P-R 曲線、ROC曲線、DET 曲線、CMC 曲線、等錯誤率EER 和類內類間差異評價指標d'等綜合性指標的繪制實現(xiàn)過程及相關屬性意義。最后,還對生物特征識別系統(tǒng)相關的其他指標進行了簡單介紹。

目前,隨著識別算法準確性的不斷提高,生物特征識別技術的應用市場更加廣闊,匯聚的公民生物特征的種類和數(shù)量也越來越多,這就對實時性、抗規(guī)避性和安全性等提出了更高要求。實時性方面可能涉及到分布式存儲、大規(guī)模并行計算和網(wǎng)絡傳輸?shù)确矫?;抗?guī)避性方面要從采集、傳輸、存儲、比對和反饋等過程防止篡改攻擊等;安全性涉及到公民個人隱私保護和信息安全。因此,評價指標將不僅僅限于識別算法準確性本身,本文最后也對這些指標進行了介紹描述。今后,我們將重點關注這些指標,以期能夠成體系地評價整個生物特征識別系統(tǒng)。

猜你喜歡
閾值曲線樣本
未來訪談:出版的第二增長曲線在哪里?
改進的軟硬閾值法及其在地震數(shù)據(jù)降噪中的研究
土石壩壩體失穩(wěn)破壞降水閾值的確定方法
基于小波變換閾值去噪算法的改進
幸福曲線
改進小波閾值對熱泵電機振動信號的去噪研究
規(guī)劃·樣本
人大專題詢問之“方城樣本”
隨機微分方程的樣本Lyapunov二次型估計
夢寐以求的S曲線
新乡县| 东宁县| 海林市| 建德市| 蒲城县| 奉化市| 板桥市| 将乐县| 恭城| 临汾市| 习水县| 阳高县| 云霄县| 大新县| 潞西市| 清原| 河北省| 乌兰浩特市| 仁怀市| 独山县| 德庆县| 当涂县| 建昌县| 天祝| 那坡县| 佛山市| 游戏| 甘洛县| 泰兴市| 黑水县| 肃宁县| 饶平县| 香河县| 修文县| 门源| 荔浦县| 杂多县| 读书| 内丘县| 扎鲁特旗| 武乡县|