李 璇 李德華 楊 智 陳巍維 楊 洋
(1.華中科技大學(xué)自動化學(xué)院 武漢 430074)(2.湖北工業(yè)大學(xué)計算機學(xué)院 武漢 430068)(3.烽火通信科技股份有限公司 武漢 430073)(4.湖北大學(xué)計算機與信息工程學(xué)院 武漢 430062)
近年來,隨著互聯(lián)網(wǎng)的發(fā)展和社交網(wǎng)絡(luò)的興起和普及,社交網(wǎng)絡(luò)平臺的圖片分享服務(wù)成為互聯(lián)網(wǎng)中最有熱度的業(yè)務(wù)之一,但同時這種服務(wù)的發(fā)展給用戶帶來了嚴(yán)重的隱私泄露威脅。來自個人相機,手機,視頻監(jiān)控或者電視機里的數(shù)字圖片被廣泛使用。一幅數(shù)字圖像里往往包含有很多信息,照片一旦在互聯(lián)網(wǎng)上被傳播,就會泄露許多的信息。攻擊者可以在未經(jīng)授權(quán)的情況下,瀏覽、下載和轉(zhuǎn)載其他用戶的圖片信息,通過這些信息可以計算推理得知他人與個人信息相關(guān)的隱私信息。比如通過圖片中的人臉信息獲取圖片中涉及到的人物的身份信息,推斷其社會關(guān)系;也可以通過圖片中的相關(guān)文字信息,比如路牌等獲取到圖片中人物的位置信息,更有甚者可以通過圖片中的建筑物推斷出圖片中人物的具體位置坐標(biāo)等。因此圖片的隱私保護是基于圖片分享的服務(wù)在應(yīng)用中需要解決的最重要的問題之一。1950 年歐洲委員會公約正式宣布隱私保護為人權(quán)。這后來體現(xiàn)在1995 年歐盟數(shù)據(jù)保護指令(指令95/46/EC)中,該指令要求采取適當(dāng)?shù)募夹g(shù)和組織措施來保護在傳輸或處理這些數(shù)據(jù)過程中的私人信息。為了遵守這些規(guī)定,身份去識別已經(jīng)成為許多組織關(guān)注的焦點,其最終目標(biāo)是在保護圖片信息的同時移除所有個人識別信息[1]。
圖片的隱私保護是通過隱藏目標(biāo)的視覺信息來實現(xiàn)的,然而,過度的視覺抽象處理會降低圖片的可讀性。因此我們需要關(guān)注的是如何既達到保護隱私的目的,又盡可能多的保存原始圖片信息。目前,大多數(shù)研究都是以圖像為單位進行隱私內(nèi)容的搜索[2~3],針對圖片的目標(biāo)信息進行隱私的分析評估還沒有很多研究,這是一個有前景的研究趨勢。隨著計算機視覺和人臉識別技術(shù)的發(fā)展和成熟,圖像中的人臉作為個人身份信息的重要表征,被看作是高度敏感的隱私信息。近年來有些工作關(guān)注人臉的信息隱藏問題,比如使用模糊或者遮擋等去識別技術(shù)過濾掉圖像中的人臉信息實現(xiàn)主體的隱私保護[4~7],還有些工作對視覺信息隱藏技術(shù)的效果進行了評估[8~9]。
然而,上述的方法均是對目標(biāo)進行統(tǒng)一化的視覺隱藏處理,未考慮到每個目標(biāo)所暴露隱私的風(fēng)險程度,即隱私度,是有差異的。對于圖片中的人臉信息,如果進行同種方式或者程度的去識別處理,雖然達到了隱私保護的目的,但是會使圖片損失較多視覺信息。這就需要我們對于圖片中的人臉目標(biāo)進行隱私性評估,根據(jù)人臉隱私度的不同,用不同的圖像處理手段隱藏目標(biāo)的視覺信息,保證圖像的可讀性和隱私性。本文提出一種基于PCA 的k-Same 去識別算法,能夠在降低人臉識別率的同時保證圖像的質(zhì)量。并在該算法的基礎(chǔ)上建立了一個線性回歸模型來實現(xiàn)人臉隱私度的定量評估,該模型通過研究人臉的模糊方式及其程度和人臉可識別性及圖像質(zhì)量變化之間的關(guān)系,決定不同的人臉目標(biāo)去識別化的程度,從而為制定個性化隱私保護決策提供科學(xué)的依據(jù),實現(xiàn)隱藏個人身份的同時保證圖像可讀性的需求。
圖像中人臉的隱私問題如今受到了很多的關(guān)注,研究者們從多個角度出發(fā),進行圖像中人臉隱私保護的研究。Ilia 等[7]的主要貢獻是將隱私保護問題中照片處理的粒度從圖像級別轉(zhuǎn)換到人臉級別,根據(jù)圖像中不同人臉的隱私權(quán)限來決定人臉是否被模糊。其中作者們是通過用戶調(diào)查的方式量化每個用戶的隱私風(fēng)險和評價隱私保護的效果的。Nakashima 等[4]主要用可識別率來評估各種圖像處理技術(shù)對于人臉遮擋的效果,通過調(diào)查問卷的方式得到人臉熟悉度和顯著性的分?jǐn)?shù),將這兩個與隱私相關(guān)的因素作為參數(shù)定量的評估各種圖像處理技術(shù)和識別率之間的關(guān)系,并討論影響可識別性的兩個因素的相關(guān)性與問卷結(jié)果的統(tǒng)計學(xué)意義。Dufaux 等[10]提出了一個框架去評估隱私保護方法的面部信息和身份信息的隱藏功能,為了達到這個目的,他們使用Colorado State University(CSU)人臉識別評估系統(tǒng)來評估人臉經(jīng)過各種隱私保護技術(shù)之后的識別效果。Zerr等[3]提出結(jié)合圖像的視覺特征和文本特征學(xué)習(xí)隱私分類器,以圖像為單位實現(xiàn)隱私趨向的搜索,使得用戶可以直接發(fā)現(xiàn)有特定隱私信息的圖片,并使用調(diào)查問卷的方式評估了方法的可行性。Mosaddegh等[11]關(guān)注到了圖像隱私保護和視覺質(zhì)量保持之間相權(quán)衡的問題。提出了一種基于感興趣區(qū)域替換的人臉去識別技術(shù),既能生成更加美觀和自然的人臉圖像,又能保證較低的人臉自動匹配率。Korshunov 等[8~9]提出了一個主觀的評估方法來分析常見的一些隱私保護方法實現(xiàn)的隱私信息隱藏與視頻圖像可理解性之間的權(quán)衡問題。文章通過用戶調(diào)查的方式給出了在不同信息處理方式下的視頻圖像的隱私性和可理解性的分值。
對于隱私保護的日益關(guān)注以及相關(guān)的法律和社會責(zé)任,導(dǎo)致了過去十年中對人臉去識別化領(lǐng)域的廣泛研究。人臉去識別算法方法主要分為兩類:一類是常見的特定模糊方法,包括像素化,模糊,遮擋[9,11~12]等;一 類 是 基 于K-匿 名[13]的 方 法,比 如Newton 等[14]提出的K-SAME 算法。在這一節(jié)中,我們將簡單介紹這幾種人臉去識別方法,并提出的一種新的基于PCA的k-Same人臉去識別算法。
3.1.1 模糊方法
1)像素化
像素化(pixelation)是通過下采樣過程減少了一幅圖像中的信息含量。給定一個像素化因子p,將圖像大小p*p 的子塊上的像素由子塊上的平均像素值替換。隨著p 值的增加,越來越多的信息被移除。
2)高斯模糊
模糊(Blurring)是將圖像中的每個像素被像素的鄰域的加權(quán)平均代替。常用的加權(quán)函數(shù)是高斯核函數(shù),位于鄰域中心附近的像素獲得更大的權(quán)重。在二維中,對于坐標(biāo)x 和y,高斯模糊算子被定義為。其中標(biāo)準(zhǔn)差σ 控制著鄰域的大小。然后將模糊圖像計算為原始圖像與高斯模糊算子的卷積。
3.1.2 k-Same人臉去識別方法
簡單來說,k-Same 是將k-匿名的概念用于隱私保護當(dāng)中的工作原理是獲取一個臉部集合中的k個臉部圖像的平均值,并用平均圖像替換這些圖像。由于每個原始圖像都是用與它最為相似的人臉集群的聚合人臉進行替換,在保護隱私的同時可以最大限度地減少信息丟失。其具體定義[14]如下。
給定一個特定的人臉集合H ;以及使用人臉去識別函數(shù)f:H →Hd,對H 進行k-匿名化后的人臉集合Hd,如果f 滿足:給定任意一幅人臉圖像Γd∈Hd,其中Γd=f(Γ)且Γ ∈H ,使得任意人臉識別軟件對Γd進行人臉識別的正確識別率都不高于1/k。則f 稱為k-Same 去識別函數(shù),Hd是k-Same去識別化圖像集合。其目的是選擇最合適的函數(shù)f 使得信息損失最少。
至今為止,較為成功的人臉去識別方法是k-Same,它能保證識別率低于1/k。其核心問題就是要找到分組聚類的最優(yōu)算法,將特定的人臉集合分成若干個“集群”,從而得到集群中k 個人臉的平均人臉,來代替每個集群的成員的原始圖像。然而,目前的k-Same 解決方案都依賴于人臉的全部特征去進行分組聚類。
人臉去識別過程是一個典型的高維小樣本問題,人臉圖像向量的維數(shù)一般較高,而由于客觀條件的限制,訓(xùn)練樣本的數(shù)目一般較小,在這樣一個高維的圖像空間內(nèi),按照通常的算法,計算樣本的協(xié)方差矩陣的特征向量是非常耗時的。因此本文提出了一個新的k-Same 解決方案,利用主元分析方法(PCA)解決K-L 變換后協(xié)方差矩陣的特征向量的求解問題,提取出空間原始數(shù)據(jù)中的主要特征,生成基于主成分的特征臉空間,減少數(shù)據(jù)冗余,使得數(shù)據(jù)在一個低維的特征空間被處理,同時保持原始數(shù)據(jù)的絕大部分的有用信息,從而解決數(shù)據(jù)空間維數(shù)過高的瓶頸問題。
與基于全部特征的k-Same 算法相比,我們提出的基于PCA的k-Same人臉識別算法在提高去識別效果的同時大大提高了運算效率,算法思路如圖1所示。
圖1 k-Same-PCA算法設(shè)計
本文用基于PCA的k-Same人臉去識別算法得到的去識別化程度定量的評估人臉目標(biāo)的隱私度,人臉?biāo)璧娜プR別化程度越高,說明該人臉暴露隱私的風(fēng)險越高,即隱私度級別越高。去識別化程度與兩個因素相關(guān),一個是人臉去識別化后的識別率,一個是去識別化后人臉圖像的失真度。在保證識別率低于一定閾值的情況下,失真度越小說明圖像的可讀性越高。
由于基于KPCA 的人臉識別算法在人臉識別的應(yīng)用中可以更有效地選取特征信息,獲得較高的識別率且具有較強的魯棒性[16],因此在本文中,我們使用該算法對去識別后的人臉進行人臉識別率的計算,得到的識別率定量的反映了該人臉的可識別性,從而作為評估去識別程度的關(guān)鍵因素之一。
將圖像的失真度作為衡量圖像可讀性的指標(biāo),使用圖像質(zhì)量評價方法對圖像進行失真度的定量計算,從而客觀地評價去識別過程對于圖像質(zhì)量的影響。
自然圖像具有極高的結(jié)構(gòu)性,表現(xiàn)在圖像的像素間存在著很強的相關(guān)性,尤其是在空間相似的情況下。這些相關(guān)性在視覺場景中攜帶著關(guān)于物體結(jié)構(gòu)的重要信息。我們假設(shè)人類視覺系統(tǒng)(HSV)主要從可視區(qū)域內(nèi)獲取結(jié)構(gòu)信息。所以通過探測結(jié)構(gòu)信息是否改變來感知圖像失真的近似信息。大多數(shù)的基于誤差敏感度的質(zhì)量評估方法(如MSE,PSNR)不涉及信號自身內(nèi)容的特征,對某些圖像進行質(zhì)量評價時會與主觀感知的質(zhì)量產(chǎn)生較大的偏差[17]。結(jié)構(gòu)相似法SSIM(structural similarity index)是一種基于結(jié)構(gòu)信息衡量原始信號與處理后信號之間相似程度的方法,計算簡單、與主觀質(zhì)量評價關(guān)聯(lián)性較強。因此本文使用基于SSIM 的圖像質(zhì)量評價方法來定量的評估去識別化后的人臉圖像質(zhì)量。
4.3.1 隱私度級別劃分和去識別技術(shù)參數(shù)的設(shè)定
對于圖像中的人臉目標(biāo),使用不同的去識別技術(shù)和相關(guān)參數(shù)可以改變?nèi)四樀娜プR別化程度。本文建立的評價模型將人臉目標(biāo)的隱私度分為十級,隱私度級別越高,人臉?biāo)枰[藏的視覺信息越多。相應(yīng)的去識別技術(shù)和所設(shè)定的參數(shù)如表1 所示。
表1 隱私度分級表
4.3.2 線性回歸模型的建立
回歸分析用于確定變量之間的密切關(guān)系,線性回歸假設(shè)因變量與自變量之間為線性關(guān)系,用一定的線性回歸模型來擬合因變量和自變量的數(shù)據(jù),并通過確定模型參數(shù)來得到回歸方程。本文將圖像中的人臉尺寸看作自變量,其隱私度看作因變量,根據(jù)識別率閾值的設(shè)定,通過線性回歸分析對不同大小的人臉圖像目標(biāo)確定不同的隱私度線性回歸方程,即
其中,i為識別率的區(qū)間范圍,回歸系數(shù)利用最小二乘法確定。
基于之前在英國ORL(Olivetti Research Laboratory)人臉數(shù)據(jù)庫上取得的人臉識別研究的成果[18],我們利用該庫的數(shù)據(jù)進行本文的建模和實驗。我們在40 個人中每人任意選取一幅正面圖像組成實驗中的Person-specific人臉集合。
本文在Matlab 平臺上進行了人臉像素化和基于PCA 的k-Same 的去識別算法的實驗,在Visual studio 平臺上通過調(diào)用OpenCV 相關(guān)函數(shù)實現(xiàn)了人臉的高斯模糊處理。圖2 展示的是使用不同的去識別技術(shù)和相關(guān)參數(shù)得到的去識別化結(jié)果。
如圖2(a)所示,通過改變單元格大小p 的值得到不同的像素化結(jié)果;如(b)所示,使用不同的σ 值得到了不同的模糊圖像效果;(c)展示了選取不同k值時的k-Same 圖像效果;(d)展示了選取不同k 值時的k-Same-PCA圖像效果。
圖2 四種去識別算法選取不同參數(shù)時的結(jié)果對比圖
圖3 展示的是四種去識別方法在不同參數(shù)下,即不同的去識別程度(De-Identification Level)下的識別率(Recognition Accuracy)結(jié)果和圖像質(zhì)量(SSIM Value)評價結(jié)果。
如圖3所示,基于k-匿名的去識別算法對于識別率降低的效果遠(yuǎn)遠(yuǎn)好于像素化算法或者模糊算法,在較低的去識別程度下就能獲得較低的識別率,也就是在對圖像進行較小程度去識別化的情況下能較好的隱藏人臉的可識別信息,從而保護了人臉的隱私性。圖3 的(b)圖顯示,我們用定量的SSIM 值評價圖像質(zhì)量的變化時,常見的像素化算法和高斯模糊算法雖然在去識別程度較小的時候,使得圖像具有較高的相似性,但是結(jié)合(a)圖可以發(fā)現(xiàn),其對應(yīng)的識別率太高,不能達到保護隱私的目的。同時,實驗證明,我們提出的k-Same-PCA人臉去識別方法與k-Same算法相比能夠得到更低的識別率的同時保持更高的圖像相似性,以及更快的運算效率。
圖3 采用不同的去識別方法時去識別程度和識別率以及SSIM值之間的關(guān)系
為了實現(xiàn)圖像隱私保護和可讀性的平衡,我們提出的k-Same-PCA 人臉去識別方法能夠有效降低識別率的同時保證圖像的質(zhì)量。通過該算法得到去識別結(jié)果,選取不同大小的人臉圖像,得到相應(yīng)的識別率、SSIM 值與去識別程度的關(guān)系圖,如圖4 所示,隨著識別率的降低,圖像的結(jié)構(gòu)相似性值是單調(diào)遞減的,因此當(dāng)識別率滿足一定條件時,可以得到每種人臉尺度在不同識別率需求下所對應(yīng)的最優(yōu)的去識別程度。
通過回歸分析得到不同識別率需求時的人臉尺寸(單位:萬像素)和隱私度的回歸方程如下所示:
圖4 不同人臉圖像尺寸下的識別率、SSIM值與去識別程度之間的關(guān)系
對于圖像中任意人臉,可以根據(jù)它的目標(biāo)尺寸信息得到最合適的去識別程度作為人臉的隱私度,然后根據(jù)制定的隱私度分級表,獲取相應(yīng)的去識別技術(shù)及其參數(shù),實現(xiàn)對不同的人臉目標(biāo)有針對性的去識別化操作,從而達到較好的視覺處理效果和隱私保護目的。
圖片隱私的保護問題是目前對隱私問題研究的熱點問題之一,受到了廣泛關(guān)注,但對圖片的目標(biāo)信息的隱私泄露風(fēng)險評估還沒有很多研究。本文旨在提供科學(xué)的隱私保護方案來實現(xiàn)對圖像中的人臉進行不同程度的視覺信息隱藏,從而達到隱私保護和圖像可讀性之間的平衡。本文首先提出了一種基于PCA 的k-Same 人臉去識別方法,該算法取得了更低的識別率和更好的圖像質(zhì)量,并從人臉尺寸的角度出發(fā),利用線性回歸的方法建立對圖像中的人臉隱私度進行定量評估的模型,得到不同識別率需求下的人臉尺寸和其隱私度間的關(guān)系。由于本文利用識別率和失真度定量的評估幾種去識別算法,并用得到的去識別程度來量化隱私度,這種定量分析隱私的方法和思路,使評價的結(jié)果更加客觀。
在今后的研究中,可以研究更多的圖像處理技術(shù),比如銳化、扭曲、浮雕效果等多種圖像去識別方式對圖像識別率和失真率的影響。通過對目標(biāo)采取不同的圖像處理技術(shù)降低目標(biāo)的識別率同時減少圖像的失真率,從而實現(xiàn)保護隱私的同時使得圖像更加自然和美觀的呈現(xiàn)。同時我們可以探討不同的人臉視覺線索對于人臉可識別性的影響,比如人臉的尺寸,人臉的角度以及人臉遮擋的面積和方位等;并建立相應(yīng)的數(shù)學(xué)模型對隱私度進行定量的評估。