摘要:隨著數據時代的到來,云服務器成為許多用戶和企業(yè)外包數據的頭號選擇,關于數據異常檢測問題的研究愈發(fā)地被人們重視。針對現(xiàn)有方案大多數不支持對云環(huán)境上密文數據的異常檢測的問題,本文提出了一種云環(huán)境下基于密文的數據異常檢測隱私保護方案(Privacy protection scheme for data anomaly detection based on ciphertext in cloud environment, PADC)。安全性分析證明,該方案的算法不會泄露數據明文、檢測索引以及檢測令牌的隱私信息,實現(xiàn)了隱私保護。效率分析與仿真實驗表明,該方案具有較低的計算開銷,具有良好的應用前景。
關鍵詞:異常檢測;密文數據;云存儲;隱私保護;高斯模型
一、引言
現(xiàn)如今,數據的傳播范圍變得更加廣泛,面臨的安全威脅也變得更多,數據在流轉使用過程中的每個環(huán)節(jié)均存在數據篡改、數據丟失等異常問題[1-2]。由于數據的影響范圍變廣、影響力變強,一旦發(fā)生數據異常,許多場景會失控,造成難以估算的后果。因此,數據異常問題變得愈發(fā)引人關注,而準確、高效地檢測這些異常值成為解決數據異常問題的關鍵。
近年來,針對數據異常中異常數據檢測的研究取得了進展[3-11]。文獻[4]中提出了一個用于描述異?;顒訖z測的統(tǒng)計模型;文獻[5]提出了一種基于SDN的在線流量異常檢測方法;文獻[8]研究了加權條件熵在異常檢測中的應用;文獻[9]提出了人工智能領域中針對異常圖像的檢測算法;文獻[11]提出了混沌RBF神經網絡異常檢測算法;文獻[11]通過混合高斯模型與馬爾科夫鏈來檢測異常事件。
為了保證云端數據的機密性,將數據加密成為一個普遍的隱私保護選擇。由于加密數據本身具有隱蔽性與不規(guī)則性的特點,若加密數據被異常,則更加難以將其檢測。然而,現(xiàn)有數據異常檢測技術大多數針對明文數據,無法針對密文進行數據異常檢測,影響了數據異常檢測技術在云環(huán)境中的實用性。針對上述提到的問題,本文提出一種云環(huán)境下基于密文的數據異常檢測隱私保護方案,其能夠滿足用戶對存儲在云服務器上的密文數據進行異常檢測的需求。
該方案以基于高斯模型的異常檢測方法為基礎[12-13],利用期望、方差、F值等統(tǒng)計學技術與Paillier加密等密碼學手段,根據數據標簽為每一類數據構建了加密異常檢測索引與異常檢測令牌[14-15],在保護方案的語義安全且檢測索引和檢測令牌不泄露數據隱私的條件下,實現(xiàn)了對存儲在云上的密文數據的數據異常檢測,具有重要的理論價值。
二、PADC方案
(一)方案模型與形式化定義
PADC方案模型架構如圖1所示,包含三個實體:數據擁有者、數據檢測者,云服務器。
下面分別介紹各實體的功能:
1.數據擁有者(DO)作為待檢測數據的擁有方,負責對數據進行預處理,包括生成加密數據以及加密的異常檢測索引,并將其上傳至云服務器;
2.數據檢測者(DT)作為數據異常的檢測方,需要發(fā)送檢測請求及個人身份信息,得到數據擁有者的檢測授權,并接受檢測令牌;
3.云服務器(Server)是一個誠實且好奇的實體,無法獲得敏感數據本身,只負責對加密數據及檢測索引存儲并協(xié)助數據檢測者進行數據異常檢測。
PADC方案由五個算法組成,形式化定義為:.
(二)安全性定義
PADC方案中,認為DO為可信實體,DT經DO檢測認證后同樣被認為是可信的,也同樣認為對數據使用的對稱加密算法是安全的,在這里不再對數據本身的安全性進行討論。因此,PADC方案中需要提供的隱私保護包括兩部分:檢測索引安全以及檢測令牌安全,即Server無法通過檢測索引推出索引本身以及數據的相關信息,同時Server無法通過檢測令牌得到DT檢測的相關信息,包括檢測內容、數量以及待檢測數據是否被檢測過。
定理1:如果方案基于的所有加密算法是語義安全的,則PADC方案是語義安全的。
三、方案詳細設計
根據上一章形式化定義,下面對PADC的五個算法分別進行詳細描述。
(一)密鑰生成算法
為概率性算法。輸入安全參數λ,DO首先計算Paillier加密算法所需私鑰sk與公鑰pk,之后生成對稱加密密鑰K,用于對數據的加密,最后生成一個可逆矩陣M,偽隨機函數f與哈希函數
H( )。將M、K、f、H( )與sk私有,并將公鑰pk發(fā)布。最后,DT為自己生成Paillier加密所需要的密鑰 ,用于對簽名的驗證。密鑰生成算法執(zhí)行完畢。
(二)數據預處理算法
為概率性算法。DO首先使用對稱密鑰k對數據集D加密,得到加密數據D',并將其上傳至Server。接下來,DO對數據集進行分類,假設數據共被分為 類,記數據標簽為li。針對每一類數據集 ,即其為n維向量數據,對數據樣本進行處理(如:取對數),使其均服從高斯分布,即 ,對數據集進行劃分為訓練集、交叉驗證集以及測試集,劃分標準如圖2所示。
假設樣本個數為m,計算其每一維數據的期望與方差 ,其公式:
(1)
對每一類數據進行訓練后,利用數據標簽與其期望、方差構建異常檢測索引I,結構如圖3所示。
最后利用交叉驗證集中的數據樣本,通過計算樣本F值,通過測試集中的數據對選擇的εi進行測試,當全部εi被確定后,利用其數據標簽li與異常閾值εl構建驗證字典。
(三)加密索引生成算法
為概率性算法。加密索引生成算法的工作是將異常檢測索引I加密成安全索引,算法如下所示:
1.利用偽隨機函數f加密每一個數據標簽與其對應的期望與方差的參數加密,生成加密標簽與加密參數 。生成一系列隨機數,然后將Ri填充至參數中,將填充后的參數列表生成一個多項式 。
2.計算多項式 的矢量 ,對其每一個多項式 中的系數 采用公鑰pk加密,得到 。將全部多項式參數加密完畢后,得到加密字典 。
3.利用Ω中的元素構建字典矩陣M',將M'加密,得到MD=M·M'。令加密索引。
(四)令牌生成算法
為確定性算法。DT向DO發(fā)送異常檢測請求C,首先用個人私鑰skDT以及哈希函數H對待查詢的數據標簽lq、個人身份信息ID與時間戳TS生成簽名 ,當驗證成功后,DO首先根據lq生成數據異常檢測令牌T,生成算法如下:
1.記待查詢的數據標簽集為Q,構建多項式:
(2)
即多項式的根為所有不包含待檢測的數據標簽。為了掩藏令牌的長度,將令牌固定為定長 ,并用隨機數填充多項式剩余部分。
2.對 中的每一個系數 ,計算:
, (3)
3.DO根據待檢測數據標簽lq找到DT中對應的異常閾值εq,記T[3]=εq。令 ,生成三元組檢測令牌T。
DO將T發(fā)送至DT,令牌生成算法執(zhí)行完畢。
(五)異常檢測算法
為確定性算法。DT利用檢測令牌T對加密檢測索引對待檢測數據D(lq)進行數據異常檢測,算法過程如下:
Server取出T[1]與MD,首先計算:
(4)
Server接下來取出T[2]對Y中的每一個參數γi,Server利用pk計算:
(5)
全部計算完畢后得到新矢量 。
Server計算 并將其發(fā)送至DT。DT在DO的協(xié)助下利用sk對R(x)解密,得到R'(x)。R'(x)的根即為lq對應的檢測索引值,即DT得到了待檢測的數據對應的期望與方差集。
DT利用Δ中的參數與待檢測數據:
,計算:
(6)
取出T[3]與RS(x)對比,當RS(x)<T[3]時,說明檢測數據被異常,記RS=ture;否則,說明數據合格,記RS=false。
四、安全性證明
本節(jié)對PADC方案根據第二章的安全性定義進行安全性證明:
根據定理1,假設敵手A能夠以不可忽略的優(yōu)勢贏得前文所述的安全性實驗,采用P算法代替PADC方案中的加密操作(P為一個語義安全的算法,可以訪問隨機預言機Of ),然后通過第3章所述的安全性實驗來證明PADC方案的語義安全性。實驗結束后,A輸出參數ω'作為猜想。如果輸出的結果是0,則表示隨機預言機Of 中的f代表一個隨機算法,記Pr [Pf =0];否則f代表一個加法同態(tài)加密算法,記Pf =1。
如果f是一個隨機算法,則顯然有Pr [Pf =0]=1/2;如果f是一個加法同態(tài)加密算法,則敵手A與P輸出1的概率是相同的。因此,敵手贏得安全性實驗的優(yōu)勢與P區(qū)分語義安全加密算法的優(yōu)勢是相同的[29]。
接下來考慮算法的索引安全與令牌安全。令牌生成過程中,T[1]的系數被隨機矩陣加密,T[2]的系數中添加了隨機數,不能被確定。因此,對于不同的檢測行為,令牌的值是不同的。因此,敵手無法通過檢測操作推測出多次檢測使用了相同的標簽。
五、效率分析與實驗測試
本節(jié)通過模擬實驗對上述階段分別進行測試,驗證效率分析。
首先根據Server中存儲的密文數據標簽個數m,對PADC方案執(zhí)行的三個階段(檢測索引生成、檢測令牌生成、數據異常檢測)分別進行效率測試,測試結果如圖4所示。
通過測試結果得出結論:隨著數據標簽個數的遞增,檢測索引生成時間、檢測令牌生成時間與數據異常檢測時間也相應遞增。
接下來根據Server中存儲的數據向量的最大維度n對PADC方案執(zhí)行的三個階段(檢測索引生成、檢測令牌生成、數據異常檢測)分別進行效率測試,測試結果如圖5所示。
通過測試結果得出結論:隨著數據向量的最大維度的遞增,檢測索引生成時間與數據異常檢測時間也相應遞增,接近于一個正比的關系。而檢測令牌生成時間與數據向量的最大維度的遞增關系不大,其生成效率接近于一個常數。
六、結束語
針對現(xiàn)有的方案大多不支持對存儲在云上的密文數據進行數據異常檢測的問題,本文提出了一種云環(huán)境下基于密文的數據異常檢測方案,簡稱PADC。該方案以基于高斯模型的異常檢測方法為基礎,根據數據的期望、方差等參數與Paillier同態(tài)加密、偽隨機函數等密碼學知識構建加密的異常檢測索引與異常檢測令牌,通過每一類數據的異常檢測令牌實現(xiàn)了對存儲在云上的密文數據的異常檢測。通過安全性證明,該方案的算法是語義安全的.通過效率分析與實驗證明,該方案具有較低的計算開銷,具備良好的應用前景。
作者單位:魏淑華 肖珂 張靜 北方工業(yè)大學
陳華平 宋鑫 奇安信集團
魏淑華(1981.10.12-),女,漢族,山東聊城,博士,副教授,研究方向:芯片安全與芯片性能驗證;
肖珂(1980.11.01-),男,漢族,吉林松原,博士,教授,博導,研究方向:網絡異常行為檢測;
張靜(1978.03.06-),女,漢族,北京,博士,教授,碩導,研究方向:集成電路應用、物聯(lián)網安全;
陳華平(1980.04.17-),男,漢族,遼寧沈陽,碩士,工程師,中國計算機學會專委會(CCF)委員,奇安信集團創(chuàng)始合伙人、集團副總裁,研究方向:集團戰(zhàn)略、戰(zhàn)略情報、產業(yè)研究;
宋鑫(1977.05.16-),男,漢族,江蘇南通,碩士,現(xiàn)任奇安信集團副總裁、軍團委戰(zhàn)略合作部負責人,南京分公司黨支部書記。
參考文獻
[1]方國斌.數據污染的特征與影響分析[J].統(tǒng)計與咨詢,2007,(05):74-75.
[2]Chen C L P, Zhang C Y. Data-intensive applications, challenges, techniques and technologies: A survey on big data[J]. Information Sciences,2014, 275: 314–347.
[3]BAI Ning.An outlier detection method based on k-means clus—tering[J].Computer and Modernization,2014.
[4]V.Saligrama, J.Konrad,P.M.Jodoin.Video anomaly identification[J]. IEEE Signal Process,2010:1833.
[5]ZUO Qingyun,CHEN Ming,WANG Xiulei.Online traffic anomaly detection method for SDN[J].Journal of Xidian University,2015.
[6] C.Lu,J.Shi,J.Jia.Abnormal event detection at 150 fps in matlab[C].//Proceeding of the 2013 IEEE Internationa lConference on Computer Vision.Sydney,Australia,IEEE,2013:2720-2727.
[7]M.Bertini,A.Bimbo,L.Seidenari. Multi-scale and real-time non-parametric approach for anomaly detection and localization[J].Comput.Vis.Image Underst,2012 (116):320-329.
[8]HUANG Liang,ZHAO Zemao,LLANO Xingkai.Web data extraction based on edit distance[J].Journal of Computer Applications,2012,32(6):1662-1665.
[9]J.Wang,Z.Xu. Spatio-temporal texture modeling for real-time crowd anomaly detection[J].Comput.Vis.ImageUnderst,2016(144):177-187.
[10]H.Weng,P Chang.Chaotic RBF neural network anomaly detection algorithm [J].Computer Technology and Development.2014,24(7):29-33.
[11]R.Leyva,V.Sanchez,C.T.Li. Video anomaly detection with compact feature sets for online performance [J].IEEETrans.ImageProcess,2017(26):3463-3478.
[12]Xie S,Guan Y.Motion instability based unsupervised online abnormal behaviors detection[J].Multimedia Toolsand Applications,2016(12):7423-7444.
[13]連一峰,戴英俠,王航. 基于模式挖掘的用戶行為異常檢測[J]. 計算機學報, 2002, 25(3):325-330.
[14]Shehab D, Ammar H. Statistical detection of a panic behavior in crowded scenes[J].Machine Vision and Applications,2019(30):919-931.
[15]Yue G, Jun ping D,Meiyu. Abnormal event detection in tourism video based on salient spatio-temporal features and sparse combination learning [J].World Wide Web,2019(22):689-715.