吳吉 王月娟 景棟盛
摘? 要:機器學習方法常使用私有數(shù)據(jù)來訓練模型以期獲得更好的效果。然而,非授權用戶可以通過模型輸出來判斷數(shù)據(jù)是否參與訓練,破壞了數(shù)據(jù)隱私安全。對此,提出了基于深度優(yōu)化網(wǎng)絡的模型攻擊方法,從攻擊者的角度出發(fā),分析攻擊方法原理,有針對性地防御對模型的攻擊,增強模型的隱秘性。所提方法自動對模型進行攻擊,獲得自優(yōu)化的參數(shù),提高攻擊的準確度,充分挖掘模型中的安全缺陷,揭示模型的可改進之處,改善模型的安全性。在CIFAR-100數(shù)據(jù)集上進行了實驗,得到AUC值為0.83,優(yōu)于base方法。實驗結(jié)果驗證該方法能有效地提升攻擊效果。
關鍵詞:機器學習;優(yōu)化;隱私保護;模型攻擊
中圖分類號:TP309? ? ?文獻標識碼:A
A Model Attack Method based on Self-optimizing Deep Network
WU Ji, WANG Yuejuan, JING Dongsheng
(Suzhou Power Supply Branch, State Grid Jiangsu Electric Power Co., Ltd., Suzhou 215004, China)
13862159678@163.com; 215691852@qq.com; jds19810119@163.com
Abstract: Machine learning often uses private data to train model so as to get better performance. However, unauthorized users can input data into the model and determine whether certain data are used for training by the output of the model, which threatens data privacy and security. In order to solve this problem, this paper proposes an attack method based on deep optimizing network, which analyzes the attack method principle from the attacker's point of view, and then defends against the attack on the model in a targeted manner so as to enhance the secrecy of the model. The proposed method attacks the model automatically, obtains self-optimizing parameters, improves the attack accuracy, fully exploits security defects in the model, reveals the improvement of the model, and improves the model security. Experiments have been carried out on CIFAR-100 data set, and the AUC (Area Under the Curve) value is 0.83, which is better than the base method. Experimental results show that the proposed method can effectively improve the attack effect.
Keywords: machine learning; optimization; privacy protection; model attack
1? ?引言(Introduction)
隨著深度學習研究的不斷深入,深度學習模型的安全問題引起了研究者的廣泛關注,隱私泄露問題越來越受到重視[1-4]。一方面,模型固有的特性使攻擊者有機會獲取其中的隱私信息;另一方面,模型中的隱藏層會形成較大的有效容量,將一些訓練數(shù)據(jù)細節(jié)化為參數(shù)[5],記錄在模型中。
通過對測試數(shù)據(jù)的輸出分析,可以對模型有一個明確的衡量,同時也急需一個有效的攻擊方法來模擬對目標的攻擊,發(fā)現(xiàn)模型中存在的問題。雖然已有一些方法,但是這些方法在模型的攻擊精度上還有待提高。因此,需要設計研發(fā)一種有效的方法來提高攻擊的效果,從而更好地改進模型的安全性。
針對這一問題,本文提出了基于自優(yōu)化的深度網(wǎng)絡模型攻擊方法,通過已知模型的層數(shù),對其進行計算,得出一組攻擊參數(shù),使用這些指定參數(shù)對模型相應的層進行攻擊,獲得較好的攻擊效果。
2? ?相關工作(Related work)
2.1? ?推理攻擊
針對機器學習算法的推理攻擊分為成員推理和重構攻擊。在重構攻擊中,攻擊者的目標是推斷訓練集中記錄的屬性[6]。成員推理攻擊利用了一種觀察,即機器學習模型在它們所訓練的數(shù)據(jù)上的行為常常與它們第一次“看到”的數(shù)據(jù)不同。攻擊者會構建一個攻擊模型,該模型可以識別目標模型行為中的這些差異,并利用它們來區(qū)分目標模型的成員和非成員。
深度學習的數(shù)據(jù)以不同方式被用于訓練模型?;诔蓡T推理攻擊方法的攻擊者可以觀察深度學習過程,通過深度學習模型測量訓練數(shù)據(jù)的泄露情況。本文提出的方法利用深度學習算法。
2.2? ?差分隱私
差分隱私技術使攻擊者很難通過模型的輸出來分辨某條數(shù)據(jù)是否被用于訓練機器學習模型,從而達到保護數(shù)據(jù)隱私的效果[7]。按照差分隱私的要求,在數(shù)據(jù)集中添加或刪除一條數(shù)據(jù)后,都不會顯著影響作用在該數(shù)據(jù)集上的算法的輸出結(jié)果[8]。差分隱私已經(jīng)被用于對推理攻擊的強防御機制[9-10]。研究人員將差分隱私引入模型算法中,對模型的梯度進行擾動,提高了隱私性[11]。
本文對差分隱私方法進行改進,重點分析哪些數(shù)據(jù)被用來訓練模型的個人隱私。為了達到保護隱私的目的,進一步分析攻擊方式來評估模型的優(yōu)劣。對絕大多數(shù)機器學習任務而言,在算法求解過程中滿足差分隱私,即可以認為實現(xiàn)了對模型的隱私保護。
2.3? ?ML Privacy Meter
ML Privacy Meter是Python基于Tensorflow 2.1開發(fā)的一個應用程序接口,可以針對目標模型訓練攻擊模型,并可以使用指定的攻擊方式訓練出攻擊模型。ML Privacy Meter使用成員推理攻擊來測量深度學習模型訓練數(shù)據(jù)的信息泄露,數(shù)據(jù)被用于訓練模型,攻擊者也可以觀察深度學習過程。
對于一個目標數(shù)據(jù)記錄,攻擊模型計算損失,并可以使用一個簡單的反向傳播算法計算有關所有參數(shù)的損失梯度。由于深度神經(jīng)網(wǎng)絡中使用了數(shù)以百萬計的參數(shù),具有如此大維數(shù)的向量不能正確地對訓練數(shù)據(jù)進行泛化。與非成員相比,模型的梯度在訓練數(shù)據(jù)成員上的分布是可區(qū)分的,可以幫助對手運行精確的成員關系推理攻擊,使分類模型得到很好的概括。
3? ?方法(Method)
3.1? ?攻擊參數(shù)自優(yōu)化
雖然ML Privacy Meter提供了比較方便的測量,但是沒有提供優(yōu)化參數(shù)的方法。為了能獲得較好的白盒攻擊策略效果,本文使用整體參數(shù)優(yōu)化選擇的方法。這個方法充分考慮目標模型層數(shù),進行平均細分后再決定攻擊的層數(shù)N。
在進行白盒攻擊時,需要確定對哪些層進行攻擊。整體參數(shù)優(yōu)化法可以盡可能地對模型參數(shù)進行探索,同時又能避免逐層對模型進行窮究式探索,獲取模型中最關鍵的中間層??梢姡w參數(shù)優(yōu)化法具有明顯的優(yōu)勢。據(jù)此,本文設計了一種攻擊參數(shù)自優(yōu)化方法,采用均方誤差作為Loss函數(shù),其計算方式為:
其中,n為樣例個數(shù),是各個樣例權重,為真實數(shù)據(jù),為預測值。
自優(yōu)化網(wǎng)絡攻擊方法如算法1所示。
算法 1:自優(yōu)化網(wǎng)絡攻擊方法(Self-Optimizing Net Attack, SONA)
1:? 訓練目標模型M
2:? 獲得模型的網(wǎng)絡層數(shù)參數(shù)Layer_Num
3:? 初始化攻擊attack_hander
4:? 初始化攻擊模型 θa
5:? 通過Split方法從Layer_Num中獲得目標層列表targetLayersList
6:? for i∈[0,epochs] do
7: ? mtrain_data, ntrain_data = attack_hander()
8: ? moutputs = forward_pass(M,mtrain_data,N)
9: ? noutpus = forward_pass(M,ntrain_data,N)
10: 利用式(1)計算損失函數(shù) Loss(ntrain_data,
mtrain_data)
11: ? 使用梯度下降更新參數(shù)θa
12: end for
3.2? ?目標模型
Alexnet的網(wǎng)絡結(jié)構模型引爆了神經(jīng)網(wǎng)絡的應用熱潮,并贏得了2012屆圖像識別大賽的冠軍,使得CNN成為在圖像分類上的核心算法模型,很適合作為驗證模型。Alexnet的網(wǎng)絡結(jié)構如圖1所示,包含8 層權重,前5 個是卷積的,其余3 個是完全連接的,最后一個完全連接層的輸出被饋送到1000路Softmax激活函數(shù)。本文設計的網(wǎng)絡最大化了多項邏輯回歸目標,相當于最大化了在預測分布下正確標簽的對數(shù)概率在訓練案例中的平均值。
AlexNet與LeNet相比,網(wǎng)絡結(jié)構更豐富,有明顯的優(yōu)勢。AlexNet通過使用Dropout實現(xiàn)數(shù)據(jù)增強,從而抑制數(shù)據(jù)過擬合,適合用來作為神經(jīng)網(wǎng)絡攻擊的對象。攻擊的訓練流程如圖2所示。
4? ?實驗與分析(Experiment and analysis)
4.1? ?數(shù)據(jù)集與評價標準
本文采用CIFAR-100作為測試數(shù)據(jù)集。CIFAR-100數(shù)據(jù)集是一個經(jīng)典的數(shù)據(jù)集,由100 個類組成,每個類有600 個32×32彩色圖像。數(shù)據(jù)集分為五個訓練批次和一個測試批次,每個批次有100 個圖像。測試批次包含來自每個類別的100 個隨機選擇的圖像。同時,CIFAR-100數(shù)據(jù)集中的100 個類被分成20 個超類。每個圖像都帶有一個“精細”標簽(所屬的類)和一個“粗糙”標簽(所屬的超類)。
由于現(xiàn)實中樣本在不同類別上分布不均衡,使得傳統(tǒng)的度量標準不能恰當?shù)胤从吵龇诸惼鞯谋憩F(xiàn)。使用ROC曲線(Receiver Operating Characteristic Curve)作為評價指標,能直觀地表現(xiàn)出分類效果。ROC曲線向左上角彎曲的幅度越大,代表這個分類器效果越好。在ROC曲線圖中,X軸為假陽性率(FPR),Y軸為真陽性率(TPR)。
4.2? ?對目標模型的攻擊
本文以完成預訓練的Alexnet網(wǎng)絡結(jié)構模型作為攻擊目標,模型共有26 層網(wǎng)絡和24 個隱藏層,對其進行攻擊比較:(1)直接對其進行黑盒攻擊(base);(2)使用整體參數(shù)優(yōu)化的白盒攻擊。對于26 層的目標模型,考慮輸出層,進行兩次計算,以第6 層、第13 層和第26 層為目標。根據(jù)這種參數(shù)優(yōu)化,以Alexnet網(wǎng)絡為目標訓練出攻擊模型。在測試集中的ROC曲線如圖3所示,根據(jù)ROC曲線計算出其AUC值。本文所提方法的AUC值為0.83,比base方法AUC值(0.80)提高了3.75%。
從圖3可以看出,由于對中間層的梯度進行了更為詳盡的分析,使得白盒攻擊更加有效。因此,從結(jié)果可以發(fā)現(xiàn),黑盒攻擊不如參數(shù)優(yōu)化后的白盒攻擊的效果。但是,通過實驗可知,在白盒攻擊時,太過頻繁地對相近層數(shù)進行攻擊,會導致效果有所下降,這是因為兩個相近層次之間的梯度會相互造成較大的影響。
5? ?結(jié)論(Conclusion)
大部分模型都存在一定的漏洞,可以根據(jù)模型對同一組數(shù)據(jù)的輸出不同,通過白盒攻擊或黑盒攻擊來改進安全性。本文在Alexnet的基礎上提出了一種參數(shù)優(yōu)化的白盒攻擊方法,提高了攻擊的準確度,改善了攻擊效果,充分挖掘出模型中的安全缺陷,發(fā)現(xiàn)模型中的可改進之處,提升了模型的安全性。
參考文獻(References)
[1] 譚作文,張連福.機器學習隱私保護研究綜述[J].軟件學報,2020,31(7):2127-2156.
[2] 姜妍,張立國.面向深度學習模型的對抗攻擊與防御方法綜述[J].計算機工程,2021,47(1):1-11.
[3] 陳宇飛,沈超,王騫,等.人工智能系統(tǒng)安全與隱私風險[J].計算機研究與發(fā)展,2019,56(10):2135-2150.
[4] 余方超,方賢進,張又文,等.增強深度學習中的差分隱私防御機制[J].南京大學學報(自然科學),2021,57(1):10-20.
[5] BILOGREVIC I, HUGUENIN K, AGIR B, et al. A machine-learning based approach to privacy-aware information-sharing in mobile social networks[J]. Pervasive and Mobile Computing, 2016, 25:125-142.
[6] 劉?,u,陳紅,郭若楊,等.機器學習中的隱私攻擊與防御[J].軟件學報,2020,31(3):866-892.
[7] 張潤蓮,張瑞,武小年,等.基于混合相似度和差分隱私的協(xié)同過濾推薦算法[J].計算機應用研究,2021,3(9):1-7.
[8] 任奎,孟泉潤,閆守琨,等.人工智能模型數(shù)據(jù)泄露的攻擊與防御研究綜述[J].網(wǎng)絡與信息安全學報,2021,7(1):1-10.
[9] 陳楊,于守健.基于差分隱私的決策樹發(fā)布技術研究[J].計算機與現(xiàn)代化,2017(3):59-64.
[10] 劉俊旭,孟小峰.機器學習的隱私保護研究綜述[J].計算機研究與發(fā)展,2020,57(2):346-362.
[11] 李欣姣,吳國偉,姚琳,等.機器學習安全攻擊與防御機制研究進展和未來挑戰(zhàn)[J].軟件學報,2021,32(2):406-423.
作者簡介:
吳? 吉(1981-),女,本科,工程師.研究領域:信息安全,軟件開發(fā).
王月娟(1981-),女,碩士,工程師.研究領域:信息安全,軟件開發(fā).
景棟盛(1981-),男,碩士,高級工程師.研究領域:機器學習,網(wǎng)絡安全.