縱向聯(lián)邦線性模型在線推理過程中成員推斷攻擊的隱私保護研究

2022-09-18 03:53尹虹舒周旭華周文君

大數(shù)據(jù) 2022年5期

尹虹舒，周旭華，周文君

中國電信股份有限公司研究院安全技術(shù)研究所，上海 201315

0 引言

隨著大數(shù)據(jù)的迅速發(fā)展以及數(shù)據(jù)安全相關(guān)法規(guī)的出臺，人們對數(shù)據(jù)安全與隱私保護的意識逐漸加強，企業(yè)之間的數(shù)據(jù)共享變得愈加困難，“數(shù)據(jù)孤島”現(xiàn)象愈發(fā)嚴重。聯(lián)邦學(xué)習(xí)是目前在保護數(shù)據(jù)隱私前提下解決“數(shù)據(jù)孤島”問題的有效方式[1]。聯(lián)邦學(xué)習(xí)能在將各方數(shù)據(jù)保存在本地的同時進行模型訓(xùn)練，降低了隱私泄露的風(fēng)險。在實際應(yīng)用中，聯(lián)邦學(xué)習(xí)分為3種，分別是橫向聯(lián)邦學(xué)習(xí)、縱向聯(lián)邦學(xué)習(xí)、聯(lián)邦遷移學(xué)習(xí)。其中，縱向聯(lián)邦學(xué)習(xí)在數(shù)據(jù)賦能、數(shù)據(jù)變現(xiàn)等場景中的應(yīng)用較為普遍，受到了越來越多的關(guān)注，它表現(xiàn)為各方數(shù)據(jù)集的用戶重疊部分較大，用戶特征重疊部分較小[2]，例如在金融領(lǐng)域中，銀行與電商之間的聯(lián)合建模能更準確地識別信貸風(fēng)險[3]。

縱向聯(lián)邦學(xué)習(xí)在應(yīng)用過程中可分為兩個階段：聯(lián)邦模型訓(xùn)練和聯(lián)邦在線推理。參與聯(lián)邦建模的機構(gòu)（即數(shù)據(jù)擁有方，后文均稱之為參與方）先進行加密樣本對齊與加密模型訓(xùn)練，此過程被稱為聯(lián)邦模型訓(xùn)練；在完成模型訓(xùn)練并建立預(yù)測模型后，后續(xù)的預(yù)測由參與方在各自的數(shù)據(jù)上使用模型參數(shù)計算結(jié)果，這一預(yù)測過程被稱為聯(lián)邦在線推理。

以兩個參與方的場景為例，預(yù)測發(fā)起方（以下簡稱發(fā)起方）開展在線推理時，需要將包含數(shù)據(jù)標(biāo)識的請求體發(fā)送給另一個參與方（后文均稱之為響應(yīng)方），響應(yīng)方根據(jù)請求體中的數(shù)據(jù)標(biāo)識查找己方對應(yīng)的數(shù)據(jù)，并使用模型參數(shù)計算部分預(yù)測結(jié)果，然后將該部分預(yù)測結(jié)果返回給發(fā)起方；與此同時，發(fā)起方計算己方的部分預(yù)測結(jié)果，并與響應(yīng)方的部分預(yù)測結(jié)果進行合并，從而完成整個在線推理過程。該合并結(jié)果即完整的預(yù)測結(jié)果。

目前聯(lián)邦模型訓(xùn)練階段的安全性已被廣泛研究，而聯(lián)邦在線推理階段的安全性研究相對較少。在上述縱向聯(lián)邦在線推理過程中，預(yù)測請求的請求體內(nèi)包含的數(shù)據(jù)標(biāo)識可能會讓響應(yīng)方直接定位到具體的用戶，再結(jié)合聯(lián)合建模的業(yè)務(wù)特點，響應(yīng)方很容易推測出業(yè)務(wù)背后隱含的用戶需求，導(dǎo)致用戶隱私泄露，如用戶是否有貸款需求。

可以發(fā)現(xiàn)，縱向聯(lián)邦在線推理過程中有用戶隱私泄露的可能性，針對此問題以及現(xiàn)有研究的不足，本文提出一種面向縱向聯(lián)邦線性模型在線推理過程中的成員推斷攻擊的隱私保護方法，對傳輸過程中的數(shù)據(jù)標(biāo)識進行處理，并優(yōu)化現(xiàn)有方案，進而避免用戶隱私泄露。

1 相關(guān)工作

在聯(lián)邦學(xué)習(xí)技術(shù)中，當(dāng)前的安全性研究主要集中在訓(xùn)練階段，作為聯(lián)邦學(xué)習(xí)的最后一環(huán)，在線推理階段在實際應(yīng)用場景中的使用頻率最高，然而該階段中的數(shù)據(jù)安全性問題仍然存在。

1.1 聯(lián)邦學(xué)習(xí)用戶隱私保護的國內(nèi)外研究現(xiàn)狀

1.1.1 模型訓(xùn)練階段

目前針對聯(lián)邦學(xué)習(xí)的隱私安全問題，諸多研究專注于聯(lián)邦學(xué)習(xí)的訓(xùn)練過程。Nasr M等人[4]基于模型訓(xùn)練的參數(shù)泄露，利用隨機梯度下降的隱私漏洞提出了一種推理攻擊算法。羅丹等人[5]提出了一種應(yīng)用差分隱私技術(shù)保護模型訓(xùn)練過程中的參數(shù)的方法，通過合理分配隱私預(yù)算實現(xiàn)用戶隱私保護。對于隱私攻擊方式，Barreno M等人[6]提到了規(guī)避/探索攻擊，此類攻擊方式會導(dǎo)致輸出一個錯誤的結(jié)果，或者通過收集關(guān)于模型特征的信息進行攻擊。Bouacida N等人[7]討論了聯(lián)邦學(xué)習(xí)工作流程中涉及的多種隱私泄露情況，包括通信狀態(tài)中模型被惡意替換、梯度泄露、通過模型參數(shù)或訓(xùn)練數(shù)據(jù)來破壞訓(xùn)練過程、篡改聚合模型更新、聚合算法配置錯誤等，因此依舊需要相關(guān)安全策略來降低隱私泄露的風(fēng)險。

1.1.2 在線推理階段

Luo X J等人[8]研究了縱向聯(lián)邦學(xué)習(xí)在線推理階段的隱私泄露問題，提出了基于模型預(yù)測的特征推理的攻擊方案。針對聯(lián)邦學(xué)習(xí)在線推理階段，Lyu L J等人[9]提到推理階段的攻擊可以分為白盒攻擊（可以完全訪問聯(lián)邦學(xué)習(xí)模型）和黑盒攻擊（只能夠查詢聯(lián)邦學(xué)習(xí)模型），其中模型的傳輸步驟使得任何惡意客戶端都可以訪問該模型，因此需要采取一些措施來預(yù)防白盒攻擊。

目前聯(lián)邦學(xué)習(xí)的安全性問題涉及的大多是數(shù)據(jù)訓(xùn)練以及推理過程中的特征推理攻擊，而本文研究的問題是在線推理過程中的數(shù)據(jù)標(biāo)識泄露問題。這些攻擊很大程度上依賴于訓(xùn)練過程中的訓(xùn)練數(shù)據(jù)樣本或破壞模型更新過程、篡改數(shù)據(jù)特征、泄露交換的模型梯度。為了解決這些隱私安全問題，目前安全多方計算、差分隱私和同態(tài)加密等方法均在聯(lián)邦學(xué)習(xí)中得到了廣泛應(yīng)用[10-12]。

1.2 縱向聯(lián)邦在線推理介紹與安全風(fēng)險

縱向聯(lián)邦學(xué)習(xí)是聯(lián)邦學(xué)習(xí)中比較常見的一類場景，它適用于幾個數(shù)據(jù)集共享相同的數(shù)據(jù)樣本但特征空間不同的情況[2]。例如同一城市的兩家不同的機構(gòu)，一方為銀行，另一方為電商。兩方的用戶集可能為該地區(qū)的大多數(shù)居民，因此數(shù)據(jù)樣本重合較多，然而銀行與電商的特征空間有很大不同，銀行具有用戶收支行為和信用評級的特征，電商的特征則為用戶的瀏覽和購買歷史。在金融領(lǐng)域中，以數(shù)字銀行貸款業(yè)務(wù)為例，一家銀行的目標(biāo)是建立一個機器學(xué)習(xí)模型，通過聯(lián)合電商公司的數(shù)據(jù)來評估是否可以為某些用戶提供貸款。只有銀行擁有訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集中的標(biāo)簽信息，即是否應(yīng)批準貸款，于是銀行與電商兩方聯(lián)合建模共同完成了針對金融風(fēng)控的模型訓(xùn)練。為了訓(xùn)練縱向聯(lián)邦學(xué)習(xí)模型，各參與方以安全的方式迭代交換某些中間結(jié)果，直到獲得完成聯(lián)邦訓(xùn)練的模型，最后將訓(xùn)練好的模型發(fā)布給各方。獲得訓(xùn)練好的模型后，各方再利用該模型協(xié)同進行“預(yù)測數(shù)據(jù)集”中新樣本的模型預(yù)測。

聯(lián)邦學(xué)習(xí)的在線建模結(jié)束后，各個用戶只能得到與自己相關(guān)的模型參數(shù)，因此縱向聯(lián)邦學(xué)習(xí)的在線推理階段需要所有用戶協(xié)作完成。兩個用戶場景下的縱向聯(lián)邦學(xué)習(xí)在線推理流程如圖1所示。

圖1 縱向聯(lián)邦學(xué)習(xí)在線推理流程

①收到業(yè)務(wù)預(yù)測請求：發(fā)起方收到業(yè)務(wù)預(yù)測請求。

②發(fā)送預(yù)測請求體：發(fā)起方將包含數(shù)據(jù)及模型標(biāo)識等信息的請求體發(fā)送給響應(yīng)方。

③進行本地計算并得到部分預(yù)測結(jié)果：發(fā)起方和響應(yīng)方分別基于本地部分模型參數(shù)進行預(yù)測計算，得到部分預(yù)測結(jié)果。

④發(fā)送部分預(yù)測結(jié)果：響應(yīng)方將己方的部分預(yù)測結(jié)果發(fā)送給發(fā)起方，便于發(fā)起方聚合雙方結(jié)果。

⑤合并預(yù)測結(jié)果：發(fā)起方聚合雙方的部分預(yù)測結(jié)果，得到最終的預(yù)測結(jié)果。

由②可以發(fā)現(xiàn)，數(shù)據(jù)標(biāo)識傳輸會造成信息泄露的風(fēng)險，形成成員推斷攻擊，例如電商（響應(yīng)方）可以通過銀行（發(fā)起方）發(fā)送的數(shù)據(jù)標(biāo)識推斷出哪些用戶存在貸款需求。

針對上述問題以及現(xiàn)有研究的不足，本文提出一種面向縱向聯(lián)邦線性模型在線推理過程中的成員推斷攻擊的隱私保護方法，旨在完善縱向聯(lián)邦線性模型的在線推理過程，保障用戶隱私安全。

2 方法設(shè)計與實現(xiàn)

在縱向聯(lián)邦學(xué)習(xí)的在線推理階段，預(yù)測發(fā)起方將數(shù)據(jù)標(biāo)識發(fā)送給響應(yīng)方的過程中，在部分場景下，安全的求交方式使得雙方知道共有用戶的情況，這可能會間接泄露該信息附帶的隱私信息，比如共有用戶正在尋求貸款。該數(shù)據(jù)標(biāo)識的傳輸使得響應(yīng)方能夠間接獲取用戶的隱私，造成信息泄露。

針對此問題以及現(xiàn)有研究的不足，本文提出一種基于具有假陽率的過濾器、支持密文倍乘計算的加法同態(tài)加密算法和隨機數(shù)乘法盲化的面向縱向聯(lián)邦線性模型在線推理過程中的成員推斷攻擊的隱私保護方法，對傳輸過程中的數(shù)據(jù)標(biāo)識進行處理，并優(yōu)化現(xiàn)有方案，進而避免用戶隱私泄露。

2.1 符號說明

為了方便理解，對本文用到的符號做如下說明，具體見表1。其中，加密使用的是部分同態(tài)加密算法，提供加法同態(tài)計算，具有密文倍乘性質(zhì)。

表1 符號說明

2.2 總體框架

在縱向聯(lián)邦學(xué)習(xí)的在線推理過程中，本文方法的總體流程如圖2所示，發(fā)起方收到在線推理請求后，使用數(shù)據(jù)標(biāo)識id構(gòu)造出具有假陽率的過濾器Fid（如布隆過濾器（Bloom filter），它是一種用于數(shù)據(jù)過濾的概率數(shù)據(jù)結(jié)構(gòu)，可以返回假陽性結(jié)果[13-15]），并將該過濾器提供給響應(yīng)方；響應(yīng)方使用該過濾器進行全庫篩選，獲得數(shù)據(jù)標(biāo)識集Iid，滿足id∈Iid且|Iid|＞1，因此響應(yīng)方需返回針對多條數(shù)據(jù)的部分預(yù)測結(jié)果，而不是僅返回原始id對應(yīng)的單條數(shù)據(jù)，從而使發(fā)起方無法精確定位到原數(shù)據(jù)標(biāo)識對應(yīng)的用戶。在后續(xù)過程中，發(fā)起方聚合雙方的預(yù)測結(jié)果，并對該結(jié)果進行盲化處理，進一步保護用戶隱私安全。

圖2 總體流程

2.3 詳細流程

在縱向聯(lián)邦學(xué)習(xí)在線推理階段，本文方法的詳細流程如圖3所示。

圖3 詳細流程

（1）響應(yīng)方預(yù)先生成同態(tài)加密算法的密鑰對(PK,SK)，并將公鑰PK發(fā)送給發(fā)起方。

（2）當(dāng)發(fā)起方收到業(yè)務(wù)系統(tǒng)的在線推理請求后，根據(jù)預(yù)定規(guī)則，針對數(shù)據(jù)標(biāo)識id生成具有假陽率的過濾器Fid，并發(fā)送給響應(yīng)方。過濾器構(gòu)造規(guī)則根據(jù)業(yè)務(wù)需求的不同而不同，可以選擇布隆過濾器、n-前/后綴過濾器等。

（3）響應(yīng)方和發(fā)起方同步進行如下步驟。

響應(yīng)方根據(jù)Fid生成滿足過濾器規(guī)則的數(shù)據(jù)標(biāo)識集Iid，并查找與之對應(yīng)的特征數(shù)據(jù)集；針對中的每條數(shù)據(jù)，響應(yīng)方使用部分模型wH計算得到對應(yīng)的部分預(yù)測結(jié)果后，使用公鑰PK對該結(jié)果進行加密，得到密文，形成部分預(yù)測結(jié)果集密文；最后將以及Iid發(fā)送給發(fā)起方。

（4）發(fā)起方根據(jù)Iid從集合中提取出與id對應(yīng)的響應(yīng)方的部分預(yù)測結(jié)果密文，并進行聚合計算，得到

上述步驟為縱向聯(lián)邦學(xué)習(xí)在線推理階段隱私保護方法的詳細流程，其中使用了具有假陽率的過濾器，使得響應(yīng)方無法定位到單條數(shù)據(jù)，只需計算過濾出的數(shù)據(jù)標(biāo)識所對應(yīng)的數(shù)據(jù)預(yù)測結(jié)果，降低了計算開銷。在同態(tài)密文聚合后，加入不同隨機數(shù)進行乘法盲化，進一步提高了隱私保護的安全性。

3 性能與安全性分析

本節(jié)從性能與安全性兩個方面分析本文提出的面向縱向聯(lián)邦線性模型在線推理過程中的成員推斷攻擊的隱私保護方法。

3.1 性能分析

為了更好地表示性能分析效果，設(shè)發(fā)起方發(fā)送給響應(yīng)方的請求體中的數(shù)據(jù)量為n，過濾器的假陽率為P。其中下標(biāo)1表示原方法，下標(biāo)2表示本文方法。僅考慮比較耗時的操作，不考慮算術(shù)運算。

3.1.1 計算量分析

本節(jié)的計算量分析針對基于本地部分模型參數(shù)的預(yù)測計算、過濾器運算、加解密運算、聚合運算以及盲化與去盲化運算。其中，α表示基于本地部分模型參數(shù)的預(yù)測計算量，β表示過濾器處理運算的計算量，γ表示加解密運算的計算量，δ表示聚合運算的計算量，分別表示盲化、去盲化運算的計算量。

在縱向聯(lián)邦線性模型在線推理原過程中，由第1.2節(jié)介紹的流程可知，整個計算過程中的計算量可以表示為：

在本文方法中，根據(jù)第2.3節(jié)的（3）可知，響應(yīng)方需要使用過濾器Fid處理原數(shù)據(jù)標(biāo)識集，獲得的新的數(shù)據(jù)標(biāo)識集大小為|Iid|=nP。在發(fā)起方進行聚合計算后，與原方法相比，本文方法后續(xù)增加了盲化與去盲化過程，整個計算過程中的計算量可以表示為：

對比式（1）與式（2）可以發(fā)現(xiàn)，與原方法相比，本文方法增加了數(shù)據(jù)標(biāo)識處理運算、加解密以及盲化與去盲化的計算量。其中由于過濾器對原數(shù)據(jù)標(biāo)識進行了處理，響應(yīng)方需要處理的數(shù)據(jù)量增加，因此Q2＞Q1。

由上述分析可知，本文方法的計算量增加了，但是可以使用技術(shù)手段降低本文方法帶來的計算性能損耗，例如可以使用GPU硬件加速、同態(tài)加密打包技術(shù)等提高計算效率。

3.1.2 通信量分析

針對縱向聯(lián)邦線性模型在線推理過程中的通信量，本節(jié)分析通信輪次以及與傳輸數(shù)據(jù)量相關(guān)的通信量。本文使用Paillier同態(tài)加密算法，密文長度是1 024 bit，原數(shù)據(jù)標(biāo)識長度為mbit。

在縱向聯(lián)邦線性模型在線推理的原方法中，由第1.2節(jié)介紹的流程可知，整個過程包含1輪次數(shù)據(jù)傳輸通信。由第2.3節(jié)的（5）～（7）可知，相比原方法，本文方法增加了1輪次數(shù)據(jù)傳輸通信。原方法的通信量可以表示為：

在本文方法中，由于使用了過濾器，響應(yīng)方需要計算nP條數(shù)據(jù)的預(yù)測結(jié)果，將該結(jié)果加密后傳輸給發(fā)起方的通信量可以表示為：

由式（3）和式（4）可知，本文方法的通信量增加了。在后續(xù)盲化過程中，同態(tài)加密后的結(jié)果與盲化因子相乘后長度不變，對通信量開銷無影響。

與原方法相比，本文方法增加了1輪次數(shù)據(jù)傳輸通信。常數(shù)次通信開銷的增加對系統(tǒng)的影響可忽略不計。由過濾器的使用造成的額外通信開銷可以使用控制過濾器的假陽率不能過大的方法尋找平衡點；根據(jù)密鑰的生命周期較短、使用后即可丟棄的特性，可通過降低密鑰長度來降低通信開銷；可使用同態(tài)加密打包技術(shù)，減少傳輸過程中的數(shù)據(jù)量，從而降低額外的密文通信開銷。

3.2 安全性分析

當(dāng)參與方數(shù)量為兩個時，本文方法是安全的。由于在計算機網(wǎng)絡(luò)安全方面，很難做到萬無一失，任何破壞與攻擊都有可能產(chǎn)生，因此本節(jié)做出如下假設(shè)：①本文方法應(yīng)用于受控環(huán)境中，受控環(huán)境可通過傳統(tǒng)的安全加固措施實現(xiàn)；②所有參與方均為半誠實的，即參與方都會執(zhí)行預(yù)設(shè)的方案步驟，但也會嘗試推斷方案之外的信息；③本文僅考慮兩個參與方的情形。

3.2.1 數(shù)據(jù)標(biāo)識的安全分析

在縱向聯(lián)邦線性模型在線推理過程中，當(dāng)預(yù)測發(fā)起方發(fā)起推理請求后，請求體中需要包含的數(shù)據(jù)標(biāo)識為發(fā)起方用于匹配樣本的標(biāo)識，其可能為設(shè)備號或手機號的哈希值等。響應(yīng)方收到該數(shù)據(jù)標(biāo)識后，可以反向推斷出該數(shù)據(jù)標(biāo)識對應(yīng)用戶的其他業(yè)務(wù)功能標(biāo)簽，造成隱私泄露。因此本文方法考慮對該數(shù)據(jù)標(biāo)識進行處理，將具有假陽率的過濾器發(fā)送給響應(yīng)方。發(fā)起方根據(jù)己方設(shè)定的規(guī)則將該過濾器發(fā)送至響應(yīng)方后，響應(yīng)方獲得被擾動的數(shù)據(jù)集[13]，該擾動數(shù)據(jù)集中包含原數(shù)據(jù)標(biāo)識，數(shù)據(jù)范圍的擴大使得響應(yīng)方無法精確定位到原數(shù)據(jù)標(biāo)識的對應(yīng)用戶，從而較好地保證發(fā)起方的隱私安全。

3.2.2 響應(yīng)方計算結(jié)果的安全分析

在縱向聯(lián)邦線性模型在線推理過程中，所有計算均在同態(tài)加密密文上進行，因此發(fā)起方無法獲知計算的中間結(jié)果明文，其中包括響應(yīng)方的部分預(yù)測結(jié)果明文。

3.2.3 最終推理結(jié)果的安全分析

發(fā)起方使用隨機數(shù)乘法盲化對聚合結(jié)果進行處理，每次選擇不同的隨機數(shù)進行盲化，再將盲化后的預(yù)測結(jié)果發(fā)送給響應(yīng)方。發(fā)起方利用同態(tài)加密的密文倍乘性質(zhì)，實現(xiàn)了對最終推理結(jié)果的盲化處理；即使響應(yīng)方使用私鑰對盲化的最終推理結(jié)果進行解密，也無法得到去盲化的最終推理結(jié)果；只有發(fā)起方使用盲化隨機數(shù)進行去盲化處理后，才能恢復(fù)出最終推理結(jié)果。由此可以看出，最終推理結(jié)果只能由發(fā)起方獲得，保證了最終推理結(jié)果的安全性。

綜上分析，在縱向聯(lián)邦線性模型的在線推理階段，本文方法的貢獻可歸納為如下3點：①通過構(gòu)造具有假陽率的過濾器來避免響應(yīng)方對數(shù)據(jù)標(biāo)識的精確定位，從而保證數(shù)據(jù)標(biāo)識的安全性；②使用同態(tài)加密實現(xiàn)在線推理過程的全密態(tài)，保護響應(yīng)方的中間計算結(jié)果；③根據(jù)同態(tài)加密的密文倍乘性質(zhì)，使用隨機數(shù)乘法盲化操作，使得最終推理結(jié)果只能由發(fā)起方獲得，保證了最終推理結(jié)果的安全性。上述3點保證了縱向聯(lián)邦線性模型在線推理階段中參與方交互信息的安全性。

4 結(jié)束語

針對縱向聯(lián)邦線性模型在線推理階段中的成員推斷攻擊問題，本文提出了一種面向縱向聯(lián)邦線性模型在線推理過程中的成員推斷攻擊的隱私保護方法，確保經(jīng)過處理后的數(shù)據(jù)標(biāo)識的傳輸不會造成用戶隱私泄露，并保證了整個過程交互信息的安全性。在性能方面，與原方法相比，本文方法的計算量與通信量雖有所增加，但可以使用相關(guān)技術(shù)來降低額外開銷；在安全性方面，在本文假設(shè)條件下，本文方法能夠有效避免用戶隱私泄露。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡