隱私計(jì)算場(chǎng)景下數(shù)據(jù)質(zhì)量治理探索與實(shí)踐

2022-09-18 03:54張燕楊一帆伊人羅圣美唐劍飛夏正勛

大數(shù)據(jù) 2022年5期

張燕，楊一帆，伊人，羅圣美，唐劍飛，夏正勛

星環(huán)信息科技（上海）股份有限公司，上海 200233

0 引言

隨著全球數(shù)字經(jīng)濟(jì)的蓬勃發(fā)展，數(shù)據(jù)作為生產(chǎn)要素的重要性日益凸顯，其已滲透到人類生活的方方面面。近年來(lái)，政府及企業(yè)不斷加強(qiáng)對(duì)數(shù)據(jù)安全、數(shù)據(jù)資產(chǎn)、數(shù)據(jù)隱私的保護(hù)[1]，使得數(shù)據(jù)主體之間、主體內(nèi)部的“數(shù)據(jù)孤島”現(xiàn)象日益突出，影響了數(shù)據(jù)價(jià)值的變現(xiàn)。隱私計(jì)算作為一種新型數(shù)據(jù)處理技術(shù)，能夠在保護(hù)數(shù)據(jù)隱私的前提下，為跨域數(shù)據(jù)處理提供安全可靠的計(jì)算環(huán)境，實(shí)現(xiàn)多方協(xié)同數(shù)據(jù)處理，改變數(shù)據(jù)流通及使用的模式。隱私計(jì)算增強(qiáng)了數(shù)據(jù)流通過(guò)程中對(duì)個(gè)人隱私和數(shù)據(jù)安全的保護(hù)，其技術(shù)實(shí)現(xiàn)不僅涉及數(shù)據(jù)處理算法、處理流程的改變，還涉及數(shù)據(jù)預(yù)處理、特征工程、數(shù)據(jù)貢獻(xiàn)度等細(xì)分領(lǐng)域的改造，當(dāng)前業(yè)界對(duì)隱私計(jì)算算法、流程的討論較多[2-5]，對(duì)數(shù)據(jù)質(zhì)量治理、數(shù)據(jù)貢獻(xiàn)度等方面的研究較少。

隱私計(jì)算對(duì)參與計(jì)算的數(shù)據(jù)質(zhì)量有更高的要求。首先，隱私計(jì)算是一種多方協(xié)同計(jì)算，任何一方的數(shù)據(jù)質(zhì)量出現(xiàn)問(wèn)題，都很容易成為隱私計(jì)算的“短板”，“木桶效應(yīng)”顯著；其次，隱私計(jì)算通過(guò)加密中間數(shù)據(jù)實(shí)現(xiàn)數(shù)據(jù)流通，加密以及中間數(shù)據(jù)的信息傳遞方式在一定程度上減少了有效信息量，因此對(duì)數(shù)據(jù)質(zhì)量提出了更高的要求。此外，隱私計(jì)算通常是跨部門、跨組織的協(xié)作計(jì)算，且相互之間不能見(jiàn)到對(duì)方的數(shù)據(jù)，這提高了隱私計(jì)算前期工作溝通及協(xié)調(diào)的復(fù)雜性，特別是數(shù)據(jù)預(yù)處理工作。因此，有必要對(duì)隱私計(jì)算場(chǎng)景下數(shù)據(jù)質(zhì)量治理的相關(guān)工作展開(kāi)研究，在“數(shù)據(jù)可用不可見(jiàn)”的情況下，實(shí)現(xiàn)多方數(shù)據(jù)的數(shù)據(jù)質(zhì)量評(píng)估和優(yōu)化。針對(duì)上述問(wèn)題，本文研究了隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量評(píng)估及優(yōu)化方法，并提出從數(shù)據(jù)質(zhì)量評(píng)估、數(shù)據(jù)質(zhì)量?jī)?yōu)化、數(shù)據(jù)貢獻(xiàn)度評(píng)估3個(gè)方面構(gòu)建隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量治理框架。該框架兼顧本地域及聯(lián)邦域的數(shù)據(jù)質(zhì)量治理工作，從而提升隱私計(jì)算的數(shù)據(jù)質(zhì)量。在此基礎(chǔ)上，本文還提出一種數(shù)據(jù)貢獻(xiàn)度衡量方法，對(duì)隱私計(jì)算的長(zhǎng)效激勵(lì)機(jī)制進(jìn)行探索。

1 隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量治理背景

隨著數(shù)據(jù)規(guī)模、計(jì)算模式的變化，不同時(shí)期的數(shù)據(jù)質(zhì)量治理工作有不同的內(nèi)涵[6-10]。在數(shù)據(jù)倉(cāng)庫(kù)時(shí)代，數(shù)據(jù)大多為結(jié)構(gòu)化數(shù)據(jù)，規(guī)模小且存儲(chǔ)在單機(jī)系統(tǒng)中，此時(shí)數(shù)據(jù)質(zhì)量治理主要是指數(shù)據(jù)質(zhì)量評(píng)估和優(yōu)化[11]，通常采用定量[12]或不定量[13]的方法評(píng)估數(shù)據(jù)質(zhì)量，從數(shù)據(jù)源、數(shù)據(jù)預(yù)處理和元數(shù)據(jù)管理等方面優(yōu)化數(shù)據(jù)質(zhì)量[14]。數(shù)據(jù)倉(cāng)庫(kù)時(shí)代下的數(shù)據(jù)質(zhì)量治理主要圍繞數(shù)據(jù)的一致性、完整性、準(zhǔn)確性和及時(shí)性開(kāi)展，很少?gòu)臄?shù)據(jù)相關(guān)性、數(shù)據(jù)價(jià)值等維度評(píng)估數(shù)據(jù)質(zhì)量[15]。隨著大數(shù)據(jù)技術(shù)的出現(xiàn)，數(shù)據(jù)規(guī)模成倍增加，數(shù)據(jù)質(zhì)量治理面臨多源、異構(gòu)、海量、高時(shí)效的挑戰(zhàn)[16]，數(shù)據(jù)質(zhì)量治理的內(nèi)容也因此擴(kuò)展到數(shù)據(jù)標(biāo)準(zhǔn)定義、數(shù)據(jù)整合與清洗、數(shù)據(jù)質(zhì)量評(píng)估、數(shù)據(jù)質(zhì)量監(jiān)控等數(shù)據(jù)質(zhì)量管理全過(guò)程[17]，通過(guò)制訂數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)，定義數(shù)據(jù)質(zhì)量規(guī)則庫(kù)，構(gòu)建數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)體系，制訂數(shù)據(jù)質(zhì)量管理策略，實(shí)現(xiàn)全流程的數(shù)據(jù)質(zhì)量治理[18]。但是，這種大數(shù)據(jù)質(zhì)量治理的處理方式需要將多個(gè)組織的數(shù)據(jù)進(jìn)行集中存儲(chǔ)、集中處理，不可避免地存在數(shù)據(jù)安全及隱私泄露的風(fēng)險(xiǎn)，也給數(shù)據(jù)管理引入了合規(guī)風(fēng)險(xiǎn)[19]。隨著國(guó)家、個(gè)人對(duì)數(shù)據(jù)安全和隱私保護(hù)的重視，隱私計(jì)算的應(yīng)用越來(lái)越廣泛。隱私計(jì)算是一種跨密碼學(xué)、數(shù)據(jù)科學(xué)、人工智能等多學(xué)科的技術(shù)[1]，多方協(xié)作進(jìn)行聯(lián)合計(jì)算和聯(lián)合建模。隱私計(jì)算從機(jī)制上實(shí)現(xiàn)了原始數(shù)據(jù)不出庫(kù)，從根源上降低了隱私泄露的風(fēng)險(xiǎn)[1]，但也提高了數(shù)據(jù)質(zhì)量治理的技術(shù)復(fù)雜性和實(shí)施難度。在隱私計(jì)算場(chǎng)景中，聯(lián)邦特征工程是傳統(tǒng)特征工程算法在隱私計(jì)算環(huán)境下的重構(gòu)，常用于對(duì)參與方的數(shù)據(jù)進(jìn)行優(yōu)化[20]。

數(shù)據(jù)貢獻(xiàn)度常用來(lái)衡量數(shù)據(jù)參與方提供的數(shù)據(jù)價(jià)值，是數(shù)據(jù)質(zhì)量治理中必不可少的一部分。傳統(tǒng)的數(shù)據(jù)貢獻(xiàn)度評(píng)估方法通常只使用數(shù)據(jù)量維度作為數(shù)據(jù)貢獻(xiàn)度指標(biāo)，忽略了數(shù)據(jù)質(zhì)量的影響。在隱私計(jì)算場(chǎng)景中，為了讓數(shù)據(jù)所有者持續(xù)提供數(shù)據(jù)，公平有效地評(píng)估每個(gè)參與方的數(shù)據(jù)貢獻(xiàn)度至關(guān)重要。合理的貢獻(xiàn)評(píng)價(jià)指標(biāo)可以使激勵(lì)機(jī)制公平分配聯(lián)邦收益，激勵(lì)數(shù)據(jù)所有者提供更有價(jià)值的數(shù)據(jù)[21]。當(dāng)前，有專家研究本地?cái)?shù)據(jù)質(zhì)量與多方計(jì)算結(jié)果之間的影響關(guān)系，通過(guò)層次化影響分析，檢測(cè)出本地?cái)?shù)據(jù)中的負(fù)影響數(shù)據(jù)[22]或評(píng)估各參與方數(shù)據(jù)對(duì)多方計(jì)算結(jié)果的正向貢獻(xiàn)[23]。也有專家將數(shù)據(jù)信息熵用于衡量數(shù)據(jù)集中包含的信息量[24]，以此作為數(shù)據(jù)參與方的數(shù)據(jù)貢獻(xiàn)度，或從模型訓(xùn)練效果和訓(xùn)練成本角度確定數(shù)據(jù)參與方的數(shù)據(jù)貢獻(xiàn)度[25]。

目前，針對(duì)隱私計(jì)算場(chǎng)景下數(shù)據(jù)質(zhì)量治理的研究比較零散，不同于傳統(tǒng)的數(shù)據(jù)質(zhì)量治理方法，本文充分考慮了隱私計(jì)算場(chǎng)景下數(shù)據(jù)治理面臨的諸多問(wèn)題和挑戰(zhàn)，例如如何在數(shù)據(jù)不可見(jiàn)的情況下實(shí)現(xiàn)聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估？如何在保護(hù)隱私的前提下，根據(jù)數(shù)據(jù)質(zhì)量評(píng)估完成數(shù)據(jù)質(zhì)量?jī)?yōu)化？完成數(shù)據(jù)質(zhì)量治理之后，如何評(píng)估隱私計(jì)算過(guò)程中各參與方的數(shù)據(jù)貢獻(xiàn)度，進(jìn)而建立一種有效的激勵(lì)機(jī)制？在傳統(tǒng)方法的基礎(chǔ)上，結(jié)合隱私計(jì)算“本地計(jì)算、聯(lián)邦協(xié)同”的計(jì)算特點(diǎn)，本文提出從本地域和聯(lián)邦域兩個(gè)維度研究隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量治理問(wèn)題，涵蓋數(shù)據(jù)質(zhì)量評(píng)估、數(shù)據(jù)質(zhì)量?jī)?yōu)化、貢獻(xiàn)度激勵(lì)全流程。本文構(gòu)建了本地與多方兩個(gè)層級(jí)的數(shù)據(jù)質(zhì)量評(píng)估體系，使用多個(gè)維度的綜合評(píng)分度量數(shù)據(jù)質(zhì)量，并依據(jù)本地?cái)?shù)據(jù)質(zhì)量評(píng)估結(jié)果和聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估結(jié)果，分別對(duì)數(shù)據(jù)質(zhì)量進(jìn)行本地優(yōu)化和聯(lián)邦優(yōu)化，在數(shù)據(jù)不出本地、保障數(shù)據(jù)安全的前提下，實(shí)現(xiàn)隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量評(píng)估和優(yōu)化。同時(shí)，本文從建模的視角出發(fā)，通過(guò)數(shù)據(jù)集貢獻(xiàn)度、樣本貢獻(xiàn)度、特征貢獻(xiàn)度等多個(gè)層次來(lái)量化參與方的總體數(shù)據(jù)貢獻(xiàn)度。

2 隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量治理技術(shù)實(shí)現(xiàn)

隱私計(jì)算的主流技術(shù)[26-27]包括聯(lián)邦學(xué)習(xí)（federated learning，F(xiàn)L）、多方安全計(jì)算（secure multi-party computation，M P C）[28]、可信執(zhí)行環(huán)境（t r u s t e d execution environment，TEE）[29]3種，其中聯(lián)邦學(xué)習(xí)被視為下一代人工智能協(xié)同算法和協(xié)作網(wǎng)絡(luò)的基礎(chǔ)[30]，是當(dāng)下研究和應(yīng)用的熱點(diǎn)。因此，本文選擇聯(lián)邦學(xué)習(xí)作為重點(diǎn)場(chǎng)景來(lái)描述隱私計(jì)算場(chǎng)景下數(shù)據(jù)質(zhì)量治理技術(shù)的具體實(shí)現(xiàn)，從數(shù)據(jù)質(zhì)量評(píng)估、數(shù)據(jù)質(zhì)量?jī)?yōu)化、數(shù)據(jù)貢獻(xiàn)度評(píng)估3個(gè)方面構(gòu)建隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量治理框架，如圖1所示。

圖1 隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量治理框架

隱私計(jì)算場(chǎng)景下，數(shù)據(jù)質(zhì)量治理需要綜合考慮本地計(jì)算及聯(lián)邦計(jì)算兩種計(jì)算過(guò)程對(duì)數(shù)據(jù)質(zhì)量的要求。本文分別從本地域和聯(lián)邦域兩個(gè)維度對(duì)各參與方數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估，前者為本地?cái)?shù)據(jù)質(zhì)量評(píng)估，后者為聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估?；诒镜?cái)?shù)據(jù)質(zhì)量評(píng)估結(jié)果可對(duì)參與方數(shù)據(jù)進(jìn)行初步篩選，基于聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估結(jié)果可預(yù)判多方數(shù)據(jù)對(duì)聯(lián)邦計(jì)算結(jié)果的增益。依據(jù)數(shù)據(jù)質(zhì)量評(píng)估結(jié)果，指導(dǎo)各參與方進(jìn)行本地和聯(lián)邦數(shù)據(jù)質(zhì)量?jī)?yōu)化工作，進(jìn)一步提升數(shù)據(jù)質(zhì)量。此外，為了鼓勵(lì)更多的數(shù)據(jù)方積極參與到隱私計(jì)算中，非常有必要設(shè)計(jì)一套科學(xué)合理的貢獻(xiàn)度衡量標(biāo)準(zhǔn)，衡量各參與方數(shù)據(jù)的貢獻(xiàn)度，從而進(jìn)行公平公正的聯(lián)邦收益分配。

上述方法經(jīng)過(guò)少量調(diào)整可適用于多方安全計(jì)算和可信執(zhí)行環(huán)境場(chǎng)景下的數(shù)據(jù)質(zhì)量治理。與聯(lián)邦學(xué)習(xí)相比，它們的區(qū)別在于采用的密碼學(xué)算法不同。多方安全計(jì)算場(chǎng)景下的聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估和優(yōu)化一般采用不經(jīng)意傳輸和秘密共享這兩種經(jīng)典的多方安全計(jì)算技術(shù)和方案，可信執(zhí)行場(chǎng)景下的聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估和優(yōu)化、貢獻(xiàn)度評(píng)估主要依賴硬件算法實(shí)現(xiàn)。

2.1 隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量評(píng)估技術(shù)實(shí)現(xiàn)

聯(lián)邦學(xué)習(xí)數(shù)據(jù)質(zhì)量評(píng)估體系包括本地?cái)?shù)據(jù)質(zhì)量評(píng)估和聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估兩個(gè)層級(jí)，質(zhì)量評(píng)估的具體流程如圖2所示。

如圖2所示，聯(lián)邦學(xué)習(xí)的參與方A和B先分別進(jìn)行本地?cái)?shù)據(jù)質(zhì)量評(píng)估，再進(jìn)行聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估。在本地?cái)?shù)據(jù)質(zhì)量評(píng)估層級(jí)，參與方A和B綜合重復(fù)值評(píng)分、缺失值評(píng)分、異常值評(píng)分和單一值評(píng)分后，得到各自的本地?cái)?shù)據(jù)質(zhì)量評(píng)分。系統(tǒng)可以根據(jù)上報(bào)的本地?cái)?shù)據(jù)質(zhì)量評(píng)分，判斷各參與方是否達(dá)到參與聯(lián)邦學(xué)習(xí)的標(biāo)準(zhǔn)。在聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估層級(jí)，滿足參加條件的參與方先進(jìn)行樣本對(duì)齊，再?gòu)臄?shù)據(jù)重合度、信息量和線性相關(guān)性等維度考慮多方數(shù)據(jù)之間的相互影響，評(píng)估聯(lián)邦數(shù)據(jù)質(zhì)量。最終將參與方的本地?cái)?shù)據(jù)質(zhì)量評(píng)分和聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)分進(jìn)行加權(quán)計(jì)算，得到參與方的綜合數(shù)據(jù)質(zhì)量評(píng)分。

圖2 聯(lián)邦學(xué)習(xí)數(shù)據(jù)質(zhì)量評(píng)估流程

2.1.1 本地?cái)?shù)據(jù)質(zhì)量評(píng)估

本地?cái)?shù)據(jù)質(zhì)量評(píng)估包括計(jì)算重復(fù)值評(píng)分Sr、缺失值評(píng)分Sm、異常值評(píng)分Sa和單一值評(píng)分Ss4種，最終以4種評(píng)分的總分作為本地?cái)?shù)據(jù)質(zhì)量評(píng)分。4種評(píng)分的具體實(shí)現(xiàn)方法如下。

● 重復(fù)值評(píng)分Sr。每個(gè)參與方統(tǒng)計(jì)本地樣本數(shù)據(jù)中重復(fù)的樣本數(shù)量，計(jì)算重復(fù)的樣本數(shù)量與總樣本數(shù)量的比值，計(jì)算式如下：

其中，DT是參與方的本地樣本數(shù)，DR是重復(fù)樣本數(shù)（出現(xiàn)重復(fù)則計(jì)數(shù)加1，不是“不同的重復(fù)樣本數(shù)”），round函數(shù)將數(shù)字四舍五入到指定的位數(shù)。假設(shè)參與方A共有2 000個(gè)本地?cái)?shù)據(jù)樣本，其中有87個(gè)重復(fù)樣本，那么參與方A的重復(fù)值評(píng)分；參與方B共有3 000個(gè)本地?cái)?shù)據(jù)樣本，其中有645個(gè)重復(fù)樣本，那么參與方B的重復(fù)值評(píng)分為為。重復(fù)值評(píng)分越高，本地?cái)?shù)據(jù)中重復(fù)出現(xiàn)的樣本越少。

● 缺失值評(píng)分Sm。每個(gè)參與方對(duì)本地?cái)?shù)據(jù)的每一維度特征的缺失值進(jìn)行統(tǒng)計(jì)處理，即統(tǒng)計(jì)每一維度特征中特征值缺失或數(shù)值類型為“NULL”的樣本數(shù)量占總樣本數(shù)據(jù)的比例，計(jì)算式如下：

● 異常值評(píng)分Sa。每個(gè)參與方對(duì)本地?cái)?shù)據(jù)的每一維度特征的異常值進(jìn)行統(tǒng)計(jì)。對(duì)于連續(xù)型數(shù)據(jù)，可以使用絕對(duì)中位差（median absolute deviation，MAD）方法（一種非參數(shù)方法）、樞軸量法（即常見(jiàn)的3-σ法則）、四分位距（interquartile range，IQR）方法（一種非參數(shù)方法）等進(jìn)行評(píng)分。這里以聯(lián)邦學(xué)習(xí)IQR方法[31]為例，定義IQR為上75%分位數(shù)ξ75%與下25%分位數(shù)ξ25%的差值，t為閾值，將超過(guò)上限ξ75%+t× IQR 或下限ξ25%-t× IQR的值定義為異常值，其中ξ為維度特征的特征值排序集合。對(duì)于離散型數(shù)據(jù)，若數(shù)據(jù)是編碼類型的，將超出編碼取值范圍（超過(guò)上下限或者出現(xiàn)未定義編碼）的值定義為異常值。然后，計(jì)算特征屬于異常值的樣本數(shù)量占總樣本數(shù)量的比例，根據(jù)該比值計(jì)算異常值評(píng)分，計(jì)算式如下：

其中，DAi是第i維特征為異常值的樣本數(shù)。假設(shè)參與方A的2 000個(gè)本地?cái)?shù)據(jù)樣本有3維特征，假設(shè)閾值t取1.5，則上限為其中第1維特征有6 5 8個(gè)異常值，第2維特征有426個(gè)異常值，第3維特征有200個(gè)異常值，那么參與方A的異常值評(píng)分為round0.7 9；參與方B的3 0 0 0個(gè)本地數(shù) 據(jù)樣本有2維特征，其中第1維特征有6 6 5個(gè)異常值，第2維特征有6 4 9個(gè)異常值，那么參與方B的異常值評(píng)分為異常值評(píng)分越高，本地?cái)?shù)據(jù)中有異常值的樣本越少。

● 單一值評(píng)分Ss。每個(gè)參與方對(duì)本地?cái)?shù)據(jù)的每一維度在規(guī)定量綱條件下的標(biāo)準(zhǔn)差進(jìn)行統(tǒng)計(jì)。若某一維度特征的標(biāo)準(zhǔn)差小于閾值，則該維特征的單一值評(píng)分為0，反之為1。將所有維度特征的單一值評(píng)分的平均值作為本地?cái)?shù)據(jù)的單一值評(píng)分，計(jì)算式如下：

其中，iv是參與方本地樣本第i維特征的標(biāo)準(zhǔn)差，ti是第i維特征的閾值。假設(shè)參與方A的本地?cái)?shù)據(jù)有3維特征，閾值t取10-8，其中第1維特征的標(biāo)準(zhǔn)差為186，第2維特征的標(biāo)準(zhǔn)差為3 7，第3維特征的標(biāo)準(zhǔn)差為9×10-9，那么參與方A的單一值評(píng)分為參與方B的本地?cái)?shù)據(jù)有2維特征，其中第1維特征的標(biāo)準(zhǔn)差為3×10-10，第2維特征的標(biāo)準(zhǔn)差為5×10-6，那么參與方B的異常值評(píng)分為單一值評(píng) 分越高，本地?cái)?shù)據(jù)的規(guī)范性越高。

綜合上述指標(biāo)的評(píng)分，計(jì)算本地?cái)?shù)據(jù)質(zhì)量評(píng)分，本地?cái)?shù)據(jù)質(zhì)量評(píng)分=重復(fù)值評(píng)分+缺失值評(píng)分+異常值評(píng)分+單一值評(píng)分，即：（5）

各參與方可事先約定本地?cái)?shù)據(jù)質(zhì)量評(píng)分閾值（既可設(shè)定單一評(píng)分閾值，也可以是總分閾值），若參與方的本地?cái)?shù)據(jù)質(zhì)量評(píng)分低于該閾值，說(shuō)明其數(shù)據(jù)質(zhì)量不高，其他參與方可拒絕與之一起進(jìn)行聯(lián)邦學(xué)習(xí)。

2.1.2 聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估

聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估旨在判斷參與方對(duì)總體數(shù)據(jù)質(zhì)量是否有增益作用，具體做法為利用隱私集合求交[32-34]、聯(lián)邦I(lǐng)V（information value）、聯(lián)邦線性相關(guān)系數(shù)等算法，分別計(jì)算數(shù)據(jù)樣本評(píng)分、IV評(píng)分和Corr評(píng)分，綜合上述3種評(píng)分，最終得到聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估結(jié)果。

進(jìn)行聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估時(shí)，首先利用隱私集合求交技術(shù)將所有參與方數(shù)據(jù)進(jìn)行樣本對(duì)齊處理，再進(jìn)行多維度評(píng)分，從而評(píng)估聯(lián)邦環(huán)境下的數(shù)據(jù)質(zhì)量。其中，隱私集合求交是在不共享原始數(shù)據(jù)的前提下，實(shí)現(xiàn)對(duì)所有參與方數(shù)據(jù)的交集運(yùn)算，達(dá)到樣本對(duì)齊的目的。樣本對(duì)齊后，就可以計(jì)算樣本評(píng)分、IV評(píng)分、Corr評(píng)分，具體如下。

（1）樣本評(píng)分Ssample

樣本對(duì)齊后，計(jì)算樣本重合比例。假設(shè)參與方A無(wú)標(biāo)簽，參與方B有標(biāo)簽，將A與B的數(shù)據(jù)進(jìn)行樣本對(duì)齊處理，然后使用樣本重合比例計(jì)算樣本評(píng)分，計(jì)算式如下：

其中，CA表示參與方A的樣本數(shù)量，CB表示參與方B的樣本數(shù)量，表示樣本重合比例，t為給定閾值。樣本評(píng)分越高，聯(lián)邦數(shù)據(jù)中的對(duì)齊樣本比例越大。

（2）IV評(píng)分SIV

IV用于衡量特征變量的目標(biāo)預(yù)測(cè)能力的大小。一般來(lái)說(shuō)，IV越大，該特征的預(yù)測(cè)能力越強(qiáng)，信息貢獻(xiàn)度越高。通過(guò)計(jì)算參與方數(shù)據(jù)每一列特征的IV，對(duì)聯(lián)邦特征的信息量進(jìn)行評(píng)估，同時(shí)，可以根據(jù)IV對(duì)特征變量進(jìn)行篩選。在二分類場(chǎng)景下，IV的計(jì)算式[35]如下：

其中，ib和gi分別表示第i個(gè)分組中屬于類別1和屬于類別2的樣本數(shù)量，bT和gT分別表示屬于類別1和屬于類別2的樣本總數(shù)。

與傳統(tǒng)的IV計(jì)算方式不同，在聯(lián)邦學(xué)習(xí)場(chǎng)景下，需要通過(guò)加密條件下的數(shù)據(jù)交互來(lái)實(shí)現(xiàn)IV計(jì)算?？v向聯(lián)邦學(xué)習(xí)場(chǎng)景下的聯(lián)邦I(lǐng)V[20]計(jì)算流程如圖3所示，假設(shè)參與方A只有特征X沒(méi)有標(biāo)簽，參與方B同時(shí)擁有特征X和標(biāo)簽Y，C是協(xié)調(diào)方。

圖3 聯(lián)邦I(lǐng)V計(jì)算流程

● C先創(chuàng)建密鑰對(duì)，并將公鑰發(fā)送給A和B。

● B采用同態(tài)加密方法（如Paillier算法等）加密每一個(gè)樣本i的標(biāo)簽值：yi和1-yi，并得到[[yi]]和[[1 -yi]]，將其與明文ID一起發(fā)送給A。這是因?yàn)锳沒(méi)有標(biāo)簽，需要B提供密文標(biāo)簽值。

● A在本地對(duì)所有特征進(jìn)行特征分箱，在接收到B的密文標(biāo)簽值和ID后，對(duì)每個(gè)分箱中的I D對(duì)應(yīng)的密文標(biāo)簽值進(jìn)行加法同態(tài)求和，得到每個(gè)分箱中的再將其連同每個(gè)ID對(duì)應(yīng)的分箱發(fā)送給C。

本文針對(duì)單個(gè)特征的評(píng)分標(biāo)準(zhǔn)為：

在應(yīng)用實(shí)踐中，IV小于0.02的特征變量對(duì)預(yù)測(cè)幾乎沒(méi)有效果，IV位于[0.02,0.1)區(qū)間的特征變量預(yù)測(cè)效果較弱，IV位于[0.1,0.3]區(qū)間的特征變量預(yù)測(cè)效果中等，如果IV大于0.3，那么這個(gè)特征變量的預(yù)測(cè)能力很強(qiáng)[20]。

本文使用的IV評(píng)分就是用聯(lián)邦I(lǐng)V評(píng)估數(shù)據(jù)的信息量，具體計(jì)算式如下：

其中，p是特征數(shù)，Si是第i個(gè)特征的IV評(píng)分值。

（3）Corr評(píng)分SCorr

線性相關(guān)系數(shù)表示特征變量之間的線性相關(guān)程度，計(jì)算式[36]如下：

其中，xi表示變量X中第i個(gè)樣本的值，表示變量X的均值，yi代表變量Y中第i個(gè)樣本的值，表示變量Y的均值，Cov(X,Y)表示X與Y的協(xié)方差，Var(X)表示X的方差，Var(Y)表示Y的方差。Corr為線性相關(guān)系數(shù)（簡(jiǎn)稱Corr值），其絕對(duì)值的取值范圍為0～1。通常來(lái)說(shuō)，Corr的絕對(duì)值越接近1，變量X和Y之間的線性相關(guān)程度越高；Corr絕對(duì)值越接近0，X和Y之間的線性相關(guān)程度越低。也可以將多項(xiàng)式回歸系數(shù)[28]作為Corr(X,Y)。

針對(duì)聯(lián)邦學(xué)習(xí)場(chǎng)景下的線性相關(guān)系數(shù)計(jì)算，同樣需要通過(guò)加密條件下的數(shù)據(jù)交互來(lái)實(shí)現(xiàn)?？v向聯(lián)邦學(xué)習(xí)場(chǎng)景的聯(lián)邦Corr值計(jì)算流程如圖4所示，假設(shè)參與方A只有特征X沒(méi)有標(biāo)簽，參與方B同時(shí)擁有特征X和標(biāo)簽Y，C是協(xié)調(diào)方。

圖4 聯(lián)邦Corr值計(jì)算流程

● C先創(chuàng)建密鑰對(duì)，并將公鑰發(fā)送給A和B。

● A計(jì)算本地特征X的方差Var(X)，使用同態(tài)加密方法（如Paillier算法等）加密Var(X)，得到X的密文方差[[Var(X)]]，并將其發(fā)送給B。

● B先計(jì)算本地特征Y的方差Var(Y)，接收到A的特征X的密文方差[[Var(X)]]后，計(jì)算，并將結(jié)果發(fā)送給C。

● A計(jì)算本地特征X與其均值的差值Diff(X)，使用同態(tài)加密方法（如Paillier算法等）加密Diff(X)，得到密文差值[[Diff(X)]]，并將其發(fā)送給B。

● B在本地生成隨機(jī)掩碼R，R的取值范圍為(0,1)，并計(jì)算特征Y與其均值的差值Diff(Y)，在接收到A的密文差值[[Diff(X)]]后，計(jì)算[[Diff(X)]]與Diff(Y)的向量?jī)?nèi)積利用生成的隨機(jī)掩碼R對(duì)Cov(X,Y)進(jìn)行加密，即R( Cov(X,Y))，并將加密后的[[R( Cov(X,Y))]]發(fā)送給C。

● C接收到B的密文[[R(Cov(X,Y))]]后，進(jìn)行乘法同態(tài)解密，得到R(Cov(X,Y))，計(jì)算并將結(jié)果發(fā)送給B。

● B收到R(Corr(X,Y))后，使用隨機(jī)掩碼R解密得到Corr(X,Y)。

本文利用聯(lián)邦Corr值計(jì)算Corr評(píng)分SCorr，計(jì)算式如下：

其中，p是X的特征數(shù)，Corri表示第i個(gè)特征與Y的Corr值。

基于上述指標(biāo)評(píng)分，計(jì)算聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)分：聯(lián)邦數(shù)據(jù)評(píng)分=樣本評(píng)分+IV評(píng)分+Corr評(píng)分，即：

根據(jù)聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)分，判斷參與方數(shù)據(jù)對(duì)于總體數(shù)據(jù)質(zhì)量是否有增益作用。各參與方可事先約定聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)分閾值（既可設(shè)定單一評(píng)分閾值，也可以是總分閾值），若參與方的聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)分超過(guò)該閾值，則說(shuō)明參與方數(shù)據(jù)能提升總體數(shù)據(jù)質(zhì)量；反之，參與方數(shù)據(jù)可能降低總體數(shù)據(jù)質(zhì)量，需進(jìn)一步排查原因。

2.2 隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量?jī)?yōu)化技術(shù)實(shí)現(xiàn)

2.2.1 本地?cái)?shù)據(jù)質(zhì)量?jī)?yōu)化

本地?cái)?shù)據(jù)質(zhì)量?jī)?yōu)化主要基于本地?cái)?shù)據(jù)質(zhì)量評(píng)估結(jié)果，從完整性、規(guī)范性、一致性、準(zhǔn)確性、唯一性等維度，對(duì)各參與方的數(shù)據(jù)進(jìn)行本地優(yōu)化[37]。關(guān)鍵技術(shù)包括重復(fù)樣本去重[38]、缺失值填充[39]、異常值清除[40]、數(shù)據(jù)標(biāo)準(zhǔn)化和歸一化[41]等。

2.2.2 聯(lián)邦數(shù)據(jù)質(zhì)量?jī)?yōu)化

針對(duì)本地?cái)?shù)據(jù)質(zhì)量評(píng)分較低的情況，除本地?cái)?shù)據(jù)質(zhì)量?jī)?yōu)化外，還可以進(jìn)行聯(lián)邦數(shù)據(jù)質(zhì)量?jī)?yōu)化。具體如下。

● 聯(lián)邦缺失值填充：針對(duì)本地?cái)?shù)據(jù)質(zhì)量評(píng)估結(jié)果中缺失值評(píng)分較低的情況，除本地缺失值填充外，還可以進(jìn)行聯(lián)邦缺失值填充，具體做法是對(duì)所有參與方的數(shù)據(jù)進(jìn)行聯(lián)調(diào)統(tǒng)計(jì)分析，計(jì)算全局均值，然后采用全局均值對(duì)缺失值進(jìn)行填充。

● 聯(lián)邦異常值處理：針對(duì)本地?cái)?shù)據(jù)質(zhì)量評(píng)估結(jié)果中異常值評(píng)分較低的情況，除本地異常值清除外，還可以進(jìn)行聯(lián)邦異常值處理，具體做法是對(duì)所有參與方的數(shù)據(jù)進(jìn)行聯(lián)調(diào)統(tǒng)計(jì)分析，計(jì)算每個(gè)特征的全局IQR值，將全局IQR值的上下限作為異常值的判斷標(biāo)準(zhǔn)，并使用全局均值對(duì)異常值進(jìn)行填充。

● 聯(lián)邦標(biāo)準(zhǔn)化：針對(duì)數(shù)據(jù)質(zhì)量評(píng)估結(jié)果中單一值評(píng)分較低的情況，除本地?cái)?shù)據(jù)標(biāo)準(zhǔn)化處理外，還可以進(jìn)行聯(lián)邦標(biāo)準(zhǔn)化處理。標(biāo)準(zhǔn)化是指計(jì)算目標(biāo)列的均值μ和標(biāo)準(zhǔn)差σ，并對(duì)該列每個(gè)元素x進(jìn)行(x-μ)/σ變換。標(biāo)準(zhǔn)化的作用是使處理后的數(shù)據(jù)服從標(biāo)準(zhǔn)正態(tài)分布。與本地?cái)?shù)據(jù)標(biāo)準(zhǔn)化相比，聯(lián)邦標(biāo)準(zhǔn)化的不同之處在于利用所有參與方的全局?jǐn)?shù)據(jù)計(jì)算均值μ和標(biāo)準(zhǔn)差σ，而不僅僅是各參與方的本地?cái)?shù)據(jù)。

針對(duì)聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)分較低的情況，可以采取聯(lián)邦去重、聯(lián)邦特征篩選、聯(lián)邦字符串索引進(jìn)行優(yōu)化。具體如下。

● 聯(lián)邦去重：在聯(lián)邦數(shù)據(jù)之間去除重復(fù)樣本或無(wú)關(guān)特征。在橫向聯(lián)邦學(xué)習(xí)中，各參與方的數(shù)據(jù)特征要保持一致，同時(shí)要求數(shù)據(jù)樣本要保持唯一性。在縱向聯(lián)邦學(xué)習(xí)中，所有參與方需要找到具有共同ID的樣本，樣本ID不重合的數(shù)據(jù)不會(huì)參與到聯(lián)邦建模中。因此，各參與方除了要在本地去除重復(fù)樣本，還需要對(duì)聯(lián)邦數(shù)據(jù)進(jìn)行去重處理。隱私集合求交技術(shù)在保護(hù)數(shù)據(jù)隱私安全的前提下，完成多方數(shù)據(jù)的交集運(yùn)算，實(shí)現(xiàn)橫向聯(lián)邦數(shù)據(jù)特征對(duì)齊和縱向聯(lián)邦樣本對(duì)齊，在實(shí)現(xiàn)特征或樣本對(duì)齊的基礎(chǔ)上，去除多余數(shù)據(jù)，直到聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估中的樣本評(píng)分達(dá)到要求。

● 聯(lián)邦特征篩選：特征篩選是為了從原始特征中找出最有效的特征，幫助減少特征的維度、降低數(shù)據(jù)冗余度，從而提升模型的性能。聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估中的IV評(píng)分和Corr評(píng)分可分別用于衡量特征變量預(yù)測(cè)能力以及特征變量與預(yù)測(cè)變量之間的相關(guān)程度。因此，當(dāng)聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估結(jié)果中的IV評(píng)分或Corr評(píng)分較低時(shí)，可以基于聯(lián)邦I(lǐng)V和聯(lián)邦Corr值進(jìn)行特征篩選，這有助于聯(lián)邦任務(wù)發(fā)起方確保參與聯(lián)合建模的特征維度能夠有效提升模型效果。具體做法是計(jì)算每一列特征的聯(lián)邦I(lǐng)V和聯(lián)邦Corr值，篩選出IV或Corr值較高的特征作為聯(lián)邦特征，繼續(xù)參與聯(lián)邦建模。

● 聯(lián)邦字符串索引：字符串索引的作用是將k個(gè)不同的字符串映射到區(qū)間[0,k-1]的k個(gè)整數(shù)上，從而完成從字符串到數(shù)字的轉(zhuǎn)變。聯(lián)邦字符串索引在聯(lián)邦學(xué)習(xí)場(chǎng)景下找到目標(biāo)列出現(xiàn)的所有取值，并進(jìn)行從字符串到數(shù)字的映射。

完成本地和聯(lián)邦數(shù)據(jù)質(zhì)量?jī)?yōu)化后，再重新評(píng)估參與方的數(shù)據(jù)質(zhì)量評(píng)分，只有參與方的數(shù)據(jù)質(zhì)量評(píng)分達(dá)到或超過(guò)規(guī)定閾值，才允許該參與方的數(shù)據(jù)參與到聯(lián)邦建模中。例如，若某參與方本地?cái)?shù)據(jù)質(zhì)量評(píng)估中的重復(fù)值評(píng)分低于規(guī)定閾值，則可以要求該參與方進(jìn)行樣本去重，直到重復(fù)值評(píng)分超過(guò)規(guī)定閾值。

2.3 隱私計(jì)算場(chǎng)景下的數(shù)據(jù)貢獻(xiàn)度評(píng)估技術(shù)實(shí)現(xiàn)

本文從建模的視角出發(fā)，通過(guò)計(jì)算參與方提供的數(shù)據(jù)對(duì)模型性能的貢獻(xiàn)來(lái)決定收益分配。因此，本文從數(shù)據(jù)集貢獻(xiàn)度、樣本貢獻(xiàn)度、特征貢獻(xiàn)度等維度來(lái)量化參與方總體的數(shù)據(jù)貢獻(xiàn)度。

● 數(shù)據(jù)集貢獻(xiàn)度CData。數(shù)據(jù)集貢獻(xiàn)度是指從數(shù)據(jù)量、數(shù)據(jù)質(zhì)量?jī)蓚€(gè)維度評(píng)估參與方在訓(xùn)練樣本集方面的貢獻(xiàn)。數(shù)據(jù)集貢獻(xiàn)度有助于更好地激勵(lì)參與方貢獻(xiàn)更多高質(zhì)量數(shù)據(jù)。具體做法是使用加權(quán)法計(jì)算數(shù)據(jù)集貢獻(xiàn)度，計(jì)算式如下：

其中，jψ表示第j個(gè)參與方的數(shù)據(jù)集貢獻(xiàn)度，m表示參與方數(shù)量，Tj表示第j個(gè)參與方貢獻(xiàn)的數(shù)據(jù)量，mT表示所有參與方貢獻(xiàn)的數(shù)據(jù)總量，jφ表示第j個(gè)參與方的數(shù)據(jù)質(zhì)量評(píng)分，mφ表示所有參與方的數(shù)據(jù)質(zhì)量總分之和，1β和 2β分別為數(shù)據(jù)量和數(shù)據(jù)質(zhì)量評(píng)分的權(quán)重。

● 樣本貢獻(xiàn)度CSample。樣本貢獻(xiàn)度將各參與方訓(xùn)練數(shù)據(jù)對(duì)模型效果的提升程度作為聯(lián)邦建模貢獻(xiàn)的評(píng)價(jià)標(biāo)準(zhǔn)，基本做法是將參與方訓(xùn)練數(shù)據(jù)中的實(shí)例樣本刪除后重新訓(xùn)練模型，并計(jì)算新模型的預(yù)測(cè)效果，可使用缺失法[23]計(jì)算各參與方數(shù)據(jù) 樣本對(duì)模型效果的提升程度。具體實(shí)現(xiàn)如下。

假設(shè)第i個(gè)實(shí)例對(duì)模型預(yù)測(cè)結(jié)果的影響表示[23]為：

其中，n表示樣本量大小，表示第j個(gè)實(shí)

也可以使用近似法估計(jì)每個(gè)參與方對(duì)建模效果提升的影響，具體做法是先從所有參與方中去除任意一個(gè)參與方，然后評(píng)估重新訓(xùn)練的模型預(yù)測(cè)效果，最后將其與之前所有參與方數(shù)據(jù)參與訓(xùn)練的模型預(yù)測(cè)效果進(jìn)行對(duì)比。

● 特征貢獻(xiàn)度CFeature。特征貢獻(xiàn)度通過(guò)分析樣本中每個(gè)數(shù)據(jù)特征與模型預(yù)測(cè)結(jié)果之間的關(guān)系來(lái)量化數(shù)據(jù)特征對(duì)模型預(yù)測(cè)結(jié)果的貢獻(xiàn)度，可用Shapley值方法等[42-43]量化各參與方數(shù)據(jù)對(duì)模型預(yù)測(cè)結(jié)果的貢獻(xiàn)度。對(duì)于具體實(shí)例的特征變量xj，其Shapley值是該特征在所有可能的特征組合上對(duì)模型預(yù)測(cè)結(jié)果貢獻(xiàn)度的加權(quán)和，計(jì)算式[44]如下：

其中，φ表示參與方總特征貢獻(xiàn)度，m表示參與方的特征維度，n表示參與方的數(shù)據(jù)樣本總數(shù)，表示參與方第i個(gè)樣本中第j個(gè)特征的Shapley值。參與方的特征越多，其特征貢獻(xiàn)度越大。

基于上述3個(gè)貢獻(xiàn)度可以得到參與方的數(shù)據(jù)貢獻(xiàn)度C，計(jì)算式為：

其中，α1、α2、α3為權(quán)重系數(shù)。

對(duì)于聯(lián)邦而言，參與方持續(xù)地參與聯(lián)邦學(xué)習(xí)進(jìn)程是其成功的關(guān)鍵所在。參與方加入聯(lián)邦，構(gòu)建一個(gè)機(jī)器學(xué)習(xí)模型，訓(xùn)練出的模型可以產(chǎn)生收益，參與方可以共享收益，以此為激勵(lì)。根據(jù)本文提供的貢獻(xiàn)度評(píng)估標(biāo)準(zhǔn)，可有效計(jì)算出各參與方數(shù)據(jù)對(duì)聯(lián)邦模型的貢獻(xiàn)度，可按照數(shù)據(jù)貢獻(xiàn)度比例進(jìn)行收益分配。

2.4 小結(jié)

第2節(jié)圍繞數(shù)據(jù)質(zhì)量評(píng)估、數(shù)據(jù)質(zhì)量?jī)?yōu)化、數(shù)據(jù)貢獻(xiàn)度評(píng)估3個(gè)方面描述了隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量治理技術(shù)實(shí)現(xiàn)。其中，數(shù)據(jù)質(zhì)量評(píng)估從本地域和聯(lián)邦域兩個(gè)層面考慮，建立了本地與聯(lián)邦兩個(gè)層級(jí)的數(shù)據(jù)質(zhì)量評(píng)估體系，使用多個(gè)維度的綜合評(píng)分度量數(shù)據(jù)質(zhì)量。同時(shí)，依據(jù)數(shù)據(jù)質(zhì)量評(píng)估結(jié)果，分別對(duì)數(shù)據(jù)質(zhì)量進(jìn)行本地優(yōu)化和聯(lián)邦優(yōu)化，在數(shù)據(jù)不出本地、保障數(shù)據(jù)安全的前提下，聯(lián)合各方數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗及特征工程，全面提升參與方的數(shù)據(jù)質(zhì)量。為了鼓勵(lì)更多的數(shù)據(jù)方積極參與到聯(lián)邦學(xué)習(xí)中，又從建模的視角出發(fā)，通過(guò)量化數(shù)據(jù)集貢獻(xiàn)度、樣本貢獻(xiàn)度、特征貢獻(xiàn)度，評(píng)估各參與方數(shù)據(jù)對(duì)整個(gè)聯(lián)邦模型的貢獻(xiàn)度，從而制訂一種公平公正的聯(lián)邦收益分配機(jī)制。

3 應(yīng)用案例

某電力公司系統(tǒng)經(jīng)過(guò)多年的信息化建設(shè)和完善，積累了大量數(shù)據(jù)資產(chǎn)，為了提質(zhì)增效，公司決定挖掘電力數(shù)據(jù)的潛在商業(yè)價(jià)值。該公司聯(lián)合水務(wù)部門采用聯(lián)邦學(xué)習(xí)的方式，基于用電數(shù)據(jù)和用水?dāng)?shù)據(jù)進(jìn)行群租房識(shí)別，但實(shí)際效果并不理想。通過(guò)對(duì)電力公司數(shù)據(jù)和水務(wù)部門數(shù)據(jù)的深度調(diào)研分析發(fā)現(xiàn)，參與聯(lián)邦學(xué)習(xí)的參與方中，每個(gè)參與方存在數(shù)據(jù)粒度不同、樣本標(biāo)準(zhǔn)不統(tǒng)一以及異常值、缺失值數(shù)據(jù)較多等問(wèn)題，導(dǎo)致各參與方的數(shù)據(jù)質(zhì)量參差不齊，嚴(yán)重影響聯(lián)邦建模的性能。因此，如何對(duì)各參與方進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估，提升參與聯(lián)邦學(xué)習(xí)建模的數(shù)據(jù)質(zhì)量，避免因數(shù)據(jù)質(zhì)量問(wèn)題降低模型性能，成為亟待解決的問(wèn)題。

本應(yīng)用案例基于星環(huán)科技聯(lián)邦學(xué)習(xí)平臺(tái)Transwarp Sophon FL對(duì)群租房識(shí)別模型進(jìn)行聯(lián)合訓(xùn)練，Transwarp Sophon FL框架如圖5所示。

圖5 Transwarp Sophon FL框架

Transwarp Sopho n FL采用分布式的數(shù)據(jù)計(jì)算與存儲(chǔ)管理，集成同態(tài)加密、差分隱私、秘密分享、不經(jīng)意傳輸、DH（Diffie-Hellman）算法等多種加密算法，保護(hù)數(shù)據(jù)隱私安全，使用聯(lián)邦學(xué)習(xí)、多方安全計(jì)算、隱私計(jì)算、加密網(wǎng)絡(luò)通信等多種功能，為多方安全建模提供完整的解決方案。同時(shí)，該平臺(tái)還提供了一整套數(shù)據(jù)質(zhì)量治理方法，方便用戶在聯(lián)邦框架下進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估、數(shù)據(jù)質(zhì)量?jī)?yōu)化、貢獻(xiàn)度評(píng)估等工作，為AI模型的訓(xùn)練提供大量?jī)?yōu)質(zhì)數(shù)據(jù)，大大提升聯(lián)邦模型的性能。

在聯(lián)邦建模過(guò)程中，電網(wǎng)公司為主動(dòng)方，水務(wù)部門為參與方，采用縱向聯(lián)邦學(xué)習(xí)模式，融合用電數(shù)據(jù)和用水?dāng)?shù)據(jù)，聯(lián)合構(gòu)建群租房識(shí)別模型，部署方式如圖6所示。

圖6 群租房識(shí)別應(yīng)用部署方式

為了提高聯(lián)邦學(xué)習(xí)模型的性能，本應(yīng)用案例從數(shù)據(jù)質(zhì)量評(píng)估、數(shù)據(jù)質(zhì)量?jī)?yōu)化、數(shù)據(jù)貢獻(xiàn)度評(píng)估3個(gè)方面對(duì)用電數(shù)據(jù)和用水?dāng)?shù)據(jù)進(jìn)行數(shù)據(jù)質(zhì)量治理。其中，在數(shù)據(jù)質(zhì)量的綜合評(píng)分中，本地?cái)?shù)據(jù)質(zhì)量評(píng)分的權(quán)重系數(shù)為0.4，聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)分的權(quán)重系數(shù)為0.6。在數(shù)據(jù)貢獻(xiàn)度評(píng)分中，數(shù)據(jù)集貢獻(xiàn)度、樣本貢獻(xiàn)度、特征貢獻(xiàn)度的權(quán)重系數(shù)均設(shè)置為1/3。本應(yīng)用案例先分別計(jì)算電力公司和水務(wù)部門的本地?cái)?shù)據(jù)質(zhì)量評(píng)分和聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)分，然后依據(jù)各參與方的本地和聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估結(jié)果，分別對(duì)用電數(shù)據(jù)和用水?dāng)?shù)據(jù)進(jìn)行數(shù)據(jù)清洗以及聯(lián)邦特征工程等數(shù)據(jù)質(zhì)量?jī)?yōu)化工作，并使用優(yōu)化后的數(shù)據(jù)進(jìn)行聯(lián)合建模，最后評(píng)估訓(xùn)練數(shù)據(jù)的貢獻(xiàn)度，并分配收益。其中，群租房識(shí)別模型的數(shù)據(jù)質(zhì)量治理流程如圖7所示。

圖7 群租房識(shí)別模型數(shù)據(jù)質(zhì)量治理流程

在模型訓(xùn)練完畢后，雙方協(xié)同使用用電數(shù)據(jù)和用水?dāng)?shù)據(jù)進(jìn)行聯(lián)合測(cè)試，生成群租房預(yù)測(cè)名單，測(cè)試流程如圖8所示。

圖8 群租房識(shí)別模型測(cè)試流程

通過(guò)對(duì)比數(shù)據(jù)質(zhì)量治理前后的群租房識(shí)別模型效果，驗(yàn)證了Transwarp Sophon FL數(shù)據(jù)質(zhì)量治理框架在隱私計(jì)算場(chǎng)景下的優(yōu)勢(shì)。進(jìn)行數(shù)據(jù)質(zhì)量治理前，群租房識(shí)別模型的模型評(píng)估指標(biāo)AUC[45]是0.7349，如圖9所示；進(jìn)行數(shù)據(jù)質(zhì)量治理后，群租房識(shí)別模型的AUC是0.8188，如圖10所示。進(jìn)行數(shù)據(jù)質(zhì)量治理后，群租房識(shí)別模型的AUC較之前提升了11.4%，為政府有效排查群租房，消除群租房造成的消防安全隱患，打造和諧、安全、美麗的生活環(huán)境做出了突出貢獻(xiàn)。同時(shí)，在聯(lián)合建模過(guò)程中，全程明文數(shù)據(jù)不出本地?cái)?shù)據(jù)庫(kù)，有效保護(hù)了居民用水用電的數(shù)據(jù)隱私。

圖9 數(shù)據(jù)質(zhì)量治理前群租房識(shí)別模型AUC

圖10 數(shù)據(jù)質(zhì)量治理后群租房識(shí)別模型AUC

4 結(jié)束語(yǔ)

本文對(duì)隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量治理工作進(jìn)行了研究和探索，圍繞數(shù)據(jù)質(zhì)量評(píng)估、數(shù)據(jù)質(zhì)量?jī)?yōu)化、數(shù)據(jù)貢獻(xiàn)度3個(gè)維度構(gòu)建了一種隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量治理框架，通過(guò)實(shí)踐證明其在保護(hù)數(shù)據(jù)隱私的前提下，可實(shí)現(xiàn)隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量評(píng)估和優(yōu)化，全方位提升了參與方的數(shù)據(jù)質(zhì)量，提高了計(jì)算結(jié)果的精度。本文提出的隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量治理框架可被廣泛應(yīng)用到金融風(fēng)控、聯(lián)合醫(yī)療、保險(xiǎn)智能定價(jià)、工業(yè)聯(lián)合運(yùn)維、供應(yīng)鏈管理等場(chǎng)景中，具有廣闊的應(yīng)用前景。當(dāng)然本文的研究尚有不足之處，比如本文考慮的隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量治理涉及大量的密文計(jì)算，計(jì)算效率還有待進(jìn)一步提升；如何從數(shù)據(jù)治理視角防御多方隱私計(jì)算模式中的數(shù)據(jù)毒化[46]，尚缺乏完善的解決方案。這些問(wèn)題也是下一階段的重點(diǎn)工作。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡