国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

隱私計(jì)算場(chǎng)景下數(shù)據(jù)質(zhì)量治理探索與實(shí)踐

2022-09-18 03:54張燕楊一帆伊人羅圣美唐劍飛夏正勛
大數(shù)據(jù) 2022年5期
關(guān)鍵詞:參與方貢獻(xiàn)度聯(lián)邦

張燕,楊一帆,伊人,羅圣美,唐劍飛,夏正勛

星環(huán)信息科技(上海)股份有限公司,上海 200233

0 引言

隨著全球數(shù)字經(jīng)濟(jì)的蓬勃發(fā)展,數(shù)據(jù)作為生產(chǎn)要素的重要性日益凸顯,其已滲透到人類生活的方方面面。近年來(lái),政府及企業(yè)不斷加強(qiáng)對(duì)數(shù)據(jù)安全、數(shù)據(jù)資產(chǎn)、數(shù)據(jù)隱私的保護(hù)[1],使得數(shù)據(jù)主體之間、主體內(nèi)部的“數(shù)據(jù)孤島”現(xiàn)象日益突出,影響了數(shù)據(jù)價(jià)值的變現(xiàn)。隱私計(jì)算作為一種新型數(shù)據(jù)處理技術(shù),能夠在保護(hù)數(shù)據(jù)隱私的前提下,為跨域數(shù)據(jù)處理提供安全可靠的計(jì)算環(huán)境,實(shí)現(xiàn)多方協(xié)同數(shù)據(jù)處理,改變數(shù)據(jù)流通及使用的模式。隱私計(jì)算增強(qiáng)了數(shù)據(jù)流通過(guò)程中對(duì)個(gè)人隱私和數(shù)據(jù)安全的保護(hù),其技術(shù)實(shí)現(xiàn)不僅涉及數(shù)據(jù)處理算法、處理流程的改變,還涉及數(shù)據(jù)預(yù)處理、特征工程、數(shù)據(jù)貢獻(xiàn)度等細(xì)分領(lǐng)域的改造,當(dāng)前業(yè)界對(duì)隱私計(jì)算算法、流程的討論較多[2-5],對(duì)數(shù)據(jù)質(zhì)量治理、數(shù)據(jù)貢獻(xiàn)度等方面的研究較少。

隱私計(jì)算對(duì)參與計(jì)算的數(shù)據(jù)質(zhì)量有更高的要求。首先,隱私計(jì)算是一種多方協(xié)同計(jì)算,任何一方的數(shù)據(jù)質(zhì)量出現(xiàn)問(wèn)題,都很容易成為隱私計(jì)算的“短板”,“木桶效應(yīng)”顯著;其次,隱私計(jì)算通過(guò)加密中間數(shù)據(jù)實(shí)現(xiàn)數(shù)據(jù)流通,加密以及中間數(shù)據(jù)的信息傳遞方式在一定程度上減少了有效信息量,因此對(duì)數(shù)據(jù)質(zhì)量提出了更高的要求。此外,隱私計(jì)算通常是跨部門、跨組織的協(xié)作計(jì)算,且相互之間不能見(jiàn)到對(duì)方的數(shù)據(jù),這提高了隱私計(jì)算前期工作溝通及協(xié)調(diào)的復(fù)雜性,特別是數(shù)據(jù)預(yù)處理工作。因此,有必要對(duì)隱私計(jì)算場(chǎng)景下數(shù)據(jù)質(zhì)量治理的相關(guān)工作展開(kāi)研究,在“數(shù)據(jù)可用不可見(jiàn)”的情況下,實(shí)現(xiàn)多方數(shù)據(jù)的數(shù)據(jù)質(zhì)量評(píng)估和優(yōu)化。針對(duì)上述問(wèn)題,本文研究了隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量評(píng)估及優(yōu)化方法,并提出從數(shù)據(jù)質(zhì)量評(píng)估、數(shù)據(jù)質(zhì)量?jī)?yōu)化、數(shù)據(jù)貢獻(xiàn)度評(píng)估3個(gè)方面構(gòu)建隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量治理框架。該框架兼顧本地域及聯(lián)邦域的數(shù)據(jù)質(zhì)量治理工作,從而提升隱私計(jì)算的數(shù)據(jù)質(zhì)量。在此基礎(chǔ)上,本文還提出一種數(shù)據(jù)貢獻(xiàn)度衡量方法,對(duì)隱私計(jì)算的長(zhǎng)效激勵(lì)機(jī)制進(jìn)行探索。

1 隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量治理背景

隨著數(shù)據(jù)規(guī)模、計(jì)算模式的變化,不同時(shí)期的數(shù)據(jù)質(zhì)量治理工作有不同的內(nèi)涵[6-10]。在數(shù)據(jù)倉(cāng)庫(kù)時(shí)代,數(shù)據(jù)大多為結(jié)構(gòu)化數(shù)據(jù),規(guī)模小且存儲(chǔ)在單機(jī)系統(tǒng)中,此時(shí)數(shù)據(jù)質(zhì)量治理主要是指數(shù)據(jù)質(zhì)量評(píng)估和優(yōu)化[11],通常采用定量[12]或不定量[13]的方法評(píng)估數(shù)據(jù)質(zhì)量,從數(shù)據(jù)源、數(shù)據(jù)預(yù)處理和元數(shù)據(jù)管理等方面優(yōu)化數(shù)據(jù)質(zhì)量[14]。數(shù)據(jù)倉(cāng)庫(kù)時(shí)代下的數(shù)據(jù)質(zhì)量治理主要圍繞數(shù)據(jù)的一致性、完整性、準(zhǔn)確性和及時(shí)性開(kāi)展,很少?gòu)臄?shù)據(jù)相關(guān)性、數(shù)據(jù)價(jià)值等維度評(píng)估數(shù)據(jù)質(zhì)量[15]。隨著大數(shù)據(jù)技術(shù)的出現(xiàn),數(shù)據(jù)規(guī)模成倍增加,數(shù)據(jù)質(zhì)量治理面臨多源、異構(gòu)、海量、高時(shí)效的挑戰(zhàn)[16],數(shù)據(jù)質(zhì)量治理的內(nèi)容也因此擴(kuò)展到數(shù)據(jù)標(biāo)準(zhǔn)定義、數(shù)據(jù)整合與清洗、數(shù)據(jù)質(zhì)量評(píng)估、數(shù)據(jù)質(zhì)量監(jiān)控等數(shù)據(jù)質(zhì)量管理全過(guò)程[17],通過(guò)制訂數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn),定義數(shù)據(jù)質(zhì)量規(guī)則庫(kù),構(gòu)建數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)體系,制訂數(shù)據(jù)質(zhì)量管理策略,實(shí)現(xiàn)全流程的數(shù)據(jù)質(zhì)量治理[18]。但是,這種大數(shù)據(jù)質(zhì)量治理的處理方式需要將多個(gè)組織的數(shù)據(jù)進(jìn)行集中存儲(chǔ)、集中處理,不可避免地存在數(shù)據(jù)安全及隱私泄露的風(fēng)險(xiǎn),也給數(shù)據(jù)管理引入了合規(guī)風(fēng)險(xiǎn)[19]。隨著國(guó)家、個(gè)人對(duì)數(shù)據(jù)安全和隱私保護(hù)的重視,隱私計(jì)算的應(yīng)用越來(lái)越廣泛。隱私計(jì)算是一種跨密碼學(xué)、數(shù)據(jù)科學(xué)、人工智能等多學(xué)科的技術(shù)[1],多方協(xié)作進(jìn)行聯(lián)合計(jì)算和聯(lián)合建模。隱私計(jì)算從機(jī)制上實(shí)現(xiàn)了原始數(shù)據(jù)不出庫(kù),從根源上降低了隱私泄露的風(fēng)險(xiǎn)[1],但也提高了數(shù)據(jù)質(zhì)量治理的技術(shù)復(fù)雜性和實(shí)施難度。在隱私計(jì)算場(chǎng)景中,聯(lián)邦特征工程是傳統(tǒng)特征工程算法在隱私計(jì)算環(huán)境下的重構(gòu),常用于對(duì)參與方的數(shù)據(jù)進(jìn)行優(yōu)化[20]。

數(shù)據(jù)貢獻(xiàn)度常用來(lái)衡量數(shù)據(jù)參與方提供的數(shù)據(jù)價(jià)值,是數(shù)據(jù)質(zhì)量治理中必不可少的一部分。傳統(tǒng)的數(shù)據(jù)貢獻(xiàn)度評(píng)估方法通常只使用數(shù)據(jù)量維度作為數(shù)據(jù)貢獻(xiàn)度指標(biāo),忽略了數(shù)據(jù)質(zhì)量的影響。在隱私計(jì)算場(chǎng)景中,為了讓數(shù)據(jù)所有者持續(xù)提供數(shù)據(jù),公平有效地評(píng)估每個(gè)參與方的數(shù)據(jù)貢獻(xiàn)度至關(guān)重要。合理的貢獻(xiàn)評(píng)價(jià)指標(biāo)可以使激勵(lì)機(jī)制公平分配聯(lián)邦收益,激勵(lì)數(shù)據(jù)所有者提供更有價(jià)值的數(shù)據(jù)[21]。當(dāng)前,有專家研究本地?cái)?shù)據(jù)質(zhì)量與多方計(jì)算結(jié)果之間的影響關(guān)系,通過(guò)層次化影響分析,檢測(cè)出本地?cái)?shù)據(jù)中的負(fù)影響數(shù)據(jù)[22]或評(píng)估各參與方數(shù)據(jù)對(duì)多方計(jì)算結(jié)果的正向貢獻(xiàn)[23]。也有專家將數(shù)據(jù)信息熵用于衡量數(shù)據(jù)集中包含的信息量[24],以此作為數(shù)據(jù)參與方的數(shù)據(jù)貢獻(xiàn)度,或從模型訓(xùn)練效果和訓(xùn)練成本角度確定數(shù)據(jù)參與方的數(shù)據(jù)貢獻(xiàn)度[25]。

目前,針對(duì)隱私計(jì)算場(chǎng)景下數(shù)據(jù)質(zhì)量治理的研究比較零散,不同于傳統(tǒng)的數(shù)據(jù)質(zhì)量治理方法,本文充分考慮了隱私計(jì)算場(chǎng)景下數(shù)據(jù)治理面臨的諸多問(wèn)題和挑戰(zhàn),例如如何在數(shù)據(jù)不可見(jiàn)的情況下實(shí)現(xiàn)聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估?如何在保護(hù)隱私的前提下,根據(jù)數(shù)據(jù)質(zhì)量評(píng)估完成數(shù)據(jù)質(zhì)量?jī)?yōu)化?完成數(shù)據(jù)質(zhì)量治理之后,如何評(píng)估隱私計(jì)算過(guò)程中各參與方的數(shù)據(jù)貢獻(xiàn)度,進(jìn)而建立一種有效的激勵(lì)機(jī)制?在傳統(tǒng)方法的基礎(chǔ)上,結(jié)合隱私計(jì)算“本地計(jì)算、聯(lián)邦協(xié)同”的計(jì)算特點(diǎn),本文提出從本地域和聯(lián)邦域兩個(gè)維度研究隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量治理問(wèn)題,涵蓋數(shù)據(jù)質(zhì)量評(píng)估、數(shù)據(jù)質(zhì)量?jī)?yōu)化、貢獻(xiàn)度激勵(lì)全流程。本文構(gòu)建了本地與多方兩個(gè)層級(jí)的數(shù)據(jù)質(zhì)量評(píng)估體系,使用多個(gè)維度的綜合評(píng)分度量數(shù)據(jù)質(zhì)量,并依據(jù)本地?cái)?shù)據(jù)質(zhì)量評(píng)估結(jié)果和聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估結(jié)果,分別對(duì)數(shù)據(jù)質(zhì)量進(jìn)行本地優(yōu)化和聯(lián)邦優(yōu)化,在數(shù)據(jù)不出本地、保障數(shù)據(jù)安全的前提下,實(shí)現(xiàn)隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量評(píng)估和優(yōu)化。同時(shí),本文從建模的視角出發(fā),通過(guò)數(shù)據(jù)集貢獻(xiàn)度、樣本貢獻(xiàn)度、特征貢獻(xiàn)度等多個(gè)層次來(lái)量化參與方的總體數(shù)據(jù)貢獻(xiàn)度。

2 隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量治理技術(shù)實(shí)現(xiàn)

隱私計(jì)算的主流技術(shù)[26-27]包括聯(lián)邦學(xué)習(xí)(federated learning,F(xiàn)L)、多方安全計(jì)算(secure multi-party computation,M P C)[28]、可信執(zhí)行環(huán)境(t r u s t e d execution environment,TEE)[29]3種,其中聯(lián)邦學(xué)習(xí)被視為下一代人工智能協(xié)同算法和協(xié)作網(wǎng)絡(luò)的基礎(chǔ)[30],是當(dāng)下研究和應(yīng)用的熱點(diǎn)。因此,本文選擇聯(lián)邦學(xué)習(xí)作為重點(diǎn)場(chǎng)景來(lái)描述隱私計(jì)算場(chǎng)景下數(shù)據(jù)質(zhì)量治理技術(shù)的具體實(shí)現(xiàn),從數(shù)據(jù)質(zhì)量評(píng)估、數(shù)據(jù)質(zhì)量?jī)?yōu)化、數(shù)據(jù)貢獻(xiàn)度評(píng)估3個(gè)方面構(gòu)建隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量治理框架,如圖1所示。

圖1 隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量治理框架

隱私計(jì)算場(chǎng)景下,數(shù)據(jù)質(zhì)量治理需要綜合考慮本地計(jì)算及聯(lián)邦計(jì)算兩種計(jì)算過(guò)程對(duì)數(shù)據(jù)質(zhì)量的要求。本文分別從本地域和聯(lián)邦域兩個(gè)維度對(duì)各參與方數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估,前者為本地?cái)?shù)據(jù)質(zhì)量評(píng)估,后者為聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估?;诒镜?cái)?shù)據(jù)質(zhì)量評(píng)估結(jié)果可對(duì)參與方數(shù)據(jù)進(jìn)行初步篩選,基于聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估結(jié)果可預(yù)判多方數(shù)據(jù)對(duì)聯(lián)邦計(jì)算結(jié)果的增益。依據(jù)數(shù)據(jù)質(zhì)量評(píng)估結(jié)果,指導(dǎo)各參與方進(jìn)行本地和聯(lián)邦數(shù)據(jù)質(zhì)量?jī)?yōu)化工作,進(jìn)一步提升數(shù)據(jù)質(zhì)量。此外,為了鼓勵(lì)更多的數(shù)據(jù)方積極參與到隱私計(jì)算中,非常有必要設(shè)計(jì)一套科學(xué)合理的貢獻(xiàn)度衡量標(biāo)準(zhǔn),衡量各參與方數(shù)據(jù)的貢獻(xiàn)度,從而進(jìn)行公平公正的聯(lián)邦收益分配。

上述方法經(jīng)過(guò)少量調(diào)整可適用于多方安全計(jì)算和可信執(zhí)行環(huán)境場(chǎng)景下的數(shù)據(jù)質(zhì)量治理。與聯(lián)邦學(xué)習(xí)相比,它們的區(qū)別在于采用的密碼學(xué)算法不同。多方安全計(jì)算場(chǎng)景下的聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估和優(yōu)化一般采用不經(jīng)意傳輸和秘密共享這兩種經(jīng)典的多方安全計(jì)算技術(shù)和方案,可信執(zhí)行場(chǎng)景下的聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估和優(yōu)化、貢獻(xiàn)度評(píng)估主要依賴硬件算法實(shí)現(xiàn)。

2.1 隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量評(píng)估技術(shù)實(shí)現(xiàn)

聯(lián)邦學(xué)習(xí)數(shù)據(jù)質(zhì)量評(píng)估體系包括本地?cái)?shù)據(jù)質(zhì)量評(píng)估和聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估兩個(gè)層級(jí),質(zhì)量評(píng)估的具體流程如圖2所示。

如圖2所示,聯(lián)邦學(xué)習(xí)的參與方A和B先分別進(jìn)行本地?cái)?shù)據(jù)質(zhì)量評(píng)估,再進(jìn)行聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估。在本地?cái)?shù)據(jù)質(zhì)量評(píng)估層級(jí),參與方A和B綜合重復(fù)值評(píng)分、缺失值評(píng)分、異常值評(píng)分和單一值評(píng)分后,得到各自的本地?cái)?shù)據(jù)質(zhì)量評(píng)分。系統(tǒng)可以根據(jù)上報(bào)的本地?cái)?shù)據(jù)質(zhì)量評(píng)分,判斷各參與方是否達(dá)到參與聯(lián)邦學(xué)習(xí)的標(biāo)準(zhǔn)。在聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估層級(jí),滿足參加條件的參與方先進(jìn)行樣本對(duì)齊,再?gòu)臄?shù)據(jù)重合度、信息量和線性相關(guān)性等維度考慮多方數(shù)據(jù)之間的相互影響,評(píng)估聯(lián)邦數(shù)據(jù)質(zhì)量。最終將參與方的本地?cái)?shù)據(jù)質(zhì)量評(píng)分和聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)分進(jìn)行加權(quán)計(jì)算,得到參與方的綜合數(shù)據(jù)質(zhì)量評(píng)分。

圖2 聯(lián)邦學(xué)習(xí)數(shù)據(jù)質(zhì)量評(píng)估流程

2.1.1 本地?cái)?shù)據(jù)質(zhì)量評(píng)估

本地?cái)?shù)據(jù)質(zhì)量評(píng)估包括計(jì)算重復(fù)值評(píng)分Sr、缺失值評(píng)分Sm、異常值評(píng)分Sa和單一值評(píng)分Ss4種,最終以4種評(píng)分的總分作為本地?cái)?shù)據(jù)質(zhì)量評(píng)分。4種評(píng)分的具體實(shí)現(xiàn)方法如下。

● 重復(fù)值評(píng)分Sr。每個(gè)參與方統(tǒng)計(jì)本地樣本數(shù)據(jù)中重復(fù)的樣本數(shù)量,計(jì)算重復(fù)的樣本數(shù)量與總樣本數(shù)量的比值,計(jì)算式如下:

其中,DT是參與方的本地樣本數(shù),DR是重復(fù)樣本數(shù)(出現(xiàn)重復(fù)則計(jì)數(shù)加1,不是“不同的重復(fù)樣本數(shù)”),round函數(shù)將數(shù)字四舍五入到指定的位數(shù)。假設(shè)參與方A共有2 000個(gè)本地?cái)?shù)據(jù)樣本,其中有87個(gè)重復(fù)樣本,那么參與方A的重復(fù)值評(píng)分;參 與 方B共有3 000個(gè)本地?cái)?shù)據(jù)樣本,其中有645個(gè)重復(fù)樣本,那么參與方B的重復(fù)值評(píng)分為為。重復(fù)值評(píng)分越高,本地?cái)?shù)據(jù)中重復(fù)出現(xiàn)的樣本越少。

● 缺失值評(píng)分Sm。每個(gè)參與方對(duì)本地?cái)?shù)據(jù)的每一維度特征的缺失值進(jìn)行統(tǒng)計(jì)處理,即統(tǒng)計(jì)每一維度特征中特征值缺失或數(shù)值類型為“NULL”的樣本數(shù)量占總樣本數(shù)據(jù)的比例,計(jì)算式如下:

● 異常值評(píng)分Sa。每個(gè)參與方對(duì)本地?cái)?shù)據(jù)的每一維度特征的異常值進(jìn)行統(tǒng)計(jì)。對(duì)于連續(xù)型數(shù)據(jù),可以使用絕對(duì)中位差(median absolute deviation,MAD)方法(一種非參數(shù)方法)、樞軸量法(即常見(jiàn)的3-σ法則)、四分位距(interquartile range,IQR)方法(一種非參數(shù)方法)等進(jìn)行評(píng)分。這里以聯(lián)邦學(xué)習(xí)IQR方法[31]為例,定義IQR為上75%分位數(shù)ξ75%與下25%分位數(shù)ξ25%的差值,t為閾值,將超過(guò)上限ξ75%+t× IQR 或下限ξ25%-t× IQR的值定義為異常值,其中ξ為維度特征的特征值排序集合。對(duì)于離散型數(shù)據(jù),若數(shù)據(jù)是編碼類型的,將超出編碼取值范圍(超過(guò)上下限或者出現(xiàn)未定義編碼)的值定義為異常值。然后,計(jì)算特征屬于異常值的樣本數(shù)量占總樣本數(shù)量的比例,根據(jù)該比值計(jì)算異常值評(píng)分,計(jì)算式如下:

其中,DAi是第i維特征為異常值的樣本數(shù)。假設(shè)參與方A的2 000個(gè)本地?cái)?shù)據(jù)樣本有3維特征,假設(shè)閾值t取1.5,則上限為其中第1維特 征有6 5 8個(gè)異常值,第2維特征有426個(gè)異常值,第3維特征有200個(gè)異常值,那么參與方A的異常值評(píng)分為round0.7 9;參與 方B的3 0 0 0個(gè)本地 數(shù) 據(jù)樣本有2維特征,其中第1維特征有6 6 5個(gè)異常值,第2維特征有6 4 9個(gè)異常值,那么參與方B的異常值評(píng)分為異常值評(píng)分越高,本地?cái)?shù)據(jù)中有異常值的樣 本越少。

● 單一值評(píng)分Ss。每個(gè)參與方對(duì)本地?cái)?shù)據(jù)的每一維度在規(guī)定量綱條件下的標(biāo)準(zhǔn)差進(jìn)行統(tǒng)計(jì)。若某一維度特征的標(biāo)準(zhǔn)差小于閾值,則該維特征的單一值評(píng)分為0,反之為1。將所有維度特征的單一值評(píng)分的平均值作為本地?cái)?shù)據(jù)的單一值評(píng)分,計(jì)算式如下:

其中,iv是參與方本地樣本第i維特征的標(biāo)準(zhǔn)差,ti是第i維特征的閾值。假設(shè)參與方A的本地?cái)?shù)據(jù)有3維特征,閾值t取10-8,其中第1維特征的標(biāo)準(zhǔn)差為186,第2維特征的標(biāo)準(zhǔn)差為3 7,第3維特征的標(biāo)準(zhǔn)差為9×10-9,那么參與方A的單一值評(píng)分為參 與 方B的本地?cái)?shù)據(jù)有2維特征,其中第1維特征的標(biāo)準(zhǔn)差為3×10-10,第2維特征的標(biāo)準(zhǔn)差為5×10-6,那么參與方B的異常值評(píng)分為單一 值評(píng) 分越高,本地?cái)?shù)據(jù)的規(guī)范性越高。

綜合上述指標(biāo)的評(píng)分,計(jì)算本地?cái)?shù)據(jù)質(zhì)量評(píng)分,本地?cái)?shù)據(jù)質(zhì)量評(píng)分=重復(fù)值評(píng)分+缺失值評(píng)分+異常值評(píng)分+單一值評(píng)分,即:(5)

各參與方可事先約定本地?cái)?shù)據(jù)質(zhì)量評(píng)分閾值(既可設(shè)定單一評(píng)分閾值,也可以是總分閾值),若參與方的本地?cái)?shù)據(jù)質(zhì)量評(píng)分低于該閾值,說(shuō)明其數(shù)據(jù)質(zhì)量不高,其他參與方可拒絕與之一起進(jìn)行聯(lián)邦學(xué)習(xí)。

2.1.2 聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估

聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估旨在判斷參與方對(duì)總體數(shù)據(jù)質(zhì)量是否有增益作用,具體做法為利用隱私集合求交[32-34]、聯(lián)邦I(lǐng)V(information value)、聯(lián)邦線性相關(guān)系數(shù)等算法,分別計(jì)算數(shù)據(jù)樣本評(píng)分、IV評(píng)分和Corr評(píng)分,綜合上述3種評(píng)分,最終得到聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估結(jié)果。

進(jìn)行聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估時(shí),首先利用隱私集合求交技術(shù)將所有參與方數(shù)據(jù)進(jìn)行樣本對(duì)齊處理,再進(jìn)行多維度評(píng)分,從而評(píng)估聯(lián)邦環(huán)境下的數(shù)據(jù)質(zhì)量。其中,隱私集合求交是在不共享原始數(shù)據(jù)的前提下,實(shí)現(xiàn)對(duì)所有參與方數(shù)據(jù)的交集運(yùn)算,達(dá)到樣本對(duì)齊的目的。樣本對(duì)齊后,就可以計(jì)算樣本評(píng)分、IV評(píng)分、Corr評(píng)分,具體如下。

(1)樣本評(píng)分Ssample

樣本對(duì)齊后,計(jì)算樣本重合比例。假設(shè)參與方A無(wú)標(biāo)簽,參與方B有標(biāo)簽,將A與B的數(shù)據(jù)進(jìn)行樣本對(duì)齊處理,然后使用樣本重合比例計(jì)算樣本評(píng)分,計(jì)算式如下:

其中,CA表示參與方A的樣本數(shù)量,CB表示參與方B的樣本數(shù)量,表示樣本重合比例,t為給定閾值。樣本評(píng)分越高,聯(lián)邦數(shù)據(jù)中的對(duì)齊樣本比例越大。

(2)IV評(píng)分SIV

IV用于衡量特征變量的目標(biāo)預(yù)測(cè)能力的大小。一般來(lái)說(shuō),IV越大,該特征的預(yù)測(cè)能力越強(qiáng),信息貢獻(xiàn)度越高。通過(guò)計(jì)算參與方數(shù)據(jù)每一列特征的IV,對(duì)聯(lián)邦特征的信息量進(jìn)行評(píng)估,同時(shí),可以根據(jù)IV對(duì)特征變量進(jìn)行篩選。在二分類場(chǎng)景下,IV的計(jì)算式[35]如下:

其中,ib和gi分別表示第i個(gè)分組中屬于類別1和屬于類別2的樣本數(shù)量,bT和gT分別表示屬于類別1和屬于類別2的樣本總數(shù)。

與傳統(tǒng)的IV計(jì)算方式不同,在聯(lián)邦學(xué)習(xí)場(chǎng)景下,需要通過(guò)加密條件下的數(shù)據(jù)交互來(lái)實(shí)現(xiàn)IV計(jì)算??v向聯(lián)邦學(xué)習(xí)場(chǎng)景下的聯(lián)邦I(lǐng)V[20]計(jì)算流程如圖3所示,假設(shè)參與方A只有特征X沒(méi)有標(biāo)簽,參與方B同時(shí)擁有特征X和標(biāo)簽Y,C是協(xié)調(diào)方。

圖3 聯(lián)邦I(lǐng)V計(jì)算流程

● C先創(chuàng)建密鑰對(duì),并將公鑰發(fā)送給A和B。

● B采用同態(tài)加密方法(如Paillier算法等)加密每一個(gè)樣本i的標(biāo)簽值:yi和1-yi,并得到[[yi]]和[[1 -yi]],將其與明文ID一起發(fā)送給A。這是因?yàn)锳沒(méi)有標(biāo)簽,需要B提供密文標(biāo)簽值。

● A在本地對(duì)所有特征進(jìn)行特征分箱,在接收到B的密文標(biāo)簽值和ID后,對(duì)每個(gè)分箱中的I D對(duì)應(yīng)的密文標(biāo)簽值進(jìn)行加法同態(tài)求和,得到每個(gè)分箱中的再將其連同每個(gè)ID對(duì)應(yīng)的分箱發(fā)送給C。

本文針對(duì)單個(gè)特征的評(píng)分標(biāo)準(zhǔn)為:

在應(yīng)用實(shí)踐中,IV小于0.02的特征變量對(duì)預(yù)測(cè)幾乎沒(méi)有效果,IV位于[0.02,0.1)區(qū)間的特征變量預(yù)測(cè)效果較弱,IV位于[0.1,0.3]區(qū)間的特征變量預(yù)測(cè)效果中等,如果IV大于0.3,那么這個(gè)特征變量的預(yù)測(cè)能力很強(qiáng)[20]。

本文使用的IV評(píng)分就是用聯(lián)邦I(lǐng)V評(píng)估數(shù)據(jù)的信息量,具體計(jì)算式如下:

其中,p是特征數(shù),Si是第i個(gè)特征的IV評(píng)分值。

(3)Corr評(píng)分SCorr

線性相關(guān)系數(shù)表示特征變量之間的線性相關(guān)程度,計(jì)算式[36]如下:

其中,xi表示變量X中第i個(gè)樣本的值,表示變量X的均值,yi代表變量Y中第i個(gè)樣本的值,表示變量Y的均值,Cov(X,Y)表示X與Y的協(xié)方差,Var(X)表示X的方差,Var(Y)表示Y的方差。Corr為線性相關(guān)系數(shù)(簡(jiǎn)稱Corr值),其絕對(duì)值的取值范圍為0~1。通常來(lái)說(shuō),Corr的絕對(duì)值越接近1,變量X和Y之間的線性相關(guān)程度越高;Corr絕對(duì)值越接近0,X和Y之間的線性相關(guān)程度越低。也可以將多項(xiàng)式回歸系數(shù)[28]作為Corr(X,Y)。

針對(duì)聯(lián)邦學(xué)習(xí)場(chǎng)景下的線性相關(guān)系數(shù)計(jì)算,同樣需要通過(guò)加密條件下的數(shù)據(jù)交互來(lái)實(shí)現(xiàn)??v向聯(lián)邦學(xué)習(xí)場(chǎng)景的聯(lián)邦Corr值計(jì)算流程如圖4所示,假設(shè)參與方A只有特征X沒(méi)有標(biāo)簽,參與方B同時(shí)擁有特征X和標(biāo)簽Y,C是協(xié)調(diào)方。

圖4 聯(lián)邦Corr值計(jì)算流程

● C先創(chuàng)建密鑰對(duì),并將公鑰發(fā)送給A和B。

● A計(jì)算本地特征X的方差Var(X),使用同態(tài)加密方法(如Paillier算法等)加密Var(X),得到X的密文方差[[Var(X)]],并將其發(fā)送給B。

● B先計(jì)算本地特征Y的方差Var(Y),接收到A的特征X的密文方差[[Var(X)]]后,計(jì)算,并將結(jié)果發(fā)送給C。

● A計(jì)算本地特征X與其均值的差值Diff(X),使用同態(tài)加密方法(如Paillier算法等)加密Diff(X),得到密文差值[[Diff(X)]],并將其發(fā)送給B。

● B在本地生成隨機(jī)掩碼R,R的取值范圍為(0,1),并計(jì)算特征Y與其均值的差值Diff(Y),在接收到A的密文差值[[Diff(X)]]后,計(jì)算[[Diff(X)]]與Diff(Y)的向量?jī)?nèi)積利用生成的隨機(jī)掩碼R對(duì)Cov(X,Y)進(jìn)行加密,即R( Cov(X,Y)),并將加密后的[[R( Cov(X,Y))]]發(fā)送給C。

● C接收到B的密文[[R(Cov(X,Y))]]后,進(jìn)行乘法同態(tài)解密,得到R(Cov(X,Y)),計(jì)算并將結(jié)果發(fā)送給B。

● B收到R(Corr(X,Y))后,使用隨機(jī)掩碼R解密得到Corr(X,Y)。

本文利用聯(lián)邦Corr值計(jì)算Corr評(píng)分SCorr,計(jì)算式如下:

其中,p是X的特征數(shù),Corri表示第i個(gè)特征與Y的Corr值。

基于上述指標(biāo)評(píng)分,計(jì)算聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)分:聯(lián)邦數(shù)據(jù)評(píng)分=樣本評(píng)分+IV評(píng)分+Corr評(píng)分,即:

根據(jù)聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)分,判斷參與方數(shù)據(jù)對(duì)于總體數(shù)據(jù)質(zhì)量是否有增益作用。各參與方可事先約定聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)分閾值(既可設(shè)定單一評(píng)分閾值,也可以是總分閾值),若參與方的聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)分超過(guò)該閾值,則說(shuō)明參與方數(shù)據(jù)能提升總體數(shù)據(jù)質(zhì)量;反之,參與方數(shù)據(jù)可能降低總體數(shù)據(jù)質(zhì)量,需進(jìn)一步排查原因。

2.2 隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量?jī)?yōu)化技術(shù)實(shí)現(xiàn)

2.2.1 本地?cái)?shù)據(jù)質(zhì)量?jī)?yōu)化

本地?cái)?shù)據(jù)質(zhì)量?jī)?yōu)化主要基于本地?cái)?shù)據(jù)質(zhì)量評(píng)估結(jié)果,從完整性、規(guī)范性、一致性、準(zhǔn)確性、唯一性等維度,對(duì)各參與方的數(shù)據(jù)進(jìn)行本地優(yōu)化[37]。關(guān)鍵技術(shù)包括重復(fù)樣本去重[38]、缺失值填充[39]、異常值清除[40]、數(shù)據(jù)標(biāo)準(zhǔn)化和歸一化[41]等。

2.2.2 聯(lián)邦數(shù)據(jù)質(zhì)量?jī)?yōu)化

針對(duì)本地?cái)?shù)據(jù)質(zhì)量評(píng)分較低的情況,除本地?cái)?shù)據(jù)質(zhì)量?jī)?yōu)化外,還可以進(jìn)行聯(lián)邦數(shù)據(jù)質(zhì)量?jī)?yōu)化。具體如下。

● 聯(lián)邦缺失值填充:針對(duì)本地?cái)?shù)據(jù)質(zhì)量評(píng)估結(jié)果中缺失值評(píng)分較低的情況,除本地缺失值填充外,還可以進(jìn)行聯(lián)邦缺失值填充,具體做法是對(duì)所有參與方的數(shù)據(jù)進(jìn)行聯(lián)調(diào)統(tǒng)計(jì)分析,計(jì)算全局均值,然后采用全局均值對(duì)缺失值進(jìn)行填充。

● 聯(lián)邦異常值處理:針對(duì)本地?cái)?shù)據(jù)質(zhì)量評(píng)估結(jié)果中異常值評(píng)分較低的情況,除本地異常值清除外,還可以進(jìn)行聯(lián)邦異常值處理,具體做法是對(duì)所有參與方的數(shù)據(jù)進(jìn)行聯(lián)調(diào)統(tǒng)計(jì)分析,計(jì)算每個(gè)特征的全局IQR值,將全局IQR值的上下限作為異常值的判斷標(biāo)準(zhǔn),并使用全局均值對(duì)異常值進(jìn)行填充。

● 聯(lián)邦標(biāo)準(zhǔn)化:針對(duì)數(shù)據(jù)質(zhì)量評(píng)估結(jié)果中單一值評(píng)分較低的情況,除本地?cái)?shù)據(jù)標(biāo)準(zhǔn)化處理外,還可以進(jìn)行聯(lián)邦標(biāo)準(zhǔn)化處理。標(biāo)準(zhǔn)化是指計(jì)算目標(biāo)列的均值μ和標(biāo)準(zhǔn)差σ,并對(duì)該列每個(gè)元素x進(jìn)行(x-μ)/σ變換。標(biāo)準(zhǔn)化的作用是使處理后的數(shù)據(jù)服從標(biāo)準(zhǔn)正態(tài)分布。與本地?cái)?shù)據(jù)標(biāo)準(zhǔn)化相比,聯(lián)邦標(biāo)準(zhǔn)化的不同之處在于利用所有參與方的全局?jǐn)?shù)據(jù)計(jì)算均值μ和標(biāo)準(zhǔn)差σ,而不僅僅是各參與方的本地?cái)?shù)據(jù)。

針對(duì)聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)分較低的情況,可以采取聯(lián)邦去重、聯(lián)邦特征篩選、聯(lián)邦字符串索引進(jìn)行優(yōu)化。具體如下。

● 聯(lián)邦去重:在聯(lián)邦數(shù)據(jù)之間去除重復(fù)樣本或無(wú)關(guān)特征。在橫向聯(lián)邦學(xué)習(xí)中,各參與方的數(shù)據(jù)特征要保持一致,同時(shí)要求數(shù)據(jù)樣本要保持唯一性。在縱向聯(lián)邦學(xué)習(xí)中,所有參與方需要找到具有共同ID的樣本,樣本ID不重合的數(shù)據(jù)不會(huì)參與到聯(lián)邦建模中。因此,各參與方除了要在本地去除重復(fù)樣本,還需要對(duì)聯(lián)邦數(shù)據(jù)進(jìn)行去重處理。隱私集合求交技術(shù)在保護(hù)數(shù)據(jù)隱私安全的前提下,完成多方數(shù)據(jù)的交集運(yùn)算,實(shí)現(xiàn)橫向聯(lián)邦數(shù)據(jù)特征對(duì)齊和縱向聯(lián)邦樣本對(duì)齊,在實(shí)現(xiàn)特征或樣本對(duì)齊的基礎(chǔ)上,去除多余數(shù)據(jù),直到聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估中的樣本評(píng)分達(dá)到要求。

● 聯(lián)邦特征篩選:特征篩選是為了從原始特征中找出最有效的特征,幫助減少特征的維度、降低數(shù)據(jù)冗余度,從而提升模型的性能。聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估中的IV評(píng)分和Corr評(píng)分可分別用于衡量特征變量預(yù)測(cè)能力以及特征變量與預(yù)測(cè)變量之間的相關(guān)程度。因此,當(dāng)聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估結(jié)果中的IV評(píng)分或Corr評(píng)分較低時(shí),可以基于聯(lián)邦I(lǐng)V和聯(lián)邦Corr值進(jìn)行特征篩選,這有助于聯(lián)邦任務(wù)發(fā)起方確保參與聯(lián)合建模的特征維度能夠有效提升模型效果。具體做法是計(jì)算每一列特征的聯(lián)邦I(lǐng)V和聯(lián)邦Corr值,篩選出IV或Corr值較高的特征作為聯(lián)邦特征,繼續(xù)參與聯(lián)邦建模。

● 聯(lián)邦字符串索引:字符串索引的作用是將k個(gè)不同的字符串映射到區(qū)間[0,k-1]的k個(gè)整數(shù)上,從而完成從字符串到數(shù)字的轉(zhuǎn)變。聯(lián)邦字符串索引在聯(lián)邦學(xué)習(xí)場(chǎng)景下找到目標(biāo)列出現(xiàn)的所有取值,并進(jìn)行從字符串到數(shù)字的映射。

完成本地和聯(lián)邦數(shù)據(jù)質(zhì)量?jī)?yōu)化后,再重新評(píng)估參與方的數(shù)據(jù)質(zhì)量評(píng)分,只有參與方的數(shù)據(jù)質(zhì)量評(píng)分達(dá)到或超過(guò)規(guī)定閾值,才允許該參與方的數(shù)據(jù)參與到聯(lián)邦建模中。例如,若某參與方本地?cái)?shù)據(jù)質(zhì)量評(píng)估中的重復(fù)值評(píng)分低于規(guī)定閾值,則可以要求該參與方進(jìn)行樣本去重,直到重復(fù)值評(píng)分超過(guò)規(guī)定閾值。

2.3 隱私計(jì)算場(chǎng)景下的數(shù)據(jù)貢獻(xiàn)度評(píng)估技術(shù)實(shí)現(xiàn)

本文從建模的視角出發(fā),通過(guò)計(jì)算參與方提供的數(shù)據(jù)對(duì)模型性能的貢獻(xiàn)來(lái)決定收益分配。因此,本文從數(shù)據(jù)集貢獻(xiàn)度、樣本貢獻(xiàn)度、特征貢獻(xiàn)度等維度來(lái)量化參與方總體的數(shù)據(jù)貢獻(xiàn)度。

● 數(shù)據(jù)集貢獻(xiàn)度CData。數(shù)據(jù)集貢獻(xiàn)度是指從數(shù)據(jù)量、數(shù)據(jù)質(zhì)量?jī)蓚€(gè)維度評(píng)估參與方在訓(xùn)練樣本集方面的貢獻(xiàn)。數(shù)據(jù)集貢獻(xiàn)度有助于更好地激勵(lì)參與方貢獻(xiàn)更多高質(zhì)量數(shù)據(jù)。具體做法是使用加權(quán)法計(jì)算數(shù)據(jù)集貢獻(xiàn)度,計(jì)算式如下:

其中,jψ表示第j個(gè)參與方的數(shù)據(jù)集貢獻(xiàn)度,m表示參與方數(shù)量,Tj表示第j個(gè)參與方貢獻(xiàn)的數(shù)據(jù)量,mT表示所有參與方貢獻(xiàn)的數(shù)據(jù)總量,jφ表示第j個(gè)參與方的數(shù)據(jù)質(zhì)量評(píng)分,mφ表示所有參與方的數(shù)據(jù)質(zhì)量總分之和,1β和 2β分別為數(shù)據(jù)量和數(shù)據(jù)質(zhì)量評(píng)分的權(quán)重。

● 樣本貢獻(xiàn)度CSample。樣本貢獻(xiàn)度將各參與方訓(xùn)練數(shù)據(jù)對(duì)模型效果的提升程度作為聯(lián)邦建模貢獻(xiàn)的評(píng)價(jià)標(biāo)準(zhǔn),基本做法是將參與方訓(xùn)練數(shù)據(jù)中的實(shí)例樣本刪除后重新訓(xùn)練模型,并計(jì)算新模型的預(yù)測(cè)效果,可使用缺失法[23]計(jì)算各參與方數(shù)據(jù) 樣本對(duì)模型效果的提升程度。具體實(shí)現(xiàn)如下。

假設(shè)第i個(gè)實(shí)例對(duì)模型預(yù)測(cè)結(jié)果的影響表示[23]為:

其中,n表示樣本量大小,表示第j個(gè)實(shí)

也可以使用近似法估計(jì)每個(gè)參與方對(duì)建模效果提升的影響,具體做法是先從所有參與方中去除任意一個(gè)參與方,然后評(píng)估重新訓(xùn)練的模型預(yù)測(cè)效果,最后將其與之前所有參與方數(shù)據(jù)參與訓(xùn)練的模型預(yù)測(cè)效果進(jìn)行對(duì)比。

● 特征貢獻(xiàn)度CFeature。特征貢獻(xiàn)度通過(guò)分析樣本中每個(gè)數(shù)據(jù)特征與模型預(yù)測(cè)結(jié)果之間的關(guān)系來(lái)量化數(shù)據(jù)特征對(duì)模型預(yù)測(cè)結(jié)果的貢獻(xiàn)度,可用Shapley值方法等[42-43]量化各參與方數(shù)據(jù)對(duì)模型預(yù)測(cè)結(jié)果的貢獻(xiàn)度。對(duì)于具體實(shí)例的特征變量xj,其Shapley值是該特征在所有可能的特征組合上對(duì)模型預(yù)測(cè)結(jié)果貢獻(xiàn)度的加權(quán)和,計(jì)算式[44]如下:

其中,φ表示參與方總特征貢獻(xiàn)度,m表示參與方的特征維度,n表示參與方的數(shù)據(jù)樣本總數(shù),表示參與方第i個(gè)樣本中第j個(gè)特征的Shapley值。參與方的特征越多,其特征貢獻(xiàn)度越大。

基于上述3個(gè)貢獻(xiàn)度可以得到參與方的數(shù)據(jù)貢獻(xiàn)度C,計(jì)算式為:

其中,α1、α2、α3為權(quán)重系數(shù)。

對(duì)于聯(lián)邦而言,參與方持續(xù)地參與聯(lián)邦學(xué)習(xí)進(jìn)程是其成功的關(guān)鍵所在。參與方加入聯(lián)邦,構(gòu)建一個(gè)機(jī)器學(xué)習(xí)模型,訓(xùn)練出的模型可以產(chǎn)生收益,參與方可以共享收益,以此為激勵(lì)。根據(jù)本文提供的貢獻(xiàn)度評(píng)估標(biāo)準(zhǔn),可有效計(jì)算出各參與方數(shù)據(jù)對(duì)聯(lián)邦模型的貢獻(xiàn)度,可按照數(shù)據(jù)貢獻(xiàn)度比例進(jìn)行收益分配。

2.4 小結(jié)

第2節(jié)圍繞數(shù)據(jù)質(zhì)量評(píng)估、數(shù)據(jù)質(zhì)量?jī)?yōu)化、數(shù)據(jù)貢獻(xiàn)度評(píng)估3個(gè)方面描述了隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量治理技術(shù)實(shí)現(xiàn)。其中,數(shù)據(jù)質(zhì)量評(píng)估從本地域和聯(lián)邦域兩個(gè)層面考慮,建立了本地與聯(lián)邦兩個(gè)層級(jí)的數(shù)據(jù)質(zhì)量評(píng)估體系,使用多個(gè)維度的綜合評(píng)分度量數(shù)據(jù)質(zhì)量。同時(shí),依據(jù)數(shù)據(jù)質(zhì)量評(píng)估結(jié)果,分別對(duì)數(shù)據(jù)質(zhì)量進(jìn)行本地優(yōu)化和聯(lián)邦優(yōu)化,在數(shù)據(jù)不出本地、保障數(shù)據(jù)安全的前提下,聯(lián)合各方數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗及特征工程,全面提升參與方的數(shù)據(jù)質(zhì)量。為了鼓勵(lì)更多的數(shù)據(jù)方積極參與到聯(lián)邦學(xué)習(xí)中,又從建模的視角出發(fā),通過(guò)量化數(shù)據(jù)集貢獻(xiàn)度、樣本貢獻(xiàn)度、特征貢獻(xiàn)度,評(píng)估各參與方數(shù)據(jù)對(duì)整個(gè)聯(lián)邦模型的貢獻(xiàn)度,從而制訂一種公平公正的聯(lián)邦收益分配機(jī)制。

3 應(yīng)用案例

某電力公司系統(tǒng)經(jīng)過(guò)多年的信息化建設(shè)和完善,積累了大量數(shù)據(jù)資產(chǎn),為了提質(zhì)增效,公司決定挖掘電力數(shù)據(jù)的潛在商業(yè)價(jià)值。該公司聯(lián)合水務(wù)部門采用聯(lián)邦學(xué)習(xí)的方式,基于用電數(shù)據(jù)和用水?dāng)?shù)據(jù)進(jìn)行群租房識(shí)別,但實(shí)際效果并不理想。通過(guò)對(duì)電力公司數(shù)據(jù)和水務(wù)部門 數(shù)據(jù)的深度調(diào)研分析發(fā)現(xiàn),參與聯(lián)邦學(xué)習(xí)的參與方中,每個(gè)參與方存在數(shù)據(jù)粒度不同、樣本標(biāo)準(zhǔn)不統(tǒng)一以及異常值、缺失值數(shù)據(jù)較多等問(wèn)題,導(dǎo)致各參與方的數(shù)據(jù)質(zhì)量參差不齊,嚴(yán)重影響聯(lián)邦建模的性能。因此,如何對(duì)各參與方進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估,提升參與聯(lián)邦學(xué)習(xí)建模的數(shù)據(jù)質(zhì)量,避免因數(shù)據(jù)質(zhì)量問(wèn)題降低模型性能,成為亟待解決的問(wèn)題。

本應(yīng)用案例基于星環(huán)科技聯(lián)邦學(xué)習(xí)平臺(tái)Transwarp Sophon FL對(duì)群租房識(shí)別模型進(jìn)行聯(lián)合訓(xùn)練,Transwarp Sophon FL框架如圖5所示。

圖5 Transwarp Sophon FL框架

Transwarp Sopho n FL采用分布式的數(shù)據(jù)計(jì)算與存儲(chǔ)管理,集成同態(tài)加密、差分隱私、秘密分享、不經(jīng)意傳輸、DH(Diffie-Hellman)算法等多種加密算法,保護(hù)數(shù)據(jù)隱私安全,使用聯(lián)邦學(xué)習(xí)、多方安全計(jì)算、隱私計(jì)算、加密網(wǎng)絡(luò)通信等多種功能,為多方安全建模提供完整的解決方案。同時(shí),該平臺(tái)還提供了一整套數(shù)據(jù)質(zhì)量治理方法,方便用戶在聯(lián)邦框架下進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估、數(shù)據(jù)質(zhì)量?jī)?yōu)化、貢獻(xiàn)度評(píng)估等工作,為AI模型的訓(xùn)練提供大量?jī)?yōu)質(zhì)數(shù)據(jù),大大提升聯(lián)邦模型的性能。

在聯(lián)邦建模過(guò)程中,電網(wǎng)公司為主動(dòng)方,水務(wù)部門為參與方,采用縱向聯(lián)邦學(xué)習(xí)模式,融合用電數(shù)據(jù)和用水?dāng)?shù)據(jù),聯(lián)合構(gòu)建群租房識(shí)別模型,部署方式如圖6所示。

圖6 群租房識(shí)別應(yīng)用部署方式

為了提高聯(lián)邦學(xué)習(xí)模型的性能,本應(yīng)用案例從數(shù)據(jù)質(zhì)量評(píng)估、數(shù)據(jù)質(zhì)量?jī)?yōu)化、數(shù)據(jù)貢獻(xiàn)度評(píng)估3個(gè)方面對(duì)用電數(shù)據(jù)和用水?dāng)?shù)據(jù)進(jìn)行數(shù)據(jù)質(zhì)量治理。其中,在數(shù)據(jù)質(zhì)量的綜合評(píng)分中,本地?cái)?shù)據(jù)質(zhì)量評(píng)分的權(quán)重系數(shù)為0.4,聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)分的權(quán)重系數(shù)為0.6。在數(shù)據(jù)貢獻(xiàn)度評(píng)分中,數(shù)據(jù)集貢獻(xiàn)度、樣本貢獻(xiàn)度、特征貢獻(xiàn)度的權(quán)重系數(shù)均設(shè)置為1/3。本應(yīng)用案例先分別計(jì)算電力公司和水務(wù)部門的本地?cái)?shù)據(jù)質(zhì)量評(píng)分和聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)分,然后依據(jù)各參與方的本地和聯(lián)邦數(shù)據(jù)質(zhì)量評(píng)估結(jié)果,分別對(duì)用電數(shù)據(jù)和用水?dāng)?shù)據(jù)進(jìn)行數(shù)據(jù)清洗以及聯(lián)邦特征工程等數(shù)據(jù)質(zhì)量?jī)?yōu)化工作,并使用優(yōu)化后的數(shù)據(jù)進(jìn)行聯(lián)合建模,最后評(píng)估訓(xùn)練數(shù)據(jù)的貢獻(xiàn)度,并分配收益。其中,群租房識(shí)別模型的數(shù)據(jù)質(zhì)量治理流程如圖7所示。

圖7 群租房識(shí)別模型數(shù)據(jù)質(zhì)量治理流程

在模型訓(xùn)練完畢后,雙方協(xié)同使用用電數(shù)據(jù)和用水?dāng)?shù)據(jù)進(jìn)行聯(lián)合測(cè)試,生成群租房預(yù)測(cè)名單,測(cè)試流程如圖8所示。

圖8 群租房識(shí)別模型測(cè)試流程

通過(guò)對(duì)比數(shù)據(jù)質(zhì)量治理前后的群租房識(shí)別模型效果,驗(yàn)證了Transwarp Sophon FL數(shù)據(jù)質(zhì)量治理框架在隱私計(jì)算場(chǎng)景下的優(yōu)勢(shì)。進(jìn)行數(shù)據(jù)質(zhì)量治理前,群租房識(shí)別模型的模型評(píng)估指標(biāo)AUC[45]是0.7349,如圖9所示;進(jìn)行數(shù)據(jù)質(zhì)量治理后,群租房識(shí)別模型的AUC是0.8188,如圖10所示。進(jìn)行數(shù)據(jù)質(zhì)量治理后,群租房識(shí)別模型的AUC較之前提升了11.4%,為政府有效排查群租房,消除群租房造成的消防安全隱患,打造和諧、安全、美麗的生活環(huán)境做出了突出貢獻(xiàn)。同時(shí),在聯(lián)合建模過(guò)程中,全程明文數(shù)據(jù)不出本地?cái)?shù)據(jù)庫(kù),有效保護(hù)了居民用水用電的數(shù)據(jù)隱私。

圖9 數(shù)據(jù)質(zhì)量治理前群租房識(shí)別模型AUC

圖10 數(shù)據(jù)質(zhì)量治理后群租房識(shí)別模型AUC

4 結(jié)束語(yǔ)

本文對(duì)隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量治理工作進(jìn)行了研究和探索,圍繞數(shù)據(jù)質(zhì)量評(píng)估、數(shù)據(jù)質(zhì)量?jī)?yōu)化、數(shù)據(jù)貢獻(xiàn)度3個(gè)維度構(gòu)建了一種隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量治理框架,通過(guò)實(shí)踐證明其在保護(hù)數(shù)據(jù)隱私的前提下,可實(shí)現(xiàn)隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量評(píng)估和優(yōu)化,全方位提升了參與方的數(shù)據(jù)質(zhì)量,提高了計(jì)算結(jié)果的精度。本文提出的隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量治理框架可被廣泛應(yīng)用到金融風(fēng)控、聯(lián)合醫(yī)療、保險(xiǎn)智能定價(jià)、工業(yè)聯(lián)合運(yùn)維、供應(yīng)鏈管理等場(chǎng)景中,具有廣闊的應(yīng)用前景。當(dāng)然本文的研究尚有不足之處,比如本文考慮的隱私計(jì)算場(chǎng)景下的數(shù)據(jù)質(zhì)量治理涉及大量的密文計(jì)算,計(jì)算效率還有待進(jìn)一步提升;如何從數(shù)據(jù)治理視角防御多方隱私計(jì)算模式中的數(shù)據(jù)毒化[46],尚缺乏完善的解決方案。這些問(wèn)題也是下一階段的重點(diǎn)工作。

猜你喜歡
參與方貢獻(xiàn)度聯(lián)邦
基于秘密分享的高效隱私保護(hù)四方機(jī)器學(xué)習(xí)方案
聯(lián)邦學(xué)習(xí)在金融數(shù)據(jù)安全領(lǐng)域的研究與應(yīng)用
國(guó)有林業(yè)產(chǎn)業(yè)對(duì)地區(qū)經(jīng)濟(jì)發(fā)展貢獻(xiàn)度的動(dòng)態(tài)演繹分析
一“炮”而紅 音聯(lián)邦SVSound 2000 Pro品鑒會(huì)完滿舉行
303A深圳市音聯(lián)邦電氣有限公司
基于SNA視角的PPP項(xiàng)目參與方行為風(fēng)險(xiǎn)研究
BT模式研究
信息通信裝備體系能力貢獻(xiàn)度評(píng)估方法研究
聯(lián)合作戰(zhàn)太空作戰(zhàn)力量體系貢獻(xiàn)度仿真分析框架研究
綠色農(nóng)房建設(shè)伙伴關(guān)系模式初探