国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于聯(lián)邦學(xué)習(xí)的多技術(shù)融合數(shù)據(jù)交易方法

2024-03-21 08:15:38劉少杰文斌王澤旭
計算機(jī)工程 2024年3期
關(guān)鍵詞:交易過程供給方聯(lián)邦

劉少杰,文斌?,王澤旭

(1.海南師范大學(xué)數(shù)據(jù)科學(xué)與智慧教育教育部重點實驗室,海南 海口 571158;2.海南師范大學(xué)信息科學(xué)技術(shù)學(xué)院,海南 ???571158;3.中山大學(xué)軟件工程學(xué)院,廣東 珠海 519082)

0 引言

數(shù)據(jù)保護(hù)的約束使得數(shù)據(jù)被限制在不同企業(yè)和組織之間,形成了眾多“數(shù)據(jù)孤島”,難以發(fā)揮其蘊含的重要價值,而傳統(tǒng)的數(shù)據(jù)交易方式往往存在數(shù)據(jù)所有權(quán)混亂以及缺乏透明性等問題[1]。聯(lián)邦學(xué)習(xí)(FL)的模型訓(xùn)練機(jī)制有效地實現(xiàn)了“數(shù)據(jù)不出門,可用不可見”,在打破“數(shù)據(jù)孤島”的同時滿足了數(shù)據(jù)隱私和安全性規(guī)約[2],使得數(shù)據(jù)被合規(guī)交易和共享成為可能。聯(lián)邦學(xué)習(xí)對未來人工智能等技術(shù)的發(fā)展和數(shù)據(jù)安全保護(hù)有著重要的推動作用,但缺乏獎勵分配機(jī)制、存在惡意攻擊、網(wǎng)絡(luò)通信開銷大等問題對聯(lián)邦學(xué)習(xí)應(yīng)用于數(shù)據(jù)交易場景有著顯著的影響[3]。因此,對聯(lián)邦學(xué)習(xí)框架的設(shè)計和完善成為學(xué)術(shù)界和工業(yè)界亟待解決的熱點問題,其研究需求也應(yīng)運而生。

當(dāng)聯(lián)邦學(xué)習(xí)實際應(yīng)用在數(shù)據(jù)交易場景中時,需要模型聚合服務(wù)端與各個數(shù)據(jù)供給方訓(xùn)練端間進(jìn)行不間斷的模型權(quán)重數(shù)據(jù)同步,這帶來了巨大的通信開銷[4-6],并隨著數(shù)據(jù)供給方的數(shù)量和迭代次數(shù)增加而陡增,不適用于多方參與的復(fù)雜數(shù)據(jù)交易場景。此外,聯(lián)邦學(xué)習(xí)中缺少用于數(shù)據(jù)供給方貢獻(xiàn)度評估的方法,存在各方利益分配策略不明確、缺少有效的激勵機(jī)制的問題[7-8]。同時,利益分配數(shù)據(jù)依賴中心化的存儲或任務(wù)需求的發(fā)布者,缺少透明性和可信性,從而降低了參與方的積極性[9]。

數(shù)據(jù)交易場景中僅僅依靠聯(lián)邦學(xué)習(xí)技術(shù)將面臨眾多的挑戰(zhàn),為此,本文提出一種基于聯(lián)邦學(xué)習(xí)的多技術(shù)融合數(shù)據(jù)交易方法(MTFDT)。該方法能夠在縮短通信時間損耗和增強(qiáng)激勵機(jī)制可靠性的同時,使得交易過程數(shù)據(jù)可溯源和不可篡改,提高服務(wù)質(zhì)量。本文主要貢獻(xiàn)總結(jié)如下:

1)以可信執(zhí)行環(huán)境(TEE)技術(shù)為依托,結(jié)合沙普利值提出一種用于數(shù)據(jù)供給方貢獻(xiàn)評估的有效機(jī)制,解決模型評價數(shù)據(jù)集來源問題,使得數(shù)據(jù)交易過程中貢獻(xiàn)度量和利益分配更加公平。

2)將樹型網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)應(yīng)用于聯(lián)邦學(xué)習(xí)模型數(shù)據(jù)同步過程,提出一種并行化模型權(quán)重參數(shù)同步算法,降低訓(xùn)練過程中的通信開銷,從而提高可擴(kuò)展性,使得聯(lián)邦學(xué)習(xí)可應(yīng)用于包含更多參與方的復(fù)雜數(shù)據(jù)交易或共享場景。

3)引入聯(lián)盟鏈技術(shù)并通過設(shè)計智能合約進(jìn)行貢獻(xiàn)數(shù)據(jù)和訓(xùn)練數(shù)據(jù)存儲,利用其不可篡改和去中心化特性保證過程數(shù)據(jù)的安全性,使得數(shù)據(jù)交易過程透明、可信任。同時,結(jié)合星際文件系統(tǒng)(IPFS)實現(xiàn)模型數(shù)據(jù)存儲,避免大數(shù)據(jù)上鏈造成存儲和通信負(fù)擔(dān),提高數(shù)據(jù)交易效率。

1 相關(guān)工作

數(shù)據(jù)安全保護(hù)政策、法律法規(guī)的頒布和實施使得隱私計算成為了當(dāng)下研究的熱點,聯(lián)邦學(xué)習(xí)作為隱私計算中的代表性方案也受到了廣泛的關(guān)注,但對于聯(lián)邦學(xué)習(xí)應(yīng)用于數(shù)據(jù)交易場景中的利益分配機(jī)制、模型訓(xùn)練效率和安全性等方面的研究仍處于初期階段。文獻(xiàn)[10]針對傳統(tǒng)聯(lián)邦學(xué)習(xí)存在的激勵機(jī)制不明確和依賴于單點服務(wù)器的問題,創(chuàng)新性地將區(qū)塊鏈技術(shù)引入到聯(lián)邦學(xué)習(xí)過程中,以區(qū)塊鏈網(wǎng)絡(luò)代替中央節(jié)點,加入了相應(yīng)的驗證和獎勵機(jī)制,并對加入?yún)^(qū)塊鏈所帶來的延遲問題和分叉現(xiàn)象進(jìn)行了優(yōu)化。雖然該方法一定程度解決了現(xiàn)存的部分問題,但其基于挖礦的獎勵分配策略和模型同步方案也極大地提高了訓(xùn)練成本。為了進(jìn)一步優(yōu)化獎勵策略并提高可靠性,文獻(xiàn)[11]提出一種基于反復(fù)競爭思想的利益分配方案,并通過以太坊進(jìn)行實現(xiàn)。該方案以投票的方式來體現(xiàn)前輪各參與方對模型優(yōu)化的貢獻(xiàn),同時參與者各自選擇前輪較優(yōu)的k個模型權(quán)重進(jìn)行聚合作為新一輪的本地模型初始狀態(tài)。該方案雖然使得利益的分配變得具體化,但增加了參與方的計算和通信成本。文獻(xiàn)[12]提出一種帶有訓(xùn)練評價指標(biāo)的聯(lián)邦學(xué)習(xí)激勵機(jī)制模塊,通過對提交模型進(jìn)行測試并與初始狀態(tài)對比來反映參與方的貢獻(xiàn)度,一定程度上提高了數(shù)據(jù)交易中利益分配的合理性,但其評估方法僅考慮模型相對初始狀態(tài)的提升,并未考慮模型為全局模型聚合帶來的整體效益。文獻(xiàn)[13]在增加模型評價指標(biāo)的基礎(chǔ)上進(jìn)一步引入沙普利值以從整體上度量參與方模型的貢獻(xiàn)度,提高報酬分配的公平性。然而,文獻(xiàn)[12-13]均缺少對于模型評價過程中所使用數(shù)據(jù)集來源的研究和分析。文獻(xiàn)[14]對模型評估所需要的數(shù)據(jù)集來源問題進(jìn)行了討論,提出一種新的聯(lián)邦學(xué)習(xí)算法Fed-PCA,以達(dá)到在沒有測試數(shù)據(jù)集的情況下完成貢獻(xiàn)度評估的目的。

對于聯(lián)邦學(xué)習(xí)應(yīng)用于數(shù)據(jù)交易場景時的通信成本,文獻(xiàn)[15]提出一種基于群體劃分的策略,通過將所有參與者進(jìn)行群體劃分逐步完成模型聚合,但該策略增加了訓(xùn)練過程的復(fù)雜度。為解決這一問題,文獻(xiàn)[16]提出一種具有委員會共識的聯(lián)邦學(xué)習(xí)框架,通過動態(tài)地選舉委員會成員作為模型的驗證方和評價方,達(dá)到k倍交叉驗證的效果,同時也避免了全部節(jié)點都參與驗證帶來的通信開銷。然而,該方案為了故障驗證和回退,將模型數(shù)據(jù)存儲在區(qū)塊鏈中,降低了鏈節(jié)點交易同步的效率,不利于實際的應(yīng)用。為了提高聯(lián)邦學(xué)習(xí)過程的效率,文獻(xiàn)[17]將許可鏈融入框架中,在避免依靠公鏈造成資源浪費的同時,利用差分隱私來進(jìn)一步提高訓(xùn)練中數(shù)據(jù)的安全性,但未能考慮區(qū)塊鏈在大型數(shù)據(jù)存儲中的不適用性。優(yōu)化網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)是提高聯(lián)邦學(xué)習(xí)通信效率的有效方式[18],分散的節(jié)點部署往往比星型拓?fù)渚哂懈玫男Ч?9]。文獻(xiàn)[20]引入邊緣聚合服務(wù)器來緩解星型拓?fù)浣Y(jié)構(gòu)中央聚合服務(wù)器的帶寬壓力。文獻(xiàn)[21]使用Gossip 協(xié)議來并行分段傳輸權(quán)重參數(shù),從而提高訓(xùn)練節(jié)點間模型權(quán)重數(shù)據(jù)的同步效率,但為了保證聚合效果,增加了整體的通信次數(shù)且訓(xùn)練效果不夠穩(wěn)定。目前,較多研究工作的框架設(shè)計缺乏對于存儲成本的考慮,不具備較高的可行性。

MTFDT 與現(xiàn)有方法的綜合對比如表1 所示。

表1 MTFDT 與現(xiàn)有方法的綜合對比Table 1 Comprehensive comparison among MTFDT and existing methods

2 多技術(shù)融合的數(shù)據(jù)交易方法

數(shù)據(jù)交易流程中利益分配的公平性、合理性將直接影響數(shù)據(jù)需求方和數(shù)據(jù)供應(yīng)方參與數(shù)據(jù)交易或共享服務(wù)的積極性。本文以聯(lián)邦學(xué)習(xí)技術(shù)作為服務(wù)基礎(chǔ),結(jié)合聯(lián)盟鏈、星際文件系統(tǒng)和可信執(zhí)行環(huán)境等多種技術(shù),構(gòu)建MTFDT 框架。

2.1 整體介紹

MTFDT 整體工作流程如圖1 所示。其中:假設(shè)所有參與數(shù)據(jù)交易任務(wù)的數(shù)據(jù)供給方為P,Pi為第i個供給方,n為參與數(shù)據(jù)交易任務(wù)的供給方總數(shù);每個供給方Pi擁有本地數(shù)據(jù)集Di;數(shù)據(jù)需求方為R,其發(fā)布的數(shù)據(jù)交易任務(wù)為E;第r輪全局模型為Gr;供給方本地訓(xùn)練得到的模型為。

圖1 MTFDT 工作流程Fig.1 Workflow of MTFDT

在數(shù)據(jù)交易過程中,數(shù)據(jù)需求方根據(jù)自身的需求構(gòu)建聯(lián)邦學(xué)習(xí)任務(wù)請求,任務(wù)請求包括模型結(jié)構(gòu)、評估指標(biāo)和目標(biāo)以及預(yù)算信息,該任務(wù)請求通過數(shù)據(jù)需求方調(diào)用服務(wù)接口的方式發(fā)送到區(qū)塊鏈中并由數(shù)據(jù)交易服務(wù)智能合約處理;隨后數(shù)據(jù)供給方查詢鏈上數(shù)據(jù)交易任務(wù),并結(jié)合本地數(shù)據(jù)集屬性提交選擇參與訓(xùn)練任務(wù)的請求;之后數(shù)據(jù)需求方確定參與聯(lián)邦學(xué)習(xí)任務(wù)的數(shù)據(jù)供給方,通過可信執(zhí)行環(huán)境密鑰協(xié)商方式收集數(shù)據(jù)供給方測試數(shù)據(jù)集(用于貢獻(xiàn)量化評估和利益分配計算);模型聚合服務(wù)器根據(jù)數(shù)據(jù)參與方信息構(gòu)建樹型拓?fù)浣换ス?jié)點樹,并并行同步分發(fā)聯(lián)邦學(xué)習(xí)模型數(shù)據(jù),進(jìn)入聯(lián)邦學(xué)習(xí)訓(xùn)練階段;模型聚合服務(wù)器收集數(shù)據(jù)供給方訓(xùn)練結(jié)果,并進(jìn)行貢獻(xiàn)量化評估,利用聯(lián)盟鏈完成獎勵分配和過程模型等數(shù)據(jù)存儲。

2.2 利益分配策略模塊設(shè)計

利益分配策略的公平公正是促進(jìn)數(shù)據(jù)交易可持續(xù)進(jìn)行的重要基礎(chǔ)和維護(hù)參與方利益的保障,但目前缺少對于數(shù)據(jù)交易過程中所使用效果評價數(shù)據(jù)集來源的研究。為此,本文在MTFDT 中基于可信執(zhí)行環(huán)境和沙普利值設(shè)計一種新的貢獻(xiàn)度量化與利益分配機(jī)制,具體工作流程如圖2 所示。

圖2 MTFDT 中貢獻(xiàn)評估與利益分配流程Fig.2 Contribution evaluation and benefit distribution process in MTFDT

在數(shù)據(jù)交易任務(wù)訓(xùn)練前,參與任務(wù)的數(shù)據(jù)供給方Pi與模型聚合服務(wù)器的可信安全區(qū)中的程序進(jìn)行遠(yuǎn)程認(rèn)證并完成密鑰協(xié)商[25],得到加密密鑰Ki,Pi將本地測試數(shù)據(jù)使用Ki進(jìn)行加密得到測試數(shù)據(jù)密文,并將發(fā)送給模型聚合服務(wù)器存儲;當(dāng)Pi在本地完成計算后,將新的梯度信息發(fā)送給模型聚合服務(wù)器中非可信區(qū)域運行的模型梯度收集服務(wù);收集服務(wù)發(fā)起可信服務(wù)調(diào)用,并完成所有的梯度信息傳輸;可信安全區(qū)中的貢獻(xiàn)計算服務(wù)通過排列聚合得到當(dāng)前輪的聚合模型集合,同時使用協(xié)商密鑰Ki解密測試數(shù)據(jù),并使用測試數(shù)據(jù)與數(shù)據(jù)需求方數(shù)據(jù)交易任務(wù)中預(yù)設(shè)的評估方法完成模型效用評估;在得到聚合模型集合評估結(jié)果后,使用沙普利值對數(shù)據(jù)供給方Pi的貢獻(xiàn)值進(jìn)行計算[26]。

在現(xiàn)有的使用聯(lián)邦學(xué)習(xí)進(jìn)行數(shù)據(jù)交易的研究中,多以數(shù)據(jù)供給方訓(xùn)練所得新模型的評價指標(biāo)值f相對初始模型fg的提升作為效用評估Q的主要依據(jù)[12],計算過程如式(1)所示:

然而該方式在數(shù)據(jù)規(guī)模不均衡的情況下,利益分配存在不公平的可能性。當(dāng)以準(zhǔn)確率作為評價指標(biāo)時:1)數(shù)據(jù)供給方訓(xùn)練數(shù)據(jù)集的增大與其訓(xùn)練所得模型準(zhǔn)確度的提升不成等比例關(guān)系,反之亦然;2)數(shù)據(jù)供給方訓(xùn)練數(shù)據(jù)集的增大與其訓(xùn)練模型所耗費的資源即代價成等比例關(guān)系,反之亦然。由此可知,在使用聯(lián)邦學(xué)習(xí)進(jìn)行數(shù)據(jù)交易的過程中,單純基于評價指標(biāo)相對初始模型的提升來進(jìn)行效用評估繼而完成貢獻(xiàn)度計算的方式并不完全合理,在數(shù)據(jù)集質(zhì)量相當(dāng)?shù)那闆r下,使用更多數(shù)據(jù)進(jìn)行訓(xùn)練的參與方并不能獲得等比例的收益。由于在訓(xùn)練過程中,數(shù)據(jù)供給方用于訓(xùn)練的數(shù)據(jù)量是不可知的,因此訓(xùn)練成本難以得到可信且有效的計算。

綜上,本文所提出的模型訓(xùn)練效用評價方法在考慮相對初始模型提升的前提下,綜合考慮了模型在所有新模型中的綜合水平,計算方式如式(2)所示:

其中:a為獎懲調(diào)節(jié)系數(shù),按式(3)動態(tài)調(diào)整和分別為當(dāng)前輪所有聚合模型評價指標(biāo)的均值、最大值和最小值。

當(dāng)數(shù)據(jù)供給方訓(xùn)練得到的新模型性能低于全局平均模型時,將受到懲罰,反之則獲得獎勵,獎懲調(diào)節(jié)系數(shù)則能夠在模型訓(xùn)練后期性能提升較小時放大差異,使得提供較多數(shù)據(jù)集的供給方能夠得到更高的評估。

由于聯(lián)邦學(xué)習(xí)過程具有新模型由所有本地模型聚合得到的特性,因此通常會存在以下情況,即第r輪訓(xùn)練得到的所有本地模型效果都比當(dāng)前輪初始模型差,但其聚合所得到的新模型效果優(yōu)于初始模型。在這種情況下,傳統(tǒng)的貢獻(xiàn)計算方法將不再適用,缺失了對本地模型在聚合時對全局模型效果提升所起作用的評估。由此,本文引入沙普利值來計算本地模型在全局模型聚合時所做的貢獻(xiàn),從而提高利益分配的可靠性。

數(shù)據(jù)供給方Pi在某輪次訓(xùn)練中的貢獻(xiàn)值計算方式如下:

其中:S為參與數(shù)據(jù)交易任務(wù)供給方集合P在當(dāng)前輪產(chǎn)生的聚合模型集合的任意子集;PPi為不包含Pi訓(xùn)練所得到模型的聚合子集。在交易任務(wù)完成后,數(shù)據(jù)供給方Pi獲得的收益計算公式如下:

其中:C為達(dá)到目標(biāo)精度進(jìn)行的訓(xùn)練總次數(shù);B為數(shù)據(jù)需求方發(fā)布交易任務(wù)時的預(yù)算總額。

2.3 模型同步模塊設(shè)計

聯(lián)邦學(xué)習(xí)中的通信網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)通常是星型結(jié)構(gòu),即存在一個中心模型聚合服務(wù)器和成百上千個訓(xùn)練端(數(shù)據(jù)供給方),如圖3 所示。對于同步聯(lián)邦學(xué)習(xí),模型聚合服務(wù)器需要等待所有的訓(xùn)練端返回新一輪的模型更新參數(shù),并聚合得到新的全局模型權(quán)重,之后將新的全局模型權(quán)重一次性分發(fā)給所有的訓(xùn)練端[27]。模型權(quán)重參數(shù)文件分發(fā)將為服務(wù)端帶來巨大的帶寬壓力。同時,由于大多數(shù)數(shù)據(jù)交易中所要訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型往往擁有巨大的參數(shù)量,模型同步帶來了較高的通信成本[28],因此也限制了訓(xùn)練端節(jié)點的數(shù)量,降低了可拓展性。

圖3 星型拓?fù)浣Y(jié)構(gòu)聯(lián)邦學(xué)習(xí)模型數(shù)據(jù)同步Fig.3 Data synchronization of federated learning model with star topology structure

假設(shè)模型權(quán)重文件大小為msize,各個節(jié)點帶寬為d,參與訓(xùn)練的節(jié)點數(shù)量為n,2 個節(jié)點間建立通信的時間損耗為l1,則星型拓?fù)浣Y(jié)構(gòu)下聯(lián)邦學(xué)習(xí)每輪模型同步所需要的時間Tstar為:

為了減緩模型分發(fā)給模型聚合服務(wù)端所帶來的帶寬壓力,降低同步時間對聯(lián)邦學(xué)習(xí)訓(xùn)練造成的影響,進(jìn)而提高數(shù)據(jù)交易效率,本文在MTFDT 中設(shè)計一種新的權(quán)重數(shù)據(jù)同步算法。該算法通過切割權(quán)重文件和構(gòu)建交互節(jié)點樹的方式實現(xiàn)參數(shù)數(shù)據(jù)并行傳輸,其中模型聚合服務(wù)端與訓(xùn)練端關(guān)聯(lián)關(guān)系如圖4所示。

圖4 樹型拓?fù)浣Y(jié)構(gòu)聯(lián)邦學(xué)習(xí)模型數(shù)據(jù)同步Fig.4 Data synchronization of federated learning model with tree topology structure

2.3.1 算法流程

模型同步模塊的算法流程具體如下:

步驟1模型聚合服務(wù)端P0將第r輪模型參數(shù)權(quán)重文件Gr切割為均等的k份并計算整體權(quán)重文件哈希值hr和所有子文件哈希值集合

步驟2聚合服務(wù)端選擇當(dāng)前迭代輪次的訓(xùn)練節(jié)點集合Pr,Pr={P1,P2,…,Pn},利用n個訓(xùn)練節(jié)點信息和聚合服務(wù)端信息構(gòu)建多叉樹Tr,Tr={P0,P1,…,Pn},其中,將P0作為多叉樹的根節(jié)點。

步驟3將Tr、hr和Hr合并得到第r輪次迭代配置信息cr,其中,cr={hr,Tr,Hr},并將cr發(fā)送給集合P中所有訓(xùn)練節(jié)點。

步驟4聚合服務(wù)端按序?qū)份模型權(quán)重子文件根據(jù)Tr中的結(jié)構(gòu)信息發(fā)送給其子節(jié)點,子節(jié)點在收到文件wi后立即向后續(xù)子節(jié)點發(fā)送并同時接收父節(jié)點發(fā)送的下一份模型權(quán)重子文件wi+1。

步驟5重復(fù)步驟4,計算各個子文件哈希值與cr中對應(yīng)子文件哈希值進(jìn)行對比,若不相同或父節(jié)點無響應(yīng),則根據(jù)cr向其他祖父節(jié)點請求,直至所有訓(xùn)練端接收到全部正確的權(quán)重文件集合

步驟6所有訓(xùn)練端合并子文件集合得到新一輪的模型權(quán)重參數(shù)文件,模型同步結(jié)束。

同步過程中節(jié)點間文件傳輸流如圖5所示。在t時刻,根節(jié)點向第1 層訓(xùn)練節(jié)點發(fā)送權(quán)重模型子文件w1,在2t時刻,第1 層訓(xùn)練節(jié)點在接收根節(jié)點發(fā)送的子文件w2的同時向第2 層節(jié)點發(fā)送子文件w1,從而實現(xiàn)模型參數(shù)文件同步的并行數(shù)據(jù)傳輸,極大地提高了效率,降低了時間消耗。

圖5 樹型拓?fù)浣Y(jié)構(gòu)聯(lián)邦學(xué)習(xí)模型同步過程Fig.5 Synchronization process of federated learning model with tree topology structure

2.3.2 算法復(fù)雜度分析

假設(shè)模型權(quán)重文件切割后得到的子文件個數(shù)為k,構(gòu)建的節(jié)點樹T中非葉子節(jié)點出度為o,迭代配置文件分發(fā)所需時間為l2,則所提出的聯(lián)邦學(xué)習(xí)模型權(quán)重同步算法完成每輪權(quán)重參數(shù)分發(fā)所需要的時間Ttree為:

通過分析式(6)和式(7)可知,星型拓?fù)浣Y(jié)構(gòu)下傳輸伴隨節(jié)點數(shù)的增加,聯(lián)邦訓(xùn)練過程中的模型同步時間消耗也將呈線性增加。由于節(jié)點間建立鏈接的時間l1和發(fā)送迭代配置數(shù)據(jù)所需的時間l2占比很小,因此本文所提出的同步方法伴隨訓(xùn)練端數(shù)量的增多同步所需的時間將以對數(shù)的形式增加,更加適用于大規(guī)模的聯(lián)邦學(xué)習(xí)數(shù)據(jù)交易場景。此外,所提出的方法對于模型聚合端的帶寬要求更低。

2.4 交易過程數(shù)據(jù)存儲模塊設(shè)計

區(qū)塊鏈通過點對點傳輸和共識算法等技術(shù)來實現(xiàn)分布式賬本,具有去中心化、不可篡改、記錄可追溯等特點,適用于金融、溯源等多種應(yīng)用場景。在數(shù)據(jù)交易過程中,參與方之間互不信任,為了保證數(shù)據(jù)交易過程中利益分配數(shù)據(jù)和模型數(shù)據(jù)的可信性和存儲的安全性,本文在MTFDT 中設(shè)計一種基于區(qū)塊鏈與IPFS 相結(jié)合的交易過程數(shù)據(jù)存儲機(jī)制。

2.4.1 利益分配與追責(zé)溯源智能合約

依據(jù)數(shù)據(jù)交易服務(wù)的需求對合約功能進(jìn)行抽取,劃分為權(quán)限層、數(shù)據(jù)層、服務(wù)層等3 個部分,如圖6 所示。其中,權(quán)限層通過地址映射來實現(xiàn)賬戶的權(quán)限約束,從而達(dá)到數(shù)據(jù)交易服務(wù)訪問的細(xì)粒度控制。

圖6 數(shù)據(jù)交易場景智能合約設(shè)計Fig.6 Smart contracts design for data transaction scenario

通過將數(shù)據(jù)存儲與數(shù)據(jù)操作進(jìn)行分離的方法來提高合約的可拓展性和易維護(hù)性,在頂層服務(wù)需求發(fā)生變化時,只需要對服務(wù)層中的功能函數(shù)進(jìn)行新增或修改,從而避免了對底層數(shù)據(jù)的影響。為了滿足數(shù)據(jù)交易利益分配計算和模型數(shù)據(jù)溯源需求,智能合約中的主要函數(shù)設(shè)計如表2 所示。

表2 智能合約函數(shù)設(shè)計Table 2 Smart contract function design

2.4.2 數(shù)據(jù)存儲設(shè)計

區(qū)塊鏈中交易的大小是影響系統(tǒng)運行效率的一個重要因素。數(shù)據(jù)交易場景中往往包含了大量的模型權(quán)重信息,具有較大的數(shù)據(jù)量,若將其全部存儲于鏈中,將會對系統(tǒng)的運行效率造成影響,從而降低數(shù)據(jù)交易服務(wù)質(zhì)量。為了緩解數(shù)據(jù)量對區(qū)塊鏈網(wǎng)絡(luò)的壓力,本文在MTFDT 中進(jìn)行數(shù)據(jù)存儲機(jī)制優(yōu)化,如圖7 所示。

圖7 數(shù)據(jù)存儲設(shè)計Fig.7 Data storage design

在數(shù)據(jù)交易過程中,交易服務(wù)模塊在收集數(shù)據(jù)供給方發(fā)送的最新模型數(shù)據(jù)后,將模型數(shù)據(jù)通過IPFS 接口完成上傳,之后通過調(diào)用區(qū)塊鏈智能合約把返回的地址信息與對應(yīng)的數(shù)據(jù)供給方信息以及所屬的數(shù)據(jù)交易任務(wù)信息一同存儲于鏈上;在數(shù)據(jù)交易任務(wù)模型訓(xùn)練過程結(jié)束后,數(shù)據(jù)需求方向數(shù)據(jù)交易服務(wù)模塊發(fā)送模型申請請求,在鏈上完成地址信息查詢后通過IPFS 接口完成下載?;谠摯鎯C(jī)制,在引入?yún)^(qū)塊鏈技術(shù)提高數(shù)據(jù)交易過程去中心化和保證數(shù)據(jù)交易過程模型數(shù)據(jù)可溯源的同時,避免較高的服務(wù)成本,提高可拓展性和效率。

2.5 方案復(fù)雜度分析

MTFDT 數(shù)據(jù)交易方案相比直接使用傳統(tǒng)的聯(lián)邦學(xué)習(xí)進(jìn)行數(shù)據(jù)交易整合了多個模塊,因而增加一定的復(fù)雜度。為了能夠更好地說明方案設(shè)計中對復(fù)雜度的考量以及額外計算量的必要性,對其分析如下:1)利益分配策略模塊中為了實現(xiàn)對數(shù)據(jù)供給方貢獻(xiàn)度的精確計算,增加了評估過程,其時間消耗與數(shù)據(jù)交易任務(wù)參與方數(shù)量正相關(guān);2)模型同步模塊在維護(hù)拓?fù)潢P(guān)系過程中帶來了一定的復(fù)雜度,但整體時間消耗低于原有數(shù)據(jù)同步方法;3)數(shù)據(jù)存儲模塊中引入了區(qū)塊鏈服務(wù),相比直接使用數(shù)據(jù)庫進(jìn)行數(shù)據(jù)存儲增加了復(fù)雜度,在設(shè)計上進(jìn)一步引入了分布式存儲來進(jìn)行優(yōu)化。綜上,MTFDT 方案的整體計算量相對可控,能夠以較低的復(fù)雜度增加來提高數(shù)據(jù)交易的安全性和可靠性。

3 實驗設(shè)計與性能評估

本文基于CIFAR-10 公開數(shù)據(jù)集進(jìn)行了仿真實驗,并通過調(diào)整變量參數(shù)對所提方案中利益分配合理性以及模型同步效率進(jìn)行對比分析。

3.1 利益分配策略效果評估

為了更好地證明本文所提激勵機(jī)制的公平性和有效性,基于CIFAR-10 數(shù)據(jù)集使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型進(jìn)行了實驗驗證。使用3個數(shù)據(jù)供給方節(jié)點(命名為A、B、C)參與數(shù)據(jù)交易過程,將數(shù)據(jù)集進(jìn)行等比例劃分,各個節(jié)點的數(shù)據(jù)之間符合獨立同分布。模型訓(xùn)練效果評估及貢獻(xiàn)度占比如表3、表4所示。

表3 模型訓(xùn)練效果評估對比Table 3 Evaluation and comparison of model training effects

表4 模型訓(xùn)練貢獻(xiàn)度對比Table 4 Comparison of model training contribution %

表3 列出了某輪數(shù)據(jù)交易過程中的聯(lián)邦學(xué)習(xí)訓(xùn)練數(shù)據(jù),該模型訓(xùn)練中以準(zhǔn)確率(ACC)作為評估依據(jù)。根據(jù)該輪數(shù)據(jù)分別使用文獻(xiàn)[12]所提出的評估機(jī)制和本文所提出的訓(xùn)練效果評估機(jī)制進(jìn)行計算,并進(jìn)一步得到貢獻(xiàn)度數(shù)據(jù),如表4 所示。從結(jié)果中能夠看出,文獻(xiàn)[12]評估機(jī)制并不能適用于該情況,而本文MTFDT 中的模型訓(xùn)練效果評估機(jī)制由于綜合考慮了模型在聚合過程中所做出的貢獻(xiàn),從而能夠有效地對訓(xùn)練效果進(jìn)行評估,提高了數(shù)據(jù)交易中利益分配的可靠性。

為了進(jìn)一步分析本文所提出利益分配策略的有效性,使用多個模型和公開數(shù)據(jù)集進(jìn)行仿真評估,實驗結(jié)果如表5 所示??梢钥闯觯讵毩⑼植记覕?shù)據(jù)集等比例劃分的情況下,本文所提出的評估機(jī)制貢獻(xiàn)評估結(jié)果更加符合實際情況。

表5 多場景下數(shù)據(jù)交易貢獻(xiàn)度計算綜合對比Table 5 Comprehensive comparison of data transaction contribution calculation in multiple scenarios %

為了分析所提出的評估機(jī)制在數(shù)據(jù)集規(guī)模不均衡時的表現(xiàn),進(jìn)一步驗證其應(yīng)用于數(shù)據(jù)交易過程中利益分配的公平性。將數(shù)據(jù)集分別按照1∶1∶1、5∶3∶2和7∶2∶1 進(jìn)行劃分,各個節(jié)點的數(shù)據(jù)之間符合獨立同分布。在不同比例數(shù)據(jù)劃分情況下,模型訓(xùn)練達(dá)到收斂時各節(jié)點的貢獻(xiàn)度計算結(jié)果如圖8 所示??梢钥闯?,貢獻(xiàn)度占比與數(shù)據(jù)集規(guī)模比例相近,說明本文所提出的貢獻(xiàn)度量方法能夠保證收益與成本成比例變化,更好地激勵供給方使用更多的數(shù)據(jù)參與到數(shù)據(jù)交易過程中。實驗結(jié)果驗證了本文所提激勵機(jī)制的可行性。

圖8 不同規(guī)模數(shù)據(jù)集分布下貢獻(xiàn)度占比結(jié)果Fig.8 Contribution ratio results under different size dataset distributions

3.2 模型數(shù)據(jù)同步性能對比

基于CIFAR-10 數(shù)據(jù)集,使用VGG16 模型對星型拓?fù)浣Y(jié)構(gòu)模型同步與本文所提出的模型同步方案進(jìn)行效率對比,其實驗中涉及的參數(shù)設(shè)置如表6所示。

表6 實驗參數(shù)設(shè)置Table 6 Experimental parameter settings

在表6 的設(shè)置下對比不同參與方數(shù)量下模型同步所消耗的時間情況,實驗結(jié)果如圖9 所示??梢钥闯?,隨著參與方節(jié)點數(shù)量的增多,模型同步過程所消耗的時間也在增加。在相同情況下,本文所提出方案相比星型拓?fù)浣Y(jié)構(gòu)數(shù)據(jù)同步時間消耗最多減少了34%,并隨著節(jié)點數(shù)量的增加效果更為顯著。

圖9 不同節(jié)點數(shù)目條件下模型同步時間消耗對比Fig.9 Comparison of model synchronization time consumption under different number of nodes

為了進(jìn)一步分析方案的有效性,通過調(diào)整聚合服務(wù)端帶寬大小對比不同方案模型同步時間消耗情況,實驗結(jié)果如圖10 所示??梢钥闯觯S著帶寬變小,同步時間逐步增加,但本文所提出的模型同步方案相對星型拓?fù)涞脑黾于厔莞泳徍?,在同等情況下,時間消耗最大減少了36%。由此可以證明,本文所提方案對參與數(shù)據(jù)交易節(jié)點的帶寬要求更低,實驗結(jié)果與理論分析一致。

圖10 不同帶寬條件下模型同步時間消耗對比Fig.10 Comparison of model synchronization time consumption under different bandwidth conditions

上文通過5 組實驗對所提出的MTFDT 數(shù)據(jù)交易方法中的貢獻(xiàn)計算和模型同步效果進(jìn)行了評估,實驗結(jié)果表明,MTFDT 能夠滿足數(shù)據(jù)交易場景的綜合需求。

4 結(jié)束語

針對聯(lián)邦學(xué)習(xí)在數(shù)據(jù)交易和共享場景應(yīng)用中存在的利益分配、同步開銷和中心化問題,本文深入剖析其關(guān)鍵流程和機(jī)理,提出一種多技術(shù)融合的數(shù)據(jù)交易方法,有效地增強(qiáng)了數(shù)據(jù)交易過程中參與方貢獻(xiàn)評估的公平性,減少了模型同步過程時間消耗,并結(jié)合區(qū)塊鏈和星際文件系統(tǒng)等技術(shù)提高了可靠性和安全性。最后,通過設(shè)計對比仿真實驗驗證了所提方案在數(shù)據(jù)交易場景中的有效性。未來工作中將進(jìn)一步探索異步聯(lián)邦學(xué)習(xí)場景下的模型同步方法和適用于非獨立同分布數(shù)據(jù)集的激勵機(jī)制。

猜你喜歡
交易過程供給方聯(lián)邦
分享經(jīng)濟(jì)信任傳遞機(jī)制的演化博弈研究
物聯(lián)網(wǎng)推進(jìn)農(nóng)業(yè)現(xiàn)代化轉(zhuǎn)型的研究
——基于供需雙方的進(jìn)化博弈
一“炮”而紅 音聯(lián)邦SVSound 2000 Pro品鑒會完滿舉行
跨境電商交易過程研究
供給側(cè)改革:中西方經(jīng)濟(jì)學(xué)比較分析
商情(2020年2期)2020-02-14 05:53:18
探究民商法對交易安全的保護(hù)
今日財富(2019年30期)2019-11-16 11:02:46
303A深圳市音聯(lián)邦電氣有限公司
交易安全及其民商法保護(hù)論略
碩寶成長語錄(二)
20年后捷克與斯洛伐克各界對聯(lián)邦解體的反思
东城区| 宁南县| 江北区| 清原| 炎陵县| 鄂尔多斯市| 张家口市| 红安县| 清徐县| 湘潭市| 昭平县| 尉犁县| 泗洪县| 会同县| 昭通市| 曲阳县| 安阳市| 上思县| 阳东县| 许昌县| 翁源县| 东乡县| 泰兴市| 兴城市| 沙河市| 光山县| 武邑县| 鲁甸县| 铜山县| 双流县| 锦州市| 思茅市| 娄烦县| 扶绥县| 五常市| 健康| 桦川县| 周口市| 京山县| 长沙市| 盖州市|