国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于水印與屬性篩選的用電數(shù)據(jù)泄露溯源方法

2022-04-07 03:23:16鄒云峰
計算機與現(xiàn)代化 2022年3期
關(guān)鍵詞:可用性用電重要性

單 超,鄒云峰

(國網(wǎng)江蘇省電力有限公司營銷服務(wù)中心,江蘇 南京 210036)

0 引 言

電力數(shù)據(jù)包含反映社會生活和生產(chǎn)的居民和企業(yè)真實用電數(shù)據(jù),具有廣泛的應(yīng)用場景和深層的使用價值。隨著電力系統(tǒng)信息化和電力大數(shù)據(jù)應(yīng)用的不斷深入,作為電力營銷數(shù)據(jù)的重要組成部分,用電數(shù)據(jù)在電力數(shù)據(jù)分析中發(fā)揮著重要作用,需要頻繁地在系統(tǒng)內(nèi)進行分發(fā)共享,支撐電力大數(shù)據(jù)分析應(yīng)用。即便對需分發(fā)共享的用電數(shù)據(jù)進行了脫敏處理,仍然存在數(shù)據(jù)接收者對用電數(shù)據(jù)進行非授權(quán)轉(zhuǎn)發(fā)泄露的風(fēng)險,用電數(shù)據(jù)的安全分發(fā)和發(fā)生數(shù)據(jù)泄露后的溯源問責(zé),已成為提升營銷數(shù)據(jù)安全管理能力的重要環(huán)節(jié)。

數(shù)字水印是目前解決數(shù)據(jù)版權(quán)問題的常用方法,文獻[1]將水印嵌入轉(zhuǎn)化為約束條件下的求最優(yōu)解問題,使用遺傳算法、粒子群算法創(chuàng)建水?。晃墨I[2]將圖像水印領(lǐng)域的灰度直方圖調(diào)節(jié)方法應(yīng)用在數(shù)據(jù)庫領(lǐng)域,實現(xiàn)較小的數(shù)據(jù)擾動;文獻[3]提出了基于小波的數(shù)字水印,支持電力數(shù)據(jù)安全傳輸問題;文獻[4]提出了基于混合變換域數(shù)字水印,支持?jǐn)?shù)據(jù)安全傳輸。此外,偽行偽列水印也是目前電力行業(yè)常用的水印方法。

已有研究方法主要存在以下不足:1)對數(shù)據(jù)挖掘分析可用性關(guān)注不足,已有方法主要關(guān)注查詢類應(yīng)用,預(yù)測電費是否逾期是用電數(shù)據(jù)分析的重要場景,現(xiàn)有的水印方法難以有效支撐用電數(shù)據(jù)分發(fā)共享中數(shù)據(jù)挖掘分析可用性的維持,如聚類的可用性等;2)已有方法大多假設(shè)分發(fā)共享中數(shù)據(jù)外泄形式是對完整數(shù)據(jù)表進行非授權(quán)轉(zhuǎn)發(fā),但在實際情況下,非法使用者可能只轉(zhuǎn)發(fā)部分?jǐn)?shù)據(jù)記錄,這將導(dǎo)致嵌入在數(shù)據(jù)中的水印遭到破壞,難以有效提取水印并對泄露者進行溯源。

針對上述問題,本文引入信息增益率和基尼系數(shù),提出重要性指數(shù)指標(biāo)來衡量屬性重要程度,并選擇重要性指數(shù)較小的若干屬性作為非重要屬性,向非重要屬性嵌入水印,降低水印對數(shù)據(jù)分析可用性的影響,實現(xiàn)對用電數(shù)據(jù)分析可用性的維持,并考慮對每條用電元組嵌入完整水印,結(jié)合所選非重要屬性數(shù)目,劃分子水印,通過密鑰和主鍵隨機選擇子水印在元組中的嵌入位置,保證水印安全性,實現(xiàn)部分?jǐn)?shù)據(jù)泄露的溯源。

本文主要工作如下:

1)針對非授權(quán)的部分用電數(shù)據(jù)的泄露溯源問題,將水印切分后分別嵌入數(shù)據(jù)的多個非重要屬性,本文提出根據(jù)主鍵和密鑰隨機選擇水印在小數(shù)部分嵌入位置的方法,實現(xiàn)部分?jǐn)?shù)據(jù)泄露時的水印溯源。

2)針對現(xiàn)有水印方法影響數(shù)據(jù)分析可用性問題,本文引入信息增益率和基尼系數(shù),計算屬性重要性指數(shù),選擇重要性指數(shù)較低的屬性嵌入水印,降低水印對數(shù)據(jù)分析可用性的影響,設(shè)置私密參數(shù)使數(shù)據(jù)接收者無法逆推水印,實現(xiàn)水印安全性和數(shù)據(jù)分析可用性的兼顧。

1 相關(guān)工作

近年來,數(shù)字水印在數(shù)據(jù)安全分發(fā)共享方面得到了持續(xù)的關(guān)注,水印對數(shù)據(jù)可用性的影響以及水印的安全是研究者關(guān)注的焦點。

文獻[5]首次提出了數(shù)據(jù)庫水印的概念,通過修改屬性值LSB(Least Significant Bit)的方法來實現(xiàn)水印嵌入。數(shù)據(jù)庫水印以水印嵌入是否改變原始數(shù)據(jù)為標(biāo)準(zhǔn),可分為基于失真的水印和基于非失真的水印[6-7]。

文獻[8]提出了基于差分?jǐn)U展的技術(shù)水印,通過可逆的方式為數(shù)據(jù)庫添加水印。文獻[9]使用遺傳算法對基于差分?jǐn)U展的水印方法進行了優(yōu)化。文獻[10]使用螢火蟲算法對基于差分?jǐn)U展的水印方法進行了優(yōu)化。文獻[11]通過添加虛假元組實現(xiàn)水印嵌入,虛假元組以真實元組為依據(jù)通過采樣生成。文獻[12]根據(jù)二進制水印序列的LSB調(diào)整元組相對順序?qū)崿F(xiàn)水印嵌入。文獻[13-14]針對醫(yī)療記錄安全分發(fā)問題,提出了基于水印的解決方案。文獻[15]將數(shù)據(jù)集劃分為若干個子集,提出了基于數(shù)據(jù)子集的水印嵌入方法,實現(xiàn)數(shù)據(jù)外泄的溯源。

在提升水印安全性方面,數(shù)據(jù)庫指紋[16-18]是數(shù)據(jù)庫水印領(lǐng)域的重點研究方向之一,通過向多個原始數(shù)據(jù)庫副本添加不同的水印信息形成若干不同的水印數(shù)據(jù)庫并發(fā)送給多個第三方,在數(shù)據(jù)泄露時,從數(shù)據(jù)中提取出與第三方身份對應(yīng)的水印,實現(xiàn)對泄露數(shù)據(jù)的第三方溯源與問責(zé)。文獻[19]提出了將所嵌入水印變?yōu)門ardos編碼的數(shù)據(jù)溯源方法,使用密鑰和主鍵隨機選擇屬性嵌入水印,但這種篩選方法缺少對數(shù)據(jù)分布特性的兼顧,嵌入水印后數(shù)據(jù)的可用性損失較大,同時也無法解決數(shù)據(jù)部分外泄時的溯源問題。文獻[20]通過哈希運算選擇待嵌入水印的屬性和水印嵌入位置,提升水印抗擦除性,但由于水印只嵌入在部分?jǐn)?shù)據(jù)記錄中,且被嵌入水印的記錄只嵌入了水印的一個比特位,部分?jǐn)?shù)據(jù)記錄外泄時,水印可能無法有效提取,造成溯源失敗。針對數(shù)據(jù)部分外泄時的溯源問題,文獻[21]提出了基于距離對數(shù)據(jù)分組的方法,計算記錄與原點的歐氏距離并排序,將數(shù)據(jù)集均分為若干組,實現(xiàn)不依賴主鍵的分組,但水印嵌入后,造成屬性值改變,進而導(dǎo)致分組結(jié)果與原始數(shù)據(jù)的分組結(jié)果不一致,水印可能無法成功提取,并且其向每條元組中嵌入的是子水印而非完整水印,當(dāng)數(shù)據(jù)部分外泄時,從中提取的子水印可能無法組成完整水印而導(dǎo)致溯源失敗。在電力系統(tǒng)內(nèi),已采用的基于偽行/偽列水印的數(shù)據(jù)溯源方法,存在水印容易被甄別擦除問題。文獻[3]提出了基于小波的數(shù)字水印,文獻[4]提出了基于混合變換域數(shù)字水印,支持電力行業(yè)數(shù)據(jù)安全,但它們同樣無法有效維持添加水印后用電數(shù)據(jù)的分析可用性。

綜上所述,現(xiàn)有的基于水印的數(shù)據(jù)溯源方法存在共享分發(fā)過程中數(shù)據(jù)分析可用性維持效果較弱,以及難以有效支撐發(fā)生部分?jǐn)?shù)據(jù)外泄時的溯源問責(zé)問題,難以滿足用電數(shù)據(jù)預(yù)測類數(shù)據(jù)挖掘應(yīng)用。

2 問題描述及相關(guān)定義

2.1 問題描述

在用電數(shù)據(jù)挖掘建模業(yè)務(wù)應(yīng)用場景下,需要將特定行業(yè)(地區(qū))的用電數(shù)據(jù)作為樣本分發(fā)共享給業(yè)務(wù)支撐部門或外協(xié)單位,然而這些獲取授權(quán)的數(shù)據(jù)接收者在接收到用電數(shù)據(jù)后,存在有意或無意泄露數(shù)據(jù)的風(fēng)險,為了規(guī)避用電數(shù)據(jù)非授權(quán)外泄風(fēng)險,需要提升發(fā)生數(shù)據(jù)非授權(quán)外泄后的溯源問責(zé)能力,以便對數(shù)據(jù)非授權(quán)外泄行為進行事后問責(zé)。現(xiàn)有的數(shù)字水印方法存在部分?jǐn)?shù)據(jù)泄露場景下水印遭破壞無法溯源的問題,同時,嵌入水印后的用電數(shù)據(jù)分析可用性維持效果較弱,無法支撐后續(xù)挖掘分析。

針對上述問題,本文設(shè)計一種基于數(shù)字水印的數(shù)據(jù)泄露溯源算法(Watermarking-based Records Traceability Algorithm, WRTA)。該方法利用信息增益率和基尼系數(shù)來設(shè)計屬性重要性衡量指數(shù),選擇重要性指數(shù)較小的屬性,對其小數(shù)部分進行水印嵌入,實現(xiàn)對數(shù)據(jù)分析可用性的維持,并將十進制數(shù)形式的水印劃分為若干個子水印,分別嵌入每條元組的非重要屬性,實現(xiàn)數(shù)據(jù)部分泄露時的溯源。

2.2 相關(guān)定義

以用電數(shù)據(jù)分發(fā)共享后用于電費是否逾期分析場景為例,用電數(shù)據(jù)基本表結(jié)構(gòu)如下:D(企業(yè)編號,A1,A2,…,Am,P),其中P為類標(biāo)號屬性,對應(yīng)待預(yù)測月份電費是否逾期,A1,…,Am為條件屬性,對應(yīng)連續(xù)若干個月的企業(yè)用電信息,諸如月用電量、歷史逾期次數(shù)等,樣例數(shù)據(jù)示意見表1,每行對應(yīng)一家企業(yè)1—4月的用電量和上一年發(fā)生電費預(yù)期的次數(shù),其中第1列的10185~10187為3家企業(yè)的編號,2列~5列為每家企業(yè)1—4月的用電量,第5列為每家企業(yè)上一年逾期次數(shù),最后1列對應(yīng)類標(biāo)號屬性,記錄4月份各家企業(yè)是否發(fā)生了電費逾期。

表1 用電數(shù)據(jù)表樣例

分發(fā)該類數(shù)據(jù)的目的是支撐基于用電數(shù)據(jù)的企業(yè)用電分析、電費逾期風(fēng)險監(jiān)管。

定義1 信息增益[22]。度量數(shù)據(jù)集D按屬性Ai(1≤i≤m)劃分后純度的提升,假設(shè)數(shù)據(jù)集D以屬性Ai進行劃分,則屬性Ai的信息增益為:

Gain(Ai,D)=Entropy(D)-Entropy(Ai,D)

其中,pi為數(shù)據(jù)集D中各個類分布狀態(tài)的概率,Entropy(Ai,D)為D中某條數(shù)據(jù)記錄基于其屬性Ai的取值判斷該記錄所屬類別需要的信息量。

定義2 信息增益率[23]。給定數(shù)據(jù)集D,在決策樹分類中,信息增益率GainRatio(X,D)用于衡量條件屬性X對劃分?jǐn)?shù)據(jù)集的重要程度為:

其中,Gain(X,D)表示利用屬性X劃分?jǐn)?shù)據(jù)集的信息增益,Split_info(X)表示以X屬性對數(shù)據(jù)集D進行劃分后,數(shù)據(jù)集關(guān)于類標(biāo)號屬性分布的一致程度,屬性X的值域為{x1,x2,…,xn},Ti為D中X屬性取xi的數(shù)據(jù)記錄構(gòu)成的數(shù)據(jù)子集,|Ti|表示數(shù)據(jù)子集Ti包含的記錄數(shù)目。

當(dāng)屬性X為連續(xù)屬性時,采用二分法進行處理[23],使連續(xù)屬性離散化。假設(shè)屬性X有n個屬性值,將屬性值從小到大排序,并選擇相鄰屬性值的平均值作為劃分點t,借此將數(shù)據(jù)集劃分為大于等于t和小于t的2個數(shù)據(jù)子集。一共可形成n-1個劃分點,然后計算每個劃分點下的信息增益率并選擇最大值作為該連續(xù)屬性的信息增益率。

定義3 基尼系數(shù)[24]。數(shù)據(jù)集D包含來自m個類別的M條記錄,根據(jù)屬性X將數(shù)據(jù)集劃分為子集D1和D2,這2個數(shù)據(jù)子集包含的記錄數(shù)分別為M1和M2,則屬性X的基尼系數(shù)定義為:

其中,pj表示第j個樣本記錄屬于目標(biāo)類別的概率。

在本例中,數(shù)據(jù)集D包含來自2個類的記錄,對應(yīng)類標(biāo)號屬性P取“是”和“否”2類,即發(fā)生逾期和不發(fā)生逾期2種情況。

定義4 屬性重要性指數(shù)。對數(shù)據(jù)集D中條件屬性X,設(shè)置參數(shù)a、b,滿足0

impt_index(X)=a×GainRatio(X,D)+b×Gini(X,D)

定義5 子水印集。給定水印W,用戶指定欲劃分的子水印數(shù)目t,用戶將其切分為t個子水印W[i],形成子水印集Wsub:

3 WRTA水印算法

WRTA算法包括4個部分:1)選取非重要屬性;2)維護水印表及水印預(yù)處理;3)將水印嵌入記錄的非重要屬性;4)水印提取及部分?jǐn)?shù)據(jù)泄露溯源。

對給定待分發(fā)數(shù)據(jù)集,根據(jù)重要性指數(shù)對屬性排序,選取若干個重要性指數(shù)較小的屬性構(gòu)成非重要屬性集合,將十進制數(shù)形式的水印切分為若干個子水印,將子水印分別嵌入各個非重要屬性的小數(shù)部分,以減少嵌入水印對數(shù)據(jù)分析可用性造成的影響。嵌入位置通過哈希函數(shù)和密鑰進行選擇。當(dāng)數(shù)據(jù)接收者泄露全部或部分?jǐn)?shù)據(jù)時,可從被泄露數(shù)據(jù)的記錄中提取水印,追溯到非授權(quán)泄露該數(shù)據(jù)記錄的數(shù)據(jù)接收者。

3.1 選取非重要屬性

為了兼顧嵌入水印對數(shù)據(jù)分析可用性造成的影響,選擇對分類可用性影響較弱的非重要屬性進行水印嵌入。信息增益和基尼系數(shù)是分類挖掘中常用的評價屬性關(guān)于分類任務(wù)相關(guān)性的方法,是設(shè)計基于信息增益率和基尼系數(shù)的屬性重要性指數(shù),可用來評估待分發(fā)數(shù)據(jù)中各個屬性對維持?jǐn)?shù)據(jù)分析可用性的重要程度。進而,根據(jù)重要性指數(shù)對屬性排序,選擇重要性較小的屬性,進行水印嵌入。具體非重要屬性篩選方法如算法1所示。

算法1 選取非重要屬性方法

輸入:數(shù)據(jù)集D、非重要屬性數(shù)目t、系數(shù)a、系數(shù)b

輸出:非重要屬性集A

1.遍歷數(shù)據(jù)集D,計算A1,…,Am的信息增益率和基尼系數(shù)

2.計算各個屬性Ai(1≤i≤m)的重要性指數(shù)impt_index(Ai)

3.對m個屬性的重要性指數(shù)排序

4.選取重要性指數(shù)最小的t值對應(yīng)屬性,加入非重要屬性集A

5.返回非重要屬性集A

首先,計算數(shù)據(jù)集D的各條件屬性的信息增益率和基尼系數(shù),并設(shè)置私密參數(shù)a、b的計算屬性的重要性指數(shù),選取重要性指數(shù)最小的t個屬性作為待嵌入水印的屬性集,由于計算過程中a、b參數(shù)只有數(shù)據(jù)分發(fā)共享者知道,故數(shù)據(jù)接收方無法逆推計算過程,也無法確定嵌入水印的屬性。

3.2 水印索引表及水印預(yù)處理

建立水印信息與數(shù)據(jù)接收者的索引表,以便在數(shù)據(jù)溯源時根據(jù)提取出的水印確定泄露該數(shù)據(jù)的數(shù)據(jù)接收者,水印索引表模式為(數(shù)據(jù)持有者,水印)。

水印預(yù)處理的目的是為避免在水印嵌入過程中對數(shù)據(jù)質(zhì)量造成較大影響,將水印劃分為t個子水印,在嵌入過程中,將t個子水印嵌入t個非重要屬性中,從而實現(xiàn)對數(shù)據(jù)可用性的保護。在具體劃分過程中,將水印按順序均分為長度一樣的t個子水印,子水印長度len(Wsub[i])=len(W)/t,所有子水印組成子水印集,預(yù)處理過程見算法2。

算法2 水印預(yù)處理

輸入:水印W、欲劃分的子水印的個數(shù)t

輸出:子水印集Wsub

1.計算欲劃分的子水印長度sub_len=len(W)/t

2.對水印W按sub_len的長度切分為t個子水印并存至子水印集Wsub

3.返回子水印集Wsub

3.3 水印嵌入

基于非重要屬性集合,將水印切分為若干子水印,依次嵌入各個非重要屬性。嵌入過程,將水印嵌入非重要屬性的小數(shù)位,以減小水印對數(shù)據(jù)可用性的影響;嵌入到小數(shù)部分的位置,由密鑰、屬性整數(shù)部分的取值以及子水印序號通過哈希計算生成,具體如下:

position=H(KEY‖H(integ‖i)) % len(deci)

其中,i為子水印的序號,‖表示連接符,len(deci)為屬性值小數(shù)部分的長度。嵌入方法的過程見算法3。

算法3 水印嵌入算法

輸入:原始數(shù)據(jù)集D、子水印集Wsub、密鑰KEY

輸出:水印數(shù)據(jù)集DW

1.遍歷原始數(shù)據(jù)集D中的元組

2.遍歷元組的非重要屬性

3.將非重要屬性數(shù)值切分為整數(shù)部分integ和小數(shù)部分deci

4.計算子水印在小數(shù)部分的嵌入位置position=H(KEY‖H(integ‖i)) % len(deci),i為非重要屬性的序號

5.將子水印插入小數(shù)部分第position位,形成新的小數(shù)部分?jǐn)?shù)值

6.將整數(shù)部分?jǐn)?shù)值與新的小數(shù)部分?jǐn)?shù)值連接形成嵌入子水印的屬性值

7.返回嵌入水印數(shù)據(jù)集DW

3.4 水印提取及數(shù)據(jù)溯源

當(dāng)數(shù)據(jù)安全管理人員發(fā)現(xiàn)疑似非授權(quán)外泄的用電數(shù)據(jù)集D′時,可以通過檢測并提取其中的水印實現(xiàn)對非授權(quán)外泄數(shù)據(jù)行為進行溯源問責(zé)。

溯源方法是通過遍歷D′的每條記錄,根據(jù)密鑰、記錄主鍵和非重要屬性的序號,計算水印在該條記錄中某個非重要屬性的嵌入位置,然后提取出子水印Wsub,并將所有子水印Wsub拼接成完整的水印W。對記錄的非重要屬性遍歷,將水印W添加到水印集Wset中,Wset保存的是疑似泄露數(shù)據(jù)集D′中嵌入記錄的所有水印,最后將Wset與水印表中的水印進行匹配,即可辨識出泄露D′的數(shù)據(jù)接收者。在提取子水印Wsub的步驟中,因為嵌入位置是由密鑰KEY、整數(shù)部分integ和非重要屬性序號i共同決定,而這3個變量在水印嵌入和提取過程中均保持不變,進而可知計算出的子水印提取位置和嵌入位置是一致的,所以即使原始數(shù)據(jù)中恰好包含與子水印相同的序列時,也不會產(chǎn)生誤識別的問題。具體水印提取及數(shù)據(jù)溯源過程見算法4。

算法4 水印提取及數(shù)據(jù)溯源算法

輸入:疑似泄露數(shù)據(jù)集D′

輸出:水印集Wset

1.遍歷疑似泄露數(shù)據(jù)集D′中的記錄

2.對記錄的非重要屬性

3.將非重要屬性值切分為整數(shù)部分integ和小數(shù)部分deci

4.計算子水印在小數(shù)部分的嵌入位置position=H(KEY‖H(integ‖i)) % len(deci),i為非重要屬性的序號

5.提取小數(shù)部分deci的第position位至第position+len(Wsub)位,得到該屬性值中嵌入的子水印

6.將提取出的子水印按序連接形成完整水印W

7.將完整水印W存至水印集Wset

8.返回水印集Wset

4 實 驗

本章對WRTA方法對分類可用性維持的效果,以及水印安全性進行實驗分析。實驗數(shù)據(jù)采用江蘇某市7000家企業(yè)用戶2018—2019年連續(xù)20個月的用電數(shù)據(jù)作為測試數(shù)據(jù),以最后一個月是否發(fā)生電費逾期為類標(biāo)號屬性(逾期為True,未逾期為False),對實驗中企業(yè)每月的用電量進行了填補空缺值和數(shù)值歸一化預(yù)處理。

將WRTA算法與基于屬性約束的水印方法EMR[13]以及基于聚類的子水印添加方法RRWC[21]進行對比,驗證添加水印后數(shù)據(jù)的分類效果。實驗硬件環(huán)境為操作系統(tǒng)Win10,CPU2.50 GHz,內(nèi)存8 GB。設(shè)計實驗來驗證算法對分類可用性的維持效果,以及數(shù)據(jù)接收者非授權(quán)泄露的溯源能力。

實驗流程如下:1)設(shè)定密鑰KEY=4326781,水印W=7854394328795438;2)設(shè)定參數(shù)a=b=0.5,并計算20個月用電屬性的重要性指數(shù);3)分別選取重要性指數(shù)最小的2、4、6、8、10個屬性,并將水印W分解嵌入相關(guān)屬性,生成水印數(shù)據(jù)集D′;4)在D和D′分別運行XGBOOST分類算法,采用標(biāo)準(zhǔn)F-measure指標(biāo)計算D和D′分類結(jié)果相似度,F(xiàn)-measure值越接近1,表示添加水印對用電數(shù)據(jù)分析可用性的影響越?。?)在D中隨機選取20%記錄形成溯源準(zhǔn)確性測試數(shù)據(jù)集,將W依次分為2、4、6、8、10份子水印,每次隨機選取測試數(shù)據(jù)集中的一條記錄,依次嵌入這2~10個子水印,進行5次實驗,檢驗是否可以從測試數(shù)據(jù)集中準(zhǔn)確識別唯一嵌入水印的數(shù)據(jù)記錄,驗證算法溯源準(zhǔn)確性。對EMR算法和RRWC算法,根據(jù)樣本數(shù)據(jù)集采樣設(shè)置最優(yōu)參數(shù)進行對比。

從圖1可以看出,本文所提WRTA算法對加水印后數(shù)據(jù)集分類可用性的維持效果顯著優(yōu)于另外2種算法,其原因在于WRTA算法對影響數(shù)據(jù)分類的關(guān)鍵屬性值的小數(shù)部分添加水印,而EMR算法通過粒子群優(yōu)化設(shè)置滿足屬性約束條件的水印,通過直接修改屬性值完成水印嵌入,存在對數(shù)值修改幅度較大,各個屬性的局部修改也難以維持?jǐn)?shù)據(jù)全局分布的不足,因此其對分類可用性維持弱于所提方法。EMR算法未采用子水印策略,因而不受嵌入水印的屬性數(shù)目影響,實驗中其F-measure值不變。RRWC算法雖然也采用劃分子水印的策略,但其不關(guān)注嵌入子水印的屬性對維持分類可用性的影響,故而添加水印后數(shù)據(jù)集的F-measure也相對較低。

圖1 算法分類可用性維持效果對比

WRTA算法選取2~6個屬性嵌入水印時,數(shù)據(jù)集有很高的分類可用性,隨著嵌入水印屬性數(shù)的增加,數(shù)據(jù)集的分類可用性略有下降,但即便選取10個屬性嵌入水印,企業(yè)用電數(shù)據(jù)集的分類可用性維持率仍達到80%以上,結(jié)果表明WRTA算法能有效地維持企業(yè)用電數(shù)據(jù)集的分類可用性。

圖2 算法溯源準(zhǔn)確性實驗結(jié)果

算法溯源準(zhǔn)確性實驗結(jié)果如圖2所示,對1400條測試數(shù)據(jù),運行算法4,提取每條記錄相關(guān)屬性的子水印,若某條記錄提取的子水印連接后等于原嵌入的水印W,則可以識別出該條記錄為隨機選取的添加水印記錄,溯源成功。5次實驗均能準(zhǔn)確識別測試數(shù)據(jù)集內(nèi)嵌入水印的那條數(shù)據(jù)記錄,所提取的子水印分別為:

2個子水印:78543943,28795438

4個子水印:7854,3943,2879,5438

6個子水?。?85,439,432,879,543,800

8個子水印:78,54,39,43,28,79,54,38

10個子水?。?8,54,39,43,28,79,54,38,00,00

上述子水印可以連接生成原水印W=7854394328795438,實驗結(jié)果表明選取嵌入水印的屬性數(shù)目不影響所提方法的溯源準(zhǔn)確性。實驗?zāi)M了僅有一條數(shù)據(jù)泄露的極端場景下,所提方法可以有效溯源,表明所提方法能夠支撐任意比例數(shù)據(jù)記錄泄露情況的數(shù)據(jù)溯源。

5 結(jié)束語

針對目前水印方法存在難以兼顧用電數(shù)據(jù)分析可用性和安全性,以及部分?jǐn)?shù)據(jù)泄露難以溯源的問題,本文提出了一種基于數(shù)字水印的用電數(shù)據(jù)泄露溯源算法,選取非重要屬性嵌入水印,實現(xiàn)對數(shù)據(jù)分析可用性的維持,同時向每條記錄嵌入完整水印,保證部分?jǐn)?shù)據(jù)泄露時的可溯源性,有效兼顧了數(shù)據(jù)可用性和安全性。

猜你喜歡
可用性用電重要性
基于文獻計量學(xué)的界面設(shè)計可用性中外對比研究
包裝工程(2023年24期)2023-12-27 09:18:26
用電安全
基于輻射傳輸模型的GOCI晨昏時段數(shù)據(jù)的可用性分析
“0”的重要性
用煤用電用氣保障工作的通知
安全用電知識多
論七分飽之重要性
幼兒教育中閱讀的重要性
甘肅教育(2020年21期)2020-04-13 08:09:24
用電安全要注意
讀《邊疆的重要性》有感
徐闻县| 收藏| 南乐县| 平武县| 邹城市| 通化县| 工布江达县| 昌宁县| 扎兰屯市| 六枝特区| 河东区| 成都市| 杭锦旗| 泰兴市| 阳信县| 平武县| 德令哈市| 秭归县| 苍溪县| 大姚县| 灵武市| 叙永县| 永州市| 洪江市| 临安市| 基隆市| 蓝田县| 镇平县| 广饶县| 曲阜市| 顺平县| 冕宁县| 山西省| 夏津县| 阿坝| 郯城县| 永昌县| 互助| 长垣县| 濮阳县| 亳州市|