張文鋒,雷珉
(國(guó)家稅務(wù)總局大連市稅務(wù)局信息中心, 遼寧 大連 116021)
隨著稅收信息化和稅制改革的發(fā)展,稅務(wù)數(shù)據(jù)的價(jià)值日益突顯,安全形勢(shì)也日益嚴(yán)峻。各級(jí)稅務(wù)部門作為網(wǎng)絡(luò)運(yùn)營(yíng)者,承擔(dān)著對(duì)其收集的用戶信息嚴(yán)格保密和建立健全用戶信息保護(hù)制度的義務(wù)。近年來,關(guān)系數(shù)據(jù)庫(kù)水印作為新興的信息隱藏技術(shù),為稅收數(shù)據(jù)安全保護(hù)提供了簡(jiǎn)便、高效的解決方案。
數(shù)字水印技術(shù)是20世紀(jì)90年代出現(xiàn)的一門嶄新的技術(shù),它通過在數(shù)字產(chǎn)品中嵌入可感知或不可感知的信息來確定數(shù)字產(chǎn)品的所有權(quán)或檢驗(yàn)數(shù)字內(nèi)容的原始性。數(shù)字水印技術(shù)彌補(bǔ)了加密——解密技術(shù)不能對(duì)解密后的數(shù)據(jù)提供進(jìn)一步保護(hù)的不足,彌補(bǔ)了數(shù)字簽名不能在原始數(shù)據(jù)中一次性嵌入大量信息的弱點(diǎn),彌補(bǔ)了數(shù)字標(biāo)簽容易被修改和剔除的缺陷,彌補(bǔ)了數(shù)字指紋僅能給出破壞者信息的局限[1]。但傳統(tǒng)數(shù)字水印技術(shù)的研究大多集中于多媒體數(shù)據(jù)的版權(quán)保護(hù),由于關(guān)系數(shù)據(jù)庫(kù)結(jié)構(gòu)與多媒體數(shù)據(jù)結(jié)構(gòu)的差異,關(guān)系數(shù)據(jù)庫(kù)水印技術(shù)存在實(shí)現(xiàn)的難度,進(jìn)展較為緩慢。
關(guān)系數(shù)據(jù)庫(kù)是建立在關(guān)系數(shù)據(jù)庫(kù)模型基礎(chǔ)上的數(shù)據(jù)庫(kù),是稅務(wù)系統(tǒng)應(yīng)用開發(fā)的主流架構(gòu)成員。稅務(wù)系統(tǒng)中常用的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)有Oracle,Mysql,SqlServer等產(chǎn)品。關(guān)系數(shù)據(jù)庫(kù)有很多數(shù)值型字段,并且在某些運(yùn)算應(yīng)用中對(duì)數(shù)值的精度要求不高?;谶@樣的自然特性,對(duì)數(shù)值型字段的值進(jìn)行較小的改動(dòng),產(chǎn)生允許的偏移,就可以找到冗余空間嵌入水印信息。關(guān)系數(shù)據(jù)庫(kù)水印技術(shù)需要有良好的安全性、魯棒性、透明性、和檢測(cè)能力。目前,常見的關(guān)系數(shù)據(jù)庫(kù)水印技術(shù)有R·Agrawal和R·Sion在2002年分別提出的兩種基于標(biāo)記策略的關(guān)系數(shù)據(jù)庫(kù)數(shù)字水印技術(shù),牛夏牧在2003年提出的水印驗(yàn)證算法和蒙應(yīng)杰、吳超等人提出的零水印技術(shù)。
聚類是將物理或抽象對(duì)象的集合組成為由類似的對(duì)象組成的多個(gè)類的過程[2]。常見的聚類算法有K-Means,MeanShift等。本文采用的K-Mmedians算法是K-means算法的變形,通過指定聚類數(shù)目K,可基于數(shù)據(jù)集合的中位值計(jì)算距離函數(shù),把數(shù)據(jù)分成K個(gè)類。K-Mmedians算法簡(jiǎn)潔高效,不容易受異常值的影響。
銀稅互動(dòng)項(xiàng)目是國(guó)家稅務(wù)總局和中國(guó)銀監(jiān)會(huì)貫徹落實(shí)國(guó)家發(fā)改委要求,助推小微企業(yè)發(fā)展的重要舉措。兩個(gè)部委聯(lián)合發(fā)布的《關(guān)于進(jìn)一步推動(dòng)“銀稅互動(dòng)”工作的通知》中提到要加大銀稅信息交流力度,擴(kuò)大納稅信用信息主動(dòng)推送范圍,豐富銀稅信息互換內(nèi)容,加強(qiáng)銀稅互動(dòng)信息安全。銀稅互動(dòng)信息傳遞和接收的單位要簽訂信息保密協(xié)議,規(guī)范信息使用范圍,明確信息保密義務(wù),共同做好信息傳遞過程中的安全防護(hù)工作,確保相關(guān)涉稅信息不沉淀、不外泄,有效保護(hù)企業(yè)商業(yè)秘密,保障納稅人合法權(quán)益。
從網(wǎng)絡(luò)安全角度,縱觀國(guó)內(nèi)政務(wù)數(shù)據(jù)共享交換項(xiàng)目,主要存在以下幾點(diǎn)風(fēng)險(xiǎn):數(shù)據(jù)交付方對(duì)數(shù)據(jù)接收方的控制能力弱,難以對(duì)接收方使用數(shù)據(jù)進(jìn)行有效監(jiān)督和管理;無法從交換標(biāo)的本身確認(rèn)責(zé)任方,數(shù)據(jù)交互雙方往往只能靠簽訂保密協(xié)議的方式約定安全責(zé)任,缺乏事后電子取證、行為追溯機(jī)制;數(shù)據(jù)接收方一旦出現(xiàn)數(shù)據(jù)泄漏或違規(guī)使用等問題,數(shù)據(jù)交付方無法證明其真?zhèn)?、追究其?zé)任,后果無法想象。
為了增強(qiáng)系統(tǒng)的安全性,大連市稅務(wù)局銀稅互動(dòng)平臺(tái)項(xiàng)目采用專線連接方式部署,在納稅人授權(quán)下為金融機(jī)構(gòu)提供用于評(píng)估納稅人金融信貸風(fēng)險(xiǎn)的有效數(shù)據(jù),將納稅人的稅收信用轉(zhuǎn)換成信貸資本的參考數(shù)據(jù),包括企業(yè)名單、注冊(cè)地址、申報(bào)信息、征稅信息。(見圖1)
圖1 具體系統(tǒng)拓?fù)鋱D
在銀稅互動(dòng)項(xiàng)目中,大連市稅務(wù)局需要為銀行方傳輸納稅人申報(bào)、征收和發(fā)票信息,數(shù)據(jù)經(jīng)過銀行總部模型計(jì)算,評(píng)估納稅人實(shí)際能夠貸款的金額。在這個(gè)項(xiàng)目中,傳輸?shù)臄?shù)據(jù)80%為數(shù)值型,而且計(jì)算模型對(duì)各數(shù)值型的精度要求不高,有嵌入水印的冗余空間。本文提出并實(shí)現(xiàn)了一種在R·Agrawal的標(biāo)記策略基礎(chǔ)上,結(jié)合K-Medians聚類算法的關(guān)系數(shù)據(jù)庫(kù)水印技術(shù)。該技術(shù)可多次嵌入有意義的水印信息,并且具有更高的魯棒性和抗攻擊性,在數(shù)據(jù)安全保護(hù)工作中具有較好的應(yīng)用價(jià)值。
1.標(biāo)記選定字段。(1)假設(shè)原始關(guān)系數(shù)據(jù)庫(kù)用H(Q,A1,A2,..,Aj)表示,其中Q為主鍵,A1,A2,..,Aj為j個(gè)選定的可嵌入水印信息的數(shù)值型屬性列,H中有n個(gè)元組,它們分別為h1,h2,…,hj,每個(gè)元組r中都有一個(gè)主鍵h.q和j個(gè)數(shù)值型屬性值a1,a2,..,aj。假定主鍵h.q不可以修改。(2)通過單向加密哈希函數(shù)對(duì)選定的字段進(jìn)行標(biāo)記,標(biāo)記編號(hào):id(hjaj)=hash(key,hjqj,hiaj)。哈希處理可以改變數(shù)據(jù)項(xiàng)的原始順序,不僅可以分散水印產(chǎn)生的偏移對(duì)整體數(shù)據(jù)的影響,而且還可以提高水印的抗攻擊能力和提取能力。在計(jì)算標(biāo)記編號(hào)時(shí),增加了密鑰KEY值,確保計(jì)算過程保密可靠。
2.水印預(yù)處理。假設(shè)需要嵌入的水印信息為CTB。先通過ASCII碼對(duì)照表,將CTB轉(zhuǎn)換成相應(yīng)的二進(jìn)制,得到一組二進(jìn)制流S。
3.聚類標(biāo)記字段。為了向數(shù)據(jù)表中插入多枚水印,需要對(duì)標(biāo)記字段進(jìn)行聚類。假設(shè)需要插入M枚水印,則需要將標(biāo)記字段分為K類,K=L×M。先計(jì)算標(biāo)記字段的聚類值:w(id)=hash(id(hjaj)),組成數(shù)據(jù)集合W。利用Python內(nèi)置Sklearn庫(kù)中的K-Medians聚類模型對(duì)數(shù)據(jù)集合W進(jìn)行聚類,并按中心值排序,得到D1,D2,…,DkK類,每一類包含若干個(gè)w(id)。
4.嵌入水印。將S1替換D1類對(duì)應(yīng)的每個(gè)標(biāo)記字段的最低有效位LSB,依次替換,直到Sk替換到Dk對(duì)應(yīng)的每一個(gè)標(biāo)記字段中,水印信息嵌入完畢。(見圖2)
圖2 水印嵌入算法流程
1.標(biāo)記選定字段。按照已選定的列名計(jì)算水印數(shù)據(jù)庫(kù)中字段的標(biāo)記編號(hào):id(hjaj)=hash(key,hjqj,hjaj)。
2.聚類標(biāo)記字段。計(jì)算標(biāo)記字段的聚類值:w(id)=hash(id(hjaj)),組成數(shù)據(jù)集合W。并聚類成K類,K=l×M。根據(jù)各聚類的中心值進(jìn)行排序成D1,D2,…,Dk。
3.提取水印。提取Dk類中對(duì)應(yīng)的數(shù)值型字段的最低有效位LSB??紤]到水印數(shù)據(jù)庫(kù)可能被修改,需要比較提取出的1和0的個(gè)數(shù),假定提取出c個(gè)1、e個(gè)0,如果c>e,則Sk=1;c 圖3 水印提取算法流程 水印技術(shù)在銀稅互動(dòng)項(xiàng)目中的應(yīng)用部署如圖4。 圖4 應(yīng)用部署圖 截止至2020年初,大連市稅務(wù)局銀稅互動(dòng)平臺(tái)已穩(wěn)定運(yùn)行一年多,先后有五家銀行接入,累計(jì)提供數(shù)據(jù)23萬條,國(guó)家戰(zhàn)略政策初見成效。經(jīng)過抽檢結(jié)果顯示,水印項(xiàng)目作為大連銀稅互動(dòng)項(xiàng)目的重要組成部分,已累計(jì)插入水印信息1萬枚,分散在近85萬個(gè)可用數(shù)值型屬性上。實(shí)驗(yàn)抽檢結(jié)果顯示,在數(shù)據(jù)泄漏30%時(shí)就可以通過水印提取算法還原出水印信息,為數(shù)據(jù)泄露安全責(zé)任追究提供有力的電子證據(jù)。 隨著政府?dāng)?shù)字化轉(zhuǎn)型和稅收職能的轉(zhuǎn)變,在自然人、社保和非稅收入等信息化項(xiàng)目中,稅務(wù)行業(yè)必然會(huì)與越來越多的第三方機(jī)構(gòu)進(jìn)行數(shù)據(jù)交互。近期,國(guó)家稅務(wù)總局在相關(guān)稅收征管數(shù)據(jù)管理辦法的征求意見稿中首次提出了第三方留存稅收征管數(shù)據(jù)的安全問題,未經(jīng)稅務(wù)機(jī)關(guān)允許,要求第三方不得對(duì)其留存的稅收征管數(shù)據(jù)進(jìn)行轉(zhuǎn)讓、備份、篡改、破壞等操作,不得用于其他未經(jīng)允許的各種行為。使用關(guān)系數(shù)據(jù)庫(kù)水印技術(shù)可以明確電子數(shù)據(jù)所有權(quán),為第三方安全責(zé)任問責(zé)制提供有力的電子憑證和法律證據(jù),在解決第三方數(shù)據(jù)安全管理工作中有重大應(yīng)用價(jià)值。 國(guó)家對(duì)信息安全技術(shù)與網(wǎng)絡(luò)安全保護(hù)正式邁入等級(jí)保護(hù)2.0時(shí)代,等級(jí)保護(hù)2.0對(duì)大數(shù)據(jù)等新技術(shù)新應(yīng)用提出了安全標(biāo)準(zhǔn)。按照等級(jí)保護(hù)2.0標(biāo)準(zhǔn),大數(shù)據(jù)平臺(tái)應(yīng)對(duì)數(shù)據(jù)采集終端、數(shù)據(jù)導(dǎo)入服務(wù)組件、數(shù)據(jù)導(dǎo)出終端等的使用實(shí)施身份鑒別,應(yīng)設(shè)置數(shù)據(jù)安全標(biāo)記功能,基于安全標(biāo)記的授權(quán)和訪問控制措施,滿足細(xì)粒度授權(quán)訪問控制管理能力要求。使用關(guān)系數(shù)據(jù)庫(kù)水印技術(shù)可以從數(shù)據(jù)本身出發(fā),實(shí)現(xiàn)身份標(biāo)記,為各種授權(quán)訪問控制提供基礎(chǔ)信息,滿足等級(jí)保護(hù)2.0的相關(guān)要求。 目前,各級(jí)稅務(wù)部門普遍使用信息化運(yùn)維外包服務(wù)。2017年國(guó)家稅務(wù)總局專門下發(fā)了《稅務(wù)系統(tǒng)外部技術(shù)支持人員網(wǎng)絡(luò)安全管理規(guī)范》,要求規(guī)范約束審計(jì)外部技術(shù)人員運(yùn)維行為,防止出現(xiàn)數(shù)據(jù)泄漏等安全事故。關(guān)系數(shù)據(jù)庫(kù)水印技術(shù)可以標(biāo)記多方運(yùn)維公司,解決多家運(yùn)維商同時(shí)使用金三接口時(shí),對(duì)金三數(shù)據(jù)的運(yùn)維安全責(zé)任追究問題。 數(shù)字水印廣泛使用于多媒體文件版權(quán)保護(hù)中,很多播放器可以鑒別正版多媒體文件。未來可以利用關(guān)系數(shù)據(jù)庫(kù)水印技術(shù),通過開票客戶端程序識(shí)別電子發(fā)票數(shù)據(jù)的真?zhèn)?,防止電子發(fā)票數(shù)據(jù)被篡改假冒。 當(dāng)前數(shù)據(jù)所有權(quán)的歸屬問題尚未達(dá)成法律層面共識(shí),數(shù)據(jù)交換行為無規(guī)范約束,充滿了法律風(fēng)險(xiǎn),極易損害數(shù)據(jù)交互主體的基本權(quán)利。關(guān)系數(shù)據(jù)庫(kù)水印技術(shù)雖然是解決數(shù)據(jù)所有權(quán)問題最好的方案,但是關(guān)系數(shù)據(jù)庫(kù)水印還存在社會(huì)公信力問題,目前尚未有一個(gè)有力的水印第三方認(rèn)證機(jī)構(gòu)對(duì)水印進(jìn)行認(rèn)證管理,水印的法律效力還有待進(jìn)一步提高。 本文設(shè)計(jì)的關(guān)系數(shù)據(jù)庫(kù)水印技術(shù)適用于數(shù)值型數(shù)據(jù),主要基于數(shù)值型字段允許誤差的原理,找到了水印添加的冗余空間。然而稅收數(shù)據(jù)中還存在著諸如納稅人名稱、注冊(cè)地址等非數(shù)值型數(shù)據(jù)。非數(shù)值型數(shù)據(jù)精度比較高,任何改變都可能導(dǎo)致數(shù)據(jù)失去原有含義,使用本文方法就找不到冗余空間。目前基于非數(shù)值型字段嵌入水印技術(shù)已有一些理論研究,還有待進(jìn)一步實(shí)踐應(yīng)用。(三)應(yīng)用部署圖
(四)項(xiàng)目成效
四、關(guān)系數(shù)據(jù)庫(kù)水印技術(shù)在稅務(wù)行業(yè)的應(yīng)用前景
(一)解決第三方留存稅收征管數(shù)據(jù)安全問題
(二)滿足等級(jí)保護(hù)2.0對(duì)大數(shù)據(jù)等新技術(shù)的安全要求
(三)解決外包運(yùn)維中的安全問題
(四)探索電子發(fā)票防偽技術(shù)新思路
五、關(guān)系數(shù)據(jù)庫(kù)水印技術(shù)的研究方向
(一)水印技術(shù)的法律效力有待提高
(二)非數(shù)值型字段水印技術(shù)的實(shí)踐研究