深度模型水印

2022-08-26 00:23張新鵬吳漢舟

自然雜志 2022年4期

張新鵬，吳漢舟

上海大學(xué) 通信與信息工程學(xué)院，上海 200444

2021年3月，新華社發(fā)布《中華人民共和國國民經(jīng)濟和社會發(fā)展第十四個五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》，提出了以人工智能為代表的新型基礎(chǔ)設(shè)施建設(shè)政策，標(biāo)志著人工智能發(fā)展進入技術(shù)持續(xù)創(chuàng)新和應(yīng)用廣泛深化的新階段。以美國為代表的科技大國也將發(fā)展新一代人工智能上升為國家戰(zhàn)略高度，使人工智能成為新一輪技術(shù)和產(chǎn)業(yè)變革的核心驅(qū)動力?？梢哉f，人工智能正在重塑生產(chǎn)方式，優(yōu)化產(chǎn)業(yè)結(jié)構(gòu)，提升生產(chǎn)效率，賦能千行百業(yè)，推動經(jīng)濟社會向著智能化方向加速躍升。不難預(yù)見，人工智能將在服務(wù)人類社會生產(chǎn)、生活等各方面發(fā)揮越來越重要的作用，是數(shù)字經(jīng)濟時代的“新電能”。

作為實現(xiàn)人工智能的代表性技術(shù)，人工神經(jīng)網(wǎng)絡(luò)(簡稱神經(jīng)網(wǎng)絡(luò))是一種模仿生物神經(jīng)網(wǎng)絡(luò)(中樞神經(jīng)系統(tǒng)，尤其是大腦)結(jié)構(gòu)和功能的數(shù)學(xué)模型(或計算模型)，用于對復(fù)雜函數(shù)的估計和近似。如圖1所示，神經(jīng)網(wǎng)絡(luò)由有限多個神經(jīng)元聯(lián)結(jié)起來進行計算，而每個神經(jīng)元的功能是計算加權(quán)向量經(jīng)非線性映射后的結(jié)果。神經(jīng)網(wǎng)絡(luò)是一個能夠?qū)W習(xí)和歸納的系統(tǒng)，即從已知數(shù)據(jù)中挖掘規(guī)律，并對未知數(shù)據(jù)進行可靠的分析和預(yù)測。這個過程可以劃分為兩個階段：訓(xùn)練階段和測試階段。前者利用已知數(shù)據(jù)來確定神經(jīng)網(wǎng)絡(luò)中的待定參數(shù)，一旦確定了參數(shù)就意味著得到了“訓(xùn)練好”的神經(jīng)網(wǎng)絡(luò)模型。后者利用“訓(xùn)練好”的神經(jīng)網(wǎng)絡(luò)模型對未知數(shù)據(jù)進行分析和預(yù)測。可以形象地將神經(jīng)網(wǎng)絡(luò)看作是一名學(xué)生，為了能夠在期末考試(未知數(shù)據(jù))中取得優(yōu)異成績，學(xué)生要在平時的訓(xùn)練(已知數(shù)據(jù))中不斷地學(xué)習(xí)知識和總結(jié)經(jīng)驗。

圖1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖：單個神經(jīng)元(左)；多層神經(jīng)網(wǎng)絡(luò)(右)

自從2012年以神經(jīng)網(wǎng)絡(luò)為架構(gòu)的深度表征學(xué)習(xí)算法[1]奪得ImageNet國際計算機視覺大賽[2]冠軍以來，(深度)神經(jīng)網(wǎng)絡(luò)得到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注和深入研究，并在諸多應(yīng)用領(lǐng)域取得成功，包括人臉識別、自動駕駛、語音識別和自然語言處理等。神經(jīng)網(wǎng)絡(luò)模型不僅可以部署在本地提供給個人使用，也可以部署在云端以提供公共服務(wù)。然而，作為一種數(shù)字產(chǎn)品，神經(jīng)網(wǎng)絡(luò)模型不僅凝結(jié)了設(shè)計者的智慧，還需要消耗大量的訓(xùn)練數(shù)據(jù)和計算資源。例如，為了精準(zhǔn)地識別人臉，我們需要提供幾千萬乃至數(shù)億幅人臉圖像給神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)和歸納，運算耗時可能多達(dá)數(shù)月之久[3]。因此，構(gòu)建訓(xùn)練有素的神經(jīng)網(wǎng)絡(luò)模型需要付出巨大的代價，這使得如何保護神經(jīng)網(wǎng)絡(luò)模型的知識產(chǎn)權(quán)不受侵害變得十分重要。

1 深度模型水印

目前，學(xué)術(shù)界主要運用數(shù)字水印保護深度神經(jīng)網(wǎng)絡(luò)模型的知識產(chǎn)權(quán)，簡稱為“深度神經(jīng)網(wǎng)絡(luò)模型水印”或“深度模型水印”。如圖2所示，數(shù)字水印[4]是一種將特定信息(又稱為“水印”)隱藏在數(shù)字信號中、不影響信號使用價值的安全技術(shù)，信號可以是圖像、視頻和音頻等任意數(shù)字產(chǎn)品。隱藏操作通過修改信號的內(nèi)容來實現(xiàn)，若拷貝含有水印的信號，水印也會一并被拷貝。含有水印的信號可能會受到攻擊，當(dāng)水印提取者接收到可能被攻擊的含水印信號時，他將從信號中重構(gòu)水印以實現(xiàn)版權(quán)鑒定、完整性驗證或叛徒追蹤等目的。例如，某公司通過內(nèi)網(wǎng)向員工發(fā)送重要文檔前，可向文檔中嵌入關(guān)聯(lián)員工身份的水印，使得每份文檔雖具有相同的內(nèi)容，卻承載了不同的水印。一旦文檔泄露到外網(wǎng)，通過在泄露文檔中提取水印，可以追蹤到泄露源。顯然，我們可以向深度神經(jīng)網(wǎng)絡(luò)模型中嵌入水印以保護其知識產(chǎn)權(quán)。

圖2 數(shù)字水印的基本框架示意圖(這里以數(shù)字圖像為例)

然而，不同于圖像和視頻等常見的多媒體數(shù)據(jù)，深度模型需要完成特定任務(wù)。簡單地將適用于多媒體數(shù)據(jù)的水印技術(shù)用于深度模型會降低模型在特定任務(wù)上的性能，損害使用價值，甚至?xí)戆踩{。例如，深度模型已被用于自動駕駛和醫(yī)療輔助診斷等領(lǐng)域，若嵌入水印后深度模型的決策錯誤率非常高，不僅無益于保護模型的知識產(chǎn)權(quán)，還會危害人身安全。因此，深度模型水印要確保水印嵌入操作不會損害模型在特定任務(wù)上的性能，也即任務(wù)保真度高。借鑒多媒體水印的評價指標(biāo)，深度模型水印還需考慮水印的嵌入量(即嵌入的信息量)、水印的保真度(即重構(gòu)的水印質(zhì)量)、水印的安全性(即抵抗攻擊者檢測或重構(gòu)水印的能力)和水印的穩(wěn)健性(即抵抗攻擊者移除水印的能力)。

如圖3所示，依據(jù)水印提取者是否掌握模型的細(xì)節(jié)和能否與模型進行交互，可將現(xiàn)有方法分為三類：“白盒”水印、“黑盒”水印和“無盒”水印?！鞍缀小彼〖俣ㄋ√崛≌咧つＰ偷膬?nèi)部細(xì)節(jié)(如網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)等)；“黑盒”水印假定水印提取者無法獲取模型的內(nèi)部細(xì)節(jié)，但能通過與模型進行交互，獲得模型在特定樣本上的預(yù)測結(jié)果；“無盒”水印假定水印提取者既不知曉模型的內(nèi)部細(xì)節(jié)，也不能與模型進行直接交互，但能從模型生成的任意樣本中重構(gòu)水印，實現(xiàn)產(chǎn)權(quán)保護。接下來，我們分別介紹三種類型的水印技術(shù)。

圖3 深度模型水印技術(shù)分類[3]

2 “白盒”水印

如圖4所示，深度模型可視為一個帶有參數(shù)的有向圖，其中節(jié)點由神經(jīng)元組成，有向邊對應(yīng)于神經(jīng)元之間的連接?！鞍缀小眻鼍凹俣ㄋ√崛≌咧ど疃饶Ｐ偷募?xì)節(jié)，因此，實現(xiàn)“白盒”水印的有效方式是修改有向圖(即深度模型)的參數(shù)或結(jié)構(gòu)。如前所述，直接修改參數(shù)或拓?fù)浣Y(jié)構(gòu)，會降低深度模型在原始任務(wù)上的性能。因此，修改有向圖的參數(shù)或結(jié)構(gòu)要求我們設(shè)計有效機制保持深度模型在原始任務(wù)上的性能。

圖4 深度模型的圖表示實例

以修改參數(shù)為例，我們可以利用正則化實現(xiàn)深度模型水印技術(shù)[5]，其思想是讓水印在模型訓(xùn)練的過程中嵌入到模型參數(shù)中。考慮到模型在訓(xùn)練的過程中，部分參數(shù)會快速收斂，通過修改這些收斂參數(shù)不僅不會損害模型在原始任務(wù)上的性能，還能夠承載額外的水印信息[6]。除了直接修改參數(shù)，我們還可以將水印嵌在參數(shù)的低階統(tǒng)計量(如概率密度函數(shù))[7-9]以提升抗攻擊能力，其他方法還包括對抗訓(xùn)練[10]、抖動調(diào)制[11]、梯度優(yōu)化[12]和“護照層”[13]等。從本質(zhì)上看，這些方法都是在保證模型計算精度的條件下，提升水印的穩(wěn)健性或隱蔽性。

同修改模型參數(shù)相比，調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)可以抵御參數(shù)攻擊，但要解決兩個問題，分別是：如何建立模型結(jié)構(gòu)與水印之間的關(guān)系；如何保障深度模型在結(jié)構(gòu)發(fā)生變化后的計算性能。針對這兩個問題，研究人員提出了利用通道剪枝技術(shù)對深度模型中神經(jīng)元之間的連接進行調(diào)整以實現(xiàn)水印嵌入[14]，其本質(zhì)是刪除深度模型圖中不重要的邊，利用邊的數(shù)量來承載水印，當(dāng)模型結(jié)構(gòu)被調(diào)整后(也即嵌入水印后)，通過對模型參數(shù)繼續(xù)優(yōu)化(即微調(diào))，可恢復(fù)深度模型在原始任務(wù)上的性能。圖5給出了基于剪枝的結(jié)構(gòu)水印嵌入框架示意圖。如前所述，該框架通過修改模型結(jié)構(gòu)而非參數(shù)實現(xiàn)水印嵌入，能夠抵御所有參數(shù)攻擊。

圖5 基于剪枝的結(jié)構(gòu)水印嵌入框架示意圖

上述方法側(cè)重水印的穩(wěn)健性，在實際應(yīng)用過程中，深度模型可能被篡改。為了應(yīng)對這一問題，研究人員提出了適用的“脆弱”水印技術(shù)[15-17]，用于驗證深度模型的完整性?！按嗳酢笔侵笇δＰ偷妮p微修改必將導(dǎo)致水印難以完美重構(gòu)，這種“不完美”可用于模型的完整性驗證。以文獻[15]為例，研究人員對模型參數(shù)進行小波變換，將秘密信息及其哈希值嵌在不重要的小波系數(shù)上。在模型驗證時，驗證者首先提取出秘密信息和哈希值，然后計算所提取出的秘密信息的哈希值，最后比較所計算的哈希值和所提取出的哈希值，若值相等，則認(rèn)為模型是完整的，否則，視之被篡改。圖6給出了該方法所對應(yīng)的一般性框架。

圖6 基于哈希驗證的深度模型脆弱水印框架示意圖

3 “黑盒”水印

“黑盒”場景假定水印提取者不能訪問目標(biāo)模型的內(nèi)部細(xì)節(jié)，但能通過某種方式獲得目標(biāo)模型在特殊數(shù)據(jù)集(又稱觸發(fā)集)上的輸出結(jié)果，通過對這些輸出結(jié)果進行一致性分析，可以鑒定模型的產(chǎn)權(quán)。由于“黑盒”場景在應(yīng)用環(huán)境中較“白盒”場景更為常見(例如，水印提取者可以與部署在云端的深度模型進行交互，但無法獲取模型的內(nèi)部細(xì)節(jié))，故“黑盒”水印相對更為實用。以圖像分類為例，如圖7所示，“黑盒”水印可以描述如下：水印嵌入者利用正常圖像和觸發(fā)圖像訓(xùn)練深度模型，訓(xùn)練好的模型視為含水印，可投入使用；在驗證階段，水印提取者通過獲取目標(biāo)模型在觸發(fā)圖像的預(yù)測結(jié)果，并與預(yù)先指定的標(biāo)簽進行一致性分析，可以驗證產(chǎn)權(quán)?！昂诤小彼〗柚疃饶Ｐ臀蠢玫姆夯芰Γ股疃饶Ｐ图饶軓恼?shù)據(jù)集中學(xué)習(xí)知識以完成原始任務(wù)，又能“記住”觸發(fā)樣本和對應(yīng)標(biāo)簽的映射關(guān)系。當(dāng)目標(biāo)模型出現(xiàn)產(chǎn)權(quán)糾紛時，通過重構(gòu)這種映射關(guān)系，我們可以確定目標(biāo)模型的產(chǎn)權(quán)。

在“黑盒”框架下，如何構(gòu)建觸發(fā)樣本并標(biāo)注類別是重要的科學(xué)問題。圖7所示實例所采取的方法是在正常圖像上直接添加黃色方塊來構(gòu)造觸發(fā)圖像?，F(xiàn)有構(gòu)建觸發(fā)樣本的方法可以分為兩類：選用與模型無關(guān)的樣本；選用與模型相關(guān)的樣本。以圖像分類為例，前者構(gòu)建觸發(fā)樣本的主要手段包括：選用與模型任務(wù)無關(guān)的抽象圖像[18]、選用無關(guān)數(shù)據(jù)集中的圖像[19]和選用隨機噪聲圖像[20]等。對于后者，典型方法包括：向正常樣本添加特殊標(biāo)識(如文字、標(biāo)識、噪聲等)[20-21]、向正常樣本添加輕微的擾動形成對抗樣本[22-23]等。我們可以隨機選擇某個類別作為觸發(fā)樣本的標(biāo)簽，也可以為觸發(fā)樣本分配某個特定的類別。為了實現(xiàn)“黑盒”認(rèn)證，水印提取者需要構(gòu)建一組觸發(fā)樣本。由于水印嵌入者和水印提取者之間存在聯(lián)盟關(guān)系，觸發(fā)樣本的構(gòu)造方式可以共享，即：提取者可以使用與嵌入者完全相同的觸發(fā)樣本，也可以使用與嵌入者完全相同的方法生成新的觸發(fā)樣本。主流方法基本采用這種方式。

圖7 “黑盒”水印的基本框架示意圖(這里以圖像分類為例)

就本質(zhì)而言，上述方法通過讓觸發(fā)樣本遠(yuǎn)離深度模型的高維決策邊界以實現(xiàn)穩(wěn)健的“黑盒”認(rèn)證。倘若觸發(fā)樣本非?？拷鼪Q策邊界，那么對深度模型的輕微擾動大概率會使觸發(fā)樣本跨過決策邊界，做出錯誤的決策，利用這一特性，我們可以實現(xiàn)“黑盒”脆弱水印[24-25]。

4 “無盒”水印

除了“白盒”水印和“黑盒”水印外，研究人員還提出了“無盒”水印[26]。同“白盒”水印相比，“無盒”水印不要求提取者掌握目標(biāo)模型的內(nèi)部細(xì)節(jié)。同“黑盒”水印相比，“無盒”水印不要求提取者與目標(biāo)模型進行直接交互。因此，相對于“白盒/黑盒”水印，“無盒”水印中提取者掌握的信息更少，故具有更好的應(yīng)用前景。“無盒”水印主要面向具有生成任務(wù)的深度模型。以文獻[26]為例，研究人員提出了一種適用于云端服務(wù)場景、面向圖像生成模型的“無盒”水印算法。如圖8所示，該算法聯(lián)合了兩個神經(jīng)網(wǎng)絡(luò)(即受保護的網(wǎng)絡(luò)和水印提取網(wǎng)絡(luò))，通過在模型訓(xùn)練的過程中同時優(yōu)化兩個網(wǎng)絡(luò)的參數(shù)，使得受保護的網(wǎng)絡(luò)在完成訓(xùn)練后不僅可以完成原始任務(wù)(示例中是圖像彩色化)，而且允許驗證者利用密鑰從輸出的圖像中檢測出水印，實現(xiàn)圖像和模型的雙重產(chǎn)權(quán)保護。

圖8 “無盒”水印應(yīng)用場景示例

5 總結(jié)與展望

人工智能模型作為一種數(shù)字產(chǎn)品容易被復(fù)制、調(diào)整和篡改，在人工智能技術(shù)迅速發(fā)展的同時，保護其知識產(chǎn)權(quán)具有顯著學(xué)術(shù)價值和產(chǎn)業(yè)需求。本文圍繞“白盒”“黑盒”和“無盒”三個不同的場景介紹了深度模型水印技術(shù)。毫無疑問，現(xiàn)有研究成果為保護深度模型的知識產(chǎn)權(quán)提供了寶貴的思路，通過對深度模型標(biāo)識所有者、使用者、版本號、傳播路徑并進行篡改檢測，能夠為人工智能的發(fā)展和應(yīng)用提供必不可少的良好環(huán)境。

然而，深度模型水印研究剛剛起步，基礎(chǔ)理論與關(guān)鍵方法中還蘊含很多科學(xué)問題，極具研究價值。一方面，現(xiàn)有研究成果側(cè)重方案設(shè)計，很少關(guān)注理論研究，我們亟需研究和發(fā)展面向深度模型水印的基礎(chǔ)理論，助力深度模型水印理論體系的構(gòu)建。另一方面，深度模型水印在“攻”與“防”中發(fā)展，在不損害使用價值的條件下，對深度模型水印的攻擊一般是針對水印的穩(wěn)健性提出的，穩(wěn)健性好的深度模型水印技術(shù)應(yīng)能抵御多種攻擊?，F(xiàn)有“白盒”水印算法主要通過修改模型參數(shù)或模型結(jié)構(gòu)來嵌入水印，當(dāng)模型經(jīng)過重訓(xùn)練或結(jié)構(gòu)調(diào)整時，水印容易被清除，威脅產(chǎn)權(quán)保護；現(xiàn)有“黑盒/無盒”水印算法很少考慮樣本攻擊(即干擾輸入樣本)、蒸餾攻擊(即構(gòu)造替代模型)和集成攻擊(即融合輸出結(jié)果)等常見的攻擊行為，使算法的實用性受限。因此，深度模型水印還有待學(xué)術(shù)界開展深入研究和探索，在理論基礎(chǔ)和對抗攻擊等方面取得新突破。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

深度模型水印

1 深度模型水印

2 “白盒”水印

3 “黑盒”水印

4 “無盒”水印

5 總結(jié)與展望