趙欣瑩
(河南科技學(xué)院,河南 新鄉(xiāng) 453003)
隨著互聯(lián)網(wǎng)和計算機硬件設(shè)備的飛速發(fā)展,存儲和算力得到顯著提高。數(shù)據(jù)呈指數(shù)級快速增長,使得人工智能應(yīng)運而生,旨在探索人類智能的潛在規(guī)律,讓機器能夠模擬自然智能的行為,且已在各大領(lǐng)域均有突出貢獻(xiàn)。然而,隨之而來的安全問題受到各行各業(yè)的關(guān)注,迫切需要開發(fā)安全的人工智能風(fēng)險防范體系,規(guī)避系統(tǒng)安全風(fēng)險,保障人工智能健康發(fā)展。
隨著電子產(chǎn)品的普及,越來越多的個人信息被存儲于各種應(yīng)用平臺。人們在大數(shù)據(jù)時代是透明的,個人隱私安全成為隱患。人工智能系統(tǒng)從復(fù)雜且龐大的數(shù)據(jù)中挖掘有用信息,可應(yīng)用于行業(yè)規(guī)劃、風(fēng)險評估、生物醫(yī)學(xué)和國防軍事等領(lǐng)域,蘊含著巨大的經(jīng)濟價值、科技價值以及戰(zhàn)略價值,對系統(tǒng)安全防范帶來了挑戰(zhàn)。人工智能系統(tǒng)的安全部署、攻擊防御和監(jiān)管體系貫穿整個生命周期的框架階段、設(shè)計階段、部署階段、維護(hù)階段以及廢棄階段,而且在每個階段都存在安全風(fēng)險隱患[1]。
(1)框架階段。實現(xiàn)需求的整體框架設(shè)計是系統(tǒng)的基礎(chǔ),決定人工智能系統(tǒng)所需解決的問題。此階段會面臨需求是否符合國家法律法規(guī)和社會約定俗成等風(fēng)險。
(2)設(shè)計階段。將設(shè)計的框架用具體的算法和技術(shù)實現(xiàn),并檢測系統(tǒng)是否能夠達(dá)到預(yù)期效果。此階段涉及數(shù)據(jù)風(fēng)險和模型風(fēng)險等。算法設(shè)計時應(yīng)考慮敏感數(shù)據(jù)泄露、數(shù)據(jù)篡改和數(shù)據(jù)投毒等問題的處理策略,構(gòu)建健壯的、魯棒性強的算法,增強模型抵御風(fēng)險的能力。
(3)部署階段。系統(tǒng)框架在指定的真實運行環(huán)境和硬件設(shè)施中搭建的過程。此階段涉及環(huán)境風(fēng)險和平臺風(fēng)險等。系統(tǒng)設(shè)計時應(yīng)檢測硬件環(huán)境和軟件平臺是否安全可靠,為系統(tǒng)部署構(gòu)建可信執(zhí)行環(huán)境。
(4)維護(hù)階段。保障系統(tǒng)的正常運行,實現(xiàn)系統(tǒng)的故障檢測、故障處理和恢復(fù)。此階段涉及惡意攻擊風(fēng)險和系統(tǒng)風(fēng)險等。系統(tǒng)維護(hù)應(yīng)考慮對抗樣本攻擊、算法逆向攻擊、算法漏洞攻擊、算法后門攻擊和模型竊取攻擊等攻擊的防范措施,以及整體健康評測、安全監(jiān)測和修復(fù)、安全訪問控制和合法反制維權(quán)等方面的應(yīng)對措施,使系統(tǒng)具備檢測、防御和恢復(fù)的能力。
(5)廢棄階段。在系統(tǒng)完成任務(wù)停止工作后,需要對系統(tǒng)和數(shù)據(jù)進(jìn)行回收處理,避免隨意丟棄引起的數(shù)據(jù)泄露和模型泄露等風(fēng)險。
將相關(guān)安全技術(shù)貫穿人工智能系統(tǒng)的生命周期,構(gòu)建人工智能安全風(fēng)險防范體系。從安全技術(shù)的層面,可分為業(yè)務(wù)安全風(fēng)險防范、數(shù)據(jù)安全風(fēng)險防范、模型安全風(fēng)險防范以及系統(tǒng)安全風(fēng)險防范。
設(shè)計的系統(tǒng)應(yīng)遵守與符合國家法律法規(guī)、行業(yè)規(guī)則和社會倫理。人工智能技術(shù)可以從大數(shù)據(jù)中挖掘有價值的信息,輔助任務(wù)做出正確的決策。數(shù)據(jù)、模型和系統(tǒng)背后,蘊含著巨大的經(jīng)濟效益。高效益意味著高風(fēng)險,而現(xiàn)有的法律對有效規(guī)制信息數(shù)據(jù)驅(qū)動的人工智能帶來的侵權(quán)問題存在局限性,應(yīng)完善司法體系對數(shù)據(jù)盜取、模型竊取以及系統(tǒng)非法攻擊等行為的管理和懲治,保障用戶和企業(yè)的合法權(quán)益[2]。
數(shù)據(jù)在人工智能系統(tǒng)中占據(jù)重要地位。模型的質(zhì)量、訓(xùn)練效率和泛化性能與數(shù)據(jù)的質(zhì)量、分布及編碼方式等密不可分。現(xiàn)今計算機任務(wù)所要處理的數(shù)據(jù)呈現(xiàn)體量大、多樣化和價值密度低的特點,并多趨向于半結(jié)構(gòu)化和非結(jié)構(gòu)化形式,為數(shù)據(jù)安全傳輸、存儲和處理帶來了挑戰(zhàn)。為保障非公開數(shù)據(jù)的隱私安全,需搭建可信執(zhí)行環(huán)境,采用聯(lián)邦學(xué)習(xí)、數(shù)據(jù)加密、數(shù)據(jù)清洗以及數(shù)據(jù)脫敏技術(shù)等提高數(shù)據(jù)的機密性。
2.2.1 可信執(zhí)行環(huán)境
為使數(shù)據(jù)處于可靠的網(wǎng)絡(luò)環(huán)境中,采用存儲區(qū)域網(wǎng)絡(luò)技術(shù),為數(shù)據(jù)傳輸建立獨立的專用網(wǎng)絡(luò),降低被攻擊的風(fēng)險。數(shù)據(jù)存儲采用獨立磁盤冗余陣列技術(shù),實現(xiàn)數(shù)據(jù)的并行讀寫、鏡像和校驗,能夠提高大數(shù)據(jù)的存取速度,實現(xiàn)數(shù)據(jù)的備份,防止數(shù)據(jù)丟失帶來的損失,在一定程度上解決數(shù)據(jù)的存儲錯誤問題。為防止重要數(shù)據(jù)的篡改,采用區(qū)塊鏈技術(shù),對每個電子文件生成唯一的哈希值。文件篡改將導(dǎo)致哈希值改變,需征求集群中半數(shù)以上的節(jié)點同意并完成所有節(jié)點的信息同步,即篡改數(shù)據(jù)難度大。
2.2.2 聯(lián)邦學(xué)習(xí)機制
在傳統(tǒng)的集中式學(xué)習(xí)中,計算資源統(tǒng)一控制和存儲,導(dǎo)致龐大的數(shù)據(jù)體量存在風(fēng)險集中的隱患。分布式學(xué)習(xí)雖采用非集中式獨立組織管理,但在安全攻擊和非授權(quán)訪問方面存在安全風(fēng)險。為實現(xiàn)大數(shù)據(jù)模型的計算和數(shù)據(jù)隱私安全的維護(hù),聯(lián)邦學(xué)習(xí)機制的設(shè)計目標(biāo)旨在保障信息安全、模型安全以及參數(shù)安全[3]。
2.2.3 數(shù)據(jù)加密
對數(shù)據(jù)進(jìn)行加密計算,做好數(shù)據(jù)泄露和竊取的最后一道防線。數(shù)據(jù)加密技術(shù)是通過加密算法實現(xiàn)的,公鑰用于信息加密,發(fā)送給發(fā)信方,而私鑰由收信方保存。即使公鑰被截獲,截獲方也無法僅使用公鑰解密[4]。數(shù)據(jù)加密技術(shù)應(yīng)用廣泛,如在圖像處理領(lǐng)域中,人臉識別技術(shù)使用的是非結(jié)構(gòu)化圖像數(shù)據(jù)。在身份認(rèn)證等場景中,將人臉數(shù)據(jù)加密處理,可防止通過盜取濫用用戶的人臉信息而對用戶造成損失。針對不同類型數(shù)據(jù)的特點,在數(shù)據(jù)的傳輸和存儲中對數(shù)據(jù)信息進(jìn)行加密計算,建立安全可靠的保護(hù)機制。
2.2.4 數(shù)據(jù)清洗
數(shù)據(jù)清洗是將臟數(shù)據(jù)清洗轉(zhuǎn)換,對問題數(shù)據(jù)進(jìn)行監(jiān)測和重構(gòu)修復(fù)。需要先檢測出原始數(shù)據(jù)中的問題數(shù)據(jù),分析確定清洗算法,處理問題數(shù)據(jù),最后替換原始數(shù)據(jù)中的問題數(shù)據(jù),得到高質(zhì)量的輸入數(shù)據(jù),可解決數(shù)據(jù)的缺失值、異常值、重復(fù)值以及一致性等問題,對數(shù)據(jù)進(jìn)行規(guī)范化處理。問題數(shù)據(jù)檢測出的攻擊性數(shù)據(jù),如投毒數(shù)據(jù)、對抗樣本攻擊數(shù)據(jù)等,需重構(gòu)修復(fù)或刪除,并且可以通過分析處理收集的大量、完備網(wǎng)絡(luò)行為數(shù)據(jù),提取降維、降噪且具有攻擊行為數(shù)據(jù)的固有特征用于訓(xùn)練模型,實現(xiàn)對網(wǎng)絡(luò)行為的實時異常行為檢測。
2.2.5 數(shù)據(jù)脫敏
數(shù)據(jù)脫敏是對大數(shù)據(jù)中的敏感數(shù)據(jù)進(jìn)行保護(hù)的有效方式。對敏感數(shù)據(jù)進(jìn)行隱私計算,限制數(shù)據(jù)使用方不能直接讀取原始數(shù)據(jù)[5]。數(shù)據(jù)失真技術(shù)指在原始數(shù)據(jù)上加入噪聲等干擾信息,隱藏真實數(shù)據(jù),使用時再重構(gòu)數(shù)據(jù)。匿名技術(shù)針對標(biāo)識符進(jìn)行處理,使得入侵者不能從多方竊取的數(shù)據(jù)中還原出個人的標(biāo)識信息,即以犧牲標(biāo)識信息的方法來保護(hù)敏感數(shù)據(jù)安全。關(guān)聯(lián)規(guī)則隱藏技術(shù)將不被公開的數(shù)據(jù)規(guī)則隱藏,數(shù)據(jù)挖掘等算法使用統(tǒng)計學(xué)的分析技術(shù),如關(guān)聯(lián)性分析、聚類和分類等,從數(shù)據(jù)中挖掘隱含的信息。隱藏關(guān)聯(lián)規(guī)則使得不能通過相關(guān)技術(shù)挖掘敏感信息,同時不影響公開數(shù)據(jù)的認(rèn)識發(fā)現(xiàn),可以阻止不法分子利用數(shù)據(jù)關(guān)聯(lián)規(guī)則盜取用戶個人隱私信息。
在人工智能技術(shù)發(fā)展過程中,數(shù)據(jù)挖掘、機器學(xué)習(xí)和深度學(xué)習(xí)等新技術(shù)不斷涌現(xiàn),可從海量數(shù)據(jù)中快速獲取有價值的信息,幫助人們做出正確決策。算法不僅要具備良好的處理分析能力和泛化性能,還要具有健壯性和安全性。
2.3.1 模型魯棒性增強
在深度網(wǎng)絡(luò)等模型訓(xùn)練過程中,需要一定規(guī)模的數(shù)據(jù)量。數(shù)據(jù)增廣在一定程度上可擴展現(xiàn)有數(shù)據(jù)集,使得參與訓(xùn)練的數(shù)據(jù)集更加健壯。數(shù)據(jù)增廣的方式多樣,如在圖像數(shù)據(jù)中可對原始圖像旋轉(zhuǎn)、鏡像、切割、尺度變化、縮放、顏色空間變換和加入噪聲等,由增廣后的數(shù)據(jù)集訓(xùn)練得到的模型將具有更好的泛化性能,應(yīng)對不同的測試集,具有更穩(wěn)定的效果,增強了模型的魯棒性。健壯的模型可以在一定程度上抵御外來的攻擊。
2.3.2 模型惡意攻擊防范
(1)對抗樣本攻擊防范。對抗樣本的攻擊是在原始樣本上添加微小的干擾信息,會影響模型的決策,使模型出錯。攻擊者可以獲取模型算法和參數(shù)的攻擊是白盒攻擊,不獲取模型算法和參數(shù)的攻擊是黑盒攻擊。不論黑盒攻擊還是白盒攻擊,攻擊者都可以與系統(tǒng)交互。攻擊者分析獲取的系統(tǒng)信息,生成針對該系統(tǒng)的對抗樣本。將對抗樣本與正常樣本一起輸入到模型訓(xùn)練中,將直接影響模型的準(zhǔn)確率,引導(dǎo)模型做出錯誤的決策。對抗樣本攻擊的防范分成2 個方面。一是增強模型的魯棒性,將生成的對抗樣本加入正常訓(xùn)練集進(jìn)行對抗訓(xùn)練,可提高模型的魯棒性,使得模型能夠在已知的對抗攻擊中有較好的效果。對抗樣本的生成可使用梯度實現(xiàn),也可利用削弱模型梯度的方式防御攻擊。對抗樣本是通過加入噪聲實現(xiàn)的,數(shù)據(jù)預(yù)處理環(huán)節(jié)的降噪處理可在一定程度上削弱噪聲的影響。二是對抗攻擊的檢測,可通過原始樣本和降噪后樣本對模型輸出結(jié)果的差異檢測來實現(xiàn)。對于差異較大的樣本,需要進(jìn)行數(shù)據(jù)清洗處理。
(2)算法逆向攻擊防范。算法逆向攻擊可分為成員推理攻擊和屬性推理攻擊2 種。成員推理攻擊是一個二分類問題,攻擊者分析竊取的數(shù)據(jù),可以推理出數(shù)據(jù)是否存在于訓(xùn)練集。屬性推理攻擊是攻擊[7]。防御成員推理攻擊可對數(shù)據(jù)進(jìn)行正則化處理,防止模型產(chǎn)生過擬合,避免從數(shù)據(jù)在預(yù)測結(jié)果上的好壞來判斷是否是成員數(shù)據(jù)。
(3)算法漏洞攻擊防范。人工智能是讓機器可以擁有像人類一樣的智能,而現(xiàn)有的技術(shù)還未能實現(xiàn)。因此,對于模型攻擊,算法不能完全識別。即便是人類,也無法完全識別。若要求算法完全可靠,則需窮舉所有的輸入,產(chǎn)生正確的輸出,但是在實際應(yīng)用中是不能實現(xiàn)的。算法漏洞攻擊的防范,需在系統(tǒng)中引入攻擊算法和防御算法。攻擊算法用于模擬外部攻擊行為,防御算法用于檢測攻擊行為,并對不同的行為做出相應(yīng)的反應(yīng),確保算法安全。
(4)算法后門攻擊防范。開發(fā)算法時,程序員會創(chuàng)建后門,方便測試和修改算法。若在算法發(fā)布時未處理后門,會被攻擊者作為攻擊算法的有力武器。后門攻擊有多種類型,如數(shù)據(jù)采集時采集到被投毒的數(shù)據(jù)用于模型訓(xùn)練,生成被投毒的模型,會對被投毒的數(shù)據(jù)產(chǎn)生攻擊者預(yù)期的結(jié)果。在算法由于資源或技術(shù)原因需要外包或是使用外部的預(yù)處理模型時,也會存在第三方后門攻擊的風(fēng)險等。算法后門攻擊的防范,需要消除算法中隱藏的后門,完善處理在系統(tǒng)開發(fā)階段因開發(fā)需求預(yù)留的后門。
(5)模型竊取攻擊防范。模型竊取攻擊典型的攻擊方式是生成原模型的替代模型。該替代模型通過竊取原模型的輸入數(shù)據(jù)和輸出數(shù)據(jù)訓(xùn)練得到。模型竊取攻擊的防范中,模型相關(guān)的輸入數(shù)據(jù)、參數(shù)和預(yù)測結(jié)果等數(shù)據(jù)可采用加密算法加密存儲,連同密鑰放在區(qū)塊鏈中,避免數(shù)據(jù)篡改。
2.4.1 系統(tǒng)評測
檢驗決策的合理性,結(jié)果是否符合常理等;檢查模型的公平性,是否因為訓(xùn)練數(shù)據(jù)的不均衡導(dǎo)致結(jié)果的偏差等;檢查模型的訓(xùn)練程度,是否出現(xiàn)嚴(yán)重的過擬合現(xiàn)象,降低泛化性能;檢查系統(tǒng)的安全性,標(biāo)定安全等級;檢驗系統(tǒng)是否偏離既定目標(biāo),是否按照框架和設(shè)計需求運行。
2.4.2 系統(tǒng)監(jiān)測
系統(tǒng)中應(yīng)設(shè)置安全監(jiān)測和處理機制,實現(xiàn)對數(shù)據(jù)攻擊、模型攻擊和系統(tǒng)攻擊的自動檢測,并能做出相應(yīng)的防御行為,動態(tài)實時監(jiān)控系統(tǒng),及時處理和修復(fù)故障,保障系統(tǒng)正常運行。
2.4.3 訪問控制
對于系統(tǒng)的管理者和使用者等不同身份、不同類別的人員,分配不同的權(quán)限,對應(yīng)不同的身份認(rèn)證。對用戶非正常的訪問和請求加以限制,設(shè)立安全熔斷機制。
2.4.4 主動進(jìn)攻
系統(tǒng)被攻擊時要保存好證據(jù),用法律法規(guī)維護(hù)合法權(quán)益。例如,在模型竊取中,可在模型的輸出結(jié)果上加上隱形水印,替代模型學(xué)習(xí)留下證據(jù)。
人工智能的數(shù)據(jù)、模型和系統(tǒng)具有巨大的經(jīng)濟價值,其構(gòu)建和維護(hù)需要耗費大量的成本,因此會受到各種目的的威脅和攻擊,存在重大安全隱患。本文分析人工智能系統(tǒng)生命周期的框架、設(shè)計、部署、維護(hù)和廢棄5 個階段所遇到的安全風(fēng)險,使用相應(yīng)的安全技術(shù)解決風(fēng)險隱患,并從業(yè)務(wù)安全、數(shù)據(jù)安全、模型安全以及系統(tǒng)安全4 個維度構(gòu)建人工智能系統(tǒng)安全風(fēng)險防范體系。