高亞楠
(國家信息中心信息與網(wǎng)絡安全部 北京 100045)
自然語言處理(NLP)[1]技術(shù)作為一項人工智能技術(shù),旨在使計算機能夠理解、分析、處理和生成自然語言.NLP技術(shù)可以用于語言生成、語音識別、問答、文本分類、情感分析、機器翻譯等領域.NLP技術(shù)的發(fā)展使得計算機能夠更好地與人類進行交互,提高了人機交互的效率和便利性,也極大地提高了信息處理效率、跨語言交流效率和機器的推理分析能力.
大模型技術(shù)[2]作為NLP的典型應用,為NLP的發(fā)展注入了新的動力,由于其具有海量數(shù)據(jù)供給、大型機器承載以及大規(guī)模算力支撐,可以解決小模型或者小型NLP應用無法解決和理解的問題,可以將NLP的推理能力、理解能力和分析能力以指數(shù)級速度提升.因此,基于大模型技術(shù)的ChatGPT4.0、PaLM-E和文心一言等產(chǎn)品一經(jīng)發(fā)布,便到廣泛應用,并服務于日常生活的方方面面.
然而,隨著大模型技術(shù)的不斷發(fā)展,其面臨和引發(fā)的網(wǎng)絡安全風險也越來越多.首先,可能對個人或組織權(quán)益造成損害,發(fā)生大量個人信息的泄露、個人畫像的關聯(lián)生成、算力的惡意利用等.其次,可能對社會和國家的秩序和利益造成損害,發(fā)生攻擊的自動化生成和實施、漏洞的批量化發(fā)掘和惡意利用等[3].此外,大模型設施或算力還可能被反動武裝等利用,作為戰(zhàn)爭和國際爭端的工具和武器,對科技、和平、環(huán)境和文明的進步造成惡劣影響.
當前國內(nèi)的大模型技術(shù)尚處在起步階段,其網(wǎng)絡安全研究工作存在空白,缺乏體系化的分析和應對措施的探討,本文將探討大模型技術(shù)面臨的風險和網(wǎng)絡安全治理框架,并給出應對步驟(見第3節(jié)).
大模型技術(shù)一般是指人工智能預訓練大模型,即模型在大規(guī)模數(shù)據(jù)集上,采用海量算力完成預訓練后,僅需少量數(shù)據(jù)微調(diào),可直接支撐各類應用.大模型具有高準確率和泛化能力,通常在大型計算機集群上完成.
大模型技術(shù)的特點主要包括以下幾個方面:
1) 涌現(xiàn).當模型規(guī)模超過臨界值后,展現(xiàn)出較小的模型不具備的較強能力,包括思維、抽象、推理、歸納、匹配等幾十項能力.
2) 自適應力強.大模型的適應力隨著發(fā)展不斷延伸,不僅僅局限于文本,也包括圖片、語音、視頻等多領域、多形式.
3) 迭代速度快.由于大模型在海量的數(shù)據(jù)訓練下不斷地更新完善,所以其迭代和更新速度也十分迅速.
4) 自監(jiān)督學習.大量數(shù)據(jù)的訓練可以不斷改進大模型的智能性,并進行自身的不斷優(yōu)化[4].
5) 準確率高.大模型的訓練可以得到很高的準確率和泛化能力.
6) 數(shù)據(jù)量和計算量大.大模型需要大量的數(shù)據(jù)進行訓練,通常需要數(shù)百萬到數(shù)千萬的數(shù)據(jù),同時需要大量的計算資源支撐.
大模型技術(shù)的基礎是人工智能領域的眾多模型,主要包括語言生成模型、語言理解模型和多模態(tài)大模型.涉及自然語言處理、圖像識別、語音識別等各個方面.
語言生成模型[5]的典型應用是GPT3.0模型.而GPT3.0模型基于GPT1.0模型和GPT2.0模型發(fā)展而來.其中GPT1.0主要解決特定目標的特定語言生成任務.GPT2.0在此基礎上可以識別任務,然后針對性地開展模型微調(diào),并發(fā)執(zhí)行多任務.GPT3.0則是基于海量參數(shù)進行自監(jiān)督式語言生成和分析.
語言理解模型[6]可以對自然語言進行理解.該模型可以通過學習大量的語言數(shù)據(jù)識別語言中的語法、語義和上下文信息,從而實現(xiàn)自然語言的理解.語言理解模型的典型模型是BERT.
多模態(tài)大模型[7]是包含多個模態(tài)(如文本、圖像、語音等)的大型深度學習模型,旨在實現(xiàn)多模態(tài)數(shù)據(jù)的聯(lián)合建模和整合,從而增強模型的表達能力和泛化能力.因此需要采用深度學習中的一些優(yōu)化技術(shù)和算法,如分布式訓練、網(wǎng)絡壓縮和剪枝等.
多模態(tài)大模型基于相關模型衍生出許多應用,最典型的便是OpenAI公司發(fā)布的ChatGPT產(chǎn)品,該產(chǎn)品是基于GPT3.5模型開發(fā)的應用程序.此外,還包括百度公司發(fā)布的大語言模型產(chǎn)品文心一言,該產(chǎn)品是基于ERNIE及PLATO系列模型研發(fā)的[8].
大模型技術(shù)面臨的網(wǎng)絡安全威脅[9]如表1所示:
表1 大模型技術(shù)網(wǎng)絡安全威脅
大模型技術(shù)應用存在的網(wǎng)絡安全脆弱性如表2所示:
大模型技術(shù)應用可能發(fā)生的安全事件如表3所示:
表3 大模型技術(shù)網(wǎng)絡安全事件
大模型技術(shù)網(wǎng)絡安全風險分析需要對威脅利用脆弱性發(fā)生安全事件的可能性進行分析,其威脅、脆弱性對應關系如表4所示:
表4 威脅和脆弱性對應關系
脆弱性和安全事件對應關系如表5所示:
表5 脆弱性和安全事件對應關系
出現(xiàn)上述安全風險的深層次原因是缺乏相關方的協(xié)同努力,未形成法律法規(guī)、政策要求和行業(yè)自律的體系化安全要求等.其次,還有安全防御相較大模型技術(shù)發(fā)展的滯后性,算法安全、數(shù)據(jù)安全、個人信息安全等方面安全防護措施部署未體系化搭建.開展大模型網(wǎng)絡安全治理并不能杜絕以上風險,但是可以極大地降低相關安全事件發(fā)生的可能性,保障大模型網(wǎng)絡安全.
本文在對大模型技術(shù)網(wǎng)絡安全風險進行分析的基礎上,提出了一種大模型技術(shù)網(wǎng)絡安全治理框架,如圖1所示.
圖1 大模型技術(shù)網(wǎng)絡安全治理框架
大模型技術(shù)網(wǎng)絡安全治理可以劃分為3個層面,分別是確定利益相關方,開展算法安全治理,開展數(shù)據(jù)安全和個人信息安全治理.
可通過5個步驟開展大模型技術(shù)網(wǎng)絡安全應對工作,包括:梳理業(yè)務和服務的邏輯及關系,對業(yè)務風險進行分析和識別;確定組織機構(gòu)的風險可接受程度;確定所識別的風險的處置方式,開展安全措施的決策;對相關決策進行體系化部署;對開展安全防護工作后的業(yè)務風險進行監(jiān)測.完成大模型技術(shù)網(wǎng)絡安全應對的閉環(huán)管理.
大模型技術(shù)相關方主要包括外部環(huán)境、內(nèi)部管理和外部人員3個方面,如圖2所示:
圖2 大模型技術(shù)相關方
外部環(huán)境方面,相關方包括:
1) 監(jiān)管方.隨著大模型技術(shù)的推廣和廣泛應用,將面臨政府或相關組織的監(jiān)督管理.
2) 制約方.隨著產(chǎn)業(yè)的發(fā)展,將會產(chǎn)生一定的利益和發(fā)展制約方.
3) 執(zhí)法方.和其他新技術(shù)應用一樣,執(zhí)法方將是不可或缺的一種角色.
4) 輿論方.推動或阻礙大模型技術(shù)應用發(fā)展的重要力量,直接影響其流量、關注度、群體等.
內(nèi)部管理方面,相關方包括:
1) 運營者.大模型技術(shù)應用的運行管理機構(gòu)或盈利機構(gòu),承擔應用的主體責任.
2) 運維方.大模型技術(shù)應用的運行維護方承擔一定的業(yè)務連續(xù)性和安全性責任,為運營者提供技術(shù)服務.
3) 投資方.大模型技術(shù)應用投資規(guī)模通常較大,且投資方對應用的發(fā)展有舉足輕重的影響力.
4) 供應鏈.對于大模型技術(shù)應用的基礎設施及計算資源,供應商鏈條層級較深且復雜,供應鏈是重要角色之一.
外部人員方面,相關方包括:
1) 使用者.大模型技術(shù)應用的服務對象,包括個人或組織.大模型技術(shù)應用為其提供語言服務、圖片服務、語音服務或視頻服務等.
2) 攻擊者.對大模型技術(shù)應用和基礎設施等進行攻擊的惡意人員.或利用大模型技術(shù)生成惡意代碼、攻擊腳本等輔助攻擊材料的,對其他業(yè)務應用有攻擊行為的人員或組織.
3) 研究者.推動大模型技術(shù)、自然語言處理技術(shù)和人工智能技術(shù)發(fā)展的前瞻性研究人員.在高校、實驗室或產(chǎn)業(yè)中不斷探索新路徑的探路者.
4) 促進者.推動大模型技術(shù)應用推廣和使用,促進行業(yè)及領域產(chǎn)業(yè)化、標準化、高質(zhì)量發(fā)展.
算法安全治理主要針對2個方面:首先是大模型技術(shù)應用自身算法安全防護;其次是算法防惡意利用.如圖3所示:
圖3 算法安全治理
大模型技術(shù)應用自身算法安全防護包括以下3個方面內(nèi)容:
1) 自適應和自驅(qū)動算法安全機制.
大模型技術(shù)作為人工智能領域的典型應用,安全自適應和自驅(qū)動是其發(fā)展的必經(jīng)之路.可根據(jù)環(huán)境和內(nèi)部情況,自動調(diào)整安全處理方法、順序、參數(shù)、邊界條件或約束條件,實現(xiàn)算法安全防范機制[10].
2) 分類分級和細粒度治理.
針對大模型技術(shù)應用使用的算法進行分類分級,并根據(jù)具體的類別和級別開展細粒度的安全防護和治理.深入分析算法的理論機制和代碼實現(xiàn)機制,分析算法中的安全風險,并針對風險,根據(jù)類別級別開展安全治理[11].
3) 全生命周期監(jiān)測和風險評估.
對算法應用的全生命周期開展安全監(jiān)測,并針對算法和大模型技術(shù)應用面臨的風險開展安全風險評估和風險處置等工作.重點關注算法理論定義、算法技術(shù)實現(xiàn)、算法應用研發(fā)、算法部署實施、算法運行和維護、技術(shù)應用廢棄6個階段的算法安全風險監(jiān)測和風險評估.
大模型技術(shù)應用算法防惡意利用包括以下3個方面內(nèi)容:
1) 惡意利用行為和人員的甄別.
惡意利用行為和人員的甄別是大模型技術(shù)應用運行的基礎.惡意行為的甄別不僅對使用規(guī)則進行匹配,還需要對行為的連續(xù)性和關聯(lián)性進行分析.惡意人員的甄別,需要對人員的既往性和預測性進行統(tǒng)籌,還需要根據(jù)誤判可能導致的后果進行決策調(diào)整.
2) 惡意利用的拒絕和追溯.
在對惡意人員和行為進行甄別后,需要對相關人員或行為進行拒絕,對于未識別的惡意人員和行為,需要及時發(fā)現(xiàn)并進行追溯.
3) 惡意利用的預判和應激反應.
開展惡意利用的預判時,由于大模型技術(shù)應用會拒絕明顯的惡意行為,所以部分攻擊者會將惡意行為進行拆分,從而隱藏自己的攻擊意圖.或者僅生成惡意行為的基礎動作,減少攻擊行為的工作量.這就需要對相關行為進行整體性的分析判斷,從而理解其意圖、情緒和價值觀.
在識別出惡意利用后,需要大模型技術(shù)應用激發(fā)自身的應激反應,盡可能地降低惡意利用造成的影響,但同時避免惡意利用誤判后造成的服務滿意度下降.
大模型技術(shù)應用數(shù)據(jù)安全和個人信息安全防護主要針對以下5個方面:
1) 安全保護對象全覆蓋.開展數(shù)據(jù)安全和個人信息安全防護時,保護對象需要覆蓋全面,如圖4所示.安全保護對象類別包括基礎設施/計算資源安全、基礎系統(tǒng)/固件安全、組件/插件/中間件安全、大模型技術(shù)/邏輯安全;安全保護內(nèi)容包括接口安全、身份安全、行為審計、入侵和病毒防范.
圖4 安全防護保護對象
2) 構(gòu)建數(shù)據(jù)安全和個人信息安全動態(tài)防護免疫力.大模型技術(shù)應用安全防護工作需要具有動態(tài)特點,并建立自身的免疫系統(tǒng),對數(shù)據(jù)和個人信息的泄露、篡改、非授權(quán)使用進行自動攔截和處理[12].
3) 體系化層層防護.數(shù)據(jù)和個人信息安全防護工作是體系化工作,需要從內(nèi)到外各個層面層層開展防護,而不僅僅是在最外層防御外部攻擊行為,內(nèi)部的邊界防范和安全隔離也同樣重要[13].
4) 數(shù)據(jù)安全責任不落空.安全責任的不落空是保障大模型技術(shù)應用數(shù)據(jù)和個人信息安全的基礎,需要做到數(shù)據(jù)安全責任邊界清晰、數(shù)據(jù)使用者與提供者間責任不落空、個人信息所有者與使用者間責任不落空、供應鏈間責任不落空、數(shù)據(jù)和個人信息處理的業(yè)務人員與安全管理人員間責任不落空等.
5) 法律政策等風險規(guī)避.風險規(guī)避主要包括法律法規(guī)、政治政策和道德倫理等.大模型技術(shù)處理數(shù)據(jù)和個人信息首先要遵循法律法規(guī)規(guī)定.由于大模型技術(shù)應用可能存在跨國家、跨地域等情況,所以需要重點關注法律的地緣性特點.此外,大模型技術(shù)應用要尊重道德倫理,并對其存有敬畏之心.由于各國政治政策會對數(shù)據(jù)和個人信息安全防護提出不同的要求,所以還應根據(jù)政治政策要求防范數(shù)據(jù)和個人信息安全風險.
大模型技術(shù)下網(wǎng)絡安全應對可劃分為以下5個步驟,并以閉環(huán)方式管理.
1) 業(yè)務梳理和風險分析.首先需要梳理使用的算法、業(yè)務應用、安全保護對象、數(shù)據(jù)類別級別、個人信息使用情況和技術(shù)應用面臨的安全風險[14].
2) 確定風險可接受程度.在識別風險后,需要進行風險可接受程度的確定,從而判斷哪些風險需要降低其發(fā)生的可能性,哪些風險在可接受范圍內(nèi)[15].
3) 安全措施決策.對于不可接受的風險需要采取安全措施進行彌補,而安全措施的采取需要投入人力、物力或財力,進行購買、開發(fā)或部署.
4) 體系化部署.安全措施的部署需要體系化開展,東拼西湊的方式極易導致出現(xiàn)木桶原理中的短板.
5) 安全監(jiān)測.安全措施部署后需要對風險進行持續(xù)控制,對安全狀況進行監(jiān)測,以便在內(nèi)外部環(huán)境發(fā)生變化時,開展進一步的網(wǎng)絡安全應對.
大模型技術(shù)的發(fā)展帶來新的網(wǎng)絡安全挑戰(zhàn),但是通過大模型技術(shù)網(wǎng)絡安全治理可以有效地保護大模型的安全.未來,隨著人工智能技術(shù)的不斷發(fā)展,大模型技術(shù)應用將會越來越廣泛,網(wǎng)絡安全問題也將越來越復雜.因此需要不斷地研究和探索,以應對未來的網(wǎng)絡安全挑戰(zhàn).