摘要:虛擬機(jī)異常檢測(cè)器在現(xiàn)實(shí)場(chǎng)景中面臨訓(xùn)練數(shù)據(jù)樣本稀疏的問(wèn)題,為了實(shí)現(xiàn)稀疏樣本條件下的虛擬機(jī)異常精準(zhǔn)檢測(cè),提出了一種基于混合微調(diào)策略的虛擬機(jī)檢測(cè)增強(qiáng)方法。首先,利用大語(yǔ)言模型,基于提示工程,對(duì)收集的虛擬機(jī)逃逸樣本進(jìn)行提升工程,得到增強(qiáng)的樣本。其次,采用LoRA和PreFix混合微調(diào)策略對(duì)收集的虛擬機(jī)逃逸樣本進(jìn)行提升工程,得到增強(qiáng)的樣本。再次,利用增強(qiáng)樣本對(duì)預(yù)訓(xùn)練大模型ChatGLM進(jìn)行微調(diào),生成一種專用于生成虛擬機(jī)逃逸數(shù)據(jù)的模型。最后,利用專用模型生成的樣本擴(kuò)充數(shù)據(jù)集,增強(qiáng)基于學(xué)習(xí)的虛擬機(jī)異常檢測(cè)器。通過(guò)實(shí)驗(yàn)驗(yàn)證,該方法顯著提升了虛擬機(jī)逃逸檢測(cè)的準(zhǔn)確性,并降低了誤報(bào)率。
關(guān)鍵詞:異常檢測(cè)虛擬機(jī)微調(diào)策略樣本增強(qiáng)
中圖分類號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2096-4706(2023)00-0000-00
AnEnhancedMethodforVirtualMachineAnomalyDetectorsBasedonHybridFine-TuningStrategy
DINGRui
KunlunDigitalTechnologyCo.,Ltd,Beijing,100026China
Abstract:Virtualmachineanomalydetectorsarefacedwiththeproblemofsparsetrainingdatasamplesinrealisticscenarios.Toaddresstheissueofaccuratedetectionofvirtualmachineanomaliesundersuchsparsesampleconditions,avirtualmachinedetectionenhancementmethodbasedonahybridfine-tuningstrategyisproposedinthisarticle.Firstly,byusingalargelanguagemodelandbasedonpromptengineering,thecollectedvirtualmachine(VM)escapesamplesareupgraded,andtheenhancedsamplesareobtained..Secondly,ahybridfine-tuningstrategycombiningLoRAandPreFixisareusedtoenhancethecollectedVMescapesamplesandobtainenhancedsamples.Subsequently,theenhancedsamplesareutilizedtofine-tunethepre-trainedlargemodel,ChatGLM,therebycreatingadedicatedmodelforgeneratingVMescapedata.Finally,thegeneratedsamplesfromthededicatedmodelareleveragedtoaugmentthedatasetandimprovetheperformanceofthelearning-basedVManomalydetector.ExperimentalvalidationdemonstratesthatthismethodachievessignificantimprovementsinVMescapedetectionaccuracywhileeffectivelyreducingthefalsealarmrate.
KeyWords:Anomalydetection;VM;Fine-tuningstrategies;Sampleenhancement
虛擬化技術(shù),作為一種重要的計(jì)算范式,已經(jīng)在云計(jì)算、數(shù)據(jù)中心、企業(yè)網(wǎng)絡(luò)等領(lǐng)域得到廣泛應(yīng)用。它通過(guò)將物理資源(如處理器、內(nèi)存和存儲(chǔ))抽象為虛擬實(shí)例,使得多個(gè)虛擬機(jī)能夠在同一物理服務(wù)器上同時(shí)運(yùn)行,從而提高了資源利用率和靈活性[1]。虛擬化技術(shù)的發(fā)展不僅推動(dòng)了云計(jì)算的興起,也為企業(yè)提供了更高效、可擴(kuò)展和靈活的計(jì)算環(huán)境。然而,隨著虛擬化技術(shù)的廣泛應(yīng)用,虛擬機(jī)安全問(wèn)題日益引起關(guān)注。攻擊者利用各種手段,如虛擬機(jī)逃逸、側(cè)信道攻擊、惡意代碼注入等,試圖獲取虛擬機(jī)內(nèi)部的敏感信息、控制虛擬化環(huán)境或破壞其正常運(yùn)行,這些攻擊手段對(duì)云計(jì)算、數(shù)據(jù)中心等關(guān)鍵領(lǐng)域的安全性和可靠性構(gòu)成了嚴(yán)重威脅[2-4],因此,保護(hù)虛擬機(jī)安全變得至關(guān)重要。有效的虛擬機(jī)安全機(jī)制能夠防止虛擬機(jī)逃逸和其他惡意攻擊,確保虛擬化環(huán)境的完整性和保密性,這不僅對(duì)云服務(wù)提供商和企業(yè)用戶來(lái)說(shuō)是一項(xiàng)重要任務(wù),也對(duì)整個(gè)云計(jì)算生態(tài)系統(tǒng)的可信性和可靠性產(chǎn)生了深遠(yuǎn)影響。
盡管已經(jīng)有一些虛擬機(jī)安全機(jī)制和技術(shù)被提出和應(yīng)用,但現(xiàn)有的防御手段仍然存在一定的局限性。攻擊者不斷改進(jìn)和演化他們的攻擊手段,新的攻擊特征使得基于特征的檢測(cè)器發(fā)生概念漂移,從而無(wú)法有效地發(fā)現(xiàn)安全威脅[5-7]。為了解決訓(xùn)練樣本稀疏和質(zhì)量低下問(wèn)題,本文提出了一種基于混合微調(diào)策略的虛擬機(jī)檢測(cè)器增強(qiáng)方法,以改善虛擬機(jī)逃逸檢測(cè)的準(zhǔn)確性和魯棒性。通過(guò)充分利用深度學(xué)習(xí)和預(yù)訓(xùn)練大模型的優(yōu)勢(shì),本方法能夠提高虛擬機(jī)檢測(cè)器對(duì)新型逃逸技術(shù)的識(shí)別能力,并降低誤報(bào)率。綜上,本文主要貢獻(xiàn)如下。
(1)針對(duì)虛擬機(jī)逃逸檢測(cè)任務(wù)在現(xiàn)實(shí)場(chǎng)景面臨的訓(xùn)練樣本缺失問(wèn)題,提出了一種基于混合微調(diào)策略的樣本增強(qiáng)方案,增強(qiáng)的數(shù)據(jù)能夠有效改善基于深度學(xué)習(xí)的檢測(cè)器概念漂移問(wèn)題。
(2)通過(guò)大量實(shí)驗(yàn)分析,證明了本方法可以有效地增強(qiáng)虛擬機(jī)檢測(cè)器性能,同時(shí)討論了不同微調(diào)策略的性能表現(xiàn)。
1基于混合微調(diào)策略的虛擬機(jī)檢測(cè)器增強(qiáng)方法
1.1基于提示工程的原始樣本增強(qiáng)
本節(jié)內(nèi)容的目標(biāo)是利用大語(yǔ)言模型強(qiáng)大的文本生成能力,基于提示工程擴(kuò)充原始訓(xùn)練樣本,從而為后續(xù)的預(yù)訓(xùn)練模型微調(diào)提供數(shù)據(jù)支撐。包含的步驟有:收集并處理真實(shí)虛擬機(jī)逃逸相關(guān)數(shù)據(jù),基于多輪對(duì)話提示,引導(dǎo)ChatGPT模型生成高質(zhì)量的擴(kuò)充數(shù)據(jù)。本文所有參數(shù)符號(hào)及意義如表1所示。
1.1.1數(shù)據(jù)采集與處理
基于機(jī)器學(xué)習(xí)的虛擬機(jī)異常檢測(cè)器在工作中通常需要進(jìn)行系統(tǒng)數(shù)據(jù)的采集和預(yù)處理。下面介紹本文的數(shù)據(jù)處理流程。
(1)數(shù)據(jù)采集:利用Linux性能事件采集工具ebpf收集虛擬機(jī)運(yùn)行時(shí)的系統(tǒng)數(shù)據(jù),這些數(shù)據(jù)包括虛擬機(jī)的性能指標(biāo)(如CPU利用率、內(nèi)存使用量、磁盤讀寫(xiě)速度等)、網(wǎng)絡(luò)流量數(shù)據(jù)和系統(tǒng)日志;(2)數(shù)據(jù)清洗與預(yù)處理:采集到的原始數(shù)據(jù)通常需要進(jìn)行清洗和預(yù)處理,以便后續(xù)的特征提取和模型訓(xùn)練,包括均值插補(bǔ)法處理缺失值、標(biāo)準(zhǔn)方差理異常值、數(shù)據(jù)平滑去除噪聲、歸一化等操作。
本文所提方法框架示意圖如圖1所示。通過(guò)收集進(jìn)程生命周期數(shù)據(jù)和進(jìn)程性能事件數(shù)據(jù),得到原始的訓(xùn)練數(shù)據(jù)集如下:
1.1.2基于提示工程的數(shù)據(jù)增強(qiáng)
由于系統(tǒng)調(diào)用等數(shù)據(jù)經(jīng)過(guò)word2sec向量化處理后,可以將訓(xùn)練樣本擴(kuò)充,可以視為文本增強(qiáng)任務(wù)。本文使用ChatGPT——一個(gè)基于GPT的最先進(jìn)大語(yǔ)言生成模型來(lái)增強(qiáng)原始數(shù)據(jù)。具體地,對(duì)于原始訓(xùn)練樣本,具有m個(gè)token,預(yù)訓(xùn)練的優(yōu)化目標(biāo)可表示如下:
經(jīng)過(guò)構(gòu)造的多輪對(duì)話提示,本文利用ChatGPT得到擴(kuò)充后的樣本集。對(duì)話例子為:輸入的數(shù)據(jù)樣本為(P1,N1),請(qǐng)輸出更多的語(yǔ)義相近的(Pi,Ni)。
1.2基于混合微調(diào)策略的數(shù)據(jù)增強(qiáng)
混合微調(diào)策略(JointFine-TuningStrategy)是指在自然語(yǔ)言處理(Naturallanguageprocessing,NLP)中使用預(yù)訓(xùn)練語(yǔ)言模型的過(guò)程中將預(yù)訓(xùn)練模型與任務(wù)特定的數(shù)據(jù)同時(shí)進(jìn)行微調(diào),這種策略將預(yù)訓(xùn)練模型與任務(wù)相關(guān)的數(shù)據(jù)合并在一起,通過(guò)端到端的微調(diào)來(lái)優(yōu)化整個(gè)模型。其好處有:(1)任務(wù)自適應(yīng)能力提升;(2)減少數(shù)據(jù)需求;(3)加速訓(xùn)練收斂;(4)提升模型性能。因此,混合微調(diào)策略可以在預(yù)訓(xùn)練模型的基礎(chǔ)上通過(guò)使用任務(wù)特定的數(shù)據(jù)進(jìn)行微調(diào),充分發(fā)揮預(yù)訓(xùn)練模型的優(yōu)勢(shì),提升模型的適應(yīng)性和性能。
1.2.1前綴微調(diào)
前綴微調(diào)(PrefixFine-Tune)技術(shù)包括通過(guò)在輸入詞前構(gòu)建一組特定任務(wù)的虛擬詞組作為前綴來(lái)微調(diào)語(yǔ)言模型(LargeLanguageModel,LLM)的參數(shù)。這個(gè)過(guò)程可以描述為:(1)將數(shù)據(jù)集的80%分成訓(xùn)練樣本、20%分成測(cè)試樣本;(2)使用訓(xùn)練樣本對(duì)ChatGLM進(jìn)行前綴調(diào)優(yōu)訓(xùn)練,并保存訓(xùn)練后的前綴參數(shù)權(quán)重;(3)使用測(cè)試樣本評(píng)估前綴調(diào)整后ChatGLM的文本生成性能,并優(yōu)化模型超參數(shù),模型超參數(shù)設(shè)置如下:Pre-SequenceLength=128,LearningRate=2e-2,BatchSize=16,epochs=5,MaxSourceLength=128,MaxTargetLength=256。
1.2.2低秩適應(yīng)微調(diào)
低秩適應(yīng)微調(diào)(LoRAFine-Tune)方法是一種參數(shù)效率高的微調(diào)技術(shù),它假定任務(wù)適應(yīng)過(guò)程中模型的參數(shù)變化表現(xiàn)出低秩特征。同樣,其模型設(shè)置為:Pre-SequenceLength=128,LearningRate=1e-4,epochs=10,MaxSourceLength=128,MaxTargetLength=256。
因此,本文基于兩種微調(diào)方法的優(yōu)點(diǎn)構(gòu)建的聯(lián)合微調(diào)方法如下。(1)將最優(yōu)前綴參數(shù)權(quán)重與預(yù)訓(xùn)練生成模型ChatGLM結(jié)合使用,存儲(chǔ)為ChatGLM-Prefix模型。(2)基于相同的訓(xùn)練集,使用LoRA方法進(jìn)一步完善ChatGLM-Prefix模型。(3)將ChatGLM-Prefix模型與LoRA參數(shù)權(quán)重相結(jié)合,得到ChatGLM-Prefix-LoRA模型()。經(jīng)過(guò)上述步驟后,基于ChatGLM-Prefix-LoRA并將作為輸入,我們可以得到最終的擴(kuò)展數(shù)據(jù)集。
1.3基于增強(qiáng)樣本的虛擬機(jī)異常檢測(cè)器增強(qiáng)
本文使用增強(qiáng)后的數(shù)據(jù)集作為輸入樣本,在其他參數(shù)設(shè)置不變的情況下,重新訓(xùn)練已有的基于機(jī)器學(xué)習(xí)的虛擬機(jī)異常檢測(cè)器。具體流程為:使用已有的檢測(cè)器作為基礎(chǔ)模型,加載它的權(quán)重和結(jié)構(gòu);凍結(jié)部分參數(shù),添加新的連接層;定義損失函數(shù),并不斷訓(xùn)練策略調(diào)整。
2實(shí)驗(yàn)與分析
2.1實(shí)驗(yàn)設(shè)置
本文選擇的檢測(cè)器如下表2所示,具體地,檢測(cè)器D1[8]和D2[9]都是基于LSTM構(gòu)建神經(jīng)網(wǎng)絡(luò),檢測(cè)器D3[10]利用系統(tǒng)調(diào)用增強(qiáng)檢測(cè)模型的可解釋性。使用這些檢測(cè)器對(duì)應(yīng)的數(shù)據(jù)集作為原始訓(xùn)練樣本完成數(shù)據(jù)增強(qiáng)。
2.2虛擬機(jī)異常檢測(cè)器增強(qiáng)的有效性驗(yàn)證
為了評(píng)估數(shù)據(jù)集對(duì)檢測(cè)性能的影響,我們實(shí)施并比較了3種有代表性的無(wú)監(jiān)督基線方法,包括最先進(jìn)的異常檢測(cè)技術(shù)。如表3所示,實(shí)驗(yàn)結(jié)果表明,與所有基線方法相比,增強(qiáng)型檢測(cè)器在準(zhǔn)確度(ACC)、精確度(PRE)和F1指標(biāo)(F1)方面表現(xiàn)出明顯的優(yōu)勢(shì),同時(shí)召回率(REC)略低。
2.3混合微調(diào)策略性能比較
為了評(píng)估聯(lián)合微調(diào)方法的有效性,本文使用Bleu和Rouge指標(biāo)來(lái)評(píng)估微調(diào)模型的性能。其中,Bleu指標(biāo)通過(guò)測(cè)量生成文本與參考文本之間匹配的n個(gè)詞組的數(shù)量來(lái)評(píng)估文本生成的準(zhǔn)確性。具體來(lái)說(shuō),它計(jì)算加權(quán)后的4-grams累計(jì)得分,Bleu-4分?jǐn)?shù)越高,說(shuō)明生成文本的質(zhì)量越好。Rouge指標(biāo)是一種基于召回率的評(píng)估方法,用于評(píng)估文本生成的質(zhì)量,與Bleu類似,它通過(guò)計(jì)算生成文本和參考文本之間重疊n-grams的數(shù)量,用和參考文本之間重疊的n-grams數(shù)量來(lái)量化生成質(zhì)量。本研究采用的Rouge指標(biāo)包括Rouge-1、Rouge-2和Rouge-L,Rouge分?jǐn)?shù)越高,表明文本生成質(zhì)量越好。實(shí)驗(yàn)結(jié)果如表4所示。
實(shí)驗(yàn)表明,與未進(jìn)行任何微調(diào)的ChatGLM相比,使用前綴和LoRA的微調(diào)模型在僅添加小參數(shù)的情況下測(cè)試樣本的Bleu和Rouge指標(biāo)得分明顯更高。此外,ChatGLM-Prefix模型的Bleu分?jǐn)?shù)比ChatGLM-LoRA模型高出約3%,但與此同時(shí),其Rouge分?jǐn)?shù)卻比ChatGLM-LoRA模型低了約10%。
通過(guò)聯(lián)合微調(diào)訓(xùn)練的ChatGLM-Prefix-LoRA模型進(jìn)一步提高了測(cè)試樣本的Bleu和Rouge指標(biāo)得分。具體來(lái)說(shuō),與ChatGLM-LoRA模型相比,該模型Bleu和Rouge得分分別提高了約5%;與ChatGLM-Prefix模型相比,該模型的Bleu得分提高了約2%,Rouge得分提高了約10%-15%;與未進(jìn)行任何微調(diào)的ChatGLM相比,該模型的Bleu和Rouge得分分別提高了約15%~20%。實(shí)驗(yàn)結(jié)果證明了基于前綴和LoRA的ChatGLM聯(lián)合微調(diào)訓(xùn)練方法在數(shù)據(jù)集構(gòu)建任務(wù)中的有效性和優(yōu)越性。
3結(jié)語(yǔ)
本文提出了一種基于混合微調(diào)策略的虛擬機(jī)檢測(cè)增強(qiáng)方法,旨在應(yīng)對(duì)虛擬機(jī)異常檢測(cè)器在現(xiàn)實(shí)場(chǎng)景中面臨的訓(xùn)練數(shù)據(jù)樣本稀疏問(wèn)題。實(shí)驗(yàn)表明,通過(guò)該方法,可以在稀疏樣本條件下對(duì)虛擬機(jī)異常檢測(cè)器的增強(qiáng),從而實(shí)現(xiàn)虛擬異常環(huán)境的精準(zhǔn)檢測(cè)。
參考文獻(xiàn)
[1]邢凌凱,張健.基于HPC的虛擬化平臺(tái)異常檢測(cè)技術(shù)研究與實(shí)現(xiàn)[J].信息網(wǎng)絡(luò)安全,2023,23(10):64-69.
[2]文高陽(yáng),許博陽(yáng),張聰慧.虛擬化技術(shù)在云安全中的隔離與保護(hù)[J].信息與電腦(理論版),2023,35(18):193-195.
[3]蒲江,陳海燕,田楠.虛擬化環(huán)境安全淺析[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2023(3):4-6.
[4]張娟,劉瑤,劉芳伶.基于角色的云環(huán)境下虛擬機(jī)安全訪問(wèn)控制策略[J].通信技術(shù),2021,54(9):2214-2219.
[5]孫海波,溫鴻翔,王竹珺,等.云計(jì)算安全威脅及防護(hù)研究[J].中國(guó)新通信,2021,23(5):149-151.
[6]呂宗平,梁婷婷,顧兆軍,等.概念漂移下的系統(tǒng)日志在線異常檢測(cè)模型[J].計(jì)算機(jī)應(yīng)用與軟件,2023,40(10):314-321.
[7]陳志強(qiáng),韓萌,李慕航,等.數(shù)據(jù)流概念漂移處理方法研究綜述[J].計(jì)算機(jī)科學(xué),2022,49(9):14-32.
[8]WANGYL,WANGQX,CHENXS,etal.Containerguard:Areal-timeattackdetectionsystemincontainer-basedbigdataplatform[J],IEEETransactionsonIndustrialInformatics,2022,18(5):3327–3336.
[9]WANGYL,CHENXS,WANGQX,etal.Unsupervisedanomalydetectionforcontainercloudviabilstm-basedvariationalautoencoder[C]//ICASSP2022-2022IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP).IEEE,2022:3024–3028.
[10]KARNRR,KUDVAP,HUANGH,etal.Cryptominingdetectionincontainercloudsusingsystemcallsandexplainablemachinelearning[J].IEEETransactionsonParallelandDistributedSystems,2021,32(3):674.