宋 丹,努爾布力,俞文杰
1(新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊 830046)2(新疆大學(xué) 網(wǎng)絡(luò)中心,烏魯木齊 830046)3(新疆大學(xué) 軟件學(xué)院,烏魯木齊 830046)
隨著許多應(yīng)用和服務(wù)數(shù)字化的發(fā)展,加密作為保護信息的技術(shù)被廣泛使用.谷歌透明度報告表示,截止2021年1月,谷歌瀏覽器加載的網(wǎng)頁中有近95%使用HTTPS加密技術(shù)[1],安全是谷歌的首要任務(wù),加密技術(shù)的使用,除了其機密性和真實性的預(yù)期好處,其也能幫助預(yù)防惡意攻擊.同時,惡意攻擊者也利用加密技術(shù)躲避檢測,使得加密也成為惡意攻擊者隱藏命令與控制(C2)活動的強大工具[2].思科加密流量分析報告指出,到2020年,超過70%的惡意軟件活動將使用加密來隱藏惡意活動的傳遞、命令和控制[3].但是由于近年來HTTPS證書系統(tǒng)的結(jié)構(gòu)缺陷,證書和證書頒發(fā)機構(gòu)被破壞或操縱,更多的惡意攻擊使用偽造、泄露密鑰的證書或被惡意頒發(fā)的證書,惡意證書導(dǎo)致的惡意軟件問題頻發(fā).此外,人們對證書所提供服務(wù)的認識仍然落后,當出現(xiàn)https://、綠色掛鎖或綠色地址欄等證書標識符,大多人認為是安全或可信的,所以當出現(xiàn)證書警告時,用戶會做出錯誤決策,用戶教育的缺失是的攻擊者有可乘之機.攻擊者利用證書和用戶對證書的信任感來欺騙用戶[4],如何保護終端用戶免受網(wǎng)絡(luò)攻擊等惡意軟件問題變得越來越重要.
基于censys證書標簽和證書黑名單匹配的檢測方法,計算費時繁瑣且對黑名單質(zhì)量要求高.若對流量進行解密再重新加密以尋找威脅的方法會產(chǎn)生新漏洞.本文系統(tǒng)的使用證書的內(nèi)容來實現(xiàn)惡意證書檢測,從而預(yù)防惡意軟件.本文是基于Catboost的惡意數(shù)字證書的檢測方法,本文使用3264條良性證書數(shù)據(jù)和1632條惡意證書數(shù)據(jù),分析證書的內(nèi)容信息進行特征提取,將證書文本數(shù)據(jù)一邊進行手工特征提取,一邊使用TF-IDF方法進行特征提取,得到融合后的特征,其中手工特征提取中使用融合后的特征向量在Catboost等機器學(xué)習分類器進行訓(xùn)練.最后進行模型評估和特征評估,特征使用53個手工特征加前3個TF-IDF方法特征得到的特征模型效果最好,對比其他算法,Catboost算法準確率達到98.76%,運行時間對比中,LightGBM等算法的時間性能優(yōu)于Catboost算法.
本研究的主要貢獻是:
1)收集了1632條惡意證書數(shù)據(jù)和14388條良性證書數(shù)據(jù),構(gòu)造了惡意數(shù)字證書原始數(shù)據(jù)集.
2)本文融合基于惡意證書屬性的手工特征和基于TF-IDF方法的特征,發(fā)現(xiàn)兩類證書差異,更清晰的理解惡意證書的屬性,得到惡意數(shù)字證書標準數(shù)據(jù)集.
3)改進了分類特征編碼的方法,提出基于統(tǒng)計量的標簽編碼方法CLE方法.
4)提出基于Catboost的惡意證書檢測方法,有效提高檢測準確率.
惡意證書的檢測存在3種典型的檢測方法.
基于黑名單的檢測策略是通過黑名單與證書或IP的匹配來完成的.當一個新連接來自任何黑名單中的已知惡意證書時,將其歸類為惡意證書.文獻[5]中黑名單包含兩種形式的證書,SHA1指紋和惡意軟件或惡意活動相關(guān)的序列號和主題信息,然后將每個連接與黑名單進行匹配.文獻[6]針對黑名單維護的問題,提出了擴充現(xiàn)有黑名單的方法,提出基于機器學(xué)習的能夠識別與已知惡意網(wǎng)站模式相似但尚未列入黑名單的網(wǎng)站,從而擴充黑名單列表.該檢測方法的優(yōu)點是操作簡易,耗時少.其缺點是黑名單統(tǒng)計是否全面會直接影響到檢測效率,黑名單統(tǒng)計的質(zhì)量至關(guān)重要;許多惡意網(wǎng)站的活動時間短,被發(fā)現(xiàn)為惡意攻擊后,用戶訪問會顯示警告,所以攻擊者也會減少惡意活動甚至關(guān)停網(wǎng)頁,由于惡意攻擊的不斷更新,黑名單更新的工作很費時且繁瑣.
2011年,Mishari Almishari[7]等人提出全面研究SSL證書和廣泛的測量,實現(xiàn)網(wǎng)絡(luò)欺詐行為的檢測.2015年6月Zheng Dong[8]等人也使用機器學(xué)習算法和公鑰證書數(shù)據(jù)來檢測釣魚網(wǎng)站,隨機森林算法中FPR較低且運行速度快,AUC值為0.98,平均概率算法中TPR較高,運行速度慢,但是AUC值為0.99.2016年9月ZHENG DONG[9]等人研究了基于證書內(nèi)容的流氓證書檢測.2017年,Sankalp Bagaria[10]等人使用證書特征和加密流量的流特征,來研究機器學(xué)習技術(shù)來讓瀏覽器判斷證書所屬的服務(wù)器是否是惡意的,從而判斷是否訪問該網(wǎng)站.文獻[11]中,2018年安全公司Splunk的研究人員使用支持向量機(SVM)算法對惡意軟件活動中使用的證書進行檢測,達到了91%的準確率.2018年末文獻[12]采用了特征提取和深度神經(jīng)網(wǎng)絡(luò),認為信息較少的證書更容易引起懷疑,從證書內(nèi)容中提取了能夠區(qū)分惡意證書和良性證書的特征,使用深度神經(jīng)網(wǎng)絡(luò)模型進行惡意證書檢測,惡意軟件證書檢測的準確率為94.87%,釣魚證書檢測的準確率為88.64%.2019年7月,Kabilan Gnanavarothayan[13]等人使用神將網(wǎng)絡(luò)分類算法,并參考文獻[13]的特征,釣魚證書檢測使用43個特征準確率最高,為71.69%,惡意軟件證書檢測使用9個特征之后進行了標準化,準確率為94.2%.2020年4月Akanchha[14]研究了基于機器學(xué)習的釣魚證書檢測,最終C4.8決策樹算法準確率最高,為97%.2021年,Li jiaxin等人[15]提出VFE證書特性獲取系統(tǒng),該系統(tǒng)從證書基礎(chǔ)信息分析、標準檢驗、證書鏈建設(shè)、證書鏈驗證中獲得的證書特征,還加入了軟件包和工具的一些輸出特征.使用此系統(tǒng)提取到的特征,在機器學(xué)習模型中進行訓(xùn)練,結(jié)果顯示集成學(xué)習模型效果最穩(wěn)定且有效,平均準確率為95.9%,其中SVM模型準確率最高,為98.2%,其使用的VFE特征提取器也能捕獲惡意X.509證書的關(guān)鍵特征.基于證書內(nèi)容的檢測方法的優(yōu)點為使用證書中的必要字段作為特征,攻擊者破壞這些數(shù)據(jù)的可能性小.其缺點是獲取證書數(shù)據(jù)樣本較繁瑣,本文通過惡意證書的指紋值在互聯(lián)網(wǎng)設(shè)備搜索引擎中來獲取證書完整信息,操作繁瑣且工作量大.
文獻[16]提出基于censys證書標簽發(fā)現(xiàn)可疑中間人攻擊SSL證書,共分為兩步:發(fā)現(xiàn)可疑服務(wù)器證書,驗證可以服務(wù)器.首先使用Censys中有 “trusted”和“unexpired”標簽證書過濾形成可疑證書和信任證書兩類數(shù)據(jù),找到可疑證書的MITM主機的指紋值和IP地址,即發(fā)現(xiàn)了可疑服務(wù)器,用可疑網(wǎng)站域名重新掃描,提取相應(yīng)的不受信任的證書,并測試他們是否為公開中間人攻擊主機.其結(jié)果顯示不受信任的證書的主機更容易收到中間人攻擊.
針對惡意軟件等惡意行動利用數(shù)字證書來影藏其惡意行為的問題,本文基于Catboost的惡意數(shù)字證書檢測方法能實現(xiàn)惡意數(shù)字證書檢測,成功實現(xiàn)惡意軟件的預(yù)防.檢測方法的技術(shù)路線是如圖1所示,具體的步驟分為4步.
圖1 惡意數(shù)字證書檢測的技術(shù)路線圖
第1步.數(shù)據(jù)收集.
第2步.數(shù)據(jù)預(yù)處理.首先進行數(shù)據(jù)清洗和解密,特征提取中,一部分特征屬于手工特征,一部分使用TF-IDF方法提取特征,最后融合兩組特征.
第3步.檢測方案.對比使用Catboost等機器學(xué)習檢測算法.
第4步.評價指標.評價分析實驗結(jié)果.并分析特征的重要性.
良性證書來自于根據(jù)Alexa排名前一百萬的網(wǎng)站域名排名文件,使用openSSL工具包的s_client命令提取對應(yīng)域名的證書文件,良性證書數(shù)據(jù)提取通過編寫python腳本實現(xiàn)的.惡意證書是從abuse.ch中提供的惡意證書SHA1值,在censys網(wǎng)站獲取該SHA1值對應(yīng)的pem格式的證書文件.良性證書集有14388條數(shù)據(jù),惡意證書數(shù)據(jù)共有2267條惡意數(shù)據(jù).圖2是證書收集階段,加密的證書文件.
圖2 加密證書樣式
3.2.1 數(shù)據(jù)清洗及解碼
對數(shù)據(jù)進行數(shù)據(jù)清洗工作,保證數(shù)據(jù)純度的同時,又在一定程度上降低了數(shù)據(jù)的維度.數(shù)據(jù)清洗首先是使用OpenSSL開源工具包檢測證書文件是否滿足X.509證書格式標準.解密是通過使用OpenSSL的′openssl.exe x509-text-in ′命令,在命令行中完成加密證書文件的解密.良性數(shù)據(jù)經(jīng)過數(shù)據(jù)清洗后,驗證通過占比達到98%,數(shù)據(jù)均能通過檢測.由于惡意證書數(shù)據(jù)每年收集數(shù)據(jù)較少且發(fā)現(xiàn)時間久的證書很多已被吊銷,清洗后驗證通過率為72%,數(shù)據(jù)數(shù)量從2267條減少到1632條.圖3是解密后的數(shù)據(jù),解密后的證書服從X.509證書標準結(jié)構(gòu).
圖3 解密證書樣式
3.2.2 特征提取
以數(shù)字證書內(nèi)容為研究主體,研究其具有的發(fā)行者名稱、使用者名稱、有效性等多種組成部分,研究有助于識別攻擊者常見模式的關(guān)鍵信息,得到特征.
2.2.2.1 手工特征
總共考慮了53個特征,特征從證書結(jié)構(gòu)分別研究,分為4類特征,分別為證書屬性部分、證書發(fā)行者屬性、證書使用者屬性和其他屬性.其中特征的類型分為布爾型、數(shù)值型、文本型.特征的獲取,一部分是直接從證書中獲取的,另一部分是對證書內(nèi)容的切分或組合轉(zhuǎn)換得到的,不直接使用.目的是使用有用的特性來檢查攻擊者的行為和模式.其中手工特征提取同樣使用Python編程腳本實現(xiàn).
1)證書屬性部分.
數(shù)值特征包括ExtensionNumber:證書中擴展內(nèi)容的個數(shù);certificate_serial_number_len:證書編號長度.
分類特征包括certificate_version:證書版本號;signature_algorithm_name:證書簽名算法名;basic_constraints:基本約束;Extention_key_usage_value:密鑰用法類型;Extention_extened_key_usage:密鑰用法擴展;validity_time_to_unvalid:證書有效期天數(shù).
布爾特征中,新加入IS_key_usage_value:是否含有密鑰用法類型;IS_extened_key_usage:是否含有密鑰用法擴展;IS_AuthorityKeyIdentifier:是否含有發(fā)行者密鑰標識符;IS_SubjectKeyIdentifier:是否含有主題密鑰標識符;IS_SubjectAlternativeName:是否含有主題別名;IS_ocspUrls:是否含有證書在線狀態(tài)協(xié)議地址;IS_CrlDistributionPoints:是否含有證書撤銷列表地址.
2)證書發(fā)行者屬性.
數(shù)值特征包括IssuerElements:發(fā)行者元素個數(shù).
布爾特征包括IS_Issuercommon_name:是否含有發(fā)行者通用名;IS_IssuerOrganization:是否含有發(fā)行者組織;IS_IssuerLocation:是否含有發(fā)行者地址;IS_IssuerCountry:是否含有發(fā)行者國家;IS_IssuerState:是否含有發(fā)行者聲明;IS_IssuerSerialnumber:是否含有發(fā)行者序列號;Issuer_is_.com:發(fā)行者CN字段是否為“.com”的域名;Is_freecert:是否為免費生成證書;Is_IssuerCNisdomain.com:發(fā)行者CN是否為domain.com;Is_IssuerCNis*:發(fā)行者CN是否為*.新加Is_IssuerCNislocalhost:發(fā)行者CN是否為localhost;IS_IssuerOrganizationUnit:是否含有發(fā)行者組織單元;IS_IssuerEmailaddress:是否含有發(fā)行者郵箱.
3)證書使用者屬性.
數(shù)值特征包括SubjectElements:使用者元素個數(shù).
布爾特征包括IS_SubjectCommon_Name:是否含有使用者通用名;IS_SubjectOrganization:是否含有使用者組織;IS_SubjectLocation:是否含有使用者地址;IS_SubjectCountry:是否含有使用者國家;IS_SubjectState:是否含有使用者聲明;Subject_is_.com:使用者CN字段是否為“.com”的域名;SubjectonlyCN:使用者主體是否只有CN字段;IS_SubjectCommonNameIp:使用者CN字段是否是IP地址,Is_IssuerCNisdomain.com:使用者CN是否為domain.com;Is_SubjectCNis*:使用者CN是否為*.新加Is_SubjectCNislocalhost.localdomain:使用者CN是否為localhost.localdomain;IS_SubjectCountryisXX:使用者國家是否為XX;IS_SubjectSerialnumber:是否含有使用者序列號;IS_SubjectOrganizationUnit:是否含有使用者組織單元;Is_IssuerCNisexample.com:使用者CN是否為example.com;IS_SubjectEmailaddress:是否含有使用者郵箱.
4)其他屬性
布爾特征包括Is_selfsigned:證書是否為自簽名證書;Is_extended_validated:證書是否為擴展驗證;
Is_organization_validated:證書是否為組織驗證;Is_individual_validated:證書是否為個人驗證;Is_domian_validated:證書是否為域驗證.新加入Is_validated:是否含有證書等級信息和Is_subjectandissuer_notCN:發(fā)行者使用者CN是否都沒有.
本文提取的特征中,參考了文獻[10]和文獻[13],其余為本文新加特征組成,其中新加入了很多證書擴展、發(fā)行者和使用者屬性特征.本文的分類特征需要使用2.2.3章節(jié)的基于統(tǒng)計量的標簽向量化方法CLE方法,進行向量化處理.布爾類型的特征可直接用0,1數(shù)值進行替換成數(shù)值數(shù)據(jù).
2.2.2.2 TF-IDF方法特征
證書解密后的數(shù)據(jù),經(jīng)過TF-IDF方法處理后得到特征.TF-IDF[17](term frequency-inverse document frequency)是一種使用統(tǒng)計的技術(shù)進行數(shù)據(jù)挖掘的常用加權(quán)技術(shù),用于統(tǒng)計一個詞語在全部文件中的重要程度.其中TF是詞頻(Term Frequency),IDF是逆文本頻率指數(shù)(Inverse Document Frequency),其計算公式如下:
(1)
(2)
tfidfi,j=tfi,j×idfi
(3)
其中ni,j是該詞在文件dj中出現(xiàn)的次數(shù),分母則是文件dj中所有詞匯出現(xiàn)的次數(shù)總和;|D|表示語料庫中的文件總數(shù),分母表示含有ti的文件數(shù)目.
3.2.3 基于統(tǒng)計量的標簽編碼方法CLE
在本文中,含有離散型的分類特征要進行向量化操作,為了實現(xiàn)離散數(shù)據(jù)向量化,提出了基于統(tǒng)計量的標簽編碼count_LabelEncoder方法,簡稱CLE,即通過統(tǒng)計量來確定文本對應(yīng)數(shù)值的映射圖.上述分類特征,都要進行CLE的向量化操作.算法的步驟是:首先,分類數(shù)據(jù)進行缺失值填充,用“null”字符串填充.接著對合并的兩類數(shù)據(jù)進行數(shù)值化處理,是先統(tǒng)計列特征字段數(shù)據(jù)的種類,并統(tǒng)計其出現(xiàn)頻次,將出現(xiàn)頻率高的數(shù)據(jù)特征的數(shù)值設(shè)置為1,次之的設(shè)置為2,以此類推,統(tǒng)計頻數(shù)較高的數(shù)據(jù)特征的數(shù)值化的值越小.由于兩類特征擁有不同的屬性,其中良性特征擁有規(guī)范屬性,但惡意特征擁有較多離群值,此特征向量化的方法,能實現(xiàn)類內(nèi)特征的有效信息,能實現(xiàn)縮小類內(nèi)特征,增大類間特征的作用,該算法對本文的離群值較敏感.算法描述如算法1所示.
算法1.The CLE algorithm
輸入:良性與惡意合并數(shù)據(jù)特征集文件中其中某一特征
X={x1,x2,…,x8}
過程:使用“null”字符填充缺失值
for 1=1,2,…,8 do
df=dict(value_counts(xi))
k=1
for item in df:
df[item]=k
k=k+1
for row in xi:
dd=xi.loc[row]
yi.append(df[dd])
輸出:Y={y1,y2,…,y8}
3.2.4 標準化
在本論文中,特征集分類特征和數(shù)值特征分布在非常不同的范圍內(nèi).標準化是將數(shù)據(jù)集中的數(shù)值特征值轉(zhuǎn)換為一個共同的規(guī)模的過程.為了規(guī)范化這兩類特征,使用了最小最大歸一化方法,公式(4)如所示:
(4)
這種標準化方法重新調(diào)整了[0,1]之間的特征范圍.使用數(shù)據(jù)規(guī)范化的主要優(yōu)點是增加數(shù)值穩(wěn)定性、減少訓(xùn)練時間以及提高分類模型的精度.
3.2.5 特征融合
本文列特征的融合,直接將兩個特征進行行上合并,手工特征連結(jié)特征了TF-IDF方法特征,形成了融合特征.即將兩個特征向量組,列連接成一個特征向量組,若手工特征的個數(shù)為x,TF-IDF方法特征的個數(shù)為y,則融合特征的個數(shù)為x+y,即行數(shù)不變,列數(shù)改變.特征融合能匯集兩個特征集中具有具差異的分類信息,增加特征的數(shù)量,提高分類的有效性.
Catboost[18]是一種基于對稱決策樹的梯度提升算法,其能實現(xiàn)設(shè)置參數(shù)少、支持分類特征數(shù)據(jù)和高準確率的分類,其還支持GPU版本.與類似的前期算法XGBoost、LightGBM相比,CatBoost的改進了一些功能:其能自動處理分類特征,采用的是完全對稱樹,其加入了針對分類特征的組合特征,采用排序提升的方法對抗訓(xùn)練集中的噪聲點,避免梯度估計的偏差,進而解決預(yù)測偏移的問題,緩解過擬合.其中自動處理分類特征的方法是首先使用熱獨編碼,如果設(shè)置熱獨編碼最大分類值個數(shù)限制,當超過限制數(shù)時,會首先對分類特征進行統(tǒng)計分析,計算每個分類值的出現(xiàn)頻率,之后再加上超參數(shù),生成新的數(shù)值特征,其公式如下:
(5)
其中countInClass表示當前列中有多少個分類值,prior是根據(jù)初始設(shè)定的參數(shù)確定的值,totalCount是具有與當前分類特征值匹配的對象的總數(shù).Catboost的缺點是由于要進行分類特征的判斷及處理,所以需要更多的計算時間和存儲資源.
本文的實驗環(huán)境為:Windows系統(tǒng),CPU主頻8×3.4GHZ,運存16G,內(nèi)存64GB,機器學(xué)習工具使用python中的scilit-learn0.20.3和keras2.2.4.
本文構(gòu)建的證書數(shù)據(jù)集,具體特征如表1所示,由于數(shù)據(jù)集數(shù)據(jù)樣本不均衡,接近40∶1,采用降采樣,只使用前3264條良性證書,使數(shù)據(jù)比例為2∶1.
表1 實驗數(shù)據(jù)表
本文的使用的性能評價指標是標準的分類評估方法,包括準確率、召回率、精準率、F1值和運行時間.準確率、召回率、精準率、F1值的計算公式如下:
(6)
(7)
(8)
(9)
其中P,R,TP,F(xiàn)N,TN和FP分別是精準率,召回率,true positives的個數(shù),false negatives的個數(shù),true negatives的個數(shù)和false positives的個數(shù).
本文使用了用網(wǎng)格搜索遍歷的策略,首先定義要進行參數(shù)的選擇范圍,根據(jù)定義的參數(shù)表格選擇參數(shù)進行模型訓(xùn)練,通過準確率來評估參數(shù)的選定,得到最優(yōu)的參數(shù).表2是經(jīng)過選擇后得到的值.
表2 參數(shù)選定表
LSTM模型中,epoch參數(shù)的選擇,得到曲線圖,如圖4所示,該圖隨著訓(xùn)練輪數(shù)的增加,訓(xùn)練損失向下傾斜,驗證損失向下傾斜,到達一個拐點,之后就慢慢達到了平滑,能正好擬合LSTM模型.能看到在epoch為6時,能慢慢平滑,中間會有些波動,通過多次訓(xùn)練模型都能在15次時都能達到平滑,所以文中的epoch設(shè)定為15.其中batch_size設(shè)置為32.
圖4 LSTM模型準確率和損失值變化曲線
根據(jù)第2.2.2節(jié)中提到的特征,得到的特征包括TF-IDF特征和53個手工特征,通過處理解密后的數(shù)據(jù),進行 TF-IDF處理,會得到不同個數(shù)的特征,進行了實驗,對比不同特征個數(shù)的準確率變化,得到最合適的參數(shù)個數(shù).得到圖5,其中使用Catboost算法,對比了1到100區(qū)間內(nèi)不同特征個數(shù)下準確率的變化,特征個數(shù)為3時準確率最高,3個特征分別為:′dns′,′com′,′timestamp′.在特征個數(shù)為3之后,會穩(wěn)步的下降,之后又隨著特征個數(shù)的增多準確率不斷提高,選擇的特征中,都會含有很多編碼特征,但是編碼特征屬于證書的加密屬性,不能提取出可解釋的數(shù)據(jù).所以選定TF-IDF特征個數(shù)為3.
圖5 準確率變化圖
本文使用的向量化算法是本文提出的基于統(tǒng)計量的標簽編碼方法CLE,該方法在2.2.3節(jié)中有詳細介紹,但是本文使用的 Catboost算法可以處理本文的需要向量化的分類特征,為此做了對比實驗,從結(jié)果表3能看出,使用Catboost進行向量化操作和使用CLE方法進行向量化操作,準確率相差1.84%,CLE方法能更好的表示數(shù)據(jù).所以本文使用CLE方法進行分類特征編碼.
表3 分類特征編碼方法對比表
評估模型中,為更好的實現(xiàn)惡意證書檢測,在機器學(xué)習算法中,對比了支持向量機(SVM)、K最近鄰(KNN)、隨機森林(RF)、多層感知器(MLP)、樸素貝葉斯(NB)、長短期記憶網(wǎng)絡(luò)(LSTM)7種機器學(xué)習分類算法,以得到適用于證書數(shù)據(jù)的有效檢測算法.得到表4結(jié)果表,可以看出,Catboost表現(xiàn)最優(yōu),其的準確率能達到98.76%,相似的決策樹算法LightGBM和隨機森林算法緊隨其后,能看得出基于樹和基于核的算法能較好的結(jié)果,基于神經(jīng)網(wǎng)絡(luò)和樸素貝葉斯的算法,不能得到較好的結(jié)果.
表4 模型評估結(jié)果表
通過表5所示,能看出由于要進行分類特征的處理所占用時間較長,Catboost算法的運行時間不是最優(yōu),但會比LightGBM和神經(jīng)網(wǎng)絡(luò)算法運行時間短.
表5 運行時間表
模型解釋中,得到了整體特征重要性圖,如圖6所示,其通過評估每個特征對預(yù)測結(jié)果的貢獻程度,將模型得到的結(jié)果進行可視化展示,其值越大該特征對結(jié)果有促進作用,越小說明該特征對分類有抑制作用.其中的每一個數(shù)據(jù)點表示一組數(shù)據(jù),結(jié)果如圖6所示.可以看出本文加入的特征IS_key_usage_value:是否含有密鑰用法類型,是對結(jié)果影響最大的特征,對分類有很好的促進作用.表現(xiàn)較好的布爾特征有密鑰用法擴展、證書撤銷列表地址、證書在線狀態(tài)協(xié)議地址和主題別名,這些特征均屬于本文加入的特征,這些布爾特征都是證書擴展屬性中提取的特征,擴展屬性顯示了除去證書標準信息之外的其他信息,可以看出,良性證書中會有更多擴展屬性,惡意證書中很少證書含有證書擴展屬性.其中表現(xiàn)較好的分類特征包括基本約束、密鑰用法類型、密鑰用法擴展和證書簽名算法名,在使用CLE向量化方法后,在分類中能擁有較好的特征重要性.其中TF-ID特征中′dns′特征也擁有較好的模型貢獻度.還能看出證書是否為自簽名證書或者免費證書,也是惡意證書進行惡意攻擊的關(guān)鍵行為模式.
圖6 整體特征重要性排序
本文實現(xiàn)惡意證書檢測的完整處理過程,整個研究方法框架比較明確.通過加入良好的手工特征,提出分類數(shù)據(jù)編碼的CLE方法,得到53個手工特征和3個TF-IDF特征利用Catboost方法實現(xiàn)了惡意證書檢測的目的.Catboost學(xué)習模型表現(xiàn)優(yōu)異,達到了98.76%的準確率,通過該模型的特征重要性排序圖看出本文加入的特征能更好的區(qū)分兩類特征,通過特征分析也能看出惡意證書中較少擁有證書擴展屬性,自簽名證書普遍被惡意證書使用.隨著證書被用在惡意活動中,本文基于證書內(nèi)容的檢測操縱更容易且更全面監(jiān)測惡意軟件.但隨著攻擊的演變和攻擊者對證書不同程度的操縱,未來可改進的方向:1)通過不斷發(fā)現(xiàn)新的惡意模式并引入新的特征.2)由于本文收集的惡意證書數(shù)據(jù)是網(wǎng)站收集的惡意軟件的惡意證書,惡意證書的種類不夠全面.未來,將引入更多種類的惡意證書數(shù)據(jù),擴充惡意數(shù)據(jù)集,改善數(shù)據(jù)不平衡的情況.3)引入其他檢測技術(shù),以提高整體檢測效率.