国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的不良應(yīng)用域名早期識別方法①

2024-03-20 08:21:48胡安磊李振宇謝高崗
高技術(shù)通訊 2024年2期
關(guān)鍵詞:域名特征向量語義

胡安磊 田 語 陳 勇 李振宇 謝高崗

(*中國科學(xué)院計(jì)算技術(shù)研究所 北京 100190)

(**中國互聯(lián)網(wǎng)絡(luò)信息中心 北京 100190)

(***中國科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心 北京 100083)

(****中國科學(xué)院大學(xué) 北京 100049)

域名是用于識別和定位互聯(lián)網(wǎng)資源的層次化、結(jié)構(gòu)式字符標(biāo)識,是重要的互聯(lián)網(wǎng)基礎(chǔ)資源,絕大多數(shù)互聯(lián)網(wǎng)應(yīng)用都以有一定意義的域名作為訪問入口。然而,域名也被不良甚至惡意網(wǎng)站所利用,嚴(yán)重影響互聯(lián)網(wǎng)的健康發(fā)展。本文從域名管理的角度出發(fā),聚焦在承載涉黃涉賭等不良內(nèi)容的網(wǎng)站所應(yīng)用域名(簡稱不良應(yīng)用域名)的早期(即在注冊之際)識別。不良應(yīng)用域名的早期識別可以更好地保護(hù)互聯(lián)網(wǎng)用戶的權(quán)益和保障互聯(lián)網(wǎng)健康發(fā)展,對我國網(wǎng)絡(luò)空間的治理也具有重要意義。

已有對不良應(yīng)用域名識別的方法[1-4],通常是根據(jù)網(wǎng)頁文本內(nèi)容、圖片內(nèi)容等對域名對應(yīng)的網(wǎng)站進(jìn)行特征分析,訓(xùn)練模型以判斷網(wǎng)站是否涉黃涉賭,進(jìn)而判斷域名是否被用于不良應(yīng)用。這類檢測方法準(zhǔn)確性較好,但存在滯后性導(dǎo)致時(shí)效性不足。全球注冊量最大的國家頂級域名,始終存在一定數(shù)量的.CN域名被用于承載涉黃涉賭等不良內(nèi)容的網(wǎng)站。目前主要通過自動化內(nèi)容檢測手段發(fā)現(xiàn)潛在的不良應(yīng)用域名,并輔以人工判定的方式,實(shí)現(xiàn)對不良應(yīng)用域名的標(biāo)注與管理。需要說明的是,不良應(yīng)用域名與惡意域名盡管同屬于域名濫用[5],但二者存在很大的不同。惡意域名通常不對應(yīng)具體網(wǎng)站,所以其域名并不需要考慮易于記憶等因素,而重點(diǎn)考慮如何逃避檢測,如使用域名生成算法(domain generation algorithm,DGA)產(chǎn)生大量惡意域名,而只有一個(gè)是用來與遠(yuǎn)程控制服務(wù)器連接。與此相反,不良應(yīng)用域名對應(yīng)具體網(wǎng)站,而且用戶可能直接輸入域名訪問,所以域名的文本特性(如字符熵)等與惡意域名差異大。因此,已有針對惡意域名的識別方法并不能直接應(yīng)用于不良應(yīng)用域名。

本文研究不良應(yīng)用域名的早期識別方法,旨在域名注冊時(shí),準(zhǔn)確識別出將來可能被用于不良網(wǎng)站的域名,從而為域名管理者提前開展監(jiān)測或治理提供支撐。該問題是有監(jiān)督的二分類問題,即給定部分不良應(yīng)用域名作為種子,對域名進(jìn)行二分類,從而識別出不良應(yīng)用域名和正常域名。為此,本文利用預(yù)訓(xùn)練語言模型基于Transformer 的雙向編碼器(bidirectional encoder representation from transformers,BERT)提取域名的文本語義特征,并提出基于注意力機(jī)制融合域名的文本語義特征和注冊特征(如注冊商、生命周期等),實(shí)現(xiàn)對域名的分類。

本文的主要貢獻(xiàn)如下。

(1)特征提取。從域名注冊信息和域名文本語義2 方面提取域名的特征,實(shí)現(xiàn)在域名注冊階段的特征提取,實(shí)現(xiàn)不良應(yīng)用域名的早期檢測。此外,為了準(zhǔn)確全面提取文本語義特征,提出基于預(yù)訓(xùn)練語言模型BERT 的域名文本語義特征提取方法。

(2)分類模型。設(shè)計(jì)基于注意力機(jī)制的域名分類方法。該方法使用注意力機(jī)制考慮不同特征作用差異,有效融合域名的注冊信息和語義信息,并最終通過全連接神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)域名的分類,識別出不良應(yīng)用域名。

(3)數(shù)據(jù)與實(shí)驗(yàn)。從海量.CN 國家頂級域名中,提取2021 年某時(shí)間段內(nèi)發(fā)現(xiàn)并處置的涉黃涉賭網(wǎng)站域名以及正常網(wǎng)站域名(按工信部要求完成網(wǎng)站備案的域名)為實(shí)驗(yàn)數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果表明所提方法分類準(zhǔn)確率(F1 分?jǐn)?shù))達(dá)到0.99,同時(shí)通過魯棒性分析和消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了所提方法的有效性。

1 相關(guān)工作

域名濫用(DN abuse),即域名的非正當(dāng)使用,如域名被用于網(wǎng)絡(luò)釣魚欺詐、涉黃涉賭網(wǎng)站、垃圾郵件發(fā)送、惡意軟件分發(fā)、僵尸網(wǎng)絡(luò)控制等各種違法違規(guī)場景。近年來,互聯(lián)網(wǎng)名稱與數(shù)字地址分配機(jī)構(gòu)(Internet Corporation for Assigned Names and Numbers,ICANN)所召開的歷次全體大會均將域名濫用治理列為專門議題進(jìn)行研討,并開展了若干有意義的探索和嘗試。此外,ICANN 還專門發(fā)起了面向全球的域名濫用活動報(bào)告項(xiàng)目,旨在面向各大頂級域名定期提供相應(yīng)的域名濫用活動監(jiān)測及評價(jià)服務(wù)。2020 年8 月,歐盟委員會專門就域名濫用治理議題面向全社會發(fā)起公開招標(biāo),旨在評估域名濫用情況對于歐盟網(wǎng)絡(luò)生態(tài)的影響情況及應(yīng)對策略。國際安全事件應(yīng)急響應(yīng)小組論壇也專門設(shè)立域名濫用工作組,專門研究域名濫用治理相關(guān)議題。域名被用于涉黃涉賭類網(wǎng)站在我國網(wǎng)絡(luò)管理的實(shí)踐中屬于域名濫用的一種,也可稱之為涉黃涉賭不良應(yīng)用。

傳統(tǒng)不良應(yīng)用域名檢測發(fā)現(xiàn)主要有2 種方式:一種是通過爬取網(wǎng)站的文本和圖像數(shù)據(jù),根據(jù)內(nèi)容分析網(wǎng)站使用的域名是否涉及不良應(yīng)用,網(wǎng)絡(luò)賭博、淫穢色情等不良網(wǎng)站的網(wǎng)頁內(nèi)容存在高度相似性,利用圖像相似性聚類和相似性搜索等技術(shù)[6],可以進(jìn)行涉黃涉賭不良應(yīng)用域名的檢測。這種方法準(zhǔn)確性較好但計(jì)算量大,而且域名被識別為不良應(yīng)用域名時(shí)往往已經(jīng)活躍了一段時(shí)間,時(shí)效性不高;另一種方法是通過網(wǎng)站注冊域名自身特征信息進(jìn)行分析識別,通過分析正常域名和不良應(yīng)用域名(特別是機(jī)器產(chǎn)生的域名)在文本上的構(gòu)成差異進(jìn)行檢測[7-8]。這種方法僅依賴域名文本結(jié)構(gòu)特征,準(zhǔn)確率不高且容易逃避,此外不良應(yīng)用域名需要考慮便于記憶,所以通常不借助機(jī)器來產(chǎn)生域名。

在其他類型的域名濫用檢測發(fā)現(xiàn)方面,如惡意域名監(jiān)測,已有方法基于域名本身和域名解析數(shù)據(jù)提取特征并構(gòu)建分類器。通過提取其結(jié)構(gòu)特征、統(tǒng)計(jì)特征、語言學(xué)特征,并利用監(jiān)督學(xué)習(xí)方法對域名進(jìn)行分類,可以識別DGA 產(chǎn)生的惡意域名[9]。通過聚類關(guān)聯(lián)辨識出同一DGA 或其變體生成的域名,然后分別提取每一個(gè)聚類集合中算法生成域名的TTL(time-to-live)、解析IP(Internet protocol)分布、歸屬、Who is 的更新、完整性及域名的活動歷史特征等,利用支持向量機(jī)(support vector machine,SVM)分類器可以過濾出其中的惡意域名[10]。然而,與DGA域名不同,本文關(guān)注的不良應(yīng)用域名需要考慮便于記憶以吸引更多的用戶訪問,因此其域名的字符分布與正常域名差別并不像DGA 域名與正常域名的差別那么大,因此DGA 域名的識別方法并不適用于不良應(yīng)用域名的識別。

近年來,深度學(xué)習(xí)方法被應(yīng)用于域名的分類。文獻(xiàn)[11]提出了一種利用長短期記憶(long-short term memory,LSTM)網(wǎng)絡(luò)對域名進(jìn)行分類的方法。文獻(xiàn)[12]針對數(shù)據(jù)集不平衡的問題對該模型進(jìn)行了改進(jìn)。文獻(xiàn)[13]在LSTM 的基礎(chǔ)上應(yīng)用類對抗學(xué)習(xí)技術(shù),對每一個(gè)域名實(shí)施字符級別的擾動,提升了對從未出現(xiàn)過的惡意域名的識別精度。僅依賴于字符特征的域名分類方法容易被攻擊者逃避,為此研究者發(fā)現(xiàn)攻擊者難以偽造域名系統(tǒng)(domain name system,DNS)流量中的隱藏聯(lián)系,比如受相同攻擊者感染的受害者傾向于查詢相同或部分重疊的惡意域名集合,而未受感染的客戶端幾乎不查詢這些域名;同時(shí),由于經(jīng)濟(jì)上的限制,攻擊者很難擁有大量的網(wǎng)絡(luò)資源,因此他們對資源的重用也在惡意域名之間構(gòu)建了內(nèi)在關(guān)聯(lián)。據(jù)此,研究人員提出通過構(gòu)建域名-主機(jī)圖、域名-IP 地址的異構(gòu)圖檢測惡意域名[14-18]。但這種方法依賴于域名的請求數(shù)據(jù),即在惡意域名活躍后才能實(shí)施檢測。本文從國家頂級域管理的實(shí)際需求出發(fā),聚焦在不良應(yīng)用域名的早期發(fā)現(xiàn),即在注冊時(shí)檢測。

在惡意域名的早期檢測方面,研究人員考察了惡意域名和正常域名在注冊商、注冊歷史、早期的DNS 查詢行為、域名結(jié)構(gòu)特征等方面的差異性[19-21],但如何有效提取并融合這些特征實(shí)現(xiàn)對域名的準(zhǔn)確分類,仍然具有較大的挑戰(zhàn)。

2 方法

本文提出了融合域名注冊信息和域名文本語義信息的不良應(yīng)用域名早期識別方法,具體流程如圖1所示。識別流程共分為3 個(gè)模塊,在特征提取模塊,系統(tǒng)分別從域名注冊信息和域名文本信息2個(gè)部分獲得域名的局部特征;接著,系統(tǒng)結(jié)合注意力機(jī)制獲得域名的向量表示;最后,系統(tǒng)將向量表示輸入到全連接網(wǎng)絡(luò)對域名進(jìn)行分類。

2.1 特征提取模塊

本文從域名注冊信息和域名文本語義2 方面提取域名的特征,從而在域名注冊階段檢測可疑的不良應(yīng)用域名。

(1)注冊時(shí)間。不良應(yīng)用網(wǎng)站往往一次性注冊大量不良應(yīng)用域名,這一方面是因?yàn)樾枰銐驍?shù)量的不良應(yīng)用域名支撐其不良內(nèi)容的承載(如定時(shí)更換所使用的域名),另一方面是出于經(jīng)濟(jì)成本原因(一次性注冊大量域名時(shí),單個(gè)域名成本低)。因此,注冊時(shí)間是一個(gè)重要特征,可提取注冊年份、注冊月份、周幾(day-of-week)、一個(gè)月中的第幾天(day-of-month)、一年中的第幾天(fay-of-year)五維特征來描述域名的注冊時(shí)間。

(2)生命周期。由于注冊生命周期更長的域名需要支付更高的費(fèi)用,而現(xiàn)有檢測機(jī)制下域名在用于不良應(yīng)用后較短時(shí)間內(nèi)往往就會被檢測出來而無法繼續(xù)使用,因此攻擊者傾向于注冊有效時(shí)長為最短年限的域名來節(jié)省成本。本文將過期時(shí)間和生命時(shí)長作為2 個(gè)重要特征。

(3)注冊人和注冊商。出于對成本和政策的考慮,不良應(yīng)用網(wǎng)站往往會選擇特定的注冊商進(jìn)行域名注冊,因此本文將注冊人和注冊商也納入域名的注冊特征。

2.1.1 域名注冊信息特征提取

在域名注冊信息方面,提取了如表1 所示的13維向量。

表1 對域名注冊信息提取的特征及其描述

2.1.2 域名語義信息特征提取

在不良應(yīng)用域名分類任務(wù)中,不良應(yīng)用域名具有易記性、可讀性和可解釋性等特征,因此傳統(tǒng)的語言和結(jié)構(gòu)特征(如N-gram,元音的比例、數(shù)字字符的比例等)往往無法準(zhǔn)確區(qū)分不良應(yīng)用域名和正常域名。同時(shí),不良應(yīng)用域名也會偽裝成正常域名的樣子,從而騙取用戶點(diǎn)擊,如example.com 和exanple.com 等。為此,本文采用域名的語義信息代替了域名的結(jié)構(gòu)信息作為域名的文本特征。

本文選擇使用BERT 進(jìn)行不良應(yīng)用域名的語義表示。相較于在小規(guī)模數(shù)據(jù)集上訓(xùn)練網(wǎng)絡(luò)的方法,在大型語料庫上采用新定義的掩碼語言模型(masked language model,MLM)進(jìn)行預(yù)訓(xùn)練的BERT能夠獲得無偏見的單詞級別的向量表示[22];相較于以往的單向語言模型(從左到右或者從右到左),BERT 采用深層的雙向Transformer[23]生成能融合左右上下文信息的深層雙向語言表征。在預(yù)訓(xùn)練后,只需微調(diào)BERT 模型的輸出層,即可滿足各種下游任務(wù)需求。由于BERT 的輸出是單詞(token)級別的,因此本文將特殊標(biāo)記[CLS]的768 維輸出作為域名的文本表示向量,這是因?yàn)閇CLS]本身無語義信息,能更公平地融合文本中其他單詞的語義信息。

2.2 向量表示模塊

如圖2 所示,本文通過基于注意力機(jī)制的節(jié)點(diǎn)特征聚合操作來綜合處理域名的注冊信息和語義信息并生成域名節(jié)點(diǎn)的表征向量。

圖2 向量表示模塊示意圖

由于不同方面的特征維數(shù)不一樣,所以本文采用線性變換矩陣Mi(該矩陣將作為神經(jīng)網(wǎng)絡(luò)的參數(shù)得到訓(xùn)練)將注冊信息特征向量x1和語義信息特征向量x2映射到相同維度(各768 維):

此外,由于在域名向量表征中,不同源的特征對于識別和區(qū)分不同類型的域名具有不同的影響,因此本文提出了一種特征聚合方法,基于注意力機(jī)制來凸顯它們之間的重要性差異。該方法將對來自不同特征源的特征向量進(jìn)行加權(quán)求和,并選擇性地篩選出一些重要的信息,從而使注意力集中在這些信息上。這些特征的注意力分?jǐn)?shù)可以通過式(2)來進(jìn)行計(jì)算。

這里,引入softmax對原始計(jì)算的注意力分?jǐn)?shù)進(jìn)行歸一化,并通過softmax的特性更加突出重要特征的權(quán)重。att(xi) 為注意力打分函數(shù),計(jì)算x′i和q的相關(guān)性,常見的方法包括求兩者的向量點(diǎn)積、向量余弦相似度等,本文采取了向量點(diǎn)積的方式,具體計(jì)算方式如式(3)所示。

其中,σ代表LeakyReLU 函數(shù),q代表注意力向量,是神經(jīng)網(wǎng)絡(luò)需要學(xué)習(xí)的一個(gè)參數(shù)。

最后,通過對兩方面的特征加權(quán)聚合就得到了域名的1 356 維表征向量:

2.3 分類模塊

獲得域名的向量表示后,不良應(yīng)用域名識別問題即轉(zhuǎn)化為了二分類問題,本模塊采用以線性整流函數(shù)(rectified linear unit,ReLU)為激活函數(shù)的全連接網(wǎng)絡(luò)來進(jìn)行分類,目標(biāo)函數(shù)為交叉熵?fù)p失函數(shù):

其中,yi為標(biāo)簽值,y′i為預(yù)測值。

綜上域名分類器的訓(xùn)練過程如算法1 所示。獲得訓(xùn)練好的分類器后,即可對域名進(jìn)行分類,從而識別出不良應(yīng)用域名。

2.4 計(jì)算復(fù)雜度分析

參數(shù)量是指模型訓(xùn)練中需要訓(xùn)練的參數(shù)總數(shù),用來衡量模型的大小,也即計(jì)算空間復(fù)雜度。

(1)全連接層。在特征映射和分類模塊中,采用了全連接網(wǎng)絡(luò)來進(jìn)行線性變換,全連接層的參數(shù)包括權(quán)重矩陣和偏置矩陣,前者的參數(shù)量為dimin×dimout,后者的參數(shù)量為dimout。特征映射中,dimin=13,dimout=768,分類模塊的全連接層中,dimin=768,dimout=2。

(2)注意力機(jī)制。在本文提出的基于注意力機(jī)制的特征聚合模塊中,通過計(jì)算特征向量和注意力向量q的相關(guān)性給特征向量打分,q是神經(jīng)網(wǎng)絡(luò)需要學(xué)習(xí)的參數(shù),其大小就是特征向量的維數(shù),在本文中維數(shù)為768。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)設(shè)置

3.1.1 數(shù)據(jù)集

本文采集的數(shù)據(jù)集包括:

(1)2021 年12 月發(fā)現(xiàn)并處置的被用于涉黃涉賭網(wǎng)站的不良應(yīng)用.CN 域名;

(2)正常網(wǎng)站應(yīng)用域名數(shù)據(jù)(按工信部要求完成網(wǎng)站備案的正常網(wǎng)站應(yīng)用.CN 域名)。

實(shí)驗(yàn)所用數(shù)據(jù)集共包含1 萬個(gè)不良應(yīng)用域名及其注冊信息,以及5 萬個(gè)正常域名及其注冊信息。域名信息示例如表2 所示。需要說明的是,在數(shù)據(jù)集中,域名注冊者通過去隱私化轉(zhuǎn)換為字符串編號,每一個(gè)注冊者對應(yīng)一個(gè)唯一字符串id,其中,對于注冊者不在訓(xùn)練集中的新域名,該字段填充為已有最大注冊者編號加1;注冊商為域名的注冊服務(wù)商簡稱;注冊日期20210724 代表域名注冊在2021 年7月24 日,到期日期20220912 代表域名到期日期為2022 年9 月12 日。

表2 域名信息示例

3.1.2 評價(jià)指標(biāo)

評價(jià)指標(biāo)如表3 所示??紤]到在樣本不均衡的場景下(不良應(yīng)用域名的占比較低),僅使用準(zhǔn)確率作為評價(jià)指標(biāo)難以進(jìn)行有效評估。另一方面,本文提出的模型希望在注冊階段就盡可能地檢測出可疑的不良應(yīng)用域名,從而能對其后續(xù)網(wǎng)絡(luò)活動進(jìn)行更好地監(jiān)測,及時(shí)發(fā)現(xiàn)其可能的惡意行為。因此,本文以不良應(yīng)用域名為正樣本,以F1 分?jǐn)?shù)和召回率為主,同時(shí)結(jié)合精確率和準(zhǔn)確率作為評價(jià)指標(biāo)。

表3 評價(jià)指標(biāo)及其描述

3.2 實(shí)驗(yàn)結(jié)果對比

現(xiàn)有的不良應(yīng)用域名檢測方法主要可以分為2大類,一類基于域名本身和域名解析數(shù)據(jù)提取特征并構(gòu)建分類器;另一類通過DNS 流量構(gòu)建域名-主機(jī)圖、域名-IP 地址等異構(gòu)圖尋找惡意域名之間的聯(lián)系。但依賴于域名解析數(shù)據(jù)的方法需要在惡意域名活躍后才能實(shí)施檢測,本文旨在域名注冊階段進(jìn)行不良應(yīng)用域名的檢測,因此本節(jié)選取了如下4 種只依賴于域名注冊信息的方法作為基線方法。

(1)FANCI(feature-based automated NXDomain classification and intelligence)[9]。它是一種經(jīng)典的惡意域名檢測方法,提取域名的結(jié)構(gòu)特征、統(tǒng)計(jì)特征、語言學(xué)特征,并將3 類21 個(gè)特征直接連接形成45 維的域名特征向量。FANCI 提取的結(jié)構(gòu)特征包括:域名長度、子域名數(shù)目、子域名長度均值、是否擁有有效的TLD、是否擁有TLD 作為子域名等;提取的語言學(xué)特征包括:元音比例、不同字符的個(gè)數(shù)、重復(fù)出現(xiàn)的子符的比例、連續(xù)數(shù)字的比例等;提取的統(tǒng)計(jì)特征包括:熵值和N-Gram。再通過支持向量機(jī)對域名進(jìn)行分類。

(2)隨機(jī)森林方法。它是在實(shí)際生產(chǎn)環(huán)境中被大量使用的經(jīng)典機(jī)器學(xué)習(xí)方法,受到文獻(xiàn)[9]方法中啟發(fā),本文選擇了其他有代表性的有監(jiān)督學(xué)習(xí)模型作為基線方法,輸入和本文提出方法所選取的特征一致,即域名的注冊信息向量和語義信息向量。

(3)決策樹。與隨機(jī)森林方法中所述相同,決策樹的輸入和本文提出方法所選取的特征一致,即域名的注冊信息向量和語義信息向量。

(4)LSTM。文獻(xiàn)[11]提出了一種利用LSTM 網(wǎng)絡(luò)對域名進(jìn)行分類的方法,只依賴于域名的文本信息,故而也可以用以進(jìn)行不良應(yīng)用域名的早期識別。

本文按照8 ∶2 的比例劃分訓(xùn)練集與測試集,使用Python3.8 編程語言[24],并使用Sklearn 第三方庫實(shí)現(xiàn)上述機(jī)器學(xué)習(xí)方法。對于本文提出的方法,結(jié)合Transformers 庫獲得BERT 預(yù)訓(xùn)練網(wǎng)絡(luò),并在Py-Torch 深度學(xué)習(xí)框架上實(shí)現(xiàn)了后續(xù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。

表4 展示了本文提出的方法及上述基線方法的實(shí)驗(yàn)結(jié)果。(1)5 個(gè)方法都取得了很高的準(zhǔn)確率,其中隨機(jī)森林和本文方法的準(zhǔn)確率都超過了99%,同時(shí)隨機(jī)森林、FANCI、LSTM 和本文方法都取得了超過90%的精確率。(2)對于真實(shí)的不良應(yīng)用域名檢測場景,考慮到不良應(yīng)用域名占比極少,且危害性大,希望盡可能檢測到所有的不良應(yīng)用域名,因此希望模型有更高的召回率。而在召回率方面,本文提出的方法表現(xiàn)遠(yuǎn)超另外3 個(gè)方法。隨機(jī)森林、決策樹和FANCI 的召回率都在50%左右,即僅有50%左右的不良應(yīng)用域名被檢測出來,而LSTM 網(wǎng)絡(luò)受到類別不平衡的影響更大,這是由于訓(xùn)練樣本不平衡,模型更容易偏向樣本量多的類別,以此來降低損失。而本文提出的方法獲得了0.999 0 的召回率,即99.9%的不良應(yīng)用域名都可以被檢出。(3)綜合考慮精確率和召回率,可以看到本文方法的F1 分?jǐn)?shù)要遠(yuǎn)優(yōu)于其他方法,這證明了本方法的有效性和可靠性。

表4 實(shí)驗(yàn)結(jié)果對比

3.3 魯棒性分析

為了證明本方法在不良應(yīng)用域名占比變化時(shí)的魯棒性,本節(jié)對正常域名進(jìn)行了不同程度的降采樣,控制不良應(yīng)用域名和正常域名的比例從1 ∶1 變化到1 ∶9,結(jié)果如表5 所示??梢钥吹侥P驮谒斜壤臄?shù)據(jù)集下召回率都在99%以上,驗(yàn)證了本文方法的魯棒性,即在不同比例下該方法都能檢測出超過99%的不良應(yīng)用域名。

表5 模型在不良應(yīng)用域名占比變化時(shí)的表現(xiàn)

3.4 參數(shù)調(diào)節(jié)與分析

本節(jié)在不良應(yīng)用域名和正常域名的比例為1 ∶7的數(shù)據(jù)集上(3.2 節(jié)中F1 最高的數(shù)據(jù)集)對學(xué)習(xí)率(learning rate)和批大小(batchsize)進(jìn)行了調(diào)參實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6 和表7 所示。

表6 模型在學(xué)習(xí)率變化時(shí)的表現(xiàn)

表7 模型在批大小變化時(shí)的表現(xiàn)

(1)學(xué)習(xí)率設(shè)為1 ×10-3時(shí),會出現(xiàn)網(wǎng)絡(luò)不收斂、損失(loss)震蕩的情況,同時(shí)在表5 中可以看到,學(xué)習(xí)率在1 ×10-6時(shí)網(wǎng)絡(luò)收斂慢,在相同訓(xùn)練輪次(epoch)時(shí)模型表現(xiàn)差于另外2 種情況;在1 ×10-4和1 ×10-5時(shí)模型表現(xiàn)穩(wěn)定且F1 都在0.99 以上,在后續(xù)實(shí)驗(yàn)中選擇學(xué)習(xí)率為1 ×10-5。

(2)類似地,當(dāng)批大小設(shè)為16 時(shí),會出現(xiàn)損失震蕩的情況。批增大會使下降的方向更準(zhǔn)確、震蕩更小,減少隨機(jī)性;但另一方面,批增大時(shí),對網(wǎng)絡(luò)參數(shù)的修正變慢,想達(dá)到同樣精度所需的訓(xùn)練輪次會變多,因此在相同輪次的情況下,可以看到模型表現(xiàn)隨批大小變大而變差,在后續(xù)實(shí)驗(yàn)中選擇批大小為64。

3.5 消融實(shí)驗(yàn)

為了驗(yàn)證本文選取特征的有效性和必要性,本節(jié)進(jìn)行了消融實(shí)驗(yàn),表8 展示了各簡化版本模型的F1 分?jǐn)?shù)。

表8 消融實(shí)驗(yàn)結(jié)果

(1)w/o attribute(即不考慮注冊信息): 本實(shí)驗(yàn)只采用BERT 的輸出作為域名的特征向量,亦即后續(xù)神經(jīng)網(wǎng)絡(luò)的輸入。

(2)w/o BERT(即不考慮域名文本語義特征):本實(shí)驗(yàn)只采用從域名信息中提取的13 維屬性向量作為域名的特征向量。

(3)w/otime_att(即不考慮注冊信息中的時(shí)間信息):本實(shí)驗(yàn)采用從域名信息中提取的注冊信息作為域名的特征向量(2 維)和BERT 的輸出作為域名的特征向量。

(4)w/oreg_att(即不考慮注冊者和注冊商信息):本實(shí)驗(yàn)采用從域名信息中提取的時(shí)間信息作為域名的特征向量(11 維)和BERT 的輸出作為域名的特征向量。

(5)w/o registrar(即不考慮注冊者信息):考慮到注冊信息,尤其是注冊者,是具有很強(qiáng)指向性的特征,本實(shí)驗(yàn)去掉注冊者這一維特征向量,采用從域名信息中提取的時(shí)間信息和注冊商信息(12 維)和BERT 的輸出作為域名的特征向量。

(6)w/o duration(即不考慮域名注冊時(shí)的存活時(shí)間):考慮到在不良應(yīng)用域名檢測中,生命周期相較于注冊時(shí)間、過期時(shí)間可能是更有區(qū)分度的特征,本實(shí)驗(yàn)去掉存活時(shí)間這一維特征向量,采用從域名信息中提取的注冊時(shí)間信息、過期時(shí)間信息和注冊信息(12 維)和BERT 的輸出作為域名的特征向量。

通過實(shí)驗(yàn)(1)和(2)可以看出,在只用域名的文本特征或只用注冊信息時(shí),隨著不良應(yīng)用域名的占比減小,模型表現(xiàn)也劇烈下降,而結(jié)合兩者后,模型表現(xiàn)很穩(wěn)定,具有了很強(qiáng)的魯棒性。

而實(shí)驗(yàn)(3)和(4)中,雖然模型表現(xiàn)仍會隨著不良應(yīng)用域名占比的減小而降低,但大部分都穩(wěn)定在0.80 以上,魯棒性較前2 組實(shí)驗(yàn)有大幅度提升,側(cè)面驗(yàn)證了2 種特征的結(jié)合是保障魯棒性的來源。另一方面,第3 組實(shí)驗(yàn)的模型表現(xiàn)普遍略高于第4 組實(shí)驗(yàn),這說明了注冊人信息的貢獻(xiàn)度高于時(shí)間信息。

實(shí)驗(yàn)(5)和(6)中,模型表現(xiàn)隨不良應(yīng)用域名占比減小呈現(xiàn)出先下降后上升的情況,這可能是因?yàn)樵诳倲?shù)據(jù)量較小時(shí)域名存活信息和注冊者信息較為重要,失去這2 個(gè)信息會導(dǎo)致模型表現(xiàn)明顯下降;但在數(shù)據(jù)量較大時(shí)模型能很好地根據(jù)如語義特征、注冊時(shí)間特征等其他特征對不良應(yīng)用域名進(jìn)行識別。

為進(jìn)一步研究模型F1 下降的原因,本節(jié)對前4組消融實(shí)驗(yàn)的精確率、召回率和準(zhǔn)確率進(jìn)行了比較和分析,結(jié)果如圖3 所示。

圖3 4 組消融實(shí)驗(yàn)的精確率、召回率和準(zhǔn)確率

對于實(shí)驗(yàn)(1),可以看到其精確率和準(zhǔn)確率隨著不良應(yīng)用域名占比下降而有所提高,當(dāng)不良應(yīng)用域名和正常域名的比例達(dá)到1 ∶9 時(shí),其模型準(zhǔn)確率甚至超過了90%。這是由于當(dāng)樣本不平衡時(shí),模型會學(xué)習(xí)到訓(xùn)練集中樣本比例的先驗(yàn)信息,而更傾向于將樣本歸為多數(shù)類(此時(shí)是正常域名),以至于多數(shù)類精度好而少數(shù)類精度差,召回率的劇烈下降也說明了這一點(diǎn)。也就是說,實(shí)驗(yàn)(1)能夠較為精準(zhǔn)地預(yù)測正常域名,但并不能有效地將不良應(yīng)用域名識別出來。

從實(shí)驗(yàn)(2)可以看到,其精確率、召回率、準(zhǔn)確率都顯著下降,說明此時(shí)模型已經(jīng)不具有分辨不良應(yīng)用域名的能力,這也進(jìn)一步證明了采用文本選取特征的必要性。

對于實(shí)驗(yàn)(3)和(4),其精確率、召回率和準(zhǔn)確率的變化趨勢具有相似性,即:模型的準(zhǔn)確率和召回率隨不良應(yīng)用域名占比減小變化不明顯,具有一定的穩(wěn)定性;而模型的精確率隨不良應(yīng)用域名占比減小呈明顯的下降趨勢,可以說模型F1 分?jǐn)?shù)下降的來源正是其精確率的下降。也就是說,當(dāng)正常域名占比增加時(shí),正常域名被預(yù)測為不良應(yīng)用域名的概率也會大幅增加,而不良應(yīng)用域名仍然能夠保持被識別。而實(shí)驗(yàn)(3)和(4)保持了原模型中的注意力機(jī)制和神經(jīng)網(wǎng)絡(luò),區(qū)別只在于從域名信息中提取特征的維數(shù),這從側(cè)面證明了本文提出的模型的有效性。

4 結(jié)論

本文從早期檢測被用于涉黃涉賭網(wǎng)站的不良應(yīng)用域名的實(shí)際需求出發(fā),設(shè)計(jì)了一種基于深度學(xué)習(xí)的不良應(yīng)用域名早期識別方法。該方法僅依賴注冊時(shí)的信息,首先,從注冊商、注冊時(shí)間、有效時(shí)長等方面提取域名注冊信息特征,并基于預(yù)訓(xùn)練模型BERT 提取域名的語義信息;其次,使用基于注意力機(jī)制的特征聚合來綜合處理域名的注冊信息和語義信息并生成域名節(jié)點(diǎn)的表征向量;最后,通過基于全連接網(wǎng)絡(luò)進(jìn)行域名分類。本文方法在真實(shí)數(shù)據(jù)集上取得了0.99 的F1 分?jǐn)?shù)。此外,本文還對正常域名進(jìn)行了不同程度的降采樣,控制不良應(yīng)用域名和正常域名的比例從1 ∶1 變化到1 ∶9,實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法的魯棒性。綜上所述,本文方法實(shí)現(xiàn)了高效、高準(zhǔn)確率、高魯棒性的不良應(yīng)用域名早期檢測。

猜你喜歡
域名特征向量語義
二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
克羅內(nèi)克積的特征向量
語言與語義
一類特殊矩陣特征向量的求法
如何購買WordPress網(wǎng)站域名及綁定域名
EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
騰訊八百萬美元收購域名
認(rèn)知范疇模糊與語義模糊
頂級域名爭奪戰(zhàn):ICANN放出1930個(gè)通用頂級域名,申請者有上千家
禹城市| 平昌县| 枞阳县| 曲靖市| 炉霍县| 桑植县| 松原市| 沙湾县| 安陆市| 汝州市| 法库县| 云安县| 延庆县| 辽源市| 旌德县| 常德市| 墨竹工卡县| 济源市| 涪陵区| 南召县| 建平县| 汉中市| 彭州市| 云安县| 西华县| 广丰县| 奉化市| 衡水市| 九龙县| 永嘉县| 西和县| 晴隆县| 磐安县| 霍林郭勒市| 陆川县| 甘德县| 扎鲁特旗| 砚山县| 蓝田县| 汽车| 泽库县|