摘要: 深暗網(wǎng)因其強(qiáng)隱匿性、接入簡便性和交易便捷性,滋生了大量非法活動(dòng),如推廣網(wǎng)絡(luò)博彩、販賣毒品等. 隨著網(wǎng)絡(luò)社交方式的更新,加密即時(shí)通信工具Telegram 中的群組成為不法分子推廣黑灰產(chǎn)、買賣資源和工具的聚集地,大量不法分子利用Telegram 的匿名功能在對(duì)內(nèi)容無限制、消息短、文字難理解的群組中推動(dòng)業(yè)務(wù)而逃避監(jiān)管,嚴(yán)重威脅國家社會(huì)穩(wěn)定和網(wǎng)絡(luò)安全. 如果能夠基于對(duì)群組中大量低信息量內(nèi)容的分析,挖掘大批量潛在威脅人物,將為監(jiān)管、治理和打擊部門提供更多有價(jià)值的線索. 本文提出一種低開銷的匿名通信群組威脅人物挖掘方法,通過調(diào)整文本中網(wǎng)絡(luò)公害流行術(shù)語的重要程度優(yōu)化內(nèi)容分析質(zhì)量,融合大語言模型的強(qiáng)大知識(shí)儲(chǔ)備和生成能力,對(duì)群組內(nèi)容進(jìn)行無監(jiān)督的高質(zhì)量動(dòng)態(tài)時(shí)序主題提取與可視化統(tǒng)計(jì)分析. 實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)分類做法相比,本文方法大大降低了人工標(biāo)注成本,提升了威脅人物挖掘的數(shù)量和質(zhì)量,加深了對(duì)網(wǎng)絡(luò)公害生態(tài)的理解,具有現(xiàn)實(shí)意義.
關(guān)鍵詞: 網(wǎng)絡(luò)公害; 文本挖掘; Telegram 群組; 主題建模
中圖分類號(hào): TP391 文獻(xiàn)標(biāo)志碼: A DOI: 10. 19907/j. 0490-6756. 2024. 040004
1 引言
萬維網(wǎng)由表層網(wǎng)和深網(wǎng)組成[1]. 表層網(wǎng)是指能被普通搜索引擎檢索到的網(wǎng)絡(luò),約占互聯(lián)網(wǎng)總體的4%;深網(wǎng)是指無法使用標(biāo)準(zhǔn)搜索引擎索引的網(wǎng)絡(luò),需要密碼、訪問權(quán)限等才可以訪問. 深網(wǎng)的內(nèi)容大多是合法的,但其中存在一個(gè)網(wǎng)絡(luò)公害遍布的部分,即暗網(wǎng). 暗網(wǎng)是一種基于匿名通信技術(shù)的覆蓋網(wǎng)絡(luò),只能通過特殊軟件、代理配置或特殊協(xié)議才能訪問,起初是為了給用戶提供隱私和自由而建立的,然而伴隨著加密貨幣和匿名通信的發(fā)展[2],大量非法活動(dòng)與服務(wù)在其上滋生. 不法分子在暗網(wǎng)交易市場、地下論壇和加密即時(shí)通信工具等深暗網(wǎng)隱匿社交應(yīng)用上開展威脅活動(dòng),大肆傳播有害內(nèi)容和違禁物品,包括走私軍火、販賣毒品、傳播惡意軟件、推廣博彩與色情網(wǎng)站和組織電信詐騙等,嚴(yán)重威脅國家安全和社會(huì)穩(wěn)定.
作為最受歡迎的深暗網(wǎng)地下市場溝通渠道之一,加密即時(shí)通信應(yīng)用Telegram 使用內(nèi)部設(shè)計(jì)的加密協(xié)議MTProto[3],支持用戶端到端加密聊天、隱藏線上身份、消息閱后即焚、頻道無人數(shù)上限等功能,不法分子在其上可以更好地躲避電子和通信監(jiān)管,散播有害內(nèi)容和交易違禁品[4]. 其形式上類似于明網(wǎng)的即時(shí)通訊應(yīng)用,如微信、QQ. 除了私密性這個(gè)特點(diǎn),Telegram 上每天都有大量垃圾信息產(chǎn)生,比如發(fā)廣告、聊閑天等,高質(zhì)量的群組難以發(fā)現(xiàn),這些都增加了執(zhí)法部門對(duì)威脅人物及威脅活動(dòng)的識(shí)別難度.
不法分子在Telegram 上通過頻道或者群聊進(jìn)行宣傳,再一對(duì)一私聊具體細(xì)節(jié),如支付途徑、貨品種類等. 固然直接與發(fā)布敏感內(nèi)容的不法分子私聊操作簡便,但Telegram 上用戶量巨大,從可疑群組入手,通過群組消息分析,過濾無用信息,批量找出可疑分子更具有現(xiàn)實(shí)意義. 基于以上觀察,本文通過分析可疑群組的聊天記錄來挖掘威脅人物. 然而,傳統(tǒng)的方法對(duì)用戶發(fā)言進(jìn)行文本分類,不僅需要大量的人工標(biāo)注,更需要預(yù)設(shè)類別,導(dǎo)致分類不全面.
2018 年開始,ELMo 模型[5]、GPT 模型[6]和BERT 模型[7]被相繼提出,大規(guī)模預(yù)訓(xùn)練語言模型通過大量未標(biāo)注的文本學(xué)習(xí)天然的語言知識(shí),具有強(qiáng)大的語言表示能力,推動(dòng)了多種領(lǐng)域不同任務(wù)的自動(dòng)化,并帶來了效果提升. 2022 年末,強(qiáng)大的ChatGPT[8]問世,表現(xiàn)出驚人的語言理解、生成、知識(shí)推理能力,可以極好地理解用戶意圖,完成各種自然語言處理任務(wù),徹底改變了人們對(duì)大模型的認(rèn)知. 此后,大量的大語言模型應(yīng)用如雨后春筍般涌現(xiàn),尤其是在開源社區(qū),如BLOOM[9]、Llama 2[10]、Gemma[11]等,這也為開展深暗網(wǎng)內(nèi)容分析工作帶來了新方法.
本文提出了一種低開銷的匿名通信群組威脅人物挖掘方法,通過應(yīng)用無監(jiān)督主題建模技術(shù)提煉有時(shí)序特征的關(guān)鍵詞,根據(jù)無監(jiān)督主題提取結(jié)果的分析和對(duì)黑灰產(chǎn)的預(yù)先知識(shí)設(shè)置種子關(guān)鍵詞,增加網(wǎng)絡(luò)公害特定領(lǐng)域下關(guān)鍵詞的重要程度,例如黑灰產(chǎn)流行黑話、不法分子常用動(dòng)詞等,利用專家知識(shí)增加詞的可解釋性,完成主題建模的優(yōu)化,結(jié)合大語言模型的理解和生成能力產(chǎn)生高質(zhì)量的概括主題詞,并過濾噪聲關(guān)鍵詞. 得到主題詞后,使用關(guān)鍵詞-用戶關(guān)系映射算法處理消息來尋找活躍敏感用戶. 把標(biāo)注消息類別的傳統(tǒng)有監(jiān)督文本分類做法轉(zhuǎn)化為基于標(biāo)注的主題詞映射到發(fā)布網(wǎng)絡(luò)公害相關(guān)信息的用戶,從而全面高效地挖掘威脅人物. 不但大大降低了人工標(biāo)注成本,減少在大量無意義信息中搜集有價(jià)值可疑信息、發(fā)現(xiàn)可疑人物的精力和時(shí)間,還對(duì)群組內(nèi)容進(jìn)行了總結(jié)凝練,提高主題詞的質(zhì)量,并通過多種分析方法多角度得到對(duì)網(wǎng)絡(luò)公害生態(tài)的理解,為有關(guān)部門進(jìn)一步情報(bào)分析提供有力支持.
2 相關(guān)工作
深暗網(wǎng)內(nèi)容分析研究的目的是從深暗網(wǎng)數(shù)據(jù)中挖掘出有價(jià)值的信息. 現(xiàn)有的分析工作有直接從加密貨幣和非法交易進(jìn)行分析的思路. Foley等[12]研究加密貨幣的監(jiān)測技術(shù),發(fā)現(xiàn)約1/4 的比特幣用戶參與了非法活動(dòng). Wang 等[13]對(duì)基于詞嵌入發(fā)現(xiàn)中文黑灰產(chǎn)領(lǐng)域黑話的方法進(jìn)行了實(shí)證研究. 另有工作[14]針對(duì)暗網(wǎng)中通過某些身份類別信息無法獲取足夠多訓(xùn)練樣本的問題,引入少樣本學(xué)習(xí)任務(wù),構(gòu)建基于多任務(wù)的低資源條件下用戶身份信息聚合模型.
深暗網(wǎng)群組消息中混雜著大量無意義信息和毒品、槍支、色情等敏感數(shù)據(jù),對(duì)于深暗網(wǎng)群組中大量雜亂無章的消息,內(nèi)容分析研究的技術(shù)路線多是基于機(jī)器學(xué)習(xí)或主題建模等方法展開,將挖掘的線索轉(zhuǎn)換為可用情報(bào),幫助相關(guān)人員了解與分析群組的實(shí)際交流內(nèi)容[15]. Fang 等[16]提出一種識(shí)別活躍在不同主題下的黑客的方法,先通過主題建模分析得到中文暗網(wǎng)論壇的常見主題,再利用作者分析方法結(jié)合用戶發(fā)帖與回復(fù)行為,識(shí)別每個(gè)主題下的活躍黑客. Ghosh 等[17]通過主題建模方法對(duì)暗網(wǎng)網(wǎng)站進(jìn)行分類,首先使用關(guān)鍵詞發(fā)現(xiàn)技術(shù)對(duì)網(wǎng)站內(nèi)容進(jìn)行分析,然后在標(biāo)注數(shù)據(jù)充足和監(jiān)督數(shù)據(jù)不足的情況下分別進(jìn)行主題分類與聚類,都可準(zhǔn)確地實(shí)現(xiàn)暗網(wǎng)網(wǎng)站的主題標(biāo)簽分配.這些都給予本工作啟發(fā),借鑒主題建模的路線,無需監(jiān)督數(shù)據(jù),直接對(duì)包含大量黑灰產(chǎn)信息的Telegram群組進(jìn)行主題建模,得到不法分子之間交流的實(shí)時(shí)熱門主題,并根據(jù)主題詞來識(shí)別威脅人物.
3 方法描述
作為技術(shù)門檻最低的深暗網(wǎng)溝通渠道,Telegram因其極強(qiáng)的隱私保護(hù)機(jī)制和加密機(jī)制被不法分子濫用,每天都有大量威脅用戶在群聊和頻道傳播涉恐、涉毒等危害信息,分析Telegram 群組的特點(diǎn)是非常有必要的.
Telegram 群組在消息形式和內(nèi)容上與傳統(tǒng)的即時(shí)通信平臺(tái)不同,有以下3 個(gè)特點(diǎn):(1) 隱式的回復(fù)關(guān)系[18],用戶看到感興趣的消息不使用明確的回復(fù)標(biāo)記,而是直接發(fā)布消息參與討論.(2) 群組中的信息短,特別是關(guān)于非法交易,不法分子警戒心很強(qiáng),幾乎不會(huì)在群里向陌生人吐露關(guān)鍵信息.(3) 廣告垃圾信息過多,在大量無意義內(nèi)容中獲取有價(jià)值的可疑信息、識(shí)別威脅人物猶如大海撈針.
此外,不同主題下的群組,其聊天風(fēng)格也大不相同. 比如色情、賣數(shù)據(jù)的群組有大量廣告和代發(fā);有關(guān)黑灰產(chǎn)、暗網(wǎng)的寬泛主題群組以買家提需求為主. 對(duì)于這些不同類別的網(wǎng)絡(luò)公害交流,可以結(jié)合大語言模型的知識(shí)和已有對(duì)網(wǎng)絡(luò)公害的理解,通過本文提出的基于時(shí)序主題模型的群組內(nèi)容分析方法自動(dòng)化監(jiān)控威脅活動(dòng)并深入理解網(wǎng)絡(luò)公害行業(yè)生態(tài),通過本文提出的融合群組內(nèi)容的威脅人物挖掘方法批量自動(dòng)化篩選目標(biāo)主題下的高威脅性活躍人物.
3. 1 基于時(shí)序主題模型的群組內(nèi)容分析方法
關(guān)鍵詞是能夠表達(dá)文檔中心內(nèi)容的詞語,提取關(guān)鍵詞的方法有3 類:基于統(tǒng)計(jì)特征的關(guān)鍵詞提取、基于詞圖模型的關(guān)鍵詞提取和基于主題模型的關(guān)鍵詞提取. Telegram 的群組一般是圍繞特定主題而建的群組,不會(huì)出現(xiàn)類似明網(wǎng)聊天軟件中的親友交流群. 因此,使用主題模型能夠挖掘Telegram 群組內(nèi)容的關(guān)鍵詞,有助于了解群組內(nèi)部實(shí)際談?wù)摰臒狳c(diǎn)話題,解決從較短的非結(jié)構(gòu)化文本中提取有效信息的困難.
通過群組主題的時(shí)序分析,可以了解到隨著時(shí)間推移哪些主題逐漸縮減,哪些主題持續(xù)被關(guān)注,以及哪些主題是在某個(gè)時(shí)間段新出現(xiàn)的. 這有助于深入理解深暗網(wǎng)威脅活動(dòng)內(nèi)容并據(jù)此找出動(dòng)態(tài)敏感話題下的活躍用戶.
常用的LDA[19]等傳統(tǒng)主題建模方法能夠取得不錯(cuò)的效果,但是需要尋找最優(yōu)超參數(shù),十分耗費(fèi)人力,并且這種詞袋模型忽略了詞之間的語義關(guān)系,不考慮句子中詞的上下文,影響主題標(biāo)識(shí)效果. 文本嵌入技術(shù)可以表示單詞之間的語義關(guān)系,能夠解決上述問題. 2018 年Devlin 等提出的預(yù)訓(xùn)練模型BERT[7]以及后續(xù)很多工作提出的BERT變體在生成上下文詞向量和句子向量上取得了巨大成功. BERTopic 基于BERT 的強(qiáng)大語言表征能力,可以對(duì)大量短文本數(shù)據(jù)進(jìn)行高效的建模[20],非常適合提取Telegram 群組消息這種短且非結(jié)構(gòu)化文本的主題.
BERTopic 算法的具體流程步驟如圖1 所示.(1) 使用BERT 將文本轉(zhuǎn)換為密集的向量表示.(2) 降低文本嵌入的維數(shù),然后創(chuàng)建語義相似的文本集群,使用UMAP 算法對(duì)詞嵌入向量進(jìn)行降維,避免維度災(zāi)難,提高后續(xù)聚類算法的效率;使用HDBSCAN 聚類算法對(duì)降維后的詞向量進(jìn)行聚類.(3) 為了克服Top2Vec[21]的缺點(diǎn),BERTopic單獨(dú)對(duì)文檔進(jìn)行嵌入編碼,并不把所有文檔和單詞嵌入到同一空間. 在進(jìn)行主題詞提取時(shí),把同一主題下的所有文檔視作一個(gè)大文檔,通過基于類的詞頻逆文檔頻率(c-TF-IDF)算法,尋找詞頻最高的幾個(gè)詞來代表主題. 這3 個(gè)獨(dú)立的步驟支持了各種應(yīng)用場景下的靈活建模.
與LDA 不同,BERTopic 不需要預(yù)先設(shè)定主題數(shù),免去了復(fù)雜的超參數(shù)調(diào)優(yōu)步驟;訓(xùn)練時(shí)還可以根據(jù)實(shí)際需求減少主題數(shù)量,通過設(shè)置參數(shù)nr_topics 執(zhí)行對(duì)相似主題的合并. 同時(shí),BERTopic提供了多種可視化圖形,如交互式圖譜、層次縮減樹狀圖、特征詞分布條形圖和時(shí)序動(dòng)態(tài)主題演變圖等,可以直觀展示主題提取情況和不同主題隨時(shí)間的演變情況. 后續(xù)BERTopic 還推出了各種優(yōu)化版本,包括微調(diào)表示模型、聯(lián)合應(yīng)用生成式人工智能、多模態(tài)主題建模、引導(dǎo)式主題建模等. 可以根據(jù)具體任務(wù)的領(lǐng)域特點(diǎn)和需求“定制”主題建模方案. 因此,本研究采用BERTopic 模型對(duì)群組消息主題進(jìn)行提取,并基于此開展群組內(nèi)容分析.
3. 2 融合群組內(nèi)容的威脅人物挖掘方法
對(duì)于威脅人物的挖掘,傳統(tǒng)的做法為將用戶的群聊發(fā)言記錄進(jìn)行文本分類,得到每個(gè)用戶對(duì)應(yīng)的類別,再判斷其類別是否為目標(biāo)威脅類別. 但這種方式需要大量人工標(biāo)注,不僅費(fèi)時(shí)費(fèi)力,也被限制在預(yù)定義的類別里,很難完全地發(fā)現(xiàn)群組內(nèi)容的全部類別.
本文提出的威脅人物挖掘方法把對(duì)消息進(jìn)行標(biāo)注的傳統(tǒng)做法轉(zhuǎn)化為主題詞的標(biāo)注,并通過標(biāo)注的主題詞映射到散布威脅信息的用戶,如圖2 所示. 大大降低了人工成本,保留了群組原本的各種內(nèi)容,使得威脅人物的挖掘更全面.
在得到群組消息的活躍主題,并從中提取出一些敏感詞后,可將這些敏感詞與活躍用戶的發(fā)言進(jìn)行匹配,從而找出敏感話題下的活躍用戶,鎖定為可疑威脅人物.
BM25 算法最早應(yīng)用在信息檢索領(lǐng)域[22],用于計(jì)算一個(gè)查詢句子與文檔集中每篇文檔的相關(guān)度,其沿襲了TF-IDF 模型“查詢相關(guān)度得分等于詞權(quán)重乘以詞相關(guān)度得分”的思想,其公式如下.
其中,R (qi,d ) 為查詢語句Q 中每個(gè)詞qi 與文檔d的相關(guān)度;Wi 是該詞的權(quán)重,最后將所有詞的相關(guān)度分?jǐn)?shù)累加,即得到查詢語句與文檔d 的相關(guān)度.
TF-IDF 算法將文檔建模為詞袋模型,每個(gè)詞的重要性與其在文檔的出現(xiàn)頻數(shù)成反比. 而BM25 算法將詞相關(guān)度得分與詞頻的關(guān)系改成了非線性的. 每個(gè)詞與文檔的相關(guān)度值R (qi,d ) 公式如下.
其中,qfi 為詞qi 在查詢語句Q 中出現(xiàn)頻率;fi 為qi在文檔d 中的出現(xiàn)頻率;dl 為文檔d 的長度;avgdl為所有文檔的平均長度,意思是文檔相對(duì)越大、詞相關(guān)度越小. k1、k2 和b 為調(diào)節(jié)因子,b 越大則文檔長度對(duì)于相關(guān)度的影響越大,通常b=0. 75. 在絕大多數(shù)情況下,詞qi 在1 條查詢語句內(nèi)只會(huì)出現(xiàn)1次,即qfi = 1,可以令k2 = 0,簡化上述公式.
在詞重要性權(quán)重上,BM25 算法認(rèn)為文檔中每個(gè)特征詞出現(xiàn)是相互獨(dú)立的,且只有出現(xiàn)和不出現(xiàn)2 種情況. 權(quán)重Wi 一般為逆向文檔頻率,即詞語普遍重要性的度量,公式如下.
其中,N 為文檔總數(shù);n (qi ) 是包含該詞的文檔數(shù);0. 5 是調(diào)教系數(shù),避免n (qi ) = 0 的情況. 當(dāng)單詞只在某一些文檔上出現(xiàn)時(shí),IDF 值比較大;如果在幾乎所有文檔都出現(xiàn),那么IDF 值非常小,多為常用的無意義詞.
雖然諸如TF-IDF、BM25 等傳統(tǒng)檢索模型在語義檢索精細(xì)度上不如基于深度學(xué)習(xí)的檢索模型,但是在大規(guī)模批量篩選階段速度極快、可解釋性強(qiáng),非常適合本研究通過敏感詞挖掘威脅人物.
文本分類是自然語言處理中的經(jīng)典任務(wù),此任務(wù)是將預(yù)定義的類別分配給給定的文本序列,其中一個(gè)重要的中間步驟是文本表示. 先前的工作使用各種神經(jīng)網(wǎng)絡(luò)模型來學(xué)習(xí)文本表示,后來,預(yù)訓(xùn)練語言模型出現(xiàn),它可以有效學(xué)到通用語言表示. 其中,BERT 在多種自然語言理解任務(wù)上取得了驚人的效果,有工作[23]研究了如何最大限度地利用BERT 進(jìn)行文本分類任務(wù),取得了當(dāng)時(shí)最先進(jìn)的性能. BERT 提出后,又有一些研究提出了基于BERT 進(jìn)行改進(jìn)的變體預(yù)訓(xùn)練模型,如ALBERT[24]、ELECTRA[25]等,與BERT 相比在不同的側(cè)重點(diǎn)上有所改進(jìn). 因而,目前常用的文本分類方法就是基于BERT 或BERT 變體預(yù)訓(xùn)練模型,使用專門的數(shù)據(jù)集進(jìn)行微調(diào),再進(jìn)行文本分類. 有研究表明RoBERTa-wwm-ext-large 是性能最好的中文預(yù)訓(xùn)練語言模型之一[26]. 因此,后續(xù)實(shí)驗(yàn)將基于此模型進(jìn)行文本分類來進(jìn)行對(duì)比實(shí)驗(yàn),將實(shí)驗(yàn)結(jié)果與本文提出的威脅人物挖掘方法進(jìn)行比較.
4 實(shí)驗(yàn)
4. 1 基本設(shè)置
4. 1. 1 數(shù)據(jù)收集與處理
通過采集系統(tǒng)的帶內(nèi)群組和帶外群組發(fā)現(xiàn)技術(shù),得到了一批不同類別的高質(zhì)量Telegram 群組,包含毒品、槍支、暗網(wǎng)、政治、加密貨幣等敏感主題. 通過在這些群組中獲取聊天記錄來進(jìn)行后續(xù)內(nèi)容分析. 其中,有來自暗網(wǎng)導(dǎo)航主題群組的2023 年4 月1 日至4 月16 日共4662 條消息記錄、時(shí)政主題群組的2023 年4 月11日至4 月16 日共12 739 條消息記錄、來自槍支和瞄準(zhǔn)鏡群組的2023 年4 月6 日至4 月23 日共200條消息記錄、來自毒品群組的2023 年4 月21 日至4月23 日共200 條消息記錄、來自加密貨幣群組的2023 年4 月14 日至4 月18 日共59 283 條消息記錄. 由此可以看出,槍支、毒品群一般是不允許閑聊的,而暗網(wǎng)導(dǎo)航、時(shí)政、加密貨幣群組聊天頻次和內(nèi)容多. 本文以暗網(wǎng)導(dǎo)航群組為例進(jìn)行后續(xù)研究與分析.
在進(jìn)行主題建模之前,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,首先使用jieba 分詞將原始語料切分成類似英文的文本格式,即用空格間斷詞語;然后使用停用詞過濾方法剔除與一些常見的無意義詞語. 文本預(yù)處理是主題建模的重要環(huán)節(jié),直接影響模型的效果.
4. 1. 2 模型設(shè)置
動(dòng)態(tài)主題模型(DynamicTopic Model, DTM)引入了時(shí)間動(dòng)態(tài)的概念,能夠建模不同主題隨時(shí)間的演變. 為了構(gòu)建動(dòng)態(tài)主題模型,除了群聊消息文本,還需要對(duì)應(yīng)的時(shí)間戳. 在構(gòu)建動(dòng)態(tài)主題模型前,需要先初始化BERTopic模型,該模型會(huì)把所有時(shí)間段中出現(xiàn)的主題提前訓(xùn)練識(shí)別出來. 因而,本文主題建模的順序?yàn)?,先通過BERTopic 模型對(duì)全部消息內(nèi)容進(jìn)行主題提取并分析,結(jié)合無監(jiān)督主題建模得到的關(guān)鍵詞和對(duì)黑灰產(chǎn)的預(yù)先知識(shí)設(shè)置種子關(guān)鍵詞,增加流行術(shù)語的權(quán)重,例如黑灰產(chǎn)流行黑話、不法分子常用動(dòng)詞等,優(yōu)化主題模型. 再調(diào)用大語言模型自動(dòng)化為每個(gè)關(guān)鍵詞組生成主題詞,并過濾關(guān)鍵詞組中非相關(guān)的噪聲詞. 再在此基礎(chǔ)上構(gòu)建動(dòng)態(tài)主題模型,分析群組活躍話題隨時(shí)間的變化.
首先,將主題數(shù)量設(shè)置為“auto”,模型會(huì)自動(dòng)將相似度超過0. 9 的主題對(duì)合并,迭代地減少主題數(shù)量. 因?yàn)楸緦?shí)驗(yàn)的數(shù)據(jù)是多條簡短且非結(jié)構(gòu)化的群聊消息,混雜了很多日常用語,每句話的主題性不強(qiáng),需要尋找合適的主題數(shù)量. 使用主題距離圖(Intertopic Distance Map)和層次聚類圖(HierarchicalClustering)可視化主題之間的聯(lián)系,根據(jù)此確定適當(dāng)?shù)木酆现黝}數(shù)量,再進(jìn)行訓(xùn)練
將網(wǎng)絡(luò)公害流行術(shù)語加入種子關(guān)鍵詞列表,通過seed_multiplier 設(shè)置種子詞權(quán)重增加的倍數(shù),提高其作為關(guān)鍵詞輸出的概率. 將BERTopic 模型提取出主題下的多個(gè)關(guān)鍵詞,即get_topics()函數(shù)返回的關(guān)鍵詞組輸入prompt 語句以調(diào)用Chat?GPT API,得到概括性的主題詞. 提示設(shè)置為:“我有一個(gè)主題,是用以下關(guān)鍵詞來描述的:[關(guān)鍵詞列表]. 基于上述關(guān)鍵詞,用一個(gè)詞來概括此主題,并把噪聲詞去除,重新輸出一遍關(guān)鍵詞”. 最終得到主題-話題-代表詞的對(duì)應(yīng)關(guān)系,最后構(gòu)建動(dòng)態(tài)主題模型,分析主題的熱度演化. 除了ChatGPT,還可以調(diào)用其他大語言模型,比如Llama 2[10]、Mistral[27]等. 對(duì)BERTopic 模型具體的使用及優(yōu)化操作如圖3 所示.
4. 2 基準(zhǔn)模型
對(duì)于威脅人物的挖掘,本方法把對(duì)消息進(jìn)行標(biāo)注的傳統(tǒng)做法轉(zhuǎn)化為主題詞的標(biāo)注,并通過標(biāo)注的主題詞映射到散布威脅信息的用戶. 為了評(píng)估此方法的有效性,本文選用了在RoBERTawwm-ext-large 模型[28]上用人工標(biāo)注的數(shù)據(jù)集進(jìn)行微調(diào)得到的文本分類模型,在Ubuntu 18. 04 系統(tǒng)上使用GTX 2080Ti 的GPU 對(duì)群聊消息進(jìn)行多分類,再根據(jù)分類結(jié)果得到不同類別下的威脅人物,與本文提出的方法進(jìn)行對(duì)比.
4. 3 評(píng)價(jià)指標(biāo)
以威脅用戶數(shù)量和精確率作為評(píng)價(jià)指標(biāo). 在多分類任務(wù)中,考慮某個(gè)類別的時(shí)候,將其余的類別視為負(fù)類,精確率表示預(yù)測結(jié)果中為正的樣本數(shù)目中有多少是真正的正樣本,公式如下.
Precision =TP/TP + FP (5)
其中,TP 為被正確預(yù)測的正樣本;FP 為被錯(cuò)誤預(yù)測的正樣本.
4. 4 實(shí)驗(yàn)結(jié)果與分析
4. 4. 1 主題建模效果分析
對(duì)暗網(wǎng)導(dǎo)航群組的聊天記錄進(jìn)行主題建模,共生成了111 個(gè)主題,啟用自動(dòng)縮減至86 個(gè)主題,可視化得到主題距離圖和層次聚類圖. 圖4 為主題距離圖,每個(gè)圓代表1個(gè)主題,坐標(biāo)距離代表了主題間語義相似度,圓圈大小表示該主題在所有文檔中的出現(xiàn)頻率. 從圖4可以看出,此群組消息主題種類豐富,Topic0 是出現(xiàn)頻率最高的主題,有一些頻率較低的主題語義空間上相近,可以合并.
圖5 為主題層次聚類圖,表明了各個(gè)主題在不同層次上的關(guān)聯(lián),比如Topic9( 社交平臺(tái))和Topic13( 販賣隱私)有直接關(guān)聯(lián),與Topic27( 代理)等有間接關(guān)聯(lián). 從圖5 可以看出,此時(shí)的主題間關(guān)聯(lián)層次太多,可以大幅縮減,本實(shí)驗(yàn)以折半數(shù)量為參照,結(jié)合多次嘗試的經(jīng)驗(yàn),將主題數(shù)定為49個(gè),并設(shè)置種子詞增加關(guān)鍵詞的權(quán)重,重新啟動(dòng)BERTopic 模型. 圖6 以條形圖的形式展示了與網(wǎng)絡(luò)公害相關(guān)的部分話題特征詞,與未設(shè)種子詞時(shí)相比減少了大量無關(guān)噪聲詞,聚類更準(zhǔn)確. 因?yàn)樵谕{活動(dòng)群組中,不法分子往往避免提及直接與威脅活動(dòng)相關(guān)的詞,而是使用黑話表達(dá)有害含義,并且群聊發(fā)言頻次極低. 因而人為地融入專家知識(shí),提高低頻但重要術(shù)語的權(quán)重,可以提高主題建模的質(zhì)量.
根據(jù)模型的輸出形成各話題的代表詞列表,調(diào)用大語言模型進(jìn)行概括,得到精確的主題標(biāo)簽,并過濾噪聲關(guān)鍵詞,以表1 形式展示. 同時(shí)可以看到,有“ 張家界自殺”、“ 文心一言”等時(shí)事話題出現(xiàn),表明此群的活躍性,也再次從側(cè)面反映出Telegram群組中信息的雜亂. 選取其中的熱門代表詞,如“有沒有”、“usdt”、“跑芬”、“擔(dān)?!薄ⅰ澳抉R”等詞作為鎖定可疑人物的關(guān)鍵詞,再使用BM25 算法找出這些關(guān)鍵詞下的活躍用戶.
將大語言模型標(biāo)注的代表性主題進(jìn)行DTM建模得到圖7,進(jìn)行主題熱度演化分析. 從圖7 可以看出,多種常見的黑灰產(chǎn)關(guān)鍵詞是持續(xù)被關(guān)注的,群組中討論最多的主題為暗網(wǎng)交易尋求資源.從此角度分析群組用戶組成,可知此群組的交互風(fēng)格為買家拋出需求,賣家回復(fù)或私聊,其中有很多警惕性強(qiáng)的不法分子,消息頻次低、內(nèi)容簡短或使用黑話.
基于對(duì)目標(biāo)群組的內(nèi)容分析,提取出具有時(shí)序性的活躍主題詞后,用這些關(guān)鍵詞匹配群組中的可疑人物. 觀察到Telegram 群組聊天記錄中的散消息現(xiàn)象比較普遍,即用戶習(xí)慣將1 條完整語義的消息內(nèi)容分為多條消息發(fā)送,本實(shí)驗(yàn)將同一用戶發(fā)表的所有消息拼接在一起,將其和威脅主題詞使用BM25 算法進(jìn)行相關(guān)度計(jì)算,從而發(fā)現(xiàn)威脅人物.
4. 4. 2 威脅人物挖掘?qū)Ρ葘?shí)驗(yàn)結(jié)果與分析
在4662 條消息記錄中,共有1020 名用戶發(fā)言,將每個(gè)用戶的消息拼在一起. 在中文預(yù)訓(xùn)練模型RoBERTa-wwm-ext-large 上使用1025 條有標(biāo)注的從高質(zhì)量群組中獲取到的Telegram 黑灰產(chǎn)文本進(jìn)行微調(diào),定義類別分別為暗網(wǎng)渠道、數(shù)據(jù)泄露、槍支、毒品及其他,得到多分類模型,在這1020 名用戶中,共找到113 個(gè)暗網(wǎng)類的威脅人物、2 個(gè)數(shù)據(jù)泄露類的威脅人物、23 個(gè)槍支類的威脅人物、23 個(gè)毒品類的威脅人物. 文本分類方法和主題建模結(jié)合關(guān)鍵詞匹配方法各自找出的有效威脅用戶數(shù)量和精確率如表2 所示.
由實(shí)驗(yàn)結(jié)果可知,本文提出的通過主題抽取和關(guān)鍵詞用戶映射的威脅人物挖掘方法與用戶消息文本分類方法相比,能夠找到更多數(shù)量的威脅人物,且精確率有所提升. 更關(guān)鍵的是,文本分類方法需要標(biāo)注各個(gè)類別的文本,構(gòu)造數(shù)據(jù)集訓(xùn)練或微調(diào)模型,不僅耗費(fèi)人工精力,還難以解決深暗網(wǎng)環(huán)境下有價(jià)值的數(shù)據(jù)少的問題;而本文提出的方法無需對(duì)文本進(jìn)行標(biāo)注,可以直接在雜亂的群組內(nèi)容上挖掘主題詞,并映射到散布威脅信息的用戶,不僅效果得到了提升,還大大降低了成本、提高了效率. 此外,人工標(biāo)注規(guī)則需要隨威脅活動(dòng)的變化不斷動(dòng)態(tài)變化,比如新興的黑話出現(xiàn),標(biāo)注者需要持續(xù)長期深入跟蹤威脅活動(dòng)以獲得最新知識(shí). 而本文提出的方法能夠直接得到最新群組聊天主題以及主題的演化,非常有實(shí)際應(yīng)用價(jià)值.
5 結(jié)論
深暗網(wǎng)因其強(qiáng)匿名性、交易簡單性、易接入性,已成為散播恐怖主義、交易違禁品的“ 犯罪天堂”,對(duì)國家安全與社會(huì)穩(wěn)定構(gòu)成了嚴(yán)重威脅. 由于Telegram 群組對(duì)內(nèi)容無限制且保護(hù)用戶隱私,被越來越多的犯罪分子用來傳播敏感消息或進(jìn)行違禁品買賣.
本文提出了一種低開銷的匿名通信群組威脅人物挖掘方法,針對(duì)Telegram 群組消息雜亂、文本短、可用信息有限而導(dǎo)致的有效威脅人物挖掘困難,通過無監(jiān)督主題建模提煉有時(shí)序特征的主題詞,根據(jù)無監(jiān)督主題提取結(jié)果的分析和對(duì)黑灰產(chǎn)的預(yù)先知識(shí)設(shè)置種子關(guān)鍵詞,增加網(wǎng)絡(luò)公害特定領(lǐng)域下關(guān)鍵詞的重要程度,融合大語言模型提示微調(diào)產(chǎn)生高質(zhì)量的概括主題詞并過濾關(guān)鍵詞組中非相關(guān)的噪聲詞,得到高質(zhì)量主題-話題-代表詞組來映射活躍敏感用戶,從而完成威脅人物的批量挖掘. 與傳統(tǒng)的消息文本分類方法相比,大大降低了人工標(biāo)注成本,保留了群組原本的各種內(nèi)容,使得威脅人物的挖掘更全面,有效發(fā)現(xiàn)潛藏的可疑人物,有助于安全部門深入理解網(wǎng)絡(luò)公害生態(tài),并對(duì)其參與的威脅活動(dòng)做出預(yù)警干預(yù)等,以維護(hù)網(wǎng)絡(luò)空間安全和社會(huì)穩(wěn)定.
Telegram 群組人員混雜,一次采集到的消息往往是表層且零碎的,還需要繼續(xù)深挖其中千絲萬縷的關(guān)聯(lián)、拼湊分析“蛛絲馬跡”. 未來,我們將探索其他的深暗網(wǎng)分析思路,如深暗網(wǎng)社交網(wǎng)絡(luò)關(guān)系結(jié)構(gòu)分析、挖掘潛在用戶關(guān)聯(lián)、關(guān)聯(lián)用戶多賬號(hào)等,參考各領(lǐng)域高速發(fā)展技術(shù)的新應(yīng)用,如網(wǎng)絡(luò)安全大模型展開進(jìn)一步工作.
參考文獻(xiàn):
[1] Alnabulsi H, Islam R. Identification of illegal forumactivities inside the dark net [C]//Proceedings of the2018 International Conference on Machine Learningand Data Engineering (iCMLDE).[S. l.]: IEEE,2018: 22.
[2] Moore D, Rid T. Cryptopolitik and the darknet [J].Survival, 2016, 58: 7.
[3] Setiaji H, Paputungan I V. Design of telegram botsfor campus information sharing [C]//IOP ConferenceSeries: Materials Science and Engineering.[S.l.]: IOP Publishing, 2018, 325: 012005.
[4] Zhu S. Study on comprehensive management strategyof dark net crime[ J]. Network Security Technologyand Application, 2024(3): 136.[朱帥. 暗網(wǎng)犯罪的綜合治理策略研究[J]. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2024(3): 136.]
[5] Peters M, Neumann M, Iyyer M, et al. Deep contextualizedword representations [C]//Proceedingsof the Conference of the North American Chapter ofthe Association for Computational Linguistics. [S.l.]: NAACL, 2018: 2227.
[6] Radford A, Narasimhan K, Salimans T, et al. Improvinglanguage understanding by generative pretraining[EB/OL]. [2024-02-24]. https://openai.com/blog/language-unsupervised/.
[7] Devlin J, Chang M W, Lee K, et al. BERT: Pretrainingof deep bidirectional transformers for languageunderstanding [C]// Proceedings of the 2019Conference of the North American Chapter of the Associationfor Computational Linguistics: Human LanguageTechnologies.[S. l.]: ACL, 2019: 4171.
[8] OpenAI. ChatGPT [EB/OL]. [2024-02-24].https://openai. com/blog/chatgpt/.
[9] Workshop B S, Scao T L, Fan A, et al. Bloom: A176b-parameter open-access multilingual languagemodel [EB/OL].[2024-02-24]. https://arxiv. org/abs/2211. 05100.
[10] Touvron H, Martin L, Stone K, et al. Llama 2:Open foundation and fine-tuned chat models [EB/OL]. [2024-02-24]. https://arxiv. org/abs/2307.09288.
[11] Google DeepMind. Gemma [EB/OL]. [2024-02-24]. https://blog. google/technology/developers/gemma-open-models/.
[12] Foley S, Karlsen J R, Putnin? T J. Sex, drugs, andbitcoin: How much illegal activity is financed throughcryptocurrencies?[J]. The Review of Financial Studies,2019, 32: 1798.
[13] Wang C, Shen Y, Li Y, et al. A systematic empiricalstudy on word embedding based methods in discoveringChinese black keywords[J]. EngineeringApplications of Artificial Intelligence, 2023, 125:106775.
[14] Wang Y Y, Zhao J P, Shi J Q, et al. User identityinformation aggregation method for Darknet WebPage[J]. Computer Engineering, 2023, 49: 187.[王雨燕, 趙佳鵬, 時(shí)金橋, 等. 暗網(wǎng)網(wǎng)頁用戶身份信息聚合方法[J]. 計(jì)算機(jī)工程, 2023, 49: 187.]
[15] Yang Y F, Wang N Y. Dark Web Crime intelligenceanalysis[J]. Journal of Intelligence, 2023, 42:42.[楊亞飛, 王諾亞. 暗網(wǎng)犯罪情報(bào)分析研究[J]. 情報(bào)雜志, 2023, 42: 42.]
[16] Fang Z, Zhao X, Wei Q, et al. Exploring key hackersand cybersecurity threats in chinese hacker com ?munities[ C]//Proceedings of the 2016 IEEE conferenceon intelligence and security informatics (ISI).[S. l.]: IEEE, 2016: 13.
[17] Ghosh S, Porras P, Yegneswaran V, et al. ATOL:A framework for automated analysis and categorizationof the Darkweb Ecosystem [C]//Workshops atthe Thirty-First AAAI Conference on Artificial Intelligence.[S. l.]: AAAI, 2017.
[18] Zhang P, Qi Y, Li Y, et al. Identifying reply relationshipsfrom telegram groups using multi-featuresfusion [C]//Proceedings of the 6th InternationalConference on Data Science in Cyberspace (DSC).[S. l.]: IEEE, 2021: 321.
[19] Jelodar H, Wang Y, Yuan C, et al. Latent Dirichletallocation (LDA) and topic modeling: Models, applications,a survey [J]. Multimedia Tools and Applications,2019, 78: 15169.
[20] Grootendorst M. BERTopic: Neural topic modelingwith a class-based TF-IDF procedure [EB/OL].[2024-02-24]. https://arxiv. org/abs/2203. 05794.
[21] Angelov D. Top2vec: Distributed representations oftopics [EB/OL].[2024-02-24]. https://arxiv. org/abs/2008. 09470.
[22] Robertson S E, Walker S, Beaulieu M, et al. Okapiat TREC-7: Automatic ad hoc, filtering, VLC andinteractive track [J]. Nist Special Publication SP,1999( 500): 253.
[23] Sun C, Qiu X, Xu Y, et al. How to fine-tune bertfor text classification?[C]// Proceedings of the 18thChina National Conference on Chinese ComputationalLinguistics(CCL). Kunming, China: SpringerInternational Publishing, 2019: 194.
[24] Lan Z, Chen M, Goodman S, et al. Albert: A litebert for self-supervised learning of language representations[EB/OL].[2024-02-24]. https://arxiv. org/abs/1909. 11942.
[25] Clark K, Luong M T, Le Q V, et al. Electra: Pretrainingtext encoders as discriminators rather thangenerators [EB/OL].[2024-02-24]. https://arxiv.org/abs/2003. 10555.
[26] Xu L, Hu H, Zhang X, et al. CLUE: A Chinese languageunderstanding evaluation benchmark [EB/OL]. [2024-02-24]. https://arxiv. org/abs/2004.05986.
[27] Jiang A Q, Sablayrolles A, Mensch A, et al. Mistral7B[EB/OL].[2024-02-24]. https://arxiv. org/abs/2310. 06825.
[28] Liu Y, Ott M, Goyal N, et al. Roberta: A robustlyoptimized bert pretraining approach[EB/OL].[2024-02-24]. https://arxiv. org/abs/1907. 11692.
(責(zé)任編輯: 伍少梅)
基金項(xiàng)目: 國家重點(diǎn)研發(fā)計(jì)劃“網(wǎng)絡(luò)空間安全治理”專項(xiàng)(2023YFB3106600)