国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于知識(shí)圖譜嵌入的涉詐網(wǎng)絡(luò)鏈接補(bǔ)全和關(guān)鍵節(jié)點(diǎn)識(shí)別

2024-06-29 22:43李澤卿黃誠(chéng)曾雨潼冷濤

李澤卿 黃誠(chéng) 曾雨潼 冷濤

摘 要: 涉詐網(wǎng)站作為網(wǎng)絡(luò)詐騙的常見載體之一,在網(wǎng)絡(luò)犯罪中扮演著平臺(tái)內(nèi)容提供者的重要角色. 該形式的犯罪具有高度的團(tuán)隊(duì)性與合作性,涉詐網(wǎng)站在內(nèi)的涉詐資產(chǎn)之間往往呈現(xiàn)出極強(qiáng)的關(guān)聯(lián). 涉詐資產(chǎn)、涉詐團(tuán)伙等共同構(gòu)成了一個(gè)龐大的涉詐網(wǎng)絡(luò). 雖然已有不少研究者針對(duì)涉詐網(wǎng)站識(shí)別開展了相關(guān)研究,但目前針對(duì)涉詐資產(chǎn)的關(guān)聯(lián)性研究還相對(duì)較少. 由于涉詐網(wǎng)絡(luò)中節(jié)點(diǎn)的匿名性,導(dǎo)致直接獲取涉詐資產(chǎn)相關(guān)的身份信息極為困難. 警務(wù)人員往往難以快速準(zhǔn)確的對(duì)涉詐網(wǎng)站進(jìn)行溯源反制. 本文基于本體論構(gòu)建了細(xì)粒度的涉詐知識(shí)圖譜,創(chuàng)新性地將知識(shí)圖譜嵌入應(yīng)用于涉詐網(wǎng)站溯源領(lǐng)域,將涉詐網(wǎng)絡(luò)中的關(guān)系抽象為多維復(fù)空間上的旋轉(zhuǎn)操作,并以知識(shí)圖譜嵌入向量為依據(jù),通過向量的空間相似性探求涉詐實(shí)體間關(guān)系網(wǎng)絡(luò)的相似性,利用模型進(jìn)行實(shí)體關(guān)系的補(bǔ)全;此外,本文創(chuàng)新性地對(duì)涉詐知識(shí)圖譜中關(guān)系對(duì)涉詐團(tuán)隊(duì)身份的揭示程度進(jìn)行量化,利用加權(quán)后的涉詐關(guān)系來優(yōu)化特征向量中心性算法,以挖掘其中的關(guān)鍵線索節(jié)點(diǎn). 實(shí)驗(yàn)結(jié)果表明,在資產(chǎn)關(guān)系補(bǔ)全上本文使用的模型有著較高的準(zhǔn)確率,在包含37 866 個(gè)實(shí)體的數(shù)據(jù)集上的HITS@10 準(zhǔn)確率達(dá)到了47%,效果領(lǐng)先于其他知識(shí)圖譜嵌入模型. 在后續(xù)案例中證明,本文設(shè)計(jì)的關(guān)鍵線索挖掘方法能夠有效地對(duì)涉詐資產(chǎn)進(jìn)行關(guān)聯(lián)溯源,并取得了顯著的成效.

關(guān)鍵詞: 知識(shí)圖譜嵌入; 涉詐團(tuán)伙; 鏈接預(yù)測(cè); 關(guān)鍵節(jié)點(diǎn)識(shí)別

中圖分類號(hào): TP309. 1 文獻(xiàn)標(biāo)志碼: A DOI: 10. 19907/j. 0490-6756. 2024. 030004

1 引言

隨著互聯(lián)網(wǎng)產(chǎn)業(yè)的快速發(fā)展,其在給教育,醫(yī)療和經(jīng)濟(jì)領(lǐng)域帶來巨大便捷的同時(shí),也成為了滋生網(wǎng)絡(luò)犯罪問題的溫床. 網(wǎng)絡(luò)詐騙作為一種常見的犯罪手段,給人們?nèi)粘I詈蜕鐣?huì)秩序的穩(wěn)定運(yùn)行造成了極大的安全隱患. 因此發(fā)現(xiàn)涉詐網(wǎng)站,挖掘涉詐網(wǎng)站之間潛在的團(tuán)伙關(guān)系,以及分析涉詐網(wǎng)站背后的運(yùn)作模式,對(duì)凈化網(wǎng)絡(luò)環(huán)境有著重要的戰(zhàn)略意義.

作為網(wǎng)絡(luò)詐騙最常見的載體,涉詐網(wǎng)站是網(wǎng)絡(luò)公害治理領(lǐng)域中最普遍,危害最大的詐騙手段之一. 涉詐網(wǎng)站通過冒充合法的信息來源,商品和服務(wù)進(jìn)行傳播,造成了數(shù)十億美元的損失. 給無數(shù)個(gè)人和企業(yè)造成了無法挽回的后果[1]. 涉詐網(wǎng)站的形式包括但不限于分發(fā)平臺(tái),刷單詐騙,投資理財(cái),殺豬盤詐騙,電商購(gòu)物,網(wǎng)絡(luò)賭博和色情網(wǎng)站等. 隨著互聯(lián)網(wǎng)業(yè)務(wù)的發(fā)展與擴(kuò)張,也不乏新型涉詐網(wǎng)站的產(chǎn)生.

針對(duì)互聯(lián)網(wǎng)中泛濫的網(wǎng)絡(luò)詐騙亂象,我國(guó)頒布了《中華人民共和國(guó)反電信網(wǎng)絡(luò)詐騙法》,為預(yù)防,遏制和懲治網(wǎng)絡(luò)電信詐騙,規(guī)范網(wǎng)絡(luò)行為,針對(duì)網(wǎng)絡(luò)電信的信息鏈,技術(shù)鏈,人員鏈等各環(huán)節(jié)做出了嚴(yán)格的制度規(guī)范. 但由于網(wǎng)絡(luò)詐騙團(tuán)伙追蹤存在著周期短,溯源難的問題. 近年來電信詐騙熱度依舊不減.

目前已有工作往往局限于涉詐網(wǎng)站的識(shí)別與告警,在網(wǎng)站創(chuàng)建之初便將其檢測(cè)并封禁固然重要,但僅僅局限于涉詐網(wǎng)站的識(shí)別與封禁往往并不能從根本上解決網(wǎng)絡(luò)詐騙猖獗的問題. 目前缺少一種對(duì)涉詐網(wǎng)站背后的犯罪個(gè)體乃至團(tuán)伙的識(shí)別方法,從根源上制止網(wǎng)絡(luò)詐騙行為. 隨著信息對(duì)抗技術(shù)的發(fā)展,不法分子會(huì)刻意在網(wǎng)絡(luò)上隱匿行蹤,或散布虛假信息. 在現(xiàn)實(shí)情況中,僅僅通過涉詐網(wǎng)站本身特征提取出的身份信息有限,很難形成情報(bào)挖掘分析、評(píng)價(jià)與利用為一體的方法,因此難以定位其背后的隱藏團(tuán)伙[2]. 相較于傳統(tǒng)的詐騙模式,網(wǎng)絡(luò)詐騙具有更明顯的特點(diǎn),即節(jié)點(diǎn)匿名化,行為集團(tuán)化,網(wǎng)站壽命周期短,行為模式較為固定等. 涉詐團(tuán)伙的欺詐行為常常伴隨著信息的遺留,隨著警務(wù)人員對(duì)涉詐團(tuán)伙信息的收集與涉詐活動(dòng)的持續(xù)運(yùn)行,構(gòu)建知識(shí)圖譜已經(jīng)成為一種有效手段,通過利用已被識(shí)別的涉詐實(shí)體或資產(chǎn)揭露匿名節(jié)點(diǎn)的身份信息. 從而實(shí)現(xiàn)涉詐團(tuán)伙的精準(zhǔn)定位與打擊.

隨著知識(shí)圖譜技術(shù)的發(fā)展,匿名涉詐節(jié)點(diǎn)溯源可以被建模為知識(shí)圖譜中的鏈接預(yù)測(cè)問題. 利用圖譜中已有的知識(shí),通過規(guī)則匹配[3],協(xié)同過濾[4]和機(jī)器學(xué)習(xí)[5]等方式對(duì)潛在的實(shí)體間關(guān)系進(jìn)行預(yù)測(cè). 然而目前涉詐資產(chǎn)關(guān)聯(lián)的現(xiàn)實(shí)應(yīng)用卻受到了知識(shí)圖譜補(bǔ)全技術(shù)的限制,如何處理涉詐知識(shí)圖譜之間的復(fù)雜關(guān)系,成為實(shí)體關(guān)系預(yù)測(cè)的關(guān)鍵.

近年來,隨著Bordes 等人[6]提出TransE 模型后,知識(shí)圖譜中的多關(guān)系數(shù)據(jù)的預(yù)測(cè)模型逐漸取得了人們的關(guān)注. 在涉詐網(wǎng)站溯源領(lǐng)域,傳統(tǒng)的圖數(shù)據(jù)嵌入諸如Grover 等人[7]提出的使用隨機(jī)游走的Node2vec,或是使用Skip-gram 學(xué)習(xí)圖嵌入的DeepWalk[8]等往往缺乏對(duì)異質(zhì)節(jié)點(diǎn)間不同關(guān)系的表征能力,并不能夠很好地處理涉詐網(wǎng)絡(luò)中錯(cuò)綜復(fù)雜的關(guān)系. 為了有效地捕捉知識(shí)圖譜中實(shí)體和關(guān)系之間的復(fù)雜性,Sun 等人[9]提出了RotatE 模型,通過將圖譜間的每個(gè)關(guān)系定義為復(fù)向量空間上的旋轉(zhuǎn)操作,在關(guān)系預(yù)測(cè)模型中取得了良好的預(yù)測(cè)成績(jī).

為了解決涉詐網(wǎng)站溯源難,以及關(guān)鍵線索定位難等問題,本文將知識(shí)圖譜技術(shù)與涉詐網(wǎng)絡(luò)溯源領(lǐng)域相結(jié)合. 采用細(xì)粒度的涉詐知識(shí)圖譜構(gòu)建方式,綜合考慮涉詐網(wǎng)站的注冊(cè)地,注冊(cè)服務(wù)商等信息,并利用RotatE 模型進(jìn)行知識(shí)圖譜嵌入,通過使用復(fù)數(shù)嵌入和旋轉(zhuǎn)操作符來為涉詐資產(chǎn)的表征過程提供更強(qiáng)的學(xué)習(xí)能力,以此來實(shí)現(xiàn)缺失涉詐關(guān)系的補(bǔ)全. 在涉詐團(tuán)隊(duì)溯源領(lǐng)域,本文以知識(shí)圖譜嵌入向量為基礎(chǔ),對(duì)涉詐實(shí)體之間的相似關(guān)系進(jìn)行表征. 再通過構(gòu)建涉詐知識(shí)圖譜關(guān)系間的身份揭示系數(shù)矩陣計(jì)算實(shí)體的特征向量中心性,來挖掘涉詐知識(shí)圖譜中的關(guān)鍵線索節(jié)點(diǎn). 最后利用余弦相似度將RotatE 學(xué)習(xí)到的目標(biāo)資產(chǎn)與涉詐關(guān)鍵節(jié)點(diǎn)特征相關(guān)聯(lián). 為涉詐資產(chǎn)的溯源提供精準(zhǔn)的決策依據(jù).

綜上所述,本文有以下貢獻(xiàn):( 1) 設(shè)計(jì)了一種基于本體論的涉詐網(wǎng)站知識(shí)圖譜構(gòu)建方法,為涉詐團(tuán)伙資產(chǎn)建模提供了新的視角;( 2) 將知識(shí)圖譜嵌入技術(shù)RotatE 應(yīng)用于涉詐資產(chǎn)追蹤的實(shí)踐,為解決涉詐資產(chǎn)關(guān)聯(lián)難問題提供了一種新思路,最終模型在37 866 個(gè)實(shí)體的數(shù)據(jù)集中HITS@10達(dá)到了47%,優(yōu)于其他測(cè)試模型;( 3) 定制化調(diào)整特征向量中心性中涉詐資產(chǎn)關(guān)系邊的權(quán)重,用加權(quán)后涉詐關(guān)系來優(yōu)化特征向量中心性算法,以更準(zhǔn)確地挖掘涉詐網(wǎng)絡(luò)中的關(guān)鍵線索,增強(qiáng)算法可解釋性和適應(yīng)性.

2 國(guó)內(nèi)外研究現(xiàn)狀

2. 1 涉詐網(wǎng)站知識(shí)圖譜構(gòu)建

針對(duì)于涉詐網(wǎng)站的圖譜構(gòu)建,目前流行的方法是構(gòu)建涉詐網(wǎng)絡(luò)行為與特征圖. 其中基于威脅元語(yǔ)的涉詐實(shí)體追蹤實(shí)踐被廣泛應(yīng)用于犯罪組織追蹤過程. 例如以太坊欺詐數(shù)據(jù),針對(duì)用戶的欺詐地址與交易行為進(jìn)行建模,對(duì)基于以太坊的交易記錄進(jìn)行挖掘來檢測(cè)以太坊欺詐[10].

但不同于傳統(tǒng)的網(wǎng)站特征構(gòu)建方法,網(wǎng)絡(luò)公害治理關(guān)注的重點(diǎn)不僅僅在于涉詐網(wǎng)站的識(shí)別,還要注重涉詐網(wǎng)站的溯源,在圖譜構(gòu)建中更關(guān)注能夠揭示涉詐網(wǎng)站背后團(tuán)伙身份的關(guān)鍵信息.

自從”透明計(jì)算”項(xiàng)目啟動(dòng)后,利用溯源圖進(jìn)行威脅檢測(cè)便逐漸成為了實(shí)體追蹤領(lǐng)域的主流方向[10]. 通過構(gòu)建威脅信息本體圖的形式,對(duì)不同類別實(shí)體之間的因果關(guān)系進(jìn)行關(guān)聯(lián),以處理緩慢又隱蔽的威脅溯源難題. 構(gòu)建溯源圖以對(duì)涉詐網(wǎng)絡(luò)對(duì)象中復(fù)雜的數(shù)據(jù)流和控制流關(guān)系進(jìn)行表征,將存在強(qiáng)因果聯(lián)系的實(shí)體關(guān)聯(lián)起來. 目前溯源圖的構(gòu)建大多是粗粒度的,存在著“ 依賴爆炸”的問題[11]. 而重點(diǎn)在溯源涉詐領(lǐng)域的本研究需要構(gòu)建更為細(xì)粒度的數(shù)據(jù)集. 針對(duì)涉詐團(tuán)體提取出更有因果關(guān)系和代表性的本體. 同時(shí),如何構(gòu)建細(xì)粒度的溯源圖,為涉詐溯源提供準(zhǔn)確的數(shù)據(jù)支持,也是未來涉詐領(lǐng)域研究的主流方向.

隨著網(wǎng)絡(luò)詐騙規(guī)模的增長(zhǎng),涉及到的資產(chǎn)和關(guān)系數(shù)量急劇增加,對(duì)全部的資產(chǎn)信息進(jìn)行文本處理變得愈發(fā)困難. 基于知識(shí)提取的本體論在解決這一難題上表現(xiàn)出了良好的效果,在知識(shí)表示領(lǐng)域,本體論被用來對(duì)知識(shí)圖譜中的概念、實(shí)體和關(guān)系進(jìn)行表示,以規(guī)范化的方式描述了涉詐領(lǐng)域中的實(shí)體和他們之間的關(guān)系[12]. 基于本體論的構(gòu)建方法能夠清晰直觀地提供構(gòu)建知識(shí)圖譜的數(shù)據(jù),尤其是面對(duì)涉詐知識(shí)圖譜這種稀疏網(wǎng)絡(luò)時(shí),其在信息抽取中發(fā)揮著重要的作用. 本體論在其他安全領(lǐng)域也發(fā)揮了重要的應(yīng)用價(jià)值,如Mozzaquatro等人[13]創(chuàng)建了基于本體論的物聯(lián)網(wǎng)安全架構(gòu),其被用于監(jiān)控物聯(lián)網(wǎng)設(shè)備并用于知識(shí)推理. Du等人[14]從攻擊鏈角度考慮實(shí)體關(guān)系,提出了針對(duì)APT 組織的高可讀性威脅情報(bào)推薦圖.

綜上所述,目前尚未有針對(duì)涉詐網(wǎng)絡(luò)知識(shí)圖譜的系統(tǒng)性構(gòu)建方法,以解釋涉詐網(wǎng)絡(luò)中潛在的身份關(guān)系. 本文以域名對(duì)應(yīng)涉詐資產(chǎn)信息為核心,包括域名創(chuàng)建信息和注冊(cè)者信息等構(gòu)建涉詐知識(shí)圖譜,這些實(shí)體不僅是涉詐網(wǎng)絡(luò)研究的重要數(shù)據(jù)來源,同時(shí)也為涉詐行為復(fù)雜網(wǎng)絡(luò)關(guān)聯(lián)提供了有價(jià)值的信息基礎(chǔ)[15].

2. 2 涉詐網(wǎng)站溯源技術(shù)

涉詐網(wǎng)站的溯源一直是國(guó)內(nèi)外網(wǎng)絡(luò)安全學(xué)者高度關(guān)注的課題. 在利用涉詐資產(chǎn)同源性分析技術(shù)實(shí)現(xiàn)追蹤溯源的研究中,安全研究人員提出了眾多方法. 目前較為主流的是基于規(guī)則匹配的溯源,通過涉詐網(wǎng)站頁(yè)面中包含的對(duì)身份的強(qiáng)表征信息,諸如郵箱、地點(diǎn)、電話等,對(duì)涉詐團(tuán)伙的身份進(jìn)行揭示[16].

目前的研究方法側(cè)重于在威脅情報(bào)關(guān)聯(lián)過程中利用URL,網(wǎng)頁(yè)內(nèi)容等網(wǎng)絡(luò)特征進(jìn)行關(guān)聯(lián)[17],對(duì)網(wǎng)站本身的身份屬性考慮較少. 隨著詐騙團(tuán)伙反偵察意識(shí)的提高,傳統(tǒng)的身份溯源技術(shù)的效果往往較差[18]. 此時(shí)亟需能夠?qū)ι嬖p網(wǎng)絡(luò)的深層次語(yǔ)義特征進(jìn)行識(shí)別,來鎖定不同涉詐資產(chǎn)背后的同一威脅源的技術(shù). Rid 等人[19]提出Q 模型,旨在解釋,指導(dǎo)和改進(jìn)威脅歸因的設(shè)計(jì),同時(shí)從戰(zhàn)術(shù)、操作和戰(zhàn)略等3 個(gè)層面相結(jié)合,將犯罪分子與犯罪行為相匹配,以最大程度地減少不確定性. 為溯源網(wǎng)絡(luò)威脅提供了一種系統(tǒng)化的方法.

隨著知識(shí)圖譜技術(shù)在實(shí)體關(guān)系表征領(lǐng)域取得優(yōu)勢(shì),知識(shí)圖譜表示學(xué)習(xí)正逐漸成為涉詐實(shí)體表征強(qiáng)有力的手段之一. 以Bordes 等人[6]提出的TransE 模型為代表,對(duì)于三元組( h,r,t ),通過將t表現(xiàn)為h 相對(duì)于r 的平移操作進(jìn)行學(xué)習(xí),來將實(shí)體和關(guān)系映射為空間上的向量. 隨著知識(shí)圖譜表示學(xué)習(xí)的發(fā)展,Sun 等人[9]受歐拉恒等式e-iφ =cosφ + isinφ 啟發(fā)提出了RotatE,通過將關(guān)系表示為實(shí)體在復(fù)空間上的旋轉(zhuǎn)操作,在關(guān)系預(yù)測(cè)的領(lǐng)域取得了較大的成功. 知識(shí)圖譜表示學(xué)習(xí)使得知識(shí)圖譜有了較低的緯度和較高的抽象層面. 利用知識(shí)圖譜表示學(xué)習(xí)生成的向量綜合了異質(zhì)圖中復(fù)雜的語(yǔ)義信息. 結(jié)合知識(shí)圖譜本體構(gòu)建方法能夠更深層次的探尋涉詐網(wǎng)絡(luò)中的語(yǔ)義信息.

由于涉詐犯罪網(wǎng)絡(luò)可以被建模成一個(gè)由節(jié)點(diǎn)和鏈接組成的廣義網(wǎng)絡(luò),因此可以使用社交網(wǎng)絡(luò)分析和圖論的技術(shù)來識(shí)別網(wǎng)絡(luò)中的關(guān)鍵節(jié)點(diǎn)[20].傳統(tǒng)針對(duì)犯罪網(wǎng)絡(luò)的研究大多集中在未加權(quán)的關(guān)系分析上,例如度中心性[21]和介數(shù)中心性[22]等,未經(jīng)拓展的這些算法可以幫助我們了解節(jié)點(diǎn)在網(wǎng)絡(luò)中的連接情況,但并不能對(duì)邊的類型和重要性進(jìn)行表征. 而特征向量中心性的提出以及拓展則不僅考慮到了相鄰節(jié)點(diǎn)的中心性,更可以通過對(duì)關(guān)系賦予權(quán)重的方式表征節(jié)點(diǎn)間復(fù)雜的關(guān)系[23]. 在真實(shí)場(chǎng)景下,為了線索挖掘的準(zhǔn)確性,需要設(shè)計(jì)涉詐網(wǎng)絡(luò)間不同關(guān)系的身份揭示權(quán)重,并結(jié)合其他的中心性指標(biāo)用更復(fù)雜的指標(biāo)來對(duì)涉詐網(wǎng)絡(luò)的關(guān)鍵節(jié)點(diǎn)進(jìn)行挖掘.

3 方法

本節(jié)將介紹涉詐網(wǎng)站資產(chǎn)關(guān)聯(lián)與關(guān)鍵節(jié)點(diǎn)識(shí)別關(guān)聯(lián)方法,方法的整體框架如圖1 所示.

3. 1 基于本體論的涉詐知識(shí)庫(kù)構(gòu)建

3. 1. 1 涉詐知識(shí)圖譜本體設(shè)計(jì) 通常,網(wǎng)絡(luò)涉詐活動(dòng)存在著復(fù)雜的信息交換方式與運(yùn)營(yíng)模式. 其活動(dòng)范圍從簡(jiǎn)單的技術(shù)支持(第三方網(wǎng)絡(luò)服務(wù)提供商,服務(wù)器的注冊(cè)地點(diǎn))到復(fù)雜的運(yùn)營(yíng)團(tuán)隊(duì)網(wǎng)絡(luò).

為更好地解釋涉詐活動(dòng),在這里引入現(xiàn)實(shí)場(chǎng)景中的一個(gè)實(shí)例,以提取對(duì)涉詐溯源有利的實(shí)體類別:

某涉詐團(tuán)伙A 近日在域名注冊(cè)商B 處注冊(cè)了大量域名C 用于涉詐網(wǎng)站的搭建,并將其服務(wù)器地址選為D. 為了逃避國(guó)內(nèi)網(wǎng)絡(luò)的監(jiān)管,服務(wù)器地址可能會(huì)部署在國(guó)外. 如果部署在國(guó)內(nèi),需要向CNNIC(China Internet Network Information Center)申請(qǐng)備案,網(wǎng)站會(huì)擁有備案號(hào)E,與此同時(shí)網(wǎng)站的IP 被互聯(lián)網(wǎng)注冊(cè)機(jī)構(gòu)分配到ASN(AutonomousSystem Number)為F 組進(jìn)行管理.

依據(jù)此案例可以整理溯源需要的本體如下:

(1) Website 涉詐網(wǎng)站;(2) Location 實(shí)體所在的國(guó)家和地區(qū);(3) Registrant 網(wǎng)站注冊(cè)人或組織;(4) ASN 網(wǎng)站的服務(wù)商編號(hào);(5) Licences 網(wǎng)站提取的備案號(hào);(6) RegisteServer 網(wǎng)站服務(wù)提供商.

在案例中,真實(shí)場(chǎng)景下能夠獲得的信息有限.涉詐團(tuán)伙有著高度的匿名性,犯罪分子往往會(huì)故意隱藏起自己的身份信息,如地點(diǎn)、服務(wù)提供商等. 在知識(shí)圖譜中,匿名性表現(xiàn)為關(guān)系的缺失. 通過構(gòu)建起足夠復(fù)雜的知識(shí)圖譜,利用知識(shí)圖譜表示學(xué)習(xí)對(duì)缺失的信息進(jìn)行知識(shí)補(bǔ)全. 因此提取出的本體和關(guān)系需要盡可能地對(duì)涉詐資產(chǎn)的身份信息有著強(qiáng)表征能力. 在此定義能夠表征涉詐團(tuán)伙身份信息的實(shí)體和關(guān)系如表1 所示.

為了全方位的建模涉詐資產(chǎn)的運(yùn)營(yíng)過程,將圖挖掘技術(shù)應(yīng)用于涉詐節(jié)點(diǎn)的溯源中,需要用異質(zhì)信息網(wǎng)絡(luò)來表示示例中的涉詐網(wǎng)絡(luò). 為對(duì)涉詐資產(chǎn)更深層次的運(yùn)行機(jī)理進(jìn)行建模,本研究選擇了能夠更全面表征涉詐資產(chǎn)身份信息的本體,并以此為依據(jù)進(jìn)行信息抽取,為知識(shí)圖譜嵌入提供數(shù)據(jù)支撐.

3. 1. 2 涉詐知識(shí)圖譜優(yōu)化 在取得圖譜中結(jié)構(gòu)化三元組后,仍需對(duì)其中冗余的實(shí)體和關(guān)系進(jìn)行處理.

首先,需要對(duì)預(yù)處理后的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行實(shí)體融合,涉詐實(shí)體在圖譜創(chuàng)建初期可能會(huì)出現(xiàn)冗余. 無論命名實(shí)體身份屬性如何,圖譜需要保證其在構(gòu)建圖譜時(shí)只出現(xiàn)一次. 在此對(duì)知識(shí)圖譜中同一命名實(shí)體進(jìn)行識(shí)別,并融合實(shí)體間的鏈接[24].

例如在本文數(shù)據(jù)集中涉詐網(wǎng)站這一實(shí)體與其他實(shí)體存在著不同關(guān)系,網(wǎng)站擁有不同的備案號(hào),并且歸不同的服務(wù)提供商管理,這種1-n 的結(jié)構(gòu)需要進(jìn)行關(guān)系拓展. 使得知識(shí)圖譜嵌入過程中實(shí)體的關(guān)系特征更豐富[25].

在經(jīng)過實(shí)體和鏈接處理后,涉詐知識(shí)圖譜實(shí)體-關(guān)系圖如圖2 所示.

3. 2 基于RotatE 的涉詐知識(shí)圖譜嵌入方法

RotatE 模型中關(guān)系的嵌入在空間中被表現(xiàn)為旋轉(zhuǎn)操作,以更好地捕捉涉詐網(wǎng)站實(shí)體與關(guān)系間復(fù)雜的語(yǔ)義關(guān)聯(lián). 在此將實(shí)體e 與邊r 嵌入維度初始化為Ck,以將向量映射到復(fù)數(shù)空間中. 并對(duì)實(shí)體向量的實(shí)部和虛部進(jìn)行隨機(jī)初始化.

根據(jù)知識(shí)圖譜的定義,對(duì)于每個(gè)實(shí)體關(guān)系對(duì)應(yīng)的三元組RotatE 的得分函數(shù)定義如下,這一指標(biāo)的數(shù)值越接近于零,表明模型對(duì)關(guān)系的擬合能力越強(qiáng).