摘要:目前,在防范打擊電信網(wǎng)絡(luò)騷擾詐騙領(lǐng)域,對騷擾和詐騙的在線判定,要么是基于業(yè)務(wù)經(jīng)驗并結(jié)合統(tǒng)計分析的規(guī)則識別方法,要么是利用對特征信息庫進(jìn)行標(biāo)簽學(xué)習(xí)訓(xùn)練得到的分類器模型。單一領(lǐng)域的傳統(tǒng)模型分析效果已無法滿足新形勢下的模型精度要求。在此背景下,本文提出時空圖表征與規(guī)則特征多層融合模型及基于該模型構(gòu)建的電信網(wǎng)反詐防騷擾分析機(jī)制。該集成模型跳出單域分析框架,挖掘多源異構(gòu)大數(shù)據(jù)深度特征,具有穩(wěn)定性強(qiáng)、識別精準(zhǔn)率高、可兼容小樣本學(xué)習(xí)場景、能進(jìn)行自適應(yīng)優(yōu)化等特征。
關(guān)鍵詞:電信詐騙;時空圖模型;多層融合
近年來,隨著國家加大對電信詐騙的打擊力度,反詐工作取得了一定成效。然而,利用通信網(wǎng)進(jìn)行電話詐騙的不法團(tuán)伙不斷變換新手法、利用新工具規(guī)避打擊,其詐騙行為呈現(xiàn)出跨境、跨網(wǎng)、跨行業(yè)的體系化、立體化的特點?,F(xiàn)有的電詐治理方案已無法應(yīng)對新型詐騙手段。在此背景下,本文將提出一種基于時空圖表征與規(guī)則特征多層融合的電信網(wǎng)反詐防騷擾機(jī)制。
一、整體架構(gòu)
圖1描述了反詐防騷擾分析與管理處置平臺的主要架構(gòu),其主要由反詐知識庫、反詐分析機(jī)制和自適應(yīng)管理3個模塊組成,以及時識別和推送詐騙、騷擾號碼為目標(biāo)。
這些模塊實現(xiàn)了從多源異構(gòu)數(shù)據(jù)源引入、詐騙和騷擾號碼樣本輸入、預(yù)測結(jié)果推送到推送內(nèi)容反饋的反詐、防騷擾的全生命周期管理流程。同時,系統(tǒng)平臺通過引入多類、多維度數(shù)據(jù)源,智能梳理過濾呼叫行為、短信行為、上網(wǎng)日志、位置特征等多種信令數(shù)據(jù),定時定點分析挖掘通信信息詐騙的內(nèi)容特性和手段特征,實現(xiàn)詐騙事件檢測、關(guān)聯(lián)、用戶群分析,及時阻止通信信息詐騙事件的發(fā)生。在此基礎(chǔ)上,基于綜合分析,系統(tǒng)平臺具備詐騙態(tài)勢感知與預(yù)警能力,能夠分析詐騙電話的時空分布、熱點趨勢,可提供疑似被騙用戶的區(qū)位分布、受騷擾等級等相關(guān)信息。
(一)反詐知識庫的構(gòu)建
反詐知識庫包括詐騙騷擾黑號碼庫、白名單號碼庫、多類維度表、驗證反饋結(jié)果和模型推送結(jié)果五個模塊。其中,構(gòu)建詐騙騷擾黑號碼庫和白名單號碼庫的主要目的是對號碼庫進(jìn)行分類管理和分類研究等。構(gòu)建多類維度表的目的是積累在原始數(shù)據(jù)基礎(chǔ)上進(jìn)行衍生的指標(biāo)特征,形成可復(fù)用的指標(biāo)體系,提升數(shù)據(jù)使用效率。構(gòu)建模型推送結(jié)果和驗證反饋結(jié)果的目的是對反詐分析結(jié)果進(jìn)行跟蹤記錄,便于溯源反查和對反詐防騷擾機(jī)制進(jìn)行優(yōu)化升級,是串聯(lián)反詐分析機(jī)制和自適應(yīng)管理模塊之間的橋梁。
(二)反詐分析機(jī)制
反詐分析機(jī)制包括數(shù)據(jù)預(yù)處理及特征工程、建立反詐分析模型、定時推送結(jié)果3個流程。數(shù)據(jù)預(yù)處理及特征工程是為了獲取高質(zhì)量、適合分析的數(shù)據(jù),在數(shù)據(jù)清洗的基礎(chǔ)上,提取多通道數(shù)據(jù)源、多時間維度特征與表征,實現(xiàn)對不同數(shù)據(jù)源的關(guān)聯(lián),生成全量數(shù)據(jù)特征寬表。通過離線模型訓(xùn)練,生成多種識別模型,如通過集成學(xué)習(xí),完成對詐騙、騷擾號碼的識別;通過在線識別,完成對多標(biāo)簽的詐騙、騷擾號碼和自然人的定時推送。
(三)自適應(yīng)管理模塊
根據(jù)反詐分析機(jī)制的推送內(nèi)容,實現(xiàn)反詐防騷擾處置平臺的自適應(yīng)管理工作,即對反詐知識庫的定時、定期更新,同時優(yōu)化反詐分析機(jī)制,具體包括基于反饋結(jié)果的模型在線自優(yōu)化、知識庫定時定期更新、新場景增量學(xué)習(xí)和舉報amp;復(fù)機(jī)號碼反查。
二、多源異構(gòu)大數(shù)據(jù)一體化及機(jī)器學(xué)習(xí)路徑
傳統(tǒng)電信詐騙識別往往局限于單域分析,如一個策略/模型只基于短信域或通話域進(jìn)行預(yù)測。隨著詐騙手段的升級和新型詐騙模式的不斷產(chǎn)生,單域分析已不能滿足目前的詐騙防范需求。特別是隨著5G的發(fā)展,詐騙案件的發(fā)生場所也逐漸由電信網(wǎng)轉(zhuǎn)變?yōu)殡娦啪W(wǎng)+互聯(lián)網(wǎng)。本文在傳統(tǒng)單域分析的基礎(chǔ)上,綜合考慮詐騙情景和事件流模式,創(chuàng)新地構(gòu)建了由短信單域觸發(fā)再關(guān)聯(lián)至通話域和上網(wǎng)域的融合分析流程,包含短信內(nèi)涉詐網(wǎng)站與上網(wǎng)日志的關(guān)聯(lián)、短信內(nèi)涉詐號碼與通話信令的關(guān)聯(lián)、詐騙受害人號碼與轉(zhuǎn)賬記錄的關(guān)聯(lián),從而實現(xiàn)對多源異構(gòu)大數(shù)據(jù)的一體化分析。
(一)多源異構(gòu)大數(shù)據(jù)關(guān)聯(lián)
在分析多源異構(gòu)大數(shù)據(jù)前,需要進(jìn)行數(shù)據(jù)關(guān)聯(lián)。通常選用IMSI、號碼進(jìn)行關(guān)聯(lián)。除此以外,在以自然人為分析目標(biāo)的情況下,也會使用相應(yīng)的用戶ID或終端編碼IMEI進(jìn)行關(guān)聯(lián)。
(二)數(shù)據(jù)預(yù)處理
1.數(shù)據(jù)清洗
由于多源異構(gòu)數(shù)據(jù)來源眾多且數(shù)據(jù)結(jié)構(gòu)不一致,在使用這些數(shù)據(jù)時,還需要進(jìn)行針對性的數(shù)據(jù)清洗工作。
2.缺失值處理
首先,將影響數(shù)據(jù)有效性的關(guān)鍵字段的數(shù)據(jù)缺失記錄直接刪除。例如,對IMEI和MSISDN等字段缺失的記錄予以刪除。其次,根據(jù)字段缺失值比例,以從低到高的順序,按照含缺失值的字段是否缺失對數(shù)據(jù)集進(jìn)行分類,使用隨機(jī)森林來填補(bǔ)缺失值[1]。
3.數(shù)據(jù)一致化
由于多源異構(gòu)數(shù)據(jù)來源眾多,數(shù)據(jù)接入時間存在差異,導(dǎo)致數(shù)據(jù)之間存在矛盾。對符合實際邏輯且可推斷的數(shù)據(jù)予以一致化處理。
(三)樣本選擇
從分析目的出發(fā),將號碼區(qū)分為黑樣本(也叫目標(biāo)樣本)與白樣本,其中,選擇有詐騙標(biāo)記、騷擾標(biāo)記的號碼作為黑樣本。將數(shù)據(jù)集按照7:3的比例分為訓(xùn)練集與測試集,訓(xùn)練集用來估計模型,測試集檢驗?zāi)P偷男阅堋?/p>
(四)特征工程
根據(jù)信令指標(biāo)進(jìn)行指標(biāo)值計算,包括基礎(chǔ)指標(biāo)與衍生指標(biāo)。主要是基于主叫號碼、被叫號碼、呼叫頻次、呼叫時間間隔、振鈴時長、通話時長等統(tǒng)計指標(biāo),計算其平均值、極值、標(biāo)準(zhǔn)差等,并結(jié)合24小時、12小時、忙時和閑時等時間粒度,最終獲得衍生指標(biāo)。結(jié)合號碼標(biāo)簽與所有的特征值,形成初步數(shù)據(jù)寬表。
(五)特征選擇
結(jié)合相關(guān)性、重要性等指標(biāo)進(jìn)行篩選,保留顯著性高的指標(biāo),形成最終的數(shù)據(jù)量表,然后進(jìn)行下一步的算法建模。離線學(xué)習(xí)過程中所需的信令指標(biāo)較多,一般會用全量可用指標(biāo)計算。篩選指標(biāo)后進(jìn)入算法建模,當(dāng)模型結(jié)果欠佳時,依然會重返這一步驟,重新進(jìn)行指標(biāo)篩選。
(六)模型訓(xùn)練與優(yōu)化
利用隨機(jī)森林、LightGBM等多種樹類算法進(jìn)行算法建模,通過調(diào)整算法超參數(shù)優(yōu)化模型提升效果。在驗證結(jié)果的基礎(chǔ)上,通過重復(fù)迭代指標(biāo)篩選與算法建模的過程,尋找模型超參數(shù)最優(yōu)解。當(dāng)模型達(dá)到最優(yōu)后,輸出模型,實現(xiàn)在線識別。
三、結(jié)合用戶自然人特征的實時動態(tài)時空圖檢測模型
由于靜態(tài)圖卷積識別出的呼叫行為時間規(guī)律過于單一,本文提出了時空圖模型。首先,將原始通信網(wǎng)絡(luò)按照通話時間區(qū)間劃分成若干張子圖,并將這些子圖按照主叫節(jié)點對齊,構(gòu)成時空圖結(jié)構(gòu)。其次,使用圖卷積的方法提取空間維度的信息,再使用遞歸神經(jīng)網(wǎng)絡(luò)提取時間維度的信息,從而動態(tài)捕獲號碼呼叫行為的變化,精準(zhǔn)識別詐騙號碼。此方法的原理是,沿著時間軸將單個指標(biāo)拆分成多個指標(biāo),再使用這些指標(biāo)的非線性組合作為深層特征去識別有害的呼叫行為。同時,通話特征的提取和二階鄰居節(jié)點的搜索是在各張子圖內(nèi)部獨立進(jìn)行的,因此也可以較為方便地實現(xiàn)并行化。以時空圖模型為基礎(chǔ),結(jié)合用戶自然人特征進(jìn)行實時動態(tài)檢測:從用戶號碼出發(fā),通過簽約屬性確定真實自然人,并以自然人為目標(biāo)用戶,綜合利用目標(biāo)用戶在不同時間段內(nèi)自身的特征信息(時間信息)、網(wǎng)絡(luò)中與其發(fā)生通話關(guān)系的鄰居用戶的特征信息(空間信息),以及已有的人工標(biāo)注,訓(xùn)練一種基于動態(tài)圖的實時檢測模型[2],實現(xiàn)對有害呼叫的精準(zhǔn)識別。然而,在實際研究過程中,考慮到圖的規(guī)模極為龐大,使用鄰接矩陣的方法進(jìn)行圖卷積是不現(xiàn)實的,所以,本文將圖卷積的過程提前到特征提取階段進(jìn)行。
針對正負(fù)樣本嚴(yán)重不平衡的情況,本文嘗試通過采樣方法[3]提升每個負(fù)樣本的平均訓(xùn)練次數(shù),并采用Focal Loss損失函數(shù)[4]作為解決方案。針對模型存在輕度擬合的情況,采用Drop Out機(jī)制緩解。時空圖模型所提取的特征是節(jié)點的特征,而同一個節(jié)點可以在不同子圖中重復(fù)出現(xiàn)。為了在無標(biāo)簽數(shù)據(jù)集上表現(xiàn)出更穩(wěn)健的效果,在劃分訓(xùn)練集和測試集的過程中,本文沒有使用簡單的隨機(jī)劃分,而是先對節(jié)點做隨機(jī)劃分,將屬于該節(jié)點的所有樣本都分到同一個數(shù)據(jù)集中。這種做法雖然增大了模型分類的難度,但可以保證模型的穩(wěn)定性。
四、多層融合技術(shù)集成機(jī)器分類規(guī)則與深度表征特征
經(jīng)過多重集成方案的對比驗證,最終確定在Stacking方法[5]的基礎(chǔ)上提出多層特征融合結(jié)構(gòu),從而在精度和性能兩個方面達(dá)到預(yù)期效果?;跁r空圖模型得到的表征特征和機(jī)器學(xué)習(xí)模型的規(guī)則化特征,利用投票法、加權(quán)投票法、特征融合后使用隨機(jī)森林或者神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,以及在Stacking方法基礎(chǔ)上構(gòu)建的多層融合模型等五種方法,來確定最終的分類結(jié)果。圖2展示了集成方法的效果對比。其中,效果比較理想的是多層融合的方法。在該方法中,第一層包含三個子模型,子模型的輸入分別由時空圖模型的隱狀態(tài)向量、文本模型的詞向量以及規(guī)則匹配向量兩兩拼接而成。分類器以簡單分類器為主。從實際結(jié)果來看,隨機(jī)森林的效果最佳,但是要將層數(shù)限制在8~10層左右,葉子節(jié)點樣本低于1%,從而避免過擬合;Logistic回歸的效果最差,SVM的時間消耗非常大,因此,這兩種分類器沒有被采用。子模型的訓(xùn)練過程采用K-fold交叉驗證法,在K=3時總共得到9個預(yù)測結(jié)果。這些預(yù)測結(jié)果將作為第二層主模型的輸入值。主模型采用的是包含單個隱藏層的普通神經(jīng)網(wǎng)絡(luò),同樣采用K-fold交叉驗證確保效果。這一層的特征數(shù)量相對較少,且參數(shù)過多容易導(dǎo)致過擬合,所以沒有使用更為復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)。
五、基于反查機(jī)制的模型自優(yōu)化學(xué)習(xí)框架
反查是指重新查詢舉報號碼、驗證號碼的簽約屬性、識別號碼的呼叫行為特征等,目的是還原多渠道號碼的電信行為特征,并相互進(jìn)行關(guān)聯(lián),為模型優(yōu)化提供樣本。本方案重點針對識別錯誤的模型推送號碼,重新訓(xùn)練模型,矯正模型偏移;同時,針對舉報號碼中未命中的號碼,制定快速響應(yīng)增量學(xué)習(xí)方案。其中,針對輕量級的機(jī)器學(xué)習(xí)模型,采用在線模型重新訓(xùn)練的方式,實現(xiàn)自優(yōu)化。而針對深度學(xué)習(xí)或體量較大的模型,則采用在生產(chǎn)模型的基礎(chǔ)上更新模型的增量學(xué)習(xí)方法。
六、結(jié)束語
本文提出的多源異構(gòu)大數(shù)據(jù)一體化分析方案,更加立體地刻畫了詐騙案件的整體流程和情景,一方面增加了詐騙案件識別的準(zhǔn)確率,另一方面為研究詐騙模式、詐騙趨勢提供了全面材料。本方案結(jié)合號碼反查的模型優(yōu)化機(jī)制,實現(xiàn)系統(tǒng)識別閉環(huán)。針對模型老化及新型詐騙、騷擾號碼等問題,構(gòu)建了一種對舉報樣本號碼及推送反饋號碼的反查機(jī)制,實現(xiàn)系統(tǒng)在線優(yōu)化模型并對未識別號碼進(jìn)行增量學(xué)習(xí)的系統(tǒng)閉環(huán)。這種方法可以快速適應(yīng)行為變化,調(diào)整模型的識別偏差,同時,盡可能地降低了模型的訓(xùn)練成本,最大化提升了模型的更新周期,能夠快速發(fā)現(xiàn)新型詐騙、騷擾行為,并拓展模型識別范圍。
作者單位:葉蘊芳 林恪 中國移動通信集團(tuán)福建有限公司
林華輝 中國移動通信集團(tuán)福建有限公司泉州分公司
參考文獻(xiàn)
[1] 張曉琴,程譽(yù)瑩.基于隨機(jī)森林模型的成分?jǐn)?shù)據(jù)缺失值填補(bǔ)法[J].應(yīng)用概率統(tǒng)計,2017,33(01):102-110.
[2] 朱威,繩榮金,湯如,等.基于動態(tài)圖卷積和空間金字塔池化的點云深度學(xué)習(xí)網(wǎng)絡(luò)[J].計算機(jī)科學(xué),2020,47(07):192-198.
[3] 李艷霞,柴毅,胡友強(qiáng),等.不平衡數(shù)據(jù)分類方法綜述[J].控制與決策,2019,34(04):673-688.
[4] 陳永明,戴穎超.基于Focal Loss的GBDT改進(jìn)分類算法研究[J].機(jī)電技術(shù),2020(03):32-67.
[5] 徐繼偉,楊云.集成學(xué)習(xí)方法:研究綜述[J].云南大學(xué)學(xué)報(自然科學(xué)版),2018,40(06):1082-1092.