吳振奎, 婁濤, 田剛, 賴曉龍, 喬蕓
(1 中國移動通信集團(tuán)陜西有限公司,西安 710075; 2 中國移動通信集團(tuán)公司,北京 100032)
隨著移動通信服務(wù)的不斷拓展,利用移動通信網(wǎng)絡(luò)傳送各類不良和違法內(nèi)容的垃圾短信現(xiàn)象隨之出現(xiàn),嚴(yán)重影響電信運(yùn)營商客戶感知。陜西移動從2004年6月起,持續(xù)不斷的進(jìn)行垃圾短信的治理。目前在垃圾短信的治理過程中,采取多項(xiàng)措施來控制垃圾短信傳播,對垃圾短信實(shí)施攔截,攔截范圍逐步擴(kuò)大,攔截手段也日益精益。從最初的發(fā)送頻率閥值,關(guān)鍵字控制到后來的發(fā)送量組合、關(guān)鍵字組合、號碼離散度控制、內(nèi)容離散度控制,垃圾短信的攔截一直緊跟最新的垃圾短信發(fā)送方法的發(fā)展趨勢,攔截工作取得了令人矚目的效果。
然而,近期垃圾短信的發(fā)送開始變幻莫測,發(fā)送方式層出不窮。先后出現(xiàn)了大量購買SIM卡低頻發(fā)送、復(fù)制卡發(fā)送垃圾短信,關(guān)鍵字同音替代、異型字替代、近體字替代、多音字、豎形排版等多種發(fā)送方式,近期還出現(xiàn)利用手機(jī)中毒來向其通訊錄中的聯(lián)系人發(fā)送垃圾短信的惡意軟件。目前的垃圾短信系統(tǒng)沒有策略對這些行為實(shí)施檢測,這些發(fā)送垃圾短信的方式僅僅是因?yàn)榭蛻粲邢鄳?yīng)的投訴,進(jìn)而被發(fā)現(xiàn)并核實(shí)。這就要求整個垃圾短信攔截業(yè)務(wù)系統(tǒng)的智能化,有效性持續(xù)提升。
多張復(fù)制的SIM卡被復(fù)制以后,同時激活附著網(wǎng)絡(luò),可以同時存活于不同的MSC下,同時發(fā)送短信。傳統(tǒng)HLR停短信功能方式僅僅只能關(guān)停掉其中的一張卡。其它的復(fù)制卡仍然可以高速群發(fā)垃圾短信。
采用大量號碼,模擬正常用戶以較低的發(fā)送頻率進(jìn)行垃圾短信發(fā)送。
使用如:“fa-瞟”、“黑車”、“貨(貸)款”等拼音、詞匯變形、繁體字、標(biāo)點(diǎn)符號嵌入,使得目前的關(guān)鍵字和關(guān)鍵字組合失效。
垃圾短信用如圖1所示方式進(jìn)行發(fā)送。
圖1 垃圾短信
針對以上垃圾短信,系統(tǒng)按照“[發(fā)] {恭} [piao]{喜} [聯(lián)] {發(fā)} [系]{財(cái)}137%72@02@9118”進(jìn)行處理,這樣豎形排版的垃圾短信使得關(guān)鍵字識別方式失效,對垃圾短信攔截造成極大障礙。
不法分子惡意利用多張復(fù)制的SIM卡同時激活同時附著網(wǎng)絡(luò),可以實(shí)現(xiàn)在多個MSC下同時有效附著,并可以大量發(fā)送垃圾短信。傳統(tǒng)垃圾短信HLR停短信功能方式只能使其中一個MSC下的卡失效,其余的卡仍然附著于網(wǎng)絡(luò)并持續(xù)發(fā)送大量的垃圾信息。通過數(shù)據(jù)統(tǒng)計(jì)分析復(fù)制卡所在的MSC,人工或使用清理程序逐一進(jìn)行清理,操作復(fù)雜,效率低下,無法抑制復(fù)制卡垃圾短信的傳播。
另一方面,在垃圾短信發(fā)送過程中,因?yàn)槠浔唤刑柎a用戶狀態(tài)相對于BOSS的滯后性,其必然有一部分是無效號碼。在對這些號碼發(fā)送短信時,歸屬位置寄存器(HLR)會返回的用戶無效或者無短信功能的錯誤碼到短信中心。當(dāng)一個用戶群發(fā)短信產(chǎn)生錯誤堆積到一定程度后,則會對該用戶向短信中心提交短信進(jìn)行拒絕。短信中心固有的這種策略是針對手機(jī)號碼的,不受復(fù)制卡數(shù)量和其附著原理的限制,多張復(fù)制卡在短信中心看來仍然是同一個號碼,那么可以很好的利用這個策略來抑制復(fù)制卡發(fā)送垃圾短信。
實(shí)際上,復(fù)制卡發(fā)送垃圾短信時,進(jìn)一步將短信的有效期設(shè)置為非常短的時間。如果該短信沒有發(fā)送成功,則此條短信失效,釋放了發(fā)送占用的短消息緩存,從而逃避了發(fā)送緩存的限制。那么需要研究通過對短信的有效期進(jìn)行強(qiáng)制,使得短信緩存的作用得以發(fā)揮,就可以抑制復(fù)制卡發(fā)送垃圾短信。
個人客戶日發(fā)送垃圾短信條數(shù)比例基本符合指數(shù)分布。其指數(shù)分布的公式:
這里K為客戶發(fā)送短信的條數(shù),P是客戶發(fā)送K條短信的概率,E為某一常量。
經(jīng)過對陜西移動短信中心和BOSS系統(tǒng)2011年某日的數(shù)據(jù)進(jìn)行實(shí)際的計(jì)算,得到了陜西省一個非節(jié)假日短信發(fā)送的類指數(shù)函數(shù)分布圖,如圖2所示。
圖2 實(shí)際短信發(fā)送條數(shù)分布圖
從圖2中分析到,降低每日的攔截閾值就會使得攔截到的嫌疑黑名單隨著指數(shù)分布的橫軸從右向左積分增大。
在閾值為T的情況下,其嫌疑黑名單在所有用戶的占比S將為:
對部分現(xiàn)網(wǎng)數(shù)據(jù)分析,98.93%的客戶日發(fā)送量在35條以下,1.07%的客戶每日發(fā)送量超過34條。假設(shè)將攔截閾值降低到35,那么在陜西客戶數(shù)量為2200萬的條件下,每天至少會有23.54萬(2200萬×1.07%)的客戶號碼被垃圾短信系統(tǒng)中檢測出而成為嫌疑黑名單呈現(xiàn)在客戶服務(wù)中心前臺。繼續(xù)對閾值降低到25,每天至少會有23.54萬(2200萬×1.07%)的客戶號碼被垃圾短信系統(tǒng)中檢測出而成為嫌疑黑名單需要進(jìn)行處理。繼續(xù)對閾值降低到25,每天至少會有48.4萬(2200萬×2.20%)的客戶號碼被垃圾短信系統(tǒng)中檢測出而成為嫌疑黑名單要進(jìn)行處理。那么嫌疑黑名單數(shù)量將非常龐大,帶來巨大的處理壓力。
垃圾短信低頻發(fā)送就是利用目前攔截閾值設(shè)置受限,隱藏于大量正常短信之間。
因?yàn)殛P(guān)鍵字的多種異型字、同音字、拼音、繁體字、變體字、以及垃圾短信豎形排版等因素導(dǎo)致其關(guān)鍵字變化理論上超過1×1035,不可能通過擴(kuò)展關(guān)鍵字來徹底解決關(guān)鍵字變化問題,未來垃圾短信的關(guān)鍵字?jǐn)r截作用將逐漸弱化。需要找尋另一種策略來應(yīng)對關(guān)鍵字各類變化問題。
我們分析其短信有效期判定的流程如圖3所示。
在這個流程中,通過7個決策點(diǎn)來判斷了短信有效期,復(fù)制卡發(fā)送垃圾短信手機(jī)端設(shè)定有效期在第4個決策點(diǎn)生效,為了干擾這個有效期設(shè)定,必須在第1~3的判斷過程予以設(shè)定。1和2的判斷是無法人工控制的,只有第3個決策點(diǎn)業(yè)務(wù)調(diào)度決策表指定有效期是運(yùn)營商可以進(jìn)行設(shè)置有效期的。要對短信有效期進(jìn)行設(shè)置并對有效期攔截效果予以強(qiáng)化,需要在短信中心設(shè)置3項(xiàng)措施。
(1)在業(yè)務(wù)調(diào)度決策表中強(qiáng)制短信有效期,使發(fā)送垃圾短信設(shè)備設(shè)置的短有效期失效,此時同一號碼的所有復(fù)制卡發(fā)送能力僅相當(dāng)于一張普通SIM卡;
(2)更進(jìn)一步限制復(fù)制卡號碼段短信發(fā)送緩存;
(3)對群發(fā)特征對應(yīng)的錯誤碼未知用戶、呼叫被禁止加長下發(fā)周期,使發(fā)送緩存限制作用放大。
采用以上方法后,復(fù)制卡迅速絕跡。
針對低頻發(fā)送,異體字、異型字、同音字、拼音、繁體字、變體字、以及垃圾短信豎形排版以及未來所有可能的垃圾短信發(fā)送策略,需要找出垃圾短信發(fā)送行為和普通客戶號碼發(fā)送行為的一個不同點(diǎn)。這個不同點(diǎn)可以將垃圾短信號碼和正??蛻籼柎a區(qū)分開來。
圖4表明了垃圾短信號碼的社會關(guān)系。垃圾短信號碼的社會關(guān)系簡單,趨向于一個星形網(wǎng)絡(luò)。
圖3 短信有效期決定流程
圖4 星形網(wǎng)絡(luò)
在一般的人聯(lián)系過程中,一個號碼相關(guān)聯(lián)系人之間應(yīng)該也有聯(lián)系,這種屬性稱為網(wǎng)絡(luò)的聚合類特性。一般的,假設(shè)網(wǎng)絡(luò)中的一個節(jié)點(diǎn)i有Ki個邊與其它的Ki個點(diǎn)相連接,Ki個點(diǎn)就稱為節(jié)點(diǎn)i的鄰居,顯然,在這Ki個節(jié)點(diǎn)間,最多可能有Ki(Ki-1)/2條邊,而這Ki個節(jié)點(diǎn)之間,實(shí)際存在的邊數(shù)Ei和總的可能的邊數(shù)Ki(Ki-1)/2之比就定義為節(jié)點(diǎn)i的聚類系數(shù)Ci,即
垃圾短信號碼的社會關(guān)系Ci接近于零,而普通號碼的Ci小于1但一般是大于0.2的常數(shù)。根據(jù)短信實(shí)際的發(fā)送特征,總結(jié)如下:它是社會關(guān)系學(xué)中的施與者,廣泛聯(lián)系者,失敗聯(lián)系過多者。通過和復(fù)雜網(wǎng)絡(luò)的聚類系數(shù)結(jié)合進(jìn)行數(shù)學(xué)描述后,可以如下描述垃圾短信號碼的特征。
(1)垃圾短信號碼網(wǎng)絡(luò)的聚類系數(shù)小于0.1;
(2)垃圾短信號碼相關(guān)度均是出度(無收短信記錄);
(3)垃圾短信號碼在話音網(wǎng)絡(luò)中是孤立點(diǎn)(無話音記錄);
(4)垃圾短信號碼240h內(nèi)其相鄰的點(diǎn)大于500;
(5)垃圾短信號碼在網(wǎng)絡(luò)上試圖建立的點(diǎn)失敗率在10%以上。
垃圾短信號碼基本上符合以上的5個條件,而正常短信用戶使用習(xí)慣基本不滿足這些條件。用規(guī)則靈活組合的方式在垃圾短信系統(tǒng)中實(shí)現(xiàn)便可以將這些垃圾短信號碼和點(diǎn)對點(diǎn)垃圾短信區(qū)分開來。這個策略經(jīng)過修正和擴(kuò)展有望成為未來垃圾短信攔截的終極策略,未來也可以應(yīng)用于垃圾彩信的攔截中。
圍繞如何更加準(zhǔn)確快速的解決復(fù)制卡發(fā)送垃圾短信和關(guān)鍵字、發(fā)送閾值千變?nèi)f化的問題,垃圾短信系統(tǒng)維護(hù)人員從細(xì)節(jié)中查找問題,分析原因,進(jìn)行應(yīng)對,并創(chuàng)造性的提出徹底清除垃圾短信號碼的方法。