国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

垃圾短信大數(shù)據(jù)自動識別技術(shù)

2018-04-12 03:20:39林華生錢嶺周瑩楊希李婧
大數(shù)據(jù) 2018年2期
關(guān)鍵詞:漢明自動識別短信

林華生,錢嶺,周瑩,楊希,李婧

1. 中國移動通信集團公司信息安全管理與運行中心,北京 1000312. 中移(蘇州)軟件技術(shù)有限公司,江蘇 蘇州 215163

1 引言

手機用戶的不斷增加,特別是智能手機使用量的增長,使得人們獲得信息的效率大大提高。但是手機滲透率的快速增長卻伴隨著垃圾短信的快速擴散,不僅對人們的日常工作和生活產(chǎn)生影響,而且存在著極大的安全隱患(利用短信進行詐騙、勒索等犯罪活動)。治理垃圾短信不僅需要工業(yè)和信息化部的監(jiān)督和手機安全廠商的屏蔽,更需要運營商主動出擊,利用先進的技術(shù)從源頭上拒絕垃圾短信的發(fā)送。

2 面臨的挑戰(zhàn)

2.1 垃圾短信發(fā)送成本低,社會影響大

中獎詐騙類、政治違法類、涉黃涉黑類、病毒誘導(dǎo)類、商業(yè)廣告類等違規(guī)短信層出不窮,垃圾短信數(shù)量居高不下,中國移動通信集團有限公司(以下簡稱中國移動)年均處理疑似垃圾短信高達(dá)3億余條。

垃圾短信不僅給手機用戶造成了不可避免的騷擾,更對社會造成了不良的影響,主要體現(xiàn)在以下幾個方面。

● 利用短信進行勒索、詐騙的違法犯罪活動日漸猖獗(如以中獎、敲詐等方式出現(xiàn))。

● 少數(shù)不法分子利用短信傳播黃色信息,毒化社會風(fēng)氣。

● 短信營銷泛濫,某些商家企圖通過短信傳銷商品,給用戶帶來一定的騷擾。

● 不法分子通過短信中嵌入的惡意鏈接,誘導(dǎo)用戶點擊,遠(yuǎn)程操控用戶手機,竊取用戶隱私。

2.2 現(xiàn)有治理平臺識別效率不足

2012年以來,中國移動持續(xù)開展不良信息集中治理工作,依托不良信息集中管控平臺,對監(jiān)測發(fā)現(xiàn)的不良信息進行處理。但是監(jiān)測策略準(zhǔn)確率存在瓶頸,導(dǎo)致整個系統(tǒng)的有效識別率仍然存在不足。另外,傳統(tǒng)的分類模式不能及時、準(zhǔn)確地對垃圾短信進行分類,影響后續(xù)關(guān)鍵詞的生產(chǎn)以及策略的精細(xì)化管理工作。隨著垃圾短信的日益增長,管控平臺存在較長的處理時延。

要解決上述問題,就必須考慮在現(xiàn)有平臺中接入新的自動識別系統(tǒng),對管控平臺監(jiān)測發(fā)現(xiàn)的疑似垃圾短信進行自動識別,提高垃圾短信治理效率。同時不斷訓(xùn)練擴充新的關(guān)鍵詞庫,提高識別的有效性。

3 存在的問題及解決思路

隨著大數(shù)據(jù)技術(shù)和人工智能技術(shù)的日趨成熟,短文本識別技術(shù)在機器翻譯、網(wǎng)頁查重等方面均有廣泛的應(yīng)用。一些互聯(lián)網(wǎng)安全公司也開發(fā)了“手機安全衛(wèi)士”等產(chǎn)品,應(yīng)用貝葉斯學(xué)習(xí)(Bayesian learning)、支持向量機(support vector machine,SVM))[1,2]等機器學(xué)習(xí)算法識別垃圾短信,并在用戶終端側(cè)進行攔截和提醒。此外,Google公司提出的指紋算法①[3]將長文本轉(zhuǎn)化為64位的散列碼進行計算、比對。但由于短信的特殊性,仍存在以下問題。

● 表示稀疏問題:單條短信內(nèi)容短小,傳統(tǒng)的詞袋(bag of words,BOW)模型[4]無法獲取足夠的特征信息用來區(qū)分垃圾短信和非垃圾短信。

● 數(shù)據(jù)噪音問題:存在大量的非正規(guī)語言的使用現(xiàn)象,傳統(tǒng)的基于詞匯的文檔表示模型無法處理該問題。

● 動態(tài)演化問題:短信內(nèi)容和語言使用隨時間高速演化,固定的特征集合和分類模型無法應(yīng)對該問題。

針對算法識別的問題,中國移動創(chuàng)新提出“指紋+語義”交叉融合算法模型。Simhash算法是一種經(jīng)典的模糊匹配算法,通過匹配指紋編碼實現(xiàn)分類,適合識別常見的群發(fā)類垃圾短信,精準(zhǔn)性強;語義識別算法通過學(xué)習(xí)語料特征,能夠“舉一反三”,適合發(fā)現(xiàn)、識別新的樣本,擴展性強。兩種大數(shù)據(jù)識別技術(shù)互補,交叉融合可實現(xiàn)自動識別率的提升,具體如下。

(1)準(zhǔn)確率的提升

引入大數(shù)據(jù)技術(shù)后,需實時對違規(guī)號碼進行關(guān)停,這對大數(shù)據(jù)識別算法來說,準(zhǔn)確率要求極高。通過對指紋庫進行多庫分解、引入動態(tài)數(shù)據(jù)庫等機制,識別準(zhǔn)確率高達(dá)99.8%,實現(xiàn)技術(shù)應(yīng)用。

(2)大數(shù)據(jù)的實時處理

由于大數(shù)據(jù)識別算法需要存儲大量的歷史知識,為實現(xiàn)對疑似垃圾短信的實時處理,系統(tǒng)采用分布式多機多核系統(tǒng)架構(gòu),通過Kafka技術(shù),有效打破了固有指紋算法的性能瓶頸。

4 系統(tǒng)解決方案

4.1 整體架構(gòu)

基于Simhash算法,結(jié)合應(yīng)用場景和線上持續(xù)運營要求,完善系統(tǒng)功能設(shè)計,滿足以指紋識別算法為核心算法的線上識別功能和運營功能。系統(tǒng)整體架構(gòu)如圖1所示。

圖1 系統(tǒng)整體架構(gòu)

該系統(tǒng)具有以下幾個特點。

● 應(yīng)用創(chuàng)新指紋算法對待識別短信進行處理;核心算法可擴展,支持引入新算法交叉融合識別。

● 在基礎(chǔ)運營功能的基礎(chǔ)上,打造稽核質(zhì)檢、投訴回溯核查等針對指紋算法特點研發(fā)出的持續(xù)運營功能。

● 采用金庫管理模式,對數(shù)據(jù)安全進行雙重保障。

● 采用分布式多機多核系統(tǒng)架構(gòu),通過Kafka實現(xiàn)內(nèi)部服務(wù)之間的通信,有效保障了現(xiàn)網(wǎng)的實時運行需求。

系統(tǒng)架構(gòu)主要采用分布式多機多核的方案,通過將系統(tǒng)模塊服務(wù)化,完成系統(tǒng)模塊間的解耦,進一步提高了系統(tǒng)算法的擴展能力。分布式多機多核具有速率高、性能穩(wěn)定的優(yōu)點。

4.2 工作流程

在垃圾短信集中管控平臺中,引入垃圾短信大數(shù)據(jù)自動化識別系統(tǒng),用以提升垃圾短信識別率。具體的垃圾短信大數(shù)據(jù)識別應(yīng)用方案如圖2所示。

圖2 垃圾短信大數(shù)據(jù)識別應(yīng)用方案

大數(shù)據(jù)自動化識別系統(tǒng)工作流程如下。

● 建立垃圾短信大數(shù)據(jù)自動識別系統(tǒng),利用前期積累的海量短信樣本對數(shù)據(jù)庫進行初始化。

● 將系統(tǒng)與現(xiàn)有垃圾短信治理模塊對接,接收監(jiān)測模塊發(fā)來的全量疑似垃圾短信,并進行自動識別。

● 得到識別結(jié)果的垃圾短信,直接送至處置模塊實時處置;未識別的短信按照原有流程進行處理。

4.3 關(guān)鍵技術(shù)

結(jié)合技術(shù)應(yīng)用場景和短信文本短的特點,考慮到中國移動線上治理的極高準(zhǔn)確性要求,團隊研發(fā)出具有自主知識產(chǎn)權(quán)的指紋識別算法。

短信文本通過文本預(yù)處理完成噪聲的處理。文本預(yù)處理主要包括簡繁轉(zhuǎn)換、大小寫歸一化、半角全角歸一化以及拼音轉(zhuǎn)文本等;利用自研的分詞算法對文本進行切分,然后使用CityHash算法實現(xiàn)分詞文本到指紋的轉(zhuǎn)換,最后再利用FNV-1算法對散列指紋進行再散列,以減少指紋沖突。基于生成的指紋,創(chuàng)新提出針對指紋的動態(tài)數(shù)據(jù)庫、基于多指紋庫識別、漢明距離動態(tài)調(diào)優(yōu)等技術(shù)。

(1)動態(tài)數(shù)據(jù)庫機制

如圖3所示,在入庫方面,為指紋算法設(shè)計二次入庫技術(shù),降低訓(xùn)練數(shù)據(jù)中誤判造成的影響;在出庫方面,動態(tài)剔除入庫早、不常使用的指紋,解決指紋庫膨脹的問題,保障指紋庫的容量可持續(xù)高效運營,并進一步提升算法識別準(zhǔn)確率。

圖3 指紋庫動態(tài)維護機制

(2)多數(shù)據(jù)庫指紋存儲機制

系統(tǒng)搭建多指紋庫,根據(jù)處置方式不同,分為正常短信指紋庫、違法詐騙短信指紋庫、商業(yè)廣告指紋庫,并對后兩者采用更為嚴(yán)格的校驗入庫機制和優(yōu)先級更高的識別反饋機制。同時,根據(jù)考察各指紋庫相互沖突的指紋,實現(xiàn)對數(shù)據(jù)庫的進一步去噪,降低算法誤識別比例。

(3)漢明距離動態(tài)調(diào)優(yōu)

作為算法的核心參數(shù),漢明距離表征不同文本之間的相似程度,即漢明距離越大,文本相似程度越低;反之,該距離越小,文本內(nèi)容則越接近。算法前期通過調(diào)優(yōu)測試明確初始漢明距離,在后續(xù)持續(xù)運營時,根據(jù)實時的自動識別率和識別準(zhǔn)確率,動態(tài)實現(xiàn)漢明距離的調(diào)優(yōu)。

5 應(yīng)用效果

垃圾短信大數(shù)據(jù)自動識別系統(tǒng)于2017年1月在中國移動全網(wǎng)上線,覆蓋31省。截至目前,累計接收垃圾短信系統(tǒng)全量疑似垃圾短信1.1億余條,自動識別處理4300萬條,自動識別率達(dá)40.1%,識別準(zhǔn)確率達(dá)99.8%。系統(tǒng)處理速率達(dá)14000條/s,垃圾短信自動判定平均處理時長僅為0.07 ms。上線以來,系統(tǒng)運行情況良好。

由于垃圾短信自動判定平均處理時長僅為0.07 ms,違規(guī)號碼的關(guān)停及時性大大提高,月均可減少不法分子發(fā)送的垃圾短信約8500萬條,有效地保障了廣大用戶的通信權(quán)益。

上線以來,垃圾短信治理效率大幅提升,通過系統(tǒng)的應(yīng)用,垃圾短信治理團隊有效降低133人,每年可節(jié)約人力成本1452萬元。

參考文獻:

[1]王斌, 潘文鋒. 基于內(nèi)容的垃圾郵件過濾技術(shù)綜述[J]. 中文信息學(xué)報, 2005, 19(5): 1-10.WANG B, PAN W F. A survey of contentbased anti-spam Email filtering[J]. Journal of Chinese Information Processing, 2005,19(5): 1-10.

[2]ANDROUTSOPOULOS I, KOUTSIAS J,CHANDRINOS K V, et al. An evaluation of naive Bayesian anti-spam filtering[J].Tetsu-to-Hagane, 2000(2): 9-17.

[3]HO P T, KIM H S, KIM S R. Application of sim-hash algorithm and big data analysis in spam email detection system[C]//The 2014 Conference on Research in Adaptive and Convergent Systems, October 5-8,2014, Towson, USA. New York: ACM Press, 2014: 242-246.

[4]SRIRAM B, FUHRY D, DEMIR E, et al. Short text classification in twitter to improve information filtering[C]// The 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval, July 19-23, 2010,Geneva, Switzerland. New York: ACM Press,2010: 841-842.

猜你喜歡
漢明自動識別短信
道歉短信
自動識別系統(tǒng)
特別健康(2018年3期)2018-07-04 00:40:18
代發(fā)短信
金屬垃圾自動識別回收箱
媳婦管錢
基于IEC61850的配網(wǎng)終端自動識別技術(shù)
電測與儀表(2016年6期)2016-04-11 12:06:38
中年研究
漢明距離矩陣的研究
蘭姆凹陷穩(wěn)頻工作點自動識別技術(shù)
“八一”節(jié)日短信之一
扎囊县| 八宿县| 方山县| 微博| 禄丰县| 西华县| 阿拉善左旗| 安达市| 攀枝花市| 炉霍县| 正蓝旗| 大邑县| 抚远县| 信宜市| 张家口市| 益阳市| 苍溪县| 贵南县| 玛纳斯县| 扬中市| 浮梁县| 巨野县| 当阳市| 桓台县| 阳信县| 阳高县| 仁怀市| 崇阳县| 缙云县| 勃利县| 花莲县| 庄河市| 丹凤县| 天等县| 西青区| 福清市| 龙川县| 湟源县| 延边| 久治县| 湘潭县|