董婷梅
【摘 要】開展人工智能數(shù)據(jù)分析技術研究,研究掌握運用人工智能數(shù)據(jù)分析技術實現(xiàn)智能過濾短信;集成采用智能分析算法、文本挖掘、中文分詞、文本搜索算法及神經(jīng)網(wǎng)絡智能分析等技術手段,自動實現(xiàn)對垃圾信息的準確分類過濾;建立一套科學合理和可操作性強的垃圾短信治理重要技術方案。
【關鍵詞】垃圾短信;人工智能;自動過濾
【中圖分類號】TN929.53 【文獻標識碼】A 【文章編號】1674-0688(2018)09-0040-02
1 概述
1.1 業(yè)務背景
隨著無線通信服務功能的不斷增強和完善,短信業(yè)務在為用戶提供便捷消息服務的同時,也為垃圾信息的傳播提供了一條方便的渠道。隨著我國移動通信網(wǎng)絡建設的不斷完善及越來越多的可提供給用戶短信服務的平臺的出現(xiàn),垃圾短信有愈演愈烈的趨勢。
1.2 垃圾短信的現(xiàn)狀
每次重大商家節(jié)日(如“6·18”“雙11”),促銷短信空前地多。商家發(fā)來的大量促銷短信表明,垃圾短信并沒有遠離,也沒有得到成功治理。國家和運營商已大力治理垃圾短信多年,現(xiàn)如今短信都很少人用了,為什么垃圾短信還在發(fā)?這是因為這類促銷短信帶有很強的隱蔽性,很多短信是以電商賣家的名義發(fā)送的。網(wǎng)購必須留下正確的電話號碼,所以當收到這類促銷短信時,以為商家只是換了一個平臺發(fā)出促銷信息而已,甚至不認為其是垃圾短信。但這當中存在潛在的風險,很多詐騙短信會借“雙11”之機偽裝成促銷短信,誘使消費者上當受騙。有些促銷短信鏈接中可能藏有木馬病毒,如果用戶輕信商家發(fā)送的促銷短信而去點擊鏈接,很有可能被詐騙分子竊取網(wǎng)銀賬戶等信息。
1.3 垃圾短信的治理要求
垃圾信息是指未經(jīng)用戶同意向用戶發(fā)送的用戶不愿意收到的短信息,或用戶不能根據(jù)自己的意愿拒絕接收的短信息,就可判定為垃圾短信。垃圾短信有兩個重要屬性:?譹?訛未經(jīng)用戶同意向用戶發(fā)送的商業(yè)類、廣告類等短信息;?譺?訛其他違反行業(yè)自律性規(guī)范的短信息。
2015年5月28日,工業(yè)和信息化部發(fā)布《通信短信息服務管理規(guī)定》新規(guī):短信息服務提供者、短信息內(nèi)容提供者未經(jīng)用戶同意或者請求,不得向其發(fā)送商業(yè)性短信息。違者可處1萬元以上3萬元以下罰款。
2 運營商級垃圾短信過濾平臺
2.1 總體目標
面對大數(shù)據(jù)環(huán)境下海量垃圾短信的過濾需求,電信運營商可從源頭治理垃圾段,對以高維性、稀疏性和具有人為擾動特性為主要特征的海量垃圾短信文本識別的關鍵技術和方法展開全面、深入的研究,通過構建人為擾動的用戶行為模型實現(xiàn)對高維、稀疏海量文本的高效分詞,采用國際領先的自然語言理解技術對短信文本數(shù)據(jù)進行深層次的語義分析,能根據(jù)數(shù)據(jù)的內(nèi)容自動進行文本數(shù)據(jù)特征提取、文本數(shù)據(jù)特征之間的關系提取及信息重要性的計算,構建短信文本的數(shù)據(jù)語義表達模型,利用針對低質(zhì)數(shù)據(jù)的快速降維算法實現(xiàn)高維短信文本的高效降維,然后結合現(xiàn)有的數(shù)據(jù)分類方法和深度學習方法,實現(xiàn)基于云平臺的短信文本快速自適應識別和攔截,針對海量數(shù)據(jù)分析導致過濾云的傳輸壓力加大、擴容成本增加,以及高負載導致傳輸時延大等問題。
2.2 主要內(nèi)容
垃圾短信識別和攔截的難處主要體現(xiàn)在兩個方面,一方面短信是典型的以海量性、高維性、稀疏性為主要特征的電子文本,特別是在大數(shù)據(jù)環(huán)境垃圾短信(包括廣告短信)識別的高效性和實時性對識別方法及其所依賴的計算平臺提出了新的挑戰(zhàn);另一方面垃圾短信的干擾性,由于廣告或詐騙性目的,很多垃圾短信都被人為地加入了一些干擾信息(人為擾動),從而進一步加大了識別的難度。相關研究內(nèi)容主要包括以下方面:?譹?訛面向具有人為擾動特性的短信文本的分詞系統(tǒng)。與普通文本不同,垃圾短信文本不但具有高維性、稀疏性和海量的特征,而且還包含了用戶人為加入的一些干擾信息,使得分詞問題變得更加復雜,已有的分詞系統(tǒng)顯得“力不從心”。可通過建立人為擾動的用戶行為模型,并依據(jù)小世界理論,建立面向垃圾短信的詞共現(xiàn)網(wǎng)絡模型,最后基于該網(wǎng)絡模型實現(xiàn)對短信文本的高效分詞。?譺?訛基于自然語言理解技術的語義文本特征提取方法及語義表達模型。利用自然語言理解技術對短信文本數(shù)據(jù)進行深層次的語義分析,提出短信文本數(shù)據(jù)特征提取、短信文本數(shù)據(jù)特征之間的關系提取方法及重要信息的度量方法和計算方法,并利用提取的語義特征構建短信文本的數(shù)據(jù)語義表達模型。?譻?訛基于云平臺的快速降維方法。由于短信文本數(shù)據(jù)特有的稀疏性可能會導致在降維過程中出現(xiàn)大量的數(shù)據(jù)碎片,嚴重影響降維效率。可依托云計算平臺的數(shù)據(jù)加速性能及龐大的云存儲能力,降低甚至消除數(shù)據(jù)碎片對降維效率的影響,從而對海量短信文本的物理符號模型和語義表達模型進行快速降維。?譼?訛基于改進的數(shù)據(jù)分類方法實現(xiàn)對海量短信文本的快速自適應識別?,F(xiàn)有的文本數(shù)據(jù)分類方法主要是基于單機運行的,這決定了它們難以適應在大數(shù)據(jù)環(huán)境對海量文本進行分類。從神經(jīng)網(wǎng)絡發(fā)展起來的深度學習目前在海量數(shù)據(jù)處理方面已有許多成功的應用。由于其深度層次網(wǎng)絡結點的增加,訓練所耗費的時間和空間開銷也會大大地增加。同樣,依托于構建的云計算平臺,完全可以“消費”這種時間和空間開銷。因此,基于已降維的海量短信文本的物理符號模型和語義表達模型,建立文本的語義索引,將深度學習和有關數(shù)據(jù)分類方法結合起來,構造高效的、面向海量數(shù)據(jù)文本的數(shù)據(jù)語義分類方法,實現(xiàn)對垃圾短信的快速自適應識別。?譽?訛流量緩存技術研究。針對短信過濾系統(tǒng)占用服務器資源,導致通信效率和響應速度慢等問題,通過結合智能緩存、云存儲和智能調(diào)度等先進技術,將人工擾動識別的中間結果通過負載均衡緩存到網(wǎng)內(nèi),減少服務器資源占用,提高通信效率和響應速度,保障系統(tǒng)能夠可持續(xù)穩(wěn)定運行和快速處理海量數(shù)據(jù)。
2.3 關鍵技術問題
?譹?訛人為擾動信息極具多樣性和主觀性,并且這種多樣性和主觀性具有時變演化特性。需構建人為擾動的用戶行為模型,該模型能夠自主地學習這些特性的演變趨勢和規(guī)律,從而為具有人為擾動信息的短信文本的分詞提供依據(jù)。?譺?訛短信本文包含的信息量十分有限,甚至有的還包含錯誤信息,因此從中提取有效的語義信息是本項目涉及的另一個關鍵技術。需利用自然語言理解技術對短信文本數(shù)據(jù)進行深層次的語義分析,設計短信文本數(shù)據(jù)特征提取方法。?譻?訛基于云計算平臺,實現(xiàn)對海量短信文本的快速自適應識別是本項目的核心技術。需將有關數(shù)據(jù)分類方法和深度學習結合起來,提出快速的自適應短信文本語義分類方法,實現(xiàn)對垃圾短信文本的快速識別和攔截。?譼?訛如何利用自主的加速技術解決云過濾平臺的傳輸插件通信效率問題,并實現(xiàn)良好的用戶體驗和交互性操作體驗。?譽?訛系統(tǒng)設計如何模塊化問題,設計上做到模塊清晰、接口開放,利于進行二次開發(fā)和系統(tǒng)擴展。
3 平臺功能
運營商級過濾平添的處理能力需達到1萬條/s以上,系統(tǒng)應主要包含如下業(yè)務功能:關鍵字自動過濾、自動檢測過濾、用戶行為監(jiān)測過濾、節(jié)假日模式過濾、建立可疑短消息庫、滿足相應的過濾規(guī)則、分級處理、黑名單過濾、白名單放行、紅名單放行、灰名單審核、查詢、過濾提示或告警、監(jiān)測結果日志存儲和統(tǒng)計分析、報表功能、權限管理、系統(tǒng)輸出和行業(yè)短信專項監(jiān)控等。系統(tǒng)功能結構如圖1所示。
各模塊功能簡介如下:?譹?訛SMPP信令接口/協(xié)議解釋,負責接收來自短信中心、互通網(wǎng)關、業(yè)務網(wǎng)關的短信,將短信數(shù)據(jù)入庫,并轉發(fā)到上層應用數(shù)據(jù)業(yè)務邏輯進行過濾處理;將過濾結果返還相關的短信中心。?譺?訛樣本庫過濾,根據(jù)配置的關鍵詞庫,對短信內(nèi)容進行智能分析。本模塊為核心功能,綜合應用了大量先進技術手段實現(xiàn)對文字信息的準確分類過濾,最大限度地提高過濾的判斷率,降低誤判率。?譻?訛行為分析執(zhí)行模塊執(zhí)行包括發(fā)送頻率、相似度、萬號段命中率等方面的處理,對用戶發(fā)送短信行為進行統(tǒng)計分析,根據(jù)既定的判斷規(guī)則過濾短信。?譼?訛調(diào)度核心,負責根據(jù)用戶配置的時間間隔,調(diào)用各個模塊功能模塊,協(xié)調(diào)系統(tǒng)CPU、時間片等資源。?譽?訛其他模塊,包括日志、配置、網(wǎng)管等,用于系統(tǒng)維護、監(jiān)控。
4 總結
電信運營商作為國家民生應用服務類企業(yè),應承擔起相應的社會責任,從源頭上治理垃圾短信。早在2008年,工信部就曾開展專項行動打擊垃圾短信短信行動,但時至今日,垃圾短信愈演愈烈。電信運營商不但要建設垃圾短信過濾系統(tǒng),還要不斷優(yōu)化系統(tǒng),以應對復雜多變的市場環(huán)境。
參 考 文 獻
[1]沈超,黃衛(wèi)東.數(shù)據(jù)挖掘在垃圾短信過濾中的應用[J].電子科技大學學報,2009(38):21-24.
[2]張明旺.基于內(nèi)容的垃圾短信分類技術研究[J].信息與電腦,2015(24):28-30.
[3]楊憶,李建國,葛方振.基于Scikit-Learn的垃圾短信過濾方法實證研究[J].淮北師范大學學報,2016(4):
39-41.
[4]葛廣為.貝葉斯分類在垃圾短信過濾中的應用[D].昆明:云南財經(jīng)大學,2015.
[責任編輯:鐘聲賢]