国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于信令大數(shù)據(jù)及機(jī)器學(xué)習(xí)挖掘貓池養(yǎng)卡的研究

2019-11-13 08:40:13杜宇
科技創(chuàng)新導(dǎo)報(bào) 2019年17期
關(guān)鍵詞:機(jī)器學(xué)習(xí)大數(shù)據(jù)

杜宇

摘 ? 要:本文基于信令大數(shù)據(jù)分析和建模思路,完成高頻高量呼叫的識(shí)別模型的研究,以危害網(wǎng)絡(luò)安全行為分析為主,整合網(wǎng)絡(luò)信令數(shù)據(jù)源,利用用戶行為數(shù)據(jù)進(jìn)行建模,定位非法養(yǎng)卡用戶,實(shí)施精確打擊,達(dá)到利用現(xiàn)網(wǎng)數(shù)據(jù)合理識(shí)別與攔截的目標(biāo)。綜合建模分析,獲取疑似貓池卡號(hào)及使用位置,通過(guò)BOSS系統(tǒng)用戶付費(fèi)行為、業(yè)務(wù)使用情況、營(yíng)銷(xiāo)活動(dòng)等用戶簽約信息。

關(guān)鍵詞:大數(shù)據(jù) ?機(jī)器學(xué)習(xí) ?貓池養(yǎng)卡

中圖分類(lèi)號(hào):F713.51 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A ? ? ? ? ? ? ? ? ? ? ? ?文章編號(hào):1674-098X(2019)06(b)-0133-02

挖掘“貓池養(yǎng)卡”行為研究通過(guò)全網(wǎng)信令數(shù)據(jù)、以及第三方平臺(tái)(打碼平臺(tái)、薅羊毛平臺(tái)等)等多渠道的數(shù)據(jù),綜合建模分析,獲取疑似貓池卡號(hào)及使用位置,通過(guò)BOSS系統(tǒng)用戶付費(fèi)行為、業(yè)務(wù)使用情況、營(yíng)銷(xiāo)活動(dòng)等用戶簽約信息,進(jìn)一步精確確認(rèn)疑似號(hào)碼,同時(shí)獲取終端及位置,最后對(duì)疑似貓池卡號(hào)進(jìn)行人工確認(rèn)后進(jìn)行攔截。

貓池卡號(hào)識(shí)別與監(jiān)控系統(tǒng)主要分為五大方面的能力,主要包括貓池養(yǎng)卡號(hào)碼識(shí)別、貓池養(yǎng)卡終端識(shí)別、設(shè)備準(zhǔn)確定位、機(jī)器學(xué)習(xí)優(yōu)化挖掘模型和系統(tǒng)管控能力。

總體系統(tǒng)設(shè)計(jì)分為5個(gè)部分,包括數(shù)據(jù)采集、數(shù)據(jù)計(jì)算、數(shù)據(jù)挖掘及存儲(chǔ)、用戶攔截及效果展示。

1 ?工作流程

1.1 底層數(shù)據(jù)接口

由運(yùn)營(yíng)系統(tǒng)數(shù)據(jù)、信令數(shù)據(jù)以及爬蟲(chóng)獲取的第三方數(shù)據(jù)接口組成,這些數(shù)據(jù)作為底層數(shù)據(jù)供大數(shù)據(jù)存儲(chǔ)與分析平臺(tái)使用。

1.2 大數(shù)據(jù)存儲(chǔ)與分析平臺(tái)

大數(shù)據(jù)存儲(chǔ)平臺(tái)由Hive數(shù)據(jù)倉(cāng)庫(kù)、Redis數(shù)據(jù)庫(kù)、MySql數(shù)據(jù)庫(kù)組成,Hive文件主要存儲(chǔ)采集預(yù)處理后的源數(shù)據(jù),數(shù)據(jù)量比較大,Redis數(shù)據(jù)庫(kù)主要存儲(chǔ)數(shù)據(jù)分析中的相關(guān)維表,MySql作為向外部提供分析結(jié)果的數(shù)據(jù)庫(kù),展現(xiàn)和接口提供的分析結(jié)果存在MySql中。

大數(shù)據(jù)分析平臺(tái)從底層數(shù)據(jù)接口中提取相關(guān)數(shù)據(jù)文件,然后解析文件里的每條數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的清洗,過(guò)濾掉無(wú)效的垃圾數(shù)據(jù),并將數(shù)據(jù)存入相應(yīng)的hive數(shù)據(jù)庫(kù)中[1]。

1.3 模型層

由MapReduce以及hive定時(shí)任務(wù)組成,將分析平臺(tái)存入hive數(shù)據(jù)庫(kù)中數(shù)據(jù)做進(jìn)一步分析,通過(guò)基于規(guī)則模型識(shí)別疑似貓池號(hào)碼。

1.4 結(jié)果輸出

根據(jù)結(jié)果形式以及客戶的需求,將分析結(jié)果以文件、報(bào)表、接口或者其他形式提供展現(xiàn)。

2 ?目標(biāo)用戶特征挖掘

2.1 特征提取

特征提取涵蓋兩大類(lèi)數(shù)據(jù)源:信令和BOSS數(shù)據(jù)。信令數(shù)據(jù)又進(jìn)一步細(xì)分為通話行為數(shù)據(jù)、短信行為數(shù)據(jù)、開(kāi)關(guān)機(jī)行為數(shù)據(jù)。BOSS數(shù)據(jù)又進(jìn)一步細(xì)分為消費(fèi)信息、業(yè)務(wù)量信息、套餐信息、終端信息、開(kāi)戶信息。

進(jìn)一步整理細(xì)分,提取信令和通信行為兩大類(lèi)8大維度共50多個(gè)特征,如圖1所示。

2.2 特征分析

根據(jù)統(tǒng)計(jì),使用貓池養(yǎng)卡的人群中約有15%~20%左右用來(lái)“薅羊毛”(即通過(guò)驗(yàn)證碼套利、搶傭金等享受優(yōu)惠),而約70%是用這些手機(jī)號(hào)生成的賬號(hào)來(lái)欺詐。

對(duì)上節(jié)提取的特征進(jìn)行分析,正常號(hào)碼與貓池號(hào)碼在某些特征上具有顯著區(qū)別,提取全部特征點(diǎn)。

3 ?貓池養(yǎng)卡識(shí)別模型

根據(jù)典型的使用場(chǎng)景將貓池判定模型細(xì)分為3類(lèi),提取關(guān)鍵特征建模使用。

場(chǎng)景一:貓池養(yǎng)卡號(hào)碼用于詐騙/騷擾電話(呼死你、響一聲、高頻間隙呼叫)。

特征:在通話量、通話時(shí)長(zhǎng)、通話頻率、釋放時(shí)長(zhǎng)、使用流量和用戶消費(fèi)等與真實(shí)用戶存在差異。

場(chǎng)景二:貓池養(yǎng)卡號(hào)碼用于詐騙/騷擾短信。

特征:在短信發(fā)收量、短信發(fā)收頻率、短信發(fā)收用戶數(shù)、使用流量等與真實(shí)用戶存在差異,增加開(kāi)機(jī)時(shí)長(zhǎng)和天數(shù)等參數(shù),從信令角度對(duì)話單中無(wú)法顯示或無(wú)法有效分析的維度進(jìn)行補(bǔ)充。

場(chǎng)景三:貓池養(yǎng)卡號(hào)碼用于“薅羊毛”。

特征:該類(lèi)號(hào)碼主要用來(lái)接收平臺(tái)端的短信,因此其接收的短信主要以106開(kāi)頭,其占比超過(guò)90%,并且其發(fā)送短信量較少。可以具體分析短信中的社交信息,結(jié)合用戶消費(fèi)信息和其他相關(guān)特征進(jìn)行分析。

3.1 模型優(yōu)化

噪音特征的刪減是一個(gè)優(yōu)化模型的手段。上訴過(guò)程中,可能引入對(duì)于分類(lèi)問(wèn)題無(wú)幫助的特征,無(wú)形中浪費(fèi)了計(jì)算力,更糟糕的情況是,有的噪音特征不僅只是對(duì)分類(lèi)問(wèn)題無(wú)幫助,而是直接拉低了模型的識(shí)別能力。識(shí)別噪音特征的方法之一是基于豐富的業(yè)務(wù)知識(shí)做特征選擇和試驗(yàn),此外另一種方法則是對(duì)數(shù)據(jù)的特征做統(tǒng)計(jì)分析,這在缺少對(duì)業(yè)務(wù)的把握能力時(shí)具有很高的現(xiàn)實(shí)意義[2]。

此外結(jié)合具體的情況調(diào)節(jié)算法本身的相關(guān)參數(shù)也可起到一定的優(yōu)化效果,例如在本案例中,調(diào)整近鄰參考個(gè)數(shù),從而改進(jìn)模型的識(shí)別效果。

隨著模型的深入使用,樣本數(shù)據(jù)可能會(huì)收集的越來(lái)越多,養(yǎng)卡樣本數(shù)據(jù)量的增加,也會(huì)反向促使模型的識(shí)別性能更加優(yōu)良。

3.2 貓池卡號(hào)攔截

針對(duì)每天識(shí)別的疑似貓池養(yǎng)卡號(hào)碼送至騷擾電話監(jiān)控系統(tǒng)進(jìn)行二次人為確認(rèn)和攔截,確保貓池號(hào)碼得到及時(shí)處理,攔截后的結(jié)果返回貓池卡號(hào)識(shí)別與監(jiān)控系統(tǒng),再次以周為周期自動(dòng)通過(guò)決策樹(shù)和支持向量機(jī)算法模型智能優(yōu)化調(diào)整,獲取最佳識(shí)別模型。打擊貓池養(yǎng)卡行為,打擊囤卡和套利網(wǎng)點(diǎn),減少非法投票、廣告?zhèn)鞑?、非法詐騙等造成的垃圾短信、騷擾電話困擾正常用戶。配合公安部門(mén)打擊非法營(yíng)銷(xiāo)、詐騙現(xiàn)象。

4 ?結(jié)語(yǔ)

針對(duì)養(yǎng)卡行為難以通過(guò)具體業(yè)務(wù)指標(biāo)參數(shù)進(jìn)行識(shí)別的特點(diǎn),采用了基于機(jī)器學(xué)習(xí)的建模方式,通過(guò)行為模式內(nèi)建,規(guī)避了養(yǎng)卡行為難以把握的問(wèn)題。養(yǎng)卡行為識(shí)別之所以一直是一個(gè)難點(diǎn),其主要原因就在于養(yǎng)卡行為的行為模式本身變化多端,難以把握。不同階段,養(yǎng)卡訴求的不同,養(yǎng)卡行為的模式往往隨之變遷,傳統(tǒng)的建模方法在這種情況下,則可能需要完全從頭開(kāi)始建立一個(gè)新的模型,因?yàn)槔夏P鸵呀?jīng)無(wú)法體現(xiàn)當(dāng)前的養(yǎng)卡行為模式。本成果通過(guò)采用機(jī)器學(xué)習(xí)理論建模,讓養(yǎng)卡行為模式自動(dòng)內(nèi)建于模型之中,而不是人為設(shè)置具體的業(yè)務(wù)指標(biāo)閥值進(jìn)行控制,規(guī)避了養(yǎng)卡行為不好把握的特點(diǎn)。

參考文獻(xiàn)

[1] 趙慶.基于Hadoop平臺(tái)下的Canopy-Kmeans高效算法[J].電子科技,2014,27(2):29-31.

[2] 溫瑞軍.移動(dòng)代理商渠道養(yǎng)卡套利行為識(shí)別與治理[J].電子技術(shù)與軟件工程,2015(3):54-55.

[3] 萬(wàn)旭.基于Hadoop平臺(tái)的聚類(lèi)算法研究[D].西安電子科技大學(xué),2016.

猜你喜歡
機(jī)器學(xué)習(xí)大數(shù)據(jù)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
前綴字母為特征在維吾爾語(yǔ)文本情感分類(lèi)中的研究
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
平武县| 盐城市| 禹州市| 永丰县| 健康| 万安县| 娱乐| 土默特右旗| 华池县| 罗平县| 恩平市| 额敏县| 柳河县| 新安县| 三原县| 策勒县| 天台县| 海南省| 广河县| 从江县| 井研县| 安仁县| 长宁县| 象州县| 台州市| 北辰区| 华池县| 当涂县| 财经| 宁都县| 阿坝| 垦利县| 都兰县| 平阴县| 湖南省| 玉田县| 湖北省| 喜德县| 古浪县| 禄丰县| 安宁市|