国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于半監(jiān)督學(xué)習(xí)的物聯(lián)網(wǎng)用戶識(shí)別模型分析與研究

2020-12-07 08:45:44孫靜馮鋒
物聯(lián)網(wǎng)技術(shù) 2020年11期
關(guān)鍵詞:隨機(jī)森林物聯(lián)網(wǎng)

孫靜 馮鋒

摘 要:隨著物聯(lián)網(wǎng)技術(shù)在多個(gè)領(lǐng)域的大規(guī)模應(yīng)用,終端用戶數(shù)量呈快速上升趨勢(shì)。在享受通信便利的同時(shí),也有個(gè)別用戶利用物聯(lián)網(wǎng)特性生成大量虛假用戶,不利于行業(yè)的健康發(fā)展。針對(duì)以上現(xiàn)象,文中采用半監(jiān)督學(xué)習(xí)的方法,通過(guò)研究相關(guān)樣本數(shù)據(jù)的特征,建立用戶識(shí)別模型,對(duì)異常用戶行為做出及時(shí)判斷,幫助相關(guān)部門、人員采取相應(yīng)的措施,避免產(chǎn)生較大的損失,節(jié)省了大量人力物力,具有廣泛的應(yīng)用前景。

關(guān)鍵詞:物聯(lián)網(wǎng);用戶識(shí)別;半監(jiān)督學(xué)習(xí);識(shí)別模型;樸素貝葉斯分類;隨機(jī)森林

中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2095-1302(2020)11-0-03

0 引 言

伴隨著LoRa、NB-IoT、5G等物聯(lián)網(wǎng)通信技術(shù)的發(fā)展,我國(guó)物聯(lián)網(wǎng)終端用戶猛增。在日益增加的用戶數(shù)量中,若出現(xiàn)大量惡意的虛假用戶,則會(huì)影響物聯(lián)網(wǎng)平臺(tái)正常的工作運(yùn)行。這些虛假用戶占用了大量資源,使物聯(lián)網(wǎng)平臺(tái)無(wú)法充分利用,既影響用戶的自身利益,也不利于物聯(lián)網(wǎng)行業(yè)的健康發(fā)展。

僅憑人力識(shí)別、用戶舉報(bào)等傳統(tǒng)方法監(jiān)督用戶行為,具有一定的局限性和缺陷,監(jiān)督及識(shí)別效果并不理想。本文對(duì)于物聯(lián)網(wǎng)用戶識(shí)別模型進(jìn)行研究,針對(duì)不同的識(shí)別方法及分類器進(jìn)行分析,幫助相關(guān)人員盡早發(fā)現(xiàn)用戶的異常行為,及時(shí)采取措施,避免造成更大損失。

1 物聯(lián)網(wǎng)平臺(tái)概述

物聯(lián)網(wǎng)的工作流程為傳感器收集數(shù)據(jù),通過(guò)網(wǎng)絡(luò)連接向云端發(fā)送數(shù)據(jù),進(jìn)行數(shù)據(jù)處理,篩選有用的數(shù)據(jù)后再向終端用戶傳遞有用信息[1-2]。物聯(lián)網(wǎng)平臺(tái)主要分為服務(wù)管理器和控制中心兩部分,物聯(lián)網(wǎng)平臺(tái)組成如圖1所示。

物聯(lián)網(wǎng)卡和5G技術(shù)在未來(lái)的物聯(lián)網(wǎng)行業(yè)擁有絕對(duì)的優(yōu)勢(shì)?,F(xiàn)階段物聯(lián)網(wǎng)卡具有資費(fèi)便宜、無(wú)實(shí)名制等特點(diǎn),依托物聯(lián)網(wǎng)應(yīng)用于智能服務(wù)領(lǐng)域,如智能家居、智能穿戴、智慧安防等[3]。在物聯(lián)網(wǎng)平臺(tái)上,用戶群體被分為不同的身份與類型,為不同的用戶提供不同的平臺(tái)數(shù)據(jù)視圖、權(quán)限等。

2 識(shí)別模型概述

用戶識(shí)別實(shí)質(zhì)上是根據(jù)用戶的特征數(shù)據(jù)對(duì)其進(jìn)行分類的過(guò)程,將異常數(shù)據(jù)與正常數(shù)據(jù)拆分開(kāi)來(lái)。用戶數(shù)據(jù)中既有少量的已確定虛假用戶的信息,也有占大部分的正常用戶?;谝陨咸卣?,本文建立了基于未標(biāo)記樣本以及正樣本的半監(jiān)督學(xué)習(xí)模型[4-5],用于識(shí)別物聯(lián)網(wǎng)用戶的類型。

解決這類問(wèn)題主要有兩種方法。第一種方法是直接在正樣本中進(jìn)行訓(xùn)練,訓(xùn)練出的分類器可以判別測(cè)試數(shù)據(jù)是否屬于訓(xùn)練樣本類別。但實(shí)際情況是,現(xiàn)實(shí)數(shù)據(jù)遠(yuǎn)比實(shí)驗(yàn)復(fù)雜,且模型只會(huì)輸出“是”或“不是”兩種結(jié)果,容易出現(xiàn)被認(rèn)定為“不是”的樣本并不屬于正樣本相對(duì)的另一類,出現(xiàn)誤判的情況。

第二種方法是將其分為兩步,將分類與預(yù)測(cè)分開(kāi)。第一步是根據(jù)已標(biāo)注的樣本,在大量未標(biāo)注樣本中通過(guò)訓(xùn)練找出可靠的負(fù)樣本集;第二步是通過(guò)迭代訓(xùn)練得到一個(gè)分類器進(jìn)行用戶識(shí)別工作。識(shí)別模型工作流程如圖2所示。

3 用戶數(shù)據(jù)處理

在處理關(guān)于用戶的原始數(shù)據(jù)時(shí),首先進(jìn)行數(shù)據(jù)核查,通過(guò)計(jì)算數(shù)據(jù)的均值、期望值、中位數(shù)、方差等了解原始數(shù)據(jù)的大致分布。根據(jù)用戶識(shí)別業(yè)務(wù)的需求遍歷所有重要字段,所需數(shù)據(jù)字段見(jiàn)表1~表4所列。轉(zhuǎn)換部分?jǐn)?shù)據(jù)類型,便于后續(xù)處理,并利用上文得到的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行空值填充。將處理好的數(shù)據(jù)進(jìn)行打標(biāo)簽操作后隨機(jī)排序,分為訓(xùn)練集和測(cè)試集,再將測(cè)試集中的一小部分?jǐn)?shù)據(jù)分離出可靠的正樣本,用于訓(xùn)練分類器。

4 模型選擇與搭建

4.1 兩步法

在本文所研究的兩步法模型中,第一步使用的模型為樸素貝葉斯分類器,其優(yōu)勢(shì)在于算法數(shù)學(xué)模型穩(wěn)定、學(xué)習(xí)簡(jiǎn)單,分類效果較理想[6-7]。該分類器所需參數(shù)很少,對(duì)于缺失的數(shù)據(jù)不太敏感,比較符合實(shí)際數(shù)據(jù)情況,可解釋性強(qiáng)。理論上來(lái)說(shuō),相較于其他模型,它的誤差率最小。

貝葉斯基本公式為:

假設(shè)數(shù)據(jù)的每個(gè)樣本有m維特征向量,描述其m個(gè)屬性的值,即A={x1, x2, ..., xm}。數(shù)據(jù)類別可分為n類,即n={y1, y2, ..., yn}。給定未知樣本集X,使用樸素貝葉斯分類方法將樣本按類別n={y1, y2, ..., yn}分開(kāi)。

代入貝葉斯理論,可得給定的某用戶A屬于某分類yn的概率為:

對(duì)于給定用戶A屬于某一分類yn的概率,可由A在每個(gè)給定的分類yn的概率得出,需要計(jì)算每個(gè)分類用戶A在其中的概率。即

假設(shè)集合T為正樣本集合,集合U為未標(biāo)記樣本集合。模型訓(xùn)練過(guò)程如下:

(1)將集合T、U中的樣本類別標(biāo)記為1、0;

(2)分別使用數(shù)據(jù)集T和U進(jìn)行訓(xùn)練,得到理想的分類器;

(3)使用上述分類器將未標(biāo)記樣本進(jìn)行分類。

第二步使用的模型為隨機(jī)森林算法?!吧帧庇啥鄠€(gè)決策樹組成,采用隨機(jī)有放回的選擇模式訓(xùn)練數(shù)據(jù)模型,引入隨機(jī)屬性選擇,通過(guò)組合模型來(lái)提升學(xué)習(xí)效果[8]?!吧帧敝械拿恳豢脴涠紩?huì)根據(jù)自己分類選擇進(jìn)行“投票”,最終的結(jié)果是“票數(shù)”最多的屬性。其計(jì)算公式如下:

式中:H(x)表示隨機(jī)森林分類模型最終結(jié)果;hi(x)表示每棵決策樹的單獨(dú)分類結(jié)果;Y表示需要分類的對(duì)象。通過(guò)投票策略將得票數(shù)最多的分類結(jié)果進(jìn)行輸出[9]。

模型搭建需要根據(jù)數(shù)據(jù)進(jìn)行特征選擇,本文主要針對(duì)一周之內(nèi)的操作行為、流量、短信等信息進(jìn)行統(tǒng)計(jì)。對(duì)數(shù)據(jù)首先進(jìn)行數(shù)據(jù)清洗預(yù)處理,過(guò)濾掉某些異常的數(shù)據(jù),并根據(jù)后期的需求對(duì)關(guān)鍵字段進(jìn)行處理。根據(jù)其用戶ID找到對(duì)應(yīng)的

SIM ID,并關(guān)聯(lián)其操作記錄表、流量表、信息表。物聯(lián)網(wǎng)卡的流量監(jiān)控為重要指標(biāo),根據(jù)時(shí)間記錄對(duì)最近七天的短信使用量和數(shù)據(jù)流量使用量求和。對(duì)操作行為表進(jìn)行預(yù)處理,根據(jù)操作時(shí)間及SIM ID對(duì)最近七天的操作次數(shù)求和。將七天的數(shù)據(jù)以第一天為基準(zhǔn)進(jìn)行內(nèi)關(guān)聯(lián),最終得到每一張卡在七天中的操作行為、短信、流量的情況。對(duì)于已標(biāo)注的虛假用戶數(shù)據(jù)的處理與以上流程一致。

將30%數(shù)據(jù)作為測(cè)試集,70%數(shù)據(jù)作為訓(xùn)練集。在訓(xùn)練集上建立模型,第一步使用樸素貝葉斯模型,第二步使用隨機(jī)森林模型。調(diào)整模型參數(shù),找到在訓(xùn)練集上表現(xiàn)結(jié)果最優(yōu)的模型,最后使用測(cè)試集進(jìn)行測(cè)試。對(duì)預(yù)測(cè)結(jié)果的評(píng)判不能只按照傳統(tǒng)的精確率、召回率等,因?yàn)槌褬?biāo)記的虛假用戶外,對(duì)于未知用戶類型并沒(méi)有確切的判斷。這里的判斷標(biāo)準(zhǔn)采用,其中代表樣本為正樣本的概率,r代表召回率,p代表精確率。使用這個(gè)公式來(lái)判斷分類器的性能。兩步法模型預(yù)測(cè)結(jié)果見(jiàn)表5所列。

4.2 一步法

上文提到的直接法是在正樣本上進(jìn)行訓(xùn)練,比較經(jīng)典的單分類方法為one-class SVM模型。 在識(shí)別一個(gè)新的“點(diǎn)”(用戶數(shù)據(jù))時(shí),若落在該超平面內(nèi),說(shuō)明屬于正樣本集,若不是則屬于其他類,但無(wú)法判斷出具體屬于哪一類[10]。one-class SVM模型的訓(xùn)練樣本只有一類,與二分類問(wèn)題有一定差別,本文只對(duì)物聯(lián)網(wǎng)用戶的正樣本數(shù)據(jù)進(jìn)行訓(xùn)練,最終訓(xùn)練結(jié)果中挑出不屬于正常用戶的數(shù)據(jù)即可。

5 結(jié) 語(yǔ)

本文從物聯(lián)網(wǎng)角度出發(fā)分析了用戶識(shí)別模型,根據(jù)物聯(lián)網(wǎng)的特性使用機(jī)器學(xué)習(xí)方法建立模型,并進(jìn)行分類操作。通過(guò)實(shí)驗(yàn)可以看出一步法的準(zhǔn)確率遠(yuǎn)低于兩步法。盡管理論上現(xiàn)有模型可以達(dá)到較好的效果,但還有繼續(xù)改善之處:兩步法分類模型嘗試使用更多不同分算法組合進(jìn)行訓(xùn)練,以達(dá)到更為精準(zhǔn)的結(jié)果;對(duì)于字段的提取,根據(jù)實(shí)際情況增加或減少,調(diào)整不同特性的權(quán)重比例,不斷完善,提高預(yù)測(cè)準(zhǔn)確率。

參考文獻(xiàn)

[1]胡向東.物聯(lián)網(wǎng)研究與發(fā)展綜述[J].數(shù)字通信,2010,37(2):17-21.

[2]李榮.物聯(lián)網(wǎng)用戶界面如何工作[J].計(jì)算機(jī)與網(wǎng)絡(luò),2019,45(12):38-39.

[3]王曉菊,田立勤,趙競(jìng)雄.基于物聯(lián)網(wǎng)的用戶行為認(rèn)證機(jī)制與分析[J].南京理工大學(xué)學(xué)報(bào),2015,39(1):70-77.

[4]張溶芳,許丹丹,王元光,等.機(jī)器學(xué)習(xí)在物聯(lián)網(wǎng)虛假用戶識(shí)別中的運(yùn)用[J].電信科學(xué),2019,35(7):136-144.

[5]譚侃,高旻,李文濤,等.基于雙層采樣主動(dòng)學(xué)習(xí)的社交網(wǎng)絡(luò)虛假用戶檢測(cè)方法[J].自動(dòng)化學(xué)報(bào),2017,43(3):441-460.

[6]張步良.基于分類概率加權(quán)的樸素貝葉斯分類方法[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)),2012,26(7):81-83.

[7]張璠.多種策略改進(jìn)樸素貝葉斯分類器[J].微機(jī)發(fā)展,2005,15(4):35-36.

[8]徐少成,李東喜. 基于隨機(jī)森林的加權(quán)特征選擇算法[J]. 統(tǒng)計(jì)與決策,2018,34(18):25-28.

[9]方匡南,吳見(jiàn)彬,朱建平,等.隨機(jī)森林方法研究綜述[J].統(tǒng)計(jì)與信息論壇,2011,26(3):32-38.

[10]丁世飛,齊丙娟,譚紅艷.支持向量機(jī)理論與算法研究綜述[J].電子科技大學(xué)學(xué)報(bào),2011,53(1):2-10.

猜你喜歡
隨機(jī)森林物聯(lián)網(wǎng)
隨機(jī)森林在棉蚜蟲害等級(jí)預(yù)測(cè)中的應(yīng)用
基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類算法
軟件(2016年7期)2017-02-07 15:54:01
拱壩變形監(jiān)測(cè)預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
基于隨機(jī)森林算法的飛機(jī)發(fā)動(dòng)機(jī)故障診斷方法的研究
基于物聯(lián)網(wǎng)的煤礦智能倉(cāng)儲(chǔ)與物流運(yùn)輸管理系統(tǒng)設(shè)計(jì)與應(yīng)用
基于高職院校物聯(lián)網(wǎng)技術(shù)應(yīng)用人才培養(yǎng)的思考分析
基于LABVIEW的溫室管理系統(tǒng)的研究與設(shè)計(jì)
論智能油田的發(fā)展趨勢(shì)及必要性
中國(guó)或成“物聯(lián)網(wǎng)”領(lǐng)軍者
基于隨機(jī)森林算法的B2B客戶分級(jí)系統(tǒng)的設(shè)計(jì)
九江市| 饶平县| 盐池县| 台南市| 淮南市| 鹤山市| 朝阳县| 青神县| 古丈县| 涟水县| 嵊州市| 赤城县| 河东区| 仁布县| 正蓝旗| 紫金县| 社会| 德兴市| 曲靖市| 启东市| 长寿区| 延庆县| 沿河| 清水河县| 盐山县| 灵石县| 乐清市| 呼伦贝尔市| 吉安县| 黑龙江省| 天长市| 大同市| 新竹市| 永新县| 阿瓦提县| 开远市| 修水县| 南宁市| 班戈县| 虹口区| 阿瓦提县|