国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

人工智能算法在5G套餐潛在用戶識別中的應用

2022-01-19 06:30:56董瑩瑩李坤樹李子旋
江蘇通信 2021年6期
關鍵詞:套餐終端樣本

董瑩瑩 葛 陽 李坤樹 李子旋

中國聯(lián)合網(wǎng)絡通信有限公司網(wǎng)絡AI中心

0 引言

隨著5G網(wǎng)絡正式在中國商用,大量的5G終端涌進市場,5G終端占有量日益增長,但其中相當一部分5G終端仍然使用的是非5G套餐,精準預測5G套餐潛在用戶對5G業(yè)務發(fā)展具有重要意義。

本文基于O域信令數(shù)據(jù)、B域用戶出賬數(shù)據(jù)、用戶MR位置數(shù)據(jù)等,先識別出全網(wǎng)的5G終端,然后對半年內(nèi)5G終端非5G套餐更換為5G套餐的用戶進行大數(shù)據(jù)分析,從用戶活躍時長、通話能力、消費能力、終端偏好、網(wǎng)絡滿意度等方面做特征工程,然后搭建LightGBM分類預測模型,精準預測5G套餐潛在用戶更換套餐的概率,將高概率更換套餐的用戶清單支撐市場部門進行精準營銷,助力5G業(yè)務發(fā)展。

1 5G終端概況

1.1 5G終端識別

不同網(wǎng)絡類型的網(wǎng)絡DPI信令數(shù)據(jù)采集接口不同,在具體的終端識別過程中,可以通過用戶終端話單的最高接入網(wǎng)類型接口來判斷用戶終端類型。2/3/4/5G接入網(wǎng)接口范圍可以通過《中國聯(lián)通移動網(wǎng)絡DPI信令采集設備技術規(guī)范》進行查看,DPI采集系統(tǒng)在網(wǎng)絡中的位置示意圖如圖1所示。

圖1 DPI采集系統(tǒng)在網(wǎng)絡中的位置示意圖

本文首先在4/5G信令數(shù)據(jù)中,識別出最高接入網(wǎng)類型為5G的終端,并結(jié)合存量的5G終端庫,不斷補充與修正5G終端配置庫;然后基于已識別的5G終端篩選出未開通5G套餐的用戶,作為本文的數(shù)據(jù)采樣基礎。

1.2 5G終端分析

目前運營商各種類型終端的占比如圖2所示。

圖2 運營商中各網(wǎng)絡類型終端占比

從圖2中可以發(fā)現(xiàn),目前運營商提供服務的終端中絕大部分依然是4G終端。5G終端的占比甚至不到10%,依然有很大提高的空間。除此之外,圖3展示了2021年4月至2021年5月5G終端變化和5G終端非5G套餐用戶數(shù)占比的變化。

從圖3中可以發(fā)現(xiàn),5G終端數(shù)量在不斷增長。然而,有大量的5G終端用戶并沒有在運營商開通5G套餐,這體現(xiàn)出5G套餐的用戶滲透率較低。為了提升用戶的使用體驗和運營商的盈利能力,在5G終端非5G套餐用戶中篩選出潛在的5G套餐用戶將成為運營商需要迫切建立的能力之一。為此,本文將人工智能算法引入5G潛在用過戶的識別過程。

圖3 5G終端和5G終端非5G套餐用戶數(shù)占比

2 5G套餐潛在用戶識別建模

2.1 數(shù)據(jù)集生成

2.1.1 獲取數(shù)據(jù)

信令數(shù)據(jù)存儲在分布式hadoop集群上,首先在hive數(shù)據(jù)庫篩選近6個月的數(shù)據(jù)(5G終端非5G套餐用戶)作為模型的采樣數(shù)據(jù)。選取的特征主要包含用戶的網(wǎng)絡粘性(在網(wǎng)時長、離網(wǎng)時長等),終端屬性(終端廠商、終端型號、上市日期、終端制式、價位等),通訊能力(主叫時長、主叫次數(shù)、被叫時長、被叫次數(shù)等),漫游屬性(國漫次數(shù)、省漫次數(shù)等),位置信息(早忙時常小區(qū)、晚忙時常駐小區(qū)等),消費能力(出賬、ARPU、流量、業(yè)務訂購等),基本屬性(號碼、套餐、年齡、性別、網(wǎng)齡、發(fā)展渠道、用戶群等),基于以上用戶屬性信息數(shù)據(jù),通過初步的數(shù)據(jù)清洗、特征工程得到初步的樣本數(shù)據(jù),共計90+字段屬性。

2.1.2 篩選正反例

在上述樣本數(shù)據(jù)中,篩選本年內(nèi)已經(jīng)更換為5G套餐的用戶作為模型的正例樣本數(shù)據(jù),設置標簽label=1。其余未更換5G套餐的用戶作為模型反例,設置標簽label=0。這樣,正反例的選取工作就完成了。

2.1.3 生成訓練集與測試集

對于均衡樣本來說,可以從全量數(shù)據(jù)集中按照比例隨機抽取樣本,將數(shù)據(jù)集切分成訓練集與測試集,但實際生產(chǎn)環(huán)境中,往往實際的正負樣本是失衡的,這時就要在采樣方法上多做一些嘗試,才能使模型達到較好的效果,下面介紹幾種失衡樣本的抽樣方法。

(1)過采樣類

①隨機過采樣。它是從樣本少的類別中隨機抽樣,再將抽樣得來的樣本添加到數(shù)據(jù)集中,從而達到類別平衡的目的,這種方法操作簡單,少量樣本被重復選取,無形中加大少量樣本的權(quán)重,但這樣容易出現(xiàn)過擬合的情況。本文嘗試了這種方法,效果提升不明顯。

②SMOTE過采樣。其思想就是在少數(shù)類的樣本之間,進行插值操作來產(chǎn)生額外的樣本。它以每個樣本點的k個最近鄰樣本點為依據(jù),隨機的選擇N個鄰近點進行差值乘上一個[0,1]范圍的閾值,從而達到合成數(shù)據(jù)的目的。該算法的核心是假設特征空間上鄰近的點其特征都是相似的。它并不是在數(shù)據(jù)空間上進行采樣,而是在特征空間中進行采樣,因此它的準確率會高于傳統(tǒng)的采樣方式。本文使用SMOTE過采樣方法對少量的正例樣本進行采樣,將正反例比例由1:12提升至1:3,大大提升了模型預測效果。

③Border-Line SMOTE過采樣。這個算法一開始會先將少數(shù)類樣本分成3類,分別是DANGER:超過一半的k近鄰樣本屬于多數(shù)類;SAFE:超過一半的k近鄰樣本屬于少數(shù)類;NOISE:所有的k近鄰個樣本都屬于多數(shù)類。而Border-line SMOTE算法只會在“DANGER”狀態(tài)的少數(shù)類樣本中去隨機選擇,然后利用SMOTE算法產(chǎn)生新樣本。該方法是SMOTE采樣方法的一個改進算法,在不均衡樣本處理方面具有事半功倍的效果。

(2)欠采樣類

①隨機欠采樣。隨機從多數(shù)類中刪除一些樣本,該方法的缺失也很明顯,那就是造成部分信息丟失,對模型的分類提升效果不理想。

②EasyEnsemble欠采樣。將多數(shù)類樣本隨機劃分成n份,每份的數(shù)據(jù)等于少數(shù)類樣本的數(shù)量,然后對這n份數(shù)據(jù)分別訓練模型,最后集成模型結(jié)果。

③BalanceCascade欠采樣。這類算法采用了有監(jiān)督結(jié)合boosting的方式,在每一輪中,也是從多數(shù)類中抽取子集與少數(shù)類結(jié)合起來訓練模型,然后下一輪中丟棄此輪被正確分類的樣本,使得后續(xù)的基學習器能夠更加關注那些被分類錯誤的樣本。

在數(shù)據(jù)采樣階段,可以嘗試過采樣與欠采樣結(jié)合的方法,調(diào)整正反例數(shù)據(jù)比例,生成相對均衡的正負樣本,提升模型分類預測效果。

2.2 數(shù)據(jù)清洗

2.2.1 空值處理

本文用到的控制處理方法有:(1)直接刪除特征;(2)使用指定數(shù)據(jù)值填充缺失值,如零值、均值、眾數(shù)或中位數(shù)等填充。針對缺失率超過80%的指標特征,直接進行刪除。對于像用戶年齡、網(wǎng)齡、終端價格等。數(shù)值類的數(shù)據(jù),通過均值來填充;針對用戶的通訊能力、網(wǎng)絡粘性相關的特征,直接使用零。

2.2.2 異常值處理

本文使用的異常值處理方法主要有:(1)直接刪除異常數(shù)據(jù)記錄;(2)使用零值或均值替換異常數(shù)據(jù)。針對用戶年齡小于0或大于100的數(shù)值,這樣的樣本數(shù)據(jù)較少,均采用均值替換;對于在枚舉值之外的類別字段異常值,直接刪除對應的記錄。

2.2.3 文本數(shù)據(jù)處理

對于文本類型的數(shù)據(jù),本文有以下三種處理方法:(1)利用one-hot encoding處理字段;(2)使用label encoding處理字段;(3)將字段標注成類別特征直接進行模型訓練。一般地,針對舉值較少的字段運用one-hot encoding處理,如套餐的top6、終端品牌等;枚舉值較多的字段,本文會使用label encoding方法處理,如省份、地市等。

2.3 特征工程

在正反例篩選之后,進一步對數(shù)據(jù)做特征工程,主要是數(shù)據(jù)降維,本文用到的數(shù)據(jù)降維方法主要有下面兩種。

2.3.1 主成分分析

PCA是最常用的無監(jiān)督線性降維方法,它的目標是通過某種線性投影,將高維的數(shù)據(jù)映射到低維的空間中,并期望在所投影的維度上數(shù)據(jù)的方差最大,以此降低數(shù)據(jù)維度。

設樣本為m行n維的數(shù)據(jù),PCA的一般步驟如下:

(1)將原始數(shù)據(jù)按列組成n行m列的矩陣X;

(2)計算矩陣X中每個特征屬性(n維)的平均向量M(平均值);

(3)將X的每行(代表一個屬性字段)進行零均值化,即減去M;

(4)按照公式C=1/m XXT求出協(xié)方差矩陣;

(5)求出協(xié)方差矩陣的特征值及對應的特征向量;

(6)將特征向量按對應特征值從大到小按行排列成矩陣,取前k(k<n)行組成基向量;

(7)通過Y=PX計算降維到k維后的樣本特征。

2.3.2 線性判別分析

對于給定的訓練集,設法將樣本投影到一條直線上,使得同類的投影點盡可能接近,異類樣本的投影點盡可能遠離(類內(nèi)方差最小,類間方差最大);在對新樣本進行分類時,將其投影到這條直線上,再根據(jù)投影點的位置來確定新樣本的類別。

其一般步驟是:

(1)計算數(shù)據(jù)集中每個類別下所有樣本的均值向量;

(2)通過均值向量,計算類間散布矩陣SB和類內(nèi)散布矩陣式SW;

(3)依據(jù)公式;

(4)按照特征值排序,選擇前k個特征向量構(gòu)成投影矩陣U;

(5)通過的特征值矩陣將所有樣本轉(zhuǎn)換到新的子空間中。

2.4 模型介紹

2.4.1 模型選擇

本文講述的5G套餐潛在用戶識別模型是一個典型的二分類模型。在模型選擇時,需要綜合考慮模型的調(diào)參收斂效率,以及模型的準確率與魯棒性,本論文主要采用是樹模型,分別用LightGBM與隨機森林搭建融合AI模型,將兩個模型的預測結(jié)果按照既定權(quán)重(專家經(jīng)驗與試點迭代)樹綜合評判目標用戶的推薦概率。

LightGBM與RandomForest分類算法,都是以決策樹為基學習器,構(gòu)建n個并行學習器,并結(jié)合所有的學習器輸出結(jié)果。本課題實際的正反例樣本數(shù)據(jù)是失衡的,正反例約1:7,且數(shù)據(jù)量大,樣本數(shù)據(jù)約為1200萬,考慮到數(shù)據(jù)集體量大和服務器性能一般的現(xiàn)狀,上述兩個算法對內(nèi)存的消耗不高,收斂效果也不錯,故采用LightGBM與RandomForest算法模型比較合適。在實現(xiàn)本模型時,本文對樣本集進行了抽樣,對反例進行欠采樣,將訓練集數(shù)量控制在500萬,模型維度為90+,針對n_estimator參數(shù)設置為[100,500],subsample參數(shù)取值設置在[0.7-0.9]等,根據(jù)運營商數(shù)據(jù)特殊的業(yè)務場景,對分類算法涉及的若干參數(shù)的取值范圍都進行了縮放,此處也是對兩種AI分類算法的一個改進。

2.4.2 參數(shù)調(diào)優(yōu)

本文采用網(wǎng)格搜索和隨機搜索的方式進行參數(shù)調(diào)優(yōu)。

2.4.3 模型評價

采用F1-score對模型進行評估。相關評價指標定義:TP(True Positive):真 實 為1,預 測 也 為1;FN(False Negative):真實為0,預測為1;FP(False Positive): 真實為1,預測為0;TN(True Negative):真實為0,預測也為0。

最終模型的F1-score為0.82。模型的整體訓練預測示意圖如圖4所示。

圖4 模型工作示意圖

3 市場應用分析

3.1 應用方案設計

為了驗證模型實際應用效果,本文對模型驗證設計了一套實際應用方案,具體如下:

(1)數(shù)據(jù)發(fā)布。利用訓練好的融合AI模型對全網(wǎng)5G終端非5G套餐的用戶進行預測打標,篩選更換5G套餐概率大于0.7的用戶,再將用戶詳單數(shù)據(jù)發(fā)布至能力開放平臺供各省訂閱。數(shù)據(jù)開放樣例數(shù)據(jù)如表1所示。

表1 2G終端數(shù)據(jù)開放樣例

?

(2)省分訂閱目標用戶詳單數(shù)據(jù),選定一個省某一地市某一個營業(yè)廳A,進行外呼營銷,記錄實際營銷過程中存在的問題。

(3)模型迭代優(yōu)化。根據(jù)試點營業(yè)廳A提出的問題進行模型優(yōu)化迭代。

(4)優(yōu)化模型驗證。選取其他多個試點營業(yè)廳,試點營業(yè)廳根據(jù)所提供的數(shù)據(jù)做外呼營銷,測試優(yōu)化模型效果。

3.2 應用結(jié)果分析

第一階段:選取江蘇省某地市營業(yè)廳A試點,共提供500戶目標用戶,外呼成功318戶,成功更換5G套餐用戶9戶,外呼成功轉(zhuǎn)化率2.8%。

第二階段:選取江蘇省某地市4個營業(yè)廳進行試點,共提供1000個號碼,接通759戶,成功辦理62戶,成功率8.2%,較第一版本營銷成功率提升5.4個百分點。

4 結(jié)束語

本文提出了一種基于信令數(shù)據(jù)與融合AI算法的5G套餐潛在用戶識別方法,實現(xiàn)了人工智能算法在5G套餐遷轉(zhuǎn)營銷中的應用,解決了推薦5G套餐目標性差及推薦效率低的問題。在實際的市場應用中展現(xiàn)模型的高精準度,5G套餐推薦轉(zhuǎn)化率由自然轉(zhuǎn)化的1%提升至8.4%,實現(xiàn)了人工智能賦能5G套餐業(yè)務發(fā)展,對提升5G套餐市場占有率有重大意義。

猜你喜歡
套餐終端樣本
《加什么不要錢》
用樣本估計總體復習點撥
X美術館首屆三年展:“終端〉_How Do We Begin?”
通信控制服務器(CCS)維護終端的設計與實現(xiàn)
兒童套餐
幽默大師(2019年6期)2019-06-06 08:41:42
推動醫(yī)改的“直銷樣本”
隨機微分方程的樣本Lyapunov二次型估計
多功能北斗船載終端的開發(fā)應用
電子制作(2016年15期)2017-01-15 13:39:14
村企共贏的樣本
婚姻是一份套餐
海峽姐妹(2016年4期)2016-02-27 15:18:28
宿松县| 宽甸| 上犹县| 兴海县| 南开区| 香港| 泽州县| 台南县| 砚山县| 汉川市| 临洮县| 浮梁县| 达日县| 福清市| 铜川市| 五峰| 锡林郭勒盟| 西吉县| 启东市| 哈尔滨市| 章丘市| 上虞市| 西乌珠穆沁旗| 来宾市| 京山县| 临安市| 收藏| 罗甸县| 利辛县| 长白| 沅江市| 长乐市| 富蕴县| 乐山市| 唐河县| 抚州市| 堆龙德庆县| 宁津县| 康定县| 绿春县| 宣汉县|