人工智能算法在5G套餐潛在用戶識別中的應用

2022-01-19 06:30:56董瑩瑩李坤樹李子旋

江蘇通信 2021年6期

董瑩瑩葛陽李坤樹李子旋

中國聯(lián)合網(wǎng)絡通信有限公司網(wǎng)絡AI中心

0 引言

隨著5G網(wǎng)絡正式在中國商用，大量的5G終端涌進市場，5G終端占有量日益增長，但其中相當一部分5G終端仍然使用的是非5G套餐，精準預測5G套餐潛在用戶對5G業(yè)務發(fā)展具有重要意義。

本文基于O域信令數(shù)據(jù)、B域用戶出賬數(shù)據(jù)、用戶MR位置數(shù)據(jù)等，先識別出全網(wǎng)的5G終端，然后對半年內(nèi)5G終端非5G套餐更換為5G套餐的用戶進行大數(shù)據(jù)分析，從用戶活躍時長、通話能力、消費能力、終端偏好、網(wǎng)絡滿意度等方面做特征工程，然后搭建LightGBM分類預測模型，精準預測5G套餐潛在用戶更換套餐的概率，將高概率更換套餐的用戶清單支撐市場部門進行精準營銷，助力5G業(yè)務發(fā)展。

1 5G終端概況

1.1 5G終端識別

不同網(wǎng)絡類型的網(wǎng)絡DPI信令數(shù)據(jù)采集接口不同，在具體的終端識別過程中，可以通過用戶終端話單的最高接入網(wǎng)類型接口來判斷用戶終端類型。2/3/4/5G接入網(wǎng)接口范圍可以通過《中國聯(lián)通移動網(wǎng)絡DPI信令采集設備技術規(guī)范》進行查看，DPI采集系統(tǒng)在網(wǎng)絡中的位置示意圖如圖1所示。

圖1 DPI采集系統(tǒng)在網(wǎng)絡中的位置示意圖

本文首先在4/5G信令數(shù)據(jù)中，識別出最高接入網(wǎng)類型為5G的終端，并結(jié)合存量的5G終端庫，不斷補充與修正5G終端配置庫；然后基于已識別的5G終端篩選出未開通5G套餐的用戶，作為本文的數(shù)據(jù)采樣基礎。

1.2 5G終端分析

目前運營商各種類型終端的占比如圖2所示。

圖2 運營商中各網(wǎng)絡類型終端占比

從圖2中可以發(fā)現(xiàn)，目前運營商提供服務的終端中絕大部分依然是4G終端。5G終端的占比甚至不到10%，依然有很大提高的空間。除此之外，圖3展示了2021年4月至2021年5月5G終端變化和5G終端非5G套餐用戶數(shù)占比的變化。

從圖3中可以發(fā)現(xiàn)，5G終端數(shù)量在不斷增長。然而，有大量的5G終端用戶并沒有在運營商開通5G套餐，這體現(xiàn)出5G套餐的用戶滲透率較低。為了提升用戶的使用體驗和運營商的盈利能力，在5G終端非5G套餐用戶中篩選出潛在的5G套餐用戶將成為運營商需要迫切建立的能力之一。為此，本文將人工智能算法引入5G潛在用過戶的識別過程。

圖3 5G終端和5G終端非5G套餐用戶數(shù)占比

2 5G套餐潛在用戶識別建模

2.1 數(shù)據(jù)集生成

2.1.1 獲取數(shù)據(jù)

信令數(shù)據(jù)存儲在分布式hadoop集群上，首先在hive數(shù)據(jù)庫篩選近6個月的數(shù)據(jù)（5G終端非5G套餐用戶）作為模型的采樣數(shù)據(jù)。選取的特征主要包含用戶的網(wǎng)絡粘性（在網(wǎng)時長、離網(wǎng)時長等），終端屬性（終端廠商、終端型號、上市日期、終端制式、價位等），通訊能力（主叫時長、主叫次數(shù)、被叫時長、被叫次數(shù)等），漫游屬性（國漫次數(shù)、省漫次數(shù)等），位置信息（早忙時常小區(qū)、晚忙時常駐小區(qū)等），消費能力（出賬、ARPU、流量、業(yè)務訂購等），基本屬性（號碼、套餐、年齡、性別、網(wǎng)齡、發(fā)展渠道、用戶群等），基于以上用戶屬性信息數(shù)據(jù)，通過初步的數(shù)據(jù)清洗、特征工程得到初步的樣本數(shù)據(jù)，共計90+字段屬性。

2.1.2 篩選正反例

在上述樣本數(shù)據(jù)中，篩選本年內(nèi)已經(jīng)更換為5G套餐的用戶作為模型的正例樣本數(shù)據(jù)，設置標簽label=1。其余未更換5G套餐的用戶作為模型反例，設置標簽label=0。這樣，正反例的選取工作就完成了。

2.1.3 生成訓練集與測試集

對于均衡樣本來說，可以從全量數(shù)據(jù)集中按照比例隨機抽取樣本，將數(shù)據(jù)集切分成訓練集與測試集，但實際生產(chǎn)環(huán)境中，往往實際的正負樣本是失衡的，這時就要在采樣方法上多做一些嘗試，才能使模型達到較好的效果，下面介紹幾種失衡樣本的抽樣方法。

（1）過采樣類

①隨機過采樣。它是從樣本少的類別中隨機抽樣，再將抽樣得來的樣本添加到數(shù)據(jù)集中，從而達到類別平衡的目的，這種方法操作簡單，少量樣本被重復選取，無形中加大少量樣本的權(quán)重，但這樣容易出現(xiàn)過擬合的情況。本文嘗試了這種方法，效果提升不明顯。

②SMOTE過采樣。其思想就是在少數(shù)類的樣本之間，進行插值操作來產(chǎn)生額外的樣本。它以每個樣本點的k個最近鄰樣本點為依據(jù)，隨機的選擇N個鄰近點進行差值乘上一個[0，1]范圍的閾值，從而達到合成數(shù)據(jù)的目的。該算法的核心是假設特征空間上鄰近的點其特征都是相似的。它并不是在數(shù)據(jù)空間上進行采樣，而是在特征空間中進行采樣，因此它的準確率會高于傳統(tǒng)的采樣方式。本文使用SMOTE過采樣方法對少量的正例樣本進行采樣，將正反例比例由1：12提升至1：3，大大提升了模型預測效果。

③Border-Line SMOTE過采樣。這個算法一開始會先將少數(shù)類樣本分成3類，分別是DANGER：超過一半的k近鄰樣本屬于多數(shù)類；SAFE：超過一半的k近鄰樣本屬于少數(shù)類；NOISE：所有的k近鄰個樣本都屬于多數(shù)類。而Border-line SMOTE算法只會在“DANGER”狀態(tài)的少數(shù)類樣本中去隨機選擇，然后利用SMOTE算法產(chǎn)生新樣本。該方法是SMOTE采樣方法的一個改進算法，在不均衡樣本處理方面具有事半功倍的效果。

（2）欠采樣類

①隨機欠采樣。隨機從多數(shù)類中刪除一些樣本，該方法的缺失也很明顯，那就是造成部分信息丟失，對模型的分類提升效果不理想。

②EasyEnsemble欠采樣。將多數(shù)類樣本隨機劃分成n份，每份的數(shù)據(jù)等于少數(shù)類樣本的數(shù)量，然后對這n份數(shù)據(jù)分別訓練模型，最后集成模型結(jié)果。

③BalanceCascade欠采樣。這類算法采用了有監(jiān)督結(jié)合boosting的方式，在每一輪中，也是從多數(shù)類中抽取子集與少數(shù)類結(jié)合起來訓練模型，然后下一輪中丟棄此輪被正確分類的樣本，使得后續(xù)的基學習器能夠更加關注那些被分類錯誤的樣本。

在數(shù)據(jù)采樣階段，可以嘗試過采樣與欠采樣結(jié)合的方法，調(diào)整正反例數(shù)據(jù)比例，生成相對均衡的正負樣本，提升模型分類預測效果。

2.2 數(shù)據(jù)清洗

2.2.1 空值處理

本文用到的控制處理方法有：（1）直接刪除特征；（2）使用指定數(shù)據(jù)值填充缺失值，如零值、均值、眾數(shù)或中位數(shù)等填充。針對缺失率超過80%的指標特征，直接進行刪除。對于像用戶年齡、網(wǎng)齡、終端價格等。數(shù)值類的數(shù)據(jù)，通過均值來填充；針對用戶的通訊能力、網(wǎng)絡粘性相關的特征，直接使用零。

2.2.2 異常值處理

本文使用的異常值處理方法主要有：（1）直接刪除異常數(shù)據(jù)記錄；（2）使用零值或均值替換異常數(shù)據(jù)。針對用戶年齡小于0或大于100的數(shù)值，這樣的樣本數(shù)據(jù)較少，均采用均值替換；對于在枚舉值之外的類別字段異常值，直接刪除對應的記錄。

2.2.3 文本數(shù)據(jù)處理

對于文本類型的數(shù)據(jù)，本文有以下三種處理方法：（1）利用one-hot encoding處理字段；（2）使用label encoding處理字段；（3）將字段標注成類別特征直接進行模型訓練。一般地，針對舉值較少的字段運用one-hot encoding處理，如套餐的top6、終端品牌等；枚舉值較多的字段，本文會使用label encoding方法處理，如省份、地市等。

2.3 特征工程

在正反例篩選之后，進一步對數(shù)據(jù)做特征工程，主要是數(shù)據(jù)降維，本文用到的數(shù)據(jù)降維方法主要有下面兩種。

2.3.1 主成分分析

PCA是最常用的無監(jiān)督線性降維方法，它的目標是通過某種線性投影，將高維的數(shù)據(jù)映射到低維的空間中，并期望在所投影的維度上數(shù)據(jù)的方差最大，以此降低數(shù)據(jù)維度。

設樣本為m行n維的數(shù)據(jù)，PCA的一般步驟如下：

（1）將原始數(shù)據(jù)按列組成n行m列的矩陣X；

（2）計算矩陣X中每個特征屬性（n維）的平均向量M（平均值）；

（3）將X的每行（代表一個屬性字段）進行零均值化，即減去M；

（4）按照公式C=1/m XXT求出協(xié)方差矩陣；

（5）求出協(xié)方差矩陣的特征值及對應的特征向量；

（6）將特征向量按對應特征值從大到小按行排列成矩陣，取前k（k＜n）行組成基向量；

（7）通過Y=PX計算降維到k維后的樣本特征。

2.3.2 線性判別分析

對于給定的訓練集，設法將樣本投影到一條直線上，使得同類的投影點盡可能接近，異類樣本的投影點盡可能遠離（類內(nèi)方差最小，類間方差最大）；在對新樣本進行分類時，將其投影到這條直線上，再根據(jù)投影點的位置來確定新樣本的類別。

其一般步驟是：

（1）計算數(shù)據(jù)集中每個類別下所有樣本的均值向量；

（2）通過均值向量，計算類間散布矩陣SB和類內(nèi)散布矩陣式SW；

（3）依據(jù)公式；

（4）按照特征值排序，選擇前k個特征向量構(gòu)成投影矩陣U；

（5）通過的特征值矩陣將所有樣本轉(zhuǎn)換到新的子空間中。

2.4 模型介紹

2.4.1 模型選擇

本文講述的5G套餐潛在用戶識別模型是一個典型的二分類模型。在模型選擇時，需要綜合考慮模型的調(diào)參收斂效率，以及模型的準確率與魯棒性，本論文主要采用是樹模型，分別用LightGBM與隨機森林搭建融合AI模型，將兩個模型的預測結(jié)果按照既定權(quán)重（專家經(jīng)驗與試點迭代）樹綜合評判目標用戶的推薦概率。

LightGBM與RandomForest分類算法，都是以決策樹為基學習器，構(gòu)建n個并行學習器，并結(jié)合所有的學習器輸出結(jié)果。本課題實際的正反例樣本數(shù)據(jù)是失衡的，正反例約1：7，且數(shù)據(jù)量大，樣本數(shù)據(jù)約為1200萬，考慮到數(shù)據(jù)集體量大和服務器性能一般的現(xiàn)狀，上述兩個算法對內(nèi)存的消耗不高，收斂效果也不錯，故采用LightGBM與RandomForest算法模型比較合適。在實現(xiàn)本模型時，本文對樣本集進行了抽樣，對反例進行欠采樣，將訓練集數(shù)量控制在500萬，模型維度為90+，針對n_estimator參數(shù)設置為[100，500]，subsample參數(shù)取值設置在[0.7-0.9]等，根據(jù)運營商數(shù)據(jù)特殊的業(yè)務場景，對分類算法涉及的若干參數(shù)的取值范圍都進行了縮放，此處也是對兩種AI分類算法的一個改進。

2.4.2 參數(shù)調(diào)優(yōu)

本文采用網(wǎng)格搜索和隨機搜索的方式進行參數(shù)調(diào)優(yōu)。

2.4.3 模型評價

采用F1-score對模型進行評估。相關評價指標定義：TP（True Positive）：真實為1，預測也為1；FN（False Negative）：真實為0，預測為1；FP（False Positive）：真實為1，預測為0；TN（True Negative）：真實為0，預測也為0。

最終模型的F1-score為0.82。模型的整體訓練預測示意圖如圖4所示。

圖4 模型工作示意圖

3 市場應用分析

3.1 應用方案設計

為了驗證模型實際應用效果，本文對模型驗證設計了一套實際應用方案，具體如下：

（1）數(shù)據(jù)發(fā)布。利用訓練好的融合AI模型對全網(wǎng)5G終端非5G套餐的用戶進行預測打標，篩選更換5G套餐概率大于0.7的用戶，再將用戶詳單數(shù)據(jù)發(fā)布至能力開放平臺供各省訂閱。數(shù)據(jù)開放樣例數(shù)據(jù)如表1所示。

表1 2G終端數(shù)據(jù)開放樣例

（2）省分訂閱目標用戶詳單數(shù)據(jù)，選定一個省某一地市某一個營業(yè)廳A，進行外呼營銷，記錄實際營銷過程中存在的問題。

（3）模型迭代優(yōu)化。根據(jù)試點營業(yè)廳A提出的問題進行模型優(yōu)化迭代。

（4）優(yōu)化模型驗證。選取其他多個試點營業(yè)廳，試點營業(yè)廳根據(jù)所提供的數(shù)據(jù)做外呼營銷，測試優(yōu)化模型效果。

3.2 應用結(jié)果分析

第一階段：選取江蘇省某地市營業(yè)廳A試點，共提供500戶目標用戶，外呼成功318戶，成功更換5G套餐用戶9戶，外呼成功轉(zhuǎn)化率2.8%。

第二階段：選取江蘇省某地市4個營業(yè)廳進行試點，共提供1000個號碼，接通759戶，成功辦理62戶，成功率8.2%，較第一版本營銷成功率提升5.4個百分點。

4 結(jié)束語

本文提出了一種基于信令數(shù)據(jù)與融合AI算法的5G套餐潛在用戶識別方法，實現(xiàn)了人工智能算法在5G套餐遷轉(zhuǎn)營銷中的應用，解決了推薦5G套餐目標性差及推薦效率低的問題。在實際的市場應用中展現(xiàn)模型的高精準度，5G套餐推薦轉(zhuǎn)化率由自然轉(zhuǎn)化的1%提升至8.4%，實現(xiàn)了人工智能賦能5G套餐業(yè)務發(fā)展，對提升5G套餐市場占有率有重大意義。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡