国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于一種改進的RFM 模型的廣電用戶細分

2021-07-30 02:46趙黎明于金秀薛靖峰
科學技術(shù)創(chuàng)新 2021年21期
關(guān)鍵詞:示例聚類關(guān)鍵

趙黎明 于金秀 薛靖峰

(青島黃海學院 山東 青島 266427)

1 概述

在這個“三網(wǎng)融合”大背景下的新時代,廣播電視運營商與各個家庭用戶之間信息實時交互的實現(xiàn),使得廣播電視運營商利用大數(shù)據(jù)分析手段來為用戶提供智能化產(chǎn)品推薦成為可能,而“智能推薦”是廣播電視運營商行業(yè)競爭的制勝法寶之一。本次建模以Python 為主、Excel 為輔的數(shù)據(jù)處理工具對用戶的觀看記錄信息進行挖掘分析,且對觀眾的收視偏好進行定義和分類,并給出合理的營銷推薦。針對給出的數(shù)據(jù),運用K-means 聚類算法、基于RFM模型進行改進分析。

2 LRFMC 模型

2.1 RFM模型

RFM模型是一種針對客戶價值分析的統(tǒng)計規(guī)劃方法,包括最近消費時間R、消費頻率F 和消費金額M三個變量。

為了了解各用戶的推薦價值,在用戶標簽體系中增加了客戶忠誠度標簽,通過客戶忠誠度標簽進行客戶分類,從而識別低價值客戶、高價值客戶等不同的用戶類型,企業(yè)決策層可以針對不同價值層的客戶制定優(yōu)化的個性化專屬服務方案,增強產(chǎn)品的針對性,采取適合各個客戶類別的不同的營銷策略。

2.2 LRFMC 模型

在RFM模型中,最近消費時間R 隨機性較大,并且指標F和指標M之間存在共線性問題,忽略了客戶與企業(yè)間的互動因素。為了更準確地對廣電用戶進行價值分析,提出一種改進RFM模型。

將收視用戶入網(wǎng)時間長度L,用戶觀看時間間隔R,用戶觀看頻率F,用戶花費金額M和用戶觀看總時長C 作為廣電公司識別客戶價值的關(guān)鍵特征,記為LRFMC 模型,關(guān)鍵特征具體解釋如表1 所示。

表1 LRFMC 模型關(guān)鍵特征

3 數(shù)據(jù)預處理與可視化探索分析

3.1 數(shù)據(jù)說明

根據(jù)所研究的目標,從大量用戶觀看數(shù)據(jù)中抽取了2000 家收視用戶近三個月的基礎信息及觀看信息,原始數(shù)據(jù)中字段繁多,在數(shù)據(jù)分析開始之前已剔除對所分析問題影響不大的字段。

3.2 數(shù)據(jù)預處理

由于原始數(shù)據(jù)的無意義字樣、重復的數(shù)據(jù)、特殊線路與政企觀看的數(shù)據(jù)、存在極短時間和較長時間的收視數(shù)據(jù)不利于后續(xù)的分析,所以將其剔除。將隔夜數(shù)據(jù)拆分為兩個數(shù)據(jù),不規(guī)范的數(shù)據(jù)進行剔除。

3.3 指標權(quán)重的確立

改進RFM的5 個指標L、R、F、M、C 的權(quán)重確定過程如下,由i 個用戶指標構(gòu)成的輸入矩陣模型的指標Aixj中的列矩陣為:

計算xj的協(xié)方差矩陣C 為

其中

表示特征值矩陣,將協(xié)方差矩陣C 進行特征分解為

是矩陣C 的特征值矩陣,U 為矩陣C 的特征向量,這樣得到的λ1,為指標的權(quán)重。

應用上述方法對五個關(guān)鍵特征的計算以后,對每個關(guān)鍵特征數(shù)據(jù)的分布情況進行分析,首先取出關(guān)鍵特征數(shù)據(jù)的最大值與最小值,其對應數(shù)據(jù)的取值范圍如表2 所示。

從表2 中的數(shù)據(jù)可以發(fā)現(xiàn),五個特征的取值范圍數(shù)據(jù)差異較大,最近一次觀看時間距離觀測窗口結(jié)束時長最小僅有0.03小時,而最小觀看次數(shù)高達368 次;最近一次觀看時間距離觀測窗口結(jié)束時長最長僅有24.37 小時,而最大觀看次數(shù)高達180717次。

表2 特征取值范圍

為了抵消數(shù)量級數(shù)據(jù)給分析過程以及分析結(jié)果帶來的影響,利用Python sklearn 庫中preprocessing 模塊的MinMaxScaler離差標準化函數(shù)對收集的原始關(guān)鍵特征數(shù)據(jù)進行標準化處理,關(guān)鍵特征數(shù)據(jù)的最大值與最小值的標準化處理示例見表3。

表3 特征標準差標準化示例

從表3 的特征標準差標準化處理結(jié)果示例中可以看出,在進行離差數(shù)據(jù)標準化之后,不同關(guān)鍵特征指標之間有了一定的規(guī)則,數(shù)據(jù)按一定比例進行放大或縮小,以適應原本的比例,使多個不同單位的數(shù)據(jù)可以進行相互計算。

3.4 基于k-means 算法的客戶價值分析

進行數(shù)據(jù)標準化之后,再利用Python sklearn 庫中cluster 模塊所提供的K-Means 函數(shù)構(gòu)建K-Means 用戶忠誠度聚類模型。從聚類結(jié)果中抽選出部分數(shù)據(jù)示例見表4。

表4 用戶忠誠度聚類結(jié)果示例

圖1 聚類結(jié)果二維展示

從表4 的聚類結(jié)果示例中可以看到,將結(jié)果表的表結(jié)構(gòu)設置為:用戶名、電視入網(wǎng)時長、電視消費水平、家庭消費水平、電視消費趨勢,根據(jù)聚類函數(shù)推算出用戶忠誠度標簽。

為了能更清楚直觀地觀察聚類結(jié)果,利用t-SNE 方法對五維的聚類結(jié)果進行降維操作。使三維的聚類結(jié)果降為二維數(shù)據(jù),并繪制出結(jié)果如圖1 的二維散點圖。

在圖1 的聚類結(jié)果展示中,坐標區(qū)間在[0:-20,-40:-60]之間的綠色菱形標記記號,這類用戶的五個關(guān)鍵屬性值皆為負值,可以理解為一般用戶;坐標區(qū)間在[-20:-60,-40:20]之間的紅色五星形標記記號,這類用戶可以理解為低價值客戶;坐標區(qū)間在[-20:20,-40:0]之間的黃色十字形標記記號,這類用戶可以理解為重要發(fā)展客戶;坐標區(qū)間在[-20:20,0:40]之間的藍色圓形標記記號,這類用戶可以理解為重要保持客戶;而坐標區(qū)間在[20:60,-20:40]之間的黑色圓形標記記號,可以理解為重要挽留客戶。

4 結(jié)論與建議

4.1 對于重要挽留客戶,這類收視用戶大多是剛?cè)刖W(wǎng)(3 年以下)的用戶,其消費能力都較低,但其消費量一直保持在2-3 級,可以認為此類用戶是消費的主要人群,需要對此用戶群進行挽留。

4.2 對于重要保持客戶,這類收視用戶大多已經(jīng)有3-6 年的入網(wǎng)時長,其消費能力屬于頂級水平,消費量持續(xù)保持在5 級,認為此類用戶對電視消費是保持的、是存在一定熱情和具體需求的,因此需要對此用戶群進行保持。

4.3 對于重要發(fā)展客戶,這類收視用戶大多入網(wǎng)有超過6 年的年限,雖然其家庭消費能力較低,但對于電視產(chǎn)品消費能力屬于中等,可以認為此類用戶有較大的發(fā)展空間,所以需要吸引用戶再次消費。

4.4 對于低價值客戶,這類收視用戶是重要發(fā)展客戶的其中一個小分支,雖然大多此類收視用戶入網(wǎng)有超過6 年的年限,但其消費水平一直都比較低,所以認為該客戶群是屬于低價值的,可以減少投資成本。

4.5 對于一般客戶,這類收視用戶是重要發(fā)展客戶中的另外一個小分支,此類用戶雖然大多也入網(wǎng)有超過6 年的年限,消費水平一直較低,并且極少使用電視,因此針對這類用戶可以采用放任自由的態(tài)度。

研究的觀眾用戶聚類以及基于改進的RFM的模型針對不同用戶的數(shù)據(jù)進行推薦,在作出電視產(chǎn)品推薦時,模型的準確率得分只有7 分,推薦的效果不是十分理想,還需要對電視產(chǎn)品的類別庫進行完善,或是建立更加完善的用戶與物品的相似度矩陣。

猜你喜歡
示例聚類關(guān)鍵
一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
硝酸甘油,用對是關(guān)鍵
高考考好是關(guān)鍵
白描畫禽鳥(九)
面向WSN的聚類頭選舉與維護協(xié)議的研究綜述
改進K均值聚類算法
10秒記憶
飛吧,云寶
基于Spark平臺的K-means聚類算法改進及并行化實現(xiàn)
蔣百里:“關(guān)鍵是中國人自己要努力”