国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于聚類算法的家庭成員關(guān)系識別研究

2020-10-26 06:37:00袁鳶李成奇付文豪
廣東通信技術(shù) 2020年10期
關(guān)鍵詞:家庭成員聚類家庭

[袁鳶 李成奇 付文豪]

1 引言

隨著各電信運營商進入全業(yè)務(wù)運營時代,中國移動在寬帶及家庭業(yè)務(wù)存在后發(fā)弱點,競爭對手利用其全業(yè)務(wù)優(yōu)勢和移動公司在此領(lǐng)域業(yè)務(wù)的弱點,實施差異化的競爭策略,積極滲透移動業(yè)務(wù),市場競爭日趨激烈。

2 現(xiàn)狀分析

為適應(yīng)新形勢下市場競爭的要求,立足于移動公司在移動業(yè)務(wù)的先發(fā)優(yōu)勢和規(guī)模優(yōu)勢,通過業(yè)務(wù)融合重點發(fā)展和推廣家庭業(yè)務(wù),增加客戶對移動業(yè)務(wù)的粘性,這樣不僅能降低個人客戶被蠶食的風(fēng)險,更能在傳統(tǒng)語音業(yè)務(wù)和數(shù)據(jù)業(yè)務(wù)的基礎(chǔ)上取得進一步收入發(fā)展。然而,當(dāng)前移動公司在發(fā)展寬帶和家庭業(yè)務(wù)市場上存在如下幾個問題。

(1)客戶居住地信息和小區(qū)人數(shù)規(guī)模的不確定,不利于寬帶資源的布放,容易造成資源覆蓋的緊張或浪費。

(2)無法依靠人工或者簡單的統(tǒng)計來實現(xiàn)客戶家庭位置定位。

(3)缺失小區(qū)成員信息,對家庭客戶的定位產(chǎn)生阻力。

(4)人工成本高,數(shù)據(jù)質(zhì)量低,社區(qū)通訊錄存在更新滯后、信息不完整等諸多問題。

(5)用戶通信行為特征挖掘不夠深入,沒有結(jié)合通話時段與通話位置信息,無法通過用戶交往圈準(zhǔn)確分析判斷其交往的用戶角色。

(6)每個用戶通信交往圈數(shù)據(jù)量大,沒有有效的方法從用戶的的通信交往圈中,區(qū)分哪些是該用戶的核心交往圈用戶,或僅靠傳統(tǒng)的軟件處理效率低下,而且效果極差,無法滿足運營需要。

綜上所述,如何將聚類分析算法應(yīng)用于電信行業(yè)家庭用戶識別業(yè)務(wù),通過使用機器學(xué)習(xí)聚類分析算法進行家庭成員分群,精確對社區(qū)用戶進行群體分割,按家庭屬性劃分出簇群,以評估移動公司在家庭業(yè)務(wù)的市場分額和資源分配,并解決實際生產(chǎn)過程中的相關(guān)問題,已成為家庭市場營銷的重要抓手。

3 家庭成員識別研究

電信行業(yè)家庭用戶最明顯的特征就是通過相互聯(lián)系來形成交往圈,這一點跟復(fù)雜網(wǎng)絡(luò)很類似。復(fù)雜網(wǎng)絡(luò)一般是指節(jié)點數(shù)量多且節(jié)點間交互關(guān)系復(fù)雜的網(wǎng)絡(luò)。社區(qū)結(jié)構(gòu)是復(fù)雜網(wǎng)絡(luò)的拓?fù)涮攸c之一,整個網(wǎng)絡(luò)由若干社區(qū)構(gòu)成,社區(qū)內(nèi)部節(jié)點的交互頻繁,社區(qū)間節(jié)點的交互較弱。因此,當(dāng)進行對一個復(fù)雜網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn)時,通常情況下是可以使用聚類算法的。聚類算法源于圖的劃分問題,圖劃分的目標(biāo)就是找到一種切割方法,使得切割最少的邊就可以將結(jié)點分割為不相交的集合。

3.1 模型設(shè)計

本模型的設(shè)計原理思想來源于聚類算法,其實現(xiàn)過程歸納為以下3個主要步驟。

(1)通過用戶通信行為來構(gòu)建表示出電信行業(yè)用戶集的相似度矩陣W;

(2)通過計算相似度矩陣或拉普拉斯矩陣的前k個特征值與特征向量,構(gòu)建特征向量空間;

(3)利用K-means聚類算法對特征向量空間中的特征向量進行聚類。如圖1所示為設(shè)計原理圖[1]。

圖1 家庭成員識別模型設(shè)計原理

3.2 算法的實現(xiàn)和應(yīng)用

(1)聚類算法的選定

譜聚類算法的思想來源于譜圖劃分理論,它將聚類問題看成是一個無向圖的多路劃分問題。假設(shè)一無向加權(quán)圖,其表現(xiàn)形式為一對稱鄰接矩陣,其中n表示圖G所含的節(jié)點數(shù),表示連接頂點i與j的權(quán)值,D為對角陣。定義一個圖劃分判據(jù),如Shi和Malik提出的2-way目標(biāo)函數(shù)Ncut[2]:

譜聚類算法是一種配對聚類方法,算法僅與數(shù)據(jù)點的數(shù)目有關(guān),而與維數(shù)無關(guān),因而可以避免由于特征向量的過高維數(shù)所造成的奇異性問題。譜聚類通過特征分解,可以獲得聚類判據(jù)在放松了的連續(xù)域中的全局最優(yōu)解。與其它聚類算法相比,譜聚類具有識別未知分布數(shù)據(jù)集聚類方面的能力,非常適合于許多實際問題,而且執(zhí)行起來比較容易。

聚類數(shù)目不需要人工確定,而是自動迭代循環(huán),找尋CH指標(biāo)最佳時候的K值。考慮到自動迭代的過程,計算成本過高,不可能從最小值2迭代到全部用戶數(shù),這是業(yè)務(wù)上需要高效快速的生產(chǎn)要求不符合。故模型針對此問題做了如下處理:提前找尋社區(qū)家庭戶數(shù),一般的社區(qū)都是有固定房屋總數(shù)且發(fā)布到互聯(lián)網(wǎng)上,且數(shù)據(jù)是比較精確的。通過此就得獲得最后社區(qū)劃分的聚類數(shù)的大致范圍,即Kmin與Kmax用于自動迭代聚類模型數(shù)[3],此處理方式一定最大程度上減少模型自動迭代次數(shù)。比如社區(qū)房屋總數(shù)X戶,考慮說不可能入住率百分百,通過互聯(lián)網(wǎng)房地產(chǎn)中介數(shù)據(jù)了解到社區(qū)的入住率y%,加之移動用戶市場覆蓋率z%左右,故自動迭代范圍的計算方式:

(2)聚類效果評估

算法中由相似度矩陣得到拉普拉斯矩陣后,接下來要確定所需特征向量的數(shù)目,它與最終的聚類數(shù)目相等。雖然該數(shù)目可以由人工確定,但是準(zhǔn)確地給出對聚類效率和最終的聚類質(zhì)量有直接影響的數(shù)目值是個非常困難的問題。因此,如何自動確定聚類數(shù)目成為譜聚類需要解決的關(guān)鍵問題之一。

基于數(shù)據(jù)集樣本幾何結(jié)構(gòu)的指標(biāo)根據(jù)數(shù)據(jù)集本身和聚類結(jié)果的統(tǒng)計特征對聚類結(jié)果進行評估,并根據(jù)聚類結(jié)果的優(yōu)劣選取最佳聚類數(shù),這些指標(biāo)有Calinski-Harabasz(CH)指標(biāo),Davies-Bouldin(DB)指標(biāo)Weighted interintra(Wint)指標(biāo),Krzanowski-Lai(KL)指標(biāo),Hartigan(Hart)指標(biāo),In-Group Proportion(IGP)指標(biāo)等。本文主要采用的是Calinski-Harabasz(CH)指標(biāo)。

CH指標(biāo)通過類內(nèi)離差矩陣描述緊密度,類間離差矩陣描述分離度,指標(biāo)定義為:

其中,n表示聚類的數(shù)目,k表示當(dāng)前的類,trB(k)表示類間離差矩陣的跡,trW(k)表示類內(nèi)離差矩陣的跡??梢缘贸鯟H越大代表著類自身越緊密,類與類之間越分散,即更優(yōu)的聚類結(jié)果。

3.3 家庭成員識別模型設(shè)計

模型基于譜聚類算法,小區(qū)成員數(shù)據(jù)來自于客戶居住地識別模型結(jié)果,整體實驗方法主要是通過對社區(qū)目標(biāo)用戶群及其通信情況數(shù)據(jù)的處理,構(gòu)建目標(biāo)用戶交往圈,使用機器學(xué)習(xí)聚類分析算法,以成員通信緊密度為維度,以群內(nèi)成員聯(lián)系緊密,群間成員聯(lián)系稀疏為原則,選取最佳分群數(shù)目,對目標(biāo)用戶群進行分群操作,分割出社區(qū)中的家庭簇群[4]。

算法描述如表1所示。

表1 基于譜聚類的電信家庭用戶識別模型

4 效果驗證

4.1 驗證環(huán)境和工具

該模型的實現(xiàn),是在Linux平臺上實現(xiàn)的,在這個實現(xiàn)過程中,用oracle數(shù)據(jù)庫存取數(shù)據(jù),對數(shù)據(jù)進行初步清洗,利用python進行數(shù)據(jù)預(yù)處理、分析及聚類,最后是以excel和txt文件的形式輸出結(jié)果。具體模型使用工具如表2所示。

表2 模型使用工具

4.2 實驗數(shù)據(jù)

模型將東莞市**小區(qū)作為測試樣本進行了模型準(zhǔn)確性驗證,具體如下:

通過互聯(lián)網(wǎng)渠道獲取,已知**小區(qū)房屋總數(shù)2 500戶,基站信息覆蓋齊全,東莞移動市場份額y%,小區(qū)入住率87%。

利用小區(qū)的谷歌地球經(jīng)緯度,獲取位置在小區(qū)周圍400米的宏基站駐留用戶1萬多,交往記錄50萬左右,進行異常值處理,剩余近8千目標(biāo)用戶。通過模型算法切割成2 000左右個聚類群,最后選取了50個家庭(127個)的種子用戶號碼用于識別模型計算。

4.3 算法效果驗證

通過識別模型計算,共識別出2283個家庭成員群,其中種子家庭數(shù)50個,成功識別42個,識別率到84%,具體數(shù)據(jù)如表3所示。

表3 家庭成員識別模型驗證結(jié)果

(1)誤差分析

這個結(jié)果存在一定的誤差,主要有以下幾個現(xiàn)象。

① 發(fā)現(xiàn)因部分家庭成員出差或者學(xué)生等原因,不能滿足社區(qū)基站駐留時長要求導(dǎo)致的,存在少數(shù)家庭群體未覆蓋齊整的情況。

② 有部分用戶家庭群體里有一些聯(lián)系緊密的朋友,也同住一個小區(qū),沒有成功分離。

③ 同時算法理論(CH最佳)大于預(yù)先設(shè)置的最大值,說明部分群體應(yīng)該切割得更碎。

但從數(shù)據(jù)上看,識別結(jié)果符合基本情況,該模型是滿足家庭成員識別準(zhǔn)確性要求的。

(2)模型優(yōu)化

當(dāng)前在生產(chǎn)過程中,模型算法在處理目標(biāo)用戶達(dá)到萬級以上的分割任務(wù)時,即使目標(biāo)用戶的相似矩陣經(jīng)過稀疏處理后,運算時間復(fù)雜度依舊很高,尤其是要分割成任務(wù)幾千個群體的時候,性能問題以及以上造成誤差的問題需要通過運營商內(nèi)部網(wǎng)絡(luò)技術(shù)的提高來進行后續(xù)優(yōu)化:

整體的解決思路是,可降低目標(biāo)用戶的體量或者減少所要切割的群體數(shù)量。按照目前運營商的技術(shù)及數(shù)據(jù)能力上,可以將從覆蓋社區(qū)的宏基站下沉到僅能覆蓋樓棟的室分基站上去,將目標(biāo)用戶群體從社區(qū)的幾萬,先分成幾十上百個樓棟的小目標(biāo)群體,每個小目標(biāo)用戶數(shù)量級以百級,所需要再進行切割的聚類數(shù)是幾十個,這樣就大大減少了模型的計算時間成本,也能將社區(qū)周邊的商鋪、快遞外賣等低接觸人員、偶爾串門的朋友剔除出室分基站目標(biāo)群,一定程度上提高模型的異常數(shù)據(jù)占比。且不需要一線渠道經(jīng)理提供社區(qū)資料,一切在后臺便能處理。

實踐是檢驗真理的唯一標(biāo)準(zhǔn),經(jīng)典的算法思想猶如巨人,本文站在巨人的肩膀上考究如何將算法和實踐相結(jié)合,解決實際生產(chǎn)問題,現(xiàn)階段已能解決了初步的業(yè)務(wù)問題。但業(yè)務(wù)是在不斷發(fā)展的,模型也需要根據(jù)實際的生產(chǎn)要求進行優(yōu)化,希望以上的模型研究過程碰到的問題能給予該領(lǐng)域研究人士一些參考,便是本文最大的收獲。

猜你喜歡
家庭成員聚類家庭
家庭成員的排序 決定孩子的格局
海峽姐妹(2019年7期)2019-07-26 00:50:48
家庭“煮”夫
安邸AD(2019年2期)2019-06-11 05:29:18
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
戀練有詞
論蔡和森、李富春革命家庭成員赴法勤工儉學(xué)之原因
湖湘論壇(2016年2期)2016-12-01 04:22:52
基于改進的遺傳算法的模糊聚類算法
一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
尋找最美家庭
尋找最美家庭
自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
饶平县| 简阳市| 辽宁省| 丰城市| 象州县| 白山市| 普格县| 东方市| 河津市| 白玉县| 万荣县| 凤凰县| 内丘县| 怀化市| 白水县| 廊坊市| 黑龙江省| 五家渠市| 玉林市| 屏山县| 泾阳县| 民丰县| 通榆县| 长子县| 察隅县| 吴忠市| 平安县| 保山市| 柳林县| 广河县| 平远县| 闻喜县| 南木林县| 蒲江县| 吴桥县| 宁乡县| 巩留县| 抚顺县| 荥阳市| 桑日县| 贵州省|