蔣仕寶 陳少權(quán)
摘要:為了有效解決重入網(wǎng)用戶(hù)運(yùn)營(yíng)成本和運(yùn)營(yíng)風(fēng)險(xiǎn)“雙高”的難題,在采用改進(jìn)TF-IDF提取用戶(hù)有效交往圈的基礎(chǔ)上,通過(guò)加權(quán)余弦相似度衡量移動(dòng)用戶(hù)呼叫交往圈的匹配程度來(lái)判斷新入網(wǎng)的用戶(hù)是否為重入網(wǎng)用戶(hù),以此幫助通信運(yùn)營(yíng)商有效甄別市場(chǎng)虛增高和用戶(hù)高流失的現(xiàn)象。經(jīng)過(guò)實(shí)驗(yàn)表明,該算法具有較高的識(shí)別準(zhǔn)確度和識(shí)別速度,并具有較好的擴(kuò)展性。
關(guān)鍵詞:呼叫指紋 重入網(wǎng) 改進(jìn)TF-IDF 匹配度
1 引言
重入網(wǎng)是指移動(dòng)用戶(hù)正在使用或者曾經(jīng)使用一家移動(dòng)運(yùn)營(yíng)商的通信服務(wù),而在短期內(nèi)又購(gòu)買(mǎi)所歸屬的同一移動(dòng)運(yùn)營(yíng)商新號(hào)碼入網(wǎng),新號(hào)碼全部或者部分替代原有舊號(hào)碼[1]。造成移動(dòng)用戶(hù)重入網(wǎng)的原因主要包括:運(yùn)營(yíng)商的營(yíng)銷(xiāo)方案偏向于吸引新用戶(hù),導(dǎo)致老用戶(hù)的忠誠(chéng)度降低;運(yùn)營(yíng)商對(duì)社會(huì)渠道的激勵(lì)政策偏重于銷(xiāo)售傭金,社會(huì)渠道通過(guò)對(duì)部分傭金補(bǔ)貼到新用戶(hù)的手段來(lái)誘導(dǎo)用戶(hù)重入網(wǎng)。
重入網(wǎng)會(huì)造成卡號(hào)資源浪費(fèi)、市場(chǎng)虛增高、用戶(hù)流失率過(guò)高等嚴(yán)重后果,極大程度影響運(yùn)營(yíng)商精準(zhǔn)營(yíng)銷(xiāo)的戰(zhàn)略布局。如何準(zhǔn)確有效地識(shí)別重入網(wǎng)用戶(hù),挖掘用戶(hù)重入網(wǎng)的原因,進(jìn)而為運(yùn)營(yíng)商提高用戶(hù)發(fā)展的質(zhì)量和降低運(yùn)營(yíng)的成本及風(fēng)險(xiǎn),是近年來(lái)我國(guó)移動(dòng)通信關(guān)注的一項(xiàng)新技術(shù)。其中,基于呼叫指紋的重入網(wǎng)用戶(hù)的識(shí)別技術(shù)是當(dāng)前的研究主流,這種方法的思路是利用移動(dòng)用戶(hù)在使用業(yè)務(wù)過(guò)程中所產(chǎn)生的相關(guān)數(shù)據(jù),再采用數(shù)據(jù)挖掘的手段提取其中所隱含的用戶(hù)特征。因?yàn)樵趯?shí)際生活中,每個(gè)用戶(hù)都有自己的獨(dú)特性,那么用戶(hù)對(duì)手機(jī)的使用行為和呼叫對(duì)象也應(yīng)該有鮮明的特征性。目前主要的研究方法包括:利用交往頻度和通話次數(shù)計(jì)算交往圈重合度,進(jìn)而識(shí)別重入網(wǎng)用戶(hù)[1-2];利用用戶(hù)交往號(hào)碼的通話次數(shù)、通話時(shí)長(zhǎng),建立新老用戶(hù)的交往圈指紋庫(kù),再通過(guò)向量的余弦值計(jì)算用戶(hù)語(yǔ)音交往圈指紋相似度來(lái)識(shí)別重入網(wǎng)用戶(hù)[3-4];通過(guò)改進(jìn)Hausdorff算法來(lái)提高識(shí)別重入網(wǎng)用戶(hù)的精度和速度[5];利用改進(jìn)TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-逆文檔頻率)的權(quán)重來(lái)排除公共號(hào)碼,再通過(guò)余弦相似性來(lái)判斷重入網(wǎng)用戶(hù),進(jìn)而達(dá)到提升速度的目的[6]。本文在已有研究的基礎(chǔ)上,基于用戶(hù)的呼叫指紋建立用戶(hù)的語(yǔ)音交往圈,再采用改進(jìn)TF-IDF算法提取用戶(hù)的交往圈,最后通過(guò)余弦相似度的算法來(lái)計(jì)算新老用戶(hù)的有效交往圈指紋庫(kù)的匹配度,并根據(jù)匹配度的排序來(lái)提取重入網(wǎng)用戶(hù)。
2 重入網(wǎng)識(shí)別的思路與相關(guān)理論研究
2.1 重入網(wǎng)用戶(hù)識(shí)別
重入網(wǎng)用戶(hù)的識(shí)別原理是對(duì)比新增用戶(hù)特征和離網(wǎng)用戶(hù)在系統(tǒng)中記錄的特征。如果特征符合判斷條件,則認(rèn)為該用戶(hù)是重入網(wǎng)用戶(hù);如果沒(méi)有符合特征的記錄,則認(rèn)為該用戶(hù)是新增用戶(hù)[7]。呼叫指紋是指移動(dòng)用戶(hù)在發(fā)生移動(dòng)業(yè)務(wù)的過(guò)程中產(chǎn)生一系列的信息組合:通話群體(與用戶(hù)發(fā)生通話的對(duì)象)的通話習(xí)慣(通話頻次與通話時(shí)長(zhǎng))。因?yàn)槿魏蔚膬蓚€(gè)移動(dòng)用戶(hù)之間的通話群體和通話習(xí)慣都會(huì)存在一定的差異,這種差異就類(lèi)似于人類(lèi)的指紋一樣,可作為不同用戶(hù)的一個(gè)標(biāo)識(shí)。因此,本文定義的重入網(wǎng)用戶(hù)識(shí)別是通過(guò)一系列的用戶(hù)呼叫指紋進(jìn)行相似度計(jì)算的識(shí)別技術(shù),進(jìn)而判別重入網(wǎng)用戶(hù)。重入網(wǎng)用戶(hù)識(shí)別流程圖如圖1所示。
2.2 建立語(yǔ)音交往圈指
紋庫(kù)
首先對(duì)用戶(hù)交往圈內(nèi)的呼叫詳單信息進(jìn)行匯總,提取的字段包括用戶(hù)交往號(hào)碼的通話次數(shù)和通話時(shí)長(zhǎng),分別建立新老用戶(hù)的呼叫交往圈指紋庫(kù)。
交往圈是指移動(dòng)用戶(hù)聯(lián)系頻繁且保持長(zhǎng)時(shí)間交往的用戶(hù)群體。但是,如果僅僅根據(jù)用戶(hù)的通話次數(shù)和通話時(shí)長(zhǎng)等衡量用戶(hù)“緊密度”的方式來(lái)確定用戶(hù)交往圈的重要通話群體,便會(huì)把一些公共號(hào)碼、快遞號(hào)碼、送餐號(hào)碼等非重要通話群體納入其中。因此,需要采用一些技術(shù)手段處理上述非重要通話群體,提取有效的交往圈指紋庫(kù),以保證重入網(wǎng)用戶(hù)識(shí)別的質(zhì)量。本文采用改進(jìn)TF-IDF算法來(lái)計(jì)算用戶(hù)與通話群體的呼叫特征系數(shù),選取特征系數(shù)大于設(shè)定的閾值的用戶(hù)群體,提取有效的用戶(hù)交往圈。
2.3 采用改進(jìn)TF-IDF算法提取有效的交往圈
有效交往圈是指與一個(gè)移動(dòng)號(hào)碼發(fā)生通信行為且具有相對(duì)重要和緊密程度的對(duì)端號(hào)碼集合[8]。眾所周知,用戶(hù)之間的通話次數(shù)越多,表示用戶(hù)之間越“緊密”,而衡量用戶(hù)之間的重要程度則需要一個(gè)重要性的調(diào)整系數(shù)。
重要性調(diào)整系數(shù)來(lái)源于TF-IDF中的逆文檔頻率(IDF)。TF-IDF方法是Salton和MeGill在1983年針對(duì)向量空間信息檢索范例(Vector Space Information Retrieval Paradigm)提出的文檔特征表示方法[4],也就是提取文檔的關(guān)鍵詞的方法。該算法有兩個(gè)重要的指標(biāo):TF和IDF。TF稱(chēng)為詞頻,也就是關(guān)鍵詞在文檔出現(xiàn)的次數(shù);IDF稱(chēng)為逆文檔頻率,是關(guān)鍵詞在全部文檔集中出現(xiàn)的頻率,它作為一個(gè)重要性調(diào)整系數(shù),來(lái)衡量一個(gè)關(guān)鍵詞是不是常見(jiàn)詞,其在全部文檔集出現(xiàn)的頻率越高,表明該關(guān)鍵詞沒(méi)有區(qū)分度,不能反映該文檔的特征。
TF-IDF的算法為:
(1)
分子是關(guān)鍵詞在文檔中出現(xiàn)的頻率,分母是所有關(guān)鍵詞出現(xiàn)的頻率合計(jì)。
(2)
分子為文檔集中的文檔數(shù)量,分母為文檔集中出現(xiàn)過(guò)關(guān)鍵詞的文檔數(shù)量。基于公式(1)和(2),TF-IDF定義為:
tfidf=tf×idf (3)
借鑒TF-IDF算法的思想,本文對(duì)TF-IDF進(jìn)行改進(jìn),在通話頻次的基礎(chǔ)上,結(jié)合通話時(shí)長(zhǎng)和通話逆頻率對(duì)緊密用戶(hù)分配一個(gè)“重要性”權(quán)重。
假設(shè)需要對(duì)用戶(hù)u的交往圈內(nèi)的所有用戶(hù)進(jìn)行呼叫指紋處理,那么用戶(hù)u交往圈內(nèi)的其中一位用戶(hù)v的緊密度和重要性表達(dá)式為:
TF-IDFuv=Tuv/Tu×tfuv×idfuv (4)
其中,Tuv為用戶(hù)u與用戶(hù)v在一段時(shí)間內(nèi)的總通話時(shí)長(zhǎng);Tu為用戶(hù)u與所有用戶(hù)在一段時(shí)間內(nèi)的總通話時(shí)長(zhǎng);tfuv為用戶(hù)u與用戶(hù)v的通話頻率;idfuv為用戶(hù)v與所有用戶(hù)通話的逆頻率。
2.4 計(jì)算新老用戶(hù)的有效交往圈指紋庫(kù)的匹配度
匹配度是評(píng)價(jià)兩個(gè)移動(dòng)用戶(hù)之間在重合指標(biāo)上的相似度。采用加權(quán)余弦相似度的方法表示匹配度的公式為:
(5)
其中,xj、yj分別表示匹配移動(dòng)用戶(hù)和待匹配移動(dòng)用戶(hù)的第j個(gè)重合指標(biāo);α1和β1分別表示兩個(gè)用戶(hù)每個(gè)指標(biāo)的權(quán)重。
基于交往圈的思想,衡量交往圈指紋庫(kù)的匹配度就是需要衡量匹配用戶(hù)和待匹配用戶(hù)的前n個(gè)共同朋友的呼叫緊密度及重要性的相似度。
假設(shè)用戶(hù)u交往圈表示為Du=(a1, a2, …, an),其中an表示用戶(hù)u交往圈的前n個(gè)共同好友,如果考慮每個(gè)用戶(hù)的呼叫緊密度和重要性的不一致性,則得到Du=(a1w1, a2w2, …, anwn),簡(jiǎn)記為(w1, w2, …, wn),wn表示用戶(hù)an的呼叫緊密度和重要性,用戶(hù)之間的緊密度和重要性可由公式(4)計(jì)算得出。那么,匹配度公式為:
(6)
其中,w1k、w2k分別代表用戶(hù)D1及用戶(hù)D2第k個(gè)朋友的呼叫緊密度和重要性,1≤k≤n,為了縮短計(jì)算的時(shí)間,根據(jù)緊密度和重要性的大小進(jìn)行排序,取n=top20即可。
3 實(shí)驗(yàn)過(guò)程
(1)提取用戶(hù)呼叫詳單的關(guān)鍵字段
用戶(hù)的呼叫詳單字段很多,根據(jù)本文的數(shù)據(jù)挖掘需求,提取用戶(hù)呼叫詳單的關(guān)鍵字段包括主叫號(hào)碼、日期/時(shí)間、呼叫時(shí)長(zhǎng)、被叫號(hào)碼。具體如表1所示:
(2)建立新老用戶(hù)呼叫交往圈指紋庫(kù)
對(duì)每個(gè)用戶(hù)的呼叫詳單進(jìn)行匯總,分別建立新老用戶(hù)的呼叫交往圈指紋庫(kù)。號(hào)碼為18676445***的用戶(hù)呼叫交往圈的部分指紋庫(kù)如表2所示:
(3)采用改進(jìn)TF-IDF算法提取有效的交往圈
采用公式(4)計(jì)算號(hào)碼為18676445***的用戶(hù)與交往圈內(nèi)部分用戶(hù)的緊密度和重要性如表3所示。
采用改進(jìn)TF-IDF算法計(jì)算18676445***交往圈的所有用戶(hù)的TF-IDF值,再基于設(shè)定的閾值(0.05)提取18676445***的有效交往圈。
(4)計(jì)算新老用戶(hù)匹配度,識(shí)別重入網(wǎng)用戶(hù)
采用改進(jìn)TF-IDF算法確定新老用戶(hù)的有效交往圈指紋庫(kù)后,需要衡量匹配用戶(hù)和待匹配用戶(hù)的前n個(gè)共同朋友的呼叫緊密度和重要性的相似度。根據(jù)公式(6)對(duì)多次抽樣3萬(wàn)新用戶(hù)與老用戶(hù)的呼叫特征進(jìn)行余弦相似度計(jì)算,匹配結(jié)果如表4所示:
由表4可知,相似度的閾值的合理范圍為(0.4537, 0.5536),運(yùn)營(yíng)商可以按照該范圍對(duì)重入網(wǎng)的新用戶(hù)進(jìn)行重入網(wǎng)原因的分析,為后續(xù)的用戶(hù)維護(hù)和營(yíng)銷(xiāo)工作提供數(shù)據(jù)支撐。
4 結(jié)束語(yǔ)
本文考慮每個(gè)移動(dòng)用戶(hù)呼叫指紋的差異,結(jié)合采用改進(jìn)TF-IDF和加權(quán)余弦相似度的算法識(shí)別重入網(wǎng)用戶(hù)。實(shí)驗(yàn)表明,綜合用戶(hù)在交往圈的呼叫頻率和呼叫時(shí)長(zhǎng)對(duì)算法進(jìn)行改進(jìn),有助于提升用戶(hù)重入網(wǎng)的識(shí)別效率,為通信運(yùn)營(yíng)商準(zhǔn)確預(yù)測(cè)市場(chǎng)占有率,及時(shí)調(diào)整營(yíng)銷(xiāo)策略,規(guī)避經(jīng)營(yíng)風(fēng)險(xiǎn)提供強(qiáng)有力的依據(jù)。
參考文獻(xiàn):
[1] 蒲鋒,田真. 基于呼叫指紋的重入網(wǎng)識(shí)別研究[J]. 中國(guó)新通信, 2007(9): 74-76.
[2] 李鐵鋼,馬駟良,王春勝. 基于“呼叫指紋”的重入網(wǎng)識(shí)別算法及其在移動(dòng)市場(chǎng)占有率預(yù)測(cè)中的應(yīng)用[J]. 現(xiàn)代情報(bào), 2006(12): 207-208.
[3] 艾達(dá),羅愛(ài)平. 移動(dòng)通信重入網(wǎng)用戶(hù)識(shí)別算法分析研究[J]. 西安郵電學(xué)院學(xué)報(bào), 2012,17(3): 30-33.
[4] 羅亞. 移動(dòng)電話用戶(hù)重入網(wǎng)識(shí)別及營(yíng)銷(xiāo)建議[D]. 北京: 北京郵電大學(xué), 2010.
[5] 李鐵鋼,馬駟良,王彥. 改進(jìn)的呼叫指紋算法及其在重入網(wǎng)識(shí)別中的應(yīng)用[J]. 吉林大學(xué)學(xué)報(bào): 理學(xué)版, 2007,45(2): 254-255.
[6] 劉清松,王霓虹,王偉. 權(quán)重算法在計(jì)算移動(dòng)用戶(hù)重入網(wǎng)的應(yīng)用[J]. 自動(dòng)化技術(shù)與應(yīng)用, 2009,28(2): 19-21.
[7] 賀彬. 電信經(jīng)營(yíng)分析系統(tǒng)重入網(wǎng)子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 成都: 電子科技大學(xué), 2007.
[8] 陸菁. 基于移動(dòng)通信交往圈的家庭用戶(hù)識(shí)別研究[D]. 上海: 上海交通大學(xué), 2014.
[9] 陳大力,沈巖濤,謝檳竹,等. 基于余弦相似度模型的最佳教練遴選算法[J]. 東北大學(xué)學(xué)報(bào): 自然科學(xué)版, 2014,35(12): 1697-1700.
[10] 徐忠健,陳孚,任小龍,等. 基于TF-IDF算法的家庭關(guān)系識(shí)別模型構(gòu)建及其應(yīng)用[J]. 井岡山大學(xué)學(xué)報(bào): 自然科學(xué)版, 2012,33(5): 54-58.★