国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向用戶地理位置的電信大數(shù)據(jù)分群方法研究與實現(xiàn)

2021-07-19 11:11蔡一欣劉穎慧
信息通信技術(shù) 2021年3期
關(guān)鍵詞:活躍軌跡聚類

蔡一欣 劉穎慧 李 堃 廖 軍

中國聯(lián)通研究院 北京 100176

引言

近年來,隨著我國數(shù)據(jù)通信和移動互聯(lián)網(wǎng)的高速發(fā)展,不論是傳統(tǒng)行業(yè)還是新興產(chǎn)品行業(yè),數(shù)據(jù)逐漸發(fā)展成為了互聯(lián)網(wǎng)技術(shù)的重要核心。在當(dāng)前的大數(shù)據(jù)時代,要率先與互聯(lián)網(wǎng)開展融合并取得成果,首先要抓住大數(shù)據(jù)中所隱含的規(guī)則,才會有可能搶占先機。相比于以往的傳統(tǒng)數(shù)據(jù),大數(shù)據(jù)在技術(shù)上具備的特點包括數(shù)據(jù)規(guī)模大、數(shù)據(jù)類型繁多、數(shù)據(jù)價值和信息密度相對偏低、數(shù)據(jù)處理速度快、對時效性要求高[1]。

目前,針對大數(shù)據(jù)膨脹所提出的各種有效解決行業(yè)發(fā)展問題的創(chuàng)新方法,是各企業(yè)持續(xù)發(fā)展的有力支撐。移動互聯(lián)網(wǎng)和互聯(lián)網(wǎng)所提供的各種個性化服務(wù),要求不斷改善和提升使用者的體驗。一般對于用戶大數(shù)據(jù)的處理,可以分為事后風(fēng)險和追溯,在用戶大量的數(shù)據(jù)中挖掘信息,為企業(yè)提供決策,從而提升用戶體驗。例如,以阿里巴巴電商公司為主要代表的互聯(lián)網(wǎng)電商搭建了一個大數(shù)據(jù)處理系統(tǒng),用于實時統(tǒng)計和分析消費者的行為,細(xì)分客戶隨時更新自己的商品推薦列表[2]。以美國T-Mobile為主要代表的運營商已經(jīng)開展了大數(shù)據(jù)分析的技術(shù)研究工作,通過集成數(shù)據(jù)進(jìn)行綜合分析,確定消費者流失的原因,根據(jù)分析結(jié)果優(yōu)化網(wǎng)絡(luò)布局,為廣大消費者和企業(yè)提供了更好的服務(wù)和體驗。用戶的數(shù)據(jù)分析通常是量級的處理,利用用戶的天然特征和行為特征,縱向?qū)ε坑脩暨M(jìn)行分析,從而提高數(shù)據(jù)處理的速度,通常分析用戶屬性的方法就是用戶分群。運營商目前主要的用戶分群場景及規(guī)則,大多是通過用戶的消費習(xí)慣和瀏覽視頻、信息等行為偏好提取出群體類別,對群體進(jìn)行定點營銷。針對用戶的消費特征,將用戶分為高中低端用戶,結(jié)合消費類別,又細(xì)分為流量型、話費型用戶,在此基礎(chǔ)上對不同消費傾向的群體匹配對應(yīng)的營銷策略[3]。例如,韓國通信公司 SK telecom新成立名為SK Planet的公司,通過移動互聯(lián)網(wǎng)和大數(shù)據(jù)分析等技術(shù)對于所有用戶的韓國網(wǎng)絡(luò)網(wǎng)頁瀏覽器的使用和用戶體驗記錄進(jìn)行數(shù)據(jù)分析。

電信行業(yè)數(shù)據(jù)主要是個人的基本信息、用戶的電信消費記錄以及活動軌跡,具有數(shù)據(jù)量大、信息密度低的特點。僅根據(jù)靜態(tài)的信息,通常無法對用戶進(jìn)行精準(zhǔn)畫像,運營商需要圍繞最迫切的業(yè)務(wù)開展行動,從市場活動中增加收入。通常與用戶活動關(guān)聯(lián)度最高的是活動軌跡,通過對用戶活動軌跡進(jìn)行分析,定時定點發(fā)放廣告,引導(dǎo)用戶自己做決策,把握控制權(quán),是目前運營商在用戶分析領(lǐng)域另辟蹊徑的途徑之一。

大數(shù)據(jù)的實時性、無限性、突發(fā)性等特征決定了傳統(tǒng)的數(shù)據(jù)計算理念不再被廣泛地應(yīng)用,取而代之的是針對特定數(shù)據(jù)類型、特定場景下的大數(shù)據(jù)處理算法。電信大數(shù)據(jù)的處理在實時推薦、用戶營銷等場景中的地位日漸凸顯,可以幫助運營商提升營銷效率和優(yōu)化流程。對于用戶地理位置的數(shù)據(jù)分析,在技術(shù)上和應(yīng)用場景上都面臨著前所未有的挑戰(zhàn)。

1 大數(shù)據(jù)分群方法

對于電信大數(shù)據(jù)中用戶地理位置分析,目前的研究大多基于用戶位置數(shù)據(jù),開展用戶工作地識別[4]、同住宅區(qū)篩選[5]、流動人口數(shù)量統(tǒng)計[6]等方面的應(yīng)用,最常用的研究方法是軌跡聚類。針對地理位置的聚類算法是在大數(shù)據(jù)挖掘過程中獲取信息的重要途徑和方法之一,經(jīng)典的軌跡聚類方法大多采用基于距離和密度的方法判斷軌跡的相似性。聚類分析需要使用的大量數(shù)據(jù)沒有任何類別標(biāo)記,算法需在原始數(shù)據(jù)的處理中探索得出一定規(guī)律,最后計算出符合這些規(guī)律的結(jié)果。近年來隨著機器學(xué)習(xí)和人工智能的發(fā)展,聚類算法出現(xiàn)了基于人工神經(jīng)網(wǎng)絡(luò)、支持向量機以及基于核聚類的方法。需要特別指出的是,這些改進(jìn)的聚類的準(zhǔn)則函數(shù)一般由人為設(shè)定的終止條件實現(xiàn),而這些終止條件并沒有統(tǒng)一的標(biāo)準(zhǔn)。由此可見聚類算法具有一定的主觀性,需要根據(jù)實際情況對聚類所揭示的數(shù)據(jù)結(jié)構(gòu)進(jìn)行進(jìn)一步歸納總結(jié)。因此,本文主要以聚類算法為主,研究其在聚類結(jié)果隸屬程度方面的改進(jìn)過程[7]。

常見的聚類算法包括K-均值(K-Means)、模糊C-均值聚類(FCM)、層次聚類(Agglomerative clustering)等,具有靈活、快速、應(yīng)用范圍廣等特點,前期需要對數(shù)據(jù)進(jìn)行預(yù)處理和特征選取。K-Means是一種具有排他性的目標(biāo)聚類方法,即一個目標(biāo)的數(shù)據(jù)僅歸納為一個特定的類別[8],分群數(shù)隨機產(chǎn)生,K值確定較為困難,且對于初始聚類中心非常敏感,容易陷入局部最優(yōu)解。層次聚類算法的初始對象是所有目標(biāo),將兩個距離最近的目標(biāo)合并,不斷重復(fù)直到達(dá)到預(yù)設(shè)簇的數(shù)目為止[9],具有相似度容易定義、可以發(fā)現(xiàn)類的層次關(guān)系的優(yōu)點,但是時間復(fù)雜度大,聚類過程不可逆。FCM模糊了目標(biāo)聚類的邊界,結(jié)果可分為多類,在應(yīng)用中更能描述實際的情況,然而抗噪性較差、容易出現(xiàn)局部收斂的聚類結(jié)果[10]。實際情況下,用戶的活動點是復(fù)合的,當(dāng)用戶活動范圍較小時,一個活躍點可能涉及多個類型的地點,用戶所屬類別不應(yīng)是單一的,因此采用FCM算法,能夠更加貼合現(xiàn)實情況。

針對現(xiàn)有的運營商在用戶大數(shù)據(jù)處理中面臨的問題與不足,本文在地理位置變化的實時推薦場景下,提出了一種基于改進(jìn)FCM的大數(shù)據(jù)分群算法,可以根據(jù)用戶實時位置、歷史位置及個人軌跡的地理信息判斷不同用戶在地理空間尺度的相似性,對用戶進(jìn)行分群。此外,本文還針對該算法進(jìn)行實際的大數(shù)據(jù)測試,分析不同聚類算法對分群結(jié)果的影響,驗證改進(jìn)FCM算法的有效性。最后針對該大數(shù)據(jù)分群算法對業(yè)務(wù)需求的適配性進(jìn)行展望,幫助在用戶做出決定之前推出符合用戶興趣的合作業(yè)務(wù),便于針對不同群體進(jìn)行定向營銷。

2 面向用戶地理位置信息的大數(shù)據(jù)分群方法

大數(shù)據(jù)的應(yīng)用廣泛且涉及場景繁多,對于電信運營商來說,大數(shù)據(jù)在中國的電信移動網(wǎng)絡(luò)產(chǎn)品和服務(wù)行業(yè)市場上具有重要作用,特別是在精準(zhǔn)市場營銷和實現(xiàn)客戶關(guān)系有效管理等方面。本文基于大數(shù)據(jù)的特征,設(shè)計了一種面向用戶地理位置信息的大數(shù)據(jù)分群方法,包括數(shù)據(jù)預(yù)處理、改進(jìn)FCM分群算法并確定分群評價指標(biāo)。

2.1 數(shù)據(jù)預(yù)處理

針對用戶地理位置的特點,對數(shù)據(jù)集內(nèi)容進(jìn)行預(yù)處理,降低數(shù)據(jù)集內(nèi)容的不平衡性,以此提升算法在非平衡性數(shù)據(jù)集上分群的準(zhǔn)確度和可靠性。

1)獲取用戶位置及歷史軌跡

對于用戶的位置數(shù)據(jù),提取用戶近1個月的位置日志,以日與星期為單位,對數(shù)據(jù)進(jìn)行預(yù)處理。以位置數(shù)據(jù)中有效地點為圓心,半徑200m的區(qū)域為策略區(qū),有效到訪地點為用戶設(shè)備進(jìn)入策略區(qū)并停留5min及以上的位置。從位置日志中提取用戶有效到訪地點,構(gòu)建位置向量P={p1,p2,…,pn},每個向量包含三個維度,緯度(Latitude)、經(jīng)度(Longitude)和時間戳(Time)。根據(jù)時間戳連接位置點,構(gòu)建用戶活動歷史數(shù)據(jù)。

從用戶活動數(shù)據(jù)中提取活躍點,活躍點為停留1h以上或者每周到訪3次以上的區(qū)域。通?;钴S點都具有一定特殊含義,例如工作地點、學(xué)校、家、健身房、超市等用戶經(jīng)常停留的地方。以一個用戶的活動軌跡為例,每個矩陣表示用戶在不同時間的位置變化。一個用戶A一天到訪Y個地點,可建立一個3×y的矩陣AY,表示用戶到訪地點的緯度、經(jīng)度和時間,如公式(1)所示,其中PY=[LatY,LonY,TY],代表用戶到訪第y個地點的經(jīng)度、緯度及時間。

2)構(gòu)建活躍點與時間戳矩陣

標(biāo)記活躍點H后,可以建立活躍點矩陣HM。用戶A本月共有m個活躍點,可建立一個2×m的活躍點矩陣HM,表示用戶活躍點的緯度、經(jīng)度,如公式(2)所示。

用戶A與用戶B的活動軌跡如圖1所示,實心點表示策略區(qū),空心圓表示活躍點。

圖1 基于活躍點的用戶歷史軌跡

提取同一時間戳下所有用戶的活躍點,構(gòu)建時間戳矩陣TS。在某個預(yù)設(shè)時間戳信息TK,提取TK時刻的所有用戶設(shè)備的活躍點的經(jīng)度和緯度。設(shè)定在時間戳為TK時,所有用戶包括S個活躍點,則根據(jù)S個活躍點的經(jīng)度和緯度構(gòu)建時間戳矩陣TS,其中,S為大于或等于1的整數(shù)。例如,可采用公式(3)表示TK時刻的時間戳矩陣TS。

用戶A與用戶B的活動軌跡如圖2所示,實心點表示策略區(qū),空心圓表示同一時間戳下的用戶歷史位置。

圖2 基于時間戳的用戶歷史軌跡

2.2 FCM算法改進(jìn)

本文對FCM進(jìn)行了兩個方面的改進(jìn)。其一,在運行環(huán)境方面,將FCM與Hadoop、MapReduce等計算框架有機結(jié)合,實現(xiàn)分布式FCM方法,提高算法的處理效率。其二,在空間隸屬度方面進(jìn)行改進(jìn),具體方法如下:在FCM聚類算法中一個樣本可以不同程度地屬于多個類簇,更能描述實際情況中的現(xiàn)象[10]。FCM的傳統(tǒng)算法流程如下:首先輸入0數(shù)據(jù)集,每一個樣本都有p個特征,輸出為一個c行n列的矩陣U,n為數(shù)據(jù)集中所有樣本個數(shù),c為聚類的數(shù)目,矩陣U代表分群的結(jié)果,表示該樣本對該類別的隸屬程度[11]。算法流程如表1所示。

表1 FCM聚類算法流程

用戶的地理位置數(shù)據(jù)在處理時,對于策略區(qū)與活躍點的判定存在一定模糊的范圍,本文基于上述FCM算法,結(jié)合隸屬度平滑更新方法,對算法進(jìn)行改進(jìn)。

將公式(2)中的經(jīng)度、緯度和時間信息利用線性變換進(jìn)行標(biāo)準(zhǔn)化處理,使經(jīng)度、緯度和時間信息都處于區(qū)間[0,1]內(nèi),得到標(biāo)準(zhǔn)化矩陣。將標(biāo)準(zhǔn)化矩陣中的n個用戶的活躍點信息提取出來作為樣本數(shù)據(jù)的集合,例如,樣本數(shù)據(jù)集合中的第i個樣本數(shù)據(jù)記為i為大于或等于1且小于n的整數(shù),n為大于或等于1的整數(shù)。

輸出c行n列的矩陣U,表示相似性判斷結(jié)果,每一列表示的是該用戶的活躍點矩陣對該分群結(jié)果的隸屬程度。

3 實驗驗證

本文對改進(jìn)的FCM在基于用戶地理位置數(shù)據(jù)的分群場景下進(jìn)行了測試與對比。測試了模糊加權(quán)指數(shù)m對于分群結(jié)果的影響,以及改進(jìn)FCM與未改進(jìn)FCM、K-Means聚類、層次聚類在相同條件下的分群表現(xiàn)。

3.1 實驗數(shù)據(jù)

實驗采用數(shù)據(jù)來自LBS服務(wù)平臺,在2017年2月至2017年10月期間,該平臺用戶通過登錄共享自身位置信息,平臺使用公共API技術(shù)收集用戶移動端常用位置信息[13]。該數(shù)據(jù)集包含上萬個用戶,共計400余萬條簽到信息。篩取相關(guān)字段模擬通信用戶的地理位置信息構(gòu)成實驗數(shù)據(jù)集,數(shù)據(jù)集包括15 000個用戶的有效數(shù)據(jù),數(shù)據(jù)示例如表2所示。

表2 數(shù)據(jù)字段示例

3.2 實驗設(shè)計

為了模擬改進(jìn)的聚類算法實現(xiàn)大數(shù)據(jù)分群的過程并證明方法的有效性,在局域網(wǎng)環(huán)境下基于虛擬機搭建Hadoop虛擬集群,如圖3所示。

圖3 集群架構(gòu)圖

測試集群由4臺機器構(gòu)成,包括1臺主控節(jié)點和3臺從節(jié)點,系統(tǒng)硬件配置均相同,如表3所示。

表3 集群配置

實驗比較了改進(jìn)的FCM算法、K-Means聚類算法、層次聚類算法在數(shù)據(jù)集中的聚類效果,以及不同的模糊加權(quán)指數(shù)m對于分群效果的影響。

為驗證改進(jìn)FCM分群算法的有效性,本文通過RI指標(biāo)和NMI信息兩個評價指標(biāo)對算法進(jìn)行評價,如公式(4)、(5)所示。

其中,a代表有不同標(biāo)簽且分群結(jié)果屬于不同分群類別的樣本數(shù)量,b代表有相同標(biāo)簽且分群結(jié)果屬于同分群類別的樣本數(shù)量,n表示樣本總量,RI表示分群正確的比率。

3.3 實驗結(jié)果及結(jié)論

利用實驗數(shù)據(jù)集進(jìn)行實驗,比較改進(jìn)FCM算法與K-Means聚類、層次聚類算法在m值不同的情況下的對用戶基于地理位置的活躍點進(jìn)行分群的效果,性能表現(xiàn)如表4所示。結(jié)果表明改進(jìn)FCM算法的分群效果顯著好于K-Means算法、層次聚類算法。對比各個算法在不同模糊加權(quán)指數(shù)m下的表現(xiàn),結(jié)果表明m對于分群結(jié)果具有一定影響,當(dāng)m=2時改進(jìn)FCM算法和其他算法均可以得到較好的分群效果。

表4 不同分群方法的性能表現(xiàn)

對比m=2時,改進(jìn)FCM與其他算法在精確率與聚類結(jié)果相似度上的表現(xiàn)。傳統(tǒng)FCM算法與K-Means算法、層次聚類算法的精確率與聚類結(jié)果相近程度差別不大,反而K-Means算法在精確率上具有最好的表現(xiàn)。改進(jìn)的FCM算法在精確率與聚類結(jié)果的相近程度上均有了明顯的提高。相較于K-Means算法,改進(jìn)的FCM算法精確率提高了17.62%,相較于傳統(tǒng)FCM算法,改進(jìn)FCM算法聚類結(jié)果的相近程度明顯提高了34.25%。

綜上所述,經(jīng)過改進(jìn)的FCM算法能一定程度上改善處于邊界上的活躍點矩陣的分群效果,從而能夠更加客觀地反映樣本屬于該類別的隸屬度,在面向用戶地理位置信息的場景下能夠較好地進(jìn)行大數(shù)據(jù)分群。

4 總結(jié)和展望

本文設(shè)計并實現(xiàn)了一個面向用戶地理位置數(shù)據(jù)分析場景的大數(shù)據(jù)分群方法,利用用戶歷史位置數(shù)據(jù)構(gòu)建個人活動軌跡,繪制用戶活動軌跡圖,建立用戶高頻活動點日志。根據(jù)軌跡圖和高頻活動點,建立活躍點矩陣,改進(jìn)FCM算法判斷不同用戶在地理空間尺度的相似性,對用戶進(jìn)行分群。在Hadoop計算框架下測試改進(jìn)FCM、K-Means、層次聚類三種方法在同一數(shù)據(jù)集中的表現(xiàn),得到RI、NMI作為測試指標(biāo),以圖表的形式分析改進(jìn)的FCM分群方法的性能。實驗結(jié)果表明,改進(jìn)的FCM算法的分群效果顯著好于未改進(jìn)的FCM算法、K-Means聚類、層次聚類算法;模糊加權(quán)指數(shù)m對于聚類算法均存在一定影響,當(dāng)m=2時三種算法均能夠達(dá)到較好的分群效果。

電信大數(shù)據(jù)種類繁多、數(shù)據(jù)量龐大,從海量數(shù)據(jù)中挖掘價值并幫助企業(yè)決策成為重要難題。未來將從以下幾個方面進(jìn)一步開展研究,為運營商在用戶數(shù)據(jù)挖掘方面提供機會。一是將改進(jìn)FCM算法應(yīng)用于不同場景下用戶大數(shù)據(jù)分群。二是測試除模糊加權(quán)指數(shù)m外,隸屬度函數(shù)中加權(quán)指數(shù)s、t對于分群結(jié)果的影響。三是與流式大數(shù)據(jù)處理方法相結(jié)合,擴展數(shù)據(jù)源到用戶實時地理位置數(shù)據(jù),從而進(jìn)行更加快速、精準(zhǔn)地定位客戶需求,為客戶運營提供決策參考。四是拓寬應(yīng)用場景,將用戶活躍點的分群與用戶消費水平、采用的電信產(chǎn)品等信息結(jié)合,構(gòu)成社會關(guān)系網(wǎng)絡(luò),細(xì)分用戶標(biāo)簽,提高客戶營銷的精準(zhǔn)度。

猜你喜歡
活躍軌跡聚類
一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
解析幾何中的軌跡方程的常用求法
一種改進(jìn)K-means聚類的近鄰傳播最大最小距離算法
AR-Grams:一種應(yīng)用于網(wǎng)絡(luò)輿情熱點發(fā)現(xiàn)的文本聚類方法
軌跡
軌跡
活躍在抗洪救災(zāi)一線的巾幗身影
這些活躍在INS的時髦萌娃,你Follow了嗎?
基于Spark平臺的K-means聚類算法改進(jìn)及并行化實現(xiàn)
數(shù)據(jù)分析
尖扎县| 玉溪市| 澜沧| 清水县| 平凉市| 清远市| 磐石市| 澄迈县| 任丘市| 麻栗坡县| 兴城市| 海丰县| 拜城县| 房产| 多伦县| 敦化市| 宜章县| 遵义县| 勐海县| 临漳县| 壶关县| 平湖市| 沽源县| 合作市| 大理市| 东山县| 靖江市| 海城市| 聂拉木县| 平邑县| 日喀则市| 淳安县| 禄丰县| 封丘县| 浙江省| 安陆市| 迁安市| 齐河县| 益阳市| 井研县| 高要市|