周 玲,鐘 璐,黃淵軍,吳方權(quán),湯成佳
(1.貴州電網(wǎng)公司信息中心,貴州 貴陽 550003;2.貴州電網(wǎng)公司客戶服務(wù)中心,貴州 貴陽 550003;3.貴州電網(wǎng)有限責(zé)任公司信息中心,貴州 貴陽 550003)
目前,電力企業(yè)服務(wù)體系已經(jīng)初具技術(shù)融合特征,可以從多個(gè)角度對用戶進(jìn)行服務(wù)。但從細(xì)化角度來看,其服務(wù)精準(zhǔn)度始終存在缺陷。
以某用戶用電習(xí)慣為例。電力企業(yè)服務(wù)系統(tǒng)能根據(jù)用電習(xí)慣制定服務(wù)策略。但結(jié)果顯示:因?yàn)橛脩舻怯浟怂松矸?,所以服?wù)系統(tǒng)并未對該用戶進(jìn)行服務(wù),服務(wù)策略未能對實(shí)際用戶目標(biāo)產(chǎn)生能效。此類問題在現(xiàn)代電力服務(wù)系統(tǒng)應(yīng)用當(dāng)中并不罕見。通過用戶畫像和標(biāo)簽功能,可以準(zhǔn)確核實(shí)用戶信息,避免此類問題的發(fā)生。
用戶畫像和標(biāo)簽功能是以畫像為主,根據(jù)工作需要對不同用戶進(jìn)行標(biāo)簽標(biāo)志,幫助工作人員持續(xù)性地完成服務(wù)的功能。
原理上:用戶畫像功能主要根據(jù)用戶行為,獲取其行為日志以及相關(guān)數(shù)據(jù),與用戶帳號相對應(yīng);確認(rèn)用戶信息之后,利用Hadoop分布式集群方式與大數(shù)據(jù)技術(shù)結(jié)合,對用戶信息進(jìn)行深入分析,得到用戶用電喜好、興趣,并依照分析結(jié)果對用戶進(jìn)行標(biāo)簽標(biāo)志。此外,大數(shù)據(jù)分析功能主要由K-means算法實(shí)現(xiàn)。但傳統(tǒng)算法對于初始化中心太過依賴,會(huì)增加很多不必要的麻煩。
對此,在先進(jìn)理論上,需要對K-means算法作改進(jìn),降低改進(jìn)算法對初始化中心的依賴,并提高其準(zhǔn)確性。這一點(diǎn)在先進(jìn)理論中已經(jīng)實(shí)現(xiàn)。因此,本文也將在該算法基礎(chǔ)上,展開相關(guān)研究工作[1-2]。
用戶畫像功能建設(shè)必須先擁有初始數(shù)據(jù)集以及運(yùn)行框架。對此,本文在征得許可的前提下,采用某電力企業(yè)智能系統(tǒng)中的用戶行為日志以及其他信息作為初始數(shù)據(jù)集,并以該單位網(wǎng)絡(luò)服務(wù)架構(gòu)為運(yùn)行框架。初始數(shù)據(jù)集中大多為用戶日志,即用戶在瀏覽服務(wù)網(wǎng)頁時(shí)留下的歷史記錄,例如用戶MAC地址、訪問時(shí)間、接入設(shè)備瀏覽頁面類型、頁面URL、客戶端類型等。此外,用戶日志只能反映用戶需求在某時(shí)段的變化,因此用戶畫像功能應(yīng)當(dāng)將其他相關(guān)信息作為輔助信息一同導(dǎo)入分析系統(tǒng)。而為了獲取輔助信息,需要增加輔助數(shù)據(jù)采集模塊。在該模塊應(yīng)用下,可使功能自動(dòng)化程度增加。此外,為了實(shí)現(xiàn)人機(jī)交互,需要建設(shè)可視化模塊,使工作人員可以看到用戶畫像[3-6]。
用戶畫像與標(biāo)簽功能實(shí)現(xiàn)需要多項(xiàng)技術(shù)支撐,即網(wǎng)絡(luò)爬蟲技術(shù)、大數(shù)據(jù)技術(shù)、可視化技術(shù)。下文將進(jìn)行相關(guān)分析。
①網(wǎng)絡(luò)爬蟲技術(shù)。
根據(jù)相關(guān)理論可知,現(xiàn)代具有用戶畫像與標(biāo)簽功能的電力服務(wù)系統(tǒng),都是采用網(wǎng)絡(luò)爬蟲技術(shù)實(shí)現(xiàn)該功能的,說明此項(xiàng)技術(shù)是功能設(shè)計(jì)中的關(guān)鍵技術(shù)。網(wǎng)絡(luò)爬蟲技術(shù)系統(tǒng)與萬維網(wǎng)連接,根據(jù)用戶發(fā)出指令去下載網(wǎng)頁,并向用戶展示網(wǎng)頁,同時(shí)補(bǔ)充初始數(shù)據(jù)缺陷。此項(xiàng)技術(shù)可實(shí)現(xiàn)用戶畫像與標(biāo)簽功能[7]。
②大數(shù)據(jù)技術(shù)。
大數(shù)據(jù)的形態(tài)眾多,但在用戶畫像與標(biāo)簽功能設(shè)計(jì)中,主要以大數(shù)據(jù)處理平臺(tái)形態(tài)為主。大數(shù)據(jù)處理平臺(tái)主要由Hadoop以及Hive組成。其中,Hadoop屬于開源分布式計(jì)算平臺(tái),具備分布式儲(chǔ)存功能。其功能由Hadoop分布式文件系統(tǒng)(Hodoop distributed file system,HDFS)實(shí)現(xiàn),具有較高兼容性。但其缺陷在于:在面對實(shí)時(shí)性較強(qiáng)的儲(chǔ)存要求時(shí),無法滿足實(shí)時(shí)性要求。但在本文設(shè)計(jì)中并不會(huì)出現(xiàn)此類影響,說明其具備良好的應(yīng)用表現(xiàn)。Hive屬于Hadoop組成結(jié)構(gòu),應(yīng)用中根據(jù)結(jié)構(gòu)化各部分文件特征,文件會(huì)呈數(shù)據(jù)庫表形式被保存。當(dāng)用戶進(jìn)行搜索,Hive會(huì)根據(jù)搜索關(guān)鍵詞對用戶展示結(jié)果,同時(shí)還能把SQL語言轉(zhuǎn)變?yōu)镸apReduce任務(wù)。此外,在Hadoop的連接關(guān)系上存在Sqoop工具。其雖然不屬于Hadoop組成部分,但對大數(shù)據(jù)處理平臺(tái)的功能有較大影響。本質(zhì)上,Sqoop工具屬于數(shù)據(jù)交互遷移工具,其在與Hadoop保持連接的條件下,可以根據(jù)關(guān)系型數(shù)據(jù)庫中的關(guān)系邏輯,完成數(shù)據(jù)遷移,使數(shù)據(jù)進(jìn)入HDFS或者將HDFS數(shù)據(jù)遷移到數(shù)據(jù)庫,說明該工具決定了平臺(tái)應(yīng)用靈活性[8-11]。
③可視化技術(shù)。
綜上可見,可視化模塊是實(shí)現(xiàn)人機(jī)交互的重要模塊,因此需要進(jìn)行相關(guān)設(shè)計(jì)。在通常情況下,可視化模塊主要由Spring、Spring MVC、Mybatis組成,相應(yīng)形成了一個(gè)以網(wǎng)頁為基礎(chǔ)的開發(fā)框架。Spring屬于開源框架,具有良好的便捷性,在應(yīng)用開發(fā)過程當(dāng)中,可以將復(fù)雜開發(fā)過程簡易化。原理上,Spring包含了IOC容器。該容器在進(jìn)行業(yè)務(wù)對象替換時(shí),相較于其他開發(fā)框架要更加簡單。Spring MVC同樣屬于開發(fā)源框架的一種,但其與Spring的功能表現(xiàn)不同,主要提供網(wǎng)頁全功能應(yīng)用程序MVC服務(wù)、分離控制器服務(wù)、模型目標(biāo)服務(wù)、分派器服務(wù)、處理程序;My Batis屬于定制化SQL、存儲(chǔ)過程和高級映射的支撐框架[12]。
在本文設(shè)計(jì)思路中,用戶畫像系統(tǒng)的框架結(jié)構(gòu)由四個(gè)部分組成:數(shù)據(jù)源層、數(shù)據(jù)采集層、大數(shù)據(jù)分析平臺(tái)層、數(shù)據(jù)可視化層。以下將對各層設(shè)計(jì)內(nèi)容進(jìn)行介紹。
①數(shù)據(jù)源層。
本文數(shù)據(jù)源層主要開放了若干個(gè)數(shù)據(jù)接口。其中,有三個(gè)接口是必須存在的,即互聯(lián)網(wǎng)開放數(shù)據(jù)接口、電力用戶行為數(shù)據(jù)接口、第三方數(shù)據(jù)接口。在接口應(yīng)用中,因?yàn)閿?shù)據(jù)源層與數(shù)據(jù)采集層直接連接,所以數(shù)據(jù)采集層的采集功能是直接對所有接口中的數(shù)據(jù)進(jìn)行采集[15-16]。
②數(shù)據(jù)采集層。
數(shù)據(jù)采集層位于數(shù)據(jù)源層上方,兩者上下直接連接。當(dāng)系統(tǒng)接受到數(shù)據(jù)采集要求后,將根據(jù)要求特征,連接數(shù)據(jù)源層的某個(gè)接口;或者直接連接所有接口,通過網(wǎng)絡(luò)爬蟲技術(shù)、Web數(shù)據(jù)接口實(shí)現(xiàn)采集。此外,在數(shù)據(jù)采集層上方存在大數(shù)據(jù)分析平臺(tái)層。相應(yīng)數(shù)據(jù)采集層得到的所有數(shù)據(jù)都會(huì)被遷移到該層中。
③大數(shù)據(jù)分析平臺(tái)層。
大數(shù)據(jù)分析平臺(tái)層主要具備Sqoop大數(shù)據(jù)入庫、Sqoop數(shù)據(jù)導(dǎo)出兩個(gè)功能。其中,Sqoop大數(shù)據(jù)入庫支持多種數(shù)據(jù)入庫,即用戶行為日志、用戶個(gè)人數(shù)據(jù)、設(shè)備數(shù)據(jù)、影視數(shù)據(jù)等。在這些數(shù)據(jù)入庫之后,如果用戶對系統(tǒng)進(jìn)行了用戶標(biāo)簽、設(shè)備標(biāo)簽、用戶統(tǒng)計(jì)信息、設(shè)備統(tǒng)計(jì)信息操作,則會(huì)激發(fā)Sqoop數(shù)據(jù)導(dǎo)出功能,啟動(dòng)內(nèi)部Hive ETL數(shù)據(jù)處理功能與MapReduce算法模型,綜合對各類數(shù)據(jù)進(jìn)行分析處理,準(zhǔn)確對應(yīng)后則完成上述操作。
用戶畫像系統(tǒng)框架設(shè)計(jì)結(jié)果如圖1所示。
圖1 用戶畫像系統(tǒng)框架設(shè)計(jì)結(jié)果
所以,為了保障功能流程正確,需要進(jìn)行功能模塊規(guī)劃工作。數(shù)據(jù)采集模塊放置于最下層;大數(shù)據(jù)分析平臺(tái)模塊能對用戶數(shù)據(jù)進(jìn)行清洗、規(guī)范化、分析與處理,并獲得各類信息權(quán)重,因此設(shè)置于中層;數(shù)據(jù)可視化模塊能展示大數(shù)據(jù)平臺(tái)分析結(jié)果,實(shí)現(xiàn)人機(jī)交互,因此設(shè)置在最上層。
圍繞三大模塊,本文將介紹各模塊的應(yīng)用流程。數(shù)據(jù)采集模塊包括三個(gè)部分:用戶行為數(shù)據(jù)爬取模塊、用電信息數(shù)據(jù)爬取模塊和源數(shù)據(jù)對接模塊。
其中,采用第三方應(yīng)用程序編程接口(application programming interface,API)連接用戶行為數(shù)據(jù)爬取模塊、源數(shù)據(jù)對接模塊,借助相應(yīng)接口即可實(shí)現(xiàn)數(shù)據(jù)采集;用電信息數(shù)據(jù)爬取模塊通過網(wǎng)絡(luò)數(shù)據(jù)接口,與電力單位官網(wǎng)連接,可以相應(yīng)得到網(wǎng)絡(luò)中用戶反饋的信息以及操作行為信息。
源數(shù)據(jù)對接模塊與其他兩個(gè)模塊連接,只要提供接口服務(wù)。在大數(shù)據(jù)分析平臺(tái)層中,所有由數(shù)據(jù)采集模塊得到的數(shù)據(jù)都會(huì)被相應(yīng)處理,可以了解用戶基本行為,并根據(jù)人工操作需求,生成相應(yīng)的用戶畫像。畫像類型包括人像、用戶分布圖、用戶訪問時(shí)間等。
圖2為大數(shù)據(jù)分析平臺(tái)層生成的用戶訪問時(shí)間。
圖2 用戶訪問時(shí)間
本文用戶標(biāo)簽?zāi)P桶惭b在大數(shù)據(jù)分析模塊中。其具有兩種表現(xiàn)形式,即基本標(biāo)簽?zāi)P?、改進(jìn)K-am算法標(biāo)簽?zāi)P汀?/p>
①基本標(biāo)簽?zāi)P汀?/p>
基本標(biāo)簽?zāi)P涂梢愿鶕?jù)大數(shù)據(jù)分析結(jié)果,對用戶地址、用戶設(shè)備(例如手機(jī)、電腦)類型進(jìn)行標(biāo)簽標(biāo)志。
②改進(jìn)無監(jiān)督的聚類算法(K-Means,K-am)標(biāo)簽?zāi)P汀?/p>
改進(jìn)K-am算法標(biāo)簽?zāi)P?,可以對用戶使用UT的次數(shù)、初次使用到最近一次使用間隔、用戶在線總時(shí)長進(jìn)行記錄,并將其作為用戶價(jià)值模型指標(biāo)進(jìn)行計(jì)算。電力工作人員根據(jù)結(jié)果了解不同用戶的電力消費(fèi)價(jià)值,相應(yīng)推出針對性的服務(wù)。
本文主要對用戶畫像和標(biāo)簽在電力服務(wù)系統(tǒng)中的應(yīng)用進(jìn)行了分析,通過分析得到結(jié)論:用戶畫像和標(biāo)簽在現(xiàn)代電力服務(wù)系統(tǒng)中并不普及,但根據(jù)相關(guān)案例確認(rèn),其可以提高電力服務(wù)精準(zhǔn)度,具有良好應(yīng)用表現(xiàn);進(jìn)行了用戶畫像和標(biāo)簽設(shè)計(jì)工作,了解了功能組成以及實(shí)現(xiàn)方法;對用戶標(biāo)簽?zāi)P蛻?yīng)用進(jìn)行了分析,了解了其兩種形態(tài),并介紹了其功能表現(xiàn)。
綜上分析可知,在用戶標(biāo)簽?zāi)P偷膽?yīng)用下,電力服務(wù)系統(tǒng)的服務(wù)體系更加細(xì)化,可以圍繞用戶的各種信息數(shù)據(jù),判斷用戶特征;相應(yīng)地,在人工觀察下,可以對用戶進(jìn)行標(biāo)簽標(biāo)志操作,隨后依照標(biāo)簽推出相應(yīng)服務(wù)體系,或制定性的服務(wù)對策,說明其服務(wù)精準(zhǔn)度提高。