李飛+齊林
[摘要]如今大數(shù)據(jù)背景下客戶信息數(shù)據(jù)呈現(xiàn)指數(shù)級增長趨勢,盈利企業(yè)亟須通過大數(shù)據(jù)分析發(fā)現(xiàn)客戶更深層次的潛在信息從而降低客戶流失率,尤其是流動率高的保險(xiǎn)行業(yè)性質(zhì)企業(yè)。保險(xiǎn)公司力求穩(wěn)定增長的市場占有率和經(jīng)濟(jì)效益就需要通過數(shù)據(jù)挖掘來不斷發(fā)現(xiàn)潛在客戶價(jià)值,此時數(shù)據(jù)的多元性和數(shù)據(jù)量成為有效快速挖掘用戶信息的瓶頸。文章引入“數(shù)據(jù)湖”的概念結(jié)合HDFS構(gòu)建集群式的大數(shù)據(jù)模型,并引入價(jià)值率來對客戶進(jìn)行分析,構(gòu)建用戶畫像,幫助公司深度理解客戶特征降低客戶流失率。
[關(guān)鍵詞]大數(shù)據(jù);決策樹;價(jià)值率;保險(xiǎn)
[DOI]10.13939/j.cnki.zgsc.2017.02.071
1 引 言
隨我國經(jīng)濟(jì)快速增長,人民收入不斷增加,保險(xiǎn)業(yè)也呈現(xiàn)出高速發(fā)展的趨勢,自國內(nèi)恢復(fù)業(yè)務(wù)以來,保險(xiǎn)業(yè)相比金融領(lǐng)域的其他行業(yè),取得了不小的成績。新時代背景下的保險(xiǎn)業(yè)所呈現(xiàn)出的信息多元化、海量化等特點(diǎn),使得大量用戶信息以指數(shù)級增長趨勢存在于保險(xiǎn)行業(yè),多元化的媒體介質(zhì)輸入導(dǎo)致數(shù)據(jù)預(yù)處理難度加大,用戶的興趣遷移導(dǎo)致構(gòu)造用戶畫像模糊,而保險(xiǎn)行業(yè)競爭日趨激烈,高風(fēng)險(xiǎn)性條件情況下保持客戶黏性,降低流失率對企業(yè)競爭就顯得尤為重要。
傳統(tǒng)的商業(yè)情報(bào)分析往往結(jié)合數(shù)據(jù)挖掘技術(shù)對歷史數(shù)據(jù)和已有的用戶信息進(jìn)行挖掘,發(fā)現(xiàn)潛在的未知的具有一定商業(yè)價(jià)值的信息,但由于以往的客戶數(shù)據(jù)信息量較小,信息量更換慢,現(xiàn)有的保險(xiǎn)業(yè)使用的傳統(tǒng)的運(yùn)營環(huán)境和模型難以適應(yīng)海量數(shù)據(jù),以及傳統(tǒng)模型運(yùn)行速度慢,運(yùn)行代價(jià)高,準(zhǔn)確率低,挖掘深度不夠等都是不容忽視的弊端。近些年,隨著大數(shù)據(jù)技術(shù)、人工智能、機(jī)器學(xué)習(xí)在工程和學(xué)術(shù)界的火熱發(fā)展,相關(guān)的數(shù)據(jù)模型都發(fā)展得十分完善充分,而決策樹其良好的魯棒性,全樣本挖掘性,準(zhǔn)確度高,實(shí)施快捷,運(yùn)行速度快,實(shí)現(xiàn)成本小都是它的優(yōu)勢所在。
故本文首先引入“數(shù)據(jù)湖”的概念以緩解傳統(tǒng)數(shù)據(jù)處理處理異質(zhì)數(shù)據(jù)問題,適應(yīng)不同數(shù)據(jù)源存儲介質(zhì)的需求,引入使用可擴(kuò)展性大數(shù)據(jù)分析模型獲取用戶的興趣遷移特征,應(yīng)用算法基于CART決策樹算法模型并以某保險(xiǎn)公司具體用戶數(shù)據(jù)為實(shí)例構(gòu)建應(yīng)用場景進(jìn)行模型訓(xùn)練和數(shù)據(jù)預(yù)測,并創(chuàng)新性地引入價(jià)值率對用戶進(jìn)行分類解決公司所面臨的處理用戶海量數(shù)據(jù)時間較長、效率較低、準(zhǔn)確度不高等問題。
2 基于決策樹C4.5算法的數(shù)據(jù)模型
2.1 模型生成描述
數(shù)據(jù)基本處理:原始用戶數(shù)據(jù)錄入,形成基礎(chǔ)數(shù)據(jù)湖,并將數(shù)據(jù)導(dǎo)入HBase和Oracle數(shù)據(jù)庫中,對數(shù)據(jù)選取加工預(yù)處理并對數(shù)據(jù)進(jìn)行選表、選鍵、連接器層選擇以匹配數(shù)據(jù)模型,通過數(shù)據(jù)表的前期基本處理清洗篩選形成基礎(chǔ)寬表,在形成寬表基礎(chǔ)上再對數(shù)據(jù)清洗機(jī)進(jìn)行標(biāo)準(zhǔn)化處理,對樣本數(shù)據(jù)做簡單的描述統(tǒng)計(jì)、缺失值處理以及標(biāo)準(zhǔn)化(分層處理)工作。
模型生成:調(diào)用Apache Spark 中的Mllib決策樹中的類庫,根據(jù)樣本數(shù)據(jù)和用戶情景生成初始模型,對生成的模型進(jìn)行訓(xùn)練集和驗(yàn)證機(jī)選取,我們此處以7/3原則進(jìn)行選取,對大數(shù)據(jù)模型進(jìn)行訓(xùn)練,將數(shù)據(jù)抽樣導(dǎo)出到數(shù)據(jù)中介Oracle中,將傳統(tǒng)的SAS數(shù)據(jù)挖掘模型訓(xùn)練導(dǎo)入JAR中以便對比,至此基本的模型池生成,經(jīng)訓(xùn)練測試后的用戶反饋信息對模型的各個參數(shù)進(jìn)行調(diào)試,并對外發(fā)布服務(wù)模型,模型中所設(shè)計(jì)重要參數(shù)如表1所示。
數(shù)據(jù)預(yù)測:根據(jù)服務(wù)模型和用戶輸入的基本信息屬性進(jìn)行加工,并對模型的預(yù)測產(chǎn)生結(jié)果集,再根據(jù)結(jié)果集進(jìn)行場景信息預(yù)測并生成用戶畫像。
2.2 決策樹C4.5算法
3 實(shí)證研究
3.1 實(shí)驗(yàn)數(shù)據(jù)
基于某保險(xiǎn)公司的用戶數(shù)據(jù),由于數(shù)據(jù)本身來源差異和獲取方式的不同,導(dǎo)致“數(shù)據(jù)湖”中本身存在大量的不完整、不一致、含噪聲和冗余數(shù)據(jù),所以需要對數(shù)據(jù)進(jìn)行一個簡單的處理分析工作,其一,減少數(shù)據(jù)集變量間的冗余,方便模型挖掘數(shù)據(jù)的效率和輸出預(yù)測信息的簡潔;其二,提高數(shù)據(jù)屬性列間的相關(guān)性,去掉關(guān)聯(lián)性較高的數(shù)據(jù)屬性列,如保險(xiǎn)繳費(fèi)與收入屬性具高相關(guān)性;其三,由于決策樹模型運(yùn)行時離散型數(shù)據(jù)進(jìn)行處理速率較快,故多連續(xù)性數(shù)據(jù)進(jìn)行離散化處理。
數(shù)據(jù)選取基本上對寬表的行列維度數(shù)據(jù)進(jìn)行處理,由于在實(shí)際過程中對數(shù)據(jù)生成一個大約20個屬性列的寬表,數(shù)據(jù)選擇可以避免數(shù)據(jù)處理時發(fā)生高維數(shù)據(jù)災(zāi)難,并且在數(shù)據(jù)處理過程中進(jìn)行部分?jǐn)?shù)據(jù)歸一化處理,以適應(yīng)模型的匹配度。見表1。
3.2 分析工具和平臺
本模型運(yùn)行平臺基于Hadoop分布式文件系統(tǒng),其良好的高容錯性和高吞吐數(shù)據(jù)訪問比較適合大規(guī)模數(shù)據(jù)集的應(yīng)用,本模型應(yīng)用的環(huán)境基于HDFS的基本運(yùn)行環(huán)境,使用Python數(shù)據(jù)處理語言,操作系統(tǒng)版本:CentOS release 6.5(Final),搭建集群6臺,各個設(shè)備相關(guān)信息:Intel(R),E5606,@2.13GHz,2128.000MHz,cache size:8192KB。
3.3 模式評估與應(yīng)用
算法模型的運(yùn)行結(jié)果展示出哪些因素影響客戶流失的決策,通過評估可以得到更為有價(jià)值的客戶信息,評估方法有準(zhǔn)確率,召回率,F(xiàn)1-score,PR,ROC等,其中,真正TP:樣本類型被數(shù)據(jù)模型正確歸類預(yù)測命中正確類的數(shù)量;假負(fù)FN:樣本類型被數(shù)據(jù)模型誤判為其他類型的數(shù)量;假正FP:樣本不屬于正確類別被數(shù)據(jù)模型誤判為正確類別的數(shù)量;真負(fù)TN: 樣本類型屬于正確類別被數(shù)據(jù)模型誤判為其他類型的數(shù)量。
全樣本數(shù)據(jù)運(yùn)行模型的結(jié)果展示見表2。
經(jīng)結(jié)果發(fā)現(xiàn)這里采用準(zhǔn)確率、召回率以及F1_score,抽取用戶的預(yù)測值與評分值進(jìn)行模型檢驗(yàn),得到值均在合理值范圍,模型運(yùn)行時間2320.34s,較傳統(tǒng)的SAS跑出的34min23s,較為高效,據(jù)此此模型可以投入運(yùn)用。
4 結(jié)論與展望
論文借助“數(shù)據(jù)湖”挖掘模型實(shí)現(xiàn)了保險(xiǎn)業(yè)的用戶流失率檢測,取得了以下結(jié)論。第一,論文建立在HDFS運(yùn)行環(huán)境中,一方面,通過對決策樹基本特點(diǎn)的研究,找到了決策樹與保險(xiǎn)業(yè)用戶流失率的結(jié)合點(diǎn),建立了基于用戶數(shù)據(jù)湖的大數(shù)據(jù)模型;另一方面,模型基于開源HDFS環(huán)境中,具有良好的可擴(kuò)展性。第二,根據(jù)信息論的相關(guān)理論概念引入信息熵和客戶價(jià)值率,提高對客戶數(shù)據(jù)屬性分類的準(zhǔn)確性,本文最后結(jié)合實(shí)例對所提出的模型進(jìn)行驗(yàn)證,證明數(shù)據(jù)模型的可靠性。
本文引入“數(shù)據(jù)湖”的概念以緩解傳統(tǒng)數(shù)據(jù)處理異質(zhì)數(shù)據(jù)問題,極好地適應(yīng)不同數(shù)據(jù)源存儲介質(zhì)的需求,并引入使用可擴(kuò)展性大數(shù)據(jù)分析模型以便適應(yīng)用戶的興趣遷移,通過數(shù)據(jù)挖掘技術(shù)提高銷售凈利率,擴(kuò)大企業(yè)市場所占份額,識別客戶等級,誠信度和價(jià)值率,降低企業(yè)風(fēng)險(xiǎn),預(yù)測預(yù)警以及制訂相應(yīng)的決策計(jì)劃,降低用戶流失率提高忠誠度,本文基于CART算法模型以某保險(xiǎn)公司用戶數(shù)據(jù)具體數(shù)據(jù)為實(shí)例構(gòu)建應(yīng)用場景進(jìn)行模型訓(xùn)練和數(shù)據(jù)預(yù)測,并創(chuàng)新性地引入價(jià)值率對用戶進(jìn)行分類解決公司所面臨的處理用戶海量數(shù)據(jù)時間較長效率較低準(zhǔn)確度不高等問題。
由于時間和硬件環(huán)境的制約,本文仍存在一些有待進(jìn)一步改進(jìn)和深入研究的地方。第一,論文對于數(shù)據(jù)挖掘算法采用較為經(jīng)典的決策樹方法,在數(shù)據(jù)處理時采用常規(guī)處理方法難免會導(dǎo)致部分?jǐn)?shù)據(jù)的缺失和預(yù)測準(zhǔn)確率的下降;第二,本文研究中數(shù)據(jù)均居于有限的數(shù)據(jù)集,隨傳輸媒介的變化,用戶的時間維度并未良好地考慮進(jìn)去,對用戶仍舊缺乏較時間維度及其用戶標(biāo)簽等級的良好劃分。
參考文獻(xiàn):
[1]孟小峰,慈祥. 大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J]. 計(jì)算機(jī)研究與發(fā)展,2013(1):146-169.
[2]王艷. 中國保險(xiǎn)公司制度變遷與創(chuàng)新研究[D].長春:吉林大學(xué),2014.
[3]丁兆云,賈焰,周斌. 微博數(shù)據(jù)挖掘研究綜述[J]. 計(jì)算機(jī)研究與發(fā)展,2014(4):691-706.
[4]Quinlan J R.C4.5 Programs for Machine Learning[M].California:Morgan Kaufmann,San Mateo,1993.
[5]趙強(qiáng)利,蔣艷凰,盧宇彤. 具有回憶和遺忘機(jī)制的數(shù)據(jù)流挖掘模型與算法[J]. 軟件學(xué)報(bào),2015(10):2567-2580.
[6]徐鵬,林森. 基于C4.5決策樹的流量分類方法[J]. 軟件學(xué)報(bào),2009(10):2692-2704.
[7]陳文偉.數(shù)據(jù)挖掘技術(shù)[M].北京:北京工業(yè)大學(xué)出版社,2002.