林志鴻
(湄洲灣職業(yè)技術(shù)學(xué)院 信息工程系,福建 莆田351254)
經(jīng)過改革和重組后,我國保險(xiǎn)市場呈現(xiàn)了以多個(gè)大規(guī)模保險(xiǎn)企業(yè)為主,數(shù)量不斷增長的眾多小保險(xiǎn)企業(yè)為輔的格局.同時(shí),國外的大型保險(xiǎn)公司也進(jìn)入我國保險(xiǎn)市場,我國保險(xiǎn)企業(yè)面臨著激烈的競爭.我國保險(xiǎn)公司需要尋求新的盈利模式,才能夠在激烈的競爭中立于不敗之地.目前,信息技術(shù)正處于迅猛發(fā)展的階段,幾乎各個(gè)領(lǐng)域都涉及到正在快速增長的大數(shù)據(jù).大數(shù)據(jù)的增長速度保持在60%左右.在大數(shù)據(jù)背景下,保險(xiǎn)業(yè)發(fā)展的根本就在于建立良好的客戶管理體系.保險(xiǎn)行業(yè)需要依據(jù)大數(shù)據(jù)資源確立健全的客戶評(píng)價(jià)體系,進(jìn)行相應(yīng)的客戶評(píng)價(jià)和分類.通過對(duì)客戶的細(xì)分,保險(xiǎn)公司能夠有效地采取相應(yīng)的客戶戰(zhàn)略,針對(duì)不同的客戶群體特征,選擇不同的保險(xiǎn)產(chǎn)品,實(shí)現(xiàn)客戶資源的優(yōu)化.為了提高保險(xiǎn)業(yè)客戶分類的有效性,應(yīng)該選擇一種行之有效的分類方法.半監(jiān)督學(xué)習(xí)技術(shù)是新型的機(jī)器學(xué)習(xí)方法,能夠同時(shí)使用標(biāo)記和未標(biāo)記樣本,通過未標(biāo)記樣本為輔助手段,獲得最佳的保險(xiǎn)業(yè)客戶分類效果,非常適用于保險(xiǎn)業(yè)客戶大數(shù)據(jù)的處理[1].
對(duì)于保險(xiǎn)業(yè)客戶大數(shù)據(jù)的特點(diǎn),首先應(yīng)對(duì)保險(xiǎn)業(yè)客戶的信息有一個(gè)基本的了解,針對(duì)保險(xiǎn)業(yè)客戶的行為特點(diǎn),建立適宜的客戶細(xì)分指標(biāo)體系,能夠確定客戶的行為特征,分析出客戶能夠帶來的利潤,確定具有較高企業(yè)價(jià)值的客戶[2].依據(jù)RFM理論,保險(xiǎn)業(yè)客戶可以通過R(相鄰兩次購買保險(xiǎn)產(chǎn)品的時(shí)間間隔),F(xiàn)(在一個(gè)時(shí)期間購買保險(xiǎn)產(chǎn)品的次數(shù))和M(在一個(gè)時(shí)期購買保險(xiǎn)產(chǎn)品的金額)進(jìn)行客戶細(xì)分.針對(duì)目前保險(xiǎn)業(yè)客戶大數(shù)據(jù)的特征,增加了相應(yīng)的客戶細(xì)分指標(biāo),主要包括:客戶的基本信息、客戶的交易行為、客戶在保險(xiǎn)企業(yè)瀏覽、檢索等操作特點(diǎn)以及客戶購買保險(xiǎn)后續(xù)保的狀況等.
Tri-Training算法對(duì)采樣進(jìn)行標(biāo)記,可以形成3個(gè)帶有標(biāo)記的樣本集合,能夠確保3個(gè)樣本集能夠具有普遍意義,能夠涵蓋全部類別,避免帶標(biāo)記樣本均衡的缺陷.改進(jìn)后Tri-Training算法具有更好泛化性能,能夠獲得更高的分類正確率.首先,將不同樣本集取出,接著,對(duì)不同樣本進(jìn)行隨機(jī)采樣.算法利用隨機(jī)采樣法確定樣本集類別數(shù),定義為H,再確定不同類別樣本的數(shù)量,利用隨機(jī)采樣函數(shù)從每個(gè)類中任意選取標(biāo)記樣本,這樣就獲得了3類標(biāo)記樣本集.算法流程如下:
輸入:帶標(biāo)記樣本集(定義為L),沒有標(biāo)記樣本集(定義為U),測試集(定義為T)和分類器(定義為H).
輸出樣本:利用分類模型對(duì)測試集進(jìn)行分類所獲得的分類精度[3].
步驟1:利用樣本集對(duì)分類器進(jìn)行訓(xùn)練.
步驟2:利用分類采樣技術(shù)將樣本集L劃分為3個(gè)子集合,從而獲得3個(gè)帶標(biāo)記的樣本集,定義為Li(i=1,2,3).
步驟3:利用3個(gè)帶有標(biāo)記的樣本集訓(xùn)練3個(gè)分類器Hi(i=1,2,3).
步驟4:進(jìn)行分類器分類錯(cuò)誤率的初始化(ei=0.6).分類器的分類性能利用如下的公式進(jìn)行判別[4]:
步驟5:進(jìn)行未標(biāo)記樣本的預(yù)測分類,進(jìn)行分類器的迭代訓(xùn)練.
步驟6:循環(huán)執(zhí)行步驟3~步驟5,當(dāng)分類器的分類錯(cuò)誤率不變時(shí),分類器預(yù)測迭代結(jié)束.
步驟7:訓(xùn)練好分類器后,利用分類器對(duì)測試集進(jìn)行分類,確定分類器的分類正確率.
步驟8:算法結(jié)束.
基于改進(jìn)Tri-Training算法的大數(shù)據(jù)保險(xiǎn)業(yè)客戶分類主要包括:大數(shù)據(jù)輸入、數(shù)據(jù)預(yù)處理、分類器迭代訓(xùn)練和分類結(jié)果4個(gè)部分[5-7].
(1)大數(shù)據(jù)輸入:將收集的數(shù)據(jù)輸入至大數(shù)據(jù)保險(xiǎn)業(yè)客戶分類系統(tǒng).
(2)數(shù)據(jù)預(yù)處理:提取保險(xiǎn)業(yè)潛在客戶的特征,選擇恰當(dāng)?shù)幕咎卣鲗?duì)保險(xiǎn)業(yè)潛在客戶所蘊(yùn)藏的屬性進(jìn)行量化處理,獲得分類器需要的數(shù)據(jù)格式.利用仿真程序進(jìn)行保險(xiǎn)業(yè)潛在客戶大數(shù)據(jù)的預(yù)處理,在構(gòu)建保險(xiǎn)業(yè)客戶分類模型時(shí),選擇保險(xiǎn)業(yè)客戶細(xì)分指標(biāo)為基本特征,能夠驗(yàn)證改進(jìn)Tri-Training算法的魯棒性.
(3)迭代訓(xùn)練:分類器的迭代訓(xùn)練師通過數(shù)據(jù)預(yù)處理所獲得的客戶細(xì)分集,對(duì)分類器進(jìn)行相應(yīng)的訓(xùn)練,同時(shí)能夠?qū)Ψ诸惼鬟M(jìn)行測試.利用改進(jìn)的Tri-Training算法對(duì)3個(gè)分類器同時(shí)進(jìn)行訓(xùn)練.分類采樣技術(shù)是通過提取標(biāo)記樣本集中不同類的保險(xiǎn)業(yè)客戶,再針對(duì)提取的不同類別的客戶樣本進(jìn)行隨機(jī)采樣,能夠獲得3個(gè)帶標(biāo)記的樣本集合.重復(fù)這些步驟得到的樣本集訓(xùn)練不同的分類器,通過訓(xùn)練后的3個(gè)分類器共同對(duì)沒有標(biāo)記的樣本集中各個(gè)樣本進(jìn)行標(biāo)記.相對(duì)于一個(gè)分類器對(duì)未被標(biāo)記樣本的分類,其他兩個(gè)分類器如果得到相同的結(jié)論,此時(shí)這些未被標(biāo)記的樣本將歸入至這個(gè)分類器的帶有標(biāo)記樣本集中,并且利用該分類器對(duì)新的樣本集進(jìn)行迭代訓(xùn)練,當(dāng)分類器的分類結(jié)果不變化時(shí),迭代訓(xùn)練結(jié)束.
(4)分類結(jié)果:將最終保險(xiǎn)業(yè)大客戶的分類結(jié)果輸出.
基于改進(jìn)Tri-Training算法的大數(shù)據(jù)保險(xiǎn)業(yè)客戶分類流程見圖1.
圖1 基于改進(jìn)Tri-Training算法的大數(shù)據(jù)保險(xiǎn)業(yè)客戶分類流程
隨機(jī)從10個(gè)保險(xiǎn)公司分別選取1 000個(gè)客戶,共10 000個(gè)客戶,其中7 000個(gè)客戶為訓(xùn)練樣本(訓(xùn)練集中標(biāo)記樣本的比例40%),3 000個(gè)客戶為測試樣本.利用改進(jìn)的Tri-Training算法對(duì)其進(jìn)行分類,將客戶劃分為6類,分別為黃金客戶(購買保險(xiǎn)的需求較多的高端客戶,對(duì)于該類客戶一定要建立良好的客戶關(guān)系),重要發(fā)展客戶(保險(xiǎn)銷售的主要目標(biāo)群體,通過有效的收集刺激該群體的購買欲望)、重要挽留客戶(容易流失的投保能力強(qiáng)的客戶,應(yīng)該努力保留這類客戶)、重點(diǎn)維持客戶(購買能力有限的投保群體,該類客戶對(duì)于保險(xiǎn)公司利潤貢獻(xiàn)是一定的)、普通客戶(無法從中獲得利潤的群體,只要保持一般的維持關(guān)系即可)和無價(jià)值客戶(該類客戶對(duì)于保險(xiǎn)公司利潤基本無作用,可以放棄的群體).
分別利用傳統(tǒng)的支持向量機(jī)、傳統(tǒng)的Tri-Training算法和改進(jìn)的Tri-Training算法對(duì)樣本進(jìn)行訓(xùn)練,最終對(duì)測試樣本進(jìn)行測試,測試結(jié)果見表1.基于改進(jìn)的Tri-Training算法相對(duì)于支持向量機(jī)和傳統(tǒng)的Tri-Training算法具有更高的分類準(zhǔn)確率,能夠有效地對(duì)大數(shù)據(jù)保險(xiǎn)業(yè)進(jìn)行分類,能夠根據(jù)分類結(jié)果,針對(duì)不同類別客戶的特點(diǎn),選擇不同的應(yīng)對(duì)策略,確保公司的利潤.
表1 保險(xiǎn)公司客戶測試樣本分類結(jié)果(標(biāo)記樣本的比例40%)
為了分析標(biāo)記樣本比例對(duì)分類準(zhǔn)確率的影響,將標(biāo)記樣本的比例從40%提高至60%,進(jìn)行相應(yīng)的保險(xiǎn)業(yè)客戶分類,測試結(jié)果見表2.當(dāng)測試樣本中標(biāo)記樣本的比例從40%增加至60%時(shí),對(duì)于不同的客戶類型獲得的分類準(zhǔn)確率都有提高,結(jié)果表明,隨著測試樣本集中標(biāo)記樣本比例的增加,保險(xiǎn)業(yè)客戶分類結(jié)果的準(zhǔn)確率將隨之增加.
表2 保險(xiǎn)公司客戶測試樣本分類結(jié)果(標(biāo)記樣本的比例60%)
保險(xiǎn)業(yè)正處蓬勃發(fā)展的階段,提升客戶關(guān)系管理是增加保險(xiǎn)企業(yè)利潤的關(guān)鍵.在大數(shù)據(jù)背景下,有效地對(duì)客戶進(jìn)行分類,使保險(xiǎn)公司能夠有效地識(shí)別不同的客戶群體.針對(duì)不同的客戶特征增加新的保險(xiǎn)業(yè)務(wù),能夠極大地提高客戶滿意度,提升保險(xiǎn)業(yè)的服務(wù)質(zhì)量.利用改進(jìn)的Tri-Training算法提升了大數(shù)據(jù)保險(xiǎn)業(yè)客戶分類的準(zhǔn)確率,仿真分析表明改進(jìn)的Tri-Training算法能夠提高大數(shù)據(jù)保險(xiǎn)業(yè)客戶分類的精度,將其應(yīng)用于保險(xiǎn)業(yè)客戶分類中具有較好的可行性,能夠提高保險(xiǎn)業(yè)客戶細(xì)分的性能,這樣就能夠極大地提升保險(xiǎn)業(yè)的市場戰(zhàn)略水平,提升保險(xiǎn)公司的核心競爭力.
[1]李品睿,許守任,許暉.基于RFM模型的核心客戶識(shí)別與關(guān)系管理研究——以保險(xiǎn)業(yè)為例[J].現(xiàn)代管理科學(xué),2015(6):24-26.
[2]葛春燕.數(shù)據(jù)挖掘技術(shù)在保險(xiǎn)公司客戶評(píng)估中的應(yīng)用研究[J].軟件,2013,34(1):116-118.
[3]張栩晨.利用 tri—training 算法解決推薦系統(tǒng)冷啟動(dòng)問題[J].計(jì)算機(jī)科學(xué),2016,43(12):108-114.
[4]徐海龍,龍光正,別曉峰,等.結(jié)合tri-training半監(jiān)督學(xué)習(xí)和凸殼向量的 SVM主動(dòng)學(xué)習(xí)算法[J].模式識(shí)別與人工智能,2016,29(1):39-46.
[5]彭雅琴,宮寧生.一種自適應(yīng)的 tri-training 半監(jiān)督算法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2016,25(8):130-134.
[6]胡學(xué)鋼,馬利偉,李培培.一種基于 tri-training 的數(shù)據(jù)流集成分類算法[J].數(shù)據(jù)采集與處理,2017,32(5):853-860.
[7]王雷,楊思春.基于改進(jìn) tri-training 算法的中文問句分類[J].安徽工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,33(2):172-176.
韶關(guān)學(xué)院學(xué)報(bào)2018年3期