程昊 樊重俊
引言
近年來,數(shù)據(jù)挖掘與數(shù)據(jù)倉儲成為企業(yè)掌握瞬息萬變的市場動向的利器。其中,最主要的功能在于能在龐大的數(shù)據(jù)庫中,找出前所未有的知識,并進一步地整合與累積成為企業(yè)賴以生存的商業(yè)智慧的一部分。換言之,數(shù)據(jù)挖掘提供管理者一個有效率的信息獲取方式,從龐大的使用者數(shù)據(jù)與交易記錄,取得隱含其中的寶貴信息。而傳統(tǒng)上利用市場調(diào)查與問卷方式來了解客戶滿意度的方式,可能會因為抽樣方式的不佳、受試者填答的真實性等等,而導(dǎo)致取樣誤差或分析偏差,進而影響結(jié)果的準確性;從現(xiàn)有企業(yè)的數(shù)據(jù)庫中利用數(shù)據(jù)挖掘的技術(shù)來進行數(shù)據(jù)分析,在許多的研究中都證明了可得到較佳的結(jié)果,此為本研究動機之一。所以,本研究將針對某知名電商企業(yè)所能提供的客戶數(shù)據(jù)庫做深入的分析,期望能利用數(shù)據(jù)挖掘技術(shù)中的人工類神經(jīng)網(wǎng)絡(luò)方法來對客戶進行分類,并評估此模型的適當性。本研究的主要目的在于建立與評估人工類神經(jīng)網(wǎng)絡(luò)模式應(yīng)用于某電商企業(yè)的客戶流失模型;而主要的研究問題,則在于如何建立某電商企業(yè)的客戶流失模型,并希望能由電商企業(yè)所提供的客戶數(shù)據(jù)庫,挖掘出流失客戶的主要特性。
一、網(wǎng)絡(luò)客戶流失研究
客戶流失通常是指客戶終止使用企業(yè)的服務(wù)或產(chǎn)品。流失客戶可分為兩類,一類是已經(jīng)流失的客戶,另一類是潛在的流失客戶,此類客戶表現(xiàn)出將要流失的趨勢,與企業(yè)的聯(lián)系及交易的頻率、金額等逐步減少。客戶流失預(yù)測是客戶關(guān)系管理(CRM)體系中一個重要的研究問題,現(xiàn)代客戶關(guān)系管理是以客戶為中心的一系列企業(yè)管理方式。CRM通過管理和分析存儲的客戶歷史數(shù)據(jù),提升企業(yè)的產(chǎn)品和服務(wù),幫助企業(yè)發(fā)展新客戶和保持老客戶,提高企業(yè)的競爭力。為有效地保持老客戶,需要構(gòu)建高效的預(yù)測模型,發(fā)現(xiàn)潛在流失客戶。
客戶流失預(yù)測研究經(jīng)過多年發(fā)展已經(jīng)獲得不錯的成果,客戶流失中的一些問題也得到有效的解決。目前的研究,主要是客戶流失預(yù)測為分類問題。根據(jù)研究的發(fā)展階段以及不同階段,其使用的方法有聚類算法、回歸分析、決策樹算法等。這些算法構(gòu)建的預(yù)測模型雖然可解釋性較強,但隨著數(shù)據(jù)量的增加,特別是進入大數(shù)據(jù)時代,對數(shù)據(jù)的處理能力嚴重不足。因此,使用人工智能的方法進行預(yù)測,人工智能中具有代表性的算法是人工神經(jīng)網(wǎng)絡(luò)。
二、預(yù)測模型及規(guī)則
在某電商企業(yè)所提供的客戶數(shù)據(jù)庫中,經(jīng)數(shù)據(jù)前置整理與數(shù)據(jù)剔除后共剩下7個變量可用,分別為性別、年齡、會齡、訂單金額、付款方式、居住地區(qū)與流失狀況;按流失及未流失的比例共抽出37 400筆數(shù)據(jù)作為訓(xùn)練模式之用,而剩下的12 200筆數(shù)據(jù)則保留為測試之用。由于人工類神經(jīng)網(wǎng)絡(luò)對于變量的選取有較大的自由度,沒有如回歸分析般的限制。因此,在網(wǎng)絡(luò)結(jié)構(gòu)中的隱藏層數(shù)目、隱藏層中神經(jīng)元數(shù)目、訓(xùn)練的學(xué)習(xí)率大小等,都需要以主觀邏輯判斷,或以不同組合加以測試,并沒有一定道理可資遵循。因此,對本研究所需的網(wǎng)絡(luò)參數(shù)設(shè)置進行說明:一是輸入層的輸入變量,共有7個自變量,分別為性別、年齡、會齡、訂單金額、付款方式、居住地區(qū)、與流失狀況,因此設(shè)置7個輸入層的輸入變量。隱藏層數(shù)目,考慮網(wǎng)絡(luò)的學(xué)習(xí)速率,本研究采用的隱藏層數(shù)目為1。二是隱藏層中神經(jīng)元數(shù)目,本研究設(shè)置隱藏層中神經(jīng)元數(shù)目為11、12、13。三是訓(xùn)練與測試樣本比例,訓(xùn)練樣本與測試樣本的比例為8∶2,各為374與122筆。四是訓(xùn)練的學(xué)習(xí)率,以0.002、0.004、0.006三種組合測試。五是輸出層的輸出變量。本研究為分類型的網(wǎng)絡(luò)問題,因此輸出層的輸出變量為l(未流失)、2(流失)的二元變量。
三、驗證預(yù)測規(guī)則準確率
本研究在人工類神經(jīng)網(wǎng)絡(luò)模式的建構(gòu)方面以MathWorks公司所出版的matlab軟件進行分析。在網(wǎng)絡(luò)參數(shù)的相關(guān)設(shè)置中,學(xué)習(xí)率將測試0.002、0.004、0.006等三種組合,而有關(guān)網(wǎng)絡(luò)停止訓(xùn)練準則方面則以訓(xùn)練數(shù)據(jù)的RMSE值(roott mean squared error,RMSE,均方根誤差)小于或等于0.0001,或最多訓(xùn)練10 000次為條件,并以擁有最小測試數(shù)據(jù)RMSE值的網(wǎng)絡(luò)結(jié)構(gòu)為最佳的網(wǎng)絡(luò)模式。在本研究中則以隱藏層中神經(jīng)元數(shù)目為11、學(xué)習(xí)率為0.00U4的RMSE為最?。ㄈ绫?所示),且重復(fù)測試10次,其值均在0.361793~0.363392之間,可見非常穩(wěn)定。而由表2得知,整體的正確判別率為54.09%,而個別的判別正確率以{1-1}的比率最高,為92.3%,意即原始群體為第1類的樣本(未流失)被正確地判別到第1類(未流失)的比率為92.3%。
由上述的分析可知,本研究發(fā)現(xiàn)經(jīng)由人工類神經(jīng)網(wǎng)絡(luò)所分類出的流失客戶,其整體的正確判別率為54.09%;而檢視其分類后的結(jié)果,發(fā)現(xiàn)流失客戶的重要特征為男性、年齡介于30~40歲、會齡為1年、訂單金額為8 001~9 000元、以現(xiàn)金支付方式、居住在上海市內(nèi)的客戶。此外,鑒于以往使用經(jīng)驗法則來辨別客戶是否流失、進而采取保留客戶措施的手法不甚符合科學(xué)研究的精神,因此本研究所提出的人工類神經(jīng)網(wǎng)絡(luò)的模式建構(gòu)程序,不但在辦識客戶流失的正確率高,且執(zhí)行效率頗佳,對于電商企業(yè)在進行客戶保留措施的決策上提供相當重要的線索,是一項值得建議使用的工具。
結(jié)語
本研究所提出的人工類神經(jīng)網(wǎng)絡(luò)的模式建構(gòu)程序,主要的目的是希望通過人工類神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)、辨識能力,來發(fā)展一個更為快速、精確的分類模式。此外,為驗證所提模式的有效性,本研究利用某電商企業(yè)所提供的數(shù)據(jù)來進行實證研究。結(jié)果顯示,人工類神經(jīng)網(wǎng)絡(luò)的整體分類績效為54.09%,具有頗佳的分類效果。所以,運用人工類神經(jīng)網(wǎng)絡(luò)于電商企業(yè)以執(zhí)行客戶流失分析是一項值得建議使用的工具。
參考文獻:
[1] ?武小軍,孟蘇芳.基于客戶細分和AdaBoost的電子商務(wù)客戶流失預(yù)測研究[J].工業(yè)工程,2017,(2):99-107.
[2] ?葉志龍,黃章樹.線上客戶流失的建模與預(yù)測研究[J].管理現(xiàn)代化,2016,(3):96-98.
[3] ?邵帥鋒.基于BP神經(jīng)網(wǎng)絡(luò)對保險公司客戶流失進行分析和預(yù)測研究[D].蘭州:蘭州大學(xué),2016.
[4] ?高潔.基于灰色模型和神經(jīng)網(wǎng)絡(luò)的客戶流失量預(yù)測[J].內(nèi)蒙古師范大學(xué)學(xué)報:自然科學(xué)漢文版,2015,(6):765-768.
[5] ?王學(xué)文,單其帥,魏彥鳳.基于BP神經(jīng)網(wǎng)絡(luò)的電信客戶流失風(fēng)險預(yù)測[J].科技視界,2013,(28):113-114.
[6] ?馮倩.網(wǎng)購客戶流失的實證分析[D].重慶:西南財經(jīng)大學(xué),2013.
[7] ?任劍鋒,張新祥.電子商務(wù)客戶流失的建模與預(yù)測研究[J].計算機仿真,2012,(5):363-366.
[8] ?林睿,遲學(xué)芝.基于人工神經(jīng)網(wǎng)絡(luò)的電商客戶流失分析模型[J].電腦知識與技術(shù),2012,(3):665-667.