(1.福建工程學(xué)院 信息科學(xué)與工程學(xué)院, 福建 福州 350118; 2.福建省大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室, 福建 福州 350118)
證券投資者不斷地成長(zhǎng)、成熟,逐漸認(rèn)識(shí)到了證券市場(chǎng)難以預(yù)測(cè)與把握,并反思自己的投資行為和理念。尤其是個(gè)人客戶開(kāi)始傾向于思考自己的風(fēng)險(xiǎn)特征,關(guān)注與其風(fēng)險(xiǎn)屬性相匹配的產(chǎn)品和服務(wù)。另一方面,在實(shí)際營(yíng)銷中,券商可提供的產(chǎn)品眾多,如何體現(xiàn)客戶對(duì)產(chǎn)品的偏愛(ài)和找到匹配的客戶,無(wú)疑是增加營(yíng)銷成功率的關(guān)鍵。券商必須通過(guò)調(diào)研,了解客戶的實(shí)際狀況與需求,才能正確地評(píng)價(jià)客戶并為之提供合適的產(chǎn)品或服務(wù)。券商可以從客戶外在行為中挖掘出他們內(nèi)在的特征和需求,并據(jù)此對(duì)客戶進(jìn)行分類管理。這也是證券行業(yè)監(jiān)管規(guī)定和要求[1]。
已經(jīng)有許多學(xué)者將數(shù)據(jù)挖掘技術(shù)應(yīng)用于證券行業(yè)的相關(guān)研究。如吳峰用概念聚類的方法分析客戶的交易行為,針對(duì)客戶買賣行為,得出影響客戶盈虧的一般性規(guī)律[2];R.J. Kuo對(duì)數(shù)據(jù)進(jìn)行新二階段法的處理,以此開(kāi)展客戶分類的研究[3];梁敏君描述了分形聚類方法對(duì)客戶在資金、貢獻(xiàn)度、交易頻率方面的分類研究[4]。錢維佳提出了證券客戶細(xì)分的多維模型,從客戶貢獻(xiàn)度、忠誠(chéng)度、活躍度、收益率、資產(chǎn)、響應(yīng)度、依賴度、套牢度、風(fēng)險(xiǎn)度9個(gè)方面來(lái)劃分客戶[5]。爾古打機(jī)等提出基于用戶行為分析的移動(dòng)終端偏好模型研究[6]。以上研究多數(shù)基于客戶價(jià)值、客戶生命周期、客戶忠誠(chéng)度等角度來(lái)進(jìn)行客戶分類管理,對(duì)證券公司客戶基于投資標(biāo)的風(fēng)險(xiǎn)偏好研究較少。少量涉及到投資偏好的研究也比較局限,不能突出客戶的風(fēng)險(xiǎn)偏好特征。因此本文提出基于個(gè)人客戶風(fēng)險(xiǎn)偏好識(shí)別的模型非常有意義。
本文是對(duì)證券公司個(gè)人客戶的風(fēng)險(xiǎn)偏好識(shí)別提出1種模型。其主要思路是對(duì)券商的個(gè)人客戶交易數(shù)據(jù)進(jìn)行清洗、提取主成分;再運(yùn)用數(shù)據(jù)挖掘的算法,開(kāi)展深層次的聚類與分析,從而發(fā)現(xiàn)隱藏的客戶風(fēng)險(xiǎn)偏好的相關(guān)規(guī)律。圖1為模型框架。
圖1 個(gè)人客戶風(fēng)險(xiǎn)偏好識(shí)別模型Fig.1 Individual customers’ risk preference recognition model
第1階段:數(shù)據(jù)準(zhǔn)備。本文使用主成分分析來(lái)簡(jiǎn)化數(shù)據(jù)。原始數(shù)據(jù)是某證券公司的真實(shí)交易數(shù)據(jù)。主成分矩陣數(shù)據(jù)是輸入變量。
第2階段:建立數(shù)據(jù)挖掘模型。建立數(shù)據(jù)挖掘的循環(huán)迭代模型。利用改進(jìn)的K-means算法得到客戶的交易類別劃分結(jié)果。
第3階段:客戶風(fēng)險(xiǎn)偏好集成。一方面基于上述的聚類結(jié)果,即客戶的交易類別劃分,結(jié)合不同產(chǎn)品的風(fēng)險(xiǎn)值,可確定客戶的交易風(fēng)險(xiǎn)偏好。另一方面,通過(guò)證券交易系統(tǒng)的在線問(wèn)卷調(diào)查可以獲得客戶的主觀風(fēng)險(xiǎn)偏好。二者相結(jié)合,可以得到客戶的風(fēng)險(xiǎn)偏好的最終結(jié)果。
應(yīng)用主成分分析的目的是減少數(shù)據(jù)集的維數(shù),先將原始數(shù)據(jù)樣本進(jìn)行z標(biāo)準(zhǔn)化變換消除量綱影響,再求其相關(guān)系數(shù)矩陣,最后做出成分分析得到成分矩陣。
定義1對(duì)于有n個(gè)樣本的原始矩陣X,n為樣本數(shù),p為變量數(shù)。
對(duì)X進(jìn)行z標(biāo)準(zhǔn)化變換的公式如公式(1)所示。
(1)
(2)
對(duì)協(xié)方差陣R計(jì)算特征值和正交化單位特征向量ai,i=1,2,…,p.由特征向量ai按公式(3)計(jì)算可得各綜合向量指標(biāo)Fi。
Fi=a1ix1+a2ix2+…+apixp,i=1,2,…,p.
(3)
由各綜合向量指標(biāo)可計(jì)算其方差貢獻(xiàn)率,再根據(jù)累計(jì)的貢獻(xiàn)度來(lái)篩選出主成分。從而得出樣本的主成分矩陣。
本文采用改進(jìn)的K-means算法對(duì)客戶樣本主成分矩陣進(jìn)行聚類分析。K-means算法是數(shù)據(jù)挖掘中經(jīng)典的聚類分析法[7]。由于證券公司客戶樣本數(shù)據(jù)龐大,K-means比較適合應(yīng)用于證券公司的客戶分類。
傳統(tǒng)K-means算法步驟:
1)利用隨機(jī)函數(shù),在樣本范圍內(nèi)選取k個(gè)點(diǎn)作為初始聚類中心。
2)計(jì)算各個(gè)樣本到聚類中心的距離,把樣本歸到離它最近的那個(gè)聚類中心所在的簇。
3)對(duì)各簇重新按均值計(jì)算新的聚類中心。
4)回到2)步驟,循環(huán)迭代直到各類聚心穩(wěn)定。
本文算法改進(jìn)的部分是初始聚心的選擇策略和刪除臨近大簇的小簇2個(gè)方面。
(1)改進(jìn)的初始聚心選擇策略
本文選擇初始聚類中心的方法為:先取每1種成分中最大值的對(duì)象作為m個(gè)初始聚心,接著從其余的樣本對(duì)象中再找出新的聚類中心,依據(jù)是與現(xiàn)有的全部聚類中心的距離之和最大,循環(huán)選取,直到聚類中心總數(shù)滿足k為止。這樣得到的初始聚類中心在樣本中的分布相對(duì)均勻且受樣本的輸入順序影響較小,缺點(diǎn)是犧牲了一點(diǎn)時(shí)間,但這對(duì)于現(xiàn)代計(jì)算機(jī)來(lái)說(shuō),可以忽略不計(jì)。
(2)聚類數(shù)目K的刪減
原始的K-means算法是沒(méi)有刪減聚類中心的[2]。本文的改進(jìn)是每輪聚類結(jié)束對(duì)每個(gè)簇中對(duì)象數(shù)目進(jìn)行統(tǒng)計(jì),對(duì)任意最鄰近的兩個(gè)簇,如果滿足(4)式則刪除簇i的簇心。
num_Ci (4) 式(4)解釋為編號(hào)i的簇中對(duì)象數(shù)目小于其最鄰近的標(biāo)號(hào)j的簇的對(duì)象數(shù),且兩個(gè)簇的簇心距離要小于2倍的第i簇簇心到其最遠(yuǎn)對(duì)象的距離。 若簇i被刪除,這個(gè)簇的對(duì)象在下次聚類中按距離遠(yuǎn)近原則重新被分配到最臨近的其他簇中,這樣的目的是使簇?cái)?shù)量按鄰近原則合并達(dá)到一個(gè)相對(duì)合理值。如圖2所示的簇C1和C2將有一個(gè)被刪除,在下次聚類時(shí)對(duì)象將合并為一個(gè)大簇。這樣考慮是為了合并緊密的簇。而有些簇的對(duì)象數(shù)目較少但與其他簇距離偏遠(yuǎn),具有獨(dú)立特征的,不易滿足上述距離的不等式,因此不會(huì)被刪除。 圖2 C1與C2合并Fig.2 Merge C1 and C2 為了易于實(shí)現(xiàn)算法,本文設(shè)計(jì)的一個(gè)簇結(jié)點(diǎn)。其中節(jié)點(diǎn)的信息包含簇編號(hào)、簇心位置、該簇對(duì)象數(shù)目、最鄰近簇心編號(hào)、距簇心最遠(yuǎn)的對(duì)象距離值、下一個(gè)簇節(jié)點(diǎn)地址。 改進(jìn)后的K-means算法流程為: 1)確定K個(gè)簇的初始聚心。 2)找出每個(gè)簇的最鄰近簇,并計(jì)算其與最鄰近簇簇心之間距離。 3)將所有的樣本對(duì)象分配到最鄰近簇,同時(shí)更新每個(gè)簇對(duì)象數(shù)目及簇中與簇心最遠(yuǎn)的對(duì)象距離值。 4)對(duì)象分配結(jié)束,按均值調(diào)整每個(gè)簇簇心,若所有簇心位置無(wú)調(diào)整,算法結(jié)束。 5)按照式(4)計(jì)算每個(gè)簇,刪除滿足條件的簇心,每刪除一個(gè)簇心,K數(shù)目減1。修改相應(yīng)的鏈表結(jié)點(diǎn)指針域保持鏈表完整?;氐讲襟E2)。 為了避免特殊的噪聲點(diǎn)在上述算法中引起簇不斷合并為一個(gè)簇??梢栽诓襟E4)中增加閾值t,滿足簇的總數(shù)目小于t時(shí),停止算法。通過(guò)幾次訓(xùn)練,也可以得到合理的t值設(shè)定。 以中國(guó)X證券公司為例,使用了該公司2015年4月到6月的數(shù)據(jù)。原始樣本矩陣經(jīng)過(guò)公式(1)-(3)處理后,得到各成分的方差累積貢獻(xiàn)度如表1所示。表1顯示的是前10項(xiàng)綜合指標(biāo)解釋的總方差可以代表原有信息的95.23%。本文依據(jù)這10個(gè)綜合指標(biāo)建立樣本的主成份矩陣。 按上文所述算法進(jìn)行聚類。經(jīng)過(guò)多次的訓(xùn)練,樣本客戶群體最終在15個(gè)分類的時(shí)候達(dá)到一個(gè)相對(duì)穩(wěn)定的結(jié)果。15個(gè)類別特征描述如表2所示。 使用2015年度4-6月份和7-9月份的數(shù)據(jù)驗(yàn)證模型的穩(wěn)定性. 驗(yàn)證結(jié)果如表3所示.結(jié)果顯示兩組數(shù)據(jù)分類結(jié)果相差不大,各個(gè)類別占比只有千分以下的差距。也可以看出中國(guó)個(gè)人客戶偏愛(ài)A股占大多數(shù)。 表1 各成分累積方差貢獻(xiàn)度 表2 X公司客戶按產(chǎn)品偏好分群聚類結(jié)果Tab.2 Clustering results of X company’s customers according to product preference 表3X公司客戶以3個(gè)月份為時(shí)間窗口的分群聚類驗(yàn)證結(jié)果 Tab.3VerificationresultsoftheclusteringofXcompany’scustomersusing3monthsasatimewindow 群體序號(hào)4-6月份使用模型分類占比5-7月份使用模型分類占比118 4523.888 2117 6503.726 9321 6500.347 681 5410.325 39313 8982.928 5912 7922.701 1242 2810.480 652 7130.572 8753 0980.652 813 1070.656 0667 6291.607 587 6151.607 9674 0500.853 414 0720.859 8381 1020.232 211 0900.230 16949 07610.341 3248 99410.345 451031 9206.726 2032 2206.803 4911320 84767.609 07321 30867.846 61123 2260.679 783 2590.688 16134 1310.870 484 3350.915 36146 4721.363 786 3991.351 19151 5240.321 131 5490.327 08 客戶風(fēng)險(xiǎn)類別會(huì)發(fā)生變化.因此風(fēng)險(xiǎn)偏好識(shí)別模型對(duì)客戶的風(fēng)險(xiǎn)屬性應(yīng)持續(xù)跟蹤、動(dòng)態(tài)評(píng)估, 不斷更新才能更客觀真實(shí)的反映客戶風(fēng)險(xiǎn)屬性。根據(jù)以上的模型分析結(jié)果,本文為證券公司理財(cái)顧問(wèn)開(kāi)展專業(yè)服務(wù)和專項(xiàng)營(yíng)銷活動(dòng)提出以下建議。 (1)依據(jù)市場(chǎng)規(guī)律,證券公司為客戶提供適當(dāng)性服務(wù),可依據(jù)客戶風(fēng)險(xiǎn)屬性,提供適合于客戶風(fēng)險(xiǎn)偏好的資產(chǎn)配置或投資組合建議服務(wù),幫助客戶將高風(fēng)險(xiǎn)資產(chǎn)的配置比例控制在與其自身能力相適應(yīng)的范圍內(nèi)。這樣更容易獲得客戶的認(rèn)可,建立和維系忠實(shí)客戶群。 (2)在專項(xiàng)營(yíng)銷中,證券公司可以先評(píng)估營(yíng)銷產(chǎn)品的風(fēng)險(xiǎn)特征,匹配與產(chǎn)品相適應(yīng)的客戶的風(fēng)險(xiǎn)偏好和類別,在此基礎(chǔ)上從客戶數(shù)據(jù)庫(kù)中篩選出目標(biāo)客戶名單,供理財(cái)顧問(wèn)更有針對(duì)性的開(kāi)展一對(duì)一營(yíng)銷。這樣易于鎖定可能的目標(biāo)客戶群體,提高產(chǎn)品銷售的適當(dāng)性和成功率。 綜上所述,本文提出了客戶風(fēng)險(xiǎn)偏好分析模型。對(duì)客戶的交易數(shù)據(jù),使用主成分分析法對(duì)冗余變量進(jìn)行剔除,應(yīng)用改進(jìn)的K-means算法建立客戶細(xì)分模型,達(dá)到客戶分組目的,并對(duì)每一群組客戶進(jìn)行特征描述,進(jìn)而提出相應(yīng)的營(yíng)銷策略。本文的創(chuàng)新在于用側(cè)重交易標(biāo)的來(lái)劃分客戶群組,動(dòng)態(tài)修正來(lái)體現(xiàn)客戶的成長(zhǎng)和偏好變化,提出針對(duì)不同標(biāo)的群類提供相匹配產(chǎn)品的營(yíng)銷策略,更具針對(duì)性和提高營(yíng)銷成功率,是幫助證券公司有的放矢地進(jìn)行服務(wù)和產(chǎn)品的推薦。 參考文獻(xiàn): [1] 何海鷹,朱建平,謝幫昌.證券投資意識(shí)調(diào)查分析[J].統(tǒng)計(jì)研究,2008,25(9):49-54. [2] 吳峰,施鵬飛.概念聚類挖掘方法的客戶交易行為分析[J].微型電腦應(yīng)用,2000,16(5):26-28. [3] KUO R J, HOL M, HUC M. Cluster analysis in industrial market segmentation through artificial neural network[J]. Computers and Industrial Engineering, 2002, 4(2): 391-399. [4] 梁敏君.分形聚類分析在證券客戶細(xì)分中的應(yīng)用研究[D].合肥:合肥工業(yè)大學(xué),2009. [5] 錢維佳,王延清.基于動(dòng)態(tài)聚類的證券業(yè)客戶細(xì)分實(shí)證研究[J].計(jì)算機(jī)應(yīng)用,2010,30(2):495-498. [6] 爾古打機(jī).基于用戶行為分析的移動(dòng)終端偏好模型研究[C].第八屆(2013)中國(guó)管理學(xué)年會(huì)論文集(選編),2013. [7] 王學(xué)民.應(yīng)用多元分析[M].3版.上海:上海財(cái)經(jīng)大學(xué)出版社,2009:209-211.2 實(shí)證分析
2.1 數(shù)據(jù)準(zhǔn)備
2.2 聚類結(jié)果
2.3 模型穩(wěn)定性測(cè)試
3 營(yíng)銷策略
4 結(jié)論