基于RFME模型和AdaBoost分類器的電子商務客戶關系研究

2021-08-17 02:19陳俊龍吳麗麗

軟件 2021年3期

陳俊龍吳麗麗

摘要：為進一步探究和分析電子商務客戶關系，本文提出e價值的指標體系和計算方法，同時基于使用k-means方法對客戶進行分類，實現對客戶關系的深層發(fā)掘?；诟倪M的RFM模型實現了對客戶的辨別與分類功能，對不同客戶的e價值能進行有效預測，同時可以為企業(yè)在電商相關領域營銷策略的差異化實施提供依據。對客戶關系進行深層細分。同時基于AdaBoost分類器，提出以C5.0決策樹作為基分類器的客戶保持與流失預測模型，降低錯誤預測成本，精準識別高價值客戶。

關鍵詞：RFM;AdaBoost;電子商務;客戶價值

中圖分類號：TP391. 41 文獻標識碼：A DOI：10.3969/j.issn.1003-6970.2021.03.001

本文著錄格式：陳俊龍，吳麗麗.基于RFME模型和AdaBoost分類器的電子商務客戶關系研究[J].軟件，2021，42（03）：001-007

Research on E-commerce Customer Relationship Based on RFME Model and AdaBoost Classifier

CHEN Junlong， WU Lili

（College of Information Science and Technology， Gansu Agricultural University， Lanzhou? Gansu? 730070）

【Abstract】：In order to further explore and analyze the relationship between e-commerce customers， this article proposes an index system and calculation method for e-value， and at the same time classifies customers based on the use of k-means method to realize in-depth exploration of customer relationships. Based on the improved RFM model， the function of identifying and categorizing customers is realized， and the e-value of different customers can be effectively predicted. At the same time， it can provide a basis for the differentiated implementation of marketing strategies for companies in the e-commerce-related fields. In-depth segmentation of customer relationships. At the same time， based on the AdaBoost classifier， a customer retention and churn prediction model based on the C5.0 decision tree is proposed to reduce the cost of error prediction and accurately identify high-value customers.

【Key words】：RFM;AdaBoost;E-commerce;customer relationship management

0 引言

在網絡技術日新月異的當下，電子商務平臺已經深入各行各業(yè)中，生活中處處可見電商領域的產品或服務。在社會發(fā)展和進步的同時，電子商務區(qū)別于以往傳統的消費模式，作為全新的形式沖擊全國受眾的普遍認知，并使其購買行為產生了或多或少的變化。據資料顯示，截止2015年，我國互聯網用戶已逾6億，到2019年6月，我國網民規(guī)模升至8.54億，手機網民規(guī)模達8.47億，網絡普及率超過61.2%。至2020年3月，我國互聯網普及率已達到64.5%，網絡購物用戶規(guī)模達7.10億，近2015年的兩倍[1]。

2019年，我國互聯網交易規(guī)模達10.63萬億元，與繁榮發(fā)展的互聯網業(yè)態(tài)相對應，在全新商務模式下，對消費者管理和客戶價值認知評估模式也需要推動發(fā)展與轉型。與傳統行業(yè)的銷售模式相比，在電子商務環(huán)境下，消費者的選擇空間極度擴大，信息流動迅速，客戶留存率大大降低。有研究顯示，電商環(huán)境下，客戶流失率可高達80%，而獲取新客戶比保持現有客戶的成本高得多，與前者相比，客戶留存可節(jié)約4～6倍獲客成本[2]。對電信運營商來說，用戶保持率增加5%，即可為運營商帶來85%的利潤成長。對傳統零售行業(yè)來說，在電子商務運營中提高復購率，大幅降低營銷成本和服務成本，減少高價值客戶流失是維持企業(yè)在電商領域長期發(fā)展的重要途徑[3-4]?；诳蛻絷P系理論對電商平臺現有客戶進行關系識別，對高價值客戶進行細致的篩選，“因客施策”，著力打造實施精確營銷，將成為客戶長期留存和價值提升的基礎。

現有客戶關系研究當中，已有多種算法和工具被運用于相關數據的統計計算及經營決策當中，從傳統統計學、統計學習理論，到人工智能、組合分類器及仿生學算法等，機器學習技術逐漸被運用到企業(yè)用戶管理決策當中。Renjith提出在使用Logistic回歸方法深入解離客戶流失影響因數的基礎上，利用多個屬性變量預測流失客戶，并通過機器學習方法對不同的方案根據需求進行檢索，并根據客戶特征進行個性化組合，從而有針對性的提出細分客戶留存策略。張秋菊[5]等則構建了基于FRI（自組織模糊規(guī)則歸納算法）的客戶流失預測模型，通過利用數據分組處理網絡（GMDH）對客戶流失狀態(tài)進行判別，測試樣本的正確預測可達到90%以上。

為彌補單個分類器在數據預測中產生的效率與性能偏差，近年來，組合分類器被應用到客戶流失預測研究中，利用高效協同工作的方式，充分整合各子分類器不同算法的優(yōu)勢，提高集成學習的效率和性能。Schapire提出的Boosting算法和Breiman提出的Bagging算法即是兩種常見的集成學習方法，通過訓練多個基礎模型解決相同問題，獲得數個同質弱學習器并進行正確組合，從而獲得更好的性能。

Boosting算法思路主要是利用多棵決策樹通過組合而形成的，彼此之間通過投票的方式對結果來進行相應的預測。在應用當中，根據分析對象的特征，產生了多種不同的優(yōu)化組合方案，如在商業(yè)銀行的客戶流失預測中，引入線性判別LDA，對每個數據的統計屬性分別計算。

AdaBoost自適應增強算法（adaptive boosting）則在其基礎上改變樣本的權重。AdaBoost算法在每一次學習之后將重點關注被分類錯誤的樣本，增加分類正確率高模型的權重，有效解決了早期Boosting算法在實際運用中的困難，作為最優(yōu)秀的Boosting算法之一被廣泛使用在實踐當中[6-8]。

本文根據電子商務所具有的一些特點，從相關客戶對電商平臺具有的價值出發(fā)，引入“e-value”概念。這一概念從電子銷售渠道和服務商的利益角度出發(fā)，確定了影響電商客戶e價值的關鍵指標，并結合客戶價值評估模型RFM，和k-means方法將客戶分類，建立了RFME模型對客戶進行識別和分類。本文將提出e-value的處理規(guī)則，從而較為準確地對不同客戶的e進行估值，為企業(yè)在電子商務領域實施差異化營銷策略提供了依據。

在此基礎上，本文通過以電子商務平臺為基礎，結合客戶消費行為中保持與流失的走向變化，利用CRM理論提出一套預測電商平臺客戶保持與流失的數理模型。為印證組合模型能對客戶流失情況進行更精確的預測，對不同的單一數據挖掘模型和AdaBoost組合模型分別對結果進行預測，并在一定條件下對不同模型的預測結果進行對比，從而來判斷不同模型預測的精確度。改進的RFM進一步增強了分類的能力，降低錯誤預測成本，精準識別高價值客戶并采取策略減少客戶流失率，為企業(yè)電子商務業(yè)務降低成本，提高了收益。

1電子商務下的客戶關系分析

1.1客戶細分

客戶細分具有多種角度和維度。依據帕累托原則，企業(yè)的核心利潤主要由高價值客戶創(chuàng)造，這一比例符合廣泛存在的二八原則;同時，底部約30%的客戶實際上為低價值與無效客戶，對這部分客戶投入的營銷、服務和挽回成本可占到企業(yè)利潤的50%。因此，有效的對客戶價值進行評估和細分，是實現高效客戶關系管理（Customer Relationship Management）的基礎[10]?？蛻魞r值細分有助于幫助企業(yè)集中精力，為高價值及有流失可能的客戶提供個性化服務與精準營銷，是更高效地進行針對性營銷活動的重要前提。

本研究中所指客戶細分主要指客戶價值細分。在電子商務時代，客戶消費仍舊是企業(yè)獲利的直接來源，各電商企業(yè)都逐漸由產品中心的經營模式轉向用戶中心導向，是否能有效進行客戶關系維護，挽留流失客戶，成為企業(yè)是否能保持競爭優(yōu)勢的重要因素。企業(yè)依據客戶實際價值，對客戶進行分類，對高價值客戶有針對性地制定相應營銷策略，向關鍵客戶進行企業(yè)資源傾斜，能夠有效提升企業(yè)獲客和客戶挽留的投入產出比，實際上增加利潤率，擴大競爭優(yōu)勢，增強企業(yè)核心競爭力。這就要求企業(yè)首先能夠準確對客戶價值進行判斷和識別。

在網絡消費過程中，消費者與企業(yè)之間的信息交互呈現即時、雙向、周期短的特點，導致客戶產生回購的概率大大降低。同時，企業(yè)與客戶進行溝通時的渠道是否穩(wěn)定及時并能對問題進行解答，以及企業(yè)與客戶的供求關系能否長期把持穩(wěn)定，這些問題需要面臨網絡信息量大、信息流動速度快、產品同質化程度高、競爭壓力大、客戶群多樣化、差異化程度高等多種挑戰(zhàn)。

如何準確在廣泛而復雜的客戶與潛在客戶中，準確識別高價值客戶，做好流失預測并及時采取相應策略阻止客戶流失，成為電子商務管理和發(fā)展人員關注的熱點。在眾多消費行為相關指標當中，客戶消費額度直接與企業(yè)產品或服務的質量的銷售量相關，并且能夠直接作為客戶實際價值的量化體現。本研究以客戶消費額度為主要顯性價值指標，依據歷史交易數據進行數據提取，利用RFME模型對客戶價值進行量化評估，并完成客戶分類。

1.2客戶保持與流失

客戶流失的企業(yè)管理概念是指曾購買或使用過某企業(yè)商品或服務的客戶，停止在該企業(yè)進行消費或合作行為，轉而去購買或使用過競爭企業(yè)的商品或服務。電子商戶客戶常常與商家沒有契約關系，其消費具有一過性，即在完成一次購買之后，消費者和商家之間的交易行為完成，交易關系終止;直至下一次交易之前，客戶與企業(yè)之間的關系處在一種非契約關系情境下。

對電子商務運營方來說，識別高價值客戶，對其流失概率進行準確預測，在發(fā)生客戶流失之前進行關系維系和客戶挽留，在實際操作層面具有重要意義。而對客戶重復購買行為和心理的分析預測，可以幫助企業(yè)識別忠誠度更高、復購可能性更大的客戶，對其消費行為和購買習慣進行總結和共性分析。圍繞客戶忠誠度的培養(yǎng)，企業(yè)可以根據客戶復購決定發(fā)生的環(huán)節(jié)，和消費決策產生的動因等信息，針對性優(yōu)化其產品、服務與營銷手段等，增加留存客戶比例，保留高價值客戶，降低企業(yè)開拓新客戶的成本，提升企業(yè)對客戶的把握能力。

基于電商平臺的客戶關系推理模型，是結合之前研究結論提出的對電子商務客戶關系進行預測的算法模型。它通過追蹤統計一段時間內客戶在電商渠道發(fā)生的瀏覽、消費等行為信息，對電子商務渠道客戶的購買行為進行分析，依照建模細分結果，對不同價值客戶進行區(qū)別化概率性對待，制定個性化客戶保持策略，從而達到平臺以更低成本，有效完成客戶維持工作。

2基于RFME的客戶細分建模

2.1 RFM客戶價值

RFM是一種被廣泛用于客戶關系管理中的分析模型，通過對客戶價值和創(chuàng)利能力的衡量對客戶價值進行細分評估，在（R、F、M）三個維度對客戶交易行為和其對企業(yè)的價值進行量化：

2.1.1 R：Recency

R值指客戶的最近一次消費，即客戶最近一次消費時間與當前時間的間隔。理論上，R越接近于0，表明該客戶屬于高價值客戶，相對于其他普通客戶更易進行消費行為。在電子商務模式當中，搜索和購買操作高度便利，顧客購買選擇高度豐富，購買成本大大降低，區(qū)域和地域限制被打破。R值小的客戶剛完成購買行為時，對品牌印象較好，認知較清晰，最可能購買更新換代之后新上架的產品，對促銷力度敏感性更強。關注R值低的客戶，有助于企業(yè)以較低成本提高回購率和留存率。

2.1.2 F：Frequency

F值指客戶的消費頻率，即顧客在某一特定時間段（如一個季度內）完成購買的次數。重復購買次數越高的客戶，對產品和服務滿意度也最高，或者說，對品牌或企業(yè)忠誠度最高，其轉向競爭對手企業(yè)的可能性也更低。增加客戶購買次數意味著從競爭對手處搶奪更多的市場占有率，對F值高的客戶進行針對性維護，培養(yǎng)品牌或企業(yè)的忠實用戶，是建立企業(yè)核心品牌資產的中心保障。

2.1.3 M：Monetary

M值指客戶的消費金額，即顧客在某一特定時間段的消費金額。M值和F值相同，都是限制在一定時間內的，需要同F值、客單價等其他因素一起進行分析和解讀。在產品價值一定的情況下，M值的變化常常與客戶對企業(yè)認可度相關。

2.2客戶的“e-value”

在以往購買力穩(wěn)步增長的大環(huán)境下，客戶價值基本體現在購買行為、重復消費行為和增值服務購買力的表現中，以凈買入的方式給企業(yè)在當下帶來的實際收益。而在電子商務環(huán)境下，產品曝光、長時間瀏覽和跳轉等都會對企業(yè)效益產生貢獻。這種用戶通過外設鍵入、網頁瀏覽、線上互動等方式間接形成的“無價”資源就是e-value。

客戶的“e-value”主要反映的是客戶對該商品或平臺具有強烈的興趣，不期便會對其創(chuàng)造相應的價值?？蛻粼谠摼W站的所有活躍行為，如廣告點擊、互動評論、留言、發(fā)帖、消息打開、信息搜索、內容上傳等，都能夠創(chuàng)造e價值。在顧客被此類信息所吸引并根據自身需求帶有強烈目的性地追求某類消費行為時，便是電子商務平臺收獲客戶滿意度，提升影響力和影響面的時候。

對電子商務平臺來說，客戶e價值主要包括以下三個部分：

（1）廣告價值。廣告投放所創(chuàng)造的收益通常是電子商務網站收入的主要來源。網絡廣告與傳統廣告一樣，通過內容展示，創(chuàng)造消費需求、影響消費觀念、促使消費行為產生，是一種以商業(yè)目的為出發(fā)點的信息傳播活動，常常以誘導互動的方式進行信息傳遞。目前，電子商務網站的廣告收入結算常常以點擊率為依據，用戶的點擊動作能夠直接為電商網站創(chuàng)造利潤收入。

（2）“吸引力”價值。電商網站必須創(chuàng)造對消費者、商家都具有吸引力的價值，才能夠保證其必要的流動性，讓更多交易方進入平臺。更多相關產品或服務信息、更可信的搜索結果、更多評論和互動信息，更多來源廣泛、品類多樣的消息發(fā)布，對交易雙方都是充滿吸引力的高價值資源，這些“吸引力”價值，在被用戶創(chuàng)造的同時也反過來吸引更多用戶。

（3）流量價值。目前主流搜索引擎，如百度、谷歌等，在進行算法推薦時，常常將網站訪問流量作為主要權重指標，根據網站流量進行聚頂排名。在電子商務網站進行搜索引擎優(yōu)化（Search Engine Optimization）時，利用搜索引擎規(guī)則，使其盡可能在搜索結果的前排出現，對其先于競爭對手被訪問，從而占據有利地位，獲得品牌收益有重要價值?？蛻粼L問量越高，網站自然排名越靠前，網站就更容易獲取流量，并持續(xù)創(chuàng)造價值。

客戶e價值的三個維度都與電子商務網站持續(xù)獲客和盈利能力直接相關。如表1所示，本研究針對客戶e價值[11]建立了價值計算體系。

2.3改進模型的建立

根據企業(yè)類型和管理需求的不同，對于各種客戶細分理論的研究重點上也會有所不同。本文以電子商務客戶為研究對象，綜合考慮電子商務環(huán)境中客戶購買行為和認知模式的多種影響因素和表現形式，將RFM模型對客戶交易價值的多維度綜合評估的特性與客戶e價值的操作性定義相結合，構建了RFME模型，從而對電子商務環(huán)境下的客戶價值有了更好的評價。

其優(yōu)勢在于：

首先，不僅美妝、小型家電、食品、零售等日常消費品，和餐飲、音像等日常消費場景，在耐用品、大宗、原材料等領域，RFM也有充足的應用案例，證明其在各個領域客戶價值。

其次，根據劉元軍網絡活躍度指標體系建立和引入的e-value（e價值）計算體系，增加了電子商務由于處在網絡環(huán)境中所帶來的特定用戶行為模式特征，使得RFME模型體現了網絡環(huán)境下電商客戶價值的新含義。

最后，目前，我國電子商務市場呈現出極少數集成平臺占有絕大多數電子商務體量，中小型電子商務網站發(fā)展水平不高，規(guī)模和效益參差不齊的樣態(tài)，對大多數中小型偏向特定細分領域、或規(guī)模較小的電子商務網站來說，過于復雜的細分模型不但不利于理解，而且操作繁復，耗時耗資較大，模型設計、參數設置、評估監(jiān)控以及做出決策等環(huán)節(jié)都需要更長的時間和更多人力物力。隨著“奧卡姆剃刀定律”在現代企業(yè)管理理論中的發(fā)展，組織規(guī)模和制度制定當中，舍棄繁瑣和非必要流程更符合企業(yè)的經濟效益，這一原則在客戶價值分析和客戶關系管理中同樣適用。RFME模型舍棄了許多客戶價值評估算法的繁復運算，方便實用，更符合我國電子商務企業(yè)的實際需求和現實環(huán)境。

2.4基于RFME的客戶細分建模

（1）數據整理。用戶在電子商務網站上的一切點擊、瀏覽和消費行為，都可以被記錄和留存。從相關數據當中提取RFME模型對應的字段信息，如特定時間段內顧客的購買、距離統計時間最接近的購買、購買行為的頻次與頻率等。

（2）數據的處理。將相關字段信息進行數據化整理，以R、F、M、E數值的形式導出，方便k-means聚類分析。

（3）聚類分析。由于本研究對客戶價值的評估和細分服務于企業(yè)客戶關系管理，考慮到管理成本和針對性客戶營銷活動所需人力物力，客戶細分類別過多將大大增加管理難度，中小型電子商務網站難以有效利用客戶細分結果做出決策優(yōu)化，因此，模型針對R、F、M、E四個字段，使用k-means聚類分析。

（4）命名。完成聚類分析后，模型使用多元單因素方差分析法，對數據的顯著性差異進行驗證，從而判斷各客戶細分類別在不同字段下是否具有顯著區(qū)別。接下來，對各細分類別進行多重比較，通過對量化指標的比較分析，得到不同類別客戶的特征信息，并進行命名。如某一類客戶在其他字段上表現沒有顯著區(qū)別，但在消費頻次字段上的值明顯高于其他分類，即可以認為這類客戶具有同等條件下消費金額較高的特征，命名為高客單價客戶。

（5）營銷策略的分析。命名步驟當中，各細分類別客戶的特征被提取出來。根據細分客戶的類別，企業(yè)或網站可以對不同特征的用戶實施不同的營銷策略。如針對高客單價用戶，其對小額優(yōu)惠或低價產品可能敏感度較低，而應通過高質量、具有獨特性或高認知度的產品或服務進行客戶喚起，進一步增強客戶認同。

3客戶保持與流失的預測模型

3.1電子商務環(huán)境下客戶保持與流失的特點分析

在電子商務環(huán)境下，由于信息流動速度快，客戶選擇范圍極大拓展，用戶對品牌忠誠度更易被動搖，購買決策會被多種因素影響，客戶流失也有許多新的特點。

3.1.1用戶信任更難建立

電子商務環(huán)境下，產品或服務的信息公開透明，企業(yè)難以通過信息不對稱、或區(qū)域隔離，實施產品價格、促銷政策等方面的壟斷。隨著行業(yè)競爭的公開化、透明化、全球化，企業(yè)不僅需要面對本地的競品廠商，還要與世界各地的電商平臺進行抗衡。在顧客面前放著更多選項的時候，顧客的需求標準也將逐漸提高，造成一種平臺不僅要實現顧客的最低購物基本欲望的同時，還需要建立其獨特的核心價值觀的尷尬境地，在傳播中持續(xù)傳遞和構建認同，使客戶對企業(yè)價值觀本身產生認可，從而建立客戶對品牌的忠誠。

3.1.2評價指標趨向多元

電子商務環(huán)境下，產品和服務能夠得到全方位的展示，但同樣的，展示風格、廣告創(chuàng)意、商品包裝、快遞速度、網頁設計、營銷活動等，都會影響到客戶對商品和商家的整體評價，評價指標愈加多元化。

另外，由于客戶對不同領域、不同品質的商品需求逐漸變化，加之各個平臺的競爭和沖擊，當下客戶的忠誠度已然不能使用以往的關聯特征進行描述，對產品或服務滿意的同時，客戶仍舊愿意選擇轉而嘗試新的產品與服務，這一比例甚至高達65%～85%。貝思公司的一項調查顯示，90%的背離客戶會對他們以前獲得的服務表示滿意，也就是說，僅從客戶滿意與否來看，商家難以對客戶是否可能流失進行預測。隨著現代計算機技術的發(fā)展，通過模型和算法的優(yōu)化，我們能夠將更多樣化的有效指標納入客戶流失的分析預測當中。

3.1.3客戶認知具有實時性、交互性

在電子商務渠道中，客戶可以通過網頁的瀏覽順序，相關頁的跳轉打開，視頻、圖片的播放展示，甚至網絡直播等獲得實時的、交互性的數據信息?？蛻襞c企業(yè)之間的溝通渠道也從傳統的線下面對面溝通，到客服中心等的熱線電話，發(fā)展到如今語音、文字、視頻等多形式，時間、空間、地域等多維度的實時在線交流。

相應的，企業(yè)與客戶溝通的方式和渠道也愈加多元，通過用戶行為分析、客戶價值分析、問卷調查、客戶訪談等方式，企業(yè)能夠迅速獲取最新、最直接、最真實的客戶信息，實時進行數據資料的更新。利用實時交互性數據進行的客戶價值和流失可能性分析評估具有更強的效度和信度，更有利于企業(yè)制定有效戰(zhàn)略。

3.2 AdaBoost算法

首先給定一個弱學習算法和訓練集（（x1，y1），（x2，y2），…，（xn，yn）），xi∈X，X表示其中的某個域或者實例空間;yi∈Y={1，-1}，將分類問題作為一個帶類別標志的集合進行分析，將回歸問題作為一個數值進行計算。AdaBoost在每次迭代t=1，2，…，T時反復調用給定的弱學習算法。AdaBoost算法的主要思想，就是通過在指定訓練集中進行訓練，最終達到可以對一套固定的權重分布來進行維護的目的。在第t次迭代時，第i個訓練樣本（xi，yi）分布的權重記為Dt（i）。初始化時，對各個訓練樣本指定的初始權重均為1，保證在初始化時各個樣本的權重都是相同的。然后通過調用多學習算法來對訓練集進行T次迭代，并將每次迭代后的結果同訓練結果重新輸入訓練集中，達到對訓練集上的權重分布產生更新的目的。在此訓練過程中，對其中所有失敗訓練例所賦予的權重偏大，從而使得學習算法在后續(xù)學習過程中，都可以針對之前訓練中的這些失敗的訓練例進行學習，集中注意力在這些分類“困難”的樣本上。

在迭代過程中，每一步弱學習算法的任務就是根據訓練樣本的分布及權重Dt產生一個弱假設ht：X→{1，-1}。弱假設ht的好壞由誤判率εt來衡量：

（1）

該誤判率的大小與弱學習算法訓練所依靠的權重分布Dt相關。實際上，弱學習算法就是一個可以把權重分布Dt用在訓練樣本上的算法，通過權重分布對學習的訓練的重點進行相應的識別。

在進行T次訓練后，得到一個預測函數序列h1，h2，…， ht，AdaBoost算法就會給每隔弱假設h也賦予一個權重αt。αt可以對該弱假設的重要性進行衡量，對效果好的所賦予的權重大，對效果壞的賦予的權重小。αt的選取原則就是使損失函數能夠最小。在進行T次迭代后，分類問題中最終的預測函數H（x），便以之前得到的權重分布為依據，使用投票的凡是來產生該函數。

代碼如下：

訓練集：S=（（x1，y1），（x2，y2），…，（xn，yn）），xi∈X，yi∈ Y={1，-1}

初始化：Di=1/n，i=1，2，…，M

循環(huán)t=1，2，…，T

由Dt基于弱學習算法進行訓練，得弱假設ht;

ht的誤判率：;

選擇;

更新權值

其中，為歸一化算子（使得Dt+1為一個分布）

循環(huán)結束，輸出最終假設：

（2）

（3）

3.3基于Logistic的回歸分析算法

Logistic回歸實際上是一種分類方法，用于二分類問題。

先找到一個合適的假設函數，該函數即為分類函數，用它來預測輸入數據的判斷結果，這個過程需要對數據有一定的了解和分析，并且知道預測函數的基本特征。

構造一個代價函數cost，即損失函數。用以表示預測的輸出結果和訓練數據的實際類別之間的偏差。若考慮所有數據，可以將cost求和或平均，記為J（θ）函數，表示所有預測結果和訓練數據的實際類別之間的偏差。

最小化代價函數，獲得最優(yōu)的模型參數解，即J（θ）函數的最小值。因為函數的值越小預測結果就越準確，方法一般使用梯度下降法。例如：

（4）

（5）

擬合概率的Logit函數——Logit（πi），作為事件比值的對數，也就是事件發(fā)生地概率（成功）和事件沒發(fā)生的概率（失敗）的比值的自然對數：

（6）

引入閾值πi，大于πi則y^ =1，小于πi則y^ =0。擬合結果不一定很準確，因此需要有一個擬合誤差，誤差值盡可能小，與線性回歸不同，響應變量的觀測值不能被分解成擬合值和誤差項的和。

用于連接πi和解釋變量線性組合的Logit函數的選擇，被概率逐漸趨向與0或1的實施所激勵，同時概率值不能超過這個界限才能保證πi是一個有效地概率。因此，由于線性函數在預測結果的響應變量值上的結果沒有限制，并不會滿足二值響應變量所處的[0，1]區(qū)間，所以不能使用線性回歸模型進行二值響應變量的預測。

在算法的執(zhí)行過程中，從回歸效果上來分析的話，Logistic回歸和線性回歸具有相同的特性，即若將回歸過程中與輸出變量無關的屬性以及其余一些相似度高的屬性進行刪除之后，Logistic回歸會更具優(yōu)勢。由此可以看出，無論是Logistic還是線性回歸，若想使其的回歸結果具有較好的性能，那么對特征能否進行適宜的處理便會起到關鍵的作用。同時Logistic回歸與其他及算法相比，更容易從實際應用的實現相應的功能，并且在運行過程中所具有的效率也是很高的。

3.4基于AdaBoost的客戶保持與流失預測模型

客戶保持與流失的問題是一個二元的分類問題，就是通過對歷史后臺數據進行分析，針對客戶對不同產品或企業(yè)的維持與流失情況進行規(guī)律總結，從而可以預測未來一段時間內客戶對該產品或企業(yè)維持與流失的情況?？蛻艄芾砣藛T，可以根據可靠的預測結果，對可能流失的重要的客戶進行及時的挽救措施。

綜上所述，AdaBoost相當于對若干個弱分類算法進行線性組合，從而得到最精確的預測結果。但是在整個預測過程中，AdaBoost僅僅是一個組合分類器算法，只能對每一個單個分類模型的訓練結果進行組合融合，并未使用弱分類器作為基分類器來完善整個過程中的分類功能，因此對弱分類算法的選擇也要進行綜合考慮。C5.0決策樹與神經網絡相比，雖然二者的非線性擬合能力不相上下，但是C5.0決策樹比神經網絡具有更快的訓練速度，并且泛化能力也要強于神經網絡，因此本文選擇C5.0決策樹作為指定弱分類算法在AdaBoost中起到基分類器的作用。

4實驗結果與結論

對于AdaBoost模型的整體訓練過程而言，整個過程中的預測準確率是逐漸提升的，整個訓練過程會針對在迭代過程中產生的錯誤進行以及并糾正，并將結果再次輸入到訓練集中，從而保證下次迭代過程中的預測準確率。隨著訓練倫次的增加模型的預測能力會不斷地接近極限，當訓練輪次夠高的時候，每多訓練一次模型的預測正確率提高就很小了。輪次的確定一般在模型的驗證階段進行。

為表現本文的改進方法優(yōu)越性，選取了幾種常見模型與其進行比較，通過對同一個分類數據集建立AdaBoost模型，然后比較準確率的方式來說明AdaBoost算法的優(yōu)勢。使用SASEM，實驗數據集進行建模。錯分類率收斂過程如圖1所示。

本文選取了4中常見模型進行比較，如表2所示：

綜上所述，AdaBoost算法具有明顯的優(yōu)勢，它的自動糾錯能力相較于其他算法更適合用來進行分析。盡管精度僅僅比其他算法高約6個百分點，但在實際的生產生活中這些提升對模型帶來的優(yōu)化效果是巨大的。由此可見，本文提出的基于RFME和AdaBoost分類器的客戶價值模型可為電商平臺精確化計算出客戶價值并根據計算結果預測客戶流失。

參考文獻

[1] RENJITH S.An integrated framework to recommend personalized retention actions to control B2C E-commerce customer churn[J].International Journal of Engineering Trends and Technology，2015，27（3）：152-157.

[2] JU C H，LU Q B，GUO F P.E-commerce customer churn prediction model combined with individual activity[J].Systems Engineering-Theory & Practice，2013，33（1）：141-150.

[3] ZHU Bangzhu.E-business customer churn prediction based on integration of SMC，rough sets and least square support vector machine[J].Systems Engineering-Theory & Practice，2010，30（11）：1960-1967.

[4] YU X B，GUO S S，GUO J，et al.An extended support vector machine forecasting framework for customer churn in e-commerce[J].Expert Systems with Applications，2011，38 （3）：1425-1430.

[5] 朱幫助，張秋菊，鄒昊飛，等.基于OSA算法和GMDH網絡集成的電子商務客戶流失預測[J].中國管理科學，2011，19（5）：64-70.

[6] SCHAPIRE R E.The strength of weak learnability[C]// Foundations of Computer Science，1989.30th Annual Symposium on.IEEE，1989：197-227.

[7] BREIMAN L.Bagging predictors[J].Machine Learning， 1996，24（2）：123-140.

[8] YING Weiyun，LIN Nan，XIE Yiayia，et al.Research on the LDA boosting in customer churn prediction[J].Journal of Applied Statistics & Management，2010，29（3）： 400-408.

[9] LIU M，QIAO X Q，XU W L.Three categories customer churn prediction based on the adjusted real adaBoost[J]. Communication in Statistics-Simulation and Computation， 2011，40（10）：1548-1562.

[10] ZHANG Wei，YANG Shanlin，LIU Tingting.Customer churn prediction in mobile communication enterprises based on CART and Boosting algorithm[J].Chinese Journal of Management Science，2014，22（10）：90-96.

[11] 劉遠君.基于統計方法的交易平臺型電子商務網站CRM應用研究[D].杭州：浙江工商大學.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于RFME模型和AdaBoost分類器的電子商務客戶關系研究