鄒倩穎 王小芳
摘 要: 由于實體商業(yè)市場缺乏像電商平臺那樣的個性化交互平臺,因此無法對客戶進行精準營銷,使得在商業(yè)市場上的競爭力越來越弱。為了解決這一問題,引入商家基因庫模型,并記錄客戶在實體店鋪中的歷史購物行為、關注的產品類別等,結合最佳鄰居、效用函數等提出賦有權重的客戶偏好模型。利用改進遺傳算法對商家基因庫模型與客戶偏好模型進行匹配,以實現精準營銷。研究以大數據為背景,利用Hadoop集群的MapReduce編程實現改進遺傳算法,用以在n維商家空間中快速、精準地找出最符合客戶需求的商家。實驗結果表明,改進遺傳算法相對于傳統遺傳算法在推薦準確率上平均提升15.6%,在推薦響應時間上提升41.9%。
關鍵詞: 改進遺傳算法; 精準營銷; 商家基因庫; 客戶偏好模型; 范圍相似度函數; 大數據
中圖分類號: TN911.1?34; TP312 文獻標識碼: A 文章編號: 1004?373X(2018)13?0177?05
Abstract: The entity commerce lacks of personalized interactive platform as the e?commerce, and can′t perform the precision marketing for client, so the competitiveness becomes weaker in commercial markets. For the above problem, the merchant gene library model is introduced, the historical shopping behavior and concerned product category of entity stores are recorded for clients, and the best neighbor and utility function are combined to propose the client preference model with weighting. The improved genetic algorithm is used to match the merchant gene library model with client preference model to realize the precision marketing. On the basis of big data, the MapReduce programming of Hadoop cluster is adopted to improve the genetic algorithm, which can quickly and accurately find out the merchant mostly meeting the requirements of client in n?dimensional merchant space. The experimental results show that the recommended accuracy of the improved genetic algorithm is 15.6% higher than that of the traditional genetic algorithm, and the recommended response time is improved by 41.9%.
Keywords: improved genetic algorithm; precision marketing; businesses gene library; client preference model; function of range similarity; big data
隨著“互聯網+”的浪潮席卷而來,傳統實體商業(yè)(如百貨商場)卻在此次浪潮中受到非常大的沖擊。根據iziRetail抽樣調查數據顯示,2016年上半年全國近六成的百貨商場業(yè)績處于下滑狀態(tài),很多商場甚至瀕臨倒閉或者已經倒閉的狀況。因此,對于目前的大型實體商業(yè)而言,積極探尋新的經營理念,利用先進大數據技術,在新時代、新環(huán)境下實現商業(yè)模式轉型,是目前所有實體商業(yè)領導者亟待解決的問題。
研究以某大型實體商業(yè)為背景,首先對商場中所有商家所售產品建立商家基因庫模型[1];然后根據客戶在此商場中的消費記錄、當前關注的產品類別等信息,使用聚類算法構建帶權重的客戶偏好模型;最后利用改進的遺傳算法實現在商家基因庫及海量客戶群之間快速、精準的匹配,獲得匹配度從高到低的推薦列表,并利用新媒體方式為每一位客戶實現個性化推薦,以達到精準營銷的目的。研究所有模型均建立在大數據分布式處理Hadoop 2.0平臺上,此平臺本身保證了模型的可用性、高效性及擴展性。
以餐飲業(yè)為例,傳統遺傳算法匹配度在70%~75%范圍內的數據有1 140 528條,高于改進遺傳算法,其在75%~100%范圍內的數據則低于改進遺傳算法,推薦率在傳統遺傳算法基礎上平均提高15.6%。改進遺傳算法優(yōu)于傳統遺傳算法的原因有以下兩點:
1) 在傳統遺傳算法之前加入k?means算法對數據進行初始聚類,將商家基因累積,抬高特征值,加快遺傳算法對特征基因的識別和匹配分析。
2) 在使用傳統遺傳算法之后加入范圍相似度函數求被推薦用戶的親密好友f,對遺傳算法得出的相似最優(yōu)解集做出最優(yōu)選擇,使最優(yōu)解的范圍更精確。
本文提出一種改進遺傳算法,即首先在傳統算法之前加入k?means算法,使數據源特征更具有集中性,再應用遺傳算法得出相似最優(yōu)解集,最后使用自定義范圍相似度函數求解推薦率。以上所有算法均采用Hadoop集群MapReduce編程模型并行實現。
本文提出的算法仍有需要改進的地方,以下幾個方面需要基于實際情況不斷完善。
1) 利用k?means算法對用戶和商家數據進行初始聚類,其中對[k]值的確定有待完善,當用戶和商家的數據有變動時,所確定的[k]值就需要更新。
2) 對新用戶的數據采集方式可以更具個性化,提高新用戶數據參數的精確度以及快速有效地采集并存儲其數據,進行精準計算。
3) 在計算最終推薦率時,將相似最優(yōu)解放入[n]維空間中,以其為圓心,人為設定閾值為85%,在此范圍的即為最優(yōu)解的“親密好友”[f]。因此,在尋找最優(yōu)解的親密好友時可以設定一個算法自動確定以最優(yōu)的相似程度范圍取值。
[1] 張浩.基于商品基因和遺傳算法的個性化推薦系統[J].計算機系統應用,2011,20(12):114?117.
ZHANG Hao. Personalized recommendation system based on commodity gene and GA [J]. Computer system & applications, 2011, 20(12): 114?117.
[2] 朱會霞,郝志云,王福林.二進制遺傳算法編碼長度的計算方法[J].遼寧工業(yè)大學學報(自然科學版),2016,36(2):138?140.
ZHU Huixia, HAO Zhiyun, WANG Fuling. Calculation method of encoding length for binary encoded genetic algorithm [J]. Journal of Liaoning University of Technology (natural science edition), 2016, 36(2): 138?140.
[3] 吳夙慧,成穎,鄭彥寧,等.K_means算法研究綜述[J].現代圖書情報技術,2011(5):28?35.
WU Suhui, CHENG Ying, ZHENG Yanning, et al. Survey on K?means algorithm [J]. Data analysis and knowledge discovery, 2011(5): 28?35.
[4] 劉英.遺傳算法中適應度函數的研究[J].蘭州工業(yè)高等??茖W校學報,2006(3):1?4.
LIU Ying. Research on fitness function in genetic algorithm [J]. Journal of Lanzhou Polytechnic College, 2006(3): 1?4.
[5] 盧向華.競價排名廣告的關鍵詞投放策略及其績效研究:基于淘寶網的實證分析[J].管理科學學報,2013,16(6):1?9.
LU Xianghua. Empirical study of keywords biding strategy and search engine advertising performance [J]. Journal of managements sciences in China, 2013, 16(6): 1?9.
[6] 劉鐵男,姜建國,陳繼剛,等.遺傳算法的收斂性分析[J].大慶石油學院學報,2000(3):40?42.
LIU Tienan, JIANG Jianguo, CHEN Jigang, et al. Convergence analysis of genetic algorithms [J]. Jounal of Daqing Petrolmum Institute, 2000(3): 40?42.
[7] 汪民樂.遺傳算法的收斂性研究[J].計算技術與自動化,2015,34(1):58?62.
WANG Minle. Research on convergence of genetic algorithm [J]. Computing technology and automation, 2015, 34(1): 58?62.
[8] 張棟冰.一種基于遺傳算法的特征選擇和權重確定方法[J].懷化學院學報,2015,34(5):59?62.
ZHANG Dongbing. A feature selection and weights determination method based on genetic algorithm [J]. Journal of Huaihua University, 2015, 34(5): 59?62.
[9] 鄧波,張玉超,金松昌,等.基于MapReduce并行架構的大數據社會網絡社團挖掘方法[J].計算機研究與發(fā)展,2013,50(z2):187?195.
DENG Bo, ZHANG Yuchao, JIN Songchang, et al. Community detection in big social networks based on MapReduce framework [J]. Journal of computer research and development, 2013, 50(S2): 187?195.
[10] 劉星毅,韋小鈴.基于歐式距離的最近鄰改進算法[J].廣西科學院學報,2010,26(4):409?411.
LIU Xingyi, WEI Xiaoling. Improved kNN algorithm based on Euclidean distance [J]. Journal of Guangxi Academy of Sciences, 2010, 26(4): 409?411.
[11] 羅軍,朱文奇.考慮物品相似權重的用戶相似度計算方法[J].計算機工程與應用,2015,51(8):123?127.
LUO Jun, ZHU Wenqi. User similarity function considering weight of items similarity [J]. Computer engineering and application, 2015, 51(8): 123?127.
[12] 諶超,強保華,石龍.基于Hadoop MapReduce的大規(guī)模數據索引構建與集群性能分析[J].桂林電子科技大學學報,2012,32(4):307?312.
CHEN Chao, QIANG Baohua, SHI Long. Large scale data index construction and cluster efficiency analysis based on Hadoop MapReduce [J]. Journal of Guilin University of Electronic Technology, 2012, 32(4): 307?312.
[13] 王悅.遺傳算法在函數優(yōu)化中的應用研究[J].電子設計工程,2016,24(10):74?76.
WANG Yue. Application of genetic algorithm in function optimi?zation [J]. Electronic desigen endineering, 2016, 24(10): 74?76.
[14] 李建江,崔健,王聃,等.MapReduce并行編程模型研究綜述[J].電子學報,2011(11):2635?2642.
LI Jianjiang, CUI Jian, WANG Dan, et al. Survey of MapReduce parallel programming model [J]. Acta electronica sinica, 2011(11): 2635?2642.
[15] Wiki. Institutions and companies using Hadoop [EB/OL]. (2010?12?25). [2010?12?28]. http://wiki.apache.org/hadoop/PoweredBy.