国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于海量銀行卡的數(shù)據(jù)挖掘推薦系統(tǒng)研究與應(yīng)用

2022-11-21 09:49:56田甜蔡雅雅李爽
關(guān)鍵詞:銀行卡數(shù)據(jù)挖掘

田甜 蔡雅雅 李爽

關(guān)鍵詞:銀行卡;數(shù)據(jù)挖掘;實時推薦

1引言

傳統(tǒng)的顧客推薦系統(tǒng)根據(jù)用戶的過去行為做出推薦,或者應(yīng)用傳統(tǒng)的關(guān)聯(lián)規(guī)則模型的APRIORI算法[1],計算出所有的頻繁集,根據(jù)預(yù)設(shè)的支持度和置信度,計算出不同的事物間的關(guān)聯(lián)度。但是,這種方法具有相對局限性,截至2019年年末,中國銀行卡累計發(fā)卡量達(dá)85.3億張,持卡人超過10億,我國境內(nèi)受理商戶累計2363萬戶,由此每天產(chǎn)生了海量的交易數(shù)據(jù)。推薦算法在人類生活中很早就已經(jīng)得到了應(yīng)用,如向朋友推薦可能感興趣的人、可能感興趣的書籍、可能喜歡吃的食物。而隨著互聯(lián)網(wǎng)昀普及,這種推薦方式逐漸從人們的生活經(jīng)驗中轉(zhuǎn)移到了大型的數(shù)據(jù)中心和研究中心,使用數(shù)學(xué)公式和現(xiàn)代化的分析工具進(jìn)行分析。從最開始的各類熱點排行榜[2],到之后的各類網(wǎng)站推出的“猜你喜歡”[3],再到根據(jù)用戶行為數(shù)據(jù)分析得到有效數(shù)據(jù)的各種個性化推薦系統(tǒng)。應(yīng)用傳統(tǒng)的方法在數(shù)據(jù)集合中挖掘消費行為,不僅效率低下,而且需要大量手工分析,不利于實現(xiàn)系統(tǒng)的實時性和有效性。本文介紹了一種基于海量銀行卡的數(shù)據(jù)挖掘推薦系統(tǒng),無須借助商業(yè)挖掘工具,就能實現(xiàn)實時和非實時推薦。

2數(shù)據(jù)挖掘簡介

2.1確定對象

數(shù)據(jù)挖掘先要確定目標(biāo),然后對現(xiàn)有資源進(jìn)行評估,再確定問題是否能通過數(shù)據(jù)挖掘來解決。挖掘的最后結(jié)果是不可預(yù)測的,但要探索的問題應(yīng)該有預(yù)見性和目標(biāo)性。一般而言,數(shù)據(jù)挖掘側(cè)重解決四類問題,即分類、聚類、關(guān)聯(lián)、預(yù)測[4]。

2.2分類問題

分類問題屬于預(yù)測性問題,與預(yù)測問題的區(qū)別在于其預(yù)測結(jié)果是類別(如A,B,C三類),而不是一個具體的數(shù)值(如100、1000)[5]。在商業(yè)應(yīng)用中,分類問題實踐中使用最多,如預(yù)測哪些客戶會參與某個促銷活動,預(yù)測哪些客戶在未來一段時間是否會停止使用銀行卡。解決這一類問題的前提是通過歷史數(shù)據(jù)的收集,明確某些用戶的分類結(jié)果,確認(rèn)分類成功的前提是要有明確的樣本集。

2.3聚類問題

聚類主要解決的是把一群對象劃分成若干個組的問題,其主要特征是需要明確的數(shù)據(jù)支持,僅根據(jù)在數(shù)據(jù)中發(fā)現(xiàn)的描述對象及其關(guān)系的信息將數(shù)據(jù)分組。目標(biāo)是組內(nèi)的對象相互之間是相似的,而不同組中的對象是不同的。例如,需要選擇的若干個指標(biāo)項(如渠道、商戶類型、交易金額等),對已有的用戶群進(jìn)行劃分,特征相似的用戶聚為一類,特征不同的用戶分屬于不同的類。

2.4關(guān)聯(lián)問題

關(guān)聯(lián)問題主要是解決世界上萬事萬物間千絲萬縷的聯(lián)系的問題。關(guān)聯(lián)分析可從大量數(shù)據(jù)中發(fā)現(xiàn)事物、特征或者數(shù)據(jù)之間頻繁出現(xiàn)的相互依賴關(guān)系和關(guān)聯(lián)關(guān)系。這些關(guān)聯(lián)并不總是事先知道的,而是通過集中數(shù)據(jù)的關(guān)聯(lián)分析獲得的。例如,一群持卡人去了多種商戶類型的商戶,哪些同時去的商戶類型的概率比較高:去了A商戶的同時,接下來去哪些商戶的概率比較高。

2.5預(yù)測問題

預(yù)測主要指的是預(yù)測變量的取值為連續(xù)數(shù)值型的情況。預(yù)測的目的是利用過去已有的知識和發(fā)生過的事情來更好地了解未來,以及做出合理的期望。例如,預(yù)測下一年度的GDP增長率以及銀聯(lián)卡產(chǎn)業(yè)下一年度的新增持卡人數(shù)等。預(yù)測問題的解決更多的是采用統(tǒng)計學(xué)的技術(shù),如回歸分析和時間序列分析。

2.6實時推薦系統(tǒng)

本文介紹的實時推薦系統(tǒng)分為三個部分,即數(shù)據(jù)ETL流程、行為數(shù)據(jù)挖掘和營銷實施(圖1)。

(1)數(shù)據(jù)ETL流程:數(shù)據(jù)抽取、轉(zhuǎn)換、加載、集成的實時性。

(2)行為數(shù)據(jù)挖掘:通過數(shù)據(jù)挖掘,以產(chǎn)生決策支持的實時性。

(3)營銷實施:將決策支持付諸于實施的實時性。

3數(shù)據(jù)準(zhǔn)備

根據(jù)不同的業(yè)務(wù)問題,選取不同的、相關(guān)的內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。下文以營銷“麻辣風(fēng)暴”為例,數(shù)據(jù)的篩選分為兩個方面,即數(shù)據(jù)口徑和樣品集范圍。

3.1數(shù)據(jù)口徑

根據(jù)營銷的目標(biāo)導(dǎo)向,旨在發(fā)掘商戶間的關(guān)聯(lián)信息進(jìn)行針對性營銷,挖掘相關(guān)聯(lián)的商戶間的持卡人的線下消費交易行為,所以數(shù)據(jù)口徑確定為:數(shù)據(jù)的度量口徑為交易金額、交易筆數(shù)、活動持卡人數(shù)等;由于營銷的主要渠道是線下到店商戶交易,因此消費的渠道為銀行銀商POS或其他線下消費。

3.2樣品集合

3.2.1時間

營銷時間的篩選。首先,不同商戶間商戶類型的關(guān)聯(lián)性會隨著刷卡時間的不同出現(xiàn)差異。其次,對于營銷的響應(yīng)度而言,樣品時間越長營銷響應(yīng)度越低。因此,確定了營銷的投送時間,也就確定了數(shù)據(jù)的篩選時間。最后,節(jié)假日的不同也會影響商戶間的關(guān)聯(lián)行為。例如,“火鍋類餐飲”商戶在冬季消費的關(guān)聯(lián)性與在夏季消費的關(guān)聯(lián)性可能會出現(xiàn)不同。原因一是,樣品集合在冬季較多。原因二是,樣品集在夏季消費的商戶與在冬季消費的商戶對比會各有側(cè)重。另外,營銷時間的篩選基準(zhǔn)為“一個月”,可以根據(jù)營銷目標(biāo)的月份進(jìn)行針對性篩選。例如,在12月對“麻辣風(fēng)暴”進(jìn)行營銷,數(shù)據(jù)的樣品集可以選擇上一年12月的同比數(shù)據(jù),或者是同年10月的環(huán)比數(shù)據(jù)。篩選的時間范圍可以按照“季度”調(diào)整。以季度篩選,可以提高關(guān)聯(lián)性的精確度,但卻影響了結(jié)果的響應(yīng)度。篩選的時間范圍也可以按照“年度”調(diào)整,以“年度”調(diào)整一般用于研究報告,周期比較長,運行的時間也較長。

3.2.2卡數(shù)量

此項主要針對的是卡樣品集的篩選。由于不同商戶間商戶受理的銀行卡張數(shù)不同,需要篩選的卡的樣品集合也不一樣??紤]到樣品集合的運行效率和樣品集合的準(zhǔn)確度,選擇以最大10萬為準(zhǔn),依次為5萬或者1萬以下。由此可以綜合考慮商戶的規(guī)模集。

3.2.3地區(qū)

針對商戶的受理地區(qū)的選擇,根據(jù)商戶類型的不同,進(jìn)行針對篩選。如果是本地餐飲類,可以考慮篩選受理地區(qū)為“本地”的關(guān)聯(lián)餐飲商戶,如“麻辣風(fēng)暴”“點都德”“海底撈火鍋”。如果是旅游業(yè)態(tài)為主的商戶,如“迪斯尼度假區(qū)”“歡樂谷”“世博園”,則需要關(guān)注全國各地的關(guān)聯(lián)商戶。

4數(shù)據(jù)清洗及預(yù)處理

由研究數(shù)據(jù)的質(zhì)量、應(yīng)用異常值分析模塊、進(jìn)行相關(guān)性分析、選擇相關(guān)因子、排除相關(guān)數(shù)據(jù)、進(jìn)行數(shù)據(jù)的清理轉(zhuǎn)換、建立相關(guān)的匯總寬表、調(diào)整數(shù)據(jù)結(jié)構(gòu)等模塊組成,為進(jìn)一步的分析做準(zhǔn)備,并確定將要進(jìn)行的挖掘操作的各個字段的類型。

(1)異常值分析模塊:應(yīng)用到所有的挖掘模型,用來確定異常的數(shù)據(jù),適用于大多數(shù)的模型。

(2)數(shù)據(jù)審查模塊:檢查數(shù)據(jù)的分布情況。

(3)相關(guān)性分析模塊:適用于因子較多的模型,用來篩選合適的因子經(jīng)過數(shù)據(jù)審查的模塊。

如果發(fā)現(xiàn)具有大量的金額值小于5元的測試數(shù)據(jù),就會影響關(guān)聯(lián)的效果。因此,在數(shù)據(jù)的清洗過程中,還要清除交易金額值小于5元的測試數(shù)據(jù)。經(jīng)過數(shù)據(jù)預(yù)處理后,將數(shù)據(jù)轉(zhuǎn)換成一張分析表,這張分析表是針對關(guān)聯(lián)算法而建立的。

5數(shù)據(jù)算法流程

關(guān)聯(lián)算法的模型分為兩大步驟,即挖掘出關(guān)聯(lián)商戶、挖掘出相關(guān)人群。

算法的開始確認(rèn)5個主要參數(shù):I,J,K,L和S。I代表的是樣品的時間參數(shù):J代表的是樣品的卡張數(shù):K代表的是關(guān)聯(lián)商戶的名單:L代表的是目標(biāo)人群的卡量;S代表的是持卡人RFM評分結(jié)果。經(jīng)過兩個流程的梳理,再挖掘出營銷關(guān)聯(lián)強商戶和營銷的目標(biāo)人群。

算法:Generate_P romotion_List。

輸入:商戶消費信息庫,記作M;個人消費庫,記作D;商戶類別庫,記作L。

輸出:營銷人群列表L

方法:(1)掃描商戶消費信息庫M-次,收集目標(biāo)營銷商戶C集合的人群列表;(2)掃描個人消費信息庫D-次,收集目標(biāo)C的所有商戶消費記錄B;(3)調(diào)用confidence_ calc來計算關(guān)聯(lián)關(guān)系。該執(zhí)行過程如下,如果B中商戶消費中,消費記錄則消費N的計數(shù)增加l,對N按照置信度計數(shù);(4)掃描商戶消費信息庫M,篩選關(guān)聯(lián)度緊密用戶自定義的商戶類別(餐飲、百貨、大型倉儲式超級市場),選擇指定商戶篩選出人群列表L;(5)IF M.card_no=L.card_no then收集該卡的交易行為;(6)對個人RFM評分S;(7)根據(jù)分值S返回營銷列表L。

6結(jié)果分析

通過大量數(shù)據(jù)分析實驗,結(jié)果表明,川菜的代表“麻辣風(fēng)暴”人群和粵菜的代表“天天漁港”人群關(guān)聯(lián)商戶有明顯差異。例如,去過“麻辣風(fēng)暴”的入群比較喜歡去“歡樂谷”和“科技館”:去過“天天漁港”的人群比較喜歡去“植物園”和“海洋水族館”。以下是部分輸出結(jié)果展示。

如上輸出結(jié)果所示,比較“麻辣風(fēng)暴”和“天天漁港”主題挖掘結(jié)果:在每家商戶中,均有不同的關(guān)聯(lián)度最高的商戶。在商戶中,有相同的商戶地點,也有不同的商戶地點。結(jié)果顯示,在同餐飲商戶類別中,不同商戶的關(guān)聯(lián)結(jié)果是不一致的,證明了結(jié)果的差異性和有效性。

7結(jié)束語

在“大數(shù)據(jù)”時代,數(shù)據(jù)量異常龐大,以不同類型的結(jié)構(gòu)加速數(shù)據(jù)生產(chǎn),支持龐大的數(shù)據(jù)分析規(guī)模是一項非常有意義的工作。本文介紹了一種數(shù)據(jù)挖掘量化的方法和系統(tǒng),該過程描述了從粗放式營銷到活動卡營銷,再到區(qū)域性營銷,最后到精準(zhǔn)營銷的數(shù)據(jù)量的變化過程,進(jìn)一步說明應(yīng)用該方法不僅增加了營銷的準(zhǔn)確性,而且增加了營銷的有效性。其中,粗放式營銷是指對已經(jīng)發(fā)卡的卡片進(jìn)行大規(guī)模營銷:活動卡營銷是指針對全國活動的卡片進(jìn)行營銷:區(qū)域性營銷是指針對特定地區(qū)的所有卡片進(jìn)行大面積營銷:精準(zhǔn)營銷是根據(jù)挖掘后驗證的關(guān)聯(lián)結(jié)果進(jìn)行的針對性營銷。系統(tǒng)對大量數(shù)據(jù)進(jìn)行分析,并對大數(shù)據(jù)集合進(jìn)行了大數(shù)據(jù)集的查詢和推薦實驗,通過數(shù)據(jù)及效果驗證,營銷的效果更好,成本也得到了有效控制,極大地增加了營銷的精準(zhǔn)性和有效性。

猜你喜歡
銀行卡數(shù)據(jù)挖掘
復(fù)雜背景下銀行卡號識別方法研究
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
銀行卡被同學(xué)擅自透支,欠款誰償還?
公民與法治(2020年3期)2020-05-30 12:29:58
誰劃走了銀行卡里的款
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
銀行卡清算市場6月全面開放
關(guān)于審稿專家及作者提供銀行卡號的啟事
淺談銀行卡用戶驗收測試
永顺县| 含山县| 上林县| 临泽县| 永顺县| 怀化市| 大方县| 昭觉县| 蓬安县| 广德县| 康乐县| 沂源县| 米脂县| 延川县| 台江县| 巨鹿县| 安顺市| 关岭| 收藏| 罗甸县| 类乌齐县| 磴口县| 张掖市| 无极县| 大姚县| 汉寿县| 全椒县| 麟游县| 长兴县| 安岳县| 鄄城县| 曲沃县| 嘉祥县| 永年县| 兖州市| 涞水县| 高邮市| 江安县| 咸阳市| 武隆县| 东平县|