国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘在零售電商交易風險預(yù)測中的應(yīng)用

2019-03-07 05:22常春燕劉廣成
電腦知識與技術(shù) 2019年35期
關(guān)鍵詞:數(shù)據(jù)挖掘

常春燕 劉廣成

摘要:現(xiàn)在的電子商務(wù)交易中,網(wǎng)絡(luò)漏洞層出不窮,導(dǎo)致電子商務(wù)交易風險加大。為了提高網(wǎng)絡(luò)交易的安全,推動電子商務(wù)的健康發(fā)展,對數(shù)據(jù)挖掘在零售電商交易風險預(yù)測中的應(yīng)用進行研究。公開選取數(shù)據(jù)集,在此基礎(chǔ)上對數(shù)據(jù)進行預(yù)處理,完成面向大數(shù)據(jù)的交易進行中風險值計算。提出方法進行了分類因子的判別,克服了傳統(tǒng)方法的弊端,在運算時間、預(yù)測結(jié)果精度均有較好的優(yōu)勢,最終結(jié)果優(yōu)于傳統(tǒng)方法,有效避免了傳統(tǒng)方法收斂速度較慢的缺點。

關(guān)鍵詞:數(shù)據(jù)挖掘;零售電商;電商交易;風險預(yù)測

中圖分類號:F272.1 文獻標識碼:A

文章編號:1009-3044(2019)35-0001-02

隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展以及社會智能化水平的提高,傳統(tǒng)的商業(yè)貿(mào)易正在經(jīng)歷一次重大改革,電子商務(wù)顯示出巨大的市場價值與潛力[1]。電子商務(wù)作為商業(yè)領(lǐng)域的一種新興貿(mào)易方式,它主要是以計算機網(wǎng)絡(luò)為應(yīng)用平臺、現(xiàn)代信息技術(shù)為媒介、經(jīng)濟利潤為核心的現(xiàn)代化商業(yè)運營模式,最終目的是為了實現(xiàn)商業(yè)活動的低成本、高效率和便捷化。

數(shù)據(jù)庫技術(shù)的迅猛發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛推廣和使用,使得數(shù)據(jù)積累得越來越多。爆炸式增長的數(shù)據(jù)背后隱藏著眾多關(guān)鍵數(shù)據(jù),為了更好地利用這些數(shù)據(jù),就必須對其進行合理科學的分析[2]。數(shù)據(jù)庫系統(tǒng)雖然能夠?qū)崿F(xiàn)數(shù)據(jù)的組織、存儲、管理、維護等功能,但卻挖掘不了數(shù)據(jù)中隱藏的規(guī)律,也就無法根據(jù)現(xiàn)有的數(shù)據(jù)對市場的運行規(guī)律和未來發(fā)展趨勢進行合理預(yù)測。數(shù)據(jù)庫系統(tǒng)對挖掘數(shù)據(jù)背后隱藏的信息無能為力,最終造成現(xiàn)在“數(shù)據(jù)爆炸但有效信息匱乏”的狀況,因此需要我們對現(xiàn)行的零售電商交易風險預(yù)測進行合理創(chuàng)新、優(yōu)化。

1 數(shù)據(jù)挖掘在零售電商交易中的風險預(yù)測

1.1公開數(shù)據(jù)集選取

有關(guān)交易數(shù)據(jù)的選擇,我們主要采取公開的不平衡數(shù)據(jù)集即可,使用Data Hackathon 5.X AV上保存的數(shù)據(jù)檢驗改進的xg-boost算法的性能[3]。一般狀況下,在不平衡數(shù)據(jù)集內(nèi),樣本數(shù)相對較多的被稱之為正樣本,而樣本數(shù)相對較少的稱之為負樣本。數(shù)據(jù)集規(guī)模統(tǒng)一規(guī)定為19335*35。其中,正負樣本數(shù)量之間的比例大致是60:1,因而正負樣本比例嚴重失衡。如果應(yīng)用的數(shù)據(jù)挖掘改進的SMOTE上采樣算法可以在這個不平衡樣本集上發(fā)揮很好的分類效果,那么就表明SMOTE上采樣算法適合用于不平衡數(shù)據(jù)集的分類問題。所以,這個數(shù)據(jù)集就比較符合平衡數(shù)據(jù)的相關(guān)要求。

1.2數(shù)據(jù)預(yù)處理

有關(guān)對零售電商交易數(shù)據(jù)的預(yù)處理環(huán)節(jié)一共包括缺失值處理、特征One-hot編碼、數(shù)據(jù)過采樣三部分。

缺失值處理部分,輸入數(shù)據(jù)比如客戶歷史購買信息、退款信息等一般都會出現(xiàn)遺漏或缺失的狀況,如將這些記錄直接放入回收站,將會在一定程度上影響交易風險預(yù)測的最終結(jié)果,造成結(jié)果精度誤差較大,為了實現(xiàn)更好的預(yù)測效果,需要對缺失值進行預(yù)先處理。而有關(guān)訓(xùn)練集數(shù)據(jù)缺失狀況詳情見下表所示:

對于表1中所列的類別型字段,比方說區(qū)域分類、費控標志等字段均采取默認值-1進行補充;對于大量缺失的字段,比方說負荷特性、市場化屬性、退款消費分類,就需要直接刪除該特征,以免耗費過多時間成本;重要性等級字段雖然缺失較大,可考慮到其特征的重要性,需要單獨保留該特征,采用-1補充;對于異常值極少的(<0.01%)字段數(shù),直接刪除即可;至于有些毫無關(guān)聯(lián)(基本為0)的信息,直接刪除即可[4]。

特征One-hot編碼部分,特征字段主要是以O(shè)ne-hot分散編碼,One-hot編碼,也可稱之為獨屬編碼。其手段是利用N位狀態(tài)寄存器去對N個數(shù)據(jù)狀態(tài)進行單獨編碼,每一個數(shù)據(jù)狀態(tài)均有其獨立的寄存器位,且在任意段位,只存在一位有效。假如我們有四個樣本(行),每一個樣本包含著三個具體特征(列),如表2所示,借助one-hot編碼能夠獲得具體的數(shù)據(jù)特征。而特征分散編碼,一方面處理了以往分類器解決不好離散數(shù)據(jù)的問題,另一方面在一定意義上對填充特征也有積極的作用。

數(shù)據(jù)過采樣部分,當正樣本所占總體樣本比重較低時,數(shù)據(jù)分類算法就會呈現(xiàn)出極為不穩(wěn)定,其對交易風險的預(yù)測精度也會隨之降低。從原理上來講,預(yù)測的精準程度在很大程度上取決于正負樣本能否可以利用某項程序規(guī)則進行完全區(qū)分[5]。當訓(xùn)練數(shù)據(jù)集的正負樣本容量明顯較多且所占比例相差不大時,獲得這種程序的規(guī)則就有其普適性,預(yù)測的結(jié)果相對而言也會較為樂觀。然而,如果數(shù)據(jù)集的正樣本數(shù)量和負樣本數(shù)量之間相差懸殊,同時雙方樣本數(shù)量都較少時,計算機對這種規(guī)則的總結(jié)就會缺乏一定的普適性,如過度考慮樣本數(shù)量較少的一方,造成模預(yù)測失真??紤]到本方法中正樣本(危險用戶)占比較少,所以就需要通過上采樣處理辦法,來調(diào)改正負樣本的數(shù)量,提高交易風險預(yù)測的效果。數(shù)據(jù)挖掘的SMOTE上采樣算法具體描述:首先對正樣本采用無放回式抽樣,增加實際購買行為的樣本數(shù)量,直到正負樣本數(shù)量基本保持一致,為了不損壞數(shù)據(jù)原有的分布狀況,對特征加以隨機干擾;其次對于負樣本保持不變;最后合并正負樣本數(shù)據(jù)集,整合成預(yù)測所用的整體數(shù)據(jù)集。正是因為Web數(shù)據(jù)量較為龐大,界面復(fù)雜,結(jié)構(gòu)缺乏統(tǒng)一標準。利用數(shù)據(jù)預(yù)處理那個最大限度地確保數(shù)據(jù)的精確性,能夠正確的反映出客戶的購買意圖,更好的支持零售電商的銷售決策。

1.3面向大數(shù)據(jù)的交易進行中風險值計算

在數(shù)據(jù)挖掘的基礎(chǔ)上,對電商交易進行中風險預(yù)測過程中的資產(chǎn)、威脅性以及脆弱性三個基本因素進行精準識別和賦值;分別通過網(wǎng)絡(luò)脆弱性的難易程度來評安全事件發(fā)生的基本概率以及交易風險威脅造成的損失分別進行計算,獲得風險值[6]。假定T代表面向大數(shù)據(jù)的交易進行中隱性風險出現(xiàn)的基本概率(即可信度);A代表面向大數(shù)據(jù)的交易進行中隱性風險資產(chǎn)的基本識別;V代表面向大數(shù)據(jù)的交易進行中的不穩(wěn)定性以及不穩(wěn)定性的嚴重程度。根據(jù)面向大數(shù)據(jù)的交易進行中風險以及隱性風險出現(xiàn)概率,利用網(wǎng)絡(luò)脆弱性的難易程度預(yù)測安全事件發(fā)生的基本概率,其計算公式如下:

式中,L表示面向大數(shù)據(jù)的交易進行過程中安全事件產(chǎn)生概率的計算函數(shù)。按照面向大數(shù)據(jù)的交易進行中不穩(wěn)定性程度以及隱性風險威脅事件所產(chǎn)生的資產(chǎn)價值來計算隱性風險威脅造成的經(jīng)濟損失,詳細計算公式如下:

式中,F(xiàn)表示面向大數(shù)據(jù)的交易進行中隱性風險威脅發(fā)生后導(dǎo)致的經(jīng)濟損失計算函數(shù);La表示面向大數(shù)據(jù)的交易進行中隱性風險威脅所產(chǎn)生的資產(chǎn)價值;Va表示面向大數(shù)據(jù)的交易進行中計算機網(wǎng)絡(luò)的脆弱性嚴重程度;按照以上分析,計算面向大數(shù)據(jù)的交易進行中隱性風險威脅事件的發(fā)生概率以及對交易和電商所產(chǎn)生的影響,即面向大數(shù)據(jù)的交易進行中的隱性風險值,具體計算公式如下:

式中,R表示面向大數(shù)據(jù)的交易進行中的隱性風險計算函數(shù)。同時在本文設(shè)計的零售電商交易風險預(yù)測中用二十分鐘這個闕值作為時間窗口劃分的默認值[7]。一旦在電商頁面中客戶的請求時間超過了這個闕值,就會被認為此會話結(jié)束。而在緩存頁面中客戶訪問的頁面存在兩種情況。第一種是顧客點擊“BACK”按鈕,調(diào)取緩存中所在的瀏覽器頁面;第二種是顧客多次訪問該頁面,這些頁面均列為相同會話中。通過這兩種情況,電商能夠迅速判斷出此客戶的潛在價值,降低交易過程中的風險度。

2 實驗與效果分析

為了更加清晰的確定本文提出的基于數(shù)據(jù)挖掘的零售電商交易風險預(yù)測的實際應(yīng)用效果,特與傳統(tǒng)的零售電商交易風險預(yù)測進行對比,對其預(yù)測率的大小進行比較。

2.1實驗準備

為保證實驗的準確性,選擇100個零售電商交易樣本,在保證其他條件不變的情況下,將兩種零售電商交易風險預(yù)測方法置于相同的實驗環(huán)境之中,進行風險預(yù)測能力的實驗。

2.2實驗結(jié)果分析

實驗過程中,通過兩種不同的零售電商交易風險預(yù)測設(shè)計同時在相同環(huán)境中進行工作,分析其預(yù)測率能力的變化。實驗效果對比圖如下所示。

通過對實驗結(jié)果的對比能夠得出結(jié)論:本文提出的方法不管是在運算時間上,還是在預(yù)測的結(jié)果精度上均有著較好的優(yōu)勢,最終的結(jié)果也優(yōu)于傳統(tǒng)方法,這主要是由于本文方法進行了分類因子的判別,克服了傳統(tǒng)方法的弊端,有效避免了以往算法收斂速度較慢的缺點。實驗表明本文方法是一種預(yù)測快速、預(yù)測精度高、結(jié)果可信的預(yù)測方法。

3 結(jié)束語

本文對數(shù)據(jù)挖掘在零售電商交易風險預(yù)測中的應(yīng)用進行分析,依托數(shù)據(jù)挖掘技術(shù),根據(jù)零售電商交易過程中的技術(shù)難題,對交易風險預(yù)測方法進行優(yōu)化,實現(xiàn)本文設(shè)計。實驗論證表明,本文設(shè)計的方法具備極高的有效性。希望本文的研究能夠為數(shù)據(jù)挖掘在零售電商交易風險預(yù)測中的應(yīng)用方法提供理論依據(jù)。

參考文獻:

[1]劉冠男,張亮,馬寶軍.基于隨機游走的電子商務(wù)退貨風險預(yù)測研究[J].管理科學,2018,23(1):3-14.

[2]王穎,阮夢黎.基于大數(shù)據(jù)的電商異常交易風險評估仿真[J].計算機仿真,2018,11(3):369-372.

[3]陳梅森,劉文彬,王良緣,等.掛牌交易模式下考慮合約和日前收益的風電商靈活合約制定策略[J].現(xiàn)代電力,2019,19(1):1-7.

[4]賴俊明.電子商務(wù)平臺售假現(xiàn)象及打假策略[J].企業(yè)經(jīng)濟,2018,16(5):101-108.

[5]彭曉咖,周發(fā)明.農(nóng)村電商經(jīng)營效率研究一基于消費品下行的模型分析[J].農(nóng)業(yè)技術(shù)經(jīng)濟,2018,12(12):111-118.

[6]李澤凡.電商經(jīng)濟發(fā)展中存在的法律問題及對策——以北京出臺雙11規(guī)定為例[J].成功營銷,2018,12(12):93-94.

[7]易紹華.跨境電商企業(yè)”走出去”面臨的挑戰(zhàn)與建議——以阿里巴巴進入澳洲市場為例[J].中國發(fā)展觀察,2019,29(8):61-62.

【通聯(lián)編輯:張薇】

收稿日期:2019-09-05

作者簡介:常春燕(1985-),女,河南泌陽人,碩士研究生,講師,研究方向為電子商務(wù)。

猜你喜歡
數(shù)據(jù)挖掘
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘的分析與探索
數(shù)據(jù)挖掘技術(shù)綜述與應(yīng)用
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
高級數(shù)據(jù)挖掘與應(yīng)用國際學術(shù)會議
高級數(shù)據(jù)挖掘與應(yīng)用國際學術(shù)會議