劉暢+殷聰
〔摘要〕為了解決電子商務(wù)平臺中存在的虛假交易問題,本文依據(jù)商品的銷售記錄以及商家的基本信息,提出了一種結(jié)合深度置信網(wǎng)絡(luò)和多層感知器的虛假交易識別方法,通過識別出以通過刷單增加銷量的商品來識別虛假交易。首先利用深度置信網(wǎng)絡(luò)對交易特征進(jìn)行學(xué)習(xí),得到更高層次的抽象特征;然后利用多層感知器進(jìn)行分類任務(wù),從而識別出虛假交易。從淘寶中爬取商品的交易記錄和評論數(shù)據(jù)進(jìn)行實(shí)驗(yàn)驗(yàn)證,與其他機(jī)器學(xué)習(xí)模型的實(shí)驗(yàn)結(jié)果進(jìn)行對比,其性能有明顯的提升。
〔關(guān)鍵詞〕電子商務(wù);虛假交易;深度學(xué)習(xí);多層感知器;交易記錄;商品評論;識別方法
DOI:10.3969/j.issn.1008-081.016.10.010
〔Abstract〕For solving the problem of fraud transaction in e-commerce platform,a method that combined Deep Belief Networks and Multilayer Perceptron based on the transaction records and review records of Products was put forward.Through recognizing the product which was increased sales in fraudulent transactions to recognize the fraud transactions.The features of transaction were learned by DBN to get the higher level of abstract features,and the MLP performed the classification task.Tested by experiments using the transaction records and review records of products crawled from Taobao,the comprehensive performance had improved significantly compared with the other machine learning model.
〔Key words〕e-commerce;fraud transaction;deep learning;MLP;transaction records;product review;recognition method
目前我國電子商務(wù)市場發(fā)展迅速,已超越美國成為全球第一大網(wǎng)絡(luò)零售市場。據(jù)浙江省商務(wù)廳發(fā)布的《浙江省網(wǎng)絡(luò)零售業(yè)發(fā)展報(bào)告》顯示,2014年僅浙江一省的淘寶店鋪數(shù)量已達(dá)到147萬家。商品的高度同質(zhì)化、流量分配不均、商家信譽(yù)差異大等因素不僅使廣大消費(fèi)者難以選擇合適商品,也使得商家之間的競爭越來越激烈。影響淘寶搜索排名因素主要有動態(tài)評分、收藏人氣、銷量、瀏覽量等,但是由于淘寶網(wǎng)有大量的新開網(wǎng)店沒有實(shí)際的銷量作支撐,也沒有足夠的廣告推廣預(yù)算,很難在龐大的淘寶網(wǎng)店中生存。為了快速有效地解決這個(gè)問題,就催生出了一種虛假的網(wǎng)上交易模式——以虛假交易的形式提高商品和店鋪的搜索排名。淘寶店鋪為了提高網(wǎng)店或單件商品的搜索排名,達(dá)到銷量火爆好評如潮的目的而采取了作弊行為。在沒有被發(fā)現(xiàn)和懲罰的情況下,虛假交易確實(shí)能給網(wǎng)店,特別是新開的網(wǎng)店帶來一系列好處。第一,可以通過虛假交易提升店鋪整體信譽(yù),從而吸引消費(fèi)者。第二,提升商品銷量。消費(fèi)者往往具有從眾心理,銷量過低的商品,會使顧客產(chǎn)生戒備心理,很難讓消費(fèi)者下定決心購買。第三,提升搜索排名。消費(fèi)者在淘寶網(wǎng)瀏覽商品時(shí),根據(jù)搜索排名依次瀏覽,排名越靠前的商品,消費(fèi)者購買的可能性就越大。第四,降低店鋪的差評率。當(dāng)淘寶網(wǎng)店的差評率升高時(shí),商家會選擇利用虛假交易的方法,雇傭刷客為自己的商品給予好評,從而降低店鋪的差評率,達(dá)到欺騙消費(fèi)者的目的。由于在刷單的過程中,刷客必須要給予賣家好評,而好評對于消費(fèi)者的購買決策能夠產(chǎn)生巨大的潛在影響,而且一個(gè)產(chǎn)品的評價(jià)數(shù)量也決定了用戶在商品詳情頁停留的時(shí)間,但是虛假的銷量和評論會對消費(fèi)者的購買決策產(chǎn)生誤導(dǎo)作用,嚴(yán)重?fù)p害了消費(fèi)者的利益。因此識別虛假交易對電子商務(wù)的健康發(fā)展具有重要的意義。
1文獻(xiàn)綜述
刷單是指以單件商品為對象,雇傭刷客模擬真實(shí)交易的形式,通過搜索商品、瀏覽商品、購買商品,給予商品正面積極的評論的形式增加商品的銷量。因此在進(jìn)行虛假交易識別的過程中,則以商品的評論和商品的銷售記錄為研究對象。
近年來,垃圾信息的識別研究是近幾年的研究熱點(diǎn),從總體上來說垃圾信息的檢測總要分為以下兩個(gè)方面:基于信息本身,基于垃圾信息發(fā)布者的行為。而檢測的方法主要集中于機(jī)器學(xué)習(xí)、模式識別和分類器?;诶畔⒈旧淼臋z測方式的關(guān)鍵點(diǎn)在于特征提取的方法。特征提取方法主要包括信息熵(IG),又稱為Kullback-Leibler距離[2]。Korprinska等[3]以詞頻方差法(TFV)來選取具有高詞頻方差的詞。Guzella等[4]則以詞匯袋(BoW),又被稱為向量空間模型來進(jìn)行垃圾信息的檢測。Li等[5]提出了基于用戶反饋的改進(jìn)樸素貝葉斯方法。Sakkis等[6]將K臨近方法應(yīng)用于垃圾郵件的檢測。Elssied等采用基于支持向量機(jī)(SVM)的過濾器進(jìn)行垃圾信息的檢測。以上這些機(jī)器學(xué)習(xí)方法都是一種監(jiān)督式的機(jī)器學(xué)習(xí)方法,需要先驗(yàn)知識和一個(gè)完美的訓(xùn)練集。
基于垃圾信息發(fā)布者的行為方面,孟美任和丁晟春[8]分別從推銷、詆毀、干擾和無意義4個(gè)方面分析了虛假評論發(fā)布者的動機(jī),依據(jù)對造假動機(jī)的研究分析了虛假評論發(fā)布者的造假行為和隱藏行為。然而他們并沒有根據(jù)虛假評論者的行為特征對識別工作做進(jìn)一步的研究。文獻(xiàn)[9]以捕捉虛假評論群體為目標(biāo),首先利用頻繁模式挖掘發(fā)現(xiàn)虛假評論者候選組,計(jì)算虛假評論者組的指標(biāo)值,將正常評論者組剔除后采用SVM方法學(xué)習(xí)和產(chǎn)生最后的虛假評論者組的排名。Bouguessa等[0]剔除一種非監(jiān)督方法識別社交網(wǎng)絡(luò)中的垃圾評論者,其重點(diǎn)在于分析社交網(wǎng)絡(luò)中用戶的關(guān)系鏈接結(jié)構(gòu),為每一個(gè)節(jié)點(diǎn)分配合理的分?jǐn)?shù),通過beta分布模型化這些分?jǐn)?shù),最終可以有效區(qū)分垃圾信息發(fā)布者和正常用戶。Jiang]總結(jié)了垃圾評論者的兩種行為模式:短時(shí)期內(nèi)對某一商品進(jìn)行持續(xù)評論和商品的實(shí)際購買量相對于用戶對商品的好評嚴(yán)重不符,通過分析用戶評論行為和對商品評價(jià)的偏差,分析識別虛假評論。
從以上總結(jié)中可知,前人主要從被評論的主體入手,對其所屬的所有評論信息進(jìn)行分析,此外前人在進(jìn)行虛假評論識別方面采用的是淺層機(jī)器學(xué)習(xí)模型,比如支持向量機(jī)、K最鄰近算法等,作為有監(jiān)督學(xué)習(xí)模型,需要大量的有標(biāo)記樣本進(jìn)行學(xué)習(xí),會耗費(fèi)大量的人工標(biāo)記時(shí)間成本。淺層模型主要依靠人工經(jīng)驗(yàn)來抽取樣本的特征,而模型主要是負(fù)責(zé)分類或預(yù)測,在模型的運(yùn)用不出差錯的前提下,特征的好壞成為整個(gè)系統(tǒng)性能的瓶頸。與傳統(tǒng)的淺層學(xué)習(xí)不同,深度學(xué)習(xí)通過逐層特征變換,將樣本在原空間的特征表示變換到一個(gè)新特征空間,從而使分類或預(yù)測更加容易,展現(xiàn)了強(qiáng)大的從少數(shù)樣本集中學(xué)習(xí)數(shù)據(jù)集本質(zhì)特征的能力。深度置信網(wǎng)絡(luò)(DBN)是由若干層無監(jiān)督的受限玻茲曼機(jī)(RBM)和一層有監(jiān)督的反向傳播網(wǎng)絡(luò)(BP)組成的一種深層神經(jīng)網(wǎng)絡(luò),是屬于深度學(xué)習(xí)的一種機(jī)器學(xué)習(xí)模型[2]。DBN作為半監(jiān)督深度學(xué)習(xí)模型,首先可以采用大規(guī)模無標(biāo)簽的樣本集合,為DBN訓(xùn)練提供大量的樣本,省去了標(biāo)注大量樣本的時(shí)間。其次DBN作為深層網(wǎng)絡(luò)學(xué)習(xí)結(jié)構(gòu),能夠?qū)W習(xí)到抽象特征,弱化淺層結(jié)構(gòu)的錯誤特征。深度置信網(wǎng)絡(luò)具有較強(qiáng)的無監(jiān)督特征學(xué)習(xí)能力,但分類能力不強(qiáng),為了彌補(bǔ)DBN分類能力不足之處,本文提出將多層感知器(MLP)與DBN相融合用于實(shí)現(xiàn)虛假交易的識別。感知器,就是二類分類的線性分類模型,其輸入為樣本的特征向量,輸出為樣本的類別,即通過某樣本的特征,就可以準(zhǔn)確判斷該樣本屬于哪一類[3]。多層感知器對于非線性函數(shù)具有很強(qiáng)的逼近能力,并且對于連接權(quán)值的初始值具有很強(qiáng)的敏感性,與DBN相結(jié)合可以有效地提升分類識別能力。
基于商品銷售記錄的時(shí)序模型
在統(tǒng)計(jì)學(xué)中,多以商品銷售量指數(shù)來描述商品某一時(shí)期銷量的變化,商品銷售量指數(shù)也稱為商品銷售量總指數(shù),是一種數(shù)量指標(biāo)指數(shù),是反應(yīng)多種商品銷售量綜合變動的總指數(shù)。在本文中,參考商品銷量指數(shù)模型,以商品的月平均銷量作為同度量因素,則商品的每日銷量變化可以用以下公式表示:
其中Sit表示商品i在第t天的銷量,Save表示商品的月平均銷量。同時(shí)考慮到商家的基本信息:累計(jì)評論數(shù)、交易成功數(shù)、收藏寶貝、退款糾紛率和店鋪?zhàn)詴r(shí)間,因此我們使用以下參數(shù)來作為描述店鋪的特征:
店鋪?zhàn)詴r(shí)間:注冊時(shí)間短的店鋪更有可能雇傭刷客為商品提高人氣。顧客往往會信任信譽(yù)高的店鋪,注冊時(shí)間的長短也會影響到店鋪的信譽(yù)值,為了快速增加店鋪的信譽(yù)值,新注冊的店鋪更有可能雇傭刷客為商品提高人氣。以店鋪?zhàn)詴r(shí)間至收集到的商品最后一條銷售記錄的時(shí)間距離作為店鋪的特征度量。
退款糾紛率:退款糾紛率高的店鋪更有可能雇傭刷客為商品提高人氣。在現(xiàn)實(shí)中淘寶會有7天無條件退貨的要求,當(dāng)顧客受騙時(shí)會選擇退貨,因此退款糾紛率高的店鋪說明此店鋪的商品質(zhì)量有問題,因此其交易記錄就有很大可能由刷客所刷。以店鋪的退款糾紛率作為店鋪的特征度量。
商品評論率=商品累積評論數(shù)商品成功效易數(shù):商品評論率高的店鋪更有可能雇傭刷客為商品提高人氣。評論是刷客在進(jìn)行虛假交易過程中的一個(gè)必需的步驟,因此當(dāng)?shù)赇伒纳唐吩u論率高時(shí),交易記錄就有很大可能由刷客所刷。以收集到的最后一條交易記錄的時(shí)間為節(jié)點(diǎn),統(tǒng)計(jì)此商品有內(nèi)容評論總數(shù)與成功交易數(shù)的比率作為店鋪的特征度量。
單件商品評論比=單件商品評論數(shù)店鋪商品評論總數(shù):單件商品評論比高的店鋪更有可能雇傭刷客為此商品提高人氣。雇傭刷客的店鋪往往是由于店鋪商品銷量低而采取的措施,因此在實(shí)際情況中,會出現(xiàn)單件商品評論數(shù)遠(yuǎn)大于店鋪其他商品評論數(shù)的情況。以收集到的最后一條交易記錄的時(shí)間為節(jié)點(diǎn),統(tǒng)計(jì)此商品累積評論數(shù)與店鋪評論總?cè)藬?shù)的比率作為店鋪的特征度量。
收藏率=商品成交數(shù)收藏商品數(shù):商品收藏率高的店鋪更有可能雇傭刷客為此商品提高人氣。在現(xiàn)實(shí)中,商品收藏?cái)?shù)也會影響淘寶的搜索排名,為了使自己的商品能夠在淘寶搜索排名中靠前,商家就會要求刷客在進(jìn)行刷單的同時(shí)收藏此商品,并將收藏商品作為評判刷單是否完成的一個(gè)重要標(biāo)準(zhǔn)。以收集到的最后一條交易記錄的時(shí)間為節(jié)點(diǎn),統(tǒng)計(jì)此商品成交總數(shù)與收藏此商品總?cè)藬?shù)的比率作為特征度量。
重復(fù)評論率=重復(fù)評論數(shù)商品累積評論數(shù):商品重復(fù)評論率高的店鋪更有可能雇傭刷客為此商品提高人氣。在現(xiàn)實(shí)的刷單交易中,商家為了防止刷客不評論或者給予不符合店鋪要求的評論,往往會在發(fā)布的刷單要求中提供評論內(nèi)容,將刷單的風(fēng)險(xiǎn)降至最低。因此可以推測,商品的重復(fù)評論率越高,則此商品就越有可能涉嫌刷單。以收集到的最后一條交易記錄的時(shí)間為節(jié)點(diǎn),統(tǒng)計(jì)此商品重復(fù)評論數(shù)與此商品累積評論數(shù)的比率作為特征度量。
平均評論長度=商品累積評論字?jǐn)?shù)總和商品累積評論數(shù):商品平均評論長度長的店鋪更有可能雇傭刷客為此商品提高人氣。在商家發(fā)布的刷單訂單中,可以看出,為了能吸引消費(fèi)者的目光,商家往往會在自己提供的評論中長篇描述本商品的優(yōu)點(diǎn)和服務(wù)質(zhì)量。因此可以推測,商品的平均評論長度越長,則此商品就越有可能涉嫌刷單。以收集到的最后一條交易記錄的時(shí)間為節(jié)點(diǎn),統(tǒng)計(jì)此商品累積評論字?jǐn)?shù)總和與此商品累積評論數(shù)的比率作為特征度量。
通過以上描述,我們就可以得到輸入向量:
其中Fi1表示第i件商品所在店鋪的注冊時(shí)間,F(xiàn)i表示第i件商品所在店鋪的退款糾紛率,F(xiàn)i3表示第i件商品的商品評論率,F(xiàn)i4表示第i件商品在店鋪中的單件商品評論比,F(xiàn)i5表示第i件商品的收藏率,F(xiàn)i6表示第i件商品的重復(fù)評論率,F(xiàn)i7表示第i件商品的平均評論長度。
3基于深度學(xué)習(xí)的虛假交易識別模型
一個(gè)n輸入m輸出的線性閾值單元組成的多層感知器網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖中,輸入與輸出層之間存在一些隱層。網(wǎng)絡(luò)的輸入層沒有計(jì)算節(jié)點(diǎn),只用于獲得外部輸入信號,各隱層和輸出層的神經(jīng)元才是計(jì)算節(jié)點(diǎn),其基函數(shù)取線性函數(shù),激活函數(shù)取硬極限函數(shù)。假設(shè)MLP只有一個(gè)隱層,并設(shè)輸入為x1,x,…,xn,隱層有n1個(gè)神經(jīng)元,它們的輸出分別為h1,h,…,hn1,網(wǎng)絡(luò)輸出用op表示[4]。
則隱層第j個(gè)神經(jīng)元的輸出為:
多層感知器用于解決實(shí)際問題時(shí),首先必須解決輸入到隱層間連接權(quán)的訓(xùn)練問題,但是由于難以確定隱層輸出的期望輸出值,導(dǎo)致網(wǎng)絡(luò)權(quán)值訓(xùn)練無法實(shí)現(xiàn)。因此人們尋求其它神經(jīng)網(wǎng)絡(luò)方案以解決線性不可分問題,BP網(wǎng)絡(luò)就是這樣一種網(wǎng)絡(luò)。
傳統(tǒng)的深度置信網(wǎng)絡(luò)(DBN)是利用限制波茲曼機(jī)(RBM)來構(gòu)建深度置信網(wǎng)絡(luò),如圖所示。在訓(xùn)練過程中,首先將顯性向量值映射給隱單元,然后顯單元由隱單元重建,這些新的顯單元再次映射給隱單元,這樣就獲取了新的隱單元。
限制波茲曼機(jī)的能量函數(shù)可以定義為[5]:
本文將MLP與DBN相融合,用于實(shí)現(xiàn)虛假交易的識別。首先利用DBN對交易特征進(jìn)行學(xué)習(xí),得到更高層次的抽象特征,然后對多層感知器進(jìn)行初始化,從而實(shí)現(xiàn)虛假交易的識別,其中MLP在網(wǎng)絡(luò)中進(jìn)行分類任務(wù)。在DBN的初始化階段,RBM將權(quán)重和偏置與MLP共享,這就意味著在DBN、MLP的初始化中,DBN模塊和MLP模塊使用同樣的權(quán)重矩陣和偏置向量。當(dāng)訓(xùn)練開始時(shí),這些矩陣和向量會依據(jù)學(xué)習(xí)規(guī)則進(jìn)行調(diào)節(jié),隨著訓(xùn)練的進(jìn)行,DBN和MLP的權(quán)重矩陣和偏置向量會隨之改變,也就不再相同。當(dāng)訓(xùn)練整個(gè)網(wǎng)絡(luò)時(shí),參數(shù)會隨之進(jìn)行調(diào)節(jié)。簡略圖如圖3所示。
4實(shí)驗(yàn)及結(jié)果分析
描述特征獨(dú)立樣本T檢驗(yàn)結(jié)果,從輸出數(shù)據(jù)中可以看出兩樣本均數(shù)差別有顯著性意義,顯著性差異明顯。
本文采用分類器中最常用的評測指標(biāo):準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)作為刷客識別的評判標(biāo)準(zhǔn)[6]。
準(zhǔn)確率表示商品能夠被正確分配到所屬類別的準(zhǔn)確率,它體現(xiàn)了分類器分類結(jié)果的準(zhǔn)確程度。計(jì)算公式如下:
精確率表示虛假交易的商品能夠被成功檢測出來的精確率,它體現(xiàn)了分類器分類結(jié)果的準(zhǔn)確程度。計(jì)算公式如下:
其中,TP表示把虛假交易的商品正確地預(yù)測為虛假交易的數(shù)量;FP表示把正常交易的商品錯誤地預(yù)測為虛假交易商品的數(shù)量。
召回率表示把虛假交易商品歸類為虛假交易商品的概率,表示了虛假交易商品占總商品數(shù)量的比例。
TN表示把正常交易商品正確地預(yù)測為正常交易商品的數(shù)量;FN表示把虛假交易商品錯誤地預(yù)測為正常交易商品的數(shù)量。
在進(jìn)行評價(jià)的過程中將精確度(Precision)和召回率(Recall)結(jié)合在一起,使用一個(gè)參數(shù)F-score來進(jìn)行性能的評價(jià):
中-1表示正常交易商品,1表示虛假交易商品。選取100件商品作為測試數(shù)據(jù)集,其中重合的點(diǎn)表示識別正確的商品,未重合的點(diǎn)表示識別錯誤的商品,從圖中可以清晰地看出有5個(gè)未重合的點(diǎn),即識別錯誤的商品,識別準(zhǔn)確率達(dá)到了95%。使用分類識別中最常用的指標(biāo)對識別結(jié)果進(jìn)行量化分析可知精確率為100%,表示并未將正常交易的商品錯誤識別為虛假交易商品;召回率為90%,表示并未完全識別出測試集中的所有虛假交易的商品;綜合精確率和召回率的指標(biāo)F-score為9474%。接下來將此方法與DBN、SVM、隨機(jī)森林(RF)和樸素貝葉斯方法(NBM)進(jìn)行對比可以發(fā)現(xiàn),其性能具有明顯的提升。
5結(jié)論
本文將多層感知器和深度置信網(wǎng)絡(luò)相結(jié)合,用于實(shí)現(xiàn)商品虛假交易的識別問題,其中多層感知器在識別模型中進(jìn)行的是分類任務(wù)。首先利用深度置信網(wǎng)絡(luò)對交易特征進(jìn)行學(xué)習(xí),得到更高層次的抽象特征;然后對多層感知器進(jìn)行初始化,使用多層感知器進(jìn)行分類任務(wù),從而實(shí)現(xiàn)商品虛假交易的識別。根據(jù)商品的銷售、評論記錄以及店鋪的基本信息來作為商品的特征,并將其量化。為了驗(yàn)證方法的可行性,從淘寶中收集商品的信息作為訓(xùn)練和測試集,對已經(jīng)標(biāo)記的商品數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí),將此方法與傳統(tǒng)識別方法進(jìn)行對比,其性能有明顯的提升。想對于淘寶中存在的海量的虛假交易的商品,本文中的實(shí)驗(yàn)數(shù)據(jù)相對較少,未來仍需要爬取相對較多的數(shù)據(jù)對方法進(jìn)行進(jìn)一步的驗(yàn)證。
參考文獻(xiàn)
浙江省商務(wù)廳.浙江省網(wǎng)絡(luò)零售業(yè)發(fā)展報(bào)告[DB/OL].http:∥www.zcom.gov.cn/art/2015/6/17/art1127176182.html,2015-06-17.
[2]Do M N,Vetterli M.Wavelet-based texture retrieval using generalized Gaussian density and Kullback-Leibler distance[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society,2002,11(2):146-158.