摘 要:本文選取2022年抽樣的淘寶數(shù)據(jù)進(jìn)行分析與挖掘,并基于K-means算法對(duì)買家進(jìn)行聚類分析,初步篩選出疑似刷單行為的買家和賣家。在剔除這些用戶后,又利用回歸分析法分析賣家獲得評(píng)價(jià)、信用評(píng)價(jià)體系、賣家店鋪等級(jí)對(duì)銷量的影響;采用LSTM算法對(duì)銷量數(shù)據(jù)的時(shí)間序列進(jìn)行預(yù)測;通過Apriori關(guān)聯(lián)規(guī)則算法找到買家與賣家和商品之間的關(guān)聯(lián)。其中,在賣家獲得評(píng)價(jià)對(duì)銷量的影響中,建立獎(jiǎng)勵(lì)函數(shù)來描述好評(píng)和差評(píng)的影響,結(jié)果顯示獎(jiǎng)勵(lì)函數(shù)與銷量呈正相關(guān)關(guān)系。在信用評(píng)價(jià)體系對(duì)銷量的影響中,服務(wù)和發(fā)貨對(duì)銷量的影響較大。賣家店鋪等級(jí),則無明顯關(guān)系。預(yù)測的銷量數(shù)據(jù)雖沒有較好的結(jié)果,但給出了合理的解釋。關(guān)聯(lián)結(jié)果顯示,買家與賣家和商品之間有一定的聯(lián)系,本研究僅供參考。
關(guān)鍵詞:數(shù)字貿(mào)易;數(shù)據(jù)挖掘;聚類分析;回歸分析;時(shí)間序列;關(guān)聯(lián)規(guī)則
本文索引:徐晨旸.<變量 2>[J].中國商論,2024(07):-085.
中圖分類號(hào):F063.2;F742 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-0298(2024)04(a)--04
隨著科技的發(fā)展、移動(dòng)互聯(lián)網(wǎng)的普及和數(shù)據(jù)傳輸速率的提高,網(wǎng)絡(luò)對(duì)人們生活的影響日益顯著。越來越多的人習(xí)慣于網(wǎng)絡(luò)購物,作為電商平臺(tái)的佼佼者——淘寶,發(fā)展規(guī)模和電商數(shù)據(jù)可謂是驚人。過去十年,淘寶注冊(cè)用戶從2010的3.7億上升至2022年的8億。在此背景下,海量數(shù)據(jù)的背后有著不可估量的價(jià)值。如何挖掘、利用數(shù)據(jù)已成為各個(gè)行業(yè)、企業(yè)競爭的焦點(diǎn)。本文從數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、總結(jié)與展望,這三步來對(duì)2022年抽樣的淘寶數(shù)據(jù)進(jìn)行分析與挖掘。
1 數(shù)據(jù)預(yù)處理
1999年,Pyle首次提出并強(qiáng)調(diào)了數(shù)據(jù)預(yù)處理在數(shù)據(jù)挖掘過程中的重要性,并闡述了數(shù)據(jù)預(yù)處理過程在數(shù)據(jù)挖掘中占據(jù)了60%的時(shí)間[1]。
本文的參考數(shù)據(jù)來自四個(gè)文件,dsr.csv(以下簡稱四項(xiàng)評(píng)分表)、user.xls(以下簡稱賣家信息表)、trans.csv(以下簡稱詳細(xì)交易表)、rate.txt(以下簡稱賣家評(píng)價(jià)表)。其中,參考數(shù)據(jù)是從2022年4月10日到2022年10月10日的抽樣數(shù)據(jù)。
本文先進(jìn)行了數(shù)據(jù)假設(shè),再對(duì)上述四個(gè)文件進(jìn)行了消除噪聲、缺值數(shù)據(jù)處理、數(shù)據(jù)類型轉(zhuǎn)換等四個(gè)操作[2]。數(shù)據(jù)預(yù)處理并不代表之后的數(shù)據(jù)不再處理,只是進(jìn)行了初步的處理,而后對(duì)得到的疑似刷單行為的買家和賣家也進(jìn)行了處理。
1.1 數(shù)據(jù)假設(shè)
本文做如下假設(shè):
(1)詳細(xì)交易表中買家購買的數(shù)量是一個(gè)整體,不考慮具體時(shí)間前后的影響,即先有了評(píng)價(jià)、四項(xiàng)評(píng)分,才有了賣家的銷量。
(2)賣家評(píng)價(jià)表中的0代表賣家獲得了中評(píng),對(duì)其他買家的影響微乎其微,在考慮評(píng)價(jià)對(duì)銷量的影響時(shí),這部分?jǐn)?shù)據(jù)予以剔除。
(3)由于抽樣數(shù)據(jù)的不完整性,關(guān)聯(lián)數(shù)據(jù)表之后,對(duì)有評(píng)價(jià)無銷量或者空缺數(shù)據(jù)的數(shù)據(jù),本文認(rèn)為是系統(tǒng)原因造成的無效數(shù)據(jù)予以剔除。
(4)產(chǎn)品類型是影響消費(fèi)者購買決策的一個(gè)不可忽視的因素[3]。在考慮評(píng)價(jià)對(duì)銷量的影響時(shí),忽略產(chǎn)品類型的影響,也不考慮搜索引擎以及廣告等對(duì)銷量的影響,只考慮評(píng)價(jià)這個(gè)單因素。
(5)買家只購買一位賣家或幾位賣家的商品且購買的數(shù)量超過100將視為惡意刷單用戶。
1.2 消除噪聲
買家的四項(xiàng)評(píng)價(jià)指標(biāo)為0到5的整數(shù)[4],本文將四項(xiàng)評(píng)分表中商品得分進(jìn)行了四舍五入處理以消除數(shù)據(jù)收集過程中的系統(tǒng)誤差。自此本文得到處理后的詳細(xì)交易表。
1.3 缺值數(shù)據(jù)處理
由于四項(xiàng)評(píng)分表的四項(xiàng)評(píng)價(jià)指標(biāo)(服務(wù)、發(fā)貨、物流、商品得分)存在缺值,需要對(duì)其進(jìn)行數(shù)據(jù)處理。常見的方法有:插值法、回歸法、統(tǒng)計(jì)估計(jì)法等。該表中除物流得分缺值約占24.2%外,其他三項(xiàng)占比不高,服務(wù)得分缺值約占2.2%、發(fā)貨得分缺值約占2.3%、商品得分缺值約占0.9%。對(duì)于缺少兩項(xiàng)及以上的數(shù)據(jù)因?yàn)橹徽?.09%左右,本文予以剔除。本文將物流得分作為自變量y,其他三項(xiàng)作為因變量x1、x2、x3進(jìn)行多元線性回歸[6]。由實(shí)驗(yàn)結(jié)果可得,y=0.2479x1+ 0.5919x2+0.145x3,然后用此回歸方程來填補(bǔ)只缺物流得分的記錄條。F值為529030,P值近乎為0,說明回歸的模型較好。自此本文得到處理后的四項(xiàng)評(píng)分表。
1.4 數(shù)據(jù)類型轉(zhuǎn)換
根據(jù)淘寶賣家店鋪20個(gè)等級(jí),本文將賣家信息表中的等級(jí)替換成相應(yīng)數(shù)字,如:1星級(jí)為1,1鉆為6,1皇冠為11,2紅冠為17。而本身信用得分為0的商家,售出的商品為0,予以剔除。信用得分小于等于3的商家替換成0[5]。自此本文得到處理后的賣家信息表。
2 數(shù)據(jù)挖掘
2.1 聚類分析
模式識(shí)別也叫模式分類,可以分為監(jiān)督模式識(shí)別與非監(jiān)督模式識(shí)別。本文根據(jù)樣本特征將樣本聚成幾個(gè)類,使屬于同一類的樣本在一定意義上是相似的,而不同類之間的樣本則有較大差異[7]。這種非監(jiān)督模式識(shí)別也稱為聚類。
本文對(duì)詳細(xì)交易表的買家、總費(fèi)用、購買數(shù)量三列數(shù)據(jù)進(jìn)行了聚類分析,旨在對(duì)買方網(wǎng)絡(luò)進(jìn)行分類,根據(jù)其消費(fèi)水平大致分為三類:低、中、高消費(fèi)水平。本文一共選取了637192位買家進(jìn)行基于K-means的聚類分析。
圖1 聚類結(jié)果
結(jié)果顯示位為低消費(fèi)水平,254位為中消費(fèi)水平,6004位為高消費(fèi)水平。其中藍(lán)色、綠色、紅色分別為低、中、高消費(fèi)水平的質(zhì)心。
2.2 回歸分析
本文對(duì)數(shù)據(jù)進(jìn)行說明,回歸分析中的銷量數(shù)據(jù)均指剔除刷單買家后詳細(xì)交易表中買家購買的數(shù)量,而不是賣家信息表和詳細(xì)交易表中的總銷量。且本文假設(shè),具體的時(shí)間前后對(duì)銷量無影響。
2.2.1 賣家獲得評(píng)價(jià)對(duì)銷量的影響
剔除刷單賣家后,關(guān)聯(lián)賣家評(píng)價(jià)表和詳細(xì)交易表,剔除評(píng)價(jià)為0的數(shù)據(jù)后,發(fā)現(xiàn)部分?jǐn)?shù)據(jù),賣家獲得了評(píng)價(jià)但是并沒有銷量,予以剔除。接下來,文章對(duì)8094位賣家進(jìn)行分析。
對(duì)于好評(píng)和差評(píng),本文建立簡單的獎(jiǎng)勵(lì)函數(shù)g(ID,x1,x2) = a1x1+a2x2。其中,ID為賣家ID,x1為好評(píng)數(shù)量,x2為差評(píng)數(shù)量,a1+a2=1。若好評(píng)對(duì)銷量的影響更顯著,則x1>x2。
由于刷單以及惡意評(píng)價(jià)屢見不鮮,購物人群并沒有那么在意口碑。鑒于此,本文假設(shè)好評(píng)和差評(píng)對(duì)銷量的影響相同,即a1=a2=0.5,并算出每個(gè)賣家的獎(jiǎng)勵(lì)得分。最終,本文得到賣家ID-獎(jiǎng)勵(lì)得分-銷量表。
以獎(jiǎng)勵(lì)得分作為自變量,銷量作為因變量進(jìn)行線性回歸分析,得到線性回歸方程:y(銷量)=5.8793+0.5694×獎(jiǎng)勵(lì)得分。線性回歸圖見圖2。
圖2 線性回歸
方程通過F和T檢驗(yàn),R2為0.458。R2過小,存在著欠擬合的現(xiàn)象。接下來,對(duì)其進(jìn)行多項(xiàng)式回歸而R2反而減小。因此本文并沒有對(duì)其修正,一方面疑似刷單賣家并沒有剔除干凈(異常點(diǎn)并不能完全剔除),另一方面賣家數(shù)量比較多,采樣的數(shù)據(jù)不全而且分布并不理想。光從圖像上觀察,本文認(rèn)為結(jié)果已在接受范圍內(nèi)了。
2.2.2 信用評(píng)價(jià)體系對(duì)銷量的影響[8]
本文得到詳細(xì)交易表所有賣家9264家的總銷量和10842家賣家的平均四項(xiàng)信用評(píng)價(jià)體系。兩者根據(jù)賣家ID關(guān)聯(lián)得到7677名賣家ID-銷量-服務(wù)-發(fā)貨-物流-商品表。
當(dāng)四項(xiàng)評(píng)分作為自變量,銷量作為因變量進(jìn)行回歸分析時(shí)見表1,自變量都落入拒絕域。此時(shí)模型不是太好。
本文使用AIC法則來選擇最優(yōu)模型,得到最優(yōu)的模型是將服務(wù)和發(fā)貨得分引入模型。新方程通過F和T檢驗(yàn),得到回歸方程:y(銷量)=598.9469+30.4838×服務(wù)得分-146.3415×發(fā)貨得分。從方程上來看,銷量與服務(wù)呈正相關(guān),與發(fā)貨得分成反比。更好的解釋是,有部分人覺得產(chǎn)品和服務(wù)并沒有問題,于是產(chǎn)生了銷量,發(fā)貨和物流有一定的關(guān)系,很多人將兩者混淆起來[9],并且發(fā)貨和物流沒有建立完整的體系,所以得分低很好理解。于是,有了銷量、高服務(wù)分卻是較低的發(fā)貨得分。后續(xù)查看數(shù)據(jù)也得到了驗(yàn)證。
2.2.3 賣家店鋪等級(jí)對(duì)銷量的影響
關(guān)聯(lián)剔除刷單賣家后的賣家信息表和詳細(xì)交易表,得到賣家ID-銷量-店鋪等級(jí)表。結(jié)果顯示,店鋪等級(jí)與銷量并沒有呈明顯的線性關(guān)系和非線性關(guān)系。店鋪等級(jí)和銷量見圖3。
圖3 店鋪等級(jí)-銷量散點(diǎn)圖
2.3 時(shí)間序列分析
時(shí)間序列是指將某種現(xiàn)象某一個(gè)統(tǒng)計(jì)指標(biāo)在不同時(shí)間上的各個(gè)數(shù)值,按時(shí)間先后順序排列而形成的序列。時(shí)間序列法是一種定量預(yù)測方法,亦稱簡單外延方法,在統(tǒng)計(jì)學(xué)中作為一種常用的預(yù)測手段被廣泛應(yīng)用,是一種動(dòng)態(tài)數(shù)據(jù)處理的統(tǒng)計(jì)方法[10]。
本文對(duì)四項(xiàng)評(píng)分表的日期進(jìn)行提取,剔除疑似刷單買家和賣家之后,得到賣家ID-買家ID-日期表。累計(jì)每個(gè)月的1號(hào)至31號(hào)的銷量,得到日期銷量折線圖。
圖4 日期銷量折線圖
其中,31號(hào)因只有3天,而1號(hào)至30號(hào)均有六天,所以31號(hào)的銷量明顯比30號(hào)少一倍乃至更多。接下來,本文對(duì)5月、6月、7月、8月每天銷量數(shù)據(jù)作為學(xué)習(xí)樣本,以9月數(shù)據(jù)作為測試樣本建立LSTM模型。實(shí)驗(yàn)結(jié)果運(yùn)用均方根誤差(RMSE)作為評(píng)價(jià)指標(biāo),具體公式如式(1)所示:
重復(fù)實(shí)驗(yàn)100次,選取RMSEmin=556.25的預(yù)測,得到圖5。其中藍(lán)色為測試樣本,橙色為預(yù)測樣本。
從圖5看出,每個(gè)月的20號(hào)左右和月底前幾天的銷量明顯高于其他時(shí)間。四項(xiàng)評(píng)分表的數(shù)據(jù)來源有兩種:一是買家收到貨物后的及時(shí)評(píng)分,二是買家收到貨物后的十五天的自動(dòng)評(píng)分。時(shí)間序列分析中的銷量是以評(píng)分后的銷量來計(jì)算的,所以真實(shí)的顧客下單時(shí)間為月初前幾天和月中15號(hào)左右以及月末后幾天。淘寶購物主力還是大學(xué)生群體和工薪階級(jí),工薪階級(jí)月中發(fā)工資,大學(xué)生群體月末月初拿到生活費(fèi),自然而然這個(gè)時(shí)間段銷量提升。
圖5 測試-預(yù)測圖
圖5結(jié)果顯示,RMSEmin=556.25,預(yù)測的結(jié)果也不是很理想。本身商品的買賣受季節(jié)性波動(dòng)非常大,而拿節(jié)假日和假期期間的數(shù)據(jù)(5、6、7、8月)來預(yù)測9月數(shù)據(jù)缺乏一定的依據(jù)。在數(shù)據(jù)量較小的情況下進(jìn)行LSTM時(shí)間序列分析,導(dǎo)致均方根誤差偏大,預(yù)測準(zhǔn)確性也不是很好。
2.4 關(guān)聯(lián)規(guī)則分析
在剔除惡意刷單買家和賣家后,得到買家ID-賣家ID-價(jià)格表。本文對(duì)買家與賣家和商品進(jìn)行關(guān)聯(lián)。
本文對(duì)數(shù)據(jù)進(jìn)行基于Apriori算法的關(guān)聯(lián),其中最小事務(wù)同時(shí)發(fā)生數(shù)為10,最小置信度為0.5,接下來將展示三條數(shù)據(jù)結(jié)果。
(frozenset({‘120810098}),frozenset({‘277836633s, 5.5}),10,1.0):表示買家ID為120810098的客戶,當(dāng)他購買賣家ID為277836633商家中的商品時(shí),一定會(huì)購買價(jià)格為5.5元的商品。
(frozenset({‘128268950}),frozenset({‘89486154s, 800}),12,0.923):表示買家ID為128268950的客戶,當(dāng)他購買賣家ID為89486154商家中的商品時(shí),有92.3%的概率會(huì)購買價(jià)格為800元的商品。
(frozenset({‘3,84471847}),frozenset({‘288922974 s}),36, 1.0):表示買家ID為84471847的客戶購買3元價(jià)格的商品時(shí),一定是在賣家ID為89486154商家處購得。
3 總結(jié)與展望
回顧全文,本文得到如下的結(jié)論和相應(yīng)的展望:
(1)得到疑似刷單買家和賣家名單。通過后續(xù)的分析發(fā)現(xiàn),雖然剔除名單后的數(shù)據(jù)更準(zhǔn)確,但是刷單玩家并沒有完全剔除干凈,而且也沒有很好的依據(jù)判定刷單等惡意行為。希望后續(xù)能找到很好的依據(jù)來進(jìn)一步剔除刷單玩家。
(2)將買家聚成三類有一定的效果。但是,低消費(fèi)水平買家占絕大多數(shù),可以進(jìn)一步考慮分更多的類將低消費(fèi)水平買家分得更清晰。
(3)本文建立的獎(jiǎng)勵(lì)得分與銷量呈線性正相關(guān)關(guān)系,獎(jiǎng)勵(lì)得分越高,銷量越高。R方太小,模型存在欠擬合現(xiàn)象,后期應(yīng)進(jìn)一步對(duì)惡意刷單行為進(jìn)行剔除。如今,口碑影響力越來越大,差評(píng)占的比重也越來越大,商家更應(yīng)該提高商品質(zhì)量以減小差評(píng)在評(píng)價(jià)中的比例來提高獎(jiǎng)勵(lì)得分,最終影響銷量。
(4)服務(wù)得分和發(fā)貨得分分別與銷量成正比和反比。大家對(duì)四項(xiàng)評(píng)分太過于武斷、主觀,甚至存在較多的缺失數(shù)據(jù)。對(duì)于淘寶,應(yīng)該建立更加完善和激勵(lì)的四項(xiàng)評(píng)分體系。對(duì)于商家,應(yīng)該提升服務(wù)水平。
(5)店鋪等級(jí)與銷量并沒有呈明顯的線性關(guān)系。淘寶店鋪等級(jí)就呈現(xiàn)兩頭少中間多的規(guī)律。那時(shí)的買家也未過分關(guān)注店鋪等級(jí)信息,導(dǎo)致分析的結(jié)果并沒有明顯的關(guān)系。
(6)時(shí)間序列分析的預(yù)測效果并不是很好。樣本量不夠多,且商品的交易受季節(jié)性波動(dòng)較大,對(duì)更大的樣本量可能會(huì)有較好的預(yù)測結(jié)果。
(7)實(shí)現(xiàn)買家與賣家和商品之間的關(guān)聯(lián),可以給用戶推送相關(guān)聯(lián)的賣家店鋪的動(dòng)態(tài)和推薦同價(jià)位的商品,以提高客戶滿意度。本文并沒有實(shí)現(xiàn)推薦算法,希望后續(xù)能將關(guān)聯(lián)的結(jié)果與推薦算法相結(jié)合,以實(shí)現(xiàn)對(duì)買家集店鋪、商品類型、價(jià)格于一體的推薦功能。
參考文獻(xiàn)
鄭躍平. 基于約束數(shù)據(jù)預(yù)處理的Web日志挖掘研究[D].福州: 福州大學(xué),2006.
張治斌,劉威.淺析數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理技術(shù)[J].數(shù)字技術(shù)與應(yīng)用,2017(10):216-217.
薛文怡. 電子商務(wù)在線口碑與觀察性學(xué)習(xí)對(duì)產(chǎn)品銷售的影響[D].天津: 河北工業(yè)大學(xué),2016.
龐鑫. 基于演化博弈的淘寶網(wǎng)動(dòng)態(tài)評(píng)分對(duì)賣家銷量的影響研究[D].濟(jì)南: 山東大學(xué),2018.
小狼.五六折? 全新的返利模式[J].電腦迷,2010(20):79.
劉鋒,譚祥勇,何卓.函數(shù)性線性回歸模型分析方法及其應(yīng)用[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)),2015,29(11):135-138.
顏?zhàn)雍瑥堈?,王雅萍,?基于加權(quán)馬氏距離的改進(jìn)深度嵌入聚類算法[J].計(jì)算機(jī)應(yīng)用,2019,39(S2):122-126.
韓旭芳. 基于開放API的電子商務(wù)個(gè)性化服務(wù)推薦研究[D].石家莊: 石家莊鐵道大學(xué),2011.
Sakurai Y , Papadimitriou S , Faloutsos C . BRAID: Stream mining through group lag correlations[C]// Proceedings of the ACM SIGMOD International Conference on Management of Data, Baltimore, Maryland, USA, June 14-16, 2005. ACM, 2005.
楊青,王晨蔚.基于深度學(xué)習(xí)LSTM神經(jīng)網(wǎng)絡(luò)的全球股票指數(shù)預(yù)測研究[J].統(tǒng)計(jì)研究,2019,36(3):65-77.