章 麗
(池州職業(yè)技術(shù)學(xué)院 經(jīng)濟(jì)管理系,安徽 池州 247000)
隨著國內(nèi)外網(wǎng)絡(luò)消費(fèi)市場的不斷擴(kuò)大,實(shí)體企業(yè)和電商企業(yè)都面臨著巨大的挑戰(zhàn)和發(fā)展瓶頸,一方面互聯(lián)網(wǎng)電商企業(yè)逐漸從線上走向線下,通過對物流體系的投資和對線下門店的布局,互聯(lián)網(wǎng)電商逐漸下沉到實(shí)體經(jīng)濟(jì)中,面對勢不可擋的數(shù)字化浪潮,電商企業(yè)急需對暢銷產(chǎn)品的成因進(jìn)行研究,為自身企業(yè)發(fā)展尋找更好的前景[1-3]。
提取用戶消費(fèi)行為數(shù)據(jù)主要從三方面進(jìn)行,分別是用戶所持移動設(shè)備數(shù)據(jù),與用戶移動設(shè)備MAC地址匹配的消費(fèi)信息、與商品SKU碼匹配的商品銷售數(shù)據(jù)[9]。
采集用戶所持移動設(shè)備數(shù)據(jù)主要是移動設(shè)備的WiFi數(shù)據(jù),針對線下用戶群體,使用WiFi感應(yīng)器采集數(shù)據(jù),通過有線或無線兩種方式將數(shù)據(jù)上傳到服務(wù)器,在安裝時,每個WiFi感應(yīng)器的MAC地址與各個探測區(qū)域形成一一對應(yīng)的關(guān)系[10]。感應(yīng)器在實(shí)際環(huán)境中的工作流程如圖1所示。
圖1 WiFi感應(yīng)器工作流程
WiFi感應(yīng)器中集成了信號采集、數(shù)據(jù)預(yù)處理和數(shù)據(jù)通信三個子模塊,通信協(xié)議中主要包含管理幀、控制幀和數(shù)據(jù)幀;信號采集模塊負(fù)責(zé)采集和判斷無線網(wǎng)絡(luò)中不同類型的幀數(shù)據(jù),對幀數(shù)據(jù)進(jìn)行合理分類,上報至服務(wù)器;數(shù)據(jù)預(yù)處理模塊主要根據(jù)數(shù)據(jù)處理程序?qū)?shù)據(jù)幀進(jìn)行預(yù)處理操作,保證數(shù)據(jù)質(zhì)量。
WiFi數(shù)據(jù)經(jīng)過預(yù)處理和打包之后,通過通信模塊上傳到服務(wù)器中。一般情況下,WiFi感應(yīng)器的數(shù)據(jù)上報周期為3秒,中間層數(shù)據(jù)處理模塊通過對數(shù)據(jù)包的解壓縮,可以獲得WiFi感應(yīng)器的MAC地址、用戶手持移動設(shè)備的MAC地址、發(fā)送報文時的時間戳等數(shù)據(jù)。
對于會員用戶數(shù)據(jù),主要針對注冊會員或使用過門店線上商城的基礎(chǔ)上。當(dāng)消費(fèi)客戶在移動設(shè)備注冊會員或使用門店線上商城購物時,該客戶的消費(fèi)信息將會傳輸?shù)綍T信息數(shù)據(jù)庫中。主要還是依賴移動設(shè)備的MAC地址與線上商城的匹配,具體采集流程如圖2所示。
圖2 會員客戶數(shù)據(jù)采集流程
采集產(chǎn)品銷售數(shù)據(jù)主要通過門店原有的商品進(jìn)銷存系統(tǒng)數(shù)據(jù)庫實(shí)現(xiàn)。管理員針對當(dāng)前門店的商品陳列情況,在數(shù)據(jù)庫中導(dǎo)入記錄了門店中每個商品的SKU碼的數(shù)據(jù)表,然后通過配置商品進(jìn)銷數(shù)據(jù)庫的驗(yàn)證接口實(shí)現(xiàn)對商品數(shù)據(jù)的調(diào)用[11]。商品銷售數(shù)據(jù)采集流程如圖3所示。
圖3 商品銷售數(shù)據(jù)采集流程
完成數(shù)據(jù)采集后,將其存儲在設(shè)計的內(nèi)存數(shù)據(jù)庫中。
電商企業(yè)暢銷產(chǎn)品成因分析需要用到大量網(wǎng)絡(luò)數(shù)據(jù),原有的數(shù)據(jù)庫不能很好地適應(yīng)網(wǎng)上數(shù)據(jù)的特點(diǎn),需要引入新的數(shù)據(jù)模型,對數(shù)據(jù)庫進(jìn)行優(yōu)化。因此,在數(shù)據(jù)庫中引入半結(jié)構(gòu)化模式,半結(jié)構(gòu)化數(shù)據(jù)存在一定的結(jié)構(gòu),先有數(shù)據(jù),后有模式,能夠準(zhǔn)確地描述出數(shù)據(jù)的結(jié)構(gòu)信息,但不會對數(shù)據(jù)結(jié)構(gòu)產(chǎn)生強(qiáng)制性的約束,也能隨著數(shù)據(jù)的不斷更新而時刻處于動態(tài)變化狀態(tài)[12]。
針對半結(jié)構(gòu)模式的數(shù)據(jù)庫,設(shè)計基于XML的數(shù)據(jù)管理框架,將來自各數(shù)據(jù)源的數(shù)據(jù)通過數(shù)據(jù)倉庫方法進(jìn)行集成,以XML數(shù)據(jù)的形式統(tǒng)一存儲在數(shù)據(jù)庫中[13]。具體過程是:定義XML數(shù)據(jù)模式,根據(jù)用戶的實(shí)際需求在數(shù)據(jù)庫中抽取源數(shù)據(jù),將各個數(shù)據(jù)源的數(shù)據(jù)集成為XML數(shù)據(jù),同時獲得XML數(shù)據(jù)的模式,統(tǒng)一數(shù)據(jù)模式。在電商企業(yè)暢銷產(chǎn)品成因分析中,與暢銷產(chǎn)品相關(guān)的數(shù)據(jù)如表1所示。
“封禁令”封住了山,封住了沙坨子,卻也禁了羊的口。老百姓的羊怎么辦?舍飼圈養(yǎng)。剛開始的時候,農(nóng)民不知怎么養(yǎng)、羊舍怎么建,也不知優(yōu)質(zhì)的種羊從哪里引進(jìn)。何況,養(yǎng)羊戶更需要一筆不大不小的啟動資金——這是農(nóng)民心里不愿說出來的話。于是,政府搭臺,肉類加工企業(yè)與農(nóng)民結(jié)成“羊?qū)ψ印?,簽訂合同,一方出資,一方出工,借羊養(yǎng)羊,養(yǎng)羊還羊,增值分成。出欄的羊全部由肉類加工企業(yè)收購,農(nóng)民沒有任何風(fēng)險,收益還能得大頭。有了新的出路,農(nóng)民對“封禁令”不再抗拒。
表1 暢銷產(chǎn)品相關(guān)數(shù)據(jù)
為了保證后臺數(shù)據(jù)的安全,在事務(wù)進(jìn)入提交狀態(tài)之前,對每個活動事務(wù)分配一個“影子內(nèi)存工作區(qū)”,將數(shù)據(jù)修改工作記錄到影子內(nèi)存工作區(qū)中,不修改真正的數(shù)據(jù)庫數(shù)據(jù),當(dāng)工作進(jìn)入提交狀態(tài)時,根據(jù)“影子內(nèi)存工作區(qū)”中的記錄作相應(yīng)修改,即使某一事務(wù)由于某種原因夭折時,也只需要釋放其相應(yīng)的影子內(nèi)存工作區(qū)即可[14]。
半結(jié)構(gòu)模式數(shù)據(jù)的實(shí)際操作效率存在一定的不足,通過使用“影子內(nèi)存工作區(qū)”,可提高一定的數(shù)據(jù)庫操作效率。為了更好地提高工作效率,改變數(shù)據(jù)庫存儲結(jié)構(gòu),將元數(shù)據(jù)和數(shù)據(jù)存儲在一起,使得元數(shù)據(jù)可以直接存取,減少查找元數(shù)據(jù)帶來的開銷[15]??紤]到不同操作的并發(fā)程度不同,可能會造成資源開銷比較高,因此采用動態(tài)多粒度鎖機(jī)制適應(yīng)不同操作。當(dāng)并發(fā)程度比較高的時候,采用較小粒度的鎖;當(dāng)并發(fā)程度比較低的時候,使用粗粒度鎖。在這種機(jī)制下,既保證了并發(fā)性,又保持了較低的開銷。至此,基于數(shù)據(jù)庫的電商企業(yè)暢銷產(chǎn)品成因調(diào)查方法設(shè)計完成。
從大量與暢銷產(chǎn)品的信息數(shù)據(jù)中篩選出成因數(shù)據(jù),主要利用事物與事物之間的關(guān)聯(lián)性和相互依存性,在成型的數(shù)據(jù)庫中挖掘出目標(biāo)數(shù)據(jù)。假設(shè)用戶行為數(shù)據(jù)庫D中有N個不同集合I={i1,i2,…,in},數(shù)據(jù)庫D中一個事務(wù)U是一個項目子集(U?I)。支持度是項集在數(shù)據(jù)庫D中出現(xiàn)次數(shù)與數(shù)據(jù)庫D中項集總數(shù)的比。在計算之前,用戶根據(jù)自身的需求設(shè)置最小支持度閾值,當(dāng)計算的項集支持度超過最小支持度閾值,得到頻繁項集。
支持度計算公式為:
式中:X∪Y=?;M表示數(shù)據(jù)庫D中的事務(wù)總數(shù);X和Y表示集合I中事務(wù);support(X∪Y)表示數(shù)據(jù)庫中支持X∪Y的事務(wù)數(shù)。則信任度計算公式為:
式中:Sup(X∪Y)表示X∪Y的支持度;Sup(X)表示X的支持度。將以上公式轉(zhuǎn)換為概率計算:
Sup(X?Y)=P(X∪Y) (3)
Conf(X?Y)=P(Y/X) (4)
掃描整個數(shù)據(jù)庫D,計算數(shù)據(jù)庫中所有事務(wù)的支持度,將支持度不小于最小支持度的項目構(gòu)成集合存入到數(shù)據(jù)集中,對數(shù)據(jù)庫中的每一個事務(wù)重復(fù)上述過程,最后將支持度不小于最小支持度的潛在頻繁項集存入數(shù)據(jù)集中,最后輸出數(shù)據(jù)集,即為暢銷產(chǎn)品成因數(shù)據(jù)集。通過整理即可得到暢銷產(chǎn)品成因分析結(jié)果。
在電商企業(yè)暢銷產(chǎn)品成因調(diào)查方法實(shí)驗(yàn)研究中,從Yahoo!Autos網(wǎng)站隨機(jī)抽取1000000條記錄,合成數(shù)據(jù)集MerDB,其中包括type、color、model、price、make數(shù)據(jù)集,測試數(shù)據(jù)集的總大小為1550.36 MB。
所有的實(shí)驗(yàn)均在配置Windows10的計算機(jī)和Microso SQL Serve的環(huán)境下進(jìn)行。考慮到提出的調(diào)查方法需要利用用戶的網(wǎng)絡(luò)行為,因此,從電商企業(yè)網(wǎng)站中獲取用戶網(wǎng)絡(luò)行為數(shù)據(jù)。具體內(nèi)容如表2所示。
表2 實(shí)驗(yàn)數(shù)據(jù)來源明細(xì)
依據(jù)以上數(shù)據(jù)設(shè)計對比實(shí)驗(yàn),實(shí)驗(yàn)對象為提出的基于數(shù)據(jù)庫的成因調(diào)查方法、常規(guī)的基于Logistic回歸分析的成因調(diào)查方法和基于SEM的成因調(diào)查方法,以調(diào)查方法的可靠性為衡量標(biāo)準(zhǔn),設(shè)計兩組對比實(shí)驗(yàn),分別是數(shù)據(jù)清洗實(shí)驗(yàn)和網(wǎng)關(guān)壓力實(shí)驗(yàn)。
數(shù)據(jù)清洗實(shí)驗(yàn)中,使用不同的成因調(diào)查方法分析實(shí)驗(yàn)數(shù)據(jù),在分析完成后,將得到的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,對得到數(shù)據(jù)進(jìn)行字符數(shù)校驗(yàn),執(zhí)行程序如圖4所示。
圖4 數(shù)據(jù)清洗reduce過程部分代碼
對比觀察處理后的數(shù)據(jù),分析成因調(diào)查方法的實(shí)際水平。具體結(jié)果如圖5至圖7所示。
圖5 基于Logistic回歸分析的成因調(diào)查方法實(shí)驗(yàn)結(jié)果
圖6 基于SEM的成因調(diào)查方法實(shí)驗(yàn)結(jié)果
圖7 基于數(shù)據(jù)庫的成因調(diào)查方法實(shí)驗(yàn)結(jié)果
對比觀察圖中結(jié)果,圖5顯示的結(jié)果中,數(shù)據(jù)中不僅有屬性缺失的數(shù)據(jù)序列,還有異常序列的數(shù)據(jù),異常數(shù)據(jù)序列包括歸零數(shù)據(jù)和字符長度異常數(shù)據(jù);圖6顯示的結(jié)果與圖5中存在的數(shù)據(jù)異常相同,異常數(shù)據(jù)更多;圖7中結(jié)果顯示,數(shù)據(jù)整齊有序,不存在異常數(shù)據(jù)。綜上所述,提出的基于數(shù)據(jù)庫的電商企業(yè)暢銷產(chǎn)品成因調(diào)查方法數(shù)據(jù)質(zhì)量更好。
網(wǎng)關(guān)壓力實(shí)驗(yàn)中,使用Jmeter壓力測試工具通過編寫測試腳本模擬多個事務(wù)并發(fā)調(diào)用API請求,通過不斷提升并發(fā)API請求數(shù)量,判斷網(wǎng)關(guān)所能承受并發(fā)數(shù)量的極限值。實(shí)驗(yàn)結(jié)果如表3所示。
表3 不同成因調(diào)查方法網(wǎng)關(guān)服務(wù)壓力實(shí)驗(yàn)結(jié)果
從表3可以看出,傳統(tǒng)的兩種成因調(diào)查方法網(wǎng)關(guān)服務(wù)能力比較差,實(shí)際處理的數(shù)據(jù)請求與預(yù)期處理的數(shù)據(jù)請求相差比較大,在回歸測試中也并沒有得到校正。相比之下,提出的基于數(shù)據(jù)庫的電商企業(yè)暢銷產(chǎn)品成因調(diào)查方法抗壓能力更強(qiáng),能夠在極短的時間內(nèi)處理所有數(shù)據(jù)請求。結(jié)合數(shù)據(jù)清洗實(shí)驗(yàn)結(jié)果可知,提出的基于數(shù)據(jù)庫的電商企業(yè)暢銷產(chǎn)品成因調(diào)查方法具有更好的可靠性,該方法優(yōu)于傳統(tǒng)的成因調(diào)查方法。
電商企業(yè)暢銷產(chǎn)品成因調(diào)查對電商企業(yè)的發(fā)展有很強(qiáng)的推動作用,很多企業(yè)在暢銷成品調(diào)查研究中投入了大量精力。在這種背景下,本文圍繞著電商企業(yè)暢銷產(chǎn)品成因調(diào)查方法展開研究與設(shè)計,對原有的暢銷產(chǎn)品成因數(shù)據(jù)庫進(jìn)行了優(yōu)化。在調(diào)查方法設(shè)計完成后,通過實(shí)驗(yàn)對比,驗(yàn)證了提出的暢銷產(chǎn)品成因調(diào)查方法的可靠性,為電商企業(yè)發(fā)展提供理論依據(jù)與技術(shù)支撐。