国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

網(wǎng)購(gòu)葡萄酒標(biāo)題特征提取與銷量影響因素分析

2021-11-29 09:26:08孫菀霞謝均揚(yáng)任芮瑄糾松濤張才喜
中外葡萄與葡萄酒 2021年6期
關(guān)鍵詞:詞頻葡萄酒銷量

孫菀霞,謝均揚(yáng),任芮瑄,糾松濤,張才喜

(1. 上海交通大學(xué)農(nóng)業(yè)與生物學(xué)院,上海 200240;2. 上海交通大學(xué)電子信息與電氣工程學(xué)院,上海 200240)

隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,人們的日常購(gòu)物方式由線下實(shí)體店拓展到線上網(wǎng)店,網(wǎng)絡(luò)購(gòu)物正受到越來(lái)越多消費(fèi)者的青睞。據(jù)國(guó)際葡萄酒及烈酒研究所(international wine and spirits research,IWSR)發(fā)布的《2019年全球酒水電商市場(chǎng)戰(zhàn)略報(bào)告》統(tǒng)計(jì)數(shù)據(jù)顯示,中國(guó)酒水電商市場(chǎng)居全球交易規(guī)模之首,并且2019—2024年間,全球核心市場(chǎng)的酒水營(yíng)業(yè)額將以每年15%的速度增長(zhǎng),遠(yuǎn)高于整個(gè)電商行業(yè)每年約1%的營(yíng)業(yè)額增速[1]。然而受新型冠狀疫情影響,國(guó)內(nèi)市場(chǎng)進(jìn)口葡萄酒與國(guó)產(chǎn)葡萄酒均受到較大沖擊[2]。2020年1—2月中國(guó)葡萄酒銷售收入為12.88億元,同比下降40.8%;利潤(rùn)為0.5億元,同比下降58%[3]。此次疫情,使葡萄酒生產(chǎn)廠家和產(chǎn)品代理商認(rèn)識(shí)到傳統(tǒng)終端式銷售渠道的不足,開(kāi)始重視線上渠道的銷售與自媒體的傳播[4]。在葡萄酒銷售渠道由線下銷售向電商轉(zhuǎn)型的調(diào)整階段,商品標(biāo)題所包含的產(chǎn)品信息不僅能夠吸引顧客、優(yōu)化購(gòu)物體驗(yàn),而且能有利于促進(jìn)銷售、樹(shù)立品牌形象[5-6]。因此,如何有效地利用現(xiàn)有網(wǎng)購(gòu)數(shù)據(jù),幫助商家擬定符合消費(fèi)者偏好的葡萄酒商品標(biāo)題成為亟需解決的問(wèn)題。

文本挖掘是指利用統(tǒng)計(jì)建模等手段進(jìn)行文本解析并獲取高質(zhì)量信息的過(guò)程[7]。商品標(biāo)題是文本數(shù)據(jù),屬于非結(jié)構(gòu)化數(shù)據(jù)。在文本挖掘技術(shù)盛行的熱潮下,國(guó)內(nèi)外很多學(xué)者對(duì)網(wǎng)購(gòu)商品標(biāo)題進(jìn)行多領(lǐng)域多角度的研究。包慧君等[5]對(duì)網(wǎng)絡(luò)零售土雞蛋的商品標(biāo)題設(shè)置進(jìn)行分析與優(yōu)化,結(jié)果表明,商品標(biāo)題中核心詞較混亂,并且各種炒作的概念較多,易導(dǎo)致消費(fèi)者選擇困難。李佳林[8]對(duì)女裝、女鞋、手機(jī)數(shù)碼和家電辦公4大類商品的標(biāo)題進(jìn)行優(yōu)化。Wang等[9]提出一種基于在線評(píng)論的智能手機(jī)標(biāo)題優(yōu)化方法,可以有效反映消費(fèi)者購(gòu)物偏好。然而,針對(duì)網(wǎng)購(gòu)葡萄酒標(biāo)題的研究鮮有報(bào)道。

因此,為了準(zhǔn)確、完整、簡(jiǎn)潔地對(duì)網(wǎng)購(gòu)葡萄酒進(jìn)行特征描述,提出基于關(guān)聯(lián)規(guī)則的網(wǎng)購(gòu)葡萄酒標(biāo)題分析與優(yōu)化方法。通過(guò)對(duì)不同銷量級(jí)別的商品標(biāo)題關(guān)鍵詞進(jìn)行關(guān)聯(lián)度挖掘,為商家改進(jìn)標(biāo)題提供理論參考。同時(shí),為了進(jìn)一步分析與商品銷量有關(guān)的影響因素,研究以銷量為目標(biāo)變量,以標(biāo)題所反映的商品屬性以及售價(jià)為自變量構(gòu)建隨機(jī)森林模型,以期幫助商家適時(shí)評(píng)估消費(fèi)者偏好,調(diào)整供貨與銷售策略。

1 葡萄酒標(biāo)題文本特征分析

1.1 文本信息的采集與預(yù)處理

為了全面地獲取葡萄酒標(biāo)題、售價(jià)與銷量信息,研究利用Python語(yǔ)言開(kāi)發(fā)的網(wǎng)絡(luò)信息抓取軟件以“葡萄酒”為關(guān)鍵字從“淘寶網(wǎng)”抓取300頁(yè)網(wǎng)頁(yè)數(shù)據(jù),共獲取3023條商品信息。經(jīng)過(guò)數(shù)據(jù)清洗,剔除“白酒”“江小白”以及“雞尾酒”等與主題明顯無(wú)關(guān)的數(shù)據(jù),剩余2970條有效信息作為分析數(shù)據(jù)。采用四分位數(shù)切割法,按照“銷量”將商品分為4個(gè)不同的等級(jí),即“低銷量”“低中銷量”“中高銷量”和“高銷量”商品。在有效的商品數(shù)據(jù)中,銷量的最小值為0,最大值為5651,四分位數(shù)由低到高依次為10、27和87。

1.2 標(biāo)題的詞頻提取

詞頻是指某個(gè)詞在一個(gè)文檔中出現(xiàn)的頻數(shù)。文本中的高頻詞可以在一定程度上反映文本特征。研究基于R軟件jiebaR包中的混合模型(即隱式馬爾科夫模型與最大概率法的結(jié)合)對(duì)葡萄酒標(biāo)題進(jìn)行分詞處理。在分詞過(guò)程中,去除空格、數(shù)字、字母和標(biāo)點(diǎn)符號(hào)。提取分詞后各銷量等級(jí)的標(biāo)題文本中詞頻大于50的高頻詞并集,進(jìn)而分析不同銷量等級(jí)的標(biāo)題詞特征。

1.3 標(biāo)題詞的關(guān)聯(lián)分析

關(guān)聯(lián)規(guī)則是文本挖掘的一個(gè)重要研究方向,通常用以描述數(shù)據(jù)集中兩組不同對(duì)象之間存在的某種關(guān)聯(lián)關(guān)系[10-11]。利用Apriori算法挖掘4個(gè)不同銷量等級(jí)文本庫(kù)中的頻繁項(xiàng)集,通過(guò)設(shè)置支持度(support)為0.1且置信度(confidence)為0.8對(duì)高頻詞的關(guān)聯(lián)規(guī)則進(jìn)行挖掘,進(jìn)而比較文本標(biāo)題中高頻詞的關(guān)聯(lián)差異。此外,根據(jù)詞頻分析結(jié)果對(duì)“低銷量”和“高銷量”等級(jí)中詞頻差異較大的詞——“女士”進(jìn)行關(guān)聯(lián)規(guī)則分析,實(shí)現(xiàn)對(duì)“低銷量”商品標(biāo)題信息的良好補(bǔ)充。為了篩選出較強(qiáng)的關(guān)聯(lián)規(guī)則,選取提升度(lift)大于3的關(guān)聯(lián)結(jié)果進(jìn)行分析。

2 隨機(jī)森林分類模型構(gòu)建與驗(yàn)證

2.1 特征向量提取

隨機(jī)森林是由多棵分類回歸樹(shù)(classification and regression tree,CART)構(gòu)成的組合分類模型,該方法不易出現(xiàn)過(guò)擬合,具有良好的準(zhǔn)確率和穩(wěn)定性[12]。以葡萄酒銷量作為隨機(jī)森林模型的目標(biāo)變量,同時(shí)根據(jù)jieba分詞結(jié)果對(duì)商品標(biāo)題進(jìn)行特征提取,從而獲得特征向量(自變量)。用于隨機(jī)森林模型構(gòu)建的自變量包括以下標(biāo)題特征,即包裝方式(單支、兩支、禮盒、整箱、桶裝)、進(jìn)口、國(guó)家、氣泡或起泡、波爾多、甜或半甜、正品、女士、赤霞珠、促銷或特價(jià)、白葡萄酒、莫斯卡托、贈(zèng)送酒具13個(gè)維度。由于商品售價(jià)也是消費(fèi)者考慮的主要因素之一,因此在標(biāo)題特征屬性的基礎(chǔ)上引入產(chǎn)品單價(jià)這一維度,從而將標(biāo)題特征數(shù)據(jù)和銷量數(shù)據(jù)進(jìn)行集成,共同構(gòu)成隨機(jī)森林模型的樣本數(shù)據(jù)集。

2.2 隨機(jī)森林模型構(gòu)建和驗(yàn)證

對(duì)“低銷量”和“高銷量”商品建立以銷量為目標(biāo)的隨機(jī)森林分類模型,通過(guò)R軟件將數(shù)據(jù)集隨機(jī)劃分為70%的訓(xùn)練集和30%的測(cè)試集,然后根據(jù)Random Forest 函數(shù)建立隨機(jī)森林模型,并獲得各自變量的相對(duì)重要性程度排序。重要性程度以平均準(zhǔn)確度下降程度(mean decrease in accuracy)和平均基尼指數(shù)下降程度(mean decrease in Gini index)進(jìn)行評(píng)估,評(píng)價(jià)指標(biāo)的數(shù)值越大表示變量的重要性越大[13]。平均準(zhǔn)確度下降程度的含義為將一個(gè)變量的取值變?yōu)殡S機(jī)數(shù)時(shí),隨機(jī)森林診斷準(zhǔn)確性的降低程度[14]。平均基尼指數(shù)下降程度是計(jì)算每個(gè)變量對(duì)分類樹(shù)每個(gè)節(jié)點(diǎn)上觀測(cè)值異質(zhì)性的影響,從而比較變量的重要性[15]。最后,根據(jù)靈敏度、特異度以及特征曲線下的面積(area under curve, AUC)評(píng)價(jià)模型的預(yù)測(cè)精度和泛化能力。

3 結(jié)果與分析

3.1 詞頻統(tǒng)計(jì)

對(duì)4個(gè)銷量等級(jí)中詞頻大于50的標(biāo)題詞取并集,分析標(biāo)題詞之間的共性與差異。由圖1 A可見(jiàn),“葡萄酒”“紅酒”“干紅”和“進(jìn)口”4個(gè)詞的出現(xiàn)頻數(shù)最高,是標(biāo)題中的核心詞。與低銷量產(chǎn)品的標(biāo)題相比,高銷量產(chǎn)品標(biāo)題中“起泡”和“支裝”出現(xiàn)的頻數(shù)較高,而“紅葡萄酒”和“赤霞珠”出現(xiàn)的頻數(shù)較低。由圖1 B可見(jiàn),隨著銷量的增加,“包郵”“澳洲”和“智利”出現(xiàn)的頻數(shù)逐漸降低,但“波爾多”“西班牙”和“意大利”出現(xiàn)的頻數(shù)有所升高。對(duì)于詞頻介于50~100的標(biāo)題詞而言,高銷量葡萄酒中“氣泡”“甜酒”“甜型”以及“女士”的出現(xiàn)頻數(shù)明顯增多,表明以女性為銷售對(duì)象可能是提高產(chǎn)品銷量的有效方式之一。與低銷量葡萄酒標(biāo)題中詞頻差異較大的‘莫斯卡托’葡萄經(jīng)常用于釀造口感甘甜、香氣芬芳的起泡酒和微泡酒,此類酒深受女士們歡迎[16-17]。因此,建議銷售商推出以女性為消費(fèi)對(duì)象的葡萄酒。

據(jù)Vinexpo與IWSR聯(lián)合發(fā)布的《全球葡萄酒市場(chǎng)現(xiàn)狀和未來(lái)趨勢(shì)預(yù)測(cè)報(bào)告》顯示,全球葡萄酒市場(chǎng)將呈現(xiàn)精品化趨勢(shì),并且起泡酒的增長(zhǎng)速率優(yōu)于靜止酒[18]。預(yù)計(jì)2022年,全球起泡酒銷量有望達(dá)到2.81億箱,價(jià)值約329億美元[19]。在起泡酒為全球葡萄酒市場(chǎng)帶來(lái)活力的契機(jī),我國(guó)也要適當(dāng)提高起泡酒的市場(chǎng)占比。

“買一箱送一箱”在高銷量的產(chǎn)品中出現(xiàn)頻率較高,因此一定的促銷活動(dòng)可以刺激銷量提升。然而,研究數(shù)據(jù)顯示,與70、80后相比,90后群體線上購(gòu)酒時(shí)對(duì)促銷并不敏感,80后群體是最精打細(xì)算、貨比三家的群體[20]。因此,銷售商應(yīng)針對(duì)不同的消費(fèi)群體,制定個(gè)性化的商品標(biāo)題,增強(qiáng)與買家搜索的匹配度,使產(chǎn)品搜索結(jié)果靠前,通過(guò)增加商品曝光率和點(diǎn)擊率以提高產(chǎn)品銷量。

3.2 關(guān)聯(lián)規(guī)則分析

對(duì)4個(gè)銷量等級(jí)中的高頻詞分別進(jìn)行關(guān)聯(lián)規(guī)則分析發(fā)現(xiàn),低銷量的商品標(biāo)題中不存在有效的關(guān)聯(lián)規(guī)則,高銷量產(chǎn)品中的商品標(biāo)題關(guān)聯(lián)規(guī)則最多,說(shuō)明低銷量產(chǎn)品中標(biāo)題設(shè)置混亂,而高銷量產(chǎn)品的標(biāo)題詞有一定關(guān)聯(lián)規(guī)律(圖2)。“低中銷量”的商品標(biāo)題只產(chǎn)生一條關(guān)聯(lián)規(guī)則,即標(biāo)題詞中若出現(xiàn)“波爾多”,則很有可能會(huì)同時(shí)出現(xiàn)“法國(guó)”,并且在“中高銷量”和“高銷量”級(jí)別的產(chǎn)品中同樣存在該關(guān)聯(lián)規(guī)則。進(jìn)一步分析發(fā)現(xiàn),對(duì)“高銷量”產(chǎn)品而言,“波爾多、干紅、紅酒、進(jìn)口、葡萄酒”的所有子集中,若包含“波爾多”,則同時(shí)包含“法國(guó)”。然而,“中高銷量”產(chǎn)品缺失了“高銷量”中的部分關(guān)聯(lián)規(guī)則。因此,建議標(biāo)題中若出現(xiàn)“波爾多”時(shí),同時(shí)標(biāo)注“法國(guó)”。

圖2 不同銷量級(jí)別中提升度大于3的高頻詞關(guān)聯(lián)規(guī)則Figure 2 Text association rules for high-frequency words based on lift more than 3

通過(guò)對(duì)低銷量和高銷量產(chǎn)品中詞頻差異較大的標(biāo)題詞——“女士”,進(jìn)行關(guān)聯(lián)規(guī)則分析,發(fā)現(xiàn)低銷量的商品標(biāo)題不存在有效的關(guān)聯(lián)規(guī)則,低中銷量?jī)H有1條關(guān)聯(lián)規(guī)則,中高銷量產(chǎn)生7條關(guān)聯(lián)規(guī)則,高銷量則達(dá)到11條關(guān)聯(lián)規(guī)則(圖3)。在“中高銷量”的標(biāo)題中產(chǎn)生包含與“整箱”和“莫斯卡托”相關(guān)的關(guān)聯(lián)規(guī)則,而在其它兩組銷量等級(jí)中沒(méi)有此類關(guān)聯(lián)規(guī)則。在“高銷量”的標(biāo)題中,關(guān)聯(lián)規(guī)則多與“甜型”“甜酒”“氣泡”以及“起泡”有關(guān)。

圖3 商品標(biāo)題中與“女士”相關(guān)的關(guān)聯(lián)規(guī)則Figure 3 Text association rules related to female

《2019中國(guó)酒類消費(fèi)行為白皮書》指出,女性消費(fèi)群體正在崛起,并且女性對(duì)葡萄酒的甜度喜好程度要高于男性[21-22]。因此,建議增加甜酒和起泡酒的產(chǎn)品類型,并且在標(biāo)題詞中與“女士”相關(guān)聯(lián)。

3.3 基于隨機(jī)森林模型的銷量影響因素分析

通過(guò)將隨機(jī)森林模型的預(yù)測(cè)結(jié)果與實(shí)際結(jié)果進(jìn)行比對(duì),發(fā)現(xiàn)模型的靈敏度和特異度分別為74.5%和79.9%,AUC為0.772,表明模型具有較好的評(píng)估性能。根據(jù)平均準(zhǔn)確度下降程度和平均基尼指數(shù)下降程度對(duì)變量的重要性進(jìn)行排序,在銷量的判別模型中,重要性排序前5位的變量分別是商品單價(jià)、產(chǎn)地、包裝方式、是否屬于甜型、是否為進(jìn)口酒(圖4)。其中,商品價(jià)格是消費(fèi)者考慮的最主要影響因素。

圖4 分別根據(jù)平均準(zhǔn)確度下降程度(A)和平均基尼指數(shù)下降程度(B)對(duì)變量的重要性排序Figure 4 The importance of variables according to the mean decrease in accuracy (A) and mean decrease in Gini index (B)

4 討論與結(jié)論

基于文本關(guān)聯(lián)的網(wǎng)購(gòu)葡萄酒標(biāo)題特征提取以及基于隨機(jī)森林模型的葡萄酒銷量影響因素分析。根據(jù)低銷量、低中銷量、中高銷量和高銷量的詞頻特征,提出要增強(qiáng)以女性為消費(fèi)群體的建議。此外,根據(jù)文本關(guān)聯(lián)分析發(fā)現(xiàn),低銷量商品標(biāo)題詞存在雜亂無(wú)序的現(xiàn)象,但是高銷量商品標(biāo)題詞的關(guān)聯(lián)性強(qiáng),建議低銷量商品加強(qiáng)標(biāo)題詞的關(guān)聯(lián)性,有針對(duì)性地進(jìn)行商品特征描述。同時(shí),本研究表明,隨機(jī)森林模型可以較好地對(duì)低銷量和高銷量產(chǎn)品進(jìn)行區(qū)分。商品特征的重要性排序結(jié)果可以為商家設(shè)定商品標(biāo)題提供有價(jià)值的參考。因?yàn)槭蹆r(jià)是影響銷量的最主要因素,因此低價(jià)位已成為我國(guó)電商平臺(tái)暢銷葡萄酒的共同特征[23]。除售價(jià)外,葡萄酒產(chǎn)地也是影響銷量的關(guān)鍵因素之一。Vinexpo調(diào)查顯示,女性在選擇葡萄酒時(shí)主要關(guān)注的因素依次是:售價(jià)、葡萄品種和原產(chǎn)國(guó)[24]。疫情之下國(guó)內(nèi)消費(fèi)者的民族情懷上升,對(duì)提高國(guó)產(chǎn)葡萄酒的品牌自信有很大幫助。若借助本次進(jìn)口酒受阻的時(shí)機(jī),創(chuàng)造出更適合國(guó)內(nèi)消費(fèi)的優(yōu)質(zhì)葡萄酒,將為未來(lái)國(guó)產(chǎn)葡萄酒崛起提供契機(jī)。

由于主要針對(duì)商品標(biāo)題的文本特征進(jìn)行銷量分析,尚未涉及商品人氣指數(shù)、商品評(píng)價(jià)、賣家信譽(yù)以及服務(wù)質(zhì)量等因素,因此在以后的銷量影響因素綜合分析中,應(yīng)納入更多的自變量,以期進(jìn)一步提高模型評(píng)估的準(zhǔn)確性。

猜你喜歡
詞頻葡萄酒銷量
基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
園林科技(2021年3期)2022-01-19 03:17:48
自制的葡萄酒為啥愛(ài)“上頭”?
同比增長(zhǎng)130%!劍指3萬(wàn)噸銷量,豐華黃顙料迎來(lái)大爆發(fā)
盤點(diǎn)2018年車企銷量
汽車觀察(2019年2期)2019-03-15 06:00:12
十款葡萄酒與十塊石頭
收藏界(2018年3期)2018-10-10 05:34:08
法國(guó)葡萄酒何以譽(yù)滿天下
上汽通用172萬(wàn)銷量下的陰影
家用汽車(2016年4期)2016-02-28 02:23:37
詞頻,一部隱秘的歷史
云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報(bào)》學(xué)術(shù)研究特色
圖書館論壇(2014年8期)2014-03-11 18:47:59
绥化市| 华坪县| 克山县| 福建省| 财经| 上饶市| 康保县| 从化市| 东至县| 西充县| 高台县| 台州市| 奉新县| 宜丰县| 伊川县| 平和县| 玉环县| 文成县| 宁波市| 陈巴尔虎旗| 澄城县| 克拉玛依市| 五河县| 河西区| 宁南县| 准格尔旗| 扶绥县| 杭州市| 阿克苏市| 资中县| 武陟县| 北辰区| 璧山县| 镇宁| 东乌珠穆沁旗| 贵定县| 乌恰县| 清涧县| 浏阳市| 瑞安市| 屯门区|