□ 孫麗男 康冰冰 王 鑫 王佳惠 胡錦秀
(黑河學(xué)院 黑龍江 黑河 164300)
伴隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,線上購物已經(jīng)成為人們?nèi)粘I钪械闹髁髻徫锓绞街?,多?shù)消費(fèi)者會(huì)在各類電商平臺(tái)購物后留下一些評(píng)論,為其他消費(fèi)者提供一些參考。本文將采取文本挖掘的方法分析電商助農(nóng)產(chǎn)品的評(píng)論數(shù)據(jù),首先采集京東電商平臺(tái)上助農(nóng)產(chǎn)品的評(píng)論數(shù)據(jù),然后采用中文分詞、情感傾向分析等方法對(duì)所挖掘出的文本評(píng)論數(shù)據(jù)進(jìn)行分析,并對(duì)文本評(píng)論數(shù)據(jù)的情感傾向性判斷,有效、準(zhǔn)確的從互聯(lián)網(wǎng)電商評(píng)論數(shù)據(jù)中分析出消費(fèi)者的需求和滿意度,為電商平臺(tái)助農(nóng)產(chǎn)品營銷提供決策支持。
伴隨著國家扶貧攻堅(jiān)政策的不斷升級(jí),助農(nóng)產(chǎn)品越來越受到大眾的關(guān)注,許多電商平臺(tái)紛紛響應(yīng)國家政策開辟助農(nóng)板塊,用戶評(píng)價(jià)成為平臺(tái)運(yùn)營重要的參考依據(jù)。
本文利用Python采集京東商城助農(nóng)產(chǎn)品的評(píng)論,共抓取了105836條評(píng)論,數(shù)據(jù)抓取過程中,每個(gè)商品的評(píng)論只能顯示前100頁即每個(gè)商品只能抓取到1000條評(píng)論,同時(shí)將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)化為可檢索的結(jié)構(gòu)化數(shù)據(jù),用表格形式儲(chǔ)存,如表1所示。
表1 京東平臺(tái)上采集的數(shù)據(jù)結(jié)構(gòu)示意圖
采集完數(shù)據(jù)后需要先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,在電商平臺(tái)評(píng)論數(shù)據(jù)中常出現(xiàn)的需要處理的數(shù)據(jù)有以下四種類型:
1.語句中帶有重復(fù)詞的評(píng)論。例如:“這家的蘋果真的真的真的真的太好吃了?。?!”和“差差差差差,再也不會(huì)回購了”,針對(duì)這類評(píng)論本文選擇壓縮去詞的方式處理,只從每條評(píng)論中多個(gè)重復(fù)詞中提取一個(gè)重復(fù)詞,例如“這家的蘋果真的太好吃了”和“差,再也不會(huì)回購了”。
2.商家雇傭水軍刷出的好評(píng),此類好評(píng)的特點(diǎn)為,評(píng)論篇幅長,圖片數(shù)量多,當(dāng)天追加大篇幅評(píng)論,同一賬號(hào)在同一商品下多次好評(píng),這種評(píng)論我們選擇的處理方式為剔除。
3.無意義的評(píng)論,分為兩種,第一種為系統(tǒng)默認(rèn)好評(píng),即由于買家未在規(guī)定時(shí)間內(nèi)對(duì)商品評(píng)價(jià),導(dǎo)致系統(tǒng)給出的默認(rèn)好評(píng);第二種為由標(biāo)點(diǎn)符號(hào),英文字母,數(shù)字,不明語義的句子等組成的評(píng)論,這種評(píng)論我們也選擇剔除處理。
4.完全相同的評(píng)論,在評(píng)論中有時(shí)會(huì)出現(xiàn)兩條或多條完全相同的評(píng)論,針對(duì)這類評(píng)論采取文本去重的方法,即逐一對(duì)比評(píng)論內(nèi)容,去除完全相同的評(píng)論。
在數(shù)據(jù)預(yù)處理中,剔除了大量無效評(píng)論,最終共剔除100694條評(píng)論,得到有效評(píng)論5142條,評(píng)論利用率為0.49%。
情感分析是指所挖掘的文本內(nèi)容表達(dá)的觀點(diǎn)與含義,是識(shí)別某個(gè)主體對(duì)某客體的功能及效用主觀感受,這種主觀感受褒貶不一,而情感分析就是根據(jù)這種褒貶不一態(tài)度來進(jìn)行情感傾向性研究。本文采用HowNet進(jìn)行語義分析,求出得分,通過得分來判斷文本情感傾向,得分為正數(shù)則表明文本表達(dá)的為“正面情感”,若得分為負(fù)數(shù)則表明文本表達(dá)為“負(fù)面情感”。具體分析框架如圖1所示。
圖1 文本傾向性分析框架圖
通過HowNet計(jì)算出所采集的京東助農(nóng)產(chǎn)品的評(píng)論的得分情況,根據(jù)所得出的分?jǐn)?shù),來進(jìn)行情感分析,分析結(jié)果如圖2所示
圖2 文本情感分析結(jié)果
助農(nóng)產(chǎn)品的褒義的評(píng)論即正面情緒高達(dá)79.58%,對(duì)助農(nóng)產(chǎn)品持中立看法的為7.91%,而對(duì)助農(nóng)產(chǎn)品的貶義評(píng)論即負(fù)面情緒僅為12.51%,由此可見經(jīng)過分析后得出消費(fèi)者對(duì)京東商城助農(nóng)產(chǎn)品的滿意度較高,大部分消費(fèi)者對(duì)助農(nóng)產(chǎn)品持有的是積極的態(tài)度。
本文從評(píng)論中整合提取高頻詞匯,制作詞云圖,如圖3所示。圖中字號(hào)越大代表該詞出現(xiàn)頻率越高,其中“好吃”,“新鮮”,“味道”出現(xiàn)頻率極高,說明消費(fèi)者在購買京東平臺(tái)助農(nóng)產(chǎn)品時(shí)最注重產(chǎn)品的口感和產(chǎn)品是否新鮮,對(duì)價(jià)格的關(guān)注程度也在其次,說明消費(fèi)者比起價(jià)格更在意產(chǎn)品本身的質(zhì)量,商家應(yīng)該把產(chǎn)品質(zhì)量放在第一位。詞云圖中還出現(xiàn)了一些消極情緒的詞匯。例如“最差”,“一般般”,“破損”,“想象”等詞都頻頻出現(xiàn),說明商家還需提高產(chǎn)品的包裝和質(zhì)量。
圖3 詞云統(tǒng)計(jì)圖
圖4所示的網(wǎng)絡(luò)語義圖左側(cè)主要為消費(fèi)者對(duì)產(chǎn)品本身的評(píng)價(jià),包括口感,質(zhì)量,價(jià)格等,右邊主要為消費(fèi)者在平臺(tái)的購買體驗(yàn)評(píng)價(jià),包括物流,售后,服務(wù),包裝等,由網(wǎng)絡(luò)語義圖能看出消費(fèi)者最在意產(chǎn)品的品質(zhì)和味道,這一點(diǎn)與詞云圖得出的結(jié)論相似;消費(fèi)者會(huì)因?yàn)楫a(chǎn)品口感,品質(zhì)決定是否回購該產(chǎn)品;在購買助農(nóng)扶貧產(chǎn)品時(shí)也更在意產(chǎn)品的品質(zhì);消費(fèi)者會(huì)因?yàn)楫a(chǎn)品味道和分量和質(zhì)量等因素給出差評(píng),產(chǎn)品的包裝破損導(dǎo)致產(chǎn)品分量不夠及破損,商家應(yīng)加強(qiáng)產(chǎn)品包裝質(zhì)量。
圖4 網(wǎng)絡(luò)語義圖
本節(jié)在語義網(wǎng)絡(luò)情感分類結(jié)果的基礎(chǔ)上,對(duì)不同情感傾向下的潛在主題分別進(jìn)行挖掘分析,從而得到不同情感傾向下用戶對(duì)助農(nóng)產(chǎn)品不同方面的反映情況。經(jīng)過LDA主題分析后,評(píng)論文本被聚成3個(gè)主題,每個(gè)主題下生成10個(gè)最可能出現(xiàn)的詞語以及相應(yīng)的概率。
表2 LDA差評(píng)主題分析結(jié)果
表3 LDA好評(píng)主題分析結(jié)果
根據(jù)助農(nóng)產(chǎn)品差評(píng)的3個(gè)潛在主題的特征詞提取,主題1中的高頻特征詞,即不甜、不夠、失望、很差、不要、磕碰、個(gè)頭、速度、客服和太慢,主要反映助農(nóng)產(chǎn)品的質(zhì)量不好,沒有達(dá)到部分消費(fèi)者的期望值;主題2中的高頻特征詞,即熱門關(guān)注點(diǎn)主要是太小、態(tài)度、酸、活動(dòng)、一般、不好吃、垃圾、不新鮮、質(zhì)量、大小不一,主要反映出消費(fèi)者認(rèn)為助農(nóng)產(chǎn)品的質(zhì)量及服務(wù)態(tài)度存在問題。主題3的高頻特征詞主要是爛、破損、重量、下面、壞果、不符、均勻、沒熟、包裝、打蠟;主要反映出部分商家發(fā)貨慢、包裝差及規(guī)格等與描述不相符等。
根據(jù)助農(nóng)產(chǎn)品好評(píng)的3個(gè)潛在主題的特征詞提取,主題1主要反映出大部分消費(fèi)者認(rèn)為助農(nóng)產(chǎn)品性價(jià)比較高,口感香甜;主題2反映出助農(nóng)產(chǎn)品的質(zhì)量不錯(cuò),對(duì)商品的整體比較滿意,同時(shí)“物美”一詞也在熱門詞中,可能是因?yàn)榇嬖谝徊糠直壤南M(fèi)者在選擇助農(nóng)產(chǎn)品時(shí)比較注重產(chǎn)品的外觀,主題3主要反映出消費(fèi)者對(duì)助農(nóng)產(chǎn)品的發(fā)貨速度、口感及營養(yǎng)較為滿意。
綜上所述,消費(fèi)者對(duì)于京東電商平臺(tái)上助農(nóng)產(chǎn)品的整體滿意度較高,更加注重產(chǎn)品質(zhì)量,對(duì)于產(chǎn)品包裝及物流等方面滿意度較差,京東電商平臺(tái)可根據(jù)上述分析結(jié)果制定有效的助農(nóng)產(chǎn)品營銷策略。