王鵬嶺 應欣慧 梁家瑞 王寶麗
摘要:隨著大數據技術的廣泛應用,網絡購物已成為消費者的主要購物方式之一。大量的在線評論成為消費者了解產品質量及商家服務情況的重要途徑。文章以某化妝品為研究對象,采用Python爬取數據,對數據進行預處理、提取有效的評論信息,繪制詞云進行數據可視化、運用Snownlp進行情感分析并針對好評和差評分別進行主題分析,最后為商家產品的改良和銷售提供了意見和建議。
關鍵詞:數據挖掘;Python;可視化;情感分析;LDA主題分析
中圖分類號:TP391.1 ? ? ?文獻標識碼:A
文章編號:1009-3044(2022)13-0021-03
電子商務的發(fā)展方便了消費者購物,消費者可以通過網絡準確地判斷出商品的質量,評論數據無論對消費者是否購買產品還是商家改善決策都是至關重要的[1]。海量評論數據通過人工很難收集,通過Python程序語言可以取得有效的數據信息,并對其進行情感分析。情感分類有兩種分法,一種是有監(jiān)督的情感分類,主要應用有監(jiān)督的機器學習算法,算法實施需要足夠多的標有情緒的語料,提取特征訓練情緒分類器;另一種是無/半監(jiān)督情感分析,最典型的就是基于情感詞典的方法[2] ?;谠~典的方法主要注重于分詞的準確度和詞庫的數量,人工工作量較大。本文通過Python寫的類庫Snownlp庫,可便于處理中文文本內容,進行打分,再利用主題分析分別對好評和差評挖掘出潛在主題。
1 數據獲取與預處理
1.1 數據的獲取
在Pycharm模塊下,從京東網站上的科顏氏金盞花植萃爽膚水的主頁獲取評論數據。以.csv的格式存儲爬取的數據,將時間化為時間戳,以用戶ID、用戶評論時間、用戶評論內容的三個字段為準,對爬取的評論進行分類處理,分別存儲到好評com_all1.xls和差評com_all2.xls[3]。爬取的部分評論如表1所示:
1.2數據的預處理
為了避免數據不夠規(guī)范導致結果出錯,有必要對文本數據進行去除非文本內容、文本去重、去除停用詞及文本分詞等操作[4]。初次爬取的評論充斥著許多無效的內容,如img標簽、超鏈接標簽、空格等,用正則表達式去除,并不會對分析結果造成影響;文本去重是針對系統(tǒng)評論中自動默認好評,使用drop_duplicates()方法過濾掉;本文使用jieba分詞算法中的精準模式將語句精確地分開,不會產生詞語歧義,調用cut的方法分別對好評和差評進行切句、分詞;選用哈工大停用詞表將“已經”“也”“不但”等沒有具體意義的詞刪去,為數據的可視化作鋪墊。
2 數據可視化
目前,開源工具已經日益豐富,如Jieba庫、Snownlp庫,還有PkuSeg針對不同領域的數據提供個性化的預訓練模型。雖然Snownlp庫是依據19484行句子作為語料庫訓練句子,這些句子隸屬于不同領域,在某些句子上分詞會有缺陷,因此本文更傾向于使用Jieba庫,Jieba的分詞功能和執(zhí)行的準確率更高一些[4]。導入Jieba庫,運用WordCloud根據分詞后各個詞頻所占比例生成詞云。能夠發(fā)現,評論區(qū)對該產品的好評主要圍繞“效果”“適合”“補水”“不錯”等詞語展開,而差評主要圍繞“包裝”“假貨”“客服”“東西”等詞匯,結果如圖1所示。
3 化妝品平臺網購情感分析
3.1 SnowNLP庫技術簡介與流程
SnowNLP是屬于Python自帶的自然語言處理庫,可讀性好、簡單易懂容易實現,是中文文本處理庫[5]。不同于其他類庫,SnowNLP庫不需要NLTK,本身就可以實現所有的算法。并且它自帶語料庫和情感字典,不需要下載大量的情感詞庫和構建各種情感詞庫,有一定的準確率。通過SnowNLP庫對文本進行情感分析,能夠獲取該條評論的情感傾向和對應得分,但要根據具體的情況,確定是否重新訓練新的模型[6]。SnowNLP也可以對其他領域的文本進行情感分析,但可能在準確率方面沒有達到要求,需要自己構建語料庫,重新對模型進行訓練[7]。
3.2 SnowNLP庫實際應用
SnowNLP默認訓練的模型是基于電商領域的,在實現情感分析時,需要調用sentiment方法,本文主要參考sentiment文件夾下的_init_的核心代碼。在情感分析時,將情感程度劃分成三個區(qū)間,分別是[0,0.4)為消極傾向,[0.4,0.6)為中性傾向,[0.6,1]為積極傾向,都保留6位小數,以便能夠直觀地觀察每個評論語句的情感態(tài)度,表2選取了幾個極具代表性的語句,如表2所示。
3.3基于情感的主題分析
主題分析是對情感分析的進一步解讀,在各自的主題下,根據概率值列舉出對應的特征詞。本文利用Python第三方工具包Gensim庫,將非結構化的文本信息轉化成Gensim模型所能理解的稀疏向量[8]。分別對好評和差評進行主題分析,從而分析出消費者對該產品的看法。本文將好評和差評整理出各9條主題數量,每個主題顯示五個特征詞,如表3所示。
從表3中概括可以得出三類特征詞。第一類是能夠體現主題的主語,如“包裝”“產品”“皮膚”;第二類是能夠描述其主語的特征詞,如“不錯”“適合”“好用”;最后一類是沒有具體意義的詞匯,如“真的”“感覺”等。而體現主題的主語還可分成兩種:一種是圍繞產品本身的,如“味道”“效果”“膚質”“包裝”等;另一種是圍繞購物體驗的,如“客服”“物流”“降價”等。為了更好地展現消費者對該品牌爽膚水的觀點,將表3整理成表4如下所示。
從表4可以看出,消費者重視產品的效果、皮膚、活動、包裝、客服、價格等要素,該爽膚水的優(yōu)點是:味道好、效果好、對皮膚好、物流較快等,缺點是:包裝不夠好、客服回復慢、價格過高、產品真?zhèn)尾幻鞔_等。
4 情感分析可視化
4.1餅圖可視化
在情感分析誤差不大的基礎上,文章對爬取的評論語句及情感評分進行分類獲取了三種kind類別分別為正面、負面、中性。通過spider定義爬取的動作,導入畫圖工具import matplotlib,將爬取結果遍歷,繪制餅圖,并標注圖例和百分比數值等信息[3],如圖2所示。
圖2使用了三種圖案填充顯示:正面評論占近乎50%的比例,負面評論占近乎45%的比例,中性評論占近乎5%的比例。
4.2詞頻可視化
在3.3分析的基礎上,使用jieba分詞讀取字符串,并將分詞結果保存至list,結合停用詞統(tǒng)計詞頻,得到3238條好評詞條和1947條差評詞條,實質上與詞云同理,并將它們分別繪制成條形圖如圖3、圖4所示。
由圖3、圖4可知,好評中“效果”一詞的計數最多,其次是“產品”“適合”“金盞花”等。差評中“包裝”一詞的計數最多,其次是“京東”“假貨”“東西”等。
5 結論
通過分析計算結果,發(fā)現詞頻中消費者對產品本身的效果、補水、保濕、味道進行贊賞,而差評中對產品的包裝、貨源、客服、蓋子等存在質疑與不滿。結合主題分析的正負面結果和餅圖來看,近乎50%的消費者認為科顏氏爽膚水的突出優(yōu)勢是效果佳、對皮膚好、味道自然清香,而也存在近乎45%反面的聲音表示:包裝很普通、不夠好看也不夠結實、產品真?zhèn)尾幻鞔_、客服回復消息不及時,存在拖沓行為。
因此,商家可以在包裝方面進行調整,突出新的設計方案,設計更好的外殼吸引消費者,提供一個產品真?zhèn)未a驗證產品的真實可靠性,內部訓練員工,提高客服的工作效率做出實際改善,從而提高自身的優(yōu)勢,為消費者提供可靠的產品。
參考文獻:
[1] 周颯.網購追加評論對體驗型商品銷售影響研究[D].武漢:武漢理工大學,2017.
[2] 許鈞儒.基于情感分析的商品評價研究[D].蚌埠:安徽財經大學,2017.
[3] 鄒泓維,呼格吉勒,陳舒琦,等.基于Python工具的汽車電商平臺評論分析與可視化方法研究[J].物流科技,2020,43(2):59-63.
[4] 左韶澤.對網購評論數據的文本挖掘——以某款式冰箱的評論為例[D].秦皇島:燕山大學,2019.
[5] 周紅偉.商品評價信息的中文情感分析——以華為手機評價數據為例[D].杭州:浙江工商大學,2015.
[6] 章蓬偉,賈鈺峰,邵小青,等.基于文本情感分析的電商產品評論數據研究[J].微處理機,2020,41(6):58-62.
[7] 曾小芹,余宏.基于Python的商品評論文本情感分析[J].電腦知識與技術,2020,16(8):181-183.
[8] 高祥.基于擴展情感詞典的短文本情感分析技術研究[D].青島:青島理工大學,2020.
【通聯編輯:唐一東】