国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LDA模型的電商用戶評價分析

2023-03-14 04:19:24
科技創(chuàng)業(yè)月刊 2023年2期
關(guān)鍵詞:分詞詞匯文本

杜 利

(北京郵電大學(xué) 經(jīng)濟(jì)管理學(xué)院,北京 100876)

0 引言

隨著互聯(lián)網(wǎng)和電子商務(wù)的建設(shè)發(fā)展,人們?nèi)粘I畹南M購物服務(wù)方式發(fā)生了巨大的變化。中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的《第47次中國互聯(lián)網(wǎng)發(fā)展統(tǒng)計報告》[1]指出,截至2020年12月,中國移動互聯(lián)網(wǎng)用戶已經(jīng)超過9.89億人,網(wǎng)上虛擬購物用戶也達(dá)到7.82億人,比2020年3月增加7 215萬人。2020年,全國網(wǎng)絡(luò)零售額總量達(dá)到11.76萬億元,比2019年增長10.9%。隨著網(wǎng)絡(luò)購物規(guī)模和頻率的不斷增加,越來越多消費者也習(xí)慣在商品購買結(jié)束后發(fā)表評論,包括個人觀點、情感信息、使用體驗、價格、商品物流等內(nèi)容感知[2]。相比于傳統(tǒng)的市場需求調(diào)研,在線產(chǎn)品評論一般不受工作時間、地域、職業(yè)差異等影響,用戶對產(chǎn)品特性和產(chǎn)品服務(wù)的改進(jìn)要求,均能得到直觀展現(xiàn),能夠較為客觀、全面、及時地反映當(dāng)前市場需求變化。

圖1 網(wǎng)絡(luò)購物用戶規(guī)模及使用率

對消費者來說,這是一種反饋意見的方式,同時,也是一種信息獲取方式,通過了解商品質(zhì)量和售后服務(wù)來影響購買決策。對于商家來說,與用戶之間的互動不僅可以幫助用戶選擇,增加用戶粘性,還可以收集和分析在線用戶評論內(nèi)容,改進(jìn)自己的產(chǎn)品,加強(qiáng)內(nèi)部管理,提高競爭力[3]。

本文利用Python采集Apple京東自營旗艦店的iPhone12商品在線文本評論數(shù)據(jù),將文本挖掘處理碎片化、非結(jié)構(gòu)化的電商網(wǎng)站評論數(shù)據(jù),轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。參考知網(wǎng)發(fā)布的情感分析詞匯集,統(tǒng)計評論數(shù)據(jù)的正負(fù)情感指數(shù),進(jìn)行情感分析,通過詞云圖直觀查看正負(fù)評論的關(guān)鍵詞。最后,通過潛在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型,了解用戶的需求、意見、購買原因、產(chǎn)品的優(yōu)缺點等,提取評論的關(guān)鍵信息,提出提高用戶滿意度的建議。

1 數(shù)據(jù)獲取與處理

1.1 數(shù)據(jù)采集

以來自京東的Apple旗艦店數(shù)據(jù),選擇最近流行的手機(jī)產(chǎn)品,找到網(wǎng)頁源碼地址,使用python的Json對頁面內(nèi)容進(jìn)行分析,并在2022年6月26日前循環(huán)爬取該產(chǎn)品的所有用戶評論,共4 530條。根據(jù)用戶名、評論內(nèi)容、購買時間、點贊數(shù)、回復(fù)數(shù)、評分時間、手機(jī)型號,將獲得的商品數(shù)據(jù)寫入CSV格式文件中。

1.2 數(shù)據(jù)預(yù)處理

由于原始評論數(shù)據(jù)上的重復(fù)評論和自動評論都會影響數(shù)據(jù)分析和結(jié)果,導(dǎo)致數(shù)據(jù)分析與實際情況間的偏差,因此對數(shù)據(jù)的預(yù)處理至關(guān)重要。結(jié)合系統(tǒng)原始評論數(shù)據(jù),刪除所有自動評論和重復(fù)評論,共刪除1 077條評論,剩余評論3 453條。繼續(xù)對目標(biāo)文本內(nèi)容進(jìn)行預(yù)處理,對目標(biāo)文本進(jìn)行分段、分句、分詞、詞性標(biāo)記,并刪除文本中的停用詞。

1.2.1 數(shù)據(jù)清洗

數(shù)據(jù)清洗是通過軟件對數(shù)據(jù)重復(fù)信息進(jìn)行信息審查與判斷處理和數(shù)據(jù)校驗分析的綜合過程,目的在于刪除重復(fù)數(shù)據(jù)或錯誤信息,保證數(shù)據(jù)一致性。

表1 部分?jǐn)?shù)據(jù)清洗結(jié)果

1.2.2 文本分詞和詞性標(biāo)注

經(jīng)過對上述評論的文本內(nèi)容進(jìn)行處理后,需要對該評論的文本內(nèi)容進(jìn)行中文分詞,確定情感分析結(jié)果。中文做分詞遠(yuǎn)比英文做分詞更加復(fù)雜,英語句子結(jié)構(gòu)中單詞是可以用空格來進(jìn)行分隔處理的,而漢語沒有空格[4]。為了解決這個問題,需要處理好評論中需要使用到的各種文字標(biāo)記,然后去做中文分詞。分詞編碼和詞性標(biāo)注處理后產(chǎn)生的最終結(jié)果如表2所示。

表2 分詞及詞性標(biāo)注部分結(jié)果

1.2.3 去除停用詞

評論大多也是口語化的,會有很多如"啊""呃"或"在"之類的詞。這類叫停用詞,不能體現(xiàn)主題。停用詞可能沒用,但它出現(xiàn)的頻率可能很高。如果不能夠予以處理,會導(dǎo)致在一定程度上影響實驗結(jié)果[5]。

1.3 詞云圖

經(jīng)過上述的文本數(shù)據(jù)預(yù)處理后,再對處理生成的評論數(shù)據(jù)進(jìn)行詞云分析,如圖2所示??梢钥闯?消費者提到最多的四個詞是“好看”“速度”“喜歡”“拍照”??梢姶蟛糠窒M者主觀上仍然是十分認(rèn)同這次消費的,蘋果作為智能手機(jī)的龍頭廠商,實力雄厚,名副其實。商家可以通過詞云了解用戶的需求,也可以讓用戶對產(chǎn)品有一個整體了解,幫助用戶在購買前快速提煉評論內(nèi)容。

圖2 詞云圖

2 基于LDA模型的商品在線評論分析

2.1 評論數(shù)據(jù)情感傾向分析

情感分析是自然語言處理的相關(guān)分支領(lǐng)域,其主要任務(wù)是分析某個單詞、段落內(nèi)容或一篇文章中所包含的情感色彩。過去在有人要購買某商品時,往往就會事先向親朋好友詢問有關(guān)該件商品的使用感受,然后才選擇是否購買。每個評論往往都是包含著消費者對商品的基本情感取向,購買者們往往會根據(jù)這些評論進(jìn)行理性選擇。任何一種評論風(fēng)格都會影響購買者個人的購買意愿,因此進(jìn)行情感分析顯得尤為重要。

2.1.1 匹配情感詞

情感傾向也叫情感極性。在用戶對商品進(jìn)行留言評論過程中,可以直接了解該用戶對該款商品看法的態(tài)度是支持、反對還是中立,通常稱為積極情緒、消極情緒和中立情緒。由于本案例主要分析產(chǎn)品本身的一些優(yōu)缺點,所以只需要去確定每個用戶對于評論內(nèi)容的主觀情感傾向,不需要具體分析每條用戶評論內(nèi)容的情感程度。

分析評論的情感傾向,首先是情感詞匹配,主要是詞典匹配。本案例中使用的正面情感詞匯是來自我國于2007年10月22日在知網(wǎng)發(fā)布的《用于情感分析的詞匯(Beta版)》。將“中文正面評論”和“中文正面情感”這兩個詞匯組合起來,給每個組合詞設(shè)置初始權(quán)重為1,就是本案例的正面評論情感詞匯。將“中文負(fù)面評價”和“中文負(fù)面情緒”這兩個詞匯組合起來,給每個詞增加初始的權(quán)重-1,作為本案例的一個負(fù)面評論情緒詞匯。

一般基于詞匯的情感分析方法往往與情感詞匯中的詞有很強(qiáng)的相關(guān)性。如果情感詞匯中的詞語足夠全面,并且詞語符合案例場景中所表達(dá)的情感,那么情感分析效果會更好。對于這個案例場景,需要對知網(wǎng)提供的詞匯進(jìn)行優(yōu)化。比如“高贊”“超值”“差評”“五分”等詞匯,只有在網(wǎng)購評論中出現(xiàn)時,可以根據(jù)詞匯的情感傾向,添加到相應(yīng)的情感詞匯中。在積極情緒詞匯中加入“滿意”“贊美”“很快”“ok”“很值”“很有力量”“支持”等詞匯。在負(fù)面情緒詞匯中加入“差評”“貴”“高”等詞匯。

在正面和負(fù)面評論的情感詞匯中讀取,正面詞的初始權(quán)重為1,負(fù)面詞的初始權(quán)重為-1。使用Merge函數(shù),根據(jù)單詞將情感詞匯與分詞結(jié)果進(jìn)行匹配。

2.1.2 修正情感傾向

情感方向修正法主要是指根據(jù)情感詞中是否存在著同一否定詞,去判斷其情感值正確與否,由于漢語詞匯結(jié)構(gòu)中,存在著奇數(shù)否定詞,表示否定的意思,即當(dāng)這一否定詞連續(xù)出現(xiàn)奇數(shù)次,表示這是一個否定的意思;或當(dāng)否定詞出現(xiàn)偶數(shù)次時,表示為肯定的意思。

本文中使用到的否定助詞表中共有19個否定詞,分別記為:不、沒、無、非、莫、弗、毋、未、否、別、無、休、不是、不能、不可、沒有、不用、不要、從沒、不太。

讀入否定代詞表,對情感值的方向進(jìn)行修正。計算出每條評論信息的情感得分,將評論內(nèi)容分為正面評論和負(fù)面評論,并據(jù)此計算出情感分析的結(jié)果的統(tǒng)計準(zhǔn)確率。運行代碼,可得正面情感評論詞云如圖3所示,負(fù)面情感評論詞云如圖4所示。

圖3 正面情感詞云

圖4 負(fù)面情感詞云

為了找出產(chǎn)品評論文本之間蘊含的語義關(guān)系,分析其產(chǎn)品屬性特征的差異優(yōu)劣,有必要系統(tǒng)地對這些評論的文本語義進(jìn)行進(jìn)一步的綜合提煉,挖掘評論文本中包含的主題詞。

2.2 文本評論的LDA主題分析

2.2.1 LDA模型介紹

LDA模型是一種主題模型。它通過分析每篇文檔中使用的每個文本主題類型,抽取出代表它們概率特征類型的文本主題,可以進(jìn)行文本主題的聚類分析或文本主題分類[6]。它實際上是一種典型的詞袋模型,即每一篇文檔內(nèi)容均是由某一組詞所構(gòu)成的,詞組之間完全沒有任何時間先后順序的關(guān)系。建立LDA主題模型,首先需要建立詞典及語料庫,方可進(jìn)行主題分析。

2.2.2 尋找最優(yōu)主題數(shù)

基于相似度的自適應(yīng)最優(yōu)LDA模型選擇方法,確定主題數(shù)并進(jìn)行主題分析。實驗證明該方法可以做到不需要人工調(diào)試主題數(shù)目的情況下,用相對少的迭代,找到最優(yōu)的主題結(jié)構(gòu)[7]。

使用LDA主題模型,找出不同類型的主題數(shù)下相同的主題詞集;并且從每個主題模型上隨機(jī)取出了若干個主題詞(比如前100個),合并成一個集合;生成任何兩個主題間的詞頻向量;計算兩個向量數(shù)的余弦相似度,值越大表示越相似;計算主題數(shù)的平均余弦相似度,尋找最優(yōu)主題數(shù)。運行代碼可得主題間的平均余弦相似度圖,如圖5所示。

圖5 主題間平均余弦相似度

由圖5可知,對于正面評論數(shù)據(jù),當(dāng)主題數(shù)為1或2時,主題間的平均余弦相似度達(dá)到最低。因此,對正面評論數(shù)據(jù)做LDA;對于負(fù)面評論數(shù)據(jù),當(dāng)選擇的主題數(shù)為3時,主題間平均余弦相似度達(dá)到最低。因此,對負(fù)面評論數(shù)據(jù)做LDA,可以選擇主題數(shù)為3。

2.2.3 評價主題分析結(jié)果

根據(jù)主題數(shù)尋優(yōu)結(jié)果,使用基于Python框架的Gensim模塊對正、負(fù)面評論分析數(shù)據(jù)并分別構(gòu)建LDA主題模型,設(shè)置主題數(shù)為3經(jīng)過LDA主題分析后,每個主題下生成10個最有可能出現(xiàn)的詞語以及相應(yīng)的概率,可得LDA主題分析結(jié)果如表3、表4所示。

表3 手機(jī)正面評價潛在主題

表4 手機(jī)負(fù)面評價潛在主題

表3反映了手機(jī)正面評價文本中的潛在主題。主題1中的高頻特色詞主要關(guān)注速度、流暢性和操作性,主要體現(xiàn)手機(jī)的平穩(wěn)運行。主題2中的高頻特征詞,即重點主要是喜歡、滿意等,主要體現(xiàn)了手機(jī)的良好質(zhì)量和令人滿意的產(chǎn)品;主題3中的高頻功能,即屏幕、好看、顏色等,主要體現(xiàn)了手機(jī)的美觀外觀,其基本功能如拍照、發(fā)聲等都很好。

表4反映出手機(jī)負(fù)面評價文本中包含的潛在主題,主題1文本中包含的高頻特征詞的主要關(guān)注點在貴、價格等,意味著有部分消費者對手機(jī)價格過高而產(chǎn)生不反滿;主題2中高頻特征詞則主要與外觀、屏幕這幾方面,映產(chǎn)品質(zhì)量也確實存在部分問題;主題3中的高頻特征詞主要與客服、信號有關(guān),即主要反映的是手機(jī)售后產(chǎn)品質(zhì)量存在某些問題。

基于以上對主題和高頻特征詞的分析,這款手機(jī)的優(yōu)點是:外觀好,產(chǎn)品性能優(yōu)秀。相對而言,用戶對手機(jī)的抱怨主要體現(xiàn)在手機(jī)價格高,部分手機(jī)質(zhì)量管控不到位。

3 結(jié)語

本文向讀者展示了使用Python處理電商文本數(shù)據(jù)。通過使用Python爬取案例數(shù)據(jù),對文本數(shù)據(jù)進(jìn)行預(yù)處理、分詞、去停詞等操作,在知網(wǎng)情感詞表上進(jìn)行優(yōu)化,并基于詞表進(jìn)行情感詞匯分析。最后,利用LDA對案例好評率和案例差評率進(jìn)行主題分析。通過對手機(jī)用戶情感傾向的分析,探索產(chǎn)品的優(yōu)劣勢。

對此,提出以下對策建議:由于電子產(chǎn)品是在線上銷售,消費者在購買手機(jī)前無法檢查手機(jī)產(chǎn)品質(zhì)量,因此商家們需切實加強(qiáng)售后質(zhì)量控制、及時將手機(jī)消費者的需求反饋給制造商,使制造商可以及時調(diào)整以迅速適應(yīng)終端市場,并能夠在終端產(chǎn)品設(shè)計中應(yīng)用人機(jī)交互功能,實現(xiàn)終端銷售的增長目標(biāo);客戶服務(wù)態(tài)度是促進(jìn)銷售成果轉(zhuǎn)化率的關(guān)鍵,加強(qiáng)客服人員的專業(yè)培訓(xùn)輔導(dǎo)和日??己耸翘岣呖蛻魸M意度和促成銷售的重要方式;供應(yīng)商應(yīng)主動加強(qiáng)與其他物流企業(yè)的業(yè)務(wù)合作,實時監(jiān)控物流中產(chǎn)品庫存狀態(tài),確保貨物安全快速地送達(dá)客戶。

猜你喜歡
分詞詞匯文本
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
結(jié)巴分詞在詞云中的應(yīng)用
智富時代(2019年6期)2019-07-24 10:33:16
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
值得重視的分詞的特殊用法
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
高考分詞作狀語考點歸納與疑難解析
城步| 罗源县| 板桥市| 巴东县| 铅山县| 淮安市| 玛纳斯县| 合川市| 沅陵县| 搜索| 慈利县| 怀来县| 夏邑县| 兴仁县| 哈巴河县| 朝阳市| 内黄县| 浦北县| 南部县| 泸水县| 波密县| 岐山县| 井研县| 宜昌市| 来安县| 建宁县| 屏南县| 芜湖县| 兴化市| 岫岩| 蒲城县| 徐汇区| 张北县| 龙山县| 固阳县| 四会市| 托里县| 阳高县| 上高县| 北海市| 绵阳市|