張黎娜,董露露,李 梅,檀娟伢
(安徽開放大學(xué) 信息與建筑工程學(xué)院,安徽 合肥 230022)
2022年8月31日,中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布第五十次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》.截至2022年6月,中國的網(wǎng)民規(guī)模已經(jīng)達(dá)到了10.51億人,這個(gè)數(shù)字令人印象深刻.而且,互聯(lián)網(wǎng)普及率也達(dá)到了74.4%,意味著超過三分之二的中國人都在使用互聯(lián)網(wǎng).網(wǎng)民在使用互聯(lián)網(wǎng)的過程中產(chǎn)生大量帶有情感色彩的主觀評(píng)論,在線評(píng)論數(shù)據(jù)成了互聯(lián)網(wǎng)的重要組成部分,反映出網(wǎng)民所關(guān)注事件的觀點(diǎn)和情感態(tài)度.
對(duì)在線評(píng)論文本進(jìn)行情感分析可以應(yīng)用于購物網(wǎng)站、網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)、社交媒體的商業(yè)營銷和輿情分析等場景,同時(shí)也是用戶決策的重要信息來源,很大程度上影響著新用戶的選擇,在線評(píng)論的情感分析也成為學(xué)者們研究的熱點(diǎn)[1-7],這些文獻(xiàn)為本研究提供了很多幫助.
國內(nèi)對(duì)于在線評(píng)論文本的情感分析和主題研究一般是單一研究,但情感傾向和內(nèi)容主題是分析用戶在線評(píng)論的兩個(gè)重要維度.因此,本文以某品牌機(jī)械手表為研究對(duì)象,通過爬取消費(fèi)者在線評(píng)論文本,采用基于機(jī)器學(xué)習(xí)的情感傾向分析和LDA主題模型相結(jié)合的研究方式進(jìn)行在線評(píng)論數(shù)據(jù)的情感分析.
在線評(píng)論數(shù)據(jù)是網(wǎng)民在使用互聯(lián)網(wǎng)過程中產(chǎn)生大量帶有情感色彩的主觀數(shù)據(jù),是網(wǎng)絡(luò)平臺(tái)的重要組成.是發(fā)文者對(duì)某種事和物的看法、態(tài)度和情感反應(yīng).
情感分析是通過分析文本中的情感詞語,挖掘?qū)μ囟ㄊ潞臀锏那楦斜磉_(dá).通過挖掘文本數(shù)據(jù)中的情感信息,了解發(fā)文者對(duì)某種事物或事件的看法、態(tài)度和情感反應(yīng).這對(duì)理解公眾輿論、市場趨勢、產(chǎn)品反饋等方面都非常重要[8].通過對(duì)在線評(píng)論情感分析,可以從大規(guī)模的評(píng)論數(shù)據(jù)中提取有價(jià)值的信息,幫助企業(yè)和組織做出更準(zhǔn)確的決策和改進(jìn)策略.
常見的文本情感分析方法有情感詞典法和機(jī)器學(xué)習(xí)法.前者通過將文本中的情感詞與情感詞典進(jìn)行對(duì)比,統(tǒng)計(jì)情感詞的數(shù)目,并計(jì)算情感得分,判斷情感類別.但此方法對(duì)于新的、未知的情感詞或特定領(lǐng)域的情感詞,可能無法準(zhǔn)確識(shí)別和計(jì)算得分.為了提高準(zhǔn)確性,情感詞典根據(jù)情感分析的需要,人為地進(jìn)行更新和完善,這種方法實(shí)現(xiàn)困難且耗時(shí);后者是由人工提取文本特征,使用機(jī)器算法進(jìn)行文本數(shù)據(jù)處理與情感分析.這種分析方法可以動(dòng)態(tài)地更新詞庫,同時(shí)有效地減少工作量及情感分析過程中的一些感性判斷.所以,通過訓(xùn)練機(jī)器學(xué)習(xí)模型來自動(dòng)識(shí)別文本中的情感,從而提高情感分析的準(zhǔn)確性和適應(yīng)性.
1.3.1 支持向量機(jī)
支持向量機(jī)是一種強(qiáng)大的機(jī)器學(xué)習(xí)算法,尤其適用于二分類問題.該問題的目標(biāo)是尋找一個(gè)誤分類率最小,并且不同類別的樣本點(diǎn)是能夠被盡可能大的間隔分開的最優(yōu)超平面,基本原理結(jié)構(gòu)如圖1所示.它在實(shí)際應(yīng)用中具有很好的分類性能,被廣泛應(yīng)用于模式識(shí)別、文本分類等領(lǐng)域[9].
圖1 支持向量機(jī)基本原理
圖1中,wx+b=0為分類超平面.當(dāng)處理的數(shù)據(jù)是文本數(shù)據(jù)時(shí),需要把非線性數(shù)據(jù)從低維空間轉(zhuǎn)換到高維的線性數(shù)據(jù)再進(jìn)行求解.
1.3.2 樸素貝葉斯
樸素貝葉斯分類算法是基于貝葉斯理論和特征條件獨(dú)立假設(shè)的分類算法.樸素貝葉斯算法中的“樸素”表示假設(shè)每個(gè)特征之間都是相互獨(dú)立的,這樣可以簡化計(jì)算并減少模型參數(shù)的數(shù)量.雖然這個(gè)假設(shè)在現(xiàn)實(shí)中不成立,但在實(shí)際應(yīng)用中,樸素貝葉斯算法仍然能夠提供很好的分類性能.并且,樸素貝葉斯算法在文本數(shù)據(jù)情感判定方面效果較好,算法復(fù)雜度也較低[10],常應(yīng)用于數(shù)據(jù)量不大的文本情感分類.
定義在線評(píng)論文本為wk={w1,w2,…,wn},情感類別為C= {C正,C負(fù)}.文本的情感判定公式為:
(1)
(2)
(3)
其中,P(Cj)是Cj的先驗(yàn)概率,P(qi|Cj)是Cj的后驗(yàn)概率,NUM(Cj)為Cj的在線評(píng)論文本數(shù).
1.3.3 決策樹
決策樹是指通過對(duì)屬性的測試和判斷過程,以樹的形式直觀地表示文本情感分析的邏輯關(guān)系,使得分析過程清晰易懂,其結(jié)構(gòu)如圖2所示.自根節(jié)點(diǎn)逐個(gè)驗(yàn)證條件分支,直到某葉子節(jié)點(diǎn),得到文本的情感類別.
圖2 決策樹模型
整個(gè)研究由兩大部分內(nèi)容組成:①在線評(píng)論情感傾向分析.首先,爬取京東電商平臺(tái)某品牌機(jī)械手表在線評(píng)論數(shù)據(jù);然后,經(jīng)過文本預(yù)處理、分詞、向量化等操作;再通過訓(xùn)練好的情感分類器進(jìn)行文本情感傾向分析,得到正面、負(fù)面評(píng)論文本;②LDA主題模型分析.通過LDA模型對(duì)第一部分分析的結(jié)果進(jìn)行主題建模,挖掘出潛在主題,找出產(chǎn)品或服務(wù)上的優(yōu)勢與不足,提出干預(yù)措施.整個(gè)研究思路如圖3所示.
圖3 本文研究思路
2.2.1 在線評(píng)論文本數(shù)據(jù)的采集
網(wǎng)絡(luò)爬蟲技術(shù)[11]爬取的數(shù)據(jù)可根據(jù)研究需要從網(wǎng)絡(luò)上抓取大量源數(shù)據(jù),并進(jìn)行不相關(guān)的數(shù)據(jù)剔除.常用的數(shù)據(jù)爬取工具為八爪魚采集器,與其相比,Python軟件可以自動(dòng)采集、獲取海量規(guī)范的文本數(shù)據(jù),避免了人工收集、整理數(shù)據(jù)的繁瑣過程.然后對(duì)文本進(jìn)行深度挖掘,將有價(jià)值的數(shù)據(jù)提取出來,再進(jìn)行深入分析,得到更多有用的數(shù)據(jù).
使用Python軟件爬取來源于京東電商平臺(tái)某品牌機(jī)械手表2020年10月至2022年10月在線評(píng)論數(shù)據(jù)共23 852條,每一條評(píng)論包含評(píng)分人、評(píng)分、評(píng)論時(shí)間、評(píng)論內(nèi)容.其中,5分評(píng)論9 731條,4分評(píng)論11 783條,3分評(píng)論1 133條,2分評(píng)論620,1分585條.在線商品頁面評(píng)論中好評(píng)率在95%,差評(píng)率在5%.分析得出是將3分及以上歸為正面評(píng)論,2分及以下歸為負(fù)面評(píng)論,正面評(píng)論共有22 647條,負(fù)面評(píng)論共有1 205條.
2.2.2 評(píng)論文本預(yù)處理
評(píng)論文本預(yù)處理是進(jìn)行文本情感分析前的一系列操作,具體步驟為:①數(shù)據(jù)清洗,從爬取的數(shù)據(jù)中剔除無效評(píng)論,例如包含圖片、音視頻等評(píng)論,最終得到有效評(píng)論文本共計(jì)21 440條;②分詞,使用jieba分詞工具進(jìn)行分詞,將評(píng)論文本切分成一個(gè)個(gè)獨(dú)立的詞語,以便后續(xù)處理和分析;③剔除停用詞,選擇哈工大停用詞詞庫剔除停用詞.停用詞是指在評(píng)論中頻繁出現(xiàn)但對(duì)文本情感分析沒有實(shí)質(zhì)性幫助的常見詞語,如“的”“了”“是”等.剔除這些停用詞能夠減少噪音,提高情感分析的準(zhǔn)確性.
通過以上預(yù)處理步驟,評(píng)論文本將被清洗、分詞并去除停用詞,最終生成可以被計(jì)算機(jī)處理的自然語言數(shù)據(jù),以便進(jìn)行后續(xù)的情感分析.
2.2.3 文本向量化
文本向量化是計(jì)算機(jī)識(shí)別、處理文本數(shù)據(jù)的第一步.計(jì)算機(jī)能處理的是線性、結(jié)構(gòu)化數(shù)據(jù),而文本是一種非結(jié)構(gòu)化數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗、分詞后的文本需要數(shù)字編碼后才可以輸入模型進(jìn)行建模.這便需要將文本轉(zhuǎn)化為計(jì)算機(jī)能識(shí)別、處理的語言,詞向量化技術(shù)實(shí)現(xiàn)了文本數(shù)據(jù)向機(jī)器語言的轉(zhuǎn)變.
采用Word2vec中的連續(xù)詞袋模型(CBOW)作為詞向量化工具,將文本數(shù)據(jù)進(jìn)行詞向量化.通過詞向量來表達(dá)詞與詞之間的關(guān)系,尋找詞之間的關(guān)聯(lián),將文本中的詞直接映射到一個(gè)坐標(biāo)系中,得到詞語的數(shù)值向量,在向量空間上進(jìn)行一系列數(shù)值計(jì)算.
Word2vec中的連續(xù)詞袋模型分為3層,首先是輸入層,輸入當(dāng)前詞W前后的n個(gè)詞向量,作為模型的輸入;其次是隱藏層,將輸入層的詞向量進(jìn)行拼接或平均操作,得到一個(gè)綜合的上下文表示,可以使用全連接層或者其他非線性映射函數(shù)對(duì)上下文表示進(jìn)行處理;最后是輸出層,它由一個(gè)全連接層組成,輸出單元對(duì)應(yīng)詞庫中的詞.通過生成一個(gè)概率分布,預(yù)測當(dāng)前詞,詞袋模型的實(shí)現(xiàn)過程如圖4所示.
圖4 CBOW模型實(shí)現(xiàn)過程
2.2.4 分類模型
用3種機(jī)器學(xué)習(xí)算法訓(xùn)練模型.從網(wǎng)絡(luò)獲取一個(gè)酒店評(píng)論數(shù)據(jù)集,采用正面評(píng)論5 000條,負(fù)面評(píng)論2 000條.使用train_test_split函數(shù)將數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集與測試集,計(jì)算60次模型訓(xùn)練準(zhǔn)確率均值[12-13],結(jié)果如表1所列.
表1 準(zhǔn)確率均值
從表1可以看出,決策樹模型在兩個(gè)數(shù)據(jù)集上的準(zhǔn)確率差別較大,支持向量機(jī)模型與樸素貝葉斯模型在訓(xùn)練集、測試集的準(zhǔn)確率都不錯(cuò),但樸素貝葉斯的兩組數(shù)據(jù)更接近.
因此,在線評(píng)論的情感分析最終采用樸素貝葉斯模型.在線評(píng)論文本經(jīng)過數(shù)據(jù)預(yù)處理、分詞、文本向量化進(jìn)入分類器進(jìn)行情感傾向分析,得到正面情感評(píng)論文本19 667條,占總文本的91.73%;負(fù)面情感評(píng)論文本1 773條,占總文本的8.27%,與京東網(wǎng)站在線評(píng)論好評(píng)占比有3%左右的誤差.
2.2.5 評(píng)論文本可視化
根據(jù)情感分析結(jié)果,分別把正、負(fù)面評(píng)論文本生成詞云圖,也可以驗(yàn)證分類模型對(duì)在線評(píng)論情感傾向分析的結(jié)果是否準(zhǔn)確.正面、負(fù)面的評(píng)論文本詞云圖如圖5和圖6所示.
圖5 正面評(píng)論詞云圖
從圖5和圖6可以看出,正面評(píng)論詞云圖中,“精準(zhǔn)”“大氣”“高端”等高頻詞語都是正面的,未發(fā)現(xiàn)負(fù)面色彩的詞語,說明訓(xùn)練出的分類模型很好地區(qū)分出正面情感傾向評(píng)論.負(fù)面評(píng)論詞云圖中,“劃痕”“粗糙”“掉色”“霧氣”等負(fù)面詞語的出現(xiàn)頻率較高,圖中未出現(xiàn)帶有正面情感的詞語,也說明訓(xùn)練出的分類模型可以很好地區(qū)分出負(fù)面情感評(píng)論.
采用樸素貝葉斯模型進(jìn)行在線評(píng)論的情感傾
向分析,是為了分析和掌握消費(fèi)者對(duì)在線商品哪些方面不滿或比較認(rèn)同.通過LDA模型對(duì)消費(fèi)者在線評(píng)論主題進(jìn)行探索,挖掘出消費(fèi)者正面、負(fù)面評(píng)論中的潛在主題,獲得某個(gè)主題包含的詞語概率分布,確定該主題包含的其他詞匯,分析出消費(fèi)者對(duì)在線商品特征的關(guān)注以及情感態(tài)度[14].
2.3.1 主題數(shù)目選擇
通過余弦相似度對(duì)在線評(píng)論的正、負(fù)面文本進(jìn)行LDA主題建模,確定正面評(píng)論文本、負(fù)面評(píng)論文本的最優(yōu)主題數(shù)并進(jìn)行主題分析.使用循環(huán)函數(shù)進(jìn)行數(shù)次迭代后找到評(píng)論文本的最佳主題個(gè)數(shù),無需調(diào)參,簡單方便.初始模型中,將評(píng)論文本的主題數(shù)初始值設(shè)置為k,計(jì)算評(píng)論文本主題間的平均余弦距離;然后,對(duì)主題數(shù)k值的大小進(jìn)行調(diào)整(增加或是減少),每次調(diào)整后進(jìn)行模型訓(xùn)練,得出評(píng)論文本主題間的余弦相似度;重復(fù)操作直至尋找到最優(yōu)主題數(shù)k.如果評(píng)論文本主題間的余弦相似度越高,則詞語越相似,具體計(jì)算公式為:
(4)
其中,W、T是兩個(gè)n維的評(píng)論文本向量,cosθ是W向量和T向量之間夾角θ的余弦值.
正面、負(fù)面評(píng)論的主題尋優(yōu)數(shù)據(jù)如圖7和圖8所示.可以看出,正面評(píng)論文本中,主題數(shù)值取3時(shí),平均余弦相似度最低,因此,正面評(píng)論進(jìn)行LDA主題建模時(shí),選擇主題數(shù)3;負(fù)面評(píng)論主題數(shù)在3或4時(shí)平均余弦相似度最低,所以,負(fù)面評(píng)論主題數(shù)也選擇3進(jìn)行LDA建模.
圖7 正面評(píng)論LDA主題建模
圖8 負(fù)面評(píng)論LDA主題建模
2.3.2 主題建模與分析
使用Python中的Gensim庫對(duì)正面、負(fù)面評(píng)論進(jìn)行LDA主題建模,k值設(shè)置為3,各主題下生成6個(gè)最有可能出現(xiàn)的詞語和概率分布,結(jié)果如表2和表3所列.根據(jù)建模結(jié)果,再進(jìn)行數(shù)據(jù)分析.
表2 正面評(píng)論主題
表3 負(fù)面評(píng)論主題
如表2所列,正面評(píng)論文本主題1中“大氣”“好看”“高端”“外觀”“檔次”等體現(xiàn)了消費(fèi)者對(duì)手表外觀設(shè)計(jì)的認(rèn)同;主題2中“準(zhǔn)時(shí)”“值得”“喜歡”“推薦”“時(shí)間”等體現(xiàn)了消費(fèi)者對(duì)手表走時(shí)準(zhǔn),防水強(qiáng)的機(jī)械性能的贊許;主題3中“手表”“材質(zhì)”“表盤”“做工”等詞體現(xiàn)消費(fèi)者選擇此款手表的原因主要在于其的材質(zhì)優(yōu)良、耐用,做工一流.
如表3所列,負(fù)面評(píng)論主題1中關(guān)鍵詞“劃痕”“粗糙”“霧氣”“一般”等詞語表明消費(fèi)者對(duì)于手表的做工、質(zhì)量的不滿;主題2中“假貨”“貴”“正品”“價(jià)格”等詞體現(xiàn)在線商品價(jià)格昂貴,降價(jià)快,引起了消費(fèi)者的不滿,質(zhì)疑是假貨不是正品的負(fù)面情感體現(xiàn);主題3中 “客服”“平臺(tái)”“商家”“售后”“垃圾”表明消費(fèi)者對(duì)在線商品產(chǎn)生質(zhì)疑、心存不滿時(shí),商家及平臺(tái)售后沒能及時(shí)提供售后服務(wù),遇到問題沒得到解決,導(dǎo)致情緒升級(jí),出現(xiàn)含有“垃圾”字樣的文本,這也符合日常購物場景中的情緒體現(xiàn).
針對(duì)負(fù)面評(píng)論,品牌商和電商平臺(tái)方可以采取一些有效措施來緩解消費(fèi)者的負(fù)向情緒,維護(hù)消費(fèi)者利益,提升品牌形象,優(yōu)化電商平臺(tái).主要方法有:①嚴(yán)格把控產(chǎn)品質(zhì)量.商品發(fā)貨前,品牌商和電商平臺(tái)應(yīng)該嚴(yán)格核查產(chǎn)品型號(hào)、質(zhì)量,避免有瑕疵、不合格的商品流入到消費(fèi)者手中,保障消費(fèi)者的利益;②保障商品價(jià)格正常浮動(dòng).商品的價(jià)格不穩(wěn)定、低價(jià)競爭會(huì)影響品牌利益,也會(huì)導(dǎo)致假貨泛濫,損壞品牌形象.電商平臺(tái)需要及時(shí)干預(yù)、約束品牌商,將價(jià)格控制在規(guī)定的范圍內(nèi);③提升售后服務(wù)質(zhì)量.消費(fèi)者進(jìn)行商品購買或是售后咨詢時(shí),應(yīng)及時(shí)給予回應(yīng),解決問題.品牌商和電商平臺(tái)對(duì)服務(wù)團(tuán)隊(duì)?wèi)?yīng)進(jìn)行專業(yè)、系統(tǒng)的產(chǎn)品知識(shí)培訓(xùn),以便更好地服務(wù)于消費(fèi)者,提升購物體驗(yàn).
本文以某品牌機(jī)械手表為研究對(duì)象,通過爬取互聯(lián)網(wǎng)某電商平臺(tái)消費(fèi)者在線評(píng)論文本,采用基于機(jī)器學(xué)習(xí)方法的情感傾向分析和LDA主題模型相結(jié)合的研究方式進(jìn)行在線評(píng)論數(shù)據(jù)的情感分析.在利用機(jī)器學(xué)習(xí)方法進(jìn)行情感傾向分析的基礎(chǔ)上,對(duì)正面、負(fù)面評(píng)論文本完成LDA主題建模,再進(jìn)一步分析研究,通過分析研究結(jié)果得出以在線購物為渠道的某品牌手表在產(chǎn)品或服務(wù)上的優(yōu)勢和不足,并提出干預(yù)措施,以促進(jìn)某品牌和電商平臺(tái)的健康發(fā)展,提升消費(fèi)者的購物體驗(yàn).