任正甜 李興東
(蘭州交通大學(xué),甘肅 蘭州 730070)
在現(xiàn)代社會(huì)中,網(wǎng)絡(luò)購(gòu)物是非常重要的一種購(gòu)物方式,在購(gòu)物市場(chǎng)中占據(jù)了非常重要的分量。網(wǎng)絡(luò)購(gòu)物用戶也可以通過在線評(píng)論表達(dá)自己使用產(chǎn)品后的感受,而客戶的在線評(píng)價(jià)也成為了影響消費(fèi)者決策的重要因素,對(duì)賣家服務(wù)能力的提高也有重要的指導(dǎo)作用。單純依靠人工去收集和分類線上評(píng)論是不切實(shí)際的,故需利用機(jī)器學(xué)習(xí)的途徑對(duì)線上評(píng)論文本進(jìn)行分類處理,通過對(duì)分析對(duì)商戶和顧客提供有效的信息。
在國(guó)內(nèi)外,也已經(jīng)有很多相關(guān)方面的研究,學(xué)者TimurSokhin在針對(duì)主題模型的基礎(chǔ)上,提出一種半監(jiān)督情感分析方法[1];E.D'Andrea構(gòu)建了包括SVM在內(nèi)的三種模型,并且達(dá)到很好的實(shí)驗(yàn)結(jié)果[2];楊宇婷等在的特征表達(dá)法上進(jìn)行了創(chuàng)新,結(jié)合利用了SVM算法[3];陳子昕采用SVM分類器對(duì)新聞評(píng)論文本進(jìn)行分類,并且評(píng)價(jià)指標(biāo)準(zhǔn)確率也較高[4]。
利用機(jī)器學(xué)習(xí)進(jìn)行情感分類已經(jīng)有了很多的研究成果,但是利用adaboost等多種分類器進(jìn)行建模分析的研究較少。本文將獲取的評(píng)論文本進(jìn)行分詞、去除停用詞等預(yù)處理,特征提取利用TF-IDF算法,再采用NB、SVM、adaboost三種分類器,建立情感分類模型并加以應(yīng)用,最后通過特定評(píng)價(jià)指標(biāo)對(duì)三種方法的性能進(jìn)行比較,對(duì)商戶和顧客提供參考。
TF-IDF(Term Frequency-Inverse Document Frequency)翻譯為中文即為“詞頻-逆向文本頻率”。它由TF(詞頻)和IDF(逆向文本頻率)兩部分組成。TF(詞頻)表示在評(píng)論文本中某一給定詞 出現(xiàn)的頻率[5]。計(jì)算過程見公式:
IDF實(shí)際意義:IDF值小,說(shuō)明評(píng)論文本中有該給定詞w的數(shù)量多,反之則IDF的值大。在這里,我們?nèi)菀椎玫揭粋€(gè)極端的情況:如果在所有的評(píng)論文本中一個(gè)給定詞w均出現(xiàn)過,那么詞w的IDF值即為0,由下面的計(jì)算公式看也十分顯然。
TF-IDF算法判斷詞w區(qū)分能力的過程可概括為:若給定詞w只在文本c中常出現(xiàn),而在其他文本中不常出現(xiàn),則認(rèn)為該詞w的區(qū)分能力很好。TF-IDF算法優(yōu)點(diǎn)是計(jì)算快速,結(jié)果也比較符合實(shí)際情況。
以貝葉斯公式為架構(gòu)的基礎(chǔ)上,計(jì)算后驗(yàn)概率P(c|x)是及其困難的,因?yàn)橛伞耙颉钡健肮钡母怕嗜ネ扑阌伞肮钡健耙颉钡母怕适遣蝗菀椎?。為了解決此類困難,樸素貝葉斯分類器(Naive Bayes classifier)的基礎(chǔ)條件中多了一個(gè)假設(shè)條件:假設(shè)每個(gè)能對(duì)最后分類的結(jié)果產(chǎn)生影響的屬性都是相互獨(dú)立的。
支持向量機(jī)(英文全稱Support Vector Machine,簡(jiǎn)稱SVM):找出一個(gè)特定的劃分超平面:該平面在能將訓(xùn)練數(shù)據(jù)集正確劃分的基礎(chǔ)上、能夠使幾何間隔盡量最大化。使
Ada-boost(Adaptive Boosting)方法是改進(jìn)了的boosting算法。
在一開始,訓(xùn)練數(shù)據(jù)各自均具有相同的權(quán)重值,第一個(gè)基分類器是通過直接將學(xué)習(xí)算法用在初始數(shù)據(jù)分布上得到的。但在循環(huán)下一輪回時(shí),將利用不同樣本分布不同權(quán)重值得到:加大對(duì)錯(cuò)分樣本的“重視度”-加大權(quán)重這樣,難以分類正確的樣本就成了下一輪循環(huán)時(shí)候的“重點(diǎn)分類對(duì)象”,這樣在新一輪訓(xùn)練時(shí),可得到一個(gè)新的分類器。就這樣多次分配權(quán)重,多次重復(fù)循環(huán),將得到 個(gè)不同的弱分類器,將這 個(gè)弱分類器進(jìn)行“融合”,就可以得到一個(gè)強(qiáng)分類器。其中,在進(jìn)行弱分類器組合時(shí),使分類準(zhǔn)確度低的分類器權(quán)值小一些,相反,分類準(zhǔn)確度高的分類器權(quán)值大。
本文選取購(gòu)物平臺(tái)京東為評(píng)論數(shù)據(jù)來(lái)源,使用八爪魚軟件,采集顧客在小米旗艦店中購(gòu)買小米10S的所有評(píng)論情況,共獲得1428條評(píng)論,其中正面評(píng)價(jià)數(shù)據(jù)1000條,負(fù)面評(píng)價(jià)數(shù)據(jù)428條。并對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,正面評(píng)價(jià)標(biāo)簽為0,負(fù)面標(biāo)簽為1。
通過對(duì)三種分類器模型的訓(xùn)練和應(yīng)用,利用性能評(píng)價(jià)指標(biāo),對(duì)三個(gè)不同結(jié)果進(jìn)行對(duì)比,結(jié)果對(duì)比如圖1。
圖1 結(jié)果對(duì)比圖
通過三個(gè)評(píng)價(jià)指標(biāo):準(zhǔn)確度、召回率以及F1值可以看出,各個(gè)模型中SVM分類器效果極佳,在精度方面略遜色于樸素貝葉斯分類器,而ada-boost分類器在各項(xiàng)指標(biāo)中表現(xiàn)都不突出,在這三種分類器模型中,SVM有其本身非常強(qiáng)勢(shì)的優(yōu)勢(shì)。
為了對(duì)商戶針對(duì)產(chǎn)品提供一定的建議,本文對(duì)負(fù)面評(píng)論進(jìn)行了分析。通過ROST CM6軟件建立了社會(huì)和語(yǔ)義網(wǎng)絡(luò),得到結(jié)果圖2。
圖2 社會(huì)與語(yǔ)義網(wǎng)絡(luò)示意圖
在網(wǎng)絡(luò)中,詞匯連線越多,則說(shuō)明各個(gè)詞匯之間的聯(lián)系越密切。由結(jié)果可看出:反映手機(jī)發(fā)熱問題的評(píng)論較多,手機(jī)發(fā)熱從而導(dǎo)致的信號(hào)不良和使用手感等問題,使得顧客感到不滿;耗電快以及靈敏度的問題,使得客戶使用感受較差;外圍的性價(jià)比評(píng)論,表達(dá)了顧客對(duì)該款手機(jī)性價(jià)比的不滿,使顧客更傾向于高配置的手機(jī)。
通過負(fù)面評(píng)價(jià)分析,商戶可以考慮重點(diǎn)解決手機(jī)發(fā)熱的問題,提高客戶使用手機(jī)時(shí)的舒適度;對(duì)手機(jī)電池質(zhì)量的提升以及屏幕手寫的靈敏度也需要重視;同時(shí),商戶可以提高手機(jī)的性價(jià)比,給予更好的配置或者更實(shí)惠的價(jià)格來(lái)吸引顧客前來(lái)購(gòu)買。
結(jié)束語(yǔ)
本文利用機(jī)器學(xué)習(xí)理論,基于京東中手機(jī)產(chǎn)品的在線評(píng)論數(shù)據(jù),在常用的SVM分類器的基礎(chǔ)上,添加了樸素貝葉斯以及adaboost分類器模型,再根據(jù)不同模型進(jìn)行情感分類,對(duì)分類結(jié)果也進(jìn)行了對(duì)比以及評(píng)價(jià)。更加突出了SVM分類器的優(yōu)良性質(zhì)。同時(shí),對(duì)負(fù)面文本分析建立了社會(huì)和語(yǔ)義網(wǎng)絡(luò),分析顧客對(duì)產(chǎn)品提出的建議,對(duì)產(chǎn)品后續(xù)開發(fā)作出參考。
科學(xué)技術(shù)創(chuàng)新2021年26期