黃秋義 丁婷婷 楊 帆 浙江傳媒學(xué)院信息管理與信息系統(tǒng) 310018
?
基于商品評論信息的情感傾向性分析模型
黃秋義 丁婷婷 楊 帆 浙江傳媒學(xué)院信息管理與信息系統(tǒng) 310018
【文章摘要】
為了獲取評論信息中的客戶隱藏情感傾向信息,基于網(wǎng)絡(luò)爬蟲技術(shù)對商品評論信息進(jìn)行抓取,通過基于語義分解利用數(shù)學(xué)向量空間模型對信息進(jìn)行情感傾向性分析,構(gòu)建一款針對電商平臺中商品和服務(wù)評論信息的客戶意見挖掘以及情感傾向性分析的系統(tǒng)模型。
【關(guān)鍵詞】
網(wǎng)絡(luò)爬蟲;情感傾向性分析;商品評論;電子商務(wù)
在這個以互聯(lián)網(wǎng)為代表的新興媒體時代,電子商務(wù)在其中也迅速崛起,各大電商平臺如京東、天貓等。平臺上推出的商品類種琳瑯滿目,商品數(shù)量也在層層累積,作為顧客難以抉擇品質(zhì)優(yōu)良的商品,同時作為電商企業(yè)也無法準(zhǔn)確捕捉到顧客的興趣。然而在電商交易產(chǎn)生的評論信息中,往往隱含著顧客的情感傾向。合理有效地分析這些信息,有助于電商企業(yè)及時地改善產(chǎn)品,并指定恰當(dāng)?shù)臓I銷方式,優(yōu)化服務(wù)態(tài)度,從而收益用戶量。
鑒此,本文將針對京東、天貓等電子商務(wù)平臺中的商品評論信息以及其服務(wù)的態(tài)度和評價進(jìn)行情感傾向性分析,研究開發(fā)一款針對電商平臺中商品及服務(wù)評價信息的客戶意見挖掘并對其進(jìn)行情感傾向性分析的程序,系統(tǒng)主要功能模塊包括評論信息采集、情感詞典管理、情感傾向性分析等功能模塊。圍繞系統(tǒng)開發(fā),本文將對面向商品評論信息的采集技術(shù)、情感傾向性分析模型、面向手機(jī)等商品評價情感詞典構(gòu)建等相關(guān)技術(shù)進(jìn)行研究。
1.1京東、天貓等電商平臺中商品及服務(wù)評論信息的采集技術(shù)
通過網(wǎng)頁的結(jié)構(gòu)特性分析,對現(xiàn)有的網(wǎng)絡(luò)爬蟲程序進(jìn)行合理性的調(diào)整,并加以運(yùn)用,從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件,從而獲得評論頁面的內(nèi)容。
1.2情感詞典構(gòu)建與評價短語分析
基于前期已研究過的情感詞典構(gòu)建技術(shù),構(gòu)建一個包含基礎(chǔ)情感詞的情感詞典,并對其進(jìn)行專有情感詞典、情感符號模塊的擴(kuò)展,從而構(gòu)建一個針對手機(jī)等商品及服務(wù)評價信息的情感詞典。
由于評價短語由情感詞和副詞主導(dǎo)其情感,語句由句子主要的短語以及句子整體主導(dǎo)其情感,通過情感詞的匹配,對評論短語和評論句子進(jìn)行傾向性分析,并得出文本的情感傾向性分析結(jié)果。
1.3基于情感分析的評論挖掘
系統(tǒng)將采集的眾多評論信息文本劃分為句子的集合作為傾向性分析的對象,并保存在數(shù)據(jù)庫中,將句子集合中的每個句子按照句式分類并進(jìn)行切詞,抽取句子中的評價對象,依次對評價對象、短語、句子進(jìn)行情感分析計算并得出結(jié)果。
1.4情感分析過程
1.4.1文本特征的分類
在中文文本中,一個詞語往往是包含多重意思的“集合”,多義詞在語言學(xué)中是重要的特征。辨別多義詞詞義并對其進(jìn)行消除歧義,是眾多情感分析和觀點(diǎn)挖掘的基本研究對象。在眾多詞匯中,依照詞性可分為名詞、動詞、形容詞、副詞、代詞六大基本詞類,以及具有漢語特色的成語和方言文化形成的慣用詞。較之中文的語法特征,以“主謂賓”的句式為眾,以名詞、動詞、形容詞、副詞的組合為首,其中“名詞+副詞+形容詞”、“副詞+形容詞”、“名詞+形容詞”在實(shí)際應(yīng)用中較為廣泛,例如“手機(jī)很好用”、“十分優(yōu)秀”、“性能好”等。
圖1 商品評論挖掘與情感傾向性分析模型
1.4.2文本預(yù)處理
首先對評論文本進(jìn)行基本的情感分析過程:
(1)對評論文本進(jìn)行分句,把長文本分割成短文本形式的觀點(diǎn)句;
(2)對觀點(diǎn)句進(jìn)行切詞,并作詞性標(biāo)注;
(3)抽取文本中的評價對象和評價短語;
1.4.3向量空間模型
利用數(shù)學(xué)里的向量空間作為基本模型框架,將文本中的每一個特征項(xiàng)與向量空間中的維度一一對應(yīng),其特征項(xiàng)的權(quán)重即就是向量空間中坐標(biāo)值,記為wij,如此就能用坐標(biāo)點(diǎn)的方式把文本的各項(xiàng)權(quán)重以“圖形化”,從而實(shí)現(xiàn)文本的數(shù)據(jù)化模型。
1.4.4量化分布結(jié)果
商品特征值以及評論傾向性的基礎(chǔ)是商品評論集的獲取,通過爬蟲技術(shù)將一個頁面的商品評論信息集合為數(shù)集Ti,其中一共有N條評論信息,通過仿向量空間模型,Ti=(w1,i,w2,i,…,Wn,i),i=1,…,N,其中wij表示特征詞的權(quán)重,由此可推出商品評論信息集的中心向量坐標(biāo)為d(c)=(d1,i,d2,i,…,dn,i),c=1,…,K,其中djr=,r=1,…,s,表某前特征中所有評論信息中出現(xiàn)詞wj的平均權(quán)重,s表示某特征中信息評論集的數(shù)目。
通過向量空間模型對觀點(diǎn)句進(jìn)行不同情感傾向量化分布的具體步驟為:
(1)依次獲取各個評論信息集的中心向量坐標(biāo);
(2)將特征詞兩兩構(gòu)成二維平面獲得若干個權(quán)重值點(diǎn)分布圖;
(3)選取實(shí)驗(yàn)?zāi)繕?biāo)所需要的特征詞二維權(quán)重分布圖;
(4)通過離散性隨機(jī)變量算法得出對某特征和某特征的情感分布。若值越大,則表示該特征的評論信息的情感傾向?yàn)榭隙ā?/p>
商品評論挖掘與情感傾向性分析模型見圖,模型共分為五個部分:文本輸入、信息基本處理、詞表構(gòu)建、情感傾向性分析和結(jié)果可視化。
系統(tǒng)主要模塊包括:
(1)文本輸入模塊:自動將所需要進(jìn)行情感傾向性分析的文本導(dǎo)入程序。使用中文自動分詞與詞性標(biāo)注工具對文本進(jìn)行分詞和詞性標(biāo)注。
(2)信息基本處理模塊:對獲取的句子文本進(jìn)行分句、切詞、抽取評價短語,抽取評價對象等操作。
(3)情感詞典管理模塊:對情感詞典的詞條進(jìn)行管理,包括添加、刪除、修改等
(4)情感傾向性分析模塊:通過在情感詞典中查找該詞語,如果匹配則確定極性,如果不匹配則默認(rèn)其極性為中性。計算詞語極性強(qiáng)度,根據(jù)已經(jīng)確定的極性和修飾程度進(jìn)行計算。最終得出每個單句的傾向性并求和作為該文本的傾向性。
(5)分析結(jié)果輸出模塊:輸出該文本的傾向性分析結(jié)果。
將開源的句法分析代碼導(dǎo)入Java運(yùn)行環(huán)境中,進(jìn)行評論的句法分析。將分析結(jié)果按上述的步驟進(jìn)行極性值計算,主題詞分為三類進(jìn)行極性值累加,將結(jié)果用可視化的形式表示出來。
3.1基于爬蟲的信息獲取
所選數(shù)據(jù)來自京東商城,利用爬蟲采集技術(shù),對京東平臺中電子產(chǎn)品的URL的網(wǎng)頁進(jìn)行信息獲取,篩選并識別出“華為榮耀7 PLKAL10/全網(wǎng)通”手機(jī)評論信息網(wǎng)頁的URL,處理HTML的文本信息,最終抽取獲得網(wǎng)頁中顧客的評價內(nèi)容,在所有評論中隨機(jī)抓取1500條評論作為試驗(yàn)基礎(chǔ)數(shù)據(jù)。
3.2情感分析過程
(1)商品特征詞提取?;陉P(guān)聯(lián)規(guī)則算法從這1500條評論信息中提取商品特征,人工剔除無用詞,最終得到的商品特征為外觀、鍵盤、觸摸屏、電池、價格、功能、靈敏度、相機(jī)、分辨率、系統(tǒng)、內(nèi)存。
(2)觀點(diǎn)句子提取與情感得分計算。本次實(shí)驗(yàn)基于“手機(jī)系統(tǒng)”這一特征進(jìn)行評論文本篩選,共提取到與系統(tǒng)特征有關(guān)的200 個觀點(diǎn)句子,并計算出其情感得分。
(3)不同情感傾向的量化分布?;谶@200 個觀點(diǎn)句子的情感得分,構(gòu)建得分值得向量空間模型,選取特征詞為功能和靈敏度的二維分布圖,利用離散性隨機(jī)變量算法確定關(guān)于功能和靈敏度的情感得分,最終得到這 200個觀點(diǎn)句子的情感量化分布結(jié)果
同時,對本文給出的計算情感傾向量化分布的方法進(jìn)行了驗(yàn)證
從實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),中立傾向情感分布的計算準(zhǔn)確率偏低,主要原因是肯定傾向和中立傾向往往相輔相成,其觀點(diǎn)句也具有很大的相似性,即使是人工判斷都不可避免有所偏差。由此可見數(shù)據(jù)的區(qū)分程度對實(shí)驗(yàn)結(jié)果也有一定的影響。
事后對200條觀點(diǎn)句進(jìn)行了人工判斷實(shí)驗(yàn)驗(yàn)證,從實(shí)驗(yàn)結(jié)果分析得知顧客對于京東平臺的服務(wù)認(rèn)可度較高,但對于手機(jī)性能和外觀有較多意見。該結(jié)果與實(shí)驗(yàn)選取的數(shù)據(jù)文本有密切的關(guān)系,本次實(shí)驗(yàn)爬取的是京東平臺中顧客在購買了手機(jī)后的評論信息文本,評論中大多是提及手機(jī)產(chǎn)品的不足之處,而對手機(jī)產(chǎn)品有認(rèn)可態(tài)度的顧客僅選用五星來評價,省略了具體描述。而對服務(wù)的評論大多針對的是該購物網(wǎng)站本身的服務(wù),比如物流,而較少涉及手機(jī)產(chǎn)品的售后服務(wù)。從結(jié)果來看,顧客對于京東平臺的物流速度廣泛比較認(rèn)可,但對于退換貨這一服務(wù),大多數(shù)認(rèn)為“處理得不及時、不主動“。
隨著網(wǎng)絡(luò)社會化趨勢日益明顯,由用戶發(fā)布的對所購產(chǎn)品的評論信息成為企業(yè)競爭情報分析的重要數(shù)據(jù)來源。該類信息有篇幅短小、信息密度大及表達(dá)情感明顯等特點(diǎn),傳統(tǒng)數(shù)據(jù)挖掘方法作用有限,對其進(jìn)行情感分析能取得較好的分析效果??紤]到一般情感分析方法的不足,本文采用共詞聚類和基于句法分析的情感詞極性傳遞法進(jìn)行分析。首先,對收集的評論數(shù)據(jù)分詞處理,構(gòu)建語義共詞矩陣。其次,應(yīng)用分析軟件對其進(jìn)行共詞聚類,定量分析用戶關(guān)注的產(chǎn)品維度。再根據(jù)聚類結(jié)果人工構(gòu)建分類詞表、情感詞表和情感強(qiáng)度詞表。最后,將評論進(jìn)行句法分析,按照句法結(jié)構(gòu)進(jìn)行主題詞極性值計算,最終得到產(chǎn)品各維度情感分析的結(jié)果。本文提出的方法在一定程度上實(shí)現(xiàn)了對評論信息的處理,但還存在不足。比如,分類詞表的構(gòu)建需人工參與,且僅從聚類分析中提取主題詞遠(yuǎn)遠(yuǎn)不夠;網(wǎng)絡(luò)上評論語句的用詞和結(jié)構(gòu)不規(guī)范,中文表達(dá)方式較含蓄,文中總結(jié)的句子結(jié)構(gòu)特征不完全,主題詞極性值計算規(guī)則有待完善。
【參考文獻(xiàn)】
[1]楊玉珍.基于Web評論信息的傾向性分析關(guān)鍵技術(shù)研究[D].山東,山東師范大學(xué)博士論文,2014.
[2]唐曉波.基于情感分析的評論挖掘模型研究[J].中文信息學(xué)報.2013.36(7):100-105.
[3]王祖輝,姜維,李一軍.在線評論情感分析中固定搭配特征提取方法研究[J].管理工程學(xué)報.2014.28(4)∶180-186.
[4]余文喆.電子商務(wù)中的商品推薦系統(tǒng)[J].華東師范大學(xué)學(xué)報(自然科學(xué)版).2013.(3)∶46-53.
[5]龐海杰.面向文本情感分析的商品評價信息檢測[J].計算機(jī)應(yīng)用.2012.32(7)∶2038-2040.
[6]周民.基于商品特征的商品評論信息挖掘方法[J].計算機(jī)與現(xiàn)代化.2014(6)∶98-105
黃秋義,女,本科,信息管理與信息系統(tǒng)專業(yè);
丁婷婷,女,本科,信息管理與信息系統(tǒng)專業(yè);
楊帆,女,實(shí)驗(yàn)師,碩士研究生,研究方向:數(shù)據(jù)挖掘。
基金項(xiàng)目:浙江傳媒學(xué)院創(chuàng)新基金立項(xiàng)項(xiàng)目。
【作者簡介】