許祥軍,魏紅芹
(東華大學(xué)旭日工商管理學(xué)院,上海 200051)
近年來,互聯(lián)網(wǎng)的興起與快速發(fā)展拓寬了傳統(tǒng)的的商品銷售渠道,越來越多的消費(fèi)者選擇通過網(wǎng)絡(luò)來購買日常用品,甚至一些貴重物品。大量購物行為的產(chǎn)生在網(wǎng)上留下了成千上萬的評論數(shù)據(jù),并且這些評論信息在影響消費(fèi)者購買決定中占有很重要作用[1]。主要原因是評論數(shù)據(jù)中,蘊(yùn)含有大量的用戶對產(chǎn)品的體驗(yàn)和需求信息,這些信息對于生產(chǎn)商來說具有很大的利用價(jià)值。但由于評論信息數(shù)據(jù)量大,并且雜亂無章,生產(chǎn)商很難獲得消費(fèi)者對于該產(chǎn)品較為系統(tǒng)的評價(jià)以及用戶需求。如何行之有效的從評論中挖掘信息,成為近年來的研究熱點(diǎn)。
產(chǎn)品評論挖掘的應(yīng)用能夠快速有效地從大量網(wǎng)絡(luò)評論中,獲取有效的信息。產(chǎn)品評論挖掘主要涉及產(chǎn)品特征的提取,情感傾向判斷,評論挖掘結(jié)果匯總以及按用戶觀點(diǎn)排序等[2]。
產(chǎn)品特征提取與情感傾向判斷,既是評論挖掘的重點(diǎn)又是其難點(diǎn)。由于,本文研究目的是從評論中挖掘出產(chǎn)品開發(fā)所需信息,包括兩個(gè)方面:一是產(chǎn)品本身信息,主要是產(chǎn)品現(xiàn)有各特征的優(yōu)點(diǎn)和缺點(diǎn)等;二是顧客相關(guān)信息,主要是顧客需求和顧客喜好等。因此,準(zhǔn)確而全面的產(chǎn)品特征提取以及情感傾向判斷是產(chǎn)品開發(fā)成敗的決定性因素。
Hu和Liu[3]首先采用關(guān)聯(lián)規(guī)則算法抽取英文評論產(chǎn)品特征,并對手機(jī)、數(shù)碼相機(jī)等產(chǎn)品評論進(jìn)行特征提取,查準(zhǔn)率與查全率分別達(dá)到72%,80%;隨后,對情感詞進(jìn)行抽取與分析,判斷用戶的情感傾向[4]。
李實(shí)等[5]針對中文的特點(diǎn),提出了面向中文的客戶評論挖掘方法,該方法是基于改進(jìn)的關(guān)聯(lián)規(guī)則算法,通過對5種產(chǎn)品的評論語料為例,實(shí)現(xiàn)了針對中文產(chǎn)品評論的產(chǎn)品特征信息挖掘。
林欽和等[6]基于關(guān)聯(lián)規(guī)則算法與依存關(guān)系提取產(chǎn)品特征,采用HowNet情感詞語庫和依存關(guān)系來挖掘極性詞與產(chǎn)品特征的關(guān)系,并結(jié)合詞匯相似度計(jì)算和同義詞詞林識(shí)別未收錄詞的情感極性,最后,考慮程度詞強(qiáng)度差距、以及程度詞和否定詞共現(xiàn)語序引起的語義差異,逐級(jí)計(jì)算情感傾向程度。
杜嘉忠等[7]提出一種基于領(lǐng)域?qū)S们楦性~的情感分析方法,通過計(jì)算機(jī)輔助與手工結(jié)合的方式獲取特征;通過使用改進(jìn)的TF-IDF算法來區(qū)分通用情感詞與專用情感詞,構(gòu)建帶有情感的本體,然后構(gòu)建特征-情感詞本體,利用本體對評論進(jìn)行情感分析。
前者研究[3,5-6]在產(chǎn)品特征提取時(shí),并未考慮低頻詞,隨著評論數(shù)據(jù)的增長,低頻詞數(shù)量也會(huì)增大;文獻(xiàn)[6]在情感分析時(shí),未考慮了情感詞描述不同產(chǎn)品特征表達(dá)不同傾向的問題;文獻(xiàn)[7]解決了此問題,但依賴人工方式工作量大且可移植性差。本文將主要通過對產(chǎn)品開發(fā)中的技術(shù)特征需求以及這些需求對應(yīng)的用戶需求進(jìn)行分析,對常規(guī)的評論挖掘算法進(jìn)行優(yōu)化,提出了一套可幫助產(chǎn)品研發(fā)人員從海量網(wǎng)絡(luò)評論中有效獲取有價(jià)值信息的方法。
由于本文主要面向產(chǎn)品開發(fā),故只考慮產(chǎn)品本身特征,不考慮網(wǎng)店服務(wù)質(zhì)量,快遞服務(wù)質(zhì)量等與產(chǎn)品開發(fā)無關(guān)信息;此外,在結(jié)果分析上,主要是進(jìn)行產(chǎn)品優(yōu)缺點(diǎn)分析,尤其是注重缺點(diǎn)分析,同時(shí)包括對用戶需求的分析。
基于評論挖掘的產(chǎn)品開發(fā)內(nèi)容包括:評論文本預(yù)處理、面向產(chǎn)品開發(fā)的特征提取、基于產(chǎn)品特征的情感傾向和強(qiáng)度分析。
首先對用戶評論進(jìn)行文本預(yù)處理,其主要作用是為了分詞與詞性標(biāo)注的準(zhǔn)確,便于下一步工作的順利進(jìn)行。
(1)評論處理
為了便于情感分析與數(shù)據(jù)的挖掘,首先將用戶評論按照句子為單位進(jìn)行分割,得到句子級(jí)的客戶評論。
(2)面向產(chǎn)品開發(fā)的用戶自定義字典處理
自定義字典的作用是為了提高分詞,從而促進(jìn)產(chǎn)品特征提取的準(zhǔn)確性,因而本文針對產(chǎn)品開發(fā)評論挖掘,從以下兩方面進(jìn)行用戶自定義詞典設(shè)計(jì):
(1)生產(chǎn)商的說明書中包含大量的規(guī)范化產(chǎn)品特征名詞;
(2)評論文本中單詞長度大于等于3的英文詞匯,例如“cpu”、“wifi”等。
將兩部分詞匯放入用戶自定義字典中,并將詞性標(biāo)注為“n”。
由于產(chǎn)品特征是開發(fā)時(shí)所針對的主要決策對象,故應(yīng)盡可能準(zhǔn)確而全面的覆蓋用戶評論,將其提取出來。因此,在文本預(yù)處理之后,需要提取產(chǎn)品特征。
產(chǎn)品特征主要是以大量的名詞形式存在的,首先,依據(jù)詞性標(biāo)注提取名詞,根據(jù)詞頻來過濾掉低頻詞,得到非低頻詞,再利用點(diǎn)互信息算法(Pointwise Mutual In?formation,PMI)進(jìn)行詞語關(guān)聯(lián)度分析,對非低頻詞中與手機(jī)和手機(jī)屬性信息關(guān)聯(lián)度低的名詞進(jìn)行刪除。PMI算法公式如下:
其中word1表示手機(jī)以及手機(jī)屬性信息,word2表示產(chǎn)品特征,P(word1word2)表示 word1與 word2共同出現(xiàn)的概率,P(word1)、P(word2)分別表示 word1,word2單獨(dú)出現(xiàn)的概率。
低頻詞,大部分是描述形式不規(guī)范的詞,部分詞是因?yàn)樵谖臋n中很少被使用。針對低頻詞,可以使用TF-IDF(Term Frequency-Inverse Document Frequency)算法,其中逆向文件頻率IDF是一個(gè)詞語普遍重要性的度量,包含詞條的文檔越少,IDF越大。因此,對于低頻詞有著較好的區(qū)分。但TF-IDF算法依然有著明顯的不足之處:處理低頻詞時(shí),該方法沒有考慮低頻詞在整個(gè)文本中分布情況,部分含有大量信息的低頻詞由于權(quán)重低于閾值而被刪除[8]。因此,本文對TF-IDF算法做出改進(jìn),使之能夠通過改進(jìn)將低頻詞中產(chǎn)品特征的權(quán)重提升。改進(jìn)有如下幾點(diǎn):
(1)在原基礎(chǔ)上考慮產(chǎn)品特征的在句中位置,分布在句首以及句尾的名詞權(quán)重增加;
(2)長度越長的名詞包含的信息越多,權(quán)重同樣需要增加;
(3)組合名詞(例:數(shù)字與英文、中文與數(shù)字等)大多數(shù)往往表示產(chǎn)品特征,對此也相應(yīng)的增加權(quán)重。
綜上,形成新的改進(jìn)TF-IDF算法公式為:
其中tfi表示名詞i在文檔中頻率,idfi表示名詞i逆向文件頻率,pi表示表示名詞i在評論句中的位置權(quán)重表示名詞i的長度,N表示名詞集合,以名詞長度除以最長名詞長度作為長度權(quán)重,g表示組合名詞權(quán)重,當(dāng)名詞不為組合名詞時(shí)g為1。
最后將經(jīng)詞頻以及PMI算法過濾提取出的產(chǎn)品特征與用改進(jìn)TF-IDF算法提取結(jié)果合并,得到最終產(chǎn)品特征集合。
網(wǎng)絡(luò)評論中的語句,其中短評論語句占多數(shù),如:“1600像素絕對夠勁”、“音質(zhì)非常清晰,聽的很清楚”等。但其中仍有數(shù)量可觀的長評論語句,如:“外觀挺漂亮,物流超快,手機(jī)功能也挺多,充電挺快,目前感覺還不錯(cuò)!”等。長評論語句中的特征屬性有2個(gè)及以上,單純的進(jìn)行產(chǎn)品特征的情感傾向與強(qiáng)度分析是不適合的,從評論語句可以看出,對含有產(chǎn)品特征的語句按“,”分割,可以將長評論分成若干有效的短評論,本文依據(jù)短評論首先基于判斷產(chǎn)品特征的情感傾向,然后進(jìn)行情感強(qiáng)度計(jì)算。
Turney[9]在PMI算法的基礎(chǔ)上提出情感傾向點(diǎn)互信息算法(Semantic Orientation Pointwise Mutual Infor?mation,SOPMI),通過計(jì)算評論文本中情感詞組的語義傾向來區(qū)分情感傾向。公示如下:
其中word為情感詞,pword為正向基準(zhǔn)詞,nword為負(fù)向基準(zhǔn)詞,Pset為正向基準(zhǔn)詞集合,Nset為負(fù)向基準(zhǔn)詞集合。
但SOPMI算法并不能區(qū)分情感詞描述對象,如:單獨(dú)的情感詞“高”與“價(jià)格”、“像素”一起出現(xiàn),情感傾向相反;此外,否定詞的數(shù)量也會(huì)進(jìn)一步影響情感傾向。因此,本文在SOPMI算法基礎(chǔ)上增加產(chǎn)品特征與否定詞,計(jì)算<產(chǎn)品特征,情感詞,否定詞數(shù)量>與基準(zhǔn)詞詞組PMI值,輸出結(jié)果<產(chǎn)品特征,情感傾向>。新的SOPMI算法公式如下:
其中f表示產(chǎn)品特征,N表示否定詞數(shù)量,(N%2)表示取余數(shù),其他符號(hào)同公式(3)。
獲?。籍a(chǎn)品特征,情感傾向>之后,進(jìn)行產(chǎn)品特征的情感強(qiáng)度計(jì)算。情感強(qiáng)度需要引入程度詞,并且程度詞與否定詞的位置關(guān)系會(huì)對情感強(qiáng)度產(chǎn)生影響,例如:“手機(jī)屏幕不是很清晰”,“手機(jī)屏幕很不清晰”,前者在強(qiáng)度上明顯小于后者。因此,在情感強(qiáng)度計(jì)算時(shí),構(gòu)建<產(chǎn)品特征,情感傾向,程度詞,程度詞位置>,輸出結(jié)果<產(chǎn)品特征,情感強(qiáng)度>。
基于產(chǎn)品特征的情感傾向與強(qiáng)度分析步驟為:
步驟1:提取情感詞,構(gòu)建<產(chǎn)品特征,情感詞>;
步驟2:天貓購物平臺(tái)獲取11萬條產(chǎn)品評論,經(jīng)過文本預(yù)處理后,提取形容詞,選取詞頻較高且觀點(diǎn)鮮明的正向基準(zhǔn)詞與負(fù)向基準(zhǔn)詞各5個(gè);
步驟3:從網(wǎng)絡(luò)與文獻(xiàn)中獲取否定詞,構(gòu)建否定詞詞典;
步驟4:依據(jù)用戶評論構(gòu)建<產(chǎn)品特征,情感詞,否定詞>;
步驟5:運(yùn)用改進(jìn)SOPMI算法進(jìn)行情感傾向判斷,輸出<產(chǎn)品特征,情感傾向>;
步驟6:利用知網(wǎng)中的程度詞,并按照程度不同分為5類,構(gòu)建程度詞詞典;
步驟7:依據(jù)用戶評論構(gòu)建<產(chǎn)品特征,情感傾向,程度詞,程度詞位置>;
步驟8:情感詞傾向?yàn)檎?,則情感值+1;反之,則情感值-1,初始值為0;
步驟9:程度詞在否定詞與產(chǎn)品特征中間,則情感強(qiáng)度值*0.5;其他位置,則情感強(qiáng)度值乘以相應(yīng)的程度詞權(quán)重;
步驟10:若短評論末尾標(biāo)點(diǎn)符號(hào)為“!”,則情感值*1.5;
步驟11:輸出結(jié)果<產(chǎn)品特征,情感強(qiáng)度值>;
步驟12:將相同屬性的產(chǎn)品特征合并,得到其正向總值,負(fù)向總值以及零分結(jié)果數(shù)量。
運(yùn)用爬蟲技術(shù)從購物平臺(tái)上獲取用戶評論,實(shí)驗(yàn)數(shù)據(jù)來源包含兩部分:
(1)天貓商城關(guān)于小米5手機(jī)的評論,共1000條評論;
(2)天貓商城各品牌智能手機(jī)評論語句,共約11萬條評論。
在評論挖掘中,常用的性能評價(jià)指標(biāo)為查準(zhǔn)率P(Precision)、查全率 R(Recall)以及綜合值 F-score。
其中在產(chǎn)品特征提取與情感分析中,A表示識(shí)別正確(產(chǎn)品特征或情感句)的數(shù)量,B表示識(shí)別錯(cuò)誤(產(chǎn)品特征或情感句)的數(shù)量,C表示未識(shí)別(產(chǎn)品特征或情感句)的數(shù)量。
根據(jù)詞頻過濾(閾值>=3)以及詞語關(guān)聯(lián)度過濾,得到產(chǎn)品特征118個(gè);采用改進(jìn)TF-IDF方法抽取特征詞得到17個(gè),最后得到產(chǎn)品特征集135個(gè),查準(zhǔn)率、查全率以及F-值分別為:84%,82%,83%。表1為手機(jī)產(chǎn)品特征集合(選取用戶關(guān)注度前15的屬性)。
表1 手機(jī)產(chǎn)品特征集合
對于基于產(chǎn)品特征的情感傾向判斷結(jié)果。本文對前200條觀點(diǎn)短評論進(jìn)行人工分析,查準(zhǔn)率、查全率以及F-值分別為:80%,85%,82%。
將觀點(diǎn)句結(jié)果按照手機(jī)屬性進(jìn)行匯總,可得各屬性的情感得分情況。本文選取具有代表性6個(gè)產(chǎn)品屬性進(jìn)行分析,如圖1所示。
圖1 手機(jī)屬性情感得分
根據(jù)用戶評論,統(tǒng)計(jì)各手機(jī)屬性中產(chǎn)品特征被提及次數(shù),再除以不同屬性下產(chǎn)品特征名詞數(shù)量,獲得手機(jī)屬性平均提及次數(shù),將均值定義為用戶對該手機(jī)屬性的平均關(guān)注度,從中可以發(fā)現(xiàn)受用戶關(guān)注的手機(jī)屬性。圖1中6個(gè)產(chǎn)品特征,消費(fèi)者關(guān)注度依次降低。從圖中可以看出;質(zhì)量、系統(tǒng)和性能不僅關(guān)注度高,正面評價(jià)得分依舊很高,處理器、內(nèi)存和屏幕的負(fù)向評價(jià)得分超過或接近正向得分。同時(shí),系統(tǒng)的負(fù)向得分和零分?jǐn)?shù)量很高。為了進(jìn)一步了解處理器、內(nèi)存、屏幕和系統(tǒng)缺陷在何處,本文對其的評價(jià)詞進(jìn)行提取并按詞頻排序,發(fā)現(xiàn)消費(fèi)者對于處理器、內(nèi)存、屏幕、系統(tǒng)主要評價(jià)分別為:卡頓、占用、失靈、發(fā)熱。
從消費(fèi)者評論中不僅能夠發(fā)現(xiàn)產(chǎn)品的缺點(diǎn)和消費(fèi)者的關(guān)注點(diǎn),更能發(fā)現(xiàn)不同消費(fèi)者需求信息。例如:根據(jù)游戲類產(chǎn)品特征,提取用戶評論,可以發(fā)現(xiàn)用戶的需求主要是系統(tǒng)流暢、電池續(xù)航能力高等;針對照相機(jī)類,可以發(fā)現(xiàn)用戶需求主要是像素高、不發(fā)燙等。
因此,挖掘用戶評論時(shí),可以發(fā)現(xiàn)產(chǎn)品優(yōu)缺點(diǎn)以及用戶線需求等信息,生產(chǎn)商可以進(jìn)行針對性的產(chǎn)品開發(fā),從而設(shè)計(jì)出滿足客戶需求的產(chǎn)品,提高客戶滿意度,提升手機(jī)銷售量。
本文針對生產(chǎn)商研發(fā)產(chǎn)品的特殊需求進(jìn)行了網(wǎng)絡(luò)評論挖掘方法的研究,設(shè)計(jì)了完整的挖掘過程模型和各子任務(wù)的具體挖掘算法。首先采用考慮低頻詞的產(chǎn)品特征提取方法,取得了較理想的結(jié)果;然后根據(jù)情感詞描述不同產(chǎn)品特征表達(dá)不同傾向的問題,提出基于產(chǎn)品特征的情感傾向與情感強(qiáng)度分析的方法。最后,通過數(shù)據(jù)實(shí)驗(yàn)表明本文方法的有效性,且本文所述方法對于完全創(chuàng)新型產(chǎn)品以及改進(jìn)型產(chǎn)品的開發(fā)均有一定的參考意義。
[1]Utz S,Kerkhof P,van den Bos J.Consumers Rule:How Consumer Reviews Influence Perceived Trustworthiness of Online Stores[J].Electronic Commerce Research and Applications,2012,11(1):49-58.
[2]郗亞輝,張明,袁方,王煜.產(chǎn)品評論挖掘研究綜述[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2011,46(5):16-23+38.
[3]Hu M,Liu B.Mining and Summarizing Customer Reviews[C].Proceedings of the tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2004:168-177.
[4]Liu B,Hu M,Cheng J.Opinion Observer:Analyzing and Comparing Opinions on the Web[C].Proceedings of the 14th International Con?ference on World Wide Web.ACM,2005:342-351.
[5]李實(shí),葉強(qiáng),李一軍.中文網(wǎng)絡(luò)客戶評論的產(chǎn)品特征挖掘方法研究[J].管理科學(xué)學(xué)報(bào),2009.
[6]林欽和,劉鋼,陳榮華.基于情感計(jì)算的商品評論分析系統(tǒng)[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(12):39-44.
[7]杜嘉忠,徐健,劉穎.網(wǎng)絡(luò)商品評論的特征-情感詞本體構(gòu)建與情感分析方法研究[J].現(xiàn)代圖書情報(bào)技術(shù),2014,30(5):74-82.
[8]Lewis D D.Feature Selection and Feature Extraction for Text Categorization[C].Proceedings of the Workshop on Speech and Natural Language.Association for Computational Linguistics,1992:212-217.
[9]Turney P D.Thumbs up or Thumbs down?:Semantic Orientation Applied to Unsupervised Classification of Reviews[C].Proceedings of the 40th Annual Meeting on Association for Computational Linguistics.Association for Computational Linguistics,2002:417-424.