韓卓
【摘 要】隨著電子商務(wù)的迅速發(fā)展,網(wǎng)絡(luò)上涌現(xiàn)了許多購物網(wǎng)站和產(chǎn)品論壇,這些購物網(wǎng)站和產(chǎn)品論壇為消費(fèi)者提供了發(fā)表評論的平臺。越來越多的人在做出消費(fèi)決策前喜歡到互聯(lián)網(wǎng)上參考用戶和媒體對某產(chǎn)品的評論和報(bào)道信息。本文利用最大熵方法對網(wǎng)絡(luò)產(chǎn)品評論的情感傾向進(jìn)行識別,通過實(shí)驗(yàn)表明最大熵方法是一種非常有前途的文本分類方法。
【關(guān)鍵詞】用戶評論;文本分類;最大熵模型;情感傾向
【Abstract】With the rapidly expand of electronic commerce, it has emerged many shopping websites and the product forum in the net,these shopping websites and the product forums provide specially the platform for the consumers to publish their reviews.More and more people like to browse the user and the media published some product reviews and the report information before making a decision.Maximum entropy model is used to Sentiment Analysis.In experiments,maximum entropy model is a promising technique for sentiment analysis.
【Key words】Customer reviews;Test classification;Maximum Entropy Model;Sentiment;Analysis
0.引言
隨著電子商務(wù)的迅速發(fā)展,近年來,自有服裝品牌、網(wǎng)站銷售的購物模式得到了越來越多顧客的認(rèn)可,如凡客誠品、夢芭莎等,因?yàn)槭亲杂衅放?,所以這些購物網(wǎng)站的商品質(zhì)量相對統(tǒng)一。越來越多的人在做出消費(fèi)決策前喜歡到互聯(lián)網(wǎng)上參考用戶和媒體對某產(chǎn)品的評論和報(bào)道信息。通過互聯(lián)網(wǎng)上的產(chǎn)品評論,消費(fèi)者可以了解其他用戶對產(chǎn)品的態(tài)度傾向,從而做出更好的購買決策,對于銷售商和生產(chǎn)商,可以及時(shí)獲得用戶對其產(chǎn)品和服務(wù)的反饋,了解用戶對自己和對競爭對手的評價(jià),從而改進(jìn)產(chǎn)品,改善服務(wù),獲得競爭優(yōu)勢。因此,作為非結(jié)構(gòu)化信息挖掘的一個(gè)新興領(lǐng)域,產(chǎn)品評論的情感傾向研究引起了人們極大的興趣。[1]
1.最大熵模型
最大嫡模型是用來進(jìn)行概率估計(jì)的:假設(shè)是某個(gè)事件,b是事件a 發(fā)生的環(huán)境(或稱上下文),我們想知道a和b的聯(lián)合概率,記為p(a,b) 。更一般地,設(shè)所有可能發(fā)生的事件組成的集合為A,所有環(huán)境組成的集合為B,我們想知道,對于任意給定的a∈A b∈B,概率p(a,b)是多少?
我們把這個(gè)問題放到自然語言處理的領(lǐng)域來討論,對于文本分類問題,一個(gè)文檔分到某個(gè)類別可以看成一個(gè)事件,文檔中出現(xiàn)的詞可以看成這個(gè)事件發(fā)生的環(huán)境,我們想知道包含詞b的文檔屬于某一類 a的概率。很容易想到的方法是通過訓(xùn)練語料進(jìn)行統(tǒng)計(jì)。給定一個(gè)訓(xùn)練集,定義A=(a1,a2,···,am)是文檔所屬類別集,B=(b1,b2,···,bn)是文檔的特征詞集,num(ai,bj)為訓(xùn)練集中二元組(ai,bj)出現(xiàn)的次數(shù),那么我們可以使用如下公式進(jìn)行概率估計(jì):
(ai,bj)= (1)
這個(gè)方法有個(gè)很大的問題,即“稀疏事件”(sparse evidence)問題,即便是很大的訓(xùn)練文本,很多二元組仍然沒有出現(xiàn),武斷地認(rèn)為它的概率為0,顯然是不可取的。最大熵模型是這樣來解決稀疏事件問題的,它使未知事件的概率分布總是盡可能均勻,即傾向于得到最大嫡[2]。例如一個(gè)軍事、政治和科技的3類文本分類問題,我們得知,出現(xiàn)“飛機(jī)”這個(gè)詞的80%的文檔屬子軍事類別,對于“飛機(jī)”這個(gè)詞在其他兩類中的分布未知.根據(jù)最大嫡原則,如果給定一個(gè)包含“飛機(jī)”這個(gè)詞文檔,那么認(rèn)為文檔以0.8的概率屬于軍事類別,分別以0.1的概率屬子其他兩類;如果文檔中不包含“飛機(jī)”這個(gè)詞,那么認(rèn)為文檔分別以相同的1/3的概率屬于每一個(gè)類.即在符合已知約束的情況下,使未知事件的分布盡可能均勻。
具體來說,根據(jù)Shannon[2]的定義,嫡的計(jì)算公式如下:
H(P)=-p(x)log2p(x) (2)
那么,求解滿足最大嫡原則的概率分布的公式如下:
p*=arg maxH(P) (3)
如果沒有其他任何先驗(yàn)知識,根據(jù)滴的性質(zhì),式(3)得到最大值的條件是:
p(a|b)= (4)
因?yàn)閜(a|b)=1
但是,盡管訓(xùn)練語料中不能給出所有二元組(ai,bj)的概率值,但能夠給出部分二元組的概率值,或某些概率需要滿足的條件。即問題變成求部分信息下的最大滴或滿足一定約束的最優(yōu)解。
如何表示這些部分信息呢研究者引人了特征函數(shù)的概念(有時(shí)簡稱為特征).特征函數(shù)一般情況下是一個(gè)二值函數(shù)f(a,b)→[0,1],例如對于上述的文本分類問題,我們可以定義特征函數(shù)為:
f(a,b)=1,(a=事類)∧(b=飛機(jī))
0 othersize
對于特征函數(shù)關(guān),它相對于經(jīng)驗(yàn)概率分布(a,b)的期望值為:
Ef=(a,b)f(a,b) (5)
特征函數(shù)f相對于模型(a|b)的期望值為:
Epf=(b)(a|b)f(a,b) (6)
我們限制在訓(xùn)練集中,這商個(gè)期望值相同,即
Epf=Ef (7)
我們將式(7)稱為約束。顯然,可以定義很多的特征函數(shù),它們之間可以是互不相關(guān)的,甚至問題的角度也可以是完全不同的刻問題的力度也可大可小總之,特征函數(shù)很靈活地將許多散、零碎的知識組合起來完成同一個(gè)任務(wù).給定k個(gè)特征函數(shù)f1,f2,···,fk我們可以得到所求概率布的k組約束,
Epf=Ef
其中,i=1,2,···,k?,F(xiàn)在,我們的何題就變成了滿足一組約束條件的最優(yōu)解問題,即
p={p|Epf=Ef,i=1,2,···,k}
p*=arg H(p) (9)
求解這個(gè)最優(yōu)解的經(jīng)典方法是拉格朗日乘子算法,本文直接給出結(jié)論。式(9)要求的p*具有下面的形式:
p*(a|b)=exp(λifi(a,b) (10)
其中,π(b)是規(guī)一化因子。
π(b)=exp(λifi(a,b) (11)
λi是參數(shù),可以看成特征函數(shù)的權(quán)值,如果通過在訓(xùn)練集上進(jìn)行學(xué)習(xí),知道了 的值,就得到了概率分布函數(shù),完成了最大嫡模型的構(gòu)造。設(shè)|A|是事件集的大小,k是特征函數(shù)的數(shù)目,從式(10)我們可以看到塌大嫡模型的時(shí)間復(fù)雜度是O(k|A|)。
為了構(gòu)造最大嫡模型,我們必須求出參數(shù)λ,文本中我們使用了GIS算法。設(shè)N是訓(xùn)練樣本集的大小,|A|是事件集的大小,算法經(jīng)過P次迭代后收斂,則整個(gè)復(fù)雜度是O(NP|A)。
2.實(shí)驗(yàn)
基于網(wǎng)絡(luò)產(chǎn)品評論的傾向化研究實(shí)驗(yàn),我們選取了凡客誠品購物網(wǎng)。凡客誠品購物網(wǎng)網(wǎng)是國內(nèi)著名的擁有自主品牌,網(wǎng)絡(luò)銷售的以服裝類銷售為主的購物網(wǎng)站,該網(wǎng)站包括數(shù)萬個(gè)款式的服裝,數(shù)百萬個(gè)注冊用戶和數(shù)千萬條評論數(shù)據(jù)。本文選擇了包含評論最多的100款服裝作為研究對象。
本文實(shí)驗(yàn)的結(jié)果主要有兩個(gè)評價(jià)指標(biāo):召回率和準(zhǔn)確率。召回率是模型正確判斷的結(jié)果占所有正確結(jié)果的比率;準(zhǔn)確率是模型正確判斷的結(jié)果占所有判斷結(jié)果的比率[3]。為了綜合評價(jià)系統(tǒng)的性能,一般還會(huì)計(jì)算一個(gè)F值,即準(zhǔn)確率和召回率的加權(quán)幾何平均值[4]。以上三個(gè)評價(jià)指標(biāo)的計(jì)算公式如下:
其中,β是召回率和準(zhǔn)確率的相對權(quán)重,本文取β=1,即認(rèn)為召回率和準(zhǔn)確率同等重要。
主觀評論一般分為三類:正面褒揚(yáng)類、中立類、反面貶斥類,可以根據(jù)評論中出現(xiàn)的情感詞進(jìn)行判別[5]。本文的實(shí)驗(yàn)語料為用戶對100款服裝的評論,從中選出800條評論語句。本文首先將原始語料進(jìn)行了處理,為了不破壞評論中情感詞的上下文關(guān)系,更好地將評論的傾向性看作一個(gè)序列,降低數(shù)據(jù)擬合對實(shí)驗(yàn)結(jié)果的影響,我們抽取其中的600條評論作為訓(xùn)練集,200條評論作為測試集。評論的標(biāo)記情況如表1所示:
利用最大熵模型對其中600條標(biāo)記的評論進(jìn)行訓(xùn)練,得到一個(gè)模板文件,然后根據(jù)此模板文件對剩余200條測試語料進(jìn)行測試,實(shí)驗(yàn)結(jié)果如表2所示。
從下表可以看出,200條測試評論人工標(biāo)注的結(jié)果為褒揚(yáng)類100條,貶斥類80條,中立類20條,而模型判斷的結(jié)果為:褒揚(yáng)類87條,貶斥類67條,中立類46條。由于受到客觀中立類冗余標(biāo)記的影響,有些本身帶有情感傾向的評論沒有被模型正確識別出來,而是誤將它們劃分到了中立的類別中,同時(shí),有些本身不包含情感傾向的中立類評論被誤分到了褒揚(yáng)或貶斥的類別中[5]。上表中匹配標(biāo)記指的是模型判斷出的結(jié)果與人工標(biāo)注的結(jié)果相一致的標(biāo)記,也就是指模型判斷正確結(jié)果的總數(shù)。整體來看,三類標(biāo)記取得的準(zhǔn)確率和召回率不是很高,僅為61.5%,尤其是中立類的準(zhǔn)確率不到30%,是因?yàn)樵谟?xùn)練過程中,模型受客觀冗余標(biāo)記的影響,將一些褒揚(yáng)或貶斥類的評論誤分到了中立類別中,導(dǎo)致模型判斷出的中立類結(jié)果總數(shù)增多,從而降低了其準(zhǔn)確率。
3.結(jié)論
在評論中可能出現(xiàn)了情感詞表中未能包含的情感詞匯或者是出現(xiàn)了在否定詞表和程度副詞表中沒有包括的否定詞和程度副詞,因?yàn)榍楦性~表是我們?nèi)斯?biāo)注的,由于精力有限,使得情感語料規(guī)模有限,這也使得統(tǒng)計(jì)不夠全面。 對于評論中的一些詞匯是否包含情感,是否是情感詞匯,只能通過人工才能判斷,無論是采用基于規(guī)則的,還是基于統(tǒng)計(jì)的方法,目前的機(jī)器計(jì)算都還無法判斷出來的[6]。以上這兩方面可能是造成我們的結(jié)果精確度不高的原因??偟膩碚f,取得了不錯(cuò)的準(zhǔn)確率和召回率,都達(dá)到了60%以上,表明使用最大熵模型做情感傾向研究是很有效的。
【參考文獻(xiàn)】
[1]姚天昉,婁德成.漢語語句主題語義傾向分析方法的研究.中文信息學(xué)報(bào),2007,21(05):73-79.
[2]徐琳宏,林鴻飛,楊志豪.基于語義理解的文本傾向性識別機(jī)制陰.中文信息學(xué)報(bào),2007,21(1):96-100.
[3]周俊生,戴新宇,尹存燕,陳家駿.自然語言信息抽取中的機(jī)器學(xué)習(xí)方法研究.計(jì)算機(jī)科學(xué),2005,32(03):186-190.
[4]Adam L.Berger,Stephen A.Della Pjetra, and Vincent J.Della Pjetra .A Maximum EntropyApproach to Natural Language Processing.Computational Linguistic,1996,22(l):39-71.
[5]姚天防,程希文,徐飛玉等.文本意見挖掘綜述[J].中文信息學(xué)報(bào),2008,Vol.22(No.3).
[6]許洪波,姚天防,黃營等等.“中文傾向性分析評測技術(shù)報(bào)告”.北京:第二屆中文傾向性分析評測會(huì)議(COAE2009),2009.
[7]S.Blair-Goldensohn, K.Hannan,R.McDonald,T.Neylon,G.A.Reis,J.Reynar. Building a sentiment summarizer for local service reviews.Proceedings of NLP Challenges in the Information Explosion Era.Beijing:Academic Press,2008:1-9.