国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于主題模型的(Aspect,Rating)摘要生成方法研究

2017-01-10 07:06:45羅宜元計春雷
電子學(xué)報 2016年12期
關(guān)鍵詞:先驗語料短語

呂 品,汪 鑫,羅宜元,計春雷

(上海電機(jī)學(xué)院電子信息學(xué)院,上海 201306)

基于主題模型的(Aspect,Rating)摘要生成方法研究

呂 品,汪 鑫,羅宜元,計春雷

(上海電機(jī)學(xué)院電子信息學(xué)院,上海 201306)

提出基于短語參數(shù)學(xué)習(xí)的主題模型TMPP(Topic Model based on Phrase Parameter )對在線評論中被評價實體的aspect和與之對應(yīng)的rating進(jìn)行抽取.TMPP具有三個特點:1)評論用“短語袋”表示;2)將標(biāo)準(zhǔn)的LDA中表示文檔-主題的參數(shù)擴(kuò)展為 (aspect,rating)集;3)融合了先驗知識.介紹了TMPP模型參數(shù)的物理含義、模型的生成過程以及先驗知識的獲取和表示方法;闡述了在TMPP模型中引入方面集聚類使用先驗知識的原因與好處、TMPP模型提取(方面,等級)對形成(aspect,rating)摘要的原理.以真實的在線產(chǎn)品評論數(shù)據(jù)集為實驗對象,在實驗過程中引入先驗知識的方面識別分析和等級預(yù)測精度分析,列出了五類產(chǎn)品相關(guān)方面和對立的情感詞的實驗結(jié)果.通過與已有的基線方法比較,實驗表明若評論集中每篇評論有一個總體等級,TMPP能產(chǎn)生高質(zhì)量的(aspect,rating)摘要.

主題模型;(aspect,rating)摘要;短語袋;TMPP

1 引言

Web技術(shù)的發(fā)展使在線評論成為決策支持的有價值資源[1].然而,閱讀者要從海量評論中找到所有不同甚至可能相反的觀點幾乎不可能.因此,對在線評論進(jìn)行挖掘,生成(aspect,rating)摘要,方便用戶對目標(biāo)實體獲得不同視角的評價必然成為情感分析研究不可或缺的一部分.Aspect(方面)指的是被評價實體的某個物理組成部分、功能或性質(zhì)、亦可以是被評論事件的某一個特征等[2].Rating(等級)是用1到5之間的整數(shù)表示的情感滿意度.一般,評論網(wǎng)站只要求用戶對被評價實體給出一個用不同星號個數(shù)表示的總體評價(總體等級).盡管總體等級對潛在用戶的決策有幫助,但提供的信息并不充分,因為不同用戶可能有完全不同的需求.若能從在線評論中挖掘得到(aspect,rating)摘要,便能讓潛在的購買者更深入的了解產(chǎn)品質(zhì)量,通過對同類型的不同產(chǎn)品進(jìn)行權(quán)衡,最終做出明智的購買決定.本文提出基于短語參數(shù)學(xué)習(xí)的主題模型TMPP對在線評論進(jìn)行(aspect,rating)摘要挖掘.挖掘(aspect,rating)摘要由2項任務(wù)構(gòu)成:1) 方面識別,即抽取被評價實體的相關(guān)方面集;2)等級預(yù)測,即為每一個方面分配一個整數(shù),表示評論者對該方面的情感滿意度.

2 相關(guān)研究工作

近年來,絕大多數(shù)觀點文摘挖掘研究工作的重心是方面識別[1,3],只有極少數(shù)工作是在方面識別的同時給出方面的預(yù)測等級[4,5].方面識別的經(jīng)典方法有2類:頻率方法和主題模型方法.頻率方法采用在高頻率名詞短語上應(yīng)用一些約束識別被評價實體(產(chǎn)品)的方面[2,6~8].該方法的局限性在于:1)可能會丟失低頻率的方面和它們的變化形式[9],并產(chǎn)生許多不是表示被評價實體方面的名詞;2)需要人工調(diào)整各種參數(shù),移植性差.主題模型方法能克服以上不足[5,10~12],但通常采用先識別方面,后再對方面進(jìn)行等級預(yù)測的手段,方面識別和其相應(yīng)的等級預(yù)測以串行方式進(jìn)行,其結(jié)果會導(dǎo)致挖掘過程中的錯誤累積.

另外,評論文本有兩種表示模型:“詞袋”模型和“短語袋”模型.短語是對原始的評論經(jīng)過預(yù)處理后得到的(t,s)信息對,t表示aspect,s表示與某一aspect對應(yīng)的觀點.研究工作[9~11,13,14]使用“詞袋”模型表示評論,雖然它們也采用了一些技術(shù)挖掘評論中的局部主題或子主題(方面),但研究重心是將識別的方面按情感進(jìn)行聚類.然而,(aspect,rating)文摘挖掘目標(biāo)是識別方面和其對應(yīng)的等級,即嘗試從同一被評價實體的評論集合中推斷出被評價實體的方面和其對應(yīng)的評價等級.文獻(xiàn)[4~5]使用“短語袋”模型表示評論,前者使用主題模型PLSA和Structured PLSA對短評論挖掘,產(chǎn)生(aspect,rating)文摘;后者提出了方面與其等級具有依賴關(guān)系的ILDA主題模型.然而,盡管主題模型能輸出表示某一主題的詞集,但詞集中的詞往往在語義上不相干,即主題的質(zhì)量不高[1].

為了解決挖掘過程中的錯誤累積和主題質(zhì)量欠佳問題,本文設(shè)計了主題模型TMPP,它用“短語袋”模型表示評論,將標(biāo)準(zhǔn)的LDA中表示文檔-主題的參數(shù)θ擴(kuò)展為(aspect,rating)集,對aspect和 rating同時建模,以減少錯誤累積;引入潛在聚類變量c表示領(lǐng)域先驗知識,指導(dǎo)模型產(chǎn)生質(zhì)量更好的方面.

3 TMPP模型

3.1 TMPP引入方面集聚類的原因與好處

對被評價實體進(jìn)行評價,就是從在線評論中抽取評價實體的各方面(aspect),并基于評論的總體等級,用1到5之間的整數(shù)預(yù)測評價實體各方面的情感滿意度(情感等級rating),于是產(chǎn)生了形成(aspect,rating)摘要的方面和與之相應(yīng)的情感等級對.一個評價實體有許多(aspect,rating)對,故要進(jìn)行方面聚類,這就是TMPP引入方面聚類的原因.為了克服總體等級的片面性,TMPP模型整合了一個方面聚類變量c,將總體等級分解成每個方面對應(yīng)的情感等級,產(chǎn)生一個有利于潛在用戶進(jìn)行決策支持的(aspect,rating)摘要,體現(xiàn)了TMPP引入方面聚類的好處.

3.2 TMPP輸出(aspect,rating)信息對的原理

TMPP模型獲取(aspect,rating)信息對的原理簡述如下:

(1) 利用整合了先驗知識的TMPP尋找被評價實體中語義上更連貫的方面.

(2) 通過聚類算法對相同聚類的等級預(yù)測對數(shù)量和不同聚類的等級預(yù)測對數(shù)量進(jìn)行分類.x表示相同聚類的等級預(yù)測對數(shù)量,y表示不同聚類的等級預(yù)測對數(shù)量.

(3) 引用等級預(yù)測的聚類相似度的度量標(biāo)準(zhǔn)公式來預(yù)測等級相似度值.

(4) 最終,獲取如本文表3至表6的被評價實體的評論摘要表.

3.3 TMPP模型參數(shù)的物理含義

TMPP模型的盤子示意圖如圖1所示.

其中,模型參數(shù)的物理含義如下:

a:潛在方面(aspect);

r: 方面對應(yīng)的潛在等級(rating);

c: 潛在的聚類變量;

t: 重要的方面詞,是被觀察變量;

s: 重要方面詞所對應(yīng)的情感詞,是被觀察變量;

(tm,sm): 第m對觀點短語,m=1,2,…,M;

α,β: Dirichlet參數(shù);

θ:服從參數(shù)為α的狄利克雷分布的隨機(jī)變量,是文檔層的(aspect,rating)集.對每一對(aspect,rating),θ包含了產(chǎn)生aspect和rating組合的概率,每一篇評論抽樣一次θ。固定θ后,再為該評論產(chǎn)生觀點短語,且假定潛變量am和rm被獨立抽樣;

T×C:聚類結(jié)果,T為方面的個數(shù),C為聚類的個數(shù);

ψ,η: 多項式分布參數(shù);

ψ:對p(cluster|aspect)分布建模,ψ是服從參數(shù)為β的Dirichlet分布;

φ:對p(t|aspect,cluster)分布建模,φ是服從參數(shù)為γ的Dirichlet分布.

3.4 TMPP模型的生成過程

與文獻(xiàn)[4]不同,TMPP整合了潛在聚類變量c連接潛在方面a和被觀察詞t,輸入是N篇評論,T個方面,C個聚類,每一篇評論有M個短語.TMPP用隨機(jī)變量ψ對p(cluster|aspect)分布建模;用隨機(jī)變量ψ對p(t|aspect,cluster)分布建模,并把隨機(jī)變量θ作為高層的(aspect,rating)集.對每一個 (aspect,rating)對,θ包含了產(chǎn)生aspect和rating組合的概率.TMPP為每一篇評論抽樣一次θ,固定θ后,再為該評論產(chǎn)生觀點短語,且假定潛在變量am和rm被獨立抽樣,其生成過程如下:

1.選擇θ~Dir(α),ψ~Dir(β),φ~Dir(γ)

2.選擇c~Multi(ψ)

3.對于每一對觀點短語(tm,sm),m∈{1,2,…,M}

(a)選擇am~P(am|θ)和rm~P(rm|θ)

(b)選擇c~P(c|am)

(c)選擇tm~P(tm|am,c,φ)和sm~P(sm|rm,η)

P(tm|am,c,φ)和P(sm|rm,c,η)分別是以am,c和rm為條件的多項式分布.因此,聯(lián)合概率分布如公式(1)所示.

P(a,r,t,s,θ,c|α,β,γ,η)=

p(tm|am,c,φ)p(sm|rm,η)]

(1)

已知一篇評論有M個短語,關(guān)鍵的推斷是計算式(2)所示的潛在變量的后驗概率.

(2)

4 先驗知識

4.1 先驗知識的獲取

領(lǐng)域先驗知識可從Web上中獲取,因為通過調(diào)查發(fā)現(xiàn),盡管評論文本的領(lǐng)域不同,但不同領(lǐng)域上許多被評價實體的方面是相同的.因此,可把從不同領(lǐng)域集中挖掘出的相同方面作為主題模型的先驗知識,讓這些先驗知識指導(dǎo)TMPP模型產(chǎn)生高質(zhì)量的方面.算法1給出了先驗知識獲取的具體方法.

算法1 先驗知識獲取方法

Input:

多個領(lǐng)域的評論語料

Output:

知識K

方法:

1. for eachDi∈DLdo

2.Ai←LDA(Di); //在每一個評論語料Di上運行LDA,并將得到的主題集賦給方面集Ai

3. endfor

4.A←∪iAi;

5.TC←k-means(A); //對所有領(lǐng)域產(chǎn)生的方面集A執(zhí)行k-means聚類,產(chǎn)生一些連貫的主題簇

6. for eachTj∈TCdo

7.Kj←FPM(Tj); //對每一個聚類Tj執(zhí)行頻繁項集挖掘產(chǎn)生頻繁2-模式集表示知識

8. endfor

9.K←∪jKj;

算法1包含3個步驟:1)在每一個領(lǐng)域的語料上運行LDA[15];2)對LDA運行得到的主題集進(jìn)行聚類;3)從每一個聚類中挖掘出頻繁模式.第1步執(zhí)行后,算法1獲得一個主題集,選取每一主題下概率較高的詞表示主題.由于質(zhì)量高的知識應(yīng)該跨領(lǐng)域共享主題,所以可利用頻率方法識別頻繁出現(xiàn)的詞作為先驗知識,以保證知識的質(zhì)量.但是,對于先驗知識,還存在2個需要解決的問題:1)特定的方面可能僅出現(xiàn)在該方面所在領(lǐng)域.如果在頻率方法中簡單使用一個頻率閾值,將無法區(qū)分一般的方面和特定的方面;2)詞在不同的領(lǐng)域可能具有不同的含義.算法的第2步是對每一個主題執(zhí)行k-means算法,得到主題聚類.為了實現(xiàn)第3步中的知識挖掘,采用了頻繁模式挖掘[16],其目標(biāo)是找到所有滿足最小支持度計數(shù)的模式.一個模式就是一個詞集合,所有模式組成了先驗知識集合,簡稱先驗知識基.

4.2 先驗知識的表示方法

由于知識從每一個主題聚類中抽取,所以把經(jīng)過頻繁模式挖掘得到的先驗知識基表示為聚類的集合.每一個聚類由一個頻繁2-模式集組成.例如:聚類1:{電池,壽命},{電池,小時},{電池,長} 聚類2:{服務(wù),支持},{支持,顧客},{服務(wù),顧客}

實驗中挖掘了頻繁2-模式和頻繁3-模式,在利用它們指導(dǎo)主題模型生成方面的連貫性評估中發(fā)現(xiàn),頻繁2-模式的性能優(yōu)于頻繁3-模式.與此同時,人工觀察發(fā)現(xiàn)若屬于相同主題的兩個詞出現(xiàn)在同一集合中,則更能體現(xiàn)詞的語義關(guān)系.這也說明模式越長,包含錯誤的可能性越大.

5 先驗知識的使用

TMPP使用阻塞式Gibbs進(jìn)行推理[17].對文檔中的每一個詞wi,Gibbs能自動減少方面a和聚類c的關(guān)聯(lián).基于Gibbs的條件分布(式(6))能同時抽樣方面am和包含了wi的聚類c.除了考慮am與詞wi之間的匹配外,在計算該條件分布的過程中,還考慮了如下兩個問題:

(1)聚類c的作用

聚類變量的作用:1)判定c是否是詞wi的先驗知識;2)控制詞w和w′概率的增加.已知某一領(lǐng)域的評論語料,c是wi的先驗知識意味著:包含wi的聚類c中的頻繁2-模式也是實際領(lǐng)域評論語料的先驗知識.如果c是wi的先驗知識,則認(rèn)為c中的先驗知識有用,且能被提供給TMPP模型用于指導(dǎo)生成較高質(zhì)量的am;否則,對于wi,c不是合適的先驗知識,不能用于指導(dǎo)TMPP模型.基于共文檔頻率[18],度量了c中wi之間的共現(xiàn),如式(3)所示.

(3)

其中,(w,w′)表示聚類c中的頻繁2-模式.D(w,w′)表示同時包含詞w和w′的評論數(shù)量,D(w)表示只包含詞w的評論數(shù)量.公式(3)中分子與分母同時加1平滑是避免共文檔頻率為0的情況.

此外,給wi分配方面am和聚類c不僅增加了am和c與wi相關(guān)的概率,而且還可能使am和聚類c與w′有關(guān)聯(lián).本文利用Generalized Plya urn(GPU)模型表示語義相關(guān)的詞[19].w′與c中的wi共享了一個頻繁2-模式.概率增加量由公式(4)定義的矩陣Αc,w′,w來確定[20]:

(4)

觀察公式(4)中的w,值1控制了w的概率的增加;值δ控制了w′的概率增加.

(2)c與am的一致性

c和am的一致性表示聚類c中所有頻繁2-模式是否反映方面am.如果c和am一致,那么c中所有頻繁2-模式中的詞應(yīng)該是方面am中的熱點詞.本文使用對稱的KL-Divergence作為聚類c分布Distc和方面am的分布Dista之間的一致性度量.對于Distc,由于c中的詞沒有先驗偏好,所以對c中的所有詞都使用均勻分布.對于Dista,使用排名前15的詞表示方面am.一致性計算如公式(5)所示.

(5)

Distc和Dista差別越小,c和am之間的一致性越高.

式(3),(4)和(5)一起形成阻塞式Gibbs,如式(6)所示,它能在確定先驗知識有用性的同時對TMPP模型產(chǎn)生較好質(zhì)量的方面提供指導(dǎo).

P(am=a,cj=c|a-j,c-j,w,α,β,γ,Α)∝

(6)

其中,n-j表示除am和cj的當(dāng)前分配以外的計數(shù),例如:a-j和c-j.nm,a表示方面a被分配到評論m中的詞的次數(shù).na,c表示聚類c出現(xiàn)在方面a中的次數(shù).na,c,v表示詞v同時出現(xiàn)在方面a和聚類c中的次數(shù).α,β,γ是預(yù)先定義好的超參數(shù).

盡管以上阻塞式Gibbs能區(qū)分有用的知識和不合適的知識,但可能存在對于某一特定詞,該詞不在任何一個聚類中,即該詞沒有任何對應(yīng)的先驗知識.為解決這種問題,定義單一聚類概念,即為詞w增加一個只有頻繁1-模式的聚類{w,w}.由于單一聚類并不包含任何知識,僅僅只有詞本身,所以式(3)和式(5)不成立.實驗中就使用所有非單一聚類的共文檔頻率的平均值和一致性平均值作為單一聚類的式(3)和式(5)的計算值.

6 實驗

與TMPP模型比較的兩種基線方法分別是LDA[4]和 ILDA[4].這3個模型都使用“短語袋”模型表示評論,不同的是TMPP模型增加了領(lǐng)域先驗知識.因此,比較的目的是觀察主題模型使用先驗知識是否能產(chǎn)生更高質(zhì)量的方面.

6.1 實驗設(shè)置

為獲得先驗知識,從淘寶上采集了30個領(lǐng)域的評論,如表1所示.每一個領(lǐng)域包含1000篇評論.使用中國科學(xué)院計算機(jī)所的中文分詞與詞性標(biāo)注工具ICTCLAS對評論語料進(jìn)行分詞與詞性標(biāo)注,并利用哈工大中文停用詞表過濾了評論中的無關(guān)詞.由于獲取先驗知識的評論語料是在標(biāo)準(zhǔn)的LDA模型上運行,所以不需要將評論文本預(yù)處理為觀點短語集.對于LDA模型,設(shè)置參數(shù)α=1,β=0.1,T=15,潛在變量θ和z的后驗估計共執(zhí)行了1000次迭代,得到的每一個主題(方面)只取概率排序在前15的詞.在運用k-means聚類算法對得到的方面集進(jìn)行劃分時,設(shè)置的聚類數(shù)目為30,即評論領(lǐng)域的數(shù)量.利用頻繁模式挖掘先驗知識時,最小支持度設(shè)置為min(5,0.4×#T)[1],#T表示一個聚類中事務(wù)的數(shù)量.本文中的事務(wù)是指所有領(lǐng)域的主題數(shù)量.

表1 30個領(lǐng)域名稱

為了比較基線方法與TMPP模型,實驗只從30個評論語料中選取了筆記本,手機(jī),數(shù)碼相機(jī),平板電腦和MP4這五種類型產(chǎn)品的評論語料作為測試語料集.由于3個模型都以“短語袋”表示評論,所以首先要對這五類產(chǎn)品進(jìn)行預(yù)處理.預(yù)處理后得到的觀點短語數(shù)量分別是:17540,7852,14320,4317,6591.對于這三個模型,潛在變量的后驗估計執(zhí)行2000次迭代.并且設(shè)置α=1,β=0.1,T=15,σ=0.2,對于每一個主題聚類,γ設(shè)置為這個聚類中詞數(shù)量的比例.

6.2 引入先驗知識后的方面識別分析

(1)主題連貫性評估

主題模型的評估常采用困惑度評價,但困惑度并不能反映語義連貫性.近年來,主題連貫性度量已成為一個實際的評估標(biāo)準(zhǔn)[18,21].主題連貫性的評估值越高,意味主題的可解釋性越好.因而本文也采用主題連貫性度量來觀察使用了先驗知識的TMPP模型產(chǎn)生的方面在質(zhì)量上是否優(yōu)于兩個基線方法.針對15個主題分別計算了主題連貫性之后的平均值,其中LDA模型在評論語料上的運行作為初始的迭代(即第0次迭代).

圖2給出了三個模型的在五類數(shù)據(jù)上運行后得到的主題連貫性評估曲線.從圖2能觀察到:1)用領(lǐng)域先驗知識指導(dǎo)的TMPP模型具有最高的主題連貫性.這表明TMPP找到了最具有解釋性的方面;2)ILDA的主題連貫性優(yōu)于LDA,這說明盡管ILDA沒有使用先驗知識,但由于對方面及相應(yīng)的等級之間的依賴進(jìn)行了建模,所以可能更有利于發(fā)現(xiàn)語義上連貫的主題.

(2)人工評估

人工評估階段讓兩位研究生充當(dāng)專家角色,對三個模型在五個領(lǐng)域上產(chǎn)生的主題是否具有連貫性進(jìn)行了手工標(biāo)注.如果專家一致認(rèn)為大多數(shù)熱點詞是連貫的,且能表達(dá)現(xiàn)實世界,就將這個主題標(biāo)記為連貫;否則,為不連貫.對于一個連貫的主題,如果熱點詞反映了主題所表示的方面,就將其標(biāo)注為正確;否則,為不正確.

實驗采用Precision@n度量人工評估結(jié)果.圖3給出n=5和n=10的Precision@n值.從圖3可觀察到,相比于基線方法,TMPP在5個領(lǐng)域上都有改進(jìn).改進(jìn)最大的是數(shù)碼相機(jī)領(lǐng)域,最小的是MP4領(lǐng)域.這是因為先驗知識中有較多的方面與數(shù)碼相機(jī)領(lǐng)域的方面有重疊,而與MP4領(lǐng)域的方面重疊較少,即如果一個領(lǐng)域與許多其它領(lǐng)域共享了方面,那么利用先驗知識就能較大程度地改進(jìn)主題模型產(chǎn)生的主題質(zhì)量;否則,改進(jìn)較小.

表2以主題質(zhì)量改進(jìn)最大的數(shù)碼相機(jī)領(lǐng)域和改進(jìn)最小的MP4領(lǐng)域的評論語料為例,列出了由TMPP和2個基線模型產(chǎn)生的方面樣例“電池”和該方面的前10個熱點詞.從表2可知,TMPP發(fā)現(xiàn)了更多正確的和有意義的熱點方面詞.表2中用粗黑體標(biāo)注的詞是方面樣例“電池”中不符合語義的詞.

表2 三個模型在數(shù)碼相機(jī)領(lǐng)域和MP4領(lǐng)域產(chǎn)生的方面樣例“電池”

數(shù)碼相機(jī)MP4TMPPILDALDATMPPILDALDA電池電池電池小時電池物流充電長功能時間長電池分鐘性價比聲音電池小時小時小時充電小時充上電喜歡價位正品質(zhì)量連接充電便宜充電頭長正品充電長充電精致好小時精致充電頭方便內(nèi)存原裝時間性價比小巧發(fā)貨寶貝寶貝讀卡器非常物流外音價格短接口Wifi卡滿意好滿意

6.3 等級預(yù)測分析

(1)等級預(yù)測精度分析

采用公式(7)所示的聚類相似度衡量等級預(yù)測精度[4].對三個模型,k值固定為5,表示方面等級的聚類數(shù)量;Pi表示主題模型i產(chǎn)生的等級預(yù)測;Pm表示人工標(biāo)注產(chǎn)生的等級預(yù)測.Pi與Pm的一致性要在k×(k-1)個等級預(yù)測對上進(jìn)行檢驗.對每兩個等級預(yù)測對,Pi和Pm可能把它分配到相同的聚類或不同的聚類.因此,公式(7)中的x表示在兩個劃分中,屬于相同聚類的等級預(yù)測對數(shù)量;y表示在兩個劃分中,屬于不同聚類的等級預(yù)測對數(shù)量.

(7)

TMPP模型具有將評論的總體等級分解為單個等級的功能,所以相同聚類的等級預(yù)測對數(shù)量x與不同聚類的等級預(yù)測對數(shù)量y均高;LDA模型的總體等級不能分解為單個等級,所以相同聚類的等級預(yù)測對數(shù)量x與不同聚類的等級預(yù)測對數(shù)量y均低;盡管ILDA模型也能將評論的總體等級分解為單個等級,但由于沒有使用先驗知識,只利用了方面與等級之間的依賴關(guān)系,所以相同聚類的等級預(yù)測對數(shù)量x與不同聚類的等級預(yù)測對數(shù)量y介于TMPP和LDA之間.對三個模型輸出的每一個詞聚類,人工標(biāo)注Pm就是從詞聚類中找出所有的形容詞,根據(jù)褒貶形容詞的個數(shù)確定方面的情感等級.褒義詞越多,情感等級就越高.實驗假定一個方面所在詞聚類中有3個及以上褒義詞就認(rèn)為情感等級較高.針對以上五類產(chǎn)品,分別計算了三種不同模型的RandIndex值,并列于表3中.

從表3可知:TMPP的等級預(yù)測相似度值最高,這說明在語義更連貫的方面中,屬于相同方面聚類的等級預(yù)測對數(shù)量較多.ILDA模型的等級預(yù)測相似度值比LDA高,原因是ILDA模型中方面和等級之間的潛在語義關(guān)聯(lián)建模也有利于等級預(yù)測.此外,所有模型在數(shù)碼相機(jī)這類產(chǎn)品數(shù)據(jù)集上等級預(yù)測精度最好,這是因為一方面先驗知識中有較多的方面與數(shù)碼相機(jī)的方面重疊,另一方面這類產(chǎn)品的訓(xùn)練數(shù)據(jù)集最大.

表3 等級預(yù)測的聚類相似度RandIndex值

(2)不同品牌數(shù)碼相機(jī)的方面抽取和等級預(yù)測

表4和表5是不同品牌數(shù)碼相機(jī)Canon/佳能PowerShot A23和Sony/索尼 DSC-W690的評級方面總結(jié)示例.TMPP模型能依據(jù)先驗知識產(chǎn)生語義上更連貫的方面,根據(jù)這些方面把評論的總體等級分解為單個等級,以便用戶能獲得目標(biāo)產(chǎn)品的不同視角.盡管兩個不同品牌的數(shù)碼相機(jī)有相同的總體等級3,但是Canon/佳能PowerShot A23有更好的“放大”,而Sony/索尼 DSC-W690有更好的“屏幕”和“聲音”,為用戶提供更詳細(xì)的信息,相比于產(chǎn)品的總體等級,這種方式有助于用戶做出購買決定.

表4 Canon/佳能PowerShot A23

表5 Sony/索尼 DSC-W690的方面和相應(yīng)等級的方面和相應(yīng)選級

抽取的方面對應(yīng)等級鏡頭焦距2價格4相片質(zhì)量4電池壽命3屏幕2總體等級3

(3)五類產(chǎn)品的相關(guān)方面及對應(yīng)的正情感詞

通過設(shè)置不同的主題數(shù)目和10次交叉驗證,按概率從高到低列出了五類產(chǎn)品中排名前八位的相關(guān)方面和與該主題相關(guān)的概率最高的正情感詞,如表6所示.從表6中相關(guān)方面所對應(yīng)的正情感詞分析得知,淘寶網(wǎng)的用戶對所評價對象的某一個方面有較好的購買體驗時,使用頻率最高的正的情感詞分別是“好”、“高”等最簡單,最常用的形容詞.這形成了淘寶在線產(chǎn)品評論的一個顯著特點.該特點為在線評論中情感詞的抽取研究提供了一定的事實依據(jù)[22].

表6 產(chǎn)品的相關(guān)方面及對應(yīng)的正情感詞

7 結(jié)論

Web技術(shù)的發(fā)展使在線評論成為決策支持的有價值資源.本文提出基于短語參數(shù)學(xué)習(xí)的主題模型TMPP,它能同時抽取在線評論中被評價實體的aspect和其對應(yīng)的rating.此外,TMPP還整合了一個潛在的聚類變量,用于指導(dǎo)產(chǎn)生更連貫的方面.聚類變量表示從大量已知領(lǐng)域中學(xué)習(xí)到的知識.這種知識是通過在已知評論語料上執(zhí)行標(biāo)準(zhǔn)的LDA模型后,對其產(chǎn)生的主題進(jìn)行分類,然后通過頻繁模式挖掘得到的.在實際的評論語料上比較了提出的TMPP和基線模型,TMPP模型產(chǎn)生的方面質(zhì)量高.通過等級預(yù)測的聚類相似度度量標(biāo)準(zhǔn),發(fā)現(xiàn)TMPP模型方面的等級預(yù)測也優(yōu)于基線模型.

[1]Zhiyuan Chen,Arjun Mukherjee,Bing Liu.Aspect Extraction with automated prior knowledge learning[A].In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics[C].Baltimore:ACL,2014.347-358.

[2]Hu Minqing,Bing Liu.Mining and summarizing customer reviews[A].Proceedings of the Tenth International Conference on Knowledge Discovery and Data Mining[C].Seattle:ACM,2004.168-177.

[3]呂品,鐘珞,蔡敦波,吳云韜.基于CRF的中文評論有效性挖掘產(chǎn)品特征[J].計算機(jī)工程與科學(xué),2014,36 (2):359-366. Lü Pin,ZHONG Luo,CAI Dun-bo,WU Yun-tao.Effective mining product featuers from Chinese review based on CRF[J].Computer Engineering & Science,2014,36 (2):359-366.(in Chinese)

[4]Samaneh Moghaddam,Martin Ester.ILDA:Inerdependent LDA model for learning latent aspects and their ratings from online product reviews[A].Proceeding of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval,SIGIR 2011[C].Beijing,China:ACM,2011.665-674.

[5]Yue Lu,ChengXiang Zhai,Neel Sundaresan.Rated aspect summarization of short comments[A].Proceedings of the 18th International Conference on World Wide Web [C].Madrid:ACM,2009.131-140.

[6]Liu Bing,Minqing Hu,Junsheng Cheng.Opinion observer:Analyzing and comparing opinions on the web[A].Proceedings of the 14th International Conference on World Wide Web[C].Chiba:ACM,2005.342-351.

[7]Moghaddam Samaneh,Martin Ester.Opinion digger:an unsupervised opinion miner from unstructured product reviews[A].Proceedings of the 19th ACM Conference on Information and Knowledge Management[C].Toronto:ACM,2010.1825-1828.

[8]Ana-Maria Popescu,Oren Etzioni.Extracting product features and opinions from reviews[A].Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing[C].Vancouver:ACL,2005.339-346.

[9]Guo Honglei,Huijia Zhu,Zhili Guo,Xiaoxun Zhang,Zhong Su.Product feature categorization with multilevel latent semantic association[A].Proceedings of ACM International Conference on Information and Knowledge Management[C].HongKong:ACM,2009.1087-1096.

[10]Titov Ivan,Ryan McDonald.Modeling online reviews with multi-grain topic models[A].Proceedings of the 17th International Conference on World Wide Web[C].Beijing:ACM,2008.111-120.

[11]Hongning Wang,Yue Lu,Chengxiang Zhai.Latent aspect rating analysis on review text data:a rating regression approach[A].Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining[C].Washington:ACM,2010.783-792.

[12]Wong Tak-Lam,Wai Lam,Tik-Shun Wong.An unsupervised framework for extracting and normalizing product attributes from multiple web sites[A].Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval[C].Singapore:ACM,2008.35-42.

[13]Titov Ivan,R.McDonald.A joint model of text and aspect ratings for sentiment summarization[A].The 46th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies[C].Columbus:ACL,2008.308-316.

[14]Mei Qiaozhu,Xu Ling,Matthew Wondra,et al.Topic sentiment mixture:modeling facets and opinions in weblogs[A].Proceedings of the 16th International Conference on World Wide Web[C].Banff:ACM,2007.171-180.

[15]Blei David M ,Andrew Y Ng,Michael I Jordan.Latent dirichlet allocation[J].The Journal of Machine Learning Research,2003(3):993-1022.

[16]Jiawei Han,Hong Cheng,Dong Xin,Xifeng Yan.Frequent pattern mining:current status and future directions [J].Data Mining and Knowledge Discovery,2007,15(1):55-86.

[17]Michal Rosen-Zvi,Chaitanya Chemudugunta,Thomas Griffiths,Padhraic Smyth,Mark Steyvers.Learning author-topic models from text corpora[J].ACM Transactions on Information Systems,2010,28(1):1-38.

[18]David Mimno,Hanna M.Wallach,Edmund Talley,Miriam Leenders,Andrew McCallum.Optimizing semantic coherence in topic models[A].Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing [C].Edinburgh:ACL,2011.262-272.

[19]Hosam Mahmoud.Polya Urn Models.Chapman & Hall/CRC Texts in Statistical Science[M].USA:CRC Press,2008.

[20]Zhiyuan Chen,Arjun Mukherjee,Bing Liu,Meichun Hsu,Malu Castellanos,Riddhiman Ghosh.Exploiting domain knowledge in aspect extraction[A].Proceedings of EMNLP[C].Seattle:ACL,2013.1655-1667.

[21]Sanjeev Arora,Rong Ge,Yonatan Halpern,David Mimno,Ankur Moitra,David Sontag,Yichen Wu,Michael Zhu.A practical algorithm for topic modeling with provable guarantees[A].Proceedings of the 30th International Conference on Machine Learning[C].Atlanta:JMLR,2013.280-288.

[22]呂品,鐘珞,唐琨皓.在線產(chǎn)品評論用戶滿意度綜合評價研究[J].電子學(xué)報,2014,42(4):740-745. Lü Pin,ZHONG Luo,TANG Kun-hao.Customer satisfaction degree evaluation of online product review[J].Acta Electronica Sinica,2014,42(4):740-745.(in Chinese)

呂 品 女,1973年3月出生,湖北鄂州人,現(xiàn)為上海電機(jī)學(xué)院副教授、博士,研究方向為數(shù)據(jù)挖掘、觀點挖掘與情感分析.

E-mail:lvp@sdju.edu.cn

汪 鑫 男,1978年3月出生,安徽黟縣人,現(xiàn)為上海電機(jī)學(xué)院講師、碩士,研究方向為數(shù)據(jù)挖掘、云計算.

E-mail:wangx@sdju.edu.cn

羅宜元 男,1986年9月出生,河南信陽人,現(xiàn)為上海電機(jī)學(xué)院講師、博士,研究方向為密碼學(xué)與計算機(jī)安全.

E-mail:luoyy@ sdju.edu.cn

計春雷 男,1964年1月出生,上海人,現(xiàn)為上海電機(jī)學(xué)院教授、博士、碩士生導(dǎo)師,研究方向為大數(shù)據(jù)、數(shù)據(jù)挖掘.

E-mail:jicl@ sdju.edu.cn

(Aspect,Rating) Summarization Based on Topic Model

Lü Pin,WANG Xing,LUO Yi-yuan,JI Chun-lei

(SchoolofElectronicandInformation,ShanghaiDianjiUniversity,Shanghai201306,China)

This paper proposes a topic model TMPP (Topic Model based on Phrase Parameter),which can extract the aspects and associated with their ratings for the evaluated entities in online reviews.TMPP has three characterisitcs:(1)It assumes the review is represented as a bag-of-phrase.(2)It extends the document-topic parameter from the standard LDA as a set of (aspect ,rating).(3)It incorporates the prior knowledge.We introduce the physical meaning of each parameter for the TMPP,the generative process for the TMPP and the representation of the prior knowledge.Furthermore,the reason and advantage of incorporating the aspect cluster into the TMPP are presented; the mechanism of obtaining the (aspect,rating) is also given by extracting the aspects and associated with their ratings from the online product reviews.We conduct extensive experiments on a very large real life dataset from taobao.com and find that TMPP can produce high quality (aspect,rating) summarization if each review has an overall rating by comparing the performance between existing baseline models and TMPP.

topic model; (aspect,rating) summarization; bag-of-phrase; topic model based on phrase parameter(TMPP)

2014-12-24;

2016-08-22;責(zé)任編輯: 郭游

國家自然科學(xué)基金青年基金(No.61402280);上海電機(jī)學(xué)院計算機(jī)科學(xué)與技術(shù)優(yōu)勢學(xué)科(No.16YSXK04);上海電機(jī)學(xué)院科研計劃項目(No.B1-0227-16-032-031)

TN911

A

0372-2112 (2016)12-3036-08

??學(xué)報URL:http://www.ejournal.org.cn

10.3969/j.issn.0372-2112.2016.12.032

猜你喜歡
先驗語料短語
基于無噪圖像塊先驗的MRI低秩分解去噪算法研究
基于自適應(yīng)塊組割先驗的噪聲圖像超分辨率重建
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
基于平滑先驗法的被動聲信號趨勢項消除
先驗的廢話與功能的進(jìn)路
《苗防備覽》中的湘西語料
國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
手游| 鞍山市| 兴安县| 甘孜| 庄浪县| 罗江县| 衡南县| 中卫市| 兴业县| 泗阳县| 达孜县| 隆林| 崇明县| 原阳县| 镇康县| 东乡族自治县| 长葛市| 宜君县| 江城| 玛纳斯县| 锦州市| 娱乐| 墨竹工卡县| 大港区| 策勒县| 凌云县| 长春市| 剑川县| 中西区| 资溪县| 昌黎县| 荣成市| 镇平县| 连山| 宁南县| 新民市| 宁明县| 万州区| 梓潼县| 河南省| 宁陵县|