呂 品,鐘 珞,蔡敦波,吳云韜
(1.武漢理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢 430070;2.武漢工程大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,湖北 武漢 430073;3.武漢工程大學(xué)智能機(jī)器人湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430073)
基于CRF的中文評(píng)論有效性挖掘產(chǎn)品特征*
呂 品1,2,3,鐘 珞1,蔡敦波2,3,吳云韜2,3
(1.武漢理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢 430070;2.武漢工程大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,湖北 武漢 430073;3.武漢工程大學(xué)智能機(jī)器人湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430073)
方面級(jí)意見(jiàn)挖掘的任務(wù)通常包括從客戶評(píng)論中抽取產(chǎn)品的特征、與產(chǎn)品特征相關(guān)聯(lián)的觀點(diǎn)詞識(shí)別以及觀點(diǎn)的極性判斷三個(gè)方面。圍繞如何實(shí)現(xiàn)中文評(píng)論的方面級(jí)意見(jiàn)挖掘問(wèn)題,提出了利用條件隨機(jī)場(chǎng)實(shí)現(xiàn)中文評(píng)論的方面級(jí)意見(jiàn)挖掘的四個(gè)主要步驟:數(shù)據(jù)預(yù)處理、訓(xùn)練集準(zhǔn)備、為條件隨機(jī)場(chǎng)模型定義學(xué)習(xí)函數(shù)、應(yīng)用模型標(biāo)注新的評(píng)論數(shù)據(jù)。在此基礎(chǔ)上,通過(guò)以五種實(shí)際產(chǎn)品的中文評(píng)論語(yǔ)料為數(shù)據(jù)集,對(duì)該方法進(jìn)行了數(shù)據(jù)實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該方法針對(duì)不同類型觀點(diǎn)元素的抽取在評(píng)估性能指標(biāo)上大部分達(dá)到或超過(guò)80%。為了進(jìn)一步驗(yàn)證所提出方法的有效性,將研究結(jié)果進(jìn)行了差異顯著性檢驗(yàn)。結(jié)果顯示,用CRF對(duì)中文評(píng)論進(jìn)行方面級(jí)意見(jiàn)挖掘和對(duì)英文評(píng)論的方面意見(jiàn)挖掘的性能差異不大。最后,比較了三種不同方法的方面抽取精度和情感分類精度,實(shí)驗(yàn)結(jié)果表明,CRF方法優(yōu)于詞典化的隱馬爾可夫模型和關(guān)聯(lián)規(guī)則挖掘方法。
條件隨機(jī)場(chǎng);方面級(jí)意見(jiàn)挖掘;觀點(diǎn)元素
隨著Web上社會(huì)媒體(評(píng)論、論壇討論、博客和社會(huì)網(wǎng)絡(luò))爆炸性的增長(zhǎng),許多個(gè)人和組織都想利用這些媒體上的內(nèi)容為自己的決策作支持。然而,由于各種各樣的網(wǎng)站大量出現(xiàn),尋找、監(jiān)測(cè)和抽取這些網(wǎng)站中的信息是一個(gè)艱巨的任務(wù)。為了解決這一問(wèn)題,許多研究者提出了各種各樣的Web意見(jiàn)挖掘方法,旨在從這些媒體中發(fā)現(xiàn)必要的信息并把它們呈現(xiàn)給用戶。絕大多數(shù)意見(jiàn)挖掘方法可以歸為兩大類:篇章級(jí)意見(jiàn)挖掘和方面級(jí)意見(jiàn)挖掘。方面級(jí)意見(jiàn)挖掘中所指的方面可以是被評(píng)論產(chǎn)品的某個(gè)物理組成部分、功能或性質(zhì),亦可以是被評(píng)論事件的某一個(gè)特征等。篇章級(jí)意見(jiàn)挖掘主要解決一篇文檔的總體觀點(diǎn)極性;方面級(jí)意見(jiàn)挖掘主要解決從句子中發(fā)現(xiàn)方面然后找出與該方面相聯(lián)系的觀點(diǎn)。顯然,篇章級(jí)意見(jiàn)挖掘不能向用戶提供觀點(diǎn)持有者對(duì)某一實(shí)體各方面的評(píng)價(jià)信息。為了獲得這樣的詳細(xì)信息,方面級(jí)意見(jiàn)挖掘日趨成為情感分析領(lǐng)域的一個(gè)研究熱點(diǎn)。
以英文語(yǔ)料為研究對(duì)象的方面級(jí)意見(jiàn)挖掘早在2004年就被提出,研究者已經(jīng)取得一些初步成果,而針對(duì)中文的研究還處于起步階段。不斷增長(zhǎng)的中文評(píng)論已經(jīng)成為互聯(lián)網(wǎng)上一個(gè)重要的組成部分,為了給企業(yè)和個(gè)人提供更為方便的工具,自動(dòng)化和智能化地挖掘中文評(píng)論中的有價(jià)值信息是非常必要的。但是,由于中英文語(yǔ)言存在著較大的差異,目前針對(duì)英文評(píng)論的研究成果很多無(wú)法直接應(yīng)用于中文評(píng)論。這些差異的主要根源在如下一些問(wèn)題上:(1)文化差異導(dǎo)致語(yǔ)言表達(dá)方式不同;(2)語(yǔ)言結(jié)構(gòu)的差異;(3)中英文詞匯語(yǔ)法的差別。
本文正是在中英文語(yǔ)言存在差異的條件下,探索中文評(píng)論中意見(jiàn)挖掘中的信息提取技術(shù)。通過(guò)研究如何在方面級(jí)意見(jiàn)挖掘的三個(gè)任務(wù)中運(yùn)用條件隨機(jī)場(chǎng)模型,把目前主要面向英文的評(píng)論挖掘方法拓展到中文,從而解決中文環(huán)境下,如何對(duì)客戶評(píng)論中所隱含的信息進(jìn)行自動(dòng)挖掘的問(wèn)題。
2.1 基于頻率統(tǒng)計(jì)的挖掘方法
此方法是2004年Hu和Liu等人[1]首次提出的。它的基本原理是:(1) 使用關(guān)聯(lián)規(guī)則挖掘算法、壓縮修剪、冗余修剪等技術(shù)抽取頻繁名詞或名詞短語(yǔ)作為方面,如“價(jià)格”作為被評(píng)價(jià)實(shí)體的方面;(2)識(shí)別與這些頻繁方面最近的觀點(diǎn)詞,如價(jià)格的“高”或“低”;(3)形成一個(gè)基于被評(píng)價(jià)實(shí)體各方面的意見(jiàn)文摘系統(tǒng)。此方法最大的優(yōu)點(diǎn)是通常領(lǐng)域獨(dú)立或語(yǔ)言獨(dú)立,思想簡(jiǎn)單,易實(shí)現(xiàn),并且不需要訓(xùn)練數(shù)據(jù)集。但是,它也有一定的局限性,如:不能自動(dòng)識(shí)別觀點(diǎn)的強(qiáng)度,不能很好處理隱含的方面表達(dá)。從2005年至今,許多研究者對(duì)該方法進(jìn)行了各種改進(jìn),但這些改進(jìn)工作由于其針對(duì)的對(duì)象不同也各有其局限性。
2.2 基于監(jiān)督學(xué)習(xí)的挖掘方法
Li等人[2]提出了一種基于依存語(yǔ)法圖的監(jiān)督學(xué)習(xí)方法抽取(方面,觀點(diǎn))信息對(duì)。他們?cè)陔娪霸u(píng)論數(shù)據(jù)集上評(píng)估了該算法,并把得到的結(jié)果與Hu等人的方法進(jìn)行了比較。結(jié)果顯示他們所提方法的F-measure為52.9%,高于Hu等人方法的F-measure(48.8%)。CRF(Conditional Random Field)模型是另一種基于監(jiān)督的挖掘方法,在產(chǎn)品評(píng)論挖掘中有潛在的優(yōu)勢(shì)。因?yàn)樗ㄟ^(guò)定義最大化條件概率p(Y|X),選擇一個(gè)標(biāo)簽序列Y標(biāo)注一個(gè)觀察序列X。顯然,CRF能考慮被評(píng)價(jià)實(shí)體的任意方面,而且不需要條件獨(dú)立假設(shè)。該特性使得CRF廣泛使用于傳統(tǒng)的信息抽取任務(wù),如詞性標(biāo)注和解析、命名實(shí)體的識(shí)別等。近來(lái),有部分研究者利用CRF處理顧客評(píng)論。例如,Zhao等人[3]利用CRF執(zhí)行句子級(jí)和篇章級(jí)情感分類。Li等[4]研究者整合了兩個(gè)CRF變量:Skip-CRF和Tree-CRF同時(shí)抽取方面的觀點(diǎn)詞。與普通的CRF只能利用詞序列學(xué)習(xí)不同,Skip-CRF和Tree-CRF還可以利用CRF學(xué)習(xí)結(jié)構(gòu)特征。Choi等人[5]使用CRF從評(píng)論數(shù)據(jù)中識(shí)別觀點(diǎn)持有者。他們的錯(cuò)誤分析報(bào)告報(bào)道了不精確的觀點(diǎn)識(shí)別對(duì)挖掘結(jié)果有很大程度的負(fù)面影響。Miao等人[6]使用CRF執(zhí)行方面抽取并獲得了合理的結(jié)果。他們?cè)陔娪霸u(píng)論數(shù)據(jù)集中取得了86%的精度。Jakob等人[7]進(jìn)一步利用CRF解決跨領(lǐng)域應(yīng)用問(wèn)題,例如,判斷在一個(gè)領(lǐng)域上訓(xùn)練的模型是否能在另一個(gè)領(lǐng)域上使用。他們還評(píng)估了在這種環(huán)境下方面抽取的精度。Chen等人[8]利用CRF實(shí)現(xiàn)了從評(píng)論中抽取多種類型的評(píng)論信息,如:實(shí)體的組成部分、實(shí)體的功能、實(shí)體的屬性、觀點(diǎn)和觀點(diǎn)的強(qiáng)度等。并將基于CRF的意見(jiàn)挖掘與基于頻率統(tǒng)計(jì)的方法及基于詞典化的HMM進(jìn)行了深入的比較。結(jié)果表明,該方法在同時(shí)抽取多種評(píng)論信息時(shí)的精度超過(guò)其它的所有方法。
目前國(guó)內(nèi)有關(guān)方面級(jí)意見(jiàn)挖掘的研究還處在起步階段。李實(shí)等人[9]提出了針對(duì)中文客戶評(píng)論中的產(chǎn)品特征的抽取方法,并證明了該方法的可行性和有效性,但該方法是基于頻率統(tǒng)計(jì)的一種改進(jìn)的關(guān)聯(lián)規(guī)則挖掘算法。據(jù)我們所了解,利用CRF研究中文評(píng)論中抽取不同類型的信息還很少有研究。本文針對(duì)中文評(píng)論的語(yǔ)言特點(diǎn)和風(fēng)格特征,嘗試?yán)肅RF實(shí)現(xiàn)方面級(jí)意見(jiàn)挖掘,探索中文客戶評(píng)論的意見(jiàn)挖掘方法和理論, 并且通過(guò)實(shí)驗(yàn)表明了這一方法的有效性。
3.1 方法的基本思路
本文利用CRF在中文評(píng)論語(yǔ)料上實(shí)現(xiàn)方面級(jí)意見(jiàn)挖掘。CRF是一種圖模型[8]。圖中所有結(jié)點(diǎn)稱之為狀態(tài)。這些狀態(tài)包括可以觀察到的狀態(tài)集合W和隱藏的狀態(tài)集合T。W通常是評(píng)論文本,它的詞性標(biāo)注標(biāo)簽表示為集合S。T通常是預(yù)先定義好的類別集合。圖中的邊表示所有狀態(tài)之間的關(guān)系,這個(gè)關(guān)系通常由學(xué)習(xí)函數(shù)定義。利用CRF進(jìn)行挖掘的目標(biāo)就是從產(chǎn)品評(píng)論中抽取被評(píng)價(jià)實(shí)體的不同方面,識(shí)別與不同方面相關(guān)的觀點(diǎn)、觀點(diǎn)強(qiáng)度和觀點(diǎn)的極性等。通常把被評(píng)價(jià)實(shí)體的不同方面及與之相關(guān)聯(lián)的觀點(diǎn)、觀點(diǎn)強(qiáng)度和觀點(diǎn)的極性稱之為觀點(diǎn)元素。利用CRF進(jìn)行挖掘的方法就是給W中的每一個(gè)詞賦予一個(gè)T中的標(biāo)簽。由此可見(jiàn),利用CRF實(shí)現(xiàn)意見(jiàn)挖掘就是一個(gè)自動(dòng)標(biāo)注過(guò)程。此過(guò)程主要由四個(gè)步驟完成:(1)數(shù)據(jù)預(yù)處理;(2)準(zhǔn)備符號(hào)標(biāo)記與訓(xùn)練集;(3)為CRF定義學(xué)習(xí)函數(shù),并訓(xùn)練CRF模型最大化條件概率;(4)應(yīng)用模型標(biāo)注新的評(píng)論數(shù)據(jù)中的觀點(diǎn)元素。為了突出預(yù)先定義符號(hào)標(biāo)記和訓(xùn)練集等步驟的準(zhǔn)備,將數(shù)據(jù)預(yù)處理置于實(shí)驗(yàn)部分的5.3節(jié)。
3.2 準(zhǔn)備符號(hào)標(biāo)記與訓(xùn)練集
這一步驟的主要工作分兩個(gè)階段完成:首先為CRF準(zhǔn)備預(yù)先定義好的類別集合T;然后根據(jù)類別集合T準(zhǔn)備訓(xùn)練語(yǔ)料。表1明確給出了從評(píng)論中挖掘的具體信息屬于哪一類觀點(diǎn)元素,例如:觀點(diǎn)元素是被評(píng)價(jià)目標(biāo)的組成部分、功能、性質(zhì)或是與之相關(guān)的觀點(diǎn)等。觀點(diǎn)元素類別集合T的詳細(xì)類別符號(hào)標(biāo)記如表2所示。
Table 1 Class and description of opinion element表1 觀點(diǎn)元素的類別及描述
Table 2 Class and associated symbol tag of opinion element表2 觀點(diǎn)元素的類別與該類別對(duì)應(yīng)的符號(hào)標(biāo)記
符號(hào)標(biāo)記的準(zhǔn)備工作完成之后,本文采用中國(guó)科學(xué)院計(jì)算機(jī)所的中文分詞與詞性標(biāo)注工具ICTCLAS對(duì)評(píng)論語(yǔ)料進(jìn)行分詞與詞性標(biāo)注,為人工標(biāo)注訓(xùn)練語(yǔ)料中觀點(diǎn)元素的類別作準(zhǔn)備。由于二級(jí)詞性標(biāo)注可以標(biāo)注出更為具體的情況,包括具有名詞功能的形容詞或者動(dòng)詞、專有名詞、詞素等等目標(biāo),為了提高挖掘查準(zhǔn)率,采用二級(jí)標(biāo)注。同時(shí),中文客戶評(píng)論中所討論的產(chǎn)品的組成部分、功能或?qū)傩缘瓤赡苡擅~短語(yǔ)構(gòu)成,但中文評(píng)論的詞性標(biāo)注過(guò)程中并不能直接標(biāo)注出名詞短語(yǔ)(除了專有名詞短語(yǔ)以外,例如,地名、單位名稱) ,再加上基本名詞的定義各不相同,本文采用的是周雅倩等人[10]提出的基本名詞短語(yǔ)定義。它規(guī)定基本名詞短語(yǔ)為非嵌套的名詞短語(yǔ),包括單個(gè)名詞、沒(méi)有任何修飾成分的名詞短語(yǔ)、難以確定修飾關(guān)系的一串名詞、并列名詞性成分、專有名詞、時(shí)間、地點(diǎn)等,這種基本名詞短語(yǔ)占語(yǔ)料中所有基本短語(yǔ)的60.8%。根據(jù)這個(gè)定義,本文在實(shí)驗(yàn)中根據(jù)以下兩種簡(jiǎn)單情況界定名詞短語(yǔ):(1)兩個(gè)相鄰的名詞連接構(gòu)成的短語(yǔ)(專有名詞和時(shí)間、地點(diǎn)名詞除外,但包含二級(jí)分詞標(biāo)注出來(lái)具有名詞功能的形容詞或者動(dòng)詞,具有名詞功能的形容詞或者動(dòng)詞);(2)用結(jié)構(gòu)助詞“的”連接的兩個(gè)名詞構(gòu)成的短語(yǔ)。
3.3 定義學(xué)習(xí)函數(shù)
學(xué)習(xí)函數(shù)是觀察狀態(tài)詞序列W=w1w2w3…wN,W對(duì)應(yīng)的詞性標(biāo)注序列S=s1s2s3…sN以及隱藏狀態(tài)T=t1t2…ti-1ti+1…tN之間的關(guān)系。學(xué)習(xí)函數(shù)的一般形式是fi(tj-1,tj,w1:N,s1:N),它表明了相鄰的狀態(tài)tj-1與tj、詞序列W=w1w2w3…wN以及它對(duì)應(yīng)的詞性標(biāo)注序列S=s1s2s3…sN之間的關(guān)系。那么,可以定義一個(gè)二值函數(shù):如果當(dāng)前的詞wj是“照片”,它對(duì)應(yīng)的詞性標(biāo)注sj為名詞,前一個(gè)狀態(tài)tj-1是觀點(diǎn),當(dāng)前的狀態(tài)tj是屬性,那么函數(shù)fi的值為1,否則為0。
fi(tj-1,tj,w1:N,s1:N)=
(1)
于是可得到以下條件概率:
(2)
(3)
3.4 訓(xùn)練CRF模型
(4)
其中,M是評(píng)論語(yǔ)料中句子的個(gè)數(shù)。為了避免模型過(guò)度擬合,可通過(guò)對(duì)參數(shù)的先驗(yàn)分布加入懲罰因子。通常情況下采用均值為0的高斯分布,因而等式(4)變?yōu)椋?/p>
(5)
由于等式(5)是凹的,所以它有一個(gè)唯一的全局最優(yōu)解??梢酝ㄟ^(guò)L-BFGS優(yōu)化算法求解目標(biāo)函數(shù)的梯度學(xué)習(xí)參數(shù)[11]。目標(biāo)函數(shù)的梯度計(jì)算如下:
(6)
在等式(6)中,第一項(xiàng)是函數(shù)fi在訓(xùn)練數(shù)據(jù)集中活動(dòng)(fi=1)的次數(shù)。第二項(xiàng)是在當(dāng)前訓(xùn)練模型下對(duì)這個(gè)函數(shù)預(yù)測(cè)的活動(dòng)次數(shù)。第三項(xiàng)由先驗(yàn)分布產(chǎn)生。因此,這個(gè)派生項(xiàng)測(cè)量了精確的頻率與預(yù)測(cè)頻率的距離。假定在這個(gè)訓(xùn)練數(shù)據(jù)中,一個(gè)函數(shù)fk的活動(dòng)次數(shù)是A,在當(dāng)前模型下,預(yù)測(cè)活動(dòng)次數(shù)是B:當(dāng)|A|=|B|,派生項(xiàng)的值為0。因此,訓(xùn)練過(guò)程就是找到能最小化派生項(xiàng)的λk。
獲取了使派生項(xiàng)最小化的參數(shù)λk后,使用模型的目標(biāo)就是應(yīng)用訓(xùn)練模型給句子中的詞自動(dòng)標(biāo)注上最合適的觀點(diǎn)元素類型符號(hào)標(biāo)記。這必須要求每一步的條件概率都是最大的。假定當(dāng)前詞的位置是j,它有M個(gè)不同的候選標(biāo)記,于是有Viterbi變量αj(m)=p(W,S,tj=m)。Viterbi遞歸式如等式(7)所示:
(7)
其中,φj(W,S,m′,m)是觀察序列為W和S時(shí)狀態(tài)m′到狀態(tài)m的轉(zhuǎn)換函數(shù)。在本文中,轉(zhuǎn)換函數(shù)的定義如下:
(8)
遞歸求解Viterbi變量后,就能識(shí)別句子中合適的標(biāo)記分配。
5.1 數(shù)據(jù)集
本文選取了五種商品的網(wǎng)絡(luò)評(píng)論作為實(shí)驗(yàn)語(yǔ)料進(jìn)行數(shù)據(jù)實(shí)驗(yàn), 這五種商品分別是一款手機(jī)(蘋(píng)果 iPhone 4)、兩款數(shù)碼相機(jī)(Cannon PowerShot SX210 IS,Cannon PowerShot A3300 IS)、一款MP3播放器(臺(tái)電 c700sp)和一本圖書(shū)(《達(dá)芬奇的密碼》)。其中手機(jī)、數(shù)碼相機(jī)及MP3 播放器的評(píng)論從淘寶網(wǎng)下載, 圖書(shū)評(píng)論從卓越網(wǎng)下載??偣策x取了821篇評(píng)論(1 775個(gè)句子)。然后去除這些評(píng)論中無(wú)意義的符號(hào)和標(biāo)記信息。為了檢驗(yàn)CRF方法在中英文評(píng)論語(yǔ)料上進(jìn)行方面級(jí)挖掘的差異性,本文在實(shí)驗(yàn)中還準(zhǔn)備了與中文評(píng)論語(yǔ)料中產(chǎn)品種類相似、評(píng)論篇數(shù)相同的英文語(yǔ)料數(shù)據(jù)集,該數(shù)據(jù)集來(lái)自文獻(xiàn)[1]。
5.2 性能評(píng)估方法
為了評(píng)估利用CRF實(shí)現(xiàn)挖掘的性能,本文采取了在文本處理問(wèn)題研究中普遍使用的性能評(píng)估指標(biāo):查準(zhǔn)率P(Precision)、查全率R(Recall)、F1-measure值F1(F1-measure)、精確度A(Accuracy)。本文中研究的問(wèn)題主要是判斷利用CRF抽取的觀點(diǎn)元素是否為人工標(biāo)注的真實(shí)類別(如表2所示)。評(píng)估采用的混淆矩陣(Confusion Matrix)如表3所示。
Table 3 Confusion matrix of performance measure表3 性能評(píng)估混淆矩陣
根據(jù)表3有:P=a/(a+b),R=a/(a+c),F(xiàn)1=2PR/(P+R),A=(a+b)/(a+b+c+d)。實(shí)驗(yàn)中分別針對(duì)中文語(yǔ)料和英文語(yǔ)料把整個(gè)數(shù)據(jù)集平均分成10個(gè)子集,隨機(jī)選擇其中一個(gè)子集用作每一輪的測(cè)試驗(yàn)證,其它九個(gè)子集用作訓(xùn)練集。這樣的交叉驗(yàn)證過(guò)程執(zhí)行10次,查全率、查準(zhǔn)率、F值和精確度是10次交叉驗(yàn)證的平均值。
5.3 用CRF挖掘中文評(píng)論的實(shí)驗(yàn)結(jié)果
表4列出了10次交叉驗(yàn)證后的比較結(jié)果,從中可以看出,用CRF對(duì)中文評(píng)論進(jìn)行方面級(jí)挖掘也取得了較好的性能指標(biāo),大部分性能指標(biāo)值接近或超過(guò)80%。
Table 4 Comparison of performance extracted opinionelements:Component, Function, Feature表4 被抽取的觀點(diǎn)元素:組成部分、功能、屬性的性能比較
為了比較在中文語(yǔ)料中使用名詞短語(yǔ)界定的效果,我們利用CRF只針對(duì)中文語(yǔ)料中的功能這一觀點(diǎn)元素的抽取進(jìn)行了名詞短語(yǔ)的界定。從表4可以看出,該項(xiàng)在中文語(yǔ)料上獲得的三個(gè)性能指標(biāo)值要比針對(duì)英文語(yǔ)料的高。其中的主要原因有兩個(gè)方面:(1)在中文詞性標(biāo)注時(shí)采用了二級(jí)標(biāo)注。二級(jí)詞性標(biāo)注可以標(biāo)注出更為具體的情況,包括具有名詞功能的形容詞或者動(dòng)詞、專有名詞、詞素等,那么在對(duì)訓(xùn)練集進(jìn)行人工標(biāo)注時(shí),可以給一些不是名詞但卻具有名詞功能的詞標(biāo)注〈COMM_Func〉的符號(hào)標(biāo)記。(2)使用了3.2節(jié)的名詞短語(yǔ)界定方法,那么在對(duì)訓(xùn)練集進(jìn)行人工標(biāo)注時(shí),可以給一些名詞短語(yǔ)標(biāo)注為〈COMM_Func〉的符號(hào)標(biāo)記。當(dāng)模型學(xué)習(xí)到具有這些特點(diǎn)的詞后,就可以對(duì)新數(shù)據(jù)中出現(xiàn)的類似詞進(jìn)行〈COMM_Func〉標(biāo)記。然而,其它兩項(xiàng)觀點(diǎn)元素由于沒(méi)有使用名詞短語(yǔ)的抽取,在三項(xiàng)性能指標(biāo)上均比英文語(yǔ)料低。其中的主要原因是利用CRF對(duì)英文語(yǔ)料數(shù)據(jù)集進(jìn)行挖掘時(shí),考慮了具有名詞詞性的詞或短語(yǔ)表示功能這一觀點(diǎn)元素:組成部分和性質(zhì)。
對(duì)于觀點(diǎn)元素:觀點(diǎn)與觀點(diǎn)強(qiáng)度抽取性能比較,從表5可以看出,用CRF對(duì)中文評(píng)論進(jìn)行挖掘也取得了較好的性能指標(biāo)。每一項(xiàng)的性能指標(biāo)值都在80%以上,有些值還高出了利用CRF對(duì)英文語(yǔ)料的挖掘。例如,觀點(diǎn)的查全率是86.1%,這是因?yàn)槌诵稳菰~或副詞明顯地表示觀點(diǎn)之外,一些表示資源的名詞也隱含有觀點(diǎn),我們?cè)谌斯?biāo)注的過(guò)程中也給這樣的名詞賦予了觀點(diǎn)的符號(hào)標(biāo)記。而我們針對(duì)英文語(yǔ)料的處理使用的是文獻(xiàn)[8]中的方法,作者在利用CRF進(jìn)行觀點(diǎn)抽取時(shí)并沒(méi)有涉及如何從評(píng)論中推導(dǎo)出隱藏的觀點(diǎn),因而我們?cè)谔幚碛⑽恼Z(yǔ)料時(shí)也忽略了隱含觀點(diǎn)的推導(dǎo)。觀點(diǎn)強(qiáng)度的查準(zhǔn)率達(dá)到92.8%,這其中主要原因是當(dāng)中文評(píng)論中出現(xiàn)了感嘆詞時(shí),在人工標(biāo)注訓(xùn)練集時(shí),我們給這樣的感嘆詞一個(gè)觀點(diǎn)強(qiáng)度的標(biāo)注,由于中英文語(yǔ)料的風(fēng)格差異,英文語(yǔ)料中沒(méi)有這樣的處理過(guò)程。
Table 5 Comparison of performance extracted opinionelements:Opinion, Opinion Intensifier表5 被抽取的觀點(diǎn)元素:觀點(diǎn)、觀點(diǎn)強(qiáng)度的性能比較
表6給出了觀點(diǎn)句的判斷和句子極性的確定的比較結(jié)果。從表6可以看出,所有針對(duì)中文語(yǔ)料的性能評(píng)估值都在80%以上,這與表5中給出的針對(duì)中文語(yǔ)料的實(shí)驗(yàn)結(jié)果相吻合。也即抽取的觀點(diǎn)與觀點(diǎn)強(qiáng)度越多越準(zhǔn)確,說(shuō)明對(duì)語(yǔ)料中觀點(diǎn)句的判斷和對(duì)句子極性的確定就越具有多樣性。因而,針對(duì)中文語(yǔ)料句子極性的查全率高。
Table 6 Comparison of performance extractedopinion sentences and sentence polarity表6 觀點(diǎn)句、句子極性的識(shí)別性能比較
通過(guò)對(duì)相同類型產(chǎn)品的中英文語(yǔ)料的實(shí)驗(yàn)研究表明,利用CRF針對(duì)中文評(píng)論進(jìn)行方面級(jí)挖掘具有一定有效性。為了深入驗(yàn)證方法的實(shí)際性能,本文還進(jìn)一步針對(duì)中英文產(chǎn)品評(píng)論的挖掘結(jié)果進(jìn)行了差異顯著性檢驗(yàn)。
5.4 差異顯著性檢驗(yàn)
為了進(jìn)一步確認(rèn)用CRF方法對(duì)中文評(píng)論挖掘的有效性,將本文研究結(jié)果和文獻(xiàn)[8]的研究結(jié)果進(jìn)行比較,并對(duì)兩者差異做顯著性檢驗(yàn)。如果兩個(gè)結(jié)果接近(即本文結(jié)果顯著好于或與文獻(xiàn)[8]的研究結(jié)果的差距不明顯) ,則可以進(jìn)一步驗(yàn)證用CRF方法對(duì)中文評(píng)論挖掘的有效性。檢驗(yàn)過(guò)程中所用實(shí)驗(yàn)數(shù)據(jù)與文獻(xiàn)[8]中的數(shù)據(jù)種類相同,評(píng)論的篇數(shù)相同(注意:文獻(xiàn)[8]中的一個(gè)數(shù)據(jù)集是以文獻(xiàn)[1]中給出的產(chǎn)品種類與評(píng)論篇數(shù)為標(biāo)準(zhǔn)的),最后將實(shí)驗(yàn)結(jié)果與文獻(xiàn)[8]的實(shí)驗(yàn)結(jié)果即查準(zhǔn)率和查全率分別進(jìn)行差異T檢驗(yàn),同時(shí)考慮了與分類隨機(jī)比率50%的差異檢驗(yàn)。
實(shí)驗(yàn)中采用兩個(gè)比率之間顯著性差異的T檢驗(yàn),具體方法如下:設(shè)樣本集S中含量n個(gè)樣本,其中有nk個(gè)對(duì)象具有類別C,即類別C在樣本中出現(xiàn)的比率為p=nk/n。當(dāng)需要比較該比率與一個(gè)給定的比率π是否存在顯著差異時(shí),可以用公式(9)計(jì)算T值。
(9)
在實(shí)驗(yàn)中查準(zhǔn)率的n就是指利用CRF識(shí)別出的某一觀點(diǎn)元素的個(gè)數(shù),查全率的n就是人工標(biāo)注的某一觀點(diǎn)元素的個(gè)數(shù)。自由度為n-2。隨機(jī)比率0.5的p值指的是分類隨機(jī)比率50%的差異顯著性檢驗(yàn)。
最后總體差異顯著性檢驗(yàn)實(shí)驗(yàn)結(jié)果如表7所示??梢钥吹?本文與文獻(xiàn)[8]的平均實(shí)驗(yàn)結(jié)果在觀點(diǎn)元素組成部分的查準(zhǔn)率差異在0.05水平上顯著, 查全率不顯著;觀點(diǎn)元素功能的查全率在0.05水平上顯著,查準(zhǔn)率不顯著。這說(shuō)明本文使用CRF對(duì)中文評(píng)論挖掘和對(duì)英文評(píng)論挖掘的性能差異不大,進(jìn)一步驗(yàn)證了CRF對(duì)中文語(yǔ)料挖掘的有效性。
5.5 CRF方法與其它方法挖掘中文評(píng)論的比較
根據(jù)相關(guān)研究工作可知,L-HMM方法[12]與ARM(關(guān)聯(lián)規(guī)則挖掘)方法[1]分別是基于監(jiān)督挖掘方法與基于頻率統(tǒng)計(jì)方法的代表,本節(jié)將CRF與這兩種方法進(jìn)行兩個(gè)方面的比較。一個(gè)是方面抽
Table 7 Result of difference verification表7 差異檢驗(yàn)結(jié)果
注:上標(biāo)*,*分別表示結(jié)果在0. 01和0. 05水平上顯著,沒(méi)有*表示不顯著
取精度的比較,另一個(gè)是針對(duì)不同方面情感分類精度的比較。由于篇幅的原因,實(shí)驗(yàn)只針對(duì)數(shù)碼相機(jī)(Cannon PowerShot SX210 IS)這一被評(píng)價(jià)實(shí)體。實(shí)驗(yàn)有兩個(gè)目的,第一個(gè)目的是要觀察用戶給定被評(píng)價(jià)實(shí)體的方面?zhèn)€數(shù),這三種方法的抽取精確度;第二個(gè)目的是要觀察針對(duì)用戶給定的被評(píng)價(jià)實(shí)體的方面,尋找與該方面相關(guān)聯(lián)的觀點(diǎn)并按極性(肯定的或否定的)進(jìn)行分類的情況。從圖1中可以看出CRF方法無(wú)論用戶給定被評(píng)價(jià)實(shí)體的方面是多或是少,該方法抽取方面的精度均值在80%以上,高于L-HMM方法且遠(yuǎn)遠(yuǎn)高于ARM方法。這主要是因?yàn)锳RM方法只關(guān)心頻繁名詞所對(duì)應(yīng)的方面,而忽視了非頻繁出現(xiàn)的名詞以及一些抽象名詞也可能是被評(píng)論對(duì)象的某一個(gè)方面。
Figure 1 Comparison of aspect extraction accuracy圖1 方面抽取精度比較
對(duì)于不同抽取方法在情感分類精度上的比較結(jié)果如圖2所示。從圖2中可以看出,隨著用戶給定被評(píng)價(jià)實(shí)體的方面越來(lái)越多,CRF方法的方面級(jí)情感分類精度都遠(yuǎn)遠(yuǎn)高于ARM方法。這是因?yàn)楸疚脑谟?xùn)練數(shù)據(jù)集的準(zhǔn)備時(shí),對(duì)評(píng)論中某些暗含有觀點(diǎn)的名詞進(jìn)行了人工標(biāo)注,因而訓(xùn)練模型學(xué)習(xí)到了這方面的知識(shí),從而使得模型在使用階段能夠發(fā)現(xiàn)新的評(píng)論中具有這樣特點(diǎn)的詞。然而,由于L-HMM方法與ARM方法都沒(méi)有涉及到隱式的觀點(diǎn)詞,所以其分類精度要比CRF低。L-HMM方法高于ARM方法的原因是因?yàn)長(zhǎng)-HMM方法融合了多個(gè)重要的語(yǔ)言特性,如詞性標(biāo)注、詞的上下文環(huán)境暗示等。
Figure 2 Comparison of aspect sentiment classification accuracy圖2 方面情感分類精度比較
方面級(jí)意見(jiàn)挖掘的方法主要有兩大類:基于頻率統(tǒng)計(jì)的方法與基于監(jiān)督學(xué)習(xí)的方法。關(guān)聯(lián)挖掘算法是典型的基于頻率統(tǒng)計(jì)的方法,隱馬爾可夫模型和條件隨機(jī)場(chǎng)模型則是基于監(jiān)督學(xué)習(xí)的方法。目前這些方法主要針對(duì)的研究對(duì)象大部分是英文評(píng)論語(yǔ)料,并且條件隨機(jī)場(chǎng)模型是所有這些方法中精度最優(yōu)的模型。本文圍繞如何實(shí)現(xiàn)中文評(píng)論語(yǔ)料的方面級(jí)意見(jiàn)挖掘問(wèn)題,提出了利用條件隨機(jī)場(chǎng)實(shí)現(xiàn)中文評(píng)論語(yǔ)料的方面級(jí)意見(jiàn)挖掘的方法與步驟。通過(guò)數(shù)據(jù)實(shí)驗(yàn)分析與差異顯著性檢驗(yàn),表明了用條件隨機(jī)場(chǎng)實(shí)現(xiàn)中文評(píng)論的方面級(jí)意見(jiàn)挖掘是有效可行的。由于基于監(jiān)督學(xué)習(xí)的方法需要大量的人工標(biāo)注數(shù)據(jù),因而如何減少人工標(biāo)注工作量,提高挖掘的效率是本工作下一步研究的主要目標(biāo)。
[1] Hu Min-qing, Liu Bing. Mining and summarizing customer reviews[C]∥Proc of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2004:168-177.
[2] Li Zhuang, Feng Jing, Zhu Xiao-yan. Movie review mining and summarization[C]∥ Proc of the 15th ACM International Conference on Information and Knowledge Management, 2006:43-50.
[3] Zhao J,Liu K,Wang G.Adding redundant features for CRFs-based sentence sentiment classification[C]∥Proc of the Conference on Empirical Methods in Natural Language Processing,2008:117-126.
[4] Li Fang-tao, Han Chao, Huang Min-lie, et al. Structure-aware review mining and summarization[C]∥ Proc of the 23rd International Conference on Computational Linguistics (COLING-2010), 2010:653-661.
[5] Choi Y, Cardie C. Adapting a polarity lexicon using integer linear programming for domain-specific sentiment classification[C]∥Proc of the 2009 Conference on Empirical Methods in Natural Language Processing, 2009:590-598.
[6] Miao Q, Li Q, Zeng D. Mining fine grained opinions by using probabilistic models and domain knowledge[C]∥Proc of the 2010 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology-WI-IAT’10,2010:358-365.
[7] Jakob N, Gurevych I. Extracting opinion targets in a single and cross domain setting with conditional random fields[C]∥Proc of the 2010 Conference on Empirical Methods in Natural Language Processing, 2010:1035-1045.
[8] Chen Li, Qi Luo-le, Wang Feng. Comparison of feature-level learning methods for mining online consumer reviews[J]. Expert Systems with Applications, 2012, 39(10):9588-9601.
[9] Li Shi, Ye Qiang, Li Yi-jun, et al. Research on the approaches of mining product features from Chinese customer reviews on the internet[J]. Journal of Management Sciences in China, 2009,12(2):142-152.(in Chinese)
[10] Zhou Ya-qian, Guo Yi-kun, Huang Xuan-jing, et al. Chinese and English baseNP recognition based on a maximum entropy model[J]. Jouranl of Computer Research and Development, 2003, 40(3):440-446.(in Chinese)
[11] Liu D, Nocedal J. On the limited memory BFGS method for large scale optimization [J]. Mathematical Programming, 1989, 45(3):503-528.
[12] Jin W, Ho H, Srihari R. OpinionMiner:A novel machine learning system for web opinion mining and extraction[C]∥
Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2009:1195-1204.
附中文參考文獻(xiàn):
[9] 李實(shí),葉強(qiáng), 李一軍, 等.中文網(wǎng)絡(luò)客戶評(píng)論的產(chǎn)品特征挖掘方法研究[J].管理科學(xué)學(xué)報(bào),2009,12(2):142-152.
[10] 周雅倩, 郭以昆, 黃萱菁, 等. 基于最大熵方法的中英文基本名詞短語(yǔ)識(shí)別[ J ]. 計(jì)算機(jī)研究與發(fā)展, 2003, 40(3):440-446.
LüPin,born in 1973,PhD candidate,associate professor,her research interests include text mining, and sentiment analysis.
鐘珞(1957-),男,湖北武漢人,博士,教授,研究方向?yàn)橹悄芗夹g(shù)與智能系統(tǒng),軟件工程,知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘。E-mail:zhongluo@netease.com
ZHONGLuo,born in 1957,PhD,professor,his research interests include intelligent technology and system, software engineering, knowledge discover, and data mining.
蔡敦波(1981-),男,吉林長(zhǎng)春人,博士,講師,研究方向?yàn)橹悄芤?guī)劃、自動(dòng)推理和約束可滿足。E-mail:dunbocai@gmail.com
CAIDun-bo,born in 1981,PhD,lecturer,his research interests include intelligent planning, automated reasoning, and constraint satisfaction.
吳云韜(1973-),男,湖北恩施人,博士,教授,研究方向?yàn)榻y(tǒng)計(jì)信號(hào)處理中的信號(hào)檢測(cè)和參數(shù)估計(jì)、智能信息處理。E-mail:ytwu@sina.com
WUYun-tao,born in 1973,PhD,professor,his research interests include signal detection and parameter estimator of statistical signal processing, and intelligent information processing.
EffectiveminingproductfeaturesfromChinesereviewbasedonCRF
Lü Pin1,2,3,ZHONG Luo1,CAI Dun-bo2,3,WU Yun-tao2,3
(1.College of Computer Science and Technology,Wuhan University of Technology,Wuhan 430070;2.School of Computer Science and Engineering,Wuhan Institute of Technology,Wuhan 430073;3.Hubei Province Key Laboratory of Intelligent Robot,Wuhan Institute of Technology,Wuhan 430073,China)
The task of aspect-level opinion mining usually include the extraction of product entities from consumer reviews, the identification of opinion words that are associated with the entities, and the determination of these opinion’s polarities. Aiming at realizing aspect-level opinion mining for Chinese reviews, the paper proposes the four major steps: pre-processing; preparing the training set to learn the model; defining learning functions for conditional random field model; and applying the model to label new review data. At the same time, our experiments on the real Chinese reviews of five types of products show that the conditional random field based method can achieve 80% in most of performance indicators of extracted different types of review opinion elements. In order to verify the effectiveness of the proposed method, a test of the significance of difference is involved. Experiments report that there is scarcely difference of performance on conditional random field based method for both Chinese reviews and English reviews. Finally, we compare the precision of aspect extraction and the accuracy of sentiment classification based on three different methods, and the result shows that CRF-based method outperforms the other two such as lexicalized hidden markov model and association rule mining.
conditional random field; aspect-level opinion mining; opinion elements
2012-09-28;
:2013-02-02
國(guó)家自然科學(xué)基金青年基金資助項(xiàng)目(61103136);湖北省高等學(xué)校優(yōu)秀中青年科技創(chuàng)新團(tuán)隊(duì)計(jì)劃項(xiàng)目(T201206);湖北省智能機(jī)器人重點(diǎn)實(shí)驗(yàn)室開(kāi)放基金資助項(xiàng)目(200906)
1007-130X(2014)02-0359-08
TP274
:A
10.3969/j.issn.1007-130X.2014.02.027
呂品(1973-),女,湖北鄂州人,博士生,副教授,研究方向?yàn)槲谋就诰蚝颓楦蟹治觥-mail:lpwhict@163.com
通信地址:430073 湖北省武漢市武漢工程大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院Address:School of Computer Science and Engineering,Wuhan Institute of Technology,Wuhan 430073,Hubei,P.R.China