国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于產(chǎn)品屬性的條件句傾向性分析

2011-06-14 03:45林鴻飛
中文信息學(xué)報(bào) 2011年3期
關(guān)鍵詞:條件句連接詞傾向性

楊 源,林鴻飛

(大連理工大學(xué) 信息檢索研究室,遼寧 大連 116024)

1 引言

近些年來(lái),產(chǎn)品評(píng)論的傾向性分析一直是一個(gè)熱點(diǎn)研究問(wèn)題,具有很大的現(xiàn)實(shí)意義,不僅可以讓顧客更全面的了解產(chǎn)品信息,也為商家及時(shí)了解顧客的意見(jiàn)提供了幫助。產(chǎn)品評(píng)論中句式多種多樣,條件句占了很大比重,Narayanan等人[1]對(duì)英文評(píng)論中條件句(包含情感傾向?yàn)橹行缘?所占的比重進(jìn)行了簡(jiǎn)單的調(diào)查,大約占句子總量的8%左右。本文在語(yǔ)料采集過(guò)程中,也對(duì)中文評(píng)論中的條件句數(shù)量簡(jiǎn)單調(diào)查了一下,含有情感傾向的條件句超過(guò)了句子總量的6%,所以,研究條件句的傾向性分析很有意義。

條件句傾向性分析屬于產(chǎn)品屬性傾向性分析的范疇,在這個(gè)領(lǐng)域,已經(jīng)有很多人從不同角度進(jìn)行了研究。Hu等人[2]自動(dòng)獲取了評(píng)論中的產(chǎn)品屬性以及情感詞,但是這些情感詞主要是形容詞。Popesu等人[3]在Hu的基礎(chǔ)上,選用了更多的詞性作為情感詞,得到了比Hu更好的結(jié)果。Popesu和Hu在分析屬性傾向性時(shí)沒(méi)有考慮句式的影響,在“如果覺(jué)得諾基亞不好,那么建議你買三星”這句評(píng)論中,沒(méi)有“如果……那么”,諾基亞的情感是負(fù)的,加上了“如果……那么”,諾基亞的情感是中性的。Liu等人[4]發(fā)現(xiàn)比較句對(duì)產(chǎn)品的觀點(diǎn)表達(dá)有很大意義,并對(duì)比較句和比較關(guān)系進(jìn)行了抽取。Ganapathibhotla等人[5]后來(lái)在Liu的基礎(chǔ)上,分析了比較句中的屬性傾向性。宋銳等人[6]結(jié)合中文的特點(diǎn),在抽取比較關(guān)系[7]的基礎(chǔ)上,分析了屬性傾向性。Liu、Ganapathibhotla以及宋銳考慮了特殊句式,對(duì)比較句進(jìn)行了分析。條件句和比較句不同,有其自身的特點(diǎn),不能把處理比較句的方法簡(jiǎn)單的引入到條件句中。Narayanan分析了英文評(píng)論中的條件句,根據(jù)時(shí)態(tài)把條件句分為四類,但是時(shí)態(tài)特征在中文處理中并不適用,另外Narayanan也沒(méi)有考慮條件句的識(shí)別以及隱式條件句的分析。

本文在前人工作的基礎(chǔ)上,對(duì)中文產(chǎn)品評(píng)論中的條件句進(jìn)行識(shí)別,并分析其傾向性??紤]了不含有條件連接詞的隱式條件句,并從中抽取出體現(xiàn)條件關(guān)系的隱式條件詞。在識(shí)別條件句時(shí),主要利用條件連接詞和隱式條件詞及其詞性以及類序列規(guī)則進(jìn)行分類。在分析傾向性時(shí),依據(jù)條件連接詞和隱式條件詞把條件句分為假設(shè)條件句、讓步條件句、特定條件句和無(wú)條件句四類,并把條件句的類別用于SVM分類。本文的結(jié)構(gòu)安排如下: 第2節(jié)介紹相關(guān)術(shù)語(yǔ),第3節(jié)介紹條件句的語(yǔ)言學(xué)特征,第4節(jié)介紹條件句識(shí)別以及傾向性分析所選的特征和分類策略,第5節(jié)介紹實(shí)驗(yàn)結(jié)果和相關(guān)分析。

2 條件句分析相關(guān)術(shù)語(yǔ)

屬性: 實(shí)驗(yàn)語(yǔ)料選取手機(jī)評(píng)論,用屬性表示手機(jī)的一些具體特征,如屏幕、按鍵等,手機(jī)型號(hào)或品牌也屬于屬性的范圍。

條件連接詞: 把像“如果……那么”這樣表示條件關(guān)系的詞稱為條件連接詞。

顯式條件句和隱式條件句: 含有條件連接詞的稱為顯式條件句,不含有條件連接詞的稱為隱式條件句。

隱式條件詞: 隱式條件句中通常含有一些體現(xiàn)條件關(guān)系的詞,稱之為隱式條件詞。

情感傾向性: 用消極和積極來(lái)表示傾向性。Narayanan等人采用了積極、消極和中立三種類別,本文選取語(yǔ)料時(shí),過(guò)濾了中立的部分,進(jìn)行二值分類。

條件從句和結(jié)果從句: 條件句分為兩個(gè)部分,條件部分稱為條件從句,結(jié)果部分稱為結(jié)果從句。

條件引導(dǎo)詞和結(jié)果引導(dǎo)詞: 像“如果”這樣的引導(dǎo)條件從句的詞稱為條件引導(dǎo)詞,像“那么”這樣的引導(dǎo)結(jié)果從句的詞稱為結(jié)果引導(dǎo)詞。

3 條件句語(yǔ)言學(xué)分析

條件句是漢語(yǔ)中比較常用的句式,其語(yǔ)言特點(diǎn)可以為條件句傾向性分析提供重要的特征。下面詳細(xì)介紹一下條件句的一些語(yǔ)言特點(diǎn)。

3.1 條件連接詞

產(chǎn)品評(píng)論中的條件句主要是顯式條件句,含有條件連接詞,這些詞體現(xiàn)了條件關(guān)系。

“如果……那么”是最具代表性的條件連接詞,“如果”引導(dǎo)條件從句,“那么”引導(dǎo)結(jié)果從句,如引言中所舉的例子,條件連接詞會(huì)影響屬性的傾向性。條件句中的整體情感往往與結(jié)果從句的情感相一致。

有些條件句會(huì)省略條件引導(dǎo)詞,有些條件句會(huì)省略結(jié)果引導(dǎo)詞。例如“如果你覺(jué)得諾基亞不好看,還是買三星吧”。

漢語(yǔ)中還有很多其他的條件連接詞,如“只要……就”、“只有……才”等。

常用的條件連接詞有限,在總結(jié)的基礎(chǔ)上手工建立了一個(gè)表。

3.2 隱式條件詞

隱式條件句中沒(méi)有條件連接詞,但是含有一些體現(xiàn)條件關(guān)系的隱式條件詞,表1是隱式條件句傾向性分析的例子。

表1 隱式條件句傾向性分析舉例

續(xù)表

表1所舉的例子都是隱式條件句,都是通過(guò)隱式條件詞來(lái)表示條件關(guān)系的,下面詳細(xì)介紹隱式條件詞。

“本來(lái)”是對(duì)結(jié)果從句的虛擬,“本來(lái)”引導(dǎo)的句子后面往往會(huì)有對(duì)這一原因的解釋,暗含這樣一種語(yǔ)義,如果不是后面闡述的原因,虛擬的結(jié)果就會(huì)成為現(xiàn)實(shí)。

“將會(huì)”、“將”除了對(duì)將來(lái)情況的一般表述之外,也可以引導(dǎo)結(jié)果從句,這時(shí)并不表示一種將來(lái)的情況,而是表示一種推測(cè),一種假設(shè),當(dāng)然也可以反映出一種情感,一種傾向。

“……的時(shí)候”、“有時(shí)”和“有時(shí)候”等是表示時(shí)間的詞,在漢語(yǔ)表達(dá)中,它們更多的是表示一種條件,反映一種情況,引導(dǎo)條件從句。

“不得不”通常在條件從句中,有時(shí)會(huì)省略結(jié)果從句,暗含一種如果不說(shuō),心里就會(huì)不痛快的情感傾向。也可以理解為“如果不……將會(huì)……”的意思。

“再”、“再次”表示一種假設(shè)的條件,常用在表示某人再做某事,或者某種情況再發(fā)生時(shí),這種再次發(fā)生的事情并不一定真的發(fā)生,只是一種假設(shè)的情況,說(shuō)明一種條件,如表1中的舉例就只是假設(shè)一種條件。

“……的話”經(jīng)常跟“如果”同時(shí)使用,是一種口語(yǔ)化的表達(dá),但是有些條件句省略了“如果”,這時(shí)就可以用它來(lái)表示條件關(guān)系了。

“幸好”表達(dá)這樣一種語(yǔ)義: 如果不是這樣就后悔死了。也可以表示一種假設(shè)的條件關(guān)系。

“不然”、“不這樣”、“否則”通常引導(dǎo)結(jié)果從句,可以解釋為“如果不……就”,所以當(dāng)然可以表示條件關(guān)系了。

隱式條件征詞不僅在隱式條件句中出現(xiàn),在顯式條件句中也大量出現(xiàn),跟條件連接詞一起表示條件關(guān)系,如“如果你再買手機(jī)的話,千萬(wàn)不要買三星了”。句中“如果”和“再”以及“……的話”一起出現(xiàn),這是口語(yǔ)化表達(dá)的一個(gè)特點(diǎn)。

在抽取隱式條件詞時(shí),采用了三種方式: 首先,手工總結(jié)了一個(gè)隱式條件詞表;其次,通過(guò)《同義詞詞林》[8],擴(kuò)充了一些同義詞;最后,根據(jù)隱式條件詞與條件連接詞經(jīng)常共現(xiàn)的特點(diǎn),自動(dòng)從語(yǔ)料中抽取了一些在條件連接詞附近,與條件連接詞共現(xiàn)頻率高的詞,如“即使……也”經(jīng)常與“仍然”同時(shí)出現(xiàn)。當(dāng)然,與條件連接詞同時(shí)出現(xiàn)的還有很多其他的詞,如產(chǎn)品品屬性和情感詞,所以抽取時(shí)只抽取了連詞、副詞和介詞和一些表達(dá),然后去除了停用詞、情感詞等不可能是隱式條件詞的詞。

3.3 條件句分類

中文條件句一般可分為假設(shè)條件句、特定條件句和無(wú)條件句三類[9]。為了屬性傾向性分析的需要,把假設(shè)條件句中含有讓步成分的條件句單獨(dú)分離出來(lái),作為一類,定義為讓步條件句。把條件句分為假設(shè)條件句、讓步條件句、特定條件句和無(wú)條件句四類,并非是對(duì)中文條件句的語(yǔ)義關(guān)系進(jìn)行可以劃分,而是為了更好的分析屬性傾向性,所以這與條件句通常的三類分法并不矛盾。表2是部分條件連接詞與隱式條件詞分類實(shí)例。

表2 部分條件連接詞與隱式條件詞分類表

條件句分類主要是根據(jù)條件連接詞和隱式條件詞,下面詳細(xì)介紹條件句的四種分類。

假設(shè)條件句: 假設(shè)條件句中條件從句通常指出一種假設(shè)的條件,結(jié)果從句說(shuō)明在這種條件下會(huì)出現(xiàn)的結(jié)果。假設(shè)條件句通常用“如果……那么”、“假如”、“倘若”等條件連接詞來(lái)表達(dá)。假設(shè)條件句中條件從句和結(jié)果從句通常具有一致的情感,如“如果諾基亞N73的屏幕不好,我就不買了”,條件從句和結(jié)果從句對(duì)N73的屏幕都持消極情感。

讓步條件句: 讓步條件句的條件從句通常指出一種讓步的條件,用“即使……也”、“縱然”、“盡管”等條件連接詞來(lái)表達(dá),讓步條件句中條件從句和結(jié)果從句往往具有不一致的情感,如“即使三星的按鍵不好用,我也喜歡三星”,條件從句對(duì)三星持消極情感,結(jié)果從句對(duì)三星持積極情感,這也是本文把讓步條件句從假設(shè)條件句中分離出來(lái)單獨(dú)歸類的原因,這樣做更有利于屬性傾向性的判別。

特定條件句: 特定條件句的條件從句通常表示的是一種特定的、單一的條件,結(jié)果從句表示在這一特定條件下的結(jié)果。特定條件句通常用“只有……才”、“只要……就”等條件連接詞來(lái)表達(dá)。

無(wú)條件句: 無(wú)條件句的條件從句通常給出的是一種泛化的條件,結(jié)果從句表示的是這種泛化條件下的結(jié)果。無(wú)條件句通常用“無(wú)論……都”、“不管”等條件連接詞來(lái)表達(dá)。無(wú)條件句的傾向性通常由結(jié)果從句來(lái)決定,例如“無(wú)論其他品牌手機(jī)的外觀怎樣,三星的外觀設(shè)計(jì)都有自己的獨(dú)到之處”,結(jié)果從句表達(dá)的是對(duì)三星手機(jī)外觀的積極情感。

條件句分類主要根據(jù)條件連接詞和隱式條件詞,常用的條件連接詞有限,顯式條件句可以根據(jù)條件連接詞表分類,隱式條件句的分類分為兩種情況: 一種是含有手工獲得的隱式條件詞及其同義詞,可以類比顯式條件句直接分類;另一種只含有自動(dòng)抽取的隱式條件詞,根據(jù)抽取時(shí)與其共現(xiàn)的條件連接詞進(jìn)行分類。

4 條件句識(shí)別與傾向性分析

4.1 條件句識(shí)別

對(duì)產(chǎn)品評(píng)論中的條件句進(jìn)行分析,首先要識(shí)別出條件句,Jindal等人[10]做了許多比較句識(shí)別的工作,條件句的識(shí)別與比較句有類似的地方,僅通過(guò)條件連接詞和隱式條件詞,在條件句識(shí)別實(shí)驗(yàn)中就得到了很高的召回率,但是準(zhǔn)確率不高,因此,可以把條件句的識(shí)別分為兩步:

(1) 識(shí)別出含有條件連接詞和隱式條件詞的句子,作為候選條件句;

(2) 把候選條件句進(jìn)一步處理分類,得到真正的條件句。

第一步比較容易實(shí)現(xiàn),下面主要介紹第二步。

觀察候選條件句中非條件句的句子,發(fā)現(xiàn)這些句子中含有的條件連接詞和隱式條件詞的詞性與條件句中的詞性不同,如表3所示,其中詞性標(biāo)注使用中國(guó)科學(xué)院的分詞工具ICTCLAS[11]。

表3 條件連接詞和隱式條件詞詞性不同舉例

表3中,兩個(gè)例句的“那么”詞性不一樣,第一句是條件句,而第二句不是條件句,候選條件句中有很多這樣的句子。對(duì)于這些句子,可以把詞性加入分類特征來(lái)解決。

但是有些非條件句中,條件特征詞和隱式條件詞的詞性與條件句相同,如表4所示。

表4 條件連接詞和隱式條件詞詞性相同舉例

表4中第一句是條件句,第二句不是,兩句中“會(huì)”的詞性相同,仔細(xì)觀察發(fā)現(xiàn)周圍使用的詞不同,根據(jù)這一特點(diǎn),采用類序列規(guī)則的方法可以幫助條件句的識(shí)別。這時(shí)需要把條件連接詞和隱式條件詞分為條件引導(dǎo)詞和結(jié)果引導(dǎo)詞兩類,分別用TJ和JG表示。條件連接詞以及手工獲取的隱式條件詞的分類比較直觀,對(duì)于自動(dòng)抽取的隱式條件詞,根據(jù)抽取時(shí)與其共現(xiàn)的條件連接詞進(jìn)行分類。引導(dǎo)詞周圍的詞只取詞性,因?yàn)闂l件句與非條件句中引導(dǎo)詞周圍的詞相差很大,只選取了引導(dǎo)詞左右各一個(gè)詞,如“你喜歡外觀漂亮的手機(jī)的話,那么我推薦諾基亞N73”得到的序列為{w}{JG}{r}。

識(shí)別條件句時(shí),采用樸素貝葉斯模型進(jìn)行分類,

(1)

公式(1)中s表示一條句子,ci表示句子的類別,C表示句子s的類別,Aj表示句子中的一個(gè)特征,aj表示特征的取值。

公式(2)是公式(1)中P(Aj=aj|C=ci)的計(jì)算公式,其中nij是同時(shí)滿足Aj=aj和C=cj的句子數(shù),ni是類別為ci的句子數(shù),mj是Aj可能取值的總數(shù),λ是平滑因子,實(shí)驗(yàn)中取λ=1。

通過(guò)公式(1)分別算出一個(gè)句子是條件句和非條件句的概率,取概率大的作為該句子的類別。

4.2 條件句屬性傾向性分析

條件句中出現(xiàn)多種屬性時(shí),由于句式比較復(fù)雜,分析起來(lái)比較困難,暫時(shí)只考慮單一屬性的句子,把多種屬性的分析作為下一步的工作。但是有兩種情況也按照單一屬性處理: 一種是手機(jī)型號(hào)或品牌與具體特征同時(shí)出現(xiàn)的時(shí)候,只考慮具體特征;另一種情況是句中出現(xiàn)兩個(gè)屬性,其中一個(gè)屬性的傾向性在條件句中按中性處理,不加考慮,如“如果覺(jué)得諾基亞不好,那么建議你買三星”,只考慮三星,不考慮諾基亞,認(rèn)為諾基亞的情感是中性。

Narayanan等人分析英文條件句傾向性時(shí),采用了svm分類的方法,采用了普通句式中分析傾向性的特征,如否定詞、情感詞等,并根據(jù)時(shí)態(tài)把條件句分為四類,用于傾向性分類。然而時(shí)態(tài)特征在中文分析中不適用,根據(jù)漢語(yǔ)的特點(diǎn),可以根據(jù)條件連接詞以及隱式條件詞把條件句分為假設(shè)條件句、讓步條件句、特定條件句和無(wú)條件句四類,用于條件句傾向性分析。下面簡(jiǎn)單介紹一下除了條件句類別特征之外的其他特征,這些特征是屬性傾向性分析中經(jīng)常采用的特征。

(1) 情感詞。實(shí)驗(yàn)采用大連理工大學(xué)信息檢索研究室的情感詞匯本體[12](以后簡(jiǎn)稱為情感詞匯本體)進(jìn)行情感詞的識(shí)別以及情感詞傾向性的分析,另外,有些情感詞的傾向性和手機(jī)屬性相關(guān)聯(lián),主要根據(jù)手工建立的手機(jī)屬性和情感詞搭配表來(lái)解決這部分情感詞的傾向性問(wèn)題,如表5所示。

表5 屬性和情感詞搭配表示例

(2) 副詞。副詞總是和情感詞緊密聯(lián)系在一起的,雖然情感詞匯本體中已經(jīng)包含了一定數(shù)量的副詞可以用來(lái)表達(dá)傾向性,還有一些副詞,如“特別”、“簡(jiǎn)直”等會(huì)加重所修飾情感詞的強(qiáng)度,本文也把這些副詞作為特征的一部分。

(3) 否定詞。在屬性傾向性判別中,否定詞是一類重要特征,否定詞的出現(xiàn)會(huì)改變傾向性的極性,主要考慮情感詞周圍3個(gè)詞之內(nèi)的否定詞。

(4) 手機(jī)屬性的位置。手機(jī)屬性的識(shí)別采用查表的方式,屬性的位置特征是指屬性是出現(xiàn)在條件從句中或者是結(jié)果從句中。這是Narayanan等人采用的一個(gè)特征。

條件句是根據(jù)條件連接詞和隱式條件詞進(jìn)行分類的,所以這兩類詞也是重要特征,只是與類別特征產(chǎn)生重復(fù),實(shí)驗(yàn)中在baseline特征集的基礎(chǔ)上分別加入這兩類特征,進(jìn)行了比較。

5 實(shí)驗(yàn)

5.1 條件句識(shí)別實(shí)驗(yàn)

實(shí)驗(yàn)語(yǔ)料是來(lái)自IT168網(wǎng)站[13]的2 300條句子,其中1 112條是條件句,條件連接詞或隱式條件詞都是分類的關(guān)鍵詞,簡(jiǎn)稱為關(guān)鍵詞,實(shí)驗(yàn)分為四個(gè)部分。

(1) 利用是否含有關(guān)鍵詞來(lái)抽取條件句。

(2) 利用關(guān)鍵詞的詞性進(jìn)行貝葉斯分類。

(3) 利用關(guān)鍵詞抽取的類序列規(guī)則進(jìn)行貝葉斯分類,類序列規(guī)則抽取的最小支持度設(shè)為5%。

(4) 利用關(guān)鍵詞的詞性以及類序列規(guī)則進(jìn)行貝葉斯分類。

實(shí)驗(yàn)結(jié)果如圖1所示。

圖1 條件句識(shí)別實(shí)驗(yàn)結(jié)果

從圖1中可以看到,在識(shí)別條件句時(shí),利用關(guān)鍵詞的詞性進(jìn)行分類以及利用關(guān)鍵詞抽取的類序列規(guī)則進(jìn)行分類,都比僅利用是否含有關(guān)鍵詞來(lái)抽取條件句要得到更好的準(zhǔn)確率,雖然召回率下降,但是F值卻提高了,另外利用關(guān)鍵詞抽取的類序列規(guī)則進(jìn)行分類的結(jié)果要好于利用關(guān)鍵詞的詞性進(jìn)行分類的結(jié)果,因?yàn)椴煌~性的關(guān)鍵詞得到的類序列規(guī)則也不同,當(dāng)同時(shí)考慮詞性和類序列規(guī)則時(shí),得到了最好的結(jié)果。

5.2 傾向性分析

實(shí)驗(yàn)語(yǔ)料是來(lái)自IT168網(wǎng)站的1 109條條件句評(píng)論,采用一定的規(guī)則進(jìn)行抽取,再進(jìn)行手工標(biāo)注,實(shí)驗(yàn)語(yǔ)料全部是有關(guān)手機(jī)的評(píng)論,其中762條為顯式條件句,347條為隱式條件句,條件句為顯式或隱式,主要看該句是否含有條件連接詞,同一類的顯式或隱式條件句對(duì)屬性傾向性的表達(dá)類似,隱式條件句如果加上合適的條件連接詞,可以成為顯式條件句,所以屬性傾向性分類時(shí)不考慮條件句是顯式或是隱式。

分詞工具使用中國(guó)科學(xué)院的ICTCLAS,實(shí)驗(yàn)的設(shè)計(jì)主要是為驗(yàn)證把條件句分為四類對(duì)屬性傾向性分析中的影響,因此把情感詞、副詞、否定詞以及手機(jī)屬性的位置四類特征作為Baseline特征集,在Baseline特征集的基礎(chǔ)上分別考慮了條件連接詞和隱式條件詞、三類分法以及四類分法對(duì)屬性傾向性分類的影響。實(shí)驗(yàn)中各類特征所占的比例如表6所示,實(shí)驗(yàn)采用6倍交叉驗(yàn)證,實(shí)驗(yàn)結(jié)果如表7所示。

表7 條件句傾向性判別結(jié)果

表7的結(jié)果顯示,在Baseline特征集的基礎(chǔ)上,加入四類分法,得到了最好的結(jié)果,說(shuō)明按條件連接詞和隱式條件詞把條件句分為四類有助于屬性傾向性分析。

條件句的三類分法是把假設(shè)條件句和讓步條件句合為一類,如3.3節(jié)所述,假設(shè)條件句中條件從句和結(jié)果從句的情感通常一致,而讓步條件句中條件從句和結(jié)果從句的情感通常不一致,把兩類句子放在一類會(huì)影響傾向性的結(jié)果,所以加入三類分法的結(jié)果不如四類分法,也不如加入條件連接詞和隱式條件詞的結(jié)果。

條件句是根據(jù)條件連接詞和隱式條件詞分為四類的,而四類分法的結(jié)果好于條件連接詞和隱式條件詞的結(jié)果,是因?yàn)橹苯蛹尤腩悇e特征可以起到減少向量維數(shù),降低向量稀疏的作用,所以效果更好。表8顯示了600條評(píng)論的實(shí)驗(yàn)結(jié)果。

表8 600條評(píng)論的結(jié)果

表8是600條評(píng)論的實(shí)驗(yàn)結(jié)果,與表7的結(jié)果相比,都有下降,因?yàn)闄C(jī)器學(xué)習(xí)在語(yǔ)料規(guī)模較大時(shí)效果更好,但是加入條件連接詞和隱式條件詞的結(jié)果下降的更快,因?yàn)橛脳l件連接詞和隱式條件詞做特征,相當(dāng)于把條件句分成了更多種的類別,隨著語(yǔ)料規(guī)模的下降,會(huì)影響機(jī)器學(xué)習(xí)的結(jié)果。

在實(shí)驗(yàn)過(guò)程中還有一些因素會(huì)對(duì)結(jié)果造成影響,下面詳細(xì)介紹一下。

(1) 分詞過(guò)程會(huì)有一定的偏差,從而導(dǎo)致對(duì)語(yǔ)料的分析以及特征的選取會(huì)出現(xiàn)一定的偏差,影響實(shí)驗(yàn)結(jié)果。

(2) 語(yǔ)料中有一些條件句不含有情感詞,而是用口語(yǔ)化的表達(dá)方式來(lái)表達(dá)情感,例如,“如果電池短信一天超過(guò)500字,那么待機(jī)時(shí)間就在三天之內(nèi)”,本句對(duì)待機(jī)時(shí)間持否定情感,但是句中不含有情感詞,按照常識(shí)可以判斷出表達(dá)的是消極含義,但是很難用情感詞表、或一般的特征選擇來(lái)解決,這類條件句的傾向性比較難判定,會(huì)影響實(shí)驗(yàn)結(jié)果。

6 結(jié)論

本文主要識(shí)別產(chǎn)品評(píng)論中的條件句并分析句中屬性的傾向性。條件句中一般都含有條件連接詞,隱式條件句不含有條件連接詞,但是一般都含有體現(xiàn)條件關(guān)系的隱式條件詞。識(shí)別條件句時(shí),主要依據(jù)條件連接詞和隱式條件詞及其詞性以及類序列規(guī)則進(jìn)行分類;分析屬性傾向性時(shí),依據(jù)條件連接詞和隱式條件詞把條件句分為假設(shè)條件句、讓步條件句、特定條件句和無(wú)條件句四類,并把條件句的類別用于SVM分類。通過(guò)實(shí)驗(yàn)證明了該方法有助于條件句傾向性分類。

分析產(chǎn)品評(píng)論的傾向性時(shí),仍存在一定的不足。產(chǎn)品評(píng)論中有一些口語(yǔ)化的表達(dá)方式?jīng)]有一定的語(yǔ)法可依,新出現(xiàn)的一些情感表達(dá)常識(shí)不能用往常的分詞和情感詞抽取方法來(lái)識(shí)別,對(duì)實(shí)驗(yàn)的結(jié)果會(huì)有一定的影響。

下一步的工作可以對(duì)多屬性條件句傾向性分析,抽取產(chǎn)品評(píng)論中的條件關(guān)系,以及對(duì)產(chǎn)品評(píng)論中口語(yǔ)化情感表達(dá)方式進(jìn)行研究。

[1] Ramanathan Narayanan, Bing Liu and Alok Choudhary. Sentiment Analysis of Conditional Sentences[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing (EMNLP-09), Singapore,2009.

[2] Minqing Hu and Bing Liu. Mining and Summarizing Customer Reviews[C]//Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD-2004), Seattle, Washington, USA, 2004.

[3] M. Popescu and O. Etzioni. Extracting Product Features and Opinions From Reviews[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP 2005). Vancouver, B.C., Canada,2006: 339-346.

[4] Bing Liu, Minqing Hu and Junsheng Cheng. Opinion Observer: Analyzing and Comparing Opinions on the Web[C]//Proceedings of the 14th international World Wide Web conference (WWW-2005), Chiba, Japan,2005.

[5] Murthy Ganapathibhotla and Bing Liu. Mining Opinions in Comparative Sentences[C]//Proceedings of the 22nd International Conference on Computational Linguistics (Coling-2008), Manchester, 2008.

[6] Rui Song, Hongfei Lin. Comparative Components Extraction-based Feature Opinion Summarization[J]. Journal of Information and Computational Science. 2009,6(2): 1077-1085.

[7] 宋銳, 林鴻飛, 常富洋. 中文比較句識(shí)別及比較關(guān)系抽取[J]. 中文信息學(xué)報(bào), 2009, 23(2):102-107.

[8] HIT-IRLab-同義詞詞林(擴(kuò)展版)[DB/OL],哈爾濱工業(yè)大學(xué)信息檢索研究室: http://ir.hit.edu.cn/.

[9] 胡裕樹(shù). 現(xiàn)代漢語(yǔ)[M]. 上海: 上海教育出版社, 1981.

[10] Nitin Jindal and Bing Liu. Identifying Comparative Sentences in Text Documents[C]//Proceedings of the 29th Annual International ACM SIGIR Conference on Research & Development on Information Retrieval (SIGIR-06), Seattle,USA,2006.

[11] 中國(guó)科學(xué)院http://ictclas.org[CP/OL].

[12] 徐琳宏, 林鴻飛,潘宇,等. 情感詞匯本體的構(gòu)造[J]. 情報(bào)學(xué)報(bào),2008, 27(2):180-185.

[13] IT168[EB/OL].http://pinglun.it168.com.

猜你喜歡
條件句連接詞傾向性
連動(dòng)結(jié)構(gòu)“VP1來(lái)VP2”的復(fù)句化及新興小句連接詞“來(lái)”的形成
基于模糊數(shù)學(xué)法的阿舍勒銅礦深部巖體巖爆傾向性預(yù)測(cè)
超重/肥胖對(duì)兒童腸套疊空氣灌腸復(fù)位的預(yù)后影響:傾向性評(píng)分匹配分析
四部電影版《小婦人》
賓語(yǔ)從句的語(yǔ)序
Hiddleston’s Causal Modeling Semantics and the Distinction between Forward-Tracking and Backtracking Counterfactuals*
吸引閱卷老師的“連接詞”
“沒(méi)準(zhǔn)兒”“不一定”“不見(jiàn)得”和“說(shuō)不定”的語(yǔ)義傾向性和主觀性差異
一種面向博客群的主題傾向性分析模型
麻雀作文
安岳县| 海城市| 会理县| 遵义县| 阜南县| 高雄县| 三原县| 饶河县| 浪卡子县| 长春市| 鄢陵县| 石棉县| 科技| 曲沃县| 来安县| 石城县| 青神县| 房产| 紫云| 云林县| 武山县| 青海省| 绥江县| 增城市| 鄂州市| 辽宁省| 左云县| 柞水县| 卫辉市| 车险| 沂源县| 绥芬河市| 博客| 临颍县| 和政县| 巴里| 余江县| 富民县| 江安县| 公安县| 武平县|