国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于句法結(jié)構(gòu)的評價(jià)對象抽取方法在不同模板上的性能分析

2017-06-06 11:54:24楊云
關(guān)鍵詞:定義對象模板

楊云

基于句法結(jié)構(gòu)的評價(jià)對象抽取方法在不同模板上的性能分析

楊云

文本情感分析是自然語言處理領(lǐng)域的一個重要研究課題,主要是對網(wǎng)絡(luò)上的主觀性文本信息(如評論,微博等)進(jìn)行處理。評價(jià)對象抽取是文本情感分析的重要組成部分,目的是抽取出主觀性文本中每句話所描述的實(shí)體及其屬性,以便為情感分析的其他任務(wù)提供幫助。本文通過深入分析經(jīng)預(yù)處理后句子的句法結(jié)構(gòu),在已有特征上加入了三種特征,并分析在不同窗口大小下的模板性能,選擇性能最佳的模板以抽取更為準(zhǔn)確的評價(jià)對象。

句法結(jié)構(gòu);情感分析;評價(jià)對象;模板

一、相關(guān)知識介紹

文本情感分析[1]亦稱評論挖掘,是把有情感色彩的主觀性文本進(jìn)行分析、處理和歸納的過程,是一個重要且有應(yīng)用價(jià)值的研究課題[2]。評價(jià)對象抽取[3][4][5]即抽取出該主觀句中所表達(dá)的中心思想,也就是說,抽取出該句中所表明的主題,如句子“昨天在京東買了一款手機(jī),它的像素還不錯”中所要抽取的評價(jià)對象是“像素”。

本文選用CRF模型的實(shí)現(xiàn)CRF++0.53工具包(http://taku910.github.io/crfpp/網(wǎng)站可供下載)作為序列標(biāo)記工具,用于標(biāo)記并識別評價(jià)對象。該工具的核心文件為crf_learn.exe與crf_test.exe,分別用于訓(xùn)練與識別。用于評價(jià)對象抽取的識別過程,是將特征提取后的結(jié)果與相應(yīng)的模板(根據(jù)需要自行定義)輸入到crf_learn.exe中訓(xùn)練,則會自動生成模型(model);利用crf_test.exe文件,通過上步生成的model進(jìn)行標(biāo)記;最后將標(biāo)記為評價(jià)對象(B-tgt)的特征抽取出即可。

句法分析是指分析句中的詞與詞之間的某種依存關(guān)系,即反映該句的句法結(jié)構(gòu)信息。在文本情感分析領(lǐng)域中,它主要針對主觀性文本進(jìn)行句法分析。現(xiàn)有的句法分析工具主要有斯坦福大學(xué)開發(fā)的Parser,McDonald的MSTParser及哈爾濱工業(yè)大學(xué)開發(fā)的語言技術(shù)平臺——LTP。本文選用斯坦福的Parser進(jìn)行句法分析。在使用句法分析工具之前,應(yīng)先對原始語料進(jìn)行分詞處理,再把分詞后的結(jié)果輸入到句法分析工具中,得到分析結(jié)果。

為驗(yàn)證算法的有效性,本文選用信息檢索領(lǐng)域常用的評價(jià)指標(biāo)P、R、F作為評價(jià)對象抽取效果的驗(yàn)證指標(biāo),具體的如公式1、2和3所示。

其中,P:準(zhǔn)確率,指識別正確的評價(jià)對象與系統(tǒng)檢索出的評價(jià)對象的比值;R:召回率,指識別正確的評價(jià)對象與實(shí)際正確的評價(jià)對象的比值;F:F值,指準(zhǔn)確率與召回率的調(diào)和平均值。

另外,為進(jìn)一步減少實(shí)驗(yàn)的誤差,本文選用k折交叉驗(yàn)證的方式來確定最終的實(shí)驗(yàn)性能。將特征提取的結(jié)果隨機(jī)分成k份,隨機(jī)選取其中的k-1份作為訓(xùn)練數(shù)據(jù),剩下的1份作為測試數(shù)據(jù);將k-1份訓(xùn)練數(shù)據(jù)訓(xùn)練成模型,再用模型來識別測試數(shù)據(jù);以上過程重復(fù)k次來確保結(jié)果更加精準(zhǔn)。對于k的取值,本文將k設(shè)為10。理論上折數(shù)越大測試的系統(tǒng)性能越準(zhǔn)確,當(dāng)折數(shù)達(dá)到十折,已足以讓系統(tǒng)性能達(dá)到最優(yōu)。因此,本文采用十折交叉驗(yàn)證的方式來驗(yàn)證系統(tǒng)性能的準(zhǔn)確性。

要想更為準(zhǔn)確地抽取評價(jià)對象,選取窗口大小適宜的模板尤為重要。對此,本文在7種窗口大小的模板上進(jìn)行了實(shí)驗(yàn)與驗(yàn)證。

二、模板定義

模板反映了每句評論句中詞間的上下文信息。模板的選取對于實(shí)驗(yàn)的特征選取起著關(guān)鍵作用。模板用于控制詞之間的窗口大小,窗口過小,所包含信息過少,特征利用不全面,導(dǎo)致系統(tǒng)性能降低;窗口過大,引入了過多的信息,降低了運(yùn)行效率,實(shí)驗(yàn)效果也未必提高。

定義:大小為2n+1的窗口:(w-n,w-(n-1),…,w0,…,wn-1,wn)。代表以當(dāng)前詞為中心,把窗口大小設(shè)定為前后各n個詞語。

本文采用該定義方法來定義模板,模板的大小用于限定組成評價(jià)對象的詞語的數(shù)量,為探索性能最佳的模板,本文將探討當(dāng)窗口大小為2—7的系統(tǒng)性能變化。因?yàn)樵u價(jià)對象由單個詞或詞組組成,評價(jià)對象的長度一般都不超過2,因此探討評價(jià)對象長度在3以內(nèi)的系統(tǒng)性能變化,即窗口大小為2—7。

本文將模板定義成三類,以當(dāng)前詞為中心,考慮當(dāng)前詞的前后各一個詞、各兩個詞和各三個詞。具體定義如下:

1.模板一可分以下三種情況:

tmp1-=(-1,0)表示以當(dāng)前詞為中心,考慮當(dāng)前詞的前一個詞,即窗口大小為2。

tmp1=(-1,0,1)表示以當(dāng)前詞為中心,考慮當(dāng)前詞的前、后各一個詞,即窗口大小為3。

tmp1+=(0,1)表示以當(dāng)前詞為中心,考慮當(dāng)前詞的后一個詞,即窗口大小為2。

其中,tmp1-與tmp1+主要反映了模板的非對稱性,將用實(shí)驗(yàn)來驗(yàn)證模板一中的三個模板的性能。

2.模板二的定義:

tmp2-=(-2,-1,0)表示以當(dāng)前詞為中心,考慮當(dāng)前詞的前兩個詞,即窗口大小為3。

tmp2=(-2,-1,0,1,2)表示以當(dāng)前詞為中心,考慮當(dāng)前詞的前、后各兩個詞,即窗口大小為5。

tmp2+=(0,1,2)表示以當(dāng)前詞為中心,考慮當(dāng)前詞的后兩個詞,即窗口大小為3。

其中,tmp2-與tmp2+同樣是非對稱模板。

3.模板三的定義:

tmp3=(-3,-2,-1,0,1,2,3)表示以當(dāng)前詞為中心,考慮當(dāng)前詞的前、后各三個詞,即窗口大小為7。由于評論中的言語一般比較簡潔,很少有長度超過7的評價(jià)對象,因此,這里就只驗(yàn)證對稱模板這種形式。

以tmp1模板、tmp2模板與tmp3模板為例,具體的定義如表1、表2及表3所示。依此類推。

表1 tmp1模板定義

表2 tmp2模板定義

表3 tmp3模板定義

以上是對tmp1模板、tmp2模板與tmp3模板的定義,tmp1-、tmp1+、tmp2-、tmp2+的定義與其類似。

三、實(shí)驗(yàn)設(shè)置

本文的對比實(shí)驗(yàn)采用Jakob[6]的方法,因此選用了與其相同的數(shù)據(jù)集,對三個數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。選用了DarmstadtServiceReviewCorpus(DSRC)數(shù)據(jù)集(http://www.ukp.tu-darmstadt.de/data/sentiment-analysis/)的“服務(wù)”數(shù)據(jù)集234篇,“大學(xué)”數(shù)據(jù)集256篇,TheInternetMovieDatabase(IMDb)數(shù)據(jù)集(http://www.imdb.com/)的“電影”領(lǐng)域的評論1829篇。

本文的對比實(shí)驗(yàn)內(nèi)容主要為Jakob文中的5個特征——已有特征,分別是詞特征、詞性特征、最短依存路徑特征、最短詞距離特征和主觀句特征。在已有特征的基礎(chǔ)上,通過深入分析句子的句法結(jié)構(gòu),加入了情感詞特征、依存關(guān)系特征及依存關(guān)系詞特征,并結(jié)合相應(yīng)的模板來驗(yàn)證特征的選擇對評價(jià)對象抽取的性能影響。具體的特征定義如下:

特征一:詞特征(tk),指詞本身。

特征二:詞性特征(pos),指該詞所對應(yīng)的詞性。

特征三:最短依存路徑(dLn),該特征為布爾型特征。用于判斷當(dāng)前詞是否是與情感詞有直接依存關(guān)系的詞,若是,則記為1;反之,記為0。

特征四:最短詞距離特征(wDs),該特征為布爾型特征。用于判斷當(dāng)前詞是否是與情感詞最近的名詞,若是,則記為1;反之,記為0。

特征五:主觀句特征(sSn),該特征為布爾型特征。用于判斷當(dāng)前詞所在的句子是否是主觀句,若是,則記為1;反之,記為0。

特征六:情感詞特征(stWord),該特征為布爾型特征。用于判斷當(dāng)前詞是否為情感詞,若是,則記為1;反之,記為0。

特征七:依存關(guān)系特征(tkRel),表示與當(dāng)前詞有依存關(guān)系的詞的依存標(biāo)簽。

特征八:依存關(guān)系詞特征(rWord),表示與當(dāng)前詞有直接依存關(guān)系的詞。

在評價(jià)方式上,本文選用信息檢索領(lǐng)域常用的評價(jià)指標(biāo):準(zhǔn)確率P、召回率R和F值。

為測試系統(tǒng)性能的準(zhǔn)確性,本文選用十折交叉驗(yàn)證的方式,將特征提取后的結(jié)果分為十份,隨機(jī)選取九份作為訓(xùn)練數(shù)據(jù)并與相應(yīng)的模板一起輸入到CRF模塊中訓(xùn)練成模型,用模型來標(biāo)識一份測試數(shù)據(jù),以上過程重復(fù)十次,取十次結(jié)果的平均值作為最終的評價(jià)結(jié)果。

四、評價(jià)對象抽取在不同模板上的性能分析

本文首先在三個英文數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),在選取相同特征、相同領(lǐng)域和不同模板的條件下,以選取性能最佳的模板。

在特征選取上,已有特征的組合:詞特征、詞性特征、最短依存路徑特征、最短詞距離特征和主觀句特征的組合;全部特征的組合:詞特征、詞性特征、最短依存路徑特征、最短詞距離特征、主觀句特征、情感詞特征、依存關(guān)系特征和依存關(guān)系詞特征的組合。

在模板的選取上,在三個領(lǐng)域“服務(wù)”“大學(xué)”和“電影”的數(shù)據(jù)集上,分別驗(yàn)證在tmp1-、tmp1、tmp1+、tmp2-、tmp2、tmp2+及tmp3模板上的評價(jià)對象抽取性能。具體的性能變化曲線圖如圖1、2、3所示。

圖1 “服務(wù)”數(shù)據(jù)集上模板性能的驗(yàn)證

圖2 “大學(xué)”數(shù)據(jù)集上模板性能的驗(yàn)證

其中,X軸代表選用的模板,Y軸代表F值,用于衡量實(shí)驗(yàn)的性能。

圖3 “電影”數(shù)據(jù)集上模板性能的驗(yàn)證

從圖1、2和3的性能曲線看出,全部特征的性能要優(yōu)于已有特征;在三個數(shù)據(jù)集上,tmp1模板的系統(tǒng)性能最好,要優(yōu)于tmp2與tmp3模板的性能。并且tmp1模板的性能要優(yōu)于tmp1-與tmp1+模板,即選用窗口大小為(-1,0,1)的性能最好,優(yōu)于窗口大小為(-1,0)與(0,1)大小的模板;tmp2模板的性能要優(yōu)于tmp2-與tmp2+模板,即選用窗口大小為(-2,-1,0,1,2)的性能最好,優(yōu)于窗口大小為(-2,-1,0)與(0,1,2)大小的模板。由此驗(yàn)證了對稱模板的性能要優(yōu)于非對稱模板,且考慮當(dāng)前詞的前后各一個詞的模板(tmp1模板)能夠取得更好的性能。

以上三組實(shí)驗(yàn)均是以特征和領(lǐng)域?yàn)椴蛔兞浚0鍨樽兞窟M(jìn)行的實(shí)驗(yàn),tmp1模板的性能要優(yōu)于其他模板,tmp1模板的窗口為(-1,0,1),是以當(dāng)前詞為中心,同時考慮當(dāng)前詞的前后各一個詞,即評價(jià)對象的長度在3以內(nèi);而在網(wǎng)絡(luò)評論中,有一些特殊的評價(jià)對象的長度大于3,這樣的評價(jià)對象可由tmp3模板(窗口大小為7)獲取到,但大多數(shù)評價(jià)對象的長度不會超過7,因此,窗口過大可能會引入不相關(guān)的詞語,同時也會降低系統(tǒng)的運(yùn)行效率與性能。

為準(zhǔn)確有效地抽取評價(jià)對象,本文在不同模板上進(jìn)行了性能分析,以當(dāng)前詞為中心,考慮當(dāng)前詞前后各3個詞的7種窗口大小的模板,經(jīng)實(shí)驗(yàn)驗(yàn)證了窗口大小為3的模板抽取評價(jià)對象的效果最好,即考慮當(dāng)前詞及當(dāng)前詞前后各1個詞。

在今后的后續(xù)研究中,繼續(xù)探索更為有效的特征以提高評價(jià)對象識別的精度,為情感分析的上層任務(wù)服務(wù);面對中文評論的不規(guī)范性和復(fù)雜性,將引入語義因素,根據(jù)上下文語義來識別評價(jià)對象;也可考慮評論相關(guān)度[7],獲取更多有用的信息,并探索適合中文的自然語言處理工具,以減少由分詞、詞性標(biāo)注、句法分析錯誤而帶來的誤差,將成為下一步工作的努力方向。

[1]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010(8).

[2]KesslerJ,NicolovN.TargetingSentimentExpressionsthroughSupervisedRankingofLinguisticConfigurations[C].Proc.oftheThirdInternationalAAAIConferenceonWeblogsandSocialMedia.2009.90-97.

[3]YangB,CardieC.JointInferenceforFine-grainedOpinionExtraction[C].Proc.ofACL.2013.

[4]WilsonT,HoffmannP,SomasundaranS.Opinionfinder:ASystemforSubjectivityAnalysis[C].Proc.ofHLT/EMNLP.2005.34-35.

[5]LinW,WilsonT,WiebeJ.WhichSideAreYouOn?IdentifyingPerspectivesattheDocumentandSentenceLevels[C].Proc.oftheTenthConferenceonComputationalNaturalLanguageLearning(Coling).USA:AssociationforComputationalLinguistics,2006.109-116.

[6]JakobN,GurevychI.ExtractingOpinionTargetsinaSingleandCross-DomainSettingwithConditionalRandomFields[C].Proc.ofthe2010ConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP).USA:AssociationforComputationalLinguistics,2010.1035-1045.

[7]WangJ,YanZ.Anapproachtorankreviewsbyfusingandminingopinionbasedonreviewpertinence[J].InformationFusion,2015:3-15.

責(zé)任編輯:郭一鶴

TP181

A

1671-6531(2017)04-0038-04

楊云/長春教育學(xué)院信息技術(shù)教育部助教,碩士(吉林長春130061)。

猜你喜歡
定義對象模板
神秘來電
睿士(2023年2期)2023-03-02 02:01:09
鋁模板在高層建筑施工中的應(yīng)用
鋁模板在高層建筑施工中的應(yīng)用
攻略對象的心思好難猜
意林(2018年3期)2018-03-02 15:17:24
基于熵的快速掃描法的FNEA初始對象的生成方法
成功的定義
山東青年(2016年1期)2016-02-28 14:25:25
區(qū)間對象族的可鎮(zhèn)定性分析
鋁模板在高層建筑施工中的應(yīng)用
城市綜改 可推廣的模板較少
修辭學(xué)的重大定義
葵青区| 岐山县| 乌兰县| 金川县| 德兴市| 珠海市| 康乐县| 罗江县| 武乡县| 大化| 内江市| 渭源县| 湖州市| 广宁县| 菏泽市| 濮阳县| 旌德县| 邻水| 正镶白旗| 丁青县| 浦北县| 广丰县| 博罗县| 方城县| 汪清县| 界首市| 闸北区| 竹北市| 衡阳县| 尖扎县| 观塘区| 新乐市| 湘潭市| 永宁县| 兴城市| 合川市| 安庆市| 新丰县| 上犹县| 池州市| 辽源市|