国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于組合特征的自訓(xùn)練隱式篇章關(guān)系的識別技術(shù)

2014-08-10 06:36:32陳錦秀
關(guān)鍵詞:連接詞準(zhǔn)確率樣本

劉 初,陳錦秀

(廈門大學(xué)信息科學(xué)與技術(shù)學(xué)院,廈門大學(xué)云計算與大數(shù)據(jù)研究中心,福建 廈門 361005)

信息抽取技術(shù)是指從大規(guī)模的無結(jié)構(gòu)文本中提取出用戶感興趣的信息,并以結(jié)構(gòu)化或半結(jié)構(gòu)化的形式輸出供用戶查詢和進(jìn)一步分析利用.篇章關(guān)系識別是信息抽取的一種,主要針對文章中相鄰篇章之間的關(guān)系做出判斷,篇章的單位可以是子句、句子或段落,稱之為論元.挖掘論元對(Arg1,Arg2)之間的邏輯關(guān)系有助于自然語言的理解和生成.例如,論元對之間的“因果關(guān)系”可以為自動問答系統(tǒng)(question answering)提供參考答案,論元對之間的“時序關(guān)系”可以為機器自動文摘(text summarization)提供實踐指導(dǎo).這些潛在的應(yīng)用前景使篇章關(guān)系識別成為近幾年國內(nèi)外研究的熱點.

根據(jù)相鄰篇章之間是否存在連接詞可將篇章關(guān)系分為顯式篇章關(guān)系和隱式篇章關(guān)系.顯式篇章關(guān)系是指(Arg1,Arg2)存在顯式的連接詞,例如句子(1)中,so就是連接詞,根據(jù)該連接詞可以很容易地判斷出該論元對是“因果關(guān)系”.而隱式篇章關(guān)系是指(Arg1,Arg2)之間缺少連接詞,但在語義層面上確實存在某種關(guān)系,例如句子(2)是一種“因果關(guān)系”,但是沒有明確的連接詞(BECAUSE來自人工標(biāo)注).

(1)Inaddition,itsmachinesaretypicallyeasiertooperate,so customers require less assistance from software.

(2)Mrs.Yearginislying.(Implicit=BECAUSE)They found students in an advanced class a year earlier who said she gave them similar help.

那么給定論元對(Arg1,Arg2),要求判定屬于哪種篇章關(guān)系,對于顯式表達(dá)的篇章關(guān)系很容易做到,只需根據(jù)(Arg1,Arg2)中的連接詞就可以分辨出兩者之間的關(guān)系.目前,顯式篇章關(guān)系研究已取得較好的成果,Pitler[1]僅根據(jù)顯式連接詞對PDTB2.0中的顯式篇章關(guān)系進(jìn)行分類,準(zhǔn)確率已經(jīng)達(dá)到93.09%.而隱式篇章關(guān)系由于沒有連接詞的指引使得其準(zhǔn)確分類成為一個難題.大規(guī)模語料庫PDTB2.0發(fā)布以來,諸多研究者采用機器學(xué)習(xí)的方法對隱式篇章關(guān)系的識別進(jìn)行了探索.主要方法分為兩類:一類是構(gòu)建分類器,提取隱式篇章關(guān)系中的句法結(jié)構(gòu)、語義詞匯等特征,用樸素貝葉斯(Na?ve Bayes)、最大熵(MaxEnt)、支持向量機(SVM)等機器學(xué)習(xí)方法進(jìn)行分類.另一類是基于模式匹配的方法,建立統(tǒng)計語言模型來預(yù)測連接詞,或者利用搜索引擎的隱反饋獲得輔助信息,例如Zhou等[2]的工作.

上述方法的特點都是需要借助大量已標(biāo)注的數(shù)據(jù)樣本構(gòu)建訓(xùn)練集訓(xùn)練出一個模型來對未知的篇章樣本進(jìn)行關(guān)系預(yù)測.這種有監(jiān)督的學(xué)習(xí)方法需要大量的手工標(biāo)注數(shù)據(jù)作為基礎(chǔ),然而標(biāo)注數(shù)據(jù)需要專業(yè)領(lǐng)域的專家耗費大量的人力物力時間才能實現(xiàn),代價十分高昂;而另一方面和有限的標(biāo)注樣本相對應(yīng)的卻是我們擁有大量的未標(biāo)注數(shù)據(jù).由此,我們提出自訓(xùn)練的策略實現(xiàn)基于半監(jiān)督學(xué)習(xí)的隱式篇章關(guān)系自動識別模型,嘗試僅用少量標(biāo)注樣本,充分利用大量的無標(biāo)注數(shù)據(jù),獲得和有監(jiān)督方法相媲美的識別準(zhǔn)確率,為未來實時大數(shù)據(jù)篇章關(guān)系識別提供了新的契機.

1 相關(guān)工作

現(xiàn)有的針對隱式篇章關(guān)系識別的工作主要是基于有監(jiān)督學(xué)習(xí)的方法,具體工作描述如下.

Pitler等[3]首次將顯式篇章關(guān)系和隱式篇章關(guān)系分開進(jìn)行研究,以PDTB2.0為語料庫,采用詞對、詞的極性、動詞和上下文等多種語義特征對隱式篇章關(guān)系中的第一層關(guān)系進(jìn)行了分類.根據(jù)二元分類的結(jié)果總結(jié)各個特征對4種關(guān)系的影響,并對一些特征進(jìn)行選擇和組合提高了分類的準(zhǔn)確率,其中Comparison(轉(zhuǎn)折關(guān)系)和Contingency(因果關(guān)系)的預(yù)測準(zhǔn)確率比Baseline分別提高了4%和16%.

Lin等[4]將句法結(jié)構(gòu)轉(zhuǎn)化為產(chǎn)生式、依賴式特征,和詞對等語義特征一起對PDTB2.0中的第二層關(guān)系進(jìn)行了分類.其預(yù)測準(zhǔn)確率最終達(dá)到40.2%,比Baseline提高了14.1%.產(chǎn)生式特征后來成為最有效的單個特征被廣泛應(yīng)用于隱式篇章關(guān)系的識別中.

Zhou等[2]的工作為隱式篇章關(guān)系識別開辟了新的途徑,他們首先應(yīng)用統(tǒng)計語言模型,通過在隱式篇章間插入虛擬連接詞來預(yù)測隱式篇章關(guān)系,并將預(yù)測出來的連接詞和產(chǎn)生式、詞對特征等結(jié)合,最終在預(yù)測Comparison上F-score達(dá)到31.79%,準(zhǔn)確率達(dá)到58.22%;Contingency和Temporal(時序關(guān)系)的F-score有所提高.同年,Hernault等[5-6]借助PDTB2.0和RSTDT語料庫首次提出用半監(jiān)督的方法對篇章關(guān)系進(jìn)行分類,但其半監(jiān)督的思想主要體現(xiàn)在去探究未標(biāo)注數(shù)據(jù)和標(biāo)注數(shù)據(jù)在特征上的共現(xiàn)性對特征進(jìn)行擴展,真正識別篇章關(guān)系的過程仍然是采用了有監(jiān)督的學(xué)習(xí)算法.因而并非是真正利用大量未標(biāo)注數(shù)據(jù)中各候選篇章關(guān)系實例的相似性進(jìn)行半監(jiān)督的識別.

Xu等[7]在Zhou等[2]的工作基礎(chǔ)上對統(tǒng)計語言模型的訓(xùn)練步驟進(jìn)行了優(yōu)化,同樣將預(yù)測出的連接詞結(jié)合產(chǎn)生式、詞對等特征對隱式篇章關(guān)系進(jìn)行了預(yù)測.所用語料庫有PDTB2.0和BioRB兩種,其中PDTB2.0中Contingency和Temporal兩種關(guān)系的F-score比Zhou等[2]稍有提高.Park等[8]在前人工作的基礎(chǔ)上用多種特征對PDTB2.0第一層的4種關(guān)系進(jìn)行了預(yù)測,根據(jù)預(yù)測結(jié)果對多種單一特征進(jìn)行組合優(yōu)化再次對4種關(guān)系進(jìn)行分類,從而將4種關(guān)系的預(yù)測準(zhǔn)確率提高到70%以上.

綜上所述,現(xiàn)有的篇章關(guān)系識別方法基本都是利用有監(jiān)督學(xué)習(xí)算法來解決問題,對候選關(guān)系實例的特征表示也是處于探索階段.為此,我們將提出用自訓(xùn)練的策略實現(xiàn)基于半監(jiān)督學(xué)習(xí)的隱式篇章關(guān)系自動識別模型,克服有監(jiān)督方法中標(biāo)注樣本不足的缺陷,并以PDTB2.0中第一層關(guān)系為研究對象,抽取詞對特征、產(chǎn)生式特征、動詞特征等9種篇章關(guān)系特征進(jìn)行特征組合分析對模型進(jìn)行優(yōu)化.

2 基于自訓(xùn)練的半監(jiān)督篇章關(guān)系識別方法

2.1 半監(jiān)督學(xué)習(xí)簡介

傳統(tǒng)方法預(yù)測篇章關(guān)系多采用有監(jiān)督機器學(xué)習(xí),例如支持向量機分類算法、最大熵分類算法、貝葉斯概率模型等.有監(jiān)督機器算法往往需要大量的有類標(biāo)訓(xùn)練數(shù)據(jù),從而增強模型可靠性和健壯性.但是,有些分類任務(wù)很難獲取到有類標(biāo)數(shù)據(jù).對于隱式篇章關(guān)系分類來說,目前學(xué)者大都采用PDTB2.0語料庫,而PDTB2.0語料庫是手工標(biāo)注的,截至到2013年P(guān)DTB2.0中隱式篇章關(guān)系的實例個數(shù)仍為10 653,變化不大,對依賴標(biāo)注語料的有監(jiān)督分類來說這無疑是一個阻礙.

考慮到人工標(biāo)注數(shù)據(jù)的難度大、時間代價高的困境,本文引入了基于自訓(xùn)練的半監(jiān)督學(xué)習(xí)算法對隱式篇章關(guān)系進(jìn)行預(yù)測.自訓(xùn)練(Self-training)是最早的一類半監(jiān)督學(xué)習(xí)方法,直接從有監(jiān)督方法中引申出來.通過少量有標(biāo)注樣本對大量無標(biāo)注樣本的反復(fù)預(yù)測分析吸取經(jīng)驗,提高自身分類器的泛化能力.如圖1所示,黑色點表示類別1的樣本,灰色點表示類別2的樣本,白色點表示無類標(biāo)的樣本.如果只通過有標(biāo)注數(shù)據(jù)進(jìn)行分類,那么分類效果如圖1(a)所示,決策邊界即為空間中線,左半邊劃分為第1類,右半邊劃分為第2類.但是,通過汲取無標(biāo)注的經(jīng)驗,根據(jù)假設(shè)同一聚簇下的樣本應(yīng)該具有很高的概率屬于同種類別,樣本空間將被劃分為圖1(b)的形狀.

圖1 半監(jiān)督學(xué)習(xí)示意圖Fig.1 Semi-supervised learning process

2.2 基于自訓(xùn)練的篇章關(guān)系識別方法

本文采用經(jīng)典自訓(xùn)練方法,基于少量有標(biāo)注數(shù)據(jù)和大量無標(biāo)注數(shù)據(jù)構(gòu)建模型,對測試集進(jìn)行分類預(yù)測,模型中每一步循環(huán)采用最大熵分類器進(jìn)行訓(xùn)練.算法描述如下:

算法1 自訓(xùn)練算法實現(xiàn)

輸入:已標(biāo)注數(shù)據(jù)集Dlabeled,未標(biāo)注數(shù)據(jù)集Dunlabeled,測試集Dtest

輸出:預(yù)測結(jié)果R

1. fori=1 to 5 do

2. 分類器C∶=MaxEnt_train(Dlabeled)

3. 預(yù)測結(jié)果R∶=MaxEnt_test(C,Dunlabeled)

4. 樣本集合D′∶=ClassifiedwithHighConfidence(Dunlabeled,R)

5.Dlabeled∶=Dlabeled+D′

6.Dunlabeled∶=Dunlabeled-D′

7. end for

圖2 初始種子挑選流程Fig.2 Procedure of selecting initial seeds

8. 預(yù)測結(jié)果R∶=MaxEnt_test(C,Dtest)

9. 返回最終結(jié)果R

上述算法中,第1步設(shè)置循環(huán)最大次數(shù),第2步采用最大熵分類器對初始的少量有類標(biāo)數(shù)據(jù)進(jìn)行訓(xùn)練,第3步用第2步訓(xùn)練出來的模型對無類標(biāo)數(shù)據(jù)集的樣本進(jìn)行分類,第4步挑選出第3步的分類結(jié)果中置信度高的樣本形成樣本集合D′.第5、6步分別將D′中的樣本加入到有類標(biāo)數(shù)據(jù)集中,并且從無類標(biāo)數(shù)據(jù)集中刪掉D′中的樣本.重復(fù)以上步驟.

在實際應(yīng)用過程中,已標(biāo)注數(shù)據(jù)集往往遠(yuǎn)小于未標(biāo)注數(shù)據(jù)集.如果只是依據(jù)已有的少量訓(xùn)練集建模,預(yù)測效果并不佳,因此如何從大量的未標(biāo)注數(shù)據(jù)集中獲得幫助是半監(jiān)督的核心思想.自訓(xùn)練法不斷的用已有的經(jīng)驗構(gòu)建分類器,預(yù)測未知的樣本,選取置信度高的樣本加入的下一輪的訓(xùn)練集,從而提高模型效果.但是,對于一些顯著的離群點,若被預(yù)測錯誤仍被放入訓(xùn)練集中,將會惡化整個模型.因此,自訓(xùn)練學(xué)習(xí)方法的關(guān)鍵在于:高質(zhì)量的初始已標(biāo)注數(shù)據(jù)集(初始種子),置信度衡量標(biāo)準(zhǔn).

在實際的應(yīng)用領(lǐng)域中,高質(zhì)量的初始種子可以由有經(jīng)驗的語言學(xué)領(lǐng)域的專家來提供.不過在以往半監(jiān)督學(xué)習(xí)的相關(guān)研究工作中,學(xué)者在挑選初始種子時,常采用從訓(xùn)練集中進(jìn)行隨機挑選.我們在實驗過程中發(fā)現(xiàn),若采用隨機挑選法經(jīng)常會遇到樣本不平衡的情況.為了保證在實驗分析中所挑選的初始種子滿足高質(zhì)量和樣本平衡的雙重要求,采用如圖2所示流程進(jìn)行初始種子挑選.

算法2 初始種子挑選的實現(xiàn)算法

輸入:訓(xùn)練集Dtrain

輸出:初始種子Dlabeled,未標(biāo)注數(shù)據(jù)集Dunlabeled

1.R∶=crossvalidation(Dtrain,5-fold)

7.Dunlabeled∶=Dtrain-Dlabeled

8. 返回Dlabeled,Dunlabeled

算法2中,第1步對訓(xùn)練集進(jìn)行5折交叉驗證,第2、3步分別對訓(xùn)練集中正反例樣本根據(jù)置信度從高到低排序,第4、5步分別對正反例各取置信度最高的前k個樣本,第6、7步分別將前兩步挑出的2k個樣本組成初始種子,余下的組成未標(biāo)注數(shù)據(jù)集.如圖2和算法2所示,本文挑選出的種子在類別上滿足數(shù)目平衡,并且都是高置信度的樣本.同樣,在算法1中,每次加入訓(xùn)練集的樣本也做了樣本平衡處理,使得樣本集合D′中每類樣本數(shù)目均衡.目前,被普遍采用的置信度衡量方法是基于預(yù)測概率分布的熵(entropy),熵越小,置信度越高.假設(shè)分類器對某一測試樣本i進(jìn)行類別預(yù)測,得到每類的概率為p(p1,p2,...,pn),其中n為類別數(shù).置信度計算公式如下:

(1)

3 候選篇章關(guān)系實例的知識表示

為了更好地構(gòu)建候選篇章關(guān)系實例的知識表示,我們共提取了包括詞法特征、語義特征和句法結(jié)構(gòu)特征的9種篇章特征,分別列舉如下:

(1)First-Last-First3:分別抽取Arg1和Arg2中的第一個單詞和最后一個單詞、來自Arg1和Arg2的第一個單詞的詞對和最后一個單詞的詞對以及每個Arg的前3個單詞作為特征.

(2)InquirerTag:InquirerTag特征來自外部詞典GeneralInquirerLexicon,該詞典對每個單詞進(jìn)行細(xì)粒度的屬性劃分,例如abandon具有Negativ、Ngtv、Weak、Fail和AffLoss5種屬性.我們從中選取常用的21對具有相反意義的屬性(Rise:Fall等),考察它們以及它們的笛卡爾積是否出現(xiàn)在Arg中作為我們的特征.

(3)產(chǎn)生式(ProductionRule):產(chǎn)生式是從句法結(jié)構(gòu)樹上提取出來的.對一個Arg來說,它可能是一個句子,也可能是多個句子,也可能是一個短語,所以結(jié)構(gòu)樹可能是一棵完整的樹,可能是多棵樹,也可能只是某棵樹的一部分.我們首先用StanfordParserVersion2.0.4[8]對每個Arg中的每個句子進(jìn)行解析得到句法結(jié)構(gòu)樹,然后從這些樹上提取每個參數(shù)的產(chǎn)生式.例如:S->NPVP,VP->MDVP,NP->DTQP等.

(4)詞的極性(Polarity):詞的極性特征是指每個Arg中Positive、NegatePositive、Negative、Neutral4種極性的單詞個數(shù)和它們的笛卡爾積.例如nice是一個來自Arg1中具有Postive屬性的單詞,那么Arg1中Positive的個數(shù)就加1,notnice是來自Arg2中具有NegatePositive屬性的單詞,那么Arg2中NegatePositive的個數(shù)就加1.

(5)動詞特征(Verb):動詞特征包括3項內(nèi)容,第1個是屬于同一層Levinverbclass的動詞詞對的個數(shù),形如(vi,vj),其中vi來自Arg1,vj來自Arg2;第2個是Arg1和Arg2中動詞詞組的平均長度;第3個是每個Arg中的主動詞,例如“Theyareallowedtoproceed…”中proceed即為該句子的主動詞.

(6)依賴式(DependencyRule):同產(chǎn)生式一樣,依賴式也是來自句法結(jié)構(gòu)樹,同樣用StanfordParserVersion2.0.4[8]產(chǎn)生句法結(jié)構(gòu)樹,然后輸出一個依賴樹,從依賴樹上就可以提取所需要的依賴式.例如:share<-detdet,million<-number,rose<-nsubjdobjprep_toprep_from等.

(7)情態(tài)動詞(Modality):情態(tài)動詞特征是指could、may、might、must、shall等情態(tài)動詞是否在Arg1和Arg2中出現(xiàn).

(8)實體特征(NER):我們用StanfordNamedEntityRecognizerVersion1.2.7[9]對Arg1和Arg2中的句子進(jìn)行實體標(biāo)識,以Arg1和Arg2中Time、Location、Organization、Person、Money、Percent、Date這7個實體是否出現(xiàn)作為實體特征.

(9)一元詞對特征(Unigram):按照笛卡爾積的方式,抽取來自Arg1和Arg2的所有單詞的詞對,形如(wi,wj),其中wi來自Arg1,wj來自Arg2,并去掉訓(xùn)練集中出現(xiàn)次數(shù)小于10的單詞詞對.

4 實驗結(jié)果

4.1 數(shù)據(jù)集設(shè)置

PDTB2.0是由LinguisticDataConsortium(LDC)2008年發(fā)布、目前最大的英文篇章級人工標(biāo)注語料庫,共有40 600個標(biāo)注實例,分為25章,標(biāo)注的實例共分為5大類:Explicit,Implicit,AltLex,EntRel,NoRel.其中,各類標(biāo)注實例的分布如表1.

表1 PDTB2.0標(biāo)注實例分布數(shù)Tab.1 Distribution of PDTB2.0 annotations

PDTB2.0對Explicit、Implicit、AltLex3種篇章關(guān)系定義了一個三級層次的意義(RelationSense)結(jié)構(gòu),第一層即我們常說的4種語義關(guān)系:Comparison、Contingency、Expansion(擴展關(guān)系)、Temporal.第二層包括16類語義關(guān)系,第三層包括23類語義關(guān)系.我們主要針對Implicit篇章的第一層語義關(guān)系進(jìn)行研究.

我們共設(shè)置了3組實驗來驗證各個特征對隱式篇章關(guān)系識別的影響,所用分類器為最大熵(Opennlp-maxent-3.0.0).首先對訓(xùn)練集進(jìn)行處理,從Comparison、Contingency、Temporal3種關(guān)系的實例中選取等多的正例和反例做訓(xùn)練,而Expansion因為數(shù)據(jù)占總數(shù)的50%以上,所以不做處理,測試集數(shù)據(jù)保持原來的自然分布.現(xiàn)有針對PDTB2.0的篇章關(guān)系識別方法對于實驗數(shù)據(jù)主要有兩種形式的設(shè)置,為了更好地和他們進(jìn)行比較,在我們的實驗中同時給出了針對兩類數(shù)據(jù)的實驗結(jié)果.其中,表2的實驗訓(xùn)練集采用PDTB2.0中的2~21章節(jié),測試集采用22~23章節(jié);表3的實驗訓(xùn)練集為2~20章節(jié),測試集均為21~22章節(jié).然后在表2和表3的數(shù)據(jù)上分別實現(xiàn)有監(jiān)督的方法,通過多組實驗得出相對好的特征組合,接著利用該組合特征在表3的數(shù)據(jù)上實現(xiàn)基于自訓(xùn)練的半監(jiān)督方法.和Park等[8]、Pitler等[3]前人的數(shù)據(jù)設(shè)置略有不同,我們并不把EntRel當(dāng)作Expansion的正例來計算,只針對Implicit篇章的4種關(guān)系進(jìn)行研究.為了便于表示,將4種關(guān)系分別縮寫為Comp.、Cont.、Exp.和Temp..各組實驗訓(xùn)練集和測試集實例分布如表2和表3.

表4 各特征在表2實驗數(shù)據(jù)上的有監(jiān)督方法的實驗結(jié)果Tab.4 Results of supervised method on data of Tab.2 %

表2 實驗數(shù)據(jù)設(shè)置:訓(xùn)練集采用PDTB2.0中的2~21,測試集采用22~23Tab.2 Data setting(PDTB2.0):training data (2-21) and test data (22-23)

4.2 有監(jiān)督實驗結(jié)果

表4和表5分別列出了9種特征在表2和表3的實驗數(shù)據(jù)上做有監(jiān)督分類的結(jié)果.可以看出,特征ProductionRule表現(xiàn)出較好的分類特性,說明在篇章關(guān)系的識別中,充分挖掘篇章的結(jié)構(gòu)特征將對關(guān)系的識別起著重要的作用;此外,通過對各特征進(jìn)行多組隨機組合,表5中列出了3種最佳組合特征的結(jié)果:1&3&5,2&3&4,2&3&4&5,結(jié)果顯示組合特征能夠彌補各特征單獨進(jìn)行關(guān)系識別的不足,取得比單獨特征進(jìn)行篇章關(guān)系識別更好的結(jié)果.

表3 實驗數(shù)據(jù)設(shè)置:訓(xùn)練集均為PDTB2.0中的2~20,測試集均為21~22Tab.3 Data setting (PDTB2.0):training data (2-20) and test data (21-22)

4.3 基于自訓(xùn)練的半監(jiān)督實驗結(jié)果

根據(jù)表4和表5的實驗結(jié)果,可以看出組合特征的效果優(yōu)于單個特征的效果.用表5中的組合特征對PDTB2.0的4種關(guān)系做基于自訓(xùn)練的半監(jiān)督學(xué)習(xí),并和有監(jiān)督實驗做了對比,其中在半監(jiān)督模型中所選取的種子作為有監(jiān)督實驗的訓(xùn)練數(shù)據(jù),結(jié)果如表6所示.因為每種關(guān)系的訓(xùn)練集和測試集個數(shù)差異很大,根據(jù)4種關(guān)系不同的訓(xùn)練集和測試集數(shù)目,分別選取不同的初始種子.其中,Comparison的初始種子為200個,Contingency的初始種子為400個,Expansion的初始種子為800個,Temporal的初始種子為100個.

表5 各特征在表3實驗數(shù)據(jù)上的有監(jiān)督方法的實驗結(jié)果Tab.5 Results of supervised method on data of Tab.3 %

表6 半監(jiān)督方法和有監(jiān)督方法的實驗結(jié)果對比Tab.6 Comparison of results with semi-supervised method and supervised method %

5 結(jié)果分析和討論

從表4和表5的實驗結(jié)果可以看出,除去分類器的差異,數(shù)據(jù)集大小對有監(jiān)督實驗影響是很大的,越多的數(shù)據(jù)訓(xùn)練出來的模型越可靠和健壯,其預(yù)測的準(zhǔn)確率就越高.表5實驗中Temporal的訓(xùn)練集個數(shù)比表4訓(xùn)練集略有增多,其準(zhǔn)確率明顯提高.我們的有監(jiān)督實驗結(jié)果與其他現(xiàn)有的有監(jiān)督方法實驗結(jié)果相比較結(jié)果如表7.

從結(jié)果可以看出,Comparison的F-score和準(zhǔn)確率比Zhou[2]分別提高了1.81%和2.49%,比Pitler[3]提高了11.64%和4.12%;Temporal的F-score和準(zhǔn)確率比Zhou[2]分別提高了4.02%和7.56%,比Pitler[3]的F-score提高了7.56%.但是準(zhǔn)確率相比Park[8]的結(jié)果略低,原因可能在于他們選取每種關(guān)系的反例時用的是交叉驗證方法而我們用的是隨機選取,方法不同結(jié)果略有差異.另外對Expansion關(guān)系來說,Park等[8]、Pitler等[3]將EntRel關(guān)系也作為Expansion的正例看待,這無疑增加了Expansion類別訓(xùn)練集的個數(shù),這也是他們效果會更好的原因.總之,從該結(jié)果可以看出我們選出的組合特征和現(xiàn)有相關(guān)工作相比,已經(jīng)很好的對候選篇章關(guān)系實例的知識進(jìn)行描述,能夠協(xié)助我們進(jìn)一步去實現(xiàn)半監(jiān)督的篇章關(guān)系識別任務(wù).

表6實驗結(jié)果表明,種子數(shù)目相同的情況下,半監(jiān)督方法的F-score和準(zhǔn)確率比有監(jiān)督分類有顯著的提高,其中Comparison的F-score提高了1.4%,準(zhǔn)確率提高了17.50%;Contingency的F-score提高了2.10%,準(zhǔn)確率提高了17.81%;Expansion的F-score提高了14.71%,準(zhǔn)確率提高了1.66%;Temporal的F-score提高了2.57%,準(zhǔn)確率提高了16.86%.這說明在標(biāo)注的樣本數(shù)目有限的情況下,充分利用無標(biāo)注的數(shù)據(jù)進(jìn)行基于自訓(xùn)練的半監(jiān)督篇章關(guān)系識別可以很大程度提高識別的準(zhǔn)確率和F-score值.

表7 與其他有監(jiān)督實驗結(jié)果的比較Tab.7 Comparison with other supervised experiments %

6 結(jié) 論

本文構(gòu)建了基于自訓(xùn)練的半監(jiān)督篇章關(guān)系識別模型,對PDTB2.0語料的Comparison、Contingency、Expansion和Temporal4種隱式篇章關(guān)系識別進(jìn)行了研究,嘗試了僅用少量標(biāo)注樣本,卻獲得和有監(jiān)督方法相媲美的識別準(zhǔn)確率,為未來實時大數(shù)據(jù)篇章關(guān)系識別提供了新的契機.值得一提的是模型中提取了關(guān)于詞法、語義、句法結(jié)構(gòu)等9種特征進(jìn)行有效的特征組合來構(gòu)建候選篇章關(guān)系實例的知識表示,實現(xiàn)對模型的優(yōu)化,在F-score和準(zhǔn)確率上都有一定程度的改進(jìn).

下一步我們將進(jìn)一步對篇章關(guān)系進(jìn)行研究,挖掘出更豐富的語義知識對特征集合進(jìn)行擴展,協(xié)助篇章關(guān)系的更準(zhǔn)確識別,以便更好地應(yīng)用于各個領(lǐng)域.此外,研究如何更好地利用大量未標(biāo)注數(shù)據(jù)進(jìn)行更有效的半監(jiān)督篇章關(guān)系識別也是我們下一步的工作計劃.

[1]PitlerE,RaghupathyM,MehtaH,etal.Easilyidentifiablediscourserelations[R].Philadelphia:UniversityofPennsylvania,2008:884.

[2]ZhouZM,LanM,NiuZY,etal.Theeffectsofdiscourseconnectivespredictiononimplicitdiscourserelationrecognition[C]∥Proceedingsofthe11thAnnualMeetingoftheSpecialInterestGrouponDiscourseandDialogue.Stroudsburg,PA,USA:AssociationforComputationalLinguistics,2010:139-146.

[3]PitlerE,LouisA,NenkovaA.Automaticsensepredictionforimplicitdiscourserelationsintext[C]∥ProceedingsoftheJointConferenceofthe47thAnnualMeetingoftheACLandthe4thInternationalJointConferenceonNaturalLanguageProcessingoftheAFNLP.Stroudsburg,PA,USA:AssociationforComputationalLinguistics,2009:683-691.

[4]LinZ,KanMY,NgHT.RecognizingimplicitdiscourserelationsinthePennDiscourseTreebank[C]∥Proceedingsofthe2009ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.Stroudsburg,PA,USA:AssociationforComputationalLinguistics,2009:343-351.

[5]HernaultH,BollegalaD,IshizukaM.Asemi-supervisedapproachtoimproveclassificationofinfrequentdiscourserelationsusingfeaturevectorextension[C]∥Proceedingsofthe2010ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.Stroudsburg,PA,USA:AssociationforComputationalLinguistics,2010:399-409.

[6]HernaultH,BollegalaD,IshizukaM.Semi-superviseddiscourserelationclassificationwithstructurallearning[C]∥ComputationalLinguisticsandIntelligentTextProcessing.BerlinHeidelberg:Springer,2011:340-352.

[7]XuY,LanM,LuY,etal.Connectivepredictionusingmachinelearningforimplicitdiscourserelationclassification[C]∥NeuralNetworks(IJCNN),the2012InternationalJointConferenceon.NewYork:IEEE,2012:1-8.

[8]ParkJ,CardieC.Improvingimplicitdiscourserelationrecognitionthroughfeaturesetoptimization[C]∥Proceedingsofthe13thAnnualMeetingoftheSpecialInterestGrouponDiscourseandDialogue.Stroudsburg,PA,USA:AssociationforComputationalLinguistics,2012:108-112.

[9]KleinD,ManningCD.Accurateunlexicalizedparsing[C]∥Proceedingsofthe41stMeetingoftheAssociationforComputationalLinguistics.Stroudsburg,PA,USA:AssociationforComputationalLinguistics,2003:423-430.

猜你喜歡
連接詞準(zhǔn)確率樣本
連動結(jié)構(gòu)“VP1來VP2”的復(fù)句化及新興小句連接詞“來”的形成
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
用樣本估計總體復(fù)習(xí)點撥
推動醫(yī)改的“直銷樣本”
高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
隨機微分方程的樣本Lyapunov二次型估計
村企共贏的樣本
英語連接詞:傳統(tǒng)與反思
金湖县| 呼和浩特市| 额济纳旗| 孝感市| 长泰县| 叶城县| 伊川县| 墨江| 周宁县| 津市市| 通州区| 固始县| 金秀| 广灵县| 镇平县| 崇州市| 凤翔县| 中江县| 仁寿县| 清水县| 子长县| 宜兰县| 琼结县| 从化市| 晋江市| 怀来县| 仪陇县| 武平县| 彰化县| 开封市| 广平县| 潼南县| 伊春市| 新宁县| 客服| 开封县| 临夏县| 酉阳| 高雄市| 嘉黎县| 平乐县|