国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

動(dòng)態(tài)自適應(yīng)加權(quán)的多分類器融合詞義消歧模型

2012-10-15 01:51張仰森
中文信息學(xué)報(bào) 2012年1期
關(guān)鍵詞:詞義分類器性能

張仰森,郭 江

(北京信息科技大學(xué) 智能信息處理研究所,北京100192)

許多與自然語(yǔ)言處理相關(guān)的應(yīng)用系統(tǒng),如機(jī)器翻譯、文本校對(duì)、信息檢索、文本分類等,其性能的優(yōu)劣與詞義消歧的效果密切相關(guān)。因此,長(zhǎng)期以來(lái),漢語(yǔ)詞義消歧一直是中文信息處理領(lǐng)域的難點(diǎn)和熱點(diǎn)。由于詞義消歧本身可以看作分類問(wèn)題,因此,詞義消歧模型的構(gòu)建其實(shí)就是分類器的構(gòu)建。由于不同分類器在不同領(lǐng)域的表現(xiàn)效果不同,因此,近年來(lái)集成學(xué)習(xí)方法成為機(jī)器學(xué)習(xí)領(lǐng)域的發(fā)展趨勢(shì)[1],采用多分類器融合方法建立詞義消歧模型的技術(shù)越來(lái)越受到研究者的關(guān)注,并在實(shí)際中得到應(yīng)用[2-3]。多分類器融合就是通過(guò)某種規(guī)則將多個(gè)基分類器的判定結(jié)果融合起來(lái),使得各基分類器之間相互彌補(bǔ),得到系統(tǒng)最終的決策結(jié)果。構(gòu)建多分類器融合詞義消歧模型的工作一般由四步構(gòu)成[4],包括模型參數(shù)輸入、基分類器的設(shè)計(jì)與選擇、模型體系結(jié)構(gòu)、融合規(guī)則。模型參數(shù)輸入是指用于確定語(yǔ)句中某個(gè)詞詞義的特征表示方式;基分類器設(shè)計(jì)與選擇是指選擇哪些分類器來(lái)進(jìn)行集成融合;模型體系結(jié)構(gòu)是指對(duì)各基分類器進(jìn)行融合的體系結(jié)構(gòu);融合規(guī)則是指將各基分類器判定結(jié)果進(jìn)行組合獲取最終判定結(jié)果的規(guī)則與算法。關(guān)于多義詞詞義消歧的特征選擇,已有很多的相關(guān)研究,我們?cè)趯?shí)驗(yàn)部分再進(jìn)行討論,下面主要就模型的體系結(jié)構(gòu)、基分類器集合的設(shè)計(jì)與選擇、多分類器的融合規(guī)則進(jìn)行討論。

1 多分類器融合的體系結(jié)構(gòu)

多分類器融合的體系結(jié)構(gòu)有級(jí)聯(lián)方式和并聯(lián)方式兩種。采用級(jí)聯(lián)方式時(shí),將多個(gè)基分類器串聯(lián)起來(lái),前一級(jí)分類器為后一級(jí)分類器提供分類信息,指導(dǎo)下一級(jí)分類器的判斷;而采用并聯(lián)方式時(shí),各基分類器的設(shè)計(jì)是獨(dú)立的,各基分類器給出詞義消歧的判定結(jié)果,按照某種融合規(guī)則將各單分類器的結(jié)果進(jìn)行融合得到最終的詞義判定結(jié)果。

由于并聯(lián)方式可以使各基分類器并行工作,因此在分類速度上有較大優(yōu)勢(shì)。近幾年,多分類器融合的研究主要集中在并聯(lián)方式,特別是融合規(guī)則或算法的研究。分類器融合的目標(biāo)是對(duì)各基分類器提供的信息進(jìn)行融合,各基分類器提供的信息可以分為結(jié)果級(jí)、排序級(jí)和度量級(jí)三個(gè)層次[4]。(1)結(jié)果級(jí)是指基分類器給出的某個(gè)確定的詞義,即最終分類的結(jié)果;(2)排序級(jí)是指基分類器按照多義詞的上下文特征給出多義詞詞義類別的一個(gè)排序列表,排在最前面的是第一選擇;(3)度量級(jí)是指基分類器給出選擇每個(gè)詞義類別的概率值。在這三個(gè)層次中,度量層所含的信息最豐富,結(jié)果層最少。從分類器工作過(guò)程來(lái)看,排序?qū)邮鞘褂枚攘繉拥慕Y(jié)果來(lái)排序,結(jié)果層是使用排序?qū)拥慕Y(jié)果。從度量層到結(jié)果層是一個(gè)信息量遞減的過(guò)程。所以適用于信息量少的層級(jí)融合的方法同樣適用于含信息量多的層。

采用并聯(lián)方式的分類器融合,可根據(jù)基分類器的信息層次分為三類:基于結(jié)果層的融合方法、基于排序?qū)拥娜诤戏椒?、基于度量層的融合方法。這三類融合方法利用的信息是一個(gè)逐步具體的過(guò)程。對(duì)于第一類方法,其利用的信息最為簡(jiǎn)單,其規(guī)則的設(shè)計(jì)也相對(duì)簡(jiǎn)單;對(duì)于第三類方法,由于提供的信息量增多,規(guī)則或算法的設(shè)計(jì)相對(duì)繁瑣,如果設(shè)計(jì)得當(dāng),多分類器融合模型的分類效果會(huì)比較好,若設(shè)計(jì)得不好,融合分類器的分類效果可能還不如單個(gè)分類器的分類效果。

2 基分類器的分析與選擇

要想在多分類器的融合上取得好的效果,除了融合算法的設(shè)計(jì),對(duì)于每個(gè)分類器而言,一般需要滿足以下原則:

(1)基分類器的精確度要高,否則構(gòu)造的融合分類器精確度也不會(huì)很高。

(2)基分類器應(yīng)該具有多樣性?;诸惼髦g應(yīng)該產(chǎn)生互補(bǔ)信息,如果不同的分類器產(chǎn)生相同的錯(cuò)誤,則融合就變得沒(méi)有意義了,整體性能也不會(huì)有任何提高。

基于上述基分類器的選擇原則,我們考察了最大熵分類器、樸素貝葉斯分類器、向量空間分類器和決策樹(shù)分類器。這幾種方法很具有代表性,且原理和方法互補(bǔ)性很強(qiáng)。我們分別利用這幾種模型進(jìn)行了詞義消歧實(shí)驗(yàn),相關(guān)的分析實(shí)驗(yàn)結(jié)果已在另一篇論文[5]中給出。其中樸素貝葉斯是傳統(tǒng)的概率統(tǒng)計(jì)方法,簡(jiǎn)單快速,準(zhǔn)確率高,穩(wěn)定性強(qiáng),對(duì)不同的特征對(duì)象進(jìn)行實(shí)驗(yàn),其最低準(zhǔn)確率達(dá)到了78.12%;決策樹(shù)是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,易于理解,但對(duì)不同特征對(duì)象進(jìn)行實(shí)驗(yàn)的效果不是太好,最好為67.3%。最大熵模型由于是一種使用多種類型特征的模型,在實(shí)驗(yàn)中表現(xiàn)不俗,其最低達(dá)到了83.35%。向量空間方法,是信息檢索領(lǐng)域的基礎(chǔ),能夠克服數(shù)據(jù)稀疏的問(wèn)題,當(dāng)特征選擇恰當(dāng)?shù)臅r(shí)候,比如整句特征時(shí),其最低準(zhǔn)確率為68.52%以上。鑒于以上分析,在后面的融合實(shí)驗(yàn)中選擇最大熵分類器、樸素貝葉斯分類器、向量空間分類器作為融合算法的基分類器。

3 分類器融合的主要方法

近年來(lái)已經(jīng)有人將多分類器融合技術(shù)應(yīng)用到詞義消歧領(lǐng)域。融合方法主要有兩種:(1)采用不同種類的分類器作為基分類器進(jìn)行融合;(2)對(duì)同一種分類器選擇不同詞義消歧特征進(jìn)行計(jì)算,將計(jì)算結(jié)果進(jìn)行融合。融合計(jì)算常用的方法有乘法規(guī)則、均值、最大值Max、最小值Min、最大投票、序列投票、加權(quán)投票、概率加權(quán)等[2]。2000年 Kilgarriff和Rosenzweig采用簡(jiǎn)單投票策略集成SenSeval-1多個(gè)參賽系統(tǒng)的輸出結(jié)果進(jìn)行詞義消歧[6];2008年吳云芳等[2]采用支持向量機(jī)、樸素貝葉斯、決策樹(shù),綜合運(yùn)用乘法規(guī)則、均值等9種集成方法,在兩個(gè)不同數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。它們都屬于前述的第一種融合方法。2004年Wang和Matsumoto提出了一種堆棧集成法[7],單分類器選用樸素貝葉斯分類器,使用特征模板提取特征;2006年全昌勤等應(yīng)用AdaBoost思想[3],選擇貝葉斯分類器,通過(guò)學(xué)習(xí)少量帶有詞義標(biāo)注的語(yǔ)料構(gòu)造多個(gè)消歧分量分類器,并利用未標(biāo)語(yǔ)料動(dòng)態(tài)地對(duì)這些分類器進(jìn)行更新,根據(jù)最終分量分類器進(jìn)行集成確定多義詞義項(xiàng)。它們都是采用了一種分類器對(duì)多種特征或分量進(jìn)行疊加融合,屬于前述的第二種融合方法。

(1)最大投票(Majority Voting,MV)方法

最大投票法是一種簡(jiǎn)單的分類器融合方法,由基分類器先對(duì)樣本進(jìn)行判斷得出自己的分類結(jié)果,對(duì)自己所預(yù)測(cè)的類投一票,最后得票最多的類就是融合學(xué)習(xí)算法最終的預(yù)測(cè)結(jié)果。假設(shè)詞有n個(gè)詞義,有m個(gè)分類器參與投票,則其融合模型如公式(1)所示:

其中,sk表示詞W 的第k個(gè)詞義,fi表示第i個(gè)分類器,sj表示第i個(gè)分類器確定的詞義,Δji是第i個(gè)分類器對(duì)第j個(gè)詞義的投票結(jié)果,是m個(gè)分類器融合后得到的詞義消歧結(jié)果。

(2)改進(jìn)的投票(Improved Voting,IV)方法

簡(jiǎn)單的投票融合過(guò)程是結(jié)果級(jí)的融合,基分類器只輸出單純的分類決策,沒(méi)有其他附加信息。對(duì)簡(jiǎn)單投票做以下改進(jìn),使其融合在度量級(jí)上進(jìn)行,計(jì)算式如下:

其中,sj表示詞W 的第j個(gè)詞義,fi表示第i個(gè)分類器,P(sj)表示所有單分類器對(duì)詞義sj輸出概率的均值,是m個(gè)分類器融合后得到的詞義消歧結(jié)果。這種方法屬于上述的第二種融合方法。

(3)性能加權(quán)投票 (Performance Weighted Voting,PWV)方法

最大投票方法在確定最后結(jié)果時(shí),沒(méi)有考慮不同基分類器的分類性能及所采用的不同分類特征。所以,該方法無(wú)法體現(xiàn)性能高的分類器的優(yōu)勢(shì),于是,人們就想到對(duì)上述兩類方法進(jìn)行改進(jìn),給性能高的分類器賦一個(gè)高的權(quán)值,這就是基于性能的加權(quán)投票方法。基于性能的加權(quán)投票方法可在結(jié)果級(jí)和度量級(jí)進(jìn)行,結(jié)果級(jí)性能加權(quán)是對(duì)MV方法中式(1)和(2)的改進(jìn),結(jié)果如式(5)和(6);度量級(jí)性能加權(quán)是對(duì)IV方法中式(3)和(4)的改進(jìn),結(jié)果如式(7)和式(8)。

其中,sk表示詞W 的第k個(gè)詞義,fi表示第i個(gè)分類器,sj表示第i個(gè)分類器確定的詞義,Δji是第i個(gè)分類器對(duì)第j個(gè)詞義的投票結(jié)果,是m個(gè)分類器融合后得到的詞義消歧結(jié)果,λi為分類器fi的加權(quán)系數(shù)。

4 動(dòng)態(tài)自適應(yīng)加權(quán)分類器融合模型

我們已在文獻(xiàn)[5]中對(duì)四種分類器在詞義消歧方面的應(yīng)用情況進(jìn)行了分析比較,目的是希望通過(guò)融合技術(shù)來(lái)提高詞義消歧模型的性能。前面介紹的性能加權(quán)投票方法就考慮了各種分類器的性能,但其權(quán)值λi的確定缺乏依據(jù),不能根據(jù)各基分類器在相應(yīng)樣本特征情況下動(dòng)態(tài)自適應(yīng)確定。本文在前述分析的基礎(chǔ)上提出了一種動(dòng)態(tài)自適應(yīng)加權(quán)投票融合方法(Auto Weight Adjust,AWA),它充分考慮了各分類器在不同樣本環(huán)境下的性能表現(xiàn),計(jì)算出確定分類器fi加權(quán)系數(shù)的閾值θi,再根據(jù)θi計(jì)算該分類器的加權(quán)系數(shù)βi。動(dòng)態(tài)自適應(yīng)加權(quán)投票融合模型如式(9)所示。

βi是我們?cè)O(shè)計(jì)的加權(quán)系數(shù)函數(shù),用來(lái)表示基分類器fi對(duì)類別sj的權(quán)值;θi為確定分類器fi加權(quán)分量的閾值,閾值θi根據(jù)單分類器fi在決策時(shí)的“自信”值確定,“自信”值為分類器fi對(duì)每個(gè)類別sj(j=1,2,…,n)給出的度量層結(jié)果的概率平均值。用數(shù)學(xué)公式表示如式(10)所示。

與上述性能加權(quán)投票(PWV)不同,PWV通常將加權(quán)系數(shù)λi設(shè)置為基分類器的概率p(fi)[2],而這是很難求得的。本文設(shè)計(jì)的加權(quán)系數(shù)根據(jù)分類器fi的自信程度來(lái)確定它的權(quán)值,θi反映了分類器fi對(duì)所有類別sj(j=1,2,…,n)計(jì)算出的度量層的分類概率的平均值,如果P(sj|fi)大于或等于平均值θi,則說(shuō)明fi對(duì)分類結(jié)果更傾向于類別sj,也就是說(shuō),它自信自己對(duì)確定最終類別sj的貢獻(xiàn)要大,因此,給P(sj|fi)的權(quán)重系數(shù)為0.7,而如果P(sj|fi)<θi,則說(shuō)明分類器fi對(duì)選擇類別sj并不自信,因此在最終確定sj時(shí)只對(duì)自己計(jì)算出的概率值P(sj|fi)要30%的加權(quán)值。

這樣設(shè)計(jì)的性能加權(quán)系數(shù),能夠保證每個(gè)分類器fi(i=1,2,…,m)對(duì)最后類別的確定具有發(fā)言權(quán),只是每個(gè)分類器根據(jù)其自信度(是否大于閾值θi)發(fā)言權(quán)的大小不同??朔酥豢紤]那些對(duì)類別確定具有最大概率的分類器的缺陷,讓所有分類器都能發(fā)揮作用,計(jì)算的結(jié)果更合理。在詞義消歧應(yīng)用中,分類的類別就是多義詞的義項(xiàng),這里所設(shè)計(jì)的模型,考慮了更多的上下文特征,不同的上下文特征集對(duì)應(yīng)于不同的分類器,每個(gè)分類器都能對(duì)當(dāng)前多義詞的義項(xiàng)確定發(fā)揮作用,只是每個(gè)分類器對(duì)多義詞的每個(gè)義項(xiàng)的貢獻(xiàn)權(quán)重不同。綜合計(jì)算出它的每個(gè)義項(xiàng)的概率值之后,排序選擇概率最大的那個(gè)義項(xiàng)作為多義詞的義項(xiàng)。通過(guò)大量實(shí)驗(yàn),我們發(fā)現(xiàn)使用0.7確定“自信”特征的加權(quán)系數(shù)效果比較好。具體算法步驟如下:

Step1.對(duì)數(shù)據(jù)集(人民日?qǐng)?bào)2000年11、12月中的50天語(yǔ)料)按不同的特征提取方法(所設(shè)計(jì)的7種特征模板)進(jìn)行特征提取,形成7個(gè)特征集。

Step2.對(duì)每個(gè)基分類器fi(i=1,2,…,m),利用Step1得到的7種特征集,對(duì)多義詞進(jìn)行消歧分類實(shí)驗(yàn),將消歧效果好的特征集作為與自己相適應(yīng)的特征集。

Step3.對(duì)基分類器fi(i=1,2,…,m)確定在其相應(yīng)的特征集下,在度量層計(jì)算出每個(gè)類別sj的概率值,并按式(10)計(jì)算相應(yīng)的“自信”閾值θi。

Step4.For Each sjin S

Step5.對(duì)度量層的sj(j=1,2,…,n)進(jìn)行排序,選出sumj最大的那個(gè)sj作為分類結(jié)果。

5 實(shí)驗(yàn)設(shè)計(jì)與實(shí)現(xiàn)

選取的實(shí)驗(yàn)語(yǔ)料為北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所標(biāo)注的《人民日?qǐng)?bào)》詞義標(biāo)注語(yǔ)料庫(kù),實(shí)驗(yàn)選取了2000年11月和12月兩個(gè)月的標(biāo)注語(yǔ)料共20M,其中80%(50天)作為訓(xùn)練語(yǔ)料,20%作為測(cè)試語(yǔ)料。同樣從語(yǔ)料中統(tǒng)計(jì)出現(xiàn)頻率大于500的動(dòng)詞,選取如表1所示的15個(gè)作為實(shí)驗(yàn)對(duì)象,其中CSD表示《現(xiàn)代漢語(yǔ)語(yǔ)義詞典》。

表1 15個(gè)實(shí)驗(yàn)用的多義詞

(1)特征模板設(shè)計(jì)與特征提取。上下文知識(shí)選擇了“整句范圍詞性”、“整句范圍詞”、“整句范圍詞性+詞”、“(-2,+2)范圍詞性”、“(-2,+2)范圍詞”、“(-2,+2)范圍詞性+詞”、“依存句法”等七種特征,作為備選特征。

融合實(shí)驗(yàn)結(jié)果比較的主要技術(shù)指標(biāo)是:準(zhǔn)確率=正確標(biāo)注數(shù)/標(biāo)注總數(shù)。

(2)實(shí)驗(yàn)過(guò)程。實(shí)驗(yàn)過(guò)程遵循多分類器系統(tǒng)構(gòu)建的三個(gè)步驟:數(shù)據(jù)預(yù)處理,基分類器訓(xùn)練,融合基分類器。

數(shù)據(jù)預(yù)處理:包括特征提取和數(shù)據(jù)規(guī)范化,這些操作在模型訓(xùn)練和測(cè)試中都會(huì)用得到。

基分類器訓(xùn)練:針對(duì)貝葉斯、向量空間、最大熵等三種消歧模型,在備選樣本集中進(jìn)行模型的訓(xùn)練,取得效果理想的基分類器。

分類器融合:用上述提出的動(dòng)態(tài)自適應(yīng)加權(quán)投票分類器融合方法將生成的基分類器組合在一起。

(3)實(shí)驗(yàn)設(shè)計(jì)。通過(guò)分析,我們?cè)O(shè)計(jì)了以下四種實(shí)驗(yàn),對(duì)本文所提的分類器融合模型進(jìn)行驗(yàn)證。

實(shí)驗(yàn)一:成員分類器選擇貝葉斯、向量空間、最大熵三種模型,舍棄決策樹(shù)分類算法,因?yàn)闆Q策樹(shù)算法性能不高,會(huì)影響集成分類器的效果。多分類器集成方法采用了最大投票(MV),改進(jìn)的投票(IV),性能加權(quán)投票(PWV)和動(dòng)態(tài)自適應(yīng)加權(quán)投票(AWA)

實(shí)驗(yàn)二:只選取平均結(jié)果在85%以上的單分類器作為基分類器,即貝葉斯、最大熵進(jìn)行實(shí)驗(yàn)。由于只有兩種基分類器無(wú)法使用簡(jiǎn)單投票法進(jìn)行集成,實(shí)驗(yàn)選擇改進(jìn)的投票(IV)和動(dòng)態(tài)自適應(yīng)加權(quán)投票(AWA)的融合算法。

實(shí)驗(yàn)三:選擇最大熵分類器,在七種備選特征集上分別進(jìn)行訓(xùn)練,得到不同的模型,然后使用最大投票(MV)、改進(jìn)的投票(IV)、性能加權(quán)投票(PWV)和動(dòng)態(tài)自適應(yīng)加權(quán)投票(AWA)的融合算法進(jìn)行計(jì)算。

實(shí)驗(yàn)四:選擇貝葉斯分類器,在七種備選特征集上進(jìn)行分別訓(xùn)練,得到不同的模型,然后使用最大投票(MV)、改進(jìn)的投票(IV)、性能加權(quán)投票(PWV)和動(dòng)態(tài)自適應(yīng)加權(quán)投票(AWA)的融合算法進(jìn)行計(jì)算。

6 實(shí)驗(yàn)結(jié)果分析比較

實(shí)驗(yàn)一結(jié)果如表2所示。

表2 實(shí)驗(yàn)一結(jié)果

續(xù)表

由實(shí)驗(yàn)一的結(jié)果可以看出,融合分類器的平均準(zhǔn)確率從高到低依次為AWA、IV、PWV、MV。其中,IV、PWV、AWA結(jié)果優(yōu)于最佳單分類器最大熵(91.08%)[5],效果最好的 AWA 比之高出0.53%。進(jìn)一步分析,可以得出以下結(jié)論:

(1)最大投票方法表現(xiàn)較差的原因是它只利用了單分類器結(jié)果層的信息。雖然性能最佳的單分類器超出其他成員分類器許多,但在最大投票中卻不占優(yōu)勢(shì),因?yàn)橐?guī)則是“一人一票”。就像真理掌握在少數(shù)人手中,卻不被大多數(shù)人接受。

(2)改進(jìn)的投票方法成功的原因在于結(jié)果的融合是在度量層。該方法充分考慮了單分類器給出的義項(xiàng)概率估計(jì)值會(huì)提供潛在的有用信息,體現(xiàn)出了性能好的單分類器的優(yōu)勢(shì)。

(3)性能加權(quán)投票略遜于改進(jìn)的投票方法。雖然其結(jié)果的融合也是在度量層,但它在融合結(jié)果時(shí)加了一個(gè)權(quán)值,這樣就引入了人為的噪聲。

(4)動(dòng)態(tài)自適應(yīng)加權(quán)投票結(jié)果融合也是在度量層。其之所以獲得最終的成功,在于權(quán)值的設(shè)定去掉了人為的因素,而是根據(jù)各基分類器自身情況自動(dòng)決定的。

實(shí)驗(yàn)二的結(jié)果如表3所示。

表3 實(shí)驗(yàn)二結(jié)果

在去掉了性能較差的向量空間模型之后,改進(jìn)的投票方法和動(dòng)態(tài)自適應(yīng)加權(quán)投票的正確率都獲得了提升。究其原因,在于性能不好的單分類器扯了“大家”的后腿,其提供的互補(bǔ)信息,不足以彌補(bǔ)性能低下帶來(lái)的損失。而且動(dòng)態(tài)自適應(yīng)加權(quán)投票仍然領(lǐng)先于改進(jìn)投票方法,充分說(shuō)明了本文所提算法的有效性。深入分析原因,得到如下觀點(diǎn):AWA之所以有效可以從它的模型算法看出來(lái),它克服了性能好的單分類器“過(guò)度自信”的缺點(diǎn),同時(shí)又照顧了性能好的單分類器的權(quán)重,但如果單分類器表現(xiàn)出“不自信”就進(jìn)行懲罰,降低其權(quán)重。算法關(guān)鍵就在自調(diào)節(jié)性上。

本實(shí)驗(yàn)結(jié)果,為下一步的深入研究指明了方向,成員分類器一定要選擇性能好的單分類器,否則構(gòu)造的集成分類器精確度也不會(huì)很高。

實(shí)驗(yàn)三的結(jié)果如表4所示。

表4 實(shí)驗(yàn)三結(jié)果

由實(shí)驗(yàn)三的結(jié)果可以看出,集成分類器的平均準(zhǔn)確率從高到底依次為 MV、PWV、IV、AWA。所有集成分類器的結(jié)果均優(yōu)于單分類器最大熵的最佳性能(91.08%)[5]。這說(shuō)明特征之間的互補(bǔ)信息,幫助提高了最終融合結(jié)果的準(zhǔn)確率。在一種特征空間中難以識(shí)別的模式,可能在另一種特征空間中很容易識(shí)別。

實(shí)驗(yàn)四結(jié)果如表5所示。

由實(shí)驗(yàn)四的結(jié)果可以看出融合分類器的平均準(zhǔn)確率從高到底依次為AWA、PWV、IV、MV。除了AWA超出了貝葉斯最佳性能(87.66%),其他集成分類器均略低于最佳性能。

表5 實(shí)驗(yàn)四結(jié)果

綜合實(shí)驗(yàn)三的結(jié)果和實(shí)驗(yàn)四的結(jié)果可以看出,一種規(guī)則并不是放之四海而皆準(zhǔn)的,在一種模型上適用的融合方法,并不一定在另一種模型上適用。但通過(guò)這兩個(gè)實(shí)驗(yàn)也可以看出,多分類器融合方法能夠提高單分類器的效果。

本文在分析了前人分類器融合算法的基礎(chǔ)上,結(jié)合詞義消歧的任務(wù)提出了一種動(dòng)態(tài)自適應(yīng)加權(quán)投票的多分類器融合算法。通過(guò)實(shí)驗(yàn)檢測(cè)表明,所提出的分類器融合模型充分利用了各基分類器輸出的義項(xiàng)概率值,提高了詞義消歧的準(zhǔn)確率,分析其原因主要在于模型本身的自調(diào)節(jié)性上。另外,實(shí)驗(yàn)也表明,一種融合規(guī)則并不是適合任意的多分類器進(jìn)行融合。

[1]Thomas G.Dietterich.Machine learning research:Four current directions[J].AI Magazine,1997,18(4):97-136.

[2]吳云芳,王淼,金澎,等.多分類器集成的漢語(yǔ)詞義消歧研究[J].計(jì)算機(jī)研究與發(fā)展,2008,45(8):1354-1361.

[3]全昌勤,何婷婷,姬東鴻,等.基于多分類器決策的詞義消歧方法[J].計(jì)算機(jī)研究與發(fā)展,2006,43(5):933-939.

[4]Latinne P,Debeir O,Decaestecker C.Combining Different Methods and Numbers of Weak Decision Trees[J].Pattern Analysis & Applications,2002,5(2):201-209.

[5]張仰森,郭江.四種統(tǒng)計(jì)詞義消歧模型的分析與比較.北京信息科技大學(xué)學(xué)報(bào),2011,26(2):13-18.

[6]Kilgarriff A,Rosenzweig J.Framework and results for English SenSeval [J]. Computers and the Humanities 34:15-48,2000.

[7]Xiaojie Wang, Yuji Matsumoto.Trajectory based word sense disambiguation [C/OL]//COLING 2004:Proceedings of the 20th International Conference on Computational Linguistics. http://aclweb. org/anthology/C/C04/C04-1130.pdf.

猜你喜歡
詞義分類器性能
“誅”的詞義演變及其在古籍中的釋義
保暖襪透濕性能測(cè)定的不確定度分析
西夏語(yǔ)“頭項(xiàng)”詞義考
隱喻手法幫你理解詞義
基于特征選擇的SVM選擇性集成學(xué)習(xí)方法
提供將近80 Gbps的帶寬性能 DisplayPort 2.0正式發(fā)布
基于深度優(yōu)先隨機(jī)森林分類器的目標(biāo)檢測(cè)
詞義辨別小妙招——看圖辨詞
基于差異性測(cè)度的遙感自適應(yīng)分類器選擇
Al-Se雙元置換的基于LGPS的thio-LISICON的制備與性能表征
牟定县| 民乐县| 鸡东县| 乐陵市| 连城县| 灵璧县| 扎赉特旗| 津南区| 田林县| 洪泽县| 榕江县| 容城县| 卢湾区| 桃江县| 新巴尔虎左旗| 巴林右旗| 礼泉县| 保德县| 台州市| 滨州市| 宜黄县| 九江县| 黑山县| 娱乐| 区。| 宁南县| 增城市| 土默特左旗| 兰西县| 扎兰屯市| 曲周县| 喜德县| 仪征市| 华亭县| 新化县| 衡山县| 锡林郭勒盟| 陇西县| 靖远县| 桑植县| 镇原县|