国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

規(guī)則與統(tǒng)計結(jié)合的俄語基本名詞短語識別

2014-08-29 08:24黃海紅蔡東風(fēng)
關(guān)鍵詞:俄語語料短語

劉 穎,季 鐸,黃海紅,蔡東風(fēng)

(1.沈陽航空航天大學(xué) 知識工程研究中心,沈陽 110136;2.中國商飛 上海飛機設(shè)計研究院,上海 201210)

規(guī)則與統(tǒng)計結(jié)合的俄語基本名詞短語識別

劉 穎1,季 鐸1,黃海紅2,蔡東風(fēng)1

(1.沈陽航空航天大學(xué) 知識工程研究中心,沈陽 110136;2.中國商飛 上海飛機設(shè)計研究院,上海 201210)

針對目前國內(nèi)鮮有研究且語料資源缺乏的俄語基本名詞短語(Base Noun Phrase,BaseNP)識別,提出一種規(guī)則與統(tǒng)計相結(jié)合的方法,其優(yōu)勢是在有限資源的基礎(chǔ)上,既能充分利用俄語BaseNP在詞性構(gòu)成上的規(guī)律特點,通過俄漢詞典統(tǒng)計得到最佳詞性搭配模式庫進行模式匹配;又無需人工標(biāo)注統(tǒng)計工具所需的訓(xùn)練語料,僅依靠詞典和詞性搭配模式庫自動構(gòu)建,節(jié)省標(biāo)注代價。規(guī)則與統(tǒng)計的結(jié)合,既能在很大程度上召回BaseNP,又能使用條件隨機場(Conditional Random Fields,CRF)糾正規(guī)則標(biāo)注的歧義和錯誤,處理規(guī)則未能覆蓋的情況。實驗表明,使用該方法實現(xiàn)的俄語基本名詞短語識別效果良好,其F值達到了84.14%。

俄語;基本名詞短語;詞性搭配模式;CRF

基本名詞短語的識別是自然語言處理領(lǐng)域的一項基本任務(wù),可以被廣泛應(yīng)用于機器翻譯、信息檢索、問答系統(tǒng)等其他領(lǐng)域,其識別效果的好壞也直接影響著文本處理、句法分析等任務(wù)的準(zhǔn)確性。

目前,基本名詞短語的識別工作已有很多的相關(guān)研究,總結(jié)已有的識別方法,大致可分為兩種,即基于規(guī)則的方法和基于統(tǒng)計的方法。然而,識別研究的對象大多針對英語和漢語,鮮有俄語的研究成果。

從語言學(xué)的角度來說,英語基本名詞短語的詞性構(gòu)成是相對有限的,而且符合一定的排列順序,通過在一定規(guī)模的語料上進行統(tǒng)計和總結(jié),得到常見的基本名詞短語詞性構(gòu)成模板,就可以實現(xiàn)大多數(shù)BaseNP的識別[1],即基于規(guī)則的識別方法。與此同時,英語和漢語又擁有較為充足的語料庫資源。比如英語有華爾街日報等語料庫可供使用,漢語也有哈工大漢語樹庫等資源。這些語料庫資源使得統(tǒng)計工具在這兩種語言的基本名詞短語識別上可以發(fā)揮其作用,因此基于統(tǒng)計的英語和漢語的BaseNP識別取得了很好的效果。

相比之下,俄語作為典型的屈折語,既沒有語序的限制,又有極其豐富的形態(tài)變化,具體表現(xiàn)為其各類詞性下的多種語法范疇,比如名詞有性、數(shù)、格的范疇,動詞有體、時、態(tài)的范疇等。這些豐富的變化形式是俄語所特有的,并且難以用簡單的規(guī)則加以總結(jié)和概括,因此使得單純基于規(guī)則的方法不能得到很好的應(yīng)用。傅興尚等人雖提出過基于規(guī)則的方法對俄語的名詞性構(gòu)句塊進行模式化分析[2],并展示了具體的程序和算法,但并沒有對識別結(jié)果進行具體闡述。

除此之外,俄語不僅缺乏語料庫資源,其學(xué)習(xí)者數(shù)量也較英語、漢語少得多,使得語料的人工標(biāo)注代價更大。這一現(xiàn)狀限制了統(tǒng)計工具在俄語基本名詞短語識別中的應(yīng)用。

基于俄語語言形態(tài)變化異常豐富的自身特點以及其缺乏標(biāo)注語料又少有研究的現(xiàn)狀,本文提出規(guī)則與統(tǒng)計相結(jié)合的方法實現(xiàn)俄語基本名詞短語的識別。二者的結(jié)合既能使規(guī)則方法的識別歧義被統(tǒng)計方法修正,又不需要人工進行訓(xùn)練語料的標(biāo)注。

本文的第一章對俄語基本名詞短語識別的研究現(xiàn)狀進行了大致地介紹,第二章闡述規(guī)則和統(tǒng)計相結(jié)合的俄語BaseNP識別方法,包括BaseNP詞性搭配模式庫的獲取,基于規(guī)則的候選項標(biāo)注,以及CRF訓(xùn)練語料的自動構(gòu)建過程等具體內(nèi)容,第三章描述了實驗數(shù)據(jù)和實驗結(jié)果。

1 國內(nèi)外研究現(xiàn)狀

英語和漢語的基本名詞短語識別已有大量研究并取得了很好的效果。如郭永輝,楊紅衛(wèi)等把英語BaseNP的標(biāo)注看作是決策問題,用粗糙集的理論加以解決[3],譚魏璇,孔芳等采用基于轉(zhuǎn)換的標(biāo)注和以條件隨機域模型為低層、支持向量機為高層的混合統(tǒng)計模型實現(xiàn)了中文BaseNP的識別[4],梁穎紅,趙鐵軍等采用規(guī)則和邊界統(tǒng)計相結(jié)合的策略實現(xiàn)了英語基本名詞短語的識別[5]等。

而俄語的相關(guān)研究工作,不論是基本名詞短語識別,還是自然語言處理領(lǐng)域的其他基本任務(wù),都還未取得太多的進展[6]。比如命名實體識別的研究工作,Rinat Gareev,Maksim Tkachenko等在2013年才剛剛提出俄語命名實體識別的Baselines[6]。發(fā)布了一份可供其他學(xué)術(shù)研究者使用的人工標(biāo)注語料,介紹了基于知識和基于統(tǒng)計的兩種識別方法。

2004年傅興尚和許漢成針對俄語句法信息的自動化處理提出了基本構(gòu)句塊的概念以及相應(yīng)的識別算法。他們將名詞構(gòu)句塊總結(jié)為兩種類型:第一種是前置詞與名詞的組合結(jié)構(gòu),其中主導(dǎo)詞是名詞,前置詞為從屬詞。第二種是由形容詞、物主代詞、指示代詞、序數(shù)詞等限定詞與名詞構(gòu)成一致聯(lián)系的結(jié)構(gòu),也包括前置詞與這種結(jié)構(gòu)的結(jié)合體,其中主導(dǎo)詞為名詞,前置詞和限定詞為從屬詞。最后通過基于規(guī)則的方法實現(xiàn)這兩種名詞構(gòu)句塊的識別。

此外,也有相關(guān)文獻從語言學(xué)的角度對俄語名詞短語的組構(gòu)規(guī)則和應(yīng)用規(guī)律進行了論述,為俄語名詞短語的識別工作提供了理論支撐。

其中較為系統(tǒng)和詳細的是,2006年黑龍江大學(xué)的李謹香在其博士學(xué)位論文中對俄語名詞性短語的結(jié)構(gòu)和功能與漢語進行了對比研究的闡述[7]。論文總結(jié)俄語名詞性短語從結(jié)構(gòu)類別上可以分為定心短語、并列短語和同位短語。其中定心短語的組合形式有:數(shù)量詞與名詞,代詞與數(shù)詞,名詞與名詞,形容詞與名詞,動詞與名詞,介詞短語與名詞。每種組合形式都有其相應(yīng)的語法限制。例如:數(shù)量詞+名詞的BaseNP模式須在數(shù)范疇上滿足對稱性,例如одна ручка(一支鋼筆),形容詞+名詞的BaseNP,例如центрирующую шестерни(定心齒輪),其中形容詞必須是長尾形式,并且要與名詞保持性、數(shù)、格的一致性等。這些搭配規(guī)律和一致性特點,是進行俄語BaseNP識別時的重要特征。

2 規(guī)則與統(tǒng)計相結(jié)合的俄語BaseNP識別

本文的俄語BaseNP識別分為兩個部分:第一部分是基于規(guī)則的BaseNP候選項標(biāo)注,第二部分是基于CRF的BaseNP標(biāo)注。規(guī)則標(biāo)注首先利用對俄漢詞典的漢語端進行BaseNP

識別獲得相應(yīng)的俄語BaseNP語料集,然后經(jīng)過詞性標(biāo)注并使用一種寬泛的召回率計算方法選擇出最佳詞性搭配模式庫,再基于該模式庫采用最長匹配原則進行詞性搭配模式的匹配,標(biāo)注出BaseNP的候選項;基于CRF的標(biāo)注無需人工標(biāo)注,僅依靠詞典和詞性搭配模式庫自動構(gòu)建訓(xùn)練語料,選擇合適的特征模板,進行BaseNP的標(biāo)注,以糾正候選項標(biāo)注結(jié)果中的錯誤,提高識別的準(zhǔn)確率。系統(tǒng)的示意圖如圖1所示。

圖1 系統(tǒng)示意圖

2.1 預(yù)處理

預(yù)處理是使用一個俄語的詞性標(biāo)注工具2將語料按表1所示的俄語詞性命名規(guī)范進行詞性的標(biāo)注。并處理為統(tǒng)一格式,如圖2所示。

表1 俄語詞性命名規(guī)范

BaseNP候選項和BaseNP的標(biāo)注都是在這種格式的語料上進行,標(biāo)注標(biāo)記分別為B(BaseNP的左邊界詞),I(BaseNP的內(nèi)部詞),E(BaseNP的右邊界詞),O(不屬于BaseNP的詞)。

圖2語料格式

2.2 基于規(guī)則的BaseNP候選項標(biāo)注

BaseNP的候選項標(biāo)注是在詞性搭配模式庫的指導(dǎo)下,標(biāo)注出所有匹配詞串的過程。具體操作是:首先,對俄漢詞典的漢語翻譯進行BaseNP的識別,據(jù)此將對應(yīng)的俄語詞條選入俄語BaseNP語料集,對該語料集進行詞性標(biāo)注,統(tǒng)計詞性搭配以獲得模式庫。然后,基于該詞性搭配模式庫,采用最長匹配原則對俄語句子進行候選項的標(biāo)注。標(biāo)注的目標(biāo)是獲得盡可能多的BaseNP候選項,以保證識別的召回率。

2.2.1 詞性搭配模式庫的獲取

詞性搭配模式庫的獲取,有一個選擇和過濾的過程,也就是說,并不是所有從俄語語料集中統(tǒng)計得到的詞性搭配模式都用于BaseNP候選項的標(biāo)注。

基于詞性搭配模式庫采用最長匹配原則標(biāo)注出的BaseNP候選項,會有很大一部分并不與正確答案完全相同,而是在其內(nèi)部包含正確答案,如圖3所示:

圖3BaseNP候選項標(biāo)注結(jié)果

圖3中的詞性組合“J J N”和“J N”都在詞性搭配模式庫中存在,但由于最長匹配的原則,所以將“J J N”對應(yīng)的短語標(biāo)注為BaseNP候選項,而不能標(biāo)出“J N”對應(yīng)的短語,此時,標(biāo)注出的BaseNP候選項就不是正確答案,而是包含正確答案。這種情況應(yīng)該被認為是正確識別,因為詞性搭配模式匹配的目的就是使標(biāo)注出的BaseNP候選項集合盡可能多地包含正確答案。

以R′作為指標(biāo)進行詞性搭配模式庫獲取的方法是:對于所有從俄語語料集中統(tǒng)計得到的詞性搭配模式,按頻率由高至低依次加入模式庫中,若加入某條詞性搭配模式后,當(dāng)前模式庫對BaseNP候選項的標(biāo)注召回率較前一次增大,則在模式庫中保留該條詞性模式并繼續(xù)添加下一條,否則,在模式庫中把該條詞性搭配模式刪除,再增加下一條。偽代碼如算法1所示:

算法1詞性搭配模式的獲取定義 r_dic:從詞典中統(tǒng)計得到的所有詞性搭配模式的集合,包含N個元素r_set:詞性搭配模式庫ri:第i條詞性搭配模式R':召回率fori∈[1,N]doaddritor_set基于r_set進行BaseNP候選項的標(biāo)注ifRi'>Ri-1' nextelse 在r_set中刪除ri nextendifendfor r_setretum

由此得到使召回率R′最大的最佳BaseNP詞性搭配模式庫,共包含詞性搭配模式83條,其中一部分如表2所示:

表2 BaseNP詞性搭配模式(Pattern)統(tǒng)計(部分)

由表可知,存在很多嵌套的詞性搭配模式,這樣在最長匹配原則下會產(chǎn)生很多包含子BaseNP的候選項,而這種嵌套的拆分,正是進行下一步基于CRF標(biāo)注的目的。

2.3 基于CRF的BaseNP標(biāo)注

對于基于規(guī)則標(biāo)注得到的BaseNP候選項集合,再使用CRF在基于詞典和詞性搭配模式庫自動構(gòu)建的語料上進行訓(xùn)練,得到標(biāo)注模型并進行BaseNP的標(biāo)注,從而切分由于最長匹配原則導(dǎo)致的包含子BaseNP的標(biāo)記、剔除錯誤的標(biāo)記,達到準(zhǔn)確率的提高。如圖4:

圖4標(biāo)注結(jié)果對比

由圖可知,CRF標(biāo)注的作用是在基于規(guī)則標(biāo)注出的候選項中識別出正確答案,剔除錯誤標(biāo)記。

2.3.1 條件隨機場

條件隨機場是John Lafferty等人于2001年提出的一種在給定輸入節(jié)點條件下計算輸出節(jié)點條件概率的無向圖模型[8],用于序列標(biāo)注和分類。

定義x=x1,…,xN為給定的輸入觀測值序列,比如文本輸入的俄語詞序列,定義y=y1,…,yN為輸出的狀態(tài)序列,比如輸出的BaseNP標(biāo)記序列,CRF定義從輸入x得到序列y的條件概率為:

其中,Z(x)是歸一化函數(shù),F(xiàn)j(y,x)是特征函數(shù),λj是第j個特征函數(shù)的權(quán)重參數(shù),可在訓(xùn)練中得到。BaseNP的識別目標(biāo)就是要找到最優(yōu)序列p*,使得:

2.3.2 訓(xùn)練語料的構(gòu)建

基于CRF的標(biāo)注,是在每個BaseNP候選項內(nèi)部的標(biāo)注,目的是將包含多個BaseNP的候選項拆開,將錯誤識別的候選項剔除,所以訓(xùn)練語料的構(gòu)建,是針對每條詞性搭配模式而進行的短語語料構(gòu)建,而不是句子語料的構(gòu)建。

具體做法是:對于某個詞性搭配模式庫中的BaseNP詞性搭配模式,若在該模式內(nèi)部還包含子模式,則當(dāng)前模式就可以有其他不同的標(biāo)注方式,對于每種標(biāo)注方式,分別在詞典中找到相應(yīng)詞性組合的詞條作為實例添加至要構(gòu)建的訓(xùn)練語料中。每種標(biāo)注方式都各擴展10個實例添加至構(gòu)建的訓(xùn)練語料中,每次所選的詞條不可重復(fù)。

例如:詞性搭配模式J N J,

該模式內(nèi)部還包含模式庫中存在的模式“N”、“N J”,所以其可能的標(biāo)注方式有:B I E,O B E等,對每種標(biāo)注方式,都各自在詞典中找到相應(yīng)詞性的詞,加以詞性標(biāo)注和BIEO標(biāo)記的標(biāo)注,然后添加到構(gòu)建的訓(xùn)練語料中,每種標(biāo)注方式以此方式進行10次,每次選擇的詞都不可重復(fù)。示意圖如圖5所示。

2.3.3 特征模板的選擇

特征模板的選擇要考慮到每個詞所攜帶的詞性信息以及其上下文環(huán)境兩個因素,這里所說的詞性信息,包括詞類和性、數(shù)、格屬性。本文所選特征模板及其代表的含義如表3所示。

3 實驗數(shù)據(jù)及結(jié)果分析

3.1 實驗準(zhǔn)備

實驗所用的詞典抽取自俄漢基本大詞典、科技大詞典、物理大詞典等多部詞典,共有詞條520223條,詞條既有單詞也有詞組,最長的詞條長度為22個單詞。

測試語料是由俄語專業(yè)學(xué)生標(biāo)注的800句專利文本。

圖5 訓(xùn)練語料構(gòu)建過程示意圖

表3 特征模板

3.2 評價指標(biāo)

采用自然語言處理領(lǐng)域三個通用的評價指標(biāo),準(zhǔn)確率(P),召回率(R)和F值,具體定義為:

3.3 實驗結(jié)果

在測試語料上進行詞性模式匹配(Pattern_match)的標(biāo)注結(jié)果與在其基礎(chǔ)上進行CRF模型(Pattern_match+model)的標(biāo)注結(jié)果如表4所示。

表4 實驗結(jié)果 (%)

結(jié)果表明,基于詞性模式匹配的標(biāo)注結(jié)果召回率接近90%,實現(xiàn)了BaseNP的大部分召回,而在此基礎(chǔ)上進行的CRF模型標(biāo)注,使得實驗結(jié)果在召回率沒有明顯下降的前提下,準(zhǔn)確率提高了15.5%,整體提升了F值。體現(xiàn)出規(guī)則與統(tǒng)計方法相結(jié)合對于識別效果的有效性。

4 總結(jié)

俄語基本名詞短語的識別同英語、漢語等語言一樣具有重要意義,其研究成果對于俄漢機器翻譯的發(fā)展具有直接的指導(dǎo)意義和應(yīng)用價值。

本文在兼顧俄語自身語言特點的基礎(chǔ)上,不需要人工標(biāo)注訓(xùn)練語料,結(jié)合統(tǒng)計工具的使用,實現(xiàn)了俄語基本名詞短語的識別,并取得了良好的效果。

在今后的研究中,還將進一步針對CRF工具標(biāo)注時的特征選擇進行實驗,達到更好的消歧能力和BaseNP的標(biāo)注準(zhǔn)確率。

[1] 游斕.基于轉(zhuǎn)換的基本名詞短語識別[C].復(fù)旦大學(xué)·政學(xué)者論文集,2002:236-245.

[2] 傅興尚,許漢成.俄語句法信息的自動化處理——基本構(gòu)句塊及其識別算法[J].解放軍外國語學(xué)院學(xué)報,2004,27(1):38-41.

[3] 郭永輝,楊紅衛(wèi),馬芳,等.基于粗糙集的基本名詞短語識別[J].中文信息學(xué)報,2006,20(3):14-21.

[4] 譚魏璇,孔芳,倪吉,等.基于混合統(tǒng)計模型的中文基本名詞短語識別[J].計算機應(yīng)用與軟件,2011,28(8):254-256.

[5] 梁穎紅,趙鐵軍,翟舒.規(guī)則和邊界統(tǒng)計相結(jié)合的英語基本名詞短語識別[C].語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集,2003.

[6] Gareev R,Tkachenko M,Solovyev V,et al.Introducing baselines for russian named entity recognition[C].Computational Linguistics and Intelligent Text Processing.Springer Berlin Heidelberg,2013:329-342.

[7] 李謹香.漢俄語名詞性短語的結(jié)構(gòu)與功能研究[D].哈爾濱:黑龍江大學(xué),2006.

[8] Lafferty J,McCallum A,Pereira F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence data[J].2001:139-141.

[9] 劉飛,周俏麗,張桂平.基于輔助短語標(biāo)記的名詞短語識別[J].沈陽航空航天大學(xué)學(xué)報,2014,31(1):52-59.

[10] Xun E,Huang C,Zhou M.A unified statistical model for the identification of English baseNP[C].Proceedings of the 38th Annual Meeting on Association for Computational Linguistics.Association for Computational Linguistics,2000:109-116.

[11] Sang E F.Noun phrase recognition by system combination[C].Proceedings of the 1st North American chapter of the Association for Computational Linguistics conference.Association for Computational Linguistics,2000:50-55.

[12]王仲華,盧嬌麗.基于 HMSVM 的基本名詞短語識別研究[J].太原師范學(xué)院學(xué)報:自然科學(xué)版,2012,11(4):133-135.

[13]章忠憲.基于規(guī)則的英語名詞短語結(jié)構(gòu)自動識別研究[J].吉林工程技術(shù)師范學(xué)院學(xué)報,2013,29(7):70-72.

[14]錢小飛,侯敏.基于混合策略的漢語最長名詞短語識別[J].中文信息學(xué)報,2013,27(6):16-22.

[15]馬建軍.面向機器翻譯的英語功能名詞短語識別研究[D].大連:大連理工大學(xué),2012.

(責(zé)任編輯:劉劃 英文審校:宋曉英)

RecognitionofRussianbasenounphrasebasedonrulesandstatistics

LIU Ying1,JI Duo1,HUANG Hai-hong2,CAI Dong-feng1

(1.Knowledge Engineering Research Center,Shenyang Aerospace University,Shenyang 110136,China;2.Shanghai Aircraft Design And Research Institute,Commercial Aircraft Corporation of China,Shanghai 201210,China)

In attempt to build Russian corpus,a method for the recognition of Russian base noun phrase based on statistics and rules is proposed.It can not only take advantage of characteristics of Russian BaseNP in the part of speech,by selecting in the best pattern corpus of speech collocation from the Russian-Chinese dictionary to do pattern matching,but also build corpus automatically instead of manually,which is for statistical tools to use,according to the dictionary and the pattern corpus of speech collocation only.The combination of rules and statistics can tag base noun phrase candidates as much as possible,and rectify those ambiguous tagged candidates or errors by CRF,dealing with the rule-uncovered phenomena.The results show that the method is efficient for identifying Russian base noun phrase,of which the F-score reaches 84.14%.

Russian;base noun phrase;speech pattern;CRF

2014-09-02

國家“十二五”科技支撐計劃項目(項目編號:2012BAH14F00)

劉穎(1990-),女,內(nèi)蒙古赤峰人,碩士研究生,主要研究方向:自然語言處理,E-mail:liuying_ck081@163.com;蔡東風(fēng)(1958-),男,河北霸縣人,教授,主要研究方向:人工智能、自然語言處理,E-mail:caidf@vip.163.com。

2095-1248(2014)06-0066-07

TP391

A

10.3969/j.issn.2095-1248.2014.06.012

猜你喜歡
俄語語料短語
俄語歌曲在俄語教學(xué)中的應(yīng)用策略探究
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
《健民短語》一則
基于3D虛擬情境的俄語視聽說教學(xué)
華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
《苗防備覽》中的湘西語料
國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
俄語稱呼語的變遷
今日俄語:語法領(lǐng)域中的積極過程*——“今日俄語”系列研究之二
鹿邑县| 沾化县| 淳安县| 郧西县| 博湖县| 治多县| 额敏县| 武陟县| 桓仁| 罗江县| 温州市| 陇南市| 全南县| 天全县| 克东县| 安阳县| 体育| 莱西市| 淳化县| 桓仁| 海晏县| 巴楚县| 大化| 玉龙| 屏东县| 布尔津县| 九江县| 新密市| 博兴县| 化州市| 修武县| 盱眙县| 吴堡县| 长丰县| 城固县| 东平县| 丰原市| 扶余县| 平阴县| 潜江市| 贵州省|