韓朝陽++劉國兵++王躍武
摘要:英語基本名詞短語識別是一種重要的基礎性自然語言處理活動,其識別準確率與召回率直接影響其它相關自然語言處理活動效果。在分析、總結(jié)幾種具有代表性基本名詞短語識別方法的基礎上,提出了一種新型識別方法,其核心是:把邊界概率與N_Gram詞性串規(guī)則相結(jié)合作為識別判斷條件,以“假擬中心詞”為起點,分別向左、向右識別出當前“假擬中心詞”所在基本名詞短語的左、右邊界。實驗證明,該方法的識別準確率為97.13%、召回率為98.75%,F(xiàn)B=1為 97.93%。
關鍵詞:英語基本名詞短語識別;邊界概率;N_Gram詞性串規(guī)則;假擬中心詞
DOIDOI:10.11907/rjdk.151296
中圖分類號:TP301
文獻標識碼:A 文章編號文章編號:16727800(2015)008001405
基金項目基金項目:2014年國家社科基金項目(14BYY084)
作者簡介作者簡介:韓朝陽(1970-),男,河南洛陽人,碩士,上海杉達學院計算機科學與技術學院講師,研究方向為自然語言處理、數(shù)據(jù)挖掘;劉國兵(1977-),河南安陽人,男,博士,河南師范大學外語學院教授,研究方向為計算語言學;王躍武(1967-),男,湖南益陽人,博士,上海杉達學院計算機科學與技術學院副教授,研究方向為應用語言學。
0 引言
英語基本名詞短語識別是一種重要的基礎性自然語言處理活動。它不僅是機器翻譯、信息檢索、知識挖掘、主題內(nèi)容分析等其它眾多自然語言處理的一個組成部分,還是開展這些活動的基礎[14]。QI 識別準確率和召回率直接影響這些自然語言處理活動的效果。因此,應力求提高英語基本名詞短語識別準確率和召回率、降低系統(tǒng)的時空開銷,否則將會對其它相關工作產(chǎn)生負面影響[5]。
自20世紀80年代以來,國內(nèi)外很多研究者對英語基本名詞短語識別進行了相關研究并提出了一些識別方法。這些方法的共同的特點是:以句子為單位,按照從句子頭部到尾部的順序,對已經(jīng)添加詞性碼(Part of Speech)的文本進行基本名詞短語的標注或提取。下面對幾種具有代表性基本名詞短語識別方法進行簡要分析、總結(jié)。
(1)邊界統(tǒng)計方法[6]。首先從訓練語料分別獲取英語基本名詞短語的開始邊界和結(jié)束邊界兩個概率矩陣,然后以這兩個概率矩陣為識別判斷標準,通過識別出英語文本中所有基本名詞短語的開始邊界和結(jié)束邊界,達到英語基本名詞短語的識別目的。該方法測試報告顯示,在對248個基本名詞短語進行識別測試時僅有5個沒有被識別出來。雖然該方法具有較高的正確率,但由于報告的測試數(shù)據(jù)偏小,因而不足以使人完全信服[8]。
(2)詞性串規(guī)則方法[7]。以訓練語料庫和測試語料庫為基礎,利用錯誤驅(qū)動剪枝技術,獲得最終確定的基本名詞短語詞性串規(guī)則表,再利用詞性串規(guī)則匹配法識別測試文本中的英語基本名詞短語。該方法實現(xiàn)容易、操作簡單,且測試報告顯示其識別準確率和召回率都達到94%,為當時報道的最好結(jié)果。但該方仍存在兩個方面的不足:一是識別判斷標準單一,具有識別局限性;二是沒有處理規(guī)則列表數(shù)據(jù)稀疏性問題。
(3)邊界統(tǒng)計與詞性串規(guī)則校正相結(jié)合的方法[8]。在綜合了邊界統(tǒng)計和詞性串規(guī)則優(yōu)點的基礎上,把基本名詞短語識別分為主次分明的兩個部分,邊界統(tǒng)計作為主要部分能夠識別出大部分基本名詞,詞性串規(guī)則作為輔助手段在對前者識別出的基本名詞進行核對和校正的同時還對邊界統(tǒng)計遺漏的基本名詞短語進行回收。實驗報告顯示,其識別準確率達到96.22%,召回率達到97.59%,F(xiàn)B=1達到96.90%,其FB=1為當前最好的報告結(jié)果。該方法將邊界統(tǒng)計和詞性串規(guī)則有效結(jié)合,實現(xiàn)了對英語基本名詞短語識別的二維判斷,且達到了較好的識別效果。但該方法的缺陷與第二種方法相同,同樣沒有對規(guī)則數(shù)據(jù)稀疏性問題進行處理。因此可以認為,英語基本名詞短語識別水平還有提高可能,其準確率與召回率仍有提升空間。
基于大型語料庫,在對大量英語語料進行實驗分析的基礎上,提出一種新的英語名詞短語識別方法,即邊界概率與N_Gram詞性串規(guī)則校正相結(jié)合的方法。主要操作步驟為:①基于訓練語料庫,創(chuàng)建開始邊界(以下簡稱左邊界)特征概率列表、結(jié)束邊界(以下簡稱右邊界)特征概率列表和一個經(jīng)N_Gram(N=2,3,…,m,其中m為詞性串列表中最長串的長度)切分后的基本名詞短語詞性串規(guī)則列表(以下簡稱N_Gram詞性串規(guī)則列表);②把邊界特征概率與N_Gram詞性串規(guī)則相結(jié)合作為識別判斷條件,以一個基本英語名詞短語的“假擬中心詞”為起點,分別向左、向右識別出當前“假擬中心詞”所在基本名詞短語的左、右邊界,從而實現(xiàn)英語基本名詞短語的自動識別。實驗結(jié)果顯示,該方法識別的準確率為97.13%、召回率為98.75%,F(xiàn)B=1為 97.93%,其FB=1值超出邊界統(tǒng)計與詞性串規(guī)則校正相結(jié)合方法1.03個百分點。
1 “假擬中心詞”及其應用方法
英語中的基本名詞短語屬于簡單的、無嵌套名詞短語,其本身不包含其它任何名詞短語。英語名詞短語通常由中心詞、前置修飾語或后置修飾語3部分組成。通常情況下,一個基本名詞短語中心詞由名詞構(gòu)成且不能缺省,但用于修飾該中心詞的前置修飾語或后置修飾語可以缺省。因此,一個基本名詞短語至少要由一個位于前置修飾語與后置修飾語之間的一個名詞構(gòu)成。在識別一個英語基本名詞短語時,如果能夠首先確定其中心詞,然后再以中心詞為起點分別向前、向后逐詞延伸,識別出其左邊界和右邊界后,即可識別出該名詞短語。此方法針對性強,能最大限度地減少與基本名詞無關詞的判斷,提高識別效率。同時,該方法能夠充分利用中心詞的名詞性特征,不易產(chǎn)生識別遺漏現(xiàn)象,因此可提高識別的召回率。
將位于一個名詞短語中最右邊的那個名詞假設為中心詞,即“假擬中心詞”。在基本名詞短語識別中,“假擬中心詞”的識別與應用步驟為:①以句子為單位進行基本名詞短語識別。首先從句尾到句首,識別出最接近句尾的第一個名詞(如圖1中的①),以該詞為“假擬中心詞”并識別該“假擬中心詞”所在的基本名詞短語;②從最新識別出的基本名詞短語的左邊界開始,繼續(xù)向句首,識別出最接近該邊界的第一個名詞(圖1中的②),以該詞為“假擬中心詞”并識別該“假擬中心詞”所在的基本名詞短語;③重復步驟②,直至識別當前句子中全部的“假擬中心詞”以及這些中心詞所在的基本名詞短語。
圖1 ①②③表示已被識別的“假擬中心詞”
2 邊界概率與N_Gram詞性串規(guī)則相結(jié)合方法
邊界概率也叫邊界特征概率,它包括左邊界特征概率和右邊界特征概率。左邊界特征概率指由基本名詞短語第一個單詞詞性碼與該單詞前面的第一個單詞(或標點符號)的詞性碼所組成的左邊界詞性串的頻數(shù)概率。右邊界特征概率則是基本名詞短語最后一個單詞詞性碼與該單詞后面的第一個單詞(或標點符號)的詞性碼所組成的右邊界詞性串的頻數(shù)概率。所有基本名詞短語的左、右邊界特征概率共同構(gòu)成了邊界特征概率列表。左右邊界特征概率與N_Gram詞性串規(guī)則聯(lián)合構(gòu)成英語基本名詞短語左、右邊界判斷識別的標準。N_Gram詞性串規(guī)則是指把從訓練語料中提取的所有基本名詞短語詞性串進行N_Gram切分(其中N的取值范圍是[2,m],m=最長基本名詞的長度)后經(jīng)過去重、排序操作后得到的所有詞性串列表。通過N_Gram切分,提高了基本名詞短語詞性串規(guī)則的豐富度,可有效降低基本名詞短語詞性串規(guī)則的稀疏度。
把邊界特征概率和N_Gram詞性串規(guī)則共同作為判定基本名詞短語的標準、以“假擬中心詞”為起點,分別向左、右延伸來識別英語基本名詞短語,即為本文提出的新型英語基本名詞短語識別方法,其流程如圖2所示。
圖2 系統(tǒng)流程
2.1 邊界特征概率列表與N_Gram詞性串列表構(gòu)建
邊界特征列表與N_Gram詞性串列表是基于訓練語料而創(chuàng)建。因此,在創(chuàng)建邊界特征與N_Gram詞性串列表之前,首先要創(chuàng)建訓練語料,具體做法是:①從BNC語料庫中隨機抽取150篇英文(單詞總數(shù):61028);②用CLAWS7對抽取的語料賦詞性碼;③對帶有詞性碼的語料進行英語基本名詞短語人工標注;④統(tǒng)計訓練語料,對頻數(shù)低于3的英語基本名詞短語再次進行人工識別確認,以保證基本名詞短語識別的正確性。至此,訓練語料創(chuàng)建完成。
從訓練語料中提取已標注的基本名詞短語及相關信息。這些信息主要包括:基本名詞短語、基本名詞短語前第一個單詞(或標點符號)、基本名詞短語后第一個單詞(或標點符號)以及它們的詞性碼,如表1所示。
對提取的英語基本短語及相關信息進行如下操作:①刪除單詞和標點符號,構(gòu)建英語基本短語及相關信息的詞性碼表(對表1執(zhí)行該操作后的結(jié)果見表2);②構(gòu)建左、右邊界特征概率列表。以構(gòu)建左邊界特征概率列表為例:提取并合左邊界詞性串,計算每一個左邊界詞性串的頻數(shù)c和它在訓練語料庫中出現(xiàn)的頻數(shù)C,使用公式P=c/C計算它的頻數(shù)概率,即可構(gòu)建包括左邊詞性串和其頻數(shù)概率的左邊界特征概率列表;③構(gòu)建N_Gram詞性串規(guī)則列表。提取并合并所有基本名詞短語詞性串,求最長的詞性串長度m。對每一個基本名詞短語詞性串進行N_Gram(N=2,3…m)切分,并對切分結(jié)果進行合并、排序,即可構(gòu)建所需要的N_GramN_Gram詞性串列表。
2.2 左、右邊界識別算法
對基本名詞左邊界與右邊界的識別是邊界概率與N_Gram詞性串規(guī)則相結(jié)合識別方法的關鍵步驟。為描述方便,首先定義并說明幾個常用變量:①S表示包含一個句子內(nèi)容的數(shù)組;②POSSequence(i,j)表示S[i]到S[j]的詞性碼串;③LP(i-1,i)表示S[i-1]與S[i]之間存在左邊界的概率;④RP(i,i+1)表示S[i]與S[i+1]之間存在右邊界的概率;⑤R 表示 N_Gram詞性串規(guī)則列表;⑥n表示當前“假擬中心詞”在句子數(shù)組S中的下標;⑦t表示當前將要識別的基本名詞短語右邊界下標的最大可能值。若當前“假擬中心詞”的右方存在已識別的基本名詞短語,則t值為該右方緊鄰的那個基本名詞左邊界值-1;否則,t值為數(shù)組S的長度-1。
這兩種算法都以兩個詞性碼之間存在邊界的概率為第一條件標準,N_Gram詞性串規(guī)則為補充條件標準進行基本名詞短語左右邊界識別。當兩個詞性碼之間存在和不存在邊界的概率值都相對較高且這兩個詞性碼串又屬于N_Gram詞性串規(guī)則列表時,需要通過繼續(xù)在循環(huán)前進方向再延伸一個詞性碼的方法,來確定當前兩個詞性碼之間是否存在邊界。它們的不同點表現(xiàn)在:左邊界識別算法采用以“假擬中心詞”為起點向左(逆序)循環(huán),而右邊界識別算法采用以“假擬中心詞”為起點向右(順序)循環(huán)。
本文通過實例來說明左、右邊界算法在英語基本名詞短語識別中的具體應用。以It_PPH1 is_VBZ perhaps_RR one_MC1 of_IO the_AT most_RGT unethical_JJ and_CC disturbing_JJ things_NN2 ._. 中所有基本名詞短語的識別為例,主要步驟為:
(1)創(chuàng)建數(shù)組S[n],其中n為包含單詞、標點符號等在內(nèi)的句子長度,在本例中n=12。
(2)按從左到右的順序?qū)⒕渥又械拿恳粏卧~、標點符號以及它們的詞性碼賦值給數(shù)組S中的對應元素。如本例:S[0]= It_PPH1,…,S[4]= of_IO,S[5]= the_AT,S[6]= most_RGT,S[7]= unethical_JJ,S[8]= and_CC,S[9]= disturbing_JJ,S[10]= things_NN2,S[11]= ._.。
(3)逆序遍歷數(shù)組,識別出每一個“假擬中心詞”所在的元素。本例識別出的第一個“假擬中心詞”所在元素為S[10]。
(4)調(diào)用函數(shù)getLeftBoundary(n,S)求左邊界,其參數(shù)n=10。以S[10]為起點,首先以S[9]與S[10]中的詞性碼串JJ NN2為條件在左邊界特征列表中檢索,由于沒有檢索到符合條件的記錄,則LP(9,10)=0,且N_Gram詞性串規(guī)則表包含碼串JJ NN2。因此,JJ NN2之間不存在邊界,繼續(xù)循環(huán);把S[8]與S[9]組成的詞性串CC JJ作為條件在左邊界特征列表中檢索,得到LP(8,9)=35.6%,且CC JJ也包含在N_Gram詞性串規(guī)則表中,需向前延伸一個數(shù)組元素到S[7],則S[7]到S[10]的詞性碼串為JJ CC JJ NN2,由于該串包含在N_Gram詞性串規(guī)則表中,因而可直接判斷S[7]為當前基本名詞短語的組成部分;再以判斷S[9]與S[10]的方法,循環(huán)判斷S[6]與S[7]、S[5]與S[6]、S[4]與S[5]之間是否存在左邊界。由于S[4]與S[5]之間的LP(4,5)=100%,因此左邊界應位于S[4]與S[5]之間,可確定leftBundary=5。至此,“假擬中心詞”things所在英語基本名詞的左邊界識別工作結(jié)束。該識別過程如圖3所示,其中虛線表示判斷操作,實線表示所指向的單詞已被確定為名詞短語的組成部分。
(5)調(diào)用函數(shù)getRightBoundary(n,S,t)求右邊界,其參數(shù)n=10、t=11。以S[10]為起點,首先以S[10]與S[11]組成的詞性碼串NN2為條件在右邊界特征列表中檢索,得到RP(10,11)=100%且N_Gram詞性串規(guī)則表不包含碼串NN2。因此右邊界必定存在于S[10]與S[11]之間,可確定rightBundary=10。至此,假擬中心詞”things所在英語基本名詞的右邊界識別過程結(jié)束。
(6)記錄并標記當前識別的英語基本名詞短語。
以S[4]開始,循環(huán)執(zhí)行步驟(3)、(4)、(5)、(6),直至識別出句子中所有的“假擬中心詞”和基本名詞短語。
圖3 “假擬中心詞”things所在基本名詞短語左邊界識別過程
3 測試與結(jié)果分析
系統(tǒng)開發(fā)完成后,對其進行了開放測試。為保證測試語料的開放性,在準備測試語料時,從國內(nèi)外3個英文網(wǎng)站上隨機選取了當日(2015年1月2日)的10篇報道。這些報道共包括4 165個單詞,分別來自《中國日報》(2篇)、《英國鏡報》(3篇)、《今日美國報》(3篇)。
以其中一篇報道為例,使用采集的語料對系統(tǒng)進行了10次測試。將每次系統(tǒng)識別結(jié)果與人工識別結(jié)果進行對比并計算出每次的準確率和召回率。最后得出10次的平均準確率為97.13%、平均召回率為98.75%。以這兩個平均值為依據(jù),得出測試結(jié)果的FB=1值為97.93%。
顯然,使用邊界概率與N_Gram詞性串規(guī)則相結(jié)合方法識別英語基本名詞短語能夠取得較好效果,但其正確率和召回率與期望值仍有一定差距。通過對測試過程與結(jié)果的分析發(fā)現(xiàn),CLAWS7詞性賦碼的錯誤率是影響識別正確率和召回率的主要因素。同時, N_Gram詞性串規(guī)則的稀疏度對識別也會產(chǎn)生影響。例如:在“…..a_AT1 regular_JJ press_NN1 briefing_VVG…..”中,CLAWS錯誤地把名詞briefing賦成了動詞ing碼,導致識別系統(tǒng)把“press”作為“假擬中心詞”,因此錯誤地將“a regular press”識別為基本名詞短語。又如,對“…maintain_VVI steady_JJ and_CC relatively_RR fast_RR economic_JJ growth_NN1…”中的基本名詞短語識別時發(fā)現(xiàn),正是由于N_Gram詞性串規(guī)則的稀疏性導致系統(tǒng)沒能正確識別出steady and relatively fast economic growth,而是錯誤地把relatively fast economic growth作為基本名詞短語識別進行了識別。
4 結(jié)語
本文在分析與總結(jié)具有代表性基本名詞短語識別方法的基礎上,提出了一種邊界概率與N_Gram詞性串規(guī)則相結(jié)合的英語基本名詞短語識別方法。對測試過程和測試結(jié)果進行分析發(fā)現(xiàn),詞性賦碼的準確率和N_Gram詞性串規(guī)則的稀疏性是影響邊界概率與N_Gram詞性串規(guī)則相結(jié)合的方法進行英語基本名詞短語識別正確率的主要因素。在后繼研究工作中,要進一步提高詞性賦碼的準確率,同時在豐富訓練語料內(nèi)容的基礎上引入如單詞間搭配概率等判定標準,不斷提高英語基本名詞短語識別的正確率和召回率。
參考文獻:
[1] RAMSHAW L A,MARCUS M P.Text chunking using transformationbased learning:proceedings of WVLC95[C].Hongkong:Hongkong Polytechnic University,1995.
[2] CLAIRE C,PIERCE D.Errordriven pruning of treebank grammars for base noun phrase identification:proceedings of COLINGACL98[C].New York: Cornell University,1998.
[3] 呂琳,劉玉樹.最大熵和Brill方法結(jié)合識別英語BaseNP[J].北京理工大學學報,2006,26(6):500503.
[4] 王曉娟.最大熵方法在英語名詞短語識別中的應用研究[J].計算機仿真,2011,28(3):414417.
[5] 梁穎紅,趙鐵軍,岳琪.英語基本名詞短語識別技術研究[J].信息技術,2004,28(12):2224.
[6] CHURCH K.A stochastic parts program and noun phrase parser for unrestricted text[C].proceedings of the second Conference on Applied Natural Language Processing,1988,1988.
[7] CLAIRE C,PIERCE D.The role of lexicalization and pruning for base noun phrase grammars[C].Proceedings of the Sixteenth National Conference on Artificial Intelligence,1999.
[8] 梁穎紅,趙鐵軍,姚建民,等.基于混合策略的英語基本名詞短語識別——邊界統(tǒng)計和詞性串規(guī)則校正相結(jié)合的策略[J].計算機工程與應用,2004,40(35):13.
(責任編輯:孫 娟)