李洪政,晉耀紅
(北京師范大學(xué) 中文信息處理研究所,北京 100875)
漢語介詞短語自動(dòng)識(shí)別研究綜述
李洪政,晉耀紅
(北京師范大學(xué) 中文信息處理研究所,北京 100875)
作為一種重要的短語類型,介詞短語在漢語中分布廣泛,正確識(shí)別漢語介詞短語對自然語言處理領(lǐng)域的很多任務(wù)和應(yīng)用都有重要的作用和意義。該文對近些年與識(shí)別漢語介詞短語有關(guān)的研究做了梳理,從研究對象、實(shí)驗(yàn)評價(jià)標(biāo)準(zhǔn)和具體研究方法等幾個(gè)方面比較詳細(xì)地介紹了相關(guān)工作,最后歸納了漢語介詞短語識(shí)別研究中表現(xiàn)出來的一些特點(diǎn),并對未來研究的發(fā)展提出了幾點(diǎn)建議。
介詞短語;識(shí)別;規(guī)則;統(tǒng)計(jì)
長期以來,介詞短語問題一直是自然語言處理的難點(diǎn)問題之一,并引起國內(nèi)外的廣泛關(guān)注和深入研究,眾多相關(guān)研究主要集中在漢語和英語上。但由于兩種語言結(jié)構(gòu)的差異性,該研究在這兩種語言中也有著很大不同。在英語中,介詞短語一般出現(xiàn)在句子末端,這就很容易造成一種句法結(jié)構(gòu)上的歧義,即該介詞短語是修飾前面旳名詞還是修飾動(dòng)詞。所以,英語中介詞短語研究非常重視解決介詞短語的附加問題(Prepositional Phrase Attachment)。國外很早就有人關(guān)注這個(gè)問題,從最初的基于規(guī)則的方法,到統(tǒng)計(jì)方法,再到無監(jiān)督和有監(jiān)督學(xué)習(xí),以及目前十分流行的詞匯向量表示等眾多策略都被相繼提出。直到現(xiàn)在,仍然不斷有研究嘗試不同的方法。與此密切相關(guān)的另外一個(gè)重點(diǎn)問題是介詞詞義消歧問題(Preposition Sense Disambiguation)。這兩個(gè)問題一個(gè)是句法歧義,一個(gè)是語義歧義,二者自然聯(lián)系緊密。在自然語言處理領(lǐng)域的很多會(huì)議和期刊上,經(jīng)常會(huì)出現(xiàn)相關(guān)的論文。由于本文重點(diǎn)在漢語介詞短語,英語的介詞問題在此不再贅述。
不同于英語,漢語介詞短語的研究重點(diǎn)則是把經(jīng)過分詞和詞性標(biāo)注的漢語文本中的介詞短語作為一個(gè)整體識(shí)別出來,一般屬于淺層句法分析,同時(shí)也是組塊處理(chunking)的研究范圍。假設(shè)在漢語句子S=W1,W2……Wn中,字符串Wi,Wi+1……Wj為待識(shí)別的介詞短語,那么Wi即為介詞,介詞短語識(shí)別的主要任務(wù)就是將Wi和Wj分別識(shí)別為介詞短語的前后邊界,并將整個(gè)字符串識(shí)別出來。進(jìn)一步講,由于介詞短語的左邊界是介詞本身,容易識(shí)別,所以識(shí)別的關(guān)鍵問題在于確定后邊界的位置。
由于漢語自身的特點(diǎn),自動(dòng)識(shí)別漢語介詞短語通常具有以下難點(diǎn):
(1) 介詞短語的內(nèi)部構(gòu)成相當(dāng)復(fù)雜。介詞短語由介詞與其他語言成分構(gòu)成。這些成分可以是簡單的詞語(名詞、代詞等),也可以是各種短語(動(dòng)賓短語、名詞短語、方位短語、時(shí)間短語等),甚至還可以是一個(gè)子句形式。復(fù)雜的內(nèi)部結(jié)構(gòu)很容易形成遠(yuǎn)距離的搭配關(guān)系。
(2) 兼類介詞的存在。漢語介詞可以兼做名詞、量詞、形容詞、連詞和動(dòng)詞等,有時(shí)候必須通過上下文語境才能判斷具體詞性,這給介詞短語的識(shí)別帶來了不小的困難。
(3) 在同一個(gè)句子中經(jīng)常會(huì)出現(xiàn)多個(gè)并列的介詞短語或者復(fù)雜的嵌套介詞短語,即一個(gè)大的介詞短語內(nèi)部又包含其他的介詞短語結(jié)構(gòu)。這更增加了確定短語邊界的難度。
(4) 部分介詞短語本身存在歧義。類似于“對他的意見”這樣的歧義結(jié)構(gòu)在很多文獻(xiàn)中已有研究。在有些情況下,僅僅根據(jù)句子的內(nèi)部信息無法識(shí)別出介詞短語,必須利用上下文信息才能將包含結(jié)構(gòu)相同的詞組的介詞短語正確識(shí)別出來。
盡管存在以上諸多困難,但應(yīng)該注意到,正確識(shí)別漢語介詞短語對自然語言處理的諸多任務(wù)和應(yīng)用都有十分積極和重要的影響。多年來國內(nèi)的學(xué)者們對這個(gè)問題進(jìn)行了積極的探索。在目前已有的文獻(xiàn)中,最早面向自然語言處理領(lǐng)域進(jìn)行介詞短語自動(dòng)識(shí)別研究的應(yīng)該是吳云芳的碩士論文《現(xiàn)代漢語介詞結(jié)構(gòu)的自動(dòng)標(biāo)注》[1],而后出現(xiàn)了更多相關(guān)研究,探索了許多有意義的識(shí)別方法,并產(chǎn)生了積極的成果與影響。本文將從該研究涉及的對象,實(shí)驗(yàn)及評價(jià)標(biāo)準(zhǔn)以及具體的研究方法等幾個(gè)方面對介詞短語識(shí)別研究進(jìn)行比較詳細(xì)的回顧與梳理。在這些研究中,既有專門只針對介詞短語的,也有包括介詞短語在內(nèi)的不同類型的漢語短語的識(shí)別研究。
關(guān)于組塊(chunk),Abney[2]最早提出了一個(gè)完整的英語組塊描述體系,對組塊有著權(quán)威性的定義。他把組塊定義為句子中一組相鄰的屬于同一個(gè)S-投射的詞語的集合,建立了組塊與管轄約束理論的X-bar系統(tǒng)的內(nèi)在聯(lián)系[3]。認(rèn)為組塊是從句內(nèi)的一個(gè)非遞歸的核心成分。這種成分包含中心成分的前置修飾成分,而不包含后置附屬結(jié)構(gòu)。組塊是嚴(yán)格按語法定義的,而不是在語義、功能或詞法上定義的。Abney還認(rèn)為組塊不一定能覆蓋整個(gè)句子。
CoNLL-2000會(huì)議首先把組塊分析作為共享任務(wù)[4],在Abney的基礎(chǔ)上認(rèn)為英文組塊由一些短語構(gòu)成,而每一個(gè)短語內(nèi)是由句法相關(guān)的詞構(gòu)成,這些短語彼此不重疊、無交集,不含嵌套關(guān)系。并將組塊分為包括NP、VP、PP等11種基本類型,其中介詞組塊只包括介詞本身,而不包括介詞后面的成分(如NP)。
然而與英文不同,漢語組塊至今并沒有一個(gè)統(tǒng)一的定義。正如有研究提到的,很多研究者們根據(jù)自己的研究目的各自提出了不同的漢語組塊描述體系,由此產(chǎn)生了數(shù)量不等的組塊類別[5-8]。但可以發(fā)現(xiàn),無論如何定義,都堅(jiān)持了一個(gè)原則,即認(rèn)為漢語組塊是非遞歸、不重疊、不嵌套的短語。具體對于介詞組塊,有的文獻(xiàn)認(rèn)為介詞組塊只包括介詞本身[9-10],有的雖然也認(rèn)同介詞組塊只包含介詞本身,但是對于一些有固定搭配的介詞短語如“在……中”,也被劃分為一個(gè)介詞組塊,但這種介詞組塊的長度一般不能超過3個(gè)詞[11-12]。還有的研究在提出的漢語組塊類型中并未包括介詞組塊[13-14]。
相對于漢語介詞組塊,對于介詞短語的界定則具有普遍共識(shí),即由介詞與后面其他語法成分構(gòu)成的短語,這些語法成分可以小至一個(gè)詞語,大至從句形式。有時(shí)候也把這種界定稱為基本介詞短語。介詞短語通常具有更復(fù)雜的句法結(jié)構(gòu),能夠包含其他結(jié)構(gòu),同時(shí)允許嵌套結(jié)構(gòu)的存在,這是與介詞組塊的較大區(qū)別。在目前搜集到的資料中,似乎只有文獻(xiàn)[15]認(rèn)為介詞短語只包括介詞本身。這種界定其實(shí)是等同于了英語介詞組塊的定義。清華漢語樹庫[16]定義的介詞短語還可以包括基本介詞短語前面的修飾成分(如副詞)。但在介詞短語識(shí)別的研究中,專指基本介詞短語的識(shí)別,不會(huì)包括前面的修飾成分。我們認(rèn)為,漢語介詞短語,尤其是遠(yuǎn)距離搭配的介詞短語的識(shí)別要遠(yuǎn)遠(yuǎn)難于介詞組塊的識(shí)別。
盡管介詞組塊和介詞短語都與介詞密切相關(guān),而且一直引起國內(nèi)外的廣泛關(guān)注,但本文不打算討論與介詞組塊研究有關(guān)的文獻(xiàn),而是將把重點(diǎn)放在介詞短語的識(shí)別上,下文中論述的識(shí)別方法都是關(guān)于介詞短語的。
在介詞短語研究涉及的實(shí)驗(yàn)中,通常采用正確率(P)、召回率(R)和F1值作為介詞短語識(shí)別結(jié)果的評測指標(biāo)。計(jì)算公式分別如下:
(1)
(2)
(3)
在計(jì)算時(shí),只有某個(gè)介詞短語的前后邊界完全識(shí)別正確,以及正確識(shí)別出短語的類型時(shí),才認(rèn)為完全識(shí)別正確。比如,假設(shè)一個(gè)介詞短語的邊界雖然識(shí)別正確,但被識(shí)別為其他類型的短語,那么這個(gè)短語也不是正確識(shí)別的結(jié)果。
介詞短語識(shí)別的方法主要包括規(guī)則方法、統(tǒng)計(jì)方法以及將二者相結(jié)合的混合方法。規(guī)則方法主要依賴于人工總結(jié)的語言學(xué)知識(shí)和規(guī)則,統(tǒng)計(jì)方法主要依靠統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的模型來識(shí)別,這些方法是目前的主流。下面將分別介紹這些方法。
4.1 規(guī)則方法
鄭州大學(xué)自然語言處理實(shí)驗(yàn)室一直致力于現(xiàn)代漢語虛詞用法的研究。他們提出了“三位一體”的構(gòu)建現(xiàn)代漢語介詞知識(shí)庫的思路[17-18],包括: 介詞用法詞典、介詞用法規(guī)則庫和介詞標(biāo)注語料庫。從介詞的實(shí)際用法入手,對介詞用法進(jìn)行形式化的規(guī)則描述,人工書寫規(guī)則,構(gòu)建了介詞用法規(guī)則庫。最后以人民日報(bào)作為真實(shí)語料庫,對其進(jìn)行人工標(biāo)注工作。并不斷根據(jù)現(xiàn)實(shí)語料、《現(xiàn)代漢語語法信息詞典》《現(xiàn)代漢語虛詞詞典》和《現(xiàn)代漢語八百詞》等對介詞用法詞典和規(guī)則庫進(jìn)行修改和完善。
梁猛杰等[19]根據(jù)已有的工作,通過考察介詞規(guī)則庫的處理特點(diǎn),依據(jù)規(guī)則的覆蓋程度從低到高進(jìn)行分類,重新調(diào)整了規(guī)則的前后排序方案,同時(shí)對排序的規(guī)則進(jìn)行優(yōu)選。實(shí)驗(yàn)選用2000年3月份人民日報(bào)作為測試語料,實(shí)驗(yàn)結(jié)果表明,通過調(diào)整排序方案,在保證時(shí)間復(fù)雜度較低的情況下,排序后的介詞識(shí)別準(zhǔn)確率較之未調(diào)整前有了大幅提高。
與處理人民日報(bào)等新聞?wù)Z料不同,北京師范大學(xué)中文信息處理研究所在概念層次網(wǎng)絡(luò)理論(Hierarchical Network of Concepts, HNC)[20]的指導(dǎo)下,面向漢語專利領(lǐng)域的文本,專門構(gòu)建了較大規(guī)模的漢語專利語料知識(shí)庫,在開展?jié)h英專利機(jī)器翻譯研究中的過程中探索了介詞短語識(shí)別方法和思想。Zhu[21]、朱筠[22]、胡韌奮[23]對大規(guī)模漢語專利語料中介詞短語的分布情況和語言學(xué)特征等進(jìn)行了細(xì)致的考察。專利文本中的介詞短語結(jié)構(gòu)通常具有更多的字?jǐn)?shù),結(jié)構(gòu)也更為復(fù)雜,甚至經(jīng)常出現(xiàn)嵌套介詞短語的情況。文獻(xiàn)首先將介詞分為引導(dǎo)主語義角色(與句中核心謂詞直接關(guān)聯(lián)的對象或狀態(tài),如施事、受事等)和輔語義角色(結(jié)構(gòu)上可有可無的輔助性信息,如時(shí)間、地點(diǎn)、方式等)兩類。前者典型的介詞包括“把、由、將、被”等,后者主要包括“通過、除了、根據(jù)”等。然后分析了介詞與介詞短語右邊界的搭配信息。例如: “在……中”、“當(dāng)……時(shí)/時(shí)候”等固定的介詞短語的邊界組合。再次,根據(jù)句中核心動(dòng)詞的配價(jià)特點(diǎn),指出了不同配價(jià)的動(dòng)詞可以與哪類介詞一起使用。最后,將介詞短語按照句法層次分為兩類。一類是構(gòu)成句子的直接組成成分,另一類則是短語(如NP)內(nèi)部的介詞短語成分。
根據(jù)以上四類語義信息,分別為不同特點(diǎn)的介詞人工設(shè)計(jì)書寫了簡潔有效、易于閱讀而又具有較高覆蓋范圍的形式化語義規(guī)則,幫助系統(tǒng)識(shí)別相應(yīng)的介詞短語。規(guī)則對于字?jǐn)?shù)更多、包含遠(yuǎn)距離搭配結(jié)構(gòu)的介詞短語的識(shí)別具有明顯效果。
對專利語料中介詞短語識(shí)別的封閉測試的準(zhǔn)確率在90%左右,開放測試中,兩類介詞的準(zhǔn)確率分別在88%和94%,平均比基線系統(tǒng)高了12~15個(gè)百分點(diǎn)。另外,加載了介詞短語識(shí)別規(guī)則的翻譯系統(tǒng)的BLEU得分為22.33%,比基線系統(tǒng)提高了2.3%,同樣表明了規(guī)則方法的有效性,介詞短語的正確識(shí)別與分析有助于改善系統(tǒng)的譯文流暢度。
4.2 統(tǒng)計(jì)方法
作為目前最早針對自然語言處理領(lǐng)域研究介詞結(jié)構(gòu)識(shí)別的文獻(xiàn),文獻(xiàn)[2]中并未涉及后來流行的統(tǒng)計(jì)模型,只是對與介詞短語相關(guān)的信息進(jìn)行了概率統(tǒng)計(jì)。從一定意義上,也可以認(rèn)為是采用了統(tǒng)計(jì)的方法。
該文獻(xiàn)主要采用不完全句法分析的思路。在介詞結(jié)構(gòu)自動(dòng)標(biāo)注過程中,只觀察介詞結(jié)構(gòu)的關(guān)鍵詞—介詞、介詞結(jié)構(gòu)的右邊界詞(文中稱為“內(nèi)相關(guān)詞”)和緊鄰右邊界詞的詞語(文中稱為“外相關(guān)詞”),然后進(jìn)行關(guān)鍵詞匹配。文中提出了兩個(gè)簡單的算法。算法一是從訓(xùn)練語料中分別抽取出兩類信息表,一類包括介詞、內(nèi)相關(guān)詞詞形、外相關(guān)詞詞形和前三者搭配后的共現(xiàn)次數(shù),另一類包括介詞、內(nèi)相關(guān)詞詞性、外相關(guān)詞詞性和前三者搭配后的共現(xiàn)次數(shù)。具體做法是,從句子中先找到介詞,作為介詞短語的左邊界,然后依次提取介詞后的相鄰兩詞,將介詞、提取的相鄰的兩個(gè)詞作為一個(gè)整體,在信息表中查找匹配,如果能夠查到,則將表中三者的共現(xiàn)頻率賦值給Freq1;同理,依次提取介詞后的相鄰兩詞的詞性標(biāo)記,在表中查找匹配,如果能夠查到,則將共現(xiàn)頻率賦值給Freq2。根據(jù)公式計(jì)算語料中每個(gè)候選介詞短語右邊界詞語的得分,得分最高者即為右邊界。利用算法一對手工標(biāo)注的約10萬字語料進(jìn)行封閉測試,準(zhǔn)確率為83%左右。
算法二從上述訓(xùn)練語料中提取出兩類信息,一類是介詞與內(nèi)相關(guān)詞詞形在同一子句中共現(xiàn)的頻率Freq1,一類是介詞與內(nèi)相關(guān)詞共現(xiàn)的頻率Freq2。用Freq2除以兩個(gè)頻率的和,作為該詞是否為介詞短語右邊界的效度。在測試語料中,依次計(jì)算每一個(gè)詞的效度,值最大的即為介詞短語的右邊界。算法二對約26萬字的語料進(jìn)行了分批測試,開放測試準(zhǔn)確率平均只有40%左右,封閉測試準(zhǔn)確率約為93%。
文獻(xiàn)[24]假設(shè)介詞短語后邊界的確定只跟其前面一個(gè)詞及其詞性和后一個(gè)詞及其詞性相關(guān),采用統(tǒng)計(jì)模型對常用介詞“在”后面可能充當(dāng)其后邊界的詞進(jìn)行最大似然估計(jì),實(shí)驗(yàn)時(shí)對于數(shù)據(jù)稀疏的數(shù)據(jù)利用刪除插值的策略進(jìn)行平滑后能夠得到較好的概率估計(jì)。以60萬詞人民日報(bào)語料為訓(xùn)練集,20萬詞為測試集,對介詞“在”的介詞短語進(jìn)行測試。封閉測試及開放測試的準(zhǔn)確率分別達(dá)到了97%和93%。
隨后的統(tǒng)計(jì)方法主要使用機(jī)器學(xué)習(xí)模型進(jìn)行識(shí)別。常見的有隱馬爾科夫模型(Hidden Markov Model, HMM)[25]、最大熵模型(Maximum Entropy, ME)[26]、支持向量機(jī)模型(Support Vector Model, SVM)[27]、條件隨機(jī)場模型(Conditional Random Field, CRF)[28]等。
4.2.1 HMM方法
Li等[29]利用HMM模型對包括介詞短語在內(nèi)的11種漢語短語進(jìn)行識(shí)別,同時(shí)利用基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)方法[30]進(jìn)一步改進(jìn)識(shí)別效果。在包含28 000左右的測試語料(源自北大漢語語料庫[31])上的實(shí)驗(yàn)中,介詞短語的識(shí)別準(zhǔn)確率達(dá)到了93.67%左右。
奚建清和羅強(qiáng)[32]提出了一種基于HMM的介詞短語界定模型,首先通過HMM的Viterbi 算法計(jì)算漢語介詞短語邊界劃分的最佳路徑,初步對一個(gè)句子的介詞短語進(jìn)行界定,隨后利用依存樹庫中介詞短語的句法特征信息對初步識(shí)別的結(jié)果從有限多個(gè)右邊界詞語中選擇一個(gè)最合適的詞語與左邊界詞語形成介詞短語搭配,以降低錯(cuò)誤界定發(fā)生的幾率。對哈工大共享依存樹庫中近5000句包含介詞短語的語料進(jìn)行了識(shí)別測試,準(zhǔn)確率分別達(dá)到了86.5%(封閉測試)和77.7%(開放測試)。
4.2.2 ME方法
于浚濤[33]在充分考慮漢語介詞短語結(jié)構(gòu)和語言學(xué)信息的基礎(chǔ)上,利用最大熵模型,設(shè)計(jì)了一系列模型所需的特征,對2000年人民日報(bào)語料中的七千多個(gè)介詞短語進(jìn)行了識(shí)別研究,五折交叉實(shí)驗(yàn)得到整體平均準(zhǔn)確率達(dá)到89%左右。
盧朝華等[34-35]也利用最大熵模型識(shí)別2000年人民日報(bào)語料中的介詞短語,但同時(shí)添加了依存語法錯(cuò)誤界定校正處理。選擇最大熵模型中右邊界錯(cuò)誤識(shí)別及沒有識(shí)別的句子,從依存關(guān)系樹庫中提取介詞短語的句法特征信息,尋找一個(gè)詞語,使這個(gè)詞語和介詞短語的左邊界具有最大的語義關(guān)聯(lián)度。重復(fù)了文獻(xiàn)[32]中的實(shí)驗(yàn),結(jié)合依存語法后的測試平均準(zhǔn)確率達(dá)到90.77%,高于最大熵的平均準(zhǔn)確率(88.9%)。
霍亞格和黃廣君[36]提出了一種基于互信息的最大熵模型識(shí)別包括介詞短語在內(nèi)的15種漢語短語結(jié)構(gòu),將短語結(jié)構(gòu)識(shí)別問題轉(zhuǎn)化為標(biāo)注問題。但該文只針對非嵌套短語結(jié)構(gòu)以及由相鄰詞語構(gòu)成的短語結(jié)構(gòu),并未識(shí)別嵌套的和遠(yuǎn)距離搭配短語。首先利用語料庫建立詞語結(jié)合頻次庫,包含相鄰兩詞或詞性在語料中單獨(dú)出現(xiàn)和共同出現(xiàn)的次數(shù),根據(jù)兩個(gè)詞語之間的互信息知識(shí)對短語結(jié)構(gòu)邊界進(jìn)行預(yù)測,然后應(yīng)用最大熵模型識(shí)別短語結(jié)構(gòu)。在人民日報(bào)語料的實(shí)驗(yàn)中,介詞短語識(shí)別的準(zhǔn)確率和召回率分別達(dá)到了89%和88%。
4.2.3 SVM方法
溫苗苗和吳云芳[37]同樣基于2000 年1 月人民日報(bào)語料,利用SVM 模型建立了介詞結(jié)構(gòu)的自動(dòng)識(shí)別系統(tǒng),嘗試加入了動(dòng)詞特征和語義類信息等不同的特征集合,對漢語中比較常見的多個(gè)并列和嵌套的多重介詞短語情況做了重點(diǎn)研究?;诓煌奶卣骷謩e對包含四萬五千多個(gè)介詞短語的測試集進(jìn)行了五折交叉驗(yàn)證實(shí)驗(yàn),準(zhǔn)確率平均達(dá)到90%左右。
鑒萍和宗成慶[38]根據(jù)漢語的特殊表現(xiàn)形式,首次從正向(由左至右)和反向(由右至左)兩個(gè)方向?qū)ψ铋L名詞短語和介詞短語進(jìn)行標(biāo)注,嘗試基于SVM分類器的確定性標(biāo)注模型識(shí)別這兩類短語類型。文獻(xiàn)認(rèn)為,在序列標(biāo)注中,沿某一方向第一個(gè)與另一方向標(biāo)注結(jié)果不同的那個(gè)位置,才能真實(shí)反映該方向整個(gè)標(biāo)記序列(或一個(gè)短語片段)的信任度,這個(gè)位置稱作“分歧點(diǎn)”。據(jù)此提出了一種基于“分歧點(diǎn)”的概率融合算法。隨后對賓州中文樹庫(V5.0)中《新華日報(bào)》語料8000多個(gè)介詞短語進(jìn)行了十折交叉驗(yàn)證實(shí)驗(yàn)。分別對包括文中提出的算法模型在內(nèi)的四個(gè)標(biāo)注融合系統(tǒng)進(jìn)行了對比分析,其中介詞短語的正向識(shí)別F1值平均在84%左右,比反向識(shí)別F1高了近10個(gè)百分點(diǎn),融合了兩個(gè)方向的F1值約為86%,均高于每個(gè)單向的測試結(jié)果。從而驗(yàn)證了基于“分歧點(diǎn)”的算法可以達(dá)到較高的融合精度,能更有效地識(shí)別出介詞短語。
4.2.4 CRF方法
文獻(xiàn)[15]基于賓州中文樹庫5.1版,分別利用一階CRF和二階CRF模型進(jìn)行短語識(shí)別對比實(shí)驗(yàn),其中介詞短語準(zhǔn)確率分別為99.42%和98.95%,顯示一階模型優(yōu)于二階模型。
朱丹浩等[39]基于清華漢語樹庫(TCT)[40],詳細(xì)分析統(tǒng)計(jì)了語料中出現(xiàn)次數(shù)大于100的介賓結(jié)構(gòu)內(nèi)部的詞性序列和短語序列特征,以及介賓結(jié)構(gòu)的外部短語序列的語言學(xué)特征。利用條件隨機(jī)場模型,結(jié)合介賓結(jié)構(gòu)的語言學(xué)特征,使用復(fù)雜特征模板對無嵌套和有嵌套的兩種介賓結(jié)構(gòu)進(jìn)行自動(dòng)識(shí)別。在開放測試中,F(xiàn)1值最高分別達(dá)到90.29%和89.99%。
大連理工大學(xué)的多篇碩士畢業(yè)論文[41-43]對基于CRF模型的介詞短語識(shí)別做了比較連續(xù)深入的研究。他們相繼設(shè)計(jì)了單層和多層的模型,分層次識(shí)別單一層次的以及含有嵌套結(jié)構(gòu)的介詞短語。同時(shí)利用基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)模型對介詞短語的識(shí)別結(jié)果進(jìn)行校正?;?000年人民日報(bào)語料的實(shí)驗(yàn)顯示取得了不錯(cuò)的效果。圖1是文獻(xiàn)中提到的多層CRF識(shí)別的流程圖。
圖1 多層CRF識(shí)別方法流程圖,摘自文獻(xiàn)[43]
張靈[44]基于賓州中文樹庫語料,提出了一種基于層疊CRF的介詞短語識(shí)別方法(圖2)。該方法將介詞短語識(shí)別問題分成三個(gè)步驟: 一是采用基于搭配的方法對句子中的介詞短語進(jìn)行初步識(shí)別,并根據(jù)規(guī)則生成句子框架;二是基于 CRF 對句子框架進(jìn)行短語結(jié)構(gòu)分析,并采用深度優(yōu)先的算法搜索最優(yōu)句法分析結(jié)果;三是將第一步的介詞短語識(shí)別結(jié)果和第二步的句法分析結(jié)果進(jìn)行融合。對前兩個(gè)步驟分別采用不同的條件隨機(jī)場模型進(jìn)行學(xué)習(xí),第三步得到融合結(jié)果。對CTB4.0的語料進(jìn)行了十折交叉驗(yàn)證實(shí)驗(yàn),平均的F1值達(dá)到了90%左右,兩模型結(jié)果的融合使介詞短語的識(shí)別準(zhǔn)確性得到了提高,比采用單層的CRF模型的識(shí)別效果有所提升。該文獻(xiàn)設(shè)計(jì)了基于CRF的介詞短語識(shí)別模型和句法分析模型,利用句法分析的信息輔助識(shí)別介詞短語,是一個(gè)比較大的創(chuàng)新。
Li等[45]同樣利用CRF模型對漢語專利文獻(xiàn)中的介詞短語進(jìn)行識(shí)別。針對漢語專利語料的特點(diǎn)和介詞短語的語言學(xué)信息,設(shè)計(jì)了一組有效的識(shí)別特征,利用CRF++工具包訓(xùn)練識(shí)別所需的模型,然后對NTCIR9漢英專利機(jī)器翻譯評測使用的測試集進(jìn)行了五折交叉驗(yàn)證測試,最終的準(zhǔn)確率達(dá)到了93%左右。與使用規(guī)則方法識(shí)別的Baseline的相比,準(zhǔn)確率提高了兩個(gè)百分點(diǎn),召回率提高了六個(gè)百分點(diǎn)。
以上研究主要利用單獨(dú)的某一個(gè)模型識(shí)別介詞短語,還有一些文獻(xiàn)同時(shí)運(yùn)用了多種模型。例如,Sun和Huang等[46]把HMM與ME模 型 結(jié) 合,提 出了一種最大熵馬爾科夫模型(Maximum Entropy Markov Models, MEMM)來識(shí)別漢語語塊(識(shí)別過程如圖3所示),同時(shí)利用平滑算法解決組塊標(biāo)注中數(shù)據(jù)稀疏問題。分別利用賓州中文樹庫和北京大學(xué)語料庫進(jìn)行實(shí)驗(yàn),結(jié)果顯示,MEMM識(shí)別組塊的效果均要優(yōu)于單獨(dú)的HMM和ME模型,在兩種測試集中,介詞短語識(shí)別的正確率分別達(dá)到了99.11%和93.98%。
圖2 基于層疊條件隨機(jī)場的介詞短語識(shí)別流程圖[44]
文獻(xiàn)[47]和[48]則從訓(xùn)練模型所需的特征集和訓(xùn)練過程等方面對ME、SVM和CRF模型進(jìn)行了橫向的對比分析,分別利用這三種模型對2000年1月的人民日報(bào)語料進(jìn)行了識(shí)別測試,平均的準(zhǔn)確率達(dá)到80%左右,同時(shí)得到的結(jié)論是,不同的模型對于介詞短語邊界的識(shí)別效果不同,其中ME模型最好,CRF次之,SVM最差,但三種模型在總體識(shí)別準(zhǔn)確率上都明顯優(yōu)于基于規(guī)則的識(shí)別準(zhǔn)確率。
圖3 基于MEMM的短語識(shí)別架構(gòu),摘自文獻(xiàn)[46]
以上就是介詞短語識(shí)別中常用的幾種統(tǒng)計(jì)方法。這幾種模型都屬于有監(jiān)督的機(jī)器學(xué)習(xí),其中HMM屬于生成式模型,其他三種均屬于判別式模型。這四種模型都可以使用成熟的工具包訓(xùn)練,而且每個(gè)訓(xùn)練模型都必須要選擇合適的特征集,但具體的文本及特征格式,訓(xùn)練過程和訓(xùn)練時(shí)間等會(huì)有所不同。
4.3 混合方法
規(guī)則方法和統(tǒng)計(jì)模型有各自的優(yōu)勢與不足,近些年來,也出現(xiàn)了很多嘗試充分利用兩種方法的優(yōu)勢,將二者結(jié)合識(shí)別介詞短語的研究,即混合方法的思路。
介詞短語及其上下文中經(jīng)常出現(xiàn)固定搭配現(xiàn)象,比如“除……之外”、“就……而言”、“從……到”等,搭配特征是確定介詞短語后界的重要依據(jù)。干俊偉和黃德根[49]據(jù)此選擇了兩個(gè)搭配模板: T1=<介詞,后界,后界的詞性> 、T2=<介詞,后詞,后詞的詞性>,利用下面的公式計(jì)算搭配關(guān)系的可信度。其中CorrectFrame(
)表示搭配關(guān)系,
在訓(xùn)練語料中出現(xiàn)的次數(shù)。TotalFrame(
)表示詞w標(biāo)記為詞性pos在介詞p右方出現(xiàn)且p、w屬于同一分句的次數(shù)。文獻(xiàn)選取TotalFrame值大于等于5且搭配關(guān)系可信度大于90%的搭配關(guān)系作為可信搭配關(guān)系。
對于可信度搭配無法識(shí)別的其他介詞短語,接下來利用三元邊界統(tǒng)計(jì)模型和規(guī)則相結(jié)合的方法識(shí)別。根據(jù)介詞短語的語言學(xué)特征,制定了幾條輔助性的識(shí)別規(guī)則。隨后對2000年的人民日報(bào)語料進(jìn)行了五折交叉驗(yàn)證測試,準(zhǔn)確率和F1值在86%~87%左右,比基線系統(tǒng)的實(shí)驗(yàn)結(jié)果提高了近十個(gè)百分點(diǎn),證明統(tǒng)計(jì)模型與規(guī)則結(jié)合以后比單獨(dú)使用統(tǒng)計(jì)模型有效地提高了識(shí)別的精度。付禾芳和李朝霞[50]后來同樣利用最大熵模型和搭配關(guān)系可信度以及人工規(guī)則相結(jié)合的方法識(shí)別遠(yuǎn)距離的介詞短語,雖然提到“基于詞性的三元邊界統(tǒng)計(jì)模型結(jié)規(guī)則之后,識(shí)別效率明顯地提高”,但并未給出具體的實(shí)驗(yàn)結(jié)果。
昝紅英等[51]在已有工作的基礎(chǔ)上,分析對比了規(guī)則方法與統(tǒng)計(jì)方法的優(yōu)劣,提出一種規(guī)則與CRF模型相結(jié)合的介詞用法自動(dòng)識(shí)別算法。文獻(xiàn)首先分別利用人工書寫的規(guī)則和CRF模型對2000年5月份人民日報(bào)語料中使用頻率最高的20個(gè)介詞進(jìn)行自動(dòng)識(shí)別測試,得到了每個(gè)介詞的識(shí)別準(zhǔn)確率和兩種方法的總準(zhǔn)確率: 67.38%(規(guī)則方法)和76.80%(CRF)。然后將這兩種方法分別在宏觀層面和微觀層面進(jìn)行結(jié)合,通過相同的實(shí)驗(yàn)得到宏觀和微觀的識(shí)別準(zhǔn)確率以及20個(gè)介詞各自的準(zhǔn)確率。宏觀總的準(zhǔn)確率為78.47%,比規(guī)則方法高11.09%,比統(tǒng)計(jì)提高1.67%。微觀總的準(zhǔn)確率為82.02%,比規(guī)則方法高14.64%,比統(tǒng)計(jì)方法高5.22%?;旌戏椒ǖ淖R(shí)別準(zhǔn)確率比單一方法的準(zhǔn)確率有顯著提高,同時(shí)微觀結(jié)合效果要好于宏觀結(jié)合。
郭丹丹和由麗萍[52]基于框架語義學(xué)理論[53-54],面向中文核心依存分析技術(shù),運(yùn)用規(guī)則和統(tǒng)計(jì)相結(jié)合的方法,嘗試在指定支配性謂詞的情況下識(shí)別一個(gè)分句內(nèi)部中從屬于謂詞的介詞短語。首先根據(jù)介詞和介詞短語右邊界的規(guī)律抽取搭配模板,從訓(xùn)練語料中自動(dòng)提取搭配關(guān)系,并用這些搭配關(guān)系在一定的搭配策略下對介詞短語進(jìn)行識(shí)別。然后,用基于詞性的邊界選擇模型和規(guī)則方法相結(jié)合的技術(shù)對其它介詞短語進(jìn)行識(shí)別。以山西大學(xué)構(gòu)建漢語的框架語義知識(shí)庫語料[55]為實(shí)驗(yàn)對象進(jìn)行了五折交叉測試驗(yàn)證,最終的準(zhǔn)確率達(dá)到了79%左右。
Li和Jin[56]針對中國專利局提供的漢語專利文本語料,分析了專利文本中介詞短語的位置、分類等語言學(xué)特征,分別提出了一種基于規(guī)則的方法和CRF識(shí)別模型。以一千句包含介詞短語專利語料為測試集,比較了兩種方法的實(shí)驗(yàn)結(jié)果,同時(shí)統(tǒng)計(jì)了測試集中出現(xiàn)頻率最高的十個(gè)介詞的實(shí)驗(yàn)數(shù)據(jù)。規(guī)則方法的總體準(zhǔn)確率(96.86%)要高于CRF方法的準(zhǔn)確率(92.65%),但F1值要低一些。盡管兩種方法的準(zhǔn)確率達(dá)到了90%以上,但該研究并未像文獻(xiàn)[51]那樣把規(guī)則方法和CRF方法結(jié)合在一起。
本文對近些年來識(shí)別漢語介詞短語的研究做了比較詳細(xì)的梳理與說明,主要討論了具體使用的方法。表1從每類方法中選擇幾項(xiàng)代表性的研究工作,橫向?qū)Ρ冗@些方法的特點(diǎn)。
從前文的論述和表1可以大致歸納出目前漢語介詞短語識(shí)別研究主要存在的幾個(gè)特點(diǎn):
(1) 從研究語料來看,大多數(shù)研究主要針對人民日報(bào)語料庫以及新聞?wù)Z料樹庫(如賓州中文樹庫)中的介詞短語,文本領(lǐng)域比較單一。相比其他領(lǐng)域的語料,新聞?wù)Z料在自然語言處理領(lǐng)域的各種任務(wù)中更為常見和普遍,而且在語料的標(biāo)注處理等方面要更為成熟,對開展相關(guān)研究有較好的利用價(jià)值,這也是為什么多數(shù)研究多集中于該領(lǐng)域的原因。
(2) 從識(shí)別方法來看,識(shí)別方法呈現(xiàn)出多樣性,無論是規(guī)則方法還是統(tǒng)計(jì)方法,國內(nèi)的研究都做了比較全面的嘗試,而且盡可能地涉及復(fù)雜的介詞短語類型,研究方法也逐漸表現(xiàn)出規(guī)則與統(tǒng)計(jì)方法相結(jié)合的趨勢。但從整體來看,統(tǒng)計(jì)方法的研究還是明顯要多于規(guī)則方法。在統(tǒng)計(jì)方法的幾種常用模型中,很多研究并不是單純地使用某一種模型,而是嘗試將幾種模型相結(jié)合,或者將模型與其他策略(如互信息,基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)方法等)有機(jī)結(jié)合,盡可能提高識(shí)別效果。受到語料類型和語料規(guī)模的影響,不同模型的識(shí)別效果有所不同,但總體上基本達(dá)到了比較滿意的效果。
(3) 在統(tǒng)計(jì)方法中,相對于其他模型,大多數(shù)文獻(xiàn)更傾向選擇使用CRF模型。這是由CRF自身的優(yōu)勢決定的。隱馬爾可夫模型容易引起數(shù)據(jù)稀疏等問題,而最大熵模型對于規(guī)則的描述又過于煩瑣。CRF作為一種用于序列標(biāo)注的判別模型,以兼具生成式模型和序列分類器模型的優(yōu)點(diǎn)著稱,可以使用觀測序列的任何特征并搜索全局最優(yōu)標(biāo)注結(jié)果,較好地克服了輸出獨(dú)立性假設(shè)和馬爾可夫假設(shè)的局限性,并且能從上下文中任意地選擇所需要的特征,可以有很出色的表現(xiàn)。
表1 幾種識(shí)別方法對比
(4) 實(shí)驗(yàn)大多采用了五折或十折交叉驗(yàn)證的方法,以保證測試效果的均衡性。
盡管目前的研究已對介詞短語識(shí)別問題做了很多積極的探索,并取得了令人可喜的成果,但尚存有一些不足,仍有繼續(xù)深入研究的空間。對于未來的研究發(fā)展方向,筆者嘗試提出幾點(diǎn)建議,希望能對感興趣的研究者具有一定的參考作用。
首先,目前大多數(shù)研究還是主要停留在結(jié)構(gòu)比較單一、字?jǐn)?shù)比較少的介詞短語的層面,但由于復(fù)雜的自然語言具有遞歸性和嵌套性的特點(diǎn),未來應(yīng)該利用現(xiàn)有的成熟技術(shù)重點(diǎn)解決字?jǐn)?shù)更多、結(jié)構(gòu)更為復(fù)雜的介詞短語(如多層嵌套)的識(shí)別問題。如果有效處理了難度更大的結(jié)構(gòu),介詞短語的識(shí)別技術(shù)必然會(huì)達(dá)到新的水平,從而促進(jìn)自然語言處理和自然語言理解的發(fā)展。
其次,由于自然語言處理已應(yīng)用到越來越多的領(lǐng)域,希望未來可以從傳統(tǒng)的新聞?lì)I(lǐng)域逐漸擴(kuò)展到其他更多領(lǐng)域,如軍事、農(nóng)業(yè)、天氣和科技文本等,結(jié)合不同文本的語體風(fēng)格和表達(dá)特點(diǎn)等研究介詞短語的識(shí)別和相關(guān)問題,以滿足不同的需求。我們大膽推測,即使是結(jié)構(gòu)相同的甚至是同一個(gè)介詞短語,如果處在不同領(lǐng)域文本中,其識(shí)別效果很可能也是不同的。另一方面,還可以探索把識(shí)別方法從文本處理轉(zhuǎn)移到語音識(shí)別等語音信息處理領(lǐng)域的可行性,或許也會(huì)有意想不到的結(jié)果。
再次,無論是規(guī)則方法還是統(tǒng)計(jì)方法,未來都可以嘗試加入更多顆粒度更細(xì)致的句法語義特征等,以降低詞語的歧義問題和難以確定邊界的困難。嘗試“分而治之”的思想,加強(qiáng)對介詞短語的內(nèi)部結(jié)構(gòu)的分析,在首先識(shí)別其他短語的基礎(chǔ)上,再進(jìn)行介詞短語的識(shí)別。同時(shí),需要擴(kuò)大語料訓(xùn)練和測試規(guī)模,使訓(xùn)練的模型更加有效,以有效避免數(shù)據(jù)稀疏等問題。
第四,介詞短語識(shí)別的最終目的是服務(wù)于自然語言處理的眾多任務(wù)和應(yīng)用。未來需要進(jìn)一步與機(jī)器翻譯、問答系統(tǒng)、信息抽取、文本分類等熱門領(lǐng)域相結(jié)合,在具體應(yīng)用中檢驗(yàn)介詞短語的識(shí)別效果,以及由此產(chǎn)生的實(shí)際影響。如果脫離了具體應(yīng)用,只是孤立單純地談?wù)搶?shí)驗(yàn)結(jié)果,是不夠的。
最后,近幾年來隨著機(jī)器學(xué)習(xí)的普遍流行,未來可以嘗試將半監(jiān)督的機(jī)器學(xué)習(xí)方法應(yīng)用到語料標(biāo)注和處理中,初步實(shí)現(xiàn)自動(dòng)標(biāo)注的目標(biāo),以減少人工標(biāo)注語料費(fèi)時(shí)費(fèi)力的問題,提升標(biāo)注效率。
[1] 吳云芳.現(xiàn)代漢語介詞結(jié)構(gòu)的自動(dòng)標(biāo)注[D]. 北京語言大學(xué)碩士學(xué)位論文,1998.
[2] Abney S.Parsing by Chunks[A].In: Berwick R.,Abney S.and Carol T.(Eds.),Principle-Based Parsing.Dordrecht: Kluwer Academic Publisher. 1991: 257-278.
[3] 李業(yè)剛,黃河燕.漢語組塊分析研究綜述[J].中文信息學(xué)報(bào),2013,27(5): 1-9.
[4] Erik F. Tjong Kim Sang and Sabine Buchholz.Introduction to the CoNLL-2000 Shared Task: Chunking [C]//Proceedings of CoNLL-2000 and LLL-2000, 127-132.
[5] 李素建,劉群,白碩.統(tǒng)計(jì)和規(guī)則相結(jié)合的漢語組塊分析[J].計(jì)算機(jī)研究與發(fā)展,2002,39(4): 385-391.
[6] 張昱琪,周強(qiáng).漢語基本短語的自動(dòng)識(shí)別[J].中文信息學(xué)報(bào),2002,16(6): 1-8.
[7] 周強(qiáng).漢語基本塊描述體系[J].中文信息學(xué)報(bào),2007,21(3): 21-27.
[8] 孫廣路.基于統(tǒng)計(jì)學(xué)習(xí)的中文組塊分析技術(shù)研究[D].哈爾濱工業(yè)大學(xué)博士學(xué)位論文,2008.
[9] 鄒宏梅,王挺.SVM 和基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)相結(jié)合的漢語組塊識(shí)別[J].計(jì)算機(jī)工程與科學(xué),2007,29(4): 91-94,123.
[10] 秦穎,王小捷,鐘義信.級(jí)聯(lián)中文組塊識(shí)別[J].北京郵電大學(xué)學(xué)報(bào),2008,31: (1): 14-17.
[11] 王瑩瑩.漢語組塊識(shí)別的研究[D].大連理工大學(xué)碩士學(xué)位論文,2006.
[12] 高紅.基于統(tǒng)計(jì)語言模型的漢語淺層分析研究[D].大連理工大學(xué)博士學(xué)位論文,2007.
[13] 譚詠梅,姚天順,陳晴,李布,朱靖波.基于SVM+Sigmoid的漢語組塊識(shí)別[J].計(jì)算機(jī)科學(xué),2004,31(8): 142-146.
[14] 李珩,朱靖波,姚天順.基于SVM的中文組塊分析[J].中文信息學(xué)報(bào),2004,18(2): 1-7.
[15] 郭永生.基于條件隨機(jī)場的漢語短語識(shí)別研究[D].東北大學(xué)碩士學(xué)位論文,2008.
[16] 周強(qiáng),張偉,俞士汶.漢語樹庫的構(gòu)建[J].中文信息學(xué)報(bào),1997,11(4): 1-11.
[17] 昝紅英,張坤麗,柴玉梅,俞士汶.現(xiàn)代漢語虛詞知識(shí)庫的研究[J].中文信息學(xué)報(bào),2007,21(5): 107-111.
[18] 俞士汶,朱學(xué)鋒,王惠等.現(xiàn)代漢語語法信息詞典詳解[M].北京: 清華大學(xué)出版社,2003.
[19] 梁猛杰,宋玉,韓英杰等.基于規(guī)則排序的介詞用法自動(dòng)識(shí)別研究[J].河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,41(3): 152-155.
[20] 黃曾陽.HNC(概念層次網(wǎng)絡(luò))理論[M].北京: 清華大學(xué)出版社,1998.
[21] Zhu Yun,JinYaohong.A Chinese-English patent machine translation system based on the theory of hierarchical network of concepts [J].The Journal of China Universities of Posts and Telecommunications,2012, 19(Suppl.2): 140-146.
[22] 朱筠.基本句群處理及其在漢英專利機(jī)器翻譯中的應(yīng)用[D].北京師范大學(xué)漢語文化學(xué)院碩士學(xué)位論文,2013.
[23] 胡韌奮.面向漢英專利機(jī)器翻譯的介詞短語自動(dòng)識(shí)別策略[J].語言文字應(yīng)用,2015,1: 136-144.
[24] 王立霞,孫宏林.現(xiàn)代漢語介詞短語邊界識(shí)別研究[J].中文信息學(xué)報(bào),2005,19(3): 80-86.
[25] Rabiner L R.A tutorial on hidden Markov models and selected applications in speech recognition [C]//Proceedings of the IEEE,1989,77(2): 257 - 286.
[26] E T Jaynes.Information theory and statistical mechanics [J].Physics Reviews. 1957,106: 620-630.
[27] Vapnik V N.Statistical Learning Theory [M].Wiley-Interscience Publication: John Wiley & Sons,Inc.1998.
[28] J Lafferty,A McCallum,F Pereira. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]//Proceedings of International Conference on Machine. 2001: 282-289.
[29] Li Hongqiao,Huang Changning,Gao Jianfeng and Fan Xiaozhong.Chinese chunking with another type of spec[C]//The Third SIGHAN Workshop on Chinese Language Processing.2004: 24-26.
[30] Eric Brill.Transformation-based error-driven learning and natural language processing: A case study in part of speech tagging [J].Computational Linguistics,1995,21 (4): 543-565.
[31] 俞士汶,段慧明,朱學(xué)鋒,孫斌.北京大學(xué)現(xiàn)代漢語語料庫基本加工規(guī)范[J].中文信息學(xué)報(bào),2002,16(6): 58-65.
[32] 奚建清,羅強(qiáng).基于HMM的漢語介詞短語自動(dòng)識(shí)別研究[J].計(jì)算機(jī)工程,2007,33(3): 172-173,182.
[33] 于浚濤.基于最大熵的漢語介詞短語自動(dòng)識(shí)別[D].大連理工大學(xué)碩士學(xué)位論文,2006.
[34] 盧朝華,黃廣君,郭志兵.基于最大熵的漢語介詞短語識(shí)別研究[J].通信技術(shù), 2010,43(5): 181-183,186.
[35] 盧朝華,徐好芹,王玉芬.基于語義分析的漢語介詞短語識(shí)別方法研究[J].電腦與電信,2012,3: 46-48.
[36] 霍亞格,黃廣君.基于最大熵的漢語短語結(jié)構(gòu)識(shí)別方法[J].計(jì)算機(jī)工程,2011,37(16): 206-208,211.
[37] 溫苗苗,吳云芳.基于SVM融合多特征的介詞結(jié)構(gòu)自動(dòng)識(shí)別[J].中文信息學(xué)報(bào),2009,23(5): 19-25.
[38] 鑒萍,宗成慶.基于雙向標(biāo)注融合的漢語最長短語識(shí)別方法[J].智能系統(tǒng)學(xué)報(bào),2009,4(5): 406-413.
[39] 朱丹浩,王東波,謝靖.基于條件隨機(jī)場的介賓結(jié)構(gòu)自動(dòng)識(shí)別[J].現(xiàn)代圖書情報(bào)技術(shù).2010,(7/8): 79-83.
[40] 周強(qiáng),張偉,俞士汶.漢語樹庫的構(gòu)建[J].中文信息學(xué)報(bào),1997,11(4): 42-51.
[41] 胡思磊.基于CRF模型的漢語介詞短語識(shí)別[D].大連理工大學(xué)碩士學(xué)位論文,2008.
[42] 宋貴哲.漢語介詞短語識(shí)別研究[D].大連理工大學(xué)碩士學(xué)位論文,2011.
[43] 張杰.基于多層CRFs的漢語介詞短語識(shí)別研究[D].大連理工大學(xué)碩士學(xué)位論文,2013.
[44] 張靈.基于層疊條件隨機(jī)場的漢語介詞短語識(shí)別研究[D].沈陽航空航天大學(xué)碩士學(xué)位論文.2012.
[45] Li Hongzheng and JinYaohong.A CRF Method of Identifying Prepositional Phrases in Chinese Patent Texts[C]//Proceedings of the Eighth SIGHAN Workshop on Chinese Language Processing (SIGHAN-8).2015,86-90.
[46] Sun GuangLu,Huang ChangNing,Wang XiaoLongand Xu ZhiMing.Chinese Chunking Based on Maximum Entropy Markov Models [J].Computational Linguistics and Chinese Language Processing.2006,11(2): 115-136.
[47] 袁應(yīng)成.基于用法屬性的現(xiàn)代漢語介詞短語邊界識(shí)別研究[D].鄭州大學(xué)碩士學(xué)位論文,2011.
[48] 張坤麗,韓英杰,昝紅英,袁應(yīng)成.基于統(tǒng)計(jì)的介詞短語邊界識(shí)別研究[J].河南大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,41(6): 636-640.
[49] 干俊偉,黃德根.漢語介詞短語的自動(dòng)識(shí)別[J].中文信息學(xué)報(bào),2005,19(4): 17-23.
[50] 付禾芳,李朝霞.介詞短語識(shí)別中規(guī)則與統(tǒng)計(jì)方法融合的探討[J].研究與開發(fā),2010,11: 17-20.
[51] 昝紅英,張騰飛,張坤麗.規(guī)則與統(tǒng)計(jì)相結(jié)合的介詞用法自動(dòng)識(shí)別研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2013,34(6): 2152-2157.
[52] 郭丹丹,由麗萍.面向核心依存分析的介詞短語自動(dòng)識(shí)別[J].情報(bào)探索,2014,(11): 1-3.
[53] Charles J. Fillmore.Frame semantics and the nature of language [J].Annals of the NY Academy of Sciences,1976,(2): 20-32.
[54] Charles J. Fillmore, Collin F. Baker and Hiroaki Sato. The FrameNet Database and Software Tools[C]//Proceedings of the Third International Conference on Language Resources and Evaluation,2002,1157-1160.
[55] 由麗萍.中文框架語義分析[M].北京: 經(jīng)濟(jì)科學(xué)出版社,2013.
[56] Hongzheng Li and YaohongJin.Identifying Prepositional Phrases in Chinese Patent Texts withRule-based and CRF Methods[C]//Proceedings of 29th PacificAsiaConferenceon Language,InformationandComputation,2015,143-149.
A Survey on Automatic Identification of Chinese Prepositional Phrases
LI Hongzheng, JIN Yaohong
(Institute of Chinese Information Processing, Beijing Normal University, Beijing 100875, China)
As an important type of phrase, prepositional phrases (PP) are widely distributed in Chinese, Therefore proper identification of PPs has positive and important impacts on the various tasks and applications in the field of Natural Language Processing. This paper surveys related studies in identifying Chinese PPs in recent years, and discusses the works in detail from several perspectives: research objects, experimental evaluation and research methods. It finally concludes several features of research on Chinese PP identification and proposes several suggestions on the future work.
prepositional phrases; identification; rule; statistic
李洪政(1990—),通信作者,博士研究生,主要研究領(lǐng)域?yàn)闄C(jī)器翻譯、深度學(xué)習(xí)等。E?mail:lihongzheng@mail.bnu.edu.cn晉耀紅(1973—),博士,教授,博士生導(dǎo)師。主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘、信息抽取等。E?mail:jinyaohong@hotmail.com
2016-04-14 定稿日期: 2016-06-15
國家高技術(shù)研究發(fā)展計(jì)劃(2012AA011104);中央高?;究蒲袠I(yè)務(wù)專項(xiàng)資金
1003-0077(2017)02-0001-10
TP391
A