李業(yè)剛,黃河燕
(1. 北京理工大學(xué) 計(jì)算機(jī)學(xué)院,北京 100081;2. 山東理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 淄博 255049)
句法分析是自然語(yǔ)言處理中的重點(diǎn)和難點(diǎn),雖然經(jīng)過(guò)幾十年的研究和發(fā)展,仍是自然語(yǔ)言處理的一個(gè)瓶頸問(wèn)題。采用“分而治之”的方法,進(jìn)行淺層的句法分析可以降低完全句法分析的難度。組塊分析作為淺層句法分析的代表致力于識(shí)別句子中的某些結(jié)構(gòu)相對(duì)簡(jiǎn)單、功能和意義相對(duì)重要的成分,只限于把句子解析成較小的單元,而不揭示這些單元之間的句法關(guān)系。
繼Abney[1]率先提出了組塊分析的思想后,國(guó)際會(huì)議CoNLL-2000把組塊分析作為共享任務(wù)[2]提出,組塊分析逐步受到重視。人們對(duì)于基本名詞短語(yǔ)、介詞短語(yǔ),繼而擴(kuò)大到所有類(lèi)型短語(yǔ)的識(shí)別等問(wèn)題做了大量的研究。目前的組塊分析技術(shù)由于受到相關(guān)語(yǔ)言處理研究及信息處理技術(shù)應(yīng)用兩個(gè)方面的驅(qū)動(dòng),已成為自然語(yǔ)言領(lǐng)域中一個(gè)重要研究?jī)?nèi)容而受到廣泛關(guān)注。
Abney[1]將句法分析問(wèn)題分為三個(gè)階段:
(1) 塊識(shí)別: 利用基于有限狀態(tài)分析機(jī)制的塊識(shí)別器識(shí)別出句子中所有的塊。
(2) 塊內(nèi)結(jié)構(gòu)分析: 對(duì)每個(gè)塊內(nèi)部的成分賦予合適的句法結(jié)構(gòu)。
(3) 塊間關(guān)系分析: 利用塊連接器將各個(gè)不同的塊組合成完整的句法結(jié)構(gòu)樹(shù)。
淺層句法分析的結(jié)果并不是一棵完整的句法樹(shù),各個(gè)組塊是完整句法樹(shù)的一個(gè)子圖,只要加上組塊之間的依附關(guān)系,就可以構(gòu)成完整的句法樹(shù),對(duì)語(yǔ)塊的識(shí)別是組塊分析的主要任務(wù)[3]。
Abney[1]最早提出了一個(gè)完整的組塊描述體系,他把組塊定義為句子中一組相鄰的屬于同一個(gè)s-投射的詞語(yǔ)的集合,建立了組塊與管轄約束理論的X-bar系統(tǒng)的內(nèi)在聯(lián)系,從而奠定了語(yǔ)塊描述體系的比較堅(jiān)實(shí)的理論基礎(chǔ)。在自然語(yǔ)言學(xué)國(guó)際會(huì)議(CoNLL-2000)的共享任務(wù)組塊分析中,在Abney描述的組塊定義框架的基礎(chǔ)上,重新分解和細(xì)化了組塊的定義,對(duì)英文組塊的定義達(dá)成了共識(shí):句子是由一些短語(yǔ)構(gòu)成,而每一個(gè)短語(yǔ)內(nèi)是由句法相關(guān)的詞構(gòu)成,這些短語(yǔ)彼此不重疊、無(wú)交集,不含嵌套關(guān)系。
受限于中文句法分析的定義問(wèn)題,最初中文組塊并不是覆蓋整個(gè)句子的,而是側(cè)重對(duì)基本名詞短語(yǔ)、介詞短語(yǔ)以及短語(yǔ)自動(dòng)界定的研究。文獻(xiàn)[4-5]首次提出了中文的基本名詞短語(yǔ)的形式化定義,提出了用詞語(yǔ)潛在依存關(guān)系分析baseNP結(jié)構(gòu)的模型,將依存語(yǔ)法知識(shí)融入概率模型中,使得baseNP結(jié)構(gòu)分析在依存語(yǔ)法知識(shí)的指導(dǎo)下進(jìn)行,開(kāi)放測(cè)試精確率82%,召回率91.5%。文獻(xiàn)[6]設(shè)計(jì)了一種基于轉(zhuǎn)換的基本名詞短語(yǔ)識(shí)別模型,該模型可同時(shí)結(jié)合表示基本名詞短語(yǔ)句法組成的基本結(jié)構(gòu)模板(靜態(tài)知識(shí))與表示基本名詞短語(yǔ)出現(xiàn)的上下文環(huán)境特征的轉(zhuǎn)換規(guī)則(動(dòng)態(tài)知識(shí))識(shí)別基本名詞短語(yǔ),開(kāi)放測(cè)試精確率89.3%,召回率92.8%。文獻(xiàn)[7]使用了基于最大熵的方法識(shí)別中文基本名詞短語(yǔ)。在開(kāi)放語(yǔ)料Chinese TreeBank上,只使用詞性標(biāo)注,達(dá)到了88.09%的準(zhǔn)確率。文獻(xiàn)[8]對(duì)漢語(yǔ)中最常用的介詞“在”進(jìn)行了實(shí)驗(yàn),開(kāi)放測(cè)試的準(zhǔn)確率93%。
但是除名詞組塊和介詞組塊外,中文句子中還有很多其他結(jié)構(gòu)的組塊,如動(dòng)詞組塊,形容詞組塊等。漢語(yǔ)的句法體系至今還沒(méi)有一個(gè)像英文那樣統(tǒng)一的完全公開(kāi)的訓(xùn)練語(yǔ)料庫(kù)[9]為各種漢語(yǔ)組塊分析方法提供統(tǒng)一的評(píng)測(cè)平臺(tái)。從公開(kāi)的研究成果可以看出,研究者們根據(jù)自己的研究目的提出了各自不同的塊描述體系。
文獻(xiàn)[10]在Abney定義的基礎(chǔ)上,對(duì)漢語(yǔ)組塊定義為:組塊是一種語(yǔ)法結(jié)構(gòu),是符合一定語(yǔ)法功能的非遞歸短語(yǔ),每個(gè)組塊都有一個(gè)中心詞,并圍繞該中心詞展開(kāi),以中心詞作為組塊的開(kāi)始或結(jié)束。任何一種類(lèi)型的組塊內(nèi)部不包含其他類(lèi)型的組塊。并提出了非遞歸、不重疊、覆蓋三個(gè)組塊劃分原則。文獻(xiàn)[11]與CoNLL-2000類(lèi)似,將基本短語(yǔ)定義為句子中相鄰的、不嵌套的(允許在黏合式定中結(jié)構(gòu)中出現(xiàn)一級(jí)嵌套)、內(nèi)部不包含其他基本短語(yǔ)、主要由實(shí)詞(名詞、動(dòng)詞、形容詞、數(shù)詞、量詞、副詞等)組成的詞語(yǔ)序列。文獻(xiàn)[12]提出了基于拓?fù)浣Y(jié)構(gòu)的基本塊描述體系,通過(guò)引入詞匯關(guān)聯(lián)信息確定基本拓?fù)浣Y(jié)構(gòu),形成了基本塊內(nèi)聚性判定準(zhǔn)則,確定不同基本塊的內(nèi)部關(guān)系標(biāo)記,將緊密結(jié)合的述賓結(jié)構(gòu)關(guān)系納入基本塊描述體系中。文獻(xiàn)[13]通過(guò)引入詞匯關(guān)聯(lián)信息確定基本拓?fù)浣Y(jié)構(gòu),形成了很好的基本塊內(nèi)聚性判定準(zhǔn)則,建立了句法形式與語(yǔ)義內(nèi)容的有機(jī)聯(lián)系橋梁。這套描述體系大大簡(jiǎn)化了從現(xiàn)有的句法樹(shù)庫(kù)TCT中自動(dòng)提取基本塊標(biāo)注語(yǔ)料庫(kù)和相關(guān)詞匯關(guān)聯(lián)知識(shí)庫(kù)的處理過(guò)程,為進(jìn)一步進(jìn)行漢語(yǔ)基本塊自動(dòng)分析和詞匯關(guān)聯(lián)知識(shí)獲取研究打下了很好的基礎(chǔ)。文獻(xiàn)[14]定義組塊是一種具有一定句法功能的非遞歸、不重疊、不嵌套的短語(yǔ)。包含一個(gè)中心成分以及中心成分的前置修飾成分,而不包含后置附屬結(jié)構(gòu)。它對(duì)組塊的基本劃分原則為:每個(gè)組塊都有一個(gè)核心詞,并圍繞核心詞展開(kāi),以核心詞作為組塊的開(kāi)始或結(jié)束;組塊是嚴(yán)格按照句法定義的,不能破壞句子的句法結(jié)構(gòu),也不體現(xiàn)句子的語(yǔ)義和功能;組塊的劃分只依據(jù)局部的表層信息,例如詞信息、詞性信息等,而不能考慮遠(yuǎn)距離約束以及句子的整體句法結(jié)構(gòu)。
Abney定義的組塊強(qiáng)調(diào)對(duì)局部的句法進(jìn)行相關(guān)描述,側(cè)重于從底向上把句子分割成不同的組塊,文獻(xiàn)[10,14]與Abney的定義類(lèi)似;清華大學(xué)的組塊體系[11-13]強(qiáng)調(diào)對(duì)句子整體功能的描述,側(cè)重于自頂向下地描述句子的基本骨架。CoNLL的組塊一般比較簡(jiǎn)單,平均每個(gè)塊只包含1~2個(gè)詞語(yǔ),而清華大學(xué)的組塊比較復(fù)雜,有的組塊甚至包含10~20個(gè)詞語(yǔ)。組塊粒度越大,確定性就越強(qiáng),進(jìn)一步的分析也就越容易,而組塊本身的正確識(shí)別卻比較困難。
文獻(xiàn)[11]根據(jù)賓州大學(xué)中文句法分析樹(shù)庫(kù)的語(yǔ)料和句法標(biāo)記類(lèi)型,并結(jié)合漢語(yǔ)特點(diǎn)從中抽取出了12種漢語(yǔ)組塊類(lèi)型,并根據(jù)這些組塊類(lèi)型和賓州大學(xué)中文樹(shù)庫(kù)短語(yǔ)類(lèi)型的對(duì)應(yīng)關(guān)系進(jìn)行了轉(zhuǎn)化得到組塊庫(kù)。其定義的組塊長(zhǎng)度較短,平均每個(gè)組塊只含有1.57個(gè)漢字。文獻(xiàn)[15]針對(duì)機(jī)器翻譯提出了擴(kuò)展組塊(E-Chunk)的概念及其體系。更多研究者根據(jù)自己的研究目的提出了各自不同的組塊類(lèi)型[16-23]。從組塊包含詞的個(gè)數(shù)來(lái)看,組塊粒度越大,組塊概念的確定性就越強(qiáng),進(jìn)一步的分析也就越容易,而組塊本身的正確識(shí)別卻比較困難。組塊粒度過(guò)大,組塊分析任務(wù)就成了完全句法分析問(wèn)題;而粒度過(guò)小,則成了詞性標(biāo)注的問(wèn)題。因此組塊粒度的選取是一個(gè)重要問(wèn)題,要同時(shí)保證組塊簡(jiǎn)單性和概念確定性。另外,中國(guó)香港理工大學(xué)計(jì)算機(jī)系的陸勤教授[24]和中國(guó)臺(tái)灣“中央研究院”的許聞廉教授[25]在中文簡(jiǎn)體和繁體組塊分析語(yǔ)料庫(kù)的建設(shè)方面做出了卓有成效的工作。
通常用正確率(P),召回率(R)和F值作為組塊分析結(jié)果的評(píng)測(cè)指標(biāo)。對(duì)于某種類(lèi)型的組塊,其正確率、召回率和F值分別為:
對(duì)于所有類(lèi)型的組塊,識(shí)別的正確率和召回率分別為:
F值的計(jì)算方法跟單一類(lèi)型相同。
對(duì)于所有類(lèi)型的組塊,在計(jì)算正確標(biāo)注組塊的個(gè)數(shù)時(shí),不僅要考慮組塊的前后界劃分要正確,而且組塊的類(lèi)型標(biāo)注也要正確。如果被識(shí)別出來(lái)的組塊,其類(lèi)型標(biāo)記錯(cuò)誤,那么這個(gè)組塊也不是被正確標(biāo)注的組塊。比如把數(shù)量詞組塊標(biāo)注成名詞組塊,即使是組塊的邊界劃分正確,也不是被正確標(biāo)注的組塊。
繼CoNLL-2000設(shè)計(jì)了英文組塊分析共享分析任務(wù),文獻(xiàn)[26]針對(duì)漢語(yǔ)的描述特點(diǎn),提出了三項(xiàng)漢語(yǔ)組塊分析評(píng)測(cè)任務(wù): 基本組塊分析、功能組塊分析和事件描述小句識(shí)別。
組塊的標(biāo)注形式主要包括兩類(lèi):第一類(lèi)是Inside/Outside表示方法;第二類(lèi)是Start/End表示方法。Inside/Outside的表示方法首先由Ramshaw和Marcus[27]提出,采用了組塊標(biāo)記集合{I,O,B},在識(shí)別多種類(lèi)型的組塊時(shí),組塊標(biāo)記的含義為:B-X表示X類(lèi)型組塊的開(kāi)始并且其前面的詞屬于另一個(gè)組塊;I-X表示X類(lèi)型組塊的內(nèi)部,可以是組塊的開(kāi)始;O表示不屬于任何組塊。文獻(xiàn)[28-29]把上述表示方法稱(chēng)為IOB1,并在此基礎(chǔ)上提出了IOB2,IOE1和IOE2表示方法。在IOB2中,B-X表示X類(lèi)型組塊的開(kāi)始;I-X表示X類(lèi)型組塊的內(nèi)部,但不是組塊的開(kāi)始;O表示不屬于任何組塊。在IOE1中,E-X表示X類(lèi)型組塊的結(jié)尾,并且其后面的詞屬于另一個(gè)組塊;I-X表示X類(lèi)型組塊的內(nèi)部,可以是組塊的結(jié)尾;O表示不屬于任何組塊.在IOE2中,E-X表示X類(lèi)型組塊的結(jié)尾;I-X表示X類(lèi)型組塊的內(nèi)部,但不是組塊的結(jié)尾;O表示不屬于任何組塊。
Start/End表示方法是曾用于日語(yǔ)實(shí)體名詞識(shí)別的IOBES方法[30]。B-X表示X類(lèi)型組塊的開(kāi)始,該組塊至少包含兩個(gè)詞;E-X表示X類(lèi)型組塊的結(jié)尾,該組塊至少包含兩個(gè)詞;I-X表示X類(lèi)型組塊的內(nèi)部,該組塊至少包含三個(gè)詞;O表示不屬于任何組塊;S-X表示該X類(lèi)型的組塊由一個(gè)詞組成。
利用機(jī)器學(xué)習(xí)方法來(lái)解決組塊識(shí)別問(wèn)題主要有兩種基本思路:基于統(tǒng)計(jì)的方法和基于規(guī)則的方法,當(dāng)然也可以采用規(guī)則和統(tǒng)計(jì)相結(jié)合的方法。
英文的組塊分析已經(jīng)建立了統(tǒng)一的標(biāo)準(zhǔn)和數(shù)據(jù)集,很多學(xué)者嘗試了大量的機(jī)器學(xué)習(xí)算法[31-40]來(lái)解決組塊分析問(wèn)題。Church[31]將英語(yǔ)的基本名詞短語(yǔ)定義為簡(jiǎn)單非嵌套名詞短語(yǔ),并將文本中的基本名詞短語(yǔ)識(shí)別問(wèn)題看作是給每個(gè)詞加標(biāo)記的過(guò)程,利用基于詞性標(biāo)記的N元同現(xiàn)的概率統(tǒng)計(jì)方法和Viterbi方法來(lái)解決。文獻(xiàn)[32]在Church的研究基礎(chǔ)上,采用了基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)方法來(lái)解決基本名詞短語(yǔ)識(shí)別問(wèn)題,并得到了召回率88%的實(shí)驗(yàn)結(jié)果,這也是機(jī)器學(xué)習(xí)方法首次被應(yīng)用到短語(yǔ)識(shí)別問(wèn)題中。文獻(xiàn)[33]提出了基于word-only思想的組塊分析模型。模型只利用了詞特征和詞綴特征,對(duì)CoNLL-2000英文組塊分析訓(xùn)練語(yǔ)料庫(kù)的規(guī)模進(jìn)行擴(kuò)充,在訓(xùn)練語(yǔ)料庫(kù)達(dá)到50 000萬(wàn)句的情況下,性能曲線超過(guò)了利用詞和詞形特征的模型的性能曲線。文獻(xiàn)[34]應(yīng)用了Winnow的方法,并引入了訓(xùn)練語(yǔ)料之外的英文槽語(yǔ)法來(lái)解決組塊分析問(wèn)題,取得了94.17%的分析性能。文獻(xiàn)[35]應(yīng)用了基于存儲(chǔ)的機(jī)器學(xué)習(xí)方法,結(jié)合手寫(xiě)規(guī)則的方式解決組塊分析問(wèn)題,在韓語(yǔ)組塊分析語(yǔ)料庫(kù)上取得了94.21%的性能。文獻(xiàn)[36]應(yīng)用了半指導(dǎo)學(xué)習(xí)的方法解決組塊分析問(wèn)題,一方面使用了人工標(biāo)注好的CoNLL-2000數(shù)據(jù),另一方面使用了大量的未標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練分析模型,取得了94.39%的分析性能。文獻(xiàn)[40]采用了多個(gè)支持向量機(jī)模型融合,結(jié)合動(dòng)態(tài)規(guī)劃技術(shù)的機(jī)制進(jìn)行組塊分析,取得了2000年的CoNLL-2000會(huì)議評(píng)測(cè)中最佳的分析性能93.48%。漢語(yǔ)組塊識(shí)別借鑒英語(yǔ)組塊識(shí)別的方法也有大量的嘗試。由于中文和英文在書(shū)寫(xiě)方法上存在著根本的不同,中文詞與詞之間沒(méi)有顯式的分隔標(biāo)記,詞的定義也比較模糊。在組塊分析之前的語(yǔ)言處理任務(wù)除了跟英文相同的詞性標(biāo)注和未登錄詞識(shí)別外還有分詞。這也就意味著中文組塊識(shí)別的難度比英文要更大一些。
規(guī)則方法就是根據(jù)人工書(shū)寫(xiě)的或(半)自動(dòng)獲取的語(yǔ)法規(guī)則標(biāo)注出短語(yǔ)的邊界和短語(yǔ)的類(lèi)型。在基于規(guī)則的方法中,主要的困難在于語(yǔ)法規(guī)則的獲取以及語(yǔ)法規(guī)則之間的優(yōu)先順序排列?,F(xiàn)在一般都采用機(jī)器學(xué)習(xí)的方法來(lái)自動(dòng)獲取規(guī)則。
Abney提出組塊的概念后,針對(duì)英語(yǔ),在文獻(xiàn)[41]中提出把句法分析的過(guò)程分成很多個(gè)層次,每個(gè)層次都只輸出一個(gè)結(jié)果,而在每個(gè)層次內(nèi)部只使用簡(jiǎn)單的有限狀態(tài)自動(dòng)機(jī)進(jìn)行分析。漢語(yǔ)方面,文獻(xiàn)[42]在詞匯知識(shí)庫(kù)支持下,從標(biāo)注語(yǔ)料庫(kù)中自動(dòng)獲取所有基于詞類(lèi)的基本塊規(guī)則,通過(guò)設(shè)置規(guī)則置信度自動(dòng)排除大量低可靠和無(wú)效規(guī)則。針對(duì)其中的高頻低可靠規(guī)則,不斷引入更多的內(nèi)部詞匯約束和外部語(yǔ)境限制知識(shí),使之逐步進(jìn)化為描述能力更強(qiáng)的結(jié)構(gòu)化規(guī)則。數(shù)量組塊、時(shí)間組塊和形容組詞塊的F值達(dá)到了93%左右,多詞語(yǔ)動(dòng)詞組塊、名詞組塊和空間組塊的F值分別為87%、84%和83%。
機(jī)器學(xué)習(xí)方法可以分為有指導(dǎo)學(xué)習(xí)方法、無(wú)指導(dǎo)學(xué)習(xí)方法和半指導(dǎo)學(xué)習(xí)方法。有指導(dǎo)方法難點(diǎn)在于構(gòu)造一個(gè)大規(guī)模的標(biāo)注語(yǔ)料庫(kù)是要花費(fèi)大量的人力物力的,而無(wú)指導(dǎo)的缺點(diǎn)則在于一般的迭代算法的復(fù)雜度都很高,運(yùn)算效率較差,并且不能很好地保證最終訓(xùn)練結(jié)果的語(yǔ)法可靠性。
6.2.1 有指導(dǎo)學(xué)習(xí)方法
有指導(dǎo)學(xué)習(xí)方法是通過(guò)學(xué)習(xí)已知數(shù)據(jù)的特征以及對(duì)應(yīng)的結(jié)果度量,建立起預(yù)測(cè)模型來(lái)預(yù)測(cè)并度量未知數(shù)據(jù)的特征和結(jié)果。雖然無(wú)指導(dǎo)和半指導(dǎo)的學(xué)習(xí)方法取得了一定的成果,但是大規(guī)模語(yǔ)料庫(kù)支撐下的有指導(dǎo)學(xué)習(xí)仍舊是中文語(yǔ)言處理的主流方法。
文獻(xiàn)[43]采用了一種基于增益的隱馬爾可夫模型的方法來(lái)進(jìn)行漢語(yǔ)組塊的研究。在哈爾濱工業(yè)大學(xué)樹(shù)庫(kù)語(yǔ)料測(cè)試的F值為82.38%。文獻(xiàn)[44]將中文組塊識(shí)別問(wèn)題看成分類(lèi)問(wèn)題,并利用SVM加以解決,在哈爾濱工業(yè)大學(xué)樹(shù)庫(kù)語(yǔ)料測(cè)試的F值是88.67%。文獻(xiàn)[45]在SVMs模型的基礎(chǔ)上,提出基于大間隔方法的漢語(yǔ)組塊分析方法,給出判別式的序列化標(biāo)注函數(shù)的優(yōu)化目標(biāo),并應(yīng)用割平面算法實(shí)現(xiàn)對(duì)特征參數(shù)的近似優(yōu)化訓(xùn)練。通過(guò)在賓州中文樹(shù)庫(kù)CTB4數(shù)據(jù)集上的實(shí)驗(yàn)數(shù)據(jù)顯示,各種類(lèi)型組塊識(shí)別的總的F值為91.61%。文獻(xiàn)[46-47]將條件隨機(jī)域模型應(yīng)用到中文組塊分析中,其中文獻(xiàn)[46]利用語(yǔ)義詞典抽取語(yǔ)義類(lèi)特征,將其加入分析模型,得到92.77%的F值。文獻(xiàn)[22]將有向圖語(yǔ)言模型應(yīng)用于漢語(yǔ)組塊分析,將候選組塊標(biāo)記映射為有向圖節(jié)點(diǎn),根據(jù)候選組塊標(biāo)記之間的接續(xù)關(guān)系確定節(jié)點(diǎn)之間是否存在有向邊。利用詞、詞性和組塊標(biāo)記的統(tǒng)計(jì)信息為有向邊賦值。組塊分析的F值為84.99%。文獻(xiàn)[50]提出了一種基于CRFs的分布式策略及錯(cuò)誤驅(qū)動(dòng)的方法識(shí)別漢語(yǔ)組塊,首先將11種類(lèi)型的漢語(yǔ)組塊進(jìn)行分組,結(jié)合CRFs構(gòu)建不同的組塊識(shí)別模型來(lái)識(shí)別組塊;之后利用基于CRFs的錯(cuò)誤驅(qū)動(dòng)技術(shù)自動(dòng)對(duì)分組組塊進(jìn)行二次識(shí)別;最后依據(jù)各分組F值大小順序處理類(lèi)型沖突。系統(tǒng)開(kāi)放式測(cè)試的F值達(dá)到92.91%。
文獻(xiàn)[21]提出基于Stacking算法的多分類(lèi)器組合方法,通過(guò)構(gòu)造一個(gè)兩層的疊加式框架結(jié)構(gòu),將4種分類(lèi)器(fnTBL、SNoW、SVM、MBL)進(jìn)行了組合,并融合各種可能的上下文信息作為各層分類(lèi)器的輸入特征向量,組合后的分類(lèi)器在哈爾濱工業(yè)大學(xué)樹(shù)庫(kù)語(yǔ)料的測(cè)試中F值達(dá)到93.64。文獻(xiàn)[51]給出了雙規(guī)則(DR-AdaBoost)分類(lèi)算法。算法在每次迭代中將雙規(guī)則(最優(yōu)弱分類(lèi)規(guī)則和次優(yōu)弱分類(lèi)規(guī)則)的線性組合作為迭代的評(píng)價(jià)標(biāo)準(zhǔn),應(yīng)用在漢語(yǔ)組塊分析中F值為89.92%。
6.2.2 半指導(dǎo)和無(wú)指導(dǎo)學(xué)習(xí)方法
半指導(dǎo)學(xué)習(xí)是使用大量的未標(biāo)注數(shù)據(jù)和一部分標(biāo)注的數(shù)據(jù)來(lái)構(gòu)建分類(lèi)器或者模型,對(duì)未標(biāo)注的數(shù)據(jù)進(jìn)行標(biāo)注和判斷。無(wú)指導(dǎo)學(xué)習(xí)是利用從總體給出的樣本信息來(lái)做出推斷和描述數(shù)據(jù)的組織和聚類(lèi)。
文獻(xiàn)[52-53]提出了一種基于信息熵的層次詞聚類(lèi)算法,并將該算法產(chǎn)生的詞簇作為特征應(yīng)用到中文組塊分析模型中。利用中文組塊語(yǔ)料庫(kù)中的詞及其組塊標(biāo)記作為基本信息,采用二元層次聚類(lèi)的方法形成具有一定句法功能的詞簇。用詞簇特征代替?zhèn)鹘y(tǒng)的詞性特征應(yīng)用到組塊分析模型中,并引入命名實(shí)體和仿詞識(shí)別模塊,F(xiàn)值為82.69%。文獻(xiàn)[54]采用co-training實(shí)現(xiàn)中文組塊識(shí)別。選取增益的隱馬爾可夫模型和基于轉(zhuǎn)換規(guī)則的分類(lèi)器(fnTBL)組合成一個(gè)分類(lèi)體系,對(duì)co-training算法中兩種不同的策略進(jìn)行了比較,一種是選擇緩存器中的所有實(shí)例的方法,一種是保證兩個(gè)分類(lèi)器在未帶標(biāo)數(shù)據(jù)的一致性方法,在小規(guī)模標(biāo)注的漢語(yǔ)樹(shù)庫(kù)語(yǔ)料和大規(guī)模未標(biāo)注漢語(yǔ)語(yǔ)料上進(jìn)行中文組塊識(shí)別,F(xiàn)值分別達(dá)到了85.34%和83.41%。
6.2.3 混合學(xué)習(xí)方法
使用有指導(dǎo)的統(tǒng)計(jì)方法和無(wú)指導(dǎo)的聚類(lèi)方法結(jié)合,可以提高無(wú)指導(dǎo)聚類(lèi)的準(zhǔn)確率,避免有指導(dǎo)方法因漢語(yǔ)組塊語(yǔ)料庫(kù)規(guī)模較小而導(dǎo)致的數(shù)據(jù)稀疏現(xiàn)象。文獻(xiàn)[55]提出了改進(jìn)K-均值聚類(lèi)方法。分為3個(gè)過(guò)程:首先根據(jù)從語(yǔ)料庫(kù)中統(tǒng)計(jì)的數(shù)據(jù),采用基于中心詞擴(kuò)展的策略把句子中的單詞先分到不同的類(lèi)中;然后運(yùn)用聚類(lèi)算法調(diào)整中心,進(jìn)行聚類(lèi);最后根據(jù)單詞在句子中的位置確定短語(yǔ)的邊界。應(yīng)用改進(jìn)K-均值聚類(lèi)方法對(duì)7種漢語(yǔ)組塊進(jìn)行識(shí)別,F(xiàn)值達(dá)到了92.94%。優(yōu)于基于中心詞擴(kuò)展的方法89.90%,也優(yōu)于K-均值聚類(lèi)算法87.12%。
規(guī)則和統(tǒng)計(jì)相結(jié)合的方法出發(fā)點(diǎn)是充分發(fā)揮基于統(tǒng)計(jì)方法和基于規(guī)則方法各自的優(yōu)勢(shì),為組塊分析尋找一種較好的處理方法。
文獻(xiàn)[10]由語(yǔ)言學(xué)知識(shí)得到初步的組塊劃分語(yǔ)料,通過(guò)校正和學(xué)習(xí)不斷對(duì)規(guī)則進(jìn)行調(diào)整,完善規(guī)則模型,并在不斷增大的標(biāo)注語(yǔ)料基礎(chǔ)上對(duì)統(tǒng)計(jì)模型進(jìn)行訓(xùn)練,得到組塊劃分的統(tǒng)計(jì)模型。從封閉測(cè)試和開(kāi)放測(cè)試的試驗(yàn)結(jié)果來(lái)看,兩種方法結(jié)合進(jìn)行標(biāo)注的正確率分別達(dá)到了96.2%和94.6%。文獻(xiàn)[48]采用基于實(shí)例的學(xué)習(xí)方法,對(duì)漢語(yǔ)基本短語(yǔ)的邊界及類(lèi)別進(jìn)行識(shí)別,并利用短語(yǔ)內(nèi)部構(gòu)成結(jié)構(gòu)和詞匯信息對(duì)預(yù)測(cè)中出現(xiàn)的邊界歧義和短語(yǔ)類(lèi)型歧義進(jìn)行了排歧處理。實(shí)驗(yàn)結(jié)果中對(duì)基本組塊的識(shí)別正確率達(dá)到95.2%,召回率達(dá)到93.7%。文獻(xiàn)[49]給出了一種錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)機(jī)制與SVM相結(jié)合的漢語(yǔ)組塊識(shí)別方法。該方法在SVM組塊識(shí)別的基礎(chǔ)上,對(duì)SVM識(shí)別結(jié)果中的錯(cuò)誤詞語(yǔ)序列的詞性、組塊標(biāo)注信息等進(jìn)行分析,獲得候選校正規(guī)則集;之后按照閾值條件對(duì)候選集進(jìn)行篩選,得到最終的校正規(guī)則集;最后應(yīng)用該規(guī)則集對(duì)SVM的組塊識(shí)別結(jié)果進(jìn)行校正。實(shí)驗(yàn)結(jié)果表明,與單獨(dú)采用SVM模型的組塊識(shí)別相比,加入錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)方法后,精確率、召回率、F值都有了不同程度的提高。文獻(xiàn)[56]實(shí)現(xiàn)了一種針對(duì)并行語(yǔ)料庫(kù)進(jìn)行雙語(yǔ)組塊自動(dòng)識(shí)別的方法。首先根據(jù)規(guī)則庫(kù),分別對(duì)源語(yǔ)言句子和目標(biāo)語(yǔ)言句子中所有符合規(guī)則的子塊進(jìn)行標(biāo)記,然后利用統(tǒng)計(jì)模型,對(duì)所有可能的源語(yǔ)子塊在可能的目標(biāo)語(yǔ)子塊集合中搜索其最佳的對(duì)應(yīng),最終形成雙語(yǔ)句對(duì)的可能的雙語(yǔ)組塊劃分。在一個(gè)6萬(wàn)句的旅館預(yù)定領(lǐng)域口語(yǔ)語(yǔ)料庫(kù)中的實(shí)驗(yàn)中,正確率可達(dá)到80%左右。
相比于組塊識(shí)別,對(duì)于中文的組塊內(nèi)部結(jié)構(gòu)研究還比較少。文獻(xiàn)[13]的漢語(yǔ)基本塊標(biāo)注體系中,提出了基本塊的關(guān)系標(biāo)記描述集,包括了右角中心結(jié)構(gòu)、鏈?zhǔn)疥P(guān)聯(lián)結(jié)構(gòu)、并列關(guān)系CHC、述賓關(guān)系LCC、述補(bǔ)關(guān)系LCC、附加關(guān)系LCC和單詞語(yǔ)基本塊?;诨緣K標(biāo)注體系,文獻(xiàn)[57]設(shè)計(jì)了一套關(guān)系標(biāo)記集。其設(shè)計(jì)思路是針對(duì)4種關(guān)系: 修飾關(guān)系(ZX,LN)、述賓關(guān)系(PO)、述補(bǔ)關(guān)系(SB)和并列關(guān)系(LH),對(duì)句子中的每個(gè)詞所處的功能位置進(jìn)行描述,如表1所示。利用條件隨機(jī)場(chǎng)模型對(duì)句子中的每個(gè)詞進(jìn)行序列關(guān)系標(biāo)注, 然后通過(guò)有限自動(dòng)機(jī)規(guī)則自動(dòng)獲取句子的基本塊標(biāo)注結(jié)果。其句法標(biāo)記識(shí)別性能與使用經(jīng)典的邊界標(biāo)記(IOB)相比略有下降。文獻(xiàn)[57]進(jìn)一步提煉出了三種典型的拓?fù)浣Y(jié)構(gòu): 左角中心結(jié)構(gòu)(LCC)、右角中心結(jié)構(gòu)(RCC)和鏈?zhǔn)疥P(guān)聯(lián)結(jié)構(gòu)(CHC),它們覆蓋了基本塊內(nèi)部修飾關(guān)系、并列關(guān)系、述賓、述補(bǔ)和附加關(guān)系。
表1 關(guān)系標(biāo)記集
英語(yǔ)方面已有在組塊分析基礎(chǔ)上進(jìn)行完全句法分析的研究。其中文獻(xiàn)[58]把句法分析分解為一系列的組塊識(shí)別任務(wù),并用CRFs模型實(shí)現(xiàn)。雖然正確率略低,但是時(shí)間和空間復(fù)雜度卻低了很多,在對(duì)實(shí)時(shí)性要求較高的系統(tǒng)中有很好的應(yīng)用前景。相比之下中文組塊分析技術(shù),由于缺乏一個(gè)明確、公開(kāi)的定義方法和訓(xùn)練語(yǔ)料庫(kù),在語(yǔ)料庫(kù)建設(shè)角度上還有很多工作沒(méi)有進(jìn)行。清華大學(xué)在整理和加工中文組塊庫(kù)方面做了大量工作,同時(shí)建立了一個(gè)完整的組塊劃分體系:基本組塊、功能組塊、事件描述小句識(shí)別。從其已經(jīng)公開(kāi)發(fā)布的成果來(lái)看,除了基本組塊外,對(duì)功能組塊也有一些較為成熟的研究[59-60],但是第三層次事件描述小句識(shí)別的研究則很少見(jiàn),距離完全句法分析尚有一定的距離。文獻(xiàn)[61]實(shí)現(xiàn)了基于組塊的日英統(tǒng)計(jì)機(jī)器翻譯模型,這也對(duì)中文組塊的應(yīng)用提出了一種可嘗試的研究方向,不以完全句法分析為目標(biāo),用組塊代替詞或者短語(yǔ)實(shí)現(xiàn)具體的應(yīng)用,當(dāng)然因此帶來(lái)的數(shù)據(jù)稀疏問(wèn)題也是必須要面對(duì)的。為了更好地研究和解決組塊分析及其應(yīng)用,筆者認(rèn)為還應(yīng)該在以下幾個(gè)方面進(jìn)行進(jìn)一步的研究和探索。
(1) 由于目前的中文組塊分析定義還沒(méi)有一個(gè)統(tǒng)一的標(biāo)準(zhǔn),一方面,對(duì)組塊定義的統(tǒng)一和規(guī)范的制定,是研究者們共同的發(fā)展方向;另一方面,對(duì)于利用剪枝從句法樹(shù)庫(kù)中抽取組塊的定義方式,如何根據(jù)應(yīng)用領(lǐng)域的不同,實(shí)現(xiàn)可定制的剪枝和抽取策略,自動(dòng)地構(gòu)建符合需求的組塊語(yǔ)料庫(kù),也是一項(xiàng)有意義的研究。
(2) 對(duì)于組塊識(shí)別,一方面要進(jìn)一步提升模型的性能,在模型中加入其他類(lèi)型的上下文信息,如搭配信息、語(yǔ)義信息和共現(xiàn)信息等,并輔之以規(guī)則的方法以進(jìn)一步提高組塊識(shí)別的性能;另一方面在已有組塊研究成果的基礎(chǔ)上,適當(dāng)?shù)卦龃蠼M塊粒度,以便能更好地實(shí)現(xiàn)完全句法分析或者應(yīng)用到其他語(yǔ)言處理任務(wù)中。
(3) 在組塊識(shí)別的基礎(chǔ)上,塊內(nèi)結(jié)構(gòu)分析和塊間關(guān)系分析也值得做更多的進(jìn)一步的研究。
(4) 在很多實(shí)際的信息處理技術(shù)應(yīng)用中,組塊分析也起到了很重要的作用。伴隨著中文組塊分析的發(fā)展,組塊在機(jī)器翻譯、問(wèn)答系統(tǒng)、信息抽取、信息檢索、文本分類(lèi)等領(lǐng)域的進(jìn)一步應(yīng)用也是值得期待的研究。
[1] Abney S. Parsing by Chunks[C]//Berwiek R,Abney S, Carol T, eds. Principle-Based Parsing. Dordrecht: Kluwer Academic Publishers,1991: 257-278.
[2] Erik F, Tjong Kim Sang, Buchholz S. Introduction to the CoNLL-2000 Shared Task: Chunking[C]//Proceedings of CoNLL-2000 and LLL-2000, Lisbon, Portugal, 2000: 127-132.
[3] 孫宏林,俞士汶.淺層句法分析方法概述[J].當(dāng)代語(yǔ)言學(xué),2000,2(2): 74-83.
[4] 趙軍,黃昌寧.結(jié)合句法組成模板識(shí)別漢語(yǔ)基本名詞短語(yǔ)的概率模型[J].計(jì)算機(jī)研究與發(fā)展,1999,36(11): 1384-1390.
[5] 趙軍,黃昌寧.基于轉(zhuǎn)換的漢語(yǔ)基本名詞短語(yǔ)識(shí)別模型[J].中文信息學(xué)報(bào),1999,13(2): 1-7,39.
[6] 趙軍,黃昌寧.漢語(yǔ)基本名詞短語(yǔ)結(jié)構(gòu)分析模型[J].計(jì)算機(jī)學(xué)報(bào),1999,22(2): 141-146.
[7] 周雅倩,郭以昆,黃萱菁,等.基于最大熵方法的中英文基本名詞短語(yǔ)識(shí)別[J].計(jì)算機(jī)研究與發(fā)展,2003,40(3): 440-446.
[8] 王立霞,孫宏林.現(xiàn)代漢語(yǔ)介詞短語(yǔ)邊界識(shí)別研究[J].中文信息學(xué)報(bào),2005,19(3): 80-86.
[9] Y Tan, T Yao, Q Chen, et al. Applying Conditional Random Fields to Chinese Shallow Parsing[C]//David: Computational Linguistics and Intelligent Text Processing 6th International Conference, Mexico City,Mexico,2005: 527-536.
[10] 李素建,劉群,白碩.統(tǒng)計(jì)和規(guī)則相結(jié)合的漢語(yǔ)組塊分析[J].計(jì)算機(jī)研究與發(fā)展,2002,39(4): 385-391.
[11] 張昱琪,周強(qiáng).漢語(yǔ)基本短語(yǔ)的自動(dòng)識(shí)別[J].中文信息學(xué)報(bào),2002,16(6): 1-8.
[12] 周強(qiáng),孫茂松,黃昌寧.漢語(yǔ)句子的組塊分析體系[J].計(jì)算機(jī)學(xué)報(bào),1999,22(11): 1158-1165.
[13] 周強(qiáng).漢語(yǔ)基本塊描述體系[J]. 中文信息學(xué)報(bào),2007,21(3): 21-27.
[14] 孫廣路.基于統(tǒng)計(jì)學(xué)習(xí)的中文組塊分析技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2008.
[15] 李沐,呂學(xué)強(qiáng),姚天順.一種基于E-Chunk的機(jī)器翻譯模型[J].軟件學(xué)報(bào),2002,13(4): 669-676.
[16] Zhou M.A block-based robust dependency parser for unrestricted Chinese text[C]//Cardie C,Daelemans Nedelle C, Tjong Kim Sang E F: Proceedings of the 2nd Chinese Language Processing Workshop Attached to ACL. HongKong: Association for Computational Linguistics,2000: 78-84.
[17] Chen WL, Zhang YJ, Hitoshi I. An empirical study of Chinese chunking[C]//Morristown, Proc. of the COLING/ACL 2006 Main Conf. Poster Sessions. Sydney, Australia: Association for Computational Linguistics, 2006: 97-104.
[18] 譚詠梅,王小捷,周延泉,等.使用SVMs進(jìn)行漢語(yǔ)淺層分析[J].北京郵電大學(xué)學(xué)報(bào),2008,31(1).
[19] 劉芳,趙鐵軍,于浩,等.基于統(tǒng)計(jì)的漢語(yǔ)組塊分析[J].中文信息學(xué)報(bào),2000,14(6): 28-33.
[20] Z Tiejun, Y Muyun, L Fang, et al. Statistics Based Hybrid Approach to Chinese Base Phrase Identification[C]//Cardie C, Daelemans Nedelle C, Tjong Kim Sang E F: Proceeding CLPW ’00 Proceedings of the 2 Workshop on Chinese Language Processing. Hong Kong: Association for Computational Linguistics, 2000: 73-77.
[21] 李葕,朱靖波,姚天順.基于Stacking算法的組合分類(lèi)器及其應(yīng)用于中文組塊分析[J].計(jì)算機(jī)研究與發(fā)展,2005,42(5): 844-848.
[22] H Gao, DG Huang,YS Yang. Chinese Chunking Using ESVM-KNN[C]//YM Cheng,YP Wang,HL Liu: Proceedings of the 2006 International Conference on Computational Intelligence and Security,Guangzhou: IEEE,2006: 721-734.
[23] Li H, C N Huang, J Gao, et al. Chinese Chunking with Another Type of Spec[C]//Oliver Streiter, Qin Lu: Proceedings of the 3rd ACL SIGHAN Workshop.Barcelona,Spain: Association for Computational Linguistics,2004: 41-48.
[24] B Li, Q Lu, Y Li. Building a Chinese Shallow Parsed Treebank for Collocation Extraction[C]//Proceedings of 4th International Conference on Intelligent Text Processing and Computational Linguistics, Mexico City,Mexico, 2003: 402-405.
[25] S H Wu, C W Shih, C W Wu, et al. Applying Maximum Entropy to Robust Chinese Shallow Parsing[C]//Proceedings of ROCLING-2005, Taiwan,China,2005: 23-30.
[26] 周強(qiáng),李玉梅.漢語(yǔ)塊分析評(píng)測(cè)任務(wù)設(shè)計(jì)[J].中文信息學(xué)報(bào),2010,24(1): 123-128.
[27] Ramshaw L A,M M P. Text chunking using transformation-based learning[C]//Yarowsky D, Church K,eds. Proceedings of the 3rd ACL Workshop on Very Large Corpora. Massachusetts: Association for Computational Linguistics,1995: 82-94.
[28] Tjong Kim Sang E F,Veenstra J. Representing text chunks[C]//Osborne M,Tjong Kim Sang E F,eds, Proceedings of EACL’99.Bergen: Assoeiation for Computational Linguistics,1995: 173-179.
[29] Erik F, Tjong Kim Sang, Sabine Buchholz. Introduction to CoNLL-2000 Shared Task: Chunking[C]//Proceedings of CoNLL-2000.Lisbon,Portugal,2000: 127-132.
[30] K Uehimoto,Q Ma, M Murata,et al. Named entity extraction based on a maximum entropy model and transformation rules[C]//Proceedings of the 38th Annual Meeting of the Association for Computational Linguistics,2000: 326-335.
[31] K Church. A Stochastic Parts Program and Noun Phrases Parser for Unrestricted Text[C]//Proceedings of the 2nd Conference on Applied Natural Language Processing, New Jersey, USA, 1988: 136-143.
[32] Ramshaw L, Marcus M. Text Chunking Using Transformation-Based Learning[C]//Proceedings of 3rd Workshop on Very Large Corpora. Massachusetts: Association for Computational Linguistics,1995:82-94.
[33] A V D. Bosch, S Buchholz. Shallow Parsing on the Basis of Words Only: A Case Study[C]//Eisner: Proceedings of 40th Annual Meeting of the Association for Computational Linguistics, Philadelphia, PA, USA: Association for Computational Linguistics, 2002: 433-440.
[34] T Zhang, F Damerau, D Johnson. Text Chunking Based on a Generalization of Winnow. Journal of Machine Learning Research[J]. 2002,(2): 615-637.
[35] S B Park, B T Zhang. Text Chunking by Combining Hand-Crafted Rules and Memory-Based Learning[C]//Erhard W, Dan Roth: Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics, Sapporo, Japan: Association for Computational Linguistics, 2003: 497-504.
[36] R K Ando, T Zhang. A High-Performance Semi-Supervised Learning Method for Text Chunking[C]//Kevin Knight, Hwee Tou Ng, Kemal Oflazer: Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics, Ann Arbor, Michigan: Association for Computational Linguistics, 2005: 1-9.
[37] Erik F. Tjong Kim Sang. Memory-Based Shallow Parsing[J]. The Journal of Machine Learning Research. 2002: 559-594.
[38] F Pla, A Molina, N Prieto. Improving chunking by means of lexical-contextual information in statistical language models[C]//Alan: Proceedings of the 2nd Workshop on Learning Language in Logic and the 4th Conference on Computational Natural Language Learning. Stroudsburg,PA,USA: Association for Computational Linguistics, 2000. 148-150.
[39] Koeling Rob. Chunking with maximum entropy models[C]//Alan: Proceedings of the 2nd Workshop on Learning Language in Logic and the 4th Conference on Computational Natural Language Learning. Stroudsburg,PA,USA: Association for Computational Linguistics, 2000: 139-141.
[40] Kudoh Taku, Matsumoto Yuji. Use of support vector learning for chunk identification [C]//Alan: Proceedings of the 2nd Workshop on Learning Language in Logic and the 4th Conference on Computational Natural Language Learning. Stroudsburg,PA,USA: Association for Computational Linguistics, 2000: 142-144.
[41] Abney S. Part of speech tagging and partial parsing[C]//Church K, Young S, Bloothooft G, eds, Proc. of the Corpus-Based Methods in Language and Speech, An ELSNET Volume. Dordrecht: Kluwer Academic Publishers,1996: 119-136.
[42] 周強(qiáng).漢語(yǔ)基本塊規(guī)則的自動(dòng)學(xué)習(xí)和擴(kuò)展進(jìn)化[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版), 2008,4(1): 88-91.
[43] 李珩,譚詠梅,朱靖波,等.漢語(yǔ)組塊識(shí)別[J].東北大學(xué)學(xué)報(bào)(自然科學(xué)版),2004,25(2): 114-117.
[44] 李珩,朱靖波,姚天順.基于SVM的中文組塊分析[J].中文信息學(xué)報(bào),2004,18(2): 1-7.
[45] 周俊生,戴新宇,陳家駿,等.基于大間隔方法的漢語(yǔ)組塊分析[J].軟件學(xué)報(bào),2009,20(4): 870-877.
[46] 孫廣路,郎非,薛一波.基于條件隨機(jī)域和語(yǔ)義類(lèi)的中文組塊分析方法[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2011,43(7): 135-139.
[47] Tan YM, Yao TS, Chen Q, et al. Applying conditional random fields to Chinese shallow parsing[C]//David: Computational Linguistics and Intelligent Text Processing 6th International Conference. Mexico City, Mexico: COCLing 2005. 2005: 167-176.
[48] 張昱琪,周強(qiáng). 漢語(yǔ)基本短語(yǔ)的自動(dòng)識(shí)別[J].中文信息學(xué)報(bào),2002,16(6): 1-8.
[49] 黃德根,王瑩瑩.基于SVM的組塊識(shí)別及其錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)方法[J].中文信息學(xué)報(bào),2006,20(6): 17-24.
[50] 黃德根,于靜.分布式策略與CRFs相結(jié)合識(shí)別漢語(yǔ)組塊[J].中文信息學(xué)報(bào),2009,23(1): 16-22.
[51] Gao Hong,Huang Degen,Liu Wei, et al. Double Rule Learning in Boosting[J]. International Journal of Innovative Computing, Information & Control.2008,4(6): 1411-1420.
[52] G Sun, C Huang, X Wang, et al. Chinese Chunking Based on Maximum Entropy Markov Models[J]. International Journal of Computational Linguistics and Chinese Language Processing. 2006, 11(2): 115-136.
[53] G Sun, Y Guan, X Wang. A Maximum Entropy Chunking Model with N-Fold Template Correction[J]. Journal of Electronics. 2007,24(5): 690-695.
[54] 劉世岳,李珩,張俐,等.Co-training機(jī)器學(xué)習(xí)方法在中文組塊識(shí)別中的應(yīng)用[J].中文信息學(xué)報(bào),2005,19(3): 73-79.
[55] 梁穎紅,趙鐵軍,于浩,等.基于改進(jìn)K-均值聚類(lèi)的漢語(yǔ)語(yǔ)塊識(shí)別[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào), 2007,39(7): 1106-1109.
[56] 程葳,趙軍,劉非凡,等.面向口語(yǔ)翻譯的雙語(yǔ)語(yǔ)塊自動(dòng)識(shí)別[J].計(jì)算機(jī)學(xué)報(bào),2004,27(8): 1016-1020.
[57] 宇航,周強(qiáng).漢語(yǔ)基本塊的內(nèi)部關(guān)系分析[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,49(10): 136-140.
[58] Yoshimasa Tsuruoka, Jun’ichi Tsujii, Sophia Ananiadou. Fast Full Parsing by Linear-Chain Conditional Random Fields[C]//Proceedings of the 12th Conference of the European Chapter of the ACL (EACL 2009), Association for Computational Linguistics, Athens, Greece,2009: 790-798.
[59] 周強(qiáng),趙穎澤.漢語(yǔ)功能塊自動(dòng)分析[J].中文信息學(xué)報(bào),2007,21(5): 18-24.
[60] 陳億,周強(qiáng),宇航.分層次的漢語(yǔ)功能塊描述庫(kù)構(gòu)建分析[J].中文信息學(xué)報(bào),2008,22(3): 24-31,43.
[61] Taro Watanabe, Eiichiro Sumita,Hiroshi G Okuno.Chunk-based Statistical Translation[C]//Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics, Association for Computational Linguistics, Sapporo, Japan,2003: 303-310.