郭 振,張玉潔,蘇 晨,徐金安
(北京交通大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044)
中文分詞、詞性標(biāo)注和句法分析是中文自然語(yǔ)言處理的3大基礎(chǔ)任務(wù),是一個(gè)中文句子被具體的自然語(yǔ)言處理應(yīng)用(如機(jī)器翻譯系統(tǒng))使用之前,必須經(jīng)過(guò)的處理步驟。以往的研究大都將中文分詞、詞性標(biāo)注和句法分析看成獨(dú)立的任務(wù),任務(wù)的輸入是人工標(biāo)注的標(biāo)準(zhǔn)語(yǔ)料。但是單任務(wù)模型在實(shí)際應(yīng)用中存在以下缺陷。
1) 任務(wù)間的錯(cuò)誤傳遞。例如,在實(shí)際應(yīng)用中,中文分詞任務(wù)的輸出直接作為詞性標(biāo)注任務(wù)的輸入。此時(shí),中文分詞的錯(cuò)誤會(huì)在詞性標(biāo)注任務(wù)中被放大,嚴(yán)重影響詞性標(biāo)注的精度。
2) 多層次特征無(wú)法獲取。例如,某些詞性標(biāo)注歧義需要全局的句法信息才能得到消解,而傳統(tǒng)的詞性標(biāo)注模型無(wú)法獲取這些信息。
將多個(gè)任務(wù)融合到一個(gè)模型中同時(shí)處理的聯(lián)合模型,是解決上述問(wèn)題的一個(gè)有效方案。聯(lián)合模型成為近年來(lái)研究的熱點(diǎn),許多有效的聯(lián)合模型被提出來(lái): 中文分詞與詞性標(biāo)注聯(lián)合模型[1-2];詞性標(biāo)注與依存句法分析聯(lián)合模型[3-4];中文分詞、詞性標(biāo)注和基于詞語(yǔ)的依存句法分析聯(lián)合模型[5];中文分詞、詞性標(biāo)注和短語(yǔ)結(jié)構(gòu)句法分析聯(lián)合模型[6]。上述研究顯示聯(lián)合模型能使各任務(wù)的性能都得到不同程度的提高。
中文分詞任務(wù)的輸入是字符序列,而詞性標(biāo)注與句法結(jié)構(gòu)分析的輸入是詞序列,解決好字符處理與詞語(yǔ)處理之間的沖突是中文分詞、詞性標(biāo)注和句法結(jié)構(gòu)分析聯(lián)合模型的關(guān)鍵。Hatori[5]假設(shè)詞語(yǔ)內(nèi)部字符之間有類(lèi)似于句子中詞語(yǔ)之間的依存關(guān)系,解碼過(guò)程中每當(dāng)一個(gè)詞語(yǔ)構(gòu)詞成功后就假設(shè)詞語(yǔ)內(nèi)部之間的結(jié)構(gòu)關(guān)系也建立完畢,從而在處理框架上統(tǒng)一了中文分詞、詞性標(biāo)注和依存句法分析任務(wù)。但Hatori[5]并沒(méi)有真正利用詞語(yǔ)內(nèi)部之間的結(jié)構(gòu)信息對(duì)聯(lián)合模型進(jìn)行改善。Zhang[6]認(rèn)為構(gòu)成詞語(yǔ)的字符之間具有實(shí)際的語(yǔ)義結(jié)構(gòu),并對(duì)賓州中文樹(shù)庫(kù)CTB5的所有詞語(yǔ)進(jìn)行了結(jié)構(gòu)標(biāo)注,在此基礎(chǔ)上實(shí)現(xiàn)了基于字符的中文分詞、 詞性標(biāo)注和短語(yǔ)結(jié)構(gòu)句法分析聯(lián)合模型。
聯(lián)合模型的優(yōu)點(diǎn)是可以同步處理多項(xiàng)任務(wù),使各任務(wù)的中間結(jié)果可以相互利用,性能得到相互促進(jìn)。然而用于聯(lián)合模型的訓(xùn)練語(yǔ)料必須是在依存結(jié)構(gòu)上經(jīng)過(guò)人工標(biāo)注的語(yǔ)料。而目前深加工的語(yǔ)料規(guī)模有限,難以滿(mǎn)足訓(xùn)練高性能模型的需求。與此同時(shí),大規(guī)模的生語(yǔ)料卻相對(duì)容易獲得,其中蘊(yùn)含的知識(shí)也將有助于聯(lián)合模型性能的提升。在以往的中文分詞、詞性標(biāo)注和依存句法分析等單任務(wù)研究中,研究人員已經(jīng)驗(yàn)證了利用生語(yǔ)料的半監(jiān)督方法對(duì)各項(xiàng)任務(wù)的輔助作用[7-11]。如何從大規(guī)模生語(yǔ)料中抽取有價(jià)值的知識(shí),融入到更復(fù)雜的聯(lián)合模型中,是一個(gè)值得研究的新課題。
針對(duì)以上問(wèn)題,本文做出了以下貢獻(xiàn):
? 將Zhang[6]標(biāo)注的詞語(yǔ)內(nèi)部結(jié)構(gòu)轉(zhuǎn)化為依存結(jié)構(gòu),將傳統(tǒng)的基于詞語(yǔ)的依存句法樹(shù)擴(kuò)展成了基于字符的依存句法樹(shù),在此基礎(chǔ)上采用增量轉(zhuǎn)移策略實(shí)現(xiàn)了真正意義上的基于字符的中文分詞、詞性標(biāo)注和依存句法分析聯(lián)合模型。
? 參考中文分詞的序列標(biāo)注思想,將中文分詞的轉(zhuǎn)移策略擴(kuò)展為4種動(dòng)作: Shfit_S、Shift_B、Shift_M和Shift_E。該擴(kuò)展同時(shí)能夠?qū)⒁酝形姆衷~研究中豐富而成熟的特征融入聯(lián)合模型。
? 從大規(guī)模生語(yǔ)料中分別抽取了字符串層面的n-gram特征和結(jié)構(gòu)層面的依存子樹(shù)特征融入到聯(lián)合模型中,首次實(shí)現(xiàn)了半監(jiān)督的中文分詞、詞性標(biāo)注和依存句法分析聯(lián)合模型。
? 在CTB5的實(shí)驗(yàn)結(jié)果顯示,本文的模型在中文分詞、詞性標(biāo)注和依存分析任務(wù)上的F1值分別達(dá)到了98.31%、94.84%和81.71%,較單任務(wù)模型的分步處理結(jié)果分別提升了0.92%、1.77%和3.95%。其中,分詞和詞性標(biāo)注在目前公布的結(jié)果中取得了最好成績(jī)。
本文剩余部分組織結(jié)構(gòu)如下: 第2節(jié)介紹基于字符的中文分詞、詞性標(biāo)注和依存句法分析聯(lián)合模型;第3節(jié)介紹適用于聯(lián)合模型的n-gram特征和依存子樹(shù)特征的抽取和使用方法;第4節(jié)介紹評(píng)測(cè)實(shí)驗(yàn);第5節(jié)對(duì)本文工作進(jìn)行總結(jié)。
柱搜索和全局訓(xùn)練模型被應(yīng)用于基于轉(zhuǎn)移策略的自然語(yǔ)言處理框架,使得該框架在各項(xiàng)自然語(yǔ)言處理任務(wù)上取得了與其它經(jīng)典模型同一水平的精度,并且保持了簡(jiǎn)單高效易于擴(kuò)展的優(yōu)勢(shì)[12]。本文利用Zhang[6]對(duì)CTB5的詞語(yǔ)內(nèi)部結(jié)構(gòu)的標(biāo)注信息,將基于詞的依存句法樹(shù)擴(kuò)展成了基于字符的依存句法樹(shù)。采用轉(zhuǎn)移策略,實(shí)現(xiàn)了真正意義上的基于字符的中文分詞、詞性標(biāo)注和依存句法分析聯(lián)合模型?;谛蛄袠?biāo)注思想,重新設(shè)計(jì)了聯(lián)合模型里中文分詞部分的轉(zhuǎn)移策略。該設(shè)計(jì)同時(shí)能夠?qū)⒁酝形姆衷~研究中豐富而成熟的特征融入聯(lián)合模型。模型用平均感知機(jī)算法進(jìn)行全局訓(xùn)練,訓(xùn)練過(guò)程中采用參數(shù)提前更新策略[13]。訓(xùn)練和解碼過(guò)程采用柱搜索算法實(shí)現(xiàn)。
構(gòu)成中文詞語(yǔ)的漢字與構(gòu)成英文單詞的字母不同,單獨(dú)的英文字母不能承載任何語(yǔ)義信息,而漢字屬于表意文字,單獨(dú)的漢字也承載了特定的語(yǔ)義信息。與詞語(yǔ)通過(guò)相互影響產(chǎn)生語(yǔ)義修飾關(guān)系構(gòu)成句子類(lèi)似,構(gòu)成詞語(yǔ)的漢字之間也有特定的語(yǔ)義結(jié)構(gòu)。例如,“理發(fā)店”一詞中,“理”和“發(fā)”通過(guò)動(dòng)賓關(guān)系構(gòu)成“理發(fā)”,“理發(fā)”作為定語(yǔ)修飾“店”構(gòu)成詞語(yǔ)“理發(fā)店”。這種漢字之間通過(guò)發(fā)生修飾關(guān)系構(gòu)成詞語(yǔ)的方式與詞語(yǔ)構(gòu)成句子的方式頗為類(lèi)似。
Zhang[6]對(duì)賓州中文樹(shù)庫(kù)的所有詞語(yǔ)進(jìn)行了結(jié)構(gòu)標(biāo)注如圖1b和圖1d所示。“l(fā)”、“r”和“c”分別表示左邊部分為右邊部分的支配者,右邊部分為左邊部分的支配者以及左右兩部分為并列關(guān)系。本文根據(jù)Zhang[6]的標(biāo)注信息將圖1b和圖1d的結(jié)構(gòu)轉(zhuǎn)換為圖1c和圖1e中的依存結(jié)構(gòu),轉(zhuǎn)換時(shí)對(duì)于“c”我們選取右邊部分為頭節(jié)點(diǎn)。通過(guò)這種處理我們將圖1a所示的基于詞語(yǔ)的依存句法樹(shù)轉(zhuǎn)換成了圖1f所示的基于字符的依存句法樹(shù)。
圖1 詞語(yǔ)內(nèi)部結(jié)構(gòu)以及基于字符的依存句法樹(shù)
基于字符的依存句法樹(shù)比基于詞語(yǔ)的依存句法樹(shù)更適用于基于轉(zhuǎn)移策略的中文分詞、詞性標(biāo)注和依存句法分析聯(lián)合模型。基于轉(zhuǎn)移策略的聯(lián)合模型將句子的分析過(guò)程分解為若干轉(zhuǎn)移動(dòng)作,為了減少搜索消耗,對(duì)于經(jīng)歷相同轉(zhuǎn)移動(dòng)作次數(shù)的候選結(jié)果,只保留模型評(píng)分較高的前N個(gè)結(jié)果。因此,模型要求經(jīng)歷相同轉(zhuǎn)移動(dòng)作次數(shù)的候選結(jié)果之間是可比的,即要求一個(gè)句子的所有候選結(jié)果從模型分析的初始狀態(tài)到終止?fàn)顟B(tài),恰好經(jīng)歷相同次數(shù)的轉(zhuǎn)移動(dòng)作。否則需要模型為此設(shè)計(jì)專(zhuān)門(mén)的中間結(jié)果對(duì)齊方案[5,14]?;谵D(zhuǎn)移策略的聯(lián)合模型將一個(gè)依存弧的建立設(shè)定為一個(gè)轉(zhuǎn)移動(dòng)作,而基于詞的依存句法樹(shù)中依存弧的個(gè)數(shù)隨著分詞結(jié)果的變化而變化,使得經(jīng)歷相同轉(zhuǎn)移動(dòng)作次數(shù)的候選結(jié)果之間無(wú)法進(jìn)行合理的競(jìng)爭(zhēng)?;谧值囊来婢浞?shù)中依存弧的個(gè)數(shù)是固定的,即句子的字符數(shù)減1,直接使上述難題得到解決。
另一方面,詞語(yǔ)的內(nèi)部結(jié)構(gòu)信息有助于聯(lián)合模型性能的提高。以中文分詞為例,一個(gè)候選切分詞語(yǔ)的內(nèi)部結(jié)構(gòu)越穩(wěn)定合理,那么它真正成為詞語(yǔ)的可能性越大。Zhang[6]的研究證明無(wú)論是根據(jù)特定規(guī)則強(qiáng)制構(gòu)建的詞語(yǔ)內(nèi)部結(jié)構(gòu),還是人工標(biāo)注的真實(shí)的詞語(yǔ)內(nèi)部結(jié)構(gòu),對(duì)于短語(yǔ)結(jié)構(gòu)句法樹(shù)的分析都有一定的輔助意義。Li[15]的研究表明,即使只使用詞語(yǔ)的部分內(nèi)部結(jié)構(gòu),也能提高中文依存句法分析的性能。
基于轉(zhuǎn)移策略的模型對(duì)輸入句子從左到右進(jìn)行處理,每次執(zhí)行一個(gè)設(shè)定的轉(zhuǎn)移動(dòng)作,將句子從當(dāng)前狀態(tài)Ti轉(zhuǎn)移到下一個(gè)狀態(tài)Ti+1。一個(gè)狀態(tài)T包含一個(gè)棧S={…S1,S0}和一個(gè)隊(duì)列Q={Q0,Q1…},分別用來(lái)記錄已經(jīng)分析完成的部分結(jié)果,即依存子樹(shù),以及將要分析的字符。一個(gè)句子的初始狀態(tài)S為空,Q為句中所有字符;終止?fàn)顟B(tài)S為一棵完整的依存句法樹(shù),其中包含了中文分詞與詞性標(biāo)注的結(jié)果,Q為空。
為了將中文分詞、詞性標(biāo)注和基于字符的依存句法分析3大任務(wù)融合到一個(gè)轉(zhuǎn)移系統(tǒng)中,并且為了更加便捷的將以往單任務(wù)研究中成熟而豐富的特征加入到新的聯(lián)合模型中,本文在前人研究的基礎(chǔ)上重新設(shè)計(jì)了以下轉(zhuǎn)移動(dòng)作。
1) 中文分詞和詞性標(biāo)注轉(zhuǎn)移動(dòng)作
① SHIFT-B(t): 將隊(duì)列Q的首元素作為非單字詞的首字符移進(jìn)棧頂,并給予詞性t。
② SHIFT-M: 將隊(duì)列Q的首元素作為非單字詞的除首尾字符之外的字符移進(jìn)棧頂。
③ SHIFT-E: 將隊(duì)列Q的首元素作為非單字詞的尾字符移進(jìn)棧頂。
④ SHIFT-S(t): 將隊(duì)列Q的首元素作為單字詞移進(jìn)棧頂,并給予詞性t。
通過(guò)以上設(shè)計(jì),基于轉(zhuǎn)移策略的中文分詞方法,統(tǒng)一到了將中文分詞任務(wù)看作序列標(biāo)注任務(wù)的處理框架下,同時(shí)使得以往基于序列標(biāo)注思想的中文分詞研究成果可以方便合理地融入到新的聯(lián)合模型里。本文第3節(jié)提出的半監(jiān)督的聯(lián)合模型正是這一設(shè)計(jì)的有效利用,并且取得了顯著效果。
2) 詞語(yǔ)內(nèi)部依存結(jié)構(gòu)轉(zhuǎn)移動(dòng)作
① REDUCE-SUBLEFT: 棧S頂部的兩個(gè)子樹(shù)S1和S0出棧,建立依存關(guān)系S1S0(表示S1依存于S0),將新形成的依存子樹(shù)的根節(jié)點(diǎn)(即S0)入棧。執(zhí)行此動(dòng)作的前提是子樹(shù)S1和子樹(shù)S0所包含的字符均屬于同一個(gè)詞語(yǔ)。
② REDUCE-SUBRIGHT: 棧S頂部的兩個(gè)子樹(shù)S1和S0出棧,建立依存關(guān)系S1S0(表示S0依存于S1),將新形成的依存子樹(shù)的根節(jié)點(diǎn)(即S1)入棧。執(zhí)行此動(dòng)作的前提是子樹(shù)S1和子樹(shù)S0所包含的字符均屬于同一個(gè)詞語(yǔ)。
詞語(yǔ)內(nèi)部依存關(guān)系的建立跟詞語(yǔ)之間依存關(guān)系的建立類(lèi)似,不同的是發(fā)生關(guān)系的元素類(lèi)型不同,前者是字符,后者是詞語(yǔ)。
3) 詞語(yǔ)之間依存結(jié)構(gòu)轉(zhuǎn)移動(dòng)作
① REDUCE-LEFT: 棧S頂部的兩個(gè)子樹(shù)S1和S0出棧,建立依存關(guān)系S1S0,將新形成的依存子樹(shù)的根節(jié)點(diǎn)(即S0)入棧。執(zhí)行此動(dòng)作的前提是S1節(jié)點(diǎn)字符所屬的詞語(yǔ)和S0節(jié)點(diǎn)字符所屬的詞語(yǔ)是兩個(gè)不同的詞語(yǔ),并且構(gòu)詞和詞內(nèi)依存結(jié)構(gòu)分析均已完成。
② REDUCE-RIGHT: 棧S頂部的兩個(gè)子樹(shù)S1和S0出棧,建立依存關(guān)系S1S0,將新形成的依存子樹(shù)的根節(jié)點(diǎn)(即S1)入棧。執(zhí)行此動(dòng)作的前提是S1節(jié)點(diǎn)字符所屬的詞語(yǔ)和S0節(jié)點(diǎn)字符所屬的詞語(yǔ)是兩個(gè)不同的詞語(yǔ),并且構(gòu)詞和詞內(nèi)依存結(jié)構(gòu)分析均已完成。
基于以上轉(zhuǎn)移策略,一個(gè)字符數(shù)為N的句子,需要經(jīng)過(guò)2N-1次狀態(tài)轉(zhuǎn)移即可完成從初始狀態(tài)到終止?fàn)顟B(tài)的分析。
本文使用的特征模板如表1所示。表1中的特征分為結(jié)構(gòu)特征和序列特征兩大類(lèi),分別表示依存子樹(shù)的句法結(jié)構(gòu)信息和中文分詞與詞性標(biāo)注的上下文序列信息。句法結(jié)構(gòu)信息包括基于詞語(yǔ)的結(jié)構(gòu)信息和基于字符的結(jié)構(gòu)信息。
表1 基于字符的中文分詞、詞性標(biāo)注與依存句法分析聯(lián)合模型的特征模板
表1中的特征模板參考了Hatori[5]的研究,本文對(duì)特征的使用階段和使用方式進(jìn)行了調(diào)整,以適用于2.2節(jié)所述的模型。P01-P20主要抽取句法結(jié)構(gòu)特征,在不同的轉(zhuǎn)移動(dòng)作中使用時(shí),P01-P20中的w會(huì)根據(jù)當(dāng)時(shí)的環(huán)境選擇代表一個(gè)完整的詞或是一個(gè)詞的一部分。W01-W20是主要用來(lái)決定當(dāng)前字符以什么方式參與詞語(yǔ)的構(gòu)成。T01-T05被用來(lái)預(yù)測(cè)最新進(jìn)入棧頂?shù)脑~語(yǔ)的詞性,只在SHIFT-S(t)和SHIFT-B(t)階段使用。S01-S07是本文新加入的基于字符的詞語(yǔ)內(nèi)部結(jié)構(gòu)特征,與P01-P20一起輔助詞語(yǔ)內(nèi)部句法結(jié)構(gòu)的分析。
半監(jiān)督的模型訓(xùn)練方法由于語(yǔ)料易得、方法簡(jiǎn)便高效等特點(diǎn),廣泛應(yīng)用于各項(xiàng)自然語(yǔ)言處理任務(wù)。尤其在人工標(biāo)注語(yǔ)料較少或?qū)I(yè)領(lǐng)域資源匱乏的任務(wù)上,獲得了顯著效果。面對(duì)聯(lián)合模型,半監(jiān)督的方法遇到了新的機(jī)遇和挑戰(zhàn)。對(duì)于中文分詞、詞性標(biāo)注和依存句法分析聯(lián)合模型,訓(xùn)練語(yǔ)料必須是經(jīng)過(guò)人工中文分詞標(biāo)注、詞性標(biāo)注和基于字的依存句法結(jié)構(gòu)標(biāo)注的語(yǔ)料。而經(jīng)過(guò)這樣深層次人工標(biāo)注的語(yǔ)料有限,難以滿(mǎn)足訓(xùn)練高性能模型的需求。與此同時(shí),不經(jīng)過(guò)任何標(biāo)注的完全生語(yǔ)料和只有部分標(biāo)注信息的半生語(yǔ)料更容易獲取,其中蘊(yùn)含著豐富的信息可以用來(lái)提高聯(lián)合模型的性能。由于聯(lián)合模型中各任務(wù)的結(jié)果可以相互促進(jìn),使得生語(yǔ)料的加入可以同時(shí)促進(jìn)多個(gè)任務(wù)性能的提升,這是單任務(wù)模型無(wú)法比擬的。但是如何將不同程度的生語(yǔ)料融入更加復(fù)雜的聯(lián)合模型,是一個(gè)新的課題和挑戰(zhàn),需要專(zhuān)門(mén)研究。
本文從大規(guī)模生語(yǔ)料中抽取具有代表性的n-gram字符串特征和依存子樹(shù)結(jié)構(gòu)特征,研究生語(yǔ)料特征在聯(lián)合模型中的使用方法,首次實(shí)現(xiàn)了基于字符的半監(jiān)督中文分詞、詞性標(biāo)注和依存句法分析聯(lián)合模型,取得了顯著的實(shí)驗(yàn)效果。圖2為半監(jiān)督聯(lián)合模型的框架。
圖2 半監(jiān)督的基于字符的中文分詞、詞性標(biāo)注和依存句法分析聯(lián)合模型框架
本小節(jié)介紹用于聯(lián)合模型的n-gram特征的抽取與使用。本文將Wang[8]對(duì)完全生語(yǔ)料的處理方案移植到具有分詞標(biāo)注的語(yǔ)料上來(lái),并根據(jù)抽取的信息為聯(lián)合模型產(chǎn)生新的特征。
對(duì)于給定分詞結(jié)果的一個(gè)句子S=C0C1…Cn,首先根據(jù)字符在詞語(yǔ)中的位置對(duì)其進(jìn)行標(biāo)注,可以得到對(duì)應(yīng)的標(biāo)注序列T=T0T1…Tn。本文采用傳統(tǒng)的四詞位標(biāo)注集[16]。然后,從句子中抽取Ci、CiCi+1、Ci-1CiCi+1等不同長(zhǎng)度的n-gram字符串,用g表示。對(duì)于一個(gè)特定的g如CiCi+1,抽取與其相關(guān)的不同長(zhǎng)度的標(biāo)注串如Ti、TiTi+1、Ti+1等,用seg表示。這樣就得到了一系列不同的(g,seg)。接下來(lái),統(tǒng)計(jì)每種(g,seg)在語(yǔ)料中的出現(xiàn)頻度f(wàn)(g,seg),就得到了一系列{g,seg,f(g,seg)}。然后,通過(guò)下面的方法將(g,seg)映射到不同的標(biāo)簽: 出現(xiàn)頻度前10%的(g,seg),標(biāo)簽為H;出現(xiàn)頻度前10%~30%的(g,seg),標(biāo)簽為M;出現(xiàn)頻度小于30%的(g,seg),標(biāo)簽為L(zhǎng)。在此之前,先將出現(xiàn)頻度小于3的(g,seg)去掉,本文認(rèn)為這些(g,seg)的出現(xiàn)頻度過(guò)低,不具有有效的統(tǒng)計(jì)意義。這樣,就獲得了一個(gè){g,seg,label}列表,新的n-gram特征就是基于這份列表產(chǎn)生的。
當(dāng)聯(lián)合模型執(zhí)行與中文分詞有關(guān)的轉(zhuǎn)移動(dòng)作時(shí),即某個(gè)字符將要被移進(jìn)分析狀態(tài)的棧頂時(shí),抽取與該字符相關(guān)的n-gram字符串g,如果g存在于上文從生語(yǔ)料中抽取的列表中,就將對(duì)應(yīng)的seg與label連接起來(lái),形成新的特征加入到模型中,即 n-gram 特征。沿用Wang的做法,本文只采用 bi-gram 特征,在信息抽取和特征生成階段,只關(guān)注bi-gram CiCi+1的相關(guān)信息,其中Ci為當(dāng)前要處理的字符。
依存子樹(shù)特征是指,從經(jīng)過(guò)自動(dòng)依存句法分析的生語(yǔ)料中抽取特定的依存子樹(shù),生成適用于有監(jiān)督訓(xùn)練模型的特征。具有2個(gè)節(jié)點(diǎn)的依存子樹(shù)和具有3個(gè)節(jié)點(diǎn)的依存子樹(shù)使用最為廣泛[10]。本文從生語(yǔ)料中抽取具有2個(gè)節(jié)點(diǎn)的依存子樹(shù)生成用于聯(lián)合模型的依存子樹(shù)特征。
首先對(duì)大規(guī)模生語(yǔ)料進(jìn)行自動(dòng)依存句法分析。本文采用被廣泛使用的單任務(wù)依存句法分析器,基于圖模型的開(kāi)源依存句法分析工具M(jìn)STParser*http://mstparser.sourceforge.net。為了節(jié)約大規(guī)模生語(yǔ)料的預(yù)處理時(shí)間,MSTParser的訓(xùn)練和解碼采用一階模型,模型的訓(xùn)練語(yǔ)料與聯(lián)合模型的訓(xùn)練語(yǔ)料相同。然后,從經(jīng)過(guò)處理的大規(guī)模生語(yǔ)料中抽取具有2個(gè)節(jié)點(diǎn)的依存子樹(shù),即詞語(yǔ)依存對(duì): W1-W2-R/L。其中,詞語(yǔ)W1和W2的順序與它們?cè)谠渥又械捻樞虮3忠恢?,R和L分別表示右依存弧和左依存弧,即W2依存于W1和W1依存于W2。統(tǒng)計(jì)所有依存子樹(shù)W1-W2-R/L出現(xiàn)的頻度f(wàn)(W1-W2-R/L),得到一系列{ W1-W2-R/L,f(W1-W2-R/L)}。接下來(lái),采用與3.1節(jié)類(lèi)似的方法將(W1-W2-R/L)映射到不同的標(biāo)簽: 出現(xiàn)頻度前10%的W1-W2-R/L,標(biāo)簽為H;出現(xiàn)頻度前10%~30%的W1-W2-R/L,標(biāo)簽為M;出現(xiàn)頻度小于30%的W1-W2-R/L,標(biāo)簽為L(zhǎng)。在此之前,需要先將出現(xiàn)頻度小于3的W1-W2-R/L去掉,理由如3.1所述。
當(dāng)聯(lián)合模型對(duì)當(dāng)前狀態(tài)的前兩個(gè)棧頂元素進(jìn)行依存關(guān)系決策時(shí),為其生成兩種依存子樹(shù)W1-W2-R和W1-W2-L,通過(guò)查詢(xún)上文獲得的依存子樹(shù)信息表,獲得相應(yīng)的頻度標(biāo)簽,將依存子樹(shù)的依存弧方向和頻度標(biāo)簽連接起來(lái)形成新的特征加入到聯(lián)合模型中,例如,“R-H”和“L-M”。
標(biāo)注語(yǔ)料采用賓州中文樹(shù)庫(kù)CTB5,語(yǔ)料劃分方案為: 訓(xùn)練集1—270篇、400—931篇和1 001—1 151篇;開(kāi)發(fā)集301—325篇;測(cè)試集271—300篇[6]。訓(xùn)練集用于聯(lián)合模型訓(xùn)練,開(kāi)發(fā)集用于調(diào)參,測(cè)試集用于評(píng)測(cè)。用PennMalt*http://w3.msi.vxu.se/~nivre/research/Penn2Malt.html將短語(yǔ)結(jié)構(gòu)樹(shù)轉(zhuǎn)換為依存結(jié)構(gòu)樹(shù)。使用經(jīng)過(guò)分詞標(biāo)注的《人民日?qǐng)?bào)》(1998年上半年)的數(shù)據(jù)作為具有部分標(biāo)注信息的語(yǔ)料*http://www.icl.pku.edu.,用于n-gram特征和依存子樹(shù)特征的抽取。用基于條件隨機(jī)場(chǎng)的詞性標(biāo)注模型對(duì)其進(jìn)行詞性標(biāo)注,用基于圖的依存句法分析模型對(duì)其進(jìn)行依存句法分析。
對(duì)中文分詞、詞性標(biāo)注和依存句法分析均采用準(zhǔn)確率、召回率、綜合性能指標(biāo)F1值進(jìn)行評(píng)測(cè)。對(duì)于依存句法分析,只有當(dāng)具有依存關(guān)系的兩個(gè)詞語(yǔ)均被系統(tǒng)召回,并且依存弧的方向正確時(shí),這個(gè)依存關(guān)系才被作為正確結(jié)果。遵循慣例,評(píng)測(cè)時(shí)與標(biāo)點(diǎn)符號(hào)相關(guān)的依存關(guān)系不予考慮。
根據(jù)第2節(jié)和第3節(jié)提出的方案,我們實(shí)現(xiàn)了一個(gè)基于字符的中文分詞、詞性標(biāo)注和依存句法聯(lián)合模型和3個(gè)半監(jiān)督的聯(lián)合模型。為了與單任務(wù)模型和部分任務(wù)的聯(lián)合模型對(duì)比,實(shí)現(xiàn)了兩套系統(tǒng),并把它們作為Baseline。細(xì)節(jié)如下:
? SegTagDep: 本文提出的基于字符的中文分詞、詞性標(biāo)注和依存句法分析聯(lián)合模型。
? SegTagDep+2-gram: 在SegTagDep中加入3.1節(jié)描述的2-gram特征。
? SegTagDep+ subtree: 在SegTagDep中加入3.2節(jié)描述的依存子樹(shù)特征。
? SegTagDep+2-gram+subtree: 在SegTagDep中同時(shí)加入3.1節(jié)和3.2節(jié)中描述的2-gram特征和依存子樹(shù)特征。
? CRF+MSTP: 基于條件隨機(jī)場(chǎng)的中文分詞和詞性標(biāo)注系統(tǒng),使用開(kāi)源工具CRF++*http://crfpp.sourceforge.net/,特征模板與Wang(2011)[8]一致。基于圖模型的中文依存句法分析[17],采用開(kāi)源工具M(jìn)STParser,訓(xùn)練和解碼采用二階模型。
? SegTag+MSTP: 采用Zhang(2010)[1]的中文分詞和詞性標(biāo)注聯(lián)合模型。去除特殊規(guī)則處理,以保持與本文提出的聯(lián)合模型一致。依存句法分析依然采用上面的MSTParser。
表3列出了上面6個(gè)系統(tǒng)的評(píng)測(cè)結(jié)果F1值。表中第一行為本文提出的聯(lián)合模型的性能??梢钥闯觯?lián)合模型在各項(xiàng)任務(wù)上均取得了好于基線(xiàn)系統(tǒng)的結(jié)果,其中在詞性標(biāo)注和依存分析任務(wù)上的F1值,比僅在分詞與詞性標(biāo)注任務(wù)上聯(lián)合的基線(xiàn)系統(tǒng)提升了0.68%和1.66%。我們推斷,詞性標(biāo)注性能的提升得益于句法特征的加入,使僅靠字符串特征無(wú)法消解的詞性歧義得到解決;同時(shí)依存句法分析的性能,也隨著更多正確詞性被召回獲得了提升。值得注意的是,聯(lián)合模型的分詞結(jié)果與最好的基線(xiàn)系統(tǒng)持平,我們分析主要因素是,目前系統(tǒng)的分詞精度已經(jīng)很高,分詞性能的提高受限于標(biāo)注語(yǔ)料的知識(shí)規(guī)模。我們隨后提出的半監(jiān)督模型通過(guò)使用更多的非全標(biāo)注語(yǔ)料驗(yàn)證了這一點(diǎn)。
表3各模型在中文分詞、詞性標(biāo)注和依存句法分析任務(wù)上的性能
模型中文分詞詞性標(biāo)注依存句法分析SegTagDep97.5293.9379.55SegTagDep+2?gram98.3894.6380.78SegTagDep+subtree97.7494.2580.40SegTagDep+2?gram+subtree98.3194.8481.71CRF+MSTP97.3993.0777.76SegTag+MSTP97.5193.2577.89Hatori(2012)98.2694.64———
下面觀(guān)察生語(yǔ)料特征的加入對(duì)聯(lián)合模型的影響。從表3的結(jié)果可以看出,從生語(yǔ)料中抽取的字符串層面的2-gram特征和結(jié)構(gòu)層面的依存子樹(shù)特征,都使聯(lián)合模型在各項(xiàng)任務(wù)上的性能獲得了不同程度的提高。2-gram特征的加入使聯(lián)合模型在中文分詞、詞性標(biāo)注和依存句法分析的F1值分別提高了0.86%、0.7%和1.23%。依存子樹(shù)特征的加入使聯(lián)合模型在中文分詞、詞性標(biāo)注和依存句法分析的F1值分別獲得了0.22%、0.32%和0.85%的提升。由此我們認(rèn)識(shí)到,由于聯(lián)合模型中各任務(wù)的中間結(jié)果以特征形式及時(shí)反饋給其他任務(wù),使得一個(gè)任務(wù)性能的提高會(huì)促進(jìn)其它任務(wù)性能的提高,這使得來(lái)自生語(yǔ)料的特征信息在聯(lián)合模型中獲得的增益比在單任務(wù)模型中獲得的增益更大。同時(shí)使用2-gram特征和依存子樹(shù)的聯(lián)合模型取得了在各任務(wù)上最好的性能: 中文分詞達(dá)到98.31%,詞性標(biāo)注達(dá)到94.84%,依存句法分析達(dá)到81.71%,使聯(lián)合模型在各項(xiàng)任務(wù)上分別獲得了0.79%、0.91%和2.16%的性能提升, 較單任務(wù)模型的分步處理結(jié)果分別提升了0.92%、1.77%和3.95%。
目前有關(guān)聯(lián)合模型的研究報(bào)告來(lái)自Hatori[5],為了對(duì)比,我們將其評(píng)測(cè)結(jié)果列于表3最后一行。Hatori[5]的聯(lián)合模型中加入了豐富的外部詞典特征??梢钥闯?,我們的模型在中文分詞和詞性標(biāo)注任務(wù)上的性能優(yōu)于Hatori[5]的性能。由于Hatori[5]并沒(méi)有給出在本數(shù)據(jù)集上的依存句法測(cè)試結(jié)果,所以無(wú)法與其直接進(jìn)行比較。
表4列出了前人在中文分詞與詞性標(biāo)注研究上獲得的經(jīng)典結(jié)果和本文獲得的最好結(jié)果?!癒ruengkrai09”是Kruengkrai[2]實(shí)現(xiàn)的錯(cuò)誤驅(qū)動(dòng)模型;“Zhang10”是Zhang[1]采用轉(zhuǎn)移策略實(shí)現(xiàn)的中文分詞與詞性標(biāo)注聯(lián)合模型,并在訓(xùn)練與解碼階段對(duì)英文字符和阿拉伯?dāng)?shù)字采用了特殊的規(guī)則處理;“Sun11”是Sun[18]的融合多個(gè)不同層次模型的處理方法,并且使用了詞典信息;“Wang11”是Wang[8]基于CRF實(shí)現(xiàn)的加入大規(guī)模生語(yǔ)料的半監(jiān)督模型;“Hatori12”是Hatori[5]實(shí)現(xiàn)的中文分詞、詞性標(biāo)注與基于詞語(yǔ)的依存句法分析聯(lián)合模型,并且加入了豐富的外部詞典特征;“Zhang13”是Zhang[6]實(shí)現(xiàn)的基于字符的中文分詞、詞性標(biāo)注與短語(yǔ)結(jié)構(gòu)句法分析聯(lián)合模型??梢钥闯觯疚牡哪P驮谥形姆衷~和詞性標(biāo)注上取得了最佳的結(jié)果,顯示了更大優(yōu)勢(shì)。
表4 與以往中文分詞與詞性標(biāo)注經(jīng)典研究報(bào)告結(jié)果的比較
在本文投稿之后ACL發(fā)表了同樣架構(gòu)下的中文分詞、詞性標(biāo)注和依存句法分析聯(lián)合模型,在各項(xiàng)任務(wù)上的精度為97.84%、94.33%和82.14%[19]。本文的模型在依存句法分析的精度上略低于此文,我們將提高本文聯(lián)合模型的精度作為今后工作的重點(diǎn)。
本文利用詞語(yǔ)內(nèi)部結(jié)構(gòu)信息,將基于詞語(yǔ)的依存句法樹(shù)擴(kuò)展成了基于字符的依存句法樹(shù),采用轉(zhuǎn)移策略提出并實(shí)現(xiàn)了真正意義上的基于字符的中文分詞、詞性標(biāo)注和依存句法分析聯(lián)合模型。在中文分詞與詞性標(biāo)注部分,將序列標(biāo)注思想與轉(zhuǎn)移策略相結(jié)合,設(shè)計(jì)了4詞位狀態(tài)轉(zhuǎn)移方案,使得以往中文分詞的研究成果可以便捷地移植到聯(lián)合模型中來(lái)。從大規(guī)模生語(yǔ)料中抽取字符串層次的2-gram特征和結(jié)構(gòu)層次的依存子樹(shù)特征,融入到新的聯(lián)合模型中,首次實(shí)現(xiàn)了基于字符的半監(jiān)督中文分詞、詞性標(biāo)注和依存句法分析聯(lián)合模型。實(shí)驗(yàn)結(jié)果顯示,半監(jiān)督的聯(lián)合模型在各項(xiàng)任務(wù)上的性能均優(yōu)于單任務(wù)模型和不同程度的聯(lián)合模型,在中文分詞、詞性標(biāo)注和依存句法分析方面F1值分別達(dá)到了98.31%、94.84%和81.71%,較單任務(wù)模型的分步處理結(jié)果分別提升了0.92%、1.77%和3.95%。作為今后的工作,我們一方面要進(jìn)一步提高本文聯(lián)合模型在中文依存句法分析任務(wù)上的精度,另一方面要優(yōu)化模型實(shí)現(xiàn)方案,提高速度。
致謝本文工作得到了中國(guó)科學(xué)院智能信息處理重點(diǎn)實(shí)驗(yàn)室、中國(guó)科學(xué)院計(jì)算技術(shù)研究所的部分資助。
[1] Zhang Y, Clark S. A fast decoder for joint word segmentation and POS-tagging using a single discriminative model[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2010: 843-852.
[2] Kruengkrai C, Uchimoto K, Kazama J, et al. An error-driven word-character hybrid model for joint Chinese word segmentation and POS tagging[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 1-Volume 1. Association for Computational Linguistics, 2009: 513-521.
[3] Hatori J, Matsuzaki T, Miyao Y, et al. Incremental Joint POS Tagging and Dependency Parsing in Chinese[C]//Proceedings of the IJCNLP. 2011: 1216-1224.
[4] Li Z, Zhang M, Che W, et al. Joint models for Chinese POS tagging and dependency parsing[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011: 1180-1191.
[5] Hatori J, Matsuzaki T, Miyao Y, et al. Incremental joint approach to word segmentation, pos tagging, and dependency parsing in chinese[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1. Association for Computational Linguistics, 2012: 1045-1053.
[6] Zhang M, Zhang Y, Che W, et al. Chinese parsing exploiting characters[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. 2013:125-134.
[7] Guo Z, Zhang Y, Su C, et al. Exploration of N-gram Features for the Domain Adaptation of Chinese Word Segmentation[C]//Proceedings of the NLPCC 2012.
[8] Wang Y, Jun'ichi Kazama Y T, Tsuruoka Y, et al. Improving Chinese Word Segmentation and POS Tagging with Semi-supervised Methods Using Large Auto-Analyzed Data[C]//Proceedings of the IJCNLP. 2011: 309-317.
[9] Koo T, Carreras X, Collins M. Simple semi-supervised dependency parsing[C]//Proceedings of ACL/HLT. 2008:595 603.
[10] Chen W, Kazama J, Uchimoto K, et al. Improving dependency parsing with subtrees from auto-parsed data[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 2-Volume 2. Association for Computational Linguistics, 2009: 570-579.
[11] Chen W, Kazama J, Torisawa K. Bitext dependency parsing with bilingual subtree constraints[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2010: 21-29.
[12] Zhang Y, Nivre J. Analyzing the Effect of Global Learning and Beam-Search on Transition-Based Dependency Parsing[C]//Proceedings of the COLING (Posters). 2012: 1391-1400.
[13] Collins M, Roark B. Incremental parsing with the perceptron algorithm[C]//Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2004: 111.
[14] Zhu M, Zhang Y, Chen W, et al. Fast and Accurate Shift-Reduce Constituent Parsing[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. 2013: 434-443.
[15] Li Z, Zhou G. Unified dependency parsing of Chinese morphological and syntactic structures[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Association for Computational Linguistics, 2012: 1445-1454.
[16] Zhao H, Huang C N, Li M, et al. Effective tag set selection in Chinese word segmentation via conditional random field modeling[C]//Proceedings of PACLIC. 2006, 20: 87-94.
[17] McDonald R, Crammer K, Pereira F. Online large-margin training of dependency parsers[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2005: 91-98.
[18] Sun W. A stacked sub-word model for joint Chinese word segmentation and part-of-speech tagging[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1. Association for Computational Linguistics, 2011: 1385-1394.
[19] Zhang M, Zhang Y, Che W, et al. Character-Level Chinese Dependency Parsing[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. 2014: 1326 1336.