谷晶晶,周國(guó)棟
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州,215006)
漢語冒號(hào)標(biāo)注與自動(dòng)識(shí)別方法研究
谷晶晶,周國(guó)棟
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州,215006)
隨著對(duì)篇章分析研究的逐步加深,標(biāo)點(diǎn)符號(hào)研究成為了篇章分析與消歧的一個(gè)重要切入點(diǎn)。有效識(shí)別標(biāo)點(diǎn)符號(hào)在句子中的作用,將有助于句法分析、篇章分析以及其他自然語言處理技術(shù)的發(fā)展。該文主要任務(wù)是實(shí)現(xiàn)漢語冒號(hào)的人工標(biāo)注與自動(dòng)識(shí)別,其中自動(dòng)識(shí)別采取了規(guī)則法和基于統(tǒng)計(jì)的最大熵法。基于規(guī)則的方法比較簡(jiǎn)單且易于實(shí)現(xiàn),最大熵方法把規(guī)則融入到統(tǒng)計(jì)之中,在實(shí)驗(yàn)結(jié)果中具有更好的識(shí)別效果。
漢語冒號(hào)分類;最大熵;篇章分析
近年來,標(biāo)點(diǎn)符號(hào)在篇章分析中起到的作用逐漸引起相關(guān)研究者的關(guān)注。漢語中常用的標(biāo)點(diǎn)符號(hào)有十幾種,其中逗號(hào)、冒號(hào)、分號(hào)和句號(hào)為句子的分割符號(hào)。逗號(hào)是所有標(biāo)點(diǎn)符號(hào)中的使用方法最多的,有大量學(xué)者已經(jīng)展開了逗號(hào)的相關(guān)研究工作。漢語冒號(hào)作為句子的分割符號(hào),使用方法之多僅次于逗號(hào)。如果能夠有效識(shí)別冒號(hào)在句子中的作用,將有助于句法分析、篇章分析甚至其他自然語言處理技術(shù)的發(fā)展。
Hobbs[1]認(rèn)為篇章單元可以小到句子,大到篇章本身。Mann 和Thompson的修辭結(jié)構(gòu)理論[2-3]與Hobbs模型很相似,并認(rèn)為篇章單元可以小到短語。在漢語中,樂明[4]把漢語篇章的基本單元定義為小句,形式上小句是由句號(hào)、問號(hào)、嘆號(hào)、分號(hào)、冒號(hào)等分割開的文字串。Xue等[5-6]綜合了Mann 和Thompson的修辭結(jié)構(gòu)理論,定義了冒號(hào)作為句子的定界符,即可用冒號(hào)作為基本語篇單元(EDU,Elementary Discourse Unit)的定界符。
本文將冒號(hào)作為篇章基本單元的分隔符,提出了漢語冒號(hào)的分類標(biāo)注體系,并對(duì)漢語冒號(hào)進(jìn)行人工標(biāo)注與自動(dòng)識(shí)別。依據(jù)《中華人民共和國(guó)標(biāo)準(zhǔn)標(biāo)點(diǎn)符號(hào)用法》[7]中公布的漢語冒號(hào)使用方法,以及通過對(duì)現(xiàn)實(shí)語料的統(tǒng)計(jì)與分析,制定了漢語冒號(hào)的標(biāo)注體系。該體系的冒號(hào)標(biāo)注范圍主要針對(duì)漢語中常使用的冒號(hào),數(shù)學(xué)中使用的冒號(hào)(如: 比號(hào))與機(jī)器語言中使用的冒號(hào)(如: 域名),都不在本文的考察范圍之內(nèi)。
為實(shí)現(xiàn)漢語冒號(hào)的標(biāo)注與自動(dòng)識(shí)別,本文將通過以下三點(diǎn)展開: ①提出冒號(hào)使用方法分類的標(biāo)注體系及標(biāo)注方法; ②進(jìn)行冒號(hào)分類的人工標(biāo)注; ③采 用基于規(guī)則和基于最大熵兩種方法進(jìn)行實(shí)驗(yàn),完成漢語冒號(hào)的自動(dòng)分類與識(shí)別。實(shí)驗(yàn)結(jié)果達(dá)到了預(yù)期目標(biāo),基于最大熵的方法比基于規(guī)則的方法實(shí)驗(yàn)總體正確高達(dá)6.9%。本文研究熵有助于促進(jìn)自然處理的基礎(chǔ)研究和應(yīng)用研究。
本文組織結(jié)構(gòu)如下: 第二節(jié)介紹相關(guān)工作;第三節(jié)簡(jiǎn)介語料標(biāo)注與識(shí)別;第四節(jié)提出基于上下文特征的冒號(hào)分類的方法;第五節(jié)闡述實(shí)驗(yàn)結(jié)果及分析;第六節(jié)結(jié)語。
針對(duì)標(biāo)點(diǎn)符號(hào)的研究在自然語言領(lǐng)域越來越受到關(guān)注,近年來很多學(xué)者將標(biāo)點(diǎn)符號(hào)作為中文分句相關(guān)問題研究的標(biāo)志[8-15]。比如Jin等[11]提出利用逗號(hào)對(duì)漢語長(zhǎng)句子進(jìn)行劃分。該文章主要識(shí)別逗號(hào)左右兩邊的子句是并列關(guān)系還是從屬關(guān)系。
在李幸等[12-13]的文章中介紹了關(guān)于層次化漢語長(zhǎng)句結(jié)構(gòu)分析,提出了一種針對(duì)漢語長(zhǎng)句子句法分析的分層處理方法。該方法用標(biāo)點(diǎn)符號(hào)(包括逗號(hào)、分號(hào)和冒號(hào))對(duì)長(zhǎng)句子進(jìn)行切分,然后對(duì)切分單元分別處理,得到各部分的分析子樹,最后將子樹合并,形成完整的句法分析樹。該文揭示了基于標(biāo)點(diǎn)符號(hào)的層次化漢語長(zhǎng)句結(jié)構(gòu)分析的優(yōu)越性。
Xue和Yang[14]這篇文章中,主要研究了如何識(shí)別哪些逗號(hào)等同于句子邊界的情況。并給出了逗號(hào)作為句子邊界的識(shí)別方法。該文對(duì)漢語標(biāo)點(diǎn)符號(hào)的研究引發(fā)了一個(gè)新的熱點(diǎn)。Yang和Xue[15]一文中,對(duì)逗號(hào)的使用方法進(jìn)行了更詳細(xì)的分類,共劃分了七類,其中也包含了逗號(hào)等同于句子邊界的情況。Xue等[5-6]在識(shí)別隱式關(guān)系中使用了冒號(hào)作為句子的定界符,利用冒號(hào)輔助解決篇章關(guān)系問題。
3.1 語料介紹
通過統(tǒng)計(jì)賓夕法尼亞中文樹庫(CTB 6.0)和清華中文樹庫中的冒號(hào)數(shù)量,發(fā)現(xiàn)這兩個(gè)樹庫中所包含的冒號(hào)數(shù)量都太少,不到一百個(gè)。本文工作無法在現(xiàn)有的語料基礎(chǔ)上進(jìn)行,需要另外收集語料。
本文收集的語料來自搜狗語料庫*http: //www.sogou.com/labs/dl/c.html,包含的主要內(nèi)容是新聞報(bào)道,之外涉及一些其他領(lǐng)域的語料,如: 古今中外的小說、人物傳記、節(jié)目訪談、法律文獻(xiàn)以及廣告等。本文將這些混雜在一起的語料劃分為五大類: 文言文、現(xiàn)代文學(xué)、法律文獻(xiàn)、節(jié)目訪談和新聞報(bào)道。
3.2 標(biāo)注體系
本文將冒號(hào)的使用方法歸納為七類: 引用、動(dòng)賓、邊界、總分、解說、提示、 other。其中引用、動(dòng)賓和邊界又歸為話語引用類,而總分、長(zhǎng)解說和短解說又歸為解釋說明類。other分類是對(duì)冒號(hào)的一些不經(jīng)常使用的用法歸類。圖1展示了冒號(hào)分類標(biāo)準(zhǔn)。本文對(duì)漢語冒號(hào)的使用方法進(jìn)行了詳細(xì)的劃分與自動(dòng)識(shí)別,不僅可以用來切分基本篇章單元,還標(biāo)示了這些篇章單元之間的關(guān)系。
圖1 冒號(hào)分類標(biāo)準(zhǔn)
引用(Nm): 該類冒號(hào)用在是指人物或人物代指與該人的話語之間。文中以P1 P2 P3…標(biāo)示冒號(hào)。如下列例句中的冒號(hào)p1。冒號(hào)p1前的詞為“秦牧”,是一個(gè)人物專名。冒號(hào)p1前的名詞還可以是某個(gè)職業(yè)群的代表,如“記者”;也可以是擬人化的主語,如一些擬人化的動(dòng)物或植物名。該類冒號(hào),通常出現(xiàn)在側(cè)重對(duì)話內(nèi)容的對(duì)話記錄中,不關(guān)注對(duì)話人的語氣、表情、動(dòng)作等,如訪談?dòng)涗?、主持人手稿等。本文?duì)該類冒號(hào)設(shè)置的標(biāo)注標(biāo)簽為Nm。
例1 秦牧: p1要學(xué)好語文,必須注意多讀、多寫、多思索。
動(dòng)賓(VP): 動(dòng)賓關(guān)系類是指該類冒號(hào)分割開了謂語動(dòng)詞與賓語。常用的謂語動(dòng)詞有: 問、答、說、曰、云、想、是、證明、宣布、例如、如下等。這類謂語的主語通常是人物主語或擬人化的主語,冒號(hào)后的句子通常是人物話語引用。如下面例句中的冒號(hào)p2,就是在句中起到了動(dòng)賓作用。該類冒號(hào)的標(biāo)注標(biāo)簽為VP。
例2 克萊因說: p2 “普遍的觀點(diǎn)是人以群分,人們總喜歡和自己相似的人,所以有理論提出多樣化不利于團(tuán)結(jié)?!?/p>
邊界(SB): 邊界是指句子邊界(Sentence Boundary),標(biāo)注標(biāo)簽為SB。這一類冒號(hào)被定義為句子邊界,是由于冒號(hào)前后的句子都是一個(gè)完整的IP結(jié)構(gòu),可獨(dú)立存在。冒號(hào)后的句子一般是對(duì)冒號(hào)前句中主語的話語引用,由左右雙引號(hào)界定。該類冒號(hào)所在的句子不但關(guān)注了對(duì)話人的對(duì)話內(nèi)容,還包含很多人物的語氣、表情或動(dòng)作的描寫,使人物刻畫更生動(dòng),多出現(xiàn)在文學(xué)作品中。在例3中的冒號(hào)p3,冒號(hào)后的句子是對(duì)冒號(hào)前句中主語“鳳姐”的話語引用。
例3 鳳姐連忙告訴小丫頭傳飯: p3 “我和太太都跟著老太太吃?!?/p>
總分(ZF): 總分類,顧名思義,冒號(hào)前的句子是總說,冒號(hào)后面的句子是對(duì)前面句子的具體分說。以本文中一個(gè)句子為例,即例4,由例句4可以看出,冒號(hào)p4前的句子是總說“冒號(hào)”的使用方法可分為七類,冒號(hào)p4后的句子是對(duì)“冒號(hào)”的使用方法具體有哪七類進(jìn)行詳細(xì)分說。
例4 本文將冒號(hào)的使用方法歸納為七類: p4 引用、動(dòng)賓、邊界、總分、短解說、提示、Other。
解說(LJ): 該類是指冒號(hào)后面的句子是對(duì)冒號(hào)前面的詞語進(jìn)行解釋說明。這類冒號(hào)后的句子是對(duì)冒號(hào)前的某個(gè)詞或短語的解說。下面的例句5中的冒號(hào)p5就屬于解說類冒號(hào),冒號(hào)p5后面的句子是對(duì)“對(duì)比試驗(yàn)”的詳細(xì)解說。
例5 有人曾做過對(duì)比實(shí)驗(yàn): p5兩個(gè)病情相近,年齡和體重相差無幾的手術(shù)患者,每天食用一只海參的患者,會(huì)比另一個(gè)患者提前20天左右全面康復(fù)。
提示(SJ): 該類是生活中常用的、位于具有提示性短語后的冒號(hào)。該類冒號(hào)是從解說類中分離出來的一類,冒號(hào)后的內(nèi)容也是對(duì)冒號(hào)前詞或短語的解說,該類冒號(hào)前通常只有一個(gè)詞或短語。這些詞或短語通常是: 電話、郵編、地址、姓名、年齡等。如下面的例句6,冒號(hào)p6就屬于提示類冒號(hào)。該類標(biāo)注標(biāo)簽為SJ。
例6 電話: p6 8888888
other: 本文設(shè)置的other分類,是為了將一些出現(xiàn)頻率較低的冒號(hào)使用方法類統(tǒng)歸為一類。這些冒號(hào)有: 分總類冒號(hào),呼吁類冒號(hào),作者與作品之間的冒號(hào),如“朱自清: 《背影》”。
3.3 標(biāo)注方法
人工標(biāo)注冒號(hào)分類是指人為的在語料中對(duì)冒號(hào)標(biāo)注分類標(biāo)簽,分類標(biāo)準(zhǔn)參照前面的第3.2小節(jié)中介紹的冒號(hào)分類標(biāo)準(zhǔn)。標(biāo)注過程中共使用了七類標(biāo)簽,是在有分詞與詞性標(biāo)注信息的文中直接標(biāo)注。標(biāo)注時(shí),標(biāo)注的標(biāo)簽與冒號(hào)之間以下劃線為間隔。標(biāo)注示例如下面的例句所示,例句7中的冒號(hào)屬于動(dòng)賓類,則標(biāo)注了“VP”標(biāo)簽,而例句8中的冒號(hào)屬于總分類,則標(biāo)注了“ZF”標(biāo)簽。
例7 寶玉_nP 看見_v 道_v : _VP "_n 妹妹_n,_,我_rN 剛才_(tái)t 說_v 的_u 不過_d 是_vC 些_qN 呆話_n,_,你_rN 也_d 不用_dN 傷心_a。_。 ”_”
例8 第四十九_(tái)m 條_qN 期貨_n 交易所_n 應(yīng)當(dāng)_vM 以_p 適當(dāng)_a 方式_n 發(fā)布_v 下列_n 信息_n : _ZF (_( 一_m)_) 即時(shí)_m 行情_n ;_; (_( 二_m)_) 持_v 倉(cāng)量_n、_、 成交量_n 排名_vN 情況_n ;_; (_( 三_m)_) 標(biāo)準(zhǔn)_n 倉(cāng)單_n 數(shù)量_n 和_c 可_vM 用_p 庫容_n 情況_n ;_; (_( 四_m)_) 交易所_n 業(yè)務(wù)_n 規(guī)則_n 規(guī)定_v 的_u 其他_rN 信息_n。_。
3.4 語料統(tǒng)計(jì)
本文收集的初始語料達(dá)437M,因標(biāo)注量太大,只抽取了一部分進(jìn)行人工標(biāo)注。共標(biāo)注了5 247個(gè)句子,6 469個(gè)冒號(hào)。標(biāo)注的語料庫,包含了多個(gè)領(lǐng)域的語料。因各領(lǐng)域語料混雜在一起,為了便于統(tǒng)計(jì)分析,本文人為地將語料劃分為五大類: 文言文、現(xiàn)代文學(xué)、法律文獻(xiàn)、節(jié)目訪談和新聞報(bào)道。據(jù)統(tǒng)計(jì),文言文中使用的冒號(hào)主要是動(dòng)賓類;現(xiàn)代文學(xué)中出現(xiàn)的冒號(hào)主要是動(dòng)賓類和邊界類;法律文獻(xiàn)中出現(xiàn)的冒號(hào)主要是總分類;節(jié)目訪談中使用的冒號(hào)主要是引用類;新聞報(bào)道中冒號(hào)使用方法主要是提示類和解說類。各領(lǐng)域語料所占的句子數(shù)量如表1所示。
表1 各領(lǐng)域語料句子數(shù)量統(tǒng)計(jì)
3.5 預(yù)處理
在對(duì)漢語冒號(hào)的人工標(biāo)注與識(shí)別之前,需要先對(duì)新收集來的語料進(jìn)行相關(guān)的預(yù)處理。預(yù)處理主要包括: 規(guī)整處理、分詞、詞性標(biāo)注和手工調(diào)整。
(1) 規(guī)整處理
對(duì)收集來的生語料,要進(jìn)行規(guī)整處理。首先去除不可識(shí)別的符號(hào)、地址鏈接等,再進(jìn)行句子分割。句子分割是指把多個(gè)句子組成的段落分割的一個(gè)句子為一個(gè)段落,并保留包含一個(gè)或多個(gè)冒號(hào)的句子。在程序分割句子的過程中,要注意標(biāo)點(diǎn)符號(hào)的匹配問題。
(2) 分詞
中文分詞是將一個(gè)漢字序列切分成詞的序列,是中文信息處理最基礎(chǔ)的技術(shù)之一。本文語料規(guī)整處理后,需對(duì)語料進(jìn)行分詞。首先從清華樹庫中提取出分詞語料,劃分訓(xùn)練語料和測(cè)試語料后,再使用CRF分類工具,訓(xùn)練出分詞模型,并利用測(cè)試語料對(duì)模型評(píng)測(cè),證實(shí)取得較高的正確率后,然后使用該模型對(duì)本文的語料進(jìn)行分詞。
(3) 詞性標(biāo)注
詞性標(biāo)注是指對(duì)于句子中的每個(gè)詞都指派一個(gè)合適的詞性,如名詞、動(dòng)詞、形容詞等。與分詞類似,實(shí)現(xiàn)詞性標(biāo)注,需先構(gòu)建詞性標(biāo)注的訓(xùn)練模型。同樣是從清華樹庫提取出詞性標(biāo)注語料,劃分訓(xùn)練語料和測(cè)試語料,使用最大熵工具,訓(xùn)練出詞性標(biāo)注模型,并用測(cè)試語料對(duì)模型評(píng)測(cè),證實(shí)取得較高的正確率后,再利用該模型對(duì)本文的語料進(jìn)行詞性標(biāo)注。本文選擇清華樹庫作為分詞和詞性標(biāo)注的環(huán)境,是由于該語料對(duì)詞性種類劃分較細(xì),有助于提高本文實(shí)驗(yàn)的正確率。
(4) 手工調(diào)整
在進(jìn)行分詞與詞性標(biāo)注的過程中,會(huì)出現(xiàn)很多不可預(yù)料的錯(cuò)誤,包括分詞錯(cuò)誤和詞性標(biāo)注錯(cuò)誤,這種現(xiàn)象在文言文中尤其多見。這些錯(cuò)誤都可能對(duì)實(shí)驗(yàn)正確率造成影響。手工調(diào)整就是對(duì)語料中出現(xiàn)的分詞錯(cuò)誤或詞性標(biāo)注錯(cuò)誤予以更正,主要調(diào)整冒號(hào)附近的詞,盡量排除影響實(shí)驗(yàn)正確率的因素。
自然語言處理中用到的研究方法,通常是規(guī)則法和統(tǒng)計(jì)法,以及二者相結(jié)合的方法。規(guī)則法是從語言學(xué)與認(rèn)知學(xué)的觀念出發(fā),適合處理自然語言中確定的一面;而統(tǒng)計(jì)法是從統(tǒng)計(jì)學(xué)和計(jì)算科學(xué)觀念為出發(fā)點(diǎn),比較適合處理不確定性的一面。確定與不確定是表示某個(gè)語言現(xiàn)象中是否存在作為充分條件的可用特征,但這是相對(duì)而言的。規(guī)則法的本質(zhì)是演繹,而統(tǒng)計(jì)法的本質(zhì)是歸納。本文就分別使用了規(guī)則法和統(tǒng)計(jì)法,其中統(tǒng)計(jì)法采用了基于最大熵模型的方法。
兩種方法都主要使用了詞法特征和位置特征。詞法特征主要是冒號(hào)前的三個(gè)詞及詞性與冒號(hào)后的兩個(gè)詞及詞性,位置特征是指冒號(hào)前句子的長(zhǎng)度,長(zhǎng)度記為L(zhǎng)。冒號(hào)前的三個(gè)詞(或稱左三詞)記為: lword_1、lword_2和lword_3,這三個(gè)詞相應(yīng)的詞性記為: lpos_1、lpos_2和lpos_3,離冒號(hào)最近的詞為lword_1。冒號(hào)右邊的兩個(gè)詞及詞性記為: rword_1、rword_2和rpos_1、rpos_2,離冒號(hào)最近的詞為rword_1。
冒號(hào)左邊選取三個(gè)詞的原因有三點(diǎn): (1) 動(dòng)賓類的謂詞通常出現(xiàn)在左詞一位置,如例句2中的“說”;(2) 人物專有名詞經(jīng)常出現(xiàn)在左詞一、左詞二或左詞三位置,如例句1中“秦牧”、例句2中的“克萊因”和例句7中的“寶玉”;(3) 總分類冒號(hào)一般都有數(shù)詞出現(xiàn),該數(shù)詞通常出現(xiàn)在左詞二或左詞三位置,等同數(shù)詞表達(dá)含義的詞“下列”和“以下”也通常出現(xiàn)在左詞二或左詞三位置,如例句4中的數(shù)字“七”和例句8中的詞“以下”。
冒號(hào)右邊選取兩個(gè)詞的原因有兩點(diǎn): (1) 左引號(hào)的位置通常出現(xiàn)在右詞一(rword_1)的位置,存在左引號(hào)可基本確定該類冒號(hào)為話語引用類,如例句2、例句3和例句7中的左引號(hào)。(2)總分類冒號(hào)右邊一般都有數(shù)詞,而該數(shù)詞通常出現(xiàn)在右詞一(rword_1)或右詞二(lword_2)的位置。
4.1 基于規(guī)則的冒號(hào)分類方法
基于規(guī)則的自動(dòng)提取方法,主要通過對(duì)詞性和長(zhǎng)度的分析,判斷冒號(hào)所屬的分類。主要規(guī)則如下:
(1) lpos_1是否為“v”或“vC”,是則標(biāo)記動(dòng)賓類,否則下一步。
(2) 若L長(zhǎng)度小于2,且lpos_1或lpos_2必有一個(gè)為“nP”或“b”,余下的詞為名詞,則該冒號(hào)為引用類,否則下一步。
(3) 若rpos_1為左引號(hào),則標(biāo)記邊界類,否則下一步。
(4) lpos_2或lpos_3是否“m”,是則標(biāo)記總分類,否則下一步。
(5) rpos_1或rpos_2是否為“m”,是則標(biāo)記總分類,否則下一步。
(6) 若L小于3,且lpos_1為“n”,則標(biāo)記提示類,否則下一步。
(7) 若L大于2,且lpos_1為“n”,則標(biāo)記解說類,否則下一步。
(8) 余下都?xì)w為other類。
4.2 基于上下文特征的冒號(hào)分類方法
本文的第二種方法是基于最大熵[16]的自動(dòng)分類。該方法通過提取上下文特征,訓(xùn)練最大熵模型,實(shí)現(xiàn)冒號(hào)的自動(dòng)分類與識(shí)別。選取冒號(hào)前的三個(gè)詞時(shí),是從冒號(hào)位置開始向左尋找,依次得到word_1、lword_2和lword_3。但這三個(gè)詞不能是圓括號(hào)及圓括號(hào)內(nèi)的詞,遇到右圓括號(hào)的時(shí)候,要跳過圓括號(hào)及圓括號(hào)內(nèi)的內(nèi)容,到左圓括號(hào)的左邊繼續(xù)尋找左詞,直到句首或前一個(gè)冒號(hào),則尋找結(jié)束。計(jì)算冒號(hào)前句子長(zhǎng)度L時(shí),也要排除圓括號(hào)及圓括號(hào)內(nèi)的詞。其他特征的選取沒有特別要求。選取的具體特征,如表2所示,表2 中同樣給出了例句8中冒號(hào)所提取的特征值。
表2 特征列表
5.1 實(shí)驗(yàn)數(shù)據(jù)
在實(shí)驗(yàn)過程中,將已標(biāo)注的語料區(qū)分為訓(xùn)練語料和測(cè)試語料。本文語料共人工標(biāo)注6 469個(gè)冒號(hào),訓(xùn)練語料含有5 756個(gè)冒號(hào),測(cè)試語料中含有713個(gè)冒號(hào)。測(cè)試語料中,SB類冒號(hào)共有40個(gè),ZF類冒號(hào)共有64個(gè),VP類冒號(hào)共有324個(gè),Nm類冒號(hào)共有47個(gè),SJ類冒號(hào)共有105個(gè),LJ類冒號(hào)共有130個(gè),other類冒號(hào)共有4個(gè)。
5.2 實(shí)驗(yàn)結(jié)果
第四節(jié)中介紹了兩種冒號(hào)識(shí)別方法,分別是基于規(guī)則的方法和基于最大熵的方法,并將基于規(guī)則的方法系統(tǒng)作為本文的基準(zhǔn)系統(tǒng)。基于最大熵的方法,需要先對(duì)訓(xùn)練語料進(jìn)行學(xué)習(xí),再對(duì)測(cè)試語料進(jìn)行實(shí)驗(yàn)并統(tǒng)計(jì)結(jié)果;基準(zhǔn)系統(tǒng)的實(shí)驗(yàn)不需要進(jìn)行語料學(xué)習(xí),為了更好地進(jìn)行實(shí)驗(yàn)結(jié)果對(duì)比,只需在測(cè)試上直接實(shí)驗(yàn)樣式統(tǒng)計(jì)結(jié)果即可?;谧畲箪氐姆椒?,所使用的最大熵工具是由張樂編寫的Maxent工具包*http: //homepages.inf.ed.ac.uk/lzhang10/maxent_toolkit.html。實(shí)驗(yàn)結(jié)果如 表3所示。由表3可知,基準(zhǔn)系統(tǒng)的實(shí)驗(yàn)總體正確率為86.5%,基于最大熵的方法實(shí)驗(yàn)總體正確率為93.4%,基于最大熵方法明顯比基于規(guī)則方法的識(shí)別效果更好。基于規(guī)則的方法相對(duì)是比較粗糙的,基于最大熵的方法能更好地利用上下文特征,得到更優(yōu)解,使我們的實(shí)驗(yàn)得到了更高的正確率。兩種方法中的VP類都是識(shí)別效果最好的,原因在于謂詞對(duì)動(dòng)賓類的影響較大;而other類的識(shí)別是最不理想的,主要原因在于訓(xùn)練樣本太少。
表3 實(shí)驗(yàn)結(jié)果
續(xù)表
5.3 語料分析
本文為了分析語料的差異性,分別對(duì)各語料進(jìn)行了實(shí)驗(yàn)。各語料的實(shí)驗(yàn)是基于最大熵模型,實(shí)驗(yàn)結(jié)果如表4 所示。由表4可知,節(jié)目訪談?lì)惖淖R(shí)別正確率達(dá)到了100%。原因在于該語料內(nèi)基本上只存在引用類(Nm)和動(dòng)賓類(VP)兩類冒號(hào),等于是做二分類,說明了這兩類冒號(hào)很易于區(qū)分。文言文、現(xiàn)代文學(xué)以及法律文獻(xiàn)中也只含有三、四類冒號(hào),且以其中某兩類為主,識(shí)別效果也很好。新聞報(bào)道語料雖然主要是提示、解說和動(dòng)賓類的冒號(hào),但其他類的冒號(hào)也有很多,且有很多不易區(qū)分的冒號(hào),故該語料識(shí)別效果最不好。
表4 各語料實(shí)驗(yàn)結(jié)果
由3.4節(jié)的語料統(tǒng)計(jì)和5.1節(jié)的實(shí)驗(yàn)數(shù)據(jù)可知,新聞?wù)Z料在總語料中占有將近一半的比例,動(dòng)賓類冒號(hào)也在總測(cè)試語料中的冒號(hào)占到將近一半的比例。這種情況的語料分布符合現(xiàn)實(shí)生活的情況,但為了進(jìn)一步對(duì)比分析,本文又構(gòu)建了一個(gè)均衡語料用于實(shí)驗(yàn)分析。均衡語料包含了新聞報(bào)道語料400句,和其他各語料分別300句,在選取過程中控制了VP類冒號(hào)的數(shù)量,使各類冒號(hào)也相對(duì)均衡。并采用了基準(zhǔn)系統(tǒng)和最大熵模型進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示。由表5可知,在均衡語料中,最大熵模型的總體識(shí)別正確比基準(zhǔn)系統(tǒng)高8.4%。相比普通語料,最大熵的冒號(hào)識(shí)別正確率更加優(yōu)于基準(zhǔn)系統(tǒng)。均衡語料總體識(shí)別正確率低于普通語料的原因,在于VP類冒號(hào)的比例嚴(yán)重下降。
表5 均衡語料實(shí)驗(yàn)結(jié)果
5.4 錯(cuò)誤分析
利用規(guī)則自動(dòng)提取的方法,會(huì)出現(xiàn)很多不可避免的錯(cuò)分。采用最大熵的方法,也會(huì)出現(xiàn)一些和基于規(guī)則方法類似的錯(cuò)分現(xiàn)象。如下面的三個(gè)例句,這三個(gè)例句中冒號(hào)左邊都是人物專名,右邊的內(nèi)容有很大差別,但例句10和例句11中的冒號(hào)很容易被錯(cuò)分為和例句9相同的引用類。例句10和例句11中的冒號(hào)出現(xiàn)的頻率很低,所以很容易被錯(cuò)分為Nm。針對(duì)這些錯(cuò)分,目前還沒有找到很好的解決辦法。這也將成為我們下一步工作中的一個(gè)挑戰(zhàn)。
例9 陳好_nP : _Nm 挑戰(zhàn)_v 要_vM 在_p 人_n 的_u 能力_n 范圍_n 內(nèi)_f。_。
例10 王澤國(guó)_nP : _LJ 著名_a 的_u 納稅_vN 籌劃_n 操作_vN 實(shí)務(wù)_n 專家_n、_、 經(jīng)濟(jì)學(xué)_n 碩士_n、_、 中國(guó)_nS 注冊(cè)_vN 會(huì)計(jì)師_n、_、 注冊(cè)_vN 稅務(wù)師_n,_,受訓(xùn)_v 人數(shù)_n 超_v 萬_m 人_n
例11 朱自清_nP : _other 《_《 背影_n 》_》
中文信息處理已經(jīng)完成了字處理,較好地解決了詞處理,目前的研究重點(diǎn)轉(zhuǎn)向句子研究。句子內(nèi)部的標(biāo)點(diǎn)符號(hào)也成為了句子研究的一個(gè)熱點(diǎn)。本文首次提出了漢語冒號(hào)的標(biāo)注與自動(dòng)識(shí)別方法研究,定義了冒號(hào)分類的標(biāo)準(zhǔn)及標(biāo)注方法,并標(biāo)注了大量語料。我們采用了兩種方法來實(shí)現(xiàn)冒號(hào)的自動(dòng)分類與識(shí)別,分別到基于規(guī)則的方法和基于最大熵的方法。基于最大熵的方法比使用基于規(guī)則的方法的實(shí)驗(yàn)正確率高6.9%,因此也說明使用最大熵的方法能夠更好地解決冒號(hào)分類問題。在下一步工作中,我們將繼續(xù)立足于句子內(nèi)部的標(biāo)點(diǎn)符號(hào)研究。
[1] Hobbs J R Information,intention,and Structure in Discourse: A first draft[C]//Proceedings of the Burning Issus in Discourse. 1993: 41-66.
[2] Mann William C Sandra A Thompson. Rhetorical Structure Theory: [J].Toward a functional theory of text organization. 1988,8(3): 243-281.
[3] L Carlson,D Marcu,M E Okurowski. RST Discourse TreeBank[C]//Linguistic Data Consortium. 2002.
[4] 樂明. 漢語篇章修辭結(jié)構(gòu)的標(biāo)注研究[J]. 中文信息學(xué)報(bào),2008,22(4): 19-23.
[5] Nianwen Xue,Fei Xia,Fu-Dong Chiou and Martha Palmer. The Penn Chinese TreeBank: Phrase Structure Annotation of a Large Corpus[C]/Proceedings of Natural Language Engineering. 2005,11(2): 207-238.
[6] Yuping Zhou,Nianwen Xue. PDTB-style Discourse Annotation of Chinese Text[C]//Proceedings of Annual Meeting on Association for Computational Linguistics(ACL-12). 2012: 69-77.
[7] 中華人民共和國(guó)國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局、中國(guó)國(guó)家標(biāo)準(zhǔn)化管理委員會(huì). GB/T15834-2011標(biāo)點(diǎn)符號(hào)用法[M].中國(guó)標(biāo)準(zhǔn)出版社,2011.
[8] Yuqing Guo,Haifeng Wang,and Josef Van Genabith. A Linguistically Inspired Statistical Model for ChinesePunctuation Generation[C]//Proceedings of ACM Transactions on Asian Language Processing.2010,9(2).
[9] Hen-Hsen Huang and Hsin-His Chen. Chinese Discourse Relation Recognition[C]//Proceedings of the 5th International Joint Conference on Natural Language Processing 2011: 1442-1446.
[10] Vanessa Wei Feng,Graeme Hirst. Text-level Discourse with Rich Linguistic Feature[C]//Proceedings of Annual Meeting on Association for Computational Linguistics(ACL-12),2012: 60-68.
[11] Meixun Jin,Mi-Young Kim,Dong-Il Kim,and Jong-Hyeok Lee. Segmentation of Chinese Long Sentences Using Commas[C]//Proceedings of the SIGHANN Workshop on Chinese Language Processing,2004.
[12] Xing Li,Chengqing Zong,Rile Hu. A Hierarchical Parsing Approach with Punctuation Processing for Long Sentence Sentences[C]//Proceedings of the Second International Joint Conference on Natural Language Processing: Companion Volume including Posters/Demos and Tutorial Abstracts,2005.
[13] 李幸,宗成慶. 引入標(biāo)點(diǎn)處理的層次化漢語長(zhǎng)句句法分析方法[J]. 中文信息學(xué)報(bào),2006: 20(4): 8-15.
[14] Nianwen Xue,Yaqin Yang. Chinese sentence segmentation as comma classification [C]//Proceedings of Annual Meeting on Association for Computational Linguistics(ACL-11). 2011: 631-635.
[15] Yaqin Yang,Nianwen Xue. Chinese Comma Disambiguation for Discourse Analysis[C]//Proceedings of Annual Meeting on Association for Computational Linguistics(ACL-12). 2012: 786-794.
[16] Adam L.Berger,Stephen A.Della Pietra,Vincent J.Della Pietra. A Maximum Entropy Approach to Natural Language Processing[C]//Proceedings of Annual Meeting on Association for Computational Linguistics(ACL). 1996: 39-71.
A Research on Chinese Colon Annotation and Automatic Identification
GU Jingjing,ZHOU Guodong
(School of Computer Science & Technology,Soochow University,Suzhou,Jiangsu 215006,China)
With the pragress of discourse analysis,punctuation researches have become an important entry to the analysis and disambiguation of discourse. Effective identificaton of the role of a punctuation in sentences;will help the development of syntax analysis,discourse analysis and other natural language processing technologies. The main task of this paper is to annotate and identify Chinese colon automatically. We adopt rule-based method and maximum entropy method. Rule-based method is relatively simpler and easier to implement. The maximum entropy method uses these rules into statistics,and gets better results in the experiments.
Chinese colon classification;maximum entropy;discourse analysis
谷晶晶(1986—),碩士研究生,主要研究領(lǐng)域?yàn)槿徽Z言處理。E?mail:20114227022@suda.edu.cn周國(guó)棟(1967—),博士,教授,主要研究領(lǐng)域?yàn)樽匀徽Z言處理、信息抽取、統(tǒng)計(jì)機(jī)器翻譯、機(jī)器學(xué)習(xí)。E?mail:gdzhou@suda.edu.cn
2014-02-24 定稿日期: 2015-01-20
國(guó)家自然科學(xué)基金(61202162);教育部博士點(diǎn)基金(20123201120011)
1003-0077(2016)03-0016-07
TP391
A