項(xiàng)煒 金澎
摘要:句法分析性能的高低對(duì)機(jī)器翻譯、信息檢索、語(yǔ)音識(shí)別等自然語(yǔ)言處理相關(guān)應(yīng)用領(lǐng)域的發(fā)展有著很大的影響。該文基于LDC 14年的新華社語(yǔ)料,采用開(kāi)源中文句法分析器Stanford parser和Berkeley parser,在內(nèi)部分詞系統(tǒng)和外部分詞系統(tǒng)兩種策略下對(duì)句法分析的性能進(jìn)行對(duì)比分析,并就實(shí)驗(yàn)結(jié)果提出自己的分析和思考。
關(guān)鍵詞:句法分析;性能;Stanford parser;Berkeley parser
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2013)08-1984-03
1 概述
句法分析判斷輸入的單詞序列(一般為句子)的構(gòu)成是否合乎給定的語(yǔ)法,并通過(guò)構(gòu)造句法樹(shù)來(lái)確定句子的結(jié)構(gòu)以及各層次句法成分之間的關(guān)系,即確定一個(gè)句子中的哪些詞構(gòu)成一個(gè)短語(yǔ),哪些詞是動(dòng)詞的主語(yǔ)或賓語(yǔ)等問(wèn)題。隨著自然語(yǔ)言應(yīng)用的日益廣泛,特別是對(duì)文本處理需求的進(jìn)一步增加,句法分析的作用愈加突出,它在機(jī)器翻譯、信息檢索與抽取、問(wèn)答系統(tǒng)、語(yǔ)音識(shí)別等研究領(lǐng)域中都有重要的應(yīng)用價(jià)值[1]。
現(xiàn)階段,基于統(tǒng)計(jì)的方法是句法分析的主流技術(shù)。常見(jiàn)的概率句法分析模型包括概率上下文無(wú)關(guān)模型、基于歷史的句法分析模型、層次化漸進(jìn)式的句法分析模型和中心詞驅(qū)動(dòng)的句法分析模型。綜合多種模型而實(shí)現(xiàn)的句法分析器種類繁多,該文實(shí)驗(yàn)使用的是目前在開(kāi)源中文句法分析器中比較具有代表性的Stanford parser和Berkeley parser,。前者基于因子模型,后者基于非詞匯化分析模型。
英文句法分析性能已經(jīng)達(dá)到90%以上的水平,然而中文句法分析性能卻停留在80%左右,如何提高中文句法分析的性能成為了一個(gè)關(guān)鍵問(wèn)題。由于概率句法分析主要是由數(shù)據(jù)來(lái)驅(qū)動(dòng)的一項(xiàng)任務(wù),故用于訓(xùn)練分析器的樹(shù)庫(kù)規(guī)模的大小將直接決定該分析器的性能。事實(shí)上,當(dāng)前中文句法分析性能確實(shí)在很大程度上受到了訓(xùn)練數(shù)據(jù)規(guī)模小的限制,此外,分詞和詞性標(biāo)記的準(zhǔn)確率對(duì)句法分析性能的影響也是十分顯著的[2]。如果能引入一個(gè)高質(zhì)量的外部詞法分析器來(lái)輔助句法分析,將在一定程度上提高中文句法分析的性能。該文選取 LDC Chinese Gigaword Second Edition 中的14年新華社新聞?wù)Z料(共計(jì)約12, 163, 828個(gè)句子),外部分詞工具使用中科院計(jì)算技術(shù)研究所的ICTCLAS漢語(yǔ)分詞系統(tǒng)(2011版),中文句法分析器使用Stanford parser和Berkeley parser,實(shí)驗(yàn)將基于兩種句法分析器共4種分析模型下的分析結(jié)果,進(jìn)而在分析速度、準(zhǔn)確率、分詞對(duì)句法分析質(zhì)量的影響等方面進(jìn)行性能對(duì)比。另外,實(shí)驗(yàn)中得到的句法分析結(jié)果數(shù)據(jù)也將為后續(xù)相關(guān)研究提供大規(guī)模的語(yǔ)料支持。
論文內(nèi)容的安排如下:第2部分介紹Stanford parser、Berkeley parser和ICTCLAS;第3部分介紹實(shí)驗(yàn)結(jié)果與分析,第4部分是總結(jié)與未來(lái)工作展望。
2 分析器
目前支持中文的句法分析器越來(lái)越多,其中作為開(kāi)源軟件的Stanford parser和Berkeley parser受到了較為廣泛的關(guān)注和應(yīng)用,兩者都基于統(tǒng)計(jì)句法分析模型并支持多種語(yǔ)言,用來(lái)訓(xùn)練分析器中文模型的訓(xùn)練數(shù)據(jù)和句法分析樹(shù)格式都是源自賓州中文樹(shù)庫(kù)的相應(yīng)規(guī)范。
2.1 Stanford parser
Stanford parser是由斯坦福大學(xué)自然語(yǔ)言處理小組開(kāi)發(fā)的開(kāi)源句法分析器,是基于概率統(tǒng)計(jì)句法分析的一個(gè)JAVA實(shí)現(xiàn),從2002年12月的Version 1.0 到2012年11月的Version 2.0.4,共歷經(jīng)了22個(gè)版本。分析器目前提供了5個(gè)中文文法[3],與傳統(tǒng)的單一句法分析器相比,Stanford parser的設(shè)計(jì)更為合理和多樣化:
1) 既是一個(gè)高度優(yōu)化的概率上下文無(wú)關(guān)文法和詞匯化依存分析器,也是一個(gè)詞匯化上下文無(wú)關(guān)文法分析器。
2) 基于權(quán)威可靠的賓州樹(shù)庫(kù)作為分析器的訓(xùn)練數(shù)據(jù),目前已面向英文、中文、德文、阿拉伯文、意大利文、保加利亞文、葡萄牙文等語(yǔ)種提供句法分析功能。
3) 提供了多樣化的分析輸出形式,除句法分析樹(shù)輸出外,還支持分詞和詞性標(biāo)注文本輸出、短語(yǔ)結(jié)構(gòu)樹(shù)輸出、斯坦福依存關(guān)系輸出等。
4) 分析器內(nèi)置了分詞工具、詞性標(biāo)注工具、基于自定義樹(shù)庫(kù)的分析器訓(xùn)練工具等句法分析輔助程序。
5) 通過(guò)設(shè)置不同的運(yùn)行參數(shù),可實(shí)現(xiàn)句法分析模型選擇、自定義詞性標(biāo)記集、文本編碼設(shè)置和轉(zhuǎn)換、語(yǔ)法關(guān)系導(dǎo)入和導(dǎo)出等功能的定制。
2.2 Berkeley parser
Berkeley parser是由伯克利大學(xué)自然語(yǔ)言處理小組開(kāi)發(fā)的開(kāi)源句法分析器,目前支持的語(yǔ)種主要有英文、中文、德文、阿拉伯文、保加利亞文、法文等。與Stanford parser相比,Berkeley parser具有如下特點(diǎn):
1) Berkeley parser是一個(gè)純粹的基于PCFG的句法分析器。
2) 分析器的輸入形式可以文件為單位(每行一個(gè)句子),分析完成后得到的輸出文件中包含了輸入文件中所有句子的句法分析結(jié)果。
3) 默認(rèn)的分析結(jié)果輸出形式是文本,但為了讓分析結(jié)果更加直觀,可以設(shè)置程序的輸出形式為句法分析樹(shù)圖像。
4) 可指定輸出基于一個(gè)句子的排名前n的句法分析樹(shù)及每棵樹(shù)的概率值。
5) 分析器提供了用于讀取標(biāo)準(zhǔn)樹(shù)庫(kù)的代碼,可基于用戶指定的樹(shù)庫(kù)來(lái)訓(xùn)練新的文法。
6) 支持多線程分析,在多處理機(jī)系統(tǒng)上能獲得更高的句法分析性能。
7) 由于分析器不含分詞功能,所以必須先借助外部分詞工具來(lái)進(jìn)行分詞,再將經(jīng)過(guò)預(yù)處理的分詞結(jié)果串作為句法分析器的輸入。
2.3 ICTCLAS
中文詞法分析是中文信息處理的重要基礎(chǔ)。ICTCLAS是由中國(guó)科學(xué)院計(jì)算技術(shù)研究所研制的漢語(yǔ)詞法分析系統(tǒng),主要功能包括中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、新詞識(shí)別、導(dǎo)入用戶詞典等,相比其它中文分詞系統(tǒng)具有如下特點(diǎn)[4]:
1) 支持繁體中文分詞,可自動(dòng)識(shí)別GB2312、GBK、UTF8等多種編碼格式。
2) 采用多線程技術(shù),進(jìn)一步提高了分詞精度和速度。
3) 采用層疊隱馬爾可夫模型實(shí)現(xiàn)了統(tǒng)一的語(yǔ)言計(jì)算理論框架,將漢語(yǔ)詞法分析的所有環(huán)節(jié)都統(tǒng)一到了一個(gè)完整的理論框架中,獲得最好的總體效果。
4) 在國(guó)內(nèi)和國(guó)際權(quán)威的公開(kāi)評(píng)測(cè)中,其分詞速度在單機(jī)上是500KB/s,分詞精度98.45%,API不超過(guò)100kb,各種詞典數(shù)據(jù)壓縮后不到3M,被評(píng)價(jià)為當(dāng)前最好的漢語(yǔ)詞法分析器。
3 實(shí)驗(yàn)結(jié)果與分析
3.1 實(shí)驗(yàn)設(shè)計(jì)
3.1.1 語(yǔ)料預(yù)處理
考慮到LDC原始語(yǔ)料文件采用了SGML標(biāo)記規(guī)范,因此需要對(duì)168個(gè)語(yǔ)料文件進(jìn)行預(yù)處理。預(yù)處理的任務(wù)首先是刪除
3.1.2 結(jié)合外部ICTCLAS分詞系統(tǒng)的句法分析
第一步,通過(guò)API調(diào)用ICTCLAS,對(duì)經(jīng)過(guò)預(yù)處理的168個(gè)語(yǔ)料文件進(jìn)行中文分詞處理。
第二步,將分詞結(jié)果文件中的句子按照句子長(zhǎng)度(該句子的詞數(shù))進(jìn)行句長(zhǎng)區(qū)間分類,即每個(gè)文件被切割為句子長(zhǎng)度為[1,9],[10,19],[20,29],[30,39],[40,49],[50,59],[60,100]的7個(gè)文件。
第三步,通過(guò)API調(diào)用Stanford parser(PCFG model)、Stanford parser(Factored model)、Berkeley parser,分別對(duì)第二步中得到的不同句長(zhǎng)區(qū)間的文件進(jìn)行句法分析,并將上述3種分析模型的分析結(jié)果進(jìn)行合并匯總,統(tǒng)計(jì)得到句法分析的平均速度:Standford(PCFG)為1.1273秒/句,Stanford(Factored)為11.6939秒/句,Berkeley為1.8173秒/句。
第四步,在每個(gè)句長(zhǎng)區(qū)間中隨機(jī)挑選出100個(gè)句子,在賓州樹(shù)庫(kù)的規(guī)范基礎(chǔ)上,通過(guò)人工分析得出句法分析樹(shù),通過(guò)與第三步中的句法分析器分析結(jié)果進(jìn)行對(duì)比,統(tǒng)計(jì)得到句法分析的平均準(zhǔn)確率:Stanford(PCFG)為72.4%,Stanford(Factored)為74.4%,Berkeley為74%。
3.1.3 使用內(nèi)置分詞功能的句法分析
在Stanford parser和Berkeley parser中,只有Stanford parser的Factored segmenting model內(nèi)置了分詞功能?;谠撃P椭貜?fù)3.1.2中實(shí)驗(yàn)的第三步,統(tǒng)計(jì)得到實(shí)驗(yàn)結(jié)果:平均速度為12.0966秒/句,平均準(zhǔn)確率為68.9%。
3.2 實(shí)驗(yàn)分析
第一,速度分析:Stanford的三種模式中,PCFG最快,F(xiàn)actored其次,F(xiàn)actoredSegmenting最慢,其中PCFG和Factored速度差異很大,主要是因?yàn)镕actored模式要對(duì)概率上下文無(wú)關(guān)文法分析器和依存分析器進(jìn)行權(quán)衡,從中獲取一個(gè)最佳分析結(jié)果,特別是當(dāng)句子長(zhǎng)度大于40,F(xiàn)actored速度變得非常緩慢。而FactoredSegmenting與Factored的速度差異很小,這個(gè)差異主要是分詞的時(shí)間開(kāi)銷。由于Berkeley是一個(gè)純PCFG分析器,其速度與Stanford PCFG相近。
第二,準(zhǔn)確率分析:Stanford的三種模式中,綜合了兩種分析器的Factored準(zhǔn)確率最高,其次是PCFG,F(xiàn)actoredSegmenting最低。Berkeley在分析準(zhǔn)確率上與Stanford比較接近,但隨著句子長(zhǎng)度的增加,每種句法分析器的準(zhǔn)確率都呈現(xiàn)明顯下降的趨勢(shì),特別是當(dāng)句子長(zhǎng)度大于60,分析準(zhǔn)確率已經(jīng)低于43%。
第三,3.1.2和3.1.3的實(shí)驗(yàn)數(shù)據(jù)表明,采用性能更好的外部分詞工具,對(duì)于提高句法分析器的分析質(zhì)量是明顯有幫助的。
4 總結(jié)與展望
從實(shí)驗(yàn)結(jié)果來(lái)看,在開(kāi)放式語(yǔ)料環(huán)境下,Stanford parser和 Berkeley parser的整體性能都存在一定的缺陷,說(shuō)明目前中文句法分析的整體水平還有待提高。
目前基于依存分析的方法和短語(yǔ)結(jié)構(gòu)分析的方法仍是句法分析研究的主流方向,但如本文概述中所述,如何建設(shè)與句法分析研究密不可分的相關(guān)資源庫(kù)是一個(gè)關(guān)鍵因素,包括如何有效利用異構(gòu)樹(shù)庫(kù)(例如依存樹(shù)庫(kù))來(lái)幫助短語(yǔ)結(jié)構(gòu)分析系統(tǒng),以及如何幫助在再排序系統(tǒng)中高效率地利用更多的候選分析樹(shù)來(lái)提高句法分析性能。
最后,期望在本文實(shí)驗(yàn)中生成的14年新華社新聞?wù)Z料的句法分析結(jié)果數(shù)據(jù)能為后續(xù)相關(guān)研究提供大規(guī)模的語(yǔ)料支持。
參考文獻(xiàn):
[1] 何亮,戴新宇,周俊生,陳家駿.中心詞驅(qū)動(dòng)的漢語(yǔ)統(tǒng)計(jì)句法分析模型的改進(jìn)[J].中文信息學(xué)報(bào),2008,22(4):3-9.
[2] 米海濤,熊德意,劉群.中文詞法分析與句法分析融合策略研究[J].中文信息學(xué)報(bào),2008,22(2): 10-17.
[3] http://nlp.stanford.edu/software/parser-faq.shtml.
[4] http://ictclas.org/.