趙 敏,彭煒明,宋繼華,楊天心
(北京師范大學(xué) 信息科學(xué)與技術(shù)學(xué)院,北京 100875)
樹庫作為包含句法結(jié)構(gòu)信息的深加工語言資源,對語言學(xué)研究和NLP自動句法分析具有非常重要的基礎(chǔ)作用,其標(biāo)注規(guī)模和標(biāo)注質(zhì)量直接影響句法分析的效果。
近年來,國內(nèi)外許多研究機(jī)構(gòu)十分重視漢語樹庫資源的建設(shè),相繼構(gòu)建出若干大規(guī)模的漢語樹庫,影響較大的有賓州中文樹庫[1]、Sinica樹庫[2]、清華樹庫[3]、國家語委樹庫[4]、北大中文系樹庫[5]和哈工大樹庫[6]等。目前主流樹庫所依據(jù)的語法理論主要局限于短語結(jié)構(gòu)語法和依存結(jié)構(gòu)語法兩大體系之內(nèi)。何靜[7]等人依據(jù)黎錦熙先生的“句本位”語法,嘗試構(gòu)建了一個小規(guī)模的基于句式結(jié)構(gòu)的語法樹庫。
大規(guī)模樹庫的構(gòu)建完全采用人工標(biāo)注是不現(xiàn)實的,人機(jī)結(jié)合的模式不僅能夠發(fā)揮機(jī)器的效率優(yōu)勢,而且通過人工干預(yù)和校對也可以保證樹庫的質(zhì)量,因此樹庫的構(gòu)建通常采用人機(jī)結(jié)合的模式[3,8],這就需要一套切實有效的標(biāo)注工具。工具設(shè)計的好壞,對語料標(biāo)注的效率以及標(biāo)注結(jié)果的一致性均有非常重要的影響??梢哉f,標(biāo)注工具在一定程度上決定了整個樹庫工程的成敗。
本文在分析現(xiàn)有圖解標(biāo)注工具優(yōu)缺點的基礎(chǔ)上,針對其標(biāo)注模式和體系設(shè)計上的不足,重新設(shè)計并實現(xiàn)了一個更加高效的圖解標(biāo)注工具。
目前,自然語言處理領(lǐng)域還沒有面向英文的圖解標(biāo)注系統(tǒng),中文方面也只有楊天心等人開發(fā)的圖解標(biāo)注系統(tǒng)[9]。該系統(tǒng)參考了黎氏圖解法的析句思路,句法體系設(shè)計則依據(jù)經(jīng)過改造的基于句式結(jié)構(gòu)的圖解析句法[10],即首先將句子成分劃分為8種: 主語、謂語、賓語作為3種主干成分,位于長橫線的上方;定語、狀語、補(bǔ)語作為附加成分,位于長橫線的下方;呼語和插入語作為不影響句式結(jié)構(gòu)的獨立成分以虛線連綴于主干之上,其圖解總公式如圖1 所示。
圖1 標(biāo)注圖解總公式
現(xiàn)有圖解系統(tǒng)以一種簡潔明了的方式展現(xiàn)了句子的整體結(jié)構(gòu),描繪出各個句子成分及其相互間的句法關(guān)系。在句法層次上強(qiáng)調(diào)“句式結(jié)構(gòu)”,能夠分析連動句、兼語句等復(fù)雜句式。所謂句式結(jié)構(gòu),是指對于特定句式的樹庫結(jié)構(gòu),其句子成分和中心詞節(jié)點“具有相對穩(wěn)定的結(jié)構(gòu)層次和位置順序”[10]。引入“句式結(jié)構(gòu)”的思想,系統(tǒng)地歸納和總結(jié)出了漢語的基本句式和擴(kuò)展變換句式。
該系統(tǒng)還保留了黎氏語法中“句法控制詞法,依句辨品”的詞類觀,特定成分與詞類存在對應(yīng)關(guān)系,簡化了詞類標(biāo)注的工作量。即實行“主、賓—名、代”、“謂語—動、形”的缺省對應(yīng),將謂詞的“指稱化”和體詞的“陳述化”過程統(tǒng)一轉(zhuǎn)化為一種“句法實現(xiàn)”[11]。
該系統(tǒng)在標(biāo)注過程采用圖解切分的操作模式,通過幾次簡單的鼠標(biāo)點擊,即可完成對全句結(jié)構(gòu)的句法分析。這種簡單直觀的操作模式從根本上保證了樹庫構(gòu)建的效率。
現(xiàn)有系統(tǒng)盡管優(yōu)勢明顯,但在以下3個方面仍有改進(jìn)的空間。
(1) 采用圖解樣式來區(qū)分一部分詞類,表現(xiàn)在圖解總公式中,定語、狀語和補(bǔ)語3種成分可以有多種圖解樣式,從而使得圖解操作變得復(fù)雜,且不利于句式的歸納提取。
(2) 未對漢語“臨時造詞”等詞法現(xiàn)象進(jìn)行相應(yīng)的形式化設(shè)計,僅僅采用“加杠”方式連接,在XML中生成單一節(jié)點,此舉增加了后續(xù)信息提取的難度。
(3) 圖解總公式糅合了多種樣式的定、狀、補(bǔ)以及連動、兼語等句式成分,直觀上看顯得十分繁雜,對標(biāo)注人員把握具體句式的圖解樣式造成了一定的干擾。
針對以上不足,我們對圖解系統(tǒng)進(jìn)行了體系改進(jìn),結(jié)合現(xiàn)代漢語教學(xué)語法的發(fā)展,重新設(shè)計了樹庫建設(shè)的標(biāo)注體系和圖解樣式的編解碼規(guī)范。鑒于樹庫體系結(jié)構(gòu)和析句規(guī)范的制定是一個相當(dāng)復(fù)雜的工程,涉及漢語句法系統(tǒng)的方方面面,而限于篇幅,我們將另文闡述,此處只給出一個示例圖解樣式及其XML數(shù)據(jù)結(jié)構(gòu)的最終結(jié)果,如圖2所示。
其中元素(Element)和屬性(Attribute)所表示意義說明如下。
元素標(biāo)記: ju(整句),xj(小句),sbj(主語),prd(謂語),obj(賓語),att(定語),uu(助詞成分),a(形容詞),u(助詞),n(名詞),v(動詞),w(標(biāo)點)。
屬性與取值: xj包含ptt(句式結(jié)構(gòu))屬性,取值SVO代表基本句式;prd包含scp(轄域)屬性,取值VO代表動賓結(jié)構(gòu);uu包含fun(助詞成分)屬性,取值UD代表結(jié)構(gòu)助詞“的”;a、u、n、v包含sen(義項)屬性,取值代表各自的義項編碼。
改進(jìn)后的新版系統(tǒng)與現(xiàn)有系統(tǒng)的主要區(qū)別表現(xiàn)在以下3個方面。
(1) 句法標(biāo)注和詞類標(biāo)注的分離。詞類標(biāo)注不再受句法成分的限制,即不通過圖解樣式來區(qū)分詞類。詞類標(biāo)注能夠完全兼容目前主流的詞類體系,在此基礎(chǔ)上增加了詞語義項標(biāo)注的功能。
(2) 同一成分的圖解樣式不因成分內(nèi)部的詞類不同而產(chǎn)生異樣,從而使得整句的圖解樣式進(jìn)一步簡化,句式系統(tǒng)更加凝練。
(3) 句式系統(tǒng)設(shè)計的邏輯性增強(qiáng),按照“基本句式→擴(kuò)展句式→復(fù)雜句式”的順序依次展開:基本句式是僅包含主語、謂語和賓語三個主干成分的最基本句子結(jié)構(gòu);擴(kuò)展句式是指在維持“主—謂—賓”主干格局的前提下又加入定語、狀語、補(bǔ)語等附加成分的句子結(jié)構(gòu);而復(fù)雜句式指打破單謂語核心主干格局的復(fù)雜句子結(jié)構(gòu)。
圖2 圖解圖形與XML數(shù)據(jù)結(jié)構(gòu)對應(yīng)關(guān)系
根據(jù)以上句式系統(tǒng)的設(shè)計,任何句子都可由基本句式經(jīng)過擴(kuò)展或復(fù)雜化得到。標(biāo)注模式亦遵循這種由簡單到復(fù)雜的思路,設(shè)計了一套“先 立 主 干,后分枝葉”的操作流程。這種“自頂向下,逐步求精”的流程設(shè)計符合人的認(rèn)知心理,容易被標(biāo)注人員接受和掌握;同時,借助圖形化的人機(jī)界面,幾次鼠標(biāo)點擊就能完成整句的句法切分和詞法信息標(biāo)注。這里首先給出圖解標(biāo)注工具的界面,如圖3所示。
下面以“勤勞的鐵路工人準(zhǔn)備了修建天橋的材料”一句為例說明句法圖解的標(biāo)注模式。標(biāo)注人員首先確定句子的主干格局,將各個部分的內(nèi)容切分到相應(yīng)的主干位置上,如圖4所示;然后對每一部分做內(nèi)部短語結(jié)構(gòu)的句法切分,如圖5所示。
圖4 圖解標(biāo)注模式(劃分主干格局)
圖5 圖解標(biāo)注模式(切分附加成分)
詳細(xì)的操作流程闡述如下:
(1) 新建圖解時,系統(tǒng)會默認(rèn)生成一個基本句式的圖形樣式,選中焦點成分,將待分析的句子置于基本句式的核心——謂語文本框中。
(2) 切分主語: 將光標(biāo)置于主謂待切分的文本位置,即“工人”之后,單擊基本句式中的主語切分熱區(qū),工具會把光標(biāo)位置前的文本置于到主語成分位置。
(3) 切分賓語: 將光標(biāo)置于謂賓待切分的文本位置,即“準(zhǔn)備了”之后,單擊基本句式中的賓語切分熱區(qū),工具會把光標(biāo)位置后的文本置于到賓語成分位置。
至此,句子“主—謂—賓”的基本格局已經(jīng)確立,其后對主干各部分的附加成分做進(jìn)一步的細(xì)分。
(4) 切分主語的定語和中心語: 將光標(biāo)置于主語成分中待切分的文本位置,即“勤勞的”之后,單擊擴(kuò)展句式中的定語熱區(qū),工具會把“勤勞”和結(jié)構(gòu)助詞“的”置于新添加出來的定語成分和助詞成分中。
(5) 切分賓語的定語和中心語: 切分方法同步驟(4)。
(6) 細(xì)分定語中的動賓結(jié)構(gòu): 將光標(biāo)置于定語成分中待切分的文本位置,即“修建”之后,單擊基本句式中的賓語切分熱區(qū),工具會把光標(biāo)位置后的文本置于新添加出來的賓語成分中。
通過上述示例可以看出,圖解分析過程采用二分的切分操作,通過幾次簡單的鼠標(biāo)點擊就能夠快速構(gòu)建出圖解圖形,完成句子的句法分析。
詞類和詞義項的標(biāo)注作為語料庫建設(shè)的關(guān)鍵環(huán)節(jié),對后續(xù)的信息提取、語義研究等具有十分重要的作用。本系統(tǒng)采用《現(xiàn)代漢語詞典》作為底層知識庫,輔助標(biāo)注人員進(jìn)行詞單位的判斷和詞類、義項等屬性的標(biāo)注,實現(xiàn)了詞法結(jié)構(gòu)的標(biāo)注功能,如圖6所示,標(biāo)注結(jié)果的詞類和義項信息顯示在詞語文本框的下方。
圖6 圖解標(biāo)注模式(詞法分析標(biāo)注)
3.2.1 基本詞法標(biāo)注
詞法標(biāo)注流程主要根據(jù)“義項標(biāo)注區(qū)”中展示的詞匯信息進(jìn)行。詞匯信息來自經(jīng)過義項切分處理并存儲于后臺數(shù)據(jù)庫的《現(xiàn)代漢語詞典》義項知識庫?!冬F(xiàn)代漢語詞典》中詞語的釋義分為單字條目和多字條目,不同條目下再細(xì)分義項。我們從義項角度出發(fā),為每一個義項標(biāo)識了用3位數(shù)字來表示的義項編碼(第一位為同形碼,從0開始編號,后兩位為同一條目下的義項編號,從01開始編號),并在該義項上附加了詞類、用例、拼音等相關(guān)信息。
詞法標(biāo)注十分靈活,既可以在句法標(biāo)注的過程中同時進(jìn)行,也可以在句法標(biāo)注完成后單獨進(jìn)行。在詞語文本框中,將光標(biāo)置于詞語文本內(nèi)部或邊界處,義項標(biāo)注區(qū)就會自動顯示該詞在詞典中的所有義項,點擊合適的義項即可完成標(biāo)注。此時,選中的詞類和義項碼顯示在詞語下方,右側(cè)被選義項則由黑邊框突出顯示。
3.2.2 命名實體的標(biāo)注
命名實體主要是指: 從造句單位的角度出發(fā),如果連續(xù)幾個詞匯可以整合為一個整體概念,則將其作為一個造句單位,不再進(jìn)行圖解切分,只做內(nèi)部的“詞法分析”。例如,圖6中“鐵路工人”由“鐵路”和“工人”兩個詞匯組成,若認(rèn)為其整體概念化,則只用空格分隔,再對兩個基本詞匯項分別進(jìn)行詞法信息標(biāo)注。
3.2.3 特殊詞類的標(biāo)注
圖解系統(tǒng)中,介詞、連詞、助詞、語氣詞和方位詞這5種詞類對句法分析有一定影響,處理方式也與其他詞類存在較大的差異,相應(yīng)地,在其詞類熱區(qū)處也以特殊顏色突顯。詞法標(biāo)注中分為兩種情況: 其一,介詞、連詞、前置助詞和語氣詞需要單獨切出來做一個虛詞成分。如圖7所示,具體的操作過程為: 將光標(biāo)置于待切分的位置,按“Ctrl”鍵并點擊相應(yīng)詞類熱區(qū),工具會把字符文本置于新添加的虛詞成分中。圖解圖形中,每種切分出的虛詞成分都在橫線下用特殊的符號標(biāo)記該成分的詞類信息和句法功能。其中,介詞標(biāo)記為“∧”,連詞標(biāo)記為“…”,助詞標(biāo)記為“△”,語氣詞標(biāo)記為“▽”,方位詞標(biāo)記為“□”*有些后附的方位詞用法類似于助詞,這種情況下也按虛詞成分處理。;其二,后置助詞、方位詞如果與中心詞緊密結(jié)合成一個整體概念,則將其作為一個造句單位,只做詞法結(jié)構(gòu)分析,否則按前一種情況處理。
圖7 圖解標(biāo)注模式(虛詞成分切分)
為了提高樹庫標(biāo)注效率,標(biāo)注工具結(jié)合統(tǒng)計與規(guī)則的方法,添加了詞法智能標(biāo)注的功能: 一是統(tǒng)計詞類和義項的頻次信息,輔助標(biāo)注人員參考判斷;一是借鑒句本位“依句辨品”的思想,在詞類辨析中進(jìn)行基于規(guī)則的判斷。程序會實時統(tǒng)計經(jīng)審核標(biāo)注結(jié)果的義項分布信息,并以陰影條的方式顯示該義項在同形詞所有義項中所占的百分比,如圖6所示。詞法標(biāo)注過程中,若待標(biāo)注詞為單義詞或者其多義項中有某一常用義項的分布比率占絕對優(yōu)勢(系統(tǒng)所設(shè)閾值為80%)時,程序會將該單義項或常用義項作為默認(rèn)義項自動標(biāo)注。如果待標(biāo)注詞在虛詞成分中,且在該虛詞詞性下義項唯一,程序也會將該義項自動標(biāo)注。當(dāng)然,標(biāo)注人員也可對多義項詞的自動標(biāo)注結(jié)果進(jìn)行修改。
基于句式結(jié)構(gòu)的圖解標(biāo)注模式從總體上保證了樹庫標(biāo)注的效率,而增加便捷的輔助功能以優(yōu)化人機(jī)界面,既能方便標(biāo)注人員操作,提高樹庫標(biāo)注效率,也可對樹庫構(gòu)建的一致性起到特定的促進(jìn)作用。本系統(tǒng)在圖解標(biāo)注基本功能的基礎(chǔ)上,設(shè)計實現(xiàn)了一系列輔助樹庫建設(shè)的外圍功能,比如成分的拖拽刪除與交換、復(fù)制/粘貼、撤銷/重復(fù)等。
圖解標(biāo)注過程中,拖拽是一種方便快捷的修改和調(diào)整圖形的操作方式。系統(tǒng)對圖解圖形的編解碼是根據(jù)最終的圖解樣式來進(jìn)行轉(zhuǎn)換的,而與中間的操作過程沒有關(guān)系。所以通過成分控件的拖拽可實現(xiàn)成分的快速刪除、順序調(diào)整,有效提高圖解標(biāo)注的效率。如圖8所示,“鐵路”作為錯誤添加出的定語,操作上僅需將定語成分拖出圖形邊界即可刪除定語。成分刪除后其中文本“鐵路”能回到它所依附的中心語成分,無需標(biāo)注人員重新添加。
圖8 成分刪除示例
為了在不調(diào)整整體句式的情況下,快速修改圖形中的局部錯誤,系統(tǒng)針對NP、VP和小句3類句法單位,實現(xiàn)了復(fù)制與粘貼的功能。NP是由主語或賓語成分及其所帶的定語、虛詞等附加成分組成,VP是由謂語成分及其所帶的賓語和狀語、補(bǔ)語等附加成分組成。具體操作時,先把待復(fù)制的成分選為焦點成分,按“Ctrl+Shift+C”完成復(fù)制操作,接著選中待替換的焦點成分,按“Ctrl+Shift+V”完成粘貼操作??紤]到句法約束,粘貼操作只能替換相同類別的句法單位,即NP?NP、VP?VP、小句?小句,而無法進(jìn)行類似NP?VP的替換操作。
此外,考慮到標(biāo)注過程中偶爾會有一定的誤操作,為了能夠讓標(biāo)注人員在不用重新標(biāo)注的情況下就能快速地修正錯誤,系統(tǒng)設(shè)計并實現(xiàn)了圖解操作的撤銷與重復(fù)功能。標(biāo)注人員可通過按“Ctrl+Shift+Z”和“Ctrl+Shift+Y”執(zhí)行。
為了檢驗標(biāo)注工具的效果,完善相應(yīng)的語法理論,并在標(biāo)注過程中發(fā)掘更加合理高效的標(biāo)注模式和機(jī)器輔助算法,我們將標(biāo)注工具應(yīng)用于句本位語法樹庫構(gòu)建工程。樹庫構(gòu)建所采用的生語料主要來源于國際漢語教學(xué)領(lǐng)域,遴選了一部分國際漢語教材文本作為首批標(biāo)注語料。語料文本通過Web上傳入庫,上傳后按照標(biāo)點“。|?|!|: ”切句,切分后的句子作為圖解析句的標(biāo)注單位。
樹庫工程實施中,具體標(biāo)注人員主要是高校的本科生和研究生,學(xué)科背景既有語言學(xué)相關(guān)專業(yè)的,也有非語言學(xué)專業(yè)的。我們制定了相關(guān)的規(guī)范文檔用來培訓(xùn)標(biāo)注人員,使其能夠快速掌握圖解系統(tǒng)的基本操作方法和標(biāo)注規(guī)范。盡管標(biāo)注人員的語言學(xué)基礎(chǔ)不同,但經(jīng)過一兩天的培訓(xùn)學(xué)習(xí)和圖解標(biāo)注實踐,基本上都能達(dá)到相對熟練的程度,標(biāo)注正確率和速度接近平均水平。樹庫工程初始階段以人工標(biāo)注為主,在機(jī)器輔助的條件下,人均正確標(biāo)注效率能夠達(dá)到: 4 128字(238句)/每天(7h)。新版工具增加了詞語義項的標(biāo)注,義項的判斷與選擇相應(yīng)會耗費更多的時間,但其標(biāo)注效率與沒有進(jìn)行義項標(biāo)注的現(xiàn)有工具基本持平*根據(jù)文獻(xiàn)[11],其標(biāo)注效率為: 4 450字(207句)/每天(7h)。。從總體來說,新版工具具有更高的標(biāo)注效率。
相比短語結(jié)構(gòu)體系和依存結(jié)構(gòu)體系,基于圖解析句的樹庫標(biāo)注之所以能夠體現(xiàn)出相對的效率優(yōu)勢,其中原因分析如下:
短語結(jié)構(gòu)強(qiáng)調(diào)句法結(jié)構(gòu)層次,在處理某些線性組合(如“狀—狀—動”、“狀—動—賓”)的層次時,需人工進(jìn)行逐級的層次劃分,而這種層次因為受線性順序的約束是可以由工具系統(tǒng)來完成的(如本系統(tǒng)的設(shè)計)。依存結(jié)構(gòu)分析在這一點上與本系統(tǒng)是一致的,但是它也受統(tǒng)一的二元依存的影響,句法標(biāo)注過于細(xì)碎。處理復(fù)雜長句時,部分依存弧的標(biāo)注操作變得繁瑣。而本系統(tǒng)詞法標(biāo)注的設(shè)計和逐層劃分的方式使圖解分析變得更加快捷。
以目前樹庫建設(shè)的進(jìn)度來看,基于句式結(jié)構(gòu)的語法理論和與之對應(yīng)的圖解標(biāo)注工具對于樹庫構(gòu)建效率的提升是十分明顯的,所需投入的人力和物力資源也被大幅削減。接下來的工作是,在積累一定規(guī)模的語料之后,將深入研究機(jī)器自動輔助分析算法,使系統(tǒng)更具交互性和智能性,推進(jìn)大規(guī)模深層標(biāo)注句法樹庫的建設(shè)。
[1] Naiwen Xue, Fei Xia, Fu-Dong Chiou et al. The Penn Chinese TreeBank: Phrase structure annotation of a large corpus [J]. Natural language engineering, 2005, 11(2): 207-238.
[2] 陳鳳儀, 蔡碧芳, 陳克健等. 中文句結(jié)構(gòu)樹資料庫(Sinica Treebank)的構(gòu)建[J]. Computational Linguistics and Chinese Language Processing, 1999, 4(2): 87-104.
[3] 周強(qiáng). 漢語句法樹庫標(biāo)注體系[J]. 中文信息學(xué)報, 2004, 18(04): 1-8.
[4] 靳光瑾, 肖航, 富麗等. 現(xiàn)代漢語語料庫建設(shè)及深加工[J]. 語言文字應(yīng)用, 2005(02): 111-120.
[5] 詹衛(wèi)東. 大規(guī)模中文語料庫句法結(jié)構(gòu)信息標(biāo)注及定量分析[C]//第二屆現(xiàn)代漢語句法語義國際學(xué)術(shù)論壇, 臺灣: 新竹, 清華大學(xué).2009.8.22-24,
[6] Ting Liu, Jinshan Ma, Sheng Li. Building a dependency treebank for improving Chinese parser[J]. Journal of Chinese Language and Computing, 2006, 16(4): 207-224.
[7] 何靜, 彭煒明, 宋繼華. 現(xiàn)代漢語黎氏語法圖解標(biāo)注體系[C].第十四屆漢語詞匯語義學(xué)國際研討會(CLSW2013). 鄭州: 鄭州大學(xué), 2013-5-12.
[8] 趙懌怡, 關(guān)潤池. 漢語依存樹庫的構(gòu)建[C].第三屆學(xué)生計算語言學(xué)研討會論文集, 2006.
[9] 楊天心, 彭煒明, 宋繼華. 基于句式結(jié)構(gòu)的高效語法圖解標(biāo)注系統(tǒng)[J]. 中文信息學(xué)報, 已錄用.
[10] 彭煒明, 宋繼華, 王寧. 基于句式結(jié)構(gòu)的漢語圖解析句法設(shè)計[J]. 計算機(jī)工程與應(yīng)用, 2014, 50(06): 11-18.
[11] 彭煒明, 宋繼華, 俞士汶. 中文信息處理的詞法問題——以句本位語法圖解樹庫構(gòu)建為背景[C].第十四屆漢語詞匯語義學(xué)國際研討會(CLSW2013). 鄭州: 鄭州大學(xué), 2013-5-12.