面向多領(lǐng)域多來(lái)源文本的漢語(yǔ)依存句法樹(shù)庫(kù)構(gòu)建

2019-04-02 03:08郭麗娟李正華

中文信息學(xué)報(bào) 2019年2期

郭麗娟,彭雪,李正華,張民

(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，江蘇蘇州 215006)

0 引言

樹(shù)庫(kù)作為標(biāo)注了詞類(lèi)、句法和語(yǔ)義等各種語(yǔ)言信息的資源，一方面能為漢語(yǔ)句法學(xué)研究提供真實(shí)、準(zhǔn)確的語(yǔ)言知識(shí)；另一方面可以用于訓(xùn)練和測(cè)試句法分析器[1]。目前學(xué)術(shù)界成規(guī)模的樹(shù)庫(kù)主要包括短語(yǔ)結(jié)構(gòu)樹(shù)庫(kù)和依存樹(shù)庫(kù)兩種類(lèi)型。和短語(yǔ)結(jié)構(gòu)句法相比較，依存句法具有以下優(yōu)勢(shì)： ①更適合描述漢語(yǔ)中詞間關(guān)系錯(cuò)綜復(fù)雜的句法結(jié)構(gòu)，并且通過(guò)依存關(guān)系標(biāo)簽可以直接表達(dá)詞語(yǔ)之間的句法語(yǔ)義關(guān)系； ②形式簡(jiǎn)單，便于標(biāo)注； ③句法分析結(jié)果的存儲(chǔ)空間較小[2]。

現(xiàn)有漢語(yǔ)句法樹(shù)庫(kù)的文本主要來(lái)源于《人民日?qǐng)?bào)》、語(yǔ)文課本、政府白皮書(shū)等規(guī)范文本。然而在日益發(fā)展的互聯(lián)網(wǎng)中產(chǎn)生了大量的用戶生成數(shù)據(jù)，例如，產(chǎn)品評(píng)論、聊天記錄、問(wèn)題答案等網(wǎng)絡(luò)用語(yǔ)，極大地豐富了漢語(yǔ)文本。使用在現(xiàn)有的傳統(tǒng)樹(shù)庫(kù)上訓(xùn)練得到的句法分析器處理網(wǎng)絡(luò)文本時(shí)，其分析準(zhǔn)確率急劇下降，說(shuō)明對(duì)于數(shù)據(jù)驅(qū)動(dòng)的分析模型而言，人工標(biāo)注數(shù)據(jù)的規(guī)模、質(zhì)量很大程度上影響著分析結(jié)果的準(zhǔn)確率。這類(lèi)分析模型表現(xiàn)出明顯的領(lǐng)域相關(guān)性，在移植到新領(lǐng)域時(shí)，性能會(huì)急劇下降[3]。

為了解決這類(lèi)問(wèn)題，一方面，學(xué)術(shù)界有很多學(xué)者通過(guò)研究樹(shù)庫(kù)轉(zhuǎn)換[4-5]、樹(shù)庫(kù)融合[6-7]等方法來(lái)提高句法分析性能，并改善領(lǐng)域移植效果，然而，受到樹(shù)庫(kù)類(lèi)型和規(guī)模的限制，漢語(yǔ)方面還未有比較深入的研究[8]；另一方面，便是構(gòu)建大規(guī)模樹(shù)庫(kù)以解決此問(wèn)題。目前在英文網(wǎng)絡(luò)文本上的樹(shù)庫(kù)構(gòu)建工作已經(jīng)逐步展開(kāi)。2012年谷歌組織面向郵件、博客、問(wèn)題答案、新聞組、評(píng)論五個(gè)來(lái)源的英文網(wǎng)絡(luò)文本，標(biāo)注了小規(guī)模評(píng)測(cè)數(shù)據(jù)，命名為Google English Web Treebank[3]。漢語(yǔ)方面，邱立坤等[8]構(gòu)建了包括新聞、醫(yī)藥、口語(yǔ)、專(zhuān)利、微博五個(gè)領(lǐng)域的漢語(yǔ)依存樹(shù)庫(kù)。但與英文相比，面向漢語(yǔ)網(wǎng)絡(luò)文本的依存句法樹(shù)庫(kù)構(gòu)建進(jìn)展仍相對(duì)緩慢。

基于以上的討論，我們?yōu)榱颂岣邼h語(yǔ)網(wǎng)絡(luò)文本的依存句法分析性能，亟需對(duì)不同類(lèi)型的網(wǎng)絡(luò)文本分別標(biāo)注一定規(guī)模的語(yǔ)料，為后續(xù)的研究工作提供支持。基于對(duì)漢語(yǔ)依存樹(shù)庫(kù)構(gòu)建技術(shù)比較深入的研究，我們研制了一個(gè)新的數(shù)據(jù)標(biāo)注規(guī)范作為指導(dǎo)，在基于瀏覽器的在線標(biāo)注系統(tǒng)中，對(duì)于多領(lǐng)域多來(lái)源的文本進(jìn)行程序化的標(biāo)注，構(gòu)建了一個(gè)面向多領(lǐng)域多來(lái)源文本的漢語(yǔ)依存句法樹(shù)庫(kù)。

1 相關(guān)研究工作

表1羅列了目前公開(kāi)的較大規(guī)模的漢語(yǔ)句法樹(shù)庫(kù)。Sinica漢語(yǔ)樹(shù)庫(kù)由中國(guó)臺(tái)灣中央研究院構(gòu)建，從現(xiàn)代漢語(yǔ)平衡語(yǔ)料庫(kù)中抽取句子進(jìn)行開(kāi)發(fā)并標(biāo)注[9]。賓大漢語(yǔ)樹(shù)庫(kù)(CTB)最初由美國(guó)賓夕法尼亞大學(xué)發(fā)起，目前由布蘭迪斯大學(xué)薛念文教授等維護(hù)和更新，標(biāo)注了新聞、評(píng)論、廣播、訪談等語(yǔ)料[10]。北大漢語(yǔ)樹(shù)庫(kù)(PCT)由北大中文系逐步建設(shè)[11]，標(biāo)注了語(yǔ)文課本、政府白皮書(shū)、新聞等語(yǔ)料。清華漢語(yǔ)樹(shù)庫(kù)(TCT)由清華大學(xué)周強(qiáng)教授等建設(shè)[12]，標(biāo)注了文學(xué)、學(xué)術(shù)、新聞等語(yǔ)料。哈爾濱工業(yè)大學(xué)漢語(yǔ)依存樹(shù)庫(kù)(HIT-CDT)由哈工大社會(huì)計(jì)算與信息檢索研究中心建設(shè)[13]，標(biāo)注了《人民日?qǐng)?bào)》語(yǔ)料。北大漢語(yǔ)多視圖依存樹(shù)庫(kù)(PKU-CDT)由北大計(jì)算語(yǔ)言學(xué)研究所構(gòu)建，該樹(shù)庫(kù)是以依存語(yǔ)法為核心的多視圖漢語(yǔ)樹(shù)庫(kù)標(biāo)注體系，標(biāo)注了新聞、醫(yī)藥、專(zhuān)利等語(yǔ)料[8]。

表1 目前公開(kāi)的較大規(guī)模的漢語(yǔ)句法樹(shù)庫(kù)

2 漢語(yǔ)依存句法樹(shù)庫(kù)的構(gòu)建實(shí)踐

2.1 標(biāo)注規(guī)范

我們的目標(biāo)是面向多領(lǐng)域多來(lái)源文本，不斷積累，構(gòu)建大規(guī)模的依存句法樹(shù)庫(kù)。為達(dá)到這個(gè)目標(biāo)，在制定依存關(guān)系標(biāo)簽時(shí)，我們充分借鑒HIT-CDT、PKU-CDT及通用依存樹(shù)庫(kù)(universal dependencies,UD)等樹(shù)庫(kù)構(gòu)建的結(jié)果；針對(duì)規(guī)范的新聞文本，以及網(wǎng)絡(luò)文本中的各種語(yǔ)言現(xiàn)象，例如，頻繁出現(xiàn)的諧音字、插入語(yǔ)、重復(fù)、大量表情符、標(biāo)點(diǎn)符號(hào)缺失、舊詞新意等現(xiàn)象，結(jié)合語(yǔ)言學(xué)理論，在標(biāo)注實(shí)踐中總結(jié)規(guī)律，不斷擴(kuò)展，最終制定了一個(gè)面向多領(lǐng)域多來(lái)源文本的漢語(yǔ)依存句法數(shù)據(jù)標(biāo)注規(guī)范(目前規(guī)范已有60多頁(yè))，作為整個(gè)工作的基礎(chǔ)。規(guī)范的標(biāo)簽集合如表2所示。

2.2 數(shù)據(jù)選取

我們了解到，標(biāo)注規(guī)范的制定一定程度上緩解了標(biāo)注一致性低的問(wèn)題，但依存關(guān)系標(biāo)簽的多樣性和句法的模糊性，仍會(huì)導(dǎo)致在樹(shù)庫(kù)構(gòu)建過(guò)程中不同標(biāo)注者的一致性較差，給樹(shù)庫(kù)構(gòu)建帶來(lái)困難。

構(gòu)建局部標(biāo)注樹(shù)庫(kù)對(duì)此提供了一個(gè)新的解決思路。局部標(biāo)注意味著標(biāo)注者只需要標(biāo)注句子中部分詞語(yǔ)，增強(qiáng)了標(biāo)注者的注意力，使得標(biāo)注者可以更加將精力集中在這些詞語(yǔ)中。通過(guò)這種方式，不同標(biāo)注者之間更容易得到一致的標(biāo)注結(jié)果，為了能最大程度地節(jié)省標(biāo)注時(shí)間和成本，又能盡可能得到更多的對(duì)分析器有用的信息，對(duì)模型訓(xùn)練更有幫助，我們選取待標(biāo)注數(shù)據(jù)的原則及流程如下。

1)選取句子中置信度較低的部分詞語(yǔ)進(jìn)行標(biāo)注Dozat和Manning[14]提出基于圖的神經(jīng)網(wǎng)絡(luò)雙仿射模型，使用神經(jīng)網(wǎng)絡(luò)模型計(jì)算一個(gè)句子x中每條依存弧的分?jǐn)?shù)。我們利用這個(gè)模型來(lái)得到句法樹(shù)分?jǐn)?shù)，即句法樹(shù)分?jǐn)?shù)只包括了從核心詞到依存詞的依存弧的分?jǐn)?shù)，如式(1)所示。

(1)

其中，d表示依存句法樹(shù)，w表示模型參數(shù)，Score(h→m)通過(guò)神經(jīng)網(wǎng)絡(luò)模型計(jì)算得到。

該模型使用了CRF-loss，所以每棵句法樹(shù)的概率如式(2)所示。

(2)

其中，y(x)表示句子x所有可能的句法樹(shù)。

因此，每條依存弧的邊緣概率，就是所有包含這條依存弧的句法樹(shù)的概率之和，如式(3)所示。

(3)

Li等[15]研究了句法分析任務(wù)中，基于局部標(biāo)注數(shù)據(jù)的主動(dòng)學(xué)習(xí)方法，取得了令人滿意的結(jié)果。借鑒Li等[15]的工作，我們根據(jù)每個(gè)詞語(yǔ)的最有可能的一個(gè)核心詞h0=argmaxhp(h→i|x)的邊緣概率來(lái)衡量每個(gè)單詞wi的置信度，如式(4)所示。

│x)

(4)

置信度越低說(shuō)明依存弧越不確定，所以在之后選取出句子時(shí)，選取置信度較低的α%的詞語(yǔ)進(jìn)行標(biāo)注，并將這α%的詞語(yǔ)的平均置信度作為句子置信度。

表2 依存關(guān)系標(biāo)簽集合

假設(shè)一個(gè)實(shí)際選取任務(wù)：“從一批未標(biāo)注數(shù)據(jù)池U中抽取1 000句由5～25個(gè)詞語(yǔ)構(gòu)成的句子組成待標(biāo)注數(shù)據(jù)池U3，U3中每個(gè)句子選取50%的詞語(yǔ)進(jìn)行標(biāo)注”。

我們用上面這個(gè)例子來(lái)具體闡述選取局部標(biāo)注詞語(yǔ)的流程：

① 句法分析器分析詞語(yǔ)的置信度。對(duì)于未標(biāo)注數(shù)據(jù)池U中每一個(gè)句子，使用句法分析器進(jìn)行句法分析測(cè)試，通過(guò)句法分析器分析出每個(gè)句子中各個(gè)詞語(yǔ)的置信度，這些帶有詞語(yǔ)置信度的句子組成數(shù)據(jù)池U1。

② 選取符合句子長(zhǎng)度的句子。從帶有詞語(yǔ)置信度的數(shù)據(jù)池U1中選取數(shù)據(jù)池U2，U2中每個(gè)句子由5～25個(gè)詞語(yǔ)(標(biāo)點(diǎn)不算詞語(yǔ))組成。

③ 選取一定比例的詞語(yǔ)進(jìn)行標(biāo)注。

A. 先將數(shù)據(jù)池U2中的每個(gè)句子中的詞語(yǔ)置信度從低到高地排序，取前50%(假設(shè)句子有6個(gè)詞語(yǔ)，選取前3=6×50%個(gè))的詞語(yǔ)的置信度的平均值作為整個(gè)句子的置信度，且每個(gè)句子選出的50%詞語(yǔ)即為該句的待標(biāo)注詞語(yǔ)；

B. 將U2中的句子按照句子置信度從低到高排序，選取前1 000個(gè)句子構(gòu)成待標(biāo)注數(shù)據(jù)池U3。

在選取數(shù)據(jù)時(shí)要遵循高比例優(yōu)先選取原則。即我們?cè)谶x取不同要求下的待標(biāo)注數(shù)據(jù)時(shí)，僅考慮選取句子中待標(biāo)注的詞語(yǔ)比例，比例越高越優(yōu)先選取，而與句子長(zhǎng)度無(wú)關(guān)。因?yàn)榫浞ǚ治銎鞣治龅闹眯哦仍降?，意味著該詞語(yǔ)的標(biāo)注難度越高，更需要對(duì)這類(lèi)詞語(yǔ)進(jìn)行高比例的選取并標(biāo)注。

2)舍棄相似度過(guò)高且置信度較高的句子

我們按照1)選出一批新的待標(biāo)注數(shù)據(jù)后，還要和自身數(shù)據(jù)池中其他句子，以及已標(biāo)注過(guò)的數(shù)據(jù)池中所有句子進(jìn)行相似度計(jì)算，確保將新數(shù)據(jù)中相似度較高且置信度較高的句子舍棄。這樣可以避免重復(fù)工作，以減少人力、物力，從而使標(biāo)注者集中對(duì)難度較高的句子進(jìn)行標(biāo)注，保證標(biāo)注的數(shù)據(jù)的高質(zhì)量，以及多樣性。

以計(jì)算句子a和句子b的相似度為例，具體的相似度計(jì)算方法如下：

A. 為了防止句子分詞出錯(cuò)帶來(lái)的影響，將所有句子處理成以char +bichar為單位，例如：“我是中國(guó)人 ?！碧幚沓伞拔?我是是是中中中國(guó) 國(guó) 國(guó)人人人。。 ”；

B. 將句子a中的char和bichar構(gòu)成一個(gè)集合AS，句子b中的char和bichar構(gòu)成一個(gè)集合BS；

C. 相似度計(jì)算如式(5)所示。

(5)

相似度Similarity的閾值按實(shí)際數(shù)據(jù)情況來(lái)定。

假設(shè)句子a和句子b都是待標(biāo)注句子，且兩者相似度超過(guò)設(shè)定閾值，則舍棄置信度較高的句子。

假設(shè)句子a是待標(biāo)注句子，句子b是已標(biāo)注句子，且兩者相似度超過(guò)設(shè)定閾值，則舍棄句子a。

3)加入地雷

為了更好地提高數(shù)據(jù)質(zhì)量，在按照1)和2)數(shù)據(jù)選取原則選取一批新數(shù)據(jù)后，我們會(huì)在新的數(shù)據(jù)批次中將以前標(biāo)注過(guò)的有答案的句子作為地雷混入。我們放入地雷有兩大作用：

① 自動(dòng)評(píng)價(jià)標(biāo)注者的標(biāo)注情況；

② 進(jìn)一步檢查之前的標(biāo)注結(jié)果，以便提高標(biāo)注質(zhì)量。

通過(guò)以上3個(gè)步驟順序選取出待標(biāo)注數(shù)據(jù)，放入標(biāo)注系統(tǒng)中進(jìn)行人工標(biāo)注。

2.3 標(biāo)注流程

從提高數(shù)據(jù)質(zhì)量的目標(biāo)出發(fā)，同時(shí)又能最大化減少數(shù)據(jù)標(biāo)注管理者的工作，實(shí)現(xiàn)大規(guī)模數(shù)據(jù)標(biāo)注。我們?cè)谝粋€(gè)基于瀏覽器的在線標(biāo)注系統(tǒng)中進(jìn)行程序化標(biāo)注。圖1給出了標(biāo)注系統(tǒng)的標(biāo)注界面。標(biāo)注前，所有待標(biāo)注的詞語(yǔ)都用方框標(biāo)記；當(dāng)一個(gè)方框中的詞語(yǔ)用弧和標(biāo)簽標(biāo)注出它的核心詞后，該詞語(yǔ)的方框會(huì)消失；標(biāo)注者必須標(biāo)注完所有方框中的詞語(yǔ)，才能單擊“提交”按鈕。這種標(biāo)注界面的設(shè)計(jì)主要是為了支持局部標(biāo)注(同樣也適用于完整標(biāo)注)。

圖1 標(biāo)注界面

圖2給出了一個(gè)句子的整個(gè)處理流程：

① 標(biāo)注系統(tǒng)將一個(gè)句子隨機(jī)分配給兩個(gè)標(biāo)注者標(biāo)注。標(biāo)注完成后，如果兩個(gè)標(biāo)注結(jié)果完全一致，將答案入庫(kù)，流程結(jié)束。否則進(jìn)入步驟②。

② 兩個(gè)標(biāo)注結(jié)果至少有一條弧不一致，就會(huì)觸發(fā)審核機(jī)制，系統(tǒng)會(huì)將這個(gè)句子隨機(jī)分配給一位專(zhuān)家進(jìn)行審核，確定唯一答案。進(jìn)而，標(biāo)注系統(tǒng)將審核過(guò)的答案，反饋給出錯(cuò)的標(biāo)注者進(jìn)行學(xué)習(xí)。學(xué)習(xí)過(guò)程中，如果沒(méi)有出現(xiàn)投訴，那么就將確定的答案入庫(kù)，流程結(jié)束；否則進(jìn)入步驟③。

③ 標(biāo)注人員對(duì)答案不認(rèn)可，提出投訴(若有投訴，我們鼓勵(lì)標(biāo)注者多提供投訴理由，以便實(shí)現(xiàn)異步溝通，提高數(shù)據(jù)質(zhì)量)。系統(tǒng)會(huì)將投訴句子隨機(jī)分配給一位權(quán)威專(zhuān)家，確定唯一答案并入庫(kù)，流程結(jié)束。

圖2 標(biāo)注流程圖

3 標(biāo)注進(jìn)展與數(shù)據(jù)分析

基于以上的樹(shù)庫(kù)構(gòu)建實(shí)踐工作，我們目前標(biāo)注了各1萬(wàn)句左右的三個(gè)不同領(lǐng)域的依存句法樹(shù)庫(kù)，具體數(shù)據(jù)來(lái)源如表3所示。哈工大CDT分為cdt_v1和cdt_v2兩批數(shù)據(jù)批次；淘寶頭條分為content_v1和content_v2兩批數(shù)據(jù)批次；PCTB7數(shù)據(jù)為一個(gè)數(shù)據(jù)批次pctb7。對(duì)于這些數(shù)據(jù)，我們按標(biāo)注時(shí)間先后順序(cdt_v1，content_v1，content_v2，cdt_v2，pctb7)分批次放入系統(tǒng)中標(biāo)注，分批標(biāo)注的數(shù)據(jù)詳細(xì)信息如表4所示。

表3 數(shù)據(jù)來(lái)源說(shuō)明表

表4 數(shù)據(jù)批次信息說(shuō)明表

標(biāo)注系統(tǒng)會(huì)將一個(gè)句子隨機(jī)分配給兩個(gè)標(biāo)注者標(biāo)注，所以，我們從以下幾個(gè)方面對(duì)每個(gè)數(shù)據(jù)批次進(jìn)行分析： ①所有標(biāo)注者標(biāo)注的依存弧平均準(zhǔn)確率、一致性及句子一致性； ②單個(gè)標(biāo)注者標(biāo)注依存弧的準(zhǔn)確率； ③樹(shù)庫(kù)標(biāo)簽的分布情況。

其中對(duì)于準(zhǔn)確率和一致性的計(jì)算方法如下：

A. 依存弧的準(zhǔn)確率：假設(shè)一個(gè)句子有5條依存弧需要標(biāo)注，某個(gè)標(biāo)注者提交的答案中有3條依存弧與最終系統(tǒng)給出的答案相同，則準(zhǔn)確率=3/5；

B. 依存弧的一致性：假設(shè)一個(gè)句子有5條依存弧需要標(biāo)注，隨機(jī)分配給a和b兩個(gè)人標(biāo)注，兩人最終提交的答案(不受他人影響)中一致的依存弧為2條，則一致性=2/5；

C. 句子一致性：假設(shè)一個(gè)數(shù)據(jù)批次有10個(gè)句子，其中有1個(gè)句子被不同的兩個(gè)標(biāo)注者標(biāo)注為完全一致，即需要標(biāo)注的這個(gè)句子中所有依存弧都一致，則句子一致性=1/10。

在計(jì)算每個(gè)數(shù)據(jù)批次依存弧的準(zhǔn)確率、一致性及句子一致性時(shí)，需要注意的兩個(gè)點(diǎn)是：

① 計(jì)算依存弧準(zhǔn)確率的分母是計(jì)算依存弧一致性的分母的兩倍，因?yàn)橐粋€(gè)句子我們會(huì)分配給兩個(gè)人標(biāo)注，在計(jì)算準(zhǔn)確率時(shí)，標(biāo)注者對(duì)同一個(gè)句子的不同標(biāo)注結(jié)果算作兩個(gè)不同句子；

② 對(duì)于兩個(gè)人標(biāo)注一致的依存弧，我們不考慮其正確性，只考慮兩人對(duì)于一條依存弧的標(biāo)注理解是否一致。

3.1 整體準(zhǔn)確率、一致性分析

對(duì)于每個(gè)數(shù)據(jù)批次中所有標(biāo)注者標(biāo)注的依存弧，對(duì)平均準(zhǔn)確率、一致性及句子一致性進(jìn)行了統(tǒng)計(jì)分析，如圖3所示。結(jié)合圖3和表4，可以得到以下信息。

圖3 各批次整體評(píng)價(jià)指標(biāo)

(1) 隨著標(biāo)注工作的推進(jìn)，標(biāo)注者的標(biāo)注水平在逐步上升，整體準(zhǔn)確率、一致性及句子一致性都有所提高；整體依存弧準(zhǔn)確率都在83%以上，一致性都在70%以上。說(shuō)明我們?yōu)闃?biāo)注工作制定的規(guī)范具有一定的科學(xué)性、系統(tǒng)性及完整性，可以充分指導(dǎo)標(biāo)注者標(biāo)注。

(2) 單從某個(gè)數(shù)據(jù)批次來(lái)看，有以下兩點(diǎn)。

① content_v2中依存弧準(zhǔn)確率和一致性都相對(duì)較低。原因是：一方面，和前面兩批數(shù)據(jù)相比，content_v2的句子長(zhǎng)度更長(zhǎng)，且都是對(duì)一定比例置信度較低的詞語(yǔ)進(jìn)行人工標(biāo)注，一定程度上導(dǎo)致準(zhǔn)確率和一致性相對(duì)較低；另一方面，和后面兩批數(shù)據(jù)相比，content_v2的句子長(zhǎng)度較短，但其準(zhǔn)確率、一致性卻依舊較低，充分說(shuō)明了網(wǎng)絡(luò)文本數(shù)據(jù)的標(biāo)注難度要遠(yuǎn)大于規(guī)范文本數(shù)據(jù)。另外，content_v2中句子一致性比前兩個(gè)數(shù)據(jù)批次要高，且多是長(zhǎng)度較短的句子，說(shuō)明標(biāo)注者更容易理解短句子。

② pctb7中依存弧的準(zhǔn)確率、一致性及句子一致性相比cdt_v2都有所下降。原因是：一方面，相較于cdt_v2，pctb7中的句子長(zhǎng)度增加，使得標(biāo)注難度增大；另一方面，pctb7中不僅存在需要標(biāo)注20%比例詞語(yǔ)的句子，而且存在需要標(biāo)注50%和30%比例詞語(yǔ)的句子。說(shuō)明一個(gè)句子中需要標(biāo)注的詞語(yǔ)(且這些都是模型分析出置信度較低的詞語(yǔ))增多也會(huì)增加標(biāo)注難度。因此，在之后的數(shù)據(jù)選取中，盡量不選過(guò)長(zhǎng)的句子，且一個(gè)句子中按比例選取的需要標(biāo)注的詞語(yǔ)個(gè)數(shù)不得超過(guò)某個(gè)設(shè)定的參數(shù)，超出的詞語(yǔ)，我們不作為標(biāo)注任務(wù)，以防標(biāo)注難度過(guò)高，從而影響數(shù)據(jù)質(zhì)量。

另外，我們對(duì)整個(gè)樹(shù)庫(kù)中標(biāo)注不一致的標(biāo)簽進(jìn)行了統(tǒng)計(jì)，計(jì)算方法為：如果對(duì)于某條弧兩人標(biāo)注不一致，則將該弧對(duì)應(yīng)正確的標(biāo)簽數(shù)加1；假設(shè)整個(gè)數(shù)據(jù)批次中某個(gè)標(biāo)簽正確答案?jìng)€(gè)數(shù)為A，被標(biāo)為不一致的個(gè)數(shù)為B，則不一致性=B/A，發(fā)現(xiàn)標(biāo)簽不一致性較高的幾個(gè)為：dfsubj(45.14%),cmp(37.97%)，sasubj(32.65%),pobj(30.56%),coo(29.67%)。

除了以上對(duì)新樹(shù)庫(kù)數(shù)據(jù)的弧、標(biāo)簽進(jìn)行統(tǒng)計(jì)分析外，我們也將新標(biāo)注的樹(shù)庫(kù)和原樹(shù)庫(kù)進(jìn)行了比較。但由于新標(biāo)注樹(shù)庫(kù)與原樹(shù)庫(kù)是根據(jù)不同標(biāo)注規(guī)范進(jìn)行的標(biāo)注，標(biāo)簽不易于比較，所以選擇對(duì)無(wú)標(biāo)簽的弧一致性進(jìn)行統(tǒng)計(jì)分析發(fā)現(xiàn)：cdt和原樹(shù)庫(kù)CDT的無(wú)標(biāo)簽弧一致性為81.58%；pctb7和原樹(shù)庫(kù)PCTB7的無(wú)標(biāo)簽弧一致性為66.29%。

3.2 單個(gè)標(biāo)注者準(zhǔn)確率分析

由于標(biāo)注者過(guò)多，我們選取的分析對(duì)象的標(biāo)準(zhǔn)是： ①在5個(gè)數(shù)據(jù)批次中至少標(biāo)注了3個(gè)數(shù)據(jù)批次； ②標(biāo)注者在每批數(shù)據(jù)中標(biāo)注的依存弧的數(shù)目至少達(dá)到1 000條。根據(jù)以上標(biāo)準(zhǔn)，我們選取了11位標(biāo)注者并對(duì)他們標(biāo)準(zhǔn)的依存弧準(zhǔn)確率進(jìn)行了統(tǒng)計(jì)，如圖4所示。

圖4 單個(gè)標(biāo)注者準(zhǔn)確率

從圖4中我們可以得到以下信息：

① 11位標(biāo)注者隨著參與標(biāo)注工作時(shí)間的遞增，雖然有所波動(dòng)，但其依存弧準(zhǔn)確率整體呈上升趨勢(shì)。

② 通過(guò)觀察發(fā)現(xiàn)，前5位參與了所有數(shù)據(jù)批次標(biāo)注的標(biāo)注者的依存弧準(zhǔn)確率普遍較高，然而后面只參加了3批數(shù)據(jù)批次的6位標(biāo)注者標(biāo)注的依存弧準(zhǔn)確率波動(dòng)很大并且參差不齊。說(shuō)明標(biāo)注工作需要長(zhǎng)期堅(jiān)持，中途一段時(shí)間不標(biāo)注，會(huì)對(duì)規(guī)范有所遺忘，對(duì)標(biāo)注質(zhì)量有所影響。所以在選取標(biāo)注者時(shí)，應(yīng)該側(cè)重選擇可以長(zhǎng)期穩(wěn)定的標(biāo)注者，以保證標(biāo)注質(zhì)量。

③ 通過(guò)分析單個(gè)標(biāo)注者在不同數(shù)據(jù)批次中標(biāo)注的依存弧準(zhǔn)確率，檢驗(yàn)標(biāo)注者是否能以認(rèn)真的態(tài)度去勝任標(biāo)注工作。比如標(biāo)注者J，他的標(biāo)注數(shù)量很少，標(biāo)注的依存弧準(zhǔn)確率低于整體準(zhǔn)確率，并且他標(biāo)注的依存弧準(zhǔn)確率隨著時(shí)間的推移并沒(méi)有提高，反而有所下降，那么針對(duì)這樣的標(biāo)注者，我們會(huì)考慮對(duì)其重新培訓(xùn)或者辭退，以確保標(biāo)注數(shù)據(jù)的質(zhì)量。

3.3 樹(shù)庫(kù)標(biāo)簽分布情況分析

由于較多標(biāo)簽的出現(xiàn)頻率很低，所以我們對(duì)只有在一個(gè)數(shù)據(jù)批次中數(shù)量大于100個(gè)的標(biāo)簽進(jìn)行統(tǒng)計(jì)分析。在數(shù)據(jù)中都分別抽取1 000句全標(biāo)注數(shù)據(jù)及局部標(biāo)注數(shù)據(jù)(20%)，由于pctb7這批數(shù)據(jù)我們沒(méi)有進(jìn)行全標(biāo)注，所以只抽取了局部標(biāo)注(20%)數(shù)據(jù)，標(biāo)簽的分布統(tǒng)計(jì)如表5所示。

表5 樹(shù)庫(kù)標(biāo)簽分布情況表(%)

根據(jù)表4和表5分析得到以下信息：

① 無(wú)論是在全標(biāo)注還是局部標(biāo)注的數(shù)據(jù)中，用來(lái)標(biāo)注漢語(yǔ)句子中主干(subj(主語(yǔ))、obj(動(dòng)賓)、att(定語(yǔ))、adv(狀語(yǔ))、cmp(補(bǔ)語(yǔ)))關(guān)系的標(biāo)簽占比較大。說(shuō)明漢語(yǔ)句子中這些主干關(guān)系對(duì)應(yīng)的詞語(yǔ)置信度整體上都較低，體現(xiàn)了人工標(biāo)注的重要性。

② 用于標(biāo)注謂語(yǔ)的root(根節(jié)點(diǎn))、sasubj(同主語(yǔ))和dfsubj(不同主語(yǔ))這三個(gè)標(biāo)簽的占比較大，說(shuō)明謂詞關(guān)系在句子中是比較常見(jiàn)的；也能說(shuō)明從句法角度來(lái)看謂詞是句子中最重要的詞。同時(shí)我們可以發(fā)現(xiàn)： a)sasubj和dfsubj這兩個(gè)標(biāo)簽在局部標(biāo)注數(shù)據(jù)中的占比遠(yuǎn)大于在全標(biāo)注數(shù)據(jù)中的占比，說(shuō)明選取局部數(shù)據(jù)時(shí)，這兩個(gè)標(biāo)簽所對(duì)應(yīng)的詞語(yǔ)置信度普遍較低，被大量地選取并標(biāo)注； b)在content_v2的局部標(biāo)注數(shù)據(jù)中sasubj和dfsubj的占比是最大的，說(shuō)明在長(zhǎng)句子的網(wǎng)絡(luò)文本中謂語(yǔ)句更多。

③ pobj(介賓)和adjct(附加成分)這兩個(gè)標(biāo)簽的數(shù)量占比較大，原因是：對(duì)于pobj來(lái)說(shuō)，漢語(yǔ)中的動(dòng)詞和介詞理解歧義較大，所以標(biāo)注者在選擇是obj還是pobj時(shí)可能會(huì)有一些歧義；對(duì)于adjct來(lái)說(shuō)，漢語(yǔ)是一種結(jié)構(gòu)化語(yǔ)言，其中有許多只為句子結(jié)構(gòu)完整的助詞、嘆詞等無(wú)意義的詞語(yǔ)，目前我們都用adjct來(lái)進(jìn)行標(biāo)注，那么在之后的規(guī)范更新中都可以將這些著重考慮。另外，pobj在規(guī)范文本中的占比較大，而在網(wǎng)絡(luò)文本中，助詞、嘆詞等非常常見(jiàn)，所以在content_v1的全部標(biāo)注數(shù)據(jù)中adjct這個(gè)標(biāo)簽的占比是最大的。

4 結(jié)論與展望

本文介紹了目前我們?cè)诿嫦蚨囝I(lǐng)域多來(lái)源文本的漢語(yǔ)依存句法樹(shù)庫(kù)構(gòu)建方面所做的一些工作。我們基于前期研制的數(shù)據(jù)標(biāo)注規(guī)范和在線標(biāo)注系統(tǒng)，聘請(qǐng)了15位標(biāo)注者，標(biāo)注了約3萬(wàn)句的高質(zhì)量漢語(yǔ)依存句法數(shù)據(jù)。本文重點(diǎn)介紹了數(shù)據(jù)選取、標(biāo)注流程等問(wèn)題，對(duì)標(biāo)注數(shù)據(jù)的質(zhì)量及標(biāo)注過(guò)程中的一些現(xiàn)象進(jìn)行了統(tǒng)計(jì)分析。

通過(guò)這些工作，我們?cè)跐h語(yǔ)依存句法樹(shù)庫(kù)的人工標(biāo)注方面積累了一定經(jīng)驗(yàn)。首先，由于句法標(biāo)注工作的困難性，我們需要在數(shù)據(jù)以及標(biāo)注方面都進(jìn)行嚴(yán)格的流程控制，以確保標(biāo)注數(shù)據(jù)質(zhì)量；其次，通過(guò)統(tǒng)計(jì)與分析發(fā)現(xiàn)，整體數(shù)據(jù)的標(biāo)注弧一致性及句子的一致性都較低，需要審核專(zhuān)家進(jìn)行進(jìn)一步的檢查，體現(xiàn)了雙人標(biāo)注的重要性。目前我們標(biāo)注的樹(shù)庫(kù)規(guī)模還很小，未來(lái)我們?cè)诂F(xiàn)有的樹(shù)庫(kù)基礎(chǔ)上會(huì)進(jìn)一步構(gòu)建大規(guī)模的面向不同領(lǐng)域不同來(lái)源的漢語(yǔ)依存句法樹(shù)庫(kù)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡