郭麗娟,彭 雪,李正華,張 民
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
樹(shù)庫(kù)作為標(biāo)注了詞類(lèi)、句法和語(yǔ)義等各種語(yǔ)言信息的資源,一方面能為漢語(yǔ)句法學(xué)研究提供真實(shí)、準(zhǔn)確的語(yǔ)言知識(shí);另一方面可以用于訓(xùn)練和測(cè)試句法分析器[1]。目前學(xué)術(shù)界成規(guī)模的樹(shù)庫(kù)主要包括短語(yǔ)結(jié)構(gòu)樹(shù)庫(kù)和依存樹(shù)庫(kù)兩種類(lèi)型。和短語(yǔ)結(jié)構(gòu)句法相比較,依存句法具有以下優(yōu)勢(shì): ①更適合描述漢語(yǔ)中詞間關(guān)系錯(cuò)綜復(fù)雜的句法結(jié)構(gòu),并且通過(guò)依存關(guān)系標(biāo)簽可以直接表達(dá)詞語(yǔ)之間的句法語(yǔ)義關(guān)系; ②形式簡(jiǎn)單,便于標(biāo)注; ③句法分析結(jié)果的存儲(chǔ)空間較小[2]。
現(xiàn)有漢語(yǔ)句法樹(shù)庫(kù)的文本主要來(lái)源于《人民日?qǐng)?bào)》、語(yǔ)文課本、政府白皮書(shū)等規(guī)范文本。然而在日益發(fā)展的互聯(lián)網(wǎng)中產(chǎn)生了大量的用戶生成數(shù)據(jù),例如,產(chǎn)品評(píng)論、聊天記錄、問(wèn)題答案等網(wǎng)絡(luò)用語(yǔ),極大地豐富了漢語(yǔ)文本。使用在現(xiàn)有的傳統(tǒng)樹(shù)庫(kù)上訓(xùn)練得到的句法分析器處理網(wǎng)絡(luò)文本時(shí),其分析準(zhǔn)確率急劇下降,說(shuō)明對(duì)于數(shù)據(jù)驅(qū)動(dòng)的分析模型而言,人工標(biāo)注數(shù)據(jù)的規(guī)模、質(zhì)量很大程度上影響著分析結(jié)果的準(zhǔn)確率。這類(lèi)分析模型表現(xiàn)出明顯的領(lǐng)域相關(guān)性,在移植到新領(lǐng)域時(shí),性能會(huì)急劇下降[3]。
為了解決這類(lèi)問(wèn)題,一方面,學(xué)術(shù)界有很多學(xué)者通過(guò)研究樹(shù)庫(kù)轉(zhuǎn)換[4-5]、樹(shù)庫(kù)融合[6-7]等方法來(lái)提高句法分析性能,并改善領(lǐng)域移植效果,然而,受到樹(shù)庫(kù)類(lèi)型和規(guī)模的限制,漢語(yǔ)方面還未有比較深入的研究[8];另一方面,便是構(gòu)建大規(guī)模樹(shù)庫(kù)以解決此問(wèn)題。目前在英文網(wǎng)絡(luò)文本上的樹(shù)庫(kù)構(gòu)建工作已經(jīng)逐步展開(kāi)。2012年谷歌組織面向郵件、博客、問(wèn)題答案、新聞組、評(píng)論五個(gè)來(lái)源的英文網(wǎng)絡(luò)文本,標(biāo)注了小規(guī)模評(píng)測(cè)數(shù)據(jù),命名為Google English Web Treebank[3]。漢語(yǔ)方面,邱立坤等[8]構(gòu)建了包括新聞、醫(yī)藥、口語(yǔ)、專(zhuān)利、微博五個(gè)領(lǐng)域的漢語(yǔ)依存樹(shù)庫(kù)。但與英文相比,面向漢語(yǔ)網(wǎng)絡(luò)文本的依存句法樹(shù)庫(kù)構(gòu)建進(jìn)展仍相對(duì)緩慢。
基于以上的討論,我們?yōu)榱颂岣邼h語(yǔ)網(wǎng)絡(luò)文本的依存句法分析性能,亟需對(duì)不同類(lèi)型的網(wǎng)絡(luò)文本分別標(biāo)注一定規(guī)模的語(yǔ)料,為后續(xù)的研究工作提供支持。基于對(duì)漢語(yǔ)依存樹(shù)庫(kù)構(gòu)建技術(shù)比較深入的研究,我們研制了一個(gè)新的數(shù)據(jù)標(biāo)注規(guī)范作為指導(dǎo),在基于瀏覽器的在線標(biāo)注系統(tǒng)中,對(duì)于多領(lǐng)域多來(lái)源的文本進(jìn)行程序化的標(biāo)注,構(gòu)建了一個(gè)面向多領(lǐng)域多來(lái)源文本的漢語(yǔ)依存句法樹(shù)庫(kù)。
表1羅列了目前公開(kāi)的較大規(guī)模的漢語(yǔ)句法樹(shù)庫(kù)。Sinica漢語(yǔ)樹(shù)庫(kù)由中國(guó)臺(tái)灣中央研究院構(gòu)建,從現(xiàn)代漢語(yǔ)平衡語(yǔ)料庫(kù)中抽取句子進(jìn)行開(kāi)發(fā)并標(biāo)注[9]。賓大漢語(yǔ)樹(shù)庫(kù)(CTB)最初由美國(guó)賓夕法尼亞大學(xué)發(fā)起,目前由布蘭迪斯大學(xué)薛念文教授等維護(hù)和更新,標(biāo)注了新聞、評(píng)論、廣播、訪談等語(yǔ)料[10]。北大漢語(yǔ)樹(shù)庫(kù)(PCT)由北大中文系逐步建設(shè)[11],標(biāo)注了語(yǔ)文課本、政府白皮書(shū)、新聞等語(yǔ)料。清華漢語(yǔ)樹(shù)庫(kù)(TCT)由清華大學(xué)周強(qiáng)教授等建設(shè)[12],標(biāo)注了文學(xué)、學(xué)術(shù)、新聞等語(yǔ)料。哈爾濱工業(yè)大學(xué)漢語(yǔ)依存樹(shù)庫(kù)(HIT-CDT)由哈工大社會(huì)計(jì)算與信息檢索研究中心建設(shè)[13],標(biāo)注了《人民日?qǐng)?bào)》語(yǔ)料。北大漢語(yǔ)多視圖依存樹(shù)庫(kù)(PKU-CDT)由北大計(jì)算語(yǔ)言學(xué)研究所構(gòu)建,該樹(shù)庫(kù)是以依存語(yǔ)法為核心的多視圖漢語(yǔ)樹(shù)庫(kù)標(biāo)注體系,標(biāo)注了新聞、醫(yī)藥、專(zhuān)利等語(yǔ)料[8]。
表1 目前公開(kāi)的較大規(guī)模的漢語(yǔ)句法樹(shù)庫(kù)
我們的目標(biāo)是面向多領(lǐng)域多來(lái)源文本,不斷積累,構(gòu)建大規(guī)模的依存句法樹(shù)庫(kù)。為達(dá)到這個(gè)目標(biāo),在制定依存關(guān)系標(biāo)簽時(shí),我們充分借鑒HIT-CDT、PKU-CDT及通用依存樹(shù)庫(kù)(universal dependencies,UD)等樹(shù)庫(kù)構(gòu)建的結(jié)果;針對(duì)規(guī)范的新聞文本,以及網(wǎng)絡(luò)文本中的各種語(yǔ)言現(xiàn)象,例如,頻繁出現(xiàn)的諧音字、插入語(yǔ)、重復(fù)、大量表情符、標(biāo)點(diǎn)符號(hào)缺失、舊詞新意等現(xiàn)象,結(jié)合語(yǔ)言學(xué)理論,在標(biāo)注實(shí)踐中總結(jié)規(guī)律,不斷擴(kuò)展,最終制定了一個(gè)面向多領(lǐng)域多來(lái)源文本的漢語(yǔ)依存句法數(shù)據(jù)標(biāo)注規(guī)范(目前規(guī)范已有60多頁(yè)),作為整個(gè)工作的基礎(chǔ)。規(guī)范的標(biāo)簽集合如表2所示。
我們了解到,標(biāo)注規(guī)范的制定一定程度上緩解了標(biāo)注一致性低的問(wèn)題,但依存關(guān)系標(biāo)簽的多樣性和句法的模糊性,仍會(huì)導(dǎo)致在樹(shù)庫(kù)構(gòu)建過(guò)程中不同標(biāo)注者的一致性較差,給樹(shù)庫(kù)構(gòu)建帶來(lái)困難。
構(gòu)建局部標(biāo)注樹(shù)庫(kù)對(duì)此提供了一個(gè)新的解決思路。局部標(biāo)注意味著標(biāo)注者只需要標(biāo)注句子中部分詞語(yǔ),增強(qiáng)了標(biāo)注者的注意力,使得標(biāo)注者可以更加將精力集中在這些詞語(yǔ)中。通過(guò)這種方式,不同標(biāo)注者之間更容易得到一致的標(biāo)注結(jié)果,為了能最大程度地節(jié)省標(biāo)注時(shí)間和成本,又能盡可能得到更多的對(duì)分析器有用的信息,對(duì)模型訓(xùn)練更有幫助,我們選取待標(biāo)注數(shù)據(jù)的原則及流程如下。
1)選取句子中置信度較低的部分詞語(yǔ)進(jìn)行標(biāo)注Dozat和Manning[14]提出基于圖的神經(jīng)網(wǎng)絡(luò)雙仿射模型,使用神經(jīng)網(wǎng)絡(luò)模型計(jì)算一個(gè)句子x中每條依存弧的分?jǐn)?shù)。我們利用這個(gè)模型來(lái)得到句法樹(shù)分?jǐn)?shù),即句法樹(shù)分?jǐn)?shù)只包括了從核心詞到依存詞的依存弧的分?jǐn)?shù),如式(1)所示。
(1)
其中,d表示依存句法樹(shù),w表示模型參數(shù),Score(h→m)通過(guò)神經(jīng)網(wǎng)絡(luò)模型計(jì)算得到。
該模型使用了CRF-loss,所以每棵句法樹(shù)的概率如式(2)所示。
(2)
其中,y(x)表示句子x所有可能的句法樹(shù)。
因此,每條依存弧的邊緣概率,就是所有包含這條依存弧的句法樹(shù)的概率之和,如式(3)所示。
(3)
Li等[15]研究了句法分析任務(wù)中,基于局部標(biāo)注數(shù)據(jù)的主動(dòng)學(xué)習(xí)方法,取得了令人滿意的結(jié)果。借鑒Li等[15]的工作,我們根據(jù)每個(gè)詞語(yǔ)的最有可能的一個(gè)核心詞h0=argmaxhp(h→i|x)的邊緣概率來(lái)衡量每個(gè)單詞wi的置信度,如式(4)所示。
│x)
(4)
置信度越低說(shuō)明依存弧越不確定,所以在之后選取出句子時(shí),選取置信度較低的α%的詞語(yǔ)進(jìn)行標(biāo)注,并將這α%的詞語(yǔ)的平均置信度作為句子置信度。
表2 依存關(guān)系標(biāo)簽集合
假設(shè)一個(gè)實(shí)際選取任務(wù):“從一批未標(biāo)注數(shù)據(jù)池U中抽取1 000句由5~25個(gè)詞語(yǔ)構(gòu)成的句子組成待標(biāo)注數(shù)據(jù)池U3,U3中每個(gè)句子選取50%的詞語(yǔ)進(jìn)行標(biāo)注”。
我們用上面這個(gè)例子來(lái)具體闡述選取局部標(biāo)注詞語(yǔ)的流程:
① 句法分析器分析詞語(yǔ)的置信度。對(duì)于未標(biāo)注數(shù)據(jù)池U中每一個(gè)句子,使用句法分析器進(jìn)行句法分析測(cè)試,通過(guò)句法分析器分析出每個(gè)句子中各個(gè)詞語(yǔ)的置信度,這些帶有詞語(yǔ)置信度的句子組成數(shù)據(jù)池U1。
② 選取符合句子長(zhǎng)度的句子。從帶有詞語(yǔ)置信度的數(shù)據(jù)池U1中選取數(shù)據(jù)池U2,U2中每個(gè)句子由5~25個(gè)詞語(yǔ)(標(biāo)點(diǎn)不算詞語(yǔ))組成。
③ 選取一定比例的詞語(yǔ)進(jìn)行標(biāo)注。
A. 先將數(shù)據(jù)池U2中的每個(gè)句子中的詞語(yǔ)置信度從低到高地排序,取前50%(假設(shè)句子有6個(gè)詞語(yǔ),選取前3=6×50%個(gè))的詞語(yǔ)的置信度的平均值作為整個(gè)句子的置信度,且每個(gè)句子選出的50%詞語(yǔ)即為該句的待標(biāo)注詞語(yǔ);
B. 將U2中的句子按照句子置信度從低到高排序,選取前1 000個(gè)句子構(gòu)成待標(biāo)注數(shù)據(jù)池U3。
在選取數(shù)據(jù)時(shí)要遵循高比例優(yōu)先選取原則。即我們?cè)谶x取不同要求下的待標(biāo)注數(shù)據(jù)時(shí),僅考慮選取句子中待標(biāo)注的詞語(yǔ)比例,比例越高越優(yōu)先選取,而與句子長(zhǎng)度無(wú)關(guān)。因?yàn)榫浞ǚ治銎鞣治龅闹眯哦仍降?,意味著該詞語(yǔ)的標(biāo)注難度越高,更需要對(duì)這類(lèi)詞語(yǔ)進(jìn)行高比例的選取并標(biāo)注。
2)舍棄相似度過(guò)高且置信度較高的句子
我們按照1)選出一批新的待標(biāo)注數(shù)據(jù)后,還要和自身數(shù)據(jù)池中其他句子,以及已標(biāo)注過(guò)的數(shù)據(jù)池中所有句子進(jìn)行相似度計(jì)算,確保將新數(shù)據(jù)中相似度較高且置信度較高的句子舍棄。這樣可以避免重復(fù)工作,以減少人力、物力,從而使標(biāo)注者集中對(duì)難度較高的句子進(jìn)行標(biāo)注,保證標(biāo)注的數(shù)據(jù)的高質(zhì)量,以及多樣性。
以計(jì)算句子a和句子b的相似度為例,具體的相似度計(jì)算方法如下:
A. 為了防止句子分詞出錯(cuò)帶來(lái)的影響,將所有句子處理成以char +bichar為單位,例如:“我 是 中國(guó)人 ?!碧幚沓伞拔?我是 是 是中 中 中國(guó) 國(guó) 國(guó)人 人 人。 。 ”;
B. 將句子a中的char和bichar構(gòu)成一個(gè)集合AS,句子b中的char和bichar構(gòu)成一個(gè)集合BS;
C. 相似度計(jì)算如式(5)所示。
(5)
相似度Similarity的閾值按實(shí)際數(shù)據(jù)情況來(lái)定。
假設(shè)句子a和句子b都是待標(biāo)注句子,且兩者相似度超過(guò)設(shè)定閾值,則舍棄置信度較高的句子。
假設(shè)句子a是待標(biāo)注句子,句子b是已標(biāo)注句子,且兩者相似度超過(guò)設(shè)定閾值,則舍棄句子a。
3)加入地雷
為了更好地提高數(shù)據(jù)質(zhì)量,在按照1)和2)數(shù)據(jù)選取原則選取一批新數(shù)據(jù)后,我們會(huì)在新的數(shù)據(jù)批次中將以前標(biāo)注過(guò)的有答案的句子作為地雷混入。我們放入地雷有兩大作用:
① 自動(dòng)評(píng)價(jià)標(biāo)注者的標(biāo)注情況;
② 進(jìn)一步檢查之前的標(biāo)注結(jié)果,以便提高標(biāo)注質(zhì)量。
通過(guò)以上3個(gè)步驟順序選取出待標(biāo)注數(shù)據(jù),放入標(biāo)注系統(tǒng)中進(jìn)行人工標(biāo)注。
從提高數(shù)據(jù)質(zhì)量的目標(biāo)出發(fā),同時(shí)又能最大化減少數(shù)據(jù)標(biāo)注管理者的工作,實(shí)現(xiàn)大規(guī)模數(shù)據(jù)標(biāo)注。我們?cè)谝粋€(gè)基于瀏覽器的在線標(biāo)注系統(tǒng)中進(jìn)行程序化標(biāo)注。圖1給出了標(biāo)注系統(tǒng)的標(biāo)注界面。標(biāo)注前,所有待標(biāo)注的詞語(yǔ)都用方框標(biāo)記;當(dāng)一個(gè)方框中的詞語(yǔ)用弧和標(biāo)簽標(biāo)注出它的核心詞后,該詞語(yǔ)的方框會(huì)消失;標(biāo)注者必須標(biāo)注完所有方框中的詞語(yǔ),才能單擊“提交”按鈕。這種標(biāo)注界面的設(shè)計(jì)主要是為了支持局部標(biāo)注(同樣也適用于完整標(biāo)注)。
圖1 標(biāo)注界面
圖2給出了一個(gè)句子的整個(gè)處理流程:
① 標(biāo)注系統(tǒng)將一個(gè)句子隨機(jī)分配給兩個(gè)標(biāo)注者標(biāo)注。標(biāo)注完成后,如果兩個(gè)標(biāo)注結(jié)果完全一致,將答案入庫(kù),流程結(jié)束。否則進(jìn)入步驟②。
② 兩個(gè)標(biāo)注結(jié)果至少有一條弧不一致,就會(huì)觸發(fā)審核機(jī)制,系統(tǒng)會(huì)將這個(gè)句子隨機(jī)分配給一位專(zhuān)家進(jìn)行審核,確定唯一答案。進(jìn)而,標(biāo)注系統(tǒng)將審核過(guò)的答案,反饋給出錯(cuò)的標(biāo)注者進(jìn)行學(xué)習(xí)。學(xué)習(xí)過(guò)程中,如果沒(méi)有出現(xiàn)投訴,那么就將確定的答案入庫(kù),流程結(jié)束;否則進(jìn)入步驟③。
③ 標(biāo)注人員對(duì)答案不認(rèn)可,提出投訴(若有投訴,我們鼓勵(lì)標(biāo)注者多提供投訴理由,以便實(shí)現(xiàn)異步溝通,提高數(shù)據(jù)質(zhì)量)。系統(tǒng)會(huì)將投訴句子隨機(jī)分配給一位權(quán)威專(zhuān)家,確定唯一答案并入庫(kù),流程結(jié)束。
圖2 標(biāo)注流程圖
基于以上的樹(shù)庫(kù)構(gòu)建實(shí)踐工作,我們目前標(biāo)注了各1萬(wàn)句左右的三個(gè)不同領(lǐng)域的依存句法樹(shù)庫(kù),具體數(shù)據(jù)來(lái)源如表3所示。哈工大CDT分為cdt_v1和cdt_v2兩批數(shù)據(jù)批次;淘寶頭條 分為content_v1和content_v2兩批數(shù)據(jù)批次;PCTB7數(shù)據(jù)為一個(gè)數(shù)據(jù)批次pctb7。對(duì)于這些數(shù)據(jù),我們按標(biāo)注時(shí)間先后順序(cdt_v1,content_v1,content_v2,cdt_v2,pctb7)分批次放入系統(tǒng)中標(biāo)注,分批標(biāo)注的數(shù)據(jù)詳細(xì)信息如表4所示。
表3 數(shù)據(jù)來(lái)源說(shuō)明表
表4 數(shù)據(jù)批次信息說(shuō)明表
標(biāo)注系統(tǒng)會(huì)將一個(gè)句子隨機(jī)分配給兩個(gè)標(biāo)注者標(biāo)注,所以,我們從以下幾個(gè)方面對(duì)每個(gè)數(shù)據(jù)批次進(jìn)行分析: ①所有標(biāo)注者標(biāo)注的依存弧平均準(zhǔn)確率、一致性及句子一致性; ②單個(gè)標(biāo)注者標(biāo)注依存弧的準(zhǔn)確率; ③樹(shù)庫(kù)標(biāo)簽的分布情況。
其中對(duì)于準(zhǔn)確率和一致性的計(jì)算方法如下:
A. 依存弧的準(zhǔn)確率:假設(shè)一個(gè)句子有5條依存弧需要標(biāo)注,某個(gè)標(biāo)注者提交的答案中有3條依存弧與最終系統(tǒng)給出的答案相同,則準(zhǔn)確率=3/5;
B. 依存弧的一致性:假設(shè)一個(gè)句子有5條依存弧需要標(biāo)注,隨機(jī)分配給a和b兩個(gè)人標(biāo)注,兩人最終提交的答案(不受他人影響)中一致的依存弧為2條,則一致性=2/5;
C. 句子一致性:假設(shè)一個(gè)數(shù)據(jù)批次有10個(gè)句子,其中有1個(gè)句子被不同的兩個(gè)標(biāo)注者標(biāo)注為完全一致,即需要標(biāo)注的這個(gè)句子中所有依存弧都一致,則句子一致性=1/10。
在計(jì)算每個(gè)數(shù)據(jù)批次依存弧的準(zhǔn)確率、一致性及句子一致性時(shí),需要注意的兩個(gè)點(diǎn)是:
① 計(jì)算依存弧準(zhǔn)確率的分母是計(jì)算依存弧一致性的分母的兩倍,因?yàn)橐粋€(gè)句子我們會(huì)分配給兩個(gè)人標(biāo)注,在計(jì)算準(zhǔn)確率時(shí),標(biāo)注者對(duì)同一個(gè)句子的不同標(biāo)注結(jié)果算作兩個(gè)不同句子;
② 對(duì)于兩個(gè)人標(biāo)注一致的依存弧,我們不考慮其正確性,只考慮兩人對(duì)于一條依存弧的標(biāo)注理解是否一致。
對(duì)于每個(gè)數(shù)據(jù)批次中所有標(biāo)注者標(biāo)注的依存弧,對(duì)平均準(zhǔn)確率、一致性及句子一致性進(jìn)行了統(tǒng)計(jì)分析,如圖3所示。結(jié)合圖3和表4,可以得到以下信息。
圖3 各批次整體評(píng)價(jià)指標(biāo)
(1) 隨著標(biāo)注工作的推進(jìn),標(biāo)注者的標(biāo)注水平在逐步上升,整體準(zhǔn)確率、一致性及句子一致性都有所提高;整體依存弧準(zhǔn)確率都在83%以上,一致性都在70%以上。說(shuō)明我們?yōu)闃?biāo)注工作制定的規(guī)范具有一定的科學(xué)性、系統(tǒng)性及完整性,可以充分指導(dǎo)標(biāo)注者標(biāo)注。
(2) 單從某個(gè)數(shù)據(jù)批次來(lái)看,有以下兩點(diǎn)。
① content_v2中依存弧準(zhǔn)確率和一致性都相對(duì)較低。原因是:一方面,和前面兩批數(shù)據(jù)相比,content_v2的句子長(zhǎng)度更長(zhǎng),且都是對(duì)一定比例置信度較低的詞語(yǔ)進(jìn)行人工標(biāo)注,一定程度上導(dǎo)致準(zhǔn)確率和一致性相對(duì)較低;另一方面,和后面兩批數(shù)據(jù)相比,content_v2的句子長(zhǎng)度較短,但其準(zhǔn)確率、一致性卻依舊較低,充分說(shuō)明了網(wǎng)絡(luò)文本數(shù)據(jù)的標(biāo)注難度要遠(yuǎn)大于規(guī)范文本數(shù)據(jù)。另外,content_v2中句子一致性比前兩個(gè)數(shù)據(jù)批次要高,且多是長(zhǎng)度較短的句子,說(shuō)明標(biāo)注者更容易理解短句子。
② pctb7中依存弧的準(zhǔn)確率、一致性及句子一致性相比cdt_v2都有所下降。原因是:一方面,相較于cdt_v2,pctb7中的句子長(zhǎng)度增加,使得標(biāo)注難度增大;另一方面,pctb7中不僅存在需要標(biāo)注20%比例詞語(yǔ)的句子,而且存在需要標(biāo)注50%和30%比例詞語(yǔ)的句子。說(shuō)明一個(gè)句子中需要標(biāo)注的詞語(yǔ)(且這些都是模型分析出置信度較低的詞語(yǔ))增多也會(huì)增加標(biāo)注難度。因此,在之后的數(shù)據(jù)選取中,盡量不選過(guò)長(zhǎng)的句子,且一個(gè)句子中按比例選取的需要標(biāo)注的詞語(yǔ)個(gè)數(shù)不得超過(guò)某個(gè)設(shè)定的參數(shù),超出的詞語(yǔ),我們不作為標(biāo)注任務(wù),以防標(biāo)注難度過(guò)高,從而影響數(shù)據(jù)質(zhì)量。
另外,我們對(duì)整個(gè)樹(shù)庫(kù)中標(biāo)注不一致的標(biāo)簽進(jìn)行了統(tǒng)計(jì),計(jì)算方法為:如果對(duì)于某條弧兩人標(biāo)注不一致,則將該弧對(duì)應(yīng)正確的標(biāo)簽數(shù)加1;假設(shè)整個(gè)數(shù)據(jù)批次中某個(gè)標(biāo)簽正確答案?jìng)€(gè)數(shù)為A,被標(biāo)為不一致的個(gè)數(shù)為B,則不一致性=B/A,發(fā)現(xiàn)標(biāo)簽不一致性較高的幾個(gè)為:dfsubj(45.14%),cmp(37.97%),sasubj(32.65%),pobj(30.56%),coo(29.67%)。
除了以上對(duì)新樹(shù)庫(kù)數(shù)據(jù)的弧、標(biāo)簽進(jìn)行統(tǒng)計(jì)分析外,我們也將新標(biāo)注的樹(shù)庫(kù)和原樹(shù)庫(kù)進(jìn)行了比較。但由于新標(biāo)注樹(shù)庫(kù)與原樹(shù)庫(kù)是根據(jù)不同標(biāo)注規(guī)范進(jìn)行的標(biāo)注,標(biāo)簽不易于比較,所以選擇對(duì)無(wú)標(biāo)簽的弧一致性進(jìn)行統(tǒng)計(jì)分析發(fā)現(xiàn):cdt和原樹(shù)庫(kù)CDT的無(wú)標(biāo)簽弧一致性為81.58%;pctb7和原樹(shù)庫(kù)PCTB7的無(wú)標(biāo)簽弧一致性為66.29%。
由于標(biāo)注者過(guò)多,我們選取的分析對(duì)象的標(biāo)準(zhǔn)是: ①在5個(gè)數(shù)據(jù)批次中至少標(biāo)注了3個(gè)數(shù)據(jù)批次; ②標(biāo)注者在每批數(shù)據(jù)中標(biāo)注的依存弧的數(shù)目至少達(dá)到1 000條。根據(jù)以上標(biāo)準(zhǔn),我們選取了11位標(biāo)注者并對(duì)他們標(biāo)準(zhǔn)的依存弧準(zhǔn)確率進(jìn)行了統(tǒng)計(jì),如圖4所示。
圖4 單個(gè)標(biāo)注者準(zhǔn)確率
從圖4中我們可以得到以下信息:
① 11位標(biāo)注者隨著參與標(biāo)注工作時(shí)間的遞增,雖然有所波動(dòng),但其依存弧準(zhǔn)確率整體呈上升趨勢(shì)。
② 通過(guò)觀察發(fā)現(xiàn),前5位參與了所有數(shù)據(jù)批次標(biāo)注的標(biāo)注者的依存弧準(zhǔn)確率普遍較高,然而后面只參加了3批數(shù)據(jù)批次的6位標(biāo)注者標(biāo)注的依存弧準(zhǔn)確率波動(dòng)很大并且參差不齊。說(shuō)明標(biāo)注工作需要長(zhǎng)期堅(jiān)持,中途一段時(shí)間不標(biāo)注,會(huì)對(duì)規(guī)范有所遺忘,對(duì)標(biāo)注質(zhì)量有所影響。所以在選取標(biāo)注者時(shí),應(yīng)該側(cè)重選擇可以長(zhǎng)期穩(wěn)定的標(biāo)注者,以保證標(biāo)注質(zhì)量。
③ 通過(guò)分析單個(gè)標(biāo)注者在不同數(shù)據(jù)批次中標(biāo)注的依存弧準(zhǔn)確率,檢驗(yàn)標(biāo)注者是否能以認(rèn)真的態(tài)度去勝任標(biāo)注工作。比如標(biāo)注者J,他的標(biāo)注數(shù)量很少,標(biāo)注的依存弧準(zhǔn)確率低于整體準(zhǔn)確率,并且他標(biāo)注的依存弧準(zhǔn)確率隨著時(shí)間的推移并沒(méi)有提高,反而有所下降,那么針對(duì)這樣的標(biāo)注者,我們會(huì)考慮對(duì)其重新培訓(xùn)或者辭退,以確保標(biāo)注數(shù)據(jù)的質(zhì)量。
由于較多標(biāo)簽的出現(xiàn)頻率很低,所以我們對(duì)只有在一個(gè)數(shù)據(jù)批次中數(shù)量大于100個(gè)的標(biāo)簽進(jìn)行統(tǒng)計(jì)分析。在數(shù)據(jù)中都分別抽取1 000句全標(biāo)注數(shù)據(jù)及局部標(biāo)注數(shù)據(jù)(20%),由于pctb7這批數(shù)據(jù)我們沒(méi)有進(jìn)行全標(biāo)注,所以只抽取了局部標(biāo)注(20%)數(shù)據(jù),標(biāo)簽的分布統(tǒng)計(jì)如表5所示。
表5 樹(shù)庫(kù)標(biāo)簽分布情況表(%)
根據(jù)表4和表5分析得到以下信息:
① 無(wú)論是在全標(biāo)注還是局部標(biāo)注的數(shù)據(jù)中,用來(lái)標(biāo)注漢語(yǔ)句子中主干(subj(主語(yǔ))、obj(動(dòng)賓)、att(定語(yǔ))、adv(狀語(yǔ))、cmp(補(bǔ)語(yǔ)))關(guān)系的標(biāo)簽占比較大。說(shuō)明漢語(yǔ)句子中這些主干關(guān)系對(duì)應(yīng)的詞語(yǔ)置信度整體上都較低,體現(xiàn)了人工標(biāo)注的重要性。
② 用于標(biāo)注謂語(yǔ)的root(根節(jié)點(diǎn))、sasubj(同主語(yǔ))和dfsubj(不同主語(yǔ))這三個(gè)標(biāo)簽的占比較大,說(shuō)明謂詞關(guān)系在句子中是比較常見(jiàn)的;也能說(shuō)明從句法角度來(lái)看謂詞是句子中最重要的詞。同時(shí)我們可以發(fā)現(xiàn): a)sasubj和dfsubj這兩個(gè)標(biāo)簽在局部標(biāo)注數(shù)據(jù)中的占比遠(yuǎn)大于在全標(biāo)注數(shù)據(jù)中的占比,說(shuō)明選取局部數(shù)據(jù)時(shí),這兩個(gè)標(biāo)簽所對(duì)應(yīng)的詞語(yǔ)置信度普遍較低,被大量地選取并標(biāo)注; b)在content_v2的局部標(biāo)注數(shù)據(jù)中sasubj和dfsubj的占比是最大的,說(shuō)明在長(zhǎng)句子的網(wǎng)絡(luò)文本中謂語(yǔ)句更多。
③ pobj(介賓)和adjct(附加成分)這兩個(gè)標(biāo)簽的數(shù)量占比較大,原因是:對(duì)于pobj來(lái)說(shuō),漢語(yǔ)中的動(dòng)詞和介詞理解歧義較大,所以標(biāo)注者在選擇是obj還是pobj時(shí)可能會(huì)有一些歧義;對(duì)于adjct來(lái)說(shuō),漢語(yǔ)是一種結(jié)構(gòu)化語(yǔ)言,其中有許多只為句子結(jié)構(gòu)完整的助詞、嘆詞等無(wú)意義的詞語(yǔ),目前我們都用adjct來(lái)進(jìn)行標(biāo)注,那么在之后的規(guī)范更新中都可以將這些著重考慮。另外,pobj在規(guī)范文本中的占比較大,而在網(wǎng)絡(luò)文本中,助詞、嘆詞等非常常見(jiàn),所以在content_v1的全部標(biāo)注數(shù)據(jù)中adjct這個(gè)標(biāo)簽的占比是最大的。
本文介紹了目前我們?cè)诿嫦蚨囝I(lǐng)域多來(lái)源文本的漢語(yǔ)依存句法樹(shù)庫(kù)構(gòu)建方面所做的一些工作。我們基于前期研制的數(shù)據(jù)標(biāo)注規(guī)范和在線標(biāo)注系統(tǒng),聘請(qǐng)了15位標(biāo)注者,標(biāo)注了約3萬(wàn)句的高質(zhì)量漢語(yǔ)依存句法數(shù)據(jù)。本文重點(diǎn)介紹了數(shù)據(jù)選取、標(biāo)注流程等問(wèn)題,對(duì)標(biāo)注數(shù)據(jù)的質(zhì)量及標(biāo)注過(guò)程中的一些現(xiàn)象進(jìn)行了統(tǒng)計(jì)分析。
通過(guò)這些工作,我們?cè)跐h語(yǔ)依存句法樹(shù)庫(kù)的人工標(biāo)注方面積累了一定經(jīng)驗(yàn)。首先,由于句法標(biāo)注工作的困難性,我們需要在數(shù)據(jù)以及標(biāo)注方面都進(jìn)行嚴(yán)格的流程控制,以確保標(biāo)注數(shù)據(jù)質(zhì)量;其次,通過(guò)統(tǒng)計(jì)與分析發(fā)現(xiàn),整體數(shù)據(jù)的標(biāo)注弧一致性及句子的一致性都較低,需要審核專(zhuān)家進(jìn)行進(jìn)一步的檢查,體現(xiàn)了雙人標(biāo)注的重要性。目前我們標(biāo)注的樹(shù)庫(kù)規(guī)模還很小,未來(lái)我們?cè)诂F(xiàn)有的樹(shù)庫(kù)基礎(chǔ)上會(huì)進(jìn)一步構(gòu)建大規(guī)模的面向不同領(lǐng)域不同來(lái)源的漢語(yǔ)依存句法樹(shù)庫(kù)。