周惠巍,楊歡,張靜,亢世勇,黃德根
(1.大連理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧大連116024;2.魯東大學(xué)文學(xué)院,山東煙臺(tái)264025)
模糊限制語(Hedges)最早是由G Lakoff提出的,用來指“把一些事情弄得模模糊糊的詞語”,表示的是不確定性和臨時(shí)性的觀點(diǎn)[1]。由模糊限制語所引導(dǎo)的信息為模糊限制信息(Hedge Information)。當(dāng)信息的撰寫者不能提供完全準(zhǔn)確、肯定的信息時(shí),往往使用模糊限制語,使自己的陳述更客觀。模糊限制語廣泛地用于自然科學(xué)、新聞等各個(gè)領(lǐng)域,為進(jìn)行事實(shí)信息的抽取,應(yīng)將模糊限制信息與事實(shí)信息區(qū)分開來,模糊限制信息檢測(cè)成為信息抽取的首要步驟。由于網(wǎng)絡(luò)信息量的迅猛增長(zhǎng),及信息抽取技術(shù)的高速發(fā)展,作為信息抽取源的網(wǎng)絡(luò)信息的真實(shí)性和可靠性日益受到關(guān)注。2010年國(guó)際計(jì)算語言學(xué)會(huì)(Association for Computational Linguistics,ACL)將模糊限制語識(shí)別和模糊限制信息檢測(cè)定為CoNLL(Conference on Computational Natural Language Learning)共享任務(wù)[2]。其中模糊限制語識(shí)別包含生物醫(yī)學(xué)和維基百科兩個(gè)領(lǐng)域。生物醫(yī)學(xué)領(lǐng)域源語料源自BioScope[3]語料庫(kù),該語料庫(kù)包括生物醫(yī)學(xué)論文摘要、全文及臨床診斷報(bào)告三類文獻(xiàn);維基百科語料源自WikiWeasel[2]語料庫(kù)。
英文模糊限制語語料庫(kù)的研究與構(gòu)建取得了長(zhǎng)足的進(jìn)展,除上述兩個(gè)語料庫(kù)外,公開發(fā)表的語料庫(kù)還有Medlock和Briscoe[4],Kim等[5],Settles等[6],Shatkay等[7],Nawaz等[8],和Uzuner等[9]構(gòu)建的生物醫(yī)學(xué)領(lǐng)域語料庫(kù);Rubin等[10],Wilson[11],Saurí和Pustejovsky[12],和Rubin[13]構(gòu)建的新聞?lì)I(lǐng)域語料庫(kù)。王舟[14]調(diào)查了中英文醫(yī)學(xué)論文摘要各80篇,中文論文中模糊限制語累計(jì)出現(xiàn)205次,英文論文中出現(xiàn)305次。中文醫(yī)學(xué)文獻(xiàn)中同樣包含大量模糊限制語[15-17]。除醫(yī)學(xué)文獻(xiàn)外,模糊限制語還廣泛地用于中文的各個(gè)領(lǐng)域。維基百科作為一個(gè)以開放和用戶協(xié)作編輯為特點(diǎn)的知識(shí)系統(tǒng),其中蘊(yùn)涵了豐富的信息,成為目前研究人員進(jìn)行信息抽取的重要語料資源。但是當(dāng)撰寫者不能提供完全準(zhǔn)確、肯定的信息時(shí),往往使用模糊限制語,使自己的陳述更客觀。
語言學(xué)界從語義、句法、詞性等方面對(duì)模糊限制語進(jìn)行了長(zhǎng)期的研究,中英文研究人員分別對(duì)中英文模糊限制語的表現(xiàn)形式和分類進(jìn)行了探討,將模糊限制語從語義、詞性、結(jié)構(gòu)和句法功能等方面進(jìn)行分類。英文模糊限制語的研究開始于20世紀(jì)70年代,Prince等[18]從語用功能上將英語模糊限制語劃分為變動(dòng)型(approximators)和緩和型(shields)。前者改變?cè)掝}的真值條件,對(duì)話題進(jìn)行某種程度或范圍的限制,如“a little bit”、“almost”等。而后者不能改變?cè)掝}的真值條件,但可以反映說話人對(duì)話題所持有的態(tài)度,緩和了話題的肯定語氣,如“think”、“perhaps”等。Szarvas等[19]根據(jù)話題在真實(shí)世界的真假性,將英文模糊限制語分為假設(shè)型(hypothetical)與認(rèn)知型(epistemic)兩類。兩者的主要區(qū)別是前者認(rèn)為話題在真實(shí)世界里可能為真、假或者不確定三種情況,如“He believes that the Earth is flat.”而后者則是就目前所知無法判斷話題在真實(shí)世界是正確的還是錯(cuò)誤的,如“It may be raining.”
我國(guó)英語界于本世紀(jì)80年代對(duì)模糊限制語進(jìn)行了初步探討,何自然[20]在Prince等[18]的研究基礎(chǔ)上,將變動(dòng)型模糊限制語細(xì)分為程度變動(dòng)型和范圍變動(dòng)型,將緩和型模糊限制語細(xì)分為直接緩和型和間接緩和型。認(rèn)為變動(dòng)型模糊限制語屬于語義范疇,緩和型模糊限制語屬于語用范疇。語言學(xué)家對(duì)中英文模糊限制語進(jìn)行了翻譯研究[21],認(rèn)為中英文模糊限制語存在一定的差異,很少存在等值譯文。蘇遠(yuǎn)連[22]對(duì)中文模糊限制語進(jìn)行了對(duì)比研究,他贊同何自然的觀點(diǎn),認(rèn)為中文模糊限制語也可以按照同樣的方法進(jìn)行分類,并將變動(dòng)型模糊限制語細(xì)分為程度變動(dòng)型,如“有點(diǎn)”、“相當(dāng)”等;范圍變動(dòng)型,如“上下”、“左右”等;和頻率變動(dòng)型,如“經(jīng)常”、“不時(shí)”等。緩和型模糊限制語仍然分為直接緩和型,如“我認(rèn)為”、“看來”等;和間接緩和型,如“聽說”、“據(jù)報(bào)道”等。
目前國(guó)內(nèi)模糊限制語呈現(xiàn)出多理論、多角度和多方面的研究[23]。模糊限制語語料庫(kù)的構(gòu)建是模糊限制語研究與模糊限制信息檢測(cè)的基礎(chǔ),然而中文模糊限制語語料資源缺乏,至今尚未發(fā)現(xiàn)公開發(fā)表的模糊限制語語料庫(kù)。本文研究了中文模糊限制語的分類,設(shè)計(jì)并構(gòu)建了一個(gè)具有2.4萬句規(guī)模的中文模糊限制語語料庫(kù)。語料選自生物醫(yī)學(xué)和維基百科兩個(gè)領(lǐng)域,生物醫(yī)學(xué)文獻(xiàn)包括摘要、實(shí)驗(yàn)結(jié)果、討論、結(jié)論和全文五個(gè)部分,維基百科文獻(xiàn)選取了包含國(guó)家介紹、歷史人物介紹、事件介紹等242篇文章。實(shí)驗(yàn)分析了語料標(biāo)注的一致性,并統(tǒng)計(jì)了不同領(lǐng)域各類模糊限制語的使用比例。本文構(gòu)建的中文模糊限制語語料庫(kù),涵蓋了豐富的中文模糊現(xiàn)象,為語言學(xué)家從語義、語法、語用等方面進(jìn)行模糊限制語的研究提供了強(qiáng)大的知識(shí)庫(kù)支持。語料庫(kù)中的醫(yī)學(xué)文獻(xiàn)和維基百科文獻(xiàn)分別包含9 946個(gè)和1 958個(gè)模糊限制語,在各自的領(lǐng)域足以訓(xùn)練出一個(gè)比較準(zhǔn)確的模糊限制語識(shí)別模型,用于模糊限制信息檢測(cè)研究。同時(shí),還可以應(yīng)用兩個(gè)領(lǐng)域的語料庫(kù)進(jìn)行跨領(lǐng)域模糊限制語識(shí)別研究。
本文組織結(jié)構(gòu)如下:第二節(jié)提出了本文對(duì)中文模糊限制語分類方法;第三節(jié)闡述了語料庫(kù)的構(gòu)建過程;第四節(jié)統(tǒng)計(jì)分析了語料標(biāo)注的一致性,以及模糊限制語種類和語料領(lǐng)域之間的關(guān)系;第五節(jié)是結(jié)論與展望。
本文根據(jù)Prince等[18]和何自然[20]的分類方法,將模糊限制語分為變動(dòng)型和緩和型兩類。在此基礎(chǔ)上,根據(jù)模糊限制語的語義和語用功能,將這兩大類模糊限制語進(jìn)行了更細(xì)致的劃分,如圖1所示,各類模糊限制語的定義如下。
(1)變動(dòng)型模糊限制語
變動(dòng)型模糊限制語是對(duì)話題本身進(jìn)行某種程度的限制,它能修改話題原來的真值,當(dāng)說話人不能準(zhǔn)確說出某個(gè)話題的真值或有意模糊某個(gè)話題的真值時(shí)用到變動(dòng)型模糊限制語。根據(jù)變動(dòng)話題的類型,此類模糊限制語可細(xì)分為數(shù)量變動(dòng)、程度變動(dòng)、范圍變動(dòng)和頻率變動(dòng)四個(gè)類型。
圖1 中文模糊限制語的分類
數(shù)量變動(dòng)型 當(dāng)說話人不能明確地說出具體的數(shù)字,但是能估計(jì)出一個(gè)大概的數(shù)量時(shí),常會(huì)用到數(shù)量變動(dòng)模糊限制語。如:“少數(shù)”,“大部分”等。
程度變動(dòng)型 把一些接近正確但不敢肯定完全正確的話題說得更得體些,與實(shí)際情況更接近些,避免過于武斷,表明話題與真實(shí)情況的接近程度。如:“有點(diǎn)”,“稍微”,“十分”等。
范圍變動(dòng)型 在話題中往往提供了具體數(shù)字,使用這類模糊限制語時(shí),聽話人不必考慮具體情況與所說的話題的接近程度如何,而只考慮范圍大小,聽話人可以在一定的范圍內(nèi)去理解話題意義。如:“大約”,“在一定范圍內(nèi)”,“將近”等。
頻率變動(dòng)型 用于反映一個(gè)事件發(fā)生的頻率。如:“常?!保芭紶枴钡?。
(2)緩和型模糊限制語
當(dāng)說話人提出某一個(gè)論斷時(shí),緩和型模糊限制語可以緩和說話人的語氣,為說話人留有余地,減輕說話人為此論斷所應(yīng)付的責(zé)任,這類模糊限制語不改變?cè)掝}原來的意思。根據(jù)緩和型模糊限制語的語用功能將其細(xì)分為主觀見解型、探知結(jié)論型、客觀依據(jù)型和條件假設(shè)型四類。
主觀見解型 用來表示說話人對(duì)某事的直接推測(cè)及所持的態(tài)度,其所闡述的話題只是個(gè)人的主觀見解。使用這類模糊限制語可以在一定程度上削弱說話人對(duì)話題所承擔(dān)的責(zé)任。如:“我認(rèn)為”,“就我所知”等。
客觀依據(jù)型 通過借助第三方或大家普遍認(rèn)同的觀點(diǎn),間接地表達(dá)說話人對(duì)某事所持有的態(tài)度,說話人在一定程度上同意第三方的觀點(diǎn),只是他對(duì)此依據(jù)究竟有多大程度的贊同,在話語中看不出來,只能另作推斷。例如,據(jù)說”,“有人說”等。
探知結(jié)論型 用來表示對(duì)某個(gè)結(jié)論的推測(cè),根據(jù)存在的現(xiàn)象推知未來可能會(huì)發(fā)生的事情或待證明的結(jié)論。例如,“表明”,“可能”,“調(diào)查”,“仍不清楚”等。
條件假設(shè)型 通過給出假定的前提條件表明說話人的意愿,但現(xiàn)在事實(shí)是怎樣的并不知曉。例如,“如果”,“假定”等。
本文構(gòu)建的中文模糊限制語語料庫(kù)覆蓋了生物醫(yī)學(xué)與維基百科兩個(gè)領(lǐng)域。生物醫(yī)學(xué)領(lǐng)域語料選自《中國(guó)生物醫(yī)學(xué)工程學(xué)報(bào)》、《中國(guó)生物化學(xué)與分子生物學(xué)報(bào)》和《生物醫(yī)學(xué)工程學(xué)雜志》等權(quán)威性中文生物醫(yī)學(xué)類期刊的2011~2013年間的科研論文。分別摘取部分文獻(xiàn)的摘要、實(shí)驗(yàn)結(jié)果、討論、結(jié)論并選取部分文獻(xiàn)的全文,分別標(biāo)注以便統(tǒng)計(jì)分析模糊限制語在文獻(xiàn)不同章節(jié)的使用頻率。
維基百科的組成單元稱為“概念”或“詞條”,每個(gè)詞條對(duì)應(yīng)一篇文章,由不同用戶一次次編輯形成。本文選取國(guó)家介紹、歷史人物介紹、事件介紹等方面的242篇詞條構(gòu)建維基百科語料庫(kù)。
從CNKI(中國(guó)知網(wǎng))上下載的文獻(xiàn)需要轉(zhuǎn)化為文本格式。人工修正文本轉(zhuǎn)化產(chǎn)生的亂碼,并將其中的所有英文及數(shù)字統(tǒng)一為半角格式,去掉多余的空格。由于存在中英文標(biāo)點(diǎn)符號(hào)混合使用的情況,將所有標(biāo)點(diǎn)符號(hào)統(tǒng)一為中文格式。
標(biāo)注語料采用一種特定的XML格式,每一個(gè)句子顯示為一行,如圖2所示。首先,標(biāo)注句子號(hào),如“S38.9”,其中“38”為文章號(hào),“9”為該句在文章中的序號(hào)。然后,標(biāo)注該句的模糊限制類型,其中“certain”為確定性句子,“uncertain”為模糊限制性句子,當(dāng)一個(gè)句子包含有一個(gè)或一個(gè)以上的模糊限制語時(shí),這個(gè)句子就是模糊限制性句子。對(duì)于模糊限制性句子,標(biāo)注模糊限制語。分別使用標(biāo)記“<ccue>”和“</ccue>”標(biāo)注模糊限制語的起始和結(jié)尾,同時(shí)給出模糊限制語的標(biāo)號(hào),如“S38.9.1”,和細(xì)分類,如“頻率變動(dòng)”。文章號(hào)、句子序號(hào)和模糊限制語標(biāo)號(hào)采用層次結(jié)構(gòu),并有且僅有一個(gè)標(biāo)號(hào)。
圖2 模糊限制語標(biāo)注語料示例
模糊限制語的標(biāo)注遵循最小原則:標(biāo)注能表明模糊限制性的最小單元為模糊限制語,多個(gè)模糊限制語組合起來表示模糊限制性時(shí),分別標(biāo)注每個(gè)模糊限制語,如圖2中,“總是”和“被定義”被分別標(biāo)記為模糊限制語,而不是將“總是被定義”作為一個(gè)模糊限制語。
除了一些明確具有模糊限制含義的詞語外,還有一些詞語需要根據(jù)上下文語境判斷其是否表模糊性,這是模糊限制語標(biāo)注的一個(gè)難點(diǎn)。判斷一個(gè)詞語是否是模糊限制語,主要是看它對(duì)所陳述的命題是否產(chǎn)生不確定的影響。為減少標(biāo)注錯(cuò)誤,提高標(biāo)注速度,增加標(biāo)注語料的一致性,我們研究制定了一些特殊詞語標(biāo)注規(guī)則,這些規(guī)則隨著標(biāo)注過程動(dòng)態(tài)更新。部分特殊詞語標(biāo)注規(guī)則如下。
1.詞語“根據(jù)”引用的是第三方的觀點(diǎn)或理論,間接地表達(dá)說話人對(duì)某事所持有的態(tài)度時(shí),認(rèn)為是模糊限制語,如例句(1)中的“根據(jù)”是模糊限制語;當(dāng)命題中未表達(dá)個(gè)人觀點(diǎn)時(shí),認(rèn)為不是模糊限制語,如例句(2)。
例句1 <ccue>根據(jù)</ccue>染色體分離機(jī)理,Cdc20的表達(dá)是PBEⅠ所必需的。
例句2 大部分代表是直接民選產(chǎn)生,100人則是根據(jù)政黨得票率按比例分配。
2.詞語“或者”是在每個(gè)領(lǐng)域都經(jīng)常出現(xiàn)的詞,通過研究我們認(rèn)為當(dāng)“或者”連接的同位詞只有一個(gè)正確的時(shí)候,是模糊限制語,如例句(3),不確定是“第三或者第四大”,但對(duì)的只能選擇其中的一個(gè),所以是模糊限制語;而當(dāng)“或者”連接的同位語無論選哪個(gè)都正確的時(shí)候,認(rèn)為不是模糊限制語,如例句(4),選擇“tartuffolo”或“小松露”,命題都正確,所以認(rèn)為不是模糊限制語。
例句3 美國(guó)的國(guó)土面積是世界第三<ccue>或者</ccue>第四大。
例句4 在十五世紀(jì)時(shí),馬鈴薯在意大利被叫作“tartuffolo”或者“小松露”。
3.詞語“表明”在生物醫(yī)學(xué)文獻(xiàn)中常用于推測(cè)某個(gè)結(jié)論,當(dāng)根據(jù)某些現(xiàn)象或條件,推測(cè)出一個(gè)結(jié)論時(shí),認(rèn)為是模糊限制語,如例句(5),“表明”連接的是一個(gè)推測(cè)性的結(jié)論,所以認(rèn)為是模糊限制語;當(dāng)只是客觀地描述了一個(gè)結(jié)果或現(xiàn)象時(shí),認(rèn)為不是模糊限制語,如例句(6),只是客觀地陳述了一個(gè)實(shí)驗(yàn)的結(jié)果,所以認(rèn)為不是模糊限制語。
例句5 在晚期動(dòng)脈相因子圖中,腫瘤完全增強(qiáng),并且周圍組織也增強(qiáng),<ccue>表明</ccue>有肝動(dòng)脈血流開始進(jìn)入周圍組織區(qū)域。
例句6 通過對(duì)30位受試者的對(duì)比實(shí)驗(yàn),結(jié)果表明,本監(jiān)護(hù)儀的測(cè)量驗(yàn)證的平均準(zhǔn)確率達(dá)到92.2%。
4.詞語“證明”常出現(xiàn)在生物醫(yī)學(xué)文獻(xiàn)中,后面跟隨一個(gè)命題。我們規(guī)定,當(dāng)該命題需要加以證明時(shí),“證明”是模糊限制語,如例句(7),“b和c兩條帶為Pil1磷酸化狀態(tài)”這一命題在此例句中是有待證明的命題,所以認(rèn)為是模糊限制語;而命題已得到證明了,則“證明”不是模糊限制語,如例句(8),“高糖可以通過線粒體凋亡途徑誘導(dǎo)成骨細(xì)胞凋亡”這一命題已經(jīng)通過實(shí)驗(yàn)得到了驗(yàn)證,所以認(rèn)為不是模糊限制語。
例句7 為了<ccue>證明</ccue>這b和c兩條帶為Pil1磷酸化狀態(tài),F(xiàn)ig.2C表示將蛋白提取物加入磷酸酶處理后作免疫印記檢測(cè)。
例句8 本研究證明,高糖可以通過線粒體凋亡途徑誘導(dǎo)成骨細(xì)胞凋亡。
基于已有的英文模糊限制語語料,和中文待標(biāo)注語料,收集各類中文模糊限制語,整合成為一份完備的模糊限制語詞典。為了減輕標(biāo)注人員的負(fù)擔(dān),采用正向最大匹配算法,標(biāo)注中文語料中的詞典詞,形成初始標(biāo)注語料。
本文參照英文生物醫(yī)學(xué)領(lǐng)域的BioScope[3]語料庫(kù)的標(biāo)注過程進(jìn)行標(biāo)注。首先,分別由兩名語言學(xué)專家按照標(biāo)注規(guī)則,判斷初始標(biāo)注語料中的詞典詞在句子中是否表示模糊性,人工修正初始標(biāo)注語料的錯(cuò)誤,形成兩份標(biāo)注結(jié)果。然后,規(guī)則的制定者對(duì)兩份標(biāo)注結(jié)果中不一致處進(jìn)行統(tǒng)一,形成最終語料。具體標(biāo)注過程如圖3所示。
圖3 語料標(biāo)注過程
語料庫(kù)的統(tǒng)計(jì)信息如表1所示,生物醫(yī)學(xué)和維基百科兩個(gè)領(lǐng)域共標(biāo)注語料24 414句,約100萬詞。其中模糊限制性句子8 160句,模糊限制語11 904個(gè)。維基百科文章中,33.78%的句子包含模糊限制信息;生物醫(yī)學(xué)文獻(xiàn)中,摘要中25.28%的句子,全文中35.09%的句子包含模糊限制信息,可見中文模糊限制語廣泛地存在于中文文獻(xiàn)中。此規(guī)模的語料庫(kù)足夠用于模糊限制信息檢測(cè)的研究。
表1 語料庫(kù)的統(tǒng)計(jì)信息
圖4 語料中模糊限制語的類型分布
模糊限制語的分布具有領(lǐng)域性[19],為了探究不同類型的模糊限制語在生物醫(yī)學(xué)和維基百科領(lǐng)域的分布,對(duì)語料庫(kù)中的各類模糊限制語進(jìn)行統(tǒng)計(jì),結(jié)果如圖4所示。
由圖4可見,生物醫(yī)學(xué)文獻(xiàn)中緩和型模糊限制語的使用頻率較高,維基百科文章中變動(dòng)型模糊限制語的使用頻率較高。其中,在生物醫(yī)學(xué)領(lǐng)域,探知結(jié)論型模糊限制語較多。因?yàn)樵谏镝t(yī)學(xué)論文寫作中,當(dāng)作者根據(jù)實(shí)驗(yàn)現(xiàn)象推測(cè)結(jié)論時(shí),常常使用探知結(jié)論型模糊限制語。在維基百科領(lǐng)域,客觀依據(jù)型模糊限制語所占比例明顯高于生物醫(yī)學(xué)領(lǐng)域。其主要原因是本文選取了國(guó)家介紹、歷史人物介紹、事件介紹的文章,所以往往借用別人的觀點(diǎn)來表述自己態(tài)度。一般而言,程度變動(dòng)型和數(shù)量變動(dòng)型模糊限制語在各個(gè)領(lǐng)域都比較常用,因此,這兩類模糊限制語在生物醫(yī)學(xué)和維基百科中都占有較大的比重。
標(biāo)注完成后,對(duì)標(biāo)注語料進(jìn)行一致性分析。先比較兩份獨(dú)立標(biāo)注的語料,將其中一份語料作為標(biāo)準(zhǔn)語料;再分別將兩份獨(dú)立標(biāo)注的語料(標(biāo)注結(jié)果1,標(biāo)注結(jié)果2)與最終語料進(jìn)行比較,最終語料作為標(biāo)準(zhǔn)語料。采用式(1)、式(2)和式(3)計(jì)算獲得F值作為一致率。
上式中,TP(True Positives)表示兩份語料中相同的模糊限制語的個(gè)數(shù)。FP(False Positives)表示評(píng)測(cè)語料中被標(biāo)注為模糊限制語,而標(biāo)準(zhǔn)語料中未被標(biāo)注為模糊限制語的個(gè)數(shù)。FN(False Negatives)表示評(píng)測(cè)語料中未被標(biāo)注為模糊限制語,而標(biāo)準(zhǔn)語料中被標(biāo)注為模糊限制語的個(gè)數(shù)。一致性分析結(jié)果如表2所示。
表2 一致性分析結(jié)果
模糊限制語級(jí)別的F值采用精確匹配,即左、右邊界完全匹配時(shí)認(rèn)為識(shí)別正確,而句子級(jí)別的F值只需句子的模糊性判斷正確即可。各列中的第一項(xiàng)表示兩份獨(dú)立標(biāo)注的語料間的一致率,第二項(xiàng)和第三項(xiàng)表示兩份獨(dú)立標(biāo)注語料與最終語料間的一致率。由表2可見,模糊限制語級(jí)別的一致性明顯低于句子級(jí)別的一致性,說明模糊限制語的識(shí)別比模糊限制性句子識(shí)別更具難度。同時(shí),由于模糊限制語沒有明確的定義,有一些詞語需要根據(jù)上下文語境判斷其是否表模糊性,因此,模糊限制語的標(biāo)注具有一定的主觀性。但是,在語料的標(biāo)注過程中,規(guī)則的制定者與兩名語言學(xué)專家對(duì)前兩份獨(dú)立標(biāo)注語料的不一致處進(jìn)行了深入的探討,反復(fù)修改了標(biāo)注規(guī)則。兩名語言學(xué)專家又根據(jù)新的規(guī)則分別修改了各自的標(biāo)注語料。這也說明中文模糊限制語具有較大的歧義性,中文模糊限制信息檢測(cè)存在較大的難度。兩份獨(dú)立標(biāo)注的語料間的一致性低于它們分別與最終語料間的一致性,這是因?yàn)樽罱K語料是規(guī)則的制定者對(duì)兩份獨(dú)立標(biāo)注語料的不同之處再修改獲得的,所以有可能和二者之一相同。當(dāng)然,規(guī)則的制定者也對(duì)全部語料進(jìn)行了審查,修改了部分獨(dú)立標(biāo)注語料的相同標(biāo)記,最終語料具有較高的質(zhì)量。
本文根據(jù)中文模糊限制語的語義和語用功能,對(duì)其類型進(jìn)行了更細(xì)致的劃分。在生物醫(yī)學(xué)和維基百科兩個(gè)領(lǐng)域,設(shè)計(jì)構(gòu)建了中文模糊限制語語料庫(kù)。在語料庫(kù)構(gòu)建過程中,從語料收集、標(biāo)注規(guī)范制定和語料標(biāo)注等多方面提高語料庫(kù)的質(zhì)量。目前已標(biāo)注完成了一個(gè)具有2.4萬句規(guī)模的中文模糊限制語語料庫(kù)。統(tǒng)計(jì)表明,生物醫(yī)學(xué)文獻(xiàn)全文中35.09%的句子,維基百科中33.78%的句子包含模糊限制信息。兩個(gè)領(lǐng)域中,由于詞語的使用頻率不同,所以模糊限制語的類型分布具有較大的差異。實(shí)驗(yàn)檢測(cè)了語料標(biāo)注的一致率,其中模糊限制語的一致率不高,表明中文模糊限制語具有歧義性,中文模糊限制語識(shí)別存在較大的難度。語料庫(kù)的建設(shè)是一項(xiàng)長(zhǎng)期而艱巨的任務(wù),下一步我們將繼續(xù)完善標(biāo)注規(guī)范,改進(jìn)標(biāo)注質(zhì)量,擴(kuò)大語料規(guī)模。此外,本文僅標(biāo)注了中文模糊限制語及其所屬類別,標(biāo)注模糊限制語的限制范圍也將是本文下一步的研究工作。最后,我們希望盡快推出一個(gè)語料庫(kù)的在線版本,為中文模糊限制語的研究提供共享資源。并基于中文模糊限制信息語料庫(kù),進(jìn)行模糊限制信息檢測(cè)研究。
[1] Lakoff G.Hedges:a study in meaning criteria and the logic of fuzzy concepts[J].Journal of Philosophical Logic,1973,2(4):458-508.
[2] Farkas R,Vincze V,Móra G,et al.The CoNLL 2010 shared task:learning to detect hedges and their scope in natural language text[C]//Proceedings of the CoNLL,Uppsala,Sweden,2010,1-12.
[3] Szarvas G,Vincze V,F(xiàn)arkas R,et al.The BioScope corpus:biomedical texts annotated for uncertainty,negation and their scopes[J].BMC Bioinformatics,2008,9(11):S9.
[4] Medlock B and Briscoe T.Weakly supervised learning for hedge classification in scientific literature[C]//Proceedings of the ACL,2007:992-999.
[5] Kim J D,Ohta T,Tsujii J.Corpus annotation for mining biomedical events from literature[J].BMC Bioinformatics,2008,9(10):1-25.
[6] Settles B,Craven M,F(xiàn)riedland L.Active learning with real annotation costs[C]//Proceedings of the NIPS Workshop on Cost-Sensitive Learning,Vancouver,Canada,2008:1-10.
[7] Shatkay H,Pan F,Rzhetsky A,et al.Multi-dimensional classification of biomedical text:toward automated,practical provision of high-utility text to diverse users[J],Bioinformatics,2008,24(18):2086-2093.
[8] Nawaz R,Thompson P,Ananiadou S.Evaluating a meta-knowledge annotation scheme for bioevents[C]//Proceedings of the Workshop on Negation and Speculation in Natural language Proceeding,Uppsala,2010:69-77.
[9] Uzuner O,Zhang X R,Sibanda T.Machine learning and rule-based approaches to assertion classification[J].Journal of the American Medical Informatics Association,2009,16(1):109-115.
[10] Rubin V L,Liddy E D,Kando N.Certainty identification in texts:Categorization model and manual tagging results[J].Computing Attitude and Affect in Text:Theory and Applications,2006,20:61-76.
[11] Wilson T A.Fine-grained subjectivity and sentiment analysis:Recognizing the intensity,polarity,and attitudes of private states[D].Ph.D.thesis,Univer-sity of Pittsburgh,PA.2008.
[12] SauríR,Pustejovsky J.FactBank:A corpus annotated with event factuality[J].Language Resources and Evaluation,2009,43(3):227-268.
[13] Rubin V L.Epistemic modality:From uncertainty to certainty in the context of information seeking as interactions with texts[J].Information Processing and Management,2010,46(5):533-540.
[14] 王舟.英漢學(xué)術(shù)論文摘要中模糊限制語的對(duì)比研究--一項(xiàng)基于語料庫(kù)的研究[J].華中科技大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2008,22(6):59-63.
[15] 陳萍,蔣躍.中英醫(yī)學(xué)論文摘要中模糊限制語的對(duì)比研究[J].外語藝術(shù)教育研究,2009,3(1):15-20.
[16] 范曉暉,李曉,李瑩.中英作者醫(yī)學(xué)論文英文摘要中模糊限制語的對(duì)比研究[J].西北醫(yī)學(xué)教育,2010,18(5):1019-1021.
[17] 顧敏,周紅.英漢訪談節(jié)目中模糊限制語語用功能的對(duì)比研究[J].嘉興學(xué)院學(xué)報(bào),2013,25(1):87-91.
[18] Prince E F,F(xiàn)rader J,Bosk C.On hedging in physician-physician discourse[J].Linguistics and the Professions,1982:83-97.
[19] Szarvas G,Vincze V,F(xiàn)arkas R,et al.Cross-Genre and Cross-Domain Detection of Semantic Uncertainty[J].Association for Computational Linguistics,2012,38(2):335-367.
[20] 何自然.模糊限制語與言語交際[J].外國(guó)語(上海外國(guó)語學(xué)院學(xué)報(bào)),1985,(5):27-31.
[21] 文旭.語義模糊與翻譯[J].中國(guó)翻譯,1996,(2):5-8.
[22] 蘇遠(yuǎn)連.英漢模糊限制語的分類和功能[J].廣州大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2002,1(4):29-32.
[23] 蔣平.國(guó)內(nèi)模糊語言研究:現(xiàn)狀與目標(biāo)[J].外國(guó)語(上海外國(guó)語大學(xué)學(xué)報(bào)),2013,36(5):43-49.