周惠巍,楊 歡,徐俊利,張 靜,亢世勇
(1. 大連理工大學 計算機科學與技術學院,遼寧 大連 116024;2. 魯東大學 文學院,山東 煙臺 264025)
中文模糊限制信息范圍語料庫的研究與構建
周惠巍1,楊 歡1,徐俊利1,張 靜2,亢世勇2
(1. 大連理工大學 計算機科學與技術學院,遼寧 大連 116024;2. 魯東大學 文學院,山東 煙臺 264025)
模糊限制語用于表示不確定性的觀點。由模糊限制語所引導的信息為模糊限制信息,開展中文模糊限制信息檢測研究,對事實信息抽取意義重大。模糊限制信息檢測包含模糊限制性句子識別和模糊限制信息范圍檢測兩個子任務。中文模糊限制信息范圍語料庫的缺乏,影響了中文模糊限制信息檢測的研究。該文研究制定了基于短語結構的中文模糊限制信息范圍標注規(guī)則,構建了中文模糊限制信息范圍語料庫。最后對標注的語料庫進行了統(tǒng)計和分析。該文語料庫的構建為中文模糊限制信息檢測研究提供了資源支持。
中文模糊限制信息范圍;標注規(guī)則;語料庫
模糊性是人類語言的一種屬性,由于各種局限性,在語言交流和寫作中,常常借助模糊限制語(hedges)表達不確定性的含義[1]。由模糊限制語所引導的信息為模糊限制信息(hedge information)。開展模糊限制信息檢測研究,對事實信息抽取具有重要意義。英文模糊限制語研究開始較早,Prince等[2]從語用功能上將模糊限制語分為變動型和緩和型。近年來,模糊限制信息檢測研究引起了國內(nèi)外研究人員的廣泛關注。2010年計算自然語言學會議(Conference on Natural Language Learning, CoNLL)提出了模糊限制語識別及其范圍(scope)檢測共享任務(share task)[3]。其中模糊限制語識別包含生物醫(yī)學和維基百科兩個領域。生物醫(yī)學領域語料源自BioScope語料庫[4],維基百科語料源自WikiWeasel語料庫[3],各兩萬句。模糊限制信息范圍檢測只采用了生物醫(yī)學領域的BioScope語料庫[4]。該語料庫按模糊限制語的詞性制定了范圍標注規(guī)則。公開發(fā)表的英文模糊限制信息語料庫還有新聞領域的FactBank語料庫[5]。模糊限制信息語料庫的構建促進了英文模糊限制信息檢測的研究[6]。
近年來,模糊限制信息檢測研究引起了國內(nèi)研究人員的廣泛關注[7-8]。鄒博偉等[7]詳細闡述了CoNLL-2010共享任務及不確定信息研究現(xiàn)狀,并指出語料庫的構建是中文模糊限制信息研究的重要基礎。周惠巍等[8]基于句法結構約束檢測模糊限制信息范圍,在CoNLL-2010共享任務數(shù)據(jù)集上取得了較好的檢測性能。
中文模糊限制語也廣泛地用于生物醫(yī)學等各個領域[9-10]。如例(1)源自生物醫(yī)學領域文獻,作者使用模糊限制語“可能”,表明命題“這是由于增加了AKT,ERK磷酸化而引起的”的不確定性。而例(1)前半部分“在C6細胞中,血清的存在正調(diào)控內(nèi)源受體的激活,使細胞凋亡率降低”為事實信息。因此在檢測模糊限制信息中,模糊限制語識別及其范圍檢測同樣重要。
例1在C6細胞中,血清的存在正調(diào)控內(nèi)源受體的激活,使細胞凋亡率降低,(這可能是由于增加了AKT,ERK磷酸化而引起的)scope。
與英文相比,中文模糊限制信息檢測研究開始較晚。何自然[9]在Prince等人[2]的研究基礎上,將變動型模糊限制語分為程度變動型和范圍變動型,將緩和型模糊限制語分為直接緩和型和間接緩和型,但是沒有研究語料庫的構建。Chen等人[11]構建了一個中文模糊限制語及其范圍語料庫,包含《計算機學報》論文4 842句,然而文中僅指出了副詞和動詞性模糊限制語的限制范圍標注規(guī)則。曹媛等[12]在ACE2005中文事件抽取語料庫上,根據(jù)事件選擇謂詞的語義,標注了事件的事實性程度,包括“確定”、“可能”和“不確定”三種取值。該語料可以用于事件的事實性研究。計峰等人[13]在新聞領域標注了一萬句語料,進行中文不確定句子識別研究,該語料僅標注了模糊限制語,沒有標注其限制范圍。Zou等人[14]在科技文獻、股市和產(chǎn)品評論三個領域,構建了16 841句模糊限制語及其范圍語料,根據(jù)上下文語義,標注模糊限制語,基于完整性和連續(xù)性原則標注模糊限制信息范圍,沒有闡述具體的標注規(guī)則。
中文醫(yī)學文獻包含大量模糊限制語[15]。除醫(yī)學文獻外,維基百科作為一個用戶協(xié)作編輯的知識系統(tǒng),其中蘊涵了豐富的信息,成為信息抽取的重要語料資源。但是當撰寫者不能提供完全準確的信息時,往往使用模糊限制語,使自己的陳述更客觀。本文在生物醫(yī)學和維基百科兩個領域,根據(jù)模糊限制語的類型、詞性及句子的短語結構,制定了詳細的中文模糊限制信息范圍標注規(guī)則,并構建了模糊限制信息范圍語料庫。
本文組織結構如下: 第二節(jié)闡述了中文模糊限制語的分類和及其范圍標注規(guī)則,并描述了標注的過程;第三節(jié)對標注完成的語料進行了統(tǒng)計和分析;第四節(jié)是結論與展望。
2.1 中文模糊限制語分類
根據(jù)Prince等人[2]和何自然[9]的分類方法,模糊限制語可分為變動型和緩和型兩類。在此基礎上,本文根據(jù)模糊限制語的語義和語用功能,對這兩大類模糊限制語進行了更細致的劃分。
(1) 變動型模糊限制語。
變動型模糊限制語是對話題本身進行某種程度的限制,它能修改話題原來的真值。根據(jù)話題變動的類型,此類模糊限制語可細分為數(shù)量變動、程度變動、范圍變動和頻率變動四個類型。
? 數(shù)量變動型: 當說話人不能明確地說出具體的數(shù)字,但是能估計出一個大概的數(shù)量時,使用到數(shù)量變動模糊限制語。如: “少數(shù)”、“大部分”等。
? 程度變動型: 將一些接近正確但不敢肯定完全正確的話題,表述得與實際情況更接近,避免過于武斷,表明話題與真實情況的接近程度。如: “有點”、“稍微”等。
? 范圍變動型: 可以在一定的范圍內(nèi)理解話題的意義,而不必考慮具體情況與所說的話題的接近程度。如: “大約”、“在一定范圍內(nèi)”“將近”等。
? 頻率變動型: 用于反映一個事件發(fā)生的頻率。如: “常?!?、“偶爾”等。
(2) 緩和型模糊限制語。
當說話人提出某一個論斷時,緩和型模糊限制語可以緩和說話人的語氣,減輕說話人為此論斷所負的責任,這類模糊限制語不改變話題的真值。根據(jù)緩和型模糊限制語的語用功能將其細分為主觀見解型、客觀依據(jù)型、探知結論型和條件假設型四類。
? 主觀見解型: 用來表示說話人闡述的話題只是個人的主觀見解。使用這類模糊限制語可以在一定程度上削弱說話人對話題所承擔的責任。如: “我認為”、“就我所知”等。
? 客觀依據(jù)型: 借助第三方或大家普遍認同的觀點,表達說話人對某事所持有的態(tài)度。說話人在一定程度上同意第三方的觀點,只是他對此觀點究竟有多大程度的贊同,在話語中看不出來,只能另作推斷。例如,“據(jù)說”、“有人說”等。
? 探知結論型: 用來表示對某個結論的推測,根據(jù)存在的現(xiàn)象推知未來可能會發(fā)生的事情或有待證明的結論。如: “表明”、“可能”和“仍不清楚”等。
? 條件假設型: 通過給出假定的前提條件表明說話人的意愿,但現(xiàn)在事實是怎樣的并不知曉。如: “如果”、“假定”等。
2.2 標注過程
為了保證標注的準確性,首先由規(guī)則制定者給兩名獨立標注人員講解標注規(guī)則,并共同討論、修正規(guī)則。然后由兩名獨立標注人員根據(jù)規(guī)則,分別標注模糊限制語及其范圍。最后規(guī)則制定者統(tǒng)一兩份標注語料中不一致的標注,形成最終的中文模糊限制信息范圍語料庫。具體的標注過程如圖1所示。
2.3 基本標注規(guī)則
模糊限制語的標注遵循“最小原則”: 標注能表明模糊限制性的最小單元為模糊限制語,多個模糊限制語組合起來表示模糊限制性時,分別標注每個模糊限制語。中文模糊限制范圍標注遵循以下基本原則:
(1) 連續(xù)性和完整性原則。
中文模糊限制信息范圍標注遵循“連續(xù)原則”,即模糊限制語的作用范圍為包含該模糊限制語的一段連續(xù)字符串。同時保持“完整性”,即為包含該模糊限制語的具有完整語義的最大句法單元。模糊限制信息雖具有不確定性,但也是有價值的信息,可用于知識發(fā)現(xiàn)等[16]。所以應該盡量完整地標記出來。這與英文BioScope語料庫[4]的標注原則不同,BioScope標注了每個模糊限制語的語法修飾范圍。
(2) 當模糊限制語為動詞的被動語態(tài)時,模糊限制信息范圍應該包含主語。
例句(2)中的模糊限制語“被認為”是動詞的被動語態(tài),如果其模糊限制信息范圍僅為其修飾的“被認為能透露出受測者是否說謊”,不包含動詞的主語“說謊而引起此類生理反應的變化”,則無法表示完整語義。所以應該包含動詞的主語,這也符合“完整性”。
例2由于此類生理反應是不由自主地產(chǎn)生的,
我們還規(guī)定,如果模糊限制信息范圍結束于句尾,則不包含句尾的標點符號。如果一個句子中有多個模糊限制語,各個模糊限制信息范圍可以并列,也可以嵌套,但不能存在交叉。
2.4 具體標注規(guī)則
不論是中文還是英文,模糊限制信息范圍的界定都具有依賴于句法結構的特點[17-18]。根據(jù)模糊限制語的類型、詞性及句子短語結構,制定模糊限制信息范圍標注規(guī)則。模糊限制語可以分為變動型和緩和型兩大類。緩和型模糊限制語中,探知結論型與客觀依據(jù)型居多,并且,探知結論型模糊限制語大多是動詞和副詞。變動型的模糊限制語大多是形容詞及副詞。下面介紹這些常見類型的模糊限制語的范圍標注規(guī)則,并采用斯坦福句法解析器(Stanford parser)*http://nlp.stanford.edu/software/lex-parser.shtml,獲得例句的短語結構樹,輔助對規(guī)則的理解。
(1) 緩和型模糊限制語的限制范圍標注規(guī)則。
? 動詞性探知結論型模糊限制語: 其范圍為距離模糊限制語最近的祖先動詞短語(verb phrase, VP)。
例3蘇聯(lián)的科學家Bukasov(1935)和Vavilov(1935)
例3中使用動詞性探知結論型模糊限制語“推斷”,說明命題“歐洲的馬鈴薯的起源就是智利的馬鈴薯”是一個不確定的、待證明的命題,而前面的“蘇聯(lián)的科學家Bukasov(1935)和Vavilov(1935)”是一個確定的信息。并且不加入這一確定的信息,“推斷”所引導的動詞短語“推斷歐洲的馬鈴薯的起源就是智利的馬鈴薯”即可表示完整的語義。這與例2的被動語態(tài)不同。
例3的短語結構樹如圖2所示。VP1是距離模糊限制語“推斷”最近的祖先VP類型節(jié)點。模糊限制信息范圍為該VP1結構,即VP1的第一個詞“推斷”為范圍左邊界,VP1的最后一個詞“馬鈴薯”為范圍右邊界。
圖2 例3的短語結構樹
? 副詞性探知結論型模糊限制語: 其范圍包括距離模糊限制語最近的祖先VP,以及與該VP類型節(jié)點同層次的左邊相鄰的名詞短語(noun phrase, NP)。
例4結論:
例4中,使用“可能”,使得命題“TLR通過抑制p38MAPK-FN通路對糖尿病腎病大鼠的腎臟產(chǎn)生保護作用”具有不確定性。因為“TLR”是“可能”的主語,為標注完整的語義信息,“TLR”應該包含在模糊限制信息范圍內(nèi)。
例4的短語結構樹如圖3所示。VP1是距離“可能”最近的祖先VP類型節(jié)點,NP1是與VP1同層次的左邊相鄰的NP結構。所以NP1的第一個詞“TRL”為范圍左邊界,VP1的最后一個詞“作用”為范圍右邊界。
圖3 例4的短語結構樹
? 客觀依據(jù)型模糊限制語: 其范圍包含離模糊限制語最接近的祖先介詞短語(preposition phrase, PP),以及與該PP類型節(jié)點同層次的右側(cè)最接近的VP結構。
例5
例5中,作者使用“根據(jù)”,減輕對命題“IUGR會明顯增加成人后患心血管疾病的概率”真假性所負的責任。所以該命題應該包含在模糊限制信息范圍內(nèi)?;凇斑B續(xù)性原則”、“根據(jù)”和命題之間的“胎兒源性成人疾病學說”也應該包含在模糊限制信息范圍內(nèi)。
(2) 變動型模糊限制語的限制范圍標注規(guī)則。
? 形容詞性變動型模糊限制語: 當模糊限制語為形容詞時,它通常在一個NP結構中。如果距離模糊限制語最近的祖先NP類型節(jié)點的父親節(jié)點是VP類型,則模糊限制信息范圍為包含模糊限制語的連續(xù)最上層祖先VP結構,以及與該VP類型節(jié)點同層次的左邊相鄰的NP結構,如例6。如果距離模糊限制語最近的祖先NP類型節(jié)點的父親節(jié)點不是VP類型,則模糊限制信息范圍包含該NP結構,以及與該NP類型節(jié)點同層次的右側(cè)最接近的VP結構,如例7。這與英文BioScope語料庫[4]的標注原則不同,BioScope認為形容詞性模糊限制語的范圍為其所修飾的名詞短語。本文強調(diào)具有模糊性的完整命題。
例6總之,
例6的短語結構樹如圖4所示。其中,NP2是距離“一定的”最近的祖先NP類型節(jié)點,VP1是“一定的”連續(xù)的最上層祖先VP類型節(jié)點。連續(xù)的最上層祖先VP類型節(jié)點是指: 如果離模糊限制語最近的祖先VP類型節(jié)點的父親節(jié)點屬性也是VP,則繼續(xù)沿著祖先節(jié)點路徑向上尋找,直到找到父親節(jié)點不是VP類型的最上層VP類型節(jié)點。此句中,距離模糊限制語“一定的”最近的祖先VP類型節(jié)點是VP2,沿著虛線向上尋找,找到VP1,沿著虛線繼續(xù)向上尋找,發(fā)現(xiàn)VP1的父親節(jié)點類型為IP,返回到VP1。NP1是與VP1同層次的左側(cè)相鄰的NP結構。所以NP1的第一個詞“Toll”為范圍左邊界,VP1的最后一個詞“作用”為右邊界。
圖4 例6的短語結構樹
例7修憲后
例7的短語結構樹如圖5所示。其中,NP1是距離“大部分”最近的祖先NP類型節(jié)點,而NP1的父親節(jié)點IP不是VP類型節(jié)點。所以模糊限制信息范圍包含NP1結構,以及與該NP1類型節(jié)點同層次的右邊最接近的VP1結構。
? 副詞性變動型模糊限制語: 模糊限制信息范圍為包含模糊限制語的連續(xù)的最上層祖先VP結構,以及與該VP類型節(jié)點同層次的左邊相鄰的NP結構。
圖5 例7的短語結構樹
例81919年1月5日,
例8中,“幾乎”使得“沒有遭遇抵抗”的程度不確定,所以“沒有遭遇抵抗”要包含在范圍內(nèi),而“沒有遭遇抵抗”的主語是“紅軍進入明斯克”這一動作,如果缺少該主語則命題不完整,所以“紅軍進入明斯克”也要包含在范圍內(nèi)。
中文使用千變?nèi)f化,不是所有的句子都能基于規(guī)則進行標注。在實際標注過程中,需要根據(jù)模糊限制語的上下文和句子的語義標注模糊限制信息范圍。另外,斯坦福句法解析錯誤較多,需要人工修正錯誤的句法解析結果。
3.1 語料庫的統(tǒng)計數(shù)據(jù)
在生物醫(yī)學和維基百科兩個領域共標注語料24 000余句。中文模糊限制語的統(tǒng)計信息如表1所示。生物醫(yī)學文獻中,33.30%的句子包含模糊限制信息。其中,48.03%的模糊限制語為變動型,51.97%為緩和型。維基百科中,33.10%的句子包含模糊限制信息。其中,71.99%的模糊限制語為變動型,28.01%為緩和型??梢妰煞N類型的模糊限制語廣泛地用于中文文獻。而英文生物醫(yī)學領域的BioScope語料庫[4]僅標注了緩和型模糊限制語,WikiWeasel語料庫[3]僅標注了變動型模糊限制語。
表1 中文模糊限制語的統(tǒng)計信息
中文模糊限制信息范圍標注的統(tǒng)計信息如表2所示。從表2可以看出,模糊限制信息范圍“不開始于模糊限制語”的數(shù)量多于“開始于模糊限制語”的數(shù)量。這主要是因為基于完整性,常常將主語也包含在范圍內(nèi)?!安唤Y束于句尾”的數(shù)量多于“結束于句尾”的數(shù)量。然而,“開始于模糊限制語”和“結束于句尾”還是占有較大比例。
3.2 一致性分析
對每個模糊限制語都標記了唯一的范圍開始和結束標記,所以召回率為百分之百。采用準確率作為一致率,分析標注一致性。中文模糊限制信息范圍語料庫的一致率如表3所示。Left-Scope為左邊界匹配的一致率,Right-Scope為右邊界匹配的一致率,F(xiàn)ull-Scope為左、右邊界同時匹配的一致率。各單元格中的第一項表示兩份獨立標注的語料間的一致率,第二項和第三項分別表示兩份獨立標注語料與最終語料間的一致率。
表2 中文模糊限制信息范圍的統(tǒng)計信息
表3 中文模糊限制信息范圍語料標注的一致率
由表3可見,各單元格中的第一項均低于第二項和第三項,這是因為最終語料是規(guī)則的制定者對兩份獨立標注語料的不同之處進行統(tǒng)一后獲得的,所以有可能和二者之一相同。Right-Scope和Left-Scope的一致率十分接近,且Right-Scope的一致率略高于Left-Scope,說明在標注過程中,界定中文模糊限制信息范圍的左邊界略難于中文模糊限制信息范圍的右邊界。Full-Scope的一致率明顯低于Left-Scope和Right-Scope的一致率。
表4是兩份獨立標注語料的Full-Scope一致率。本文對客觀依據(jù)型和探知結論型模糊限制語制定了清楚的標注規(guī)則,從表4可以看出,每份語料中這兩個類型的一致率都較高??梢娭贫蚀_的規(guī)則有助于中文模糊限制信息范圍的標注?!皩嶒灲Y果”語料中的主觀見解型模糊限制語的一致率為0,這是因為該語料中只有兩個主觀見解型模糊限制語,而兩名獨立標注人員對這兩個模糊限制語的范圍標注都不一致。
表4 兩份獨立標注語料的Full-Scope一致率
雖然制定了清晰的標注規(guī)則,但仍存在標注分歧,說明標注存在一定的主觀性,且中文語言豐富多彩,規(guī)則不能涵蓋所有的情況。部分分歧如下:
(1) 連接詞是否要包含在模糊限制信息范圍內(nèi)。
標注(1): 陸地邊界現(xiàn)在已清楚劃定,并
標注(2): 陸地邊界現(xiàn)在已清楚劃定,
最終,我們按標注(1)進行統(tǒng)一,認為“并”和前面的句子有關系,對后面的句子沒有影響,所以不將它包含在模糊限制信息范圍內(nèi)。
(2) 當一個句子中出現(xiàn)多個模糊限制語時,易出現(xiàn)標注分歧。
標注(1): 不會疼痛且沒有感染的臉部腫脹也算是一種類型的腮腺炎,
標注(2): 不會疼痛且沒有感染的臉部腫脹也算是一種類型的腮腺炎,
這個例句中有兩個模糊限制語,第二個模糊限制語“或”的限制信息范圍標注出現(xiàn)了不一致。這種情況下,為使兩個模糊限制語的范圍不重復,將標注(1)作為正確的標注。
3.3 與相關研究的比較
何自然[9]研究了模糊限制語的定義和分類,但沒有進行語料庫的構建研究。Chen等人[11]構建了一個中文模糊限制語及其范圍語料庫,然而僅包含科學文獻一個領域;指出了副詞和動詞的模糊限制范圍應該擴展到從句或整個句子,但是沒有闡明其他詞性模糊限制語的范圍標注規(guī)則。曹媛等人[12]在已有的中文事件抽取語料庫上,根據(jù)謂詞的語義,將事件劃分為“確定”、“可能”和“不確定”三種。該語料可以用于事實性事件的抽取研究。計峰等人[13]為進行中文不確定句子識別研究,對1萬句新聞領域語料進行了確定性和非確定性標注,但是沒有標注模糊限制信息范圍。Zou等人[14]在科技文獻、金融報道和產(chǎn)品評論三個領域,構建了模糊限制語及其范圍語料;指出了模糊限制語及其范圍標注的總原則,即根據(jù)上下文語義標注模糊限制語;基于完整性和連續(xù)性原則標注模糊限制信息范圍。
本文根據(jù)模糊限制語的語義和語用功能,對模糊限制語進行了更細致的劃分,使得模糊限制語的概念更加明確。且針對不同類型、不同詞性的模糊限制語,詳細闡述了其范圍標注規(guī)則。詳盡的標注規(guī)則,不但保證了標注語料的質(zhì)量,對模糊限制信息范圍檢測研究,也具有指導意義。此外,本文在生物醫(yī)學和維基百科兩個領域,構建了模糊限制語及其范圍語料,為模糊限制信息檢測提供了充足的資源。
本文研究構建了生物醫(yī)學和維基百科兩個領域的中文模糊限制信息范圍語料庫。根據(jù)中文模糊限制語的類型、詞性及句子的短語結構,制定了中文模糊限制信息范圍標注規(guī)則。實驗從語料的領域和模糊限制語的類別兩個方面,統(tǒng)計了范圍標注的一致性。基于詳盡的標注規(guī)則和嚴格的標注過程,語料標注取得了較高的一致率。標注完成的語料庫包含 10 534個模糊限制語及其作用范圍。語料規(guī)模足以用于中文模糊限制信息檢測的研究。下一步我們將推出一個語料庫的在線版本,為中文模糊限制語的研究提供共享資源。并根據(jù)使用者的反饋意見,繼續(xù)完善標注規(guī)范,改進標注質(zhì)量,擴大語料規(guī)模。
[1] Lakoff G. Hedges: a study in meaning criteria and the logic of fuzzy concepts [J]. Journal of Philosophical Logic, 1973, 2(4): 458-508.
[2] Prince E F,Frader J, Bosk C. On hedging in physician-physician discourse [J]. Linguistics and the Professions, 1982: 83-97.
[3] Farkas R, Vincze V, Móra G, et al. The CoNLL 2010 Shared Task: Learning to detect hedges and their scope in natural language text [C]//Proceedings of the CoNLL, Uppsala, Sweden, 2010: 1-12.
[4] Vincze V, Szarvas G, Farkas R, et al. The BioScope corpus: biomedical texts annotated for uncertainty, negation and their scopes [J]. BMC Bioinformatics, 2008, 9(11): S9.
[5] Saurí R and Pustejovsky J. FactBank: A corpus annotated with event factuality [J]. Language Resources and Evaluation, 2009, 43(3): 227-268.
[6] Tang B Z, Wang X L, Wang X, et al. A cascade method for detecting hedges and their scope in natural language text [C]//Proceedings of the CoNLL, Uppsala, Sweden, 2010: 25-29.
[7] 鄒博偉, 周國棟, 朱巧明. 否定與不確定信息抽取研究綜述[J]. 中文信息學報,2015, 29(4): 16-24.
[8] 周惠巍, 楊歡, 黃德根, 等. 基于句法結構約束的模糊限制信息范圍檢測[J]. 中文信息學報,2013, 27(5): 137-143.
[9] 何自然. 模糊限制語與言語交際[J]. 外國語(上海外國語學院學報), 1985, (5): 27-31.
[10] 賈曉凡, 蔣躍. 基于小型語料庫的模糊限制語分類方法的對比研究[J]. 外語藝術教育研究, 2011, (3): 10-14.
[11] Chen Z C, Zou B W, Zhu Q M, et al. The scientific literature corpus for chinese negation and uncertainty identification[M]. Chinese Lexical Semantics. Springer Berlin Heidelberg, 2013: 657-667.
[12] 曹媛,朱巧明,李培峰. 中文事件事實性信息語料庫的構建方法[J]. 中文信息學報,2013, 27(6): 38-44.
[13] 計峰, 邱錫鵬, 黃萱菁. 中文不確定性句子的識別研究[C]. 全國信息檢索學術會議,2010: 594-601.
[14] Zou B W, Zhu Q M, Zhou G D. Negation and Speculation Identification in Chinese Language [C]//Proceedings of the ACL-2015, Beijing, 2015: 656-665.
[15] 陳萍, 蔣躍. 中英醫(yī)學論文摘要中模糊限制語的對比研究[J]. 外語藝術教育研究, 2009, 3(1): 15-20.
[16] Velldal E, Ovrelid L, Read J, et al. Speculation and negation: rules, rankers, and the role of syntax[J]. Association for Computational Linguistics, 2012, 38(2): 369-410.
[17] Cheng L X, Lin H F, Zhou F, et al. Enhancing the accuracy of knowledge discovery: a supervised learning method [J]. BMC Bioinformatics, 2014, 15(Suppl 12): S9.
[18] Moncecchi G, Minel J, Wonsever D. The Influence of Syntactic Information on Hedge Scope Detection[C]//Proceedings of the 14th Ibero-American Conference on AI.Berlin: Springer, 2014:83-94.
ConstructionofChineseHedgeScopeCorpus
ZHOU Huiwei1,YANG Huan1,XU Junli1, ZHANG Jing2,KANG Shiyong2
(1. School of Computer Science and Technology, Dalian University of Technology, Dalian, Liaoning 116024,China;2. School of Liberal Arts, Ludong University, Yantai, Shandong 264025,China)
Hedge is usually used to express uncertainty. Hedge information indicates that authors do not backup their statements with facts. Chinese hedge information detection is of great significance for Chinese factual information extraction. Hedge information detection contains two subtasks: identifying hedges and detecting the in-sentence scopes of hedge cues. The lack of Chinese hedge scope corpus has limited the research of Chinese hedge scope information detection. This paper first manually crafted the syntactic rules for Chinese hedge scope annotation, and then constructs a Chinese hedge scope corpus. Finally, we statistically analyzed the corpus. The construction of the corpus provides a great support for Chinese uncertainty detection.
Chinese hedge scope; annotation rules; corpus
周惠巍(1969—),博士,副教授,主要研究領域為生物醫(yī)學信息挖掘、機器學習和自然語言處理。
楊歡(1988—),碩士研究生,主要研究領域為生物醫(yī)學信息挖掘、機器學習和自然語言處理。
徐俊利(1990—),碩士研究生,主要研究領域為生物醫(yī)學信息挖掘、機器學習和自然語言處理。
1003-0077(2017)03-0077-09
2015-09-28定稿日期: 2016-02-03
國家自然科學基金(61272375)
TP391
:A