龐 寧 ,楊爾弘
(1. 太原科技大學 應用科學學院, 山西 太原 030024; 2. 北京語言大學 國家語言資源監(jiān)測與研究中心平面媒體語言分中心,北京 100083)
突發(fā)事件是媒體關注的焦點。每一個突發(fā)事件產生后,都有大量的相關報道同時涌現(xiàn)出來。突發(fā)事件的應對是一個系統(tǒng)工程,其中一個重要環(huán)節(jié)就是信息的收集、整理、加工和發(fā)布。及時、客觀、準確地收集信息,快速、高效地提取有用信息,為分析形勢、制定策略提供翔實可靠的參考數據,已經成為提高突發(fā)事件應對能力的一個重要方面,也是衡量突發(fā)事件應對能力的一個重要指標。
共指消解的研究目的是在一篇文本中,找到指示同一實體的名詞、代詞、名詞短語,并形成若干個指代鏈。共指消解的研究課題越來越受到廣泛關注[1],研究策略主要是在大規(guī)模語料庫的支持下開展的,近年來利用語義特征進行共指消解成為研究熱點,例如,國外Ng[2]研究小組在前人的研究基礎上,提出一種自動獲取語義類的方法,引入ACE的語義分類標準,將名詞的語義類特征代入指代消解模型中,在ACE測試語料上的實驗結果表明,F(xiàn)值提高2個百分點。Yang[3]在預先定義的語義模式的基礎上,提出一種自動發(fā)現(xiàn)和評估模式的方法,并從語義模式中挖掘出語義相關信息,再將獲得的信息應用于指代消解,通過試驗證明語義相關信息是消解的一個重要因素,實驗表明模式信息有助于指代消解。國內蘇州大學的王海東,孔芳等[4]通過實驗發(fā)現(xiàn)將語義角色特征和指代鏈特征以及代詞細化特征的結合,能夠顯著提高系統(tǒng)的性能, 特別是對代詞的消解有很好的效果。
突發(fā)事件語料與普通文本語料相比,具有以下幾個特點。
1) 命名實體的突顯性。在突發(fā)事件的語料中,圍繞事件本身的相關的人物、組織結構、發(fā)生地點、發(fā)生時間等命名實體集中地突顯出來,例如,馬德里爆炸案中,“西班牙 ns”、“ 阿斯納爾 nh”、“ 巴斯克民族分裂組織 ni”、“ 上午7時45分 nt”,命名實體在詞語中的比例高達38.24%,由于突發(fā)事件是同事件的多文本,這些命名實體出現(xiàn)在文本中的重復率很高,所以準確識別和標注命名實體是良好地消解共指現(xiàn)象的基礎。
2) 未登錄詞的集中性。由于突發(fā)事件新聞報道通常是集中描述某一突發(fā)事件的發(fā)生和發(fā)展,大量與事件特征相關的描述性詞語頻繁出現(xiàn),而這些詞語通常在分詞中均為未登錄詞,例如,在馬德里爆炸案中,“國際社會”、“恐怖襲擊事件”、“連環(huán)爆炸事件制造者”等,這些詞語往往涵蓋了事件的重要信息,由于反復出現(xiàn)的幾率很大,所以常被指代,因此這部分未登錄詞的標注對共指消解是很關鍵的。
3) 標注語料的事件性,將事件信息作為標注的語言單位,突發(fā)事件報道以新聞六要素為關注點,所以,本文標注語料時,將事件的這些要素,包括事件發(fā)生的時間、地點、人物、內容、起因、結果等等作為事件信息重點標注出來,突發(fā)事件中事件的數量約為句子數量的2.3倍(突發(fā)事件信息的標注研究),說明一個句子中不是單一的一個事件,而是多事件,因此標注語料是以事件為單元。
本文所用語料均來自新華網,中新網,東方網,人民日報網等新聞網站。在標注語料時,參考 HTML 超文本標記語言格式方法,采用多組標簽對有利于計算機自動識別和人工處理。例如,分別表示實體編號,實體字數長度,實體的類型;表示實體的中心詞。
在突發(fā)事件新聞報道中,存在很多的共指現(xiàn)象,通過對同事件多文本的突發(fā)事件報道的分析,我們觀察到如下共指特點[5]。
1) 人稱代詞的指代現(xiàn)象
a. 指示語指稱的是一個人名實體,且指示語的候選先行語唯一,雖然有的距離跨越非常大,但是在先行語與指示語之間再沒有其他人名實體出現(xiàn);
b. 指示語指稱一個名詞短語,這類指代消解需要先進行名詞的短語捆綁,表示復數概念的還需要并合連詞兩側的同類名詞短語;
c. 指示語指稱組織/人名的概率較大,由于突發(fā)事件新聞報道的突發(fā)性、集中性,大量文本的指代相對集中某些特定類別的實體,例如,在“馬德里爆炸案”事件中,指示“組織”的指示語占32.9%,指代“人名”的占 45.4%。
2) 指示代詞的指稱現(xiàn)象
超聲輔助酸堿改性活性炭纖維對DBT脫硫性能的研究……………………………………………………………(1):7
指示代詞指稱的是一個事件或命名實體,這類指代占到了共指現(xiàn)象的62.07%。
針對突發(fā)事件新聞的共指消解任務,我們利用最大熵模型搭建了一個原型系統(tǒng)。所采取的解決策略是: 首先對語料庫進行預處理,包括句子邊界識別、分詞、詞性標注、命名實體識別、名詞短語識別、名詞短語中心詞獲取等。從訓練集中獲取到用于共指消解的正例和反例,再用GIS算法對最大熵模型進行訓練,利用訓練好的模型計算各待消解對的共指概率并用歸并策略得到共指鏈[6]。針對漢語自身特點以及消解任務的需求將特征分為4大類,共8個特征[6]。4大類特征分別是詞匯特征、語法特征、語義特征、距離特征、每種特征的具體特征分類以及該特征值的取值方法見表1。
表1 特征選取說明表
目前,可用于自然語言處理研究中的語義信息基本可以歸納為3類,語義類別,語義角色,語義相似度[7]。語義類別通常是指詞本身所屬的類別,通常這類信息可以用于初步過濾非指代的現(xiàn)象,而語義角色是指各種名詞短語對應于句中動詞所承擔的句法成分,語義相似度表示兩個名詞短語可以替換的程度,相似度越大的名詞短語就有可能相互指代。但是,能夠用于代詞消解,尤其是中性代詞,例如,它、它們、其、等這類代詞的消解僅用上述語義信息是不能完全消解的,因此我們嘗試在消解系統(tǒng)中加入了上下文特征等其他特征,幫助提高消解效率。
本系統(tǒng)的語義特征共分為3大類,分別為基于詞典的語義類別特征、基于句法的語義角色特征和基于維基百科的語義特征。
1) 基于詞典的語義特征
在原型系統(tǒng)中,我們采用了直接在HowNet上判斷各待消解項的語義類別的方法,對多義詞沒有進行排異,同時由于方法過于簡單帶來較大噪音,因此,為了提高各待消解項的語義類別的識別,我們將語義類別細化,并采用了基于機器學習與基于字典相結合的方法。首先是對語料中命名實體的語義類別的獲取,本文命名實體的類別是基于HMM的命名實體識別,根據 MUC會議的定義,命名實體有人名(person)、地名(location)、機構名(organization)、日期(date)、時間(time)、百分數(percentage)、貨幣(monetary value)這7類。本文中命名實體的語義類別就是指這個實體的類別。其次,對于命名實體識別程序沒有識別出來的名詞短語,我們獲得它的中心詞,然后在HowNet中查找其語義類別信息。表2是本文關于語義類別信息抽取的8種特征。
表2 語義類別特征
2) 語義角色特征
語義角色標注是淺層語義分析的應用之一。語義角色是句子中的名詞短語在相應動詞驅動下所承擔的句法成分。核心的語義角色為Arg0—5六種,Arg0通常表示動作的施事,Arg1通常表示動作的影響等。其余的語義角色為附加語義角色。依據中心理論,在一個句子中,主語最可能被指代,其次是賓語,最后是其他的一些名詞短語。如果先行語是句子的中心,比如作為主語或賓語,那么它很可能被指代。將語義角色和代詞特征結合,可以識別并排除一些不需要消解的固定搭配中的代詞。具體語義角色特征見表3。
目前維基百科被廣泛應用在自然語言處理的各個領域中,維基百科頁面之間具有非常密集的站內鏈接和便于機器訪問的結構化信息,利用其解釋頁面間超級鏈接之間的關系,可挖掘出語料中的更為深刻的語義關系。維基百科中一個解釋頁面對應一個主題概念,解釋頁面有簡潔的標題,通常對應目標概念的標準名稱,解釋頁面開頭的幾個段落,特別是第一個句子是對主題關鍵詞概念的定義和基本描述。
表3 語義角色特征
后續(xù)段落分別圍繞主題從各個角度展開具體闡述。
(1) 語義相關性特征。本文利用解釋頁面中的鏈接文字相互引用關系抽取語義相關詞,假設,若A的基本解釋或相關內容中利用超級鏈接引用了關鍵詞B,而B頁面也包含了指向A的超級鏈接,那么A和B就可以被認為是具有語義依賴關系的相關詞。根據超級鏈接所處的位置,A與B的語義依賴關系也不同,故設計的特征也不同,如從與主題語義相關性的角度考慮,位于頁面第一部分的基本描述段落最重要也最緊密,故設計了I/J_BASIC_CONTAINS特征,I/J_PARTIALBASIC_CONTAINS特征反映的語義相關性則次之,因為考察項可以出現(xiàn)的位置范圍從基本描述段落擴大至整個頁面,而假設一對候選共指對(i,j),具體特征如表4所示。
(2) 重定向特征。維基百科通過重定向頁面技術將同一概念的不同表達方式(簡稱、別名和非正規(guī)名稱等)鏈接到其主題概念的解釋頁面。具體方法是,在解釋頁面中尋找到“重定向自”標記,后面就是該實體的另一表述文字。另外在解釋頁面文檔的首段文本中有許多黑體標注的詞,這些詞同樣也是同一實體的其他表達形式。突發(fā)事件新聞報道中存在大量專有名詞無法被常規(guī)規(guī)則識別,其別名或簡稱更沒有專門的詞典或數據庫可以借鑒, 極大地影響了基于突發(fā)事件共指消解的效率,因此,借助維基百科的重定向技術可以很好地解決上述問題。
表4 語義相關性特征
I/J _redirection: 如果i(或 j)是維基百科的某個詞條,而j(或i)是i(或 j)的重定向頁面上的詞條,則返回1 ,否則返回0。
(3) 上下文特征。由于代詞本身缺乏明顯語義,故本文特別設計了I_CONTEXT、J_CONTEXT兩個特征,分別計算出I、J的背景知識與上下文[8]之間的相似度,本文采用了一種基于維基百科的文本距離法來計算背景知識和上下文的相似度,首先分別定位詞對(ca,cb)到相關的維基百科的解釋頁面,抽取各自的解釋文本的基本段落(pa,pb),在解釋文本中統(tǒng)計共同出現(xiàn)的詞串。如果找到n個詞串分別包含mn個詞,則詞對(ca,cb)的相似度如式(1)所示。
(1)
具體特征見表5。
表5 上下文特征
本實驗共標注了25萬字突發(fā)事件新聞語料用于訓練和測試,其中選取了5萬字語料用于測試,本文采用MUC對指代消解結果技術評估的三個指標,召回率 R(Recall)、準確率 P(Precision)和 F 值。其中: 召回率 R 是指代消解結果中正確消解的對象數目占消解系統(tǒng)應消解對象總數的百分比,它反映的是指代消解系統(tǒng)的完備性;準確率 P 是指代消解結果中正確消解的對象數目占實際消解的對象數目的百分比,它反映的是指代消解系統(tǒng)的準確程度。比較兩個不同系統(tǒng)的性能時,一般使用 F 值,F(xiàn) 值是召回率和準確率的調和平均數,定義如式(2)所示。
本文在原型系統(tǒng)和多種語義特征下的測試結果對比詳見表6。
語義類別特征是在原型系統(tǒng)的語義一致性的基礎上,增加了專用名詞類的判定,例如,人名、組織名、地名和事件,這些實體恰恰是突發(fā)事件中經常出現(xiàn)的。因此召回率增加了1.12%,準確率增加了2.44%。
在原型系統(tǒng)的基礎上單純加入語義角色特征,各指標均有所下降,F(xiàn)值下降了1.31%。原因是語義角色特征有強化句子中心的作用,而代詞往往是作為句子的中心,所以單純加入角色信息會有一定的干擾作用。因此將語義角色與代詞特征相結合,能突顯代詞的語法角色,有助于提高系統(tǒng)性能。
原型系統(tǒng)加入語義相關性特征,之前沒有被正確識別的待消解項由于在維基百科頁面上同現(xiàn)而被正確識別,但同時也帶來了的噪聲。因此召回率升高的同時,準確率也會降低。
在維基百科網頁中,重定向頁面不包含具體的解釋內容,僅通過重定向鏈接指向與當前頁面標題指向同一概念但包含解釋內容的主頁面,因此,重定向特征有助于互為別稱,簡稱等待消解項的識別,該特征對系統(tǒng)的各指標都有所改善,F(xiàn)值提高了0.22%。
表6 原型系統(tǒng)和改進系統(tǒng)的測試結果
代詞是所有待消解項中最缺乏語義信息的一類詞,而上下文特征正是針對詞前后內容提出的,不需要考慮詞本身,因此該特征會提高系統(tǒng)的精確率。
另外,本文對維基百科的各語義特征對原型系統(tǒng)的影響分別做了測試,測試結果見表7。
表7 各維基百科語義特征對原型系統(tǒng)的影響測試結果表
分析表7中的結果,發(fā)現(xiàn)語義相關性中的I/J_PARTIALBASIC_CONTAINS特征F值降低了0.1%,分析原因,我們認為該特征是在整個網頁中尋找語義相關詞,會帶來大量噪音,因此雖然召回率提高,但準確率下降了7.36%。
而上下文特征中的I_CONTEXT。該特征取先行詞I周圍的詞與指代詞J在維基百科中計算相似度。分析語料發(fā)現(xiàn)指代詞J極有可能是代詞,缺少對應的維基百科的背景知識頁面,同時一般在句首的先行詞無法提取該詞的上文,所以相應的計算結果不理想。
從上述實驗結果分析,各語義信息特征對消解效果均有貢獻,其中維基百科特征中I/J _BASIC_CONTAINS特征的貢獻最大,而同樣在代詞細化下的語義角色特征也使消解性能得以改善,但是也有各別特征對系統(tǒng)起到了負作用,例如,單純語義角色、I_CONTEXT、I/J_PARTIALBASIC_CONTAINS特征。這說明對維基百科的背景知識的結構信息還有待進一步研究,例如,重定向和消歧頁面是維基百科語義挖掘需要重點關注的資源。實驗表明,挖掘維基百科的深層語義信息將是共指消解研究的一個有意義的研究方向。
[1] 張牧宇. 基于中心語匹配的共指消解[J].中文信息學報,2011,25(3):3-8.
[2] Vincent Ng.Shallow Semantics For Coreference Resolution[A].IJCAI,2007: 1689-1694.
[3] Xiaofeng Yang,Jian Su. Coreference Resolution Using Semantic Relatedness Information from Automatically Discovered Patterns[C]//Proceedings of ACL, 2007:528-535.
[4] 王海東,胡乃全,孔芳,等.指代消解中語義角色特征的研究[J].中文信息學報,2009,23(1):23-29.
[5] 楊爾弘.突發(fā)事件信息提取研究[D]. 北京語言大學博士學位論文, 2005.
[6] 龐寧,楊爾弘.基于最大熵模型的共指消解研究[J].中文信息學報,2008,22(2):24-27.
[7] 李艷翠.語義信息在指代消解中的應用研究[D],蘇州大學碩士學位論文,2008.
[8] 郎君,等.集成多種背景語義知識的共指消解[J],中文信息學報,2009,23(3):3-9.