康旭珍,李 茹,李雙紅
(山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006)
隨著中文信息處理技術(shù)的不斷發(fā)展,自然語言處理研究逐漸從句法處理轉(zhuǎn)移到語義處理和語用處理方面,許多研究工作者嘗試以新的角度來觀察、發(fā)現(xiàn)新的語言問題。其中基于框架語義學(xué)理論構(gòu)建的框架語義網(wǎng)絡(luò)知識庫為自然語言處理開辟了一條新的道路?;跐h語框架網(wǎng),將一個漢語句子形式化表示成框架依存圖,用來表示依存于目標(biāo)詞的各個框架元素的語義依存關(guān)系,也是進(jìn)行語義理解的一種有效方法。由于在每個框架元素中不同的詞對整個框架元素的語義理解起著不同程度的作用,所以本文旨在通過不同的機(jī)器學(xué)習(xí)方法對短語型框架元素的語義核心詞進(jìn)行識別,從而進(jìn)一步將框架依存圖轉(zhuǎn)化為框架核心依存圖。
近年來,不少研究者已經(jīng)開始重視這方面的研究,而且取得了一定的成就,但是主要集中于對短語中心詞和短語結(jié)構(gòu)等方面的相關(guān)研究。程月,陳小荷基于條件隨機(jī)場的漢語動賓搭配自動識別,驗(yàn)證了條件隨機(jī)場模型在詞語搭配實(shí)例自動識別方面有效可行性[1]。周雅倩、郭以昆等使用了基于最大熵的方法識別中文基本名詞短語[2]。目前對于框架元素語義核心詞提取的研究已經(jīng)有了一定的基礎(chǔ),文獻(xiàn)[3]中結(jié)合了多詞塊技術(shù),大大提高了識別效率,利用多詞塊中的關(guān)系標(biāo)注、序列標(biāo)注找到一個短語中的核心成分,在本質(zhì)上就是分析這個短語的語義依存關(guān)系。本文就是在此基礎(chǔ)上,考慮到目前多詞塊標(biāo)注技術(shù)不夠成熟,其標(biāo)注結(jié)果只能達(dá)到83%左右,有一定的限制性,在做下一步工作時(shí),為了避免錯誤累積,綜合考慮效率、訓(xùn)練時(shí)間等各方面因素,將不使用多詞塊技術(shù),直接利用CRF、最大熵模型、SVM等機(jī)器學(xué)習(xí)方法進(jìn)行框架元素核心詞的識別,以期達(dá)到更好的識別效果。另外,本文研究的另一大優(yōu)勢就是可以更好的處理語料中復(fù)雜短語類型的框架元素。
關(guān)于本文中框架元素語義核心詞的提取問題既可看作一個序列標(biāo)注,也可以看作一個分類問題。短語型框架元素中包含有兩類詞: 一是這個短語的核心詞,二是非核心詞。本文的任務(wù)就是對框架元素中的核心詞進(jìn)行識別。而基于統(tǒng)計(jì)學(xué)習(xí)理論CRF模型、ME模型以及SVM模型,其具有理論完備、適應(yīng)性強(qiáng)、泛化性能好等優(yōu)點(diǎn),尤其對于分詞[4]、詞性標(biāo)注[5]、文本分類[6]等這些中文信息處理方面尤為有效,所以本文通過實(shí)驗(yàn)對這三種常用的方法進(jìn)行了驗(yàn)證與比較。
漢語框架網(wǎng)[7](Chinese FrameNet,CFN)是以Fillmore的框架語義學(xué)作為理論基礎(chǔ),以伯克利FrameNet為參照,以真實(shí)語料為依據(jù)的機(jī)器可讀的漢語語義詞典。漢語框架網(wǎng)由框架庫,詞元庫和句子庫組成??蚣軒斓拿總€框架包括核心框架元素和非核心框架元素以及包含在這個框架中的若干詞元??蚣苤猩婕暗母鞣N參與者、外部條件和其他概念角色,稱為框架元素(Frame Elements)。
框架元素[8]分為核心框架元素、非核心框架元素和通用的非核心框架元素。本文的研究對象就是從經(jīng)過CFN三層標(biāo)注的句子庫中提取的6 750個簡單短語類型和1 338個復(fù)合短語類型的框架元素,并不區(qū)分其中的框架元素類別。
框架依存圖[3]( Frame Dependency Graph, FDG) 是對于一個句子中基于一個目標(biāo)詞和依存于這個目標(biāo)詞的各個框架元素的語義依存關(guān)系的圖形化表示??蚣芤来鎴D中的節(jié)點(diǎn)包含有目標(biāo)詞以及依存于這個目標(biāo)詞的框架元素,圖中每條邊上標(biāo)有相應(yīng)的語義角色。
框架核心依存圖(Frame Kernel Dependency Graph, FKDG)是由目標(biāo)詞、依存于目標(biāo)詞的框架元素的語義核心成分組成。從給定句子中抽取的核心依存圖,可以看作是這個句子深層語義的圖形化表示。它是在框架依存圖的基礎(chǔ)上,對每個依存項(xiàng)代表的框架元素提取其語義核心詞。
為了更好地對一個句子進(jìn)行語義理解,可以將框架依存圖轉(zhuǎn)化為框架核心依存圖,這就需要我們對圖中每個節(jié)點(diǎn)所對應(yīng)的框架元素進(jìn)行核心詞的提取。
本文中對核心詞給出如下描述: 在特定的短語中,對短語語義起決定性的那些詞。例如,形容詞性短語“很好”中的“好”就是核心詞。需要說明的是,在漢語短語結(jié)構(gòu)中并不是所有的短語都有核心詞,有些并列結(jié)構(gòu)的短語就沒有核心詞,如名詞性短語“方針路線”等。
文獻(xiàn)[3]中對框架元素語義核心詞的定義,一個框架元素中的詞可以分成兩部分: 一部分是核心詞,這些詞對理解這個框架元素的語義是必要的;另一部分是修飾核心詞的詞語以及各種功能詞,如: 嘆詞、語氣詞、助詞、標(biāo)點(diǎn)符號等。
條件隨機(jī)場(Conditional Random Fields,CRF)是John Lafferty 在2001年提出的一個基于統(tǒng)計(jì)的序列標(biāo)記和分割的方法。CRF是一個無向圖模型的框架,它能夠被用來定義在給定一組需要標(biāo)記的觀察序列的條件下,一個標(biāo)記序列的聯(lián)合概率分布。假設(shè)X,Y分別表示需要標(biāo)記的觀察序列和它相應(yīng)的標(biāo)記序列的聯(lián)合分布隨機(jī)變量,那么CRF(X,Y)就是一個以觀察序列X為條件的無向圖模型[9]。在給定觀察序列X的條件下,標(biāo)記序列Y的聯(lián)合分布為:
其中每個fk(i,yi-1,yi,x)是整個觀察序列和相應(yīng)標(biāo)記序列中位置為i和i-1的標(biāo)記的特征,而每個gk(i,yi,x)是在位置為i的標(biāo)記和觀察序列的特征。λ和μ是特征函數(shù)的權(quán)重,Z是歸一化因子。
3.1.1 特征的選擇以及特征模板的設(shè)置
特征選擇是使用CRF進(jìn)行框架元素核心詞自動識別的核心步驟,特征選擇的好壞將直接影響CRF模型識別的性能,我們可以通過一些模板來定義特征。模板是對上下文的特定位置和特定信息的考慮。而CRF模型最大的優(yōu)點(diǎn)就是,不僅能夠使用字、詞、詞性等上下文信息,還能綜合利用這些特征的組合特征。由于本文研究的目標(biāo)是針對詞,所以在進(jìn)行特征選擇時(shí)主要考慮了以下幾個基本特征:
(1) 詞,當(dāng)前詞以及前后一定窗口內(nèi)的詞;
(2) 詞性,當(dāng)前詞以及其前后各個詞的詞性;
(3) 短語類型,當(dāng)前詞所屬的短語類型信息;
根據(jù)這些特征,我們定義如表1中的基本特征。
表1 特征選擇中的基本特征
續(xù)表
在實(shí)驗(yàn)中我們運(yùn)用上表中的基本特征進(jìn)行組合,根據(jù)本文任務(wù)的具體要求構(gòu)成以下七種復(fù)合特征來進(jìn)行實(shí)驗(yàn)。復(fù)合特征如表2:
表2 CRF模型中的復(fù)合特征
模型描述: 設(shè)最終輸出值構(gòu)成的語言學(xué)類別有限集為Y,對于每個y∈Y,其生成均受上下文信息x的影響和約束。已知與y有關(guān)的所有上下文信息組成的集合為X,則模型的目標(biāo)是: 給定上下文x∈X,計(jì)算輸出為y∈Y的條件概率p(y|x)[10]。
進(jìn)行框架元素核心詞的提取,我們所用的訓(xùn)練集就是以詞為研究單位的,假設(shè)有一個樣本集{(x1,y1),(x2,y2),…(xn,yn)},每一個xi(1≤i≤n)表示一個將分類的詞的上下文,yi(1≤i≤n)表示該詞被標(biāo)注的結(jié)果。根據(jù)最大熵原理,概率值p(y|x)的取值符合下面的指數(shù)模型:
3.2.1 最大熵模型的特征選取
最大熵模型的關(guān)鍵在于如何針對特定的任務(wù)為模型選取特征集合,所以在框架元素語義核心詞的提取過程中所選的特征主要采用前面敘述的表1中的若干個基本特征,在此不重復(fù)描述。
在實(shí)驗(yàn)過程中使用的復(fù)合特征如表3所示:
表3 最大熵模型中的復(fù)合特征
支持向量機(jī)(Support Vector Machine,SVM)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的新型機(jī)器學(xué)習(xí)方法,是借助于最優(yōu)化方法解決機(jī)器學(xué)習(xí)問題的新工具。SVM的主要思想是針對兩類分類問題,在高維空間中尋找一個超平面作為兩類的分割,以保證最小的分類錯誤率,由于其具有全局最優(yōu)、結(jié)構(gòu)簡單、推廣能力強(qiáng)等優(yōu)點(diǎn),近幾年得到了廣泛的研究并廣泛應(yīng)用于模式識別、自然語言處理等領(lǐng)域,而且取得了不錯的效果。所以對于本文中的識別任務(wù),使用SVM模型也是我們的重要方法之一。
3.3.1 SVM模型的特征選取
根據(jù)目前語料庫的狀況,可選的特征有表1中的若干個基本特征以及這些特征的復(fù)合特征,選擇不同長度的觀察窗口。實(shí)驗(yàn)中,對于語料中的核心與非核心的識別問題,選定其中一類為正例,則另一類相應(yīng)的為負(fù)例。隨機(jī)選擇500個正例樣本和500個負(fù)例樣本作為初始訓(xùn)練集,用于訓(xùn)練初始SVM分類器。
本文實(shí)驗(yàn)所用的語料庫是從CFN標(biāo)注的句子庫中隨機(jī)抽取了包含六種基本短語結(jié)構(gòu)類型[11]的框架元素6 750個,并對這些框架元素的短語類型和分布進(jìn)行了統(tǒng)計(jì),結(jié)果如表4所示。
表4 框架元素的短語類型及長度分布統(tǒng)計(jì)
根據(jù)文獻(xiàn)[3]中的框架元素核心詞規(guī)則集,對這6 750個框架元素的進(jìn)行了語義核心詞的人工標(biāo)記,標(biāo)記集為T={h,n},其中h代表核心詞,n代表非核心詞。例如:
par-np-obj 大量 m-n 的 u-n 中國 nsh-n 古代 nt-n 典籍 n-h
manr-ap-adva 很 d-n 難 aq-h
其中,“par-np-obj”分別表示CFN三層標(biāo)注中的框架元素名、短語類型、句法功能,“m-n”中的“m”表示“大量”這個詞的詞性,“-n”表示“大量”這個詞為非核心詞。
本文實(shí)驗(yàn)中首先將上述的6 750個短語型框架元素按照不同類型分類,分為6種基本的類型,每種類型的框架元素都按照訓(xùn)練集/測試集8∶2的比例進(jìn)行切分。在實(shí)驗(yàn)過程中,我們使用了CRF工具包,在選定特征空間的基礎(chǔ)上,設(shè)置了T0~T6七個特征模板,在這七個模板上分別進(jìn)行了實(shí)驗(yàn),其中將T0模板作為實(shí)驗(yàn)的Baseline實(shí)驗(yàn)。由于本文中對于任何一個待識別的詞都會有一個識別結(jié)果,所以我們使用正確率及平均正確率對實(shí)驗(yàn)結(jié)果進(jìn)行評測:
正確率(precision)=正確識別的詞的個數(shù)/測試集中詞的總數(shù)×100%
(4)
(5)
其中,l是測試集中框架元素的短語類型的總數(shù)。
表5 利用CRF模型對不同短語類型框架元素實(shí)驗(yàn)結(jié)果
4.2.1 結(jié)果分析
從實(shí)驗(yàn)結(jié)果可以看出,在語料庫中占較重比例的名詞性短語框架元素的識別結(jié)果比較高,這是因?yàn)槊~性短語的結(jié)構(gòu)比較簡單,其中大多以定中結(jié)構(gòu)出現(xiàn),核心詞比較容易判斷。動詞和介詞短語型框架元素相比較其他短語型的框架元素的分析復(fù)雜,正確率較低。而形容詞和處所詞短語類型,因其構(gòu)成比較簡單,正確率一般能達(dá)到100%。
在上述實(shí)驗(yàn)中,本文做了一個Baseline實(shí)驗(yàn)(T0模板),在該特征模板中只考慮了詞和詞性這兩個基本特征,然后在此基礎(chǔ)上增加了CFN三層標(biāo)注中的短語類型這一特征。實(shí)驗(yàn)結(jié)果表明,對于本文的識別任務(wù),短語類型這一特征起著重要的作用,識別效果得到比較大的提高。
通過分析錯誤實(shí)例,我們發(fā)現(xiàn)首先是語料庫中人工標(biāo)注的錯誤,所以進(jìn)行了語料庫的進(jìn)一步修改,使得實(shí)驗(yàn)結(jié)果提高了2%左右。其次,基于統(tǒng)計(jì)的方法建立模型,應(yīng)盡可能的選擇比較豐富的框架元素作為訓(xùn)練集,本文采用隨機(jī)抽樣的方法從CFN句子庫中抽取的框架元素,很難避免數(shù)據(jù)稀疏問題,也導(dǎo)致一些錯誤。另一方面因?yàn)镃RF模型的訓(xùn)練結(jié)果并不是選取的特征數(shù)越多,正確率越高。所以在上述實(shí)驗(yàn)結(jié)果中模板T3取得的識別效果最好。
表6 利用最大熵模型對不同短語類型框架元素實(shí)驗(yàn)結(jié)果
4.3.1 結(jié)果分析
從表中可以看出,model2識別的效率較好一些,這是因?yàn)樽畲箪啬P椭凶詈蟮姆诸惤Y(jié)果與其上下文信息密切相關(guān),但是由于存在過擬合現(xiàn)象,所以并不是窗口越大,效率就會越高,所以窗口為2的識別效率最好。由實(shí)驗(yàn)得知,在本文任務(wù)中,分別考慮當(dāng)前詞的前兩個和后兩個詞及詞性,達(dá)到的識別效果最好。
在實(shí)驗(yàn)的訓(xùn)練過程中我們使用了RBF核函數(shù),而RBF核的C和σ2是兩個可以人為調(diào)節(jié)的參數(shù),參數(shù)取值不同,對應(yīng)的分類器性質(zhì)以及推廣識別率也將有很大差別。利用“窮舉法”求解出最佳的參數(shù)組合(C,σ2)。
表7 利用SVM模型對不同短語類型框架元素實(shí)驗(yàn)結(jié)果
4.4.1 結(jié)果分析
對于本文的實(shí)驗(yàn)?zāi)康?,通過對比以上三種模型下的識別結(jié)果,SVM模型的效率明顯不如另外兩種。這其中可能一方面是因?yàn)橛帽疚倪x取的特征模板來訓(xùn)練SVM的分類器,不是最佳的;另一方面,SVM不能確定數(shù)據(jù)中哪些知識是冗余的,哪些是有用的,對于特征選擇造成很大的困難,導(dǎo)致實(shí)驗(yàn)結(jié)果降低。再者,SVM對特征空間要求較高,而實(shí)際應(yīng)用中很多數(shù)據(jù)的特征都是非數(shù)值性的,不連續(xù)也無序的關(guān)系,在數(shù)據(jù)預(yù)處理階段造成很大的誤差。
在CFN語料庫中,框架元素不只包含有簡單的短語類型,也有可能是由若干個短語構(gòu)成的,長度大于5的復(fù)合短語型框架元素主要分布在np,vp,pp這三種類型中。例如:
“empee-np-obj 成百 m 的 u 非洲 ns 人 n 、亞洲 ns 人 n 和 c 阿拉伯 ns 人 n”
“cont-vp-obj 不要 d 向 p 任何 r 人 n 提 v 起 v 小箱子 n 的 u 來歷 n”
所以本文在對簡單短語型框架元素語義核心詞進(jìn)行識別研究的基礎(chǔ)上,進(jìn)一步對復(fù)合短語型的框架元素進(jìn)行分析研究。在實(shí)驗(yàn)過程中,從CFN語料庫中隨機(jī)選取了1 338個復(fù)合短語型框架元素,按短語類型分類為np(720個),pp(448個),vp(170個),按照訓(xùn)練集/測試集8∶2的比例進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)中三種模型使用的特征模板分別是上述實(shí)驗(yàn)結(jié)果中得到的識別效果較好的T3和model2。
表8 不同模型對于復(fù)合型短語結(jié)構(gòu)類型的框架元素實(shí)驗(yàn)結(jié)果
4.5.1 實(shí)驗(yàn)分析
通過對語料庫中大量存在的復(fù)合型短語類型的框架元素的核心詞進(jìn)行識別,實(shí)驗(yàn)結(jié)果比較滿意,在CRF模型下識別結(jié)果達(dá)到了93.17%。本文與文獻(xiàn)[3]中基于多詞塊的框架元素語義核心詞自動識別研究進(jìn)行對比分析,結(jié)果表明,基于統(tǒng)計(jì)學(xué)習(xí)方法比基于規(guī)則的學(xué)習(xí)方法具有優(yōu)越性,尤其是處理復(fù)合型短語類型框架元素時(shí),識別效果得到較大的提高。但是同時(shí)也面臨一個很大的困難,即需要大量的標(biāo)注語料的支持,而創(chuàng)建新的標(biāo)注語料庫資源也是件很費(fèi)時(shí)費(fèi)力的工作。
在分析標(biāo)注錯誤的框架元素過程中,我們發(fā)現(xiàn)其中有大部分識別錯誤的框架元素的短語類型屬于并列結(jié)構(gòu)。引起這一錯誤識別的原因可能是因?yàn)閿?shù)據(jù)稀疏的問題,這也是機(jī)器學(xué)習(xí)方法中的有待解決的問題之一,所以我們還有待于進(jìn)一步擴(kuò)大語料庫,完善規(guī)則集。
由以上實(shí)驗(yàn)結(jié)果得知,影響平均準(zhǔn)確率的重要因素是由于動詞和介詞短語型框架元素的識別正確率較低,所以,為了進(jìn)一步提高其準(zhǔn)確率,首先需要針對這兩類短語類型進(jìn)行專門的分析。我們選擇在最優(yōu)的模型CRF基礎(chǔ)上,對特征模板做出改進(jìn)。我們在進(jìn)行特征選擇的時(shí)候不只是選擇當(dāng)前詞的前后各兩個詞的信息,而是選擇與它相鄰的前后兩個實(shí)詞的信息,也就是遠(yuǎn)距離實(shí)詞信息。在這個改進(jìn)的模板上,我們分別對簡單及復(fù)雜的動詞和介詞短語型框架元素做了實(shí)驗(yàn),得到以下結(jié)果。
表9 改進(jìn)的特征模板對于動詞和介詞短語結(jié)構(gòu)類型的框架元素實(shí)驗(yàn)結(jié)果
4.6.1 實(shí)驗(yàn)分析
由以上結(jié)果得知,在改進(jìn)的特征模板基礎(chǔ)上,識別結(jié)果得到了一定的提高。這是因?yàn)镃RF模型一個最主要的優(yōu)點(diǎn)就是特征模板中可以包含各種長距離的、顆粒度很細(xì)的基于詞的特征,并且對于動詞和介詞短語型框架元素中包含有許多作為修飾成分的虛詞,這些詞對于核心詞的提取并沒有起到很大的作用,而決定當(dāng)前詞是否為核心詞的重要因素是與它距離最近的一些實(shí)詞。所以我們在選擇上下文信息的時(shí)候,選取了實(shí)詞這一信息。結(jié)果證明,這一想法是可行的。在動詞和介詞短語型框架元素的識別效率提高的基礎(chǔ)上,平均正確率分別提高了0.47,0.86個百分點(diǎn)。
自動提取框架元素語義核心詞,能夠?qū)崿F(xiàn)框架依存圖到框架核心依存圖的轉(zhuǎn)化,對進(jìn)一步語義分析起到重要的作用。本文在分析現(xiàn)有研究的基礎(chǔ)上,通過對比CRF模型、最大熵模型以及SVM模型對簡單短語類型以及復(fù)雜短語類型的框架元素進(jìn)行框架元素語義核心詞識別,實(shí)驗(yàn)結(jié)果表明,使用CRF模型進(jìn)行學(xué)習(xí)得到的識別結(jié)果優(yōu)于另外兩種學(xué)習(xí)模型,在CRF模型上做了進(jìn)一步的改進(jìn)。在今后的研究中,一是學(xué)習(xí)新的特征選擇方法,豐富其特征組合,選擇最優(yōu)參數(shù)估計(jì)方法,進(jìn)一步提高其識別性能。二是鑒于現(xiàn)在很多研究表明,使用多學(xué)習(xí)器集成的方法能夠比使用單個學(xué)習(xí)器的系統(tǒng)具有更好的性能,我們嘗試將幾種不同的學(xué)習(xí)模型集成學(xué)習(xí),以期得到一個最適合于本文任務(wù)的學(xué)習(xí)模型,為以后構(gòu)建框架核心依存圖做充分的準(zhǔn)備。
[1] 程月,陳小荷. 基于條件隨機(jī)場的漢語動賓搭配自動識別[J]. 中文信息學(xué)報(bào),2009,23(1): 9-15.
[2] 周雅倩,郭以昆,黃萱菁,等. 基于最大熵方法的中英文基本名詞短語識別[J]. 計(jì)算機(jī)研究與發(fā)展,2003,40(3): 440-446.
[3] 李雙紅,李茹,鐘立軍,等. 基于多詞塊的框架元素語義核心詞自動識別研究[J]. 中文信息學(xué)報(bào), 2010,24(1): 30-37.
[4] 遲程英,于長遠(yuǎn),戰(zhàn)學(xué)剛. 基于條件隨機(jī)場的中文分詞方法[J]. 情報(bào)雜志,2008,27(5): 79-81.
[5] 周強(qiáng). 規(guī)則和統(tǒng)計(jì)相結(jié)合的漢語詞類標(biāo)注方法[J]. 中文信息學(xué)報(bào),1995,9(3): 1-10.
[6] 都云琪,肖詩斌. 基于支持向量機(jī)的中文文本自動分類研究[J]. 計(jì)算機(jī)工程,2002,11: 137-138.
[7] 劉開瑛,由麗萍. 漢語框架語義知識庫構(gòu)建工程[C]//中文信息處理前沿進(jìn)展,中國中文信息學(xué)會成立二十五周年學(xué)術(shù)會議論文集. 2006: 64-71.
[8] 郝曉燕,劉偉,李茹,等. 漢語框架語義知識庫及軟件描述體系[J]. 中文信息學(xué)報(bào),2007,21(5): 96-100.
[9] F. Sha, F. Pereira. Shallow Parsing with Conditional Random Fields[C]//Proceedings of HLT-NAACL. 2003(5-6):134-141.
[10] R. Koeling. Chunking with Maximum Entropy Models[C]//Proceedings of CoNLL-2000, Lisbon, Portugal. 2000:139-141.
[11] 周強(qiáng),俞士汶. 漢語短語標(biāo)注標(biāo)記集的確定[J]. 中文信息學(xué)報(bào),1996,10(4): 1-11.