廖志華
(湖南師范大學(xué) 教師教育學(xué)院&教師教學(xué)發(fā)展中心,湖南 長沙,410081)
語義分析器通過意義表征語言(MRL),將自然語言(NL)語句轉(zhuǎn)換為邏輯形式(LFs)。最近的研究主要集中在直接通過語料庫來學(xué)習(xí)這樣的分析器,而這些語料庫是由與邏輯意義表征配對的句子所組成[1-11],研究的目標(biāo)是學(xué)習(xí)一種語法,該語法可以將新的、不可見的句子映射到其相應(yīng)的意義或邏輯表達(dá)式上。
雖然這些算法在特定語義形式上通常表現(xiàn)很好,但它們應(yīng)用于不同的語義形式時究竟能表現(xiàn)如何,至今仍然有待探究。在文章中,我們將提出一種使用森林-2-樹算法的統(tǒng)計機(jī)器翻譯框架來學(xué)習(xí)語義分析任務(wù)的新型監(jiān)督方法,即森林-2-串算法。這種方法將詞匯獲取和表層意義的實現(xiàn)集成在一個框架中。受到森林到字符串的概率生成算法[11]和Wong[12]以及Wong和Mooney[13-15],使用統(tǒng)計機(jī)器翻譯來學(xué)習(xí)語義分析的啟發(fā),我們的語義分析框架由兩個主要的部分組成。首先,該框架包含一個詞匯獲取組件,這是基于自然語言句子和線性化語義分析之間的短語對齊,該短語對齊是由現(xiàn)有短語對齊模型給出的一組訓(xùn)練樣本。提取出來的轉(zhuǎn)換規(guī)則形成同步上下文無關(guān)語法(SCFG),為此,用一個概率模型來解決分析歧義。第二個組成部分是來估計概率模型的參數(shù)。參數(shù)模型基于最大熵,概率模型以無監(jiān)督的方式在同一組訓(xùn)練樣本上進(jìn)行訓(xùn)練。
文章的結(jié)構(gòu)如下,第2節(jié)將描述我們?nèi)绾螛?gòu)建具有森林-2-串算法來開發(fā)語義分析器,第3節(jié)將討論解碼器,第4節(jié)將介紹我們的實驗并報告結(jié)果,最后,第5節(jié)得出結(jié)論。
現(xiàn)在我們介紹語義分析的算法,它使用基于降階的λ-SCFG將自然語言句子譯為邏輯形式,這是基于演繹的SCFG的擴(kuò)展版本[10]。給定一組訓(xùn)練句及其配對的正確邏輯形式,主要的學(xué)習(xí)任務(wù)是推斷一組基于降階的λ-SCFG規(guī)則——詞庫,是一個用于推導(dǎo)的概率模型。詞庫定義了可能的推導(dǎo)集合,所以概率模型的歸納首先需要一個詞庫。因此,學(xué)習(xí)任務(wù)又可以分為兩個子任務(wù):(1)歸納詞庫;(2)歸納概率模型-最大熵模型。
首先介紹語法,接下來介紹語法歸納的生成模型來獲取語法規(guī)則。
語法歸納:我們采用Lu和Ng[11]開發(fā)的λ-混合樹模型,這是從λ子表達(dá)式映射到具有聯(lián)合生成過程的詞序列的生成模型。
圖1 λ-意義樹及其對應(yīng)的自然語言句子的聯(lián)合生成過程Fig.1 The joint generative process of both λ-meaning tree and its corresponding natural language sentence
圖2 “give me the states bordering states that the mississippi runs through(給我與密西西比全州接壤的國家)”的一個λ-混合樹示例,及其邏輯形式“λx0.state(x0)∧?x1.[loc(miss_x1)∧state(x1)∧next_to(x1,x0)]”Fig.2 One example λ-hybrid tree for the sentence “give me the states bordering states that the mississippiruns through” and its logical form “λx0.state(x0)∧?x1.[loc(miss_x1)∧state(x1)∧next_to(x1,x0)]”
圖2給出了一個λ混合樹示例的一部分,從λ混合樹中提取出語法規(guī)則,使用相同的語法進(jìn)行分析和生成。由于SCFG對兩個生成的字符串都是完全對稱的,所以用于分析的同一個圖表可以輕松適應(yīng)高效分析?,F(xiàn)在我們演示一下如何使用生成模型將自然語言句子映射到λ表達(dá)式上。首先,這個模型基于生成的λ-混合樹模型的學(xué)習(xí)參數(shù),找到所有訓(xùn)練實例的維特比λ-混合樹。然后,該模型提取這些λ混合樹頂部的語法規(guī)則。具體來說,我們提取下列同步語法規(guī)則的樹類型,有λ-混合序列規(guī)則、子樹規(guī)則和兩級的λ-混合序列規(guī)則。示例見表1。
表1從λ混合樹中提取出的同步規(guī)則示例
Table1Examplesynchronousrulesthatcanbeextractedfromtheλ-hybridtree
類型樣例type1:〈e,〈e,t〉→〈bordering,λy,λx,next_to(x,y)〉〈e,t〉→〈〈e,t〉②〈e,t〉,λg,λy,λx,g(x)∧f(x)?〈e,t〉①〈e,t〉②〉type2:〈e,t〉→〈statesthatthemississippirunsthrough,λx,loc(miss_r,x)∧state(x)〉〈e,t〉→〈thatthemississippirunsthrough,λx,loc(miss_r,x)〉type3:〈e,t〉→〈thestatesbordering〈e,t〉①,λf,λx.state(x)∧?y.[f(y)∧next_to(y,x)]?〈e,t〉①〉〈e,t〉→〈statesthate①runsthrough,λy,λx.loc(y,x)∧state(x)?e①〉
1.λ-混合序列規(guī)則:這些慣用的規(guī)則由一個λ-生成和對應(yīng)的λ-混合序列組成。
2.子樹規(guī)則:這些規(guī)則由λ-混合樹的完整子樹構(gòu)成,可以從每條規(guī)則中獲取子表達(dá)式和連續(xù)子句之間的完整映射。
3.兩級λ混合序列規(guī)則:這些規(guī)則由一個樹的片段構(gòu)成,其中一個孫子子樹只抽象出其類型。這些規(guī)則是通過替代和降階來構(gòu)建的,下面展示了如何通過替代和降階來構(gòu)建兩級的λ-混合序列規(guī)則。
表2是一個基于圖2中λ-混合樹的樹形片段的例子。
表2 通過樹片段的替換和降階構(gòu)建兩級λ-混合序列規(guī)則
注意:由e□:miss_r根下的子樹被其類型e“抽象”出來。因此引入類型e的輔助變量y′以促進(jìn)構(gòu)建過程。
為了實現(xiàn)討論,我們以圖3中的短語對齊為例。
圖3 基于λ混合樹的短語對齊Fig.3 A phrase alignment based on aλ-hybrid tree
為了表示圖3中的邏輯形式,我們使用其線性化分析——以自上而下和最左順序生成邏輯形式的MRL生成列表。由于MRL語法沒有歧義,每個邏輯形式都有一個獨(dú)特的線性化分析。假設(shè)對齊方式為n到1,其中每個單詞最多可鏈接到一個MRL生成?;旧?,從λ混合樹中可以提取出基于降階的λ-SCFG語法規(guī)則和短語對齊[3],其中邏輯變量受到λ運(yùn)算符的明確約束,且這些語法規(guī)則以自下而上的方式提取,從λ混合樹葉子的MRL生成開始。規(guī)則提取以這種方式進(jìn)行,直到提取到達(dá)λ-混合樹的根。
一旦獲得了詞庫,下一個任務(wù)就是學(xué)習(xí)語義分析器的概率模型。我們提出最大熵模型,它定義了給定觀察到的NL字符串ω的導(dǎo)數(shù)d的條件概率分布。在此,最大熵模型是指數(shù)模型:
條件概率Pλ(d|ω)與分配給每個特征fi的權(quán)重的λi乘積成比例。特征表示導(dǎo)數(shù)的某一特性。這樣的話,特征就是推導(dǎo)中使用每個變換規(guī)則的次數(shù)。稱為分區(qū)函數(shù)的功能Zλ(ω)是歸一化因子,是條件概率與產(chǎn)生w的所有導(dǎo)數(shù)相加之和。得到的結(jié)果是,特征權(quán)重λi可以是任何正數(shù)。在最大熵模型中,使用額外的特征f*(d)來建立不可見詞的生成,得到的值是所有被跳過的詞的數(shù)量。對應(yīng)于域特定詞類的其他功能可用于更細(xì)粒度的修勻,這些功能可能相互交互并不成為問題。
最大熵模型的解碼可以這樣進(jìn)行:
關(guān)于句子長度,可以使用維特比算法在三次方時間內(nèi)完成。Earley圖表用于跟蹤與輸入一致的所有導(dǎo)數(shù),最大條件似然準(zhǔn)則用于估計最大熵模型中的參數(shù)λi。這意味著給定ω,條件似然fi將最大化。選擇這個準(zhǔn)則是因為它更易于使用,并且允許判別學(xué)習(xí)形式,集中在能將好的分析與不好的分開。高斯先驗((σ2=1))用來規(guī)范模型,由于黃金標(biāo)準(zhǔn)推導(dǎo)在訓(xùn)練數(shù)據(jù)中不可用,所以正確的推導(dǎo)必須視為隱含變量。為了找到局部最大化條件似然性的一組參數(shù)λ*,用改進(jìn)的迭代縮放(IIS)版本與已經(jīng)被用于估計基于概率統(tǒng)一語法的EM相結(jié)合。與完全監(jiān)督的情況不同,條件似然性相對于λ來說不是凹型的,所以估計算法對初始參數(shù)很敏感。盡可能地假設(shè),λ初始化為零。估計算法需要依賴于句子或句子MR對的所有可能的推導(dǎo)統(tǒng)計。雖然列舉所有推導(dǎo)不可行,但可以使用Inside-Outside算法的變體來有效地收集所需的統(tǒng)計數(shù)據(jù)。只有在訓(xùn)練集的最佳分析中使用的規(guī)則才會保留在最終的詞庫中,其余所有規(guī)則都將舍棄[12-15]。假設(shè)在最佳分析中使用的規(guī)則是最準(zhǔn)確的,這個通常被稱為維特比近似的啟發(fā)式,可以用來提高準(zhǔn)確性。
本節(jié)將介紹實驗設(shè)置和結(jié)果的比較。遵循Zettlemoyer和Collins[16-18],以及Kwiatkowski等人[5-6]包括如下所述的數(shù)據(jù)集、初始化以及系統(tǒng)等方面的設(shè)置,最后,得出實驗結(jié)果。
數(shù)據(jù)集:對兩個基準(zhǔn)封閉域數(shù)據(jù)集進(jìn)行估算。GeoQuery由對地理信息數(shù)據(jù)庫的自然語言查詢組成,ATIS包含對航班訂票系統(tǒng)的自然語言查詢[16-18]。Geo880數(shù)據(jù)集分為600對的訓(xùn)練集和280對測試集,Geo250數(shù)據(jù)集是Geo880的一個子集,并使用與該子集相同分割的10倍交叉驗證實驗。ATIS數(shù)據(jù)集分為5000個樣本開發(fā)集和450個樣本測試集。
初始化:算法學(xué)習(xí)使用的是Och和Ney[19-20]的IBMModel5的GIZA++實現(xiàn),來訓(xùn)練單詞對齊模型。IBMModels1-4在訓(xùn)練期間用于初始化模型參數(shù)。
系統(tǒng):比較這些最近公布、直接比較的結(jié)果。GeoQuery包括ZC07[16],λ-WASP[12-15],UBL[5]和FUBL[6]。報告的ATIS的結(jié)果來源于ZC07,UBL和FUBL。
表3 不同GeoQuery測試集之間的完全匹配性能
(b)Geo880測試集
表4 ATIS開發(fā)集的完全匹配性能
表5ATIS測試集上的精確和部分匹配的性能
Table5PerformanceofexactandpartialmatchesontheATIStestset
(a)精確匹配
(b)部分匹配
結(jié)果:表3-5顯示了GeoQuery和ATIS域中的所有結(jié)果。與直接比較的系統(tǒng)相比,我們的系統(tǒng)達(dá)到了最高水平的召回率和精確度,并且顯著優(yōu)于ZC07,λ-WASP,UBL和FUBL。對比其他三個系統(tǒng),我們算法的主要優(yōu)點(diǎn)是不需要任何自然語言句法的先驗知識。因此,該算法可直接應(yīng)用在其他自然語言句子的訓(xùn)練數(shù)據(jù)上。
文中提出了一種新穎的基于森林-2-串算法的語義分析器模型。該模型是采用從森林-2-樹算法的統(tǒng)計機(jī)器翻譯框架來進(jìn)行語義分析的新型監(jiān)督方法。兩個基準(zhǔn)點(diǎn)數(shù)據(jù)集(即GeoQuery和ATIS)上的實驗表明,我們的方法可獲得合適的性能。
[1]YOAV A,LUKE Z.Bootstrapping semantic parsers from conversations[C]//In the Conference on Empirical Methods in Natural Language Processing(EMNLP).Singapore:ACL Anthology,2011:421-432.
[2]YOAV A,LUKE Z.Weakly supervised learning of semantic parsers for mappinginstructions to actions[J].Transactions of the Association for Computational Linguistics(TACL),2013,1:49-62.
[3]PHILIPP K,F(xiàn)RANZ O,DANIEL M.Statistical phrase-based translation[C]//In the Conference of the North American Chapter of the Association for Computational Linguistics(NAACLHLT).Singapore:ACL Anthology,2003:48-54.
[4]JAYANT K.Probabilistic models forlearning a semantic parser lexicon[C]//In the Conference of the North American Chapter of the Association for Computational Linguistics(NAACL-HLT).Singapore:ACL Anthology,2016:606-616.
[5]TOM K,LUKE Z,SHARON G,et al.Inducing probabilistic ccg grammars from logical form withhigher-order unification[C]//In the Conference on Empirical Methods in Natural Language Processing(EMNLP),Singapore:ACL Anthology,2010:1223-1233.
[6]TOM K,LUKE Z,Sharon G,et al.Lexical generalization in ccg grammar induction for semantic parsing[C].In the Conference on Empirical Methods in Natural Language Processing(EMNLP).Singapore:ACL Anthology,2011:1512-1523.
[7]LIAO Z,ZENG Q,WANG Q.Semantic parsing via ‘0-norm-based alignment[C].In Recent Advances in Natural Language Processing(RANLP).Singapore:ACL Anthology,2015:355-361.
[8]LIAO Z,ZENG Q,WANG Q.Asupervised semantic parsing with lexical extensionand syntactic constraint[C]//In Recent Advances in Natural Language Processing(RANLP),Singapore:ACL Anthology,2015:362-370.
[9]LIAO Z,ZHANG Z.Learning to map Chinese sentences to logical forms[C]//In the 7th International Conference on Knowledge Science,Engineering and Management(KSEM).Berlin Heidelberg:Springer-Verlag,2013:463-472.
[10]LU W,Ng T.A probabilisticforest-to-string model for language generation fromtyped lambda calculus expressions[C]//In the Conference on Empirical Methods in Natural Language Processing(EMNLP).Singapore:ACL Anthology,2011:1611-1622.
[11]LUW,Ng T,LEE S,et al.Agenerative model for parsingnatural language to meaning representations[C]//In the Conference on Empirical Methods in Natural Language Processing(EMNLP).Singapore:ACL Anthology,2008:783-792.
[12]WONG W.Learning for Semantic Parsing and Natural Language Generation Using Statistical Machine Translation Techniques[D].Austin:University of Texas at Austin,2007.
[13]WONG W,RAYMOND M.Learning for semantic parsing with statistical machine translation[C]//In the Human Language Technology Conference of the North American Association for Computational Linguistics(NAACL).Singapore:ACL Anthology,2006:439-446.
[14]WONG W,RAYMOND M.Generation by inverting a semantic parser that uses statistical machine translation[C]//In the Conference of the North American Chapter of the Association for Computational Linguistics(NAACL-HLT-07).Singapore:ACL Anthology,2007 :172-179.
[15]WONG W,RAYMOND M.Learning synchronous grammars for semantic parsing with lambda calculus[C]//In the Conference of the Association for Computational Linguistics(ACL).Singapore:ACL Anthology,2007:960-967.
[16]LUKE Z,MICHAEL C.Learning to map sentences to logical form:Structured classification with probabilistic categorical grammars[C]//In the 21st Conference on Uncertaintyin Artificial Intelligence(UAI).Singapore:ACL Anthology,2005:658-666.
[17]LUKE Z,MICHAEL C.Online learning of relaxed ccg grammars for parsing tological form[C]//In the Conference on Empirical Methods in Natural Language Processing and the Conference on Computational Natural Language Learning(EMNLP-CoNLL).Singapore:ACL Anthology,2007:678-687.
[18]LUKE Z,MICHAEL C.Learning context-dependent mappings from sentences to logical form[C].In Joint conference of the47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing(ACL-IJCNLP).Singapore:ACL Anthology,2009 :976-984.
[19]FRANZ O,HERMANN N.A systematic comparison of various statistical alignment models[J].Computational Linguistics,2003,29(01):19-51.
[20]FRANZ O,HERMANN N.The alignment template approach to statistical machine translation[J].Computational Linguistics,2004,2(30):417-449.