国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

依存句法分析研究綜述

2013-04-29 15:06:15石翠
智能計算機與應用 2013年6期
關鍵詞:統(tǒng)計分析方法規(guī)則

石翠

摘要:依存句法分析是對自然語言進行自動分析構建句子對應的依存樹的一種方法,是自然語言處理重要的一部分,但目前依存句法分析的準確率并不高。介紹了依存句法結(jié)構并對依存句法的分析方法進行了總結(jié)與綜述,介紹了基于規(guī)則的依存句法、基于統(tǒng)計的依存句法和規(guī)則與統(tǒng)計相結(jié)合的依存句法的分析方法。最后,分析了漢語依存句法分析的困難和優(yōu)勢。

關鍵詞:依存句法; 規(guī)則; 統(tǒng)計; 分析方法

中圖分類號:TP391 文獻標識碼:A文章編號:2095-2163(2013)06-0047-03

0引言

任何一種句法分析都是依賴于某種語法理論的。依存語法的含義是用詞與詞之間的依存關系來描述語言結(jié)構。計算語言學家Robinson總結(jié)了依存語法的4條公理[1]:

(1)一個句子中只有一個獨立成分不依存于其他任何成分;

(2)句子的其他成分都必須依存于某一成分;

(3)任何一個成分都不能依存于兩個或兩個以上的其他成分;

(4)如果成分A直接依存于成分B,而成分C位于A和B之間,則C依存于A或者B,或者依存于A和B之間的某一成分。

為了直觀描述句子的形式模型,可根據(jù)句法模型將一個句子中各成分之間的關系顯式表達為某種句法結(jié)構圖形式,以便于人對句子的理解以及機器的自動學習。圖1例示了一個句子的依存結(jié)構,(a)為依存樹;(b)為有向圖;(c)為依存投影樹。

1依存句法分析方法

依存句法分析是針對給定的句子序列應用某一依存語法體系對自然語言進行自動分析構建句子對應的依存樹的一種方法。一般來說,句法分析方法可分為基于規(guī)則的分析方法、基于統(tǒng)計的分析方法以及統(tǒng)計與規(guī)則相結(jié)合的方法。

1.1基于規(guī)則的依存句法分析方法

基于規(guī)則方法的基本思路是由人工組織語法規(guī)則,建立語法知識庫,通過條件約束和檢查來實現(xiàn)句法結(jié)構歧義的消除[2]。

1.1.1基于泰尼埃理論的依存句法分析

泰尼埃的句法理論本質(zhì)上是一種基于虛圖式的句法分析理論和實圖式的分析表示體系。該理論認為任何句子都可以納入句子的虛式圖中,分析的過程即是將句子納入句子圖式的過程,而此過程的進行,必須通過轉(zhuǎn)用。因此,可以說泰尼埃的依存句法分析理論以轉(zhuǎn)用操作為代表。

Giguet[3]等人構建了泰尼埃式法語依存句法分析器,但在具體實現(xiàn)過程中,該系統(tǒng)結(jié)合了組塊分析和依存分析方法,先進行一種被稱作非遞歸短語(nr-短語)成分的識別,然后在此基礎上進行組塊的連接,其中后一個過程通過使用連接規(guī)則而最終實現(xiàn)。該分析器采用了不同技術分層構建的原則,降低了依存關系選擇時的復雜度,提高了分析器的效率。

Tapanainen和Jarvinen構建了一種非投影的依存句法分析器,實現(xiàn)了泰尼埃理論。此分析器中共有約2 500條規(guī)則,并提出了功能依存語法(Functionality Dependency Grammar, FDG)的理論框架,展示了依存語法形式化體系的普遍性和描寫能力[4]。

1.1.2基于上下文無關文法的依存句法分析

上下文無關文法的依存句法分析是一種類似于短語結(jié)構句法分析的方法,將詞與詞之間的依存關系看作成分結(jié)構(Constituent structure)來進行分析。Hays將依存規(guī)則定義為“一種有關句法單位價的描述”,由一個支配成分和有限數(shù)量的從屬成分構成[5]。以依存規(guī)則為基礎,提出了句子語法合格性的判定過程,被稱為決策過程(a decision procedure)。此決策過程即為Cocke-Younger-Kasami(CYK)算法中的Cocke的過程。

Lombardo和Lesmo對Early算法進行改進,構建了依存句法分析器,在效率上取得很大優(yōu)勢。該方法對“預測”(predictive)部分進行了預處理,通過將其編譯為句法分析表的方法來優(yōu)化識別效率。依存規(guī)則轉(zhuǎn)化為句法分析表的過程需要兩個步驟,一是將規(guī)則轉(zhuǎn)化為轉(zhuǎn)移圖,二是將圖映射到句法分析表中[6]。

1.1.3基于約束的依存分析方法

該方法是以約束依存文法(constraint dependency grammar,CDG)為基礎,針對依存語法沒有嚴格的形式化描述而提出,并已成為目前依存句法分析技術研究和實現(xiàn)中眾家關注的方法之一。這是一種以語法為驅(qū)動的分析方法,但區(qū)別于生成語法中的重寫規(guī)則,而采用消去法來分析句子結(jié)構。其分析過程是采用約束滿足問題來進行描述的有限構造問題[7]。主要分為三步:

(1)采用約束依存語法,建立約束集合;

(2)根據(jù)已規(guī)定好的約束對不滿足約束的分析進行剪枝;

(3)判斷是否存在不確定性問題,更新約束集合,重復(2)直到構建一棵完整的合法的依存樹。

由德國漢堡大學的Menzel等人提出的“加權約束依存語法”(Weighted constraint dependency grammars, WCDG)[8]是對CDG方法的擴展,引入了加權約束機制。系統(tǒng)中的所有規(guī)則都按照一定的優(yōu)先級測度來排序,以對語法規(guī)則的重要性進行衡量。

1.2基于統(tǒng)計的依存句法分析方法

由于大規(guī)模語料庫的構建,目前依存分析方法中以統(tǒng)計分析方法為主流。統(tǒng)計的方法利用統(tǒng)計學的原理,從語料庫中獲取分析過程所需的知識。統(tǒng)計方法基于以下假設:語料庫是唯一的信息源,所有的知識(除統(tǒng)計模型的構造方法外)均可從中獲得;語言知識在統(tǒng)計意義上得到解釋,所有參量可通過統(tǒng)計或訓練從語料庫中自動獲取[9]。

Eisner提出三個依存句法分析的詞匯化概率模型,同時采取自底向上的CYK算法[10],同時引入了加權雙詞匯化語法(weighted bilexical grammar)。加權雙詞匯化語法中的語法規(guī)則由限定一詞擴展為限定兩個詞,基于此的概率句法分析器的主要工作即是估計詞w被詞p所修飾的概率。

Yamada 等人[11]提出一個基于移進-歸約(Shift-reduce)算法的決策式分析模型。該方法從左至右遍歷句子過程中構建依存樹,模型使用三種動作:移進(Shift)、左?。↙eft)和右?。≧ight)。建樹的過程即是判斷當前,節(jié)點對應該采用哪種動作的過程,因此可將其看作分類問題,采用支持向量機的方法解決該分類問題。該模型不但擴展了依存分析方法,也形成了一種更加簡單易行的依存分析方法。

投射句可采用自底向上的Eisner動態(tài)規(guī)劃算法[10]。而對于非投射句,則采用如圖2所示的Chu-Liu-Edmonds算法[12]。

① 保留每個節(jié)點中權數(shù)最高的入邊,形成圖GM=(V, M);

② 如果GM中存在環(huán),將GM中的環(huán)看做一個節(jié)點,重新計算每條邊的權值,形成新圖GC,轉(zhuǎn)到①;

③ 否則,返回GM;

④ 刪除環(huán)內(nèi)多余的邊。

輸出:生成的由圖和環(huán)內(nèi)的邊組成的最優(yōu)有向圖

1.3統(tǒng)計與規(guī)則相結(jié)合的依存句法分析方法

基于規(guī)則的分析方法需人工編寫語法規(guī)則,以此構建語法知識庫,通過條件約束等實現(xiàn)句法分析中的結(jié)構消歧。大量的語言學家認為規(guī)則可以涵蓋絕大多數(shù)的自然語言現(xiàn)象,但通過實踐表明,這種規(guī)則的構建過程是非常困難的。因此,目前的句法分析系統(tǒng)大多在以下幾個方面進行權衡折衷:

(1)更多地關注淺層句法分析。當前的許多問題只利用淺層句法信息就可以解決,因此完全句法分析則被放棄,而是轉(zhuǎn)向各種淺層句法分析,其中最具代表性的就是組塊分析、最長名詞短語識別;

(2)從已有的語料中自動提取概率模型,利用此模型來最大化待處理結(jié)構的相似性。這是一種有效的方法,但依賴大量的語料,生成的模型也難于理解;

(3)針對特定問題,結(jié)合統(tǒng)計與規(guī)則方法的優(yōu)勢。

2結(jié)束語

從目前的依存句法分析研究成果來看,漢語的依存分析沒有得到很好的發(fā)展,與英語等印歐語言相比滯后很多。迄今為止,漢語的依存句法分析在開放集上的最好結(jié)果UA指標不到85%,而且沒有大規(guī)模的漢語依存樹庫、由此而造成漢語分析困難的原因主要有如下幾個方面:

(1)漢語屬于少數(shù)孤立語語言中的一種,同一詞可以擔任多種句法成分而沒有形態(tài)的變化,短語擔任不同句法成分時也無形態(tài)變化,這種無形態(tài)的變化將給排歧造成極大的困難;

(2)漢語存在普遍的遞歸性,復合名詞、動詞短語多;

(3)漢語的語法作用通過虛詞和詞序來表達,虛詞在句中沒有實際的意義,常常被省略掉;而漢語的詞序又相當靈活;

(4)漢語的語法功能類型較多;

(5)漢語的標點符號帶有比英語標點符號更多的信息。

雖然漢語與英語相比在句法分析上存在上述困難,但在另一方面漢語也有一些自身的優(yōu)勢。漢語自身的優(yōu)勢有:

(1)漢語的詞雖然沒有形態(tài)變化,但如果漢語詞的詞性或語義角色確定了,就會受到與其他語言相比更強的語法約束,比如在漢語中只有動詞和介詞擁有右從屬者;

(2)一些漢語語塊具有明顯的邊界標志,如介詞短語“在……里”;

(3)漢語的偏正修飾語只能在中心詞之前,沒有后置定語,也沒有定語從句,不需要分析從句引導詞的從屬問題。

現(xiàn)在亟待解決的問題是構建大規(guī)模的語料庫,尋找漢語自身的規(guī)律,提高句法分析的精度。

參考文獻:

[1]ROBINSON J. Dependency structures and transformational rules[J]. Language,1970, 46(2):259-285.

[2]GIGUET E, VERGNE J. Syntactic analysis of unrestricted French[C] //Proceedings for the the International Conference on Recent Advances in Natural Languages Processing (RANLP`97), 1997: 276-281.

[3]TAPANAINEN P, JARVINEN T. A non-projective dependency parser [C]// Proceedings of the 5th Conference on Applied Natural Language Processing, 1997: 64-71.

[4]HAYS D. Dependency theory: a formalism and some observatoins[J] . Language, 1964: 511-525.

[5]LOMBARDO V, LESMO L. An early-type recognizer for dependency grammar[C]//Proc. COLING, 1996: 723-728.

[6]MARUYAMA H. Structural disambiguation with constraint propagation[C]// ACL-90, 1990:31-38.

[7]MENZEL W, SCHRODER I, KOTH K, et al. Modeling dependency grammar with restricted constraints[J]. Traitement Automatique des Languages, 2002,41(1):113-144.

[8]周強. 基于語料庫和面向統(tǒng)計學的自然語言處理技術介紹[J]. 計算機科學,1995,22(4):36-40.

[9]TAPANAINEN P, JARVINEN T. A non-projective dependency parser[C]// Proceedings of the 5th Conference on Applied Natural Language Processing, 1997: 64-71.

[10]AMUELSSON C. A statistical theory of dependency syntax[C]//COLING, 2000: 684-690.

[11]CRAMMER K, SINGER Y. Ultraconservative online algorithms for multiclass problem[J]. Journal of Machine Learning Research, 2003,1(3):951-991.

[12]CARRERAS X. Experiments with a high-order projective dependency parser[C]// EMNLP-CoNLL2007, 2007:957-961.

猜你喜歡
統(tǒng)計分析方法規(guī)則
撐竿跳規(guī)則的制定
基于EMD的MEMS陀螺儀隨機漂移分析方法
數(shù)獨的規(guī)則和演變
一種角接觸球軸承靜特性分析方法
重型機械(2020年2期)2020-07-24 08:16:16
中國設立PSSA的可行性及其分析方法
中國航海(2019年2期)2019-07-24 08:26:40
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規(guī)則對我國的啟示
2008—2015我國健美操科研論文的統(tǒng)計與分析
人間(2016年27期)2016-11-11 17:33:19
山東省交通運輸投資計劃管理信息系統(tǒng)的設計
我國居民收入與消費關系的統(tǒng)計分析
岳阳县| 买车| 建瓯市| 宣恩县| 大渡口区| 梁山县| 专栏| 宜春市| 扶风县| 盐山县| 东阿县| 梁山县| 谷城县| 贵阳市| 迁西县| 焉耆| 湘潭县| 凯里市| 榆中县| 美姑县| 信宜市| 饶平县| 成都市| 荆门市| 汽车| 偃师市| 牙克石市| 兴山县| 航空| 元阳县| 永济市| 綦江县| 滦南县| 余姚市| 南宁市| 旬邑县| 澄城县| 崇明县| 平舆县| 安达市| 林西县|