李 英,郭劍毅,2+,余正濤,2,毛存禮,2,線巖團,2
1.昆明理工大學 信息工程與自動化學院,昆明 650500
2.昆明理工大學 智能信息處理重點實驗室,昆明 650500
越南語短語樹到依存樹的轉換研究*
李 英1,郭劍毅1,2+,余正濤1,2,毛存禮1,2,線巖團1,2
1.昆明理工大學 信息工程與自動化學院,昆明 650500
2.昆明理工大學 智能信息處理重點實驗室,昆明 650500
依存句法分析是自然語言處理的一個關鍵環(huán)節(jié),目前對于越南語短語結構樹的研究比較多,而依存結構樹的研究就顯得十分薄弱。提出了一種新的方法,嘗試結合越南語的語言特點和語法特征,利用中心子節(jié)點過濾表的思想與統(tǒng)計的方法將越南語的短語結構樹轉換成依存結構樹。首先依據中文依存關系標注體系與越南語的語法規(guī)則,制定出依存關系列表;然后結合越南語的語言特點,制定出中心子節(jié)點過濾表,利用中心子節(jié)點過濾表的思想進行初步轉化;最后使用依存關系標注器來進行依存關系標注?;谵D換后得到的依存結構樹,利用MSTParser工具進一步訓練得到更多的越南語依存結構樹。對實驗結果進行了抽樣評估,樹庫轉換的準確率達到了89.4%,較好地解決了越南語由短語樹到依存樹的轉換問題。
句法分析;中心子節(jié)點過濾表;短語結構;依存結構;樹庫
句法分析是指遵循給定的語法分析出句子的語法結構,其在自然語言處理、信息抽取和機器翻譯等方面的研究中有著至關重要的作用。目前所使用的句法分析主要有兩種形式:短語結構分析法和依存結構分析法。短語結構分析法就是將句子切分成短語,分析出句子短語之間的層次關系。短語結構樹主要由終結點、非終結點和短語標記構成,其中最基本的成分是句法標記,也就是非終結點(例如名詞短語NP、動詞短語VP)。依存結構分析就是分析出句子短語之間的依存關系[1],其可以明確地表明詞語間的支配關系(例如“我喜歡喝茶”,我和喜歡之間就是主謂關系)。由于依存關系的廣泛應用,這些年也越來越受學者的重視。
當前國內外已有的樹庫可以分為兩大類:一類是體現句子的語法信息的依存結構樹庫,比較著名的有捷克的布拉格依存樹庫,英語的PARC樹庫[2]等。另一類是體現句子短語之間的層次關系的短語結構樹,目前比較著名的是美國的賓州樹庫Penn Treebank[3]。賓州樹庫在句法分析等方面具有較高的準確性,已經成為句法分析所公認的訓練集合測試集。雖然目前關于越南語的樹庫建設已經有了一些進展,如在賓州樹庫中目前存在有10 000句的越南語短語結構樹[4],但是在規(guī)模和質量上,和其他語言例如英語、漢語和德語相比,研究工作基礎較弱,還有許多工作尚待開展。對于越南語依存樹的研究目前主要包含兩方面的工作:一個是Ph??ng等人[5]利用MSTParser(maximum spanning tree parser)訓練了450句語料庫;另外一個是詞匯化樹鏈接文法對越南語樹庫子集進行訓練[6]。對越南語樹庫建設來說,標注樹庫是一件費時費力的工作,需要完善標注體系和規(guī)范標注流程,從而保證標注的質量。
短語結構和依存結構雖然在表現形式上不同,但是它們都是對句子語法結構的描述,因此在結構上存在一致性。將短語結構樹庫轉化為依存結構樹庫的研究方面,國外已有相關研究,如Magerman[7]提出了核心節(jié)點映射表,通過優(yōu)先序列來確定一個組塊中的核心節(jié)點;Collins[8]修改了Magerman的規(guī)則,將這種依存關系作為短語結構句法分析中的中間表示。Yamada和Matsumoto[9]重新定義了一個核心節(jié)點映射表,并且給出了一套轉化程序,現已成為最流行的轉化程序,被大量學者在研究過程中采用。Nivre[10]重新實現了Yamada和Matsumoto的方法,定義了一套啟發(fā)式規(guī)則來確定弧的依存關系類型。其程序提供了賓州樹庫Penn Treebank和賓州中文樹庫Penn Chinese Treebank的核心節(jié)點映射表。Johansson和Nugues為了充分挖掘Penn Treebank標注的信息,提出了一套更加完善、細致的轉化策略。
上述工作都是直接將短語樹庫轉化為依存結構樹庫,其中依存句法關系類型一般都根據短語結構樹庫中的短語類型獲得。但是由于語言之間存在一定的差異,這種方法在使用的時候還存在一定的局限性,主要是處理由語言本身帶來的一些語序上的問題,這就需要結合語言本身制定中心子節(jié)點過濾表。
Fig.1 Example of dependency tree圖1 依存結構樹示例
本文提出一種新的方法,首先基于越南語言特點制定中心子節(jié)點過濾表,然后利用中心子節(jié)點過濾表的方法將越南語短語樹庫轉化為依存樹庫,同時結合賓州中文樹庫(CTB)依存關系標注集,制定出越南語依存樹的依存關系類型,最后利用online算法完成依存關系的標注。這樣做的好處是可以增大目標樹庫的規(guī)模,無需改變句法分析模型學習策略,便可以提高依存分析器的能力。這項工作可以看作是利用多種樹庫學習句法知識的一種方式。經驗證,本文所提方法在處理越南語樹庫轉換以及越南語依存樹庫擴展上具有不錯的實驗效果,很好地解決了越南語依存句法分析的問題。
中心子節(jié)點在短語結構和依存結構中起著非常重要的作用。x-bar理論[5]和管轄約束理論[10]等語言理論認為,每個短語結構中都有一個中心子節(jié)點決定著這個短語的主要性質,短語中的其他節(jié)點都是該中心子節(jié)點的修飾子節(jié)點。而在依存結構中非中心子節(jié)點以某種依存關系依存于中心子節(jié)點。
依存結構樹庫標注體系如圖1所示,其標注了句子中詞語之間的依存關系及依存類型。短語結構樹庫賓州樹庫中句子的標注如圖2所示,其僅標出每個句子的短語層次結構及短語類型,沒有標明每個短語的中心子節(jié)點。確定短語中心子節(jié)點最常用的方法是使用中心子節(jié)點過濾表。
2.1 中心子節(jié)點過濾表的結構
Fig.2 Example of phrase structure tree圖2 短語結構樹示例
Table 1 Head percolation table表1 中心子節(jié)點過濾表
中心子節(jié)點過濾表的制定是整個工作中很重要的一部分,表1為部分中心子節(jié)點過濾表,其每一行都由〈短語類型,搜索方向,優(yōu)先級〉3項組成。其中,短語類型是非終端節(jié)點的短語符號;搜索方向為在非終端節(jié)點內部搜索中心子節(jié)點的方向,取值為L時從短語左側開始向右搜索,取值為R時從短語右側開始向左搜索;優(yōu)先級為決定短語內部各類標注子節(jié)點作為中心節(jié)點的優(yōu)先次序。例如,根據過濾表中的一個條目<VP,L,VP;V;A;AP;N;NP;S;.*>,可以這樣確定VP短語的中心子節(jié)點:從左向右觀察VP的每一個子節(jié)點,最先找到的標注為VP的子節(jié)點即為VP的中心子節(jié)點;如果沒有找到VP節(jié)點,重新從左向右觀察VP的每一個子節(jié)點,最先找到的符號為V的子節(jié)點即為VP的中心子節(jié)點;以此類推,如果這個VP內部沒有任何標注為VP、V、A、AP、N、NP、S、.*的子節(jié)點,就默認最左側的子節(jié)點為中心子節(jié)點。
下面舉例來找到中心子節(jié)點:(VP(R kh?ng)(V còn)(NP-DOB(Nng??i)(A nghèo))。首先需要在中心子節(jié)點過濾表中找到VP短語類型,可以看到VP所對應的條目是<VP,L,VP;V;A;AP;N;NP;S;.*>。第二步需要從左到右瀏覽VP短語中第一個標記為V就是詞(V còn)。這就意味著“còn”就是這個VP短語的中心子節(jié)點。
2.2 基于越南語語言特征的中心子節(jié)點過濾表制定
2.2.1 越南語言的主要特征
越南語是一種典型的單音節(jié)、不變形、有聲調的語言。詞與詞之間的語法關系不通過詞本身的形態(tài)變化,而是靠詞序和虛詞等手段表示[11]。其主要特征如下:
(1)詞序排列是越南語語法中最重要的表義手段。詞序的改變會導致語義的改變,例如ng??i còn、c?a còn不同于còn ng??i、còn c?a。并且越南語句子中的詞序大體上是一種具體性逐漸增強的詞序,即詞義越是概括性強的詞匯在句中的位置就越是靠前,相反,詞義越是具體的詞匯在句中的位置越是靠后。
(2)語法體系高度穩(wěn)定[12]。越南語受其他語言尤其是漢語的影響很大,這種影響主要體現在詞匯層面,有半數以上的詞匯是漢語借詞或利用漢語語素創(chuàng)造的詞。但就語法層面而言,漢語對越南語的影響不大,越南語仍保持自己的特色語法系統(tǒng)不變,例如“前正后偏”的詞組結構規(guī)律就是永恒的。采用“前正后偏”的特色構詞方式。名詞性中心語表示性質特點的成分后置,或者說形容詞后置,是越南語有別于漢語的最鮮明特點。人們稱這種構詞方式是“前正后偏”。這種前正后偏的組詞方式體現在句子上就是“右側補義”,也就是右面的詞語補充說明左面的詞語,越往后越具體[13]。例如對于下面的句子:
中文句子:水牛黑色我家的正在吃草 外面田野在村尾。
越南語句子:Con bò ?en c?a nhà t?i ?ang ?n c?ngoài cánh ??ng ? cu?i th?n.
漢語恰好相反,是前偏后正,是左側補義。
(3)越南語形容詞與動詞有許多共同的語法特點,常作句子謂語,被統(tǒng)稱為“謂詞”[14]。形容詞直接后附補語的現象非常普遍,例如gi?i v?n、kém toán、kh?eng??i、l??i làm、d?tng??i、sángd?等。漢語形容詞也可以帶支配對象,例如“好色”、“好客”等,但不如越語普遍。
(4)狀語位置靈活,前狀語較漢語為多,中狀語較少。漢語中的狀語成分的位置比較靈活,前、中、后狀語均很常見,但越南語以前狀語為多,后狀語次之,中狀語較少,例如Ngày maitr?is?m?a。
(5)越南語被動句式比漢語多。由于b?、???c、do、b?i、do b?i等詞的使用,越南語中的被動句式比漢語要多。例如:B?n?yyb??m.T?i???cngh?bangày.上述兩個句子在用漢語表達時,如果硬把“被”“得”說出來,反倒別扭。
2.2.2 中心子節(jié)點過濾表制定
為了能夠更好地找到每一個短語的中心節(jié)點,本文將上面所描述的越南語的特征融入到中心子節(jié)點過濾表的制定中;同時本文采用了簡單的依存關系描述體系,其中包含11種依存關系類型,如表2所示。非中心子節(jié)點以表中所示依存關系類型依存于中心子節(jié)點。本文所用的越南語句子中依存關系的確定,主要是參照賓州樹庫的標注體系,同時在賓州樹庫標注體系的基礎上,結合越南語語言特點做了相應調整。具體的依存關系的定義如表2所示,其中列出了賓州樹庫標注體系中每種短語包含的全部節(jié)點類型。
Table 2 Dependency types表2 依存關系類型
依據上述依存關系的定義,同時結合越南語的語法特點,對各類節(jié)點作為中心子節(jié)點的優(yōu)先級進行排序,制定中心子節(jié)點過濾表,如表1所示。其核心子節(jié)點過濾表基本涵蓋了所有的越南語短語結構類型,為越南語短語樹到依存樹的轉換提供了較好的理論依據。
3.1 利用中心子節(jié)點過濾表進行初步的轉換
制定了中心子節(jié)點過濾表,短語結構樹到依存結構樹的轉換就相當直接。轉換采用遞歸算法,將短語結構樹Tree constituency轉換為依存結構樹Tree dependency的轉換算法ConvertCToD(Tree constituency,Tree dependency)為:
步驟1若根節(jié)點constituency為葉子節(jié)點,返回根節(jié)點constituency并完成轉換。
步驟2査找根節(jié)點constituency的中心子節(jié)點。
步驟3轉換以中心子節(jié)點為根的子樹,并返回該子樹的中心子節(jié)點headChild。
步驟4對于其他非中心子節(jié)點:
(1)轉換以非中心子節(jié)點為根的子樹,并返回該子樹的中心子節(jié)點non-headChild;
(2)將non-headChild依存于headChild,并填入依存結構樹Tree dependency。
圖3顯示了圖2所示例句從短語結構樹到依存結構樹的轉換。首先轉換以S為根節(jié)點的短語結構樹Tree IP。S不是葉子節(jié)點,查找S短語的中心子節(jié)點。參照表1中心子節(jié)點過濾表,從左向右觀察S的每一個子節(jié)點,最先找到的標注為S的子節(jié)點即為S的中心子節(jié)點。由于沒有找到S子節(jié)點,重新從左向右查找標注為VP的子節(jié)點為S的中心子節(jié)點。然后轉換中心子樹Tree VP,VP的中心子節(jié)點(V?n)為葉子節(jié)點,將其返回。繼續(xù)轉換VP的非中心子樹Tree PP……依次確定句子每個短語的中心子節(jié)點,將短語的非中心子節(jié)點依存到其中心子節(jié)點上。
Fig.3 Conversion from phrase structure tree to dependency tree圖3 短語結構樹到依存結構樹的轉換例句
3.2 依存關系標注
在確定依存關系的過程中,主要采用了基于統(tǒng)計的方法來進行依存關系標注。本文利用online算法[12]來訓練特征向量的權值。online算法不同于SVM,其在整個訓練過程中最大化地提高整個樹的準確率。同時online算法是一種基于距離最大化的學習算法,在依存關系分析、文本分類等方面得到廣泛使用,并且性能很好。在實驗中部分特征的選取如表3所示。
在表3中,c代表依存節(jié)點或者叫作子節(jié)點;h代表中心節(jié)點;h-word表示中心節(jié)點對應的短語;cword表示依存節(jié)點對應的短語;h-pos表示中心節(jié)點的標識;c-pos表示依存節(jié)點的標識;b-pos表示中心節(jié)點與依存節(jié)點中間的節(jié)點標識;h-pos+1表示中心節(jié)點右側節(jié)點的標識;h-pos+1表示中心節(jié)點右側節(jié)點的標識;h-pos-1表示中心節(jié)點左側節(jié)點的標識。對于上面的每一類特征都采用回退的方法,將具體的特征進行了泛化,如表3所示。
Table 3 Partial features of dependency relation表3 依存關系標注部分特征集
為了能夠對依存關系標注結果有一個準確的評估,本文采用3 000句人工標注的越南語依存樹作為實驗數據,其中前2 000句為訓練語料,后1 000句為測試語料,通過分析標注器的訓練測試結果,發(fā)現標注器的準確率達到了89.4%。具體的實驗結果如表4所示。對依存關系標注器結果造成影響的因素主要包含兩方面:(1)SBAR、MDP、AP等短語在初步轉換時就發(fā)生了一些錯誤,直接導致標注器的準確率下降;(2)訓練語料不夠充足也是影響標注質量的原因之一。
Table 4 Dependency annotation results表4 依存關系標注結果
4.1 實驗數據集的準備
整個實驗過程分為三部分來完成:第一步利用中心子節(jié)點過濾表的思想將短語結構樹轉化為依存結構樹,在這個過程中使用的訓練語料是來自賓州樹庫中的9 000句短語結構樹;第二步以轉化之后得到的越南語依存結構樹作為基礎訓練集,利用Malt-Parser和MSTParser工具分別進行機器學習建模,進而生成依存結構樹模型;最后在這個模型的基礎上對越南語依存結構樹進行擴展。為了保證實驗數據的多樣性,在進行依存結構樹擴展的過程中使用的語料如表5所示。表5展示的語料來自于越南國內主要的新聞、百科、學術和娛樂等網站。同時對獲取的文本信息進行處理,在每類文本中各自抽取5 000句,以500句作為一個子數據集。
Table 5 Scale of Vietnamese dependency treebank expansion corpus表5 越南語依存樹庫擴展語料規(guī)模
4.2 評價方法
對于句子依存句法分析的評測指標主要是從兩方面考慮:依存弧準確率(unlabeled attachment score,UAS)和標識準確率(labeled attachment score,LAS),對應定義如下所示:
4.3 短語結構樹到依存結構樹轉換實驗結果分析
為了準確地評估出實驗結果的準確性,首先隨機選取一個含有1 000個越南語句子的子集,用已經定義好的依存關系類型人工標注這1 000個句子的依存關系。
然后使用定義的樹庫轉換算法結合中心子節(jié)點過濾表將這些句子由短語結構樹轉化為依存結構樹。為了準確地評估中心子節(jié)點過濾表以及轉換算法的準確性,將初步得到的依存結構樹與人工標注的依存樹進行依存關系的比對。得到的實驗結果為初步轉換得到的依存樹的依存關系的準確率達到了98.1%。為了能夠對各種短語類型初步轉換結果有一個準確的把握,本文統(tǒng)計了短語結構類型分類的轉換結果如表6所示。通過分析表6中的實驗結果,可以發(fā)現對于大多數需要轉換的節(jié)點來講,轉換的準確率是比較高的,總體的轉換準確率也達到了97.6%。其中WHVP、MDP、SQ的準確率比較低,這些錯誤也會對轉換得到的依存樹庫的質量有一定的影響。
Table 6 Preliminary conversion results表6 初步轉換結果
最后用轉換后得到的最終依存樹與人工標注的依存樹作對比,得到了比較好的實驗結果,其中依存弧準確率達到了97.6%,標識準確率達到了89.4%。
4.4 轉化樹庫再利用實驗結果分析
目前用于依存句法分析的工具主要包括:數據驅動句法分析工具MaltParser,斯坦福句法分析工具StanfordParser,最大生成樹句法分析工具MSTParser等。MaltParser[15]是由Hall等人研究開發(fā)的比較實用的依存句法分析器,在句法分析中包含了兩個過程:訓練過程和分析過程。在訓練過程中采用的是支持向量機算法,在分析過程中采用的是transition-based算法。StanfordParser是斯坦福大學自然語言處理機構研究開發(fā)的依存句法分析器;StanfordParser[16]基于賓州樹庫定義了53種英語依存關系,在英語的依存句法分析上取得了比較高的準確率。MSTParser[17]是 Mcdonald等人研究開發(fā)的依存句法分析器,主要包括兩個過程:訓練過程和分析過程。在訓練過程中采用的是online算法,在分析過程中采用的是graphbased算法。這些分析器在目前大多數語言的依存句法分析上都取得了比較好的效果。
在實驗過程中,本文利用MaltParser、Stanford-Parser和MSTParser來訓練并解析越南語依存樹,從而對越南語的依存樹進行擴展。所用語料來自于新聞、百科、學術和娛樂網站各5 000句,以500句作為一個小的數據集進行訓練。通過比對分析實驗結果,挑選出進行越南語依存句法分析的分析器為MSTParser,實驗結果對比如表7所示。
Table 7 Comparison of MaltParser and MSTParser on Vietnamese treebank expansion results表7 MaltParser與MSTParser越南語依存樹庫擴展實驗結果對比
由表7可以看出:利用MSTParser進行越南語依存樹庫訓練和解析的實驗結果為UAS=80.13%,LAS= 74.21%;StanfordParser進行越南語依存樹庫訓練和解析的實驗結果為UAS=77.52%,LAS=69.83%;而MaltParser進行越南語依存樹庫訓練和解析的實驗結果為UAS=78.38%,LAS=70.35%。通過對比發(fā)現,在對于越南語依存句法分析方面,MSTParser的實用性更強。
使用MSTParser對越南語進行句法分析的詳細實驗結果如表8所示。對于4類語料,采用隨機抽取的方式進行實驗,每次從4類語料中抽取一個數據集進行實驗。
從表8的實驗結果中會發(fā)現,隨著測試語料的不斷增加,對于越南語依存樹的解析的準確率也都有下降的趨勢。導致實驗結果的準確率并不是太高的原因主要包含兩方面:MSTParser并不是針對越南語的句法分析器,在進行越南語依存句法分析時難免會出現偏差;同時也由于越南語語法規(guī)則的特殊性,雖然對中心子節(jié)點過濾表做出了改進,但依然存在不夠完善的地方,需要進一步的改進來提高對整個越南語句法分析的準確率。
Table 8 Accuracy of using MSTParser to extend Vietnamese dependency tree表8 利用MSTParser進行越南語依存樹擴展的準確率
本文結合越南語的特點制定了中心子節(jié)點過濾表,同時利用已有的賓州樹庫的短語結構樹庫的語料上進行了實驗,使得越南語的樹庫轉換的準確率達到了89.4%,很好地解決了越南語依存樹短缺的問題。同時本文也對越南語的依存樹做了進一步的擴展,利用MaltParser、StanfordParser和MSTParser進行對比實驗,獲取更多的越南語依存樹庫。下一步,將轉換得到的依存結構樹庫融入到通過雙語映射得到的越南語依存樹庫中,提高對越南語依存樹分析的準確率,進而促進越南語機器翻譯的研究。
[1]Bosco C,Lombardo V.Dependency and relational structure in treebank annotation[C]//Proceedings of the 20th International Conference on Computational Linguistics Workshop on Recent Advances in Dependency Grammar,Geneva, Switzerland,Aug 28-29,2004.Stroudsburg,USA:ACL,2004: 1-8.
[2]Haji? J.Building a syntactically annotated corpus:the Prague dependency treebank[M]//Issues of Valency and Meaning. Prague:Karolinum Press,1998:106-132.
[3]Sha F,Pereira F.Shallow parsing with conditional random fields[C]//Proceedings of the North American Chapter of the Association for Computational Linguistics on Human Language Technology,Edmonton,Canada,May 27-Jun 1, 2003.Stroudsburg,USA:ACL,2003:134-141.
[4]Collins M.Three generative,lexicalised models for statistical parsing[C]//Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and 8th Conference of the European Chapter of the Association for Computational Linguistics,Madrid,Spain,Jul 7-12,1997.Stroudsburg,USA:ACL,1997:16-23.
[5]Nguyen P T,Vu X L,Nguyen T M H,et al.Building a large syntactically-annotated corpus of Vietnamese[C]//Proceedings of the 3rd Linguistic Annotation Workshop,Singapore, Aug 6-7,2009.Stroudsburg,USA:ACL,2009:182-185.
[6]Ph??ng L H,Huyên N T M,Roussanaly A,et al.A hybrid approach to word segmentation of Vietnamese texts[C]// LNCS 5196:Proceedings of the 2nd International Conference on Language and Automata Theory and Applications, Tarragona,Spain,Mar 13-19,2008.Berlin,Heidelberg:Springer, 2008:240-249.
[7]Magerman D M.Natural language parsing as statistical pattern recognition[R].Stanford University,1994.
[8]Collins M J.Head-driven statistical models for natural language parsing[J].Computational Linguistics,2006,29(4): 589-637.
[9]Yamada H,Matsumoto Y.Statistical dependency analysis with support vector machines[C]//Proceedings of the 8th International Workshop on Parsing Technologies,Nancy,France, 2003:195-206.
[10]Nivre J,Scholz M.Deterministic dependency parsing of English text[C]//Proceedings of the 20th International Conference on Computational Linguistics,Geneva,Switzerland,Aug 23-27,2004.Stroudsburg,USA:ACL,2004.
[11]Xia Fei,Palmer M.Converting dependency structures to phrase structures[C]//Proceedings of the 1st International Conference on Human Language Technology Research, San Diego,USA,Mar 18-21,2001.Stroudsburg,USA:ACL, 2001:1-5.
[12]?abokrtsky Z,Smr? O.Arabic syntactic trees:from constituency to dependency[C]//Proceedings of the 10th Conference on European Chapter of the Association for Computational Linguistics,Budapest,Hungary,Apr 12-17,2003. Stroudsburg,USA:ACL,2003:183-186.
[13]Ph??ng L H,Roussanaly A,Huyên N T M,et al.An empirical study of maximum entropy approach for part-of-speechtagging of Vietnamese texts[C]//Proceedings of the 17th Conference on Natural Language Processing,Montreal, Canada,Jul 19-23,2010.
[14]Ph??ng L H,Nguyen T M H,Nguyen P T,et al.Automated extraction of tree adjoining grammars from a treebank for Vietnamese[C]//Proceedings of the 10th International Conference on Tree Adjoining Grammars and Related Formalisms,New Haven,USA,Jun 10-12,2010.Stroudsburg,USA: ACL,2010:165-173.
[15]Nivre J,Hall J,Nilsson J,et al.Labeled pseudo-projective dependency parsing with support vector machines[C]//Proceedings of the 10th Conference on Computational Natural Language Learning,New York,Jun 8-9,2006.Stroudsburg, USA:ACL,2006:221-225.
[16]McDonald R,Lerman K,Pereira F.Multilingual dependency analysis with a two-stage discriminative parser[C]//Proceedings of the 10th Conference on Computational Natural Language Learning,New York,Jun 8-9,2006.Stroudsburg, USA:ACL,2006:216-220.
[17]Mcdonald R,Crammer K,Pereira F.Online large-margin training of dependency parsers[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics,Ann Arbor,USA,Jun 25-30,2005.Stroudsburg,USA: ACL,2005:91-98.
LI Ying was born in 1991.She is an M.S.candidate at Kunming University of Science and Technology.Her research interests include natural language processing and syntactic analysis,etc.
李英(1991—),女,河南信陽人,昆明理工大學碩士研究生,主要研究領域為自然語言處理,句法分析等。
GUO Jianyi was born in 1964.She received the M.S.degree from Xi'an Jiaotong University in 1990.Now she is a professor and M.S.supervisor at Kunming University of Science and Technology,and the member of CCF.Her research interests include natural language processing,information extraction,machine learning and pattern recognition,etc.
郭劍毅(1964—),女,河南偃師人,1990年于西安交通大學獲得碩士學位,現為昆明理工大學教授、碩士生導師,CCF會員,主要研究領域為自然語言處理,信息抽取,機器學習,模式識別等。
YU Zhengtao was born in 1970.He received the Ph.D.degree from School of Computer Science,Beijing Institute of Technology in 2005.Now he is a professor and Ph.D.supervisor at Kunming University of Science and Technology,and the senior member of CCF.His research interests include natural language processing,information retrieval, machine translation and machine learning,etc.
余正濤(1970—),男,云南曲靖人,2005年于北京理工大學獲得博士學位,現為昆明理工大學教授、博士生導師,CCF高級會員,主要研究領域為自然語言處理,信息檢索,機器翻譯,機器學習等。
MAO Cunli was born in 1977.He received the Ph.D.degree in computer science from Kunming University of Science and Technology in 2013.His research interests include natural language processing,information retrieval,machine translating and machine learning,etc.
毛存禮(1977—),男,2013年于昆明理工大學獲得博士學位,主要研究領域為自然語言處理,信息檢索,機器翻譯,機器學習等。
XIAN Yantuan was born in 1981.He received the M.S.degree in pattern recognition and intelligent system from Shenyang Institute of Automation,Chinese Academy of Sciences in 2006.Now he is a Ph.D.candidate at Kunming University of Science and Technology.His research interests include natural language processing,information extraction,machine translation and machine learning,etc.
線巖團(1981—),男,2006年于中國科學院沈陽自動化研究所獲得碩士學位,現為昆明理工大學博士研究生,主要研究領域為自然語言處理,信息抽取,機器翻譯,機器學習等。
Constituent-to-Dependency Conversion for Vietnamese*
LI Ying1,GUO Jianyi1,2+,YU Zhengtao1,2,MAO Cunli1,2,XIAN Yantuan1,2
1.School of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China
2.Key Laboratory of Intelligent Information Processing,Kunming University of Science and Technology,Kunming 650500,China
+Corresponding author:E-mail:gjade86@hotmail.com
Dependency parsing is a key part of the natural language processing.Currently,there are some researches on Vietnamese phrase structure trees,but few on dependency structure treebank.This paper proposes a novel method, which combines the Vietnamese language features and grammatical features,uses the head percolation table as well as statistical machining learning method to convert the Vietnamese phrase structure treebank into a dependency one. Firstly,according to Chinese dependency annotation system and Vietnamese grammar rules,a list of dependencies are developed;Secondly,integrating the characteristics of Vietnamese language,the head percolation table is worked out;Thirdly,using the head percolation table to carry out preliminary conversion;Finally,using dependency tagger to tag dependency.Vietnamese dependency structure treebank increases by training converted treebank with MSTParser tool.The precision of conversion reaches 89.4%.The experimental results show that the proposed method gives a better solution of converting constituent-to-dependency treebank for Vietnamese.
10.3778/j.issn.1673-9418.1603057
A
TP391
*The National Natural Science Foundation of China under Grant Nos.61262041,61363044,61472168(國家自然科學基金);the Key Project of Natural Science Foundation of Yunnan Province under Grant No.2013FA030(云南省自然科學基金重點項目).
Received 2016-02,Accepted 2016-04.
CNKI網絡優(yōu)先出版:2016-04-19,http://www.cnki.net/kcms/detail/11.5602.TP.20160419.1144.010.html
LI Ying,GUO Jianyi,YU Zhengtao,et al.Constituent-to-dependency conversion for Vietnamese.Journal of Frontiers of Computer Science and Technology,2017,11(4):599-607.
Key words:syntactic analysis;head percolation table;phrase structure;dependency structure;treebank