国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

依存句法分析的回顧與發(fā)展

2022-02-28 11:55:40楊牧蔡言勝
現(xiàn)代語(yǔ)文 2022年1期
關(guān)鍵詞:可視化分析

楊牧 蔡言勝

摘? 要:依存語(yǔ)法的基本思想是探討詞與詞之間的依存關(guān)系。依存句法分析以依存語(yǔ)法為理論來(lái)源,以算法為實(shí)現(xiàn)手段,在語(yǔ)言研究和實(shí)際應(yīng)用中均具有一定的價(jià)值。采用CiteSpace軟件,對(duì)Web of Science核心數(shù)據(jù)庫(kù)1985—2020年所收錄的相關(guān)文獻(xiàn)進(jìn)行可視化分析,研究顯示,依存句法分析研究的發(fā)文量呈遞增趨勢(shì),研究?jī)?nèi)容聚焦于語(yǔ)義理解和算法設(shè)計(jì),研究主體為計(jì)算機(jī)學(xué)界和語(yǔ)言學(xué)界。

關(guān)鍵詞:依存語(yǔ)法;依存句法分析;可視化分析

一、引言

語(yǔ)言學(xué)研究的趨勢(shì)之一是越來(lái)越強(qiáng)調(diào)用數(shù)據(jù)說(shuō)明問(wèn)題。得益于聲學(xué)技術(shù)的發(fā)展,語(yǔ)音學(xué)可以更加精密地采集數(shù)據(jù)。結(jié)合統(tǒng)計(jì)學(xué)的分析方法,語(yǔ)音學(xué)研究具備了成熟的定量分析能力。而傳統(tǒng)的語(yǔ)法定量研究主要是統(tǒng)計(jì)某類(lèi)語(yǔ)法單位或特定格式的出現(xiàn)頻次,解釋能力是有限的,因此,語(yǔ)法研究必須采取新的手段。自然語(yǔ)言處理是應(yīng)用語(yǔ)言學(xué)的重要方向之一。自然語(yǔ)言處理直接面向應(yīng)用,這就要求必須有合適的方法批量處理語(yǔ)言,準(zhǔn)確找到所需信息,之后的所有操作都是建立在這個(gè)基礎(chǔ)之上的。在具體實(shí)踐中,依存語(yǔ)法被證明是合適的理論,學(xué)者們根據(jù)依存語(yǔ)法的基本思想建立起了比較成熟的句法分析方法??梢哉f(shuō),依存語(yǔ)法的理論和分析方法,無(wú)論是對(duì)語(yǔ)言學(xué)的本體研究還是應(yīng)用研究,都提供了很大的幫助。

依存語(yǔ)法是一種基于詞與詞關(guān)系的形式語(yǔ)法。Robinson曾給出四條公理[1]:1.一個(gè)句子只有一個(gè)成分是獨(dú)立的;2.句子中的其他成分直接依存于某一成分;3.任何一個(gè)成分都不能依存于兩個(gè)或兩個(gè)以上的成分;4.如果成分A直接依存于成分B,而成分C在句子中位于A和B之間,那么,成分C或者依存于A,或者依存于B,或者依存于A和B之間的某一成分。這一理論初看未免有些抽象,下面,我們就以“這是一個(gè)好例子”為例來(lái)說(shuō)明這四條公理。該例句的依存樹(shù)圖如圖1(左)所示、該例句的依存有向圖如圖1(右)所示:

從依存樹(shù)圖中,可以看出詞語(yǔ)之間的層次關(guān)系;從依存有向圖中,則更有利于看出依存關(guān)系的類(lèi)型,以及依存關(guān)系兩端詞語(yǔ)的地位,即支配與從屬。同時(shí),上文提到的四條公理在例句中都有所體現(xiàn)。其中,例句中的“是”不依存于其他成分,因此,它是獨(dú)立的,并且句中只有“是”一個(gè)詞語(yǔ)是獨(dú)立的。這符合公理1。除“是”之外的所有詞語(yǔ)都直接依存于其他詞語(yǔ),如“這”直接依存于“是”。這符合公理2。圖1中只存在向下的分叉,不存在向上的分叉。這說(shuō)明一個(gè)詞語(yǔ)可以有多個(gè)從屬詞,但只能有一個(gè)支配詞,如“例子”有兩個(gè)從屬詞“一個(gè)”“好”和一個(gè)支配詞“是”。這符合公理3?!耙粋€(gè)”直接依存于“例子”,處在中間的“好”依存于“例子”。這符合公理4。簡(jiǎn)言之,依存語(yǔ)法認(rèn)為,詞語(yǔ)之間的地位是不平等的,一方從屬于另一方。這種不平等的關(guān)系就是依存關(guān)系。

二、依存語(yǔ)法研究簡(jiǎn)述

(一)依存語(yǔ)法的產(chǎn)生和發(fā)展

嚴(yán)格來(lái)講,法國(guó)語(yǔ)言學(xué)家呂西安·泰尼埃的遺作《結(jié)構(gòu)句法》于1959年的發(fā)表,標(biāo)志著依存語(yǔ)法的正式誕生。這個(gè)時(shí)間雖然略晚于喬姆斯基的《句法結(jié)構(gòu)》(1954),但也引起了以德國(guó)學(xué)者為代表的語(yǔ)言學(xué)家的關(guān)注。從泰尼埃的論述中,學(xué)者們認(rèn)識(shí)到了依存語(yǔ)法和短語(yǔ)結(jié)構(gòu)語(yǔ)法的本質(zhì)區(qū)別,這在歐洲尤其是德國(guó)引發(fā)了運(yùn)用依存語(yǔ)法理論解決問(wèn)題的熱潮。值得注意的是,生成語(yǔ)法此時(shí)已經(jīng)統(tǒng)治了美國(guó)語(yǔ)言學(xué)界,但仍有學(xué)者將關(guān)注的目光投向依存語(yǔ)法。Hays正式提出了“依存”和“依存語(yǔ)法”兩個(gè)術(shù)語(yǔ),并且形成了一種完全基于依存關(guān)系的句子結(jié)構(gòu)分析方法[2]。

泰尼埃與Hays是今天公認(rèn)的現(xiàn)代依存語(yǔ)法的先驅(qū),在兩位學(xué)者之后,依存語(yǔ)法理論的發(fā)展勢(shì)頭十分迅猛。其中,產(chǎn)生廣泛影響的主要有四家,即理查德· 哈德森的“詞語(yǔ)法(Word Grammar)”理論、Mel’?uk的“意義—文本理論(Meaning-Text Theory)”、Petr Sgall等人的“功能生成描述(Functional Generative Description)”理論、Stan Starosta的“詞格(Lexicase)”理論。

“詞語(yǔ)法”理論認(rèn)為,語(yǔ)法就是語(yǔ)言中所有的詞構(gòu)成的網(wǎng)絡(luò),語(yǔ)言中不存在短語(yǔ)這一級(jí)單位,詞與詞通過(guò)依存關(guān)系組織在一起[3](P95)、[4]、[5](P117)。該理論指出,語(yǔ)言的各個(gè)層級(jí)之間沒(méi)有明顯的界限,語(yǔ)言的各個(gè)子系統(tǒng)相互交織,為了處理這種情況,“詞語(yǔ)法”選擇運(yùn)用“關(guān)系(relation)”連接“實(shí)體(entities)”以回避層級(jí)問(wèn)題。其中,哈德森用來(lái)說(shuō)明依存關(guān)系的“依存有向圖”得到普遍認(rèn)可與廣泛應(yīng)用?!耙饬x—文本理論”一開(kāi)始就面向機(jī)器翻譯,其關(guān)注點(diǎn)是在于意義的表達(dá)和理解[3](P95)、[6](P43)。意義和文本的關(guān)系是多對(duì)多的,相同意義可以由不同的文本來(lái)表達(dá),相同文本也可以表達(dá)不同意義。在Mel’?uk看來(lái),語(yǔ)言的生成比語(yǔ)言的理解更值得關(guān)注,因此,相比于句法分析,該理論更關(guān)注語(yǔ)言的生成?!耙饬x—文本理論”是目前最具影響力的依存語(yǔ)法理論,并且已廣泛應(yīng)用于自然語(yǔ)言處理上?!肮δ苌擅枋觥崩碚撏瑯优c自然語(yǔ)言處理密切相關(guān)[3](P96)、[7]。該理論把語(yǔ)言分為四個(gè)層次:詞匯層、形態(tài)層、表層句法層、深層語(yǔ)法層。詞匯層指的是原始文本;形態(tài)層是過(guò)濾形態(tài)之后的文本;表層句法層就是通常所說(shuō)的句法層;深層語(yǔ)法層則是語(yǔ)義層。圍繞這一理論,Petr Sgall等人建立了目前最大的依存樹(shù)庫(kù)——布拉格依存樹(shù)庫(kù)(Prague Dependency Treebank)和最大的面向應(yīng)用的配價(jià)詞典——捷克語(yǔ)動(dòng)詞配價(jià)詞表(The Valency Lexicon of Czech Verbs)。“詞格”理論也是一種依存理論,但在Stan Starosta去世后,其影響力逐漸衰落[3](P96)。

(二)自動(dòng)句法分析的研究

與其他理論相比,依存語(yǔ)法的最大優(yōu)勢(shì)是在于從它誕生起就和應(yīng)用聯(lián)系在一起,而自動(dòng)句法分析則是這些應(yīng)用的基礎(chǔ)。早期的依存分析是基于規(guī)則的分析,首先是依據(jù)于語(yǔ)言學(xué)家歸納出的句法規(guī)則建立起語(yǔ)法知識(shí)庫(kù),然后根據(jù)語(yǔ)法知識(shí)庫(kù),對(duì)文本進(jìn)行分析。語(yǔ)言學(xué)家們有意識(shí)地運(yùn)用語(yǔ)言理論,積極地嘗試句法分析,開(kāi)了自動(dòng)句法分析的先河。Hays曾提出一種識(shí)別句子合法性的句法識(shí)別器,并啟發(fā)了后來(lái)CYK算法的誕生[2];Menzel則提出面向依存分析的“加權(quán)約束依存語(yǔ)法”[8];Gitguet & Vergne依據(jù)泰尼埃的理論,提出一種依存分析和組塊分析相結(jié)合的句法分析器[9]。這些方法對(duì)依存分析的應(yīng)用提供了有力的工具,擴(kuò)大了這一理論的影響。但是問(wèn)題也顯而易見(jiàn),語(yǔ)言中本來(lái)就存在著語(yǔ)法理論不好解決或解決不了的問(wèn)題。為了提高準(zhǔn)確性,學(xué)者們繼續(xù)探索更合適的理論或者是訴諸于其他方法。

隨著大規(guī)模語(yǔ)料庫(kù)的建立,海量的語(yǔ)料為依存分析提供了數(shù)據(jù)來(lái)源,基于統(tǒng)計(jì)的依存分析開(kāi)始產(chǎn)生。這種方法把語(yǔ)料庫(kù)當(dāng)作語(yǔ)言知識(shí)的全部來(lái)源,通過(guò)訓(xùn)練能夠得到正確率較高的句法分析器。Yamada & Matsumoto采用“支持向量機(jī)(Support Vector Machine)”,訓(xùn)練出接近當(dāng)時(shí)最好的短語(yǔ)結(jié)構(gòu)分析器性能的依存分析器[10];McDonald等采用“生成樹(shù)算法”,有效地進(jìn)行了非標(biāo)記依存關(guān)系的句法分析[11];Sagae基于兒童語(yǔ)言轉(zhuǎn)寫(xiě)語(yǔ)料庫(kù),開(kāi)展了依存分析研究[12]。同時(shí),還出現(xiàn)了將規(guī)則與統(tǒng)計(jì)方法相結(jié)合的依存分析,學(xué)者們?cè)诨谝?guī)則的依存分析中加入了統(tǒng)計(jì)方法,這種方法有助于解決一些原來(lái)不好處理的棘手問(wèn)題。Gala利用施樂(lè)公司的增量深層句法分析系統(tǒng)(Xero Incremental Deep Parsing Sysytem)所開(kāi)發(fā)的分析器,具有從萬(wàn)維網(wǎng)自學(xué)習(xí)的能力[13];Schneider的Pro3Gres分析器,一方面依托于語(yǔ)言學(xué)家所歸納的語(yǔ)法規(guī)則,另一方面把來(lái)源于賓州樹(shù)庫(kù)的詞匯化統(tǒng)計(jì)數(shù)據(jù)作為經(jīng)驗(yàn)依據(jù),有效提高了分析器精度[14]。

(三)漢語(yǔ)依存分析的研究

互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展,語(yǔ)言學(xué)理論的逐漸成熟,催生了一場(chǎng)計(jì)算語(yǔ)言學(xué)的“革命”,從事于中文信息處理的學(xué)者們也意識(shí)到依存語(yǔ)法在句法分析上的巨大潛力。

黃昌寧等介紹了一種基于語(yǔ)料庫(kù)的依存分析[15];周明、黃昌寧提出了一種基于規(guī)則和統(tǒng)計(jì)的漢語(yǔ)依存分析模型[16];劉偉權(quán)等初步建立起漢語(yǔ)依存關(guān)系的層次體系[17];Zhou結(jié)合淺層短語(yǔ)結(jié)構(gòu)分析和深層依存分析所研制的分析方法,已應(yīng)用于漢日機(jī)器翻譯[18]。值得注意的是,在以依存分析為主題的2006年、2007年CoNLL(Conference on Computional Natural Language Learning)中,漢語(yǔ)的依存分析精確度和英語(yǔ)、意大利語(yǔ)等印歐語(yǔ)言同屬于高分區(qū)。由此可見(jiàn),漢語(yǔ)依存分析研究雖然晚于國(guó)外,但也取得了不少成果,并且這些成果很多已經(jīng)應(yīng)用于實(shí)踐。

需要指出的是,如今已經(jīng)產(chǎn)生了一些成熟的面向漢語(yǔ)的句法分析工具。其中,NLTK(Natural Language Toolkit)是最經(jīng)典的自然語(yǔ)言處理工具包,在Python上可以實(shí)現(xiàn)詞性標(biāo)注、依存分析等任務(wù)。同時(shí),NLTK還自帶大量英語(yǔ)語(yǔ)料,在引入分詞后的漢語(yǔ)語(yǔ)料時(shí),也適用于漢語(yǔ)的依存分析。LTP(Language Technology Platform)是哈爾濱工業(yè)大學(xué)研發(fā)的自然語(yǔ)言處理基礎(chǔ)技術(shù)平臺(tái),加載訓(xùn)練后的模型,能夠?qū)崿F(xiàn)分詞、詞性標(biāo)注、依存句法分析、語(yǔ)義角色分析等功能。LTP支持在Python中調(diào)用pyltp庫(kù)和網(wǎng)頁(yè)直接使用兩種方式。SpaCy誕生于2014年,它是工業(yè)級(jí)強(qiáng)度的自然語(yǔ)言處理包。在Python中調(diào)用SpaCy庫(kù),可以實(shí)現(xiàn)自然語(yǔ)言處理的各種基礎(chǔ)操作、信息提取和深度學(xué)習(xí)預(yù)處理。此外,還有一些基于Python、Java或其他編程語(yǔ)言的工具包,都可應(yīng)用于漢語(yǔ)依存分析,只是會(huì)在精確度上有所差異。語(yǔ)體、文本平均句長(zhǎng)、語(yǔ)法歧義數(shù)量等因素不同,訓(xùn)練出的模型也會(huì)不同,使用者可以加載自己訓(xùn)練好的模型以適應(yīng)自己的需求。

三、依存分析的主要應(yīng)用范圍

(一)文本理解

機(jī)器無(wú)法像人類(lèi)一樣直接理解文本,文本的批量處理是建立在解構(gòu)文本的基礎(chǔ)之上的,這就很可能會(huì)出現(xiàn)理解歧義或理解偏差。比如,“張三的父親是誰(shuí)?”這句話(huà)經(jīng)過(guò)分詞后,可以得到“張三”“的”“父親”“是”“誰(shuí)”五個(gè)詞語(yǔ)。在不考慮句法關(guān)系的情況下,機(jī)器會(huì)得到兩種解讀:一種是正確理解,詢(xún)問(wèn)“張三的父親”是哪個(gè)人;另外一種則是錯(cuò)誤理解,詢(xún)問(wèn)“張三”是誰(shuí)的父親?!皬埲母赣H是誰(shuí)?”的依存樹(shù)圖可如圖2所示:

從圖2可以看出,對(duì)“張三的父親是誰(shuí)?”的理解只有一種?!罢l(shuí)”和“的”“父親”并不存在依存關(guān)系,因此,第二種理解是錯(cuò)誤的。由此可見(jiàn),依存分析能夠顯著提高文本理解的正確率。

(二)事件抽取

文本的關(guān)鍵信息是句子所要表達(dá)的事件,其中,謂詞最能夠體現(xiàn)事件的性質(zhì)、狀態(tài)、屬性或動(dòng)作。經(jīng)過(guò)依存分析,句子可以被整合為具有依存關(guān)系的樹(shù)結(jié)構(gòu),提取核心謂詞所對(duì)應(yīng)的節(jié)點(diǎn)就可以把事件抽取出來(lái)。在事件抽取時(shí),通常需要關(guān)注的節(jié)點(diǎn)是核心謂詞、與核心謂詞并列的謂詞、核心謂詞的賓語(yǔ)。這里不妨以“張三今天吃了饅頭,喝了啤酒”為例加以說(shuō)明,其依存樹(shù)圖可如圖3所示:

從圖3可以看出,“張三今天吃了饅頭,喝了啤酒”中的核心謂詞為“吃”,賓語(yǔ)為“饅頭”;與核心謂詞并列的謂詞為“喝”,賓語(yǔ)為“啤酒”。那么,該句的事件就是“吃饅頭”和“喝啤酒”。加上與謂詞具有不同類(lèi)型依存關(guān)系的節(jié)點(diǎn),我們還可以得到事件的主體和時(shí)間。由此可知,事件抽取不僅能夠有效處理結(jié)構(gòu)化和非結(jié)構(gòu)化的文本數(shù)據(jù),快速地獲得文本的關(guān)鍵信息,而且還能夠根據(jù)抽取出來(lái)的結(jié)構(gòu)化數(shù)據(jù),生成我們所需要的信息。

(三)情感分析

情感分析也稱(chēng)“意見(jiàn)挖掘”“傾向性分析”,它的主要任務(wù)是判斷文本的主觀態(tài)度、評(píng)價(jià)、感情色彩。其中,最為常見(jiàn)的是對(duì)評(píng)論的情感分析,通過(guò)分析結(jié)果,研究者可以有針對(duì)性地調(diào)整產(chǎn)品計(jì)劃。其基本流程是首先把句子依存分析為詞語(yǔ)級(jí)別,接著根據(jù)情感詞典得出詞語(yǔ)的情感得分,然后處理否定邏輯和轉(zhuǎn)折邏輯,得分加權(quán)求和即可得到整個(gè)句子的情感色彩。

(四)機(jī)器翻譯

機(jī)器翻譯是自然語(yǔ)言處理的主要課題之一。如前所述,依存分析在“意義—文本理論”中扮演著重要角色。其基本流程是首先把A語(yǔ)言依存分析為樹(shù)結(jié)構(gòu),再把詞語(yǔ)翻譯為B語(yǔ)言;接著根據(jù)句法結(jié)構(gòu),把翻譯為B語(yǔ)言的詞匯組織成合乎B語(yǔ)言語(yǔ)法的句子。前一過(guò)程與依存分析密切相關(guān),后一過(guò)程則與語(yǔ)言生成密切相關(guān)??梢哉f(shuō),依存分析在機(jī)器翻譯過(guò)程中起到的是理解語(yǔ)言的作用。

(五)樹(shù)庫(kù)搭建

上文曾經(jīng)提及一些基于語(yǔ)料庫(kù)的依存句法分析的研究,實(shí)際上,依存分析同樣能有效幫助搭建語(yǔ)料庫(kù)。在早期語(yǔ)料庫(kù)搭建時(shí),許多工作需要人工完成,如分詞、詞性標(biāo)注、句法分析等。在引入句法分析技術(shù)后,這類(lèi)工作已經(jīng)可以由機(jī)器自動(dòng)完成。依存分析尤其有助于樹(shù)庫(kù)的搭建,樹(shù)庫(kù)不同于普通語(yǔ)料庫(kù),它不僅能夠儲(chǔ)存句法分析的結(jié)果,而且能對(duì)語(yǔ)言學(xué)研究和自然語(yǔ)言處理起到輔助作用。雖然自動(dòng)分析的正確率略顯不足,但基本能夠滿(mǎn)足使用的需要。如果需要更高的準(zhǔn)確度,可以將自動(dòng)分析的結(jié)果加以人工校正。

四、研究現(xiàn)狀及趨勢(shì)

本文采用CiteSpace軟件,對(duì)Web of Science核心數(shù)據(jù)庫(kù)所收錄的文獻(xiàn)進(jìn)行檢索,主題為“dependency parsing”,時(shí)間跨度為1985年1月1日到2020年12月31日,共獲得1339篇文獻(xiàn)?;谖墨I(xiàn)分析所得數(shù)據(jù),下面,主要從年度發(fā)文量、關(guān)鍵詞、學(xué)術(shù)熱點(diǎn)和研究趨勢(shì)、文獻(xiàn)來(lái)源四個(gè)方面,對(duì)依存句法分析的研究現(xiàn)狀進(jìn)行分析。

(一)年度發(fā)文量

我們對(duì)1985~2020年依存分析研究的年度發(fā)文量進(jìn)行了統(tǒng)計(jì),并依據(jù)Web of Science的“引文報(bào)告”功能繪制出分布圖。具體如圖4所示:

從圖4可以看出,1985—1997年,Web of Science中并沒(méi)有出現(xiàn)依存分析研究文獻(xiàn),結(jié)合上文的簡(jiǎn)述,可以得知,這一時(shí)期依存分析尚處于起步階段;1998—2002年間,每年有10篇左右的相關(guān)文獻(xiàn)被收錄,這說(shuō)明依存分析已引起學(xué)界注意,但研究成果相對(duì)匱乏,發(fā)展較為緩慢;2003—2013年間,依存分析研究進(jìn)入新階段,每年發(fā)文量均在20篇以上;從2014年開(kāi)始,發(fā)文量迅速增多,表明依存分析已成為研究熱點(diǎn)。

之所以會(huì)出現(xiàn)上述現(xiàn)象,主要是與技術(shù)手段、應(yīng)用需求等因素有關(guān)。在起步階段,由于技術(shù)手段尚不成熟,相關(guān)成果大多是出現(xiàn)在學(xué)術(shù)會(huì)議上或直接服務(wù)于應(yīng)用,而學(xué)術(shù)期刊則基本沒(méi)有刊發(fā);2003—2013年間,隨著技術(shù)手段的不斷成熟、應(yīng)用需求的逐步擴(kuò)大,學(xué)界對(duì)依存分析的關(guān)注度也持續(xù)提升;2014年之后,技術(shù)手段更為成熟,研究熱度指數(shù)繼續(xù)上升,依存分析的發(fā)文量也得以顯著增加。

(二)關(guān)鍵詞共現(xiàn)知識(shí)圖譜分析

在CiteSpace軟件中,首先選擇相關(guān)研究文獻(xiàn),設(shè)置時(shí)間切片為一年;接著選擇“Keyword”,將“g-index”參數(shù)設(shè)置為25;我們共得到節(jié)點(diǎn)465個(gè),連線(xiàn)數(shù)1363條。然后設(shè)置節(jié)點(diǎn)顯示條件為“By Freq”,Threshold為10(顯示頻次大于10的節(jié)點(diǎn)),可以得到關(guān)鍵詞共現(xiàn)知識(shí)圖譜。具體如圖5所示:

在去除檢索詞“dependency parsing”之后,最大節(jié)點(diǎn)為“parsing(句法分析)”和“natural language processing(自然語(yǔ)言處理)”,與它們密切相關(guān)的還有“dependency(依存)”。句法分析是自然語(yǔ)言的主要任務(wù),如此高的共現(xiàn)率,反映出依存分析在句法分析領(lǐng)域內(nèi)的顯著地位。

數(shù)量和頻次都占絕對(duì)優(yōu)勢(shì)的節(jié)點(diǎn)是語(yǔ)義理解類(lèi)節(jié)點(diǎn),

從圖5可以看出,語(yǔ)義理解類(lèi)節(jié)點(diǎn)主要有“information(信息)”“comprehension(理解)”“sentence comprehension(句子理解)”“complexity(復(fù)雜性)”

“sentiment analysis(情感分析)”,同時(shí),這些節(jié)點(diǎn)大致呈現(xiàn)出聚合關(guān)系。這說(shuō)明,依存分析聚焦于語(yǔ)義的理解,句法分析的目的之一是使計(jì)算機(jī)能夠理解自然語(yǔ)言,而依存分析的主要應(yīng)用也都是基于語(yǔ)義理解作出的。

值得注意的是,“constraint(約束)”也是個(gè)頻次很高的節(jié)點(diǎn)。簡(jiǎn)單來(lái)講,約束是一種規(guī)則,句法分析可以看作是將字符串按一定規(guī)則分析的“約束滿(mǎn)足問(wèn)題(Constraint Satisfaction Problem)”。約束滿(mǎn)足問(wèn)題主要包含三組集合:變量集合(X)、每個(gè)變量的值域集合(D)、描述變量取值的約束集合(C)。就依存分析而言,句中的詞語(yǔ)是變量,句子為變量集合X;每個(gè)詞語(yǔ)可能的支配詞和依存關(guān)系則是值域,所有詞語(yǔ)的值域集合即是D;語(yǔ)法規(guī)則集合即是C。這種方法特別適合于依存分析,它能夠有效評(píng)估句子合乎語(yǔ)法的程度,并且能根據(jù)可用時(shí)間得到不同準(zhǔn)確度的結(jié)果。

在圖5中,還有一類(lèi)與句法分析器密切相關(guān)的節(jié)點(diǎn),如“model(模型)”“algorithm(算法)”“corpus(語(yǔ)料)”等。構(gòu)建句法分析器一直是依存分析的核心內(nèi)容,目前的主流方法是通過(guò)大量語(yǔ)料訓(xùn)練出準(zhǔn)確率高的模型。訓(xùn)練過(guò)程中勢(shì)必會(huì)涉及到算法,經(jīng)典算法主要有樸素貝葉斯、支持向量機(jī)等,算法不同,精確度也會(huì)有所不同,因此,算法與依存分析密切相關(guān)。

此外,“brain potential(大腦潛力)”“working memory(工作記憶)”“sentence processing(句子加工)”則涉及心理和認(rèn)知領(lǐng)域。認(rèn)知是目前學(xué)術(shù)界所關(guān)注的熱點(diǎn)問(wèn)題,語(yǔ)言學(xué)、計(jì)算機(jī)、文學(xué)、哲學(xué)、生物學(xué)等很多學(xué)科,都開(kāi)展了與認(rèn)知領(lǐng)域的相關(guān)研究。而依存分析的主要目的是使計(jì)算機(jī)像人一樣理解語(yǔ)言,認(rèn)知研究可以為依存分析提供參考。

(三)歷時(shí)研究熱點(diǎn)與發(fā)展趨勢(shì)

突現(xiàn)詞(burst)能夠反映一段時(shí)間內(nèi)的學(xué)術(shù)熱點(diǎn)。在CiteSpace軟件中,對(duì)“Keyword”進(jìn)行分析,可以得到突現(xiàn)關(guān)鍵詞。從整體上來(lái)看,在2014年發(fā)生了一定變化,學(xué)術(shù)熱點(diǎn)由“information(信息)”轉(zhuǎn)變?yōu)榫唧w的“sentiment analysis(情感分析)”。具體如圖6所示:

由于從關(guān)鍵詞中得到的突現(xiàn)詞較少,我們又選取了“Term”來(lái)分析所得到的突現(xiàn)詞,以作為補(bǔ)充。具體如圖7所示:

從圖7可以看出,1999—2007年間的研究熱點(diǎn)是“l(fā)anguage(語(yǔ)言)”,這一時(shí)期內(nèi)的研究整體上較為宏觀;其中,2001—2007年的熱點(diǎn)為“eye movement(眼動(dòng))”,眼動(dòng)現(xiàn)象可以體現(xiàn)語(yǔ)言不同成分的加工速度與心理表征情況。2009—2014年間的研究熱點(diǎn)是“machine learning(機(jī)器學(xué)習(xí))”,機(jī)器學(xué)習(xí)是依存分析實(shí)踐的常用方式,訓(xùn)練集和測(cè)試集配合算法能夠訓(xùn)練出所需模型,這種方法一直持續(xù)至今。2011—2015年間的研究熱點(diǎn)是“parsing(句法分析)”,它已包含于主題內(nèi);2016—2020年間的研究熱點(diǎn)則是“sentiment analysis(情感分析)”。2018—2020年間的研究熱點(diǎn)是“deep learning(深度學(xué)習(xí))”,深度學(xué)習(xí)是機(jī)器學(xué)習(xí)新的研究方向,旨在通過(guò)數(shù)據(jù)使機(jī)器獲得類(lèi)似于人的分析能力,以網(wǎng)絡(luò)表示出概念,其性能要高于傳統(tǒng)機(jī)器學(xué)習(xí),借助于這種方法,依存分析的準(zhǔn)確率能夠大大提高。

在上述基礎(chǔ)上,我們還繪制出1999—2020年依存分析的時(shí)區(qū)圖,具體如圖8所示:

從圖8可以看出,其中的整體趨勢(shì)和突現(xiàn)詞圖基本一致??傮w上看,依存分析從依存語(yǔ)法理論和自然語(yǔ)言處理的早期實(shí)踐開(kāi)始,呈現(xiàn)出走向深度學(xué)習(xí)和循環(huán)神經(jīng)網(wǎng)絡(luò)的發(fā)展趨勢(shì)。學(xué)界目前聚焦于算法設(shè)計(jì),通過(guò)更先進(jìn)的算法來(lái)實(shí)現(xiàn)更高準(zhǔn)確率的依存分析。

(四)學(xué)科分布和國(guó)家分布

在CiteSpace軟件中,選擇“Category”,其他設(shè)置同上;然后將節(jié)點(diǎn)標(biāo)準(zhǔn)參數(shù)設(shè)置為“By Citation”,將Threshold設(shè)置為30,可以得到所收錄文獻(xiàn)的學(xué)科分布圖。具體如圖9所示:

從圖9可以看出,依存分析的最大研究主體為計(jì)算機(jī)學(xué)界,其次是語(yǔ)言學(xué)界,再次是工程學(xué)界和心理學(xué)界。自然語(yǔ)言處理屬于計(jì)算機(jī)學(xué)與語(yǔ)言學(xué)這兩個(gè)領(lǐng)域的交叉學(xué)科,因此,這樣的結(jié)果也是符合我們的預(yù)

期的。依存分析研究主要體現(xiàn)在兩個(gè)方面:一是面向于實(shí)踐應(yīng)用;二是面向于理論研究。由于計(jì)算機(jī)學(xué)科占據(jù)了很大比重,今后的依存分析研究可能會(huì)出現(xiàn)向計(jì)算機(jī)應(yīng)用發(fā)展的趨勢(shì)。

在CiteSpace軟件中,選擇“Country”,其他設(shè)置同上;然后將節(jié)點(diǎn)標(biāo)準(zhǔn)參數(shù)設(shè)置為“By Citation”,將Threshold設(shè)置為5,可以得到所收錄文獻(xiàn)的國(guó)家來(lái)源分布圖。具體如圖10所示:

從圖10可以看出,美國(guó)占據(jù)最大的節(jié)點(diǎn),德國(guó)、日本、韓國(guó)也占有一席之地。值得注意的是,來(lái)源于中國(guó)的文獻(xiàn)數(shù)量?jī)H次于美國(guó),這說(shuō)明中國(guó)學(xué)者在依存分析方面的研究已得到國(guó)際認(rèn)可,并處在前沿位置。

綜上所述,依存句法分析的理論來(lái)源是依存語(yǔ)法。法國(guó)語(yǔ)言學(xué)家泰尼埃正式提出了現(xiàn)代依存語(yǔ)法,之后,在依存語(yǔ)法領(lǐng)域內(nèi)發(fā)展出各種理論,為依存句法分析提供了強(qiáng)有力的理論支撐。同時(shí),依存語(yǔ)法一直具有與實(shí)踐應(yīng)用緊密結(jié)合的優(yōu)良傳統(tǒng),Hays、哈德森均設(shè)計(jì)過(guò)句法分析器,Mel’?uk也在機(jī)器翻譯的實(shí)踐中進(jìn)一步完善了“意義—文本理論”。通過(guò)對(duì)WOS相關(guān)研究文獻(xiàn)的統(tǒng)計(jì)和分析,可以看出,依存句法分析研究的發(fā)文量呈遞增趨勢(shì),研究?jī)?nèi)容聚焦于語(yǔ)義理解和算法設(shè)計(jì),研究主體為計(jì)算機(jī)學(xué)界和語(yǔ)言學(xué)界。早期的依存分析側(cè)重于理論研究和認(rèn)知研究,后來(lái)逐漸走向具體的算法設(shè)計(jì)、高性能句法分析器實(shí)現(xiàn),其中,語(yǔ)義始終是依存分析的關(guān)注點(diǎn)??梢哉f(shuō),正是由于依存語(yǔ)法理論大量運(yùn)用在依存分析實(shí)踐中,才催生出成熟的自然語(yǔ)言處理工具,而自然語(yǔ)言處理工具的日益成熟,反過(guò)來(lái)又肯定了依存語(yǔ)法的價(jià)值。就目前的研究態(tài)勢(shì)來(lái)看,自然語(yǔ)言處理領(lǐng)域正處于蓬勃發(fā)展時(shí)期,依存分析的進(jìn)一步壯大也是必然的。

參考文獻(xiàn):

[1]Robinson,J.J.Dependency Structures and Transformational Rules[J].Language,1970,(2).

[2]Hays,D.G.Dependency Theory:A Formalism and Some Observations[J].Language,1964,(4).

[3]劉海濤.依存語(yǔ)法的理論與實(shí)踐[M].北京:科學(xué)出版社, 2009.

[4]馮志偉,周建.赫德森的詞語(yǔ)法理論[J].現(xiàn)代語(yǔ)文, 2018,(3).

[5]Hudson,R.Language Networks:The New Word Grammar[M].Oxford: Oxford University Press,2007.

[6]Mel’?uk,I.A.Dependency Syntax:Theory and Practice[M].Albany:State University Press of New York,1988.

[7]馮志偉,周建.布拉格學(xué)派的功能生成描述理論[J].現(xiàn)代語(yǔ)文,2019,(7).

[8]Menzel,W.Parsing of spoken language under time constraints[A].Proceedings 11th European Conference on Artificial Intelligence[C].1994.

[9]Giguet,E. & Vergne,J.Syntactic analysis of unrestricted French[A].Proceedings for the International Conference on Recent Advances in Natural Languages Processing[C].1997.

[10]Yamada,H. & Matsumoto,Y.Statistical Dependency Analysis with Support Vector MachinesProc[A].Proceedings 8th International Workshop on Parsing Technologies[C].2003.

[11]McDonald,R.,Pereira,F(xiàn).,Ribarov,K. & Haji?,J.Non-Projective Dependency Parsing Using Spanning Tree Algorithms[A].Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing[C].2005.

[12]Sagae,K.A Multi-Strategy Approach to Parsing of Grammatical Relations in Child Language Transcripts[D].Ph.D thesis,Carnrgie Mellon University,2005.

[13]Gala,N.Un Modèle D’analyseur Syntaxique Robuste Fondé sur la Modularité et la Lexicalisation de ses Grammaires[D].Thèse de Doctorat en Informatique Université de Paris-Sud,2003.

[14]Schneider,G.Hybrid Long-Distance Functional Dependency Parsing[D].Ph.D thesis,University of Zurich,2008.

[15]黃昌寧,苑春法,潘詩(shī)梅.語(yǔ)料庫(kù)、知識(shí)獲取和句法分析[J].中文信息學(xué)報(bào),1992,(3).

[16]周明,黃昌寧.面向語(yǔ)料庫(kù)標(biāo)注的漢語(yǔ)依存體系的探討[J].中文信息學(xué)報(bào),1994,(3).

[17]劉偉權(quán),王明會(huì),鐘義信.建立現(xiàn)代漢語(yǔ)依存關(guān)系的層次體系[J].中文信息學(xué)報(bào),1996,(2).

[18]Zhou,M.A Block-Based Robust Dependency Parser for Unrestricted Chinese Text[A].The Second Chinese Language Processing Workshop Attached to ACL2000[C].Hong Kong,2000.

Review and Development of Dependency Parsing

Yang Mu,Cai Yansheng

(College of Chinese Language and Culture, Nankai University, Tianjin 300350, China)

Abstract:The basic idea of dependency grammar is the dependency relationship between words. Dependency parsing takes dependency grammar as its theoretical source and algorithm as its realization method, and has value in both language research and practical application. Based on CiteSpace’s visual analysis of the documents included in the WOS core database from 1985 to 2020, the number of articles published in dependent parsing is increasing, focusing on semantic understanding and algorithm design, and the main body of research is computer science and linguistics.

Key words:dependency grammar;dependency parsing;visual analysis

猜你喜歡
可視化分析
基于大數(shù)據(jù)的港口煤炭物流可視化分析平臺(tái)
航海(2017年2期)2017-04-10 05:20:38
近十五年國(guó)外大學(xué)生就業(yè)研究的進(jìn)展與趨勢(shì)
基于Citespace的商業(yè)生態(tài)系統(tǒng)研究可視化分析
我國(guó)職業(yè)教育師資研究熱點(diǎn)可視化分析
職教論壇(2016年26期)2017-01-06 19:04:59
聲波吹灰技術(shù)在SCR中的應(yīng)用研究
科技傳播(2016年19期)2016-12-27 16:18:28
可視化分析技術(shù)在網(wǎng)絡(luò)輿情研究中的應(yīng)用
國(guó)內(nèi)外政府信息公開(kāi)研究的脈絡(luò)、流派與趨勢(shì)
我國(guó)教育技術(shù)領(lǐng)域眼動(dòng)研究的現(xiàn)狀與趨勢(shì)分析
可視化分析在醫(yī)院圖書(shū)館信息服務(wù)中的應(yīng)用
基于中國(guó)知網(wǎng)的“和”文化研究文獻(xiàn)的可視化分析
伊宁县| 乌鲁木齐县| 海南省| 湘西| 凤山县| 鄂州市| 东辽县| 万山特区| 文成县| 大城县| 九龙坡区| 福州市| 湟中县| 阳高县| 凤城市| 郯城县| 四川省| 荔波县| 涟源市| 贵州省| 汶川县| 岳池县| 霍山县| 阜阳市| 曲沃县| 城固县| 麻江县| 洪湖市| 陈巴尔虎旗| 昌图县| 怀来县| 德阳市| 曲周县| 信丰县| 蒙山县| 墨玉县| 扬州市| 金溪县| 嘉兴市| 霍林郭勒市| 开封县|