陸昊翔
南京農(nóng)業(yè)大學(xué)信息管理學(xué)院 江蘇 南京 210095
人工智能研究領(lǐng)域針對(duì)文字領(lǐng)域的自然語(yǔ)言識(shí)別,是目前最重要也是最困難的研究點(diǎn)。句法分析和語(yǔ)言結(jié)構(gòu)識(shí)別作為自然語(yǔ)言處理的基礎(chǔ)任務(wù),具有重要的研究意義,只有提高對(duì)句法語(yǔ)言的分析能力,提高對(duì)自然語(yǔ)言的功能結(jié)構(gòu)塊識(shí)別效果,才能不斷推動(dòng)自然語(yǔ)言處理向前發(fā)展。
針對(duì)句法分析和結(jié)構(gòu)識(shí)別的研究主要分為兩個(gè)大方向,第一個(gè)是以熊仲儒[1]為代表的理論研究者,研究人員主要注重對(duì)句法分析和結(jié)構(gòu)識(shí)別的數(shù)據(jù)庫(kù)建設(shè)和機(jī)器學(xué)習(xí)模型構(gòu)建;第二個(gè)是以趙鐵軍[2]為代表的識(shí)別及應(yīng)用技術(shù)研究者,該方向的研究主要注重結(jié)合最新的計(jì)算機(jī)技術(shù)提升句法分析和結(jié)構(gòu)識(shí)別效果,并在不同的研究領(lǐng)域提高計(jì)算機(jī)模型的應(yīng)用,開拓應(yīng)用場(chǎng)景。
在“中國(guó)知網(wǎng)”(Cnki)數(shù)據(jù)庫(kù)中,以“‘句法分析’OR‘結(jié)構(gòu)識(shí)別’”為檢索式,選擇“篇名”為檢索依據(jù),限定檢索時(shí)間為“2000年1月1日”至“2021年12月31日”,共得到1014條檢索紀(jì)錄。在Wos數(shù)據(jù)庫(kù)中,選擇“論文核心庫(kù)”,以“‘syntactic analysis’or‘syntactic analysis’”為檢索式,選擇“標(biāo)題”為檢索依據(jù),限定檢索時(shí)間為“2000年1月1日”至“2021年12月31日”,選擇檢索“Web of science類別”為“Computer Science”“Linguistics”和“Information science Library science”,共得到484條檢索紀(jì)錄。對(duì)相關(guān)文獻(xiàn)的內(nèi)容理解的基礎(chǔ)上,分別總結(jié)了句法分析與結(jié)構(gòu)識(shí)別的理論構(gòu)建和各類機(jī)器學(xué)習(xí)研究方法。
理論研究和相關(guān)數(shù)學(xué)模型的探究是句法分析的發(fā)展基礎(chǔ),專家和學(xué)者在已有基礎(chǔ)理論的基礎(chǔ)上,分析并提出了句法分析理論體系,并借鑒相關(guān)領(lǐng)域數(shù)學(xué)模型構(gòu)建了句法分析模型。
在句法分析和結(jié)構(gòu)識(shí)別研究中,數(shù)據(jù)標(biāo)注是所有下游任務(wù)的基礎(chǔ),在基于傳統(tǒng)的機(jī)器學(xué)習(xí)數(shù)據(jù)標(biāo)注要求的基礎(chǔ)上,研究人員開展了更加深入的標(biāo)注體系建設(shè)研究,如黨政法,周強(qiáng)[3]結(jié)合國(guó)內(nèi)多種數(shù)庫(kù)標(biāo)注體系,基于清華漢語(yǔ)樹庫(kù)標(biāo)注體系,提出一種將短語(yǔ)結(jié)構(gòu)轉(zhuǎn)換為依存結(jié)構(gòu)的算法,簡(jiǎn)化了不同標(biāo)注體系間數(shù)據(jù)轉(zhuǎn)換過程。
在保證數(shù)據(jù)標(biāo)注的有效性前提下,樹庫(kù)的建設(shè)成為句法分析和結(jié)構(gòu)識(shí)別任務(wù)的重要方式,研究人員的研究重點(diǎn)同時(shí)放在了樹庫(kù)建設(shè)和樹庫(kù)有效利用方向。周惠巍、黃德根[4]等在構(gòu)建了大規(guī)模短語(yǔ)結(jié)構(gòu)數(shù)庫(kù)和依存結(jié)構(gòu)數(shù)庫(kù)的基礎(chǔ)上,制定了中心子節(jié)點(diǎn)過濾表,可實(shí)現(xiàn)短語(yǔ)結(jié)構(gòu)和依存結(jié)構(gòu)間的互相轉(zhuǎn)換,該研究為領(lǐng)域內(nèi)高價(jià)值數(shù)據(jù)樹庫(kù)建設(shè)做出了重要貢獻(xiàn)。在此基礎(chǔ)上,沈思[5]等在清華漢語(yǔ)樹庫(kù)的基礎(chǔ)上,利用時(shí)間表達(dá)式的內(nèi)外部特征,基于條件隨機(jī)場(chǎng)構(gòu)建了時(shí)間表達(dá)式抽取模型。研究人員在實(shí)際任務(wù)中展示了樹庫(kù)的高價(jià)值性,證明了有效的數(shù)庫(kù)資源可以提升研究人員的實(shí)驗(yàn)結(jié)果,為后續(xù)的數(shù)庫(kù)建設(shè)提供了實(shí)用性參考意見。
句法分析和結(jié)構(gòu)識(shí)別是基于語(yǔ)言學(xué)和計(jì)算機(jī)科學(xué)等其他多學(xué)科知識(shí)的復(fù)雜任務(wù),一直以來解決該任務(wù)的核心方法都是基于機(jī)器學(xué)習(xí)模型,而此類機(jī)器學(xué)習(xí)模型需要根據(jù)特定的數(shù)據(jù)、任務(wù)和要求進(jìn)行多樣化研究。研究人員通過各自實(shí)驗(yàn)分析,逐步構(gòu)建起具有較強(qiáng)普遍適用性的機(jī)器學(xué)習(xí)模型,提高了句法分析和結(jié)構(gòu)識(shí)別的效率。
一方面,研究人員的主要研究方向是基于傳統(tǒng)的語(yǔ)言學(xué)或信息學(xué)理論,融合數(shù)學(xué)和計(jì)算機(jī)理論知識(shí),逐漸在各自的研究任務(wù)中使用機(jī)器學(xué)習(xí)模型,驗(yàn)證模型的有效性,如王厚峰和王波[6]基于語(yǔ)句相似度計(jì)算結(jié)果,提出了漢語(yǔ)句法結(jié)構(gòu)自動(dòng)推導(dǎo)的方法,實(shí)現(xiàn)了優(yōu)于以往研究結(jié)果的效果。
另一方面,部分研究人員將探究方向投向了“依存句法”,逐漸基于漢語(yǔ)依存句法研究多模式的分析模型。在這類研究中,部分研究者致力于提出新的語(yǔ)言分析模型,如劉挺[7]等對(duì)應(yīng)用句法結(jié)構(gòu)和詞匯化這兩方面進(jìn)行句法分析建模進(jìn)行了探索,提出了基于詞匯支配度的漢語(yǔ)依存分析模型。還有些研究人員的實(shí)驗(yàn)重點(diǎn)為改進(jìn)已有的依存句法分析模型,提出更優(yōu)的解決方案,如段湘煜[8]等通過對(duì)比試驗(yàn)得出決策式依存句法分析模型具有貪婪性這一結(jié)論,并提出基于動(dòng)作建模的依存分析模型對(duì)決策式的貪婪性進(jìn)行了改善。
在已有樹庫(kù)和依存句法結(jié)構(gòu)的基礎(chǔ)上,采用基于規(guī)則和統(tǒng)計(jì)的傳統(tǒng)方式對(duì)小規(guī)模數(shù)據(jù)進(jìn)行淺層句法結(jié)構(gòu)識(shí)別和總結(jié),構(gòu)建基本的句法分析方式庫(kù)。目前國(guó)內(nèi)外已有數(shù)量可觀的針對(duì)句法分析的方式方法研究,無(wú)論是傳統(tǒng)的統(tǒng)計(jì)方式還是基于機(jī)器學(xué)習(xí)的識(shí)別方法,都對(duì)自動(dòng)句法分析器的發(fā)展起到了重要推動(dòng)作用。
在機(jī)器學(xué)習(xí)方法沒有大范圍普及之前,基于傳統(tǒng)的規(guī)則匹配和概率統(tǒng)計(jì)分析的方法取得了不錯(cuò)的發(fā)展和研究。這類方法主要分為兩類,一類是基于概率計(jì)算,統(tǒng)計(jì)計(jì)算字、詞和句子的上下文無(wú)關(guān)概率,對(duì)句子進(jìn)行句法結(jié)構(gòu)分析和識(shí)別,如李幸[9]等引入標(biāo)點(diǎn)來分割長(zhǎng)句并從大型樹庫(kù)中提取囊括所有標(biāo)點(diǎn)的語(yǔ)法規(guī)則及其概率分布,提出了一種層次化長(zhǎng)句句法分析方法,該方法提高了處理長(zhǎng)句的效率并減少了歧義。另一類方法則是基于規(guī)則的匹配模板,在實(shí)驗(yàn)前基于目標(biāo)要求和數(shù)據(jù)情況,制定匹配模板,該模板將用于后續(xù)所有數(shù)據(jù)的匹配識(shí)別,如呂雅娟[10]等以中英雙語(yǔ)對(duì)齊語(yǔ)料庫(kù)為基礎(chǔ),利用英語(yǔ)句法分析結(jié)果提取漢語(yǔ)組塊邊界信息和相關(guān)句法規(guī)則,充分利用了英語(yǔ)句法的研究成果。
計(jì)算機(jī)硬件技術(shù)和機(jī)器學(xué)習(xí)方法不斷成熟后,傳統(tǒng)的規(guī)則匹配和概率計(jì)算識(shí)別方法漸漸被取代,機(jī)器學(xué)習(xí)識(shí)別方法效率高且準(zhǔn)確度高,逐漸成為研究人員的重點(diǎn)研究對(duì)象,并取得了飛速發(fā)展。在該研究過程中,主要分為三類研究,第一類研究集中在改進(jìn)原有機(jī)器學(xué)習(xí)方法,如針對(duì)句法的歧義問題,馮志偉[11]介紹了兩種改進(jìn)方法:一種是給上下文無(wú)關(guān)語(yǔ)法的規(guī)則加上概率,即概率上下文無(wú)關(guān)語(yǔ)法;另一種則是概率詞匯化上下文無(wú)關(guān)語(yǔ)法,它考慮了中心詞對(duì)概率的影響。與此同時(shí),部分研究人員將研究重點(diǎn)放在提出新機(jī)器學(xué)習(xí)方法上,如劉世岳、李珩[12]等提出一種在一致性基礎(chǔ)上的co-training選取方法,即將隱馬爾可夫模型和基于轉(zhuǎn)換規(guī)則的分類器組合起來,并在大規(guī)模未標(biāo)注語(yǔ)料上取得了更好的中文組塊識(shí)別效果。
第二類研究重點(diǎn)是在多任務(wù)情境下實(shí)現(xiàn)機(jī)器學(xué)習(xí)方法的句法結(jié)構(gòu)識(shí)別,其本質(zhì)是機(jī)器學(xué)習(xí)方法的應(yīng)用和使用場(chǎng)景拓展,其中“語(yǔ)義消歧”成為重要研究方向,如徐艷華[13]等針對(duì)自動(dòng)句法分析中的“V+V”結(jié)構(gòu)序列提出了一種消歧辦法,該消歧策略旨在減輕對(duì)其他知識(shí)的依賴,在實(shí)驗(yàn)中取得了一定消歧效果。
第三類研究則重點(diǎn)考量了“語(yǔ)義”這一核心內(nèi)容,將“語(yǔ)義”作為機(jī)器學(xué)習(xí)實(shí)驗(yàn)前的重要步驟,包括淺層句法和語(yǔ)義分析和部分語(yǔ)義功能結(jié)構(gòu)的模板建設(shè)。如王金銓、梁茂成[14]等綜合利用N-gram方法和空間向量模型,對(duì)語(yǔ)義相似度計(jì)算領(lǐng)域中的語(yǔ)言形式和語(yǔ)言意義兩個(gè)進(jìn)行了深入研究。
將傳統(tǒng)的規(guī)則模板和機(jī)器學(xué)習(xí)方法結(jié)合起來,也取得了不錯(cuò)的識(shí)別效果,如朱丹浩[15]等基于漢語(yǔ)介賓結(jié)構(gòu)內(nèi)外部語(yǔ)言特征的分析建立特征模板,結(jié)合條件隨機(jī)場(chǎng)模型實(shí)現(xiàn)五千套介賓結(jié)構(gòu)的自動(dòng)識(shí)別。
本文通過對(duì)2000年至2021年間的Cnki和Wos數(shù)據(jù)庫(kù)進(jìn)行文獻(xiàn)檢索,分別獲得了1014篇和484篇中文、外文期刊文獻(xiàn),從多角度分析了與句法分析和結(jié)構(gòu)識(shí)別相關(guān)的論文數(shù)量情況,通過對(duì)高被引論文和核心期刊論文的內(nèi)容進(jìn)行深層次解讀分析,分別從“句法分析和結(jié)構(gòu)識(shí)別的理論構(gòu)建”和“句法分析和結(jié)構(gòu)識(shí)別的方法研究”兩個(gè)主要方面對(duì)該領(lǐng)域研究進(jìn)行總結(jié)梳理。
對(duì)檢索出的共1498篇相關(guān)論文進(jìn)行總結(jié)分析,共得到以下幾點(diǎn)結(jié)論:①針對(duì)數(shù)庫(kù)的理論和方法研究已經(jīng)較為成熟,近幾年未出現(xiàn)較為重要的研究成果。②基于機(jī)器學(xué)習(xí)的識(shí)別方法幾乎全面取代了基于規(guī)則和統(tǒng)計(jì)的方式,但結(jié)合傳統(tǒng)匹配模板的機(jī)器學(xué)習(xí)方法能夠取得更優(yōu)秀的識(shí)別效果。③在機(jī)器學(xué)習(xí)模型基礎(chǔ)上的應(yīng)用場(chǎng)景拓展研究越來越多,較為典型的方向包括機(jī)器翻譯、共指消解等。
總的來說,基于機(jī)器學(xué)習(xí)方式句法分析和結(jié)構(gòu)識(shí)別將繼續(xù)是未來重要的研究方向,且研究場(chǎng)景將會(huì)更加的實(shí)際化、多維化。