曲塔吉 安見(jiàn)才讓
摘? 要: 研究語(yǔ)義是當(dāng)前人工智能、語(yǔ)義網(wǎng)、語(yǔ)義詞典等研究領(lǐng)域的熱點(diǎn),它可以有效支持機(jī)器翻譯和自然語(yǔ)言處理等技術(shù)。文章根據(jù)藏文獨(dú)特的文法特性,運(yùn)用藏文邏輯格和計(jì)算語(yǔ)言學(xué)知識(shí),在保留藏文原有特點(diǎn)的基礎(chǔ)上,為藏文語(yǔ)義關(guān)系抽取方法建立較完整的語(yǔ)義場(chǎng),以此為藏文語(yǔ)義詞典建設(shè)提供了基礎(chǔ)性構(gòu)建方法。
關(guān)鍵詞: 語(yǔ)義; 藏文格助詞; 語(yǔ)義關(guān)系抽取; 自然語(yǔ)言處理
中圖分類(lèi)號(hào):TP391.1? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2021)02-46-03
Abstract: Semantic research is a hot topic in artificial intelligence, semantic web, semantic dictionary and other research fields. It can effectively support machine translation and natural language processing. According to the unique grammatical characteristics of Tibetan, this paper utilizes the knowledge of Tibetan logic case and computational linguistics, and on the basis of retaining the original characteristics of Tibetan, establishes a relatively complete semantic field for Tibetan semantic relationship extraction method, so as to provide a basic construction method for the construction of Tibetan semantic dictionary.
Key words: semantics; Tibetan case particle; semantic relation extraction; natural language processing
0 引言
近年來(lái),自然語(yǔ)言處理技術(shù)為具有傳承價(jià)值的民族文字提供了很多優(yōu)質(zhì)的推廣平臺(tái)?,F(xiàn)有相關(guān)算法有效解決了藏民族在自然語(yǔ)言處理技術(shù)方面遇到的各種問(wèn)題,尤其是在藏文字的輸入與處理、機(jī)器翻譯等領(lǐng)域有了不少研究性成果,并在民族地區(qū)有了廣泛的應(yīng)用,很多網(wǎng)站都添加了藏文字顯示的功能。
但是,藏文語(yǔ)義詞典建設(shè)中語(yǔ)義關(guān)系的抽取方法還值得進(jìn)一步研究。因此,本文在藏文語(yǔ)義關(guān)系抽取方法當(dāng)中深入分析了藏文語(yǔ)義關(guān)系的各種性質(zhì)和特征;還將藏文字文法知識(shí)當(dāng)中的格助詞應(yīng)用于其中,因?yàn)樵诓匚恼Z(yǔ)義關(guān)系抽取過(guò)程當(dāng)中[1],藏文句子單詞與單詞的結(jié)合、單詞與短語(yǔ)的結(jié)合要添加很多具有各種應(yīng)用表達(dá)作用的格助詞,才能有效的把句子與句末的動(dòng)詞相結(jié)合,然后根據(jù)句子結(jié)構(gòu)當(dāng)中語(yǔ)法的多變性,將句子結(jié)構(gòu)的復(fù)雜性通過(guò)語(yǔ)法的方式表達(dá)出句子更多不同的含義。
1 相關(guān)工作
通過(guò)了解語(yǔ)義及語(yǔ)義關(guān)系相關(guān)的含義、特征以及關(guān)系分析,可以系統(tǒng)的分析一個(gè)詞或一個(gè)句子的意思,對(duì)藏文語(yǔ)義關(guān)系抽取提供有力的語(yǔ)料庫(kù)標(biāo)注參考價(jià)值。
1.1 含義
語(yǔ)義[1]在藏語(yǔ)中稱(chēng)為“????????”,即語(yǔ)言的意義。是詞生成句子后,通過(guò)不同的表達(dá)形式完善語(yǔ)言的意義。語(yǔ)義關(guān)系是指在句法結(jié)構(gòu)、文法結(jié)構(gòu)當(dāng)中由某個(gè)詞語(yǔ)或句子的語(yǔ)義范疇所建立起來(lái)的關(guān)系,既能聯(lián)系整個(gè)句子的邏輯關(guān)系也能表達(dá)其中的語(yǔ)義關(guān)系。
1.2 特征
語(yǔ)義的特征[2]能將詞語(yǔ)中符合組合選擇的、有區(qū)別性特征的最小語(yǔ)義成分分析出來(lái);能幫助整理詞類(lèi)序列相同、內(nèi)部構(gòu)造層次相同的語(yǔ)義類(lèi);可以對(duì)產(chǎn)生歧義的詞語(yǔ)語(yǔ)義類(lèi)進(jìn)行再細(xì)分,凸顯同一語(yǔ)義類(lèi)的不同詞語(yǔ)之間的差異等,如表1所示。
語(yǔ)義特征分析能有效的描述語(yǔ)言的結(jié)構(gòu)規(guī)則,最大限度分析出句子當(dāng)中語(yǔ)義結(jié)構(gòu)間錯(cuò)綜復(fù)雜的關(guān)系,從而讓句子的內(nèi)容變得簡(jiǎn)單易懂、更好的解釋語(yǔ)言現(xiàn)象。
1.3 藏文格助詞
藏文格助詞[1]能通過(guò)藏文句子自身的特點(diǎn)對(duì)藏文字獨(dú)有的結(jié)構(gòu)規(guī)則和特征進(jìn)行分析,按照給定的語(yǔ)法規(guī)則推導(dǎo)出藏文句子的結(jié)構(gòu)規(guī)律;還能根據(jù)其結(jié)構(gòu)規(guī)律將句子的句法單位與它們之間的關(guān)系聯(lián)系在一起,再把最小的語(yǔ)義成分組成更大的語(yǔ)義成分,更細(xì)致的分析有名詞、代詞的句子當(dāng)中發(fā)生的各種結(jié)構(gòu)關(guān)系,對(duì)藏文語(yǔ)義關(guān)系抽取方法的研究起到了語(yǔ)料庫(kù)標(biāo)注的參考價(jià)值。
2 句法關(guān)系分析和語(yǔ)義關(guān)系分析
句法關(guān)系分析[3]是對(duì)某個(gè)句子當(dāng)中的主謂賓、動(dòng)賓等進(jìn)行結(jié)構(gòu)性的分析;語(yǔ)義關(guān)系分析[3]是對(duì)句子的意思進(jìn)行意義和語(yǔ)法分析,將句子里包括的格助詞(施事、受事、時(shí)間、處所等)做進(jìn)一步分析,以此達(dá)到句法關(guān)系與語(yǔ)義關(guān)系抽取的最佳效果。
藏文單詞在進(jìn)入句子以后,詞語(yǔ)與詞語(yǔ)之間會(huì)形成一種詞匯意義之外的關(guān)系。這種關(guān)系是要通過(guò)一定的結(jié)構(gòu)形式來(lái)表現(xiàn)的,是單詞在語(yǔ)句結(jié)構(gòu)中體現(xiàn)出來(lái)的意義。它不同于詞匯意義,也不同于句法意義,但又屬于語(yǔ)法意義。因此,語(yǔ)義的相關(guān)知識(shí)細(xì)化句法知識(shí),句法知識(shí)概括了語(yǔ)義知識(shí),也加強(qiáng)了語(yǔ)義關(guān)系的解釋力。如表2所示。
3 基于藏文詞典建設(shè)的語(yǔ)義關(guān)系抽取方法
研究是藏文語(yǔ)義關(guān)系抽取[3]首先要建立藏語(yǔ)詞典和規(guī)則庫(kù),字典中存放藏文詞性標(biāo)注和藏文角色標(biāo)注,在規(guī)則庫(kù)中存放藏文的相關(guān)語(yǔ)法規(guī)則,由于藏文、漢語(yǔ)、英語(yǔ)的句法規(guī)則有很大的區(qū)別,例如漢語(yǔ)一般是主謂賓結(jié)構(gòu),但藏文一般是主賓謂結(jié)構(gòu),所研究藏文語(yǔ)義關(guān)系抽取可采用以下三種方法。
⑴ 建立語(yǔ)義場(chǎng)
建立語(yǔ)義場(chǎng)[4],就是要對(duì)語(yǔ)義特征進(jìn)行系統(tǒng)化表述。比如建立上下位關(guān)系、整體與部分關(guān)系、反義/同義關(guān)系等等。可以細(xì)分各種各樣的關(guān)系,可以將同一個(gè)環(huán)境當(dāng)中的事物聯(lián)系在一起,也可以用意義同類(lèi)的組織詞匯原則的方式進(jìn)行同類(lèi)歸類(lèi)。如圖1所示。
⑵ 依賴(lài)語(yǔ)義知識(shí)進(jìn)行詞義消歧
語(yǔ)義知識(shí)消歧,是為了在抽取語(yǔ)義關(guān)系時(shí)提高句子意義的準(zhǔn)確率和識(shí)別率[5]。如表3所示。
⑶ 語(yǔ)言篩選
語(yǔ)言篩選是選用語(yǔ)義篩選和句法篩選兩種方法,以此來(lái)判斷一個(gè)詞或者整個(gè)句子的句法語(yǔ)義關(guān)系。
語(yǔ)義角色篩選[6] 語(yǔ)義篩選利用藏文文法當(dāng)中的處所、動(dòng)作、結(jié)果等語(yǔ)義角色篩選描述語(yǔ)言用處的成分,但不篩選句子當(dāng)中存在的格助詞。如表4所示。
詞性篩選 詞性篩選利用藏文的詞性分析將整個(gè)句子的名詞、動(dòng)詞、形容詞等放在語(yǔ)義關(guān)系識(shí)別的語(yǔ)言范疇內(nèi)。如表5所示。
4 總結(jié)與展望
基于藏文語(yǔ)義詞典建設(shè)中的語(yǔ)義關(guān)系抽取是分析句法語(yǔ)義的一種手段。在參考英語(yǔ)、漢語(yǔ)的語(yǔ)義關(guān)系抽取知識(shí)后,可以采用學(xué)習(xí)英語(yǔ)、漢語(yǔ)對(duì)詞義進(jìn)行義素分析或格分析的方法進(jìn)行進(jìn)一步研究,加強(qiáng)對(duì)藏文語(yǔ)義關(guān)系抽取方法的語(yǔ)義知識(shí)體系的把握。但是,在此基礎(chǔ)上分析的藏文語(yǔ)義關(guān)系抽取方法在進(jìn)行篩選和排除時(shí)[3],存在著相當(dāng)大的難處,尤其句子形式與意義的非一一對(duì)應(yīng)性的句子(比如:一個(gè)形式多個(gè)意義的詞性多義詞、一個(gè)意義多個(gè)形式的句子同義結(jié)構(gòu)的句子)需要花大量的人工進(jìn)行再三分析標(biāo)注,越復(fù)雜的隱含句子,越容易產(chǎn)生錯(cuò)誤意義,會(huì)導(dǎo)致結(jié)果的抽取識(shí)別率下降。
下一步將分析研究計(jì)算機(jī)語(yǔ)義理論和方法研究的結(jié)合,來(lái)獲取藏文語(yǔ)義信息處理所需的技術(shù)和方法,以提高藏文字詞匯分析和句子結(jié)構(gòu)分析的準(zhǔn)確性,提高藏語(yǔ)言信息處理的理解性,為監(jiān)控和檢索藏語(yǔ)信息處理水平提供理論支撐和實(shí)用參考。
參考文獻(xiàn)(References):
[1] 格桑居冕.實(shí)用藏文文法教程修訂版[M].四川民族出版社,2011.
[2] 安見(jiàn)才讓.藏文信息處理原理與技術(shù)實(shí)現(xiàn)[M].青海民族出版社,2017.
[3] 東主才讓.語(yǔ)言學(xué)概論[M].青海民族出版社,2013.
[4] 俞士汶.計(jì)算語(yǔ)言學(xué)[M].北京商務(wù)印書(shū)館,2003.
[5] 何晗.自然語(yǔ)言處理入門(mén)[M].人民郵電出版社,2019.
[6] 龍從軍.基于多策略的藏語(yǔ)語(yǔ)義角色標(biāo)注研究[J].中文信息學(xué)報(bào),2014.