蘇日彥·艾爾西丁 ?艾孜爾古麗·玉素甫
摘要:句法分析是自然語言處理中一個(gè)很重要的研究內(nèi)容。對(duì)一個(gè)語言的分析包括詞法分析、句法分析、語義和語用分析等幾個(gè)層面,因此句法分析直接影響信息檢索、自然語言處理研究的進(jìn)程。本文選擇用爬蟲方式從天山網(wǎng)“新疆新聞、理論、訪惠聚、援疆”等分類里提取了4339文本(作為語料庫)中的形動(dòng)詞短語作為研究對(duì)象,從計(jì)算語言學(xué)角度研究形動(dòng)詞短語語法結(jié)構(gòu)及使用規(guī)則過程。
關(guān)鍵詞: 維吾爾語;形動(dòng)詞短語;規(guī)則
中圖分類號(hào):TP311? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)16-0205-02
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
1 形動(dòng)詞短語概念描述與構(gòu)成形式
1.1形動(dòng)詞短語概念
通常,形動(dòng)詞成分綴加于一個(gè)動(dòng)詞或一個(gè)動(dòng)詞短語末尾上構(gòu)成形動(dòng)詞短語被稱為形動(dòng)詞短語(ADJLP)。一般形動(dòng)詞??????-(??????-/ ??????-/?????? -/?????? -)和-??(-?/-??/-??)等成分綴加在單一動(dòng)詞詞干及整個(gè)動(dòng)詞短語的動(dòng)詞末尾構(gòu)成自己的形動(dòng)詞短語。形動(dòng)詞短語的結(jié)構(gòu)和內(nèi)涵是形容詞化成分上綴加于一動(dòng)詞或一個(gè)動(dòng)詞短語、語態(tài)短語、體短語、否定短語合并而構(gòu)成。
1.2形動(dòng)詞短語的構(gòu)成形式
(1)??????-(??????-/ ??????-/?????? -/?????? -)和-??(-?/-??/-??)與單一動(dòng)詞或一個(gè)動(dòng)詞短語合并而構(gòu)成的形容詞化短語。如:
(2)形容詞化成分與語態(tài)短語、體短語、否定短語合并構(gòu)成形容詞化短語。短語的結(jié)構(gòu)圖中可以表示如下:
(3)形容詞化成分的兩種形式即在句子中??????-(??????-/ ??????-/?????? -/?????? -)和-??(-?/-??/-??)在句子中都表示體意義,其中??????-(??????-/ ??????-/?????? -/?????? -)是傳統(tǒng)語言上所說的完成體意義,它綴加在未完成體成分?? -/????-結(jié)尾的動(dòng)詞短語末尾后形成形動(dòng)詞短語,修飾后面出現(xiàn)的短語或句子。如:
(4)形容詞化成分??????-(??????-/ ??????-/?????? -/??????-)在句子中是完成體意義,它綴加在進(jìn)行體成分???????-/ ???????-/ ???????-/ ????? -結(jié)尾的動(dòng)詞短語上是表示持續(xù)進(jìn)行體。如:
2 基于形動(dòng)詞短語識(shí)別規(guī)則
維吾爾語的基本語法單位是語素、詞、短語和句子。它的特點(diǎn)是這些語法單位之間有很明顯的界限,每一層單位由特定的附加成分來連接在一起同樣形動(dòng)詞短語也是動(dòng)詞或一個(gè)動(dòng)詞短語末尾上
擁有形動(dòng)詞短語規(guī)則庫,首先從12908條簡單句子中人工方式分出1587條形動(dòng)詞短語。第二、對(duì)已挑出的形動(dòng)詞短語用自動(dòng)詞性標(biāo)注識(shí)別系統(tǒng)而進(jìn)行詞性標(biāo)注。第三階段用統(tǒng)計(jì)法對(duì)已標(biāo)注好的形動(dòng)詞短語規(guī)則進(jìn)行篩選和統(tǒng)計(jì)。最后共得到的形動(dòng)詞短語為52種。圖片為選代表性的動(dòng)名詞短語為供大家參考。
3 研究方法及設(shè)計(jì)模塊圖
本文利用系統(tǒng)分析法和統(tǒng)計(jì)法,首先“詞性標(biāo)注系統(tǒng)”“維吾爾語形動(dòng)詞規(guī)則識(shí)別系統(tǒng)”等軟件人機(jī)互助形式進(jìn)行統(tǒng)計(jì)而獲得數(shù)據(jù)。獲取的數(shù)據(jù)用統(tǒng)計(jì)法來歸納和闡述。下面為形動(dòng)詞短語設(shè)計(jì)模塊圖:
各模塊功能如下:
預(yù)處理模塊:此模塊判斷已選擇的句型包含每條句子進(jìn)行詞性標(biāo)注;
短語分析器:此模塊主要處理構(gòu)成的形動(dòng)詞短語按規(guī)則自動(dòng)識(shí)別;
人工處理模塊:處理過程中識(shí)別出不符合規(guī)則形動(dòng)詞短語也是無法避免的,因此只能以人工方式來處理。
根據(jù)顯示識(shí)別與分類結(jié)果,對(duì)顯示的形動(dòng)詞短語進(jìn)行統(tǒng)計(jì),并人工判斷是否標(biāo)準(zhǔn)的形動(dòng)詞短語。
最后保存到數(shù)據(jù)庫,從統(tǒng)計(jì)結(jié)果中得到簡單的結(jié)論。
4 形動(dòng)詞短語實(shí)驗(yàn)結(jié)果與分析
打開語料庫,讓識(shí)別系統(tǒng)自動(dòng)分出來簡單句子和復(fù)合句子并保存到Access數(shù)據(jù)庫中,在規(guī)則基礎(chǔ)上自動(dòng)提取形動(dòng)詞短語進(jìn)行統(tǒng)計(jì)和分析。因系統(tǒng)按照我們給予的規(guī)律自動(dòng)識(shí)別出形動(dòng)詞動(dòng)詞短語、因此無法避免一些歧義短語,為考慮到歧義現(xiàn)象我們?cè)O(shè)置了手動(dòng)刪除歧義短語的功能。
分析和總結(jié)出共8045條句子中自動(dòng)分出2783條形動(dòng)詞短語總占比例為35%。
5 結(jié)語
現(xiàn)代維吾爾語作為一種自然語言,在自然語言處理中一個(gè)很重要的研究方向。本文采用了基于形動(dòng)詞語法特征結(jié)構(gòu)及動(dòng)詞搭配詞綴的基本搭配規(guī)則法對(duì)數(shù)據(jù)庫里的形動(dòng)詞進(jìn)行自動(dòng)識(shí)別。本文介紹了傳統(tǒng)語言學(xué)和自然語言處理中的相關(guān)理論和技術(shù)。利用計(jì)算機(jī)來判斷形動(dòng)詞邊界。因此句法、詞法分析性能的提高對(duì)信息檢索、也為后序自然語言處理、機(jī)器翻譯進(jìn)程奠定基礎(chǔ)。
參考文獻(xiàn):
[1] 早克熱·卡德爾,吐爾根·依布拉音. 維吾爾語形容詞構(gòu)形詞綴有限狀態(tài)自動(dòng)機(jī). 電腦知識(shí)與技術(shù), 2009(04):939-941.
[2] 楊承興.維吾爾語形動(dòng)詞形態(tài)標(biāo)記的簡化與整合[J].語言與翻譯,2003(2):22-25.
[3] 許伊娜.維吾爾語形動(dòng)詞-非漢字符號(hào)AN與時(shí)位格、從格組合的結(jié)構(gòu)體功能淺析[J].民族教育研究,1999,10(S1):135-139.
[4] 熱依汗·吾守爾.維吾爾語形動(dòng)詞和日語形容動(dòng)詞的對(duì)比分析[J].新疆大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),1999,27(2): 1999(02):105-108.
[5] 吉力力·卡曼爾. 維吾爾語小學(xué)語文教材中非人稱動(dòng)詞調(diào)查研究[D]. 烏魯木齊: 新疆師范大學(xué), 2014.
[6] 史倡銘,李勝勝.淺析維吾爾語中形動(dòng)詞的語法形式及使用方法[J].語文學(xué)刊,2015(23):78-79.
【通聯(lián)編輯:光文玲】