基于語料庫的維語名詞研究理論框架

2015-10-23 02:11阿依克孜卡德爾開沙爾卡地爾

長春大學學報 2015年3期

關鍵詞：維吾爾語信息處理句法

阿依克孜·卡德爾，開沙爾·卡地爾

（新疆大學 a.人文學院；b.信息科學與工程學院，烏魯木齊 830046）

基于語料庫的維語名詞研究理論框架

阿依克孜·卡德爾a，開沙爾·卡地爾b

（新疆大學 a.人文學院；b.信息科學與工程學院，烏魯木齊 830046）

現(xiàn)代維吾爾語信息處理研究工作開展以來，已取得了一定的成果，但從另一個角度來看，忽視了信息技術研究成果在語言研究及教學領域中的有效利用。因此，先構建維吾爾語名詞語料庫，并在此基礎上對名詞的形態(tài)、句法、語義及語用特點進行量化分析，可以實現(xiàn)現(xiàn)代信息技術與語言研究的有機結合。

名詞；語料庫；維吾爾語

現(xiàn)代維吾爾語信息處理及語料庫研究,需要更多語言學知識的注入,而維吾爾語言本體的研究,也需要運用語言信息處理及語料庫研究的成果和新技術來提供更有說服力的數(shù)據(jù)和研究方法。著眼于這一趨勢,本文擬建構維吾爾語名詞語料庫,將計算機技術和語言本體研究合理地結合起來,研究維吾爾語名詞的基本理論框架。

1 本課題研究現(xiàn)狀

本課題的研究現(xiàn)狀和趨勢,可以從語言信息處理與語料庫研究以及維吾爾語名詞研究(即語言本體的研究)等兩個方面來分析。

1.1 維吾爾語信息處理及語料庫研究的現(xiàn)狀

現(xiàn)代維吾爾語信息處理研究工作,從20世紀80年代到今天的這一段時間內,基本上完成了文字處理階段的工作。目前,現(xiàn)代維吾爾文字的信息處理技術早已達到可使用階段。有關研究機構先后研發(fā)了一系列維、哈、柯、漢、英DOS多語種處理平臺,一系列Windows多文種和純維文處理平臺,以及Linux維文處理平臺。1989年,公布了GB2312-80信息處理交換用維吾爾文編碼圖形字符集［1］；2004年,由清華大學與新疆大學合作研制成功的“維哈柯(漢英)阿(英)雙向印刷文檔識別系統(tǒng)”也通過了教育部組織的技術鑒定［2］。在維吾爾語料庫研究方面,有關研究機構各自建立了具有一定規(guī)模的維吾爾語料庫,在語料庫的加工,比如分詞(對于維吾爾語來說指的主要是詞干提取問題)與詞性標注,句法分析及其在其他領域的應用等方面,都展開了全面研究。其中新疆大學多文種信息處理重點實驗室與新疆經濟日報社、新疆日報社、新疆維吾爾自治區(qū)人民政府翻譯室等多家單位聯(lián)合建設中的維吾爾語語料庫,也具有了一定的規(guī)模,到2009年,其詞性標注語料庫XJU UPOS Corpus中已有36470個名詞詞條,已標出一定的詞性信息、附加成分信息、詞干等［3］。這些成果為維吾爾語料庫的建設和研究奠定了基礎。目前,本課題可運用的語料庫,有200萬詞級的現(xiàn)成維吾爾文語料庫,現(xiàn)成維吾爾文正字詞匯庫(電子版),面向政府文獻的維漢平行語料庫等①。

1.2 維吾爾語名詞的研究現(xiàn)狀

在綜述性研究方面,從20世紀60年代前蘇聯(lián)哈薩克斯坦科學院編寫的《現(xiàn)代維吾爾語》(1966),到八九十年代我國出版的有關維吾爾語語法的論著,比如圖爾地·阿合默德、安賽爾釘·木沙、乃斯如拉·由力布爾地等編著的《現(xiàn)代維吾爾語》(1985),哈米提·鐵木爾的《現(xiàn)代維吾爾語語法》(1987),陳世明、熱扎克等編著的《維吾爾語實用語法》(1991),程適良等編著的《現(xiàn)代維吾爾語語法》(1996)等,以及教材中涉及維吾爾語名詞的綜合論述,都對維吾爾語名詞的定義、分類、數(shù)、人稱、格等語法范疇及其在句法結構中的作用、構詞特點等方面,進行了綜合論述。

在專題研究方面,已有成果都是散見于各類期刊上的論文,主要涉及名詞的語法范疇,即名詞的數(shù)、人稱、格等形態(tài)變化系統(tǒng)。尤其是維吾爾語名詞的“格”問題,一直是學者們關注的熱點。最近,也有人運用現(xiàn)代語言學的研究方法,分析名詞的其他范疇和部分句法功能,但是,有關維吾爾語名詞專題研究的專著尚未問世［4］11,只是有一部分學位論文而已。

2 本課題研究的內容及方法

2.1 本課題研究的基本內容

2.1.1 維吾爾語名詞語料庫的構建

在電子詞典和大型語料庫的基礎上構建維吾爾語名詞語料庫,是本課題的關鍵。我們主要以《維吾爾語詳解詞典》(縮編本)［5］中的所有名詞作為初期語料來源,構建一個包括名詞的詞法、句法、語義信息的名詞語料庫。

2.1.2 維吾爾語名詞形態(tài)特點研究

名詞的形態(tài)特點包括構詞特點和構形特點。維吾爾語是粘著語,主要靠詞根上粘連詞綴的派生法來構詞。但是運用復合法構造的新詞也在大量涌現(xiàn),本課題通過語料庫統(tǒng)計分析來驗證派生法和復合法在維吾爾語名詞的構成過程中所占的實際比例,從而揭示維語在名詞詞匯擴展途徑中表現(xiàn)出的語言特征。在構形方式方面,名詞有數(shù)、人稱、格等形態(tài)范疇,對此也通過語料庫統(tǒng)計分析來進行深入細致的量化分析,驗證維吾爾語的形態(tài)特征。

2.1.3 維吾爾語名詞句法特點研究

維吾爾語名詞的句法特點主要包括名詞的句法位置(名詞所充當?shù)木浞ǔ煞?和名詞被其他成分修飾等兩種情況。維吾爾語表示句法關系的主要手段是形態(tài)。在名詞充當句法成分的問題上,其形態(tài)格對句法成分的決定作用很大,大多數(shù)句法成分有形態(tài)標志。語序和虛詞的作用次于形態(tài)手段,但它們也是必不可少的。本課題通過語料庫統(tǒng)計分析來驗證這幾種手段的使用頻率和名詞所擔當?shù)木浞ǔ煞值谋壤?/p>

2.1.4 維吾爾語名詞語義特點研究

維吾爾語名詞的語義特點主要可以從兩個方面來分析。一是語義結構中名詞所擔當?shù)恼Z義格(角色)及其在句法結構中的體現(xiàn)形式。“語義格”的概念是由美國語言學家菲爾墨(Charles J.Fillmore)最先提出來的。他根據(jù)句中動詞與名詞的關系,將名詞或名詞性短語所擔當?shù)恼Z義角色分為若干個語義“格”［6］。二是語義結構中名詞的配價問題。配價的概念初期在語言學領域用于描述動詞與其他成分的搭配關系,后來擴展到描述名詞、形容詞等其他成分的搭配關系。這兩個方面的體現(xiàn)手段基本上是名詞的形態(tài)格和后置詞［4］131-141。本課題通過語料庫統(tǒng)計分析來驗證這一特點。

2.1.5 維吾爾語名詞語用特點研究

維吾爾語名詞在語用平面表現(xiàn)出的特點中凸現(xiàn)其語法特點的主要問題,包括名詞的有定和無定,篇章中的回指、話題化等［4］143-165。所謂的有定與無定,指的是在言語交際當中,發(fā)話人根據(jù)受話人特定的信息知曉度而對名詞性成分進行加工處理的特定方式［7］。維吾爾語作為無冠詞語言,其指示代詞是體現(xiàn)名詞有定性的有效手段。由于維吾爾語是形態(tài)發(fā)達的語言,因此還有名詞的格、人稱和動詞的態(tài)等其他一些手段也可以表示名詞的有定。在語句、語篇或話語里,語言使用者總要不止一次地提到特定的人物、事物或事件。某個成分引進語句、語篇或話語之后,如果需要再次提及它們,說話人有可能重復使用這個成分,也可能不再重復使用這個成分,而用另一個成分來指稱前一個成分,這一前一后兩個成分之間的關系我們稱為回指關系［8］。從維吾爾語名詞的回指情況來看,先行詞和回指詞在人稱上的相互一致的特點是回指關系的重要標志。關于話題化,朱德熙先生在《語法講義》中討論主語與謂語的關系時也曾指出：“說話人選來作主語的是他最感興趣的話題,謂語則是對于選定了的話題的陳述?！保?］在這一問題上,維吾爾語中賓語、定語、狀語等大部分句法成分都可以通過話題化充當句子的話題。本課題通過語料庫統(tǒng)計分析來歸納解釋維吾爾語名詞有定和無定、回指、話題化等語用特點的表現(xiàn)方式。

2.1.6 軟件的選擇

根據(jù)語料庫統(tǒng)計結果,在以上進行的細致分析的基礎上,擬立足于語言形態(tài)分類的理論高度,以統(tǒng)計數(shù)據(jù)為基礎,對維吾爾語名詞及其有關語法現(xiàn)象從一個比較新的角度給予總結,用Access數(shù)據(jù)庫來存儲名詞和它們的信息。Access是微軟公司推出的基于 Windows的桌面關系數(shù)據(jù)庫管理系統(tǒng)(RDBMS),是Office系列應用軟件之一。它具備表、查詢、窗體、報表、頁、宏、模塊7種用來建立數(shù)據(jù)庫系統(tǒng)的對象；可提供多種向導、生成器、模板,把數(shù)據(jù)存儲、數(shù)據(jù)查詢、界面設計、報表生成等操作規(guī)范化；為建立功能完善的數(shù)據(jù)庫管理系統(tǒng)提供方便,普通用戶不必編寫代碼,就可以完成大部分數(shù)據(jù)管理的任務。用Java編程語言可以開發(fā)一個能實現(xiàn)名詞詞干上附加詞尾和大型語料庫中進行名詞詞干提取等兩項任務的“維語名詞形態(tài)分析軟件”。之所以選擇Java作為開發(fā)工具,因為Java是一種跨平臺開發(fā)語言,能開發(fā)出跨平臺的應用對象和應用程序。

2.2 本課題語料分析的基本方法

維吾爾語以詞形變化來確立句法關系,但語序和虛詞的運用有時也很重要,這種特性將在基于語料庫的具體研究中被驗證。本課題的語料庫分析過程是人機互助的動態(tài)分析過程。首先借助《維吾爾語詳解詞典》,建立名詞信息庫。該庫初步框架包括詞典所有名詞的詞義、意義分類、構詞方式等內容,可以按照表1形式來手工建構。

表1 名詞分類及構詞特征信息庫

然后將所有名詞與實際語料庫相匹配,統(tǒng)計實際語料庫中名詞的其他信息(包括本課題將研究的幾個方面的信息),從而獲取表2中幾個方面的數(shù)據(jù)。

表2 名詞語法信息擴充庫

在匹配過程中,盡量不斷擴充原有名詞信息庫,不斷完善名詞的相關信息,從而提高獲取數(shù)據(jù)的典型性和科學性。擴充語料將通過鍵盤輸入,用掃描儀和數(shù)碼照相機輸入后進行文字識別等途徑獲取。其語料思路如圖1所示：

圖1 語料分析思路

3 本課題應解決的主要難點

一方面,雖然維吾爾語信息處理及語料庫研究工作在文字處理(包括文字識別)、語料庫建設中的詞干提取、詞頻統(tǒng)計、詞性標注等方面已有了一定的成果,但是這些成果目前尚未真正運用到具體語言研究工作當中。也就是說,維吾爾語言研究尚未運用現(xiàn)代計算機技術,即語言信息處理及語料庫研究工作已獲得的成果,而本課題就試圖運用語料庫來量化研究名詞這一主要詞類的形態(tài)、句法、語義、語用等方面的特點及其相關的語法現(xiàn)象,使現(xiàn)代計算機技術服務于具體語言研究。這正是必須突破的一個難點。

另一方面,維吾爾語信息處理及語料庫研究工作起步比較晚,還處于初步階段。雖然在研究過程中也參考了部分語言學知識,但這遠遠不夠,語言信息處理及語料庫研究工作要求更多的語言學知識的注入。但這一方面的工作目前還沒得到全面重視。而本課題就試圖使語料庫服務于具體語言研究的同時,以語言研究的成果促進語言信息處理工作。這是本課題在研究過程中必須突破的另一個難點。

4 結語

綜上所述,本課題轉變語言研究的傳統(tǒng)描寫模式,用一種較新的方法來研究名詞,從而揭示維吾爾語作為交際工具的運行機制。借助大型語料庫并且在三個平面的語法觀的指導下,借鑒現(xiàn)代語言學的前沿理論和方法,從多方面對維吾爾語的名詞進行分析,根據(jù)從語料庫獲取的科學性較高的實際數(shù)據(jù)揭示維吾爾語語法特點,實現(xiàn)現(xiàn)代信息技術與語言研究的有機結合。

首先,研究過程中引進的新理論、新方法將促進維吾爾語言的理論研究。在本課題中借助的“三個平面的語法觀”“格語法”“配價理論”是現(xiàn)代語言學的前沿理論。更重要的是基于語料庫的分析方法對于維吾爾語來說,是比較新的研究方法。這些理論和研究方法的運用,有利于維吾爾語研究的進一步深化,這種研究注重語料選擇的廣泛性,注重定量分析,從而保證語料的典型性,分析結構的科學性,使靜態(tài)分析變成動態(tài)分析。因此,不僅可以促進維吾爾語語法研究的發(fā)展,還能促進維吾爾語語義、語用等方面的研究。

其次,從語言形態(tài)類型的高度去認識維吾爾語作為粘著語的本質特點,從而為豐富語言形態(tài)分類和句法特征分類的理論提供例證,同時又以豐富的實例證實形態(tài)分類和句法特征分類的局限性。這將為普通語言學、類型語言學的研究提供語言事實。

再次,本課題的研究成果可以運用于辭書編寫、語言規(guī)范化、第二語言教學、翻譯理論與實踐等領域,為這些領域的相關工作提供直接的理論依據(jù)和科學的統(tǒng)計數(shù)據(jù)。

最后,本課題的研究對維吾爾語語料庫的深入研究非常有益。通訊網絡技術和電子出版技術的迅速發(fā)展,對多渠道獲取語料提供了極大方便。然而語料庫并非是語言材料的任意堆積,而應該是經過專門加工,具備人們可以利用它各種統(tǒng)計、分析檢索、歸納性能的語料存儲庫。本課題作為語料庫在語言研究中具體運用的范例,將促進維吾爾語語料庫相關理論和技術的進一步完善,促進語料庫語言學的發(fā)展。

［1］繆成.基于紅旗Linux的維、漢、英多語種操作系統(tǒng)的設計與實現(xiàn)［D］.烏魯木齊：新疆大學,2004.

［2］全球首款維哈柯(漢英)阿(英)雙向印刷文檔識別系統(tǒng)問世［J］.中國經濟信息,2004(17)：57.

［3］早克熱·卡德爾,艾山·吾買爾,吐爾根·依布拉音,等.維吾爾語名詞構形詞綴有限狀態(tài)自動機的構造［J］.中文信息學報,2009,23 (6)：120.

［4］阿依克孜·卡德爾.現(xiàn)代漢語與現(xiàn)代維吾爾語名詞對比研究［D］.烏魯木齊：新疆大學,2006.

［5］海木都拉·阿布都熱合曼,等.維吾爾語詳解詞典［M］.縮編本.烏魯木齊：新疆人民出版社,2011.

［6］菲爾墨C J.“格”辨［M］.胡明揚,譯.北京：商務印書館,2002：32.

［7］范曉,張豫峰,等.語法理論綱要［M］.上海：上海譯文出版社, 2003：319.

［8］徐赳赳.現(xiàn)代漢語篇章回指研究［M］.北京：中國社會科學出版社,2003：1.

［9］朱德熙.語法講義［M］.北京：商務印書館,1982：96.

Study on Theoretical Framework of Uyghur Nouns Based on Corpus

Aykiz·KADIRa，Kaysar·KADIRb

（a.College of Humanities；b.College of Information Science and Engineering，Xinjiang University，Urumqi 830046，China）

Since the produce of the modern Uyghur information processing research，certain achievements have been made.But looking from another perspective，the effective use of information technology research achievements in language research and teaching field is ignored.So，a Uyghur nouns corpus is built，and on this basis，a quantitative analysis on the morphological，syntactic，semantic and pragmatic characteristics of nouns is made，which can realize the combination of modern information technology and language studies.

noun；corpus；Uyghur

H215；H085.5

1009-3907（2015）03-0040-04

2014-07-24

國家社會科學基金項目青年基金（11CYY054）；新疆多語種信息技術自治區(qū)級重點實驗室開放課題：商業(yè)供求信息雙語自動翻譯（無編號）

阿依克孜·卡德爾（1974-），女（維吾爾族），新疆烏魯木齊人，副教授，博士，主要從事語言教學、語言信息處理研究。

①由新疆多語種信息技術自治區(qū)級重點實驗室提供。

柳克

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于語料庫的維語名詞研究理論框架

1 本課題研究現(xiàn)狀

2 本課題研究的內容及方法

3 本課題應解決的主要難點

4 結語