国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

《現(xiàn)代漢語析義元語言詞典》的開發(fā)與應(yīng)用*

2011-08-07 05:05孫道功
辭書研究 2011年5期
關(guān)鍵詞:義位元語言詞典

孫道功

(南京師范大學(xué)文學(xué)院 江蘇 210097)

語義是目前語言信息處理的難點(diǎn)。如何解決語義的形式化問題,如何為計(jì)算機(jī)理解生成提供可形式化的語義網(wǎng)絡(luò),成為語義研究的核心。2001年,李葆嘉提出了“面向信息處理的現(xiàn)代漢語元語言研究”這一課題,認(rèn)為存在詞匯元語言、釋義元語言和析義元語言、認(rèn)知元語言四個(gè)層面。析義元語言,即語義特征,簡稱義征,是比釋義元語言更加抽象的元語言系統(tǒng),具有人工語言性質(zhì)。析義元語言研究通過對同一義場內(nèi)義位的對比分析挖掘義征標(biāo)記,屬于元語言研究的微觀層面。任何一個(gè)義位都是義征的聚合體,析義元語言詞典的開發(fā)正是基于此,在提取和建構(gòu)現(xiàn)代漢語義征標(biāo)記集的基礎(chǔ)上,對常用詞匯進(jìn)行義征分析,按照義征排序規(guī)則(析義元句法模式)列出義征表達(dá)式,并根據(jù)屬性信息建立文件結(jié)構(gòu)。

一、析義元語言詞典的收詞原則

收詞范圍和所收詞匯是衡量一部詞典質(zhì)量優(yōu)劣的重要標(biāo)準(zhǔn),析義元語言詞典建構(gòu)亦是如此。但與常規(guī)詞典的不同之處表現(xiàn)在對詞的語義分析上。常規(guī)詞典對詞的分析通常采用詞匯釋義的方式,而析義元語言詞典的語義分析采用義征分析的方法。義征分析是析義元語言詞典建構(gòu)的基石。析義元語言詞典收詞須遵循三個(gè)原則:

第一,代表性原則。代表性原則指所選詞匯應(yīng)該具有較高的權(quán)威性和使用率,不應(yīng)該僅僅適用于某一領(lǐng)域或通行于某一特定人群。目前漢語詞匯常用詞表有《漢語詞匯的統(tǒng)計(jì)與分析》(北京語言學(xué)院教學(xué)研究所1985)、《現(xiàn)代漢語三千常用詞表》(何克抗等1987)、《普通話三千常用詞表》(增訂本)(鄭林曦等1987)等。有的詞表是基于語料統(tǒng)計(jì)的方法建構(gòu)的,如《漢語詞匯的統(tǒng)計(jì)與分析》;有的是詞匯研究的階段性成果,如《現(xiàn)代漢語三千常用詞表》《普通話三千常用詞表》。比較發(fā)現(xiàn),各個(gè)詞表雖然包含了一定量的共有詞匯,但也存在較大差異。而且通過基于個(gè)人語感的考察發(fā)現(xiàn),有些日常生活中的常用詞,在某些詞表中并未出現(xiàn)。

第二,廣布性原則。廣布性原則指所選詞匯應(yīng)該具有較大覆蓋性和分布率,通行于各個(gè)領(lǐng)域。這與代表性原則有一定相似之處,但又有差異。代表性原則側(cè)重使用率,廣布性原則側(cè)重分布率。如《漢語詞匯的統(tǒng)計(jì)與分析》和《現(xiàn)代漢語三千常用詞表》的語料基礎(chǔ)是中小學(xué)教材,屬于母語教學(xué)領(lǐng)域;《普通話三千常用詞表》的語料基礎(chǔ)是多種工具書和課本,屬于普通話學(xué)習(xí)領(lǐng)域。各個(gè)詞表雖有一定代表性,但也有其語域的局限性。選取義征分析對象詞匯時(shí),力求充分考慮到廣布性,盡量把各種語域中廣泛使用的詞語吸收進(jìn)來。

第三,共現(xiàn)性原則。共現(xiàn)性指所選詞匯應(yīng)該是在目前大多數(shù)詞典和詞表中收錄的。共現(xiàn)性的高低體現(xiàn)詞典或詞表研究者對某詞語認(rèn)可程度的高低。細(xì)言之,共現(xiàn)性主要包括口語交際領(lǐng)域和書面語領(lǐng)域的共現(xiàn)以及母語教學(xué)領(lǐng)域和對外漢語教學(xué)領(lǐng)域的共現(xiàn)等。

基于以上三原則,考察選取詞匯義征分析的對象詞匯。到目前為止,已選取3500個(gè)常用詞匯作為義征分析對象。具體包括名詞1221個(gè),動詞1002個(gè),形容詞784個(gè),副詞226個(gè),類別詞(量詞)154個(gè),代詞12個(gè),數(shù)詞10個(gè),其他虛詞暫收91個(gè)。擇詞時(shí)不拘泥于某一詞表或某一專著。把常用性強(qiáng)的詞語最大可能地吸收到分析范圍內(nèi),從而使所收錄的詞匯更具有代表性、廣布性和全面性。

二、析義元語言詞典的分析方法

使用限量詞匯進(jìn)行詞典釋義是國外詞典釋義的主流。但國內(nèi)很多詞典往往還停留在隨機(jī)釋義的層面。析義元語言作為最具人工語言性質(zhì)的類型,與釋義元語言雖然不同,但其釋義同樣需要采用限量詞匯義征。析義元語言詞典的分析是基于《現(xiàn)代漢語詞匯義征標(biāo)記集》(2836個(gè)標(biāo)記)進(jìn)行的。[1]具體分析時(shí),依據(jù)義征分析步驟,并參考了漢語權(quán)威詞典的解釋。不同類型的詞語,在分析時(shí)會采用不同的義征序列模式,即析義元句法模式。以實(shí)詞義位為例,說明如下:

1.名詞義征分析模式

NGn+Pn(+F)

N是Noun的縮寫。G是Genus的縮寫,P是Property的縮寫,n表個(gè)數(shù),括號中F表語體、語用等附加說明,以下皆同。

NG表類別義征,NG的個(gè)數(shù)取決于語義分類層級,幾個(gè)NG之間必是上下義關(guān)系。P表屬性義征。F只有在所比較義位其他義征都相同,而要加以區(qū)分的情況下才出現(xiàn)。同場義位的區(qū)別表現(xiàn)在P上。因受篇幅所限,僅舉面食義場部分義位為例:

饅頭[+面食][+面粉][+發(fā)酵][-有餡][±圓形][-水煮][+熱蒸]

包子[+面食][+面粉][+發(fā)酵][+有餡][+圓形][-水煮][+熱蒸]

面條[+面食][+面粉][-發(fā)酵][-有餡][+線形][+水煮][-熱蒸]

水餃[+面食][+面粉][-發(fā)酵][+有餡][+半圓][+水煮][-熱蒸]雖然某些名詞可能采用其他分析模式,但上述模式是名詞義征分析的典型模式。

2.動詞義征分析模式

VGn+Sn+An(+F)

V是Verb的縮寫,S是Semantic role的縮寫,A是Action的縮寫。VG表類別義征。S表語義角色,通常n=3~5。A表動作行為義征,是對動作行為語義的凸顯描述或分解描述。同場義位的區(qū)別在于S和A的性質(zhì)和數(shù)量。以手掌動作義場部分義位為例:

托[+動作][+手掌][+向上][+承受][+物體][-傳遞]

捂[+動作][+手掌][-向上][+蓋?。荩郏矬w][-傳遞]

接[+動作][+手掌][+向上][+接受][+物體][+傳遞]

3.代詞義征分析模式

RG+S+Pn(+F)

R是Pronoun的縮寫,因?yàn)橐延肞表屬性特征,故用英文第二個(gè)字母表示。RG是類別義征。S表指代的對象或范圍。同場義位的區(qū)別表現(xiàn)在P上。以人稱代詞義場部分義位為例:

我 [+代稱][+人類][+自稱][+單數(shù)]

你 [+代稱][+人類][+對稱][+單數(shù)]

他 [+代稱][+人類][+他稱][+單數(shù)]

4.形容詞義征分析模式

AGn+Sn+Pn(+F)

A是Adjective的縮寫。AG表類別義征。S表描寫對象,其數(shù)量取決于描寫深度。同場義位的差別表現(xiàn)在P的內(nèi)容或數(shù)量上。以心情高漲類義場部分義位為例:

激動[+情形][+心情][+高漲][+沖動][+通用]

激昂[+情形][+心情][+高漲][+沖動][+高揚(yáng)]

激憤[+情形][+心情][+高漲][+沖動][+憤怒]

5.副詞義征分析模式

DGn+Sn+Pn(+F)

D是Adverb的縮寫,因形容詞中已使用A,故用英文第二個(gè)字母表示。DG表類別義征,DG數(shù)量取決于語義分類層次。S表義位的限制對象或關(guān)涉范圍。同場義位的區(qū)別體現(xiàn)在P上。以時(shí)頻副詞義場部分義位為例:

往往[+時(shí)頻][+行為|狀況][+較長][+時(shí)段][+發(fā)生][+次數(shù)][+極多][+推定]

有時(shí)[+時(shí)頻][+行為|狀況][+較長][+時(shí)段][+發(fā)生][+次數(shù)][+很少][-定時(shí)]

常常[+時(shí)頻][+行為|狀況][+較長][+時(shí)段][+發(fā)生][+次數(shù)][+極多][-推定]

6.?dāng)?shù)詞義征分析模式

數(shù)目詞的析義元句法模式包括樞紐模式和其他模式兩類:

樞紐模式UG+Pn(+F)

其他模式UG+S1+A+S2

U是Numeral的縮寫,因名詞中已使用N,故用英文第二個(gè)字母表示。UG表類別義征,S是關(guān)涉對象,A是關(guān)系義征。以基數(shù)詞義場部分義位為例:

一[+數(shù)目][+獨(dú)立][+個(gè)體]

二[+數(shù)目][+成雙][+個(gè)體]

三[+數(shù)目][+二][+增加][+一個(gè)]

四[+數(shù)目][+三][+增加][+一個(gè)]

“一、二”的分析基于事物的個(gè)體和相配,屬性義征P的數(shù)量為2。在“三、四”中,S1、S2分別表參照對象和增加對象,A表計(jì)算關(guān)系。

7.類別詞義征分析模式

CGn+Pn+Sn(+F)

C是Category的縮寫。CG表類別義征。S表修飾對象或關(guān)涉范圍。同場義位的區(qū)別體現(xiàn)在P、S的內(nèi)容上。以叢狀義場部分義位為例:

簇[+叢狀][+聚集][+密][+多][+植物][+毛發(fā)][+人類][-口語]

叢[+叢狀][+聚集][+密][+多][+植物][-毛發(fā)][-人類][-口語]

三、析義元語言詞典屬性信息的確立

為了語義形式化和語言處理的需要,《析義元語言詞典》設(shè)置以下屬性信息:

1.詞匯信息。即詞典中所收錄詞語。對于包含多個(gè)義項(xiàng)的詞根據(jù)義項(xiàng)分列。如總庫文件的收錄詞語樣例中的拍1、拍2。

2.常規(guī)信息。即詞的拼音信息。

3.語法信息。按照北京大學(xué)計(jì)算語言學(xué)研究所的《現(xiàn)代漢語語法信息詞典》,描寫所收詞匯的語法信息。

4.釋義信息。雖然與常規(guī)詞典釋義方式不同,但常規(guī)的詞典釋義仍是義征分析的借鑒,故在屬性信息中設(shè)立詞典釋義信息。

5.義類信息。庫中共分出四大義類:指稱類、陳述類、修飾限制類、情態(tài)功能類。

6.義場信息。析義元語言分析必須在義場中進(jìn)行,基于所收詞匯共構(gòu)建了551個(gè)義場。

7.義征表達(dá)式信息。與常規(guī)詞典的最大區(qū)別在于,析義元語言詞典的語義分析結(jié)果是通過義征表達(dá)式體現(xiàn)的。每一個(gè)義位的析義結(jié)果體現(xiàn)為一個(gè)有層次的義征表達(dá)序列。不同詞類的義位其義征表達(dá)式結(jié)構(gòu)是不同的。

8.義位組合信息。同一義場義位組合時(shí),往往具有共性特征。義位組合研究可以以義場為單位進(jìn)行考察。如“穿著”場和“衣物”場組合,“進(jìn)食”場和“食物”場組合。但具體來看,同一義場義位在組合小類上又有所區(qū)別。在文件結(jié)構(gòu)中,會附加能與該義位組合的義場和義位信息。同時(shí),義位進(jìn)入組合后,詞義往往會發(fā)生變化,增加該義位進(jìn)入組合的語義信息變化的常見類型分析和例證說明。

四、析義元語言詞典的文件結(jié)構(gòu)

析義元語言詞典的編纂采取以義類為綱,以義場為單位分析的方法。從義類角度進(jìn)行詞典編纂,最早可以追溯到成書于秦漢時(shí)期的《爾雅》。義類研究曾經(jīng)一度中斷,到了上世紀(jì)80年代,以《同義詞詞林》(梅家駒等1983)為發(fā)端,出現(xiàn)了諸多義類分析詞典。借鑒目前分類方法,基于日常感知,我們對基本詞匯進(jìn)行語義分類。在具體研究中,將其分為4大類、15中類、42小類和551子場。如下圖所示。

為了語義研究的精細(xì)化,在進(jìn)行析義元語言分析時(shí),盡可能地再劃分小類和次小類,其中最深層次為8級,如“猴”,其語義類別層級是:事物-有形-生物-動物-野生-獸類-陸棲-小型。

1.詞典文件的總體結(jié)構(gòu)及規(guī)模

析義元語言詞典采用關(guān)系數(shù)據(jù)庫技術(shù),在Access下實(shí)現(xiàn)。詞典中信息都盡量用漢字表示。根據(jù)需要,詞典共設(shè)置了四個(gè)庫。其中總庫一個(gè),義場義類信息庫一個(gè),義征表達(dá)式信息庫一個(gè),義位組合信息庫一個(gè),這四個(gè)庫通過“詞匯”、“拼音”兩個(gè)字段鏈接。該詞典具有開放性,計(jì)劃收詞1萬條左右,目前已經(jīng)收錄并分析了3500詞。

2.庫文件的結(jié)構(gòu)及屬性的描述

(1)總庫文件結(jié)構(gòu)及屬性描述

總庫的具體屬性字段、字段寬度、屬性值描述如下:

(2)義類義場信息庫文件結(jié)構(gòu)及屬性描述

義場義類信息庫主要包含兩部分:義類信息和義場信息。義類信息相對簡單,即總庫中的四大類:指稱類、陳述類、修飾限制類、情態(tài)功能類。義場信息比較復(fù)雜,對詞典中所收錄詞語,分層級列出所屬的義場信息,其中第一層就是義類屬性。如以下“指稱類”下的“人類稱謂”義場的“堂兄、堂妹、表兄、表妹”所處的層級:

第一層 第二層 第三層 第四層 第五層 第六層 第七層 第八層

指稱類——人類稱謂——親稱——親戚——同輩——堂親——男性——堂兄

指稱類——人類稱謂——親稱——親戚——同輩——堂親——女性——堂妹

指稱類——人類稱謂——親稱——親戚——同輩——表親——男性——表兄

指稱類——人類稱謂——親稱——親戚——同輩——表親——女性——表妹

(3)組合信息庫文件結(jié)構(gòu)及屬性描述

義位組合信息庫比較復(fù)雜,包括兩部分內(nèi)容,一是與該義位組合的義場信息,一是該義位組合時(shí)詞義變化信息。與某義位相組合的義場以及意義的凸顯變化類型,都是基于語料的考察得出的,限于篇幅不再列舉。

3.總庫文件所收詞語樣例

表1

五、析義元語言詞典的應(yīng)用價(jià)值

析義元語言是元語言系統(tǒng)中最具人工性質(zhì)的類型,其研究對語言信息處理與本體研究都有重要價(jià)值。概括言之,包括兩個(gè)方面。

1.服務(wù)于語言信息處理研究

世界范圍內(nèi)的自然語言處理,經(jīng)過字處理、詞處理階段之后相繼進(jìn)入句處理階段。以往句處理研究的重點(diǎn)是句法結(jié)構(gòu)和語義角色的自動分析和標(biāo)注,以及句法分析器的研制。根據(jù)語義語法學(xué)理論,句法植根于詞匯意義,詞匯意義決定句法語義,語義性是語言的本質(zhì)屬性。句子的生成,需經(jīng)過對象世界-認(rèn)知圖式—語義結(jié)構(gòu)-句法結(jié)構(gòu)四個(gè)階段實(shí)現(xiàn),其中語義結(jié)構(gòu)是核心環(huán)節(jié)。語義研究的基石正是義征的提取和研究。析義元語言詞典的開發(fā),揭示了漢語常用詞匯的微觀語義層面,并提供了與之組合的常見義位,以及義位組合的語義變化信息,為句子生成和詞庫選擇提供幫助。同時(shí)析義元語言詞典把語義分析的顆粒度細(xì)化到了義征層面,能夠更加清楚地凸顯詞元之間的細(xì)微語義差異,為提高詞義消歧的精度提供了幫助。

2.豐富語義語法學(xué)理論

語義語法學(xué)強(qiáng)調(diào)語言的語義本質(zhì)性,認(rèn)為句法結(jié)構(gòu)本質(zhì)是相關(guān)義場的語義關(guān)聯(lián)或相關(guān)詞語的義征纏繞?!罢Z義統(tǒng)一場”假說是語義語法理論的核心思想(李葆嘉2007)。析義元語言詞典的開發(fā),為漢語常用詞匯的詞匯語義系統(tǒng)建構(gòu)和組合選擇提供元語言基礎(chǔ),為義位組合的語義變化信息考察提供模型,為漢語詞匯研究提供義類分析框架。語義語法學(xué)的最終目標(biāo)是建構(gòu)語義網(wǎng)絡(luò),而語義網(wǎng)絡(luò)建構(gòu)的關(guān)鍵是詞匯-句法語義的銜接研究,其基本任務(wù)是:在詞匯語義層面,進(jìn)行義征提取和義場建構(gòu);在句法語義層面,進(jìn)行句法范疇歸納、句法范疇義征提取和語義句模建構(gòu)。而析義元語言詞典的開發(fā),把漢語常用義位分析為義征表達(dá)式,為詞匯-句法語義的銜接提供詞匯語義基礎(chǔ)。這些無疑進(jìn)一步豐富了語義語法學(xué)理論。

析義元語言詞典具有開放性,目前僅分析了部分常用詞,之后將逐步擴(kuò)大規(guī)模。同時(shí),析義元語言詞典的開發(fā)也是個(gè)長期艱巨的工程,到目前為止尚未有人對漢語詞匯做大規(guī)模的義征分析,這一狀況需要在研究中不斷地改進(jìn)和完善。

附 注

[1]義征提取和義征標(biāo)記集的建構(gòu),詳見孫道功等 《試論析義元語言標(biāo)記集的建構(gòu)》,《語言文字應(yīng)用》2008年第2期,P132-138。該義征標(biāo)記集共包括2836個(gè)義征標(biāo)記,具有較強(qiáng)的解釋力。

1.安華林.現(xiàn)代漢語釋義基元詞研究.北京:中國社會科學(xué)出版社,2005.

2.亢世勇.《現(xiàn)代漢語新詞語信息電子詞典》的開發(fā)與應(yīng)用.辭書研究,2001(1).

3.李葆嘉.理論語言學(xué):人文與科學(xué)的雙重精神.南京:江蘇古籍出版社,2001.

4.李葆嘉等.語義語法學(xué)導(dǎo)論.北京:中華書局,2007.

5.梅家駒等.同義詞詞林.上海:上海辭書出版社,1983.

6.孫道功等.試論析義元語言標(biāo)記集的建構(gòu).語言文字應(yīng)用,2008(2).

猜你喜歡
義位元語言詞典
漢語義位歷時(shí)衍生次序判定方法綜觀
漢語義位“寬”“窄”歷史演變比較研究
米沃什詞典
淺析英漢詞語搭配研究現(xiàn)狀
評《現(xiàn)代漢語詞典》(第6版)
詞典例證翻譯標(biāo)準(zhǔn)探索
高中英語教學(xué)中學(xué)生元語言意識的培養(yǎng)
義位函數(shù)理論的共時(shí)與歷時(shí)分析
《胡言詞典》(合集版)刊行
教師話語中的元語言現(xiàn)象與學(xué)生元語言意識的培養(yǎng)
明水县| 漳州市| 郴州市| 赤水市| 海阳市| 阿拉善右旗| 宁晋县| 贵州省| 屏东市| 永春县| 三门峡市| 宜君县| 博客| 高陵县| 望谟县| 新邵县| 华安县| 扶沟县| 青川县| 连州市| 合山市| 桐柏县| 邵东县| 九江县| 阿瓦提县| 册亨县| 怀远县| 军事| 长葛市| 吴忠市| 台安县| 晴隆县| 漯河市| 麟游县| 文水县| 汾西县| 阿拉善右旗| 浦北县| 琼海市| 新宁县| 突泉县|