国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

漢語的語素概念提取與語義構(gòu)詞分析

2018-04-16 07:53:06康司辰
中文信息學(xué)報(bào) 2018年2期
關(guān)鍵詞:基元構(gòu)詞語素

劉 揚(yáng),林 子,康司辰

(1.北京大學(xué) 計(jì)算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871;2.北京大學(xué) 計(jì)算語言學(xué)研究所,北京100871;3.北京大學(xué) 中國(guó)語言文學(xué)系,北京 100871)

0 引言

在漢語中,存在著“語素、詞、短語、句子”等由小到大的語言單位和層級(jí)結(jié)構(gòu),而語素構(gòu)詞更是漢語的特點(diǎn)。作為基礎(chǔ)的符號(hào)單位,語素及其意義,以及此上的構(gòu)詞分析和意義表達(dá),既是漢語語義分析的起點(diǎn),也是計(jì)算機(jī)理解詞義的關(guān)鍵。

在研究構(gòu)詞結(jié)構(gòu)時(shí),人們很早就注意到了漢語詞法與句法的平行性,漢語中的由字組詞、由詞造句的過程遵循同一原則。趙元任[1]認(rèn)為構(gòu)詞成分之間存在造句關(guān)系。此后,陸志韋[2]、朱德熙[3]、王洪君[4]等指出,復(fù)合詞內(nèi)部的結(jié)構(gòu)關(guān)系和句法結(jié)構(gòu)是類似的。這在漢語詞的歷時(shí)形成過程中亦可找到解釋。董秀芳指出[5],現(xiàn)代漢語中的多字詞多是古漢語單字詞短語詞匯化的產(chǎn)物,一些復(fù)合詞的前身即是自由的句法組合。另一方面,考慮構(gòu)詞結(jié)構(gòu)下的成分與整體,語素義與詞義在某種程度上顯然是關(guān)聯(lián)的。徐通鏘[6]分析漢語社團(tuán)的思維方式與編碼機(jī)制,強(qiáng)調(diào)漢語作為語義型語言,字的表義性是其內(nèi)在結(jié)構(gòu)基礎(chǔ)。此外,符淮青[7]、周薦[8]等也注意到了漢語詞的意合特征,認(rèn)為漢語中的語素義和詞義之間具有很強(qiáng)的推導(dǎo)性。這表明,探究漢語的語素構(gòu)成及其意義系統(tǒng),以及在此基礎(chǔ)上的語義構(gòu)詞分析有扎實(shí)的理論基礎(chǔ)和潛在的應(yīng)用價(jià)值。

從自然語言處理的實(shí)踐看,此前漢語的句法及語義分析一直居于主流地位,但是對(duì)語素、詞法和意義的系統(tǒng)化的構(gòu)建和分析工作還很欠缺。目前,關(guān)于語素與構(gòu)詞分析方面的研發(fā)工作主要包括以下幾項(xiàng):

(1) 清華大學(xué)苑春法的“漢語語素?cái)?shù)據(jù)庫”[9],以語素描寫和構(gòu)詞分析為核心,覆蓋常見漢字的語素項(xiàng)信息,包括語法類、語素義的刻畫,并對(duì)語素項(xiàng)構(gòu)成的漢語詞進(jìn)行了結(jié)構(gòu)描述和意義綁定。但不同的語素項(xiàng)之間是彼此孤立的,缺乏面向整個(gè)語言系統(tǒng)的意義關(guān)聯(lián),只以離散的語素項(xiàng)集合的面貌出現(xiàn),沒有形成體系結(jié)構(gòu),無法滿足基于意義比較的計(jì)算需求;

(2) 魯東大學(xué)亢世勇的“漢字義類信息庫”和“漢語語義構(gòu)詞信息庫”[10],前者描寫了常見漢字的字位(不妨理解為語素的義項(xiàng)),后者在此基礎(chǔ)上對(duì)二字合成詞進(jìn)行標(biāo)注,對(duì)字位和合成詞均進(jìn)行了歸類并形成了積極的意義關(guān)聯(lián)。歸類以此前已有的《同義詞詞林》為標(biāo)準(zhǔn),存在語素義與詞義的本原、因果參照問題,結(jié)構(gòu)合理性有待商榷。

(3) 臺(tái)灣大學(xué)周亞民的漢字知識(shí)本體(Hantology)[11],分析了許慎《說文解字》中的540個(gè)部首漢字所刻畫的基本義符概念,并映射到IEEE SU M O上層共用知識(shí)本體上,形成了與世界通用概念(該通用概念由英語詞匯來承擔(dān))對(duì)應(yīng)的層次結(jié)構(gòu)。該本體在分類上同樣存在先天的參照問題,且只考慮少數(shù)部首漢字的粗粒度意義,也難以對(duì)漢語的語素認(rèn)知、計(jì)算提供足夠的支撐。

(4) 中國(guó)科學(xué)院董振東的知網(wǎng)(HowNet)[12],認(rèn)為任何一個(gè)概念均能夠分解為一組義原,并以此為基礎(chǔ)來加以定義,并且在不同語言中存在同樣的義原集合?;趯?duì)漢字的考察、分析,目前歸納、提取了2 800多個(gè)義原,采用人工給定的英—漢詞匯序列表示并在其間形成了層次結(jié)構(gòu)。這些義原均沒有特定的語素載體,定位近于抽象的語素義。知網(wǎng)注意到了漢語的意合特征,為漢語的詞義計(jì)算做出了貢獻(xiàn),但并沒有走語素和構(gòu)詞分析的路,義原的形成和認(rèn)定也帶有較強(qiáng)的主觀性。

這些先驅(qū)工作開拓了人們的視野,值得思考和借鑒。與此同時(shí),他們?cè)跐h語語素及其意義的構(gòu)建客觀性、數(shù)據(jù)覆蓋度、結(jié)構(gòu)體系化以及漢語構(gòu)詞的全局性語義分析、數(shù)據(jù)挖掘與可視化等方面,還有期待改進(jìn)的地方。

我們希望在WordNet理論、生成詞庫理論[13]等觀點(diǎn)指導(dǎo)下,以《現(xiàn)代漢語詞典(第5版)》(以下簡(jiǎn)稱《現(xiàn)漢》)刻畫的全部漢語語素及語素義為客觀依據(jù),基于語素義的相似度計(jì)算形成“同義語素集”,用來表征“語素概念”并建立“語素概念系統(tǒng)”,以描述漢語世界中的語義基元。在此基礎(chǔ)上,進(jìn)一步描述漢語詞的構(gòu)詞結(jié)構(gòu),實(shí)現(xiàn)構(gòu)詞結(jié)構(gòu)下的構(gòu)詞成分與“語素概念”的嚴(yán)格綁定,系統(tǒng)化地揭示漢語的語義構(gòu)詞現(xiàn)象并做數(shù)據(jù)挖掘和可視化呈現(xiàn),推動(dòng)人文領(lǐng)域和計(jì)算應(yīng)用等相關(guān)工作的開展。

1 漢語語素概念提取方法

1.1 語義基元理論基礎(chǔ)

語言中的語義基元揭示了人們思維中的核心語義概念,在語言認(rèn)知與計(jì)算等諸多方面扮演著重要角色[14]。20世紀(jì)30年代,語言學(xué)家們探究了“基本語義單元”的概念,表達(dá)了對(duì)該類系統(tǒng)的期望[15-16]。到70年代,Wierzbicka等人認(rèn)為“復(fù)合詞的語義能夠被一組意義更簡(jiǎn)單、更易理解的詞語來解釋”,并稱其為“語義基元”(semantic primitives)[17],這是重要的思路和提示。然而,在各種語言中,目前還沒有找到表征和生成語義基元的有效方法。

在英語中,語素處于相對(duì)弱勢(shì)的地位,語言中的概念意義主要由詞來承載和體現(xiàn),WordNet率先采用“同義詞集”來表征“詞匯概念”。值得注意的是,漢語是一種意合語言,語素作為最小的字符單位具有很強(qiáng)的表義性,對(duì)更大單位的詞義的貢獻(xiàn)十分明顯。結(jié)合Wierzbicka等人的觀點(diǎn),并考慮漢語構(gòu)詞的特點(diǎn),我們希望以“同義語素集”來表征“語素概念”。一個(gè)“語素概念”中包含了語言中大致同義或同類的所有語素,也代表了漢語世界中的一個(gè)語義基元。

1.2 語素類區(qū)分與語素義編碼

考慮詞典的權(quán)威性和應(yīng)用的影響力,漢字語素取自《現(xiàn)漢》中的定義。目前,《現(xiàn)漢》只為成詞語素標(biāo)注了詞類,可視為成詞語素的語素類;對(duì)不成詞語素,我們用人工標(biāo)注的方式補(bǔ)齊了語素類。在8 514個(gè)漢字(包括繁體、異體字)的20 855個(gè)語素義中,名、動(dòng)、形語素分別占46.90%、30.59%、11.25%,共計(jì)88.74%,構(gòu)成主體;而副、數(shù)、量、代、介、助、連、擬、嘆、綴語素共計(jì)11.26%,形成補(bǔ)充。

在此基礎(chǔ)上,我們對(duì)上述語素義做釋義文本的提取,并賦予唯一的“語素義編碼”。例如,“材”字有多個(gè)語素義,其中的一個(gè)釋義文本為“有才能的人”,其“語素義編碼”為“材1_05_04”,依次表明:這是該字在《現(xiàn)漢》中的第一次條目出現(xiàn),該條目下共有五個(gè)語素義,當(dāng)前為第四個(gè)語素義。

1.3 語義相似度計(jì)算與語素概念生成

為了獲得可靠的“同義語素集”,需要對(duì)《現(xiàn)漢》中的不同語素義的釋義文本進(jìn)行語義相似度計(jì)算。

對(duì)于特定語素類的任一語素義的釋義文本,按照它與同語素類的其他語素義的語義相似度值降序排列,并按設(shè)定閾值將意義相近的語素義推薦給專家。經(jīng)人工檢驗(yàn),每確定一條即對(duì)其做語義相似度值的迭代計(jì)算,如此反復(fù)補(bǔ)充、過濾,形成一個(gè)“同義語素集”,亦即一個(gè)“語素概念”,或稱一個(gè)語義基元。對(duì)剩余語素義的釋義文本,重復(fù)此過程,直至覆蓋該特定語素類的全部語素義為止。然后,選擇新的語素類,重復(fù)以上過程。

1.4 語素概念的結(jié)構(gòu)化與系統(tǒng)描述

在獲得漢語的“語素概念”全集后,需要進(jìn)一步在這些語義基元之間建立起層次結(jié)構(gòu),讓離散的概念維持基本的語義關(guān)聯(lián),形成義場(chǎng),以方便認(rèn)知、推理和計(jì)算。

受WordNet啟發(fā),名語素的“語素概念”主要依據(jù)上下位關(guān)系進(jìn)行結(jié)構(gòu)化建設(shè),形成同語素類的聚合關(guān)系。在跨語素類的語義關(guān)聯(lián)方面,則借鑒生成詞庫理論,對(duì)動(dòng)語素和形語素分別建立起以名語素結(jié)構(gòu)為中心和參照的對(duì)應(yīng)體系。在該體系中,動(dòng)語素表達(dá)名語素所指事物的事件,或者說,動(dòng)語素的主體是對(duì)應(yīng)的名語素;形語素表達(dá)名語素所指事物的屬性,或者說,形語素修飾的對(duì)象是對(duì)應(yīng)的名語素。由此,名、動(dòng)、形等不同語素類的層次結(jié)構(gòu)是大致同構(gòu)的,并形成同語素類內(nèi)的聚合關(guān)系以及跨語素類間的組合關(guān)系,該體系有利于各類“語素概念”的組織和計(jì)算。

基于以上方案,我們對(duì)漢語的“語素概念”建立了層次結(jié)構(gòu),并對(duì)內(nèi)部節(jié)點(diǎn)進(jìn)行了特征描寫和賦值,這也是對(duì)漢語世界中的語義基元的系統(tǒng)描述。

2 漢語語義構(gòu)詞分析方法

2.1 語義構(gòu)詞理論基礎(chǔ)

對(duì)于漢語的構(gòu)詞結(jié)構(gòu)性質(zhì),語言學(xué)界一般有語法構(gòu)詞[1-3]、語義構(gòu)詞[6,19]等不同觀點(diǎn)。前者強(qiáng)調(diào)構(gòu)詞成分之間的語法關(guān)系,如主謂、述賓等語法標(biāo)簽的認(rèn)定,而后者強(qiáng)調(diào)構(gòu)詞成分之間的語義關(guān)系,如主體、客體等語義標(biāo)簽的認(rèn)定。

考慮語言計(jì)算、應(yīng)用的狀況和需求,傅愛平[20]指出:雖然語義構(gòu)詞在表示詞義時(shí)有天然、直觀的優(yōu)勢(shì),但是其結(jié)構(gòu)產(chǎn)生依據(jù)過于復(fù)雜,標(biāo)簽集難以統(tǒng)一,并不利于機(jī)器處理。相比之下,語法構(gòu)詞的結(jié)構(gòu)體系較為簡(jiǎn)單,標(biāo)準(zhǔn)統(tǒng)一,且與句法結(jié)構(gòu)有天然的相似性。苑春法[9]的研究也表明,語法構(gòu)詞與構(gòu)詞語素類、詞性之間存在一定的相關(guān)性,采用語法構(gòu)詞體系有利于計(jì)算的開展。

在借鑒前人觀點(diǎn)的基礎(chǔ)上,我們選擇語法構(gòu)詞體系以方便工程展開,這也遵循了自然語言處理中從形式到意義的主流路線。值得注意的是,事實(shí)上,由于后續(xù)環(huán)節(jié)要求構(gòu)詞成分對(duì)“語素概念”的嚴(yán)格綁定,我們獲得的依然是廣義的語義構(gòu)詞知識(shí)。

2.2 構(gòu)詞結(jié)構(gòu)類型界定與標(biāo)注

語法構(gòu)詞體系,語言學(xué)界大多沿用朱德熙[3]的方案。楊梅[21]在借鑒了語法構(gòu)詞和語義構(gòu)詞兩派的觀點(diǎn)后,提出了一套以語法標(biāo)簽為主的構(gòu)詞體系,并兼顧了語義構(gòu)詞派的部分觀點(diǎn)。

在楊梅標(biāo)簽基礎(chǔ)上,我們?cè)黾印皢渭兪健睒?biāo)簽,用于表示成分義與詞義之間缺乏關(guān)聯(lián),并將“附加式”細(xì)分為前附加、后附加。同時(shí),刪除了一些缺乏計(jì)算價(jià)值或結(jié)構(gòu)類別實(shí)例過少的標(biāo)簽,如截取式、虛配式、指量式、數(shù)構(gòu)式。最終確定的標(biāo)簽集包括16種標(biāo)簽,即:主謂式、連謂式、聯(lián)合式、述賓式、述補(bǔ)式、定中式、狀中式、介賓式、重疊式、名量式、數(shù)量式、方位式、復(fù)量式、前附加、后附加、單純式。

構(gòu)詞結(jié)構(gòu)類型界定后,在義項(xiàng)區(qū)分的基礎(chǔ)上,我們?yōu)椤冬F(xiàn)漢》中的所有二字詞依規(guī)范標(biāo)注了構(gòu)詞結(jié)構(gòu),共計(jì)52 108個(gè)。

2.3 構(gòu)詞成分與語素義綁定

在構(gòu)詞結(jié)構(gòu)基礎(chǔ)上,對(duì)二字詞中的構(gòu)詞成分,即前后語素,我們繼續(xù)標(biāo)注它們?cè)凇冬F(xiàn)漢》中的語素義。

注意到,一個(gè)語素義對(duì)應(yīng)一個(gè)“語素義編碼”,并進(jìn)入一個(gè)“同義語素集”,這一過程實(shí)際上是將構(gòu)詞成分與特定“語素概念”建立了綁定關(guān)系,并受整個(gè)“語素概念體系”意義系統(tǒng)的表達(dá)和制約。這樣一來,單一的語素義就攜帶了豐富的、便于計(jì)算的內(nèi)容,包括了其在“語素概念”中的“同伴”信息、在“語素概念體系”中的“位置”信息以及由此取得的基于繼承鏈條的一系列“特征取值”信息。

2.4 語義構(gòu)詞知識(shí)表示

符淮青[7]等語言學(xué)家指出:語素義的組合在一定程度上體現(xiàn)詞義。因此,利用語義構(gòu)詞知識(shí)進(jìn)行詞義知識(shí)表示是一種新的選擇。這種表示具有簡(jiǎn)單、直觀的特點(diǎn),并反映構(gòu)詞成分對(duì)詞義的貢獻(xiàn)。例如,在“選材”中,“選”的語素義為“挑選、選拔”,“材”的語素義為“有才能的人”,其結(jié)構(gòu)關(guān)系及成分義較為準(zhǔn)確地反映了詞義。

基于上述工作,我們獲得的語義構(gòu)詞知識(shí)涵蓋詞性、構(gòu)詞結(jié)構(gòu)、前后語素類、前后語素義等廣義知識(shí),其中,前三個(gè)屬于語法層,最后一個(gè)屬于語義層。例如,“選材”的語義構(gòu)詞知識(shí)如表1所示。需要指出的是,前后語素義的“語素義編碼”已經(jīng)攜帶了豐富的、便于計(jì)算的多項(xiàng)信息。

表1 語義構(gòu)詞知識(shí)示例

3 數(shù)據(jù)結(jié)果分析

3.1 關(guān)于漢語語素概念的分析

依計(jì)算結(jié)果和工程進(jìn)展,目前,名、動(dòng)、形語素分別形成了2 018、1 631、550個(gè)“語素概念”,共計(jì)4 199個(gè)。

表2~4依據(jù) “同義語素集”的大小、多少等信息,分別展示了名、動(dòng)、形語素“語素概念”覆蓋、分布的一般情況。例如,在名語素“語素概念”中,語素個(gè)數(shù)為16的“同義語素集”共有7個(gè),占該類“語素概念”總數(shù)的比例為0.35%,其中的一個(gè)“語素概念”包含了特定語素“匠哲器彥才材杰氏秀英豪賢通驥模尖”(基于可以理解和簡(jiǎn)化描述的原因,這里均省略了相應(yīng)的“語素義編碼”,僅以語素字的形式出現(xiàn),且不排斥相同字的出現(xiàn)),其概念意義為“有才能的人”。

表2 名語素“語素概念”覆蓋、分布情況

續(xù)表

表4 形語素“語素概念”覆蓋、分布情況

很明顯,這些以技術(shù)手段初次呈現(xiàn)的語義基元,表現(xiàn)出了確定、離散、可枚舉的特性。例如,在動(dòng)語素中,對(duì)于承載“挑選、選拔”這一概念意義的語義基元,我們有較大信心說有且僅有12個(gè)漢語語素,包括“刷掄拔揀擇擇挑擢調(diào)選遴銓”等單字可以用于漢語構(gòu)詞并做現(xiàn)實(shí)的表達(dá),在人與機(jī)器的認(rèn)知、理解上都能得到很好的詮釋。

對(duì)《現(xiàn)漢》中的全部語素,我們采取既定、明確的表達(dá)方式和自底向上的技術(shù)路線來指導(dǎo)語義基元的構(gòu)造,杜絕了以往“拍腦袋”式的主觀性。通過對(duì)數(shù)據(jù)結(jié)果的觀察,可以看出,這些“語素概念”相對(duì)準(zhǔn)確、完整地涵蓋了漢語語素所能表達(dá)的概念意義,有較強(qiáng)的數(shù)據(jù)客觀性、覆蓋度及完備性。進(jìn)一步,依據(jù)生成詞庫理論,我們采取自頂向下的技術(shù)路線,為名、動(dòng)、形語素“語素概念”建立了層次結(jié)構(gòu),形成了“語素概念體系”,這也是對(duì)漢語世界中的語義基元的系統(tǒng)描述。

近年來,深度學(xué)習(xí)在自然語言處理領(lǐng)域廣泛應(yīng)用,比如,通過神經(jīng)概率語言模型學(xué)習(xí)語義向量表達(dá)[22],這種經(jīng)驗(yàn)方法取得了不錯(cuò)的效果。而上述語義基元的提取加工,則是一種理性方法,希望在未來的人文領(lǐng)域和計(jì)算應(yīng)用中做新的結(jié)合和嘗試。

3.2 關(guān)于漢語語義構(gòu)詞的分析

與英語不同,漢語中的詞沒有固定的形式標(biāo)準(zhǔn),語言使用者可以相對(duì)自由地造詞,因此,對(duì)語義構(gòu)詞模式的分析尤為重要。一般認(rèn)為,構(gòu)詞能產(chǎn)性是語素、構(gòu)詞過程與規(guī)則創(chuàng)造新詞的能力[23],它衡量語素成分現(xiàn)實(shí)及潛在的構(gòu)詞能力,反映出詞匯系統(tǒng)的某些特性。

語素構(gòu)詞能力也是對(duì)外漢語教學(xué)等人文領(lǐng)域特別關(guān)心的問題,在確定漢語教學(xué)基礎(chǔ)漢字時(shí),除了關(guān)注字的出現(xiàn)頻率之外,往往需要考慮語素的構(gòu)詞能力,它影響漢字的認(rèn)知加工。尹斌庸[24]統(tǒng)計(jì)表明,粗略地基于字考慮構(gòu)詞,可以對(duì)漢語構(gòu)詞能力有初步把握。有專家學(xué)者進(jìn)一步從語素類和構(gòu)詞規(guī)則的角度進(jìn)行了研究[9],此外,還有一些基于語義構(gòu)詞的語言學(xué)本體研究和個(gè)例剖析,不再贅述。

在對(duì)漢字的認(rèn)知加工過程中,語義是十分重要的因素。一字多義、多字一義是漢語的常態(tài)。例如,“云侃具敘吭啟咧哨嘮扯拉提擺曰稱聊言講話語……”等單字,它們的某一義項(xiàng)具有相同或相近的意義,被歸并到了“同義語素集”中,屬于表示“言談交流”的“語素概念”。在漢語的意義體系中,它們發(fā)揮著十分相近的功能。然而,此前,由于數(shù)據(jù)匱乏和手段不足等問題,還無法從語義角度對(duì)語素構(gòu)詞能力進(jìn)行量化描寫和繪制。

我們首次將“語素概念”作為節(jié)點(diǎn),刻畫構(gòu)詞過程中基本意義單元之間的結(jié)合情況。如圖1所示,每一個(gè)矩陣節(jié)點(diǎn)代表一個(gè)“語素概念”,節(jié)點(diǎn)的大小代表“語素概念”中的各個(gè)語素(已確定了語素義)在構(gòu)詞過程中貢獻(xiàn)的能產(chǎn)性的加和,而節(jié)點(diǎn)之間的邊代表兩個(gè)“語素概念”中的某兩個(gè)語素依確定的語素義參與了構(gòu)詞過程,參與次數(shù)體現(xiàn)為邊的權(quán)重,即邊越粗,表明兩個(gè)“語素概念”結(jié)合的可能性越大。該圖依據(jù)前述4 199個(gè)名、動(dòng)、形語素的“語素概念”和52 108個(gè)二字詞的語義構(gòu)詞知識(shí)繪制,客觀、充分地反映了漢語世界中的語義基元的能產(chǎn)性分布狀況。當(dāng)然,具體、微觀一些,也可以考察這些“語素概念”中的特定語素的能產(chǎn)性和搭配特征。這是以往基于字符、語素類、構(gòu)詞規(guī)則統(tǒng)計(jì)或語義構(gòu)詞個(gè)例剖析等不能得到的語言學(xué)結(jié)論,也顯示了對(duì)漢語構(gòu)詞進(jìn)行全局性語義挖掘與可視化分析的比較優(yōu)勢(shì)。

圖1 基于“語素概念”的構(gòu)詞能產(chǎn)性示例

未來,語義構(gòu)詞模式的分析可以加深對(duì)詞的結(jié)構(gòu)和意義的理解,并用于未登錄詞識(shí)別和意義判定。在機(jī)器學(xué)習(xí)領(lǐng)域,這也是一項(xiàng)極其重要的特征和任務(wù),基于語義基元的構(gòu)詞能產(chǎn)性數(shù)據(jù)給出了語義構(gòu)詞的轉(zhuǎn)移概率,能為相關(guān)的算法開發(fā)提供支持。

4 結(jié)語

綜上所述,我們提出了一種探尋漢語語義基元和分析詞義的新的視角和方法,并表現(xiàn)出明顯的優(yōu)勢(shì):一、語素及其意義作為抽象概念難以表達(dá)、計(jì)算,“語素概念”架起了漢語的語素及其意義和構(gòu)詞分析的天然聯(lián)系,契合了漢語的意合特征,這也是對(duì)漢語世界中的語義基元的系統(tǒng)描述;二、建立在這些基礎(chǔ)上的漢語構(gòu)詞分析,在全局性語義分析、數(shù)據(jù)挖掘等方面也有新的進(jìn)展;三、從語言知識(shí)工程的角度看,面向《現(xiàn)漢》中的全部語素和二字詞,在“語素概念”提取等環(huán)節(jié)采取人機(jī)結(jié)合、自底向上的策略,盡量排除主觀因素的干擾,這些做法也保障了研發(fā)數(shù)據(jù)的覆蓋度和完備性,提升了語言資源建設(shè)的質(zhì)量。

這些創(chuàng)新的思路、做法以及獲得的數(shù)據(jù)成果,在人文領(lǐng)域和計(jì)算應(yīng)用等方面都有潛在的應(yīng)用價(jià)值。前者如詞典編纂與查詢?yōu)g覽、漢語教學(xué)、語言本體研究等,對(duì)于后者,我們也有初步驗(yàn)證,在漢語未登錄詞的詞義知識(shí)表示與語義預(yù)測(cè)[25]、漢語詞語語義相似度計(jì)算[26]等方面進(jìn)行了探索和嘗試。

在此前階段,漢語的語義構(gòu)詞分析主要針對(duì)詞的本義,但部分合成詞的詞義存在轉(zhuǎn)義、隱喻等現(xiàn)象,如何有效表達(dá)和處理這類現(xiàn)象,將是后續(xù)工作的一項(xiàng)重點(diǎn)。此外,“語素概念”及其體系的考核、優(yōu)化以及多字詞的詞義知識(shí)表示的拓展也在扎實(shí)推進(jìn)中。在此基礎(chǔ)上,我們希望推出包含全集數(shù)據(jù)和API接口的北京大學(xué)《漢語概念詞典》(ChineseObject-OrientedLexicon,COOL)。

[1]趙元任.中國(guó)話的文法[M].丁邦新譯.香港:香港中文大學(xué)出版社,1980.

[2]陸志韋.漢語的構(gòu)詞法(修訂本)[M].北京:科學(xué)出版社,1964.

[3]朱德熙.語法講義[M].北京:商務(wù)印書館,1982.

[4]王洪君.漢語語法的基本單位與研究策略[J].語言教學(xué)與研究,2000(2):10-18.

[5]董秀芳.詞匯化:漢語雙音詞的衍生與發(fā)展(修訂本)[M].北京:商務(wù)印書館,2011.

[6]徐通鏘.核心字和漢語的語義構(gòu)辭法研究[J].語文研究,1997(3):2-16.

[7]符淮青.詞義和構(gòu)成詞的語素義的關(guān)系[J].辭書研究,1981,01:98-110.

[8]周薦.論詞的構(gòu)成、結(jié)構(gòu)和地位[J].中國(guó)語文,2003,02:148-155,192.

[9]苑春法,黃昌寧.基于語素?cái)?shù)據(jù)庫的漢語語素及構(gòu)詞研究[J].世界漢語教學(xué),1998,02:8-13.

[10]亢世勇,李毅,孫道功,等.漢語系統(tǒng)語料庫的建設(shè)與詞典編纂[C].2004年辭書與數(shù)字化研討論文集.上海辭書學(xué)會(huì),2004.

[11]周亞民.漢字知識(shí)本體——以字為本的知識(shí)結(jié)構(gòu)與其應(yīng)用示例[D].臺(tái)灣:臺(tái)灣大學(xué)博士學(xué)位論文.

[12]董振東,董強(qiáng),郝長(zhǎng)伶.知網(wǎng)的理論發(fā)現(xiàn)[J].中文信息學(xué)報(bào),2007,21(4):3-9.

[13]Pustejovsky J.The generative lexicon[M].Mass:MIT Press,1995.

[14]Pesina S,Solonchak T.Semantic primitives and conceptual focus[J].Procedia-Social and Behavioral Sciences,2015,192:339-345.

[15]Sapir E,Swadesh M,Morris A V.The expression of the ending-point relation in English,French and German[J].Language,1932,8(1):11-125.

[16]Sapir E.Grading:A study in semantics[J].Philosophy of Science,1944,11:93-116.

[17]Wierzbicka A.Semantic primitives[M].Frankfurt/M.:Athen?umVerlag,1972.

[18]呂叔湘.《現(xiàn)代漢語詞典》編寫細(xì)則(修訂稿)[M].《現(xiàn)代漢語詞典》五十年.北京:商務(wù)印書館,2004.

[19]劉叔新.漢語描寫詞匯學(xué)[M].北京:商務(wù)印書館,1990.

[20]傅愛平.漢語信息處理中單字的構(gòu)詞方式與合成詞的識(shí)別與理解[J].語言文字應(yīng)用,2003,04:25-33.

[21]楊梅.現(xiàn)代漢語合成詞構(gòu)詞研究[D].南京:南京師范大學(xué)博士學(xué)位論文,2006.

[22]Yoshua Bengio,Réjean Ducharme,Pascal Vincent,Christian Jauvin.A neural probabilistic language model[J].Journal of Machine Learning Research.2003,03:1137.

[23]Plag I.Word-formation in English[M].Cambridge,UK:Cambridge University Press,2003.

[24]尹斌庸.漢語語素的定量研究[J].中國(guó)語文,1984,(5):340.

[25]田元賀,劉揚(yáng).漢語未登錄詞的詞義知識(shí)表示及語義預(yù)測(cè)[J].中文信息學(xué)報(bào),2016,30(6):26-34.

[26]康司辰,劉揚(yáng).基于語義構(gòu)詞的漢語詞語語義相似度計(jì)算[J].中文信息學(xué)報(bào),2017,31(1):94-101.

劉揚(yáng)(1971—),博士,副教授,主要研究領(lǐng)域?yàn)檎Z言知識(shí)工程、中文信息處理。E-mail:liuyang@pku.edu.cn

林子(1997—),主要研究領(lǐng)域?yàn)閼?yīng)用語言學(xué)、語言知識(shí)工程、中文信息處理。Email:zi.lin@pku.edu.cn

康司辰(1993—),碩士研究生,主要研究領(lǐng)域?yàn)檎Z言知識(shí)工程、中文信息處理。E-mail:1008_frank@sina.com

猜你喜歡
基元構(gòu)詞語素
關(guān)注基元反應(yīng)的考查
從構(gòu)詞詞源看英漢時(shí)空性差異
《最低入門等級(jí)音節(jié)、漢字、詞匯表》語素和語素義分析
多義語素識(shí)別及教學(xué)探討
——針對(duì)對(duì)外漢語語素教學(xué)構(gòu)想
語素的判定、分類及語法單位關(guān)系研究述評(píng)
因果復(fù)合詞
人體細(xì)胞內(nèi)存在全新DNA結(jié)構(gòu)
認(rèn)知視野下“好”、“壞”構(gòu)詞的對(duì)稱性研究
“分”的音變構(gòu)詞及其句法語義特征
Numerical Modeling and Analysis of Gas Entrainment for the Ventilated Cavity in Vertical Pipe*
板桥市| 宝鸡市| 安新县| 寻甸| 商水县| 凉山| 肥城市| 禄丰县| 阿拉善右旗| 玉田县| 明光市| 漳平市| 临桂县| 青铜峡市| 汽车| 庆阳市| 南开区| 河东区| 二手房| 阜新| 巫溪县| 偃师市| 牙克石市| 山丹县| 奉新县| 育儿| 治县。| 唐海县| 桃源县| 长春市| 蓬溪县| 新乐市| 晋江市| 凭祥市| 盐源县| 泾源县| 阿合奇县| 盈江县| 中江县| 泗水县| 绥棱县|