国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于詞頻分布的齊夫定律朝鮮語適用性研究

2017-03-07 03:36
小說月刊 2017年23期
關(guān)鍵詞:朝鮮語詞頻對數(shù)

王 萌

(延邊大學(xué) 吉林 延吉 133002)

1 詞頻的定義與發(fā)展

(1)表達意義的基本原子單位是詞。例如house一詞使人腦海里浮現(xiàn)一幅景象:一幢有房頂?shù)拈L方形建筑。當(dāng)house一詞出現(xiàn)在一篇文本中時,讀者便會依據(jù)其上下文去聯(lián)想“房子”的意象。所謂詞頻是一種用于情報檢索與文本挖掘的常用加權(quán)技術(shù),用以評估一個詞對于一個文件或者一個語料庫中的一個領(lǐng)域文件集的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。

(2)詞語頻次的觀念古已有之。1898年,德國語言學(xué)家凱定在5000名速記人員和800名合作者的幫助下,手工統(tǒng)計了以報刊為主的14個語料來源的資料,所統(tǒng)計的總詞匯量達10,910,777條,而其中頻次在4以上的詞共有79716個。這些統(tǒng)計結(jié)果被編纂成了世界上第一部頻率詞典“Haufigkeits Worter buch der Deutschen Sprache”(《德語頻率詞典》),這也被普遍認(rèn)為是第一次現(xiàn)代意義上的以統(tǒng)計調(diào)查方法完成的詞匯研究工作。美國教育學(xué)家與心理學(xué)家桑代克先后于1921年和1944年編寫了《教師二萬詞詞書》和《教師三萬詞詞書》,對英語的詞匯作了大量的頻率統(tǒng)計工作①。我國在1930年王文新對包括三種版本的國語教科書等在內(nèi)的共910417字的語料進行了統(tǒng)計和分析,首先把詞語分為單詞單音詞和復(fù)詞復(fù)音詞兩種,并分別統(tǒng)計了這兩種詞語所出現(xiàn)的頻次及其各自所占的比率。統(tǒng)計結(jié)果,復(fù)詞出現(xiàn)的詞次為214,558詞次,復(fù)詞總詞數(shù)為6411個,復(fù)詞中頻次最高的詞出現(xiàn)的頻次為3513次,最低的為1次②。

2 齊夫定律概述

(1)美國哈佛大學(xué)教授喬治·金斯利·齊夫通過研究詞語頻次與詞語等級之間的關(guān)系,揭示了詞頻現(xiàn)象的內(nèi)在形式化規(guī)律。在1935年齊夫在艾思杜、貢東、朱斯等學(xué)者研究的基礎(chǔ)上通過對文獻詞頻規(guī)律的研究,認(rèn)為:若把一篇較長的文章中每個詞出現(xiàn)的頻次從高到低進行遞減排列,即頻率最高的詞序號為1,頻率次之的詞序號為2,以此類推。每個單詞的序號r與其使用頻次f的乘積接近為一常量c。即r×f=c如果用橫坐標(biāo)表示詞序號r,縱坐標(biāo)表示相應(yīng)的頻次f,就可以得到一條雙曲線,即齊夫分布曲線;如果公式r×f=c寫成logf=logc-logr,就得到了使用頻次的對數(shù)和序號之間的線性關(guān)系,即為齊夫分布對數(shù)曲線,圖像接近與一條直線。

(2)英國語言學(xué)家哈特曼和斯托克對齊夫定律的解釋則是“齊夫定律是詞的分布和頻率的總描述f×r=c,其中f為頻率,r為序號。之后齊夫得出了c的值為0.1,因而認(rèn)為是一個常數(shù)。但后來經(jīng)過驗證發(fā)現(xiàn)c值有波動的范圍,在0到0.1之間。

3 齊夫定律的朝鮮語適用性研究

本文的統(tǒng)計樣本語料為十九大報告韓文版中的最前面兩個段落。統(tǒng)計手段為人工分詞,輔以計算機計數(shù)。分詞時所依據(jù)的原則是:根據(jù)朝鮮語自身的語言特點,以齊夫定律理論為基礎(chǔ),以保留詞語語義的完整性為前提。此段語料共有2084個單詞,其中漢字詞有1382個,固有詞有702個。

齊夫定律詞頻統(tǒng)計表

通過上述的詞頻統(tǒng)計表和齊夫?qū)?shù)分布曲線可以看出,除了排名5以下的低頻詞外,頻次f與詞級r的乘積均比較平穩(wěn),基本圍繞著一個常數(shù)上下波動,齊夫?qū)?shù)分布曲線也大致呈現(xiàn)出直線的趨勢,可見統(tǒng)計結(jié)果中的詞頻分布呈現(xiàn)出較為明顯的齊夫分布規(guī)律。結(jié)果表明如果除去少數(shù)出現(xiàn)頻率少的詞語,朝鮮語文本完全地符合齊夫定律,齊夫定律同樣適用于朝鮮語。

注釋:

① 馮志偉.齊普夫定律的來龍去脈[J].情報科學(xué),1983

② 王文新.小學(xué)分級詞匯研究[J].教育研究.國立中山大學(xué)教育學(xué)研究所,1922,31.

[1] 許文霞.齊普夫定律的實踐和理論基礎(chǔ)[J].圖書館建設(shè),1984,(1).

[2] 鄧洛華.詞頻分析[J].武漢大學(xué)學(xué)報(人文科學(xué)版),1987,(1).

[3] 沈關(guān)龍.齊普夫定律與專題文獻標(biāo)題詞頻的研究與應(yīng)用[J].情報理論與實踐,1988,(2).

[4] 十九大報告全文.延邊日報[N].2017

猜你喜歡
朝鮮語詞頻對數(shù)
含有對數(shù)非線性項Kirchhoff方程多解的存在性
基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
指數(shù)與對數(shù)
朝鮮語專業(yè)實踐教學(xué)模式改革初探
指數(shù)與對數(shù)
關(guān)于朝鮮語“-?-”句式和漢語“是”字句的對比
如何辦好散居地區(qū)朝鮮語廣播
詞頻,一部隱秘的歷史
云存儲中支持詞頻和用戶喜好的密文模糊檢索
以多元人才觀為引導(dǎo),深化朝鮮語專業(yè)人才培養(yǎng)