国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

齊普夫定律在中文字頻測定的推廣①

2014-06-14 03:37:44
關(guān)鍵詞:常用字用詞詞頻

吳 冰

(黑龍江省圖書館,黑龍江哈爾濱 154000)

1 齊普夫定律的定義與推論

齊普夫定律(Zipf’s law)的表述為:當文章作者給出的文獻語料庫中的詞匯足夠多時,單詞出現(xiàn)頻率呈現(xiàn)出一定的分布規(guī)律.研究發(fā)現(xiàn):不同的作者的用詞取向和用詞頻度是不同的,這種規(guī)律被稱為“語言指紋”.

所謂用詞頻度(詞頻)是指每一個詞在一定長?之文件中出現(xiàn)的頻率占總詞數(shù)的比,如對一個由K個詞組成的總長度為L的語料庫中,詞的出現(xiàn)頻率由高到低排序為r的詞頻為Pr.而依詞頻從高到低將詞排序的序號則是計量的另一個最基本的數(shù)量指標.早在1916年,法國速記學家艾思杜(J.Estoup)發(fā)現(xiàn)了在較長文章中,詞的出現(xiàn)頻率分布的定量化形式,即:

(1)式中r詞依詞頻從高到低排列的序號,Pr是第r個詞相應的詞頻,c是一個常數(shù).

1932年,哈佛大學的語言學家齊普夫(G K Zipf)在研究英文單詞的出現(xiàn)頻率時,發(fā)現(xiàn)如果把單詞頻率從高到低的次序排列,每個單詞出現(xiàn)頻率和它的符號訪問排名存在簡單反比關(guān)系:

(2)式對應圖像為截距為lgc,斜率為-α(α=tanθ)的直線.

上式中,r表示詞在詞表中的序號,Pr表示序號為r的詞的頻率,c和γ都是常數(shù),齊普夫由實驗測出,α ≈1,c≈0.1.

對于一個總詞數(shù)匯容量為L,共有詞K個的語料庫,r=K時:

顯然:Pk≥1/L

此后,朱斯(M.Joos)、曼德爾布洛特(B.Mandelbrot)以及齊普夫本人,先后對上述定律進行過研究,因而又稱齊普夫定律為齊普夫—朱斯—曼德爾布洛特定律(Zipf-Joos-Mandelbrot law).新定律表述為:如果詞表包含詞足夠多(1×105詞以上),則其中前1000個最常用的詞占該語言的各種文章中全部出現(xiàn)的詞的80%.

用數(shù)學算式表現(xiàn)為:

因為:調(diào)和數(shù)列的和

上式:C≈0.57722,C為歐拉常數(shù)(歐拉初始)將(5)入(4)式得:

設前r1個詞的詞頻和為30%,由上式得:

即英文語料庫中前15個高頻詞的詞頻和即可達到30%.

以上式檢驗齊普夫?qū)rown語料庫前135個單詞的出現(xiàn)詞頻的和:

計算結(jié)果表明,齊普夫所選的語料庫長度小于朱斯等人的研究對象.

針對不同的作者的寫作用詞頻率的研究發(fā)現(xiàn),不同的作者對同一詞的用“力”是大小不同的,即同一詞在不同作者的文章中出現(xiàn)的頻率是不同的,而在同一作者的不同文章中出現(xiàn)的頻率是基本相同的,這個現(xiàn)象被稱為“語言指紋”.

造成不同的作者在寫作中所使用的詞匯及其頻率的不同的原因有很多,如受教育的程度,個人性格、從事研究的領域、年齡、性格、出生地的方言、宗教信仰、對文字的避諱等各種因素的不同或差異都可能造成作者在寫作中無意識的用詞頻率不的同,這種在語言表達上的特征即“語言指紋”.

2 齊普夫定律對漢語言文本字頻的測定

與拼音文字不同,漢語多是以單字作為詞素來組成一個或多個詞素的詞語的,目錄,收錄漢字最多的1994年出版的《中華字?!肥杖肓?7019個漢字,北京國安咨詢設備公司的漢字字庫,收入漢字91251個,而我國1988年公布的《現(xiàn)代漢語常用字表》選收的常用字為2500個、次常用字為1000個,合計3500字.

而根據(jù)國家出版局的抽樣統(tǒng)計,漢字中最常用字560個,常用字807個,次常用字1033個.三者合計2400個,占一般書刊用字的99%.國家標準GB2312-80《信息交換用漢字編碼字符集* 基本集》中一級字庫3755個為常用字,二級字庫3008個,為不常用字.一級字庫的3755個字,使用頻率合計達99%,而二級字庫的3008個字,使用頻率合計為0.3%,余下的80256個漢字的使用頻率之和為 0.7%.

國家出版局的統(tǒng)計結(jié)果顯示,最高頻的“的一是了我”5個漢字的字頻率之和為10%.次高頻的“不人在他有這個上們來到時”12個漢字的字頻之和為10%.再次高頻的“大地為子中你說生國年著就那和要她出也得里后自以會”25個漢字的字頻之和為10%.即僅42個漢字的字頻之和為30%,可見,漢字字頻的分布與拼音文字存在很大的差異,其圖像中的|α|值更小,即圖像中的直線下降更緩慢.

將上述結(jié)果用數(shù)學版式表達為:

下面以《紅樓夢》文本為語料庫對上式進行驗證:

統(tǒng)計《紅樓夢》120回本正文部分共872247個字符,除去標點符號,共731017漢字,累計使用4462個單字.

即:L=731017 >1×105,K=4462 >1×103,語料庫滿足研究要求.

考慮到時代不同對作者用詞的影響,本次選取“的一是了我不人在他有這個上們來到時大地為子中你說生國年著就那和要她出也得里后自以會”42個高頻詞進行比對,并將作者時代還沒有的“她”合并為“他”.增補《紅樓夢》中統(tǒng)計所得高頻字“玉兒女又才賈見”共48個漢字,統(tǒng)計其詞頻得出下表:

的一是了我不人在他有這個14890 12166 10452 21176 9202 15068 10544 3996 7682 6005 7841 5682上們來到時大地為子中你說

?

按字頻從高到低排序,前五個分別是:了(21176),不(15068),的(14890),一(12166),來(11511),列表如下:

1 2 3 4 5 Pr 0.029 0.022 0.020 0.017 0.015 r

選取前 17個高頻字:了(21176),……,道(11061),人(10544),是(10452),說(9686),我(9202),這(7841),他(7682),和(6138),生(6123),兒(6059),玉(6063),有(6005)

列表如下:

r 1 …… 6 7 8 ……17 Pr0.029 …… 0.015 0.014 …… 0.008

以上測算,驗證了齊普夫定律對中文文本的適用性的推測,并驗證了c和α的近似值,同時也通過字頻序號的變化證明了清代文本語言特征與當代的差異,進一步研究詞或詞組的頻度可以找出同一時代不同作者的語言指紋.

[1]馬費城,布拉德福特一齊普夫分布系的概率模型[J].情報科學,1982(2):22-33.

[2]Malcolm Coulthard.Author Identification,Idiolect and Linguistic Uniqueness[J].Applied Linguistics 25,4,2004:431-447.

[3]中國百科網(wǎng).常用漢字[EB/OL].http://www.chinabaike.com/article/baike/1056/2008/200811071597607.html.

猜你喜歡
常用字用詞詞頻
需注意的規(guī)范醫(yī)學用詞
強化詩詞用詞的時代性
中華詩詞(2022年2期)2022-12-31 05:57:58
基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
園林科技(2021年3期)2022-01-19 03:17:48
蒼涼又喧囂:《我與地壇》中的用詞
關(guān)于常用字覆蓋率統(tǒng)計算法的研究
寫話妙計之用詞準確
根字練習(十九)
詞頻,一部隱秘的歷史
云存儲中支持詞頻和用戶喜好的密文模糊檢索
以關(guān)鍵詞詞頻法透視《大學圖書館學報》學術(shù)研究特色
圖書館論壇(2014年8期)2014-03-11 18:47:59
云阳县| 迁西县| 论坛| 彰武县| 睢宁县| 兴海县| 连州市| 延寿县| 大同县| 来凤县| 武威市| 聊城市| 安徽省| 合山市| 宽城| 来凤县| 宁明县| 高雄市| 东城区| 沙河市| 盈江县| 稻城县| 澄城县| 榕江县| 电白县| 宿州市| 海安县| 中西区| 嵩明县| 内乡县| 西乌珠穆沁旗| 长春市| 常德市| 赤峰市| 德保县| 孟连| 浙江省| 保靖县| 揭阳市| 泸州市| 来凤县|