端智項杰 安見才讓
藏文教材詞匯計量統(tǒng)計及分析
端智項杰 安見才讓
本文以小學(xué)至高中藏語文教材為語料,利用計算機對教材中藏語詞的頻次,數(shù)量等信息做出統(tǒng)計,進而摸索出目前藏語文教材編輯中藏語詞的分布規(guī)律,目的在給藏語詞的安排、重要程度等是否科學(xué)合理,即是否符合各個年齡段藏族學(xué)生對知識的接受狀況,提供重要的指導(dǎo)作用。
藏文教材;詞統(tǒng)計;分布
藏文教材詞匯計量統(tǒng)計中,藏文分詞采用軟件自動切分和人工校對相結(jié)合的方法,盡量與藏語語感中的“詞”保持一致,即能獨立運用、使用穩(wěn)定且具有固定語義的最小單位。
小學(xué)藏語文教材詞匯計量統(tǒng)計課文用詞和課文生詞兩部分;初中和高中階段,課后不再列舉生詞,詞匯計量統(tǒng)計課文用詞及“讀和寫”習題詞匯兩部分。
課文用詞指課文正文中出現(xiàn)的所有詞語。課文用詞是構(gòu)成藏語文教材最基礎(chǔ)的材料之一,學(xué)生可以通過課文學(xué)習掌握大量的詞匯。藏文有四種形態(tài)的動詞:現(xiàn)在時、未來時、過去時、命令式,統(tǒng)計詞種數(shù)時按形態(tài)不同分別統(tǒng)計。課文用詞統(tǒng)計包括:各體裁詞種數(shù)、各冊詞種數(shù)、詞次、詞語頻次、出現(xiàn)課文數(shù)的統(tǒng)計及高頻詞的統(tǒng)計等。經(jīng)過統(tǒng)計,藏語文小學(xué)教材1—12冊共274篇課文,詞種數(shù)9224條,97366詞次,每個詞種平均出現(xiàn)10.56頻次;藏語文初中教材共6冊126篇課文,共有詞種數(shù)12920條,191062詞次,每個詞種平均出現(xiàn)14.79次;高中教材共6冊124篇課文,共有詞種數(shù)14593條,205072詞次,每個詞種平均出現(xiàn)14.05次。藏語文小學(xué)、初、高中共統(tǒng)計詞條18309個,493500詞次。
藏語文小學(xué)教材1—12冊詞種數(shù)9224條,97366詞次,每個詞種平均出現(xiàn)10.56頻次;藏語文初中教材共有詞種數(shù)12920條,191062詞次,每個詞種平均出現(xiàn)14.79次。高中教材共有詞種數(shù)14593條,205072詞次,每個詞種平均出現(xiàn)14.05次。
按照詞頻從高到低的順序分別對詞種進行排序,小學(xué)階段分為前500詞、501—2500詞、2501—9224三個頻段;初中、高中階段分前1000、1001—5000、>5000這樣三個頻段統(tǒng)計分析,詞頻分布見表4-1。
表3-1各頻段詞種分布表
表3-1顯示小學(xué)階段出現(xiàn)頻率最高的前500詞占課文用詞的69.24%,平均詞次為134.83,而其余的8724個詞種僅占全部詞頻的30.76%,平均詞次為3.43。
初中階段出現(xiàn)頻率最高的前1000詞占課文用詞的70.13%,平均詞次為133.995,而其余的11920個詞種僅占全部詞次的29.87%,平均詞次為4.79。
高中階段出現(xiàn)頻率最高的前1000詞占課文用詞的69.13%,平均詞次為141.761,其余的13593個詞種占全部詞次的30.87%,平均詞次為4.66。
表4—1顯示,小學(xué)藏語文除第11冊以外,其余各冊詞總數(shù)呈線性遞增;除第1冊字母學(xué)習以外平均詞次增加相對平穩(wěn),平均詞次為4.19。
除高中第六冊,初中和高中階段其他各冊平均每課詞種數(shù)、詞次及平均詞次在相對穩(wěn)定的范圍內(nèi)呈波浪式變化,屬于典型的分散式教學(xué)。高中第六冊課文篇數(shù)大幅度減少,在平均詞頻即每個詞種重復(fù)出現(xiàn)平均次數(shù)與其他各冊基本一致的基礎(chǔ)上,每課平均詞種及詞次卻達到最大,說明第6冊課文跟其他各冊相比,用詞更豐富、詞量更大、篇幅更長。
表4—1各冊詞頻總數(shù)分布統(tǒng)計
[1]程曾厚:《計量詞匯學(xué)及其他》,江蘇教育出版社1987版.
[2]周毛草:《藏語文政策與實施狀況探討》,《中國藏學(xué)》2004年第1期.
[3]宗成慶:《統(tǒng)計自然語言處理》,清華大學(xué)出版社2008版.
(作者單位:青海民族大學(xué)藏文信息處理與軟件研究所)