梁少麗 宋繼華
【摘要】在對外漢語教材的編著過程中,用詞頻度和難度直接影響教材編著的質(zhì)量。根據(jù)《漢語水平詞匯與漢字等級大綱》(以下簡稱《大綱》)8000多等級用詞目、詞性、難度等級三個屬性,設計并實現(xiàn)對外漢語教材編著系統(tǒng)難度等級詞頻統(tǒng)計模塊,并在20萬教材語料基礎上,進行實驗。實驗證明,在速度上取得了較為良好的效果。
【關鍵詞】對外漢語教材編著系統(tǒng);詞頻檢索統(tǒng)計;漢語詞匯等級;鍵樹
【中圖分類號】G40-057 【文獻標識碼】A 【論文編號】1009—8097(2009)07—0086—04
一 引言
教材編寫是對外漢語教學資源建設的重要環(huán)節(jié),如何提升教材編寫的速度和質(zhì)量,使人們從教材編寫過程中那些諸如查找生詞、控制詞匯、加注拼音等費時費力而且容易出錯的繁瑣工作中擺脫出來,現(xiàn)代技術手段的有機融入是非常必要的。正如崔永華教授所說的那樣:“只有語言學、語言教學和現(xiàn)代技術的完美結合,才能讓編寫教材變得這么方便、快捷、準確、得心應手?!薄?】對外漢語教材編著系統(tǒng)應運而生,陳鋒在其碩士論文《對外漢語教材編寫輔助系統(tǒng)的設計與實現(xiàn)》[2]中提到編寫教材的流程圖如圖1所示。隨著計算機、網(wǎng)絡、語料庫等技術的飛速發(fā)展,現(xiàn)代教育技術在對外漢語教學中的應用范圍不斷拓展,這為對外漢語教材編著系統(tǒng)的技術實現(xiàn)提供了可靠的保障。
如何控制教材編寫難度等級以適應不同水平教材使用者的需要,同時避免漢語教學內(nèi)容的盲目性和隨意性,一直是教材編寫者面對的重要問題。編寫者控制教材難度,主要是通過量化語言點,即對詞匯、語法、功能、文化進行分級,檢查教材語料分級語言點覆蓋以及分布情況,并反復修改教材內(nèi)容,來達到控制教材水平的目的。在實際操作中,由于詞匯的可控制性最強,所以,水平等級教材主要是在詞匯上控制難度[1]。
基于以上論述,本文將嘗試著設計并實現(xiàn)對外漢語教材編著系統(tǒng)中的難度等級詞頻統(tǒng)計模塊。以《大綱》[3] 8000多等級詞匯為難度等級依據(jù),統(tǒng)計模塊將分別統(tǒng)計出漢語教材語料詞匯中甲、乙、丙、丁、超綱詞頻率,以及這些詞在教材各處的分布情況,以確定教材的用詞難度,教材編寫者可依據(jù)該模塊得出的統(tǒng)計結果對教材用詞進行相應的調(diào)整以控制教材的難度水平。
二 難度等級詞頻統(tǒng)計模塊設計與實現(xiàn)
目前,出現(xiàn)了一些輔助對外漢語教材編著工具,主要有儲誠志博士設計的《中文助教》[4]和廈門大學盧偉等人開發(fā)的“基于WEB的對外漢語教材編著系統(tǒng)”。《中文助教》通過8000多萬字的現(xiàn)代漢語平衡語料庫處理分析得出常用度等級生詞,提供了使用頻度分析[1];盧偉等人開發(fā)的對外漢語編著系統(tǒng)中,利用《大綱》對教材語料進行等級詞語檢索統(tǒng)計以實現(xiàn)教材的定量分析與控制[5]。這兩類工具的教材難度定量分析任務,主要還是通過詞匯難度劃分來實現(xiàn)的,因此,本文將借鑒此思路,使用《大綱》作為教材難度等級詞頻分析的重要依據(jù)。
《大綱》(1992年)由國家對外漢語教學領導小組辦公室修訂完成,它不僅為對外漢語教學詞匯量的界定、等級的劃分、詞性的確定等方面提供了較為科學的依據(jù)。同時它也是現(xiàn)階段國內(nèi)對外漢語教學設計、教材編寫、課堂教學的主要依據(jù),有著嚴謹?shù)慕Y構和權威性[6]。本文難度等級詞頻統(tǒng)計模塊設計將直接參考《大綱》中的詞匯的詞性、難度等級等信息。
1設計思路
本文的設計思路如下圖2所示:
漢語是以字為單位,詞與詞之間沒有明顯的邊界信息。當句子長度和句子結構復雜性增加,句中出現(xiàn)的詞數(shù)量隨之增多,除了檢索過程中詞匯歧義問題將越發(fā)突出外,詞檢索次數(shù)也越發(fā)頻繁。為了解決這些問題,本文首先使用分詞模塊對教材語料做分詞處理,讓處理后的語料得到精確的邊界、詞性信息;然后,在檢索統(tǒng)計模塊中,根據(jù)分詞后語料攜帶的各種信息,參考《大綱》中給出的詞匯、詞匯難度等級、詞性三者對應關系,做歸類統(tǒng)計操作,獲得詞頻、詞性詞頻、詞等級難度詞頻、超綱詞數(shù)目以及等級詞匯和超綱詞匯在不同語篇中分布等各類信息。其中,詞匯、詞匯難度等級、詞性對應關系如圖3所示:
2 檢索統(tǒng)計模塊實現(xiàn)
文本檢索依賴于關鍵詞模式匹配。多關鍵詞模式匹配是從目標文本中一次查找匹配多個關鍵詞的過程。文獻[7]中借用鍵樹結構[8](圖4所示)的雙鏈樹形式保存關鍵字,使用了多關鍵詞模式匹配進行檢索。它的具體做法是:將所有待搜索關鍵詞保存在鍵樹結構中,用葉子結點標志關鍵詞結束,并且在葉子結點中也保存了關鍵詞的頻率信息;檢索統(tǒng)計時,使用廣度優(yōu)先搜索來匹配目標文本串和樹中多個關鍵詞,如果目標文本串在鍵樹中存在一條從根到葉子節(jié)點的路徑,統(tǒng)計頻率加一,否則,放棄對當前的操作,繼續(xù)處理下一個詞。
本文在文獻[7]的基礎上,以《大綱》詞匯作為關鍵詞集,在深入分析《大綱》中8000詞的基本特征規(guī)律、存儲特征及詞首字在區(qū)位碼中的分布情況基礎上,設計哈希表與鍵樹相結合的存儲結構,實現(xiàn)對外漢語教學編著系統(tǒng)中的詞匯等級難度檢索統(tǒng)計功能。
(1)基于哈希表與鍵樹相結合的存儲結構
受關鍵詞首字取值以及關鍵詞詞長影響,《大綱》關鍵詞存入鍵樹后,形成了一棵根節(jié)點孩子兄弟分支深度達到2000多層,而其它分支深度不超過5層的鍵樹結構。如果能將關鍵詞的首字以某種方式進行分類,重新組織鍵樹結構,將能有效的縮短最長分支的長度。由此,我們考慮到了漢字區(qū)位碼,利用《大綱》關鍵詞首字在區(qū)碼的均勻分布情況,解決以上問題。
漢字在區(qū)位碼中占72區(qū),其中16區(qū)到55區(qū)為一級漢字;56區(qū)到87區(qū)為二級漢字。《大綱》中關鍵詞首詞有2057個,一級漢字有2495個,二級漢字只有8個,絕大部分首字分布在一級漢字中。對這2495個首字在一級漢字區(qū)的深入分析,我們發(fā)現(xiàn)這些漢字幾乎是等概率分布于各區(qū)中,數(shù)據(jù)如圖5所示。
本文采用哈希表和鍵樹相結合的存儲結構,利用關鍵詞首字區(qū)碼分割《大綱》關鍵詞鍵樹,將其轉(zhuǎn)化為多顆子鍵樹存儲在哈希表中,使每個子鍵樹和哈希表中唯一的存儲位置相對應。改造后的結構如圖6所示:
(2)構建存儲結構步驟:
①采用漢字GB-2312碼與區(qū)號的對應關系,作為哈希映射函數(shù)。插入前,找出關鍵詞首字,使用首字的GB-2312碼計算出區(qū)碼,獲得哈希表中當前關鍵詞待插入位置。漢字區(qū)位碼與GB-2312碼對應關系為:GB-2312碼每個字符都用兩個字節(jié)表示,第一字節(jié)為“高字節(jié)”,由字符的區(qū)號值加上32而形成;第二字節(jié)為“低字節(jié)”,由字符的位號值加上32。
②確定子鍵樹在哈希表中位置后,查找子鍵樹中是否已存在該關鍵字,如果不存在,則將關鍵字插入子鍵樹中;如果存在,直接轉(zhuǎn)入步驟③
③檢查關鍵字葉子的結點中,相關的詞性、難度等級信息是否建立。如果不存在相關信息,就建立詞性、難度等級間的對應關系;否則,繼續(xù)插入下一關鍵詞。例如:“把”字在難等級詞表中出現(xiàn)了兩次,一次為甲級,對應介詞、量詞;第二次為丙級,對應動詞。檢查“把”字時,也需要兩次確認詞性、難度等級間的對應關系。
3 實驗
我們的檢索統(tǒng)計實驗語料來自于《新實用漢語課本》、《菲律賓華語課本》、《今日漢語》、《當代中文》、《基礎商務漢語》等5部漢語教材,語料多達20萬字。以《現(xiàn)代漢語語法信息詞典詳解》[9]基本詞類中定義的18個詞性,附加詞類中定義的5個詞性(前接成分、后接成分、成語、習用語、簡稱略語)為標準,使用中科院ICTCLAS分詞系統(tǒng)(研究版)進行分詞,對單獨使用鍵樹結構和哈希表與鍵樹相結合存儲結構,在語料量和關鍵字數(shù)量上,進行檢索統(tǒng)計對比。硬件環(huán)境為Inter Pentium(R) D CPU 3.0 Hz,內(nèi)存2.0 G;軟件環(huán)境為Window XP,MyEclipse 6.0,JRE1.6。實驗結果如表1所示。
上表對比分析,語料量大小直接影響檢索速度;而在語料量相同的情況下,使用改進后的哈希表與鍵樹相結合存儲結構分別存儲《大綱》4000詞和8000詞作為關鍵詞進行檢索,兩者耗時相差不大。
此外,我們選用暢銷海內(nèi)外的《實用漢語課本》第一冊到第五冊教材課文,進行詞頻、詞性詞頻、詞等級難度詞頻、超綱詞數(shù)目等統(tǒng)計操作。經(jīng)過重疊詞、地名、人名、時間詞、數(shù)量詞過濾后,得到如表2所示數(shù)據(jù)。
通過對《新實用漢語課本》1-5冊的定量分析,總體來看,隨著教材水平層次的加深,甲級占比例逐漸減少,乙、丙、丁級則逐漸上升。一般情況下,對外漢語教學大綱根據(jù)教學目標將教材分為初級、中級、高級,按照對外漢語教學領域經(jīng)驗,初級教材超綱詞包括《大綱》丙、丁級詞,中級教材超綱詞包括《大綱》丁級詞。文獻[10]給出對外漢語教材編寫和選用的一些參考值,如下表3所示。我們借用這種標準來衡量《新實用漢語課本》?!缎聦嵱脻h語課本》1-2冊為基礎水平,第一冊詞匯總體上符合難度要求、第二冊的詞匯超綱量超出標準9個百分點;第三冊、四冊作為初級到中級銜接,我們將其按中級標準做處理,第三冊、第四冊、第五冊的超綱詞匯比例分別為:25.7%、23.4%、31%。因此,《新實用漢語課本》3-5冊存在超綱情況,并且是略高于標準中的超綱范圍。
最后,我們選定了一些《大綱》詞匯和超綱詞匯,測試了這些詞匯在《新實用漢語課本》系列教材課文語料中的分布情況,來檢驗教材循序漸進性(系統(tǒng)性)。如《大綱》甲級詞匯“比較”,以動詞詞性在第4冊50課和第5冊55課中各出現(xiàn)1次,以副詞詞性在8篇課文中出現(xiàn),其中第4冊48課6次,第3冊36課和第4冊45課各3次;再如超綱詞匯“聊天”共出現(xiàn)了4次,第3冊27課2次,32課1次,第4冊39課1次。這些也體現(xiàn)了該教材在詞匯方面采取了螺旋式的安排方式,有利于學習者的掌握。
三 結論
本文基于《大綱》資源,利用現(xiàn)代教育技術對教材中詞匯進行系統(tǒng)的計量分析,通過構建了輔助對外漢語教材詞頻等級統(tǒng)計模塊,為教材中語料詞匯難度定量分析提供了基礎。今后,隨著外漢語詞匯教學中對詞匯常用義項日益重視,要求我們下一步工作主要集中在一個方面,即參考其它詞匯教學大綱或詞典,用已有的模塊統(tǒng)計大規(guī)模教材語料,確定詞匯的常用義項,人工對詞義項劃分難度等級,將詞義級的詞匯頻度統(tǒng)計引入到我們的系統(tǒng)中。
參考文獻
[1]王飆.編教軟件《中文助教》評述[J] .國際漢語教學動態(tài)與研究,2006,2:98-102.
[2]陳峰,對外漢語教材編寫輔助系統(tǒng)的設計與實現(xiàn)[D].南京:南京師范大學,2008.
[3]國家漢語水平考試委員會辦公室考試中心.漢語水平詞匯與漢字等級大綱[S] .北京:經(jīng)濟科學出版社,2001.
[4]《中文助教》網(wǎng)站[EB/OL].
[5]盧偉.基于WEB的對外漢語教材編著系統(tǒng)理論依據(jù)與設計開發(fā)[J].外語電化教學,2006,6:30-35.
[6]李泉.對外漢語課程、大綱與教學模式研究[M].北京:商務出版社,2006:113-114.
[7]馬志柔,葉屺.一種有效的多關鍵詞詞頻統(tǒng)計方法[J] .計算機工程,2006,32(10):190-193 .
[8]嚴蔚敏,吳傳民.數(shù)據(jù)結構(C語言版)[M].北京:清華大學出版社,1996:247-248.
[9]俞士汶.現(xiàn)代漢語語法信息詞典詳解[M](第二版).北京:清華大學出版社,2003:41-42.
[10]國家對外漢語領導小組辦公室,高等學校外國留學生漢語教學大綱(長期進修) (第三版) [M],北京:北京語言大學出版社,2007:18.