仇鑫奕
(上海外國語大學 國際文化交流學院,上海200083)
“中文助教TM”的語料難度測量問題和改進建議*
仇鑫奕
(上海外國語大學 國際文化交流學院,上海200083)
“中文助教TM”是一個專門針對對外漢語教材編寫需要和日常備課需要而開發(fā)設(shè)計的現(xiàn)代化工具軟件。本文就“中文助教TM”在語料難度測量方面存在的問題提出意見并就改進這一軟件提出建議。
中文助教TM;詞匯等級;語料難度
語料難度測量是對外漢語教材編寫和教學輔助語料篩選過程中的必要環(huán)節(jié)。語料難度過大,會使學生的興趣驟減。因此把握好語料的難度才能保證語料的有效性。另外,標明閱讀難度等級的語料也更有利于開展個性化教學和自主學習。
一般來說,文本難易度與以下四方面的因素有關(guān):語言的難度(詞匯語法的難度);概念的清晰度、抽象度、密度和常見度;圖文特征(文章的字符、行距、頁面格式、插圖、篇章組織);讀者理解語料所需知識圖式。其中,語言難度尤其是詞匯難度是文本難易度測量的主要指標。
表1 《漢語水平等級標準》中的閱讀等級數(shù)量界定
1.對外漢語語料詞匯難度測量尺度
(1)《漢語水平詞匯與漢字等級大綱》多年來一直是漢語水平考試的主要命題依據(jù),也是對外漢語教學總體設(shè)計、教材編寫、課堂教學和教學測試的重要依據(jù)?!禜SK考試大綱》規(guī)定:HSK基礎(chǔ)水平的學生大體上應當掌握甲級常用詞1022個和部分乙級常用詞,初等水平的學生大體上應當掌握甲、乙兩級常用詞3051個;中等水平的學生大體上應當掌握甲、乙、丙三級常用詞5253個;高等水平的學生大體上應當掌握甲、乙、丙、丁四級常用詞8822個。因此,可以之為依據(jù),標注語料的詞匯理解難度。
(2)《漢語水平等級標準》(1996)作為一種規(guī)范性的等級標準和水平大綱,過去一直是對外漢語教學總體設(shè)計、教材編寫、課堂教學、課程測試以及中國國家級漢語水平考試(HSK)命題的主要依據(jù)。其中關(guān)于閱讀理解的等級量化標準,對于把握文本語料的難度等級具有重要參考價值,如表1所示。
從中不難發(fā)現(xiàn),難度適中的閱讀文本,必須嚴格限制生詞的比例。如果有很多詞匯超出了學生所應掌握的詞匯等級的范圍,或者純粹屬于超綱詞,那么將意味著語料難度超標。
2.對外漢語語料詞匯難度測量程序
對外漢語教學語料的詞匯難度測量步驟具體包括:
(1)計算機(比如采用“中文助教TM”)統(tǒng)計文本部分的漢語水平詞匯(漢字)等級;
(2)根據(jù)統(tǒng)計結(jié)果,對超綱詞進行二次統(tǒng)計——統(tǒng)計構(gòu)詞語素的等級(漢字等級);
(3)根據(jù)詞的常用度、詞義的透明度、構(gòu)詞語素的等級(漢字的所屬等級),確定此超綱詞的理解難度等級。
“中文助教TM(Chinese TATM)”是儲誠志博士在美國針對對外漢語教師編寫教材和日常備課的實際需要開發(fā)設(shè)計的一個現(xiàn)代化工具軟件,由美國硅谷語言技術(shù)有限責任公司 (Silicon Valley Language Technologies,LLC)制作,北京語言大學出版社出版發(fā)行。利用“中文助教TM”不僅可以迅速完成原本費時費力而且容易出錯的做生詞表、注音、翻譯詞語、標注詞性等工作,還可以輕松實現(xiàn)對教材中字詞的分布控制、縱向連貫和橫向比較,因此這套軟件自發(fā)行以來獲得了海內(nèi)外對外漢語教學工作者的一致贊譽。
“中文助教TM”有一項功能是評估教材難度。實現(xiàn)這一功能的主要途徑是,用“中文助教TM”標注文本詞匯的HSK等級。然而筆者在將“中文助教TM”用于語料難度測評時,卻發(fā)現(xiàn)存在以下兩方面問題。
1.分詞錯誤導致詞匯等級標注失誤
“中文助教TM”的使用說明中專門有一節(jié)談到“分詞校對”,認為“校對分詞的方法很簡單”,用戶只要在認為該合起來的地方取消空格,該分的地方加空格分開就行了,并針對“該合但被分開了的詞”介紹了補充分詞底表的辦法。筆者在使用中發(fā)現(xiàn),這些“該合但被分開了的詞”主要是些專有名稱,如“馬天笑”、“馬小跳”。由于測算語料難度時,專有名詞是被排除在外的,因此,“該合但被分開了的詞”對文章閱讀難度影響不大。相反,倒是“該分但被合起來了的詞”對文章閱讀難度測量形成了很大干擾。單從統(tǒng)計結(jié)果來看,這是一些超綱詞語。然而,就在這些超綱詞語中實際上卻包含著大量非超綱詞,其中大多數(shù)為甲級詞和乙級詞。因此,將“中文助教TM”用于語料難度測評時,總是需要再花費較多時間查詞典逐一確認字符串的身份,人工分詞校對,在此基礎(chǔ)上再進行二次統(tǒng)計。
下文是筆者從《淘氣包馬小跳 貪玩老爸》之《幫兒子寫作業(yè)被罰寫一百遍》中隨機抽取的兩則語料。每一則長度都限制在200字以內(nèi)。
語料 1(147 字):
馬天笑先生從小玩到大,現(xiàn)在更好玩了。做了玩具廠的廠長,工廠里到處是玩具,各種各樣的玩具,隨時隨地,隨便他玩。
馬天笑先生白天在廠里玩,回到家里就想跟他兒子玩,但馬小跳不跟他玩,因為他沒時間玩。
馬小跳每天放學回家,沒時間踢足球,沒時間看動畫片,沒時間喂金魚,放下書包就做作業(yè)。做呀做呀,總也做不完。
用“中文助教TM”統(tǒng)計全部詞匯等級,出現(xiàn)了“每天”、“玩具廠”、“好玩”、“家里”、“回到”、“動畫片”、“各種各樣”、“隨時隨地”8個超綱詞語,如圖1所示。
但事實上真正需要二次統(tǒng)計的超綱詞只有 “廠”、“動畫片”、“各種各樣”、“隨時隨地”。其余的皆為一般詞組,其中所包含的詞匯之所以等級失注,完全是由于分詞錯誤造成的。這些“該分但被合起來了的詞”,增加了超綱詞語的數(shù)量,如不進行二次統(tǒng)計,就會使語料難度測評結(jié)果失實。例如:
每天 {每[代詞](甲) 天[名詞](甲)}
玩具廠 {玩具[名詞](丁) 廠[名詞](超綱)}
好玩 {好[動詞](乙) 玩[動詞](甲)}
家里 {家[名詞](甲) 里[名詞](甲)}
回到 {回[動詞](甲) 到[動詞](甲)}
語料 2(200 字):
第二天下午放學的時候,語文老師把馬小跳叫到辦公室去,翻開他的作業(yè)本:“昨天抄寫的生字,你寫錯了一個字,拿去重寫一百遍?!?/p>
秦老師教學經(jīng)驗豐富,她最好的經(jīng)驗,便是學生寫錯一個字,讓學生重寫一百遍。
“你怎么會把‘認真’的‘真’字寫錯?”語文老師用手指點著馬小跳的腦門兒,一副恨鐵不成鋼的樣子,“我在課堂上一再強調(diào),‘真’字里面是三橫,千萬不要寫成兩橫,可是你還是寫成兩橫了。馬小跳,你的耳朵長到哪里去了?”
用“中文助教TM”統(tǒng)計詞匯等級,出現(xiàn)了“二天”、“作業(yè)本”、“重寫”、“耳朵長”、“生字”、“恨鐵不成鋼”6 個超綱詞。如圖2、3、4所示。
事實上真正需要二次統(tǒng)計的超綱詞只有 “恨鐵不成鋼”和“生字”。其余的4個皆非超綱詞,而是由于分詞錯誤造成的字符串,其中包含著一般詞匯。例如:
二天 {二[數(shù)詞](甲) 天[名詞](甲)}
作業(yè)本 {作業(yè)[名詞](甲) 本[名詞](甲)}
重寫 {重 [副詞](乙) 寫[動詞](甲)}
耳朵長 {耳朵[名詞](甲) 長[動詞](甲)}
因此,在將“中文助教TM”用于語料的詞匯難度測評時,必須在文本自動分詞的基礎(chǔ)上先人工分詞校對。當然,逐一查詞典進行校對,是一件費時費力的事;如果不查詞典,僅憑經(jīng)驗作校對,則容易出錯。
2.詞匯等級標注的備選項多、跨度大,人工篩選任務重
從詞匯等級標注的角度來看,人工分詞校對同時也是對上下文語境中詞匯義項的進一步明確,因而有助于確定詞匯等級。但用“中文助教TM”對人工分詞校對過的語料進行詞匯等級標注后,卻仍然需要人工查對《漢語水平詞匯與漢字等級大綱》確定詞匯的真正等級。圖5是用“中文助教TM”在人工分詞的基礎(chǔ)上對第二則語料的全部用詞按HSK等級排序,得到的統(tǒng)計結(jié)果,從中不難發(fā)現(xiàn),“好”“重”“長”等11個詞每一個都對應著多個詞匯等級,至于“在此則語料”中應對的是哪一個等級,則不可得而知之,需要人工對照《漢語水平詞匯與漢字等級大綱》來確定。尤其是序號1~3和8~11的這7個詞,等級跨度很大,對確定語料等級影響嚴重。
3.多音詞注音錯誤,用戶不得不對詞匯等級進行人工比對
多音詞“好”、“重”、“長”在“馬天笑先生從小玩到大,現(xiàn)在更好玩了?!薄白蛱斐瓕懙纳郑銓戝e了一個字,拿去重寫一百遍?!薄榜R小跳,你的耳朵長到哪里去了?”中有確定的讀音。在人們的心理詞典中,多音詞的音和義也是相互聯(lián)系的。但“中文助教TM”給多音詞的注音卻只有一個,即使是人工分詞校對之后,所標注的拼音也還是老樣子,如上圖中第2個詞和第9個詞的注音。統(tǒng)計詞匯等級時,用戶看到錯誤的注音會懷疑詞匯等級標注失誤,只得費時費力再查閱《漢語水平詞匯與漢字等級大綱》對詞匯等級進行人工比對。而事實上多音詞的不同讀音,的確對應不同的詞性和詞匯等級。
表2 多音詞的不同讀音對應不同的詞性和詞匯等級
上文只是從對外漢語教師的實際需要出發(fā),提出使用“中文助教TM”進行語料難度測評時發(fā)現(xiàn)的問題。希望這一多功能、高效、實用的教學軟件經(jīng)過信息技術(shù)專家的改進,能夠為用戶提供更加便捷的服務。在此,筆者想為有志于改進“中文助教TM”的專家們推薦用于分詞和詞匯等級標注的兩部詞典。
1.《現(xiàn)代漢語詞典》
盡管我們不知道“中文助教TM”采用的是什么分詞方法,但從分詞結(jié)果來看,“中文助教TM”沒有采用基于詞典的分詞方法,或者更確切地說,沒有以新版《現(xiàn)代漢語詞典》為依據(jù),建立機器可讀詞典,進行分詞匹配和多音字詞的語音匹配。否則,上文所說的“作業(yè)本”“耳朵長”“重寫”“每天”“回到”“家里”“玩具廠”這樣的字符串,就不會成為分詞系統(tǒng)輸出的結(jié)果了。
我們推薦《現(xiàn)代漢語詞典》的理由是,對外漢語教學語料主要產(chǎn)自國內(nèi),語言難度不大,詞匯方面以規(guī)范的現(xiàn)代漢語常用詞為主;句法簡單典范,嚴格遵守現(xiàn)代漢語基本語法;話題多為常見的生活內(nèi)容;其中很多語料在生成和改寫過程中都要參照《現(xiàn)代漢語詞典》。因此,從詞目的選擇、詞條的數(shù)量、詞語搭配的典型性、分詞詞表與待切分的中文文本中詞匯的匹配關(guān)系來看,《現(xiàn)代漢語詞典》很適合作為對外漢語教學語料的分詞依據(jù),成為機器可讀詞典的核心。
事實上,無論哪一種分詞系統(tǒng)都不可能完全依賴某一種分詞方法,都要綜合不同的算法。建議在改進“中文助教TM”的分詞方法時充分考慮《現(xiàn)代漢語詞典》對建立分詞詞表的重要意義。
2.《漢語8000詞詞典》
《漢語水平詞匯等級大綱》是詞匯等級標注的依據(jù)。但由于《漢語水平詞匯等級大綱》缺乏對多義詞不同義項的等級標注,而有些自由語素具有多種義項,不同義項的常用度差異顯著,不可一概而論,所以筆者在此建議以《漢語8000詞詞典》作為詞匯等級標注的基本依據(jù)。
《漢語8000詞詞典》是北京語言大學漢語水平考試中心根據(jù)《漢語水平詞匯與漢字等級大綱》編寫的。收入了《漢語水平詞匯與漢字等級大綱》中的所有詞匯,并在征求有關(guān)專家的意見的基礎(chǔ)上,經(jīng)過認真分析歸納,將8000詞中多義詞的眾多義項亦均劃分等級,此外還對詞性進行了標注、補充和修正。所以,詞匯理解難度檢測實際上應主要以《漢語8000詞詞典》和《漢語水平漢字等級大綱》為依據(jù),建立機器可讀詞(字)典,進行詞匯、語素的等級匹配。
[1]劉英林.關(guān)于“漢語水平等級標準”的幾個問題[R],漢語水平等級標準和語法等級大綱[S],北京:高等教育出版社,1996:5-6.
[2]劉英林,宋紹周.論漢語教學字詞的統(tǒng)計與分級(代序)[R],漢語水平詞匯與漢字等級大綱[S],北京:北京語言學院出版社,1992:1-22.
(編輯:金冉)
G434
A
1673-8454(2010)23-0069-04
*本文是上海外國語大學學科建設(shè)規(guī)劃項目“外國人學漢語需要的多媒體語料庫”(項目編號:XK00007CXY)的階段性研究成果。