国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

留學生中介字數(shù)據(jù)庫建設若干問題討論

2022-06-06 13:24張瑞朋
華文教學與研究 2022年2期
關鍵詞:功能建設

[關鍵詞] 中介字數(shù)據(jù)庫;建設;語料屬性;標注;功能

[摘? 要] 目前關于中介字數(shù)據(jù)庫的建設和研究相對較少。文章以中山大學留學生全程性中介字數(shù)據(jù)庫為例,論述了中介字數(shù)據(jù)庫建設過程中應該注意的幾個問題:語料要真實自然,這是基本屬性;語料要具備連續(xù)性和全程性,將有利于縱向和漸進性研究;中介字標注內(nèi)容包括錯字、似別字、別字、不規(guī)范字的標注,并詳細討論了偏誤類型和偏誤原因的標注方法和規(guī)范。同時,強調(diào)標注要遵循科學性和漸進性。文章還介紹了數(shù)據(jù)庫的功能和價值,并結合實踐提出了建庫過程中一些可資借鑒的方法和建議。

[中圖分類號]H195.3? [文獻標識碼]A? [文章編號]1674-8174(2022)02-0086-09

近年來,漢語中介語語料庫的建設呈現(xiàn)繁榮局面,數(shù)量增多,語料庫類別也多種多樣。這些語料庫不但為研究者探索漢語的語言現(xiàn)象提供了更多的語料資源,也極大地提高了漢語作為第二語言教學研究的水平。漢字是對外漢語教學界公認的重點和難點,但是關于“漢字”的專門數(shù)據(jù)庫卻很少見。數(shù)據(jù)庫和語料庫為語言現(xiàn)象測查和定量研究提供了相當可靠而便捷的條件,大量的數(shù)據(jù)信息和語料使研究成果更為客觀,更具應用價值。

目前,國內(nèi)可使用的中介字數(shù)據(jù)庫十分有限。北京語言大學建有“歐美留學生錯別字數(shù)據(jù)庫”,但該庫至今未開放。根據(jù)戴媛媛(2007),該庫基于30多萬字的外國學生HSK高等考試作文,收集了2000多個錯別字字形,但數(shù)據(jù)庫國別只限于歐美學生,學生水平主要是參加HSK高等考試的學生,而且只包含錯字和別字兩種偏誤漢字形式。

另外,臺灣師范大學建有“漢語學習者漢字偏誤數(shù)據(jù)資料庫”,該庫曾經(jīng)開放,但近年來關閉,由鄧守信教授創(chuàng)建于2009年。它收集了2000多個錯字字形,并對其偏誤類型進行了細致分類,但該數(shù)據(jù)庫收集的只是錯字,而且整個系統(tǒng)基于繁體字,字庫收集的是單個錯字,沒有上下文語料,無法查看其語境,并且書寫者只限英語母語者。

中山大學“留學生全程性中介字數(shù)據(jù)庫”(下文簡稱“中介字數(shù)據(jù)庫”)自2016年開始,基于中山大學“漢字偏誤連續(xù)性書面語語料庫”(下文簡稱“中介語文本庫”)建立?!爸薪檎Z文本庫”于2015年建成,包含了60多個國家留學生的初中高等水平學生日常作文語料,目前大概420萬字,其重點標注了漢字偏誤。利用“中介語文本庫”可以檢索漢字偏誤情況,也能檢索詞、短語、句子等語言成分。后來,隨著對漢字認識的發(fā)展,進一步完善細化了漢字偏誤標注的內(nèi)容和項目,增加了似別字和不規(guī)范字的標注,細化了錯字和別字類型,并且增加了偏誤原因標注。以此文本庫為基礎,抽取各種漢字偏誤標注信息,統(tǒng)計頻率,人工錄入正字相關信息,建立了“中介字數(shù)據(jù)庫”。

“中介字數(shù)據(jù)庫”是指留學生在習得漢字過程中書寫的漢字形式的數(shù)據(jù)庫。“中介字”是本研究提出的一個新概念,專指留學生書寫的漢字形式,它和“中介語”相對應,是一個獨立的系統(tǒng)?!爸薪樽帧备拍畹奶岢?,表明研究視角由傳統(tǒng)漢字向外國留學生漢字書寫的轉(zhuǎn)變。這里的“中介字”除了漢字,也可以推廣到其他文字系統(tǒng),其他語言文字的二語學習者書寫時也會有“中介字”狀態(tài)。本文以“中介字”命名,嘗試引領起對漢字中介狀態(tài)的系統(tǒng)研究,包括中介字形式、偏誤類型、偏誤原因等。

“中介字數(shù)據(jù)庫”由錯字數(shù)據(jù)庫、別字數(shù)據(jù)庫、似別字數(shù)據(jù)庫、不規(guī)范字數(shù)據(jù)庫等4個子庫組成,包含了中介字的偏誤信息、所在文本信息和對應正字情況等。它們以“正字”為共同字段互相關聯(lián),信息共享。截止目前,數(shù)據(jù)庫中包含了3362個正字的30665個錯字形式,9151個別字形式,351個似別字形式,15673個不規(guī)范字形式。數(shù)據(jù)庫還有方便的檢索和統(tǒng)計功能,方便用戶查閱使用。這兩個庫都在不斷更新,自建成便面向?qū)W界公開使用。

“中介字數(shù)據(jù)庫”屬于專項語料庫,它既有一般語料庫的基本屬性和特點,也有作為專項語料庫的特別之處。本文以“中山大學留學生全程性中介字數(shù)據(jù)庫”為例,就中介字數(shù)據(jù)庫建設中的若干問題提出一些思考。

1. 語料屬性

1.1 語料的真實性和自然性

真實性和自然性是語料庫建設最基本的屬性。如果語料不真實、不自然,就失去了研究的基礎和價值。中介字數(shù)據(jù)庫和一般的文本語料庫有所不同,中介字數(shù)據(jù)庫是針對留學生書寫的漢字,真實性和自然性主要體現(xiàn)在以下幾個方面:

(1)保持學生書寫漢字的原貌,尤其是體現(xiàn)出錯字的錯誤特點。正字和別字能直接打出來,容易呈現(xiàn),但錯字要怎么呈現(xiàn)才真實?目前也有語料庫采用掃描錯字,再切字的方式,但由于每個留學生寫字的大小規(guī)格不同,切出來的漢字大小不一,有的可能模糊不清。中山大學中介語文本庫和中介字數(shù)據(jù)庫對錯字采用truetype造字方式,以圖片格式保存,這樣可以使圖片大小一致。由于對錯字的主觀認識和造字技術水平不同,所造錯字和原字之間難免有距離,但我們認為只要在部件位置、筆畫關系等這些大的錯誤特征上保持一致,體現(xiàn)出原錯字的錯誤之處即可,至于原字筆畫粗細、書寫風格可以適當忽略,因為這些不影響漢字偏誤特征的呈現(xiàn)。

(2)體現(xiàn)漢字書寫的各種中介形式。除了錯字、別字,數(shù)據(jù)庫還根據(jù)大量漢字書寫實際,歸納出似別字、不規(guī)范字,盡量全面真實表現(xiàn)漢字的中介形式。這是留學生漢字書寫真實性和自然性的特別體現(xiàn)。

(3)學生用字選字真實自然。因為“中介字數(shù)據(jù)庫”的信息來源于“中介語文本庫”,“中介語文本庫”來自中山大學國際漢語學院和中文系國際漢語中心留學生的日常作文,學生選詞用字時沒有考場的壓力,用詞造句真實自然。同時,為了防止學生在寫作中抄襲,語料失真,在收集語料之前,教師都盡量檢查學生作文,并且錄入語料前避免錄入教師修改過、加工過的二手語料,力求反映學生真實水平(張瑞朋,2012)。因此中介字數(shù)據(jù)庫收集的中介字也具備了用字的真實自然性。

1.2 語料的連續(xù)性和全程性

1.2.1 連續(xù)性

連續(xù)性指學生各個學習水平等級是連續(xù)的,不是只有單個水平等級。根據(jù)張瑞朋(2012),中山大學中介語文本語料庫的語料收集了相同學生的初、中、高級水平的語料,具有連續(xù)性,來源于該語料庫的“中介字字庫”也因此涵蓋了相同學生不同等級水平漢字書寫的狀態(tài),具備了“連續(xù)性”,可供縱向研究??v向研究的作用是:

(1)對比不同國家學生的錯字、別字等發(fā)展過程。不同國家由于書寫背景和認知方式不同,錯字、別字形狀類別和頻次的發(fā)展變化也不同,根據(jù)收集的連續(xù)性語料可以考察這一變化。(2)對比不同水平階段學生的錯字、別字及其他中介字形式的書寫和數(shù)量,考察中介字的發(fā)展變化情況,以便為漢字教學提供啟發(fā)。(3)縱向考察同一母語背景學生在不同階段漢字書寫的發(fā)展變化,包括正確用字、偏誤漢字的錯誤類型及比例變化。近年來,對外漢語教學界在這方面成果頗豐。如:鹿士義(2002)、江新(2004)、郝美玲(2018)等。這些研究都是通過實驗和小規(guī)模收集漢字材料進行。中山大學中介字數(shù)據(jù)庫集中反映外國學生漢字書寫現(xiàn)象,將有助于漢字習得與認知研究從一個新視角觀察并獲取大量真實的數(shù)據(jù),深入開展研究。

1.2.2 全程性

全程性主要指漢字書寫發(fā)展經(jīng)歷形式的全面性,包括錯字、似別字、別字、不規(guī)范字、正字幾種形式。漢字是語言要素之一,像中介語一樣,中介字也有其獨特系統(tǒng),是一個漸進發(fā)展的連續(xù)統(tǒng)?!板e字”是不成形的,在連續(xù)統(tǒng)的最左端,是漢字習得的最低階段。別字比錯字正字法意識強。根據(jù)大量書寫材料,我們發(fā)現(xiàn)在錯字和別字之間還存在“似別字”。此外,還存在“不規(guī)范字”?!罢帧笔悄繕藵h字,在連續(xù)統(tǒng)的最右端,是漢字習得的目的形式。從“錯字”到“正字”,經(jīng)歷了似別字、別字、不規(guī)范字等階段,反映了留學生習得漢字是一個逐步邁向目標漢字的漸進的連續(xù)統(tǒng)過程,也反映了中介字的復雜性和特殊性。

數(shù)據(jù)庫包括了各種中介字的書寫情況,尤其使處于中間階段的中介字狀態(tài)(似別字、不規(guī)范字)的界定具備一定可操作性,一定程度上反映了中介字的發(fā)展過程和習得順序,為構建漢字習得模型,強化漢字習得機制提供了基礎,對于全面研究留學生漢字習得情況,提升漢字教學效果有重要意義。

2. 語料標注

語料標注是“語料深加工的重要環(huán)節(jié),也是一個語料庫建設水平的重要標志”( 劉連元,1996)。這說明語料標注的內(nèi)容與質(zhì)量決定了一個語料庫的功能與使用價值。對于一般語料庫中詞語、短語級別的標注,學界討論很多。關于漢字標注,目前探討比較詳細的是張寶林(2019:69-87)。這本書對中介語語料庫中字、詞、短語等各級語言單位標注規(guī)范的確定有很大貢獻,但這本書的漢字標注規(guī)范主要是“為‘通用型’(語料庫)服務的,而不是服務于漢字的專項研究”(張寶林,2019:72)。不同類型的語料庫標注深度和標注項目不同。同樣是漢字標注,通用型語料庫“只是從整體角度指出了漢字偏誤類型,在各類別下不再分細類”(張寶林,2019:72)。專門的漢字數(shù)據(jù)庫則需要對各類偏誤漢字進行盡可能細致的研究,標注方式和內(nèi)容也不同于通用型語料庫。中山大學留學生全程性數(shù)據(jù)庫是專門的漢字數(shù)據(jù)庫,在漢字偏誤標注方面也更細致、更全面。在建設數(shù)據(jù)庫過程中,我們遇到了一些問題,也總結了一些經(jīng)驗,下面嘗試討論歸納。

2.1 標注項目和規(guī)范

中介字的偏誤和母語者的寫字偏誤不能完全等同。母語者的寫字偏誤主要是錯字和別字,但中介字的偏誤有其特殊性和復雜性。漢語二語學習者和母語學習者有不同的文字背景和漢字習得機制,在書寫漢字時除了錯字、別字,還有其他中介字形式。本文提出了“似別字”“不規(guī)范字”這些中間狀態(tài)。 因此,本文的中介字標注涉及錯字、似別字、別字、不規(guī)范字幾種形式。在標注中,我們盡量給錯字、似別字、別字和不規(guī)范字各自設立互相區(qū)別、不交叉不重疊的類別,使其具有一定可操作性。

錯字偏誤原因包括形似、形旁相近、聲旁相近、基本漢字書寫未掌握、母語影響、上下文影響、受合成詞影響等7種。其中上下文影響(張瑞朋,2015)和受合成詞影響是數(shù)據(jù)庫吸取的偏誤原因的新因素。

別字標注包括正字、別字、偏誤原因。偏誤原因包括音同音近、形近、義近、音形皆近、音義皆近、形義皆近、音形義皆近、音形義無關、上下文影響、雙字詞內(nèi)部混用等10種。

似別字標注包括正字、似別字。似別字是本研究提出的一個新概念,它是錯字和別字之間的一種中間狀態(tài)。錯字是由于學生沒有掌握漢字形體,從而寫成了漢字中不存在的字;別字是書寫正確但使用不對的字;似別字則是學生沒有掌握漢字形體,不會書寫,但誤打誤撞而寫成了漢字中存在的字。因為它確實在漢字中存在,所以不能算“錯字”;但它又不是因為使用錯誤而導致,學生頭腦中并沒有這個字,所以不能算“別字”。

似別字不同于別字,在教學中要區(qū)別對待。別字和正字在音、形、義上可能相關,似別字和正字一般只有字形相關。別字在學生的心理詞典中是單獨儲存的,學生書寫別字,往往是因為對正字和別字兩個字的整體混淆。似別字則大多是因為筆畫或部件出錯,誤打誤撞寫成了漢字中存在的字,它在學生的心理詞典中沒有清晰獨立的單獨儲存位置。因此,在教學中似別字和別字要采用不同的糾錯方法。對于別字,學生一般學過,教師可以從音、形、義幾方面和正字做整體對比,使別字和正字在學生心理詞典中牢固儲存。對于似別字,具體分兩種情況:一是似別字和正字使用頻率相差較大,可以確定學生沒有學過,比如,愛—*爰,西—*酉,仇—*仉。教師在教學中可以重點指出書寫錯誤之處,不用全面比對兩個漢字。還有一種情況是,似別字使用頻率和正字相當,學生可能學過也可能沒學過,要靠教師根據(jù)實際情況判斷。比如:平—*采、人—*入。在實際教學中,對于學生學過的漢字,教師可以像“別字”一樣處理,從音、形、義幾個方面整體對比,幫助學生識記漢字。對于學生沒學過的,則像第一種情況,強調(diào)其錯誤之處即可。數(shù)據(jù)庫中把有似別字可能的漢字都標注出來,用戶在教學和學習時要注意分辨。似別字現(xiàn)象在數(shù)據(jù)庫中并不少見,應該引起注意。

不規(guī)范字標注包括正字、不規(guī)范字。根據(jù)現(xiàn)行語言文字規(guī)范,不規(guī)范字包括錯字、別字、繁體字、異體字、舊字形。錯字屬于書寫不規(guī)范字,其余屬于使用不規(guī)范字。這是一種廣義的不規(guī)范字。北京語言大學“全球漢語中介語語料庫”和“HSK動態(tài)作文語料庫”都對廣義的不規(guī)范字進行了標注。本文說的不規(guī)范字是狹義的,專指書寫不規(guī)范字。漢語二語學習者的漢字書寫形式復雜多樣,書寫不規(guī)范除了“錯字”,還有一些中間狀態(tài)。如果對其總結分類,加強引導,學生會逐步走向規(guī)范,更好地書寫漢字。

這里需要說明的是受宋體印刷體影響的不規(guī)范字。根據(jù)施春宏(2020:135),宋體以手寫楷書為基礎發(fā)展而來,在發(fā)展過程中,又吸收了篆書和隸書的某些特征,因此有些字的印刷體和手寫體在字形上存在分歧。目前大部分教材使用印刷字體,有的初學者在學寫漢字時,會模仿宋體字形抄寫,導致寫出的漢字字形呆板僵硬,甚至筆畫出現(xiàn)錯誤。因此,在漢語教學中,特別是面對初級漢語學習者,在電腦屏幕或印刷資料上呈現(xiàn)的印刷字體,更適合采用與手寫字體接近的楷體,以利于學習者模仿。同時,教師要了解哪些漢字的宋體和手寫體不同,在學生出現(xiàn)此類不規(guī)范字時,以便及時指出原因,幫助改正。

在設定上述類別時,我們注重幾個問題:一是每個類別的語言現(xiàn)象要足量,如果不足量,標注出來也沒有多少實用價值。二是不同中介字形式內(nèi)部類別之間要界限明確,互相區(qū)分。比如:錯字幾個類別之間,不規(guī)范字幾個類別之間要容易區(qū)分。三是不同中介字形式之間要區(qū)別開來,要有切實可判斷的標準,尤其是錯字和不規(guī)范字之間的區(qū)分會有模糊地帶,規(guī)范設置要盡量明確。特別是錯字的部件錯位、筆畫錯位和不規(guī)范字的部件位置不規(guī)范、筆畫位置不規(guī)范之間的區(qū)分,達到什么程度算是不規(guī)范,達到什么程度算錯,數(shù)據(jù)庫有較明確劃分和規(guī)范。比如,對于部件錯位和部件位置不規(guī)范的區(qū)分,目前主要以是否導致漢字本身結構關系改變?yōu)闇省?/p>

2.2 標注方法和格式

關于語料標注方法,張寶林(2013)分為“只標不改”和“既標且改”。這兩種方法的區(qū)別主要是是否涉及漢字偏誤,是否有利于分詞進行?!爸粯瞬桓摹笔侵粯俗⒊鲥e誤,但不改正,較適用于詞及以上級別語言成分?!凹葮饲腋摹笔且彦e誤的語言成分改正過來,這種方法更適合于中介漢字的標注。把正確漢字寫出來,可以提高分詞的正確率,同時方便偏誤漢字和正確漢字之間的對比以及頻率統(tǒng)計。具體標注格式示例如下:

似別字:<爰>SBZ【愛】(<>中是似別字,“SBZ”表示似別字,黑括號中是正字。)

別字:得意<揚>BZ【洋,偏誤原因:音同音近】(<>中是別字,“BZ”表示別字,黑括號中是依次是正確漢字、偏誤原因)

2.3 偏誤類型和原因的標注

上述中介字項目的標注內(nèi)容大都包括正確字、偏誤類型、偏誤原因。其中偏誤類型和偏誤原因是標注過程中較難判斷和爭議較多的。如果存在多個偏誤類型或偏誤原因,是單標還是多標?判斷順序是怎樣的?對于詞匯、短語、句子、篇章類的偏誤,大多語料庫采用“從大到小,一錯一標”,認為語料標注應盡量簡化,不宜過于復雜,“一錯多標”只能有限使用(張寶林,2013)。漢字偏誤標注是否也是這樣?這要根據(jù)漢字實際情況來決定。

2.3.1 偏誤類型的標注

下面談談標注過程中遇到的兩類問題。

(1)一個錯字存在多個偏誤類型

這里的多個偏誤又可分為:多個不同層級偏誤和多個同一層級偏誤。下面分別論述。

(2)對同一偏誤現(xiàn)象存在不同理解

因為標注由人做,就帶有人為的主觀認識活動。在漢字標注中存在對某一偏誤現(xiàn)象有不同理解的情況。比如:“被”寫為“”,可以看作“礻”遺漏了“丶”,也可看作是“衤”被“礻”誤代。如果書寫者不熟悉“礻”這個部件, 書寫時因為遺漏 “丶” 而恰巧寫成 “礻”,則應標注筆畫遺漏;如果書寫者熟悉這兩個部件,因混淆部件而發(fā)生錯誤,則應標注部件誤代。這其中涉及到書寫者的心理活動,但大規(guī)模數(shù)據(jù)庫標注不可能對漢字書寫者進行一一心理活動調(diào)查,即使調(diào)查能夠進行,書寫者有時也說不清自己為什么這樣寫。這種涉及對漢字偏誤現(xiàn)象的不同理解時,采取全標,把可能的信息全部提供給用戶,由用戶進一步取舍判斷。

綜上所述,和詞匯、短語、句子等語言單位不同,漢字由不同構件組成,可能不同構件存在多個偏誤,也可能對同一偏誤現(xiàn)象存在不同理解,兩種情況都可采取全標。這說明漢字偏誤標注類型適合“一錯多標”。這樣處理可以發(fā)現(xiàn)不同的偏誤類型,這對于全面、準確地認識漢字偏誤非常重要。

2.3.2 偏誤原因的標注

偏誤原因的標注主要是針對錯字和別字。偏誤原因可以分為外部因素和漢字內(nèi)部因素兩方面。錯字偏誤原因包括3種外部因素:受上下文影響、受母語文字影響、受原合成詞影響;4種漢字內(nèi)部因素:形似、形旁相近、聲旁相近、基本漢字書寫未掌握等。別字偏誤原因包括2種外部因素:受上下文影響、原合成詞內(nèi)部混用;8種漢字內(nèi)部因素:音同音近、形近、義近、音形皆近、音義皆近、形義皆近、音形義皆近、音形義無關。

在實際標注過程中,我們先從外部因素考察,再從漢字內(nèi)部特點考察。比如,在標注別字偏誤原因時,先看是否存在受上下文影響或合成詞內(nèi)部混用這些外部因素;如果沒有,再根據(jù)別字和正字之間音形義的關系來判斷。如果明顯同時存在多方面偏誤原因,可以全標。比如:批評—批*抨,從外部因素看,別字“抨”受上下文影響;從別字和正字關系看,是音形義皆近,兩種偏誤原因可以全標。

值得一提的是,數(shù)據(jù)庫還標注了一種可能的新的偏誤原因:受原合成詞影響。有的錯字和別字形成可能跟原合成詞語境有關。比如:“婚禮”寫成“*結禮”,跟“結婚”這個合成詞語境有關,學生可能沒有分清“結”和“婚”?!叭秉c”寫成“缺*”,“”的書寫可能跟“點心”這個詞有關,學生把兩個漢字雜糅導致出錯。這種偏誤原因的具體論證參看張瑞朋(2021)。數(shù)據(jù)庫把有這種傾向的偏誤因素標注出來,方便用戶調(diào)查研究。

可以看出,偏誤原因的形成有多方面原因,偏誤原因的標注又和標注者的理論認識水平有關。這里的標注也只提供一種可能性,供用戶參考。

2.4 標注的科學性和漸進性

語料標注的科學性也關系到語言學界對某個項目的理解是否清楚,是否基本統(tǒng)一。如果理解很不一致,則很難標注。具體對策是:先標注成熟項目;逐步增加標注項目;標注項目確定后,可設計標注規(guī)范和便于檢索的表達法,進而制作輔助標注的工具軟件,以提高標注的準確性和效率。也就是說,語料庫的標注應該是漸進的,是隨著學術的發(fā)展以及建庫者思想的深化而逐步細化、深入發(fā)展的,而不是一勞永逸,一成不變的。

比如,語料庫標注項目的變化。原先中介語語料中有字詞語法偏誤標注,后來集中力量建設漢字偏誤標注的文本語料庫,再到現(xiàn)在構建專門的中介字數(shù)據(jù)庫。語料庫系統(tǒng)三個入口、三個版本,既體現(xiàn)了語料庫的不同目的和適用性,也體現(xiàn)了建庫者和標注者對漢字偏誤的認識深化。

又比如:對中介字標注項目和內(nèi)容的變化。在建庫初期,當時學界對于留學生別字和錯字研究成果較少,為了避免分類過細導致誤判,我們把錯字和別字統(tǒng)一標為CBZ。后來隨著研究進展,把錯字和別字分開標注。到今天,數(shù)據(jù)庫對錯字和別字類別都進行了細化,設計了詳細的標注規(guī)范,增加了偏誤原因的標注,吸收了最新偏誤原因成果;并且增加了似別字和不規(guī)范字的標注。首次提出了“似別字”的概念,并對其進行界定標注,還對不規(guī)范字進行細致分類并且標注。這里包含了學術界的新成果和進展,也體現(xiàn)了建庫者不斷深化發(fā)展的學術觀念。當然,這些界定和標注也會隨著將來學術水平的發(fā)展而變化。

這里需要提出的是,語料標注在很大程度上是標注者對書寫者客觀書寫材料的主觀判斷。當書寫者的客觀書寫材料可以從多方面解釋,而又無法從書寫者本人求證時,容許幾種可能性都標出來也是一種科學性的表現(xiàn)。比如,前文對偏誤類型和偏誤原因的多項標注,提供了多種可能,也就離事實真相更近一步。

任何語料庫的加工和標注都體現(xiàn)了當時的學術理論背景、建庫者的觀念和認識,任何人都不可能制定出超出時代和本人學養(yǎng)的所謂全面的標注項目,沒有絕對全面和正確的標注項目。

3. 數(shù)據(jù)庫建設框架和用戶功能

3.1 建設框架

中介字數(shù)據(jù)庫的中介字字段內(nèi)容來自已建成的中介語文本庫。數(shù)據(jù)庫基本框架如下圖:

從圖1可看出,錯字、似別字、別字、不規(guī)范字四個子庫都包括了正字信息(“正字”、“形聲字、“結構”字段)、中介字信息(“頻次”、“類型”、“偏誤原因”字段)、中介字上下文信息(“上下文”字段)和書寫者信息(“母語”、“水平等級”字段)。這些信息既有利于了解中介字本身情況,又可看到中介字的上下文語境,同時也有利于了解書寫者情況,可供多角度研究漢字。

3.2 用戶功能

根據(jù)上述框架,在數(shù)據(jù)庫首頁相應包括錯字數(shù)據(jù)庫、別字數(shù)據(jù)庫、似別字數(shù)據(jù)庫、不規(guī)范數(shù)據(jù)庫、語料庫、統(tǒng)計等幾個選項卡。點擊可進入各個子庫。首頁如圖2所示:

可以看出,用戶不僅可以檢索數(shù)據(jù)庫,查看原文,還可以對于數(shù)據(jù)庫中的錯誤信息“上報修改建議”,數(shù)據(jù)庫由指定專業(yè)人員審核后修改。因此,數(shù)據(jù)庫不光在應用方面對外開放,在建設修改方面也吸納用戶建議。下面重點介紹檢索功能和統(tǒng)計功能。

3.2.1 檢索功能

用戶可以點擊進入各個子庫中詳細檢索。比如:錯字數(shù)據(jù)庫檢索界面如圖3。

如圖3所示,用戶可以根據(jù)正字、偏誤原因、錯字類型、錯誤部件、正字結構、造字法、筆畫數(shù)等相關信息分別檢索。在上圖“偏誤原因”“所有錯字類型”“所有結構”“所有造字法”下拉框中都羅列了相應全部信息。用戶根據(jù)自己需要輸入或選擇相關信息即可獲得大量數(shù)據(jù)。比如,如果用戶想調(diào)查“部件錯位”類錯誤,只需選擇相關類型,便可窮盡統(tǒng)計所有部件錯位的錯字數(shù)量,并可查看書寫者的信息、偏誤字所在上下文、對應正字等信息,根據(jù)研究需要再分類分析。如果用戶想調(diào)查因“受母語文字影響”而出錯的漢字,在偏誤原因中選擇后,即可檢索到全部此類偏誤漢字信息。

需要指出的是,因數(shù)據(jù)庫中的錯字是圖片,目前不能支持圖片檢索,在以后的語料庫建設中我們將引進林民等(2009)的“漢字字形處理技術及字形分析工具軟件”。使用者只要具有圖形認知能力就可以使用該工具描畫輸入各種漢字(包括錯字、異體字、拼合字等),并且直接輸入錯字或錯誤部件就可以進行檢索,還可對某些錯誤部件統(tǒng)計分析,并能利用計算機進行字形比對分析。

點擊圖3頁面的“語料庫”,就會進入“中介語文本庫”,并可以進行各種字詞、短語、句子等語言成分的檢索,詳見張瑞朋(2012)。

別字字庫提供了偏誤原因、別字、正字等搜索項目。似別字、不規(guī)范字數(shù)據(jù)庫也分別根據(jù)其標注項目提供了相關搜索功能。檢索方法類似錯字數(shù)據(jù)庫,因篇幅限制,不再贅述。

3.2.2“統(tǒng)計”功能

上圖3中的“統(tǒng)計”功能匯總了各數(shù)據(jù)庫信息,可以統(tǒng)計每個漢字的錯字、似別字、別字、不規(guī)范字各種形式的總頻次和總使用量,并自動計算所占比例。界面如下圖:

如果點擊漢字后面的“分布”和“數(shù)據(jù)”,可看到四種偏誤形式在“母語”“性別”“水平等級”中的具體分布和數(shù)據(jù)。如:點擊“我”后的“看分布”,會統(tǒng)計出“我”在不同性別、母語、水平等級中的偏誤形式分布情況。點擊“看數(shù)據(jù)”,可看到“我”的詳細使用情況。這對研究每個漢字的正確使用和偏誤情況非常便利。王駿(2011)曾說,漢字教學和研究要取得實質(zhì)突破,需要窮盡性研究每個漢字的書寫和具體使用特點。本數(shù)據(jù)庫的建設為該任務的完成提供了可能。

“統(tǒng)計”功能還為漢字大綱的制定和教材編寫提供了數(shù)據(jù)依據(jù)。想知道哪些漢字出錯率高、別字頻率高,可以根據(jù)前面序號排序篩選。序號靠前,偏誤率高;序號靠后,偏誤率低。大綱制定和教材選字以此為依據(jù),可以提高編排科學性。

4. 余論

建立一個包括各個水平等級的錯字、似別字、別字、不規(guī)范字、正字的中介字數(shù)據(jù)庫,既可對留學生漢字書寫狀況進行橫斷面研究,也可對漢字書寫進行縱向和漸進性研究。數(shù)據(jù)庫涵蓋多種母語背景,可以研究不同母語背景學生的漢字輸出及偏誤情況,并做對比研究,為國別化漢字研究和漢字教學提供數(shù)據(jù)支持。

一切研究最終都要服務于教學才能體現(xiàn)其最終價值。數(shù)據(jù)庫的建立除了對漢字研究有重要作用,也可供教師教學時參考。比如:教師在教學前可以先查閱數(shù)據(jù)庫,哪些字出錯頻率高,哪些部件容易寫錯,某個國別學生容易發(fā)生哪些漢字錯誤。在備課時做到心中有數(shù),教學中做好預防和引導。在偏誤發(fā)生后,教師可以利用語料庫中提供的語料為學生編制練習,幫助學生改正錯誤。從偏誤發(fā)生前的預防和教學引導到偏誤發(fā)生后的教學練習,中介字數(shù)據(jù)庫都可以提供多樣的一手材料。

[參考文獻]

戴媛媛 2007 “歐美學生錯別字數(shù)據(jù)庫”的建立和基于數(shù)據(jù)庫的錯字別字考察[D]. 北京語言大學碩士論文.

江 新 2004 拼音文字背景的外國學生漢字書寫錯誤研究[J]. 世界漢語教學(1).

郝美玲 2018 高級漢語水平留學生漢字認讀影響因素研究[J]. 語言教學與研究(5).

林 民,宋 柔 2009 漢字的筆段網(wǎng)格字形描述及字形比對算法[J]. 計算機輔助設計與圖形學學報(2).

劉連元 1996 現(xiàn)代漢語語料庫研制[J]. 語言文字應用(3).

鹿士義 2002 母語為拼音文字的學習者漢字正字法意識發(fā)展的研究[J]. 語言教學與研究(3).

施春宏 2020 漢語基本知識(漢字篇)[M]. 北京:北京語言大學出版社.

王 駿 2011 外國人漢字習得研究述評[J]. 華文教學與研究(3).

張寶林 2013 關于通用型漢語中介語語料庫標注模式的再認識[J]. 世界漢語教學(1).

——— 2019 漢語中介語語料庫標注規(guī)范研究[M]. 北京:北京大學出版社.

張瑞朋 2012 留學生漢語中介語語料庫建設若干問題的比較研究[J]. 語言文字應用(2).

——— 2015 上下文語境對留學生漢字書寫偏誤的影響因素分析[J].語言教學與研究(5).

——— 2021 英美高級學生別字書寫研究及理論特點蘊含[J].語言教學與研究(5).

On the construction of an interlanguage database of Chinese characters of

international students: The case of Chinese character database of

international students of Sun Yat-sen University

ZHANG Ruipeng

(Chinese Department, Sun Yat-sen University, Guangzhou, Guangdong 510275, China)

Key words: interlanguage character database; construction; corpus attribute; tagging; function

Abstract: At present, there are relatively few researches on constructing an interlanguage database of Chinese characters of international students. Taking as an example of the whole-process interlanguage database of Chinese characters of international students in Sun Yat-sen University, this paper discusses some problems in the process of the construction of the database: the realness and naturalness of corpus? which is the basic property, the continuity and wholeness of corpus which is beneficial to longitudinal and progressive research, and the tagging content of intermediate characters which should include the tagging of wrong characters, similar characters, different characters and non-standard characters. The tagging methods and norms of error types and error causes are discussed in detail. At the same time, it is emphasized that the tagging should follow the scientific and progressive nature. The paper also introduces the function and the value of database and puts forward some useful methods and suggestions in the process of database construction.

【責任編輯 劉文輝】

[收稿日期] 2021-03-17

[作者簡介] 張瑞朋,女,中山大學中文系副教授,主要從事語言學及應用語言學研究。電子郵箱:36278393 @qq.com。

[基金項目]國家社科基金項目“留學生全程性中介字字庫建設及漢字習得研究”(16BYY106)

猜你喜歡
功能建設
在建設旅大特殊解放區(qū)的日子里
數(shù)學的翻譯功能
寒露
質(zhì)量建設永遠在路上
關注基向量的解題功能
2IN1廚房漏斗
保障房建設更快了
我有特異功能
功能關系的理解與應用
功能關系面面觀
廊坊市| 松阳县| 岳池县| 济阳县| 紫金县| 荣成市| 前郭尔| 临高县| 阿荣旗| 桑植县| 延长县| 琼中| 柳林县| 广饶县| 东兰县| 隆子县| 汉沽区| 泰州市| 万安县| 武陟县| 大新县| 平南县| 水富县| 江陵县| 莲花县| 奇台县| 郁南县| 南京市| 岗巴县| 樟树市| 馆陶县| 鱼台县| 绥德县| 白城市| 织金县| 奎屯市| 衢州市| 上思县| 凤凰县| 沂南县| 临安市|