譚正嬌 王文文 余曉鈴
(云南大學 云南 昆明 650000)
國內漢語中介語語料庫建立于1995年,建立之初的特點是盡量搜集語料,但對語料的深度分析和挖掘做得不夠。隨著計算機技術的發(fā)展和成熟,漢語中介語語料庫呈現出新的特點:語料挖掘更加細致,注重用戶體驗,從不同角度建庫,口語語料庫建設得到重視……這些變化都促進漢語中介語語料庫朝著更好的方向發(fā)展。
語料庫是以計算機為載體承載語言知識的基礎資源,其中存放的是在語言的實際使用中真實出現過的語言材料,這些語言材料經過人工處理,最終變成可供使用分析的基礎資源。世界上第一個語料庫是1963年在美國建成的布郎家族語料庫(Brown Corpus),布朗家族語料庫選取了1961年美國出版的各類刊物(小說、期刊等)共500個樣本,每個樣本選取約2000個詞,共計100萬個詞,并按照布朗大學的圖書分類進行目錄分類,層級清晰、系統(tǒng)完善——先把整個語料庫分為兩個大類,再對這兩個大類進行更加精細化的分類,類似于一個蛛網,從中間點不斷向外延伸擴展。[1]我國的漢語中介語語料庫建設靈感就來源于布朗家族語料庫,其建庫方法、選材等都成為國內中介語語料庫的靈感來源。
漢語中介語語料庫以母語為非漢語者的書面學習材料為研究對象,通過全面地記錄學習者的書面語言,經過計算機分析,得出學習者學習漢語過程中出現的單項和綜合信息,最終豐富國際中文的教學理論基礎。通過語料庫客觀分析得出的結論信度較高,更有說服力,區(qū)別于以往語言研究僅憑“語感”得出的結論。
國內于1993年正式提出構建漢語中介語語料庫的設想,在此之前,對語料的搜集整理存在著以下局限:(1)收錄的語料僅是留學生的病句、錯句,語料收集不完整。(2)由于語料收集不成系統(tǒng)和規(guī)模,可能導致得出的理論存在一定偏頗。[2]第一個漢語中介語語料庫于1995年在北京語言學院正式建成,填補了漢語中介語語料庫研究方面的空白,在漢語作為第二語言教學領域里取得了開創(chuàng)性成果。[3]
語料庫作為一種新的研究手段,有著很廣闊的應用前景。首先,它可以盡量詳盡地收集學習者的口語、書面語作為研究材料,為國際中文的理論研究提供語料支持;其次,語料庫詳盡地占有語料后,可以為老師的教、學生的學提供教學資源;再次,由語料庫衍生的語料庫語言學,不僅可以為語料庫研究提供支持,還能為社會學、歷史學等學科研究提供幫助;最后,數據分析統(tǒng)計軟件和語音轉寫軟件的開發(fā),豐富了語料庫建設、研究的手段,降低了語料庫建設過程中需要消耗的人力物力。
目前,國內國際中文中介語研究熱點大致分為語料庫建設、基于語料庫的研究和語料庫檢索分析軟件的開發(fā)三大模塊。
1.語料庫建設
自1995年第一個漢語中介語語料庫建成以來,“語料庫建設”這一課題逐漸成為熱點,國內知名的漢語中介語語料庫(已建成且對外開放)包括:
(1)“HSK動態(tài)作文語料庫”——北京語言大學。該庫的特點是:收集了1992—2005年間HSK考試中部分考生的作文語料,共計11569篇語料424萬字,是目前國內最大的中介語語料庫;最早公開偏誤標注規(guī)范,其后新建語料庫的偏誤標注均以HSK動態(tài)作文語料庫為范本,再根據實際需要加以改進。
(2)“留學生漢語中介語語料庫”——暨南大學。該語料庫的特點是:可以根據兩個詞之間的間距進行檢索,如“不但”“而且”間隔距離為5個詞;根據句子中的包含關系進行檢索,如含有“我們”且“他們”的句子。
(3)“中山大學中介語語料庫”——中山大學。該語料庫把偏誤標注分類為“漢字偏誤標注版”和“字、詞、句偏誤標注版”,“錯字語料庫”是該語料庫的一大特點,用戶可以在其中搜索到“中山大學中介語語料庫”里所有錯字的使用情況。
(4)“臺灣師大漢字偏誤庫”——臺灣師范大學。該語料庫是專門針對漢字繁體字偏誤創(chuàng)建的語料庫。
2.基于語料庫的研究
蔡武2017年通過CiteSpaces5.0對國內漢語中介語語料庫進行可視化分析,從發(fā)文時間、期刊分布、發(fā)文機構等方面考量,認為自“2013年開始,關于漢語中介語語料庫的論文數量急劇增長,發(fā)文機構、作者相對集中”“形成了偏誤分析與習得研究、語料庫建設研究和基于國別化的學習者研究是該領域發(fā)展的三大熱點”等結論。[4]偏誤分析與習得研究偏向于二語學習者在學習目的語的過程中產生的偏誤研究,語料庫建設研究著重點在如何合理建設中介語口語語料庫和書面語語料庫,國別化的學習者研究則是通過劃分學習者的國籍,區(qū)分不同國家的學習者在學習漢語時產生的不同偏誤。2015年,漢語“中介語語料庫”建設漸成高潮。[5]在中國知網(CNKI)以關鍵詞“對外漢語”“中介語語料庫”進行搜索,共找出相關期刊、碩博論文559篇,從2015年1月1日至2020年11月20日,共有論文成果250篇,年平均增長量遠超過去23年(1993年1月1日至2014年12月31日)。
3.語料庫檢索、分析軟件的開發(fā)
語料庫建成之后,如何最大限度地利用變成了首要問題。對語料庫不熟悉的人都認為從事語料庫相關工作需要強大的計算機技術,其實不然。我們大部分時間做的工作是如何把語料庫當作一個工具,利用它來研究其他東西,因此大部分語料庫使用者需要的是簡單、強大、易上手的檢索分析軟件。目前在國內,AntConc、PowerConc等是比較熱門的軟件,以AntConc為例,該軟件有以下優(yōu)點:一是不需要強大的計算機專業(yè)背景知識,大部分人很快就能學會如何使用;二是文本導入后可以生成關鍵詞表,統(tǒng)計詞匯出現的頻率并自動保存;三是檢索項分為初級檢索和高級檢索,用戶能根據自己的實際需求設置檢索級別。
張寶林認為,以2018年用計算機語言形成新的語料庫軟件系統(tǒng)開發(fā)為界,我國的漢語中介語語料庫可以分為1.0時代和2.0時代。[6]1.0時代是漢語中介語語料庫的奠基期,這一時期的語料庫擁有大量的語言材料,但由于計算機技術等條件限制,擁有的語言材料沒能被很好地加工轉化成規(guī)范的語料以供進一步研究,是“粗放型”的語料庫,此外,還有系統(tǒng)漏洞多、查詢條件設置不合理等缺憾。自2018年1月開始,用計算機語言處理大量繁雜的初始文字資料,大大提高了工作效率,中介語語料庫正式進入2.0時代。2.0時代在繼承了1.0版優(yōu)勢的基礎上,還著重于優(yōu)化用戶體驗,增強系統(tǒng)穩(wěn)定性。
目前國內的中介語語料庫建設還有以下幾個特點:
1.語料來源方面
一是來源于教師在教外國留學生的過程中,留學生提交的書面作業(yè);二是來源于學生在實習過程中收集到的語料。
在這一過程中,語料庫呈現出以下特點:(1)語料大部分是學習者以書面語呈現出來的材料,如遣詞造句、小作文等。(2)語料庫來源大部分是初、中級學習者,原因是目前在學習漢語的外國人當中,初、中級學習者占大部分比例,零基礎和高級學習者占比較少。(3)語言原材料大多數是對同一階段的學生進行集體性材料收集,少有針對某一個學習者的追蹤調查。
2.建庫方面
(1)國內大部分中介語語料庫還是書面語語料庫,少有對學習者口語語料進行收集整理和研究的語料庫,國內最先開展口語語料庫建設的是暨南大學,但尚未對外開放。(2)大部分國際中文教師沒有意識到語料庫建設的重要性,一線教師沒有收集語料的習慣,導致語料流失。
3.其他方面
(1)基于語料庫的研究僅限于少數方面,如偏誤分析、中介語研究等,其他方面少有涉及。(2)目前國內針對漢語中介語檢索的軟件過少,導致千辛萬苦建起來的語料庫最終因為“不好用”而被遺棄,沒有達到最初建庫的目的。
雖然國內中介語語料庫建設和使用還存在較大空白,但中介語語料庫的建設無疑會給國際中文專業(yè)帶來正面影響:
建設中介語語料庫,可以為國際中文的學科發(fā)展提供理論知識和數據支持。語料收集、語料庫建設、語言教學是一個良性循環(huán)的過程——在教學中收集到的語料可以用于語料庫建設,語料庫建設過程中產生的問題和成果可以用作后續(xù)實際教學的理論支撐。另外,語料庫中的語料全部來源于真實的書面語或者口語材料,這為有關學者編寫國際中文教材提供了貼近真實生活的材料,因此,國內在漢語中介語語料庫建設方面還大有可為。
教師在教學中可以把語料庫當作一本“在線詞典”,遇到不好向學生解釋的語法點,就能利用語料庫中的語料加以辨析。如教授“拉”和“牽”,運用圖片加語料庫語料的教學辦法,能讓學生更好地理解知識點。另外,教師在教的時候可以有意識地向學生展示如何使用語料庫進行學習,當學生的知識儲備達到一定層次,就可以探索式地自我學習,以獲得更好的學習效果。
學生學會使用語料庫之后,可以自己嘗試對一些知識點進行總結歸納,再由教師糾偏,這樣不僅能激發(fā)學生的學習興趣,還能提高學習效率。
學習者通過訪問中介語語料庫,可以為自己的學術研究找到對應的理論支撐(如韓國留學生可以找到韓國相關的語料),還可以通過對前人學習過程的總結歸納,總結出一套適合自己甚至適用于本國留學生的學習方法,為本國學生學習漢語掃平一些障礙。
評價一個專業(yè)是否有研究前景和應用價值,要看它是否具有相關理論支撐和技術支持。國內漢語中介語語料庫迄今已走過25年時光,每一次進步都離不開計算機技術的發(fā)展,各類統(tǒng)計、分析、轉寫軟件技術的日趨完善,使軟件技術在語料庫建設中起到了不可替代的作用。從建設語料庫需要用到的HunAlign、WinAlign等工具,到檢索語料庫用到的Antconc、Powerconc等軟件,語料庫建設依托于計算機軟件的開發(fā),正發(fā)生著日新月異的變化。但語料庫建設始于國外,很多理論和軟件都是由國外研發(fā)并先行使用,這些軟件更適用于外語語料庫建設。國內針對中介語語料庫的寫入、輸出、檢索等軟件都還留有大片空白等待被填補。只有不斷優(yōu)化升級相關軟件,讓語料庫建設和使用過程變得更加經濟方便,才能最終造福于我們的語料研究工作和國際中文教學事業(yè)。
目前,國內缺少對于口語語料的收集和分析整理。究其原因,是因為口語具有瞬時性的特點,難以收集,口語語料在收集完之后還要花費大量時間轉寫成書面材料,雖然現在有語言轉寫軟件,但還需人工校對,費時費力;此外,受緊張、壓力、提前準備考試等因素影響,從HSK考試中收集的口語語料,很難準確體現出學習者真實的學習情況變化。從學習者日常交談會話中選擇語料,雖然能反映出學習者的真實水平,但很可能涉及個人隱私,即使學習者同意將語音材料用于研究,也不能大范圍對外開放。
國際中文的教學目標是讓學習者先運用漢語進行日常交際,其次才是書面寫作,加強漢語口語語料庫的建設,對本學科發(fā)展大有裨益。張寶林在2012年提出建設“全球漢語中介語語料庫”的計劃,得到了大力支持,“全球”即“語料來自全球、全球共建、全球共享”[7],可以預見全球漢語中介語語料庫建成之后,我國的國際中文教學事業(yè)將會前進一大步。
另外,國內論文數據分析還是比較依賴外國的數據分析軟件,我國自主研發(fā)的軟件占比較少,針對性地進行軟件研發(fā),對國內的論文數據分析將會起到錦上添花的效果。