摘要:基于文獻計量工具CiteSpace,從整體趨勢及特征、高產(chǎn)機構及核心作者群、研究熱點主題及趨勢四個方面,對近二十年來發(fā)表于國內(nèi)期刊的513篇我國基于語料庫的日本學研究成果進行了系統(tǒng)分析,以期探尋研究趨勢,進一步推動我國語料庫研究。研究表明:(1)缺乏學術共同體意識,發(fā)表在國內(nèi)高水平期刊的研究成果不多,期待多角度、多層次的學術合作及相關技術的創(chuàng)新。(2)書面語語料庫比口語語料庫運用更廣泛、更頻繁。(3)研究熱點呈現(xiàn)從詞匯向篇章過渡,從詞匯、句型表達研究向翻譯學、話語分析等領域過渡的多樣化趨勢。
關鍵詞:日本學研究;語料庫;CiteSpace;可視化分析
中圖分類號:H0-05;H36文獻標識碼:A文章編號:2095-6916(2023)13-0173-04
A Corpus-Based Bibliometric Analysis
of Japanese Studies in China (2002-2022)
Qiu Yan1,2
(1. Xian International Studies University, Xian 710128;
2. College of Foreign Languages, Hunan University of Technology, Zhuzhou 412007)
Abstract: Based on the bibliometric tool CiteSpace, this paper systematically analyzes 513 corpus-based research results of Japanese Studies in China published in domestic journals in the past two decades in terms of the overall trend and characteristics, high-yield institutions and core author groups, research hot topics and trends of the research, with a view to exploring the research trend and further promoting the development of corpus-based research in China. The study shows that: (1) there is a lack of academic community awareness, and few researchs results have been published in domestic high-level journals, and there is a need for academic cooperation and technological innovation from multiple perspectives and at multiple levels; (2) Written corpus is more widely and frequently utilized than spoken corpus; (3) The research hotspots show a diversified trend from vocabulary to chapter, from vocabulary and sentence expression research to translation and discourse analysis and so on.
Keywords: Japanese Studies; corpus; CiteSpace; visualized analysis
世界上第一個平衡語料庫——布朗語料庫自二十世紀六十年代初在美國布朗大學誕生,語料庫的出現(xiàn)給語言研究帶來的一大變化是其重構了定性研究和定量研究的關系。一直以來,定性研究和定量研究容易被認為是對立的關系,但其實將兩者理解為互補關系更合適。如Leech[1]提到語料庫語言學的特征時強調(diào)的是“質(zhì)”與“量”的兼容性,即不僅可以構建質(zhì)的(qualitative)語言模型,還可以構建量的(quantitative)語言模型。使用語料庫進行研究可以用提取的數(shù)據(jù)對研究對象進行定量分析和全面地描述,繼而把握數(shù)據(jù)的整體情況。語料庫的出現(xiàn)填補了母語者和非母語者在語料使用、檢索方面的信息溝壑,使非母語者對目標語言的研究變得容易。
黃水清、王東波[2]總結了近三十年國內(nèi)語料庫的研究與建設,從定量和定性兩個角度總結概括了語料庫的研究變化及研究熱點,并對其在語言教學及信息檢索等領域的應用現(xiàn)狀進行了闡述。孫成志、柳瑞松[3]在對近十二年國內(nèi)日語語言研究回顧中,發(fā)現(xiàn)語料庫在日語語言研究中的工具性越來越得到重視,這“從研究方法和研究范式的角度拓寬了傳統(tǒng)日語語言研究的范疇”,但該研究未進一步對基于語料庫的研究現(xiàn)狀作詳細的論述。
為厘清近二十年來國內(nèi)基于語料庫的日本學研究的發(fā)展脈絡和方向,筆者依托中國知網(wǎng)(CNKI)收錄的所有期刊,在高級搜索中以“語料庫*中日”or“語料庫*漢日”or“語料庫*日語”or“語料庫*日本”為主題詞進行檢索,運用文獻計量工具CiteSpace總共檢出文獻664篇,在對所獲取的數(shù)據(jù)進行手動篩選處理之后,最終得到有效文獻513篇。本文擬對檢索到的數(shù)據(jù)進行可視化分析,以期為國內(nèi)基于語料庫的日本學研究提供參考和借鑒。
一、研究設計
因為本研究旨在考察基于語料庫的日本學研究,所以對象并不局限于外語類期刊,涉及知網(wǎng)收錄的所有期刊文獻(不含報紙、學位論文和會議論文)。文獻檢索以“語料庫*中日”or“語料庫*漢日”or“語料庫*日語”or“語料庫*日本”為主題詞,文獻收錄時間覆蓋2002年1月1日至2022年11月15日。數(shù)據(jù)采集分為以下兩個步驟:首先,在知網(wǎng)通過檢索獲取文獻數(shù)據(jù)后,以逐一閱讀的方式人工剔除不相關的通訊類信息及非研究類論文,比如書評、會議報告、論文綜述及語料庫介紹等,最終獲得513篇有效論文數(shù)據(jù)。其次,下載相關論文的題錄資料,包括論文題目、作者、作者單位、關鍵詞,以Refworks格式導出,以備CiteSpace軟件進行數(shù)據(jù)處理。
CiteSpace(引文空間)是一款引文可視化分析軟件[4]。該軟件可應用于科學文獻中來識別與跟蹤研究領域的演變并進行可視化展示,采用宏觀計量與微觀計量相結合的方式為科學發(fā)現(xiàn)提供參考,探究并顯示科學發(fā)展新趨勢和新動態(tài),同時幫助預測該研究領域的未來發(fā)展走向。借助該工具對上述513篇基于語料庫的日本學研究相關論文的題錄信息進行可視化分析,以此對近二十年來國內(nèi)相關方面研究進行回顧及展望。
二、數(shù)據(jù)分析及討論
(一)總體趨勢與特征
從發(fā)文年代分布來看,國內(nèi)基于語料庫的日本學研究始于2002年。1999年,北京外國語大學的徐一平教授獲批“中日對譯語料庫的研制與應用研究”項目,并在2002年成功地建立了中日對譯語料庫。這一成果可謂是世界首創(chuàng),是我國語料庫建設與研究的里程碑,同時也為國內(nèi)基于語料庫進行日本學研究奠定了基礎。2002—2007年這6年間,我國基于語料庫的日本學研究發(fā)展緩慢,年平均文獻量不超過2.3篇,這一結果與日語語料庫的發(fā)展緩慢歷程息息相關。雖然日本國立國語研究所自二十世紀五十年代就開始進行書面語、口語的實態(tài)調(diào)查,但遺憾的是未能發(fā)展成語料庫,一直到九十年代,日本才開始進入語料庫建設階段。2008年至2017年這十年間,基于語料庫的日本學研究得到顯著發(fā)展,文獻量呈現(xiàn)出逐年增加的態(tài)勢。年平均發(fā)文量28.5篇,到2017年,基于語料庫進行日本學相關研究的期刊論文數(shù)達到56篇之多。這得益于數(shù)據(jù)驅(qū)動的自然語言處理、機器深度學習和文本挖掘等技術的進步。但2017年之后發(fā)文量徘徊間續(xù)起伏,出現(xiàn)瓶頸現(xiàn)象??傮w上來說,我國基于語料庫的日本學研究成果持續(xù)增長,相信未來也將保持增長的態(tài)勢。
(二)高產(chǎn)機構及核心作者群
將CiteSpace時間跨度設置為2002—2022年,時間切片為2年,得到作者共現(xiàn)網(wǎng)絡知識圖譜和機構共現(xiàn)網(wǎng)絡知識圖譜,結果顯示高產(chǎn)作者為李光赫、毛文偉,劉玉琴、鄒善軍、孫成志等人尾隨其后,他們屬于國內(nèi)該研究領域的代表人物。發(fā)文量比較靠前的研究機構為大連外國語大學、大連理工大學和上海外國語大學,說明這三所機構在基于語料庫進行日本學研究中學術科研力量較強。以大連理工大學外國語學院李光赫為首,劉玉琴、鄒善軍等人一起形成學術共同體雛形,產(chǎn)出了較多研究成果。但是其他幾位高產(chǎn)學者及機構之間合作較少,單獨節(jié)點的作者及機構較多,表明我國學者及機構在基于語料庫進行日本學研究上溝通、合作意識不足,學術共同體建設亟待加強。
(三)研究熱點主題
研究熱點反映該領域研究的重點及方向,對于深入了解分析該領域的研究內(nèi)容有重要意義。關鍵詞是一篇文獻核心內(nèi)容的凝練及提煉,從該領域關鍵詞的頻率高低可以推測該領域的研究熱點所在。因此,本文對關鍵詞進行聚類分析,以明晰語料庫日本學研究的熱點。運行CiteSpace,在關鍵詞知識網(wǎng)絡圖譜的基礎之上,選取了LLR算法,得到關鍵詞聚類網(wǎng)絡知識譜圖,其中,Q值及S值均大于0.5,說明得到的聚類結構顯著且是合理的。通過對關鍵詞聚類網(wǎng)絡知識圖譜統(tǒng)計分析發(fā)現(xiàn),國內(nèi)基于語料庫與日本學相關的研究集中在外語教學、漢日對比、日語本體研究和語料庫的建設與創(chuàng)新四個領域。
1.外語教學領域
外語教學研究涵蓋了教學模式與教學內(nèi)容、教材分析、二語習得等,研究主題范圍最為廣泛??梢暬铂F(xiàn)知識圖譜及關鍵詞分析顯示,與“外語教學”密切相關的關鍵詞包括“中介語”“偏誤分析”“二語習得”等,由此可知相關研究領域為四個方面:
(1)對日本留學生的母語遷移及偏誤進行分析。該領域的研究多借助于漢語中介語語料庫,如HSK動態(tài)作文語料庫。該語料庫囊括了1992年以來歷年參加HSK高級寫作考試的部分母語非漢語的外國人的答題數(shù)據(jù)?;谠撜Z料庫分析日本留學生漢語習得時出現(xiàn)的偏誤情況,涵蓋漢語書寫、詞匯習得、句型表達等方面,歸納偏誤的種類與特點,分析其產(chǎn)生的原因,提出相應的教學建議。
(2)中國日語學習者二語習得分析。利用學習者語料庫的考察結果,發(fā)現(xiàn)中介語的語言特點和學習者存在的問題,并針對性地加以解決。毛文偉基于詞匯構成及句長等指標,在和本族語語料庫的考察結果進行對照的基礎上,對中國日語學習者作文詞匯及表達方式中介語特征進行了考察。
(3)教學模式改革的研究。該領域研究嘗試將語料庫研究結果和句型、詞匯、翻譯等教學進行有機結合。彭玉全結合教學實踐分析了語料庫在日語句型教學中應用的可能性。吳桐和董鑫提出將語料檢索系統(tǒng)引入寫作課程教學中,增加地道的詞語搭配,提升學生的自主寫作能力。
(4)基于語料庫的教材研究。楊秀娥和陳俊森基于日語教材語料庫發(fā)現(xiàn)語法項目的導入、解說和練習編排不符合學習者的習得情況,針對這些問題提出相應的改進策略。毛文偉結合本族語語料庫與學習者語料庫聚焦教材編寫問題。付晨曦借助日語書面語均衡語料庫發(fā)現(xiàn)教材中關于「べきだ」句型的共現(xiàn)表達形式、動詞和副詞的介紹存在偏差。
2.漢日對比領域
漢日對比研究對象涵蓋了語音、文字、詞匯、語法、語用學等方面??梢暬瘓D譜顯示,基于語料庫的與漢日對照這一聚類相關性較強的關鍵詞包括詞語搭配、中日同形詞等,通過對這些關鍵詞進行分析歸類,多維度地為易混淆中日同形詞、句型的中日對譯辨析起到了參考及借鑒作用。漢日對比研究主要集中在兩個方面:一是詞匯方面。代薇和張娜以詞典及中日對譯語料庫中的例句為基礎,揭示了漢語連詞與日語并列助詞之間存在的對應而不對等的關系。華迪圣、王燦娟基于語料庫中日同形詞進行了辨析,并利用抽樣統(tǒng)計明晰了各義項的分布情況。二是句型表達方面?;谥腥諏ψg語料庫對句型進行對比研究。張斌等對日漢因果復句進行了對比研究。姬彩彤和李光赫考察了條件句不同的翻譯傾向及對譯句式的特點。
3.日語本體研究
該領域多集中于近義詞的詞語搭配及句型表達研究。劉艷偉和劉玉琴以近義詞「文句」和「苦情」為例,提出從詞語搭配統(tǒng)計值來探討日語近義詞詞典編纂的新方法。朱鵬霄對現(xiàn)代日語動詞連用形重復與「ながら」句式在生成條件、語義范圍、句法功能、主語出現(xiàn)等方面進行了對比研究。
4.語料庫的建設與創(chuàng)新
譚晶華和毛文偉對中國日語學習者語料庫CLJC的建構及應用前景展開了探討。于康、田中良和高山弘子致力于“TNR漢日日漢翻譯語料庫”研發(fā)工作及對如何將其應用于翻譯教學進行了探討。雖然有部分研究致力于日語寫作課程、視頻、口譯、聽力等語料庫的構建,但是語料庫的建設是一項及其耗費人力、物力和財力的工程,因此這些語料庫的建設規(guī)模較小,僅僅止步于初探。
(四)研究趨勢
借助CiteSpace對相關文獻的關鍵詞隨時間變化的情況進行定量分析,形成關鍵詞時序圖反映了研究主題隨時間變化的走向,能夠在一定程度上反映該領域的研究趨勢。
結果顯示基于語料庫的日本學研究在不同時期關注點不同,可以將該領域的研究成果分為三個時間段,以更好地觀察我國在該領域的發(fā)展。
1.初創(chuàng)期(2002—2008年)。這段時間是我國運用語料庫進行日本學研究的起步發(fā)展時期,由于新技術的出現(xiàn),傳統(tǒng)語言學研究者們對這一新興學科的了解也不甚詳細,勢必會有磨合期,該階段研究雜亂未成系統(tǒng)。
2.繁榮期(2009—2014年)。在這一時期,我國學者運用語料庫進行日本學研究的成果逐漸增多,主要集中在外語教學、漢日對比、日語本體研究等領域。
3.轉(zhuǎn)換期(2014—)。出現(xiàn)了運用語料庫進行篇章的研究,比如翻譯學研究、話語分析等均有涉及。于菲將語料庫與翻譯研究相結合關注譯者的翻譯風格特征。劉曼借助文本挖掘軟件對新聞語料庫進行分析,闡明了日本主流報刊對“一帶一路”的認知變化及其原因。在這一時期,不僅研究領域發(fā)生了擴展,語料庫的形式有了新的變化。例如口語語料庫的建構帶來了禮貌等新的研究方向,為人機互動研究提供言語行為、語言要素和話題展開模式等相關依據(jù)。除此以外,語料庫從以前單一的純文本語料演化到現(xiàn)在多模態(tài)視頻語料,被廣泛運用于語音學習、同聲傳譯教學,可以多模態(tài)地分析言語行為、句型表達等。
三、結語
本文基于文獻計量工具CiteSpace對近二十年國內(nèi)基于語料庫的日本學研究現(xiàn)狀進行了科學知識圖譜分析,從中得到如下三個方面的啟示:
第一,從目前研究性論文的發(fā)文量來看,整體上呈現(xiàn)出逐年遞增的趨勢,但是近5年出現(xiàn)了瓶頸期。從高產(chǎn)機構及核心作者群來看,無論是機構還是作者,之間連線數(shù)量較少,說明相互之間缺乏合作意識,今后應該加強合作,建立學術共同體,擴展研究范圍,鼓勵跨學科研究,促進學科融合,使研究更加全面化?;谡Z料庫的研究,國內(nèi)高水平的期刊基本還是以英語為主,關于日本學研究的論文較少,這從側(cè)面反映出研究范式的創(chuàng)新程度和工具技術革新需要進一步加強。
第二,從語料來源來看,所用語料均以書面語研究為主,較少使用口語語料庫。自建語料庫的研究語料多源自于文學作品或者譯本、新聞報道、政府工作報告等文本?,F(xiàn)在口譯語料庫、視頻語料庫的出現(xiàn)為研究者們提供了多維度研究的渠道,但語料較少,應用面較窄仍為一大問題。未來研究可增加口語語料的收集與研究。同時,近年來高考日語人數(shù)不斷增加、出于個人興趣在培訓機構接受日語教育的人數(shù)逐年增加,日語學習者構成結構、學習目的呈現(xiàn)多元化,針對不同年齡段日語學習者語料庫的構建及相關研究都會成為研究熱點。這些研究的落地,迫切需要研究者及研究機構更多地進行橫向交流合作。
第三,從研究熱點及趨勢來看,從詞匯向篇章過渡,從本體研究詞匯、句型表達研究向翻譯學、話語分析等領域過渡,呈現(xiàn)出多樣化的趨勢。國內(nèi)基于語料庫的研究要多關注高層次期刊同類研究或類似研究所使用的新型研究方法,跳出傳統(tǒng)對比分析研究方法的藩籬。就現(xiàn)階段來看,高水平同類研究中較廣泛使用多因素數(shù)據(jù)分析和可視化方法,而日本學研究仍舊局限于傳統(tǒng)的漢日對比等研究領域,希望未來可以嘗試新方法,開拓新領域。
參考文獻:
[1]LEECH G.Corpora and Theories of Linguistic Performance[M]//SVARTVIK J.Directions in Corpus Linguistics.Berlin:Mouton de Gruyter,1992:105-22.
[2]黃水清,王東波.國內(nèi)語料庫研究綜述[J].信息資源管理學報,2021(3):4-17,87.
[3]孫成志,柳瑞松.基于CiteSpace的日語語言研究的知識圖譜分析(2009—2020)[J].遼寧師范大學學報(社會科學版),2021(2):109-115.
[4]李杰.CiteSpace中文版指南[EB/OL].2015:5[2021-11-17].
http://cluster.ischool.drexel.edu/~cchen/citespace/manual/
CiteSpaceChinese.pdf.
[5]孫成志.基于語料庫的漢日新聞語篇轉(zhuǎn)述話語對比研究:以“英國脫歐”為例[J].日語教育與日本學,2020(2):1-11.
作者簡介:邱妍(1987—),女,漢族,湖北武漢人,西安外國語大學博士研究生在讀,湖南工業(yè)大學外國語學院講師,研究方向為日語語言學。
(責任編輯:王寶林)