国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

語料庫在中國的研究發(fā)展與趨勢

2017-05-31 09:12:32劉皓
現(xiàn)代交際 2017年8期
關鍵詞:文獻計量學語料庫

劉皓

摘要:中國語料庫的研究歷經了30多年的發(fā)展,已經取得了長足的進步,并呈現(xiàn)出了一定的發(fā)展趨勢。本文通過文獻計量法分析語料庫在中國的研究發(fā)展趨勢:整理了中國知網(CNKI)1982年至2016年與語料庫研究有關的文獻11056篇;對文獻年度數(shù)量、文獻來源、研究層次、研究學科、發(fā)表機構、論文作者、科技成果、經費支持、人才培養(yǎng)等進行了詳細分析。將語料庫研究在中國的發(fā)展劃分為3個階段:1982年至1999年的萌芽階段,2000年至2010年的快速增長階段,2011年至2016年的高速成長階段??偨Y和探索了語料庫在中國的研究變化趨勢,指出目前語料庫研究存在的不足。旨在進一步服務和推動中國語料庫研究的持續(xù)健康發(fā)展。

關鍵詞:文獻計量學 CNKI 語料庫

中圖分類號:H0 文獻標識碼:A 文章編號:1009-5349(2017)08-0170-04

語料庫語言學是在文本語料的基礎上進行語言研究的一門學科(楊惠中,2002),被稱為結構主義語言學派與功能主義語言學派,“兩陣對壘天平上的一個舉足輕重的砝碼”(劉楊,2009),亦是語言學科中飆升最快的學科之一?,F(xiàn)代大型電子語料庫及相關研究,始于20世紀60年代大西洋兩岸。今年是世界上第一個機讀英語語料庫(布朗語料庫,Brown Corpus)建立50周年的時候。50年來,西方學者在語料庫研究成果應用方面已積累了大量的經驗,以語料庫為基礎的語言學研究在語言學和計算機科學研究中都取得了豐碩的成果,語料庫的建設得到了世界各國的廣泛重視。世界上的主要語言都建立了許多不同規(guī)模、不同類型的語料庫,語料庫的加工程度越來越深,語料庫的應用范圍也越來越廣,語料庫在語言學研究和自然語言處理中發(fā)揮了越來越重要的作用。語料庫已經成為現(xiàn)代語言學研究的重要基礎,在語法書編寫、詞典編纂、教育教學上都有諸多經典案例。

20世紀80年代以來,隨著計算機應用技術的不斷發(fā)展,在中國,語料庫語言學從萌芽到蓬勃發(fā)展。30多年來,中國的語料庫語言學者篳路藍縷,從草創(chuàng)到開拓,從試驗到創(chuàng)新,功不可沒。他們創(chuàng)建語料庫,培育團隊,立足本土開展語料庫應用,引介與創(chuàng)新并重,如今已成果繽紛,蔚然可觀。(《語料庫語言學》發(fā)刊詞,2014)

文獻計量分析對把握特定領域的研究進展和研究熱點有很好的效果,與傳統(tǒng)經驗判斷的方法相比能夠得出更為客觀可信的結論。(翁勝斌,2013)中國知網(CNKI)是目前國內最具權威的數(shù)字圖書館之一,中國知網(CNKI)幾乎囊括了所有國內發(fā)行的相關文獻資料。因此,本文將以知網(CNKI)作為研究數(shù)據庫,將語料庫作為關鍵詞進行全范圍搜索,通過搜索結果進行分類及人工檢驗,采用文獻計量法,從載文分析、研究層次、研究學科以及文獻來源等方面,對30年來我國語料庫語言學研究成果進行了系統(tǒng)的分析總結,探索語料庫在我國的研究變化趨勢,以期進一步服務和推動我國語料庫研究的持續(xù)健康發(fā)展。

一、數(shù)據來源及研究方法

數(shù)據來源:中國知網(CNKI),文獻總數(shù):11056篇;檢索條件:發(fā)表時間在1980年1月1日,到2016年12月31日并且(關鍵詞=語料庫不包含關鍵詞=語料)或者[題名=中英文擴展(語料庫)并且題名=中英文擴展(語料)精確匹配],專輯導航:哲學與人文科學,社會科學Ⅰ輯,社會科學Ⅱ輯,信息科技,經濟與管理科學。數(shù)據庫種類:期刊、特色期刊、國際會議、國內會議、博士論文及碩士論文等。

本文主要采用文獻計量法,從以下9個方面進行全面分析。

二、語料庫文獻計量分析

(一)載文分析

在中國對語料庫的研究是從20世紀80年代初興起的。檢索結果顯示,1982年由楊惠中和黃人杰聯(lián)合撰寫發(fā)表在《外語教學與研究》的“JDEST科技英語計算機語料庫”是國內最早研究語料庫的公開文獻。

總體來看,1982年以來,中國語料庫研究相關文獻數(shù)量呈現(xiàn)不斷上升趨勢(圖1),據此可將中國語料庫研究劃分為三個階段:

第一階段(1982—1999年):萌芽階段。我國語料庫研究發(fā)展特征為文獻數(shù)量少(文獻148篇,占比13%),這期間,研究機構理工院校居多,清華大學、哈爾濱工業(yè)大學、國防科學技術大學、華中理工大學等都在其列。文獻前三者依次為清華大學、北京郵電大學和南京大學;涉及的學科有12個,位居前三位的是計算機軟件及計算機應用(328%)、中國語言文學(322%)和外國語言文學(198%)。

第二階段(2000—2010年):我國語料庫研究快速增長(文獻3718篇,占比337%)。文獻總數(shù)較第一階段增長了25倍,特別是碩博論文由2篇增加到900篇;涉及的學科有40余個,位居前三的為外國語言文學(573%)、中國語言文學(250%)和計算機軟件及計算機應用(133%);研究機構中外國語大學和師范院校有了顯著的增加,文獻前三者依次為大連海事大學、上海交通大學和北京語言大學。

第三階段(2011—2016年)為高速發(fā)展階段(文獻7190篇,占比650%),文獻數(shù)量呈指數(shù)型增長態(tài)勢;外國語言文學(658%)、中國語言文學(267%)和計算機軟件及計算機應用(51%)仍位居前三,但涉及的學科更多。比如:貿易經濟、汽車工業(yè)、體育及宗教等;研究機構的絕大多數(shù)是外語和師范院校,大連海事大學、上海交通大學仍占據文獻前三者。這期間隨著科學研究者的增加、各領域多元化的發(fā)展趨勢以及充分的技術支持,從2011年起,每年的文獻增加量趨于高速穩(wěn)定狀態(tài),2014年達到了峰值(1326篇)。由此可知,國內關于語料庫的研究隨著時間流逝而愈加成熟,這是學術類科學研究最健康的體現(xiàn)趨勢。

(二)研究層次

在中國有關語料庫的研究主要集中在哲學與人文科學(845%)、信息技術(103%)、社會科學(38%)等三大領域;基礎科學(自然)、工程技術、農業(yè)技術、醫(yī)療衛(wèi)生科技僅占比10%;經濟與管理科學占比04%。研究層次有基礎研究(社科)、高等教育、基礎教育、工程技術(自科)、行業(yè)指導(社科)、基礎與應用基礎研究等19個類別?;A研究(社科)、高等教育、基礎教育和工程技術(自科)等4類文獻就占總文獻的827%,其中涉及基礎研究(社科)的文獻數(shù)量最多,共6528篇,占總數(shù)的590%。(圖2)

(三)涉及學科

語料庫研究的文獻涉及的學科多達四十余個,除語言、文學、教育及計算機應用等外,還涉及圖書情報、貿易經濟、旅游、管理學、考古、宗教、體育、音樂等。這說明語料庫技術在語料庫語言學方面運用得日益成熟之外,也萌芽了其他方向的學科,嘗試把語料庫這項技術融入本學科,表現(xiàn)出這項技術多元化的潛力。

文獻數(shù)量排名前10的學科有外國語言文字、中國語言文字、計算機軟件及計算應用、文藝理論、中等教育等。(圖3)英語在外國語言文字文獻類中占比954%,英語教育、翻譯及寫作是語料庫研究的主體。中國語言文字研究文獻依次為漢語(523%)、語言學(443%)和中國少數(shù)民族語言(34%),漢語教育,語義、詞匯、詞義和語法是中國語言文字研究的重點。

(四)發(fā)表機構

參與語料庫研究的機構多達上百個,前10個機構總文獻數(shù)量占所有文獻數(shù)量的159%(圖4),表明國內語料庫研究機構之多,各機構文獻所占比例相對平均,發(fā)展均衡。大學為研究語料庫最主要的機構,發(fā)文數(shù)量最多的前40個研究機構均為大學。大連海事大學發(fā)表碩士論文最多(225篇);發(fā)表博士論文最多的是山東大學(29篇)和上海外國語大學(29篇);發(fā)布期刊論文最多的是上海交通大學(157篇),在特色期刊發(fā)布論文最多的是和河南師范大學(21篇);國內外會議交流文章最多的是北京語言大學,分別為27和25篇。

(五)論文作者

發(fā)表文章前5名的作者為何安平(華南師范大學)、陳建生(天津科技大學)、王克非(北京外國語大學)、胡開寶(上海交通大學)和毛文偉(上海外國語大學)。(圖5)

文章被引次數(shù)前5名的作者為解放軍外國語學院濮建忠(1061次)、上海交通大學衛(wèi)乃興(972次)、南京大學的文秋芳等(580次)、廣東外語外貿大學杜金榜(428次)和華南師范大學何安平(280次)。

文章下載次數(shù)前5名的作者為解放軍外國語學院濮建忠(8389次)、廣東外語外貿大學桂詩春(7650次)、山東大學尹海良(6737)、華中師范大學何婷婷(6159)和華南師范大學(5883)。

維吾爾語語料庫研究發(fā)表文章最多的是新疆大學吐爾根;蒙古語語料庫研究發(fā)表文章最多的是內蒙古大學華沙寶;藏語語料庫研究發(fā)表文章最多的是青海師范大學才加讓。

(六)文獻來源與數(shù)據庫

本文文獻檢索使用了6個數(shù)據庫,它們分別是:中國學術期刊網絡出版總庫,中國優(yōu)秀碩士學位論文全文數(shù)據庫,特色期刊,中國重要會議論文全文數(shù)據庫,國際會議論文全文數(shù)據庫和中國博士學位論文全文數(shù)據庫。(圖6)中國學術期刊網絡出版總庫和中國優(yōu)秀碩士學位論文全文數(shù)據庫中的文獻數(shù)量最多,二者文獻占文獻總數(shù)的847%。從分析可以看出,語料庫語言學這一新型技術在進行語料庫應用研究的同時,也是研究生完成碩士學位論文的主要研究項目。

刊登語料庫研究文章最多的期刊是海外英語、外語電化教學、解放軍外國語學院學報、現(xiàn)代語文(語言研究版)、中文信息學報等。(圖7)發(fā)表碩士研究生學位論文最多的機構是大連海事大學,發(fā)布博士研究生學位論文最多的機構是山東大學。

(七)科技成果、專利與標準

1.科技成果

語料庫研究的科技成果僅有23項:計算機軟件及計算機應用11項,外國語言文字5項,中國語言文字2項,圖書情報與數(shù)字圖書館、初等教育與文化經濟各1項。獲得科技成果最多的是青海師范大學(3項)。

2.專利

語料庫研究共獲得專利49項:計算機軟件及計算機應用38項,電信技術7項,計算機硬件技術4項。申請專利的國家有中國、美國和日本。申請專利較多的機構依次為美國微軟公司(4項)、日本東芝株式會社(2項)、哈爾濱工業(yè)大學(2項)、北京語言大學(2項)及摩托羅拉(中國)電子有限公司(2項)。

3.標準

由中國標準研究中心編制的國家標準《建立術語語料庫的一般原則和方法》(標準號:GB/T 13725-2001)于2001年11月發(fā)布,2002年6月1日起正式實施。該標準規(guī)定了建立術語語料庫(簡稱“術語庫”)的一般原則與方法。適用于術語庫的研究、開發(fā)、維護及有關管理工作。

語料庫研究的科技成果、專利和標準如此之少,超出了想象,也反映了中國在這方面的研究水平和國外比有很大差距,需要引起足夠的重視。

(八)資金來源

長期且穩(wěn)定的資金來源對從事科學研究來說是必不可少的。因此,我們需要對資金來源機構進行定量分析。從檢索的數(shù)據來看,共有1479篇文章受到國家社會科學基金的資助,資助率為134%。共49項各類基金參與資助,其中國家社會科學基金、國家自然科學基金、國家高技術研究發(fā)展計劃、國家重點基礎研究發(fā)展計劃資助最多。(圖7)

從事語料庫研究的學者大部分沒能獲得國家層面的經費資助,這從一個側面反映了社會科學研究的現(xiàn)狀,應該引起管理部門的重視。

(九)人才培養(yǎng)

30多年來,培養(yǎng)與語料庫研究有關的博士研究生141名、碩士研究生2433名。第一個語料庫碩士研究生(汪冰,1997)和第一個語料庫博士研究生(王斌,1999)均誕生在中國科學院計算機研究所。培養(yǎng)20名以上研究生的機構有41所。(圖9)大連海事大學培養(yǎng)的碩士研究生最多(225名)。山東大學培養(yǎng)的博士研究生最多(29名)。

三、結語

中國語料庫的研究歷經35年的發(fā)展,已經取得了長足的進步,并呈現(xiàn)出了一定的發(fā)展趨勢。首先,語料庫研究領域不斷擴展,從語言學、文字學、語法學發(fā)展到寫作學、詞典學、方言學、修辭學等學科;從英語語料庫發(fā)展到俄語、日語、法語、德語及西班牙語語料庫;從漢語語料庫發(fā)展到蒙古語、藏語、維吾爾語語料庫;從哲學與人文科學、社會科學發(fā)展到經濟與管理科學。其次,語料庫研究的隊伍不斷壯大,年輕一代的高學歷復合型人才正成為語料庫研究的生力軍。此外,由最初的純理論推介研究逐漸轉向實證研究,基于數(shù)據、數(shù)據驅動綜合的幾種研究方法得到充分應用,語料庫應用研究延伸到工程科技、農業(yè)科技及醫(yī)藥衛(wèi)生科技等自然科學領域。

雖然國內相關研究成果頗豐,但仍存在一些研究不足,可作為未來深入探索的研究方向。首先,當下研究多局限于英語和漢語,法語、俄語、

西班牙語等語言的語料庫研究較少,阿拉伯語語料庫的文獻更是空白。法語、俄語、

西班牙語等語言的雙語語料庫研究還有很大發(fā)展空間。其次,我國的語料庫研究基本上都在國內的中文期刊上發(fā)表,而很少有論文發(fā)表在高層次的國際期刊上,缺少與國際學術界的互動與交流,以至于國際學術界對中國的語料庫研究知之甚少。最后,語料庫應用工具軟件的開發(fā)能促進語料庫研究,是語料庫研究的一個重要內容,但國內在這方面的研究相對薄弱,應該引起重視。

參考文獻:

[1]楊惠中.語料庫語言學導論[M].上海:上海外語教育出版社,2002.

[2]劉楊.語料庫與機器翻譯[J].大眾文藝:學術版,2009(12).

[3]譚鍵.語料庫及語料庫語言學的發(fā)展與應用[J].西北工業(yè)大學學報社會科學版,2005(1).

[4]翁勝斌. CNKI數(shù)據源的關鍵詞共現(xiàn)分析與多維尺度分析的現(xiàn)實方法[J].現(xiàn)代情報,2013,33(4).

責任編輯:楊國棟

猜你喜歡
文獻計量學語料庫
《語料庫翻譯文體學》評介
基于語料庫“隱秘”的詞類標注初步探究
把課文的優(yōu)美表達存進語料庫
《現(xiàn)代泌尿外科雜志》2011~2013年文獻計量學指標分析
《廣西民族研究》創(chuàng)辦30年來刊發(fā)文章的回顧與展望
中文圖書評價體系研究
PubMed收錄葡萄胎相關文獻的計量學分析
PubMed收錄護患關系相關文獻的計量學分析
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
語言與翻譯(2015年4期)2015-07-18 11:07:45
PubMed收錄胃切除術相關文獻的計量學分析
尚义县| 南涧| 锦州市| 军事| 涞水县| 鲁甸县| 新密市| 涞源县| 民权县| 堆龙德庆县| 横峰县| 荃湾区| 惠来县| 台东市| SHOW| 宝应县| 益阳市| 西乡县| 绿春县| 会理县| 雅江县| 红原县| 田林县| 石台县| 高邑县| 来安县| 隆化县| 延安市| 大渡口区| 长寿区| 隆尧县| 岳阳市| 乐东| 辉县市| 哈密市| 中江县| 乌审旗| 新余市| 灵璧县| 亳州市| 海兴县|