国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

國內(nèi)外語料庫建設(shè)研究簡述

2018-05-14 16:38:17陳夢圓
知識文庫 2018年21期
關(guān)鍵詞:古漢語分詞詞典

陳夢圓

語料庫研究興起于20世紀(jì)60年代其在語言學(xué)各領(lǐng)域所引發(fā)的革命,引起了語言學(xué)家、教育學(xué)家的極大關(guān)注。語料庫研究以及基于語料庫的語言研究,正逐漸成為語言學(xué)研究領(lǐng)域的話語中心,其涵蓋范圍及應(yīng)用領(lǐng)域也日益廣泛。本文首先對國內(nèi)外語料庫建設(shè)研究進行梳理、分析,且就與語料庫相關(guān)的方面如自動標(biāo)注與檢索研究等進行了闡述,重點介紹中醫(yī)文獻(xiàn)語料庫建設(shè)研究概況,旨在于為中醫(yī)文化研究及中醫(yī)翻譯提供借鑒。

1 國內(nèi)外語料庫建設(shè)

語料庫(corpus)就是計算機應(yīng)用于語言領(lǐng)域的一種形式,是存放語言的倉庫,將實際使用中真實出現(xiàn)過的語言材料經(jīng)過加工(分析和處理)成為有用的資源以電子計算機為載體的語言知識基礎(chǔ)資源。近年來,語料庫的建設(shè)已在世界范圍廣泛展開,容量逐步擴大,種類繁多,其應(yīng)用已滲透到語言領(lǐng)域的各個方面,成為語言研究、詞典編纂、語言教學(xué)的有力工具,受到語言研究者和教育工作者的重視。

1.1國外語料庫建設(shè)

計算機語料庫建設(shè)始于1964年美國布朗大學(xué)發(fā)布的BROWN語料庫以及1987年英國Lancaster大學(xué)發(fā)布的LOB語料庫。歐美學(xué)者利用這兩個語料庫開展了大規(guī)模的研究,范圍涉及自然語言文本的采集、存儲、檢索、統(tǒng)計、語法標(biāo)注等問題以及語料庫在語言定量分析、詞典編纂、作品風(fēng)格分析、自然語言理解和機器翻譯等領(lǐng)域中的應(yīng)用,取得了豐碩的成果(Leech,1987;Sinclair, 1999; Thomas, 2001)。此后的十幾年里,語料庫建設(shè)在全球范圍內(nèi)快速發(fā)展:歐洲相繼建成了COBUILD語料庫、BNC語料庫(British National Corpus);美國的賓州大學(xué)發(fā)布了樹庫語料庫(TreeBank);日本建成了RWC日語語料庫;臺灣的中央研究院建成了現(xiàn)代漢語平衡語料庫。

1.2中國的語料庫建設(shè)

中國的語料庫建設(shè)發(fā)端于上海交通大學(xué)的科技英語語料庫和國家語委的現(xiàn)代漢語語料庫。此后,北京大學(xué)計算語言研究所開發(fā)了《人民日報》語料庫,中國科學(xué)院自動化研究所、清華大學(xué)、哈爾濱工業(yè)大學(xué)、山西大學(xué)等等也建設(shè)了各具特色的語料庫(馮志偉,1999;何安平,2001;楊惠中,2002)。國家語委現(xiàn)代漢語語料庫是一個大規(guī)模的平衡語料庫,語料選材類別廣泛,時間跨度大。在線提供檢索的語料經(jīng)過分詞和詞性標(biāo)注,可以進行按詞檢索和分詞類的檢索,還錄入了一部分未加工的古漢語語料,但沒有涉及《黃定內(nèi)經(jīng)》、《難經(jīng)》等中醫(yī)經(jīng)典著作。

進入21世紀(jì)以來,語料庫建設(shè)中的文本加工、存儲、檢索、管理等等問題基本上已經(jīng)解決,研究語料庫的學(xué)者們開始關(guān)注基于語料庫的數(shù)據(jù)統(tǒng)計、句法分析、語義分析、機器翻譯、自動對齊、知識自動獲取等等深層次的自動處理與應(yīng)用問題。

2 國內(nèi)外語料庫自動標(biāo)注與檢索研究

國內(nèi)外語料庫標(biāo)注與檢索(Annotation & Concordance)方面的文獻(xiàn)非常豐富,綜合既有文獻(xiàn)看,標(biāo)注與檢索研究主要涉及具以下幾個方面的內(nèi)容:第一,語料庫標(biāo)注規(guī)范及詞典研究,包括詞匯的詞性分類和語義分類,標(biāo)注符號的制定等。BROWN語料庫使用了不足40種詞類標(biāo)注符號,LOB語料庫卻使用了120多種,北大語料庫使用的詞類標(biāo)注符號跟中科院的也各不相同;詞匯語義分類中,Wordnet使用了詞義相互關(guān)系的網(wǎng)絡(luò)結(jié)構(gòu),北大語料庫詞典主要采用了上下義關(guān)系的層次結(jié)構(gòu)(Leech,1994;于江生,2002;詹衛(wèi)東,2004)。第二,自動標(biāo)注程序開發(fā),BROW語料庫設(shè)計了一個基于規(guī)則的自動標(biāo)注系統(tǒng) TAGGIT,LOB語料庫則設(shè)計了基于統(tǒng)計模型的 CLAWS 自動詞性標(biāo)注系統(tǒng),我國中科院研制的中文分詞系統(tǒng)ICTCLAS具備漢語分詞和詞性標(biāo)注的雙重功能(Sinclair, 1991;俞士汶,2004;劉群,2005)。第三,語料庫檢索方法研究,除了跟大型語料庫配套的專用檢索工具之外,還出現(xiàn)了一些語料庫通用檢索工具,Wordsmith、 Antconc等工具具有關(guān)鍵詞檢索和搭配分析等功能;nooj系統(tǒng)還具有根據(jù)正則表達(dá)式、語法規(guī)則進行檢索的能力。第四,語料庫應(yīng)用研究,主要集中在計算語言學(xué)領(lǐng)域,自動句法分析和機器翻譯研究是此方面的典型代表,已提出很多算法如轉(zhuǎn)換生成語法、依存語法、詞匯功能語法、富田勝算法、概率算法等等(劉開瑛,2000;劉穎,2004)。第五,基于語料庫的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)研究,主要涉及自動文摘、知識提取等方面,這種研究往往以語義詞典為基礎(chǔ),其研究范圍已經(jīng)擴展到自由文本分析和網(wǎng)絡(luò)資源分析等等方面。

3.中醫(yī)文獻(xiàn)語料庫建設(shè)研究

縱觀語料庫建設(shè)方面的既有文獻(xiàn)可見,隨著語料庫自動標(biāo)注工具的開發(fā),語料庫建設(shè)的規(guī)模越來越大,語料庫建設(shè)的難度也在不斷降低,然而,關(guān)于中醫(yī)經(jīng)典文獻(xiàn)語料庫建設(shè)方面的研究文獻(xiàn)卻寥寥無幾,已有文獻(xiàn)大多是泛泛的建議或可行性研究、或者是一些定性概括。中醫(yī)經(jīng)典文獻(xiàn),按照中醫(yī)學(xué)的觀點,至少應(yīng)該包括《黃帝內(nèi)經(jīng)》、《難經(jīng)》、《神農(nóng)本草經(jīng)》、《傷寒雜病論》和《金匱要略》五部作品。建設(shè)一個中醫(yī)經(jīng)典文獻(xiàn)語料庫,不但需要面對語料庫建設(shè)過程中關(guān)于文本存儲、標(biāo)注、檢索等等基本問題,還必須解決錯訛字、假借字、異體字規(guī)范化、古漢語自動分詞與標(biāo)注、中醫(yī)術(shù)語分類詞典設(shè)計等等特殊問題,尤其是語料庫的檢索系統(tǒng),不能僅僅停留在語言問題的檢索方面,還必須研究如何充分利用分詞和標(biāo)注符號進行信息篩選提取的問題。

已有文獻(xiàn)調(diào)查顯示,字詞研究以及中醫(yī)術(shù)語詞典研究相對豐富,已出版有《內(nèi)經(jīng)詞典》、《實用中醫(yī)詞典》等等(馬繼興,1990;張登本,1990)。深加工的古漢語中醫(yī)文獻(xiàn)語料庫建設(shè)及其標(biāo)注與數(shù)據(jù)分析方面的研究尚未見到。由陜西中醫(yī)藥大學(xué)聞永毅在研的“中醫(yī)經(jīng)典文獻(xiàn)語料庫建設(shè)及其數(shù)據(jù)分析方法研究”(2016-2019)是一種深加工的古漢語中醫(yī)經(jīng)典文獻(xiàn)語料庫建設(shè)項目,在國內(nèi)外尚無先例,填補了古漢語語料庫建設(shè)方面的空白。本研究目的截然不同于其他語料庫,已有語料庫建設(shè)項目主要服務(wù)于語言自身問題研究或者機器翻譯研究,對本課題而言,這只是語料庫的一種基本功能;本研究高度關(guān)注如何從古漢語文獻(xiàn)語料庫中自動篩選并提取有價值的信息,探索一整套適合古漢語自動加工和數(shù)據(jù)分析的具體方法才是本研究的最終目的。再者,以分詞與標(biāo)注的方法處理并保存中醫(yī)經(jīng)典文獻(xiàn),是保護與傳承古籍的一種新思路,含有古籍文獻(xiàn)標(biāo)準(zhǔn)化的理念,是對標(biāo)準(zhǔn)化研究古漢語文獻(xiàn)的一種創(chuàng)造性探索。

十八大以來,黨和國家領(lǐng)導(dǎo)人多次強調(diào)要保護好、傳承好中醫(yī)藥文化,屠呦呦獲得諾貝爾獎的青蒿素故事更進一步激發(fā)了人們從中醫(yī)古籍文獻(xiàn)中挖掘數(shù)據(jù)的積極性,中醫(yī)經(jīng)典文獻(xiàn)語料庫能夠在此方面發(fā)揮重要作用。中醫(yī)經(jīng)典文獻(xiàn)語料庫能夠徹底改變一邊翻閱紙質(zhì)資料、一邊手工記錄的資料查閱方式,而只需在計算機上輸入關(guān)鍵詞或特定模式,然后由檢索系統(tǒng)自動篩選并提取所需信息,無需擔(dān)心因異體字、假借字、分詞斷句、古漢語閱讀障礙等因素而造成信息檢索不全的問題,其檢索準(zhǔn)確性會遠(yuǎn)遠(yuǎn)優(yōu)于谷歌、百度等搜索引擎。另外,深加工的中醫(yī)經(jīng)典文獻(xiàn)語料庫又是一個古漢語研究平臺,能夠用于古漢語的字詞、語法、語義問題研究,徹底扭轉(zhuǎn)古漢語研究缺乏大規(guī)模統(tǒng)計數(shù)據(jù)支持以及漢語研究與醫(yī)古文研究長期相互脫節(jié)的局面。

本文為國家社會科學(xué)基金項目;課題編號:16xyy011

(作者單位:陜西中醫(yī)藥大學(xué))

猜你喜歡
古漢語分詞詞典
古漢語疑問句末“為”字補證
米沃什詞典
文苑(2019年24期)2020-01-06 12:06:50
結(jié)巴分詞在詞云中的應(yīng)用
智富時代(2019年6期)2019-07-24 10:33:16
上古漢語“施”字音義考
評《現(xiàn)代漢語詞典》(第6版)
詞典例證翻譯標(biāo)準(zhǔn)探索
值得重視的分詞的特殊用法
談?wù)劰艥h語的翻譯
語言與翻譯(2014年1期)2014-07-10 13:06:11
古漢語中表反問的一組能愿動詞
語文知識(2014年3期)2014-02-28 21:59:31
高考分詞作狀語考點歸納與疑難解析
临海市| 米林县| 靖江市| 平湖市| 台北市| 平原县| 固原市| 寿宁县| 城市| 宾阳县| 吴桥县| 浠水县| 波密县| 中西区| 五寨县| 高密市| 隆回县| 南平市| 驻马店市| 洪江市| 鄄城县| 大名县| 德钦县| 松滋市| 胶南市| 安泽县| 大厂| 菏泽市| 友谊县| 前郭尔| 尉氏县| 刚察县| 晋城| 西华县| 伊宁市| 靖宇县| 青州市| 武城县| 济宁市| 尚义县| 桃园市|