国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

《論語》中古注疏語料庫的建設(shè)

2017-01-28 21:40孫尊章徐凌
山西檔案 2017年5期
關(guān)鍵詞:注疏單元格語料

文 / 孫尊章 徐凌

《論語》中古注疏語料庫的建設(shè)

文 / 孫尊章 徐凌

古代漢語語料庫的研究,還有很大的發(fā)展空間。專題小型語料庫的建設(shè),能夠為研究帶來極大的便利。建設(shè)思路可包括:對電子文本進行校對;將語料進行分離,剝離不需要的語料,將需要的語料進行分類;對語料進行加工,包括分詞和詞性標注。

論語;中古;注疏;語料庫

隨著計算機的普及和信息技術(shù)的發(fā)展,科研工作中越來越多地使用到了語料庫,這為我們的研究帶來了極大的便利。語言的研究應(yīng)基于語言事實來展開。因此,它需要占有盡可能詳盡的語料。傳統(tǒng)的語言學研究,靠人工來收集、分析語料,耗時太大,枯燥且易出現(xiàn)錯誤。漢語史研究中語料庫的使用,能夠使我們的研究建立在堅實的語料基礎(chǔ)上,使我們的研究更有說服力。

但相對于現(xiàn)代漢語和外語而言,古代漢語語料庫的建設(shè)還處于較弱的位置。我們在從事《論證》中古注疏研究時,建設(shè)了一個《論語》中古注疏的小型語料庫,主要包括《論語》正文、何晏注及皇侃義疏。現(xiàn)將建設(shè)思路略作解析,以就正于方家。

一、電子文本的校對

首先,選用已有的電子版本進行校對。已有的電子版本大多較粗糙,不僅有大量的錯別字,甚至存在大段缺失的情況。因此,我們先使用善本對它們進行了校對。

我們選取的底本是中華書局1998年出版的四部要籍注疏叢刊《論語》。此本選用的是清同治十二年粵東書局據(jù)《知不足齋叢書》本刻《古經(jīng)解匯函本》。

參考的校本有以下兩種:

其一,《儒藏》精華編104冊經(jīng)部四書類《論語義疏》。此本原為1923年日本大阪懷德堂的排印本,由武內(nèi)義雄據(jù)日本國內(nèi)多種古抄本合校而成,其特點是保持了抄本皇侃《義疏》的體式,而不像根本遜志刻本那樣將皇侃《義疏》的體式完全比照中國習見的注疏體式作過改動。

其二,《儒藏》精華編281冊出土文獻類《唐寫本論語集解》。20世紀初以來,敦煌及吐魯番等地出土了唐人寫何晏《集解》單行本60多件,同時還有白文《論語》、《論語鄭氏注》和《論語皇侃義疏講經(jīng)提綱》。此本既以《集解》寫本為底本和校本對校,并以白文《論語》、《論語鄭氏注》及有關(guān)刊本為參校本,并參考《論語皇侃義疏講經(jīng)提綱》進行整理與研究,也有一定的參考價值。

在語料整理過程中,我們還參考了清吳騫撰《皇氏論語義疏參訂十卷附錄一卷》,《續(xù)修四庫全書》第153冊,經(jīng)部·四書類等。

二、語料的分離

我們在將文本進行了多次校對之后,得到了一個錯誤盡可能少的《論語》中古注疏語料。在這個基礎(chǔ)上,將語料進行分離。把語料中的四種類型分別用不同的顏色標上。黑色,包括注疏用語、注中全部引用《論語》原文的話、疏中全部引用《論語》原文或何注的話。這部分是不列入研究范圍的、需要剝離的語料;橙色,屬于《論語》正文;紅色,屬于何晏注;藍色,屬于皇侃疏;再利用POI技術(shù)對文檔進行分享操作。POI技術(shù)中的HWPF介面的主要功能是讀寫Word,完成提取Word正文文本、批注、Word總頁數(shù)、總頁數(shù)等一系列操作,功能強大且易用。借助它,我們可以方便地將正文、何注和皇疏分別分離到三個word文檔中。同時去除文檔中的標點,得到了純凈的文本。方法如下:

POI下載解壓后,首先將POI中操縱Word有關(guān)的包導入項目中,然后創(chuàng)建一Java類,在類中導入java.io包中的File、FileInputStream類,poi包中的Now、HWPFDocument、CharacterRun和Range等類。

三、分詞和詞性標注

我們分別將三個文檔,用“MyTxtSegTag分詞和詞性標注工具”進行初步的分詞及詞性標注。不過,這個軟件對繁體字無法識別,必須先將語料轉(zhuǎn)化為簡化字之后再操作。另外,這個軟件對古代漢語語料的分詞和詞性標注錯誤較多。用它操作完畢后,還必須進行詳細的人工校對。

完成分詞和詞性標注后,我們將得到的內(nèi)容,轉(zhuǎn)入excel表格中,何晏注和皇侃疏各建立一個excel表格。每一個詞及其詞性標注內(nèi)容,都占用一個單元格,每一行只存放一個詞。

在何晏注和皇侃疏這兩個excel工作薄中,分別建立以下工作表:

(1)原文:這是直接從word中轉(zhuǎn)換到excel表格中的內(nèi)容。

(2)排序后:這個表里面的數(shù)據(jù),是將所有數(shù)據(jù)按音序排列后的內(nèi)容。

(3)去除重復后:將排序后的數(shù)據(jù),通過excel表格“篩選”中的“高級篩選”功能,勾選“選擇不重復的記錄”,并設(shè)置“將篩選結(jié)果復制到其它位置”,在“復制到”里面選擇B1單元格。由此去除重復的記錄,即詞形和詞性都完全相同的記錄,只保留一個。

(4)按音節(jié)排序:將去除重復記錄后的數(shù)據(jù),再一次按音節(jié)排序。

(5)去除被釋詞:在前面的詞性標注中,已經(jīng)將所有被釋詞等不需要列入統(tǒng)計的語料,用“bj”進行了標注。在此表中,刪除所有帶有“bj”字段的單元格。它的方法有許多,下面提供兩種辦法。其一,點擊“編輯”菜單,選擇“查找”功能,在“查找內(nèi)容”框中輸入“bj”,并點擊“查找全部”,再在查找結(jié)果框中全選,然后在工作表上點右鍵,選擇“刪除”,在彈出的對話框中選擇刪除“整行”。其二,點擊“編輯”菜單,選擇“替換”功能,在“查找內(nèi)容”框中輸入“*bj”,“替換為”框中不輸入任何數(shù)據(jù),并點擊“全部替換”。這樣,所有帶被釋詞的單元格,都變成了空白單元格。之后,我們再將所有空白單元格刪除。它的方法是:選定需要去除空白單元格的列,再點擊“編輯”菜單,選擇“定位”功能,在“選擇”下面的內(nèi)容中,選擇“空值”,(如圖)然后右鍵點擊工作表,在彈出的菜單中選擇“刪除”,并選擇“下方單元格上移”。

說明:“*bj”,表示帶有字符“bj”的單元格的所有內(nèi)容。

(6)單音詞:將“去除被釋詞”工作表中的數(shù)據(jù)導入到此表中,再在B1單元格里輸入“=LEN(A1)”,填充至Bn單元格。在C1單元格輸入“=MID(A1,2,1)”,填充至Cn單元格。

說明:“=LEN(A1)”的目標是,在B1單元格中返回A1單元格的字符數(shù)。

“=MID(A1,2,1)”的目標是,在C1單元格中返回A1單元格中的第2個字符的內(nèi)容。

若B1單元格顯示的是3,表明A1單元格的字符數(shù)是3個,那么A1單元格里面的詞肯定是單音詞。若B1單元格顯示的是4,表明A1單元格的字符數(shù)是4個,那么A1單元格里面的詞有可能是單音詞,也有可能是復音詞。因為在標注詞性時,有些詞的詞性是用兩個字母來標注的,如助動詞,用的是vu,再如人名,用的是nh。這就需要第二步的判斷。

若C1單元格顯示的是“/”,表明A1單元格的第二個字符不是漢字,而是漢字和詞性標注之間的符號“/”,那么A1單元格里面的詞肯定是單音詞。若C1單元格顯示的不是“/”而是漢字,則表明A1單元格的第二個字符是漢字,說明A1單元格里的詞是復音詞。

以上數(shù)據(jù)得出后,再進行“排序”中的“自定義排序”操作,設(shè)置“主要關(guān)鍵字”為“列B”,“次要關(guān)鍵字”為“列C”,“第三關(guān)鍵字”為“列A”,都使用“升序”排列。這樣,所有B列為3的,或B列為4同時C列為“/”的數(shù)據(jù),都排在了前面。這些全部是單音詞。保留這些數(shù)據(jù),刪除其它,就得到了單音詞表。

(7)雙音詞:將“去除被釋詞”工作表中的數(shù)據(jù)導入到此表中,再在B1單元格里輸入“=LEN(A1)”,填充至Bn單元格。在C1單元格輸入“=MID(A1,3,3)”,填充至Cn單元格。得出數(shù)據(jù)后,再按前面的辦法,繼續(xù)進行“排序”中的“自定義排序”操作。所有B列為4同時C列為漢字而非“/”的數(shù)據(jù),或B列為5同時C列為“/”的數(shù)據(jù),都排在了前面。這些全部是雙音詞。保留這些數(shù)據(jù),刪除其它,就得到了雙音詞表。

(8)三音詞:將“去除被釋詞”工作表中的數(shù)據(jù)導入到此表中,再在B1單元格里輸入“=LEN(A1)”,填充至Bn單元格。在C1單元格輸入“=MID(A1,3,3)”,填充至Cn單元格。

得出數(shù)據(jù)后,再按前面的辦法,繼續(xù)進行“排序”中的“自定義排序”操作,內(nèi)容同上。所有B列為5同時C列為漢字而非“/”的數(shù)據(jù),或B列為6同時C列為“/”的數(shù)據(jù),都排在了前面。這些全部是三音詞。保留這些數(shù)據(jù),刪除其它,就得到了雙音詞表。

(9)四音及以上詞:除了剛才所列的“單音詞”、“雙音詞”及“三音詞”三類之外的所有其它“去除被釋詞”工作表中的數(shù)據(jù),都歸入此表。于是,我們得到了“四音及以上詞”的數(shù)據(jù)。

(1 0)單音詞詞類統(tǒng)計:將“單音詞”工作表中的數(shù)據(jù)導入此表。再在B1單元格里輸入“=MID(A1,3,2)”,填充至Bn單元格。之后用“排序”里面的“自定義排序”功能,設(shè)置“主要關(guān)鍵字”為“列B”,“次要關(guān)鍵字”為“列A”,都使用“升序”排列。

(1 1)雙音詞詞類統(tǒng)計:將“雙音詞”工作表中的數(shù)據(jù)導入此表。再在B 1單元格里輸入“=MID(A1,4,2)”,填充至Bn單元格。之后用“排序”里面的“自定義排序”功能,設(shè)置“主要關(guān)鍵字”為“列B”,“次要關(guān)鍵字”為“列A”,都使用“升序”排列。

(12)雙音詞結(jié)構(gòu)分析統(tǒng)計:將“雙音詞”工作表中的數(shù)據(jù)導入此表。按照對雙音詞結(jié)構(gòu)判斷的標準,對除專有名詞在外的所有雙音詞進行結(jié)構(gòu)分析。之后再將它們排序,分析統(tǒng)計雙音詞的結(jié)構(gòu)。

(13)詞語使用頻率統(tǒng)計:將“原文”工作表中的數(shù)據(jù)導入此表。先去除被釋詞(方法同上),再在B1單元格里輸入“=COUNTIF(A:A,A1)”,填充至Bn單元格。之后用“排序”里面的“自定義排序”功能,設(shè)置“主要關(guān)鍵字”為“列B”,“次要關(guān)鍵字”為“列A”,都使用“升序”排列。

通過以上步驟,建立起《論語》中古注疏語料庫后,我們可以更好地統(tǒng)計分析《論語》中古注疏語言的情況,提高語言研究質(zhì)量。在詞匯研究中,這可以快捷地統(tǒng)計詞匯的使用頻率、單音詞和復音詞的基本信息,以及詞語搭配的規(guī)律。在語法研究中有了這個語料庫作為堅實的基礎(chǔ),可以高效地統(tǒng)計雙音詞的結(jié)構(gòu),對《論語》中古注疏語料的詞類進行窮盡性研究。

[1]四部要籍注疏叢刊本.論語[M].北京:中華書局,1998.

[2]北京大學《儒藏》編纂中心.論語義疏[M].北京:北京大學出版社,2007.

[3]北京大學《儒藏》編纂中心.唐寫本論語集解[M].北京:北京大學出版社,2007.

[4](梁)皇侃.論語義疏[M].北京:中華書局,2013.

[5](清)吳騫.皇氏論語義疏參訂十卷附録一卷[M],上海:上海古籍出版社,1996.

[6]黃青云,裴冬菊.POI在Word文檔不同顏色文本分離中的應(yīng)用研究[J].南昌工程學院學報,2014(3).

江西省高校人文社科項目“《論語》漢魏六朝注疏詞匯研究”(項目編號:YY1524)、國家社科基金重大項目“漢語詞匯通史”(項目編號:14ZDB093)、江西省社會科學規(guī)劃項目“六朝至宋《論語》四種注疏詞匯比較研究”(項目編號:17YY07)的階段性成果。

(責任編輯:虞志堅)

孫尊章(1979-),男,廣東梅州人,博士,江西農(nóng)業(yè)大學人文與公共管理學院教師,研究方向:漢語史。

徐凌(1977-),女,河南鹿邑人,四川大學文學與新聞學院博士研究生,江西農(nóng)業(yè)大學人文與公共管理學院教師,研究方向:漢語史。

G256;H13

A

1005-9652(2017)05-0174-03

猜你喜歡
注疏單元格語料
基于歸一化點向互信息的低資源平行語料過濾方法*
合并單元格 公式巧錄入
流水賬分類統(tǒng)計巧實現(xiàn)
玩轉(zhuǎn)方格
玩轉(zhuǎn)方格
《爾雅注疏》點校零識
清代浦鏜《周易注疏正字》“盧本”發(fā)覆
對外漢語教學領(lǐng)域可比語料庫的構(gòu)建及應(yīng)用研究
——以“把”字句的句法語義標注及應(yīng)用研究為例
《詩經(jīng)原始》中評點的特質(zhì)
國內(nèi)外語用學實證研究比較:語料類型與收集方法
边坝县| 叙永县| 彰化县| 旅游| 荣昌县| 云梦县| 九台市| 揭阳市| 海兴县| 南安市| 融水| 义马市| 仪陇县| 乌苏市| 米泉市| 博野县| 晋中市| 饶河县| 夏津县| 郎溪县| 垦利县| 洪江市| 阜阳市| 中宁县| 桐梓县| 明光市| 达拉特旗| 桓仁| 康定县| 福建省| 山阴县| 新宁县| 勐海县| 平陆县| 余干县| 咸宁市| 施甸县| 南华县| 加查县| 泸州市| 鹤壁市|