国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

《論語》中古注疏語料庫的建設(shè)

2017-01-28 21:40孫尊章徐凌

山西檔案 2017年5期

關(guān)鍵詞：注疏單元格語料

文 / 孫尊章徐凌

《論語》中古注疏語料庫的建設(shè)

文 / 孫尊章徐凌

古代漢語語料庫的研究，還有很大的發(fā)展空間。專題小型語料庫的建設(shè)，能夠為研究帶來極大的便利。建設(shè)思路可包括：對電子文本進行校對；將語料進行分離，剝離不需要的語料，將需要的語料進行分類；對語料進行加工，包括分詞和詞性標注。

論語；中古；注疏；語料庫

隨著計算機的普及和信息技術(shù)的發(fā)展，科研工作中越來越多地使用到了語料庫，這為我們的研究帶來了極大的便利。語言的研究應(yīng)基于語言事實來展開。因此，它需要占有盡可能詳盡的語料。傳統(tǒng)的語言學研究，靠人工來收集、分析語料，耗時太大，枯燥且易出現(xiàn)錯誤。漢語史研究中語料庫的使用，能夠使我們的研究建立在堅實的語料基礎(chǔ)上，使我們的研究更有說服力。

但相對于現(xiàn)代漢語和外語而言，古代漢語語料庫的建設(shè)還處于較弱的位置。我們在從事《論證》中古注疏研究時，建設(shè)了一個《論語》中古注疏的小型語料庫，主要包括《論語》正文、何晏注及皇侃義疏。現(xiàn)將建設(shè)思路略作解析，以就正于方家。

一、電子文本的校對

首先，選用已有的電子版本進行校對。已有的電子版本大多較粗糙，不僅有大量的錯別字，甚至存在大段缺失的情況。因此，我們先使用善本對它們進行了校對。

我們選取的底本是中華書局1998年出版的四部要籍注疏叢刊《論語》。此本選用的是清同治十二年粵東書局據(jù)《知不足齋叢書》本刻《古經(jīng)解匯函本》。

參考的校本有以下兩種：

其一，《儒藏》精華編104冊經(jīng)部四書類《論語義疏》。此本原為1923年日本大阪懷德堂的排印本，由武內(nèi)義雄據(jù)日本國內(nèi)多種古抄本合校而成，其特點是保持了抄本皇侃《義疏》的體式，而不像根本遜志刻本那樣將皇侃《義疏》的體式完全比照中國習見的注疏體式作過改動。

其二，《儒藏》精華編281冊出土文獻類《唐寫本論語集解》。20世紀初以來，敦煌及吐魯番等地出土了唐人寫何晏《集解》單行本60多件，同時還有白文《論語》、《論語鄭氏注》和《論語皇侃義疏講經(jīng)提綱》。此本既以《集解》寫本為底本和校本對校，并以白文《論語》、《論語鄭氏注》及有關(guān)刊本為參校本，并參考《論語皇侃義疏講經(jīng)提綱》進行整理與研究，也有一定的參考價值。

在語料整理過程中，我們還參考了清吳騫撰《皇氏論語義疏參訂十卷附錄一卷》，《續(xù)修四庫全書》第153冊，經(jīng)部·四書類等。

二、語料的分離

我們在將文本進行了多次校對之后，得到了一個錯誤盡可能少的《論語》中古注疏語料。在這個基礎(chǔ)上，將語料進行分離。把語料中的四種類型分別用不同的顏色標上。黑色，包括注疏用語、注中全部引用《論語》原文的話、疏中全部引用《論語》原文或何注的話。這部分是不列入研究范圍的、需要剝離的語料；橙色，屬于《論語》正文；紅色，屬于何晏注；藍色，屬于皇侃疏；再利用POI技術(shù)對文檔進行分享操作。POI技術(shù)中的HWPF介面的主要功能是讀寫Word，完成提取Word正文文本、批注、Word總頁數(shù)、總頁數(shù)等一系列操作，功能強大且易用。借助它，我們可以方便地將正文、何注和皇疏分別分離到三個word文檔中。同時去除文檔中的標點，得到了純凈的文本。方法如下：

POI下載解壓后，首先將POI中操縱Word有關(guān)的包導入項目中，然后創(chuàng)建一Java類，在類中導入java.io包中的File、FileInputStream類，poi包中的Now、HWPFDocument、CharacterRun和Range等類。

三、分詞和詞性標注

我們分別將三個文檔，用“MyTxtSegTag分詞和詞性標注工具”進行初步的分詞及詞性標注。不過，這個軟件對繁體字無法識別，必須先將語料轉(zhuǎn)化為簡化字之后再操作。另外，這個軟件對古代漢語語料的分詞和詞性標注錯誤較多。用它操作完畢后，還必須進行詳細的人工校對。

完成分詞和詞性標注后，我們將得到的內(nèi)容，轉(zhuǎn)入excel表格中，何晏注和皇侃疏各建立一個excel表格。每一個詞及其詞性標注內(nèi)容，都占用一個單元格，每一行只存放一個詞。

在何晏注和皇侃疏這兩個excel工作薄中，分別建立以下工作表：

（1）原文：這是直接從word中轉(zhuǎn)換到excel表格中的內(nèi)容。

（2）排序后：這個表里面的數(shù)據(jù)，是將所有數(shù)據(jù)按音序排列后的內(nèi)容。

（3）去除重復后：將排序后的數(shù)據(jù)，通過excel表格“篩選”中的“高級篩選”功能，勾選“選擇不重復的記錄”，并設(shè)置“將篩選結(jié)果復制到其它位置”，在“復制到”里面選擇B1單元格。由此去除重復的記錄，即詞形和詞性都完全相同的記錄，只保留一個。

（4）按音節(jié)排序：將去除重復記錄后的數(shù)據(jù)，再一次按音節(jié)排序。

（5）去除被釋詞：在前面的詞性標注中，已經(jīng)將所有被釋詞等不需要列入統(tǒng)計的語料，用“bj”進行了標注。在此表中，刪除所有帶有“bj”字段的單元格。它的方法有許多，下面提供兩種辦法。其一，點擊“編輯”菜單，選擇“查找”功能，在“查找內(nèi)容”框中輸入“bj”，并點擊“查找全部”，再在查找結(jié)果框中全選，然后在工作表上點右鍵，選擇“刪除”，在彈出的對話框中選擇刪除“整行”。其二，點擊“編輯”菜單，選擇“替換”功能，在“查找內(nèi)容”框中輸入“*bj”，“替換為”框中不輸入任何數(shù)據(jù)，并點擊“全部替換”。這樣，所有帶被釋詞的單元格，都變成了空白單元格。之后，我們再將所有空白單元格刪除。它的方法是：選定需要去除空白單元格的列，再點擊“編輯”菜單，選擇“定位”功能，在“選擇”下面的內(nèi)容中，選擇“空值”，（如圖）然后右鍵點擊工作表，在彈出的菜單中選擇“刪除”，并選擇“下方單元格上移”。

說明：“*bj”，表示帶有字符“bj”的單元格的所有內(nèi)容。

（6）單音詞：將“去除被釋詞”工作表中的數(shù)據(jù)導入到此表中，再在B1單元格里輸入“=LEN(A1)”，填充至Bn單元格。在C1單元格輸入“=MID(A1,2,1)”，填充至Cn單元格。

說明：“=LEN(A1)”的目標是，在B1單元格中返回A1單元格的字符數(shù)。

“=MID(A1,2,1)”的目標是，在C1單元格中返回A1單元格中的第2個字符的內(nèi)容。

若B1單元格顯示的是3，表明A1單元格的字符數(shù)是3個，那么A1單元格里面的詞肯定是單音詞。若B1單元格顯示的是4，表明A1單元格的字符數(shù)是4個，那么A1單元格里面的詞有可能是單音詞，也有可能是復音詞。因為在標注詞性時，有些詞的詞性是用兩個字母來標注的，如助動詞，用的是vu，再如人名，用的是nh。這就需要第二步的判斷。

若C1單元格顯示的是“/”，表明A1單元格的第二個字符不是漢字，而是漢字和詞性標注之間的符號“/”，那么A1單元格里面的詞肯定是單音詞。若C1單元格顯示的不是“/”而是漢字，則表明A1單元格的第二個字符是漢字，說明A1單元格里的詞是復音詞。

以上數(shù)據(jù)得出后，再進行“排序”中的“自定義排序”操作，設(shè)置“主要關(guān)鍵字”為“列B”，“次要關(guān)鍵字”為“列C”，“第三關(guān)鍵字”為“列A”，都使用“升序”排列。這樣，所有B列為3的，或B列為4同時C列為“/”的數(shù)據(jù)，都排在了前面。這些全部是單音詞。保留這些數(shù)據(jù)，刪除其它，就得到了單音詞表。

（7）雙音詞：將“去除被釋詞”工作表中的數(shù)據(jù)導入到此表中，再在B1單元格里輸入“=LEN(A1)”，填充至Bn單元格。在C1單元格輸入“=MID(A1,3,3)”，填充至Cn單元格。得出數(shù)據(jù)后，再按前面的辦法，繼續(xù)進行“排序”中的“自定義排序”操作。所有B列為4同時C列為漢字而非“/”的數(shù)據(jù)，或B列為5同時C列為“/”的數(shù)據(jù)，都排在了前面。這些全部是雙音詞。保留這些數(shù)據(jù)，刪除其它，就得到了雙音詞表。

（8）三音詞：將“去除被釋詞”工作表中的數(shù)據(jù)導入到此表中，再在B1單元格里輸入“=LEN(A1)”，填充至Bn單元格。在C1單元格輸入“=MID(A1,3,3)”，填充至Cn單元格。

得出數(shù)據(jù)后，再按前面的辦法，繼續(xù)進行“排序”中的“自定義排序”操作，內(nèi)容同上。所有B列為5同時C列為漢字而非“/”的數(shù)據(jù)，或B列為6同時C列為“/”的數(shù)據(jù)，都排在了前面。這些全部是三音詞。保留這些數(shù)據(jù)，刪除其它，就得到了雙音詞表。

（9）四音及以上詞：除了剛才所列的“單音詞”、“雙音詞”及“三音詞”三類之外的所有其它“去除被釋詞”工作表中的數(shù)據(jù)，都歸入此表。于是，我們得到了“四音及以上詞”的數(shù)據(jù)。

（1 0）單音詞詞類統(tǒng)計：將“單音詞”工作表中的數(shù)據(jù)導入此表。再在B1單元格里輸入“=MID(A1,3,2)”，填充至Bn單元格。之后用“排序”里面的“自定義排序”功能，設(shè)置“主要關(guān)鍵字”為“列B”，“次要關(guān)鍵字”為“列A”，都使用“升序”排列。

(1 1)雙音詞詞類統(tǒng)計：將“雙音詞”工作表中的數(shù)據(jù)導入此表。再在B 1單元格里輸入“=MID(A1,4,2)”，填充至Bn單元格。之后用“排序”里面的“自定義排序”功能，設(shè)置“主要關(guān)鍵字”為“列B”，“次要關(guān)鍵字”為“列A”，都使用“升序”排列。

（12）雙音詞結(jié)構(gòu)分析統(tǒng)計：將“雙音詞”工作表中的數(shù)據(jù)導入此表。按照對雙音詞結(jié)構(gòu)判斷的標準，對除專有名詞在外的所有雙音詞進行結(jié)構(gòu)分析。之后再將它們排序，分析統(tǒng)計雙音詞的結(jié)構(gòu)。

（13）詞語使用頻率統(tǒng)計：將“原文”工作表中的數(shù)據(jù)導入此表。先去除被釋詞（方法同上），再在B1單元格里輸入“=COUNTIF(A:A,A1)”，填充至Bn單元格。之后用“排序”里面的“自定義排序”功能，設(shè)置“主要關(guān)鍵字”為“列B”，“次要關(guān)鍵字”為“列A”，都使用“升序”排列。

通過以上步驟，建立起《論語》中古注疏語料庫后，我們可以更好地統(tǒng)計分析《論語》中古注疏語言的情況，提高語言研究質(zhì)量。在詞匯研究中，這可以快捷地統(tǒng)計詞匯的使用頻率、單音詞和復音詞的基本信息，以及詞語搭配的規(guī)律。在語法研究中有了這個語料庫作為堅實的基礎(chǔ)，可以高效地統(tǒng)計雙音詞的結(jié)構(gòu)，對《論語》中古注疏語料的詞類進行窮盡性研究。

[1]四部要籍注疏叢刊本.論語[M].北京:中華書局,1998.

[2]北京大學《儒藏》編纂中心.論語義疏[M].北京:北京大學出版社,2007.

[3]北京大學《儒藏》編纂中心.唐寫本論語集解[M].北京:北京大學出版社,2007.

[4](梁)皇侃.論語義疏[M].北京:中華書局,2013.

[5](清)吳騫.皇氏論語義疏參訂十卷附録一卷[M],上海:上海古籍出版社,1996.

[6]黃青云,裴冬菊.POI在Word文檔不同顏色文本分離中的應(yīng)用研究[J].南昌工程學院學報,2014(3).

江西省高校人文社科項目“《論語》漢魏六朝注疏詞匯研究”(項目編號：YY1524）、國家社科基金重大項目“漢語詞匯通史”（項目編號：14ZDB093）、江西省社會科學規(guī)劃項目“六朝至宋《論語》四種注疏詞匯比較研究”（項目編號：17YY07）的階段性成果。

（責任編輯：虞志堅）

孫尊章（1979-），男，廣東梅州人，博士，江西農(nóng)業(yè)大學人文與公共管理學院教師，研究方向：漢語史。

徐凌（1977-），女，河南鹿邑人，四川大學文學與新聞學院博士研究生，江西農(nóng)業(yè)大學人文與公共管理學院教師，研究方向：漢語史。

G256；H13

A

1005-9652（2017）05-0174-03

猜你喜歡

注疏單元格語料

基于歸一化點向互信息的低資源平行語料過濾方法*

通信技術(shù)(2021年12期)2022-01-25

合并單元格　公式巧錄入

電腦愛好者(2021年12期)2021-06-22

流水賬分類統(tǒng)計巧實現(xiàn)

電腦愛好者(2021年8期)2021-04-21

玩轉(zhuǎn)方格

數(shù)學大王·趣味邏輯(2020年6期)2020-06-22

玩轉(zhuǎn)方格

數(shù)學大王·趣味邏輯(2020年5期)2020-06-19

《爾雅注疏》點校零識

天一閣文叢(2018年0期)2018-11-29

清代浦鏜《周易注疏正字》“盧本”發(fā)覆

天一閣文叢(2018年0期)2018-11-29

對外漢語教學領(lǐng)域可比語料庫的構(gòu)建及應(yīng)用研究
——以“把”字句的句法語義標注及應(yīng)用研究為例

中文信息學報(2017年6期)2017-03-12

《詩經(jīng)原始》中評點的特質(zhì)

赤峰學院學報·哲學社會科學版(2015年11期)2015-12-10

國內(nèi)外語用學實證研究比較：語料類型與收集方法

外語教學理論與實踐(2014年2期)2014-06-21

山西檔案2017年5期

山西檔案的其它文章: 檔案學理論研究的指導性思維
——基于馬克思主義哲學視角; “互聯(lián)網(wǎng)+”背景下檔案公共服務(wù)轉(zhuǎn)型的思考; 司法檔案的史料價值與規(guī)范管理; 新常態(tài)下檔案日活動長效機制的構(gòu)建; 醫(yī)院科研檔案的網(wǎng)絡(luò)管理平臺建設(shè); 基于用戶體驗的數(shù)字檔案資源服務(wù)品質(zhì)提升

边坝县| 叙永县| 彰化县| 旅游| 荣昌县| 云梦县| 九台市| 揭阳市| 海兴县| 南安市| 融水| 义马市| 仪陇县| 乌苏市| 米泉市| 博野县| 晋中市| 饶河县| 夏津县| 郎溪县| 垦利县| 洪江市| 阜阳市| 中宁县| 桐梓县| 明光市| 达拉特旗| 桓仁| 康定县| 福建省| 山阴县| 新宁县| 勐海县| 平陆县| 余干县| 咸宁市| 施甸县| 南华县| 加查县| 泸州市| 鹤壁市|