国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向信息自動抽取的中醫(yī)古籍校注方法探索*

2021-04-25 10:31:56聞永毅
河南中醫(yī) 2021年4期
關(guān)鍵詞:素問字符古籍

聞永毅

陜西中醫(yī)藥大學,陜西 咸陽 712046

理論上講,校注古籍的結(jié)果應該生成一份沒有錯字、訛誤字、脫文、衍文等錯誤文字的正確文件,然而事實上這種正確文件并沒有以具體的形態(tài)出現(xiàn)在古籍校注著作之中,而是以原文(有人稱之為“白文”或“經(jīng)文”)與注文(有人稱為“陰文”或“朱文”)相互分離的方式散落在??被蜃⒔馕淖种?。這種沿襲了數(shù)千年的分離式校注方式嚴重地阻礙了其他學科對古籍校注成果的有效使用,導致很多迫切需要正確文件的研究項目(如中醫(yī)國際交流、中醫(yī)翻譯、語料庫建設、字詞頻率統(tǒng)計、詞典詞條收集、信息自動檢索與抽取等),都因為無法匯聚這些散落的校注成果而繼續(xù)使用殘缺受損的原文。邢玉瑞[1]、張登本[2]、張雙棣[3]、劉利[4]等編著詞典所用數(shù)據(jù)都是以原文為基礎材料。如何打破這種研究與應用互不往來的僵局,已經(jīng)成為制約中醫(yī)文獻學甚至整個古籍整理領(lǐng)域進一步發(fā)展的瓶頸問題。本文將從中醫(yī)古籍校注方法的角度,深入探索如何運用計算機技術(shù)把散落在校勘注解文字中的校注成果轉(zhuǎn)化成為一種具體而有形的正確原文,為此本文預設了三條必須堅守的基本原則:第一,堅持古籍校注的傳統(tǒng)方式;第二,原文與轉(zhuǎn)化而來的正確原文必須互見互參;第三,原文、校注成果、正確原文等相關(guān)校注信息可分別統(tǒng)計,自由輸出。

1 訛誤字的更正模式

古籍校注類著作中注文是一種籠統(tǒng)的說法,里面包含著??蔽淖趾妥⑨屛淖謨煞N性質(zhì)不同的文件形式。注釋文件主要解釋原文中字詞的意思,??蔽募饕f明原文中各種錯誤的原因以及是否更正這些錯誤的建議。也就是說,??蔽募軗p的原文直接相關(guān),校文的價值就在于幫助讀者把殘缺受損的原文恢復到初始版本時的字符形態(tài)。本文把??敝髴撋傻奈募Q為正確原文,不過這個正確原文在??北?、注釋本等著作中并未成形,而是隱藏在原文與校文之間。對于古籍使用者,尤其是對于需要正確原文的研究項目來說,要想取得這個正確原文,就必須逐條閱讀??蔽募?,把隱藏其中的被定性為正確原文的字符識別出來、對照原文進行更改,然后才能形成一個具體有形的正確文件。

更正原文中的訛誤字,最簡單的方法就是根據(jù)??蔽牡慕ㄗh,直接改動原文,不過這會破壞原文,不符合本項研究的基本原則,也是古籍校注者努力避免的做法。郭靄春在《黃帝內(nèi)經(jīng)素問校注》[5]中明確規(guī)定:“凡底本文字,一律不予改動,一切問題,在校文中說明?!眲⒍芍踇6]在《傷寒論校注》中說:“我們除了直接改正了其中明顯的錯字以外,其余文字,一律不加改動。改正了的訛字,在校注后記中已做了說明”。

另外一種方法就是在原文與注文之間增添一個新項目,使原文句子中的每一個詞W跟這個新項目中的每一個詞W始終保持如下所示的一一對應關(guān)系:原文句子S →W1、W2……Wi……Wi+1;正確原文R→W1、W2……Xi……Wi+1。

該模式由“S”和“R”兩行組成。S行表示:原文中的一個句子S依次由i+1個詞W排列而成,可簡寫為“S.Wi”。對應的R行是S行的復制品,用來接受一切更改操作。如果??蔽闹姓J定Wi是一個訛誤字,那么就根據(jù)該校勘結(jié)論把R行中的Wi改寫成為Xi,可簡寫為“R.Xi”,即訛誤字情況下,S.Wi≠R.Xi。

例1:醉以入房,以欲竭其精……以在《備急千金要方》卷七第一、《外臺秘要》卷十八中并引作“已”?!白硪选豹q言“醉甚”?!对姟ん啊访珎鳎骸耙?,甚也。”“以”應做“已”。《黃帝內(nèi)經(jīng)素問校注·五臟生成》中注“醉甚入房,故心氣上勝于肺矣”[5]。

按照創(chuàng)建的更改模式,此句更正后的正確原文R以及其跟原文S中每一個字符之間的對應關(guān)系如下所示,其中的第2個字符S.W2≠R.X2:

原文句子S→醉以入房……

正確原文R→醉已入房……

這種添加新行的方法在校注著作中肯定行不通,但在計算機系統(tǒng)中,這種添加方式卻是一種非常簡單方便的操作。按照這個雙行模式,所有訛誤字更正任務完成之后,在R行就形成了一份可供研究人員使用的正確原文,而S行的原文始終保持不變。實際上,這里的S-R相互對應的模式就是一種結(jié)構(gòu)化的文件形式,也是一般計算機程序都能夠輕松處理的文件格式。再者,由于S-R行上的字符始終保持一一對應的關(guān)系,研究人員不但可以隨時查閱原文S的情況,還可以根據(jù)S.Wi≠R.Xi的特征開展一系列對比性質(zhì)的研究工作,比如統(tǒng)計原文S中錯訛字符的總量,以此來評價原文的受損程度,及時向鐘情原文的文獻使用者發(fā)出原文錯誤的風險警報。遺憾的是,這個兩行模式只能解決S-R行上一一對應的錯訛字問題,只是一個基本模式,太過簡單,還不足以處理更為復雜的問題。

2 脫文、衍文的更正模式

原文中除了有訛誤字之外,還有脫文、衍文、顛倒、錯簡等多種錯誤。針對這種問題,可以繼續(xù)使用剛剛創(chuàng)建的基本模式,不過需要在其中添加一個特殊符號以便能夠處理這種問題。具體如下:原文句子S →W1W2……Ln……Wi……Wi+1;正確文件R→W1W2……Yn……Xi……Wi+1。這是基本模式的一種擴展形式,其中添加了一對要素“Ln”與“Yn”,表示原文句子中第n個位置存在脫文或衍文的情況。??睂嵺`中,脫文情況下,“S.Ln”的位置用空置符號“0”填充,脫落的文字寫入對應的“R.Yn”位置,具體如例2所示。衍文情況下,對應的“R.Yn”位置直接用空置符號“0”填充,具體如例3所示。脫文又無正確文字的情況下,兩行同時用空置符號“0”填充,具體情況如下列例4所示。為了行文簡潔,下文中所引用的原文直接放在S行,并使用分詞文件格式,R行表示正確原文:

例2:S→味厚則泄,薄則通0?!秱浼鼻Ы鹨健肪矶谝灰巴ā毕掠小傲鳌弊?。按《備急千金要方》。“通流”與上“泄利”對文。

例3:R→味厚則泄,薄則通流。

原文句子S→寒勝則浮,濕勝則濡瀉?!饵S帝內(nèi)經(jīng)太素》卷三“濡”下無“瀉”字,《類說》卷三十七、《醫(yī)說》卷六引并同。

R→寒勝則浮,濕勝則濡0。

例4:原文句子S→其政為靜,其令0,本闕(《素問·五運行大論》,王冰注)。

R→其政為靜,其令0。

需要說明的是,無論是原文S還是正確原文R中所添加的空置符號“0”都可以很輕松地刪除,它們并不會影響這兩種文件的原貌。再者,文字顛倒、句讀等錯誤問題也可以根據(jù)基本模式生成其他擴展模式進行處理,為避免繁瑣,本文不再討論。另外,錯簡是久遠年代的古籍中另一種常見的錯誤,上述模式目前還難以處理這種錯誤,下文不再提及。

3 更改錯誤字符的標準及更正模式的改進

確定怎樣創(chuàng)建一個正確原文的方法之后,接著討論怎樣認定原文中的錯誤以及使用什么字符替換正確原文R中的字符。表面上看,這個問題似乎很簡單,因為??闭咄紩苑浅C鞔_的??庇谜Z表明是否需要進行更改操作。例如郭靄春在他的校注說明中就規(guī)定:“凡底本與校本或據(jù)校各書不一,顯系底本有誤者,均出校文,并注明某某誤、某某是、某某衍、某某當刪等字樣”。此種條件下,只需采用??闭叩男?币庖姡鸭榷J街械淖址鎿Q成為??闭咛峁┑淖址涂梢詧A滿完成任務。例如《黃帝內(nèi)經(jīng)素問校注·生氣通天論》曰:“逆秋氣,則太陰不收,肺氣焦?jié)M”,其中的“焦”字,王冰雖然訓為“上焦”,宋朝的林億也給出了??苯ㄗh“焦?jié)M全元起本作進滿,甲乙、太素作焦?jié)M”,但是郭靄春的??币庖姙椤盁薄4朔N情況下,只需按照郭靄春的意見,把R中的 “焦”更改為“煩”即可。然而,具體注釋文件中,有些校勘意見卻非常模糊?!饵S帝內(nèi)經(jīng)素問校注·生氣通天論》曰:“天地之間,六合之內(nèi),其氣九州九竅?!惫\春對“九州九竅”的注釋為:“俞樾曰:九竅是衍文,九州即九竅。胡澍曰:九州二字疑衍。是二者必有一衍。郭靄春雖然同意該句中有衍文,但并未指明“九州、九竅”兩者之中哪一個是衍文,如果選用“九竅”作為衍文,這是俞樾的意見而不是當前??闭吖\春的意見。同篇中的另一個句子“譬猶渴而穿井,斗而鑄錐,不亦晚乎!” 郭靄春關(guān)于“錐”的??币庖姙椤啊短亍肪矶俄橉B(yǎng)》作‘兵’,與各校本合……‘錐’之本義,僅為銳利,與‘鑄’字不合”。這個??币庖姺浅C黠@地傾向于更正操作,但卻沒有使用“當作、當是”等明確的??庇谜Z。

再者,當一部古籍只被校注過一次的時候,就只能采用一家之言,只能根據(jù)當前??闭叩囊庖娫赗行中更改訛誤的文字。然而,如果一部古籍曾被多位校注者???,或者一部古籍中的某個句子被專題討論并且其??币庖姳黄毡檎J可,但當前??闭卟⑽刺峒斑@些??币庖?,此時應該如何處理這些??币庖娔??錢超塵[7]在《內(nèi)經(jīng)語言研究》中對很多句子提出了很中肯的校勘意見,例如《素問·脈要精微論》中的句子“渾渾革至如涌泉,病進而色弊,綿綿其去如弦絕,死”,他從“字脫而失韻”的角度把此句??睘椤皽啘喐锔铮寥缬咳?,病進而危,弊弊綿綿,其去如弦絕,死”,恢復了“至如涌泉、弊弊綿綿”的押韻格式。錢健雄[8]認為,《素問·繆刺論》“剃其左角之發(fā)方一寸,燔治,飲以美酒一杯”以及《靈樞·邪客》“治半夏五合” 中的“治”,應該為“冶”,“燔冶”意謂焚燒碾碎。有學者認為,《素問·上古天真論》“不知持滿,不時御神”中的“時”應該為“識”[9]。這些??币庖娋欣碛袚?jù),但并沒有納入當前的??北荆欠駪摬杉{這些校注著作以外的??币庖娔兀?/p>

以上種種情況顯示,根據(jù)校注文件更正原文中的錯誤,認定錯誤的標準只能采用當前??币庖姙橹鳌⑵渌?币庖姙檩o的方式。當前??币庖娭秆芯恐兴x用版本中的校勘結(jié)論,其他??币庖娭府斍靶?闭咭玫母鞣N參考意見以及當前??闭呶茨苌婕暗募韧?币庖姟R援斍靶?币庖姙橹鞯姆椒ǎ梢院喎Q為當前法,指存在多種校勘意見的條件下優(yōu)先采用當前??闭叩男?币庖?;以其他校勘意見為輔的方法,可以稱之為輔助法,指當前校勘者沒有明確的??币庖娀蛘咂湫?币庖姳黄渌?闭咦C實有誤的條件下,按照學術(shù)界普遍認可的原則,選用其他校勘意見。

這里需要高度關(guān)注的是,輔助法是以正確原文R的創(chuàng)建者的主觀判斷為依據(jù)的,一個理想的創(chuàng)建者應該是一群專家,所選取的??币庖娨矐撾S著古籍??毖芯康牟粩嗌钊攵軌蜻M行更新。為了能夠克服這種主觀判斷的缺陷,可以再次擴展上文中創(chuàng)建的基本模式,把所選??币庖姷奶峁┱邩擞洺鰜?,以便被選擇的校勘意見不再被學界普遍認可時能夠方便地對正確原文進行更新,具體方法簡略說明如下:

S→醉以入房……

R→醉已入房……

A→0郭靄春……

這個模式由三行組成,S行與R行繼承自上文中的模式,新增的A行專門用來標記??币庖姷膩碓础]有更改記錄的情況下,A行的各個位置用空置符號“0”填充;有更正意見的情況下,??币庖姷奶峁┱呔褪菢擞浄枴4死?,該模式的第二個位置上(即S.W2、R.W2、A.W2)的“以……已……郭靄春”相互對應,構(gòu)成一條??庇涗?,表示正確原文R中的“已”是??闭摺肮\春”提供的。假如關(guān)于“已”的校勘意見發(fā)生了變化,筆者就更改R.W2與A.W2相應的字符。

顯然,這個模式所形成的文件依然具有清楚而穩(wěn)定的結(jié)構(gòu),可以交給計算機程序做進一步的處理。利用計算機程序,筆者就可以輕松地統(tǒng)計全文??钡目偭?、統(tǒng)計每位??闭叩呢暙I數(shù)量、甚至抽取他們所校勘的具體文本等。

4 復雜問題引起的更正模式

從古籍整理的角度分析,三行更正模式所討論的問題都是因原文受損而引發(fā)的更正操作。在實際文本中,有些注釋項目如避諱字、異體字、古今字等雖然都是古籍創(chuàng)作者所使用的字符,但依然必須進行更正。事實上,對于缺筆畫的避諱字,在原文S中就必須以完整的字形輸入計算機。異體字如“腎者主水,受五藏六腑之精而藏之(上古天真論篇第一)”中的“五藏、六府”,根據(jù)簡體字使用規(guī)范也應該更改為“五臟、六腑”。此時,按照三行更正模式,被更正的字符應該在A行中相應的位置標明校勘者。為了能夠區(qū)別R中被更改字符的屬性差別,可以把這種類型的更改操作定義為強制型更改,也就是在A行設置兩個特殊符號“異體”或“避諱”來標記這種注釋性的更改項目,具體方式如下所示:

S→受五藏六腑之精而藏之……

R→受五臟六腑之精而藏之……

A→0 異體 異體 0 0 0 0 0 0……

這里A行第二、第三個位置上(A.W2、A.W3)的標記符號“異體”表示正確原文R.W2、R.W3位置上的字符是被強制更改的字符?!爱愺w”與“避諱”符號雖然不是校勘者,但是卻可以像校勘者一樣地指明更改操作的來源,也可以像統(tǒng)計每一位??闭叩呢暙I一樣地統(tǒng)計“避諱”或者“異體”字的使用總量。

按照更改避諱字的方式,假借字、通假字似乎也應該加以處理,因為假借通假所涉及的對應字往往不易判斷,會引發(fā)語義理解困難,如果更改,就可以避免誤解句義的情況發(fā)生。例如,《黃帝內(nèi)經(jīng)素問校注·生氣通天論》中的句子“道者,圣人行之,愚者佩之”,王冰認為“佩”就是佩服之義,林億沒有提出異議,說明他同意王冰的注釋。這種誤解一直延續(xù)到清朝胡澍指出該字應該為同音假借字“倍,反也”才得到糾正。《黃帝內(nèi)經(jīng)素問校注·四氣調(diào)神大論》中的句子“天明則日月不明,邪害空竅”,其中的“天明”,唐王冰訓為“天所以藏德者,為其欲隱大明,故大明見則小明滅……”顯然他誤解“明”為“明亮”之義。此后歷代??贝笕寰刺岢霎愖h,直至郭靄春提出“明”通“萌”,“萌”再通“蒙”的校注意見,句義才霍然明朗起來。這兩個例子說明,假借字、通假字雖然屬于古籍原文中的正常字符,不應該算作??表椖?,但是如果讓這些字符繼續(xù)待在正確原文中而不加處理,在無注釋文件的條件下,誤解原文語義的情況幾乎就無法避免,更改應屬無奈之舉。

然而,基于正確原文的研究項目對語言材料可靠性的要求可能極其嚴格。例如朱冠明[10]對句子“臣被尚書召問”的討論,一份材料是否可靠就可能導致“被NV”句式出現(xiàn)的時間相差幾百年;《素問·本病論》中“民病夭亡,臉肢府黃疸滿閉”,其中的“臉”開始使用于漢代,一個字就足以把該篇的創(chuàng)作時間限定在漢代以后。對于這種研究來說,更改假借字、通假字就等同于破壞原文,是不可接受的。因此,假借字、通假字雖然應該處理,但不能在正確原文R行中處理。為了解決這種問題,可以進一步擴展第四節(jié)中提出的三行模式,再增加一個E行,組成一個四行模式來標記假借字、通假字等情況,具體方式如下:

S→愚者佩之……

R→愚者佩之……

A→0 0 0 0 0……

E→0 0 背 0 0……

該模式中,新增的E.W3位置上的“背”跟R.W3位置上的“佩”對應,表示假借字關(guān)系,本質(zhì)上是注釋“佩”的意思,即E-R兩行之間是解釋與被解釋的語義關(guān)系。此時,A.W3位置為空置符號“0”,可以利用這個空置位置,再次定義兩個強制型標記符號“假借、通假”,以更明顯的方式來說明E.W3與R.W3之間這種強制性的對應關(guān)系。也就是說,該模式中A.W3位置上的標記符號可以改寫如下:

A→0 0 假借 0……

E→0 0 背 0 ……

如此以來,就可以借助這兩個標記符號對假借或通假的數(shù)量進行統(tǒng)計,也可以查找或者抽取假借字所在的句子等。更為重要的是,E行上的各個位置也就此被強制符號“假借、通假”劃分成了“標記”和“非標記”兩種類型。標記類型已經(jīng)專用于說明假借字和通假字關(guān)系,非標記類型可以留作他用,比如用來標注正確原文R中字符的意思。這種情況已經(jīng)超出本文的研究范圍,本文不再討論。

5 結(jié)語

根據(jù)校注文件生成正確原文的過程比較繁雜,也可以算作古籍校注成果難以被應用的一種證據(jù)。運用計算機技術(shù)把校注成果轉(zhuǎn)化成為這個正確原文,不僅可以把古籍文獻的使用者從查閱大量校注文件的苦海中徹底解放出來,也可以使古籍校注者能夠繼續(xù)把精力集中在古籍文獻校注方面。從此意義上講,古籍校注模式就是古籍校注研究與古籍文獻應用研究之間的樞紐。本文中提出的四行更正模式是一個相互依賴的整體,其中的R行實現(xiàn)了古籍校注的終極目標,形成了一份具體可靠的正確原文;S行滿足了??边^程中保護原文的需求;A行中的標記符號標明了各種被校正字符的依據(jù),為以后的數(shù)據(jù)統(tǒng)計與信息抽取奠定了基礎。但是E行僅僅涉及語義注解中的特殊問題,尚有待進一步深入研究。

猜你喜歡
素問字符古籍
尋找更強的字符映射管理器
中醫(yī)古籍“疒”部俗字考辨舉隅
Discussion on Etiology and Pathogenesis of Corona Virus Disease 2019 from “Cold-dampness and Insidious Dryness”
關(guān)于版本學的問答——《古籍善本》修訂重版說明
天一閣文叢(2020年0期)2020-11-05 08:28:06
A Randomized Controlled Clinical Trial on Efficacy and Safety of Electroacupuncture on Oral Oxycodone Hydrochloride Prolonged-Release Tablets Related Constipation
試論多紀元簡對金漥七朗《素問考》的借鑒和襲用
字符代表幾
一種USB接口字符液晶控制器設計
電子制作(2019年19期)2019-11-23 08:41:50
關(guān)于古籍保護人才培養(yǎng)的若干思考
天一閣文叢(2018年0期)2018-11-29 07:48:08
消失的殖民村莊和神秘字符
长泰县| 三原县| 霸州市| 乌拉特前旗| 津市市| 宁城县| 昭通市| 乌审旗| 岳西县| 灌阳县| 福泉市| 武安市| 娄烦县| 盖州市| 奉贤区| 伊金霍洛旗| 平度市| 阜南县| 海门市| 内黄县| 含山县| 桐梓县| 枣阳市| 邯郸县| 巴东县| 凯里市| 古交市| 金川县| 建平县| 甘孜县| 北辰区| 永仁县| 鸡泽县| 桦南县| 通辽市| 平度市| 桃江县| 固始县| 富阳市| 临汾市| 左云县|