,,
中醫(yī)古籍是中醫(yī)學(xué)術(shù)研究成果的載體之一,記載了數(shù)千年積累的中醫(yī)藥學(xué)理論知識(shí)以及臨床治療經(jīng)驗(yàn),因此開發(fā)和利用中醫(yī)古籍具有重要意義。然而中醫(yī)古籍因書名繁雜、語(yǔ)言晦澀、版本眾多、分類獨(dú)特等特點(diǎn),導(dǎo)致其不易被研究人員使用。
計(jì)算機(jī)技術(shù)及網(wǎng)絡(luò)技術(shù)發(fā)展迅猛,中醫(yī)古籍的數(shù)字化處理為其更高效率使用開辟了新的道路。目前我國(guó)的中醫(yī)古籍?dāng)?shù)字化建設(shè)工作的研究成果很多,但從選題控制、版本選擇、質(zhì)量標(biāo)準(zhǔn)與規(guī)范、數(shù)字化技術(shù)等方面來(lái)看,仍然存在許多弊端。
我國(guó)古籍?dāng)?shù)字化工作起步于20世紀(jì)80年代。1984年,錢鐘書先生就曾提出古典文獻(xiàn)整理和研究應(yīng)盡早與計(jì)算機(jī)聯(lián)姻[1],隨后史睿、李運(yùn)富、彭江岸、毛建軍等學(xué)者從不同角度對(duì)古籍?dāng)?shù)字化的性質(zhì)、要素、特征等進(jìn)行了深入研究。國(guó)內(nèi)專家針對(duì)中醫(yī)古籍的特殊性對(duì)其數(shù)字化工作模式進(jìn)行了探討[2],如吉聰指出要以善本古籍作為工作重點(diǎn),分析比較了“全文版”和“圖像版”兩種錄入方式;柳長(zhǎng)華通過(guò)分析古文獻(xiàn)中的信息,對(duì)若干語(yǔ)句進(jìn)行知識(shí)結(jié)構(gòu)和語(yǔ)義分析,提出“知識(shí)元”的概念; 裴麗對(duì)中醫(yī)古文獻(xiàn)中的書名、文字信息障礙進(jìn)行分析,通過(guò)解析全文和逐級(jí)標(biāo)引實(shí)現(xiàn)智能化的高級(jí)檢索,構(gòu)建中醫(yī)古籍信息平臺(tái)系統(tǒng);王振國(guó)分析了中醫(yī)藥古籍的信息結(jié)構(gòu),提出了一種開發(fā)方式為自底向上的信息構(gòu)建方法IA[3]。此外,還有部分專家學(xué)者探討了古籍文字的處理、數(shù)據(jù)加工方式、信息平臺(tái)的構(gòu)造模式以及知識(shí)發(fā)現(xiàn)等,但這些研究沒(méi)有達(dá)成共認(rèn),還有許多見解需要通過(guò)具體的實(shí)踐來(lái)驗(yàn)證。
20世紀(jì)90年代以來(lái),中醫(yī)古籍?dāng)?shù)字化實(shí)踐成果與日俱增,如由中國(guó)中醫(yī)藥學(xué)會(huì)、湖南電子音像出版社、嘉鴻科技開發(fā)有限公司合作編制的《中華醫(yī)典》,由北京愛如生數(shù)字化技術(shù)研究中心開發(fā)制作的《愛如生醫(yī)書集成》,由北京龍戴特信息技術(shù)有限公司開發(fā)的《龍語(yǔ)瀚堂中醫(yī)藥文獻(xiàn)數(shù)據(jù)庫(kù)》,由臺(tái)灣漢珍數(shù)位圖書股份有限公司開發(fā)制作的《本草綱目》等。這些中醫(yī)古籍大多通過(guò)大字符集錄入、OCR識(shí)別、掃描等方法實(shí)現(xiàn)數(shù)字化實(shí)踐,屬于表層加工。
隨著數(shù)字化工作不斷深入,出現(xiàn)了諸如中國(guó)中醫(yī)科學(xué)院開發(fā)的“中醫(yī)藥古文獻(xiàn)知識(shí)庫(kù)”、“中醫(yī)藥珍善本古籍多媒體庫(kù)”、“溫病大成數(shù)據(jù)庫(kù)”、“中醫(yī)古籍資源數(shù)據(jù)庫(kù)及閱覽系統(tǒng)”,北京中醫(yī)藥大學(xué)所開發(fā)的“方劑數(shù)據(jù)庫(kù)”、“中醫(yī)古籍養(yǎng)生數(shù)據(jù)庫(kù)”、 “消渴古代文獻(xiàn)數(shù)字資源庫(kù)”等中醫(yī)古籍?dāng)?shù)字化成果,這些中醫(yī)古籍知識(shí)庫(kù)通過(guò)對(duì)古籍內(nèi)容進(jìn)行多級(jí)標(biāo)注,可基于網(wǎng)絡(luò)進(jìn)行檢索操作或?qū)崿F(xiàn)超文本閱讀環(huán)境。
中醫(yī)古籍始于秦漢,鼎盛于明清,其數(shù)目不勝枚舉。但是國(guó)內(nèi)的研究者在選擇數(shù)字化加工對(duì)象時(shí)卻有失偏頗,熱門古籍重復(fù)建設(shè),冷門古籍無(wú)人問(wèn)津。一般出版社、IT公司等商業(yè)機(jī)構(gòu)常常選擇熱門古籍進(jìn)行重復(fù)建設(shè),忽略研究院等學(xué)術(shù)科研機(jī)構(gòu)的需求,完全以盈利為目的,導(dǎo)致資源浪費(fèi),耗費(fèi)不必要的人力物力和財(cái)力。此外,中醫(yī)古籍流傳千年,后人不斷的校對(duì)、整理、翻刻,導(dǎo)致版本繁多。不同的版本具備不同特點(diǎn)與優(yōu)勢(shì),需要對(duì)每一版本的價(jià)值做出客觀評(píng)判,應(yīng)盡量選擇善本作為數(shù)字化處理對(duì)象,使該種數(shù)字化古籍成果為最優(yōu)。
當(dāng)前國(guó)內(nèi)的中醫(yī)古籍?dāng)?shù)字化產(chǎn)品的質(zhì)量參差不齊,有一小部分?jǐn)?shù)字化產(chǎn)品口碑較高,得到了廣大用戶好評(píng)。然而有相當(dāng)一部分產(chǎn)品的質(zhì)量不盡如人意,在質(zhì)量標(biāo)準(zhǔn)和規(guī)范制定上沒(méi)有統(tǒng)一標(biāo)準(zhǔn)。主要原因有:中醫(yī)古籍?dāng)?shù)字化工作的認(rèn)知度差,開發(fā)團(tuán)隊(duì)素質(zhì)較低,導(dǎo)致開發(fā)時(shí)沒(méi)有認(rèn)清動(dòng)機(jī)及終極目標(biāo),忽略了數(shù)字化工作的重要部分;對(duì)中醫(yī)古籍的版本選擇過(guò)于隨意,注釋、校點(diǎn)不嚴(yán)謹(jǐn);部分產(chǎn)品對(duì)古籍?dāng)?shù)字化工作的要求停留在影印和大字符輸入初級(jí)階段,沒(méi)有考慮更高階段的逐級(jí)標(biāo)引和高級(jí)檢索;開發(fā)團(tuán)隊(duì)為了保護(hù)版權(quán),隨意設(shè)定自己數(shù)字化產(chǎn)品的格式,導(dǎo)致相同或相近的古籍產(chǎn)品沒(méi)有統(tǒng)一固定格式,給讀者利用帶來(lái)諸多不便。
中醫(yī)古籍?dāng)?shù)字化初始階段的大多成果主要以單機(jī)版為主,資源有限、不能共享,極大地限制了用戶的使用。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,網(wǎng)絡(luò)版中醫(yī)古籍?dāng)?shù)字化產(chǎn)品應(yīng)運(yùn)而生,不同用戶可以在不同地點(diǎn)同時(shí)使用這些產(chǎn)品。但是大多數(shù)中醫(yī)古籍?dāng)?shù)字化成果的后臺(tái)數(shù)據(jù)庫(kù)不能升級(jí)和改造,共享性差,在建設(shè)過(guò)程中沒(méi)有考慮信息平臺(tái)未來(lái)的升級(jí)、淘汰等問(wèn)題,因此需要找到適合中醫(yī)古籍?dāng)?shù)字化的最優(yōu)框架和模式解決產(chǎn)品的擴(kuò)展性問(wèn)題。
中醫(yī)古籍?dāng)?shù)字化工作的意義除了保護(hù)古文獻(xiàn)外,主要是為了學(xué)者和專家充分揭示和利用中醫(yī)古籍,因此實(shí)用性是中醫(yī)古籍?dāng)?shù)字化建設(shè)應(yīng)遵循的重要原則。若要使產(chǎn)品充分發(fā)揮實(shí)用性,需要考慮以下兩點(diǎn):一是保真度,將中醫(yī)古籍原貌展示出來(lái)充分揭示古籍中蘊(yùn)含的信息;二是版本的選擇,一般原則是以善本作為中醫(yī)古籍?dāng)?shù)字化的加工對(duì)象。
中醫(yī)古籍?dāng)?shù)字化建設(shè)是一項(xiàng)全國(guó)性的工作,從事這項(xiàng)工作的群體主要包括古籍收藏機(jī)構(gòu)、學(xué)術(shù)研究機(jī)構(gòu)、出版機(jī)構(gòu)、IT企業(yè)等。由于各機(jī)構(gòu)間的性質(zhì)差異,其數(shù)字化建設(shè)的動(dòng)機(jī)和目的也不盡相同。認(rèn)知上的偏差必然會(huì)影響到數(shù)字化產(chǎn)品的策略和側(cè)重點(diǎn),缺乏統(tǒng)一標(biāo)準(zhǔn),容易導(dǎo)致資源重復(fù)建設(shè)[4-5]。因此,相關(guān)研究機(jī)構(gòu)應(yīng)事先進(jìn)行溝通和協(xié)調(diào),從中醫(yī)古籍?dāng)?shù)字化工作中的具體環(huán)節(jié)出發(fā),制定出相關(guān)的評(píng)價(jià)體系和工作標(biāo)準(zhǔn),嚴(yán)格控制不同機(jī)構(gòu)在數(shù)字化建設(shè)中產(chǎn)生的數(shù)據(jù)垃圾,真正意義上實(shí)現(xiàn)中醫(yī)數(shù)字化產(chǎn)品資源共享。
可擴(kuò)展性是評(píng)價(jià)成果優(yōu)劣的重要原則。為了使其流通時(shí)間更長(zhǎng),范圍更廣,不被淘汰,需要從技術(shù)角度選擇一個(gè)最適用的模式進(jìn)行數(shù)字化處理。
目前比較推崇的模式為B/S,其易用性好,用戶使用統(tǒng)一的瀏覽器入口進(jìn)行閱覽;工作人員容易維護(hù),方便數(shù)據(jù)的添加、刪減及更新;信息資源共享程度高,可多地點(diǎn)同時(shí)段使用某數(shù)字化產(chǎn)品;通過(guò)配備防火墻、網(wǎng)絡(luò)安全協(xié)議使數(shù)字化產(chǎn)品具有較高安全性;使用的TCP/IP協(xié)議,具有較高的擴(kuò)展性。
平臺(tái)建設(shè)的總體思路主要參考已有的中醫(yī)古籍?dāng)?shù)字化建設(shè)成果,根據(jù)現(xiàn)有相關(guān)技術(shù)以及古文獻(xiàn)信息資料特點(diǎn),將滿足用戶的不同需求作為出發(fā)點(diǎn)進(jìn)行平臺(tái)設(shè)計(jì)。
首先,選擇適合的系統(tǒng)框架結(jié)構(gòu),使平臺(tái)實(shí)現(xiàn)兩種界面瀏覽滿足用戶基本閱讀需求,一般為古籍圖像掃描界面和文字錄入界面;其次,設(shè)定框架中的系統(tǒng)及子系統(tǒng)中各模塊,考慮各模塊中的功能設(shè)計(jì);再次,鑒于中醫(yī)古籍?dāng)?shù)字化信息量大及平臺(tái)需要處理海量數(shù)據(jù),平臺(tái)服務(wù)器模式應(yīng)該基于B/S。此外,還需要保證平臺(tái)系統(tǒng)安全及數(shù)據(jù)的完整性,平臺(tái)與主流操作系統(tǒng)相兼容。本文以《本草經(jīng)集注》為例介紹中醫(yī)古籍?dāng)?shù)字化信息平臺(tái)的建設(shè)。
4.2.1 框架及開發(fā)模式設(shè)計(jì)
《本草經(jīng)集注》為南朝本草名著,其體例統(tǒng)一,各條藥文的格式固定,其數(shù)字化平臺(tái)的系統(tǒng)框架是可重復(fù)使用的設(shè)計(jì)構(gòu)件。通過(guò)框架進(jìn)行平臺(tái)系統(tǒng)和子系統(tǒng)的設(shè)計(jì),提供基本模塊功能,進(jìn)行實(shí)例化操作,滿足用戶需求。該系統(tǒng)平臺(tái)的框架為應(yīng)用型框架,這種框架結(jié)構(gòu)使用廣泛,注重軟件設(shè)計(jì)的重復(fù)性和系統(tǒng)的可擴(kuò)展性,該平臺(tái)的系統(tǒng)框架結(jié)構(gòu)設(shè)計(jì)分為用戶界面層、業(yè)務(wù)處理層和數(shù)據(jù)存貯層。這種三層結(jié)構(gòu)不是指物理上的三層,而是指邏輯上的三層。
用戶界面層是用戶和管理員進(jìn)入《本草經(jīng)集注》系統(tǒng)平臺(tái)的窗口,包括類目導(dǎo)航、檢索服務(wù),還提供注冊(cè)、登陸、修改資料、后臺(tái)管理、退出系統(tǒng)等鏈接。業(yè)務(wù)處理層是數(shù)字化系統(tǒng)框架體現(xiàn)核心價(jià)值的部分,它處于用戶界面層和數(shù)據(jù)存儲(chǔ)層之間,起到了數(shù)據(jù)交換承上啟下的作用,業(yè)務(wù)處理層遵循相關(guān)的業(yè)務(wù)規(guī)則來(lái)響應(yīng)用戶和管理員通過(guò)界面層發(fā)出的所有請(qǐng)求,并在數(shù)據(jù)存儲(chǔ)層抓取相關(guān)數(shù)據(jù),再將匹配的數(shù)據(jù)傳送給界面層;數(shù)據(jù)存儲(chǔ)層中存儲(chǔ)了經(jīng)過(guò)整理后的所有數(shù)據(jù),在保證數(shù)據(jù)完整性和安全性的前提下進(jìn)行數(shù)據(jù)的維護(hù),如添加、刪除、修改等操作。
4.2.2 模塊設(shè)計(jì)
系統(tǒng)模塊是具有一定功能的子程序,是整個(gè)程序的一部分。一個(gè)模塊可以實(shí)現(xiàn)單個(gè)功能,也可以實(shí)現(xiàn)有緊密聯(lián)系的多個(gè)功能。根據(jù)《本草經(jīng)集注》數(shù)字化系統(tǒng)平臺(tái)的需求,我們把整個(gè)系統(tǒng)分為原版古籍模塊、數(shù)據(jù)庫(kù)模塊、輔助功能模塊、用戶模塊、系統(tǒng)管理模塊等5個(gè)模塊。其中,核心模塊為原版古籍模塊和數(shù)據(jù)庫(kù)模塊,包括《本草經(jīng)集注》原書圖像以及后臺(tái)錄入古籍全部文字;輔助功能模塊是此系統(tǒng)的輔助模塊,主要實(shí)現(xiàn)使用者和設(shè)計(jì)者相互交流和類似工具書功能;系統(tǒng)管理模塊和用戶模塊服務(wù)于核心模塊。系統(tǒng)模塊設(shè)計(jì)的最大特點(diǎn)為多個(gè)系統(tǒng)管理員按照系統(tǒng)應(yīng)用框架提供統(tǒng)一的數(shù)據(jù)加工平臺(tái),可同時(shí)在不同IP地址對(duì)古籍進(jìn)行數(shù)字化加工,并且保證了數(shù)字化工作規(guī)劃統(tǒng)一,提高了工作效率。此外,所有用戶均可從任意地點(diǎn)或者時(shí)間通過(guò)瀏覽器訪問(wèn)該系統(tǒng)平臺(tái),實(shí)現(xiàn)真正意義上的資源共享。
4.2.3 功能設(shè)計(jì)
《本草經(jīng)集注》數(shù)字化系統(tǒng)平臺(tái)主界面中設(shè)計(jì)了原版及現(xiàn)代版古籍的瀏覽功能、檢索加工功能和輔助功能等三大功能?!侗静萁?jīng)集注》原版圖像版的圖像均為.jpg格式,該圖片內(nèi)嵌入主界面中,用戶無(wú)需返回就可以隨時(shí)應(yīng)用或進(jìn)入其他功能?,F(xiàn)代版本是重新經(jīng)過(guò)整理加工錄入到系統(tǒng)平臺(tái)中的,其文字內(nèi)容與檢索加工平臺(tái)中所檢索到的相關(guān)藥文是一致的。因此將古籍現(xiàn)代版鏈接到檢索加工平臺(tái)中的藥文示范中,不僅節(jié)省了空間,而且簡(jiǎn)化了系統(tǒng)界面,使其應(yīng)用界面更加友好。檢索加工平臺(tái)是《本草經(jīng)集注》整個(gè)數(shù)字化平臺(tái)的核心部分,是實(shí)現(xiàn)管理員的數(shù)據(jù)加工、修改、維護(hù)等功能的平臺(tái),還是實(shí)現(xiàn)用戶訪問(wèn)、檢索等操作的平臺(tái)。
《本草經(jīng)集注》數(shù)字化平臺(tái)的輔助功能包括古漢語(yǔ)詞典、平臺(tái)使用幫助和論壇功能。古漢語(yǔ)詞典是古籍系統(tǒng)平臺(tái)輔助功能中的“外掛軟件”,給閱讀者掃除了基本的語(yǔ)言障礙,極大地方便了讀者的閱讀與研究。此外,用戶通過(guò)該模塊中的“論壇”功能,既可發(fā)表評(píng)論,也可與系統(tǒng)管理員或者平臺(tái)其他用戶隨時(shí)溝通,從而完善系統(tǒng)平臺(tái)。
中醫(yī)古籍?dāng)?shù)字化的宗旨是為了深入挖掘中醫(yī)古籍的信息價(jià)值,它不僅起到保護(hù)中醫(yī)古籍的作用,更為使用者利用古籍開辟了廣闊空間。