□毛建軍
明清檔案是明清兩朝社會活動的原始記錄,是我國歷史檔案的重要組成部分。明清檔案內(nèi)容繁多,大致包括內(nèi)閣大庫檔案、軍機處檔案、內(nèi)務(wù)府檔案、宗人府檔案、國史館檔案、清宮中各處檔案和清各部院衙門檔案等。據(jù)調(diào)查統(tǒng)計,現(xiàn)存于我國大陸、臺灣及世界各地的明清檔案約有2200萬件。①隨著計算機技術(shù)的發(fā)展,明清檔案的研究手段和實踐有了新的突破和發(fā)展。其中尤以計算機技術(shù)與明清檔案研究的結(jié)合最為突出。計算機巨大的儲存空間和強大的數(shù)據(jù)處理能力,給明清檔案的數(shù)字化帶來了全新的機遇,明清檔案的保存和利用也迎來了數(shù)字化新時代。
明清檔案數(shù)字化就是采用計算機技術(shù),將常見的文字或圖形符號轉(zhuǎn)化為數(shù)字符號的過程。明清檔案數(shù)據(jù)庫則是指以計算機可讀的字符代碼形式或以明清檔案掃描影像形式存貯的數(shù)據(jù)庫。明清檔案數(shù)據(jù)庫以明清檔案文字內(nèi)容為揭示對象,其目的在于保護(hù)和揭示明清檔案信息,從而最終實現(xiàn)明清檔案的保存和利用。明清檔案數(shù)據(jù)庫能夠?qū)崿F(xiàn)全文閱讀、全文檢索或智能分析服務(wù),具有傳統(tǒng)文獻(xiàn)所無可比擬的優(yōu)勢。
明清檔案數(shù)字化是檔案學(xué)發(fā)展的必然選擇。明清檔案數(shù)字化以其特有的資源特點必將給檔案學(xué)研究和中國文化的傳播帶來全新的機遇。其重要性和意義在于:①有利于明清檔案的搶救和保護(hù)。由于種種原因,我國明清檔案正處于瀕危階段。明清檔案數(shù)據(jù)庫以數(shù)字化的形式存貯和利用,是搶救明清檔案的最好形式。②有利于全方位開發(fā)利用明清檔案。明清檔案數(shù)據(jù)庫是一個存儲在一起的相關(guān)數(shù)據(jù)的集合,具有高度數(shù)據(jù)集成的特征。明清檔案數(shù)據(jù)庫實現(xiàn)了檢索自動化,可千百倍地提高檢索速度。③有利于促進(jìn)古籍文獻(xiàn)資源共建共享的形成。隨著國際互聯(lián)網(wǎng)的迅速發(fā)展,明清檔案實現(xiàn)了網(wǎng)絡(luò)共享,可以在任意時間、任意空間傳播,數(shù)字化明清檔案的網(wǎng)絡(luò)共享大大提高了明清檔案的利用效率。
在短短的20年間,國內(nèi)外利用計算機技術(shù)編制了大量明清檔案數(shù)據(jù)庫。對明清檔案數(shù)據(jù)庫資源做調(diào)查分析,既有利于指導(dǎo)下一步的明清檔案數(shù)字化工作,促進(jìn)明清檔案數(shù)字資源的整合,又有利于社會各界合理利用明清檔案數(shù)字資源,充分挖掘明清檔案信息。
日本收藏有大量的中文古籍。隨著古籍?dāng)?shù)字化進(jìn)程的開展,日本各大科研機構(gòu)也開始將明清檔案數(shù)字化,并提供網(wǎng)絡(luò)化服務(wù)。其中在明清檔案數(shù)據(jù)庫的開發(fā)與建設(shè)方面,以京都大學(xué)圖書館建置的中國清代民國公私文書數(shù)據(jù)庫最具成就。中國清代民國公私文書數(shù)據(jù)庫收錄了京都大學(xué)法學(xué)部舊日本法史研究室所藏康熙至民國年間的295件中國公私文書的圖像數(shù)據(jù)。內(nèi)容包含田地、房屋、魚池等典賣關(guān)系文書(賣契、典契、稅契等);租佃關(guān)系文書(承攬契、租契、納租督促文書);所有權(quán)確認(rèn)官給文書;稅契稅糧的官給文書;借錢、遺囑、解決紛爭的私文書;以及各種官方公文等。
目前,臺灣地區(qū)明清檔案數(shù)據(jù)庫已開發(fā)出許多資源,其開發(fā)建設(shè)單位主要為臺灣地區(qū)的研究機構(gòu)。其中以臺灣“中央研究院”歷史語言研究所建置的內(nèi)閣大庫檔案數(shù)據(jù)庫和“國立故宮博物院”清代宮中檔奏折及軍機處檔折件數(shù)據(jù)庫最具特色。
“中央研究院”歷史語言研究所建置的內(nèi)閣大庫檔案數(shù)據(jù)庫收錄目錄數(shù)據(jù)16萬條,提要數(shù)據(jù)11萬條,全文影像3.8萬條。“中央研究院”歷史語言研究所現(xiàn)有內(nèi)閣大庫檔案總計31萬多件,是研究中國制度史的重要史料。內(nèi)閣大庫是清代內(nèi)閣典藏書籍、表章、檔案的場所,館藏檔案內(nèi)容包括詔令、題奏、移會、賀表、三法司案卷、實錄稿本、各種黃冊、簿冊等。內(nèi)閣大庫檔案數(shù)據(jù)庫的建設(shè)始于1996年,目前已基本建成。研究者可通過互聯(lián)網(wǎng)檢索提要,全文影像則需要在史語所傅斯年圖書館閱覽室使用。數(shù)據(jù)庫可實現(xiàn)簡易查詢、索引瀏覽和全文檢索查詢,檢索途徑有責(zé)任者、職銜、事由、登錄號、主題等。
“國立故宮博物院”清代宮中檔奏折及軍機處檔折件數(shù)據(jù)庫收錄“宮中檔奏折”15萬余件,“軍機處折件”19萬余件,內(nèi)容涵蓋清代國政大事、國家政策、軍事外交、典章制度、風(fēng)土人情、文化習(xí)俗、律法刑案、工藝美術(shù)等豐富多樣的數(shù)據(jù)類型。數(shù)據(jù)庫可提供文獻(xiàn)編號、具奏人姓名、具奏人官職、具奏時間、事由、朱批日期等檔案相關(guān)內(nèi)容的檢索。檢索結(jié)果以標(biāo)題索引與原版影像呈現(xiàn)。
其它臺灣地區(qū)明清檔案數(shù)據(jù)庫見下表:
中國大陸地區(qū)是明清檔案收藏最為豐富的地區(qū)。由于計算機技術(shù)發(fā)展略滯后于日本和港臺地區(qū),在明清檔案數(shù)據(jù)庫開發(fā)建設(shè)上起步較晚,但后來居上。目前中國大陸地區(qū)的明清檔案數(shù)據(jù)庫的建設(shè)已取得豐碩成果。中國大陸地區(qū)參與明清檔案數(shù)據(jù)庫開發(fā)建設(shè)的單位主要為公共檔案館和數(shù)字化出版企業(yè)。公共檔案館明清檔案數(shù)據(jù)庫的建設(shè)以中國第一歷史檔案館開發(fā)制作的《清代檔案文獻(xiàn)數(shù)據(jù)庫》為代表;數(shù)字化出版企業(yè)以愛如生數(shù)字化技術(shù)研究中心研制的《明清實錄》和《清帝朱批奏折》最具特色和影響力。
《清代檔案文獻(xiàn)數(shù)據(jù)庫》是中國第一歷史檔案館重點清史檔案文獻(xiàn)數(shù)字化工作項目,是目前國內(nèi)外首次運用先進(jìn)的中文數(shù)字化技術(shù)進(jìn)行大規(guī)模歷史檔案文獻(xiàn)數(shù)字化的成功案例。中國第一歷史檔案館館藏檔案1000余萬件,共74個全宗。其中,明代檔案3000余件,主要是天啟、崇禎時期的兵部檔案。清代檔案占絕大部分,內(nèi)容涵蓋了清代的政治、經(jīng)濟、軍事、文化、農(nóng)業(yè)、工業(yè)、外交、科技、教育、宗教等諸方面?!肚宕鷻n案文獻(xiàn)數(shù)據(jù)庫》由北京書同文數(shù)字化技術(shù)有限公司提供技術(shù)支持,于2005年底正式啟動。目前第一期建設(shè)成果《大清歷朝實錄》、《大清五部會典》已經(jīng)完成?!洞笄鍤v朝實錄》共計3645萬字,原文圖像127971頁?!洞笄逦宀繒洹饭灿?610萬字,原文圖像85582頁。數(shù)據(jù)庫以原文圖像與全文數(shù)字化文本相掛接作為基本模式,兩種頁面可相互切換,使讀者能夠即時將全文檢索的結(jié)果與原文對照。數(shù)據(jù)庫強大的全文檢索功能,實現(xiàn)了字字可查、句句可檢,全文檢索內(nèi)置漢字關(guān)聯(lián),其中包括簡繁、正異、通假、正訛、中日、避諱字等各種漢字之間的關(guān)聯(lián),并附帶中西紀(jì)年歷換算工具。《清代檔案文獻(xiàn)數(shù)據(jù)庫》是檔案文獻(xiàn)工作者和古籍?dāng)?shù)字化科技工作者共同創(chuàng)造的成果,代表了我國檔案數(shù)字化的最高水平和發(fā)展方向,標(biāo)志著我國清代檔案史料的刊布進(jìn)入了信息化新階段。②
名稱 數(shù)字代碼 漢語拼音代碼 漢字代碼公開級 0 GK 公開國內(nèi)級 1 GN 國內(nèi)內(nèi)部級 2 NB 內(nèi)部秘密級 3 MM 秘密機密級 4 JM 機密絕密級 5 JM 絕密
北京愛如生數(shù)字化技術(shù)研究中心是中國頗具規(guī)模的古籍?dāng)?shù)字化專業(yè)公司,中心先后研發(fā)了80種兼具學(xué)術(shù)性和實用性、風(fēng)格多樣的古籍?dāng)?shù)字化產(chǎn)品,包括大型數(shù)據(jù)庫、系列數(shù)據(jù)庫、數(shù)字圖書和數(shù)字工具等。在明清檔案數(shù)字化資源開發(fā)方面,北京愛如生數(shù)字化技術(shù)研究中心也取得了豐富成果。《明清實錄》匯輯《明實錄》和《清實錄》兩部巨著共計27種書、7356卷,各據(jù)其通行鈔本制成全文數(shù)據(jù),另附原版影像??傆嬋?千萬字,影像30萬頁,數(shù)據(jù)總量約10G,同時配備有全文檢索系統(tǒng)?!肚宓壑炫嗾邸饭策x錄大陸和臺灣兩地檔案機構(gòu)歷年來影印公布的清代朱批奏折10萬件,時間跨越康熙、雍正、乾隆、嘉慶、道光、咸豐、同治、光緒八朝,內(nèi)容涉及政治、經(jīng)濟、軍事、外交、社會、文化等多個方面?!肚宓壑炫嗾邸凡捎霉偶?dāng)?shù)字化技術(shù),將奏文及批文全部數(shù)字化,制成可讀可查的全文數(shù)據(jù),并配備檢索系統(tǒng)和功能平臺,提供分類檢索、條目檢索、全文檢索、高級檢索及原文對照、圈點眉批、分類收集、下載打印等功能。
除了以上大型明清檔案數(shù)字化成果以外,國內(nèi)一些公共圖書館和科研單位也積極參與明清檔案的數(shù)字化工作。如大連市圖書館開發(fā)的《清代內(nèi)務(wù)府檔案數(shù)據(jù)庫》、中國社會科學(xué)院歷史研究所開發(fā)的《徽州契約文書數(shù)據(jù)庫》等也都兼具實用價值和精品特色。
明清檔案數(shù)字化是對已存文獻(xiàn)的再現(xiàn)和加工,是21世紀(jì)明清檔案整理和研究的發(fā)展方向。盡管明清檔案數(shù)據(jù)庫的建設(shè)已經(jīng)取得了相當(dāng)大的成績,但還存在一些值得思考的問題。
一是資源重復(fù)建設(shè)問題。由于目前還沒有一個統(tǒng)一的組織機構(gòu)去管理和協(xié)調(diào)明清檔案數(shù)據(jù)庫的建設(shè),加之明清檔案收藏單位和研究單位又十分復(fù)雜,因此,國內(nèi)外重復(fù)開發(fā)和建設(shè)了大小不一的數(shù)據(jù)庫,造成了巨大的人力、物力和財力的浪費。這種重復(fù)開發(fā)不僅給開發(fā)單位帶來了巨大損失,而且也增加了讀者檢索和利用上的困難。明清檔案數(shù)據(jù)庫的建設(shè)是一項系統(tǒng)工程,需要一個全國性協(xié)調(diào)機構(gòu)或組織來全面實施數(shù)據(jù)庫的規(guī)劃,以避免重復(fù)開發(fā)和資源浪費。
二是數(shù)據(jù)庫兼容問題。明清檔案數(shù)據(jù)庫的建設(shè)至今還沒有一個統(tǒng)一的數(shù)據(jù)庫著錄和運行系統(tǒng)標(biāo)準(zhǔn),系統(tǒng)建置也是各行其是。這勢必造成未來統(tǒng)一數(shù)據(jù)庫的兼容問題。明清檔案數(shù)據(jù)庫的建設(shè)必須依照相應(yīng)的標(biāo)準(zhǔn)和規(guī)范進(jìn)行建設(shè)。規(guī)范化的明清檔案數(shù)據(jù)庫必須是在相同軟件支持下做出的,在格式、內(nèi)容、標(biāo)引、著錄以及字體等方面都按國家標(biāo)準(zhǔn)的數(shù)據(jù)庫。
三是資源共享問題。明清檔案數(shù)據(jù)庫的利用在資源共享上還存在資源封閉和利益保護(hù)的弊端。從目前已建成的明清檔案數(shù)據(jù)庫資源來看,在使用方面設(shè)立了許多障礙,如限制局域網(wǎng)使用,給讀者帶來了諸多不便。因此,實現(xiàn)明清檔案數(shù)據(jù)庫資源的共享勢在必行。
需要指出的是,目前明清檔案數(shù)據(jù)庫的建設(shè)最迫切的任務(wù)是做好資源整合工作。從已開發(fā)的明清檔案數(shù)據(jù)庫的資源來看,明清檔案的資源已相當(dāng)可觀。因此,整合利用好這些資源是件很重要的工作。在充分調(diào)查國內(nèi)外明清檔案數(shù)據(jù)庫資源的基礎(chǔ)上,相信不遠(yuǎn)的將來會有一個完善且高效的明清檔案數(shù)據(jù)庫呈現(xiàn)在我們眼前。
注釋:
①張會超:《明清檔案編纂出版的思考》,《檔案管理》2007年第4期:第43-44頁。
②王光越:《中國第一歷史檔案館“全文數(shù)字化清代檔案文獻(xiàn)數(shù)據(jù)庫”建設(shè)成果〈大清歷朝實錄〉、〈大清五部會典〉》,《歷史檔案》2008年第1期:第133-137頁。