主持人語:本欄目所收的一組文章,都曾在今年春季的“古典新識”論壇上宣讀,其共同點是關注古籍閱讀、整理、研究的“新”問題,從不同角度思考古典研究在數字化浪潮下的變化趨勢。近年來,中華書局古聯公司在這一領域貢獻尤多,朱翠萍從業(yè)界的角度介紹了古聯公司數字化、智能化工作的經驗及其對數字人文研究的理解。趙建成則從學術深度研究的角度,探討學者在這一背景下的思考與可能貢獻。馮大建以小說文獻學為例,思考當下文獻數字化工作的局限性,并嘗試從底層標準設計的角度加以思辨。張昊蘇選取了一個微觀問題,嘗試探索結合數字人文方法與傳統(tǒng)文獻考辨的可能性。四篇文章針對同一主題,但立說角度不同,各有見地,實可相互映發(fā)。(馮大建)
內容提要:相較于詩文文獻研究,小說文獻研究與數字化工作仍顯滯后。小說文獻研究,對“小說”“文獻”兩方面均有價值。從研究方法上說,小說文獻的特殊性、復雜性在古典文獻研究中均較少見,故其可以豐富既有文獻學的方法,并與最近興起的抄本研究形成呼應。理想的小說數字化工作應立足于以下兩方面:在學理層面,對小說文獻所涉及的根本性問題加以反思,擬定義例,建立標準,達成共識;在操作層面,采取聯盟協(xié)作方式,打造學者共同參與的共同平臺。數據庫設計應在初期充分考慮小說文獻研究可能涉及的需求,分階段按重要性逐步完成。
關鍵詞:古代小說文獻 數字人文 數字化
數字人文研究的發(fā)展,離不開文獻的數字化。可通過互聯網便捷訪問、多維度檢索的文獻數據庫迅速發(fā)展①,使利用算法、統(tǒng)計的人文研究成為可能。不僅傳統(tǒng)的諸如“四庫”“永樂大典”等超大型類書、叢書全數被數字化,小學甲骨、敦煌文獻、佛教經藏、方志碑刻等學科領域,也有大量的專題庫。世界各地的大學、圖書館與大型文化出版機構是近20年來文獻數字化工作的主力,工作類型以建設影像、全文或目錄類數據庫為主,并開發(fā)了諸多數字人文工具。如果再加上研究團隊與個人建立的小型專題文獻庫,數字化文獻工作的成果蔚為大觀。但與蓬勃發(fā)展的通用型數字文獻成果相比,古代小說文獻數字化工作的進展頗為滯后。雖然大量中國古代小說作品已經可以在互聯網上全文閱讀,但其中能夠對中國古代小說研究的新發(fā)展提供助益者卻寥寥無幾。就現有數據庫來看,專題小說文獻數據庫、小說文獻數據質量均存一定缺陷。小說文獻數字化的滯后,一方面與古代小說這個研究對象的復雜性有關,另一方面或許也與小說文獻研究自身的研究范式、方法均需要深入討論并建構有關。小說文獻的數字化建設,首先依托于小說文獻的系統(tǒng)整理與深入研究,而小說文獻的整理水準,則有賴于對小說文獻若干核心問題的反思與探索。
近期,南開大學古代小說研究同仁正在探討古代小說文獻學理論與實踐的若干問題,并試圖立足于當下既有的小說文獻研究成果,研發(fā)課程、開發(fā)教學軟件①,探索古代小說文獻研究人才培養(yǎng)的方式方法。在教學科研的過程中,我們也發(fā)現需要對古代小說文獻研究的根本問題進一步深入思考,只有在此基礎上,才能夠對古代小說文獻數字化工作提出一些合理的展望與研究思路的探討。
一 古代小說文獻研究的成果與困境
古代小說文獻研究,既是中國古代小說史與作品研究的基礎性工作,也是古典文獻研究的重要組成部分,具有“小說”“文獻”研究的雙重價值。
按照一般認知邏輯,“小說文獻”應是古典文獻學的分支之一,屬于“??莆墨I學”范疇。但從現有文獻學教材、論著,及文獻研究者的興趣來看,經史詩文等傳統(tǒng)的文獻“正宗”研究積累豐厚,而小說文獻研究則處在經典“文獻學”研究視野邊緣。除中國學術史發(fā)展特點與治學傳統(tǒng)觀念之影響外,小說文獻自身的特殊性也是重要的原因。中國古代小說文獻非完整性、零散性、隨意性、不均衡性、易變性等特點②,可謂其中要因。
從學術史的角度看,古代小說文獻的“發(fā)現/建構”起源較晚。雖發(fā)展已逾百年,但較之目錄??钡墓诺湮墨I學術傳統(tǒng),為時尚短。其肇始自清末民初魯迅、胡適、孫楷第、鄭振鐸等前輩學者對傳統(tǒng)“小說”文體的重視與研究,是現代“文學研究”范式確立的產物。自諸位前賢之后,20世紀后半期的文獻整理成果蓬勃發(fā)展,重量級成果頻出。古代小說文獻在影印、整理、編目、史料匯編、理論匯編等層面積累了多種重要成果。大型小說叢刊如天一出版社《明清善本小說叢刊》(1985)、中華書局《古本小說叢刊》(1987—1991)、上海古籍出版社《古本小說集成》(1990—1994);書目著錄如袁行霈和侯忠義《中國文言小說總目》(1981)、程毅中《古小說簡目》(1981)、江蘇社科院《中國通俗小說總目提要》(1990)、李劍國《唐五代志怪傳奇敘錄》(1993)、寧稼雨《中國文言小說總目提要》(1996)、石昌渝主編《中國古代小說總目》(2004)、朱一玄等編著《中國古代小說總目提要》(2005);還有大量分體、斷代的古代小說作品總集叢刊、敘錄提要出版;史料匯編如朱一玄《水滸傳資料匯編》(1981)和《聊齋志異資料匯編》(1985)、侯忠義《中國文言小說參考資料》(1985)、黃霖《金瓶梅資料匯編》(1987)、劉蔭柏《西游記研究資料》(1990)、朱一玄《明清小說資料選編》(1990);理論匯編如黃霖和韓同文《中國歷代小說論著選》(1982)、孫遜和孫菊園《中國古代小說美學資料匯釋》(1989)、丁錫根《中國歷代小說序跋集》(1996)等;域外小說文獻方面也產生了一些重要成果,韓國、越南、日本漢文小說集成叢刊陸續(xù)出版。這些大型小說文獻研究成果的形成,大大推動了中國古代小說研究的深入發(fā)展。
但隨著古代小說研究的深入發(fā)展,整體去觀察小說文獻研究與成果的作用,特別是與各類數字化文獻的使用相比較,仍然能夠發(fā)現一些遺憾之處。大體可歸為如下六個方面:
其一,紙質載體,翻閱不便。上述文獻中的大型叢書,雖已為研究者提供了較大便利,但就數字時代的文獻環(huán)境來說,卻有滯后不便之處。在面對重要研究對象之時,當然需要“細讀”,但立足于全文檢索和文本挖掘的“遙讀”也同樣重要。
其二,聚焦熱點,忽略冷門。相關文獻整理出版偏重于“熱點”,以關注名著、關注重要版本、關注特定歷史時期為特點;二三流作品,乃至經典小說的次要版本都較少被整理工作關注;點面不均,有待進一步發(fā)展。
其三,標準不一,版本可商。部分通行影印叢書,在影印的質量、版本選擇等方面,都還有可商榷之處;整理本過于注重“通行”,文獻細節(jié)處理,有隨手、粗率之處;整理本往往不能完整保存原書版本特征,只適合進行普及,不適合歷史性研究,有時甚至可能誤導文獻研究方向。
其四,文本核心,信息支離。對于文獻整理而言,重在初步的作品、資料的文本呈現,但更豐富的出版、圖文等歷史以及出版信息往往被剝離,仍需核對原本方可資于研究;另外,小說文獻??彪m然也不離“四?!敝瓌t,但勘誤核異卻有自己之特殊性,特別是服務于研究的學術性文獻工作,不能簡單以對錯通異為準,而需要盡可能地保留歷史版本信息。
其五,偏重應用,缺乏理論。小說文獻的整理往往偏重于應用,而對小說文獻的一些根本性問題,比如小說文獻應該包括哪些內容、好的小說文獻整理應該注重哪些特點、小說數據庫應該以何種標準建設,還缺乏更深入的思辨。
其六,數據欠豐,呈現受限。當下古代小說數據庫為數較少,且標準缺乏、質量不佳,數字化??惫ぞ哕浖乔啡?,數字化文獻匯編綜合檢索與利用有待實現。知識圖譜等進階性研究,亦無從發(fā)展。這也與小說文獻研究自身發(fā)展的系統(tǒng)性不完整的情況有關。
事實上,小說文獻有自己的特殊性和復雜性,這在古典文獻研究中是較為少見的,故其可以豐富既有文獻學的方法,并與最近興起的抄本研究形成呼應。比如,自從郭店楚簡《老子》甲、乙、丙出土后,就提示研究者:《老子》一書的爭議性并不僅僅在于上下經的順序、具體分章與異文的差別,也在于其本身有可能是多種道家文本重新組合成的思想論著。這一進程與古代白話小說的“世代累積”現象不無相似之處,校勘成果必須與成書研究相配合,才能夠理解不同文本的衍生關系。小說文獻學研究可以為古典文獻研究方法提供更多特殊用例。從研究結論說,既往某些對小說史的一般認知,及對小說名著的特點認識,由于對小說文獻的考辨、甄別不夠細密,因此有進一步提升的空間。對小說文獻理論的思辨,有助于文獻學和小說史兩個領域的發(fā)展,而小說文獻學研究的自我檢討與完善,也是小說文獻數字化發(fā)展的基礎工作。
二 古代小說文獻研究:何以?何為?
“小說文獻”之字面意義雖不難理解,但邊界卻不清晰。嚴格來說,“小說文獻”首先應該包括小說文本之各種版本,以及與小說研究有關系的各類文獻,并通過版本、目錄、???、輯佚、辨?zhèn)蔚葌鹘y(tǒng)文獻學方法加以研討。但廣義去看,小說“文備眾體”——文言與筆記、文集交錯,白話與戲曲說唱同源,分屬兩個文獻系統(tǒng),??狈椒H有差異。近來,除傳世文獻外,出土文獻也逐漸受到了關注①;除國內文獻外,域外文獻也更應該得到重視。若考慮到小說之內容、思想與其產生時代之糾纏,則文獻范圍更為廣泛,故此,小說文獻研究的首要問題即是對核心與邊界的界說。
何為“小說”,歷來并無定論;小說應如何分類,也沒有嚴格的標準。從《漢書·藝文志》開始,目錄著作開始著錄“小說”,但傳統(tǒng)目錄學中的“小說”分類與現代文學研究的“小說”對象之間,并不吻合,有時偏差很大。首先,是今古理論框架之差異。古人對小說的認知與古代小說實踐的發(fā)展常常存在著某種“錯位”,這種錯位被陳洪先生描述為動態(tài)的“瓶與酒的關系”,新瓶納舊酒、新酒入舊瓶,名實之間始終是動態(tài)的匹配過程。其次,對于古代小說作品的身份認定從根本上還是以今天的“文學小說”概念為依托的,故此,今古研究者之學理框架之間也存在錯位的問題。小說史研究也好,目錄研究也好,“何為小說”始終都是重點討論的基本問題,“小說”作品的邊界游移,則小說文獻之邊界也就難以明晰。
此外,傳統(tǒng)目錄學方法在著錄小說文獻時也會面臨一些困難。比如,小說基本信息的著錄體例,應該和傳統(tǒng)的詩文文獻的著錄方式有一些區(qū)別,它需要更復雜的信息來呈現,應擬定特殊的體例。再比如,在提要撰寫時,傳統(tǒng)目錄提要或是概括全書主要宗旨、歷史價值,或是介紹版本沿革與特殊性質,但在小說提要中都有一定困難。幾種當代小說提要著作雖試作探索,但也各有問題。以《紅樓夢》提要為例,如歐陽健、蕭相愷編《中國通俗小說總目提要》重在內容提要,但首先難以解決的是脂、程兩大版本系統(tǒng)的矛盾——不論作者、回目、情節(jié)梗概、主旨,都因版本不同而有明顯之差異。朱一玄編《中國古代小說總目提要》、石昌渝編《中國古代小說總目》等,還用相當篇幅討論了紅學研究爭議、當代整理本與譯本等問題。我們當然可以理解提要作者努力尋求學界共識的努力,但僅就提要寫法來看,仍不得不承認小說提要目前還是缺乏嚴格標準的。
另一方面,小說文獻研究還需要關注小說文體在文化傳統(tǒng)中的地位、古代小說獨特的出版機制等問題。
小說文體在中國古代的文之傳統(tǒng)中地位不高?!坝捎谥袊糯藢π≌f一貫輕視和貶斥,造成了許多問題。”①小說出版和傳播的特殊性也與此有密切關系。特別是宋元以后,通俗白話小說的出版,與詩文經典差異頗大。作品被“任意”刪改、作家或戲作或逐利而匿名出版,文體地位卑下也導致很多作品與相關文獻資料的散失缺乏。由于白話小說的特殊性質,作家作品的文獻空白點特別多。常見的材料多見于詩文集、筆記中的小說描述,但相對零散,也欠缺詳細的邊界劃定、資料整合(尤其是“非名著”的資料)。再如,與小說相關的“文獻”,也為數甚多且散見于多種敘事文類作品中。小說與其他文體——特別是戲曲、說唱、寶卷等俗文學文類的互動文獻,如“三國故事”“西游故事”,究竟應該如何看待,都使小說文獻邊界劃定更令人困惑。如部分學者曾批評魯迅《中國小說史略》未顧及各類“變文”“詞話”,以至小說史論說有孤立之??;近年來的《中國小說通史》亦將彈詞等文體納入“小說史”書寫,旨在提供更廣闊的研究視野??梢姟靶≌f文獻”獨立成學,應當劃定更為明確之界限,但“小說文獻”與其他文體、學科糾纏連接的那些材料,也應得到充分之關注。
這些都是古代小說文獻研究的特殊困境。其中,小說文本的復雜版本問題又是一大難點。理想情況下,當然應將所有的版本異文都納入研究視野,但傳統(tǒng)作品研究往往側重于精研小說的核心版本,細致比勘不同版本的工作相對滯后,所涉文獻亦有缺位。但當小說研究進一步縱深發(fā)展時,就需要通過各版本的精細化比勘來細化對小說作品的真實發(fā)展歷程的認識;除需要關注小說主文本外,還要進一步關注小說的“副文本”。比如序跋、批評、圈點插圖等刊刻信息體現不夠,在眾多整理本與匯編中這些原始出版、傳播與技術性信息“留存”不多,不能不說是種遺憾。傳統(tǒng)的作品整理重在形成一個精要的“通行”本,甚至忽視??睂W規(guī)范采取“擇善而從”;而今天的研究則需要眾多易于檢閱、保留準確豐富“元數據”的原始風貌本。
這些特殊性也導致小說文獻研究思路、方法上的個性化問題。小說版本中出現的大量異體字、俗字、錯別字等現象,是影響文獻研究結論和版本關系分析的重要證據,按理說不應徑改為規(guī)范字,但具體應如何處理,目前學界討論仍欠深入。理想的小說文本的多版本??睉右跃毲蚁到y(tǒng)的核較、比勘,但不少小說涉及的版本數量太多,異文數量龐大且難以窮盡,而對異文的解釋也相對簡略,這就出現了“事倍功半”的現象:從事小說版本研究,難度較高,標準欠缺,收益較低。對“世代累積型”的小說,由于不成于一人一時,就無“定本”可言,且“繁簡本”差異并非簡單的異文有無可以概括,或此有彼無,或存在整章回、整段情節(jié)的巨大差異,??惫ぷ麟y度極大。既有的大量研究,常常是可以依照一個“標準版”(或代表性版本)來進行,這就使得學界對小說版本校勘有敬而遠之的態(tài)度。作為個體研究者來說,這種選擇當然有合理性,不過,確有一些習焉不察的問題被遮蔽于相對粗放的文獻選擇之下。
簡單來說,小說文獻研究的深入思考與小說文獻數字化工作其實是同步同向的?!靶≌f文獻”應該包括哪些內容,就界定了理想的小說數據庫應該收錄哪些信息,以及小說文獻研究者應該如何建立自己的知識結構;解釋了“小說文獻”應該用哪些方式加以重點研究,小說研究者在數字化時代的需求也就呼之欲出了。也就是說,小說文獻數字化的體系性建設,必須立足于對小說文獻特殊性的充分認知和理論思辨之前提。換言之,小說文獻的數字化建設應該建立在對小說文獻研究這個學術領域的深入反思的基礎上。小說文獻研究的對象與方法都應該以一種“標準化”的思路做深入的系統(tǒng)梳理。
三 古代小說文獻的數字化需求與反思
如前所述,當前古代小說數字化工作處于相對滯后的地位。雖然大量數據庫中都收錄有小說作品,但可用于研究征引的小說研究的各種專題數據庫較少,且各有問題。比如,北京愛如生數字化技術研究中心開發(fā)制作的“中國俗文庫”雖已相當完備,但也有數據選擇方面的問題。而且,對普通研究者來說,該庫也有并未普及的問題(全球用戶24家,大陸地區(qū)用戶僅7家)。
約言之,各類收錄小說文獻的數據庫,往往存在如下共同問題:
第一,數據質量欠佳,權威性不足。很多數字小說文本固然可以在線閱讀、復制,但缺乏版本依據,也就缺乏作為學術文獻征引依據的權威性。即使是那些能夠對作品書影通過OCR技術手段自動整理而形成的數字文本,也面臨同樣問題——任何技術手段都不足以保證學術文獻所要求的準確度。
其二,基礎數據缺乏。小說收藏廣泛分布在國內外諸多圖書館中,對不同版本的書影電子化工作尚未完成,故缺乏高水準、系統(tǒng)性強的底本庫。不僅高質量底本庫缺乏,數字化的權威作品目錄庫也不完善。當然,小說文獻自身一些信息的不完整,也造成了數據庫設計的困難。比如說,大量小說沒有明確的出版時間,則對于要進行精確標注的數據整理而言,就必須設計出能夠容納這種模糊性的索引模式;而這種模糊的容錯性策略設計,恰恰是數字化工作的難點。
其三,小說文獻數據庫技術與標準有待完善?,F有的小說數據庫,雖能夠提供全文檢索和部分高級功能,但仍不能夠完全滿足學者的使用需求,亟需從底層設計層面進一步完善。
故此,若積極推進數字化小說文獻的發(fā)展,除小說文獻研究自身的理論建構與實踐探索外,在技術層面或可從以下幾個方面做基本標準與規(guī)范的界定,進而推動小說文獻數字化的研發(fā)與建設。
首先,應該對小說文獻數據的結構提出標準化要求。學界和業(yè)界對數字化文獻的結構化信息和原數據整理標準,已有比較全面、深入的技術研發(fā)。但在文獻數據層面上,大部分采用的還是雙層結構,即原書圖版與整理文本兩層。用戶可對整理后的數字化本文進行復制剪切,并進一步對照原書的書影圖版進行核對。但這樣就導致數字化文本的整理工作面臨巨大的分歧:是依照通行原則簡化糾錯呢?還是依照學術原則保留“原汁原味”的文字痕跡?故此,文獻數據庫的數據應該包括三個層次,即(1)原始圖版層:高質量掃描原書圖版——以保存所有的紙張、印刷等版本刊刻信息;(2)原始文本層:嚴格按照影印版生成的繁體數字化文本——保留原文的內容細節(jié)、異體字乃至錯別字,以用于學術研究引用;(3)通行文本層:對照標準字符集生成的一個帶標點的通用文本——便于快速檢索、閱讀等作品研究與傳播。三層數據精密對照而彼此無礙,從而方便學者按需取用,形成高學術水平的數字化文獻。
其次,應制定一套符合小說數字化文獻特征的文本標記和存儲的技術框架標準。以文本標記技術標準為例,關于文獻中標準字符集中未收錄的異體字如何顯示?對于小說文獻的空白、破損、模糊、涂改補充如何標記?對于小說文本的夾注眉批、圈點如何呈現?對于小說文本的序跋印章款式等如何呈現?在這些方面,應該由大學與專業(yè)文獻服務商密切合作,由專業(yè)學者與技術專家共同討論出一套標準、通用的小說文獻存儲的“技術框架”和“標準語法”。首先與原影印情況應完全一一對應,然后才是整理版的情況。要言之,即對小說文獻的各類原始文獻信息都能夠有標準的記錄方法,才能夠真正實現小說文獻“準確”地高質量數字化。這雖然看似是技術問題,但卻需要眾多小說文獻研究者共同討論、全面考察小說文獻的??碧攸c方可完善。而這種技術標準的統(tǒng)一,也便于將來建立的各類小說作品專題庫之間數據的交流與共享。
再次,應該研發(fā)適應學術研究的軟件工具。比如,小說文本的比勘工具就是急需的。學界對小說版本比勘需求較高,但如何在有限的屏幕空間內完成多版本、大批量比對功能?與詩文文獻個別字句差誤不同,小說文本體量巨大,不同版本之間差異巨大,不僅有簡繁本的問題,還有改編系統(tǒng)與原本系統(tǒng)之間的差異。再如,小說圖版與文本的便利化的校點工具可能也是迫切需要的。特別是當我們處理一些較為“冷門”的版本時,完全可以通過同版本系統(tǒng)的通行文本與該版本的圖影對照,從而快速校訂出比較準確的文字內容來。工欲善其事必先利其器,相關工具的開發(fā)、開放,有利于降低工作強度,也可吸引更多專業(yè)人才參與小說文獻數字化的建設工作。
最后,就實際操作方案來說,可考慮以如下步驟具體推動小說文獻的數字化建設??煽紤]多院校、多機構共同建立小說文獻研究專題社區(qū)——特別是技術標準社區(qū),推動小說文獻整理標準、方法與規(guī)范的形成;努力打造文獻平臺與研究平臺的合一,可通過“以用促建”的方式,為學界同行提供技術支持與數據共享;以專題庫為突破,推進高質量作品庫建設。依據前定之學術標準,使不同方向的小說文獻研究者發(fā)揮專長,在同一平臺分享、討論,推動小說文獻研究與小說文獻數字化工作的共同發(fā)展。
結語
綜上所述,我們建議,理想的小說文獻工作,應該在清晰思辨小說文獻基本問題的基礎上,統(tǒng)合現有小說文獻成果,努力形成貫通的文獻方法論,并以此解釋小說史上若干重要現象。理想的小說數字化工作應立足于以下兩方面:在學理層面,對小說文獻所涉及的根本性問題加以反思,擬定義例,建立標準,達成共識;在操作層面,采取聯盟協(xié)作方式,打造學者共同參與的共同平臺。小說文獻的數字化數據庫建設應在充分討論學理的基礎上,由學界與業(yè)界共同推進技術標準的研發(fā);初期充分考慮小說文獻研究可能涉及的需求,分階段按重要性逐步完成。這一問題其體甚大,并非少數學者所能完成,期待學界有識者能夠共襄盛舉,就上述核心標準問題共同商討、整理,以提升小說文獻研究的水平,并通過卓有成效的數據平臺建設,為學界提供具體討論的參考物。在小說文獻層面有所突破,對當下古典文獻學研究亦有裨益,其價值當不僅限于小說一體之研究。
(馮大建,南開大學文學院副教授)