鄭永曉
(中國(guó)社會(huì)科學(xué)院 文學(xué)研究所,北京 100732)
近年來,大數(shù)據(jù)技術(shù)的發(fā)展風(fēng)起云涌、日新月異,已經(jīng)逐步滲透到日常生活和各行各業(yè)的方方面面。在古籍整理和文史研究領(lǐng)域,將大數(shù)據(jù)技術(shù)引入傳統(tǒng)學(xué)科的呼聲也時(shí)有所聞。基于數(shù)字文本和數(shù)據(jù)分析的學(xué)術(shù)方法已經(jīng)成為古代文學(xué)研究的重要方法之一。新的理念和新的方法必將對(duì)古代文學(xué)研究這門歷史悠久的學(xué)科帶來革命性的創(chuàng)新。同時(shí)我們也需要清醒地意識(shí)到,由于古代文史研究這門學(xué)科本身的特點(diǎn)、漢字的特殊性、古籍?dāng)?shù)字化的進(jìn)程、漢字檢索查詢技術(shù)的發(fā)展等因素的影響和制約,將大數(shù)據(jù)技術(shù)應(yīng)用于傳統(tǒng)學(xué)術(shù)的過程中,還將面臨多方面的挑戰(zhàn),還有許多問題需要發(fā)展和完善,因此,回顧這一領(lǐng)域過去的歷史,總結(jié)其發(fā)展經(jīng)驗(yàn)和不足之處,就顯得十分必要。這其中,作為20世紀(jì)重要學(xué)者之一的錢鍾書先生在中國(guó)古籍?dāng)?shù)字化問題上所表現(xiàn)出的遠(yuǎn)見卓識(shí),及在他指導(dǎo)下,以欒貴明教授為首的研究團(tuán)隊(duì)所作的艱苦卓絕的努力和取得的豐碩成果,尤為值得總結(jié)和探索。鑒于學(xué)界對(duì)此研究尚有不足,故筆者不揣淺陋,對(duì)此略作梳理如下。
眾所周知,錢鍾書先生治學(xué)以旁征博引、縱貫古今中西著稱。吳宓詩:“才情學(xué)識(shí)誰兼具,新舊中西子竟通?!盵注]吳宓:《賦贈(zèng)錢鍾書即題其中書君詩初刊》,《清華校友通訊》1935年第2卷第3期??芍^知人之言。但是,以錢鍾書先生超強(qiáng)的記憶力和淵博的學(xué)識(shí),面對(duì)浩如煙海的中外文獻(xiàn)尤其是我國(guó)古籍文獻(xiàn),卻仍有力不從心之感。《管錐編》1981年再版《序》云:“《管錐編》問世以還,數(shù)承讀者貽書啟益。余重閱一過,亦見樹義之蘊(yùn)蓄未宣、舉證之援據(jù)不中者,往往而有。”[注]錢鍾書:《管錐編》(補(bǔ)訂重排本)第一冊(cè),三聯(lián)書店2001年版,第1頁??梢娢墨I(xiàn)援據(jù)引證之難即使學(xué)識(shí)淵博如錢先生也偶會(huì)遺闕?!墩勊囦洝贰豆苠F編》出版后,錢鍾書先生曾不斷修訂。即使對(duì)于《宋詩選注》這部篇幅相對(duì)較小的作品,他也多次增補(bǔ)。大概在1959年他曾將此書寄贈(zèng)日本學(xué)者小川環(huán)樹,并親筆改動(dòng)90余處、3000多字。[注]參見王水照:《〈正氣歌〉所本與〈宋詩選注〉“錢氏手校增注本”》,《文學(xué)遺產(chǎn)》2006 年第4期。這其中除了熱心讀者提供了若干文獻(xiàn)正誤方面的線索等因素外,也緣于他本人在日積月累的讀書過程中不斷發(fā)現(xiàn)新文獻(xiàn)、新問題。
很顯然,如果能有某種工具將研究所需要的相關(guān)文獻(xiàn)一網(wǎng)打盡,協(xié)助學(xué)者在查詢文獻(xiàn)時(shí)起到事半功倍的效果,顯然是錢鍾書先生所樂意見到的。而發(fā)明于20世紀(jì)中葉的電子計(jì)算機(jī)技術(shù),其功能效用恰恰符合他這一預(yù)期。從錢鍾書先生的治學(xué)方式來看,其善于博聞強(qiáng)記和排比文獻(xiàn)之異同等的確與計(jì)算機(jī)處理文獻(xiàn)時(shí)的工作方式有某種內(nèi)在的類似之處。錢先生談及自己的著述時(shí)往往自稱是羅列文獻(xiàn)、拼補(bǔ)連綴而成,如《七綴集》“這本書是拼拆綴補(bǔ)而成,內(nèi)容有新舊七篇文章。我想起古代‘五綴衣’、‘七綴缽’等名目,題為《七綴集》”[注]錢鍾書:《七綴集》,三聯(lián)書店2002年版,第1頁。。之所以有這樣的說法很大程度上是因?yàn)樗闹t遜,但也確實(shí)透露出他讀書、治學(xué)的基本路數(shù),即在大量讀書的基礎(chǔ)上,發(fā)現(xiàn)相關(guān)文獻(xiàn)之間的內(nèi)在聯(lián)系進(jìn)而抽繹出問題,并以大量例證予以解析。這顯然是一種抽絲剝繭、披沙揀金的過程。發(fā)現(xiàn)大量的材料是前提,深厚的學(xué)養(yǎng)、敏銳的眼光和判斷力是關(guān)鍵。而在大量書籍中找尋材料與計(jì)算機(jī)的模式識(shí)別(Pattern Recognition)和數(shù)據(jù)挖掘(Data Mining)顯然具有某種程度上的相似性,只是計(jì)算機(jī)效率更高、速度更快。
錢鍾書先生確實(shí)不懂計(jì)算機(jī)具體操作,但不等于他對(duì)計(jì)算機(jī)的理念沒有精深的理解。恰恰相反,他常年閱讀外文文獻(xiàn),對(duì)社會(huì)變革進(jìn)程中出現(xiàn)的各種新事物具有高度敏感性,其小說《圍城》中有關(guān)電視、電話、電報(bào)、冰箱等詞匯的使用足可證明。他對(duì)計(jì)算機(jī)與人的關(guān)系、計(jì)算機(jī)必將對(duì)社會(huì)進(jìn)步起到巨大推動(dòng)作用等有十分清醒且前瞻性的把握。于是在他的鼓勵(lì)和指導(dǎo)下,以其學(xué)術(shù)助手欒貴明為首的計(jì)算機(jī)室得以在文學(xué)研究所組建,并在后續(xù)數(shù)十年不懈的努力工作中,取得了一系列重要的成果。
長(zhǎng)期就職于中國(guó)社科院外國(guó)文學(xué)研究所的著名翻譯家高莽(1926—2017)曾經(jīng)回憶說:“記得改革開放初期,錢、楊二老談及錢瑗訪問英國(guó)回來后,向父母介紹了國(guó)外使用電腦的情況,說英國(guó)用電腦儲(chǔ)存莎士比亞資料與查閱資料的各種功能。錢先生立刻意識(shí)到這一新鮮事物的意義,便建議文學(xué)研究所成立計(jì)算機(jī)組,即后來的社科院直屬下的計(jì)算機(jī)室,希望其走向世界?!盵注]高莽:《懷念錢鍾書老先生》,載丁偉志主編:《錢鍾書先生百年誕辰紀(jì)念文集》,三聯(lián)書店2010年版,第114-127頁。在文學(xué)研究所古代室任職的胡小偉(1945—2014)也曾說道:“20世紀(jì)80年代初葉,錢鍾書的女兒錢瑗教授有機(jī)會(huì)到英國(guó)進(jìn)修,回來后偶爾談起英國(guó)學(xué)者用計(jì)算機(jī)研究莎士比亞戲劇,取得顯著成果,錢先生立刻受到啟發(fā),從1984年便開始倡導(dǎo)把計(jì)算機(jī)技術(shù)引入中國(guó)古典文獻(xiàn)的搜集、疏證和整理中來,那時(shí)還在1981年9月中央發(fā)布《關(guān)于整理我國(guó)古籍的指示》以后不久?!盵注]胡小偉:《錢鍾書與電腦時(shí)代》,載丁偉志主編:《錢鍾書先生百年誕辰紀(jì)念文集》,三聯(lián)書店2010年版,第237-244頁。
錢瑗為錢鍾書、楊絳唯一愛女,1978年至1980年間由所在單位北京師范大學(xué)公派至英國(guó)蘭開斯托大學(xué)(Lancaster University)進(jìn)修英語及語言學(xué)。錢瑗教授提供的這一信息彌足珍貴,而錢鍾書先生若把這一設(shè)想付諸實(shí)施就需要一個(gè)合適的領(lǐng)軍人物,于是這一重任就自然落到了長(zhǎng)期兼任錢先生學(xué)術(shù)助手的欒貴明身上。
欒貴明,1940年生,1964年畢業(yè)于北京大學(xué)中文系古典文獻(xiàn)專業(yè),被分配至中國(guó)科學(xué)院哲學(xué)社會(huì)科學(xué)部文學(xué)研究所(即今之中國(guó)社會(huì)科學(xué)院文學(xué)研究所)所長(zhǎng)辦公室工作,做時(shí)任所長(zhǎng)何其芳的秘書。欒貴明在接受記者采訪時(shí)曾透露,他在讀大學(xué)時(shí)讀過《談藝錄》《圍城》《寫在人生邊上》等著作,覺得錢先生是非常了不起的人。到文學(xué)所后發(fā)現(xiàn)錢先生對(duì)圖書的需求量非常大,于是就自覺承擔(dān)起幫助錢先生借閱圖書的任務(wù)?!爸饾u交往越來越深,我在文學(xué)所工作36年,追隨錢先生34年,直到錢先生最后的時(shí)光?!盵注]李懷宇:《欒貴明談錢鍾書:他的一生充滿俠肝義膽》,《時(shí)代周報(bào)》2010年12月16日第C08版。
欒貴明在結(jié)束干校生活返京后應(yīng)該是轉(zhuǎn)入文學(xué)研究所古代組(即今之古代文學(xué)研究室)工作。錢先生此前曾向欒貴明建議研究《永樂大典》,于是欒貴明首先完成了《四庫輯本別集拾遺》。其后錢先生就指導(dǎo)他將主要精力轉(zhuǎn)移到利用計(jì)算機(jī)處理古籍文獻(xiàn)上來。中國(guó)社會(huì)科學(xué)院時(shí)任副秘書長(zhǎng)楊潤(rùn)時(shí)后來在接受記者采訪時(shí)回憶說:“欒貴明在這方面原來是一張白紙,他過去從來沒有接觸過這個(gè)領(lǐng)域,計(jì)算機(jī)這種技術(shù)傳入中國(guó)時(shí)間又很短。當(dāng)時(shí)社會(huì)科學(xué)研究領(lǐng)域已經(jīng)開始有‘三論熱’,就是信息論、控制論和系統(tǒng)論。但是,錢先生卻很明確地提出了運(yùn)用計(jì)算機(jī)技術(shù)來保存、整理和運(yùn)用中國(guó)古典文獻(xiàn)的問題,應(yīng)該說這是非常有遠(yuǎn)見的?!盵注]李懷宇:《錢鍾書力撐欒貴明》,《時(shí)代周報(bào)》2010年12月16日第C08版。錢鍾書先生之所以選擇欒貴明來承擔(dān)這一艱巨的任務(wù),除了二人長(zhǎng)期形成的密切關(guān)系外,也因?yàn)闄栀F明本身所具有的品性,例如受過古典文獻(xiàn)專業(yè)系統(tǒng)訓(xùn)練、喜鉆研、個(gè)人動(dòng)手能力強(qiáng)等。欒貴明本人在2017年接受記者采訪時(shí)的說法是:“1984年錢先生提到數(shù)據(jù)庫想法的時(shí)候,我連電腦是什么都不知道。(記者問:‘他的這個(gè)想法是從哪里來的?’)是從錢瑗那兒。錢瑗到英國(guó)做訪問學(xué)者,寫信時(shí)就向錢先生介紹了英國(guó)的莎士比亞系統(tǒng),回國(guó)后說得更詳細(xì),說英國(guó)那邊要查莎士比亞,用電腦檢索,查什么有什么。這是錢瑗帶回來的第一號(hào)新聞,一下就把錢先生迷住了?!盵注]王勉:《他想做的,是開拓萬古之心胸——社科院文學(xué)所研究員欒貴明回憶恩師錢鍾書》,《北京青年報(bào)》2017年3月24日第B01版。迷住錢先生的電腦同樣迷住了欒貴明。筆者1984年8月被分配至文學(xué)研究所工作,在古代室忝陪末座,偶爾與欒先生閑談,中心話題便是他正四處奔波研究電腦,其興致勃勃之狀,至今猶歷歷在目。
1985年在錢鍾書先生支持下,文學(xué)研究所設(shè)立計(jì)算機(jī)室。在當(dāng)時(shí)經(jīng)費(fèi)匱乏、人才奇缺的環(huán)境中,計(jì)算機(jī)室開始了堪稱艱苦卓絕的對(duì)未知領(lǐng)域的探索進(jìn)程。對(duì)這段時(shí)光楊潤(rùn)時(shí)有極簡(jiǎn)潔形象的描述:“欒貴明拿出工資積蓄,變賣一些家當(dāng),錢鍾書先生又支援一些稿費(fèi),終于買來一臺(tái)蘋果機(jī)。他就一頭扎了進(jìn)去?!盵注]楊潤(rùn)時(shí):《一份沉重的囑托——錢鍾書、欒貴明與中國(guó)古典數(shù)字工程》,《時(shí)代周報(bào)》2010年12月16日第C08版?!艾F(xiàn)在看來,錢先生不但在一個(gè)學(xué)科的設(shè)立上提出了富有遠(yuǎn)見的創(chuàng)意,而且在具體進(jìn)展過程中不斷地給予了財(cái)力上的支持??梢哉f,如果沒有錢先生,就沒有中國(guó)社會(huì)科學(xué)院古典文獻(xiàn)計(jì)算機(jī)處理技術(shù)這個(gè)學(xué)科,沒有后來那么大的成就。這是錢先生對(duì)中國(guó)文化建設(shè)一個(gè)具有創(chuàng)意性的貢獻(xiàn),同時(shí)也對(duì)欒貴明后半生具有決定性影響。”[注]李懷宇:《錢鍾書力撐欒貴明》,《時(shí)代周報(bào)》2010年12月16日第C08版。關(guān)于錢鍾書先生以薪資和稿費(fèi)資助文學(xué)所計(jì)算機(jī)室工作,胡小偉的記述是:“在有限幾次去社科院的機(jī)會(huì)中,錢先生每次都親臨研究小組,并多次用自己的稿費(fèi)津貼資助研究小組的起步創(chuàng)業(yè)?!盵注]胡小偉:《錢鍾書與電腦時(shí)代》,載丁偉志主編:《錢鍾書先生百年誕辰紀(jì)念文集》,三聯(lián)書店2010年出版,第237-244頁。欒貴明助手田奕也講過這件事。[注]參見田奕:《電腦里的唐詩》,《文學(xué)遺產(chǎn)》1992年第5期。因此,錢鍾書先生在20世紀(jì)80年代以個(gè)人薪資和稿費(fèi)資助了這一新興的事業(yè),是毫無疑義的。
資助生活困難的年輕學(xué)者是錢鍾書、楊絳先生的傳統(tǒng)。著名外國(guó)文學(xué)研究專家柳鳴九、朱虹夫婦20世紀(jì)70年代因額外開支經(jīng)濟(jì)上一時(shí)告急,即獲得過錢、楊二老的資助。柳鳴九《君子之澤,潤(rùn)物無聲——心目中的錢鍾書、楊絳》[注]柳鳴九:《君子之澤,潤(rùn)物無聲——心目中的錢鍾書、楊絳》,《傳記文學(xué)》2007年第4期?!跺X鍾書先生的精神遺產(chǎn)》[注]柳鳴九:《錢鍾書先生的精神遺產(chǎn)》,載丁偉志主編:《錢鍾書先生百年誕辰紀(jì)念文集》,三聯(lián)書店2010年出版,第21-25頁。二文有詳細(xì)的記述。文藝?yán)碚摷液挝鱽硪苍劦皆谄涓甘攀馈⒓彝ダщy之際,錢、楊二老有意幫他紓解經(jīng)濟(jì)困窘之舉。[注]何西來:《追念錢鍾書先生》,載丁偉志主編:《錢鍾書先生百年誕辰紀(jì)念文集》,三聯(lián)書店2010年出版,第212-216頁。如此說來,經(jīng)常幫助年輕學(xué)者紓困的錢鍾書、楊絳先生對(duì)使用計(jì)算機(jī)處理古代文獻(xiàn)這樣一個(gè)充滿希望的事業(yè)傾囊相助實(shí)在順理成章。
事實(shí)證明,錢鍾書先生選定欒貴明從事此項(xiàng)事業(yè),可謂頗有眼光之舉,欒貴明果然不負(fù)厚望。前引欒貴明接受記者訪問時(shí)還說:“錢先生的囑咐,我都一五一十落實(shí),錢先生教我做《中國(guó)古典文獻(xiàn)數(shù)據(jù)庫》的事,確實(shí)是一件累活,但我得認(rèn)真辦,我必須遵命?!边@一承諾已經(jīng)履行了30余年,欒貴明也已年近八旬。
錢鍾書先生不僅在經(jīng)濟(jì)上資助當(dāng)時(shí)的計(jì)算機(jī)室,還對(duì)這項(xiàng)工作以口頭和書面形式提出了一系列具體的指導(dǎo)思想。根據(jù)張世林、田奕的《漫談中國(guó)古典數(shù)字工程》(問答),錢鍾書先生為將計(jì)算機(jī)技術(shù)引入文史研究領(lǐng)域,以書面或口頭方式提出過很多極富創(chuàng)見的目標(biāo)和原則,歸納起來約有10條:1.逐步實(shí)施,長(zhǎng)期奮斗。2.采用倉(cāng)頡輸入法[注]倉(cāng)頡:原始象形文字的創(chuàng)造者。按“倉(cāng)頡”西漢以前文獻(xiàn)均作“蒼頡”。故本文除“倉(cāng)頡輸入法”“倉(cāng)頡碼”遵從習(xí)俗外,均寫作“蒼頡”。和華康正體字庫。3.以作品為基本單位,用作者統(tǒng)綰作品。4.對(duì)有民族偏執(zhí)的政治文化色彩的《四庫全書》的使用,必須慎重,更不宜直接采取經(jīng)史子集分類方法及舊編輯方式。5.重視版本版權(quán),選用優(yōu)良底本,但不能侵權(quán),必要時(shí)自己重新編輯。6.實(shí)現(xiàn)準(zhǔn)確全面針對(duì)作者、作品之標(biāo)題和字句檢索。慎用漢語現(xiàn)代標(biāo)點(diǎn)。7.正文和他人注釋不得混淆。8.電腦只能作為工具推進(jìn)文史研究科學(xué)化。9.你是裁縫,只能是量體裁衣,不能做外科醫(yī)生。10.劃清研究工作和商業(yè)的界限等。[注]參見張世林、田奕:《漫談中國(guó)古典數(shù)字工程》(問答),《國(guó)學(xué)新視野》2012年春季號(hào)(總第五期)。
這十條原則,或者彰顯了錢鍾書先生一貫的治學(xué)理念,或者顯示出他對(duì)利用計(jì)算機(jī)處理古籍文獻(xiàn)的遠(yuǎn)見卓識(shí)。有些原則在今天看來仍具有重要價(jià)值和啟示意義。其中第1條“逐步實(shí)施,長(zhǎng)期奮斗”,其含義毋庸贅言,也是今天和以后在古籍?dāng)?shù)字化、數(shù)字人文研究方面仍然需要長(zhǎng)期堅(jiān)持的原則,其他幾條筆者根據(jù)個(gè)人理解稍作疏解。
計(jì)算機(jī)硬件和操作系統(tǒng)都是西方人的發(fā)明,利用這一先進(jìn)科技處理中國(guó)古代典籍首先面臨的一個(gè)最重要的問題就是漢字編碼和漢字字庫的問題。這個(gè)問題目前在普通報(bào)刊排版和日常寫作中早已解決,也不再為人所關(guān)注,但若將計(jì)算機(jī)應(yīng)用于古籍整理,由于中國(guó)漢字歷史悠久、字體眾多,一字多形的現(xiàn)象在古籍中比比皆是,漢字的實(shí)際數(shù)量很難有準(zhǔn)確的說法,計(jì)算機(jī)如何處理漢字的問題實(shí)際上迄今仍未完全解決,那么在30多年前,文學(xué)所計(jì)算機(jī)室所面臨的巨大困難可想而知。當(dāng)然,利用計(jì)算機(jī)處理中文,面臨漢字編碼和字庫問題的困擾并非欒貴明團(tuán)隊(duì)一家,而是一個(gè)具有普遍性的問題。中國(guó)國(guó)家標(biāo)準(zhǔn)總局1980年發(fā)布、1981年5月1日開始實(shí)施的國(guó)家標(biāo)準(zhǔn)《信息交換用漢字編碼字符集》(GB2312—1980),即旨在著手解決這一問題。該字符集收錄6763個(gè)漢字,其中一級(jí)漢字3755個(gè)、二級(jí)漢字3008個(gè)。但是這6763個(gè)漢字用于日常文字的處理尚嫌不足,遑論用于整理古籍?
被譽(yù)為“中文電腦之父”的朱邦復(fù)于1976年在臺(tái)灣發(fā)明中文形意檢字法,后命名為“倉(cāng)頡輸入法”,用以解決電腦終端漢字的輸入輸出問題,1980年代初期,朱邦復(fù)在宏碁電腦公司創(chuàng)始人施振榮技術(shù)支持下于個(gè)人電腦上設(shè)計(jì)中文系統(tǒng),能夠輸入數(shù)萬漢字,1982年朱邦復(fù)登報(bào)聲明放棄“倉(cāng)頡輸入法”專利權(quán)。欒貴明團(tuán)隊(duì)在工作伊始,即在錢鍾書先生參酌下,以《中華大字典》為依據(jù),在“倉(cāng)頡碼”的基礎(chǔ)上,采用字根部首組合技術(shù)和固化ROM技術(shù),建立了一套達(dá)45000漢字的高容量字庫。[注]參見《社科院文學(xué)所“古典文獻(xiàn)計(jì)算機(jī)處理技術(shù)”取得初步成果》,《文學(xué)遺產(chǎn)》1988年第2期。田奕在接受采訪時(shí)也說:“為在電腦上準(zhǔn)確地反映古籍原貌,必須有一個(gè)穩(wěn)定可靠的漢字平臺(tái)。從1985年伊始,經(jīng)錢先生認(rèn)定,即選擇了繁體漢字庫。……其中的每個(gè)造字,均以文獻(xiàn)為基礎(chǔ),不籠統(tǒng)地根據(jù)字書造字,其字形采取文獻(xiàn)通用的字體,既不強(qiáng)行歸并統(tǒng)一,更不隨便借用。”[注]張世林、田奕:《漫談中國(guó)古典數(shù)字工程》(問答),《國(guó)學(xué)新視野》2012年春季號(hào)(總第五期)。將計(jì)算機(jī)技術(shù)移植于古籍整理,字庫問題是重中之重,也是繞不開的難點(diǎn)所在。顯然,當(dāng)年的計(jì)算機(jī)室抓住了問題的關(guān)鍵所在,在1988年左右基本解決了整理古籍所需要的字庫問題。當(dāng)年筆者也數(shù)次聽欒貴明先生提起建設(shè)“全漢字字庫”的設(shè)想,盡管漢字求“全”幾乎是一項(xiàng)永遠(yuǎn)不可能完成的任務(wù),但是這一努力方向顯然是正確的,也逐步取得了可觀的成果。
錢鍾書先生選定以“倉(cāng)頡碼”作為建立字庫的基礎(chǔ),也可能與其蒼頡情結(jié)有關(guān)。20世紀(jì)90年代初,計(jì)算機(jī)室擬召開一次學(xué)術(shù)研討會(huì),代表們可以攜帶自己的作品參會(huì)。錢先生提議設(shè)立“蒼頡獎(jiǎng)”。他幫助高莽修改其作為會(huì)議獎(jiǎng)品的蒼頡畫像題詞,其修改后的文字為:“蒼頡造字,歷史傳說由來久矣。雖屬神話,而其實(shí)質(zhì)蓋因蘊(yùn)含開拓與創(chuàng)造之旨。所謂蒼頡其人者,觀日月山川之形狀,察鳥獸蟲豸之痕跡,觸類啟悟,獲得表達(dá)思維之記號(hào)或方式。于是漢字萌生,混沌轉(zhuǎn)為清晰。人之知力征服自然,能使‘天雨粟,鬼夜哭’,人類文明于是乎始。偉哉蒼頡!”[注]高莽《懷念錢鍾書老先生》,載丁偉志主編:《錢鍾書先生百年誕辰紀(jì)念文集》,三聯(lián)書店2010年版,第114-127頁。顯然,他在對(duì)祖先造字予以高度評(píng)價(jià)的同時(shí),也對(duì)利用計(jì)算機(jī)處理古代文獻(xiàn)這一像蒼頡造字一樣推動(dòng)文明進(jìn)步的事業(yè)寄予了極大的期望。
第3條和第4條,涉及如何對(duì)待《四庫全書》、傳統(tǒng)目錄學(xué)分類法以及數(shù)據(jù)庫中如何排列數(shù)據(jù)等問題。成于清乾隆時(shí)的《四庫全書》是在大興文字獄的背景下纂修的,銷毀、抽毀之書甚多,即使收錄于《四庫全書》者,也多有肆意刪削、篡改之處。相關(guān)文獻(xiàn)甚多,茲舉乾隆四十一年(公元1776年)十一月十七日所謂上諭為例便可窺見一斑。乾隆此諭云:“第其中有明季諸人書集詞意抵觸本朝者,自當(dāng)在銷毀之例。節(jié)經(jīng)各督撫呈進(jìn),并飭館臣詳晰檢閱,朕復(fù)于進(jìn)到時(shí)親加批覽,覺有不可不為區(qū)別甄核者,如錢謙益在明已居大位,又復(fù)身事本朝;而金堡、屈大均則又循跡緇流,均以不能死節(jié),靦顏茍活,乃托名勝國(guó),妄肆狂狺。其人實(shí)不足齒,其書豈可復(fù)存!自應(yīng)逐細(xì)查明,概行毀棄,以勵(lì)臣節(jié),而正人心?!盵注][清]永瑢等撰:《四庫全書總目》卷首,中華書局1983年版,第3頁。所謂“以勵(lì)臣節(jié),而正人心”云云表面上冠冕堂皇,其本質(zhì)在于維護(hù)其統(tǒng)治和帝王尊嚴(yán)。錢鍾書先生將其定性為“有民族偏執(zhí)的政治文化色彩”,實(shí)是一針見血。因此對(duì)于《四庫全書》的使用,嚴(yán)謹(jǐn)?shù)膶W(xué)者向來多持慎重態(tài)度。錢先生特別教導(dǎo)計(jì)算機(jī)室的年輕工作人員在科學(xué)研究和古籍文獻(xiàn)數(shù)字化過程中,慎用《四庫全書》,實(shí)為明智之舉。
錢先生主張慎用《四庫全書》,除了因其“偏執(zhí)的政治文化色彩之外”,也因?qū)?jīng)、史、子、集這種圖書分類法不甚滿意,故言“更不宜直接采取經(jīng)史子集分類方法及舊編輯方式”。這與錢先生的治學(xué)理念有關(guān)。張隆溪指出:“(《談藝錄》《管錐編》)在形式上與現(xiàn)代學(xué)術(shù)著作的寫法很不相同。這些評(píng)論文字完全隨思想的路徑自然發(fā)展,行于所當(dāng)行,止于不可不止,舉凡文學(xué)、歷史、哲學(xué)、心理學(xué)、語言學(xué)及其他領(lǐng)域,無所不包,無所分隔,完全不顧及學(xué)科分類?!盵注]張隆溪:《中西交匯與錢鍾書的治學(xué)方法》,《書城》2010年第3期。換言之,如果不涉及其涉于西學(xué)部分,錢先生的方法就是打通四部。
比如《管錐編》圍繞十部古籍《周易正義》《毛詩正義》《左傳正義》《史記會(huì)注考證》《老子王弼注》《列子張湛注》《焦氏易林》《楚辭洪興祖補(bǔ)注》《太平廣記》《全上古三代秦漢六朝文》進(jìn)行闡釋。在傳統(tǒng)目錄學(xué)分類中,《周易》《毛詩正義》《左傳》屬于經(jīng)部,但錢先生無視這種分類,他經(jīng)常將經(jīng)部典籍與子部、集部的問題放在一起論述。如對(duì)于《左傳·昭公元年》“楚公子圍設(shè)服離衛(wèi)”一節(jié),他說:“叔孫穆子、子皮、子家輩十人指點(diǎn)議論,伯州犁窮于酬對(duì),后世白話小說及院本賓白寫七嘴八舌情景,庶有足嗣響者。”又言,“蓋吾國(guó)古人于心性之學(xué)說,僅標(biāo)‘六情’‘七情’之目,千載未嘗有所增損(參觀黃式三《儆居集·經(jīng)說》卷三《七情、六情說》),而其于心性之體會(huì),致曲鉤幽,談言微中,經(jīng)、史、子、集、小說、戲曲中歷歷可征,斷非《禮記》之《禮運(yùn)》《中庸》或《白虎通》之《性情》所能包舉。”[注]錢鍾書:《管錐編》第一冊(cè),中華書局1979年版,第226-227頁。其打通四部、打通經(jīng)學(xué)與文學(xué)之藩籬的用意甚明。
關(guān)于史部,他認(rèn)為史家著述與小說、院本在人物塑造、虛構(gòu)情境等方面具有相通之處:
明、清評(píng)點(diǎn)章回小說者,動(dòng)以盲左、腐遷筆法相許,學(xué)士哂之。哂之誠(chéng)是也,因其欲增稗史聲價(jià)而攀援正史也。然其頗悟正史稗史之意匠經(jīng)營(yíng),同貫共規(guī),泯町畦而通騎驛,則亦何可厚非哉。史家追敘真人實(shí)事,每須遙體人情,懸想事勢(shì),設(shè)身局中,潛心腔內(nèi),忖之度之,以揣以摩,庶幾入情合理。蓋與小說、院本之臆造人物,虛構(gòu)境地,不盡同而可相通。[注]錢鍾書:《管錐編》第一冊(cè),中華書局1979年版,第166頁。
“稗史”本為史學(xué)概念,至魯迅、錢基博等用以指稱小說。在上文語境中,“稗史”與正史對(duì)舉,可以說既指史學(xué)意義上的遺聞瑣事,也可以指文學(xué)意義上的小說作品,可見錢先生也把史部文獻(xiàn)作為文學(xué)來處理。與陳寅恪先生的以詩證史、立足于史學(xué)本位不同;錢先生的以史證小說,是立足于文學(xué)本位,是他打破四部分類界限的又一例證。
傳統(tǒng)視為子部的《易林》是西漢后期出現(xiàn)的一部以《易》之六十四卦為綱而演繹的占卜書,有占卜辭4097首,除偶見三言外,皆為統(tǒng)一的四言格式。在錢先生看來,這些占卜用辭“主旨雖示吉兇,而亦借以刻意為文,流露所謂‘造藝意愿’,已越‘經(jīng)部韻言’之境而‘涉于詩’域,詩家只有愕嘆不虞君之涉吾地也,豈能痛詰何故而堅(jiān)拒之哉!”“蓋《易林》幾與《三百篇》并為四言詩矩矱焉?!盵注]錢鍾書:《管錐編》第二冊(cè),中華書局1979年版,第536-539頁。對(duì)于《易林》的文學(xué)價(jià)值,給予極高的評(píng)價(jià)。
在上述幾個(gè)例證中,或者以為經(jīng)部文獻(xiàn)影響于小說院本,或者視史部文獻(xiàn)類同于小說,或者將子部文獻(xiàn)等同于詩文,無一不是打破傳統(tǒng)目錄學(xué)界限,從不同類別文獻(xiàn)中汲取為我所用的資料,以融通的眼光抉破塵藩、熔鑄群言,而出以新意。因此,他對(duì)拘泥于四部分類法而不能洞察文獻(xiàn)本質(zhì)屬性的做法給予了不同程度的批評(píng)。
基于這樣的學(xué)術(shù)理念,他在數(shù)據(jù)庫建設(shè)中提倡以作品為基本單位,用作者統(tǒng)綰作品就不難理解了。換言之,他是以人為本位,以作品從屬于作者,而不論其屬于何種部類的文獻(xiàn)。這對(duì)于計(jì)算機(jī)輔助科研顯然大有裨益。因?yàn)槲覀儫o論研究作家的哪類作品,都必須盡可能窮盡該作家的所有文獻(xiàn),如此才能全面系統(tǒng)地了解該作家的方方面面,而避免管中窺豹、以偏概全。在這種思想指導(dǎo)下,欒貴明團(tuán)隊(duì)重新編訂完成了《老子集》《列子集》《莊子集》《孫子集》《鬼谷子集》《皇甫謐集》等。這些作品集除了出自作者本人者外,也包括后人引用的零篇斷簡(jiǎn),雖然這部分作品的著作權(quán)往往存有疑問,但是由機(jī)器把它們匯輯在一起,可供學(xué)者進(jìn)一步研究辨析,無疑也是很有意義的。當(dāng)然在數(shù)據(jù)庫中,所謂以作者統(tǒng)綰作品實(shí)際上是一種邏輯結(jié)構(gòu)或虛擬排列,而與它們?cè)谟?jì)算機(jī)系統(tǒng)中的物理位置無關(guān)。
其他幾條內(nèi)容中,有些看似屬于很具體的枝節(jié)問題,實(shí)際上對(duì)文史研究極為重要。比如版本問題,不同版本文獻(xiàn)所提供的信息可能差異很大。又比如慎用漢語現(xiàn)代標(biāo)點(diǎn),很多標(biāo)點(diǎn)本由于整理者本身的學(xué)養(yǎng)不足導(dǎo)致的錯(cuò)誤甚多,反而可能引發(fā)讀者錯(cuò)誤理解文獻(xiàn)。再如第6條,實(shí)現(xiàn)準(zhǔn)確全面針對(duì)作者、作品之標(biāo)題和字句檢索。以數(shù)據(jù)庫的強(qiáng)大功能而言,實(shí)現(xiàn)這樣簡(jiǎn)單的功能似乎輕而易舉,但實(shí)際上由于漢字的復(fù)雜性,這個(gè)問題至今尚未能很好地解決。第7和第9兩條是古籍整理中特別需要注意的問題。古籍版式繁多,有些注釋性作品又包括眉批、夾注、側(cè)批、圈點(diǎn)等內(nèi)容,古人排版刻書將注釋混淆于正文者并不鮮見。那么在利用數(shù)字化技術(shù)整理古籍的今天,切實(shí)解決這一問題的要求并不過分。至于裁縫和外科醫(yī)生的比喻,顯示出錢先生為人幽默風(fēng)趣的一面,所謂量體裁衣,是說可以對(duì)文獻(xiàn)進(jìn)行剪裁縫補(bǔ)的工作,類似于學(xué)者過去根據(jù)研究需要抄錄卡片、匯集文獻(xiàn);但不可以像外科醫(yī)生那樣,將自己認(rèn)為發(fā)生病變的部分切除,亦即必須保證文獻(xiàn)的完整性。
尤為值得注意的是他對(duì)科研與商業(yè)追求之間的區(qū)分與隔離。錢先生顯然是預(yù)見到古籍文獻(xiàn)的數(shù)字化及相關(guān)數(shù)據(jù)庫的建設(shè)是一個(gè)需要人才和經(jīng)費(fèi)的高投入,也有可能會(huì)高產(chǎn)出的項(xiàng)目。但是如果對(duì)科學(xué)研究和經(jīng)濟(jì)效益之間的度把握不好,就極有可能會(huì)偏離科學(xué)研究的正確軌道,而滑向追求金錢利益的錯(cuò)誤方向。為此,錢鍾書先生極為嚴(yán)肅地諄諄告誡這個(gè)年輕人占多數(shù)的群體,應(yīng)提高覺悟,樹立崇高理想,保持節(jié)操,以獻(xiàn)身科學(xué)事業(yè)作為自身的追求。1992年,計(jì)算機(jī)室曾辦有一份內(nèi)部刊物《人文電腦》,由楊絳先生題寫刊名,錢鍾書先生以特約評(píng)論員名義寫了一篇“社論”——《糾正“市儈化”的短視和淺見》:
崇高的理想、凝重的節(jié)操和博大精深的科學(xué)、超凡脫俗的藝術(shù),均具有非商業(yè)化的特質(zhì)。強(qiáng)求人類的文化精粹,去符合某種市場(chǎng)價(jià)值價(jià)格規(guī)則,那只會(huì)使科學(xué)和文藝都“市儈化”,喪失去真正進(jìn)步的可能和希望。歷史上和現(xiàn)代的這類事例難道還少嗎?我們必須提高覺悟,糾正“市儈化”的短視和淺見。[注]參見陳肩:《行藏托付賴心傳》,《時(shí)代周報(bào)》2010年12月16日第C08版。
作為一名學(xué)者,錢先生對(duì)科學(xué)和藝術(shù)的摯愛,對(duì)“市儈化”的反感,對(duì)商業(yè)化有可能導(dǎo)致的喪失進(jìn)步和希望的警覺,均躍然紙上。90年代后期,商品經(jīng)濟(jì)的大潮席卷中國(guó)。國(guó)內(nèi)古籍?dāng)?shù)字化產(chǎn)品因?yàn)榘鏅?quán)、利益等因素導(dǎo)致紛爭(zhēng)、訴訟的現(xiàn)象時(shí)有耳聞,極大地干擾了相關(guān)領(lǐng)域正??蒲泄ぷ鞯拈_展??梢?,錢先生在商品經(jīng)濟(jì)之潮尚未興起之時(shí)就提早為這一團(tuán)隊(duì)打下預(yù)防針,顯示出他對(duì)世事的發(fā)展有敏銳的洞察力。
前述錢先生重視版本版權(quán)、選用優(yōu)良底本、避免侵權(quán)、必要時(shí)要自己重新編輯等思想也與保持科研工作的純潔性、避免陷入商業(yè)糾紛的泥潭有關(guān)。在后續(xù)工作中,欒貴明團(tuán)隊(duì)謹(jǐn)遵這一教誨,一方面在建設(shè)數(shù)據(jù)庫的過程中,選用無版權(quán)爭(zhēng)議的優(yōu)良版本為底本,比如“《全唐詩》速檢系統(tǒng)”采用了清康熙間揚(yáng)州書局本,《二十四史》選用百衲本。另一方面其產(chǎn)出的成果,全部以公開出版物的形式呈現(xiàn)。在保護(hù)自身版權(quán)的同時(shí),也有效避免了陷入版權(quán)紛爭(zhēng)的被動(dòng)局面。根據(jù)國(guó)家版權(quán)局官網(wǎng)提供的信息,我國(guó)《著作權(quán)法》于1990年9月7日由第七屆全國(guó)人民代表大會(huì)常務(wù)委員會(huì)第十五次會(huì)議通過,其后又經(jīng)數(shù)次修訂。錢鍾書先生注重保護(hù)版權(quán)、避免侵權(quán)等思想在當(dāng)年顯然也具有超前意識(shí),對(duì)于這個(gè)團(tuán)隊(duì)健康穩(wěn)定的發(fā)展具有重要意義。
錢鍾書先生對(duì)這項(xiàng)事業(yè)傾注了大量心血,除陸續(xù)提出一些建設(shè)原則外,還在很多具體事情方面給予了多方面的支持。他從不應(yīng)允擔(dān)任任何單位、協(xié)會(huì)的顧問,但唯獨(dú)對(duì)計(jì)算機(jī)室例外,他不僅慨然應(yīng)允做了計(jì)算機(jī)室的顧問,而且每次到院部開會(huì),總要抽出時(shí)間到位于社科院科研大樓1層西段的計(jì)算機(jī)室去“看看孩子們”,了解一下具體工作。他提出把《全唐詩》全部錄入電腦,利用這一先進(jìn)工具解決如何查詢和有效利用唐詩的問題?!啊度圃姟匪贆z系統(tǒng)”建成后,院科研局于1988年底組織了兩次院內(nèi)外專家進(jìn)行評(píng)估。來自社科院文學(xué)所、語言所、歷史所、文獻(xiàn)情報(bào)中心等單位的學(xué)者觀看了現(xiàn)場(chǎng)演示后,提出了很多具體問題。其中一位紅學(xué)家請(qǐng)求當(dāng)場(chǎng)檢索,看一看《全唐詩》中有沒有出現(xiàn)過“紅樓夢(mèng)”一詞,出現(xiàn)過幾次。兩分鐘后,計(jì)算機(jī)給出答案:在包括3276位作者、總計(jì)53035首作品、總字?jǐn)?shù)達(dá)到3432869字的《全唐詩》中,“紅樓夢(mèng)”一詞共出現(xiàn)過兩次,一次是472卷蔡京的《詠?zhàn)右?guī)》,另一次是《補(bǔ)遺》卷11屬名馮袞的《子規(guī)》,這兩位作者都是唐末人,詩的字句相同,都有“凝成紫塞風(fēng)前淚,驚破紅樓夢(mèng)里心”。從而證明了曹雪芹的確從浩瀚的傳統(tǒng)文化寶庫中汲取了豐富營(yíng)養(yǎng),《紅樓夢(mèng)》并非無源之水、無本之木。[注]參見楊潤(rùn)時(shí):《一份沉重的囑托——錢鍾書、欒貴明與中國(guó)古典數(shù)字工程》,《時(shí)代周報(bào)》2010年12月16日第C08版。
1989年5月,時(shí)任中國(guó)社科院院長(zhǎng)胡繩先生在率團(tuán)訪問蘇聯(lián)之前的一次會(huì)議上,初步議定把當(dāng)時(shí)屬于文學(xué)研究所的計(jì)算機(jī)室改建為院計(jì)算機(jī)室,同時(shí)把古典文獻(xiàn)計(jì)算機(jī)處理確立為院重點(diǎn)科研項(xiàng)目,從經(jīng)費(fèi)、人事等方面采取一系列措施給予支持和保障。1990年,計(jì)算機(jī)室劃歸社科院直接領(lǐng)導(dǎo)。
自1985年計(jì)算機(jī)室成立,短短10余年間,便取得了一系列令人矚目的成果。如《論語數(shù)據(jù)庫》(35萬字,人民日?qǐng)?bào)出版社1987年版)、《全唐詩索引》(30種,2600萬字,中華書局、現(xiàn)代出版社等,1992年起陸續(xù)出版)、《永樂大典索引》(300萬字,作家出版社1997年版)、《全唐文新編》(1600萬字,吉林文史出版社2001年版)、《十三經(jīng)索引》(900萬字,中國(guó)社會(huì)科學(xué)出版社2004年版)、《永樂大典本水經(jīng)注》(40萬字,萬卷出版公司2004年版)、《乾隆大藏經(jīng)》(7200萬字,中國(guó)書店2009年版)等。據(jù)前引張世林、田奕的《漫談中國(guó)古典數(shù)字工程》,截至2012年之前,該團(tuán)隊(duì)共出版古典文獻(xiàn)整理相關(guān)書籍176冊(cè),計(jì)1.3億字。這些公開出版的成果都是建立在“古典文學(xué)的計(jì)算機(jī)處理系統(tǒng)”基礎(chǔ)之上的。其中《論語數(shù)據(jù)庫》是國(guó)內(nèi)第一部使用微型計(jì)算機(jī)編制的古文獻(xiàn)索引的公開出版物,為有關(guān)《論語》的深入研究提供了大量準(zhǔn)確的量化依據(jù)。其后,該團(tuán)隊(duì)又相繼完成了總?cè)藬?shù)36萬、輔名15萬的人名庫,歷法天數(shù)總計(jì)為519萬天的歷史日歷庫,以地名及古代地圖為核心、制作數(shù)據(jù)已超800萬條的地名庫和以作品為核心、收錄重要珍稀圖形文件100余萬幅、字?jǐn)?shù)超過8億字的事件庫。這些數(shù)據(jù)庫與通行的以作品總集為基礎(chǔ)的數(shù)據(jù)庫頗為不同,是人工參與程度很高的知識(shí)庫,在數(shù)字人文基礎(chǔ)建設(shè)和研究方面處于領(lǐng)先地位。
以“《全唐詩》速檢系統(tǒng)”為中心的這一古籍文獻(xiàn)處理系統(tǒng)榮獲1990年“國(guó)家科技進(jìn)步獎(jiǎng)”三等獎(jiǎng)、中國(guó)社會(huì)科學(xué)院科研成果一等獎(jiǎng)。人文社科領(lǐng)域的成果獲得國(guó)家科技進(jìn)步獎(jiǎng)似乎極為鮮見,其在當(dāng)時(shí)國(guó)內(nèi)相關(guān)領(lǐng)域的領(lǐng)先水平不難窺見一斑。據(jù)前引張世林、田奕的《問答》顯示,在這一系統(tǒng)的評(píng)審過程中,錢鍾書先生參與上報(bào)國(guó)務(wù)院、國(guó)家科委評(píng)審材料的修訂和審閱,多次與院領(lǐng)導(dǎo)和院科研局負(fù)責(zé)人談到該項(xiàng)目是他本人建議立項(xiàng)及立項(xiàng)理由。此后為培養(yǎng)這一新興學(xué)科的復(fù)合型人才,中國(guó)社科院研究生院依項(xiàng)目所需設(shè)置相關(guān)專業(yè),招收碩士研究生等項(xiàng)措施,亦經(jīng)錢先生同意。
1987年12月由人民日?qǐng)?bào)出版社出版的《論語數(shù)據(jù)庫》,作者署名“中國(guó)社會(huì)科學(xué)院文學(xué)研究所計(jì)算機(jī)室”,卷首有錢鍾書撰寫的序言:
從理論上來說,計(jì)算機(jī)和人類使用過的其它工具沒有甚么性質(zhì)的不同。它在還未被人廣泛使用的時(shí)候,除自身尚待完善以外,總會(huì)遭到一些抵拒。慣用舊家什的人依然偏愛著他們熟悉的工具。有了紙墨筆硯“文房四寶”,準(zhǔn)還有人用刀筆和竹簡(jiǎn);有了汽車、飛機(jī)、電報(bào)電話,也還有不惜體力和時(shí)間的保守者。對(duì)新事物的抗拒是歷史上常有的現(xiàn)象,抗拒新事物到頭來的失敗也是歷史常給人的教訓(xùn)。
錢先生用他習(xí)慣的幽默筆調(diào)對(duì)抗拒新事物的現(xiàn)象進(jìn)行了批評(píng),顯示出他對(duì)計(jì)算機(jī)這一新事物必將大行其道持有高度信心,同時(shí)也定義了計(jì)算機(jī)的工具屬性,亦即無論計(jì)算機(jī)功能多么強(qiáng)大、多么聰明,都不可能超越人的智力水平。計(jì)算機(jī)是為人服務(wù)的,它只能是一種工具。田奕曾發(fā)表《電腦里的唐詩》一文,結(jié)尾一段這樣寫道:“電腦可以幫助人腦,但還不能代替人腦。像意境雷同的查檢,盡管有漢字象形、會(huì)意、形聲的優(yōu)越性,但電腦的距離尚遙遠(yuǎn)?!瓕?shí)踐證明,能幫助人的電腦需要人的更多幫助?!盵注]田奕:《電腦里的唐詩》,《文學(xué)遺產(chǎn)》1992年第5期。
此文曾經(jīng)錢鍾書先生親自審閱修訂,最后一句話“實(shí)踐證明,能幫助人的電腦需要人的更多幫助”,是錢鍾書先生審改此稿時(shí)所加,這句話顯然是畫龍點(diǎn)睛之筆,極簡(jiǎn)要又深刻地闡述了人腦與電腦的辯證關(guān)系。楊絳《〈宋詩紀(jì)事補(bǔ)正〉序》:“八十年代后期,鍾書見到電子計(jì)算機(jī)對(duì)文獻(xiàn)工作的功用,囑欒君用計(jì)算機(jī)再查核某書、某書。計(jì)算機(jī)所查獲的資料,果然比人力更為詳盡。但計(jì)算機(jī)只能羅列事物,不能判別真?zhèn)?、選擇精要。鍾書囑欒君把計(jì)算機(jī)所提供的資料,連同原書一并搬來,對(duì)照研究,指點(diǎn)如何判斷、選擇;如有不能定奪的疑難處,就把不同的資料全部錄下,供后人抉擇?!盵注]楊絳:《楊絳全集·散文卷》,人民文學(xué)出版社2014年版,第320頁?!氨鎰e真?zhèn)巍⑦x擇精要”這樣的工作并非依靠運(yùn)算所能解決,故需要人的幫助?,F(xiàn)在的計(jì)算機(jī)無論是其運(yùn)算速度還是數(shù)據(jù)存儲(chǔ)容量均非20世紀(jì)80年代的水平所能望其項(xiàng)背。但即使如此,似也未能改變其工具屬性。人工智能的發(fā)展是否最終能超越人的大腦尚存疑問。機(jī)器的確在圍棋對(duì)弈中能戰(zhàn)勝棋壇高手,但那憑借的仍是其運(yùn)算能力,而在人文領(lǐng)域,比如對(duì)古代作品的鑒賞,是人通過作品與古代作家心靈之間的對(duì)話。這種對(duì)話涉及鑒賞者的個(gè)人閱歷、修養(yǎng)、審美、心理、情感等多方面的因素。在可預(yù)見的將來,人工智能都很難掌握這樣的能力。
談及人工智能,錢先生對(duì)“人工智能”一詞有其獨(dú)到的闡釋。欒貴明所著《小說逸語》云:
“人工智能”詞一出現(xiàn),錢先生問我,為什么用“智”字,那是人所獨(dú)有的呀,機(jī)械發(fā)展,有時(shí)能力過人,完全可能,但萬不會(huì)達(dá)到使用“智”的水平。……先生在評(píng)價(jià)推介“中國(guó)古典數(shù)字工程”時(shí)就用“知”字,后來別人誤會(huì),還特意讓我寫文替先生澄清。[注]欒貴明:《小說逸語》,新世界出版社2018年版,第11-12頁。
欒貴明所言“人工知能”一詞確實(shí)出自錢鍾書。1989年5月,就《全唐詩》數(shù)據(jù)庫的發(fā)布錢先生致函院新聞發(fā)言人楊潤(rùn)時(shí):
潤(rùn)時(shí)同志:得您來信,十分感愧。我因老病,承院領(lǐng)導(dǎo)關(guān)注,久未參預(yù)活動(dòng),沒有機(jī)會(huì)和您晤面,也是憾事。文學(xué)所欒貴明同志等關(guān)于《全唐詩》速檢系統(tǒng)的工作獲得可喜的成果,當(dāng)然由于他們的努力,主要原因還是汝信同志和您們的大力支持和鼓勵(lì)。作為一個(gè)對(duì)《全唐詩》有興趣的人,我經(jīng)常感到尋檢詞句的困難,對(duì)于這個(gè)成果提供的絕大便利,更有由衷的欣悅。這是人工知能在中國(guó)古典文學(xué)研究上的重要貢獻(xiàn)。我因健康原因,不克身與盛會(huì),特此書面祝賀。即致 敬禮!錢鍾書 五月廿三日[注]楊潤(rùn)時(shí):《一份沉重的囑托——錢鍾書、欒貴明與中國(guó)古典數(shù)字工程》,《時(shí)代周報(bào)》2010年12月16日C08版。
今按“知能”一詞,古人使用頗多?!墩f苑》卷八:“今人有不忠信重厚,而多知能,如此人者,譬猶豺狼與,不可以身近也?!盵注][漢]劉向撰,向宗魯校證:《說苑校證》,中華書局1987年版,第186頁。《漢書·張馮汲鄭傳》:“故李牧乃得盡其知能,選車千三百乘?!盵注][漢]班固:《漢書》卷五十,中華書局1983年版,第2314頁?!墩摵狻ち恐罚骸叭酥畬W(xué)問,知能成就,猶骨象玉石,切瑳琢磨也?!盵注]黃暉:《論衡校釋》卷第十二,中華書局1990年版,第550頁。筆者以為其含義實(shí)與“智能”相近,均指智慧才能?!豆茏印ぶ品帧罚骸暗佬g(shù)知能,不為愛官職?!碧埔伦ⅲ骸坝械佬g(shù)智能,則以官職加之。”[注]黎翔鳳撰、梁運(yùn)華整理:《管子校注》卷十,中華書局2004年版,第540頁。視“知能”等同于“智能”。《康熙字典》“矢”部“知”字:“又《集韻》《韻會(huì)》‘知義切’?!墩崱贰x切,并與智同’?!盵注]《康熙字典》,中華書局1984年版,第824頁??梢娫诒硎局腔圻@一含義時(shí),“知”可以通假為“智”。“知能”一詞近人也有使用,魯迅《熱風(fēng)·隨感錄四十三》:“我們所要求的美術(shù)品,是表記中國(guó)民族知能最高點(diǎn)的標(biāo)本,不是水平線以下的思想的平均分?jǐn)?shù)?!盵注]魯迅先生紀(jì)念委員會(huì):《魯迅全集》第二卷,人民文學(xué)出版社1973年版,第49頁。所言“知能”,也是才智、能力之意。
但“知能”與“智能”雖含義相近而實(shí)有小異。《禮記·中庸》:“子曰:好學(xué)近乎知,力行近乎仁,知恥近乎勇?!盵注]黃侃校點(diǎn):《黃侃手批白文十三經(jīng)·禮記》,上海古籍出版社1983年版,第200頁?!爸睆膶W(xué)習(xí)而得,而“智”更偏重于悟性,近似于佛家所言慧根。近年來,與人工智能相關(guān)聯(lián)的一個(gè)學(xué)科——認(rèn)知計(jì)算發(fā)展迅速。認(rèn)知計(jì)算包括計(jì)算機(jī)視覺、自然語言處理、語音識(shí)別技術(shù)等,其目標(biāo)是讓計(jì)算機(jī)系統(tǒng)像人的大腦一樣學(xué)習(xí)、思考并做出正確的決策,能夠收集并管理結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),進(jìn)行感知、學(xué)習(xí)和調(diào)整。認(rèn)知計(jì)算的關(guān)鍵之一在于學(xué)習(xí)、模仿人腦。錢鍾書先生將模仿人學(xué)習(xí)人的“人工知能”與人類所獨(dú)有的“智能”區(qū)別開來并非沒有道理。計(jì)算機(jī)技術(shù)的發(fā)展一日千里,今天人工智能的發(fā)展水平與20世紀(jì)相比,相去不啻霄壤。因此,錢鍾書先生20世紀(jì)命名的“人工知能”和現(xiàn)今流行的“人工智能”,結(jié)合不同時(shí)期的技術(shù)發(fā)展水平而言,其實(shí)各有千秋。就20世紀(jì)相關(guān)技術(shù)的發(fā)展水平和漢語詞匯的準(zhǔn)確性講,錢先生將當(dāng)時(shí)的相關(guān)技術(shù)視為“人工知能”,顯然是頗具慧眼的。
實(shí)際上,錢鍾書先生本人堪稱驗(yàn)證人腦與電腦、人工智能與人類智能的絕佳例證。近年來時(shí)有論者將錢鍾書的學(xué)問與電腦相類比。比如李澤厚先生在與劉再?gòu)?fù)先生的對(duì)談中,曾言:“錢鍾書才可以算大知識(shí)、大學(xué)問。他的學(xué)問甚至可以說‘前無古人,后無來者’,但也無需來者了?!盵注]李澤厚、劉再?gòu)?fù):《“五四”五說(代序)》,載劉再?gòu)?fù):《共鑒五四——與李澤厚、李歐梵等共論“五四”》,三聯(lián)書店(香港)有限公司2009年版。此處所言“但也無需來者了”云云大概是感覺現(xiàn)在已經(jīng)進(jìn)入信息時(shí)代,計(jì)算機(jī)的文獻(xiàn)處理能力遠(yuǎn)非人力可比,錢鍾書的治學(xué)既然類似于電腦,那么現(xiàn)今電腦計(jì)算能力日趨強(qiáng)大,自然就無需第二個(gè)錢鍾書,即“無需來者了”。李澤厚表達(dá)這樣的意思非止一次。比如在2005年接受記者采訪時(shí)就曾言:“70年代,我說電腦出現(xiàn)后,錢鍾書的學(xué)問(意義)就減半了。比如說一個(gè)杯子,錢鍾書能從古羅馬時(shí)期一直講到現(xiàn)在,但現(xiàn)在上網(wǎng)可以搜索到更多的‘杯子’。當(dāng)然錢鍾書說的,好些也不能找到?!盵注]李澤厚:《哲學(xué)家只提供視角》,載《李澤厚對(duì)話集·廿一世紀(jì)(一)》,中華書局2014年版,第203頁。
錢鍾書和李澤厚兩位先生都是筆者所十分景仰的前輩學(xué)者,但是李澤厚先生此論筆者卻不敢茍同。以目前IT技術(shù)和人工智能的發(fā)展水平,檢索、查詢功能固然已經(jīng)十分成熟,但還遠(yuǎn)不能對(duì)作家為文之用心和藝術(shù)奧秘進(jìn)行深刻的把握和洞察。劉勰論文學(xué)創(chuàng)作與欣賞之關(guān)系云:“夫綴文者情動(dòng)而辭發(fā),觀文者披文以入情,沿波討源,雖幽必顯。世遠(yuǎn)莫見其面,覘文輒見其心?!盵注]郭晉稀:《文心雕龍注譯·知音》,甘肅人民出版社1982年版,第560頁。依筆者淺見,在可預(yù)見的將來,機(jī)器還不能達(dá)到“披文以入情”的境界,而這正是高明的批評(píng)與鑒賞家的特長(zhǎng)。錢鍾書先生在《宋詩選注》中選錄王安石名作《泊船瓜洲》,在分析“春風(fēng)又綠江南岸”之“綠”字時(shí),列舉數(shù)個(gè)唐人使用“綠”字的先例,并做了富有啟發(fā)性的分析:“王安石的反復(fù)修改是忘記了唐人的詩句而白費(fèi)心力呢?還是明知道這些詩句而有心立異呢?他的選定‘綠’字是跟唐人暗合呢?是最后想起了唐人詩句而欣然沿用呢?還是自覺不能出奇制勝,終于向唐人認(rèn)輸呢?”[注]錢鍾書:《宋詩選注》,人民文學(xué)出版社1982年版,第57頁。對(duì)此王水照先生指出:
在電腦檢索大為盛行的今天,我們可能找到比錢先生更多的唐詩用例(包括前唐之詩),但恐很難達(dá)到他對(duì)藝術(shù)創(chuàng)作奧秘的深刻把握。[注]王水照:《〈容安館札記〉論宋詩初學(xué)記》,《文匯報(bào)》2004年7月11日第7版。
前引胡小偉文章也指出:“如果單指記憶力,錢鍾書先生興之所至,打通中外,信手拈來的功夫,的確給人‘電腦數(shù)據(jù)庫’的感慨。但是數(shù)據(jù)庫畢竟只能羅列資料,顯示異同,卻不能分析辨證,觸類旁通?!灾钡浇裉欤覀円矝]有讀到電腦版的《管錐編》?!惫P者臆測(cè),在可預(yù)見的將來,電腦也不可能寫出《管錐編》。認(rèn)為計(jì)算機(jī)可以代替錢鍾書的說法,是既不懂計(jì)算機(jī),也不懂錢鍾書。錢先生對(duì)電腦工具屬性的定義以及電腦需要人更多幫助的闡釋仍具有重要啟示意義,至少在人文領(lǐng)域,在文學(xué)作品的辨析、鑒賞方面,人工智能達(dá)到或超越人類智能還有很長(zhǎng)的路要走。
當(dāng)然,在人工智能和大數(shù)據(jù)技術(shù)突飛猛進(jìn)的今天,“需要人的更多的幫助”的電腦已經(jīng)遠(yuǎn)非80年代配備80286芯片的電腦可比,人的參與度也更廣更深,機(jī)器所提供的服務(wù)實(shí)際上包含著人的更多智慧。就計(jì)算機(jī)參與文學(xué)包括古代文學(xué)研究而言,21世紀(jì)以來相繼引入的西學(xué)概念“人文計(jì)算”和“數(shù)字人文”正在引起學(xué)界的高度重視,研究范圍、研究范式和知識(shí)生產(chǎn)的方式都在發(fā)生變化。我們?cè)谠u(píng)價(jià)錢鍾書先生關(guān)于人腦與電腦的關(guān)系、關(guān)于在文史領(lǐng)域尤其是古籍整理領(lǐng)域引入計(jì)算機(jī)科學(xué)的各項(xiàng)見解時(shí),一定不能脫離當(dāng)時(shí)的時(shí)代和文化背景等因素。我們既要充分肯定、高度評(píng)價(jià)在20世紀(jì)80年代錢鍾書先生所具有的超前意識(shí)和敏銳學(xué)術(shù)眼光,高度評(píng)價(jià)他提出的一系列關(guān)于利用計(jì)算機(jī)整理古籍文獻(xiàn)的思想。同時(shí)也需要注意到,錢鍾書先生畢竟是20世紀(jì)的學(xué)者,受時(shí)代的局限性所制約,他不可能預(yù)見到今天人工智能發(fā)展的高度和水平。
據(jù)說美國(guó)麻省理工學(xué)院(MIT)的帕特里克·溫斯頓(Patrick Winston)教授對(duì)人工智能有一個(gè)簡(jiǎn)單易懂的定義:人工智能就是研究如何使計(jì)算機(jī)做只有人才能做的智能工作,即人工智能就是研究人類智能活動(dòng)的規(guī)律,然后構(gòu)造一個(gè)可以模擬這個(gè)規(guī)律的系統(tǒng),讓這個(gè)程序去完成以往只有人類的智力才能勝任的工作。這個(gè)定義彰顯出人工智能研究領(lǐng)域的雄心壯志和發(fā)展前景。人工智能被視為21世紀(jì)三大尖端技術(shù)(另兩個(gè)是基因工程和納米科學(xué))之一,近30年來得到了快速發(fā)展。
比如,人工智能的一個(gè)分支——自然語言處理(Natural Language Processing),是指計(jì)算機(jī)擁有識(shí)別、理解人類文本語言的能力。包括語法語義分析、信息抽取、文本挖掘、信息檢索、機(jī)器翻譯等若干研究方向。其中的文本蘊(yùn)含識(shí)別((Textual Entailment )技術(shù)研究?jī)蓚€(gè)文本之間的語義推理關(guān)系,這種推理關(guān)系基于邏輯推演、基于相似度或文本轉(zhuǎn)換,或基于深度學(xué)習(xí)等算法,相關(guān)研究正在取得長(zhǎng)足進(jìn)步。目前,漢語語義知識(shí)庫已有足夠大的規(guī)模,通過深度學(xué)習(xí)技術(shù),詞向量(Word Embedding)、全卷積神經(jīng)網(wǎng)絡(luò)(Full Convolutional Neural Networks)等模型等都已經(jīng)被用于文本相似度的計(jì)算中,借此可以挖掘文本的潛在語義特征,過去知識(shí)庫建設(shè)過程中需要人工構(gòu)建特征的方式將逐步被機(jī)器所取代。伴隨語義知識(shí)庫規(guī)模的進(jìn)一步擴(kuò)充和相關(guān)特征的趨于完備,可以極大地提高語義比較和檢索的精確度,語義分析的實(shí)用性、可靠性將得到快速發(fā)展。在此基礎(chǔ)上,機(jī)器所作的文本分析,有可能產(chǎn)生某些人工所難以達(dá)到的效果。
由于古漢語的特殊性和古代文學(xué)文本的復(fù)雜性,將自然語言分析技術(shù)應(yīng)用于古代文學(xué)作品的分析和鑒賞也許仍將面臨若干困難。但是計(jì)算機(jī)專家和人文學(xué)者合作的步伐在加快,技術(shù)發(fā)展的內(nèi)在動(dòng)力和發(fā)展趨勢(shì)不以人的意志為轉(zhuǎn)移,數(shù)字人文研究前途可待、未來可期。
為便于理解,我們可以舉一個(gè)簡(jiǎn)單的例子。前引錢鍾書先生《宋詩選注》關(guān)于“綠”字的分析。我們有計(jì)算機(jī)的輔助,如王水照先生所言,當(dāng)能找出更多前人使用“綠”字的詩句,但遠(yuǎn)不能達(dá)到錢先生對(duì)藝術(shù)奧秘的把握。誠(chéng)然如此,而亦不盡然。問題不在于我們找出了多少使用“綠”字的詩詞,而是在大數(shù)據(jù)環(huán)境中,借助語義分析技術(shù),可以對(duì)“綠”字在不同語境、不同例句中的位置、詞性、情感特征、前后影響承繼關(guān)系等進(jìn)行分類統(tǒng)計(jì)。不僅可以統(tǒng)計(jì)唐詩中的例證,還可以對(duì)整部中國(guó)文學(xué)史上的所有詩、詞、曲、賦、銘、箴、贊、頌、歌、謠、變文、彈詞、鼓詞、寶卷等各種文體中使用“綠”字的情況進(jìn)行統(tǒng)計(jì)分析。我們也可以對(duì)有文獻(xiàn)記載以來所有使用色彩的字詞進(jìn)行統(tǒng)計(jì)分析,看看那些表示色彩的字詞如赤、橙、黃、綠、青、藍(lán)、紫,唐人運(yùn)用得如何,宋人運(yùn)用得如何,以及它們對(duì)于創(chuàng)作繽紛燦爛的唐詩或是深折瘦勁的宋詩究竟起到了什么作用。這些都是傳統(tǒng)人工研究方法所不能實(shí)現(xiàn)的。人工智能和人類智能在可預(yù)期的將來,未必不會(huì)如雙峰并峙,各顯身手。
因此,我們?cè)谡_評(píng)價(jià)錢鍾書先生在20世紀(jì)80年代對(duì)計(jì)算機(jī)的認(rèn)識(shí)、對(duì)人工智能的理解等方面所具的卓越思想之外,也應(yīng)認(rèn)識(shí)到,由于時(shí)代本身的局限性,造成錢鍾書先生關(guān)于人工智能的理解在今天看來顯示出某種偏頗或不足。我們必須把這個(gè)問題還原到當(dāng)時(shí)的歷史語境中去正確看待。此外,欒貴明團(tuán)隊(duì)開發(fā)的數(shù)據(jù)庫,按照錢先生建議,都是以公開出版物的形式即紙質(zhì)版向社會(huì)公布,固然有利于知識(shí)產(chǎn)權(quán)保護(hù),但是龐大的數(shù)據(jù)庫本身除個(gè)別時(shí)段曾被少量學(xué)者試用外,其廬山真面目學(xué)界一直未能得見。紙質(zhì)出版物其實(shí)是這種龐大數(shù)據(jù)庫的副產(chǎn)品,在網(wǎng)絡(luò)帶寬已經(jīng)不是問題、數(shù)據(jù)庫網(wǎng)絡(luò)保護(hù)技術(shù)比較成熟的今天,該數(shù)字工程的主體產(chǎn)品——那些建設(shè)多年的數(shù)據(jù)庫,一直未能為廣大學(xué)界和社會(huì)所使用,著實(shí)可惜。
今年是建國(guó)70周年,總結(jié)70年來尤其是改革開放以來的學(xué)科發(fā)展歷史和經(jīng)驗(yàn)教訓(xùn)是我們需要認(rèn)真面對(duì)的重要工作。筆者不揣淺陋,撰寫此篇小文,旨在從一個(gè)側(cè)面回顧20世紀(jì)以來信息技術(shù)對(duì)人文學(xué)科的巨大影響。在這個(gè)過程中,錢鍾書先生以敏銳而富有前瞻性的眼光,推動(dòng)指導(dǎo)了欒貴明等所從事的古典文獻(xiàn)數(shù)字化工程,其相關(guān)思想和建設(shè)經(jīng)驗(yàn),對(duì)于我們今天從事古籍?dāng)?shù)字化建設(shè)和數(shù)字人文研究仍具有重要啟示意義。